Überprüfen von Data Mining-Modellen
Sie können die Registerkarte Mininggenauigkeitsdiagramm des Data Mining-Designers verwenden, um die Genauigkeit der Miningmodelle und ihre Vorhersagefähigkeit in einer Miningstruktur zu überprüfen. Dies ist sinnvoll, wenn Sie nicht wissen, welchen Algorithmus sie verwenden müssen, oder wie Sie Parameter innerhalb eines individuellen Algorithmus anpassen.
Die Überprüfung ist ein wichtiger Schritt im Data Mining-Prozess. Sie sollten wissen, welche Leistung Ihre Miningmodelle mit echten Daten erzielen, bevor Sie die Modelle in Ihrer Produktionsumgebung bereitstellen. Weitere Informationen dazu, wie Modellüberprüfungen in den größeren Data Mining-Prozess eingebunden werden können, finden Sie unter Data Mining-Konzepte.
Überprüfungstools
Die Registerkarte Mininggenauigkeitsdiagramm stellt die folgenden Tools für die Überprüfung von Miningmodellen bereit:
- Liftdiagramm
- Klassifikationsmatrix
Liftdiagramm
Ein Liftdiagramm wird erstellt, indem Sie die Ergebnisse von Vorhersageabfragen aus einem Testdatensatz mit bekannten Werten für die im Dataset vorhandene vorhersagbare Spalte grafisch vergleichen. Das folgende Diagramm zeigt ein Beispiel für diesen Diagrammtyp.
Das Diagramm zeigt neben der Linie für die Ergebnisse des Miningmodells zwei weitere Linien an. Eine davon stellt die Ergebnisse dar, die ein ideales Modell produzieren würde, das perfekte Voraussagen trifft, die nie falsch sind, während die andere Linie die Ergebnisse zufälliger Schätzungen darstellt. Die Ergebnisse Ihrer Modelle werden sich irgendwo zwischen denen des idealen Modells und der zufälligen Schätzung bewegen. Jede Verbesserung über der Zufallslinie wird Lift genannt. Je mehr Lift das Modell zeigt, desto effektiver ist es.
Liftdiagramme, die aus kontinuierlichen vorhersagbaren Attributen bestehen, zeigen statt Linien ein Punktdiagramm an.
Um ein Liftdiagramm zu implementieren, benötigen Sie Folgendes:
- Mindestens ein trainiertes Miningmodell
- Ein Eingabedataset, das einen Wert für die vorhersagbare Spalte enthält
- Eine Zuordnung zwischen den Eingabedaten und der Struktur des Miningmodells
Weitere Informationen finden Sie unter Vorgehensweisen zum Mininggenauigkeitsdiagramm, Spaltenzuordnungen (Liftdiagramm), Liftdiagramm
Zurück zum Anfang
Klassifikationsmatrix
Die Registerkarte Klassifikationsmatrix bietet eine weitere Möglichkeit, die Genauigkeit der Vorhersagen von Miningmodellen in einer Struktur zu untersuchen. Eine Klassifikationsmatrix ist konzipiert als ein Vergleich zwischen tatsächlichen Werte aus einem Testdataset und Werten, die das Miningmodell vorhersagt. Die Matrix ist ein wichtiges Tool, da sie nicht nur die Häufigkeit anzeigt, mit der ein Wert von einem Modell richtig vorhergesagt worden ist, sondern auch, welche anderen Werte das Modell am häufigsten falsch vorhergesagt hat.
Nehmen wir an, Sie haben ein Modell erstellt, um den Mitgliedskartentyp vorherzusagen, den Kunden in einem Lebensmittelgeschäft verwenden. Die Karte gibt es in drei Ausführungen: in Bronze, Silber und Gold. Die folgende Tabelle stellt eine Klassifikationsmatrix für ein Modell dar, das die Mitgliedskartenwerte in einer Testdatenbank vorhersagt, in der der Mitgliedskartenwert bekannt ist.
Bronze | Silber | Gold | |
---|---|---|---|
Bronze |
Tatsächlich |
Fehler für Bronze |
Fehler für Bronze |
Silber |
Fehler für Silber |
Tatsächlich |
Fehler für Silber |
Gold |
Fehler für Gold |
Fehler für Gold |
Tatsächlich |
Die Werte, die in der Matrix diagonal von oben links nach unten rechts verlaufen, stellt die richtige Anzahl der im Testdataset vorhandenen Werte dar. Spalten in der Matrix stellen Elemente dar, die im Testdataset vorhergesagt worden sind. Zeilen stellen den tatsächlichen Status des Attributs dar, wie es im Testdataset vorhanden ist.
Betrachten Sie beispielsweise, wie das Miningmodell Kunden vorhergesagt hat, die eine bronzene Karte haben. Der Wert der Schnittmenge der Spalte Bronze und der Zeile Bronze stellt die tatsächliche Anzahl der Kunden in den Testdatenbanken dar, die eine bronzene Karte hatten. Der Wert der Schnittmenge der Spalte Silbern und der Zeile Bronze würde die Zahl der Fälle darstellen, die fälschlicherweise als Silbern vorhergesagt wurden, tatsächlich aber Bronze waren. Die Anzahl falsch vorhergesagter Werte für Bronze wäre die Summe der Schnittmenge der Spalte Bronze und der Zeile Silber sowie der Spalte Bronze und der Zeile Gold. Die gleiche Analyse trifft auf die anderen Kartentypen zu.
Weitere Informationen finden Sie unter Vorgehensweisen zum Mininggenauigkeitsdiagramm, Spaltenzuordnungen (Liftdiagramm), Klassifikationsmatrix
Zurück zum Anfang
Siehe auch
Konzepte
Verwenden der Data Mining-Tools
Data Mining-Konzepte
Verwenden von Data Mining
Andere Ressourcen
Vorgehensweisen zum Mininggenauigkeitsdiagramm