Überprüfen von Data Mining-Modellen

Artikel
12/15/2008

Sie können die Registerkarte Mininggenauigkeitsdiagramm des Data Mining-Designers verwenden, um die Genauigkeit der Miningmodelle und ihre Vorhersagefähigkeit in einer Miningstruktur zu überprüfen. Dies ist sinnvoll, wenn Sie nicht wissen, welchen Algorithmus sie verwenden müssen, oder wie Sie Parameter innerhalb eines individuellen Algorithmus anpassen.

Die Überprüfung ist ein wichtiger Schritt im Data Mining-Prozess. Sie sollten wissen, welche Leistung Ihre Miningmodelle mit echten Daten erzielen, bevor Sie die Modelle in Ihrer Produktionsumgebung bereitstellen. Weitere Informationen dazu, wie Modellüberprüfungen in den größeren Data Mining-Prozess eingebunden werden können, finden Sie unter Data Mining-Konzepte.

Überprüfungstools

Die Registerkarte Mininggenauigkeitsdiagramm stellt die folgenden Tools für die Überprüfung von Miningmodellen bereit:

Liftdiagramm
Klassifikationsmatrix

Liftdiagramm

Ein Liftdiagramm wird erstellt, indem Sie die Ergebnisse von Vorhersageabfragen aus einem Testdatensatz mit bekannten Werten für die im Dataset vorhandene vorhersagbare Spalte grafisch vergleichen. Das folgende Diagramm zeigt ein Beispiel für diesen Diagrammtyp.

Liftdiagramm mit Ziel- und Gesamtauffüllung im Vergleich

Das Diagramm zeigt neben der Linie für die Ergebnisse des Miningmodells zwei weitere Linien an. Eine davon stellt die Ergebnisse dar, die ein ideales Modell produzieren würde, das perfekte Voraussagen trifft, die nie falsch sind, während die andere Linie die Ergebnisse zufälliger Schätzungen darstellt. Die Ergebnisse Ihrer Modelle werden sich irgendwo zwischen denen des idealen Modells und der zufälligen Schätzung bewegen. Jede Verbesserung über der Zufallslinie wird Lift genannt. Je mehr Lift das Modell zeigt, desto effektiver ist es.

Liftdiagramme, die aus kontinuierlichen vorhersagbaren Attributen bestehen, zeigen statt Linien ein Punktdiagramm an.

Um ein Liftdiagramm zu implementieren, benötigen Sie Folgendes:

Mindestens ein trainiertes Miningmodell
Ein Eingabedataset, das einen Wert für die vorhersagbare Spalte enthält
Eine Zuordnung zwischen den Eingabedaten und der Struktur des Miningmodells

Weitere Informationen finden Sie unter Vorgehensweisen zum Mininggenauigkeitsdiagramm, Spaltenzuordnungen (Liftdiagramm), Liftdiagramm

Zurück zum Anfang

Klassifikationsmatrix

Die Registerkarte Klassifikationsmatrix bietet eine weitere Möglichkeit, die Genauigkeit der Vorhersagen von Miningmodellen in einer Struktur zu untersuchen. Eine Klassifikationsmatrix ist konzipiert als ein Vergleich zwischen tatsächlichen Werte aus einem Testdataset und Werten, die das Miningmodell vorhersagt. Die Matrix ist ein wichtiges Tool, da sie nicht nur die Häufigkeit anzeigt, mit der ein Wert von einem Modell richtig vorhergesagt worden ist, sondern auch, welche anderen Werte das Modell am häufigsten falsch vorhergesagt hat.

Nehmen wir an, Sie haben ein Modell erstellt, um den Mitgliedskartentyp vorherzusagen, den Kunden in einem Lebensmittelgeschäft verwenden. Die Karte gibt es in drei Ausführungen: in Bronze, Silber und Gold. Die folgende Tabelle stellt eine Klassifikationsmatrix für ein Modell dar, das die Mitgliedskartenwerte in einer Testdatenbank vorhersagt, in der der Mitgliedskartenwert bekannt ist.

	Bronze	Silber	Gold
Bronze	Tatsächlich	Fehler für Bronze	Fehler für Bronze
Silber	Fehler für Silber	Tatsächlich	Fehler für Silber
Gold	Fehler für Gold	Fehler für Gold	Tatsächlich

Die Werte, die in der Matrix diagonal von oben links nach unten rechts verlaufen, stellt die richtige Anzahl der im Testdataset vorhandenen Werte dar. Spalten in der Matrix stellen Elemente dar, die im Testdataset vorhergesagt worden sind. Zeilen stellen den tatsächlichen Status des Attributs dar, wie es im Testdataset vorhanden ist.

Betrachten Sie beispielsweise, wie das Miningmodell Kunden vorhergesagt hat, die eine bronzene Karte haben. Der Wert der Schnittmenge der Spalte Bronze und der Zeile Bronze stellt die tatsächliche Anzahl der Kunden in den Testdatenbanken dar, die eine bronzene Karte hatten. Der Wert der Schnittmenge der Spalte Silbern und der Zeile Bronze würde die Zahl der Fälle darstellen, die fälschlicherweise als Silbern vorhergesagt wurden, tatsächlich aber Bronze waren. Die Anzahl falsch vorhergesagter Werte für Bronze wäre die Summe der Schnittmenge der Spalte Bronze und der Zeile Silber sowie der Spalte Bronze und der Zeile Gold. Die gleiche Analyse trifft auf die anderen Kartentypen zu.

Weitere Informationen finden Sie unter Vorgehensweisen zum Mininggenauigkeitsdiagramm, Spaltenzuordnungen (Liftdiagramm), Klassifikationsmatrix

Zurück zum Anfang

Siehe auch

Überprüfen von Data Mining-Modellen

Überprüfungstools

Liftdiagramm

Klassifikationsmatrix

Siehe auch

Konzepte

Andere Ressourcen

Hilfe und Informationen

Zusätzliche Ressourcen