Artikel
03/30/2012

Klassifikationsmatrix (Analysis Services Data Mining)

Die Registerkarte Klassifikationsmatrix der Registerkarte Mininggenauigkeitsdiagramm im Data Mining-Designer zeigt eine Matrix für alle Modelle an, die Sie auf der Registerkarte Eingabeauswahl festlegen. Durch Anzeigen dieses Diagramms, das mitunter als Verwirrungsmatrix bezeichnet wird, können Sie rasch erkennen, wie häufig das Modell eine präzise Vorhersage geliefert hat.

Die Zeilen aller Matrizen stellen die vorhergesagten Werte für das Modell und die Spalten die Istwerte für das Modell dar. Die Klassifikationsmatrix wird erstellt, indem alle Fälle in Kategorien eingestuft werden: ob der vorhergesagte Wert mit dem tatsächlichen Wert übereinstimmte und ob der vorhergesagte Wert richtig oder falsch war. Diese Kategorien werden mitunter als falsch positiv, wahr positiv, falsch negativ und wahr negativ bezeichnet. Alle Fälle in jeder Kategorie werden dann gezählt und die Summen in der Matrix angezeigt.

In diesem Abschnitt wird erläutert, wie Sie eine Klassifikationsmatrix erstellen und die Ergebnisse interpretieren können.

Hinweis
Eine Klassifikationsmatrix kann nur mit diskreten vorhersagbaren Attributen verwendet werden.

Szenario

Greifen Sie auf das Modell zurück, das Sie während des Lernprogramm zu Data Mining-Grundlagen erstellt haben. Das TM_DecisionTree-Modell, mit dem eine Targeted Mailing-Kampagne erstellt wird, kann verwendet werden, um vorherzusagen, welche Kunden am ehesten ein Fahrrad kaufen werden. Wenn die Wahrscheinlichkeit, dass der Kunde ein Fahrrad kaufen wird, hoch ist, beträgt der Wert der Spalte [Bike Buyer] 1. Wenn der Kunde vermutlich kein Fahrrad kaufen wird, beträgt der Wert der Spalte [Bike Buyer] 0.

Um zu beurteilen, ob das Modell für Vorhersagen geeignet ist, testen Sie es anhand eines Datasets, für das die Werte für [Bike Buyer] bereits bekannt sind. Normalerweise verwenden Sie ein Testdataset, das Sie beim Erstellen der Miningstruktur reservieren, die zum Einrichten des Modells verwendet wird. Da diese Daten bereits die tatsächlichen Ergebnisse enthalten, können Sie relativ schnell ermitteln, wie häufig das Modell den erwarteten Wert vorhergesagt hat.

Grundlegendes zur Klassifikationsmatrix

Die folgende Tabelle enthält die Ergebnisse, wenn eine Klassifikationsmatrix für das TM_DecisionTree-Modell erstellt wird. Da es nur zwei mögliche Werte für das vorhersagbare Attribut gibt, nämlich 0 und 1, ist es relativ einfach zu bestimmen, wie oft das Modell eine richtige Vorhersage trifft.

Vorhergesagt	0 (Istwert)	1 (Istwert)
0	362	144
1	121	373

Die erste Ergebniszelle mit dem Wert 362 gibt die Anzahl von wahren positiven Ergebnissen für den Wert 0 an. Da 0 angibt, dass der Kunde kein Fahrrad gekauft hat, können Sie aus dieser Zahl ablesen, dass das Modell den korrekten Wert für Kunden, die keinen Kauf getätigt haben, in 362 Fällen vorhergesagt hat.

Die darunter liegende Zelle mit dem Wert 121 gibt die Anzahl an falschen positiven Ergebnissen an, d. h. wie oft das Modell vorhergesagt hat, dass ein Kunde ein Fahrrad kaufen würde, dieser Kauf dann aber nicht getätigt wurde.

Die Zelle mit dem Wert 144 gibt die Anzahl von falschen positiven Ergebnissen für den Wert 1 an. Da 1 bedeutet, dass der Kunde ein Fahrrad gekauft hat, können Sie aus dieser Zahl ablesen, dass das Modell in 144 Fällen vorhergesagt hat, dass ein Kunde kein Fahrrad kaufen würde, er dann den Kauf jedoch dennoch getätigt hat.

Die Zelle mit dem Wert 373 gibt die Anzahl von wahren positiven Ergebnissen für den Zielwert 1 an. Das heißt, das Modell hat in 373 Fällen korrekt vorhergesagt, dass jemand ein Fahrrad kaufen würde.

Wenn Sie die Werte in den Zellen, die diagonal gegenüber liegen, addieren, können Sie die Gesamtgenauigkeit des Modells bestimmen. Eine Diagonale zeigt die Gesamtanzahl korrekter Vorhersagen an, die andere Diagonale gibt die Gesamtanzahl falscher Vorhersagen an.

Verwenden von mehreren vorhersagbaren Werten

Der Fall [Bike Buyer] ist besonders leicht zu interpretieren, da es nur zwei mögliche Werte gibt. Wenn das vorhersagbare Attribut mehrere mögliche Werte hat, fügt die Klassifikationsmatrix eine neue Spalte für jeden möglichen Istwert hinzu und zählt dann die Anzahl der Übereinstimmungen für jeden vorhergesagten Wert. Die folgende Tabelle enthält die Ergebnisse für ein anderes Modell, in dem drei Werte (0, 1, 2) möglich sind.

Vorhergesagt	0 (Istwert)	1 (Istwert)	2 (Istwert)
0	111	3	5
1	2	123	17
2	19	0	20

Auch wenn der Bericht durch die zusätzlichen Spalten komplexer wird, können die zusätzlichen Angaben sehr nützlich sein, wenn Sie die Kosten einer falschen Vorhersage beurteilen möchten. Um Summen für die Diagonalen zu erstellen oder die Ergebnisse verschiedener Zeilenkombinationen zu vergleichen, klicken Sie auf der Registerkarte Klassifikationsmatrix auf die Schaltfläche Kopieren, und fügen Sie den Bericht in Excel ein. Sie können auch einen Client wie den Data Mining-Client für Excel verwenden, der sowohl SQL Server 2005 als auch SQL Server 2008 unterstützt, um direkt in Excel einen Klassifikationsbericht zu erstellen, der Zahlen und Prozentangaben enthält. Weitere Informationen finden Sie unter SQL Server Data Mining.

Erstellen einer Klassifikationsmatrix

Befolgen Sie beim Erstellen einer Klassifikationsmatrix die folgenden Schritte:

Klicken Sie im Mininggenauigkeitsdiagramm des Data Mining-Designers auf die Registerkarte Eingabeauswahl.
Wählen Sie auf der Registerkarte Eingabeauswahl ein Modell aus, das Sie auswerten möchten.
Legen Sie das vorhersagbare Attribut sowie optional den vorhersagbaren Wert fest.
Wählen Sie das Dataset aus, das bei der Auswertung verwendet werden soll.
Klicken Sie auf die Registerkarte Klassifikationsmatrix, um automatisch einen Bericht im Klassifikationsmatrixformat zu generieren.