Klassifikationsmatrix (Analysis Services Data Mining)

Gilt für: SQL Server 2019 und früher Analysis Services Azure Analysis Services Fabric/Power BI Premium

Wichtig

Data Mining wurde in SQL Server 2017 Analysis Services als veraltet eingestuft und wurde jetzt in SQL Server 2022 Analysis Services eingestellt. Die Dokumentation wird für veraltete und eingestellte Features nicht aktualisiert. Weitere Informationen finden Sie unter Abwärtskompatibilität von Analysis Services.

In einer Klassifikationsmatrix werden alle im Modell enthaltenen Fälle in Kategorien unterteilt. Dabei wird festgestellt, ob der vorhergesagte Wert mit dem Istwert übereinstimmt. Alle Fälle in jeder Kategorie werden dann gezählt und die Summen in der Matrix angezeigt. Die Klassifikationsmatrix ist ein Standardtool für die Auswertung statistischer Modelle und auch unter dem Namen Verwirrungsmatrixbekannt.

In dem Diagramm, das bei Auswahl der Klassifikationsmatrix erstellt wird, werden die Istwerte für jeden angegebenen, vorhergesagten Status mit den vorhergesagten Werten verglichen. Durch die Zeilen der Matrix werden die vorhergesagten Werte und durch die Spalten die Istwerte des Modells dargestellt. In der Analyse werden die folgenden Kategorien verwendet: falsch positiv, wahr positiv, falsch negativund wahr negativ.

Eine Klassifikationsmatrix ist ein wichtiges Tool, um die Ergebnisse der Vorhersage zu bewerten. Sie erleichtert das Verständnis der Vorhersagen, und die Auswirkungen falscher Vorhersagen sind leichter erkennbar. Mithilfe des Betrags und der Prozentsätze in den einzelnen Zellen der Matrix erkennen Sie auf Anhieb, wie häufig das Modell eine genaue Vorhersage getroffen hat.

In diesem Abschnitt wird erläutert, wie Sie eine Klassifikationsmatrix erstellen und die Ergebnisse interpretieren können.

Grundlegendes zur Klassifikationsmatrix

Das erstellte Modell ist ein Teil des Lernprogramms zu den Data Mining-Grundlagen. Mit dem [TM_DecisionTree]-Modell, das die Erstellung einer Targeted Mailing-Kampagne erleichtert, kann vorhergesagt werden, welche Kunden am ehesten ein Fahrrad kaufen werden. Um die erwartete Brauchbarkeit dieses Modells zu testen, verwenden Sie ein Dataset, für das die Werte der Ergebnisattributs, [Bike Buyer], bereits bekannt sind. Normalerweise verwenden Sie ein Testdataset, das Sie beim Erstellen der Miningstruktur zum Trainieren des Modells reserviert haben.

Es gibt nur zwei mögliche Ergebnisse: Ja (der Kunde kauft wahrscheinlich ein Fahrrad), und Nein (der Kunde kauft wahrscheinlich kein Fahrrad). Die resultierende Klassifikationsmatrix ist daher relativ einfach.

Interpretieren der Ergebnisse

Die folgende Tabelle enthält die Klassifikationsmatrix für das TM_DecisionTree-Modell. Bedenken Sie bei diesem vorhersagbaren Attribut, dass 0 Nein und 1 Ja bedeutet.

Vorhergesagt 0 (Ist-Wert) 1 (Ist-Wert)
0 362 144
1 121 373

Die erste Ergebniszelle mit dem Wert 362 gibt die Anzahl von wahren positiven Ergebnissen für den Wert 0 an. Da 0 angibt, dass der Kunde kein Fahrrad gekauft hat, können Sie aus dieser Zahl ablesen, dass das Modell den korrekten Wert für Kunden, die keinen Kauf getätigt haben, in 362 Fällen vorhergesagt hat.

Die darunter liegende Zelle mit dem Wert 121 gibt die Anzahl an falschen positivenErgebnissen an, d. h. wie oft das Modell vorhergesagt hat, dass ein Kunde ein Fahrrad kaufen würde, dieser Kauf dann aber nicht getätigt wurde.

Die Zelle mit dem Wert 144 gibt die Anzahl von falschen positiven Ergebnissen für den Wert 1 an. Da 1 bedeutet, dass der Kunde ein Fahrrad gekauft hat, können Sie aus dieser Zahl ablesen, dass das Modell in 144 Fällen vorhergesagt hat, dass ein Kunde kein Fahrrad kaufen würde, er dann den Kauf jedoch dennoch getätigt hat.

Die Zelle mit dem Wert 373 gibt die Anzahl von wahren positiven Ergebnissen für den Zielwert 1 an. Das heißt, das Modell hat in 373 Fällen korrekt vorhergesagt, dass jemand ein Fahrrad kaufen würde.

Wenn Sie die Werte in den Zellen, die diagonal gegenüber liegen, addieren, können Sie die Gesamtgenauigkeit des Modells bestimmen. Eine Diagonale zeigt die Gesamtanzahl korrekter Vorhersagen an, die andere Diagonale gibt die Gesamtanzahl falscher Vorhersagen an.

Verwenden von mehreren vorhersagbaren Werten

Der Fall [Bike Buyer] ist besonders leicht zu interpretieren, da es nur zwei mögliche Werte gibt. Wenn das vorhersagbare Attribut mehrere mögliche Werte hat, fügt die Klassifikationsmatrix eine neue Spalte für jeden möglichen Istwert hinzu und zählt dann die Anzahl der Übereinstimmungen für jeden vorhergesagten Wert. Die folgende Tabelle enthält die Ergebnisse für ein anderes Modell, in dem drei Werte (0, 1, 2) möglich sind.

Vorhergesagt 0 (Ist-Wert) 1 (Ist-Wert) 2 (Istwert)
0 111 3 5
1 2 123 17
2 19 0 20

Auch wenn der Bericht durch die zusätzlichen Spalten komplexer wird, können die zusätzlichen Angaben sehr nützlich sein, wenn Sie die kumulierten Kosten einer falschen Vorhersage beurteilen möchten. Um Summen für die Diagonalen zu erstellen oder die Ergebnisse verschiedener Zeilenkombinationen zu vergleichen, klicken Sie auf der Registerkarte Klassifikationsmatrix auf die Schaltfläche Kopieren , und fügen Sie den Bericht in Excel ein. Alternativ können Sie einen Client wie den Data Mining-Client für Excel verwenden, der SQL Server 2005 (9.x) und höhere Versionen unterstützt, um einen Klassifizierungsbericht direkt in Excel zu erstellen, der sowohl Zählungen als auch Prozentwerte enthält. Weitere Informationen finden Sie unter SQL Server Data Mining.

Einschränkungen der Klassifikationsmatrix

Eine Klassifikationsmatrix kann nur mit diskreten vorhersagbaren Attributen verwendet werden.

Obwohl Sie bei der Modellauswahl auf der Registerkarte Eingabeauswahl im Mininggenauigkeitsdiagramm -Designer mehrere Modelle hinzufügen können, wird auf der Registerkarte Klassifikationsmatrix eine separate Matrix für jedes Modell angezeigt.

Die folgenden Themen enthalten weitere Informationen zum Erstellen und Verwenden von Klassifikationsmatrizen und weiteren Diagrammen.

Themen Links
Erläutert verwandte Diagrammtypen. Prognosegütediagramm (Analysis Services – Data Mining)

Gewinndiagramm (Analysis Services – Data Mining)

Punktdiagramm (Analysis Services – Data Mining)
Beschreibt die Verwendungsmöglichkeiten für die Kreuzvalidierung bei Miningmodellen und Miningstrukturen. Kreuzvalidierung (Analysis Services - Data Mining)
Beschreibt Schritte zum Erstellen von Prognosegütediagrammen und anderen Genauigkeitsdiagrammen. Tasks und Anweisungen für Test und Überprüfung (Data Mining)

Weitere Informationen

Tests und Überprüfung (Data Mining)