Measures im Kreuzvalidierungsbericht

Gilt für: SQL Server 2019 und früheren Analysis Services Azure Analysis Services Fabric/Power BI Premium

Wichtig

Data Mining wurde in SQL Server 2017 Analysis Services als veraltet eingestuft und wurde jetzt in SQL Server 2022 Analysis Services eingestellt. Die Dokumentation wird für veraltete und eingestellte Features nicht aktualisiert. Weitere Informationen finden Sie unter Abwärtskompatibilität von Analysis Services.

Während der Kreuzvalidierung unterteilt SQL Server Analysis Services die Daten in einer Miningstruktur in mehrere Querschnitte und testet dann iterativ die Struktur und alle zugehörigen Miningmodelle. Auf Grundlage dieser Analyse wird eine Reihe standardmäßiger Genauigkeitsmeasures für die Struktur und jedes Modell ausgegeben.

Der Bericht enthält einige grundlegende Informationen über die Anzahl der Folds in den Daten sowie die Menge der Daten in jeder Aufteilung sowie einen Satz allgemeiner Metriken zur Beschreibung der Datenverteilung. Sie können die Zuverlässigkeit der Struktur oder des Modells bewerten, indem Sie die allgemeinen Metriken für jeden Querschnitt vergleichen.

SQL Server Analysis Services zeigt auch eine Reihe detaillierter Measures für Miningmodelle an. Diese Measures hängen vom Modelltyp und dem Typ des analysierten Attributs ab, beispielsweise davon, ob es sich um ein diskretes oder kontinuierliches Attribut handelt.

Dieser Abschnitt enthält eine Liste der im Kreuzvalidierungsbericht aufgeführten Measures sowie Erläuterungen zu deren Bedeutung. Ausführliche Informationen zur Berechnung der einzelnen Measures finden Sie unter Kreuzvalidierungsformeln.

Liste der Measures im Kreuzvalidierungsbericht

In der folgenden Tabelle sind die Measures aufgelistet, die im Kreuzvalidierungsbericht angezeigt werden. Die Measures werden nach dem Testtypgruppiert, der in der linken Spalte der folgenden Tabelle angegeben ist. In der rechten Spalte ist der Name des Measures, so wie im Bericht angezeigt, und eine kurze Erläuterung zu dessen Bedeutung enthalten.

Testtyp Measures und Beschreibungen
Clustering Auf Clustermodelle anwendbare Measures
Fallwahrscheinlichkeit:
Dieses Measure gibt normalerweise an, wie wahrscheinlich es ist, dass ein Fall einem bestimmten Cluster angehört. Bei der Kreuzvalidierung werden die Ergebnisse addiert und dann durch die Anzahl der Fälle dividiert, sodass das Ergebnis in diesem Fall einer durchschnittlichen Fallwahrscheinlichkeit entspricht.
Klassifizierung Auf Klassifizierungsmodelle anwendbare Measures
True Positive/True Negativ/Falsch positiv/Falsch negativ:

Anzahl der Zeilen oder Werte in der Partition, in denen der vorhergesagte Status mit dem Zielstatus übereinstimmt und die Vorhersagewahrscheinlichkeit höher als der angegebene Schwellenwert ist.

Fälle mit fehlenden Werten für das Zielattribut werden ausgeschlossen. Dies bedeutet, dass die Anzahl sämtlicher Werte u. U. nicht mit der ursprünglichen Summe übereinstimmt.
Pass/Fail( Pass/Fail):
Anzahl der Zeilen oder Werte in der Partition, in denen der vorhergesagte Status mit dem Zielstatus übereinstimmt und der Vorhersagewahrscheinlichkeitswert größer als 0 ist.
Wahrscheinlichkeit Wahrscheinlichkeitsmeasures können auf mehrere Modelltypen angewendet werden.
Lift:
Das Verhältnis der tatsächlichen Vorhersagewahrscheinlichkeit zur Randwahrscheinlichkeit in den Testfällen. Zeilen mit fehlenden Werten für das Zielattribut werden ausgeschlossen.

Dieses Measure gibt normalerweise den Grad an, um den sich die Wahrscheinlichkeit des Zielergebnisses verbessert, wenn das Modell verwendet wird.
Root Mean Square Error(Mittleres Quadratfehler):
Quadratwurzel des mittleren Fehlers für alle Partitionsfälle geteilt durch die Anzahl der Fälle in der Partition ohne die Zeilen mit fehlenden Werten für das Zielattribut.

RMSE ist eine bekannte Schätzfunktion für Vorhersagemodelle. Im Ergebnis werden die Restwerte für jeden Fall gemittelt, wodurch sich ein einzelner Indikator für den Modellfehler ergibt.
Protokollbewertung:
Der Logarithmus der tatsächlichen Wahrscheinlichkeit für jeden Fall, summiert und dann dividiert durch die Anzahl von Zeilen im Eingabedataset, ohne die Zeilen mit fehlenden Werten für das Zielattribut.

Da die Wahrscheinlichkeit als Dezimalbruch dargestellt wird, sind logarithmische Ergebnisse immer negative Zahlen. Eine Zahl, die näher bei 0 liegt, ist ein besseres Ergebnis. Während Rohergebnisse sehr unregelmäßige oder verfälschte Verteilungen aufweisen können, ist ein logarithmisches Ergebnis einem Prozentwert ähnlich.
Schätzung Measures, die nur auf Schätzungsmodelle angewendet werden, die ein kontinuierliches numerisches Attribut vorhersagen.
Root Mean Square Error(Mittleres Quadratfehler):
Durchschnittliche Abweichung, wenn der vorhergesagte Wert mit dem Istwert verglichen wird.

RMSE ist eine bekannte Schätzfunktion für Vorhersagemodelle. Im Ergebnis werden die Restwerte für jeden Fall gemittelt, wodurch sich ein einzelner Indikator für den Modellfehler ergibt.
Mittlerer absoluter Fehler:
Durchschnittliche Abweichung, wenn vorhergesagte Werte mit Istwerten verglichen werden, berechnet als Mittelwert der absoluten Summe der Fehler.

Mithilfe des mittleren absoluten Fehlers lässt sich einfacher verdeutlichen, wie nahe die Vorhersagen und die Istwerte insgesamt beieinander liegen. Ein kleineres Ergebnis bedeutet, dass die Vorhersagen genauer waren.
Protokollbewertung:
Der Logarithmus der tatsächlichen Wahrscheinlichkeit für jeden Fall, summiert und dann dividiert durch die Anzahl von Zeilen im Eingabedataset, ohne die Zeilen mit fehlenden Werten für das Zielattribut.

Da die Wahrscheinlichkeit als Dezimalbruch dargestellt wird, sind logarithmische Ergebnisse immer negative Zahlen. Eine Zahl, die näher bei 0 liegt, ist ein besseres Ergebnis. Während Rohergebnisse sehr unregelmäßige oder verfälschte Verteilungen aufweisen können, ist ein logarithmisches Ergebnis einem Prozentwert ähnlich.
Aggregate: Aggregierte Measures geben die Varianz in den Ergebnissen für jede Partition an.
Mittelwert:
Mittelwert der Partitionswerte für ein bestimmtes Measure.
Standardabweichung:
Durchschnitt der Abweichung vom Mittelwert für ein bestimmtes Measure für alle Partitionen in einem Modell.

Bei der Kreuzvalidierung impliziert ein höherer Wert für dieses Ergebnis eine erhebliche Variation zwischen den Folds.

Weitere Informationen

Tests und Überprüfung (Data Mining)