Kreuzvalidierungsformeln

Gilt für: SQL Server 2019 und früheren Analysis Services Azure Analysis Services Fabric/Power BI Premium

Wichtig

Data Mining wurde in SQL Server 2017 Analysis Services als veraltet eingestuft und wurde jetzt in SQL Server 2022 Analysis Services eingestellt. Die Dokumentation wird für veraltete und eingestellte Features nicht aktualisiert. Weitere Informationen finden Sie unter Abwärtskompatibilität von Analysis Services.

Wenn Sie einen Kreuzvalidierungsbericht generieren, enthält dieser in Abhängigkeit des Miningmodelltyps (d.h. der zum Erstellen des Modells verwendet Algorithmus) Genauigkeitsmeasures für jedes Modell, den Datentyp des vorhersagbaren Attributs und ggf. den vorhersagbaren Attributwert.

In diesem Abschnitt werden die im Kreuzvalidierungsbericht verwendeten Measures aufgeführt und die Berechnungsmethode beschrieben.

Eine Aufschlüsselung der Genauigkeitsmeasures nach Modelltyp finden Sie unter Measures im Kreuzvalidierungsbericht.

Für Kreuzvalidierungsmeasures verwendete Formeln

Hinweis

Wichtig: Diese Genauigkeitsmeasures werden für jedes Zielattribut berechnet. Sie können für jedes Attribut einen Zielwert bestimmen oder weglassen. Wenn ein Fall in einem Dataset über keinen Wert für das Zielattribut verfügt, wird der Fall so behandelt, als hätte er einen Spezialwert, der als fehlender Wertbezeichnet wird. Zeilen, die fehlende Werte aufweisen, werden beim Berechnen des Genauigkeitsmeasures für ein bestimmtes Zielattribut nicht gezählt. Da die Ergebnisse für jedes Attribut einzeln berechnet werden, wird das Ergebnis für das Zielattribut nicht beeinflusst, wenn Werte für das Zielattribut, jedoch nicht für andere Attribute vorhanden sind.

"Measure" Gilt für Implementierung
Richtig positiv Diskretes Attribut, Wert wird angegeben Anzahl der Fälle, die diese Bedingungen erfüllen:

Fall enthält den Zielwert.

Modell hat vorhergesagt, dass der Fall den Zielwert enthält.
Richtig negativ Diskretes Attribut, Wert wird angegeben Anzahl der Fälle, die diese Bedingungen erfüllen:

Fall enthält den Zielwert nicht.

Modell hat vorhergesagt, dass der Fall den Zielwert nicht enthält.
Falsch positiv Diskretes Attribut, Wert wird angegeben Anzahl der Fälle, die diese Bedingungen erfüllen:

Tatsächlicher Wert ist gleich dem Zielwert.

Modell hat vorhergesagt, dass der Fall den Zielwert enthält.
Falsch negativ Diskretes Attribut, Wert wird angegeben Anzahl der Fälle, die diese Bedingungen erfüllen:

Tatsächlicher Wert ist ungleich dem Zielwert.

Modell hat vorhergesagt, dass der Fall den Zielwert nicht enthält.
Pass/Fail Diskretes Attribut, kein festgelegtes Ziel Anzahl der Fälle, die diese Bedingungen erfüllen:

Erfolgreich, wenn der vorhergesagte Status mit der höchsten Wahrscheinlichkeit gleich dem Eingabestatus ist und die Wahrscheinlichkeit größer als der Wert von Statusschwellenwertist.

Andernfalls fehlgeschlagen.
Lift Diskretes Attribut. Zielwert kann angegeben werden, ist aber nicht erforderlich. Die mittlere logarithmische Wahrscheinlichkeit für alle Zeilen mit Werten für das Zielattribut, wobei die logarithmische Wahrscheinlichkeit pro Fall als Log(ActualProbability/MarginalProbability) berechnet wird. Um den Mittelwert zu berechnen, wird die Summe der Protokollierungswahrscheinlichkeitswerte durch die Anzahl der Zeilen im Eingabedataset dividiert, wobei Zeilen mit fehlenden Werten für das Zielattribut ausgeschlossen werden.

Als Prognosegüte kann ein negativer oder ein positiver Wert angegeben werden. Ein positiver Wert steht für ein effektives Modell, das die Zufallsvorhersage übertrifft.
Protokollbewertung Diskretes Attribut. Zielwert kann angegeben werden, ist aber nicht erforderlich. Logarithmus der tatsächlichen Wahrscheinlichkeit für jeden Fall, summiert und dann dividiert durch die Anzahl von Zeilen im Eingabedataset, ohne die Zeilen mit fehlenden Werten für das Zielattribut.

Da die Wahrscheinlichkeit als Dezimalbruch dargestellt wird, sind logarithmische Ergebnisse immer negative Zahlen. Je näher das Ergebnis an 0 liegt, desto besser ist es.
Fallwahrscheinlichkeit Cluster Summe der Clusterwahrscheinlichkeitsergebnisse für alle Fälle, dividiert durch die Anzahl der Fälle in der Partition, ohne die Zeilen mit fehlenden Werten für das Zielattribut.
Mittlerer absoluter Fehler Kontinuierliches Attribut Summe der absoluten Fehler für alle Fälle in der Partition, dividiert durch die Anzahl der Fälle in der Partition.
Mittlerer Quadratfehler der Wurzel Kontinuierliches Attribut Quadratwurzel des mittleren Fehlers für die Partition zum Quadrat.
RMSE (Root Mean Squared Error = Wurzel der mittleren Fehlerquadratsumme) Diskretes Attribut. Zielwert kann angegeben werden, ist aber nicht erforderlich. Quadratwurzel des Mittelwerts der quadrierten Komplemente des Wahrscheinlichkeitsergebnisses, dividiert durch die Anzahl der Fälle in der Partition, ohne die Zeilen mit fehlenden Werten für das Zielattribut.
RMSE (Root Mean Squared Error = Wurzel der mittleren Fehlerquadratsumme) Diskretes Attribut, kein festgelegtes Ziel Quadratwurzel des Mittelwerts der quadrierten Komplemente des Wahrscheinlichkeitsergebnisses, dividiert durch die Anzahl der Fälle in der Partition, ohne die Fälle mit fehlenden Werten für das Zielattribut.

Weitere Informationen

Tests und Überprüfung (Data Mining)
Kreuzvalidierung (Analysis Services - Data Mining)