Kreuzvalidierungsformeln

Artikel
07/30/2013

Wenn Sie einen Kreuzvalidierungsbericht generieren, enthält dieser in Abhängigkeit des Miningmodelltyps (d. h. der zum Erstellen des Modells verwendet Algorithmus) Genauigkeitsmeasures für jedes Modell, den Datentyp des vorhersagbaren Attributs und ggf. den vorhersagbaren Attributwert.

In diesem Abschnitt werden die im Kreuzvalidierungsbericht verwendeten Measures aufgeführt und die Berechnungsmethode beschrieben.

Eine Aufteilung der Genauigkeitsmeasures je nach Modelltyp finden Sie unter Measures im Kreuzvalidierungsbericht.

Für Kreuzvalidierungsmeasures verwendete Formeln

Hinweis
Wichtig: Diese Genauigkeitsmeasures werden für jedes Zielattribut berechnet. Sie können für jedes Attribut einen Zielwert bestimmen oder weglassen. Wenn ein Fall in einem Dataset über keinen Wert für das Zielattribut verfügt, wird der Fall so behandelt, als hätte er einen Spezialwert, der als fehlender Wert bezeichnet wird. Zeilen, die fehlende Werte aufweisen, werden beim Berechnen des Genauigkeitsmeasures für ein bestimmtes Zielattribut nicht gezählt. Da die Ergebnisse für jedes Attribut einzeln berechnet werden, wird das Ergebnis für das Zielattribut nicht beeinflusst, wenn Werte für das Zielattribut, jedoch nicht für andere Attribute vorhanden sind.

Wichtig: Diese Genauigkeitsmeasures werden für jedes Zielattribut berechnet. Sie können für jedes Attribut einen Zielwert bestimmen oder weglassen. Wenn ein Fall in einem Dataset über keinen Wert für das Zielattribut verfügt, wird der Fall so behandelt, als hätte er einen Spezialwert, der als fehlender Wert bezeichnet wird. Zeilen, die fehlende Werte aufweisen, werden beim Berechnen des Genauigkeitsmeasures für ein bestimmtes Zielattribut nicht gezählt. Da die Ergebnisse für jedes Attribut einzeln berechnet werden, wird das Ergebnis für das Zielattribut nicht beeinflusst, wenn Werte für das Zielattribut, jedoch nicht für andere Attribute vorhanden sind.

Measure	Betrifft	Implementierung
Wahr positiv	Diskretes Attribut, Wert wird angegeben	Anzahl der Fälle, die diese Bedingungen erfüllen: Fall enthält den Zielwert. Modell hat vorhergesagt, dass der Fall den Zielwert enthält.
Wahr negativ	Diskretes Attribut, Wert wird angegeben	Anzahl der Fälle, die diese Bedingungen erfüllen: Fall enthält den Zielwert nicht. Modell hat vorhergesagt, dass der Fall den Zielwert nicht enthält.
Falsch positiv	Diskretes Attribut, Wert wird angegeben	Anzahl der Fälle, die diese Bedingungen erfüllen: Istwert ist gleich dem Zielwert. Modell hat vorhergesagt, dass der Fall den Zielwert enthält.
Falsch negativ	Diskretes Attribut, Wert wird angegeben	Anzahl der Fälle, die diese Bedingungen erfüllen: Istwert ist ungleich dem Zielwert. Modell hat vorhergesagt, dass der Fall den Zielwert nicht enthält.
Erfolgreich/Fehler	Diskretes Attribut, kein festgelegtes Ziel	Anzahl der Fälle, die diese Bedingungen erfüllen: Erfolgreich, wenn der vorhergesagte Status mit der höchsten Wahrscheinlichkeit gleich dem Eingabestatus ist und die Wahrscheinlichkeit größer als der Wert von Statusschwellenwert ist. Andernfalls fehlgeschlagen.
Prognosegüte	Diskretes Attribut. Zielwert kann angegeben werden, ist aber nicht erforderlich.	Die mittlere logarithmische Wahrscheinlichkeit für alle Zeilen mit Werten für das Zielattribut, wobei die logarithmische Wahrscheinlichkeit pro Fall als Log(ActualProbability/MarginalProbability) berechnet wird. Um den Mittelwert zu berechnen, wird die Summe der Protokollierungswahrscheinlichkeitswerte durch die Anzahl der Zeilen im Eingabedataset dividiert, wobei Zeilen mit fehlenden Werten für das Zielattribut ausgeschlossen werden. Als Prognosegüte kann ein negativer oder ein positiver Wert angegeben werden. Ein positiver Wert steht für ein effektives Modell, das die Zufallsvorhersage übertrifft.
Logarithmisches Ergebnis	Diskretes Attribut. Zielwert kann angegeben werden, ist aber nicht erforderlich.	Logarithmus der tatsächlichen Wahrscheinlichkeit für jeden Fall, summiert und dann dividiert durch die Anzahl von Zeilen im Eingabedataset, ohne die Zeilen mit fehlenden Werten für das Zielattribut. Da die Wahrscheinlichkeit als Dezimalbruch dargestellt wird, sind logarithmische Ergebnisse immer negative Zahlen. Je näher das Ergebnis an 0 liegt, desto besser ist es.
Fallwahrscheinlichkeit	Cluster	Summe der Clusterwahrscheinlichkeitsergebnisse für alle Fälle, dividiert durch die Anzahl der Fälle in der Partition, ohne die Zeilen mit fehlenden Werten für das Zielattribut.
Mittlerer absoluter Fehler	Kontinuierliches Attribut	Summe der absoluten Fehler für alle Fälle in der Partition, dividiert durch die Anzahl der Fälle in der Partition.
Wurzel des mittleren Fehlers zum Quadrat	Kontinuierliches Attribut	Quadratwurzel des mittleren Fehlers für die Partition zum Quadrat.
Wurzel des mittleren Fehlers zum Quadrat	Diskretes Attribut. Zielwert kann angegeben werden, ist aber nicht erforderlich.	Quadratwurzel des Mittelwerts der quadrierten Komplemente des Wahrscheinlichkeitsergebnisses, dividiert durch die Anzahl der Fälle in der Partition, ohne die Zeilen mit fehlenden Werten für das Zielattribut.
Wurzel des mittleren Fehlers zum Quadrat	Diskretes Attribut, kein festgelegtes Ziel	Quadratwurzel des Mittelwerts der quadrierten Komplemente des Wahrscheinlichkeitsergebnisses, dividiert durch die Anzahl der Fälle in der Partition, ohne die Fälle mit fehlenden Werten für das Zielattribut.

Siehe auch

Konzepte

Tests und Überprüfung (Data Mining)

Kreuzvalidierung (Analysis Services - Data Mining)

Kreuzvalidierungsformeln

Für Kreuzvalidierungsmeasures verwendete Formeln

Siehe auch

Konzepte

Zusätzliche Ressourcen