Kreuzvalidierungsformeln

Wenn Sie einen Kreuzvalidierungsbericht generieren, enthält dieser in Abhängigkeit des Miningmodelltyps (d. h. der zum Erstellen des Modells verwendet Algorithmus) Genauigkeitsmeasures für jedes Modell, den Datentyp des vorhersagbaren Attributs und ggf. den vorhersagbaren Attributwert.

In diesem Abschnitt werden die im Kreuzvalidierungsbericht verwendeten Measures aufgeführt und die Berechnungsmethode beschrieben.

Eine Aufteilung der Genauigkeitsmeasures je nach Modelltyp finden Sie unter Measures im Kreuzvalidierungsbericht.

Für Kreuzvalidierungsmeasures verwendete Formeln

HinweisHinweis

Wichtig: Diese Genauigkeitsmeasures werden für jedes Zielattribut berechnet. Sie können für jedes Attribut einen Zielwert bestimmen oder weglassen. Wenn ein Fall in einem Dataset über keinen Wert für das Zielattribut verfügt, wird der Fall so behandelt, als hätte er einen Spezialwert, der als fehlender Wert bezeichnet wird. Zeilen, die fehlende Werte aufweisen, werden beim Berechnen des Genauigkeitsmeasures für ein bestimmtes Zielattribut nicht gezählt. Da die Ergebnisse für jedes Attribut einzeln berechnet werden, wird das Ergebnis für das Zielattribut nicht beeinflusst, wenn Werte für das Zielattribut, jedoch nicht für andere Attribute vorhanden sind.

Measure

Betrifft

Implementierung

Wahr positiv

Diskretes Attribut, Wert wird angegeben

Anzahl der Fälle, die diese Bedingungen erfüllen:

  • Fall enthält den Zielwert.

  • Modell hat vorhergesagt, dass der Fall den Zielwert enthält.

Wahr negativ

Diskretes Attribut, Wert wird angegeben

Anzahl der Fälle, die diese Bedingungen erfüllen:

  • Fall enthält den Zielwert nicht.

  • Modell hat vorhergesagt, dass der Fall den Zielwert nicht enthält.

Falsch positiv

Diskretes Attribut, Wert wird angegeben

Anzahl der Fälle, die diese Bedingungen erfüllen:

  • Istwert ist gleich dem Zielwert.

  • Modell hat vorhergesagt, dass der Fall den Zielwert enthält.

Falsch negativ

Diskretes Attribut, Wert wird angegeben

Anzahl der Fälle, die diese Bedingungen erfüllen:

  • Istwert ist ungleich dem Zielwert.

  • Modell hat vorhergesagt, dass der Fall den Zielwert nicht enthält.

Erfolgreich/Fehler

Diskretes Attribut, kein festgelegtes Ziel

Anzahl der Fälle, die diese Bedingungen erfüllen:

  • Erfolgreich, wenn der vorhergesagte Status mit der höchsten Wahrscheinlichkeit gleich dem Eingabestatus ist und die Wahrscheinlichkeit größer als der Wert von Statusschwellenwert ist.

  • Andernfalls fehlgeschlagen.

Prognosegüte

Diskretes Attribut. Zielwert kann angegeben werden, ist aber nicht erforderlich.

Die mittlere logarithmische Wahrscheinlichkeit für alle Zeilen mit Werten für das Zielattribut, wobei die logarithmische Wahrscheinlichkeit pro Fall als Log(ActualProbability/MarginalProbability) berechnet wird. Um den Mittelwert zu berechnen, wird die Summe der Protokollierungswahrscheinlichkeitswerte durch die Anzahl der Zeilen im Eingabedataset dividiert, wobei Zeilen mit fehlenden Werten für das Zielattribut ausgeschlossen werden.

Als Prognosegüte kann ein negativer oder ein positiver Wert angegeben werden. Ein positiver Wert steht für ein effektives Modell, das die Zufallsvorhersage übertrifft.

Logarithmisches Ergebnis

Diskretes Attribut. Zielwert kann angegeben werden, ist aber nicht erforderlich.

Logarithmus der tatsächlichen Wahrscheinlichkeit für jeden Fall, summiert und dann dividiert durch die Anzahl von Zeilen im Eingabedataset, ohne die Zeilen mit fehlenden Werten für das Zielattribut.

Da die Wahrscheinlichkeit als Dezimalbruch dargestellt wird, sind logarithmische Ergebnisse immer negative Zahlen. Je näher das Ergebnis an 0 liegt, desto besser ist es.

Fallwahrscheinlichkeit

Cluster

Summe der Clusterwahrscheinlichkeitsergebnisse für alle Fälle, dividiert durch die Anzahl der Fälle in der Partition, ohne die Zeilen mit fehlenden Werten für das Zielattribut.

Mittlerer absoluter Fehler

Kontinuierliches Attribut

Summe der absoluten Fehler für alle Fälle in der Partition, dividiert durch die Anzahl der Fälle in der Partition.

Wurzel des mittleren Fehlers zum Quadrat

Kontinuierliches Attribut

Quadratwurzel des mittleren Fehlers für die Partition zum Quadrat.

Wurzel des mittleren Fehlers zum Quadrat

Diskretes Attribut. Zielwert kann angegeben werden, ist aber nicht erforderlich.

Quadratwurzel des Mittelwerts der quadrierten Komplemente des Wahrscheinlichkeitsergebnisses, dividiert durch die Anzahl der Fälle in der Partition, ohne die Zeilen mit fehlenden Werten für das Zielattribut.

Wurzel des mittleren Fehlers zum Quadrat

Diskretes Attribut, kein festgelegtes Ziel

Quadratwurzel des Mittelwerts der quadrierten Komplemente des Wahrscheinlichkeitsergebnisses, dividiert durch die Anzahl der Fälle in der Partition, ohne die Fälle mit fehlenden Werten für das Zielattribut.

Siehe auch

Konzepte

Tests und Überprüfung (Data Mining)

Kreuzvalidierung (Analysis Services - Data Mining)