Übergreifende Überprüfung (Analysis Services - Data Mining)

Die Kreuzvalidierung ist ein Standardtool bei der Analyse und eine wichtige Funktion, die Sie bei der Entwicklung und Feinabstimmung von Data Mining-Modellen unterstützt. Sie verwenden die übergreifende Überprüfung, nachdem Sie eine Miningstruktur und zugehörige Miningmodelle erstellt haben, um die Gültigkeit des Modells sicherzustellen. Die übergreifende Überprüfung verfügt über die folgenden Anwendungen:

  • Überprüfen der Stabilität eines bestimmten Miningmodells

  • Auswerten von mehreren Modellen von einer einzelnen Anweisung

  • Erstellen von mehreren Modellen und Ermitteln des besten Modells auf Grundlage der Statistik

In diesem Abschnitt wird die Verwendung der in SQL Server 2008 enthaltenen Funktionen für die Kreuzvalidierung erläutert. Des Weiteren werden die Ergebnisse der Kreuzvalidierung für ein bestimmtes Modell oder Dataset interpretiert. Sie können die Kreuzvalidierung als Satz von gespeicherten Prozeduren ausführen. Sie können auch die übergreifende Überprüfung aus Data Mining-Designer in Business Intelligence Development Studio verwenden.

Übersicht über den Prozess der übergreifenden Überprüfung

Die übergreifende Überprüfung besteht aus zwei Phasen: Training und Ergebnisgenerierung. Diese Phasen umfassen die folgenden Schritte:

  • Auswählen einer Zielminingstruktur

  • Festlegen der zu testenden Modelle

  • Festlegen der Anzahl von Aufteilungen, in die die Strukturdaten partitioniert werden sollen

  • Analysis Services erstellt und trainiert so viele Modelle, wie Aufteilungen vorhanden sind.

  • Um Ergebnisse zu generieren, müssen Sie Parameter festlegen, um die trainierten Modelle zu testen.

  • Festlegen der Quelle der Testdaten (Diese Funktion ist nur verfügbar, wenn Sie die gespeicherten Prozeduren verwenden.)

  • Festlegen des vorhersagbaren Attributs, des vorhergesagten Werts und des Genauigkeitsschwellenwerts

  • Analysis Service gibt dann einen Satz von Genauigkeitsmetriken für jede Aufteilung in jedem Modell zurück. Sie können auch Genauigkeitsmetriken für das Dataset als Ganzes zurückgeben.

Verwenden der übergreifenden Überprüfung in Data Mining-Designer

Wenn Sie die Kreuzvalidierung mithilfe der Registerkarte Kreuzvalidierung der Sicht für das Mininggenauigkeitsdiagramm in Business Intelligence Development Studio ausführen, können Sie die Parameter für die Trainings- und Genauigkeitsergebnisse in einem einzigen Formular konfigurieren. Dies erleichtert die Einrichtung und Anzeige der Ergebnisse. Sie können die Genauigkeit aller Miningmodelle mit Bezug zu einer einzigen Miningstruktur messen und anschließend sofort die Ergebnisse in einem HTML-Bericht anzeigen.

Weitere Informationen über das Berichtsformat und die von der übergreifenden Überprüfung bereitgestellten Genauigkeitsmetriken finden Sie unter Bericht für die Kreuzvalidierung (Analysis Services – Data Mining).

Informationen über das Konfigurieren der Parameter für die übergreifende Überprüfung in Business Intelligence Development Studio finden Sie unter Übergreifende Überprüfung (Registerkarte, Mininggenauigkeitsdiagramm-Sicht).

Verwenden von gespeicherten Prozeduren für die übergreifende Überprüfung

Für fortgeschrittene Benutzer steht die übergreifende Überprüfung auch in Form von vier gespeicherten Systemprozeduren zur Verfügung. Sie können die gespeicherten Prozeduren ausführen, indem Sie sich von SQL Server Management Studio oder einer anderen Anwendung mit verwaltetem Code mit einer Instanz von Analysis Services 2008 verbinden.

Die gespeicherten Prozeduren werden nach Miningmodelltyp gruppiert. Das erste Paar der Prozeduren funktioniert nur mit Clustermodellen. Das zweite Paar der Prozeduren funktioniert mit anderen Miningmodellen.

HinweisHinweis

Die übergreifende Überprüfung kann nicht mit Modellen verwendet werden, die eine KEY TIME- oder KEY SEQUENCE-Spalte enthalten.

Für jeden Typ des Miningmodells gibt es zwei gespeicherte Prozeduren. Die erste Prozedur erstellt so viele Partitionen, wie Sie im Dataset festgelegt haben, und gibt Genauigkeitsergebnisse für jede Partition zurück. Für jede Metrik berechnet Analysis Services die mittlere und die Standardabweichung für die Partitionen.

Die zweite gespeicherte Prozedur partitioniert nicht das Dataset, sondern generiert Genauigkeitsergebnisse für das festgelegte Dataset als Ganzes. Sie können die zweite gespeicherte Prozedur auch verwenden, wenn die Miningstruktur und ihre Modelle bereits partitioniert und verarbeitet wurden.

Partitionieren von Daten und Generieren von Metriken für Partitionen

SystemGetCrossValidationResults (Analysis Services - Data Mining)

SystemGetClusterCrossValidationResults (Analysis Services - Data Mining)

Generieren von Metriken für gesamtes Dataset

SystemGetAccuracyResults (Analysis Services - Data Mining)

SystemGetClusterAccuracyResults (Analysis Services - Data Mining)

Konfigurieren der übergreifenden Überprüfung

Sie können anpassen, wie die übergreifende Überprüfung arbeitet, die die Anzahl der Querschnitte sowie die getesteten Modelle und die Genauigkeitsleiste für Vorhersagen steuert. Wenn Sie die gespeicherten Prozeduren für die übergreifende Überprüfung verwenden, können Sie auch das Dataset festlegen, das für die Überprüfung der Modelle verwendet wird. Diese Vielzahl der Auswahlmöglichkeiten bedeutet, dass Sie einfach zahlreiche Sätze von unterschiedlichen Ergebnissen erstellen können, die anschließend verglichen und analysiert werden müssen.

Dieser Abschnitt enthält Informationen zur entsprechenden Konfiguration der übergreifenden Überprüfung.

Festlegen der Anzahl der Partitionen

Wenn Sie die Anzahl von Partitionen festlegen, bestimmen Sie, wie viele temporäre Modelle erstellt werden. Für jede Partition wird ein Querschnitt der Daten für die Verwendung als Testsatz gekennzeichnet, und ein neues Modell wird durch Training der restlichen Daten außerhalb der Partition erstellt. Dieser Prozess wird wiederholt, bis Analysis Services die festgelegte Anzahl von Modellen erstellt und getestet hat. Die Daten, die Sie als verfügbar für die übergreifende Überprüfung festgelegt haben, werden gleichmäßig über alle Partitionen verteilt.

Das Beispiel im Diagramm veranschaulicht die Verwendung der Daten, wenn drei Aufteilungen angegeben werden.

Datensegmentierung durch Kreuzvalidierung

In dem Szenario in dem Diagramm enthält die Miningstruktur ein Zurückhaltungsdataset, das zu Testzwecken verwendet wird, das Testdataset wurde jedoch noch nicht für die übergreifende Überprüfung hinzugefügt. Als Ergebnis werden alle Daten in dem Trainingsdataset, d. h. 70 Prozent der Daten in der Miningstruktur, für die übergreifende Überprüfung verwendet. Der Bericht für die übergreifende Überprüfung zeigt die Gesamtzahl der in jeder Partition verwendeten Fälle an.

Sie können auch die Anzahl der Daten festlegen, die während der übergreifenden Überprüfung verwendet werden, indem Sie die Anzahl der insgesamt zu verwendenden Fälle angeben. Die Fälle werden gleichmäßig über alle Aufteilungen verteilt.

Wenn die Miningstruktur in einer Instanz von SQL Server Analysis Services gespeichert ist, beträgt der für die Anzahl der Aufteilungen festzulegende Höchstwert 256. Alternativ entspricht er der Anzahl der Fälle (je nachdem, welcher Wert der niedrigere ist). Wenn Sie eine Sitzungsminingstruktur verwenden, ist die maximale Anzahl der Aufteilungen 10.

HinweisHinweis

Wenn Sie die Anzahl der Aufteilungen erhöhen, verlängert sich auch die für die Ausführung der übergreifenden Überprüfung erforderliche Zeit entsprechend, da für jede Aufteilung ein Modell erzeugt und getestet werden muss. Wenn die Anzahl der Aufteilungen zu hoch ist, stellen Sie möglicherweise Leistungsprobleme fest.

Definieren der Testdaten

Wenn Sie die gespeicherten Prozeduren ausführen, die die Genauigkeit berechnen, SystemGetAccuracyResults (Analysis Services - Data Mining) oder SystemGetClusterAccuracyResults (Analysis Services - Data Mining), können Sie die Quelle der Daten festlegen, die während der übergreifenden Überprüfung für den Test verwendet werden, indem Sie Kombinationen der folgenden Optionen verwenden:

  • Nur die Trainingsdaten verwenden

  • Ein vorhandenes Testdataset einschließen

  • Nur das Testdataset verwenden

  • Vorhandene Filter auf jedes Modell anwenden

  • Alle Kombination des Trainingssatzes, Testsatzes und der Modellfilter

Sie steuern die Zusammensetzung des Testdatasets, indem Sie einen Wert für den DataSet-Parameter angeben.

Wenn Sie die übergreifende Überprüfung mithilfe des Berichts Übergreifende Überprüfung im Data Mining-Designer ausführen, können Sie das verwendete Dataset nicht ändern. Standardmäßig werden die Trainingsfälle für jedes Modell verwendet. Wenn einem Modell ein Filter zugeordnet ist, wird der Filter angewendet.

Übergreifende Überprüfung gefilterter Miningmodelle

Wenn Sie mehrere Miningmodelle testen und die Modelle Filter entahlten, wird jedes Modell getrennt gefiltert. Sie können während der übergreifenden Überprüfung einem Modell keinen Filter hinzufügen oder den Filter für ein Modell ändern.

Da die übergreifende Überprüfung standardmäßig alle einer Struktur zugeordneten Miningmodelle testet, erhalten Sie möglicherweise inkonsistente Ergebnisse, wenn einige Modelle einen Filter enthalten und andere nicht. Um sicherzustellen, dass Sie nur solche Modelle vergleichen, die den gleichen Filter enthalten, sollten Sie die gespeicherten Prozeduren verwenden und eine Liste von Miningmodellen festlegen. Oder verwenden Sie nur den Miningstrukturtestsatz ohne Filter, um sicherzustellen, dass für alle Modelle ein konsistenter Satz von Daten verwendet wird.

Festlegen des Genauigkeitsschwellenwerts

Mithilfe des Statusschwellenwerts können Sie die Genauigkeitsleiste für Vorhersagen festlegen. Für jeden Fall berechnet das Modell eine als Wahrscheinlichkeitsvorhersage bezeichnete Wahrscheinlichkeit, dass der vorhergesagte Status korrekt ist. Wenn die Wahrscheinlichkeitsvorhersage die Genauigkeitsleiste überschreitet, wird die Vorhersage als korrekt gewertet, andernfalls wird die Vorhersage als inkorrekt gewertet. Sie steuern diesen Wert, indem Sie für Statusschwellenwert eine Zahl zwischen 0,0 und 1,0 festlegen. Dabei kennzeichnen Zahlen näher bei 1 ein stärkeres Vertrauen in die Vorhersage, und Zahlen näher bei 0 geben an, dass die Vorhersage eher nicht wahr ist. Der Standardwert für den Statusschwellenwert ist NULL, was bedeutet, dass der vorhergesagte Status mit der höchsten Wahrscheinlichkeit als Zielwert betrachtet wird.

HinweisHinweis

Sie können einen Wert von 0,0 festlegen, doch ist dies bedeutungslos, da jede Vorhersage als korrekt gewertet wird, selbst solche mit einer Wahrscheinlichkeit von NULL. Achten Sie darauf, dass Sie für Statusschwellenwert nicht versehentlich 0,0 festlegen.

Angenommen, Sie haben drei Modelle, die die Spalte [Bike Buyer] vorhersagen, und der Wert, den Sie vorhersagen möchten, ist 1, was bedeutet "ja, wird kaufen". Die drei Modelle geben Vorhersagen mit den Vorhersagewahrscheinlichkeiten von 0,05, 0,15 und 0,8 zurück. Wenn Sie für den Statusschwellenwert 0,10 festgelegt haben, werden zwei der Vorhersagen als korrekt gewertet. Wenn Sie für den Statusschwellenwert 0,5 festgelegt haben, wird nur ein Modell als korrekte Vorhersage gewertet. Wenn Sie den Standardwert NULL verwenden, wird die wahrscheinlichste Vorhersage als richtig gewertet. In diesem Fall würden alle drei Vorhersagen als korrekt gewertet werden.

In der übergreifenden Überprüfung verwendete Metriken

In Abhängigkeit von dem jeweiligen Typ des Miningmodells, dem Datentyp des vorhersagbaren Attributs und des vorhersagbaren Attributwerts (falls vorhanden), werden unterschiedliche Genauigkeitsmetriken erzeugt. Dieser Abschnitt definiert die Hauptmetriken als Verweis. Eine Liste der Genauigkeitsmetriken, die in dem Bericht für jedes Modell gruppiert nach Typ zurückgegeben werden, finden Sie unter Bericht für die Kreuzvalidierung (Analysis Services – Data Mining).

Measure

Betrifft

Implementierung

Klassifizierung: wahr positiv, falsch positiv, wahr negativ, falsch negativ

Diskretes Attribut, Wert wird angegeben

Anzahl der Zeilen oder Werte in der Partition, bei der die Wahrscheinlichkeitsvorhersage größer ist als der Statusschwellenwert und bei der der vorhergesagte Status dem Zielstatus entspricht

Klassifizierung: erfolgreich/fehlgeschlagen

Diskretes Attribut, kein festgelegtes Ziel

Anzahl der Zeilen oder Werte in der Partition, bei der der vorhergesagte Status dem Zielstatus entspricht und bei der die Wahrscheinlichkeitsvorhersage größer ist als der Wert "0"

Prognosegüte

Diskretes Attribut. Zielwert kann angegeben werden, ist aber nicht erforderlich.

Die mittlere logarithmische Wahrscheinlichkeit für alle Zeilen mit Werten für das Zielattribut, wobei die logarithmische Wahrscheinlichkeit pro Fall als Log(ActualProbability/MarginalProbability) berechnet wird. Um den Mittelwert zu berechnen, wird die Summe der logarithmischen Wahrscheinlichkeitswerte durch die Anzahl der Zeilen im Eingabedataset geteilt. Dabei werden Zeilen mit fehlenden Werten für das Zielattribut nicht berücksichtigt. Die Prognosegüte kann einem negativen oder positiven Wert entsprechen. Ein positiver Wert steht für ein effektives Modell, das die Zufallsvorhersage übertrifft.

Logarithmisches Ergebnis

Diskretes Attribut. Zielwert kann angegeben werden, ist aber nicht erforderlich.

Summe der tatsächlichen logarithmischen Wahrscheinlichkeit pro Fall geteilt durch die Anzahl an Zeilen im Eingabedataset, wobei Zeilen mit fehlenden Werten für das Zielattribut nicht berücksichtigt werden. Da die Wahrscheinlichkeit als dezimaler Bruch dargestellt wird, sind logarithmische Ergebnisse immer negative Zahlen.

Fallwahrscheinlichkeit

Cluster

Summe der Clusterwahrscheinlichkeitsergebnisse für alle Fälle geteilt durch die Anzahl an Fällen in der Partition, wobei die Zeilen mit fehlenden Werten für das Zielattribut nicht berücksichtigt werden.

Mittlerer absoluter Fehler

Kontinuierliches Attribut

Summe der absoluten Fehler für alle Fälle in der Partition geteilt durch die Anzahl an Fällen in der Partition, wobei Fälle mit fehlenden Werten nicht berücksichtigt werden.

Wurzel des mittleren quadratischen Fehlers

Kontinuierliches Attribut

Quadratwurzel des mittleren quadratischen Fehlers für die Partition.

Wurzel des mittleren Fehlers zum Quadrat

Diskretes Attribut. Zielwert kann angegeben werden, ist aber nicht erforderlich.

Quadratwurzel der Quadratmittelwerte vom Komplement des Wahrscheinlichkeitsergebnisses geteilt durch die Anzahl an Fällen in der Partition, wobei Zeilen mit fehlenden Werten für das Zielattribut nicht berücksichtigt werden.

Wurzel des mittleren quadratischen Fehlers

Diskretes Attribut, kein festgelegtes Ziel

Quadratwurzel der Quadratmittelwerte vom Komplement des Wahrscheinlichkeitsergebnisses geteilt durch die Anzahl an Fällen in der Partition, wobei Fälle mit fehlenden Werten für das Zielattribut nicht berücksichtigt werden.