Messen der Genauigkeit von Miningmodellen (Analysis Services Data Mining)

SQL Server Analysis Services bietet eine Vielzahl von Möglichkeiten zur Bestimmung der Genauigkeit Ihrer Miningmodelle.

  • Sie können Diagramme verwenden, um die Genauigkeit eines Data Mining-Modells darzustellen: Ein Prognosegütediagramm vergleicht die Genauigkeit der Vorhersagen mit jedem Modell. Ein Gewinndiagramm stellt die theoretisch mögliche Gewinnsteigerung dar, die sich aus der Verwendung der einzelnen Modelle ergibt. Ein Punktdiagramm vergleicht Istwerte mit vorhergesagten Werten und wird für Regressionsmodelle oder andere Modelle verwendet, die kontinuierliche Attribute unter Verwendung kontinuierlicher Eingaben prognostizieren.

  • Sie können eine Klassifikationsmatrix verwenden, um genaue und ungenaue Vorhersagen zu tabellarisieren.

  • Sie können die Kreuzvalidierung verwenden, um die Zuverlässigkeit eines Miningmodells statistisch zu überprüfen.

Weitere Informationen finden Sie unter Tools zum Auswerten der Modellgenauigkeit (Analysis Services - Data Mining). Alle in diesem Thema beschriebenen Diagrammtypen können auch mithilfe von XML/A oder AMO programmgesteuert erstellt werden. Weitere Informationen zur Programmierung von Analysis Services-Lösungen finden Sie unter Entwicklerhandbuch (Analysis Services - Data Mining).

HinweisHinweis

Nachdem Sie festgestellt haben, dass das Modell ausreichend genau ist, sollten Sie die Ergebnisse des Modells im Kontext des Geschäftsproblems bewerten, für das das Modell entwickelt wurde.

In diesem Thema wird der allgemeine Workflow in Business Intelligence Development Studio oder SQL Server Management Studio zum Messen der Genauigkeit eines Miningmodells erläutert. Abhängig von dem verwendeten Miningmodelltyp und dem gewählten Diagramm sind einige Optionen möglicherweise geringfügig anders, nicht verfügbar oder standardmäßig konfiguriert, aber der Gesamtprozess sieht folgendermaßen aus:

  1. Wählen Sie ein Modell oder eine Struktur aus, das bzw. die Sie testen möchten.

  2. Wählen Sie Testdaten aus.

  3. Filtern Sie die Testdaten optional.

  4. Wählen Sie einen Diagrammtyp aus, und öffnen Sie das Diagramm im geeigneten Viewer.

  5. Passen Sie das Diagramm optional an.

Ein Verfahren mit einer Schritt-für-Schritt-Anweisung finden Sie unter Vorgehensweise: Erstellen eines Genauigkeitsdiagramms für ein Miningmodell.

Auswählen eines Modells oder einer Struktur

Üblicherweise werden mehrere Data Mining-Modelle für jede Data Mining-Struktur generiert, und für jedes Modell wird ein anderer Algorithmus oder Parametersatz verwendet. Mit Analysis Services können mehrere verwandte Miningmodelle ganz einfach im selben Diagramm getestet werden. Sie können jedoch auch nur ein einzelnes Miningmodell zur Ausgabe in einem Genauigkeitsdiagramm auswählen.

In Business Intelligence Development Studio wählen Sie eine Miningstruktur aus und klicken anschließend auf die Registerkarte Mininggenauigkeitsdiagramm, um einen Entwurfsbereich für Genauigkeitsdiagramme zu öffnen. In SQL Server Management Studio klicken Sie mit der rechten Maustaste auf die Miningstruktur, und wählen anschließend die Option Prognosegütediagramm anzeigen, um denselben Entwurfsbereich zu öffnen und eine beliebige Art von Genauigkeitsdiagramm anzulegen.

Wenn Sie einem Diagramm mehrere Miningmodelle hinzufügen, müssen Sie Miningmodelle wählen, die dasselbe vorhersagbare Attribut haben. Wenn Sie ein Prognosegütediagramm, ein Gewinndiagramm, ein Punktdiagramm oder eine Klassifikationsmatrix erstellen, können Sie über die Registerkarte Eingabeauswahl die Modelle wählen, die in das Diagramm aufgenommen werden sollen. Beim Erstellen eines Kreuzvalidierungsberichts analysiert Analysis Services jedoch alle Modelle, die dasselbe vorhersagbare Attribut haben.

Auswählen von Testdaten

Bevor Sie ein Prognosegütediagramm, Gewinndiagramm oder Punktdiagramm erstellen können, müssen Sie die Daten angeben, die zum Auswerten des Modells verwendet werden sollen. Weil sich die zum Auswerten verwendeten Daten stark auf die Auswertungsergebnisse auswirken, stellt SQL Server 2008 Analysis Services die folgenden Optionen zum Festlegen der Testdaten zur genaueren Beurteilung von Modellen bereit:

  • Verwenden einer Zurückhaltungspartition, die beim Erstellen der Data Mining-Struktur als Testsatz definiert wurde. Wenn ein Teil der Miningstruktur als Testsatz verwendet wird, können alle Modelle in der Struktur konsistent gemessen werden.

  • Definieren einer externen Datenquelle, deren Daten als Testdaten verwendet werden sollen.

  • Definieren einer externen Datenquelle und Anwenden von Filtern, um die Daten auf eine relevante Teilmenge von Fällen zu beschränken. Durch die Definition eines Filters können Sie Testdaten auswählen, die bestimmte Bedingungen erfüllen, oder die Fälle enthalten, die von besonderem Interesse sind.

  • Verwenden eines Filters, der auf die vom Modell verwendeten Trainingsfälle angewendet wird. Durch die Definition eines Modellfilters können Sie die Fälle auf eine Teilmenge der Daten beschränken und zudem sicherstellen, dass ein bestimmtes Modell stets unter Verwendung ähnlicher Daten beurteilt wird.

Wenn Sie einen Kreuzvalidierungsbericht in Business Intelligence Development Studio oder SQL Server Management Studio erstellen, verwendet Analysis Services die für das Modell definierte Zurückhaltungspartition, falls vorhanden. Wenn keine Zurückhaltungspartition definiert wurde, verwendet Analysis Services den ganzen Satz der Trainingsfälle.

Wenn Sie in Business Intelligence Development Studio oder SQL Server Management Studio ein Prognosegütediagramm, ein Gewinndiagramm, ein Punktdiagramm oder eine Klassifikationsmatrix erstellen, geben Sie die zum Testen der Miningmodelle zu verwendenden Daten auf der Registerkarte Eingabeauswahl in der Mininggenauigkeitsdiagrammsicht im Data Mining-Designer an. Folgende Optionen stehen zur Verfügung:

Testfälle für Miningmodell verwenden

Die Testfälle für Miningmodelle werden den Daten entnommen, die in der Miningstruktur enthalten sind. Es wird jedoch ein Filter angewendet, um die zum Testen zu verwendenden Fälle einzuschränken. Ein Modellfilter ist ein Satz von WHERE-Bedingungen, den Sie erstellen und dann zusammen mit dem Miningmodell speichern. Weil die Filterbedingung zusammen mit dem Miningmodell gespeichert wird, wird sie standardmäßig angewendet, wenn Sie das Modell trainieren. Wenn Sie ein Modell testen, können Sie den gegebenen Filter verwenden, oder Sie können einen anderen Satz von Daten zum Testen verwenden und auf diese Weise den Modellfilter umgehen. Wenn Sie den Filter ändern möchten, der auf ein Miningmodell angewendet wird, können Sie den Modellfilter abändern und das Modell dann erneut verarbeiten. Stattdessen können Sie auch eine Kopie des Modells anfertigen und anschließend einen anderen Filter für die Kopie erstellen.

Weitere Informationen zu Modellfiltern finden Sie unter Erstellen von Filtern für Miningmodelle (Analysis Services - Data Mining).

Eine Beschreibung der Erstellung eines Filters für ein Miningmodell finden Sie unter Vorgehensweise: Anwenden eines Filters auf ein Miningmodell.

Testfälle für Miningstruktur verwenden

Sie können diese Option zum Messen der Genauigkeit verwenden, wenn beim Erstellen der Miningstruktur ein Testdataset definiert wurde, indem entweder ein Zurückhaltungsprozentsatz oder eine maximale Anzahl von zurückzuhaltenden Fällen angegeben wurde. Die Definition des Testsatzes wird mit der Struktur gespeichert. Deshalb kann der Testsatz mit jedem Modell verwendet werden, das auf der Struktur basiert.

HinweisHinweis

Für die Zurückhaltungsdaten der Miningstruktur kann nicht direkt ein Filter erstellt werden. Wenn Sie diese Daten filtern möchten, können Sie behelfsweise die ursprüngliche Datenquellensicht als externe Datenquelle verwenden und einen Filter auf die externe Datenquelle anwenden.

Weitere Informationen finden Sie unter Partitionieren von Daten in Trainings- und Testsätze (Analysis Services - Data Mining).

Anderes Dataset verwenden

In SQL Server 2005 konnte die Genauigkeit eines Miningmodells nur mithilfe eines externen Datasets getestet werden. Diese Option ist in SQL Server 2008 noch verfügbar, allerdings können Sie auch einen Filter für die externen Daten definieren.

Zur Verwendung einer externen Datenquelle müssen alle Spalten aus der externen Quelle, die Sie für die Eingabe verwenden möchten, den Spalten im Miningmodell zugeordnet werden. Nicht alle Spalten müssen zugeordnet werden, aber das externe Dataset muss mindestens eine Spalte enthalten, die der vorhersagbaren Spalte im Miningmodell zugeordnet werden kann. Abhängig vom Modell müssen Sie unter Umständen auch Spalten in den externen Daten zuordnen, die über die für die Vorhersage erforderlichen Attribute verfügen.

Im Data Mining-Designer verwenden Sie die Registerkarte Eingabeauswahl und das Dialogfeld Spaltenzuordnung angeben, um die Eingabetabelle auszuwählen, die zur Validierung der Modelle herangezogen werden soll. Wenn Sie eine Eingabetabelle auswählen, werden die Spalten in den Tabellen Miningstruktur und Eingabetabelle(n) auswählen automatisch zugeordnet. Sie können die Zuordnungen bei Bedarf ändern, indem Sie auf eine Spalte in der Tabelle Miningstruktur klicken und diese Spalte auf die Tabelle Eingabetabelle(n) auswählen ziehen. Wenn die Eingabedaten eine geschachtelte Tabelle enthalten, können Sie diese Tabelle mithilfe der Verknüpfung Geschachtelte Tabelle auswählen ebenfalls einbeziehen.

HinweisHinweis

Die vorhersagbare Spalte muss immer zugeordnet werden. Nicht zugeordnete Spalten werden dem Miningmodell als NULL-Werte zugeführt.

Nachdem Sie die entsprechenden Spalten zugeordnet haben, können Sie optional einen Zielstatus für die vorhersagbare Spalte angeben. Wenn Sie für den Status der Vorhersagespalte nichts angeben, sagt das Prognosegütediagramm vorher, wie gut das Modell ausgeführt wird, unabhängig vom Status der Vorhersagespalte. Weitere Informationen dazu, wie sich das Erstellen von Prognosegütediagrammen mit angegebenem Status der Vorhersagespalte vom Erstellen eines Prognosegütediagramms ohne angegebenen Status der Vorhersagespalte unterscheidet, finden Sie unter Prognosegütediagramm (Analysis Services - Data Mining).

Sie haben auch die Option, einen Filter für die externen Daten zu erstellen. Eine Beschreibung, wie ein Filter für ein Miningmodell erstellt wird, finden Sie unter Vorgehensweise: Filtern der Eingabezeilen für ein Genauigkeitsdiagramm.

Die Option Vorhersagespalten und -werte synchronisieren koordiniert die vorhersagbaren Attribute in der externen Datenquelle und im Miningmodell so, dass sie (selbst wenn sie einen anderen Namen tragen) beim Modelltraining aus derselben vorhersagbaren Spalte abgeleitet werden. Dies ist nützlich, wenn zwei Miningstrukturspalten vorliegen, die auf die gleichen zugrunde liegenden Daten verweisen, jedoch unterschiedliche Bezeichnungen aufweisen.

Wenn Sie das Kontrollkästchen Vorhersagespalten und -werte synchronisieren deaktivieren, können Sie jede gültige Vorhersagespalte und jeden Vorhersagewert auswählen. Die Ergebnisse werden zusammen dargestellt, selbst wenn sie keinen Sinn machen. Sie können diese Option deaktivieren, wenn Sie zwei vorhersagbare Attribute zu vergleichen versuchen, die nicht explizit dem gleichen Satz von Werten zuzuordnen sind. Es ist jedoch zu beachten, dass die beiden Attribute möglicherweise hinsichtlich der Genauigkeit nicht vergleichbar sind. Beispielsweise kann ein Modell, das Einkommen in die Kategorien Hoch, Mittel und Niedrig einteilt, mit einem Modell vergleichbar sein, das Einkommen in die Bereiche 150.000+, 50.000-100.000 und 10.000-50.000 unterteilt. Bevor Sie das Kontrollkästchen deaktivieren, sollten Sie jedoch überprüfen, ob die Attribute vergleichbar sind.

Weitere Informationen finden Sie unter:Vorgehensweise: Auswählen einer vorhersagbaren Spalte für ein Genauigkeitsdiagramm, Verwenden der Data Mining-Tools.

Filtern von Daten

Sie können die Daten, die zum Trainieren und Testen eines Miningmodells verwendet werden, auf die folgende Weise filtern:

  • Erstellen eines Filters, der zusammen mit dem Modell gespeichert wird

  • Anwenden eines Filters auf eine externe Datenquelle

Wenn Sie einen Filter definieren, erstellen Sie im Grunde eine WHERE-Klausel für die eingehenden Daten. Wenn ein zum Auswerten des Modells verwendetes Eingabedataset gefiltert wird, wird der Filterausdruck in eine Transact-SQL-Anweisung übersetzt und bei der Diagrammerstellung auf die Eingabetabelle angewendet. Dadurch kann die Anzahl von Testfällen stark verringert werden.

Wenn Sie einen Filter auf ein Miningmodell anwenden, wird der von Ihnen definierte Filterausdruck in eine DMX-Anweisung (Data Mining Extensions) übersetzt und auf das einzelne Modell angewendet. Wenn ein Filter auf ein Modell angewendet wird, wird nur eine Teilmenge der ursprünglichen Daten zum Trainieren des Modells verwendet. Wenn beim Erstellen der Struktur ein Testdataset definiert wurde, umfassen die zum Training verwendeten Modellfälle nur die Fälle, die in dem Trainingssatz der Miningstruktur enthalten sind und den Filterbedingungen entsprechen. Wenn Sie die Option Testfälle für Miningstruktur verwenden aktivieren, beinhalten die Testfälle nur Fälle, die im Testsatz der Miningstruktur enthalten sind und den Filterbedingungen entsprechen. Filterbedingungen gelten auch für Drillthroughabfragen von Modellfällen.

Wenn das Zurückhaltungsdataset nicht definiert wurde, werden alle Modellfälle, die den Filterbedingungen entsprechen, zum Training verwendet.

Daher können mehrere Modelle, auch wenn sie auf derselben Miningstruktur basieren, über verschiedene Filter verfügen und folglich verschiedene Daten zum Trainieren und Testen verwenden. Wenn Sie die Option Testfälle für Miningstruktur verwenden aktivieren und ein Genauigkeitsdiagramm erstellen, kann die Gesamtzahl der in Test- und Trainingssätzen enthaltenen Fälle zwischen den zu testenden Modellen stark voneinander abweichen.

HinweisHinweis

Wenn Sie einem Miningmodell einen Filter hinzufügen oder die Filterbedingungen ändern, müssen Sie das Miningmodell erneut verarbeiten, damit die Auswirkungen des Filters erkennbar werden.

Um die tatsächlich verwendeten Trainingsfälle zu überprüfen, können Sie eine DMX-Inhaltsabfrage wie die Folgende erstellen:

SELECT * from <model>.CASES WHERE IsTrainingCase()

Oder:

SELECT * from <model>.CASES WHERE IsTestCase()

Um diese Fälle mit den Fällen in der Struktur zu vergleichen, erstellen Sie die folgende DMX-Inhaltsabfrage:

SELECT * FROM <structure>.CASES WHERE IsTestCase()
HinweisHinweis

Um eine Inhaltsabfrage für die Modellrechtsfälle auszuführen, müssen Sie Drillthrough für das Modell aktivieren.

Weitere Informationen zu den Filtertypen, die angewendet werden können, und zur Auswertung von Filterausdrücken finden Sie unter Modellfiltersyntax und Beispiele (Analysis Services - Data Mining).

Auswählen eines Diagrammtyps und Anzeigen des Diagramms

Abhängig vom ausgewählten Diagrammtyp können Sie weitere Optionen konfigurieren, um das Diagramm zu durchsuchen oder das Diagramm in die Zwischenablage zu kopieren und mit den Daten in Excel zu arbeiten.

Hinweis Diagramme und ihre Definitionen werden nicht gespeichert. Wenn Sie das Fenster schließen, das ein Diagramm enthält, müssen Sie das Diagramm erneut erstellen.

Prognosegütediagramm

Nachdem Sie die Optionen für das Modell konfiguriert und die Daten getestet haben, klicken Sie auf die Registerkarte Prognosegütediagramm, um die Ergebnisse anzuzeigen. Sie können das Diagramm auch in die Zwischenablage kopieren oder Details einzelner Trendlinien oder Datenpunkte in der Mininglegende anzeigen.

Weitere Informationen finden Sie unter Prognosegütediagramm (Analysis Services - Data Mining) und Prognosegütediagramm (Registerkarte, Mininggenauigkeitsdiagramm-Sicht).

Gewinndiagramm

Nachdem Sie die Optionen für das Modell und die Testdaten konfiguriert haben, klicken Sie auf die Registerkarte Prognosegütediagramm, wählen Sie Gewinndiagramm in der Liste Diagrammtyp aus, um die Optionen für das Gewinndiagramm festzulegen, und klicken Sie anschließend auf OK, um die Ergebnisse anzuzeigen. Sie können das Dialogfeld Gewinndiagrammeinstellungen beliebig oft verwenden, um verschiedene Kostenoptionen auszuprobieren und das Diagramm erneut anzuzeigen. Die Mininglegende enthält ausführliche Informationen über den geschätzten Gewinn für jedes Modell. Sie können auch das Diagramm und den Inhalt der Mininglegende in die Zwischenablage kopieren, um in Excel damit zu arbeiten.

Weitere Informationen finden Sie unter Gewinndiagramm (Analysis Services - Data Mining) und Dialogfeld Gewinndiagrammeinstellungen (Mininggenauigkeitsdiagrammsicht).

Punktdiagramm

Wenn Sie den entsprechenden Modelltyp ausgewählt haben, ist bei Klicken auf die Registerkarte Prognosegütediagramm als Diagrammtyp automatisch Punktdiagramm festgelegt, und ein Punktdiagramm wird angezeigt. Eine weitere Konfiguration ist nicht möglich. Sie können das Diagramm auch in die Zwischenablage kopieren und als Grafik in Excel oder in eine andere Anwendung einfügen.

Weitere Informationen finden Sie unter Punktdiagramm (Analysis Services - Data Mining).

Klassifikationsmatrix

Für eine Klassifikationsmatrix wählen Sie auf der Registerkarte Eingabeauswahl die Modelle und Testdaten aus und klicken anschließend auf die Registerkarte Klassifikationsmatrix, um die Ergebnisse anzuzeigen. Der Inhalt einer Klassifikationsmatrix ist bei allen Modelltypen gleich und kann nicht konfiguriert werden. Sie können die Daten im Diagramm in die Zwischenablage kopieren, um in Excel damit zu arbeiten.

Weitere Informationen finden Sie unter Klassifikationsmatrix (Analysis Services Data Mining) oder Klassifikationsmatrix (Registerkarte, Mininggenauigkeitsdiagramm-Sicht).

Bericht für die übergreifende Überprüfung

Um einen Kreuzvalidierungsbericht zu erstellen, wählen Sie zunächst eine Miningstruktur oder ein Miningmodell im Projektmappen-Explorer aus. Klicken Sie anschließend auf die Registerkarte Kreuzvalidierung, konfigurieren Sie alle relevanten Optionen, und klicken Sie dann auf Ergebnisse abrufen, um den Bericht zu generieren. Eine weitere Konfiguration ist nicht möglich. Das Format des Kreuzvalidierungsberichts ist bei allen Modelltypen gleich und kann nicht konfiguriert werden. Der Inhalt des Berichts ist jedoch abhängig vom analysierten Modelltyp und vom Datentyp des vorhersagbaren Attributs unterschiedlich. Sie können die Ergebnisse des Berichts auch in die Zwischenablage kopieren, um in Excel mit den Daten zu arbeiten.

Weitere Informationen finden Sie unter Übergreifende Überprüfung (Analysis Services - Data Mining) oder Bericht für die Kreuzvalidierung (Analysis Services – Data Mining).