Prognosegütediagramm (Analysis Services - Data Mining)

Sie können auf der Registerkarte Prognosegütediagramm der Sicht Mininggenauigkeitsdiagramm des Data Mining-Designers verschiedene Diagrammtypen anzeigen, abhängig von dem gewählten Modell, dem vorhersagbaren Attribut im Modell und anderen Einstellungen.

Wenn Ihr Modell ein diskretes Attribut vorhersagt, können Sie ein Prognosegütediagramm oder ein Gewinndiagramm erstellen. Ein Prognosegütediagramm vergleicht die Genauigkeit der Vorhersagen jedes Modells und kann so konfiguriert werden, dass entweder die Genauigkeit der Vorhersagen allgemein oder der Vorhersagen für einen bestimmten Wert angezeigt werden. Ein Gewinndiagramm ist ein verwandter Diagrammtyp, der die gleichen Informationen enthält wie ein Prognosegütediagramm, jedoch außerdem die projizierte Gewinnsteigerung anzeigt, die mit einem Modell verbunden ist. Wählen Sie mithilfe der Liste Diagrammtyp den gewünschten Diagrammtyp aus.

Hinweis Sie können in einem Prognosegütediagramm oder einem Gewinndiagramm keine Zeitreihenmodelle anzeigen. Mithilfe der Registerkarte Miningmodellvorhersage können Sie jedoch ein Diagramm erstellen, das sowohl die vergangenen Zeitreihen als auch die auf diesen Zeitreihen basierenden Vorhersagen anzeigt. Weitere Informationen finden Sie unter Microsoft Time Series-Algorithmus.

Weitere Informationen finden Sie unter Profit Chart (Analysis Services - Data Mining), Scatter Plot (Analysis Services - Data Mining).Gewinndiagramm (Analysis Services - Data Mining), Punktdiagramm (Analysis Services - Data Mining)

Szenario

Die Registerkarte Prognosegütediagramm zeigt eine grafische Darstellung der Veränderung des Lifts, die durch ein Miningmodell hervorgerufen wird. Angenommen, die Marketingabteilung von Adventure Works Cycles möchte eine zielgerichtete Mailingkampagne starten. Aus vergangenen Kampagnen weiß man, dass typischerweise mit einer Antwortquote von 10 Prozent zu rechnen ist. Eine Liste mit 10.000 potenziellen Kunden ist in einer Tabelle in der Datenbank gespeichert. Ausgehend von der typischen Antwortquote ist daher zu erwarten, dass 1.000 potenzielle Kunden antworten.

Jedoch ist das Budget für dieses Projekt mit weniger Geld angesetzt, als zum Anschreiben aller 10.000 in der Datenbank gespeicherten Kunden erforderlich ist. Mit dem verfügbaren Budget kann die Werbung nur an 5.000 Kunden verschickt werden. Der Marketingabteilung bieten sich zwei Möglichkeiten:

  • 5.000 Kunden nach dem Zufallsprinzip als Empfänger auswählen

  • Mithilfe eines Miningmodells die 5.000 Kunden auswählen, bei denen die Wahrscheinlichkeit einer Antwort am höchsten ist

Bei einer willkürlichen Auswahl von 5.000 Kunden kann das Unternehmen basierend auf der typischen Antwortquote nur mit 500 Antworten rechnen. Dieses Szenario wird von der Zufallslinie im Prognosegütediagramm dargestellt. Wenn die Marketingabteilung jedoch die Zielgruppe ihres Mailings mithilfe eines Miningmodells auswählt, ist eine höhere Antwortquote zu erwarten, da gezielt die Kunden angesprochen werden, bei denen am wahrscheinlichsten mit einer Antwort zu rechnen ist. Wäre das Modell perfekt, könnte es Vorhersagen erstellen, die nie falsch liegen, und das Unternehmen könnte davon ausgehen, dass sich alle 1.000 Antworten durch das Anschreiben der 1.000 potenziellen Kunden erreichen ließen, die das Modell empfiehlt. Dieses Szenario wird von der Ideallinie im Prognosegütediagramm dargestellt. In der Wirklichkeit liegt das Miningmodell sehr wahrscheinlich irgendwo zwischen diesen beiden Extremen einer Zufallsvermutung und einer idealen oder perfekten Vorhersage. Jede Verbesserung der Antwortquote gegenüber der Zufallsvermutung wird als Lift betrachtet.

Grundlegendes zu Prognosegütediagrammen

Sie können zwei Arten von Prognosegütediagrammen erstellen: eines, in dem Sie einen Zielwert für die vorhersagbare Spalte angeben, und eines, in dem Sie den Wert nicht angeben. Wenn Sie zwischen der Registerkarte Eingabeauswahl und der Registerkarte Prognosegütediagramm umschalten, wird das Diagramm aktualisiert, um etwaige Änderungen in den Spaltenzuordnungen oder anderen Einstellungen wiederzugeben.

Prognosegütediagramm mit Zielwert

Das folgende Diagramm zeigt ein Prognosegütediagramm für das Targeted Mailing-Modell an, das Sie im Lernprogramm zu Data Mining-Grundlagen erstellen. In diesem Diagramm lautet das Zielattribut [Bike Buyer] und der Zielwert 1. Dies bedeutet, dass der Kunde ein Fahrrad gekauft hat oder höchstwahrscheinlich kaufen wird. Das Prognosegütediagramm zeigt so die Verbesserung an, die das Modell beim Identifizieren von Kunden, die wahrscheinlich ein Fahrrad kaufen, bietet.

Zusätzlich zum grundlegenden Modell enthält das Diagramm ein verwandtes Modell, das für bestimmte Zielkunden gefiltert wurde. Sie können mehrere Modelle zu einem Prognosegütediagramm hinzufügen, vorausgesetzt die Modelle verfügen über dasselbe vorhersagbare Attribut. Dieser Filter schränkt die Fälle ein, die sowohl für das Training als auch die Evaluierung für Kunden unter 30 Jahre verwendet werden. Daher variiert die Anzahl der Fälle, für die das Modell evaluiert wird, für das grundlegende und das gefilterte Modell. Dieser Punkt muss bei der Interpretation der Vorhersageergebnisse und anderer statistischer Daten berücksichtigt werden.

Prognosegütediagramm mit zwei Modellen

Die X-Achse des Diagramms stellt den Prozentsatz des Testdatasets dar, das zum Vergleichen der Vorhersagen verwendet wird. Die Y-Achse des Diagramms stellt den Prozentsatz vorhergesagter Werte dar.

Die diagonale gerade Linie, hier in Blau dargestellt, erscheint in jedem Diagramm. Sie stellt die Ergebnisse von Zufallsvorhersagen dar und ist die Baseline, für die die Prognosegüte ausgewertet wird. Für jedes zu einem Prognosegütediagramm hinzugefügte Modell erhalten Sie zwei zusätzliche Linien: Eine Linie zeigt die idealen Ergebnisse für das Trainingsdataset an, wenn Sie ein Modell erstellen konnten, das immer perfekte Vorhersagen geliefert hat. Die zweite Linie zeigt die tatsächliche Prognosegüte, d. h. die Verbesserung der Ergebnisse, für das Modell.

In diesem Beispiel wird die Ideallinie für das gefilterte Modell in Dunkelblau und die Linie für die tatsächliche Prognosegüte in Gelb angezeigt. Aus dem Diagramm ist ersichtlich, dass die Spitze der Ideallinie etwa bei 40 Prozent liegt. Das bedeutet, dass mit einem perfekten Modell 100 Prozent der Zielkunden erreicht werden könnten, wenn ein Mailing an nur 40 Prozent der Gesamtpopulation gesendet wird. Die tatsächliche Prognosegüte für das gefilterte Modell bei Ausrichtung auf 40 Prozent der Population liegt zwischen 60 und 70 Prozent. Das bedeutet, dass Sie 60 bis 70 Prozent der Zielkunden erreichen könnten, wenn Sie das Mailing an 40 Prozent der Gesamtpopulation der Kunden senden.

Die Mininglegende enthält die Istwerte an einem beliebigen Punkt der Kurven. Sie können die Position, die gemessen wird, ändern, indem Sie auf den vertikalen grauen Balken klicken und ihn verschieben. Im Diagramm wurde die graue Linie auf 30 Prozent verschoben, da dies der Punkt ist, an dem sowohl das gefilterte als auch das ungefilterte Modell am effektivsten zu sein scheint. Nach diesem Punkt geht die Prognosegüte zurück.

Die Mininglegende enthält auch Ergebnisse und statistische Daten, mit deren Hilfe Sie das Diagramm interpretieren können. Diese Ergebnisse stellen die Genauigkeit des Modells an der grauen Linie dar, die in diesem Szenario so positioniert ist, dass sie 30 Prozent der gesamten Testfälle umfasst.

Reihen, Modell

Ergebnis

Zielpopulation

Wahrscheinlichkeitsvorhersage

Targeted Mailing alle

0.71

47.40%

61.38%

Targeted Mailing unter 30

0.85

51.81%

46.62%

Zufallsvorhersagemodell

  

31.00%

  

Idealmodell für: Targeted Mailing alle

  

62.48%

  

Idealmodell für: Targeted Mailing unter 30

  

65.28%

  

Aus diesen Ergebnissen ergibt sich, dass das allgemeine Modell (Targeted Mailing alle) bei einer Messung von 30 Prozent aller Fälle das Fahrradkaufverhalten von 47,40 Prozent der Zielpopulation vorhersagen kann. Mit anderen Worten, wenn Sie ein Targeted Mailing an nur 30 Prozent der Kunden in Ihrer Datenbank senden, können Sie etwas weniger als die Hälfte Ihrer Zielgruppe erreichen. Wenn Sie das gefilterte Modell verwendet haben, könnten Sie ungefähr 51 Prozent der Kundenzielgruppe erreichen.

Der Wert für Wahrscheinlichkeitsvorhersage stellt den Schwellenwert dar, der erforderlich ist, um einen Kunden in die Fälle einzubeziehen, die wahrscheinlich kaufen werden. Für jeden Fall schätzt das Modell die Genauigkeit der einzelnen Vorhersage und speichert diesen Wert, mit dem Sie Kunden filtern oder gezielt ansprechen können. Um die Kunden aus dem grundlegenden Modell zu identifizieren, die potenzielle Käufer sind, können Sie eine Abfrage verwenden, um Fälle mit einer Wahrscheinlichkeitsvorhersage von mindestens 61 Prozent abzurufen. Zum Abrufen der Kunden, auf die das gefilterte Modell abzielt, erstellen Sie eine Abfrage zum Abrufen von Fällen, die alle folgenden Kriterien erfüllen: Alter und einen PredictProbability-Wert von mindestens 46 Prozent.

Es ist interessant, die Modelle zu vergleichen. Das gefilterte Modell erfasst anscheinend mehr potenzielle Kunden. Doch wenn Sie als Zielgruppe Kunden mit einer Wahrscheinlichkeitsvorhersage von 46 Prozent wählen, besteht eine 53-prozentige Chance, dass Sie ein Mailing an einen Empfänger senden, der kein Fahrrad kaufen wird. Bei der Entscheidung, welches Modell das bessere ist, wägen Sie daher die größere Genauigkeit und kleinere Zielgruppe des gefilterten Modells gegen die Selektivität des grundlegenden Modells ab.

Der Wert für Ergebnis hilft Ihnen, Modelle zu vergleichen, indem die Wirksamkeit des Modells über eine normalisierte Population hinweg berechnet wird. Ein höheres Ergebnis ist besser. Daher liegt in diesem Fall die Entscheidung nahe, dass die zielgerichtete Ausrichtung auf Kunden unter 30 trotz der niedrigeren Wahrscheinlichkeitsvorhersage die effektivste Strategie ist.

Prognosegütediagramm für Modelle ohne Zielwert

Wenn Sie den Zustand der vorhersagbaren Spalten nicht angeben, wird ein Diagramm wie das im Folgenden abgebildete erstellt. Dieses Diagramm zeigt, wie sich das Modell für alle Status des vorhersagbaren Attributs verhält. Dieses Diagramm gibt beispielsweise Aufschluss darüber, wie gut das Modell sowohl Kunden, die wahrscheinlich ein Fahrrad kaufen werden, als auch Kunden, die wahrscheinlich kein Fahrrad kaufen werden, vorhersagt.

Die X-Achse ist die gleiche wie im Diagramm, bei dem die vorhersagbare Spalte angegeben wurde, doch die Y-Achse stellt nun den Prozentsatz der richtigen Vorhersagen dar. Daher ist die Ideallinie die diagonale Linie, die zeigt, dass das Modell bei 50 Prozent der Daten 50 Prozent der Fälle richtig vorhersagt, was das erwartbare Maximum darstellt.

Prognosegütediagramm mit richtigen Prognosen

Sie können in das Diagramm klicken, um den vertikalen, grauen Balken zu verschieben. Die Mininglegende zeigt den Prozentsatz der Fälle insgesamt an sowie den Prozentsatz der Fälle, die richtig vorhergesagt wurden. Wenn Sie den grauen Schieberegler beispielsweise auf die 50-Prozent-Marke ziehen, zeigt die Mininglegende die folgenden Genauigkeitsergebnisse an. Diese Abbildungen basieren auf dem TM_Decision Tree-Modell, das im Data Mining-Grundlagen-Lernprogramm erstellt wird.

Reihen, Modell

Ergebnis

Zielpopulation

Wahrscheinlichkeitsvorhersage

TM_Decision Tree

0.77

40.50%

72.91%

Idealmodell

  

50.00%

  

Diese Tabelle zeigt außerdem, dass das erstellte Modell bei 50 Prozent der Population 40 Prozent der Fälle richtig vorhersagt. Dieses Modell könnte daher als ziemlich genau gelten. Bedenken Sie aber, dass dieses bestimmte Modell alle Werte des vorhersagbaren Attributs vorhersagt. Daher könnte das Modell bei der Vorhersage, dass 90 Prozent der Kunden kein Fahrrad kaufen, genau sein.

HinweisHinweis

Die Vorhersagegenauigkeit für alle diskreten Werte des vorhersagbaren Attributs wird in einer einzelnen Linie angezeigt. Wenn Sie Vorhersagegenauigkeitslinien für einen einzelnen Wert des vorhersagbaren Attributs anzeigen möchten, erstellen Sie ein separates Prognosegütediagramm für diesen Wert.

Zurück zum Anfang

Erstellen eines Prognosegütediagramms

Das Lernprogramm zu Data Mining-Grundlagen enthält auch Vorgehensweisen für das Erstellen eines Prognosegütediagramms für das Targeted Mailing-Modell. Weitere Informationen finden Sie unter Überprüfen der Genauigkeit mit Prognosegütediagrammen (Lernprogramm zu Data Mining-Grundlagen).

Detaillierte Anweisungen, die für alle Diagrammtypen gelten, finden Sie unter Vorgehensweise: Erstellen eines Genauigkeitsdiagramms für ein Miningmodell.