Prüfen des Callcentermodells (Data Mining-Lernprogramm für Fortgeschrittene)

Nachdem Sie nun das explorative Modell erstellt haben, können Sie es verwenden, um die Daten genauer zu untersuchen. Verwenden Sie dazu die folgenden Tools, die in Business Intelligence Development Studio bereitgestellt werden.

  • Microsoft-Viewer für neuronale Netzwerke**:** Dieser Viewer ist im Data Mining-Designer auf der Registerkarte Miningmodell-Viewer verfügbar und dafür vorgesehen, Ihnen das Experimentieren mit Interaktionen in den Daten zu ermöglichen.

  • Microsoft Generic Content Tree Viewer**:** Dieser Standardviewer stellt ausführliche Details zu den Mustern und Statistiken bereit, die vom Algorithmus beim Generieren des Modells ermittelt wurden.

  • Datenquellensicht-Designer**:** Dieser Viewer stellt Tabellen, Diagramme sowie PivotCharts und PivotTables bereit, um Sie beim Durchsuchen der Quelldaten zu unterstützen. Eine Überprüfung der Quelldaten kann sehr hilfreich sein, um die vom Modell hervorgehobenen Trends besser zu verstehen.

Microsoft-Viewer für neuronale Netzwerke

Der Viewer verfügt über drei Bereiche – Eingabe, Ausgabe und Variablen.

Im Bereich Ausgabe können Sie unterschiedliche Werte für das vorhersagbare Attribut oder die abhängige Variable auswählen. Wenn das Modell mehrere vorhersagbare Attribute enthält, können Sie das Attribut in der Liste Ausgabeattribut auswählen.

Der Bereich Variablen vergleicht die zwei Ergebnisse, die Sie durch die angegebenen Attribute oder Variablen ausgewählt haben. Die farbigen Leisten stellen visuell dar, wie stark sich die Variable auf die Zielergebnisse auswirkt. Sie können auch die Prognosegüteergebnisse für die Variablen anzeigen. Ein Prognosegüteergebnis wird abhängig vom verwendeten Miningmodelltyp unterschiedlich berechnet, gibt jedoch i. d. R. Aufschluss über die Verbesserung im Modell, die beim Verwenden dieses Attributs für die Vorhersage erreicht wird.

Im Bereich Eingabe können Sie dem Modell Einflussfaktoren hinzufügen, um verschiedene Szenarien zu untersuchen.

Verwenden des Ausgabebereichs

In diesem Modell soll zuerst der Einfluss verschiedener Faktoren auf die Dienstqualität dargestellt werden. Hierzu können Sie aus der Liste der Ausgabeattribute Service Grade auswählen und anschließend verschiedene Dienstebenen vergleichen, indem Sie Bereiche in den Dropdownlisten für Wert 1 und Wert 2 auswählen.

So vergleichen Sie die niedrigste und die höchste Dienstqualität

  1. Wählen Sie für Wert 1 den Bereich mit den niedrigsten Werten aus. Zum Beispiel stellt der Bereich 0,0 bis 0,7 die niedrigsten Abbruchraten und damit die bestmögliche Dienstqualität dar.

    HinweisHinweis

    Die genauen Werte in diesem Bereich variieren ggf. abhängig davon, wie Sie das Modell konfiguriert haben.

  2. Wählen Sie für Wert 2 den Bereich mit den höchsten Werten aus. Zum Beispiel stellt der Bereich mit Werten wie >= 0,12 die höchsten Abbruchraten und damit die schlechteste Dienstqualität dar.

    Der Inhalt des Bereichs Variablen wird aktualisiert, um die Attribute vergleichen zu können, die sich auf die Ergebniswerte auswirken. Die linke Spalte zeigt die Attribute an, die der besten Dienstqualität zugeordnet sind, und die rechte Spalte die Attribute für die schlechteste Dienstqualität.

Verwenden des Variablenbereichs

Nachdem Sie die Ergebnisse konfiguriert haben, die Sie mit dem Bereich Ausgabe vergleichen möchten, können Sie die Liste Variablen verwenden, um zu ermitteln, wie die einzelnen Variablen zu diesem Ergebnis beitragen. In diesem Modell sind die drei wichtigsten Faktoren, die zwischen der höchsten und niedrigsten Dienstqualität unterscheiden Average Time Per Issue, Orders und Day Of Week.Der Bereich Variablen enthält auch ausführliche Statistiken zur Wichtigkeit der einzelnen beteiligten Variablen.

So können Sie Wahrscheinlichkeits- und Prognosegüteergebnisse für ein Attribut anzeigen und kopieren

  1. Zeigen Sie mit dem Mauszeiger im Bereich Variablen auf die farbige Leiste in der ersten Zeile.

    Diese farbige Leiste zeigt an, wie stark sich Average Time Per Issue auf die Dienstqualität auswirkt. Die QuickInfo zeigt das Gesamtergebnis, die Wahrscheinlichkeiten und die Prognosegüteergebnisse für jede Kombination einer Variablen mit einem Zielergebnis an.

  2. Klicken Sie im Bereich Variablen mit der rechten Maustaste auf eine farbige Leiste, und wählen Sie Kopieren aus.

  3. Klicken Sie in einem Excel-Arbeitsblatt mit der rechten Maustaste auf eine Zelle, und wählen Sie Einfügen aus.

    Der Bericht wird als HTML-Tabelle eingefügt und zeigt nur die Ergebnisse für jede Leiste an.

  4. Klicken Sie in einem anderen Excel-Arbeitsblatt mit der rechten Maustaste auf eine Zelle, und wählen Sie Inhalte einfügen aus.

    Der Bericht wird im Textformat eingefügt und enthält die verwandten Statistiken, die im nächsten Abschnitt beschrieben werden.

Verwenden des Eingabebereichs

Angenommen, Sie interessieren sich für die Auswirkungen eines bestimmten Faktors, z. B. für den Tag der Woche, die Schicht oder die Anzahl der Bestellungen. Sie können im Bereich Eingabe eine bestimmte Variable auswählen. Der Bereich Variablen wird automatisch aktualisiert und zeigt einen Vergleich der zwei zuvor ausgewählten Gruppen basierend auf der angegebenen Variablen an. Sie können Faktoren, die das Zielergebnis beeinflussen können, mithilfe dieser Informationen untersuchen. Die ursprüngliche Überprüfung des Modells hat z. B. ergeben, dass die Dienstqualität am Montag und Dienstag besser und am Donnerstag eher schlecht war. Daher überprüfen Sie die beitragenden Faktoren.

So überprüfen Sie die Auswirkungen auf die Dienstqualität beim Ändern von Eingabeattributen

  1. Wählen Sie im Bereich Eingabe für Attribut die Option Day Of Week aus.

  2. Wählen Sie für Wert die Option Donnerstag aus.

    Der Bereich Variablen wird aktualisiert, um den Einfluss aller anderen Variablen anzuzeigen, wenn der Wochentag Donnerstag ist. Alle anderen Benutzerauswahlen bleiben unverändert. Es werden nach wie vor die niedrigste und die höchste Dienstqualität verglichen.

  3. Ändern Sie den Tag der Woche für Wert in Samstag.

    Der Bereich Variablen wird aktualisiert, um die Variablen anzuzeigen, die die Dienstqualität an Samstagen am stärksten beeinflussen.

  4. Klicken Sie im Bereich Eingabe unter Attribut auf die nächste leere Zeile, und wählen Sie Shift aus. Wählen Sie für Wert die Option AM aus.

    Der Liste wird eine neue Eingabebedingung hinzugefügt. Der Bereich Variablen wird aktualisiert und zeigt die Auswirkungen auf das Modell für eine bestimmte Schicht am bereits gewählten Wochentag an.

  5. Ändern Sie die Werte für Shift und Day Of Week fortlaufend, um nach interessanten Korrelationen zwischen der Dienstqualität und diesen Variablen zu suchen.

HinweisHinweis

Wenn Sie den Bereich Eingabe löschen möchten, damit Sie andere Attribute verwenden können, klicken Sie auf Viewerinhalt aktualisieren.

Interpretieren der im Viewer bereitgestellten Statistiken

Längere Wartezeiten sind ein wesentlicher Vorhersagefaktor für eine hohe Abbruchrate und bedeuten eine schlechte Dienstqualität. Diese Schlussfolgerung scheint zunächst offensichtlich. Das Miningmodell stellt Ihnen jedoch einige zusätzliche statistische Daten bereit, mit denen Sie diese Trends umfassender interpretieren können.

  • Ergebnis: Wert, der die Gesamtbedeutung dieser Variablen für die Unterschiede zwischen verschiedenen Ergebnissen anzeigt. Je höher das Ergebnis, desto stärker wirkt sich die Variable auf das Ergebnis aus.

  • Wahrscheinlichkeit von Wert 1: Prozentsatz, der die Wahrscheinlichkeit dieses Werts bei diesem Ergebnis angibt.

  • Wahrscheinlichkeit von Wert 2: Prozentsatz, der die Wahrscheinlichkeit dieses Werts bei diesem Ergebnis angibt.

  • Prognosegüte für Wert 1 und Prognosegüte für Wert 2: Ergebnisse, die die Auswirkungen dieser bestimmten Variablen auf die Vorhersagen für die Werte 1 und 2 angeben. Je höher das Ergebnis, desto besser sind die Ergebnisse, die mit dieser Variablen ermittelt werden können.

Wie sollten Sie diese Informationen interpretieren? Beachten Sie beispielsweise bei einem Vergleich der höchsten mit den niedrigsten Dienstqualitäten die Auswirkungen von Average Time Per Issue. Das Modell listet einige Wertebereiche für Average Time Per Issue, and provides these statistics: auf und gibt die folgenden Statistiken an: Die Wahrscheinlichkeit von Wert 1 ist 60,6 % und die Wahrscheinlichkeit von Wert 2 8,30 %. Dies bedeutet, dass für Average Time Per Issue im Bereich von 44 bis 70 Minuten 60,6 % der Fälle in der Schicht mit den höchsten Dienstqualitäten (Wert 1) und 8,30 % der Fälle in der Schicht mit den niedrigeren Dienstqualitäten lagen (Wert 2).

Aus diesen Informationen lassen sich mehrere Schlussfolgerungen ableiten. Kürzere Antwortzeiten (der Bereich von 44-70) wirken sich sehr stark auf eine bessere Dienstqualität (der Bereich 0,00-0,07) aus. Das Ergebnis (92,35) besagt, dass diese Variable sehr wichtig ist.

Andere Faktoren haben jedoch Auswirkungen, die weniger offensichtlich und schwieriger zu interpretieren sind. Zum Beispiel scheint sich die Schicht auf die Dienstqualität auszuwirken, aber dies variiert je nach Wochentag. Außerdem weisen die Prognosegüteergebnisse und die relativen Wahrscheinlichkeiten darauf hin, dass die Schicht kein wichtiger Faktor ist.

Der Wert eines neuronalen Netzwerkmodells besteht darin, dass es sehr feine Beziehungen offenlegt, die mithilfe von standardmäßigen Analysefunktionen nur sehr schwer zu erkennen wären. Sie müssen etwas Zeit investieren, um das Modell zu untersuchen und die Beziehungen zu interpretieren, indem Sie Ihr eigenes Wissen zum jeweiligen Geschäftsproblem zu Rate ziehen.

Zurück zum Anfang

Microsoft Generic Content Tree Viewer

Mit diesem Viewer können Sie die vom Algorithmus bei der Modellverarbeitung erstellten Informationen noch ausführlicher untersuchen. Der MicrosoftGeneric Content Tree Viewer zeigt das Miningmodell als eine Reihe von Knoten an, in der jeder Knoten gelerntes Wissen über die Trainingsdaten darstellt. Dieser Viewer kann mit allen Modellen verwendet werden, die Inhalte der Knoten variieren jedoch abhängig vom Modelltyp.

Bei neuronalen Netzwerkmodellen oder logistischen Regressionsmodellen kann z. B. der marginal statistics node sehr nützlich sein. Dieser Knoten enthält abgeleitete Statistiken über die Werteverteilung in den Daten. Diese Informationen können nützlich sein, um ohne die Ausführung vieler T-SQL-Abfragen schnell eine Zusammenfassung der Daten zu erhalten. Das Diagramm mit Klassifizierungswerten im vorherigen Thema wurde aus dem Knoten für Randstatistiken abgeleitet.

So rufen Sie eine Zusammenfassung der Datenwerte aus dem Miningmodell ab

  1. Wählen Sie im Data Mining-Designer auf der Registerkarte Miningmodell-Viewer die Option <Miningmodellname> aus.

  2. Wählen Sie in der Liste Viewer die Option Microsoft Generic Content Tree Viewer aus.

    Die Ansicht des Miningmodells wird aktualisiert und zeigt im linken Bereich eine Knotenhierarchie und im rechten Bereich eine HTML-Tabelle an.

  3. Klicken Sie im Bereich Knotenbeschriftung auf den Knoten mit dem Namen 10000000000000000.

    Der oberste Knoten in jedem Modell ist immer der Modellstammknoten. In einem neuronalen Netzwerk oder logistischen Regressionsmodell ist der Knoten direkt unter diesem der Knoten für Randstatistiken.

  4. Führen Sie im Bereich Knotendetails einen Bildlauf nach unten bis zur Zeile NODE_DISTRIBUTION durch.

  5. Führen Sie einen Bildlauf in der NODE_DISTRIBUTION-Tabelle aus, um die Werteverteilung anzuzeigen, die vom Neural Network-Algorithmus berechnet wurde.

    Wenn Sie diese Daten in einem Bericht verwenden möchten, können Sie die Informationen für bestimmte Zeilen auswählen und anschließend kopieren, oder Sie können mit der folgenden DMX-Abfrage (Data Mining Extensions) den gesamten Inhalt des Knotens extrahieren.

    SELECT * 
    FROM [Call Center Binned NN].CONTENT
    WHERE NODE_NAME = '10000000000000000'
    

Sie können auch die Knotenhierarchie und die Details in der Tabelle NODE_DISTRIBUTION verwenden, um einzelne Pfade im neuronalen Netzwerk zu durchlaufen und Statistiken der verborgenen Ebene anzuzeigen. Weitere Informationen finden Sie unter Abfragen eines neuronalen Netzwerkmodells (Analysis Services – Data Mining).

Zurück zum Anfang

Datenquellensicht-Designer

Diesen Viewer verwenden Sie beim Erstellen einer Miningstruktur oder eines Cubes. Der Viewer stellt aber auch eine Sammlung von Tools bereit, die zum besseren Verständnis der Quelldaten dienen können. Wenn das Modell z. B. einen Trend ermittelt hat, den Sie nicht vollständig verstehen, können Sie einzelne Zeilen in den zugrunde liegenden Daten überprüfen oder Zusammenfassungen und Diagramme erstellen, um die Beziehungen besser zu verdeutlichen.

Dieser Abschnitt enthält ein Beispiel dafür, wie Sie den Datenquellensicht-Designer verwenden können, um vom Modell aufgedeckte Trends zu untersuchen, ohne dass Sie dafür Daten nach Excel kopieren oder mehrere T-SQL-Abfragen auf der Datenquelle ausführen müssen.

In diesem Szenario werden Sie einige Diagramme erstellen, die die Korrelation zwischen Antwortzeit und Dienstqualität, die vom Modell ermittelt wurde, grafisch darstellen.

So erstellen Sie eine PivotChart, die einen Trend aus dem Miningmodell veranschaulicht

  1. Doppelklicken Sie im Projektmappen-Explorer unter Datenquellensichten auf Call Center.dsv.

  2. Klicken Sie auf der Registerkarte Call Center.dsv mit der rechten Maustaste auf die Tabelle FactCallCenter, und wählen Sie Daten durchsuchen aus.

    Eine neue Registerkarte mit dem Titel FactCallCenter-Tabelle durchsuchen wird geöffnet. Diese Registerkarte enthält vier Abschnitte auf verschiedenen Registerkarten: Tabelle, PivotTable, Diagramm und PivotChart.

  3. Klicken Sie auf die Registerkarte PivotChart.

  4. Wählen Sie in der Diagramm-Feldliste die Option AverageTimePerIssue aus, und ziehen Sie sie dann auf die Diagrammfläche in das Feld mit der Bezeichnung Kategorienfelder hier ablegen.

    Da die Quelldaten aus einer flachen Tabelle stammen, enthält die Hierarchie in der Diagramm-Feldliste die gleichen Informationen auf der Hierarchieebene und auf der Feldebene. Wenn Sie jedoch mit einem Cube oder einer Dimension arbeiten, kann die Hierarchie mehrere Elemente enthalten. Zum Beispiel könnte eine Datumshierarchie Felder wie Quartal, Monat oder Tag enthalten. Sie können entweder die ganze Hierarchie oder ein einzelnes Element der Hierarchie ins Diagramm ziehen.

  5. Suchen Sie in der Diagramm-Feldliste nach ServiceGrade, und ziehen Sie den Eintrag in die Mitte der Diagrammfläche.

    Das Diagramm wird aktualisiert, und am oberen Rand des Diagramms wird ein Feld mit der Bezeichnung Summe von ServiceGrade hinzugefügt.

  6. Klicken Sie in der Symbolleiste auf das Sigma-Symbol, und wählen Sie Mittelwert aus.

    Der Titel wird zu Durchschnitt von ServiceGrade aktualisiert.

  7. Wählen Sie Shift in der Diagramm-Feldliste aus, und ziehen Sie den Eintrag anschließend auf die Diagrammfläche in das Feld mit der Bezeichnung Filterfelder hierher ziehen. Ziehen Sie WageType aus der Diagramm-Feldliste, und legen Sie den Eintrag neben Shift ab.

    Jetzt können Sie nach Schicht filtern, um zu überprüfen, ob sich der Trend abhängig von der Schicht oder abhängig davon ändert, ob der Tag ein Feiertag oder ein Arbeitstag ist.

  8. Wählen Sie AverageTimePerIssue am unteren Rand des Diagramms aus, und ziehen Sie das Element zurück in die Diagramm-Feldliste.

  9. Wählen Sie in der Diagramm-Feldliste den Eintrag AverageTimePerLevelTwoOperators aus, und ziehen Sie ihn dann auf die Diagrammfläche in das Feld mit der Bezeichnung Kategorienfelder hier ablegen.

    Das Diagramm wird aktualisiert, um die Korrelation zwischen einer Erhöhung der Telefonisten und der durchschnittlichen Dienstqualität anzuzeigen. Es scheint sich nicht um eine lineare Beziehung zu handeln. Sie können weiter experimentieren, indem Sie neue Felder im Diagramm ablegen oder den Diagrammtyp ändern.

Beachten Sie jedoch, dass diese Diagramme normalerweise nur einige wenige Attribute gleichzeitig darstellen können. Der Neural Network-Algorithmus hingegen analysiert zahlreiche komplexe Interaktionen zwischen einer Vielzahl von Eingaben. Das neuronale Netzwerkmodell erkennt außerdem viele Korrelationen, die für die Darstellung in einem Diagramm nicht deutlich genug sind.

Wenn Sie das Abhängigkeitsnetzwerk-Diagramm eines neuronalen Netzwerkmodells exportieren möchten, können Sie auch die Data Mining-Vorlagen für Visio verwenden. Dieses frei verfügbare Add-In für Visio 2007 stellt ausgereifte, vom Benutzer anpassbare Diagramme für Data Mining-Modelle bereit, die Sie für Präsentationen oder Berichte verwenden können. Weitere Informationen finden Sie unter Data Mining Add-ins for Office 2007.

Zurück zum Anfang

Änderungsverlauf

Aktualisierter Inhalt

Die Miningmodellnamen wurden in Vorhersagen und DDL-Anweisungen korrigiert, um dem aktualisierten Szenario zu entsprechen.

Das Modell wurde um den Wochentag erweitert. Die Statistiktabelle des vorherigen Modells wurde gelöscht. Die Auswirkungen der Wochentagfunktion wurden beschrieben.