Prüfen des Callcentermodells (Data Mining-Lernprogramm für Fortgeschrittene)

Artikel
05/07/2013

Nachdem Sie nun das explorative Modell erstellt haben, können Sie es verwenden, um die Daten genauer zu untersuchen. Verwenden Sie dazu die folgenden Tools, die in SQL Server-Datentools (SSDT) bereitgestellt werden.

Microsoft-Viewer für neuronale Netzwerke**:** Dieser Viewer ist im Data Mining-Designer auf der Registerkarte Miningmodell-Viewer verfügbar und wurde entwickelt, um Ihnen das Experimentieren mit Interaktionen in den Daten zu ermöglichen.
Microsoft Generic Content Tree Viewer**:** Dieser Standardviewer stellt ausführliche Details zu den Mustern und Statistiken bereit, die vom Algorithmus beim Generieren des Modells ermittelt wurden.

Microsoft-Viewer für neuronale Netzwerke

Der Viewer verfügt über drei Bereiche – Eingabe, Ausgabe und Variablen.

Im Bereich Ausgabe können Sie unterschiedliche Werte für das vorhersagbare Attribut oder die abhängige Variable auswählen. Wenn das Modell mehrere vorhersagbare Attribute enthält, können Sie das Attribut in der Liste Ausgabeattribut auswählen.

Der Bereich Variablen vergleicht die zwei Ergebnisse, die Sie durch die angegebenen Attribute oder Variablen ausgewählt haben. Die farbigen Leisten stellen visuell dar, wie stark sich die Variable auf die Zielergebnisse auswirkt. Sie können auch Liftergebnisse für die Variablen anzeigen. Ein Liftergebnis wird abhängig vom verwendeten Miningmodelltyp unterschiedlich berechnet, gibt jedoch i. d. R. Aufschluss über die Verbesserung im Modell, die beim Verwenden dieses Attributs für die Vorhersage erreicht wird.

Im Bereich Eingabe können Sie dem Modell Einflussfaktoren hinzufügen, um verschiedene Szenarien zu untersuchen.

Verwenden des Ausgabebereichs

In diesem Modell soll zuerst der Einfluss verschiedener Faktoren auf die Dienstqualität dargestellt werden. Hierzu können Sie aus der Liste der Ausgabeattribute Service Grade auswählen und anschließend verschiedene Dienstebenen vergleichen, indem Sie Bereiche in den Dropdownlisten für Wert 1 und Wert 2 auswählen.

So vergleichen Sie die niedrigste und die höchste Dienstqualität

Wählen Sie für Wert 1 den Bereich mit den niedrigsten Werten aus. Zum Beispiel stellt der Bereich 0-0-0,7 die niedrigsten Abbruchraten dar und damit die bestmögliche Dienstqualität.

Hinweis

Die genauen Werte in diesem Bereich variieren ggf. abhängig davon, wie Sie das Modell konfiguriert haben.
Wählen Sie für Wert 2 den Bereich mit den höchsten Werten aus. So stellt beispielsweise der Bereich mit dem Wert >= 0,12 die höchsten Abbruchraten dar und damit die schlechteste Dienstqualität. Der Wert bedeutet, dass 12% der eingehenden Kundenanrufe während dieser Schicht nicht durchgestellt werden konnten und der Kunde wieder aufgelegt hat.

Der Inhalt des Bereichs Variablen wird aktualisiert, um die Attribute vergleichen zu können, die sich auf die Ergebniswerte auswirken. Die linke Spalte zeigt die Attribute an, die der besten Dienstqualität zugeordnet sind, und die rechte Spalte die Attribute für die schlechteste Dienstqualität.

Hinweis
Die genauen Werte in diesem Bereich variieren ggf. abhängig davon, wie Sie das Modell konfiguriert haben.

Verwenden des Variablenbereichs

In diesem Modell scheint Average Time Per Issue ein wichtiger Faktor zu sein. Diese Variable gibt die durchschnittliche Zeit an, nach der ein Aufruf beantwortet wird, unabhängig vom Anruftyp.

So können Sie Wahrscheinlichkeits- und Liftergebnisse für ein Attribut anzeigen und kopieren

Zeigen Sie mit dem Mauszeiger im Bereich Variablen auf die farbige Leiste in der ersten Zeile.

Diese farbige Leiste zeigt an, wie stark sich Average Time Per Issue auf die Dienstqualität auswirkt. Die QuickInfo zeigt das Gesamtergebnis, die Wahrscheinlichkeiten und die Liftergebnisse für jede Kombination einer Variablen mit einem Zielergebnis an.
Klicken Sie im Bereich Variablen mit der rechten Maustaste auf eine farbige Leiste, und wählen Sie Kopieren aus.
Klicken Sie in einem Excel-Arbeitsblatt mit der rechten Maustaste auf eine Zelle, und wählen Sie Einfügen aus.

Der Bericht wird als HTML-Tabelle eingefügt und zeigt nur die Ergebnisse für jede Leiste an.
Klicken Sie in einem anderen Excel-Arbeitsblatt mit der rechten Maustaste auf eine Zelle, und wählen Sie Inhalte einfügen aus.

Der Bericht wird im Textformat eingefügt und enthält die verwandten Statistiken, die im nächsten Abschnitt beschrieben werden.

Verwenden des Eingabebereichs

Angenommen, Sie interessieren sich für die Auswirkungen eines bestimmten Faktors, z. B. für die Schicht oder die Anzahl der Telefonisten. Sie können im Bereich Eingabe eine bestimmte Variable auswählen. Der Bereich Variablen wird automatisch aktualisiert und zeigt einen Vergleich der zwei zuvor ausgewählten Gruppen basierend auf der angegebenen Variable an.

So überprüfen Sie die Auswirkungen auf die Dienstqualität beim Ändern von Eingabeattributen

Wählen Sie im Bereich Eingabe für Attribut die Option Shift aus.
Wählen Sie für Wert "AM" aus.

Der Bereich Variablen wird aktualisiert und zeigt die Auswirkungen auf das Modell für die Schicht "AM" an. Alle anderen Benutzerauswahlen bleiben unverändert. Es werden nach wie vor die niedrigste und die höchste Dienstqualität verglichen.
Wählen Sie für Wert die Option "PM1" aus.

Der Bereich Variablen wird aktualisiert und zeigt die Auswirkungen auf das Modell bei einer Änderung der Schicht an.
Klicken Sie im Bereich Eingabe unter Attribut auf die nächste leere Zeile, und wählen Sie Calls aus. Wählen Sie für Wert den Bereich aus, der die größte Anzahl von Anrufen angibt.

Der Liste wird eine neue Eingabebedingung hinzugefügt. Der Bereich Variablen wird aktualisiert und zeigt die Auswirkungen auf das Modell für eine besondere Schicht an, wenn das Anrufaufkommen am höchsten ist.
Ändern Sie weiter die Werte für Shift und Calls, um ein genaues Bild der Wechselwirkungen zwischen den Werten für Schicht, Anrufaufkommen und Dienstqualität zu bekommen.

Hinweis

Wenn Sie den Bereich Eingabe löschen möchten, damit Sie andere Attribute verwenden können, klicken Sie auf Viewerinhalt aktualisieren.

Hinweis
Wenn Sie den Bereich Eingabe löschen möchten, damit Sie andere Attribute verwenden können, klicken Sie auf Viewerinhalt aktualisieren.

Interpretieren der im Viewer bereitgestellten Statistiken

Längere Wartezeiten sind ein wesentlicher Vorhersagefaktor für eine hohe Abbruchrate und bedeuten eine schlechte Dienstqualität. Diese Schlussfolgerung scheint zunächst offensichtlich. Das Miningmodell stellt Ihnen jedoch einige zusätzliche statistische Daten bereit, mit denen Sie diese Trends umfassender interpretieren können.

Ergebnis: Wert, der die Gesamtbedeutung dieser Variablen für die Unterschiede zwischen verschiedenen Ergebnissen anzeigt. Je höher das Ergebnis, desto stärker wirkt sich die Variable auf das Ergebnis aus.
Wahrscheinlichkeit von Wert 1: Prozentsatz, der die Wahrscheinlichkeit dieses Werts bei diesem Ergebnis angibt.
Wahrscheinlichkeit von Wert 2: Prozentsatz, der die Wahrscheinlichkeit dieses Werts bei diesem Ergebnis angibt.
Lift für Wert 1 und Lift für Wert 2: Ergebnisse, die die Auswirkungen dieser bestimmten Variablen auf die Vorhersagen für die Werte 1 und 2 angeben. Je höher das Ergebnis, desto besser sind die Ergebnisse, die mit dieser Variablen ermittelt werden können.

Die folgende Tabelle enthält einige Beispielwerte für die wichtigsten Einflussfaktoren. Angenommen, die Wahrscheinlichkeit von Wert 1 wäre 60,6% und die Wahrscheinlichkeit von Wert 2 8,3%. Das heißt, bei einer Average Time Per Issue im Bereich von 44-70 Minuten waren 60,6% der Fälle in der Schicht mit den höchsten Dienstqualitäten (Wert 1) und 8,3% der Fälle in der Schicht mit den schlechtesten Dienstqualitäten (Wert 2).

Aus diesen Informationen lassen sich mehrere Schlussfolgerungen ableiten. Kürzere Antwortzeiten (der Bereich von 44-70) wirken sich sehr stark auf eine bessere Dienstqualität (der Bereich 0,00-0,07) aus. Das Ergebnis (92,35) besagt, dass diese Variable sehr wichtig ist.

Wenn Sie jedoch die Liste der Faktoren genauer überprüfen, finden Sie einige andere Faktoren, die weniger deutliche Auswirkungen haben und schwieriger zu interpretieren sind. Zum Beispiel scheint die Schicht die Dienstqualität zu beeinflussen, aber das Liftergebnis und die relativen Wahrscheinlichkeiten geben an, dass die Schicht kein Hauptfaktor ist.

Durchschnittszeit pro Problem

89.087 - 120.000

Ergebnis: 100

Wahrscheinlichkeit von Wert 1: 4,45 %

Wahrscheinlichkeit von Wert 2: 51,94 %

Lift für Wert 1: 0,19

Lift für Wert 2: 1,94

Average Time Per Issue

44.000 - 70.597

Ergebnis: 92,35

Wahrscheinlichkeit von Wert 1: 60,06 %

Wahrscheinlichkeit von Wert 2: 8,30 %

Lift für Wert 1: 2,61

Lift für Wert 2: 0,31

Zurück zum Anfang

Microsoft Generic Content Tree Viewer

Mit diesem Viewer können Sie die vom Algorithmus bei der Modellverarbeitung erstellten Informationen noch ausführlicher untersuchen. Der Microsoft Generic Content Tree Viewer zeigt das Miningmodell als eine Reihe von Knoten an, in der jeder Knoten gelerntes Wissen über die Trainingsdaten darstellt. Dieser Viewer kann mit allen Modellen verwendet werden, die Inhalte der Knoten variieren jedoch abhängig vom Modelltyp.

Bei neuronalen Netzwerkmodellen oder logistischen Regressionsmodellen kann z. B. der marginal statistics node sehr nützlich sein. Dieser Knoten enthält abgeleitete Statistiken über die Werteverteilung in den Daten. Diese Informationen können nützlich sein, um ohne die Ausführung vieler T-SQL-Abfragen schnell eine Zusammenfassung der Daten zu erhalten. Das Diagramm mit Klassifizierungswerten im vorherigen Thema wurde aus dem Knoten für Randstatistiken abgeleitet.

So rufen Sie eine Zusammenfassung der Datenwerte aus dem Miningmodell ab

Wählen Sie im Data Mining-Designer auf der Registerkarte Miningmodell-Viewer die Option <Miningmodellname> aus.
Wählen Sie in der Liste Viewer die Option Microsoft Generic Content Tree Viewer aus.

Die Ansicht des Miningmodells wird aktualisiert und zeigt im linken Bereich eine Knotenhierarchie und im rechten Bereich eine HTML-Tabelle an.
Klicken Sie im Bereich Knotenbeschriftung auf den Knoten mit dem Namen 10000000000000000.

Der oberste Knoten in jedem Modell ist immer der Modellstammknoten. In einem neuronalen Netzwerk oder logistischen Regressionsmodell ist der Knoten direkt unter diesem der Knoten für Randstatistiken.
Führen Sie im Bereich Knotendetails einen Bildlauf nach unten bis zur Zeile NODE_DISTRIBUTION durch.
Führen Sie einen Bildlauf nach unten bis zur Tabelle NODE_DISTRIBUTION durch, um die Werteverteilung anzuzeigen, die vom Neural Network-Algorithmus berechnet wurde.

Wenn Sie diese Daten in einem Bericht verwenden möchten, können Sie die Informationen für bestimmte Zeilen auswählen und anschließend kopieren, oder Sie können mit der folgenden DMX-Abfrage (Data Mining Extensions) den gesamten Inhalt des Knotens extrahieren.

SELECT * 
FROM [Call Center EQ4].CONTENT
WHERE NODE_NAME = '10000000000000000'

Sie können auch die Knotenhierarchie und die Details in der Tabelle NODE_DISTRIBUTION verwenden, um einzelne Pfade im neuronalen Netzwerk zu durchlaufen und Statistiken in der verborgenen Ebene anzuzeigen. Weitere Informationen finden Sie unter Neuronale Beispiele für Netzwerkmodellabfragen.

Zurück zum Anfang

Nächste Aufgabe in dieser Lektion

Hinzufügen eines logistischen Regressionsmodells zur Callcenterstruktur (Data Mining-Lernprogramm für Fortgeschrittene)

Siehe auch