Prüfen des Callcentermodells (Data Mining-Lernprogramm für Fortgeschrittene)

Artikel
10/11/2016

Gilt für: SQL Server 2016 Preview

Nachdem Sie nun das explorative Modell erstellt haben, können Sie es verwenden, um die Daten genauer zu untersuchen. Verwenden Sie dazu die folgenden Tools, die in SQL Server Data Tools (SSDT) bereitgestellt werden.

Microsoft-Viewer für neuronale Netzwerke**:** dieser Viewer steht in den Miningmodell-Viewer Registerkarte des Data Mining-Designer und soll Ihnen das Experimentieren mit Interaktionen in den Daten zu helfen.
Microsoft Generic Content Tree Viewer**:** dieser Standardviewer stellt ausführliche Details über die Muster und Statistiken vom Algorithmus beim Generieren des Modells ermittelt wurden.

Microsoft-Viewer für neuronale Netzwerke

Der Viewer verfügt über drei Bereiche – Eingabe, Ausgabe, und Variablen.

Mithilfe der Ausgabe Bereich können Sie verschiedene Werte für das vorhersagbare Attribut oder die abhängige Variable auswählen. Wenn das Modell mehrere vorhersagbare Attribute enthält, können Sie auswählen, dass das Attribut aus der Ausgabeattribut Liste.

Die Variablen Bereich vergleicht die zwei Ergebnisse, die Sie in Bezug auf die angegebenen Attribute oder Variablen ausgewählt haben. Die farbigen Leisten stellen visuell dar, wie stark sich die Variable auf die Zielergebnisse auswirkt. Sie können auch Liftergebnisse für die Variablen anzeigen. Ein Liftergebnis wird abhängig vom verwendeten Miningmodelltyp unterschiedlich berechnet, gibt jedoch i. d. R. Aufschluss über die Verbesserung im Modell, die beim Verwenden dieses Attributs für die Vorhersage erreicht wird.

Die Eingabe Bereich können Sie das Modell zum Ausprobieren der verschiedenen Szenarien Einflussfaktoren hinzufügen.

Verwenden des Ausgabebereichs

In diesem Modell soll zuerst der Einfluss verschiedener Faktoren auf die Dienstqualität dargestellt werden. Zu diesem Zweck können Sie wählen Sie aus der Liste der Ausgabeattribute Dienstqualität und anschließend verschiedene Dienstebenen vergleichen, indem Sie Bereiche in den Dropdownlisten für Auswahl Wert 1 und Wert 2.

So vergleichen Sie die niedrigste und die höchste Dienstqualität

Für Wert 1, wählen Sie den Bereich mit den niedrigsten Werten. Zum Beispiel stellt der Bereich 0-0-0,7 die niedrigsten Abbruchraten dar und damit die bestmögliche Dienstqualität.

Hinweis

Die genauen Werte in diesem Bereich variieren ggf. abhängig davon, wie Sie das Modell konfiguriert haben.
Für Wert 2, wählen Sie den Bereich mit den höchsten Werten. So stellt beispielsweise der Bereich mit dem Wert >= 0,12 die höchsten Abbruchraten dar und damit die schlechteste Dienstqualität. Der Wert bedeutet, dass 12% der eingehenden Kundenanrufe während dieser Schicht nicht durchgestellt werden konnten und der Kunde wieder aufgelegt hat.

Der Inhalt der Variablen Bereich werden aktualisiert, um die Attribute zu vergleichen, die auf die Ergebniswerte auswirken. Die linke Spalte zeigt die Attribute an, die der besten Dienstqualität zugeordnet sind, und die rechte Spalte die Attribute für die schlechteste Dienstqualität.

Verwenden des Variablenbereichs

In diesem Modell scheint Average Time Per Issue ist ein wichtiger Faktor. Diese Variable gibt die durchschnittliche Zeit an, nach der ein Aufruf beantwortet wird, unabhängig vom Anruftyp.

So können Sie Wahrscheinlichkeits- und Liftergebnisse für ein Attribut anzeigen und kopieren

In der Variablen Bereich, halten Sie die Maus über die farbige Leiste in der ersten Zeile.

Diese farbige Leiste zeigt an, wie stark Average Time Per Issue auf die Dienstqualität beiträgt. Die QuickInfo zeigt das Gesamtergebnis, die Wahrscheinlichkeiten und die Liftergebnisse für jede Kombination einer Variablen mit einem Zielergebnis an.
In der Variablen Bereich mit der rechten Maustaste alle farbige Leiste, und wählen Sie Kopieren.
Klicken Sie in einem Excel-Arbeitsblatt mit der rechten Maustaste in eine beliebige Zelle, und wählen Sie Einfügen.

Der Bericht wird als HTML-Tabelle eingefügt und zeigt nur die Ergebnisse für jede Leiste an.
Klicken Sie in einem anderen Excel-Arbeitsblatt mit der rechten Maustaste in eine beliebige Zelle, und wählen Sie Einfügen.

Der Bericht wird im Textformat eingefügt und enthält die verwandten Statistiken, die im nächsten Abschnitt beschrieben werden.

Verwenden des Eingabebereichs

Angenommen, Sie interessieren sich für die Auswirkungen eines bestimmten Faktors, z. B. für die Schicht oder die Anzahl der Telefonisten. Sie können eine bestimmte Variable auswählen, mit der Eingabe Bereich und die Variablen Bereich wird automatisch aktualisiert, um den Vergleich der zwei zuvor ausgewählten Gruppen basierend auf der angegebenen Variable.

So überprüfen Sie die Auswirkungen auf die Dienstqualität beim Ändern von Eingabeattributen

In der Eingabe Bereich für Attribut, wählen Sie die UMSCHALTTASTE gedrückt.
Für Wert, Option AM.

Die Variablen Bereich wird aktualisiert und zeigt die Auswirkung auf das Modell, die Schicht AM. Alle anderen Benutzerauswahlen bleiben unverändert. Es werden nach wie vor die niedrigste und die höchste Dienstqualität verglichen.
Für Wert, wählen 1.

Die Variablen Bereich wird aktualisiert und zeigt die Auswirkung auf das Modell, bei der Änderung der Schicht an.
In der Eingabe Bereich, klicken Sie auf die nächste leere Zeile unter Attribut, und wählen Sie aufrufen. Für Wert, wählen Sie den Bereich, der die größte Anzahl von Anrufen angibt.

Der Liste wird eine neue Eingabebedingung hinzugefügt. Die Variablen Bereich wird aktualisiert und zeigt die Auswirkungen auf das Modell für eine bestimmte Schicht, wenn das Anrufaufkommen am höchsten ist.
Ändern Sie weiter die Werte für Schicht und Anrufe, um ein genaues Bild der Wechselwirkungen zwischen den Werten für Schicht, Anrufaufkommen und Dienstqualität zu bekommen.

Hinweis

So löschen Sie die Eingabe damit Sie andere Attribute verwenden können klicken Sie dann auf Viewerinhalt.

Interpretieren der im Viewer bereitgestellten Statistiken

Längere Wartezeiten sind ein wesentlicher Vorhersagefaktor für eine hohe Abbruchrate und bedeuten eine schlechte Dienstqualität. Diese Schlussfolgerung scheint zunächst offensichtlich. Das Miningmodell stellt Ihnen jedoch einige zusätzliche statistische Daten bereit, mit denen Sie diese Trends umfassender interpretieren können.

Bewertung: Wert, der die Bedeutung dieser Variablen für die Unterscheidung zwischen Ergebnisse angibt. Je höher das Ergebnis, desto stärker wirkt sich die Variable auf das Ergebnis aus.
Wahrscheinlichkeit von Wert 1: Prozentsatz, die Wahrscheinlichkeit dieses Werts bei diesem Ergebnis angibt.
Wahrscheinlichkeit von Wert 2: Prozentsatz, die Wahrscheinlichkeit dieses Werts bei diesem Ergebnis angibt.
Lift für Wert 1 und Lift für Wert 2: Ergebnisse, die die Auswirkungen dieser bestimmten Variablen auf den Wert 1 und 2 Ergebnisse vorherzusagen. Je höher das Ergebnis, desto besser sind die Ergebnisse, die mit dieser Variablen ermittelt werden können.

Die folgende Tabelle enthält einige Beispielwerte für die wichtigsten Einflussfaktoren. Zum Beispiel die Wahrscheinlichkeit von Wert 1 ist 60,6 % und Wahrscheinlichkeit von Wert 2 ist 8,30 %, was bedeutet, dass bei Average Time Per Issue im Bereich von 44-70 Minuten wurde 60,6 % der Fälle in der Schicht mit den höchsten Dienstqualitäten (Wert 1 wurden) und 8,30 % der Fälle in der Schicht mit den schlechtesten Dienstqualitäten (Wert 2 wurden).

Aus diesen Informationen lassen sich mehrere Schlussfolgerungen ableiten. Kürzere Antwortzeiten (der Bereich von 44-70) wirken sich sehr stark auf eine bessere Dienstqualität (der Bereich 0,00-0,07) aus. Das Ergebnis (92,35) besagt, dass diese Variable sehr wichtig ist.

Wenn Sie jedoch die Liste der Faktoren genauer überprüfen, finden Sie einige andere Faktoren, die weniger deutliche Auswirkungen haben und schwieriger zu interpretieren sind. Zum Beispiel scheint die Schicht die Dienstqualität zu beeinflussen, aber das Liftergebnis und die relativen Wahrscheinlichkeiten geben an, dass die Schicht kein Hauptfaktor ist.

Attribut	Wert	Begünstigt < 0,07	Begünstigt >= 0,12
Average Time Per Issue	89.087 - 120.000		Ergebnis: 100 Wahrscheinlichkeit, dass Value1: 4,45 % Wahrscheinlichkeit von Wert 2: 51,94 % Lift für Value1: 0,19 Lift für Wert 2: 1,94
Average Time Per Issue	44.000 - 70.597	Ergebnis: 92,35 Wahrscheinlichkeit von Wert 1: 60,06 % Wahrscheinlichkeit von Wert 2: 8,30 % Lift für Wert 1: 2,61 Lift für Wert 2: 0,31

Zurück zum Anfang

Microsoft Generic Content Tree Viewer

Mit diesem Viewer können Sie die vom Algorithmus bei der Modellverarbeitung erstellten Informationen noch ausführlicher untersuchen. Die MicrosoftGeneric Content Tree Viewer zeigt das Miningmodell als eine Reihe von Knoten, und jeder Knoten Gelerntes wissen über die Trainingsdaten darstellt. Dieser Viewer kann mit allen Modellen verwendet werden, die Inhalte der Knoten variieren jedoch abhängig vom Modelltyp.

Für neuronale Netzwerke oder logistischen regressionsmodellen, finden Sie möglicherweise die randstatistik besonders nützlich. Dieser Knoten enthält abgeleitete Statistiken über die Werteverteilung in den Daten. Diese Informationen können nützlich sein, um ohne die Ausführung vieler T-SQL-Abfragen schnell eine Zusammenfassung der Daten zu erhalten. Das Diagramm mit Klassifizierungswerten im vorherigen Thema wurde aus dem Knoten für Randstatistiken abgeleitet.

So rufen Sie eine Zusammenfassung der Datenwerte aus dem Miningmodell ab

In Data Mining-Designer in der Miningmodell-Viewer Registerkarte .
Aus der Viewer Liste Microsoft Generic Content Tree Viewer.

Die Ansicht des Miningmodells wird aktualisiert und zeigt im linken Bereich eine Knotenhierarchie und im rechten Bereich eine HTML-Tabelle an.
In der Knotenbeschriftung Bereich, klicken Sie auf den Knoten mit dem Namen 10000000000000000.

Der oberste Knoten in jedem Modell ist immer der Modellstammknoten. In einem neuronalen Netzwerk oder logistischen Regressionsmodell ist der Knoten direkt unter diesem der Knoten für Randstatistiken.
In der Knotendetails Bereich einen Bildlauf nach unten, bis Sie die Zeile NODE_DISTRIBUTION gefunden.
Führen Sie einen Bildlauf nach unten bis zur Tabelle NODE_DISTRIBUTION durch, um die Werteverteilung anzuzeigen, die vom Neural Network-Algorithmus berechnet wurde.

Wenn Sie diese Daten in einem Bericht verwenden möchten, können Sie die Informationen für bestimmte Zeilen auswählen und anschließend kopieren, oder Sie können mit der folgenden DMX-Abfrage (Data Mining Extensions) den gesamten Inhalt des Knotens extrahieren.

SELECT *   
FROM [Call Center EQ4].CONTENT  
WHERE NODE_NAME = '10000000000000000'

Sie können auch die Knotenhierarchie und die Details in der Tabelle NODE_DISTRIBUTION verwenden, um einzelne Pfade im neuronalen Netzwerk zu durchlaufen und Statistiken in der verborgenen Ebene anzuzeigen. Weitere Informationen finden Sie unter neuronalen Netzwerkmodellabfragen.