Erstellen einer neuronalen Netzwerkstruktur und eines neuronalen Netzwerkmodells (Data Mining-Lernprogramm für Fortgeschrittene)

Artikel
03/13/2017

Gilt für: SQL Server 2016 Preview

Um ein Data Mining-Modell zu erstellen, müssen Sie zuerst mithilfe des Data Mining-Assistenten eine neue Miningstruktur auf Grundlage der neuen Datenquellensicht erstellen. In diesem Task erstellen Sie mit dem Assistenten eine Miningstruktur und zugleich ein zugehöriges Miningmodell auf Grundlage des Microsoft Neural Network-Algorithmus.

Da neuronale Netzwerke äußerst flexibel sind und viele Kombinationen von Eingaben und Ausgaben analysieren können, sollten Sie mit mehreren Methoden der Datenverarbeitung experimentieren, um optimale Ergebnisse zu erhalten. Möglicherweise möchten z. B. die Methode anpassen, das numerische Ziel für Dienstqualität klassifiziert, oder gruppiert werden, um bestimmte geschäftsanforderungen zu erfüllen. Hierzu fügen Sie der Miningstruktur eine neue Spalte hinzu, die numerische Daten auf eine andere Weise gruppiert, und erstellen dann ein Modell, das die neue Spalte verwendet. Mithilfe dieser Miningmodelle werden Daten durchsucht.

Wenn Sie vom neuronalen Netzwerkmodell dann gelernt haben, welche Faktoren sich am stärksten auf Ihre geschäftliche Fragestellung auswirken, erstellen Sie ein separates Modell für die Vorhersage und Bewertung. Sie verwenden hierzu den Microsoft Logistic Regression-Algorithmus, der auf dem neuronalen Netzwerkmodell basiert, aber für das Suchen nach einer Lösung auf Grundlage von bestimmten Eingaben optimiert ist.

Schritte

Erstellen der standardmäßigen Miningstruktur und des Miningmodells

Verwenden der Diskretisierung zum Klassifizieren der vorhersagbaren Spalte

Kopieren der Spalte und Ändern der Diskretisierungsmethode für ein anderes Modell

Erstellen eines Alias für die vorhersagbare Spalte, damit Modelle verglichen werden können

Verarbeiten Sie aller Modelle

Erstellen der Callcenter-Standardstruktur

Im Projektmappen-Explorer SQL Server Data Tools (SSDT), mit der rechten Maustaste Miningstrukturen und wählen Sie Neue Miningstruktur.
Klicken Sie auf der Seite Willkommen auf Weiter.
Auf der Definitionsmethode auswählen Überprüfen Sie, ob Seite aus vorhandener relationaler Datenbank oder vorhandenem Data Warehouse ausgewählt ist, und klicken Sie dann auf Weiter.
Auf der Data Mining-Struktur erstellen Seite, überprüfen Sie, ob die Option Miningstruktur mit Miningmodell erstellen ausgewählt ist.
Klicken Sie auf die Dropdownliste für die Option welche Datamining-Technik möchten Sie verwenden?, und wählen Sie dann Microsoft Neural Networks.

Da die logistischen Regressionsmodelle auf den neuronalen Netzwerken basieren, können Sie die gleiche Struktur wiederverwenden und ein neues Miningmodell hinzufügen.
Klicken Sie auf Weiter.

Die Datenquellensicht auswählen Seite wird angezeigt.
Unter Verfügbare Datenquellensichten, Option Call Center, und klicken Sie auf Weiter.
Auf der Tabellentypen angeben Seite der Fall das Kontrollkästchen neben der FactCallCenter Tabelle. Wählen Sie nichts für DimDate. Klicken Sie auf Weiter.
Auf der Trainingsdaten angeben Seite Schlüssel neben der Spalte FactCallCenterID.
Wählen Sie die Predict und Eingabe Kontrollkästchen.

Wählen Sie die Schlüssel, Eingabe, und Predict Kontrollkästchen wie in der folgenden Tabelle dargestellt:

Tabellen/Spalten	Schlüssel/Eingabe/Vorhersagen
AutomaticResponses	Eingabe
AverageTimePerIssue	Eingabe/Vorhersagen
Aufrufe	Eingabe
DateKey	Nicht verwenden
DayOfWeek (TagderWoche)	Eingabe
FactCallCenterID	Key
IssuesRaised	Eingabe
LevelOneOperators	Eingabe/Vorhersagen
LevelTwoOperators	Eingabe
Orders	Eingabe/Vorhersagen
ServiceGrade	Eingabe/Vorhersagen
Shift	Eingabe
TotalOperators	Nicht verwenden
WageType	Eingabe

Beachten Sie, dass mehrere vorhersagbare Spalten ausgewählt wurden. Eine der Stärken des Neural Network-Algorithmus besteht in seiner Fähigkeit, alle möglichen Kombinationen von Eingabe- und Ausgabeattributen zu analysieren. Für ein großes Dataset ist dies nicht empfehlenswert, da es die Verarbeitungszeit exponentiell verlängern könnte.

Auf der Inhalt und Datentyp der Spalten angeben Seite überprüfen, ob das Raster die Spalten, Inhaltstypen und Datentypen, wie in der folgenden Tabelle gezeigt enthält, und klicken Sie dann auf Weiter.

Spalten	Inhaltstyp	Datentypen
AutomaticResponses	Continuous	Long
AverageTimePerIssue	Continuous	Long
Aufrufe	Continuous	Long
DayOfWeek (TagderWoche)	Discrete	Text
FactCallCenterID	Key	Long
IssuesRaised	Continuous	Long
LevelOneOperators	Continuous	Long
LevelTwoOperators	Continuous	Long
Orders	Continuous	Long
ServiceGrade	Continuous	Double
Shift	Discrete	Text
WageType	Discrete	Text

Auf der Erstellen Tests festgelegten Seite, deaktivieren Sie das Textfeld für die Option Prozentsatz der zu testenden Daten. Klicken Sie auf Weiter.
Auf der der Assistent Seite für die Miningstrukturname, Typ Call Center.
Für die Miningmodellname, Typ Callcenterstandard NN, und klicken Sie dann auf Fertig stellen.

Die Drillthrough zulassen Feld ist deaktiviert, da Daten mit neuronalen netzwerkmodellen kein Drillthrough kann nicht.
Im Projektmappen-Explorer mit der rechten Maustaste des Namens der Datamining-Struktur, die Sie gerade erstellt haben, und wählen Sie Prozess.

Verwenden der Diskretisierung zum Klassifizieren der Zielspalte

Wenn Sie ein neuronales Netzwerkmodell erstellen, das über ein numerisches vorhersagbares Attribut verfügt, behandelt der Microsoft Neural Network-Algorithmus das Attribut in der Standardeinstellung als kontinuierliche Zahl. Zum Beispiel ist das ServiceGrade-Attribut eine Zahl, die theoretisch zwischen 0,00 (alle Anrufe werden beantwortet) und 1,00 (alle Anrufer hängen auf) liegt. In diesem Dataset verfügen die Werte über die folgende Verteilung:

Verteilung der Werte für die Dienstqualität

Bei der Verarbeitung des Modells könnten die Ausgaben daher anders als erwartet gruppiert werden. Wenn Sie mithilfe der Clusterfunktion um die beste Gruppen von Werten zu ermitteln, unterteilt der Algorithmus die Werte in ServiceGrade z. B. in Bereiche wie folgt: 0,0748051948 - 0,09716216215. Obwohl diese Gruppierung mathematisch korrekt ist, sind solche Bereiche für Geschäftsbenutzer möglicherweise weniger sinnvoll.

In diesem Schritt gestalten Sie das Ergebnis intuitiver, indem Sie die numerischen Werte anders gruppieren und Kopien der numerischen Datenspalte erstellen.

Funktionsweise der Diskretisierung

Analysis Services stellt eine Vielzahl von Methoden zur Klasseneinteilung oder zur Verarbeitung numerischer Daten bereit. In der folgenden Tabelle werden die Unterschiede zwischen den Ergebnissen veranschaulicht, wenn das ServiceGrade-Ausgabeattribut mit drei verschiedenen Methoden verarbeitet wurde:

Behandlung als kontinuierliche Zahl.
Ermittlung der besten Anordnung von Werten durch Verwendung von Clustering durch den Algorithmus.
Angabe, dass die Zahlen durch die Equal Areas-Methode klassifiziert werden.

Standardmodell (kontinuierlich)	Klassifiziert durch Clustering	Klassifiziert durch gleiche Bereiche
Wert: fehlt Unterstützung: 0 WERT: 0.09875 UNTERSTÜTZUNG: 120	WERT: < 0,0748051948 UNTERSTÜTZUNG: 34 WERT: 0,0748051948 - 0,09716216215 UNTERSTÜTZUNG: 27 WERT: 0,09716216215 - 0.13297297295 UNTERSTÜTZUNG: 39 WERT: 0.13297297295 - 0.167499999975 UNTERSTÜTZUNG: 10 WERT: > = 0.167499999975 UNTERSTÜTZUNG: 10	WERT: < 0,07 UNTERSTÜTZUNG: 26 WERT: 0,07 - 0,00 UNTERSTÜTZUNG: 22 WERT: 0,09 - 0,11 UNTERSTÜTZUNG: 36 WERT: > = 0,12 UNTERSTÜTZUNG: 36

Hinweis

Diese Statistik kann nach der Verarbeitung aller Daten vom Knoten für Randstatistik des Modells abgerufen werden. Weitere Informationen zu randstatistik finden Sie unter Miningmodellinhalt für neuronale Netzwerkmodelle ( Analysis Services – Datamining ).

In dieser Tabelle zeigt die Spalte VALUE an, wie die Zahl für ServiceGrade behandelt wurde. Die Spalte SUPPORT zeigt Ihnen, wie viele Fälle über diesen Wert verfügen oder in diesen Bereich fallen.

Verwenden von fortlaufenden Nummern (Standard)

Wenn Sie die Standardmethode verwenden, berechnet der Algorithmus Ergebnisse für 120 unterschiedliche Werte, deren Mittelwert 0.09875 ist. Sie können auch die Anzahl der fehlenden Werte sehen.
Klassifizieren durch Clustering

Wenn Sie den Microsoft Clustering-Algorithmus die optionale Gruppierung von Werten bestimmen lassen, gruppiert der Algorithmus die Werte für ServiceGrade in fünf (5) Bereiche. Die Anzahl von Fällen in jedem Bereich ist nicht gleichmäßig verteilt, wie Sie in der Unterstützungsspalte sehen können.
Klassifizieren durch gleiche Bereiche

Wenn Sie diese Methode auswählen, zwingt der Algorithmus die Werte in Buckets gleicher Größe, die dann die Ober- und die Untergrenzen jedes Bereichs ändern. Sie können die Anzahl der Buckets angeben, sollten aber vermeiden, dass ein Bucket zu wenige Werte enthält.

Weitere Informationen zu klassifizierungsoptionen finden Sie unter Diskretisierungsmethoden ( Data Mining ).

Alternativ können Sie statt die numerischen Werte zu verwenden, könnten, fügen Sie eine separate abgeleitete Spalte, die die Dienstqualitäten in vordefinierte Zielbereiche, z. B. klassifiziert bewährte (ServiceGrade < = 0,05), annehmbar (0,10 > ServiceGrade > 0,05), und schlechte (ServiceGrade > = 0,10).

Erstellen Sie eine Kopie einer Spalte und Ändern der Diskretisierungsmethode

Sie stellen eine Kopie der Miningspalte, die das ServiceGrade-Zielattribut enthält und die Art der Zahlen gruppiert werden. Sie können mehrere Kopien einer Spalte in einer Miningstruktur erstellen, einschließlich des vorhersagbaren Attributs.

Für dieses Lernprogramm verwenden Sie die Equal Areas-Methode der Diskretisierung und geben vier Buckets an. Die Gruppierungen, die sich aus dieser Methode ergeben, liegen relativ nah an den Zielwerten, die für Ihre Geschäftsbenutzer von Interesse sind.

So erstellen Sie eine benutzerdefinierte Kopie einer Spalte in der Miningstruktur

Doppelklicken Sie im Projektmappen-Explorer auf die soeben erstellte Miningstruktur.
Klicken Sie auf der Registerkarte Miningstruktur Miningstrukturspalte hinzufügen.
In der Spalte Option ServiceGrade aus der Liste im Dialogfeld Quellspalte, klicken Sie dann auf OK.

Der Liste der Miningstrukturspalten wird eine neue Spalte hinzugefügt. In der Standardeinstellung hat die neue Miningspalte den gleichen Namen wie die vorhandene Spalte mit einem numerischen Postfix: z. B. ServiceGrade 1. Sie können den Namen dieser Spalte in einen aussagekräftigeren Namen ändern.

Geben Sie auch die Diskretisierungsmethode an.
Mit der rechten Maustaste ServiceGrade 1, und wählen Sie Eigenschaften.
In der Eigenschaften Fenster Suchen den Namen -Eigenschaft, und ändern Sie den Namen in Dienstqualität-Klassifizierung .
Im angezeigten Dialogfeld können Sie auswählen, ob Sie die gleiche Änderung für die Namen aller zugehörigen Miningmodellspalten übernehmen möchten. Klicken Sie auf Nein.
In der Eigenschaften Fenster, suchen Sie den Abschnitt Datentyp und erweitern Sie ihn bei Bedarf.
Ändern Sie den Wert der Eigenschaft Content aus fortlaufend zu Discretized.

Die folgenden Eigenschaften sind nun verfügbar. Ändern Sie die Werte der Eigenschaften, wie in der folgenden Tabelle angezeigt:

Eigenschaft Standardwert Neuer Wert

DiscretizationMethod Continuous EqualAreas

DiscretizationBucketCount Kein Wert 4

Hinweis

Der Standardwert von DiscretizationBucketCount tatsächlich ist 0, was bedeutet, dass der Algorithmus die optimale Anzahl der Buckets automatisch bestimmt. Geben Sie daher 0 ein, wenn Sie den Wert dieser Eigenschaft auf den Standardwert zurücksetzen möchten.
Klicken Sie im Data Mining-Designer auf die Miningmodelle Registerkarte.

Beachten Sie, dass wenn Sie eine Kopie einer Miningstrukturspalte hinzufügen, das verwendungsflag der Kopie automatisch auf ignorieren. Wenn Sie einer Miningstruktur eine Spaltenkopie hinzufügen, werden Sie in der Regel nicht die Kopie zusammen mit der ursprünglichen Spalte für eine Analyse verwenden. Denn wenn der Algorithmus eine starke Korrelation zwischen den beiden Spalten feststellt, können andere Beziehungen leicht übersehen werden.

Eigenschaft	Standardwert	Neuer Wert
DiscretizationMethod	Continuous	EqualAreas
DiscretizationBucketCount	Kein Wert	4

Die Miningstruktur ein neues Miningmodell hinzufügen

Sie haben nun eine neue Gruppierung für das Zielattribut erstellt und müssen ein neues Miningmodell hinzufügen, das die diskretisierte Spalte verwendet. Wenn dies abgeschlossen ist, verfügt die Callcenter-Miningstruktur über zwei Miningmodelle:

Das Miningmodell Callcenterstandard NN behandelt die ServiceGrade-Werte als kontinuierlichen Bereich.
Erstellen Sie ein neues Miningmodell Callcenterklassifizierung NN, die als Zielergebnisse die Werte der Spalte ServiceGrade in vier Buckets gleicher Größe verteilt verwendet.

So fügen Sie ein Miningmodell auf Grundlage der neuen diskretisierten Spalte hinzu

Im Projektmappen-Explorer mit der rechten Maustaste der Miningstruktur, die Sie gerade erstellt haben, und wählen Sie Öffnen.
Klicken Sie auf die Registerkarte Miningmodelle .
Klicken Sie auf ein verknüpftes Miningmodell erstellen.
In der Neues Miningmodell im Dialogfeld für Modellname, Typ Callcenterklassifizierung NN. In der der Name des Algorithmus Dropdownliste Microsoft Neural Network.
Suchen Sie in der Liste von Spalten in das neue Miningmodell ServiceGrade, und ändern Sie die Verwendung von Predict zu ignorieren.
Auf ähnliche Weise suchen ServiceGrade-Klassifizierung, und ändern Sie die Verwendung von ignorieren zu Predict.

Erstellen eines Alias für die Zielspalte

In der Regel können Sie keine Miningmodelle vergleichen, die unterschiedliche vorhersagbare Attribute verwenden. Sie können jedoch einen Alias für eine Miningmodellspalte erstellen. Also können Sie die Spalte ServiceGrade-Klassifizierung im Miningmodell umbenennen, so, dass sie den gleichen Namen wie die ursprüngliche Spalte. Anschließend können Sie diese beiden Modelle trotz der unterschiedlichen Diskretisierung der Daten in einem Genauigkeitsdiagramm direkt vergleichen.

So fügen Sie einen Alias für eine Miningstrukturspalte in einem Miningmodell hinzu

In der Miningmodelle Registerkarte Struktur, wählen Sie die ServiceGrade-Klassifizierung.

Beachten Sie, dass die Eigenschaften Fenster zeigt die Eigenschaften des ScalarMiningStructureColumn-Objekts.
Klicken Sie unter der Spalte ServiceGrade-Klassifizierung NN für das Miningmodell auf die Zelle, die der Spalte ServiceGrade-Klassifizierung entspricht.

Beachten Sie, das jetzt die Eigenschaften Fenster zeigt die Eigenschaften des MiningModelColumn-Objekts.
Suchen Sie den Namen -Eigenschaft, und ändern Sie den Wert auf ServiceGrade.
Suchen Sie die Beschreibung Eigenschaft, und geben temporärer Spaltenalias.

Die Eigenschaften Fenster sollten die folgende Informationen enthalten:

Eigenschaft Wert

Description Temporärer Spaltenalias

ID ServiceGrade-Klassifizierung

Modellierungsflags

Name Service Grade

SourceColumn-ID Service Grade 1

Verwendung Vorhersagen

Eigenschaft	Wert
Description	Temporärer Spaltenalias
ID	ServiceGrade-Klassifizierung
Modellierungsflags
Name	Service Grade
SourceColumn-ID	Service Grade 1
Verwendung	Vorhersagen

Klicken Sie auf eine beliebige Stelle der Miningmodell Registerkarte.

Das Raster wird aktualisiert, um die neue temporäre Spaltenalias ServiceGrade, neben der Spaltenverwendung. Das Raster mit der Miningstruktur und zwei Miningmodellen sollte wie folgt aussehen:

Struktur	Call Center Default NN	Callcenterklassifizierung NN
	Microsoft Neural Network	Microsoft Neural Network
AutomaticResponses	Eingabe	Eingabe
AverageTimePerIssue	Vorhersagen	Vorhersagen
Aufrufe	Eingabe	Eingabe
DayOfWeek (TagderWoche)	Eingabe	Eingabe
FactCallCenterID	Key	Key
IssuesRaised	Eingabe	Eingabe
LevelOneOperators	Eingabe	Eingabe
LevelTwoOperators	Eingabe	Eingabe
Orders	Eingabe	Eingabe
ServiceGrade-Klassifizierung	Ignorieren	Vorhersagen (ServiceGrade)
ServiceGrade	Vorhersagen	Ignorieren
Shift	Eingabe	Eingabe
Gesamtzahl Telefonisten	Eingabe	Eingabe
WageType	Eingabe	Eingabe

Verarbeiten aller Modelle

Um abschließend sicherzustellen, dass die erstellten Modelle einfach vergleichbar sind, legen Sie den Parameter für den Zurückhaltungsausgangswert für den Standard und die klassifizierten Modelle fest. Durch das Festlegen eines Ausgangswerts wird sichergestellt, dass in allen Modellen die Verarbeitung der Daten von der gleichen Position aus gestartet wird.

Hinweis

Wenn Sie keinen numerischen Wert für den Ausgangswertparameter angeben, wird dieser in SQL Server Analysis Services anhand des Modellnamens generiert. Da die Modelle immer andere Namen haben, müssen Sie einen Ausgangswert festlegen und so sicherstellen, dass sie die Daten in der gleichen Reihenfolge verarbeiten.

So geben Sie den Ausgangswert an und verarbeiten die Modelle

In der Miningmodell Registerkarte, mit der rechten Maustaste der Spalte, für das Modell mit dem Namen Callcenter - LR aus, und wählen Algorithmusparameter festlegen.
Klicken Sie in der Zeile für den HOLDOUT_SEED-Parameter, auf die leere Zelle unter Wert, und geben Sie 1. Klicken Sie auf OK. Wiederholen Sie diesen Schritt für jedes der Struktur zugeordnete Modell.

Hinweis

Welchen Wert Sie als Ausgangswert auswählen, ist gleichgültig, solange für alle verwandten Modelle der gleiche Ausgangswert verwendet wird.
In der Miningmodelle Klicken Sie im Menü Miningstruktur verarbeiten und alle Modelle. Klicken Sie auf Ja , um das aktualisierte Data Mining-Projekt auf dem Server bereitzustellen.
Klicken Sie im Dialogfeld Miningmodell verarbeiten auf Ausführen.
Klicken Sie auf Schließen , um das Dialogfeld Verarbeitungsstatus zu schließen, und klicken Sie im Dialogfeld Miningmodell verarbeiten erneut auf Schließen .

Nachdem Sie nun die zwei zugehörigen Miningmodelle erstellt haben, durchsuchen Sie die Daten auf ihre Beziehungen.

Nächste Aufgabe in der Lektion

Untersuchen des Callcentermodells ( Datamining-Lernprogramm für fortgeschrittene )

Siehe auch

Miningstrukturen (Analysis Services – Data Mining)