Erstellen einer OLAP-Miningstruktur

Artikel
07/30/2013

Die Erstellung eines Data Mining-Modells auf Grundlage eines OLAP-Cubes oder eines anderen mehrdimensionalen Datenspeichers bietet zahlreiche Vorteile. Eine OLAP-Lösung enthält bereits umfangreiche Datenmengen, die gut organisiert, bereinigt und ordnungsgemäß formatiert sind. Die Komplexität der Daten ist jedoch so hoch, dass Benutzer wahrscheinlich kaum sinnvolle Muster mittels Ad-hoc-Untersuchungen erkennen können. Data Mining bietet die Möglichkeit, neue Korrelationen zu ermitteln und wertvolle Einblicke bereitzustellen.

In diesem Thema wird beschrieben, wie Sie eine OLAP-Miningstruktur auf Grundlage einer Dimension und verwandter Measures in einer vorhandenen mehrdimensionalen Lösung erstellen.

Anforderungen

Übersicht über den OLAP Data Mining-Prozess

Szenarien für die Verwendung von Data Mining in OLAP-Lösungen

Filter

Verwenden geschachtelter Tabellen

Data Mining-Dimensionen

Anforderungen für OLAP-Miningstrukturen und -Miningmodelle

Wenn Sie ein OLAP-Miningmodell entwerfen, ist die Datenquelle bereits in der Datenbank vorhanden, die zum Erstellen des Cubes verwendet wurde. Sie können keine Verbindung mit einem Remotecube herstellen und Data Mining-Objekte erstellen. Die Cubeobjekte müssen innerhalb der gleichen Lösung wie die Datenbank und die Miningstruktur verfügbar sein, die Sie erstellen.

Wenn Sie die ursprünglichen Projektdateien nicht haben oder diese nicht ändern möchte, können Sie die Option Von Server importieren (mehrdimensional und Data Mining) Visual Studio verwenden, um eine Kopie der Metadaten- und Lösungsobjekte abzurufen. Sie können dann das Bereitstellungsziel ändern, die Datenquellen bearbeiten und mit den Cubeobjekten arbeiten, ohne dass sich dies auf die vorhandenen Objekte auswirkt.

Weitere Informationen finden Sie unter Importieren eines Data Mining-Projekts mithilfe des Analysis Services-Import-Assistenten.

Übersicht über den OLAP Data Mining-Prozess

Starten Sie den Data Mining-Assistenten, indem Sie im Projektmappen-Explorer mit der rechten Maustaste auf den Knoten Miningstrukturen klicken und Neue Miningstruktur auswählen. Der Assistent führt Sie zum Erstellen der Struktur für eine neue Struktur und ein neues Modell durch folgende Schritte:

Definitionsmethode auswählen: Hier wählen Sie einen Datenquellentyp aus, in diesem FallAus vorhandenem Cube.

Hinweis
Der OLAP-Cube, den Sie als Quelle verwenden, muss sich in der gleichen Datenbank wie die Miningstruktur befinden (siehe oben). Sie können außerdem keinen Cube verwenden, der vom PowerPivot für Excel-Add-In als Data Mining-Quelle erstellt wurde.

Data Mining-Struktur erstellen: Bestimmen Sie, ob Sie nur eine Struktur oder eine Struktur mit einem Miningmodell erstellen.

Sie müssen des weiteren zum Analysieren der Daten einen geeigneten Algorithmus auswählen. Hilfestellung bei der Auswahl des besten Algorithmus für bestimmte Tasks finden Sie unter "Data Mining-Algorithmen (Analysis Services - Data Mining)".
Quellcubedimension auswählen: Dieser Schritt entspricht der Auswahl einer Datenquelle. Sie müssen eine einzelne Dimension auswählen, die die wichtigsten Daten zum Trainieren des Modells enthält. Sie können später Daten aus anderen Dimensionen hinzufügen oder die Dimension filtern.
Fallschlüssel auswählen: Wählen Sie innerhalb der soeben ausgewählten Dimension ein Attribut (Spalte) aus, das als eindeutige ID für die Falldaten verwendet werden soll.

In der Regel wird eine Spalte vorab ausgewählt, Sie können die Spalte jedoch ändern, wenn mehrere Schlüssel vorhanden sind.
Spalten auf Fallebene auswählen: Hier wählen Sie die Attribute aus der ausgewählten Dimension und die zugehörigen Measures aus, die für die Analyse relevant sind. Dieser Schritt entspricht der Auswahl von Spalten aus einer Tabelle.

Der Assistent schließt automatisch alle Measures, die mit Attributen aus der ausgewählten Dimension erstellt wurden, für die Überprüfung und Auswahl ein.

Wenn der Cube beispielsweise ein Measure enthält, das Frachtkosten auf Grundlage des geografischen Standorts des Kunden berechnet, und Sie die Customer-Dimension als Hauptdatenquelle für die Modellierung ausgewählt haben, wird das Measure als Kandidat zum Hinzufügen zum Modell vorgeschlagen. Fügen Sie nicht zu viele Measures hinzu, die direkt auf Attributen basieren. Es besteht bereits eine implizite Beziehung zwischen den Spalten, wie in der Measureformel definiert, und die Stärke dieser (erwarteten) Korrelation kann andere Beziehungen verdecken, die Sie andernfalls erkennen würden.
Verwendung der Miningmodellspalte angeben: Für jedes Attribut oder Measure, das Sie der Struktur hinzugefügt haben, müssen Sie angeben, ob das Attribut für Vorhersagen oder als Eingabe verwendet werden soll. Wenn Sie keine dieser Optionen auswählen, werden die Daten zwar verarbeitet, aber nicht für die Analyse verwendet. Sie sind jedoch als Hintergrunddaten verfügbar, falls Sie später Drillthrough aktivieren.
Geschachtelte Tabellen hinzufügen: Klicken Sie hierauf, um verwandte Tabellen hinzuzufügen. Im Dialogfeld Wählen Sie eine Measuregruppendimension aus können Sie von unter den Dimensionen, die sich auf die aktuelle Dimension beziehen, eine einzelne Dimension auswählen.

Anschließend definieren Sie im Dialogfeld Schlüssel der geschachtelten Tabelle auswählen, wie sich die neue Dimension auf die Dimension bezieht, die die Falldaten enthält.

Wählen Sie im Dialogfeld Geschachtelte Tabellenspalten auswählen die Attribute und Measures aus der neuen Dimension aus, die Sie in der Analyse verwenden möchten. Sie müssen außerdem angeben, ob das geschachtelte Attribut für Vorhersagen verwendet wird.

Nachdem Sie alle geschachtelten Attribute hinzugefügt haben, die Sie benötigen, kehren Sie zur Seite Verwendung der Miningmodellspalte angeben zurück, und klicken Sie auf Weiter.
Inhalt und Datentyp der Spalten angeben: Sie haben nun alle Daten hinzugefügt, die für die Analyse verwendet werden, und müssen jetzt den Datentyp und Inhaltstyp für jedes Attribut angeben.

In einem OLAP-Modell besteht keine Möglichkeit, Datentypen automatisch zu erkennen, da der Datentyp bereits von der mehrdimensionalen Lösung definiert wird und nicht geändert werden kann. Schlüssel werden auch automatisch identifiziert. Weitere Informationen finden Sie unter Datentypen (Data Mining).

Der Inhaltstyp, den Sie für jede im Modell verwendete Spalte auswählen, teilt den Algorithmus mit, wie die Daten verarbeitet werden sollen. Weitere Informationen finden Sie unter Inhaltstypen (Data Mining).
Quellcube in Slices aufteilen: Hier können Sie Filter in einem Cube definieren, um nur eine Teilmenge der Daten auszuwählen und präzisere Modelle zu trainieren.

Sie filtern einen Cube, indem Sie die Dimension, nach der gefiltert wird, und die Hierarchieebene, die die gewünschten Kriterien enthält, auswählen und dann Bedingung eingeben, die als Filter verwendet werden soll.
Testsatz erstellen: Auf dieser Seite können Sie dem Assistenten mitteilen, wie viele Daten zum Testen des Modells verwendet werden sollen. Wenn die Daten mehrere Modelle unterstützen, empfiehlt es sich, ein zurückgehaltenes Dataset zu erstellen, sodass alle Modelle basierend auf den gleichen Daten getestet werden können.

Weitere Informationen finden Sie unter Tests und Überprüfung (Data Mining).
Assistenten abschließen: Auf dieser Seite geben Sie einen Namen für die neue Miningstruktur und das zugeordnete Miningmodell an und speichern die Struktur und das Modell.

Auf dieser Seite können Sie außerdem die folgenden Optionen festlegen:
- Drillthrough zulassen
- Miningmodelldimension erstellen
- Cube mithilfe der Miningmodelldimension erstellen
Weitere Informationen zu diesen Optionen finden Sie weiter unten in diesem Thema im Abschnitt Grundlegendes zu Data Mining-Dimensionen und Drillthrough.

Zu diesem Zeitpunkt sind die Miningstruktur und das zugeordnete Modell nur Metadaten. Sie müssen beide verarbeiten, um Ergebnisse zu erhalten.

Szenarien für die Verwendung von Data Mining mit OLAP-Daten

OLAP-Cubes enthalten häufig zahlreiche Elemente und Dimensionen, sodass es schwierig sein kann, zu entscheiden, wo mit dem Data Mining begonnen werden soll. Um die Muster in den Cubes leichter zu identifizieren, identifizieren Sie normalerweise zuerst eine Dimension von Interesse und durchsuchen dann Muster, die mit dieser Dimension verknüpft sind. In der folgenden Tabelle werden mehrere allgemeine Data Mining-Aufgaben von OLAP aufgelistet, Beispielszenarien zur Anwendung der einzelnen Aufgaben beschrieben und der Data Mining-Algorithmus zum Verwenden für die jeweilige Aufgabe identifiziert.

Aufgabe	Beispielszenario	Algorithmus
Gruppieren Sie Elemente in Clustern	Segmentieren Sie eine Kundendimension auf Basis der Kundenelementeigenschaften, der Produkte, die die Kunden kaufen, und des Geldbetrags, den die Kunden ausgeben.	Microsoft Clustering-Algorithmus
Finden Sie interessante oder ungewöhnliche Elemente	Identifizieren Sie interessante oder ungewöhnliche Läden in einer Speicherdimension, basierend auf Nettoumsatz, Gewinn, Ort und Größe des Ladens.	Microsoft Decision Trees-Algorithmus
Finden Sie interessante oder ungewöhnliche Zellen	Identifizieren Sie Umsätze in Läden, die nicht den allgemeinen Trends im Verlauf der Zeit entsprechen.	Microsoft Time Series-Algorithmus
Suchen von Korrelationen	Identifizieren Sie Faktoren im Zusammenhang mit Serverausfallzeiten, einschließlich Bereich, Computertyp, Betriebssystem oder Kaufdatum.	MicrosoftNaive Bayes-Algorithmus

Aufteilen eines Cubes in Slices undFiltern von Modellen

Das Aufteilen des Cubes in Slices, während Sie ein Modell erstellen, entspricht dem Erstellen eines Filters für ein relationales Miningmodell. In einem relationalen Modell wird der Filter für die Datenquelle als WHERE-Klausel in einer SQL-Anweisung definiert. In einem Cube verwenden Sie den Editor, um Filteranweisungen mit MDX zu erstellen.

Ein Cube kann beispielsweise Informationen zu Produktkäufen weltweit enthalten. Für eine Marketingkampagne möchten Sie jedoch ein Modell auf Grundlage der Analyse weiblicher Kunden über 30 erstellen, die in Großbritannien leben.

In diesem Szenario würden Sie zwei Filter erstellen:

Für den ersten Filter wählen Sie die Dimension Geography und die Hierarchie für Region aus. Anschließend wählen Sie aus der Liste Filterausdruck aus den möglichen Werten "Großbritannien" aus.
Für den zweiten Filter wählen Sie die Dimension Customer und das Attribut Gender aus. Anschließend wählen Sie aus der Liste der Attributwerte "Frau" aus.

Nachdem die Miningstruktur erstellt wurde, können Sie sowohl die Definition der Cubedaten als auch die Filterkriterien ändern. Weitere Informationen finden Sie unter Filtern des Quellcubes für eine Miningstruktur.

Sowohl die Registerkarte Miningstruktur als auch die Registerkarte Miningmodell enthalten eine Option, mit der Sie einer vorhandenen Miningstruktur einen Filter hinzufügen können. Klicken Sie hierzu auf Cubeslice definieren. Das Dialogfeld Cube in Slices aufteilen hilft Ihnen, durch das Auswählen eines Werts aus Dropdownlisten einen gültigen MDX-Filterausdruck zu erstellen.

Vorsicht
Beachten Sie, dass die Schnittstelle zum Entwerfen und Durchsuchen von Cubes in SQL Server 2012 geändert wurde. Weitere Informationen finden Sie unter Durchsuchen von Daten und Metadaten in Cube.

Sie können dem Cube so viele Filter hinzufügen, wie notwendig sind, um die für das Miningmodell erforderlichen Daten zurückzugeben. Sie können zudem Slices für einzelne Cubeslices definieren. Beispiel: Wenn Ihre Struktur zwei geschachtelte Tabellen enthält, die auf Produkten basieren, können Sie eine Tabelle am Segment für März 2004 und die andere am Segment für April 2004 in Slices teilen. Mit dem resultierenden Modell lassen sich dann, basierend auf den Verkaufszahlen für März, Vorhersagen für die Verkäufe im April tätigen.

Zurück zum Anfang

Verwenden von geschachtelten Tabellen in einem OLAP-Miningmodell

Als Sie mithilfe des Data Mining-Assistenten ein Modell auf Grundlage von Cubedaten erstellen, können Sie geschachtelte Tabellen hinzufügen, indem Sie die Namen verwandter Dimensionen angeben und die Attribute oder Measures, auswählen, die dem Modell hinzugefügt werden sollen.

Wenn zum Beispiel die für Falldaten verwendete Hauptdimension Customer ist, können Sie Products als verwandte Dimension hinzufügen, da Sie davon ausgehen können, dass ein Kunde im Laufe der Zeit mehrere Produkte bestellt hat und der Cube jeden Kunden über die Reihenfolgenfaktentabellen mit verschiedenen Produkten verknüpft.

Sie fügen geschachtelte Tabellen auf der Seite Verwendung der Miningmodellspalte angeben des Assistenten hinzu, indem Sie auf Geschachtelte Tabellen hinzufügen klicken. Ein Dialogfeld wird geöffnet, das Sie durch Prozess, zur Auswahl verwandter Dimension sowie aller Measures führt. Die Falldimensionen und geschachtelten Dimensionen müssen durch einen Fremdschlüssel verknüpft sein, und Measures müssen eines der Attribute verwenden, die bereits in der Falltabelle oder geschachtelten Tabellen enthalten sind. Leider tragen diese Einschränkungen wenig zum Eingrenzen des Bereichs bei, sodass Sie sorgfältig darauf achten müssen, nur die für die Modellierung geeigneten Attribute auszuwählen.

Sie müssen für jedes Attribut oder Measure, das Sie der geschachtelten Tabelle hinzufügen, angeben, ob das geschachtelte Attribut für Vorhersagen verwendet wird. Wählen Sie hierzu im Dialogfeld Geschachtelte Tabellenspalten auswählen die Option Vorhersagbar oder Eingabe aus. Wenn Sie keine dieser Optionen auswählen, werden die Daten der Miningstruktur hinzugefügt, aber werden nicht für die Analyse verwendet.

Für jedes Attribut und Measure müssen Sie außerdem angeben, ob das Attribut diskret, diskretisiert oder kontinuierlich ist. Der Assistent wählt auf Grundlage des Datentyps des Attributs einen Standardwert aus, Sie können diese jedoch abhängig von den Algorithmusanforderungen ändern. Wenn Sie einen Inhaltstyp auswählen, der mit dem ausgewählten Algorithmus nicht kompatibel ist (z. B. wenn Sie einen kontinuierlichen numerischen Typ mit einem Naive Bayes-Modell verwenden), wird erst dann eine Fehlermeldung ausgegeben, wenn Sie versuchen, das Modell zu verarbeiten.

Nachdem Sie diese Optionen festgelegt haben, fügt der Assistent die geschachtelte Tabelle der Falltabelle hinzu. Der Standardname der geschachtelten Tabelle ist der Name der geschachtelten Dimension. Sie können jedoch die geschachtelte Tabelle und die darin befindlichen Spalten umbenennen. Wiederholen Sie diesen Prozess, um der Miningstruktur mehrere geschachtelte Tabellen hinzuzufügen.

Die Möglichkeit, geschachtelte Tabellendaten wie diese zu verwenden, ist eine besonders leistungsstarke Funktion von SQL Server Data Mining. In einem Cube bestehen nahezu unbegrenzte Möglichkeiten, verwandte Datenteilmengen zu verwenden.

Grundlegendes zu Data Mining-Dimensionen und Drillthrough

Beim Durchsuchen des Modells können Sie mithilfe der Option Drillthrough zulassen Abfragen in den zugrunde liegenden Cubedaten ausführen. Die Daten sind nicht in der neuen Data Mining-Dimension enthalten, aber die Analysis Services-Datenbank kann mithilfe der Datenbindungen Informationen aus dem Quellcube abrufen.

Mit der Option Miningmodelldimension erstellen können Sie eine neue Dimension innerhalb des vorhandenen Cubes generieren, die die vom Algorithmus ermittelten Muster enthält. Die Hierarchie innerhalb der neuen Dimension wird zu einem Großteil durch den Modelltyp bestimmt. Die Darstellung eines Clusteringmodells ist beispielsweise recht flach. Dabei befindet sich der Knoten "(Alle)" auf der ersten Hierarchieebene und die einzelnen Cluster in der nächsten Ebene. Im Gegensatz dazu kann die Dimension, die für ein Entscheidungsstrukturmodell erstellt wird, über eine sehr tiefe Hierarchie verfügen und die Verzweigung der Struktur darstellen.

Die Option Cube mithilfe der Miningmodelldimension erstellen versetzt Sie in die Lage, die neue Data Mining-Dimension in einen neuen Cube zu exportieren. Alle Objekte, die für ein Drillthrough der Data Mining-Dimension erforderlich sind, werden automatisch eingeschlossen.

Vorsicht
Die Erstellung von Data Mining-Dimensionen wird nur von den folgenden Modelltypen unterstützt: Modelle auf Grundlage des Microsoft Clustering-Algorithmus, des Microsoft Decision Trees-Algorithmus oder des Microsoft Associations-Algorithmus.