Erstellen einer OLAP-Miningstruktur

Gilt für: SQL Server 2019 und früheren Analysis Services Azure Analysis Services Fabric/Power BI Premium

Wichtig

Data Mining wurde in SQL Server 2017 Analysis Services als veraltet eingestuft und wurde jetzt in SQL Server 2022 Analysis Services eingestellt. Die Dokumentation wird für veraltete und eingestellte Features nicht aktualisiert. Weitere Informationen finden Sie unter Abwärtskompatibilität von Analysis Services.

Die Erstellung eines Data Mining-Modells auf Grundlage eines OLAP-Cubes oder eines anderen mehrdimensionalen Datenspeichers bietet zahlreiche Vorteile. Eine OLAP-Lösung enthält bereits umfangreiche Datenmengen, die gut organisiert, bereinigt und ordnungsgemäß formatiert sind. Die Komplexität der Daten ist jedoch so hoch, dass Benutzer wahrscheinlich kaum sinnvolle Muster mittels Ad-hoc-Untersuchungen erkennen können. Data Mining bietet die Möglichkeit, neue Korrelationen zu ermitteln und wertvolle Einblicke bereitzustellen.

In diesem Thema wird beschrieben, wie Sie eine OLAP-Miningstruktur auf Grundlage einer Dimension und verwandter Measures in einer vorhandenen mehrdimensionalen Lösung erstellen.

Anforderungen

Übersicht über den OLAP Data Mining-Prozess

Szenarien für die Verwendung von Data Mining in OLAP-Lösungen

Filter

Verwenden von geschachtelten Tabellen

Data Mining-Dimensionen

Anforderungen für OLAP-Miningstrukturen und -Miningmodelle

Wenn Sie ein OLAP-Miningmodell entwerfen, ist die Datenquelle bereits in der Datenbank vorhanden, die zum Erstellen des Cubes verwendet wurde. Sie können keine Verbindung mit einem Remotecube herstellen und Data Mining-Objekte erstellen. Die Cubeobjekte müssen innerhalb der gleichen Lösung wie die Datenbank und die Miningstruktur verfügbar sein, die Sie erstellen.

Wenn Sie die ursprünglichen Projektdateien nicht haben oder diese nicht ändern möchte, können Sie die Option Von Server importieren (mehrdimensional und Data Mining)Visual Studio verwenden, um eine Kopie der Metadaten- und Lösungsobjekte abzurufen. Sie können dann das Bereitstellungsziel ändern, die Datenquellen bearbeiten und mit den Cubeobjekten arbeiten, ohne dass sich dies auf die vorhandenen Objekte auswirkt.

Weitere Informationen finden Sie unter Importieren eines Data Mining-Projekts mithilfe des Analysis Services-Import-Assistenten.

Übersicht über den OLAP Data Mining-Prozess

Starten Sie den Data Mining-Assistenten, indem Sie in Projektmappen-Explorer mit der rechten Maustaste auf den Knoten Miningstrukturen klicken und Neue Miningstruktur auswählen. Der Assistent führt Sie zum Erstellen der Struktur für eine neue Struktur und ein neues Modell durch folgende Schritte:

  1. Definitionsmethode auswählen: Hier wählen Sie einen Datenquellentyp aus, in diesem Fall Aus vorhandenem Cube.

    Hinweis

    Der OLAP-Cube, den Sie als Quelle verwenden, muss sich in der gleichen Datenbank wie die Miningstruktur befinden (siehe oben). Außerdem können Sie einen cube, der vom Power Pivot für Excel-Add-In erstellt wurde, nicht als Quelle für Data Mining verwenden.

  2. Data Mining-Struktur erstellen: Bestimmen Sie, ob Sie nur eine Struktur oder eine Struktur mit einem Miningmodell erstellen.

    Sie müssen des weiteren zum Analysieren der Daten einen geeigneten Algorithmus auswählen. Eine Anleitung dazu, welcher Algorithmus für bestimmte Aufgaben am besten geeignet ist, finden Sie unter HYPERLINK "ms-help://SQL111033/as_1devconc/html/ed1fc83b-b98c-437e-bf53-4ff001b92d64.htm" Data Mining-Algorithmen (Analysis Services – Data Mining).

  3. Quellcubedimension auswählen: Dieser Schritt entspricht der Auswahl einer Datenquelle. Sie müssen eine einzelne Dimension auswählen, die die wichtigsten Daten zum Trainieren des Modells enthält. Sie können später Daten aus anderen Dimensionen hinzufügen oder die Dimension filtern.

  4. Fallschlüssel auswählen: Wählen Sie innerhalb der soeben ausgewählten Dimension ein Attribut (Spalte) aus, das als eindeutige ID für die Falldaten verwendet werden soll.

    In der Regel wird eine Spalte vorab ausgewählt, Sie können die Spalte jedoch ändern, wenn mehrere Schlüssel vorhanden sind.

  5. Spalten auf Fallebene auswählen: Hier wählen Sie die Attribute aus der ausgewählten Dimension und die zugehörigen Measures aus, die für die Analyse relevant sind. Dieser Schritt entspricht der Auswahl von Spalten aus einer Tabelle.

    Der Assistent schließt automatisch alle Measures, die mit Attributen aus der ausgewählten Dimension erstellt wurden, für die Überprüfung und Auswahl ein.

    Wenn Ihr Cube beispielsweise ein Measure enthält, das die Frachtkosten basierend auf dem geografischen Standort des Kunden berechnet, und Sie die Dimension Kunde als Standard Datenquelle für die Modellierung ausgewählt haben, wird das Measure als Kandidat für das Hinzufügen zum Modell vorgeschlagen. Fügen Sie nicht zu viele Measures hinzu, die direkt auf Attributen basieren. Es besteht bereits eine implizite Beziehung zwischen den Spalten, wie in der Measureformel definiert, und die Stärke dieser (erwarteten) Korrelation kann andere Beziehungen verdecken, die Sie andernfalls erkennen würden.

  6. Verwendung der Miningmodellspalte angeben: Für jedes Attribut oder Measure, das Sie der Struktur hinzugefügt haben, müssen Sie angeben, ob das Attribut für Vorhersagen oder als Eingabe verwendet werden soll. Wenn Sie keine dieser Optionen auswählen, werden die Daten zwar verarbeitet, aber nicht für die Analyse verwendet. Sie sind jedoch als Hintergrunddaten verfügbar, falls Sie später Drillthrough aktivieren.

  7. Geschachtelte Tabellen hinzufügen: Klicken Sie hierauf, um verwandte Tabellen hinzuzufügen. Im Dialogfeld Wählen Sie eine Measuregruppendimension aus können Sie von unter den Dimensionen, die sich auf die aktuelle Dimension beziehen, eine einzelne Dimension auswählen.

    Anschließend definieren Sie im Dialogfeld Schlüssel der geschachtelten Tabelle auswählen , wie sich die neue Dimension auf die Dimension bezieht, die die Falldaten enthält.

    Wählen Sie im Dialogfeld Geschachtelte Tabellenspalten auswählen die Attribute und Measures aus der neuen Dimension aus, die Sie in der Analyse verwenden möchten. Sie müssen außerdem angeben, ob das geschachtelte Attribut für Vorhersagen verwendet wird.

    Nachdem Sie alle geschachtelten Attribute hinzugefügt haben, die Sie benötigen, kehren Sie zur Seite Verwendung der Miningmodellspalte angebenzurück, und klicken Sie auf Weiter.

  8. Inhalt und Datentyp der Spalten angeben: Sie haben nun alle Daten hinzugefügt, die für die Analyse verwendet werden, und müssen jetzt den Datentyp und Inhaltstyp für jedes Attribut angeben.

    In einem OLAP-Modell besteht keine Möglichkeit, Datentypen automatisch zu erkennen, da der Datentyp bereits von der mehrdimensionalen Lösung definiert wird und nicht geändert werden kann. Schlüssel werden auch automatisch identifiziert. Weitere Informationen finden Sie unter Datentypen (Data Mining).

    Der Inhaltstyp , den Sie für jede im Modell verwendete Spalte auswählen, teilt den Algorithmus mit, wie die Daten verarbeitet werden sollen. Weitere Informationen finden Sie unter Inhaltstypen (Data Mining).

  9. Quellcube in Slices aufteilen: Hier können Sie Filter in einem Cube definieren, um nur eine Teilmenge der Daten auszuwählen und präzisere Modelle zu trainieren.

    Sie filtern einen Cube, indem Sie die Dimension, nach der gefiltert wird, und die Hierarchieebene, die die gewünschten Kriterien enthält, auswählen und dann Bedingung eingeben, die als Filter verwendet werden soll.

  10. Testsatz erstellen: Auf dieser Seite können Sie dem Assistenten mitteilen, wie viele Daten zum Testen des Modells verwendet werden sollen. Wenn die Daten mehrere Modelle unterstützen, empfiehlt es sich, ein zurückgehaltenes Dataset zu erstellen, sodass alle Modelle basierend auf den gleichen Daten getestet werden können.

    Weitere Informationen finden Sie unter Testing and Validation (Data Mining).

  11. Assistenten abschließen: Auf dieser Seite geben Sie einen Namen für die neue Miningstruktur und das zugeordnete Miningmodell an und speichern die Struktur und das Modell.

    Auf dieser Seite können Sie außerdem die folgenden Optionen festlegen:

    • Drillthrough zulassen

    • Erstellen einer Miningmodelldimension

    • Cube mithilfe der Miningmodelldimension erstellen

    Weitere Informationen zu diesen Optionen finden Sie weiter unten in diesem Thema im Abschnitt Grundlegendes zu Data Mining-Dimensionen und Drillthrough.

Zu diesem Zeitpunkt sind die Miningstruktur und das zugeordnete Modell nur Metadaten. Sie müssen beide verarbeiten, um Ergebnisse zu erhalten.

Szenarien für die Verwendung von Data Mining mit OLAP-Daten

OLAP-Cubes enthalten häufig zahlreiche Elemente und Dimensionen, sodass es schwierig sein kann, zu entscheiden, wo mit dem Data Mining begonnen werden soll. Um die Muster in den Cubes leichter zu identifizieren, identifizieren Sie normalerweise zuerst eine Dimension von Interesse und durchsuchen dann Muster, die mit dieser Dimension verknüpft sind. In der folgenden Tabelle werden mehrere allgemeine Data Mining-Aufgaben von OLAP aufgelistet, Beispielszenarien zur Anwendung der einzelnen Aufgaben beschrieben und der Data Mining-Algorithmus zum Verwenden für die jeweilige Aufgabe identifiziert.

Aufgabe Beispielszenario Algorithmus
Gruppieren Sie Elemente in Clustern Segmentieren Sie eine Kundendimension auf Basis der Kundenelementeigenschaften, der Produkte, die die Kunden kaufen, und des Geldbetrags, den die Kunden ausgeben. Microsoft Clustering-Algorithmus
Finden Sie interessante oder ungewöhnliche Elemente Identifizieren Sie interessante oder ungewöhnliche Läden in einer Speicherdimension, basierend auf Nettoumsatz, Gewinn, Ort und Größe des Ladens. Microsoft Decision Trees-Algorithmus
Finden Sie interessante oder ungewöhnliche Zellen Identifizieren Sie Umsätze in Läden, die nicht den allgemeinen Trends im Verlauf der Zeit entsprechen. Microsoft Time Series-Algorithmus
Suchen von Korrelationen Identifizieren Sie Faktoren im Zusammenhang mit Serverausfallzeiten, einschließlich Bereich, Computertyp, Betriebssystem oder Kaufdatum. Microsoft Naive Bayes-Algorithmus

Aufteilen eines Cubes in Slices und Filtern von Modellen

Das Aufteilen des Cubes in Slices, während Sie ein Modell erstellen, entspricht dem Erstellen eines Filters für ein relationales Miningmodell. In einem relationalen Modell wird der Filter für die Datenquelle als WHERE-Klausel in einer SQL-Anweisung definiert. In einem Cube verwenden Sie den Editor, um Filteranweisungen mit MDX zu erstellen.

Ein Cube kann beispielsweise Informationen zu Produktkäufen weltweit enthalten. Für eine Marketingkampagne möchten Sie jedoch ein Modell auf Grundlage der Analyse weiblicher Kunden über 30 erstellen, die in Großbritannien leben.

In diesem Szenario würden Sie zwei Filter erstellen:

  • Für den ersten Filter wählen Sie die Dimension Geography aus, wählen Sie die Hierarchie für Region aus, und verwenden Sie dann die Liste Filterausdruck , um "Vereinigtes Königreich" aus den möglichen Werten auszuwählen.

  • Für den zweiten Filter wählen Sie die Dimension Customer aus, wählen Sie das Attribut Gender und dann "Female" aus der Liste der Attributwerte aus.

Nachdem die Miningstruktur erstellt wurde, können Sie sowohl die Definition der Cubedaten als auch die Filterkriterien ändern. Weitere Informationen finden Sie unter Filter für Miningmodelle.

Sowohl die Registerkarte Miningstruktur als auch die Registerkarte Miningmodell enthalten eine Option, mit der Sie einer vorhandenen Miningstruktur einen Filter hinzufügen können. Klicken Sie hierzu auf Cubeslice definieren. Das Dialogfeld Cube in Slices aufteilen hilft Ihnen, durch das Auswählen eines Werts aus Dropdownlisten einen gültigen MDX-Filterausdruck zu erstellen.

Warnung

Beachten Sie, dass die Benutzeroberfläche zum Entwerfen und Durchsuchen von Cubes in SQL Server 2017 geändert wurde. Weitere Informationen finden Sie unter Durchsuchen von Daten und Metadaten in Cube.

Sie können dem Cube so viele Filter hinzufügen, wie notwendig sind, um die für das Miningmodell erforderlichen Daten zurückzugeben. Sie können zudem Slices für einzelne Cubeslices definieren. Beispiel: Wenn Ihre Struktur zwei geschachtelte Tabellen enthält, die auf Produkten basieren, können Sie eine Tabelle am Segment für März 2004 und die andere am Segment für April 2004 in Slices teilen. Mit dem resultierenden Modell lassen sich dann, basierend auf den Verkaufszahlen für März, Vorhersagen für die Verkäufe im April tätigen.

Verwenden von geschachtelten Tabellen in einem OLAP-Miningmodell

Als Sie mithilfe des Data Mining-Assistenten ein Modell auf Grundlage von Cubedaten erstellen, können Sie geschachtelte Tabellen hinzufügen, indem Sie die Namen verwandter Dimensionen angeben und die Attribute oder Measures, auswählen, die dem Modell hinzugefügt werden sollen.

Wenn zum Beispiel die für Falldaten verwendete Hauptdimension „Customer“ ist, können Sie „Products“ als verwandte Dimension hinzufügen, da Sie davon ausgehen können, dass ein Kunde im Laufe der Zeit mehrere Produkte bestellt hat und der Cube jeden Kunden über die Reihenfolgenfaktentabellen mit verschiedenen Produkten verknüpft.

Sie fügen geschachtelte Tabellen auf der Seite Verwendung der Miningmodellspalte angeben des Assistenten hinzu, indem Sie auf Geschachtelte Tabellen hinzufügenklicken. Ein Dialogfeld wird geöffnet, das Sie durch Prozess, zur Auswahl verwandter Dimension sowie aller Measures führt. Die Falldimensionen und geschachtelten Dimensionen müssen durch einen Fremdschlüssel verknüpft sein, und Measures müssen eines der Attribute verwenden, die bereits in der Falltabelle oder geschachtelten Tabellen enthalten sind. Leider tragen diese Einschränkungen nicht viel dazu bei, den Bereich einzugrenzen, daher müssen Sie darauf achten, nur die Attribute auszuwählen, die für die Modellierung nützlich sind.

Sie müssen für jedes Attribut oder Measure, das Sie der geschachtelten Tabelle hinzufügen, angeben, ob das geschachtelte Attribut für Vorhersagen verwendet wird. Wählen Sie hierzu im Dialogfeld Geschachtelte Tabellenspalten auswählen die Option Vorhersagbar oder Eingabe aus. Wenn Sie keine dieser Optionen auswählen, werden die Daten der Miningstruktur hinzugefügt, aber werden nicht für die Analyse verwendet.

Für jedes Attribut und Measure müssen Sie außerdem angeben, ob das Attribut diskret, diskretisiert oder kontinuierlich ist. Der Assistent wählt auf Grundlage des Datentyps des Attributs einen Standardwert aus, Sie können diese jedoch abhängig von den Algorithmusanforderungen ändern. Wenn Sie einen Inhaltstyp auswählen, der mit dem ausgewählten Algorithmus nicht kompatibel ist (z. B. verwenden Sie einen fortlaufenden numerischen Typ mit einem Naïve Bayes-Modell), erhalten Sie erst dann eine Fehlermeldung, wenn Sie versuchen, das Modell zu verarbeiten.

Nachdem Sie diese Optionen festgelegt haben, fügt der Assistent die geschachtelte Tabelle der Falltabelle hinzu. Der Standardname der geschachtelten Tabelle ist der Name der geschachtelten Dimension. Sie können jedoch die geschachtelte Tabelle und die darin befindlichen Spalten umbenennen. Wiederholen Sie diesen Prozess, um der Miningstruktur mehrere geschachtelte Tabellen hinzuzufügen.

Die Möglichkeit, geschachtelte Tabellendaten wie diese zu verwenden, ist eine besonders leistungsstarke Funktion von SQL Server Data Mining. In einem Cube bestehen nahezu unbegrenzte Möglichkeiten, verwandte Datenteilmengen zu verwenden.

Grundlegendes zu Data Mining-Dimensionen und Drillthrough

Beim Durchsuchen des Modells können Sie mithilfe der Option Drillthrough zulassenAbfragen in den zugrunde liegenden Cubedaten ausführen. Die Daten sind nicht in der neuen Data Mining-Dimension enthalten, aber die SQL Server Analysis Services-Datenbank kann die Datenbindungen verwenden, um die Informationen aus dem Quellcube abzurufen.

Mit der Option Miningmodelldimension erstellenkönnen Sie eine neue Dimension innerhalb des vorhandenen Cubes generieren, die die vom Algorithmus ermittelten Muster enthält. Die Hierarchie innerhalb der neuen Dimension wird zu einem Großteil durch den Modelltyp bestimmt. Die Darstellung eines Clusteringmodells ist beispielsweise recht flach. Dabei befindet sich der Knoten "(Alle)" auf der ersten Hierarchieebene und die einzelnen Cluster in der nächsten Ebene. Im Gegensatz dazu kann die Dimension, die für ein Entscheidungsstrukturmodell erstellt wird, über eine sehr tiefe Hierarchie verfügen und die Verzweigung der Struktur darstellen.

Die Option Cube mithilfe der Miningmodelldimension erstellenversetzt Sie in die Lage, die neue Data Mining-Dimension in einen neuen Cube zu exportieren. Alle Objekte, die für ein Drillthrough der Data Mining-Dimension erforderlich sind, werden automatisch eingeschlossen.

Warnung

Die Erstellung von Data Mining-Dimensionen wird nur von den folgenden Modelltypen unterstützt: Modelle auf Grundlage des Microsoft Clustering-Algorithmus, des Microsoft Decision Trees-Algorithmus oder des Microsoft Associations-Algorithmus.

Weitere Informationen

Data Mining-Algorithmen (Analysis Services - Data Mining)
Miningstrukturspalten
Miningmodellspalten
Miningmodelleigenschaften
Eigenschaften für Miningstrukturen und Strukturspalten