Data Mining-Assistent (Analysis Services - Data Mining)

Der Data Mining-Assistent in Microsoft SQL Server Analysis Services wird immer dann gestartet, wenn Sie einem Data Mining-Projekt eine neue Miningstruktur hinzufügen. Der Assistent hilft Ihnen, eine Datenquelle auszuwählen und eine Datenquellenansicht einzurichten, mit der die für die Analyse verwendeten Daten definiert werden. Anschließend hilft er Ihnen, ein erstes Modell zu erstellen.

In der abschließenden Phase des Assistenten können Sie die Daten optional in Training und Testsätze unterteilen und Funktionen wie Drillthrough aktivieren.

Wissenswertes vor dem Start

Die folgenden Dinge sollten Sie wissen, bevor Sie den Assistenten starten.

  • Werden die Data Mining-Struktur und die -Modelle von einer relationalen Datenbank aus oder von einem vorhandenen Cube in einer OLAP-Datenbank erstellt?

  • Welche Spalten enthalten die Schlüssel, die einen Falldatensatz eindeutig identifizieren?

  • Welche Spalten oder Attribute möchten Sie für die Vorhersage verwenden? Welche Spalten oder Attribute sind als Eingabe für die Analyse gut geeignet?

  • Welchen Algorithmus sollten Sie verwenden? Die in SQL Server Analysis Services bereitgestellten Algorithmen haben unterschiedliche Eigenschaften und erzeugen verschiedene Ergebnisse. Glücklicherweise sind Sie nicht auf ein Modell für alle Datensätze beschränkt, Sie können daher nach Bedarf verschiedene Modelle hinzufügen.

  • Müssen Sie in der Lage sein, die Modelle auf einem einheitlichen Dataset zu testen? In diesem Fall erwägen Sie, die Option zu verwenden, um einige Daten für Tests zu reservieren. Sie können einen Prozentsatz auswählen und diesen bei Bedarf durch eine angegebene Anzahl von Zeilen nach oben begrenzen.

Starten des Data Mining-Assistenten

Es muss eine Projektmappe in SQL Server-Datentools (SSDT) geöffnet sein, die mindestens ein Data Mining- oder OLAP-Projekt enthält, um den Data Mining-Assistenten verwenden zu können.

  • Wenn die Projektmappe für Data Mining bereit ist, können Sie im Projektmappen-Explorer einfach mit der rechten Maustaste auf den Knoten Miningstrukturen klicken und Neue Miningstruktur auswählen, um den Assistenten zu starten.

  • Wenn die Projektmappe keine vorhandenen Projekte enthält, können Sie ein neues Data Mining-Projekt hinzufügen. Wählen Sie im Menü Datei die Option Neu aus, und klicken Sie dann auf Projekt. Wählen Sie die Vorlage für multidimensionale Projekte bzw. Data Mining-Projekte von Analysis Services aus.

  • Sie können auch Metadaten aus einer vorhandenen Data Mining-Projektmappe mithilfe des Analysis Services-Import-Assistenten abrufen. Sie können jedoch die zu importierenden einzelnen Objekte nicht auswählen. Die gesamte Datenbank wird importiert, und zwar einschließlich sämtlicher Cubes, Datenquellensichten usw. Die durch den Import neu erstellte Projektmappe wird automatisch so konfiguriert, dass sie die lokale Standarddatenbank verwendet. Sie müssen dies möglicherweise in eine andere Instanz ändern, bevor Sie die Objekte verarbeiten oder durchsuchen können. Wenn Sie aus einer früheren Version von Analysis Services importieren, müssen Sie die Verweise auf Anbieter möglicherweise aktualisieren.

Anschließend müssen Sie die Miningstruktur und ein zugeordnetes Data Mining-Modell erstellen. Sie können auch nur die Miningstruktur erstellen und später Modelle hinzufügen. Es ist jedoch im Allgemeinen am einfachsten, zuerst ein Testmodell zu erstellen.

Vergleich der relationalen undOLAP-Miningmodelle

Sie sollten sich entscheiden, ob Sie eine relationale Datenquelle verwenden oder ob Ihr Modell auf multidimensionalen Daten (OLAP) basieren soll.

Im Data Mining-Assistenten gibt es an dieser Stelle zwei Möglichkeiten, je nachdem, ob Ihre Datenquelle relational oder in einem Cube ist: Abgesehen vom Datenauswahlprozess ist alles andere gleich – die Auswahl des Algorithmus, die Möglichkeit, ein Dataset mit zurückgehaltenen Daten hinzuzufügen usw. Die Auswahl der Cubedaten ist jedoch ein wenig komplexer als die Verwendung von relationalen Daten. (Sie erhalten am Ende auch einige zusätzliche Optionen, wenn Sie ein Modell auf Grundlage eines Cubes erstellen.)

Eine detaillierte exemplarische Vorgehensweise jeder Option finden Sie in den folgenden Themen:

HinweisHinweis

Für ein Data Mining ist es nicht erforderlich, dass Sie einen Cube oder eine OLAP-Datenbank haben. Sofern Ihre Daten nicht bereits in einem Cube gespeichert sind oder Sie OLAP-Dimensionen oder die Ergebnisse von OLAP-Aggregationen oder -Berechnungen auswerten möchten, empfehlen wir die Verwendung einer relationalen Tabelle oder Datenquelle für das Data Mining.

Auswahl eines Algorithmus

Anschließend müssen Sie sich entscheiden, welcher Algorithmus für die Verarbeitung Ihrer Daten verwendet werden soll. Es kann schwierig sein, eine Entscheidung zu treffen. Jeder in Analysis Services bereitgestellte Algorithmus verfügt über unterschiedliche Funktionen und führt zu unterschiedlichen Ergebnissen. Sie können experimentieren und verschiedene Modelle ausprobieren, bevor Sie das angemessenste Modell für Ihre Daten und Ihr Geschäftsproblem bestimmen. Im folgenden Thema finden Sie eine Erklärung der Aufgaben, für die jeder Algorithmus am besten geeignet ist.

Data Mining-Algorithmen (Analysis Services - Data Mining)

Sie können mehrere Modelle mit unterschiedlichen Algorithmen erstellen oder die Parameter der Algorithmen ändern, um verschiedene Modelle zu erstellen. Sie werden in Bezug auf die Auswahl des Algorithmus nicht eingeschränkt, und es ist eine gute Übung, um mehrere unterschiedliche Modelle für die gleichen Daten zu erstellen.

Definieren der für Modellierung verwendeten Daten

Zusätzlich zur Auswahl der Daten von einer Quelle müssen Sie angeben, welche der Tabellen in der Datenquellensicht die Falldaten enthält. Die Falltabelle wird verwendet, um das Data Mining-Modell zu erlernen. Sie sollte die zu analysierenden Entitäten enthalten, beispielsweise Kunden und deren demografische Informationen. Jeder Fall muss eindeutig sein und durch einen Fallschlüssel identifizierbar sein.

Zusätzlich zum Bestimmen der Falltabelle können Sie geschachtelte Tabellen in die Daten einbeziehen. Eine geschachtelte Tabelle enthält in der Regel zusätzliche Informationen zu den Entitäten in der Falltabelle, etwa von dem Kunden vorgenommene Transaktionen oder Attribute, die eine n:1-Beziehung zu der Entität aufweisen. Eine mit der Falltabelle Kunden verknüpfte geschachtelte Tabelle könnte beispielsweise eine Liste der von jedem Kunden erworbenen Produkte enthalten. In einem Modell, das Datenverkehr zu einer Website analysiert, könnte die geschachtelte Tabelle die Sequenzen von Seiten enthalten, die der Benutzer besucht hat. Weitere Informationen finden Sie unter Geschachtelte Tabellen (Analysis Services - Data Mining)

Zusätzliche Funktionen

Vom Data Mining-Assistenten werden diese zusätzlichen Funktionen bereitgestellt, um Ihnen dabei zu helfen, die richtigen Daten auszuwählen und die Datenquellen ordnungsgemäß zu konfigurieren:

  • Automatische Erkennung von Datentypen: Vom Assistenten werden die Eindeutigkeit und die Verteilung von Spaltenwerten untersucht. Anschließend werden von ihm der beste Datentyp empfohlen und ein Verwendungstyp für die Daten vorgeschlagen. Sie können diese Vorschläge überschreiben, indem Sie Werte aus einer Liste auswählen.

  • Vorschläge für Variablen: Sie können auf ein Dialogfeld klicken und einen Analyzer starten, der Korrelationen zwischen den in einem Modell einbezogenen Spalten berechnet und bestimmt, ob alle Spalten basierend auf der bisherigen Konfiguration des Modells wahrscheinliche Vorhersagen des Ausgabeattributs sind. Sie können diese Vorschläge überschreiben, indem Sie andere Werte eingeben.

  • Funktionsauswahl: Von den meisten Algorithmen werden Spalten, die gute Indikatoren sind, automatisch erkannt und bevorzugt verwendet. Die Funktionsauswahl wird auf Spalten angewendet, die zu viele Werte enthalten, um die Kardinalität der Daten zu reduzieren und um die Chancen zu erhöhen, ein aussagekräftiges Muster zu finden. Sie können das Verhalten der Funktionsauswahl beeinflussen, indem Sie Modellparameter verwenden.

  • Automatische Aufteilung des Cubes: Wenn das Miningmodell auf einer OLAP-Datenquelle basiert, besteht automatisch die Möglichkeit, das Modell mit Cubeattributen in Slices aufzuteilen. Dies ist praktisch, um Modelle auf Grundlage der Teilmengen von Cubedaten zu erstellen.

Abschließen des Assistenten

Der letzte Schritt im Assistenten besteht aus der Benennung der Miningstruktur und dem damit verbundenen Miningmodell. Je nachdem welchen Modelltyp Sie erstellt haben, stehen Ihnen die folgenden wichtigen Optionen zur Verfügung;

  • Wenn Sie Drillthrough zulassen auswählen, wird die Möglichkeit zum Drillthrough im Modell aktiviert. Mit Drillthrough können Benutzer, die die entsprechenden Berechtigungen haben, die Quelldaten analysieren, die beim Erstellen des Modells verwendet wurden.

  • Wenn Sie ein OLAP-Modell erstellen, können Sie die Option Neuen Data Mining-Cube erstellen oder Data Mining-Dimension erstellen auswählen. Die beiden Optionen erleichtern es, das fertige Modell zu durchsuchen und einen Drillthrough auf die zugrunde liegenden Daten auszuführen.

Nachdem Sie den Data Mining-Assistenten abgeschlossen haben, ändern Sie mit dem Data Mining-Designer die Miningstruktur und die -modelle, um die Genauigkeit des Modells sowie die Charakteristika der Struktur und der Modelle anzuzeigen, oder Vorhersagen mithilfe der Modelle durchzuführen.

Zurück zum Anfang

Verwandte Inhalte

Weitere Informationen über die nötigen Entscheidungen bei der Erstellung eines Data Mining-Modells sind den folgenden Links zu entnehmen:

Data Mining-Algorithmen (Analysis Services - Data Mining)

Inhaltstypen (Data Mining)

Datentypen (Data Mining)

Funktionsauswahl (Data Mining)

Fehlende Werte (Analysis Services - Data Mining)

Miningmodell-Drillthrough

Siehe auch

Konzepte

Data Mining-Tools

Data Mining-Projektmappen