Logische Architektur (Analysis Services - Data Mining)

Das Data Mining ist ein Prozess, bei dem mehrere Komponenten interagieren.

  • Sie greifen auf Datenquellen in einer SQL Server-Datenbank oder auf eine beliebige andere Datenquelle zu, um diese zum Training, für Tests oder für Vorhersagen zu verwenden.

  • Sie definieren Data Mining-Strukturen und -Modelle mithilfe von SQL Server-Datentools (SSDT) oder Visual Studio.

  • Sie verwalten Data Mining-Objekte und erstellen Vorhersagen und Abfragen, indem Sie SQL Server Management Studio verwenden.

  • Nachdem Sie die Lösung fertig gestellt haben, können Sie sie als Instanz von Analysis Services bereitstellen.

Der Prozess hinsichtlich der Erstellung dieser Lösungsobjekte wurde bereits an anderer Stelle beschrieben. Weitere Informationen finden Sie unter Data Mining-Projektmappen.

In den folgenden Abschnitten wird die logische Architektur der Objekte in einer Data Mining-Lösung beschrieben.

Data Mining-Quelldaten

Miningstrukturen

Miningmodelle

Benutzerdefinierte Data Mining-Objekte

Data Mining-Quelldaten

Die Daten, die Sie beim Data Mining verwenden, werden nicht in der Data Mining-Lösung gespeichert. Es werden nur die Bindungen gespeichert. Die Daten können sich in einer Datenbank befinden, die in einer vorherigen Version von SQL Server erstellt wurde, oder in einem CRM-System oder sogar einer Flatfile. Wenn für die Struktur oder das Modell ein Training auf Grundlage der Verarbeitung erfolgt, wird eine statistische Zusammenfassung der Daten erstellt und in einem Cache gespeichert, der zur Verwendung in späteren Vorgängen beibehalten oder nach der Verarbeitung gelöscht werden kann. Weitere Informationen finden Sie unter Miningstrukturen (Analysis Services - Data Mining).

Sie kombinieren ungleichartige Daten innerhalb des Analysis Services-Datenquellensicht (DSV)-Objekts, das im oberen Bereich der Datenquelle eine Abstraktionsebene bereitstellt. Sie können Joins zwischen Tabellen festlegen oder Tabellen hinzufügen, die eine n:1-Beziehung aufweisen, um geschachtelte Tabellenspalten zu erstellen. Die Definitionen dieser Objekte, der Datenquelle und der Datenquellensicht werden innerhalb der Lösung mit den Dateinamenerweiterungen wie etwa * .ds oder * .dsv gespeichert. Weitere Informationen zur Erstellung und Verwendung von Analysis Services-Datenquellen und -Datenquellensichten finden Sie unter Unterstützte Datenquellentypen (SSAS – Mehrdimensional).

Sie können Datenquellen und Datenquellensichten auch definieren und ändern, indem Sie AMO oder XMLA verwenden. Weitere Informationen zum programmgesteuerten Arbeiten mit diesen Objekten finden Sie unter Übersicht über logische Architektur (Analysis Services – Mehrdimensionale Daten).

Zurück zum Anfang

Miningstrukturen

Eine Data Mining-Struktur ist ein logischer Datencontainer, der die Datendomäne definiert, aus der die Miningmodelle erstellt werden. Eine einzelne Miningstruktur kann mehrere Miningmodelle unterstützen.

Wenn Sie die Daten in der Data Mining-Lösung verwenden müssen, liest Analysis Services die Daten aus der Quelle aus und erzeugt einen Cache mit Aggregaten und weiteren Informationen. Standardmäßig wird dieser Cache beibehalten, damit Trainingsdaten wiederverwendet werden können, um zusätzliche Modelle zu unterstützen. Wenn Sie den Cache löschen müssen, ändern Sie die CacheMode-Eigenschaft des Miningstrukturobjekts in den Wert ClearAfterProcessing. Weitere Informationen finden Sie unter AMO-Klassen für Data Mining.

Mithilfe von SQL Server 2012 Analysis Services (SSAS) können Sie die Daten auch in Trainings- und Testdatensätze unterteilen, damit Sie Ihre Data Mining-Modelle mit einem repräsentativen, zufällig ausgewählten Satz von Daten testen können. Die Daten werden eigentlich nicht getrennt gespeichert. Im Strukturcache werden die Falldaten eher mit einer Eigenschaft markiert, die angibt, ob der jeweilige Fall für Trainings- oder für Testzwecke verwendet wird. Wenn der Cache gelöscht wird, können diese Informationen nicht abgerufen werden.

Weitere Informationen finden Sie unter Miningstrukturen (Analysis Services - Data Mining).

Eine Data Mining-Struktur kann geschachtelte Tabellen enthalten. In einer geschachtelten Tabelle werden weitere Details zu dem Fall bereitgestellt, der in der primären Datentabelle modelliert ist. Weitere Informationen finden Sie unter Geschachtelte Tabellen (Analysis Services - Data Mining).

Zurück zum Anfang

Miningmodelle

Vor der Verarbeitung stellt ein Data Mining-Modell lediglich eine Kombination aus Metadateneigenschaften dar. Diese Eigenschaften spezifizieren eine Miningstruktur, einen Data Mining-Algorithmus und eine bestimmte Auflistung von Parameter- und Filtereinstellungen, die sich auf die Art der Verarbeitung der Daten auswirken. Weitere Informationen finden Sie unter Miningmodelle (Analysis Services – Data Mining).

Wenn Sie das Modell verarbeiten, werden die im Cache der Miningstruktur gespeicherten Trainingsdaten dazu verwendet, Muster zu generieren. Dies geschieht auf der Grundlage sowohl der statistischen Eigenschaften der Daten als auch der vom Algorithmus und dessen Parametern definierten Heuristik. Dies wird auch als Trainieren des Modells bezeichnet.

Das Ergebnis des Trainings stellt einen Satz von Zusammenfassungsdaten dar. Diese sind im Modellinhalt enthalten, der die gefundenen Muster beschreibt und Regeln bereitstellt, mit deren Hilfe Vorhersagen generiert werden können. Weitere Informationen finden Sie unter Miningmodellinhalt (Analysis Services – Data Mining).

In beschränkten Fällen kann die logische Struktur des Modells auch in eine Datei exportiert werden, die Modellformeln und Datenbindungen gemäß dem Standardformat der PMML (Predictive Model Markup Language) darstellt. Diese logische Struktur kann in andere Systeme importiert werden, die PMML verwenden. Außerdem kann das so beschriebene Modell dann zur Vorhersage verwendet werden. Weitere Informationen finden Sie unter Grundlegendes zur SELECT-Anweisung (DMX).

Zurück zum Anfang

Benutzerdefinierte Data Mining-Objekte

Andere Objekte, die Sie im Zusammenhang mit einem Data Mining-Projekt verwenden, wie z. B. Genauigkeitsdiagramme oder Vorhersageabfragen, werden nicht innerhalb der Lösung beibehalten. Für sie kann aber mit ASSL ein Skript erstellt werden, oder sie können mit AMO erstellt werden.

Darüber hinaus können Sie die über eine Instanz von Analysis Services verfügbaren Dienste und Funktionen durch das Hinzufügen der folgenden benutzerdefinierten Objekte erweitern:

  • Benutzerdefinierte Assemblys
    .NET-Assemblys können mit einer beliebigen Reklamationssprache für CLR oder COM definiert und anschließend mit einer Instanz des SQL-Servers registriert werden. Assemblydateien werden von der Position geladen, die von der Anwendung definiert wird. Außerdem wird eine Kopie zusammen mit den Daten auf dem Server gespeichert. Die Kopie der Assemblydatei wird verwendet, um die Assembly bei jedem Start des Diensts zu laden.

    Weitere Informationen finden Sie unter Verwaltung von mehrdimensionalen Modellassemblys.

  • Benutzerdefinierte gespeicherte Prozeduren
    Analysis Services-Data Mining unterstützt die Verwendung von gespeicherten Prozeduren, damit diese mit Data Mining-Objekten funktionieren können. Sie können eigene gespeicherte Prozeduren erstellen, um die Funktionalität zu erweitern und um einfacher mit von Vorhersageabfragen und Inhaltsabfragen zurückgegebenen Daten arbeiten zu können.

    Definieren von gespeicherten Prozeduren

    Die folgenden gespeicherten Prozeduren werden zur Durchführung einer Kreuzvalidierung unterstützt.

    Data Mining-gespeicherte Prozeduren (Analysis Services - Data Mining)

    Darüber hinaus enthält Analysis Services viele gespeicherte Systemprozeduren, die intern für Data Mining verwendet werden. Obwohl die gespeicherten Systemprozeduren für die interne Verwendung ausgelegt sind, können Sie Ihnen unter Umständen nützliche Verknüpfungen bieten. Microsoft behält sich das Recht vor, diese gespeicherten Prozeduren je nach Bedarf zu ändern. Daher wird hinsichtlich einer produktiven Nutzung empfohlen, dass Sie Abfragen mit DMX, AMO oder XMLA erstellen.

  • Benutzerdefinierte Plug-In-Algorithmen
    Analysis Services stellt einen Mechanismus zum Erstellen von eigenen Algorithmen und zum anschließenden Hinzufügen von Algorithmen bereit, die als neuer Data Mining-Dienst für die Serverinstanz fungieren.

    Analysis Services verwendet COM-Schnittstellen zum Kommunizieren mit den Plug-In-Algorithmen. Weitere Informationen darüber, wie neue Algorithmen implementiert werden, finden Sie unter Plug-In-Algorithmen.

    Sie müssen jeden neuen Algorithmus registrieren, bevor Sie diesen verwenden können. Um einen Algorithmus zu registrieren, fügen Sie die erforderlichen Metadaten für den jeweiligen Algorithmus in der INI-Datei der Instanz von Analysis Services hinzu. Sie müssen jeder Instanz, bei der Sie die Verwendung des entsprechenden Algorithmus beabsichtigen, diese Informationen hinzufügen. Nachdem Sie den Algorithmus hinzugefügt haben, können Sie die Instanz neu starten. Sie können das MINING_SERVICES-Schemarowset verwenden, um den neuen Algorithmus anzuzeigen, einschließlich der Optionen und Anbieter, welche der Algorithmus unterstützt.

Zurück zum Anfang

Siehe auch

Verweis

Data Mining-Erweiterungen (DMX) - Referenz

Konzepte

Verarbeitung von mehrdimensionalen Modellobjekten