Logische Architektur (Analysis Services - Data Mining)

Das Data Mining ist ein Prozess, bei dem mehrere Komponenten interagieren. Sie greifen auf Datenquellen in einer SQL Server-Datenbank oder auf eine beliebige andere Datenquelle zu, um diese zum Training, für Tests oder für Vorhersagen zu verwenden. Sie definieren Data Mining-Strukturen und -Modelle mithilfe von Business Intelligence Development Studio oder Visual Studio 2005. Sie können Data Mining-Objekte verwalten und Vorhersagen und Abfragen erstellen, indem Sie SQL Server Management Studio verwenden. Nachdem Sie die Lösung fertig gestellt haben, können Sie sie als Instanz von Analysis Services bereitstellen.

Data Mining-Lösungen und -Projekte

Um ein Data Mining-Projekt zu erstellen, müssen Sie Datenquellen, Data Mining-Strukturen und Data Mining-Modelle definieren. Das erstellte Data Mining-Projekt kann auch Testsätze zum Überprüfen des Modells enthalten. Nachdem Sie ein Projekt auf dem Server bereitgestellt haben, können Sie fortfahren, indem Sie in der Originallösung neue Modelle entwickeln und testen.

Data Mining-Quelldaten

Sie müssen keinen Cube oder andere spezielle Datenquellen verwenden, um das Data Mining ausführen zu können. Sie können das Data Mining für relationale Datentabellen oder andere beliebige Datenquellen, die in Analysis Services als Datenquellensicht definiert wurden, schnell und einfach durchführen. Die Daten, die Sie beim Data Mining verwenden, werden nicht in der Data Mining-Lösung gespeichert. Es werden nur die Bindungen gespeichert. Die Daten können sich in einer Datenbank befinden, die in einer vorherigen Version von SQL Server erstellt wurde, oder in einem CRM-System oder sogar einer Flatfile. Mithilfe einer Analysis Services-Datenquellensicht können Sie verschiedene Datenquellen kombinieren, indem Sie Verknüpfungen zwischen mehreren Tabellen angeben. Sie können auch Tabellen hinzufügen, die eine n:1-Beziehung aufweisen, um geschachtelte Tabellenspalten zu erstellen.

Wenn Sie die Daten in der Data Mining-Lösung verwenden müssen, liest Analysis Services die Daten aus der Quelle aus und erzeugt einen Cache mit Aggregaten und anderen verwendeten Informationen. Sie können die zwischengespeicherten Informationen beibehalten und verwenden, um neue Data Mining-Modelle zu erstellen, oder Sie können sie löschen, um Speicherplatz zu sparen.

Sie haben die Möglichkeit, die Data Mining-Lösung fortlaufend mit neuen Daten zu aktualisieren, oder Sie können ein gut funktionierendes Modell bereitstellen und keine neuen Daten mehr hinzufügen.

Mithilfe von SQL Server 2008 Analysis Services können Sie die Daten auch in Trainings- und Testdatensätze unterteilen, damit Sie Ihre Data Mining-Modelle mit einem repräsentativen, zufällig ausgewählten Satz von Daten testen können.

Weitere Informationen zur Erstellung und Verwendung von Analysis Services-Datenquellen und Datenquellensichten finden Sie unter Definieren von Datenquellen (Analysis Services).

Data Mining-Strukturen

Eine Data Mining-Struktur ist eine logische Datenstruktur, die die Datendomäne definiert, aus der die Miningmodelle erstellt werden. Eine einzelne Miningstruktur kann mehrere Miningmodelle unterstützen, die dieselbe Domäne verwenden. Sie können die Data Mining-Struktur auch in einen Trainings- und Testsatz partitionieren, indem Sie einen Prozentsatz oder eine Menge von Daten als HOLDOUT angeben. Diese Partitionierung kann beim Definieren der Data Mining-Struktur automatisch durchgeführt werden.

Weitere Informationen finden Sie unter Miningstrukturen (Analysis Services - Data Mining).

Eine Data Mining-Struktur kann geschachtelte Tabellen enthalten. In einer geschachtelten Tabelle werden weitere Details zu dem Fall bereitgestellt, der in der primären Datentabelle modelliert ist. Weitere Informationen finden Sie unter Geschachtelte Tabellen (Analysis Services - Data Mining)

Data Mining-Modelle

Ein Data Mining-Modell umfasst eine Kombination von Daten, einen Data Mining-Algorithmus und eine Auflistung von Parameter- und Filtereinstellungen, die sich auf die verwendeten Daten und die Art der Verarbeitung auswirken. Weitere Informationen finden Sie unter Miningmodelle (Analysis Services – Data Mining).

Sie definieren ein Data Mining-Modell mithilfe der DMX-Sprache (Data Mining Extensions, Data Mining-Erweiterungen) oder mithilfe des Data Mining-Assistenten in BI Development Studio. Weitere Informationen zum Verwenden des Data Mining-Assistenten finden Sie unter Data Mining-Assistent (Analysis Services - Data Mining). Weitere Informationen zur Verwendung von DMX finden Sie unter Data Mining-Erweiterungen (DMX) - Referenz.

Nachdem Sie die Struktur des Miningmodells festgelegt haben, verarbeiten Sie das Modell, indem Sie die leere Struktur mit den Mustern auffüllen, die das Modell beschreiben. Dies wird auch als Trainieren des Modells bezeichnet. Muster werden gefunden, indem auf die Originaldaten ein mathematischer Algorithmus angewendet wird. Mithilfe von Parametern kann jeder Algorithmus angepasst werden. Weitere Informationen zur Auswahl eines Data Mining-Algorithmus finden Sie unter Data Mining-Algorithmen (Analysis Services - Data Mining). Weitere Informationen zur Festlegung von Parametern für einzelne Data Mining-Algorithmen als Feineinstellung der Ergebnisse eines Modells finden Sie unter Anpassen eines Data Mining-Modells (Analysis Services – Data Mining).

Beim Erstellen neuer Data Mining-Modelle testen Sie diese iterativ, indem Sie Vorhersagen erstellen, und nehmen dann Änderungen vor, um die Ergebnisse zu optimieren. Eine Änderung kann z. B. das Hinzufügen zusätzlicher Daten oder das Ändern der Parameter des Modells sein, um eine bessere Datenanpassung zu erzielen. Informationen zum Testen der Genauigkeit von Vorhersagen finden Sie unter Überprüfen von Data Mining-Modellen (Analysis Services - Data Mining).

Bereitstellung

Das Ziel besteht bei der Data Mining-Entwicklung letztlich darin, ein Modell zu erstellen, das von Endbenutzern und Analysten zum Erstellen von Vorhersagen und Durchführen von eingehenden Analysen verwendet werden kann. Wenn Sie mit den Ergebnissen zufrieden sind, die ein Modell erzeugt, sollten Sie das Modell daher in einer Produktionsumgebung bereitstellen. In der Produktionsumgebung können die Miningmodelle je nach Ihren Anforderungen verschiedene Zwecke erfüllen. Die folgende Tabelle enthält einige Beispiele für Aufgaben, die Sie mit einem Data Mining-Modell ausführen können:

  • Mithilfe der Modelle Vorhersagen erstellen, die für Geschäftsentscheidungen herangezogen werden können. SQL Server stellt die DMX-Sprache zur Verfügung, die Sie zum Erstellen von Vorhersageabfragen verwenden können. Darüber hinaus unterstützt Sie der Generator für Vorhersageabfragen beim Erstellen der Abfragen.

  • Data Mining-Funktionen in eine Anwendung integrieren. Sie können Analysis Management Objects (AMO) hinzufügen oder eine Assembly mit mehreren Objekten einbetten. Mit diesen Objekten kann Ihre Anwendung Miningstrukturen und -modelle erstellen, ändern, verarbeiten und löschen. Alternativ dazu können Sie XMLA-Nachrichten (XML for Analysis) direkt an eine Instanz von Analysis Services senden.

  • Mit Integration Services ein Paket erstellen, in dem mithilfe eines Miningmodells eingehende Daten eigenständig aufgeteilt und mehreren Tabellen zugeordnet werden. Wenn eine Datenbank beispielsweise fortlaufend mit potenziellen Neukunden aktualisiert wird, können Sie ein Miningmodell zusammen mit Integration Services dazu verwenden, die eingehenden Daten zwei verschiedenen Kundengruppen zuzuordnen: Einer Gruppe, deren Kunden wahrscheinlich ein Produkt kaufen, und einer anderen, deren Kunden wahrscheinlich kein Produkt kaufen.

  • Einen Bericht erstellen, mit dem Abfragen direkt für ein vorhandenes Miningmodell ausgeführt werden können. Es kann sein, dass Benutzer unterschiedliche Vorhersagen erstellen möchten oder dass Analysten einen direkten Zugriff auf den Inhalt des Miningmodells benötigen, damit sie in den Daten interessante Muster untersuchen können.

Die Modellaktualisierung ist Teil der Bereitstellungsstrategie. Mit wachsendem Datenbestand des Unternehmens müssen Sie die Modelle neu verarbeiten, um auf diese Weise die Effizienz zu optimieren. Weitere Informationen finden Sie unter Bereitstellung (Analysis Services – Data Mining) und Erstellen von DMX-Vorhersageabfragen