Verarbeiten von Strukturen und Modellen (Analysis Services - Data Mining)

Ein Data Mining-Objekt ist vor seiner Verarbeitung nur ein leerer Container. Die Verarbeitung eines Data Mining-Modells wird auch als Training bezeichnet.

Verarbeiten von Miningstrukturen:   Eine Miningstruktur ruft Daten von einer externen Datenquelle ab, die über die Spaltenbindungen und Verwendungsmetadaten definiert ist, und liest die Daten. Diese Daten werden vollständig gelesen und anschließend analysiert, um verschiedene statistische Informationen zu extrahieren. Analysis Services speichert eine kurze Darstellung der Daten, die für die Analyse durch Data Mining-Algorithmen geeignet ist, in einem lokalen Cache. Sie können diesen Cache entweder beibehalten oder löschen, nachdem die Modelle verarbeitet wurden. Standardmäßig wird der Cache gespeichert. Weitere Informationen finden Sie unter Vorgehensweise: Verarbeiten einer Miningstruktur.

Verarbeiten von Miningmodellen:   Bis zu seiner Verarbeitung ist ein Miningmodell leer und enthält nur Definitionen. Um ein Miningmodell verarbeiten zu können, muss zuerst die zugrunde liegende Miningstruktur verarbeitet werden. Das Miningmodell erhält die Daten aus dem Cache der Miningstruktur, wendet die Filter an, die ggf. für das Modell erstellt wurden, und übergibt dann das Dataset über den Algorithmus, um Muster zu ermitteln. Nachdem das Modell verarbeitet wurde, speichert das Modell nur die Ergebnisse der Verarbeitung, nicht die Daten selbst. Weitere Informationen finden Sie unter Vorgehensweise: Verarbeiten eines Miningmodells.

In der folgenden Abbildung ist jeweils der Datenfluss für die Verarbeitung einer Miningstruktur und für die Verarbeitung eines Miningmodells dargestellt.

Datenverarbeitung: Quelle-zu-Struktur-zu-Modell

Abfragen an den relationalen Datenspeicher während der Verarbeitung

Der Verarbeitungsprozess besteht aus drei Phasen: Abfragen der Quelldaten, Bestimmen der statistischen Rohdaten und Trainieren des Miningmodells mit der Modelldefinition und dem Modellalgorithmus.

Der Analysis Services-Server gibt Abfragen an die Datenbank aus, die die Rohdaten bereitstellt. Bei dieser Datenbank kann es sich um eine Instanz von SQL Server 2008 oder einer früheren Version des SQL Server-Datenbankmoduls handeln. Beim Verarbeiten einer Data Mining-Struktur werden die Daten der Quelle an die Miningstruktur übertragen und in einem neuen komprimierten Format auf Datenträger gespeichert. Es werden nicht alle Spalten der Datenquelle verarbeitet: Es werden nur die Spalten verarbeitet, die gemäß der Definition durch die Bindungen in der Miningstruktur enthalten sind.

Mit den Rohdaten baut Analysis Services einen Index aller Daten und diskretisierten Spalten auf und erstellt einen separaten Index für fortlaufende Spalten. Für jede geschachtelte Tabelle wird zum Erstellen des Index eine Abfrage ausgegeben. Eine weitere Abfrage wird für jede geschachtelte Tabelle generiert, um die Beziehungen zwischen den einzelnen Paaren von geschachtelter Tabelle und Falltabelle zu verarbeiten. Der Grund dafür, dass mehrere Abfragen erstellt werden, besteht in der Verarbeitung eines speziellen internen OLAP (Online Analytical Processing)-Cubes. Sie können die Anzahl der Abfragen, die von Analysis Services an den relationalen Speicher gesendet werden, beschränken, indem Sie die Servereigenschaft DatabaseConnectionPoolMax festlegen. Weitere Informationen finden Sie unter OLAP-Eigenschaften.

Beim Verarbeiten des Modells liest das Modell die Daten nicht erneut von der Datenquelle, sondern ruft stattdessen die Zusammenfassung der Daten aus der Miningstruktur ab. Mit dem erstellten Cube und den zwischengespeicherten Index- und Falldaten erstellt der Server unabhängige Threads zum Trainieren der Modelle.

In SQL Server Enterprise erfolgt die Verarbeitung ausschließlich parallel. In SQL Server Standard wird die Verarbeitung serialisiert.

Anzeigen der Ergebnisse der Verarbeitung

Nachdem eine Miningstruktur verarbeitet wurde, enthält sie eine kurze Darstellung der Daten zur Verwendung in statistischen Analysen. Wenn der Cache nicht gelöscht wurde, können Sie wie folgt auf die Daten im Cache zugreifen:

Nachdem ein Miningmodell verarbeitet wurde, enthält es nur die Muster, die bei der Analyse ermittelt wurden, sowie die Zuordnungen von den Modellergebnissen zu den im Cache zwischengespeicherten Trainingsdaten. Sie können die Modellergebnisse, die auch als Modellinhalt bezeichnet werden, durchsuchen oder abfragen, oder Sie können die Modell- und Strukturfälle abfragen, wenn diese zwischengespeichert wurden.

Der Modellinhalt eines Miningmodells hängt von dem Algorithmus ab, der für die Erstellung verwendet wurde. Wenn ein Modell beispielsweise ein Clusteringmodell ist und ein anderes Modell ein Entscheidungsstrukturmodell, unterscheidet sich der Modellinhalt stark, obwohl die beiden Modelle dieselben Daten verwenden. Weitere Informationen finden Sie unter Miningmodellinhalt (Analysis Services - Data Mining).