Artikel
03/30/2012

Microsoft Sequence Clustering-Algorithmus

Der Microsoft Sequence Clustering-Algorithmus ist ein Sequenzanalysenalgorithmus, der von Microsoft SQL Server Analysis Services bereitgestellt wird. Mithilfe dieses Algorithmus können Sie Daten zu Ereignissen untersuchen, die durch Folgepfade, auch Sequenzen genannt, verknüpft werden können. Der Algorithmus ermittelt die am häufigsten vorkommenden Sequenzen durch Gruppierung oder Clustering identischer Sequenzen. Nachfolgend finden Sie Beispiele für Sequenzen:

Daten, die die Klickpfade beschreiben, die erstellt werden, wenn Benutzer navigieren oder eine Website durchsuchen.
Daten, die die Reihenfolge beschreiben, in der der Kunde eines Onlinehändlers seinem Einkaufswagen Waren hinzufügt.

Dieser Algorithmus ähnelt dem Microsoft-Clustering-Algorithmus in vielerlei Hinsicht. Anstatt jedoch nach Clustern mit Fällen zu suchen, die ähnliche Attribute enthalten, sucht der Microsoft Sequence Clustering-Algorithmus nach Clustern mit Fällen, die ähnliche Pfade in einer Sequenz enthalten.

Beispiel

Auf der Website von Adventure Works Cycles werden Informationen dazu gesammelt, welche Seiten die Benutzer der Website besuchen, und in welcher Reihenfolge diese Seiten besucht werden. Da die Firma die Möglichkeit der Onlinebestellung bietet, müssen sich die Kunden bei der Site anmelden. Dadurch erhält die Firma Informationen zum Klickverhalten jedes einzelnen Kundenprofils. Mithilfe des Microsoft Sequence Clustering-Algorithmus kann die Firma diese Daten verarbeiten und so Gruppen oder Cluster von Kunden ermitteln, die ähnliche Klickmuster oder -sequenzen aufweisen. Die Firma kann dann anhand dieser Cluster die Bewegungen der Benutzer auf der Website analysieren und diejenigen Seiten identifizieren, die am engsten mit dem Verkauf eines bestimmten Produkts verbunden sind. Außerdem lässt sich vorhersagen, welche Seiten mit der höchsten Wahrscheinlichkeit als Nächstes besucht werden.

Funktionsweise des Algorithmus

Der Microsoft Sequence Clustering-Algorithmus ist ein hybrider Algorithmus, der Clustering-Techniken mit Markov-Kettenanalysen verbindet, um Cluster und deren Sequenzen zu identifizieren. Eines der Kennzeichen des Microsoft Sequence Clustering-Algorithmus besteht in der Verwendung von Sequenzdaten. Diese Daten repräsentieren in der Regel eine Reihe von Ereignissen oder Statusübergängen in einem Dataset, wie z. B. eine Reihe von Produktkäufen oder Webklickfolgen eines bestimmten Benutzers. Um zu bestimmen, welche Sequenzen als Eingaben für das Clustering am besten geeignet sind, überprüft der Algorithmus alle Übergangswahrscheinlichkeiten und misst die Differenzen oder Abstände zwischen allen im Dataset möglichen Sequenzen. Nachdem der Algorithmus eine Liste der möglichen Sequenzen erstellt hat, verwendet er die Sequenzinformationen als Eingabe für die EM-Clusteringmethode.

Eine ausführliche Beschreibung der Implementierung finden Sie unter Technische Referenz für den Microsoft Sequence Clustering-Algorithmus (Analysis Services - Data Mining).

Anforderungen für Sequenzclustermodelle

Wenn Sie Daten für das Training von Sequenzclustermodellen aufbereiten, müssen Sie sich mit den Anforderungen des jeweiligen Algorithmus, dessen Anforderungen an die Daten und der Verwendung der Daten vertraut machen.

Für Sequenzclustermodelle gelten folgende Anforderungen:

Eine einzelne key Spalte: Für ein Sequenzclustermodell ist ein Schlüssel erforderlich, der Datensätze identifiziert.
Eine Sequenzspalte: Für Sequenzdaten muss das Modell über eine geschachtelte Tabelle verfügen, die eine Sequenz-ID-Spalte enthält. Die Sequenz-ID kann ein beliebiger sortierbarer Datentyp sein. Sie können beispielsweise eine Webseiten-ID, eine Ganzzahl oder eine Textzeichenfolge verwenden, solange die Spalte die Ereignisse in einer Sequenz identifiziert. Für jede Sequenz ist nur ein Sequenzbezeichner zulässig, und jedes Modell darf nur einen Sequenztyp enthalten.
Optionale nicht sequenzielle Attribute: Der Algorithmus unterstützt das Hinzufügen anderer Attribute, die nicht mit dem Sequenzieren verknüpft sind. Diese Attribute können geschachtelte Spalten einschließen.

In dem zuvor erwähnten Beispiel der Website von Adventure Works Cycles kann ein Sequenzclustermodell beispielsweise Auftragsinformationen als Falltabelle, demografische Daten über den Kunden des entsprechenden Auftrags als nicht sequenzielle Attribute und eine geschachtelte Tabelle mit der Sequenz, in der der Kunde die Website durchsucht hat oder Artikel in einen Einkaufswagen gelegt hat, als Sequenzinformationen beinhalten.

Detaillierte Informationen zu den in Sequenzclustermodellen unterstützten Inhaltstypen und Datentypen finden Sie im Abschnitt über Anforderungen unter Technische Referenz für den Microsoft Sequence Clustering-Algorithmus (Analysis Services - Data Mining).

Anzeigen eines Sequenzclustermodells

Das von diesem Algorithmus erstellte Miningmodell enthält Beschreibungen der in den Daten am häufigsten vorkommenden Sequenzen. Zum Durchsuchen des Modells können Sie den Microsoft Sequenzcluster-Viewer verwenden. Wenn Sie ein Sequenzclustermodell anzeigen, zeigt Ihnen Analysis Services Cluster, die mehrere Übergänge enthalten. Sie können auch entsprechende statistische Daten anzeigen. Weitere Informationen finden Sie unter Anzeigen eines Miningmodells mit dem Microsoft Sequenzcluster-Viewer.

Wenn Sie detailliertere Informationen möchten, können Sie das Modell im Microsoft Generic Content Tree Viewer durchsuchen. Der für das Modell gespeicherte Inhalt umfasst die Verteilung der Werte an jedem Knoten, die Wahrscheinlichkeit jedes Clusters und Details zu den Übergängen. Weitere Informationen finden Sie unter Mingingmodellinhalt von Sequence Clustering-Modellen (Analysis Services – Data Mining).

Erstellen von Vorhersagen

Nachdem das Modell trainiert wurde, werden die Ergebnisse als Mustersatz gespeichert. Anhand der Beschreibungen der häufigsten Sequenzen der Daten können Sie den wahrscheinlich nächsten Schritt in einer neuen Sequenz vorhersagen. Da der Algorithmus jedoch andere Spalten einschließt, eignet sich das entstandene Modell auch zum Identifizieren von Beziehungen zwischen Sequenzdaten und Eingaben, die nicht sequenziell sind. Wenn Sie dem Modell beispielsweise demografische Daten hinzufügen, können Sie Vorhersagen für bestimmte Gruppen von Kunden machen. Vorhersageabfragen können angepasst werden, um eine variable Anzahl von Vorhersagen oder aussagekräftige statistische Daten zurückzugeben.

Informationen zum Erstellen von Abfragen für ein Data Mining-Modell finden Sie unter Abfragen von Data Mining-Modellen (Analysis Services - Data Mining). Beispiele zur Verwendung von Abfragen in Verbindung mit einem Sequenzclustermodell finden Sie unter Abfragen eines Sequenzclustermodells (Analysis Services – Data Mining).

Hinweise

Unterstützt nicht die Verwendung von PMML (Predictive Model Markup Language) zum Erstellen von Miningmodellen.
Unterstützt Drillthrough.
Unterstützt die Verwendung von OLAP-Miningmodellen und die Erstellung von Data Mining-Dimensionen.