Microsoft Sequence Clustering-Algorithmus

Der Microsoft Sequence Clustering-Algorithmus ist ein Sequenzanalysenalgorithmus, der von Microsoft SQL Server 2005 Analysis Services (SSAS) bereitgestellt wird. Mithilfe dieses Algorithmus können Sie Daten zu Ereignissen untersuchen, die durch Folgepfade, auch Sequenzen genannt, verknüpft werden können. Der Algorithmus ermittelt die am häufigsten vorkommenden Sequenzen durch Gruppierung oder Clustering identischer Sequenzen. Diese Sequenzen können in mehrfacher Form auftreten, u. a. als:

  • Daten, die die Klickpfade beschreiben, denen Benutzer auf einer Website folgen.
  • Daten, die die Reihenfolge beschreiben, in der der Kunde eines Onlinehändlers Waren seinem Einkaufswagen hinzufügt.

Der Algorithmus ist vergleichbar mit Microsoft Clustering-Algorithmus. Anstatt jedoch nach Clustern mit Fällen zu suchen, die ähnliche Attribute enthalten, sucht der Microsoft Sequence Clustering-Algorithmus nach Clustern mit Fällen, die ähnliche Pfade in einer Sequenz enthalten.

Das von diesem Algorithmus erstellte Miningmodell enthält Beschreibungen der in den Daten am häufigsten vorkommenden Sequenzen. Anhand der Beschreibungen können Sie den wahrscheinlich nächsten Schritt in einer neuen Sequenz vorhersagen. Beim Gruppieren von Datensätzen in Clustern kann der Algorithmus auch solche der in den Daten enthaltenen Spalten mit einbeziehen, die nicht direkt mit den Sequenzen verbunden sind. Da der Algorithmus die nicht verbundenen Spalten einschließt, eignet sich das entstandene Modell auch zum Identifizieren von Beziehungen zwischen Sequenzdaten und Daten, die nicht in einer Sequenz auftreten.

Beispiel

Auf der Website der Firma Adventure Works werden Informationen dazu gesammelt, welche Seiten die Benutzer der Site besuchen und in welcher Reihenfolge diese Seiten besucht werden. Da die Firma die Möglichkeit der Onlinebestellung bietet, müssen sich die Kunden bei der Site anmelden. Dadurch erhält die Firma Informationen zum Klickverhalten jedes einzelnen Kundenprofils. Mithilfe des Microsoft Sequence Clustering-Algorithmus kann die Firma diese Daten verarbeiten und so Gruppen oder Cluster von Kunden ermitteln, die ähnliche Klickmuster oder -sequenzen aufweisen. Die Firma kann dann anhand dieser Cluster die Bewegungen der Benutzer auf der Website analysieren und diejenigen Seiten identifizieren, die am engsten mit dem Verkauf eines bestimmten Produkts verbunden sind. Außerdem lässt sich vorhersagen, welche Seiten mit der höchsten Wahrscheinlichkeit als Nächstes besucht werden.

Funktionsweise des Algorithmus

Der Algorithmus verwendet die EM-Clusteringmethode (Expectation Maximization) zur Identifizierung von Clustern und deren Sequenzen. Insbesondere verwendet der Algorithmus eine probabilistische Methode zur Bestimmung der Wahrscheinlichkeit, mit der ein Datenpunkt in einem Cluster vorhanden ist. Eine Beschreibung dazu, wie diese Clusteringmethode im Microsoft Clustering-Algorithmus verwendet wird, finden Sie unter Microsoft Clustering-Algorithmus.

Bei einer der vom Microsoft Sequence Clustering-Algorithmus verwendeten Eingabespalten handelt es sich um eine geschachtelte Tabelle, die Sequenzdaten enthält. Diese Daten stehen für eine Reihe von Statusübergängen einzelner Fälle in einem Dataset, wie z. B. Produktkäufe oder Webklickfolgen. Um zu bestimmen, welche Sequenzspalten als Eingabespalten für das Clustering zu behandeln sind, misst der Algorithmus die Differenzen oder Abstände zwischen allen im Dataset möglichen Sequenzen. Nachdem der Algorithmus diese Abstände gemessen hat, kann er die Sequenzspalte als Eingabe für die EM-Clusteringmethode verwenden.

Verwenden des Algorithmus

Für ein Sequenzclusteringmodell ist ein Schlüssel zur Identifizierung der Datensätze erforderlich. Außerdem wird eine geschachtelte Tabelle benötigt, die eine sequenzbezogene Spalte (z. B. eine Webseiten-ID) enthält, welche die Ereignisse in einer Sequenz identifiziert. Für jede Sequenz ist nur eine sequenzbezogene Spalte zulässig, und jedes Modell darf nur einen Sequenztyp enthalten. Um ein Modell nach dem weiter oben beschriebenen Szenario zu erstellen, würden Sie eine Datenquelle benötigen, die zwei Tabellen enthält. In der ersten Tabelle wären die Bestellungen enthalten, und in der zweiten die Sequenz, in welcher die Bestellungen in den Einkaufskorb gelegt wurden.

Der Microsoft Sequence Clustering-Algorithmus unterstützt bestimmte Inhaltstypen für Eingabespalten und vorhersagbare Spalten sowie Modellierungsflags. Diese sind in der nachstehenden Tabelle aufgelistet.

Inhaltstypen für Eingabespalten

Kontinuierlich, Zyklisch, Diskret, Diskretisiert, Schlüssel, Schlüsselsequenz, Tabelle und Sortiert

Inhaltstypen für vorhersagbare Spalten

Kontinuierlich, Zyklisch, Diskret, Diskretisiert, Tabelle und Sortiert

Modellierungsflags

MODEL_EXISTENCE_ONLY und NOT NULL

Alle Microsoft-Algorithmen unterstützen eine gemeinsame Reihe von Funktionen. Der Microsoft Sequence Clustering-Algorithmus unterstützt jedoch zusätzliche Funktionen, die in der folgenden Tabelle aufgeführt werden.

Cluster

PredictHistogram

ClusterProbability

PredictNodeId

IsDescendant

PredictProbability

IsInNode

PredictSequence

PredictAdjustedProbability

PredictStdev

PredictAssociation

PredictSupport

PredictCaseLikelihood

PredictVariance

Eine Liste der allen Microsoft-Algorithmen gemeinsamen Funktionen finden Sie unter Data Mining-Algorithmen. Weitere Informationen zum Verwenden dieser Funktionen finden Sie unter Data Mining-Erweiterungen (DMX) - Funktionsreferenz.

Der Microsoft Sequence Clustering-Algorithmus unterstützt nicht die Verwendung von PMML (Predictive Model Markup Language) zum Erstellen von Miningmodellen.

Der Microsoft Sequence Clustering-Algorithmus unterstützt mehrere Parameter, die sich auf die Leistung und Genauigkeit des resultierenden Miningmodells auswirken. In der folgenden Tabelle wird jeder Parameter beschrieben.

Parameter Beschreibung

CLUSTER_COUNT

Gibt die ungefähre Anzahl von vom Algorithmus zu erstellenden Cluster an. Falls die ungefähre Anzahl von Clustern nicht aus den Daten erstellt werden kann, erstellt der Algorithmus so viele Cluster wie möglich. Durch Festlegen des CLUSTER_COUNT-Parameters auf 0 wird der Algorithmus zum Verwenden heuristischer Methoden veranlasst, um die Anzahl von zu erstellenden Clustern so gut wie möglich zu bestimmen.

Der Standardwert lautet 10.

MINIMUM_SUPPORT

Gibt die Mindestanzahl von Fällen in jedem Cluster an.

Der Standardwert lautet 10.

MAXIMUM_SEQUENCE_STATES

Gibt die maximale Anzahl von Status an, die eine Sequenz annehmen kann. Das Festlegen dieses Wertes auf eine Zahl größer 100 kann dazu führen, dass das vom Algorithmus erstellte Modell keine aussagekräftgen Informationen enthält.

Der Standardwert lautet 64.

MAXIMUM_STATES

Gibt die maximale Anzahl vom Algorithmus unterstützter Status für ein nicht sequenzielles Attribut an. Falls die Anzahl von Status für ein nicht sequenzielles Attribut größer als die maximale Anzahl von Status ist, verwendet der Algorithmus die gebräuchlichsten Status und behandelt die restlichen Status als fehlend.

Der Standardwert ist 100.

Siehe auch

Konzepte

Data Mining-Algorithmen
Data Mining-Assistent
Verwenden der Data Mining-Tools
Anzeigen eines Miningmodells mit dem Microsoft Sequenzcluster-Viewer

Andere Ressourcen

CREATE MINING MODEL (DMX)

Hilfe und Informationen

Informationsquellen für SQL Server 2005