Microsoft Sequence Clustering-Algorithmus

Artikel
12/23/2023

Gilt für: SQL Server 2019 und früher Analysis Services Azure Analysis Services Fabric/Power BI Premium

Wichtig

Data Mining wurde in SQL Server 2017 Analysis Services als veraltet eingestuft und wurde jetzt in SQL Server 2022 Analysis Services eingestellt. Die Dokumentation wird für veraltete und eingestellte Features nicht aktualisiert. Weitere Informationen finden Sie unter Abwärtskompatibilität von Analysis Services.

Der Microsoft Sequence Clustering-Algorithmus ist ein eindeutiger Algorithmus, der Sequenzanalyse mit Clustering kombiniert. Mithilfe dieses Algorithmus können Sie Daten zu Ereignissen untersuchen, die durch Sequenzenverknüpft werden können. Der Algorithmus findet die am häufigsten verwendeten Sequenzen und führt Clustering durch, um ähnliche Sequenzen zu finden. Die folgenden Beispiele veranschaulichen die Arten von Sequenzen, die Sie als Daten für Machine Learning erfassen können, um Aufschluss über häufige Probleme oder Geschäftsszenarios zu erhalten:

Clickstreams oder Klickpfade, die erstellt werden, wenn Benutzer navigieren oder eine Website durchsuchen
Protokolle, in denen Ereignisse aufgeführt sind, die einem Vorfall vorausgehen, z.B. Festplattenfehler oder Serverdeadlocks
Transaktionsdatensätze, die die Reihenfolge beschreiben, in der der Kunde seinem Onlineeinkaufswagen Waren hinzufügt
Datensätze, die die Interaktionen von Kunden (oder Patienten) innerhalb von Zeiträumen verfolgen, um Dienstkündigungen oder andere schlechte Ergebnisse vorherzusagen

Dieser Algorithmus ähnelt in vielerlei Hinsicht dem Microsoft Clustering-Algorithmus. Anstatt jedoch Cluster von Fällen zu finden, die ähnliche Attribute enthalten, sucht der Microsoft Sequence Clustering-Algorithmus Nach Clustern von Fällen, die ähnliche Pfade in einer Sequenz enthalten.

Beispiel

Die Adventure Works Cycles-Website sammelt Informationen darüber, welche Seiten benutzer besuchen, und über die Reihenfolge, in der die Seiten besucht werden. Da die Firma die Möglichkeit der Onlinebestellung bietet, müssen sich die Kunden bei der Site anmelden. Dadurch erhält die Firma Informationen zum Klickverhalten jedes einzelnen Kundenprofils. Mithilfe des Microsoft Sequence Clustering-Algorithmus für diese Daten kann das Unternehmen Gruppen oder Cluster von Kunden finden, die ähnliche Muster oder Klicksequenzen aufweisen. Die Firma kann dann anhand dieser Cluster die Bewegungen der Benutzer auf der Website analysieren und diejenigen Seiten identifizieren, die am engsten mit dem Verkauf eines bestimmten Produkts verbunden sind. Außerdem lässt sich vorhersagen, welche Seiten mit der höchsten Wahrscheinlichkeit als Nächstes besucht werden.

Funktionsweise des Algorithmus

Der Microsoft Sequence Clustering-Algorithmus ist ein Hybridalgorithmus, der Clusteringtechniken mit der Markov-Kettenanalyse kombiniert, um Cluster und deren Sequenzen zu identifizieren. Eines der Kennzeichen des Microsoft Sequence Clustering-Algorithmus ist die Verwendung von Sequenzdaten. Diese Daten repräsentieren in der Regel eine Reihe von Ereignissen oder Statusübergängen in einem Dataset, wie z. B. eine Reihe von Produktkäufen oder Webklickfolgen eines bestimmten Benutzers. Um zu bestimmen, welche Sequenzen als Eingaben für das Clustering am besten geeignet sind, überprüft der Algorithmus alle Übergangswahrscheinlichkeiten und misst die Differenzen oder Abstände zwischen allen im Dataset möglichen Sequenzen. Nachdem der Algorithmus eine Liste der möglichen Sequenzen erstellt hat, verwendet er die Sequenzinformationen als Eingabe für das Clustering mit Erwartungsmaximierung (EM).

Eine ausführliche Beschreibung der Implementierung finden Sie unter Microsoft Sequence Clustering Algorithm Technical Reference.

Anforderungen für Sequenzclustermodelle

Wenn Sie Daten für das Training von Sequenzclustermodellen aufbereiten, müssen Sie sich mit den Anforderungen des jeweiligen Algorithmus, dessen Anforderungen an die Daten und der Verwendung der Daten vertraut machen.

Für Sequenzclustermodelle gelten folgende Anforderungen:

Eine einzelne Schlüsselspalte: Für ein Sequenzclustermodell ist ein Schlüssel erforderlich, der Datensätze identifiziert.
Eine Sequenzspalte Für Sequenzdaten muss das Modell über eine geschachtelte Tabelle verfügen, die eine Sequenz-ID-Spalte enthält. Die Sequenz-ID kann ein beliebiger sortierbarer Datentyp sein. Sie können beispielsweise eine Webseiten-ID, eine Ganzzahl oder eine Textzeichenfolge verwenden, solange die Spalte die Ereignisse in einer Sequenz identifiziert. Für jede Sequenz ist nur ein Sequenzbezeichner zulässig, und jedes Modell darf nur einen Sequenztyp enthalten.
Optionale nicht sequenzielle Attribute : Der Algorithmus unterstützt das Hinzufügen anderer Attribute, die nicht mit dem Sequenzieren verknüpft sind. Diese Attribute können geschachtelte Spalten einschließen.

In dem zuvor auf der Adventure Works Cycles-Website erwähnten Beispiel kann ein Sequenzclusteringmodell beispielsweise Bestellinformationen als Falltabelle, demografische Daten zum spezifischen Kunden für jede Bestellung als Nichtsequenzattribute und eine geschachtelte Tabelle mit der Sequenz enthalten, in der der Kunde die Website durchsucht oder Elemente als Sequenzinformationen in einen Warenkorb gelegt hat.

Ausführliche Informationen zu den in Sequenzclustermodellen unterstützten Inhaltstypen und Datentypen finden Sie im Abschnitt über Anforderungen unter Technische Referenz für den Microsoft Sequence Clustering-Algorithmus.

Anzeigen eines Sequenzclustermodells

Das von diesem Algorithmus erstellte Miningmodell enthält Beschreibungen der in den Daten am häufigsten vorkommenden Sequenzen. Zum Durchsuchen des Modells können Sie den Microsoft Sequenzcluster-Viewerverwenden. Wenn Sie ein Sequenzclusteringmodell anzeigen, zeigt SQL Server Analysis Services Cluster an, die mehrere Übergänge enthalten. Sie können auch entsprechende statistische Daten anzeigen. Weitere Informationen finden Sie unter Durchsuchen eines Modells mit dem Microsoft Sequenzcluster-Viewer.

Wenn Sie detailliertere Informationen möchten, können Sie das Modell im Microsoft Generic Content Tree Viewerdurchsuchen. Der für das Modell gespeicherte Inhalt umfasst die Verteilung der Werte an jedem Knoten, die Wahrscheinlichkeit jedes Clusters und Details zu den Übergängen. Weitere Informationen finden Sie unter Miningmodellinhalt für Sequenzclustermodelle (Analysis Services – Data Mining)..

Erstellen von Vorhersagen

Nachdem das Modell trainiert wurde, werden die Ergebnisse als Mustersatz gespeichert. Anhand der Beschreibungen der häufigsten Sequenzen der Daten können Sie den wahrscheinlich nächsten Schritt in einer neuen Sequenz vorhersagen. Da der Algorithmus jedoch andere Spalten einschließt, eignet sich das entstandene Modell auch zum Identifizieren von Beziehungen zwischen Sequenzdaten und Eingaben, die nicht sequenziell sind. Wenn Sie dem Modell beispielsweise demografische Daten hinzufügen, können Sie Vorhersagen für bestimmte Gruppen von Kunden machen. Vorhersageabfragen können angepasst werden, um eine variable Anzahl von Vorhersagen oder aussagekräftige statistische Daten zurückzugeben.

Informationen zum Erstellen von Abfragen für ein Data Mining-Modell finden Sie unter Data Mining-Abfragen. Beispiele zur Verwendung von Abfragen in Verbindung mit einem Sequenzclustermodell finden Sie unter Sequenz Clustering-Modellabfragebeispiele.

Hinweise

Unterstützt nicht die Verwendung von PMML (Predictive Model Markup Language) zum Erstellen von Miningmodellen.
Unterstützt Drillthrough.
Unterstützt die Verwendung von OLAP-Miningmodellen und die Erstellung von Data Mining-Dimensionen.

Weitere Informationen

Data Mining-Algorithmen (Analysis Services - Data Mining)
Technische Referenz für den Microsoft Sequence Clustering-Algorithmus
Sequenzclusteringmodellabfragebeispiele
Durchsuchen eines Modells mit dem Microsoft Sequenzcluster-Viewer