Untersuchen des Sequence Clustering-Modells (Data Mining-Lernprogramm für Fortgeschrittene)

Sie haben das Modell Sequence Clustering mit Region erstellt und können es jetzt überprüfen. Dazu verwenden Sie den Microsoft Sequenzcluster-Viewer auf der Registerkarte Miningmodell-Viewer des Data Mining-Designers. Der Microsoft Sequence Cluster-Viewer enthält fünf Registerkarten: Clusterdiagramm, Clusterprofile, ClustermerkmaleClusterunterscheidung und Statusübergänge. Weitere Informationen zum Verwenden des Viewers finden Sie unter Anzeigen eines Miningmodells mit dem Microsoft Sequenzcluster-Viewer.

  • Registerkarte "Clusterdiagramm"

  • Registerkarte "Clusterprofile"

  • Registerkarte "Clustermerkmale"

  • Registerkarte "Clusterunterscheidung"

  • Registerkarte "Statusübergänge"

  • Generic Content Viewer

Registerkarte Clusterdiagramm

Auf der Registerkarte Clusterdiagramm werden die Cluster grafisch dargestellt, die der Algorithmus in der Datenbank festgestellt hat. Das Layout im Diagramm gibt die Beziehungen der Cluster an, wobei ähnliche Cluster nahe zusammen gruppiert sind. Standardmäßig gibt die Schattierung der Knotenfarbe die Dichte aller Fälle auf dem Cluster an, je dunkler der Knoten ist, desto mehr Fälle umfasst er also. Sie können die Bedeutung der Knotenschattierung ändern, sodass diese die Unterstützung auf einem Cluster für ein Attribut und einen Status angibt.

Sie können die Cluster auch umbenennen, um das Identifizieren von und Arbeiten mit Zielclustern zu erleichtern. In diesem Lernprogramm benennen Sie den Cluster mit dem höchsten Prozentsatz an Kunden aus dem pazifischen Raum sowie den Cluster mit der höchsten Gesamtanzahl an Fällen um.

HinweisHinweis

Die Fälle, die bestimmten Clustern zugewiesen sind, können sich in Abhängigkeit von den Daten und den Modellparametern ändern, wenn Sie das Modell neu verarbeiten. Bei einer Neuverarbeitung des Modells gehen auch Umbenennungen von Clustern verloren.

So ändern Sie das Attribut zum Hervorheben von Clustern

  1. Wählen Sie in der Liste Schattierungsvariable den Eintrag Model aus.

  2. Wählen Sie Cycling Cap in der Liste Status aus.

    Das Diagramm wird aktualisiert, um die Bündelung des ausgewählten Produkts in den einzelnen Clustern anzuzeigen. Der Cluster mit der dunkelsten Schattierung weist die höchste Dichte für das Produkt Cycling Caps auf. Sie können die Schattierungsvariable ändern, um einen beliebigen Status einer Eingabespalte zu verwenden.

  3. Wählen Sie in der Liste Schattierungsvariable den Eintrag Auffüllung aus.

    Wenn Sie die Schattierungsvariable in Auffüllung ändern, wird das Diagramm aktualisiert, um die Cluster der Größe nach zu vergleichen. Der Cluster mit der dunkelsten Schattierung enthält mehr Fälle als die anderen Cluster.

So benennen Sie Knoten im Modell um

  1. Ändern Sie die Schattierungsvariable in Region, und legen Sie den Status auf Pacific fest.

  2. Markieren Sie den dunkelsten Knoten im Diagramm.

  3. Klicken Sie mit der rechten Maustaste auf den Cluster, und wählen Sie Cluster umbenennen aus.

  4. Geben Sie den Namen Pacific Cluster ein.

  5. Ändern Sie den Wert für Schattierungsvariable in Auffüllung.

  6. Suchen Sie im aktualisierten Diagramm den dunkelsten Cluster; dieser sollte den größten Cluster darstellen. Wenn Sie anhand der Schattierung nicht erkennen können, welches der größte Cluster ist, können Sie die Maus über die einzelnen Cluster bewegen und die entsprechende QuickInfo anzeigen, um so den Cluster mit den meisten Fällen auszuwählen.

  7. Klicken Sie mit der rechten Maustaste auf den Cluster, und wählen Sie Cluster umbenennen aus. Geben Sie Largest Cluster als neuen Namen ein.

Sie können einen Drillthrough von dem Knoten ausführen, der den Cluster darstellt, um Details der Fälle im jeweiligen Cluster anzuzeigen. Dies kann hilfreich sein, wenn Sie die Ergebnisse der Analyse verwenden möchten, indem Sie beispielsweise eine E-Mail an einen Kunden senden. Sie können auch die anderen Attribute der Fälle wie Region und IncomeGroup durchsuchen, die Teil der Struktur sind, jedoch nicht im Modell verwendet werden. Weitere Informationen über das Ausführen eine Drillthroughs zu den zugrunde liegenden Fällen eines Miningmodells finden Sie unter Verwenden von Drillthrough für Miningmodelle und Miningstrukturen (Analysis Services - Data Mining).

So führen Sie einen Drillthrough zu Details vom Clusterdiagramm aus

  1. Klicken Sie mit der rechten Maustaste auf Pacific Cluster, und wählen Sie Drillthrough ausführen und anschließend Modell- und Strukturspalten aus.

    Das Dialogfeld Drillthrough ausführen wird geöffnet. Spalten, die nicht im Modell verwendet werden, jedoch abgefragt werden können, sind mit dem Präfix Structure gekennzeichnet.

    Wie Sie sehen, enthält dieser Cluster mehrheitlich Kunden aus dem pazifischen Raum und nur wenige Kunden aus anderen Regionen.

  2. Klicken Sie auf das Pluszeichen in der geschachtelten Spalte v Assoc Seq Line Items, um die Sequenz der Elemente in einer bestimmten Kundenbestellung anzuzeigen.

  3. Schließen Sie das Dialogfeld Drillthrough ausführen.

    HinweisHinweis

    Mit der Schaltfläche Abspielen können Sie die Daten erneut abfragen. Die angezeigten Daten werden dadurch jedoch nicht verändert, es sei denn, das Modell wurde zwischenzeitlich durch einen anderen Prozess dynamisch aktualisiert.

Zurück zum Anfang

Registerkarte Clusterprofile

Auf der Registerkarte Clusterprofile werden die Sequenzen angezeigt, die auf jedem Cluster vorhanden sind. Die Cluster werden in einzelnen Spalten rechts von der Spalte Status aufgelistet.

Im Viewer gibt die Zeile Modell die Gesamtverteilung eines Elements in einem Cluster an, und die Zeile Model.samples enthält Sequenzen der Elemente. Jede Linie der Farbsequenzen in den einzelnen Zellen der Zeile Model.samples steht für das Verhalten eines zufällig ausgewählten Benutzers im Cluster.

Jede Farbe in einem Sequenzhistogramm steht für ein Produktmodell. In der Mininglegende werden Sequenzen von Produkten sowohl unter Verwendung der Farbcodierung als auch des Produktmodellnamens angezeigt. Wenn Sie dem Modell weitere Spalten für das Clustering hinzugefügt haben, beispielsweise Region oder IncomeGroup, enthält der Viewer eine zusätzliche Zeile für jede Spalte, in der die Verteilung dieser Werte im jeweiligen Cluster angezeigt wird.

So zeigen Sie die häufigsten Sequenzen in einem Cluster an

  1. Klicken Sie mit der rechten Maustaste auf die Zeile Modell in der Spalte für den Cluster Largest Cluster, und wählen Sie Legende anzeigen aus.

    Die Spalte Farbe enthält eine schattierte Leiste, die die Häufigkeit der Elemente angibt, die in Sequenzen gefunden wurden. Jedes Element wird durch eine andere Farbe dargestellt. Die Spalte Bedeutung führt die Produktmodellnamen für jede Farbe auf. Die Spalte Verteilung gibt den Prozentsatz der Fälle an, die dieses Element in einer Sequenz enthalten.

  2. Schließen Sie die Mininglegende.

  3. Klicken Sie in der Spalte mit der Überschrift Auffüllung mit der rechten Maustaste auf die Zeile Model.samples, und wählen Sie Legende anzeigen aus.

  4. Durchsuchen Sie die Liste der Sequenzen im Gesamtmodell.

    In der Mininglegende werden die häufigsten Sequenzen zuerst aufgeführt. Wie Sie sehen, stellt Mountain Tire Tube in zahlreichen Sequenzen das erste Element dar. Dies bedeutet, dass ein Kunde höchstwahrscheinlich "Mountain Tire Tube" als Erstes in seinen Einkaufswagen legen wird.

So führen Sie einen Drillthrough zu Fällen im Cluster-Viewer aus

  1. Führen im Bereich Attribute einen Bildlauf zur Zeile für das Attribut Region durch.

    Die Zeile enthält ein Histogramm für jeden Cluster im Modell sowie ein zusätzliches Histogramm für Population, also für alle Fälle im Modell. Ein Histogramm ist eine Leiste mit unterschiedlichen Farben. Jede Farbe stellt ein Attribut dar, und die Größe des farbigen Abschnitts für das Attribut entspricht dem Prozentsatz der Fälle mit dem Attribut.

  2. Vergleichen Sie die Histogramme für die Cluster Pacific Cluster und Largest Cluster. Jeder Cluster wird in einer anderen Spalte angezeigt.

    Beide scheinen aus einer Volltonfarbe zu bestehen, weisen jedoch unterschiedliche Farben auf.

  3. Zeigen Sie in der Zeile Region mit der Maus auf das farbige Histogramm für Largest Cluster.

    Die Werte in der QuickInfo entsprechen dem tatsächlichen Prozentsatz der jeweiligen Fälle aus den einzelnen Regionen.

  4. Klicken Sie mit der rechten Maustaste auf das farbige Histogramm für Pacific Cluster in der Zeile Region, und wählen Sie Drillthrough ausführen und anschließend Nur Modellspalten aus.

  5. Verschieben Sie die Bildlaufleiste, um alle Kunden in diesen Cluster zu überprüfen.

    Aus dem Drillthrough zu den Details können Sie wiederum erkennen, dass der Cluster hauptsächlich Bestellungen aus dem pazifischen Raum, jedoch auch einige Bestellungen aus Nordamerika enthält.

  6. Schließen Sie das Dialogfeld Drillthrough ausführen.

Zurück zum Anfang

Registerkarte Clustermerkmale

Auf der Registerkarte Clustermerkmale werden die Übergänge zwischen den Statuswerten eines Clusters zusammengefasst. Dabei beschreiben farbige Balken die Bedeutung eines Attributwerts für den ausgewählten Cluster. Anhand der Spalte Variablen erkennen Sie die wichtigen Faktoren für das Modell in Bezug auf den ausgewählten Cluster oder die ausgewählte Auffüllung. Dabei kann es sich um einen bestimmten Wert oder um eine Beziehung zwischen Werten handeln, die auch als Übergang bezeichnet wird. Die Spalte Werte enthält weitere Details zum Wert oder Übergang, und die Spalte Wahrscheinlichkeit stellt die Gewichtung des Attributs oder des Übergangs visuell dar.

So zeigen Sie die wichtigen Attribute für einen Cluster an

  1. Wählen Sie in der Dropdownliste Cluster den Cluster Pacific Cluster aus.

    Die Liste wird aktualisiert, und die Eigenschaften des Clusters Pacific Cluster werden angezeigt. Die wichtigste Eigenschaft in diesem Cluster lautet Region.

  2. Zeigen Sie mit der Maus auf die schattierte Leiste in der Zeile für Region.

    Die Wahrscheinlichkeit, dass es sich um den Wert für Pazifik handelt, ist sehr hoch. Weitere Informationen zum Interpretieren dieser Werte finden Sie unter Technische Referenz für den Microsoft Sequence Clustering-Algorithmus.

  3. Gehen Sie die Liste der Eigenschaften für den Cluster durch, bis Sie die erste Übergangszeile finden.

  4. Übergangszeilen enthalten den Text Transition in der Spalte Variablen und eine Kombination aus sequenziellen Attributwerten in der Spalte Wert. Die Sequenz kann auch Ausgangspunkte und fehlende Werte enthalten.

    Angenommen, der Übergang weist den Wert [Start] -> Road Tire Tube auf. Dies bedeutet, dass Kunden in diesem Cluster höchstwahrscheinlich "Road Tire Tube" als Erstes in ihren Einkaufswagen legen. Dies könnte darauf hinweisen, dass es sich um einen populären Artikel handelt, den Kunden häufig als Erstes suchen, oder um einen Artikel, der auf der Website leicht zu finden ist.

  5. Führen Sie einen Bildlauf in der Liste durch, bis Sie zum ersten Übergang ohne den Wert [Start] oder den Wert Missing gelangen.

    Angenommen, Sie finden den Übergang Touring Tire, Touring Tire Tube. Dies bedeutet, dass die genannten Elemente von Kunden in diesem Cluster häufig zusammen und in der genannten Reihenfolge gekauft wurden.

  6. Zeigen Sie mit der Maus auf die schattierte Leiste für diesen Übergang.

    Die Wahrscheinlichkeit für den Übergang wird als Prozentsatz angezeigt.

  7. Wählen Sie in der Dropdownliste Cluster die Option Auffüllung (Alle) aus.

    Die Liste der Attribute wird aktualisiert, und die Eigenschaften aller Bestellungen für dieses Modell wird angezeigt. Die wichtigste Eigenschaft in diesem Miningmodell zur Unterscheidung von Clustern ist Region mit dem Wert North America.

Nach Überprüfung dieser Aufgaben stellen Sie zwei Dinge fest. Zum einen stellen Sie fest, dass Sie einen umfangreichen Datenbestand benötigen, um eine aussagekräftige Anzahl von Kombinationen zu erhalten. Beispielsweise enthalten die Sequenzen mit den höchsten Wahrscheinlichkeiten wahrscheinlich den Status [Start] oder den Status Missing.

Des Weiteren ist ein starker Clustereffekt hinsichtlich der Attribute für Region zu verzeichnen; dies erschwert die Anzeige der Gruppen von Sequenzen. Sie beschließen daher, ein anderes Modell zu erstellen, das nur Sequenzen verwendet und keine Spalten für Region oder Einkommen beinhaltet.

Zurück zum Anfang

Registerkarte Clusterunterscheidung

Sie können die Registerkarte Clusterunterscheidung verwenden, um zwei Cluster in Bezug darauf zu vergleichen, welche Attribute einen bestimmten Cluster von einem anderen Cluster unterscheiden. Die Registerkarte enthält vier Spalten: Variablen, Werte, Cluster 1 und Cluster 2. Sie können jeden Cluster als Cluster 1 und als Cluster 2 auswählen.

Die Spalte Variablen enthält den Namen des Attributs. Dabei kann es sich um einen Spaltennamen oder eine Kombination aus dem Spaltennamen und dem Wort Übergang handeln. Die Spalte Werte zeigt den genauen Wert des Attributs oder des Übergangs an. Die schattierten Leisten in der Spalte für Cluster 1 und in der Spalte für Cluster 2 zeigen die Stärke des Attributs in den verglichenen Clustern an. Je länger die Leiste ist, desto höher ist die Wahrscheinlichkeit, dass der Cluster Fälle mit diesem Attribut enthält.

So vergleichen Sie zwei Cluster mit der Registerkarte "Clusterunterscheidung"

  1. Wählen Sie auf der Registerkarte Clusterunterscheidung für Cluster 1 die Option Pacific Cluster aus.

    Die Auswahl für Cluster 2 ändert sich standardmäßig in Komplement von PacificCluster.

    Das oberste Attribut, mit dem Pacific Cluster von allen anderen Fällen unterschieden wird, ist Region. Das Attribut Region wirkt sich so stark auf das Clustering aus, dass andere Attribute dadurch verdeckt werden. Um diesen Effekt zu vermeiden, können Sie versuchen, mehrere der kleineren Cluster miteinander zu vergleichen. Dadurch ändert sich die Liste der Attribute und enthält dann möglicherweise eine größere Anzahl an Übergängen zwischen Modellen.

  2. Suchen Sie eine Übergangszeile, und zeigen Sie mit der Maus auf die schattierte Leiste.

    Die Elemente in der Spalte Werte können sowohl Statuswerte als auch Übergänge enthalten. Die Schattierung für jedes Element gibt das Unterscheidungsergebnis an. Weitere Informationen über die Bedeutung anderer Bewertungen finden Sie unter Mingingmodellinhalt von Sequence Clustering-Modellen (Analysis Services - Data Mining).

Zurück zum Anfang

Registerkarte Statusübergänge

Auf der Registerkarte Statusübergänge können Sie einen Cluster auswählen und die Statusübergänge durchsuchen. Wenn Sie aus der Cluster-Dropdownliste Auffüllung (Alle) auswählen, wird im Diagramm die Statusverteilung für das gesamte Miningmodell angezeigt.

Jeder Knoten im Diagramm stellt einen Status oder einen möglichen Wert der Sequenzen dar, die Sie analysieren möchten. Die Hintergrundfarbe der Knoten stellt die Häufigkeit des Status dar. Einige Status sind durch Linien verbunden; dies weist auf einen Statusübergang hin. Sie können den Schieberegler verschieben, um den Wahrscheinlichkeitsschwellenwert für Übergänge zu ändern. Einigen Knoten sind Werte zugeordnet, die die Wahrscheinlichkeit des Status angeben.

So untersuchen Sie die Beziehungen auf der Registerkarte "Statusübergang"

  1. Wählen Sie im Miningmodell-Viewer auf der Registerkarte Statusübergänge den Cluster Pacific Cluster aus der Liste der Cluster aus. Vergewissern Sie sich, dass die Option Kantenbeschriftungen anzeigen aktiviert ist.

    Das Diagramm wird aktualisiert, und die häufigsten Übergänge im Cluster werden angezeigt.

  2. Klicken Sie auf einen beliebigen Knoten, der über eine Linie mit einem anderen Knoten verbunden ist.

    Das Diagramm wird aktualisiert, und die verbundenen Knoten werden hervorgehoben. Der numerische Wert neben der Linie gibt die Wahrscheinlichkeit für den Übergang an.

  3. Schieben Sie den Regler nach oben auf die Position Alle Verknüpfungen, um die Anzahl der Übergänge im Diagramm zu erhöhen.

  4. Wählen Sie unter Cluster die Option Auffüllung (Alle) aus.

    Wenn Sie einen anderen Cluster laden, wird das Diagramm auf die Standardanzeigeeinstellungen zurückgesetzt, und der Schieberegler kehrt in die mittlere Position zurück.

  5. Klicken Sie auf den dunkelsten Knoten im Diagramm; dabei sollte es sich um Sport-100 handeln.

    Beachten Sie, dass dieses Produkt nicht durch Linien mit anderen Produkten verbunden ist.

  6. Schieben Sie den Regler eine Position nach oben, um die Anzahl der Übergänge im Diagramm zu erhöhen. Schieben Sie den Regler vorerst noch nicht auf die Position Alle Verknüpfungen.

    Das Diagramm wird aktualisiert, indem weitere Übergänge hinzugefügt werden, von denen jedoch keiner das Modell Sport-100 enthält.

  7. Schieben Sie den Schieberegler nun auf die Position Alle Verknüpfungen. Klicken Sie auf den Knoten Sport-100, wenn dieser noch nicht ausgewählt wurde.

    Das Diagramm wird aktualisiert, und es werden zahlreiche Übergänge mit dem Produkt Sport-100 angezeigt. Anhand des Richtungspfeils auf der Verbindungslinie können Sie erkennen, ob Sport-100 als erstes oder zweites Paarelement ausgewählt wurde.

  8. Klicken Sie auf den Knoten Touring Tire, und schieben Sie den Schieberegler wieder auf die mittlere Position.

    Zu Beginn ist das Produkt Touring Tire durch zahlreiche Übergangslinien mit anderen Produkten verbunden. Wenn Sie jedoch den Wahrscheinlichkeitsschwellenwert erhöhen, werden die weniger wahrscheinlichen Übergänge aus dem Diagramm entfernt, und nur der Übergang Touring Tire > Touring Tire Tube verbleibt. Dieser Übergang weist darauf hin, dass, wenn ein Kunde einen "Touring Tire" in den Einkaufswagen legt, eine hohe Wahrscheinlichkeit besteht, dass der Kunde als Nächstes einen "Touring Tire Tube" in den Einkaufswagen legen wird.

Zurück zum Anfang

Generic Content Tree-Viewer

Dieser Viewer kann für alle Modelle verwendet werden, unabhängig vom Algorithmus oder Modelltyp. Der MicrosoftGeneric Content Tree Viewer ist in der Dropdownliste Viewer verfügbar.

Eine Inhaltsstruktur ist die Darstellung eines Miningmodells als eine Reihe von Knoten, in der jeder Knoten das erlangte Wissen über die Trainingsdaten repräsentiert. Der Knoten kann ein Muster, ein Regelsatz, ein Cluster oder die Definition eines Datenbereichs mit gemeinsamen Attributen sein. Der genaue Inhalt des Knotens ist je nach Algorithmus und vorhersagbarem Attribut unterschiedlich, die allgemeine Darstellung des Inhalts ist jedoch gleich.

Sie können jeden Knoten erweitern, um zunehmend mehr Details anzuzeigen, und Sie können den Inhalt eines Knotens in die Zwischenablage kopieren. Weitere Informationen finden Sie unter Anzeigen von Modelldetails mit dem Microsoft Generic Content Tree Viewer.

So zeigen Sie Details für ein Sequenzclustermodell mit dem Generic Content Tree-Viewer an

  1. Klicken Sie auf der Registerkarte Miningmodell-Viewer auf die Liste Viewer, und wählen Sie Microsoft Generic Content Tree-Viewer aus.

  2. Klicken Sie im Bereich Knotenbeschriftung auf Pacific Cluster (1).

    Der Name für den Knoten enthält den Anzeigenamen, den Sie dem Cluster zugewiesen haben, sowie die ID des zugrunde liegenden Knotens. Mithilfe der Knoten-IDs können Sie einen Drilldown ausführen, um weitere Details im Modell abzurufen.

  3. Erweitern Sie den ersten untergeordneten Knoten Sequenzebene für Cluster 1.

    Der Knoten der Sequenzebene für einen Cluster enthält nähere Informationen über die Status und die Übergänge in einem Cluster. Sie können diese Informationen in der NODE_DISTRIBUTION-Spalte verwenden, um die Sequenzen und die Status für die einzelnen Cluster oder für das Modell zu untersuchen.

  4. Erweitern Sie weitere Knoten, und zeigen Sie die Details im HTML-Viewer an.

Weitere Informationen zu Miningmodellinhalten sowie zur Verwendung der Details im Viewer finden Sie unter Mingingmodellinhalt von Sequence Clustering-Modellen (Analysis Services - Data Mining).

Zurück zum Anfang