Prüfen des Sequenzclustermodells (Data Mining-Lernprogramm)

Sie haben das Modell Sequenzcluster mit Region erstellt und können es jetzt überprüfen. Dazu verwenden Sie den Microsoft Sequenzcluster-Viewer auf der Registerkarte Miningmodell-Viewer des Data Mining-Designers. Der Microsoft Sequenzcluster-Viewer, enthält fünf Registerkarten: Clusterdiagramm, Clusterprofile, ClustermerkmaleClusterunterscheidung und Statusübergänge. Weitere Informationen zum Verwenden des Viewers finden Sie unter Anzeigen eines Miningmodells mit dem Microsoft Sequenzcluster-Viewer.

  • Registerkarte "Clusterdiagramm"

  • Registerkarte "Clusterprofile"

  • Registerkarte "Clustermerkmale"

  • Registerkarte "Clusterunterscheidung"

  • Registerkarte "Statusübergänge"

  • Generische Inhaltssicht

Registerkarte "Clusterdiagramm"

Auf der Registerkarte Clusterdiagramm werden die Cluster grafisch dargestellt, die der Algorithmus in der Datenbank festgestellt hat. Das Layout im Diagramm gibt die Beziehungen der Cluster an, wobei ähnliche Cluster nahe zusammen gruppiert sind. Standardmäßig gibt die Schattierung der einzelnen Knotenfarben die Dichte aller Fälle auf dem Cluster an, d. h., je dunkler die Schattierung des Knotens, desto mehr Fälle enthält er. Sie können die Bedeutung der Knotenschattierung ändern, sodass diese die Unterstützung in den einzelnen Clustern für ein Attribut und einen Status darstellt.

Sie können die Cluster auch umbenennen, um es einfacher zu machen, Zielcluster zu identifizieren und mit diesen zu arbeiten. Für dieses Lernprogramm benennen Sie den Cluster um, der den höchsten Prozentsatz an Kunden aus der Pazifikregion hat, und der Cluster, sowie den Cluster, der insgesamt die meisten Fälle enthält.

HinweisHinweis

Die Fälle, die bestimmten Clustern zugewiesen sind, können sich abhängig von den Daten und den Modellparametern ändern, wenn Sie das Modell neu verarbeiten. Auch wenn Sie Cluster umbenennen, gehen die Namen verloren, wenn Sie das Miningmodell erneut verarbeiten.

So ändern Sie das für die Hervorhebung von Clustern verwendete Attribut

  1. Wählen Sie in der Liste Schattierungsvariable den Eintrag Modell aus.

  2. Wählen Sie Cycling Cap in der Liste Status aus.

    Das Diagramm wird aktualisiert, um die Konzentration des ausgewählten Produkts in jeden der Cluster anzuzeigen. Der Cluster mit der dunkelsten Schattierung weist die höchste Dichte für das Produkt "Cycling Caps" auf. Sie können die Schattierungsvariable ändern, um einen beliebigen Status einer beliebigen Eingabespalte zu verwenden.

  3. Wählen Sie in der Liste Schattierungsvariable den Eintrag Auffüllung aus.

    Wenn Sie die Schattierungsvariable in "Auffüllung" ändern, wird das Diagramm aktualisiert, um die Cluster der Größe nach zu vergleichen. Der Cluster, der die dunkelste Schattierung aufweist, enthält mehr Fälle als die anderen Cluster.

So benennen Sie Knoten im Modell um

  1. Ändern Sie Schattierungsvariable in Region, und legen Sie Status auf Pazifik fest.

  2. Heben Sie den dunkelsten Knoten im Diagramm hervor.

  3. Klicken Sie mit der rechten Maustaste auf diesen Cluster, und wählen Sie Cluster umbenennen aus.

  4. Geben Sie den Namen Pacific Cluster ein.

  5. Ändern Sie den Wert der Schattierungsvariable in Auffüllung.

  6. Suchen Sie im aktualisierten Diagramm den dunkelsten Cluster; dieser sollte der größte Cluster sein. Wenn Sie nicht mittels der Schattierung erkennen können, welcher Cluster am größten ist, halten Sie den Mauszeiger Maus über jedem Cluster an, und zeigen Sie die QuickInfo an. Wählen Sie dann den Cluster aus, der die meisten Fälle enthält.

  7. Klicken Sie mit der rechten Maustaste auf diesen Cluster, und wählen Sie Cluster umbenennen aus. Geben Sie den neuen Namen Largest Cluster ein.

Sie können einen Drillthrough von dem Knoten aus durchführen, der den Cluster darstellt, um Details der Fälle anzuzeigen, die in jedem Cluster enthalten sind. Dies kann nützlich sein, wenn Sie auf aufgrund der Ergebnisse Ihrer Analyse handeln, z. B. wenn Sie E-Mails an einen Kunden senden. Sie können auch die anderen Attribute der Fälle durchsuchen, die Sie in die Struktur eingeschlossen haben, aber nicht im Modell verwendet haben, z. B. Region und IncomeGroup. Weitere Informationen zum Ausführen eines Drillthrough von Miningmodellen zu den zugrunde liegenden Fällen finden Sie unter Verwenden von Drillthrough für Miningmodelle und Miningstrukturen (Analysis Services - Data Mining).

So führen Sie einen Drillthrough zu Details vom Clusterdiagramm aus durch

  1. Klicken Sie mit der rechten Maustaste auf Pacific Cluster, wählen Sie Drillthrough ausführen aus und dann Modell- und Strukturspalten.

    Das Dialogfeld Drillthrough ausführen wird geöffnet. Spalten, die nicht im Modell verwendet werden, aber für Abfragen verfügbar sind, erhalten das Präfix Struktur.

    Sie können sehen, dass dieser Cluster meistens Kunden aus der Pazifikregion enthält und nur wenige Kunden aus anderen Regionen.

  2. Klicken Sie in der geschachtelten Spalte "v Assoc Seq Line Items" auf das Pluszeichen, um die Sequenz von Elementen in einem bestimmten Kundenbefehl anzuzeigen.

  3. Schließen Sie das Dialogfeld Drillthrough ausführen.

    HinweisHinweis

    Die Schaltfläche Wiedergabe ermöglicht Ihnen, die Daten erneut abzufragen; durch die erneute Abfrage werden die angezeigten Daten jedoch nicht geändert, außer wenn das Modell im Hintergrund von einem anderen Prozess dynamisch aktualisiert wurde.

Zurück zum Anfang

Registerkarte Clusterprofile

Auf der Registerkarte Clusterprofile werden die Sequenzen angezeigt, die auf jedem Cluster vorhanden sind. Die Cluster werden in einzelnen Spalten rechts von der Spalte Status aufgelistet.

Im Viewer gibt die Zeile Modell die Gesamtverteilung eines Elements in einem Cluster an, und die Zeile Model.samples enthält Sequenzen der Elemente. Jede Linie der Farbsequenzen in den einzelnen Zellen der Zeile Model.samples steht für das Verhalten eines zufällig ausgewählten Benutzers im Cluster.

Jede Farbe in einem Sequenzhistogramm steht für ein Produktmodell. In der Mininglegende werden Sequenzen von Produkten sowohl unter Verwendung der Farbcodierung als auch des Produktmodellnamens angezeigt. Wenn Sie dem Modell für Clustering, z. B. Region oder Einkommensgruppe, weitere Spalten hinzugefügt haben, enthält der Viewer eine zusätzliche Zeile für jede Spalte, die die Verteilung dieser Werte innerhalb jedes Clusters anzeigt.

So zeigen Sie die Sequenzen an, die in einem Cluster am häufigsten sind

  1. Klicken Sie auf die Zeile Modell in der Spalte für den Cluster Largest Cluster und wählen Sie Legende anzeigen aus.

    Die Spalte Farbe enthält eine schattierte Leiste, die die Häufigkeit der Elemente angibt, die in Sequenzen gesucht wurden. Jedes Element wird durch eine andere Farbe dargestellt. Die Spalte Bedeutung führt die Produktmodellnamen für jede Farbe auf. Die Spalte Verteilung nennt Ihnen den Prozentsatz der Fälle, in denen dieses Element in einer Sequenz enthalten ist.

  2. Schließen Sie die Mininglegende.

  3. Klicken Sie mit der rechten Maustaste auf die Zeile Model.samples in der Spalte Auffüllung, und wählen Sie Legende anzeigen aus.

  4. Scannen Sie die Liste der Sequenzen im Gesamtmodell.

    In der Mininglegende werden zuerst die häufigsten Sequenzen aufgelistet. Das Produkt "Mountain Tire Tube" ist das erste Element in vielen Sequenzen. Das bedeutet, dass ein Kunde "Mountain Tire Tube" höchstwahrscheinlich als Erstes in den Warenkorb legen wird.

So führen Sie einen Drillthrough zu Fällen vom Cluster-Viewer aus durch

  1. Führen Sie im Bereich Attribut einen Bildlauf nach unten durch, bis Sie die Zeile für das Attribut Region erreichen.

    Die Zeile enthält ein weiteres Histogramm für jeden Cluster im Modell sowie ein zusätzliches Histogramm für Auffüllung; das bedeutet, dass der gesamte Satz von Fällen das Modell verwendet. Ein Histogramm ist eine Leiste mit verschiedenen Farben, wobei jede Farbe ein Attribut darstellt, und die Größe des farbigen Abschnitts für dieses Attribut stellt den Prozentsatz der Fälle mit diesem Attribut dar.

  2. Vergleichen Sie die Histogramme für die Cluster, die in Pacific Cluster und Largest Cluster umbenannt haben. Jeder Cluster wird in einer anderen Spalte angezeigt.

    Beide Cluster werden in Volltonfarben angezeigt, jedoch in unterschiedlichen Farben.

  3. Halten Sie in der Zeile Region die Maus über dem farbigen Histogramm für Largest Cluster an.

    Die QuickInfo zeigt Werte an, die die tatsächlichen Prozentsätze der Fälle aus jedem Bereich anzeigen.

  4. Klicken Sie in der Zeile Region mit der rechten Maustaste auf das farbige Histogramm für Pacific Cluster, wählen Sie Drillthrough ausführen aus und dann Nur Modellspalten .

  5. Verschieben Sie die Bildlaufleiste, um alle Kunden in diesen Cluster zu überprüfen.

    Sie können erneut mittels Drillthrough zu den Details erkennen, dass der Cluster zumeist Bestellungen aus der Pazifikregion enthält, aber auch einige wenige aus den Regionen Nordamerika und Europa.

  6. Schließen Sie das Dialogfeld Drillthrough ausführen.

Zurück zum Anfang

Registerkarte Clustermerkmale

Auf der Registerkarte Clustermerkmale werden die Übergänge zwischen den Statuswerten eines Clusters zusammengefasst, indem Balken angezeigt werden, die die Bedeutung eines Attributwerts für den ausgewählten Cluster visuell darstellen. Die Spalte Variablen zeigt an, was mittels des Modells als wichtig für den ausgewählten Cluster oder die ausgewählte Auffüllung herausgefunden wurde: entweder einen bestimmten Wert oder die Beziehung zwischen Werten, die als Übergang bezeichnet wird. Die Spalte Werte stellt weitere Details zum Wert oder Übergang bereit und die Spalte Wahrscheinlichkeit stellt die Gewichtung dieses Attributs oder Übergangs visuell dar.

So zeigen Sie die wichtigen Attribute für einen Cluster an

  1. Wählen Sie in der Dropdownliste ClusterPacific Cluster aus.

    Die Liste wird aktualisiert, um die Eigenschaften des Clusters anzuzeigen, den Sie in Pacific Cluster umbenannt haben. In diesem Cluster ist das wichtigste Merkmal Region.

  2. Halten Sie die Maus über der schattierten Leiste in der Zeile für Region an.

    Die Wahrscheinlichkeit, dass der Wert "Pazifik" ist, ist sehr hoch. Weitere Informationen zum Interpretieren dieser Werte finden Sie unter Technische Referenz für den Microsoft Sequence Clustering-Algorithmus (Analysis Services - Data Mining).

  3. Sehen Sie die Liste der Eigenschaften für den Cluster durch, bis Sie die erste Übergangszeile gefunden haben.

  4. Eine Übergangszeile enthält den Text "Übergang" in der Spalte Variablen sowie eine Kombination sequenzieller Attributwerte in der Spalte Wert. Die Sequenz kann auch Anfangspunkte und fehlende Werte enthalten.

    Nehmen Sie z. B. an, dass der Übergang den Wert "[Start] -> Road Tire Tube" hat. Dies bedeutet, dass Kunden in diesem Cluster häufig "Road Tire Tube" zuerst in den Warenkorb gelegt haben. Dies kann anzeigen, dass das Produkt ein häufiges Element ist, das Kunden als Erstes suchen, oder es kann anzeigen, dass das Produkt einfach auf der Einkaufswebsite zu finden ist.

  5. Führen Sie einen Bildlauf durch die Liste durch, bis Sie den ersten Übergang finden, der nicht [Start] oder Fehlt enthält.

    Nehmen Sie zum Beispiel an, dass Sie den Übergang Touring Tire, Touring Tire Tube finden. Dies bedeutet, dass Kunden in diesem Cluster diese Elemente und genau in dieser Reihenfolge häufig zusammen gekauft haben.

  6. Halten Sie die Maus über der schattierten Leiste für diesen Übergang an.

    Die Wahrscheinlichkeit dieses Übergangs wird als ein Prozentsatz angezeigt.

  7. Wählen Sie in der Dropdownliste Cluster den Eintrag Auffüllung (Alle) aus.

    Die Liste der Attribute wird aktualisiert, um die Eigenschaften aller Bestellungen anzuzeigen, die verwendet wurden, um das Modell zu erstellen. In diesem Miningmodell ist das wichtigste Merkmal für die Unterschiedung zwischen Clustern Region mit dem Wert Nordamerika.

Sie erkennen zwei Dinge, nachdem Sie diese Tasks überprüft haben. Zum einen benötigen Sie viele Daten, um eine sinnvolle Anzahl von Kombinationen abzurufen. Die Sequenzen mit den höchsten Wahrscheinlichkeiten schließen wahrscheinlich einen Status [Start] oder Fehlt ein.

Zum anderen gibt es eine starke Clusteringauswirkung auf Attribute für Region, was es schwieriger macht, die Gruppen von Sequenzen zu erkennen. Daher entscheiden Sie sich, ein anderes Modell zu erstellen, das nur Sequenzen verwendet und keine Spalten für die Region oder das Einkommen enthalten.

Zurück zum Anfang

Registerkarte Clusterunterscheidung

Sie können die Registerkarte Clusterunterscheidung verwenden, um zwei Cluster in Bezug darauf zu vergleichen, welche Attribute einen bestimmten Cluster von einem anderen Cluster unterscheiden. Die Registerkarte enthält vier Spalten: Variablen, Werte, Cluster 1 und Cluster 2. Sie können jeden Cluster auswählen, der als Cluster 1 und als Cluster 2 verwendet werden soll.

Die Spalte Variablen zeigt Ihnen den Namen des Attributs an, das entweder ein Spaltenname oder eine Kombination aus dem Spaltennamen und dem Wort Übergang sein kann. Die Spalte Werte zeigt den genauen Wert des Attributs oder des Übergangs an. Die schattierten Leisten in den Spalten für Cluster 1 und Cluster 2 gibt die Stärke des Attributs in den Clustern an, die Sie vergleichen. Je länger die Leiste, desto wahrscheinlicher schließt der Cluster Fälle mit diesem Attribut ein.

So vergleichen Sie zwei Cluster mittels der Registerkarte "Clusterunterscheidung"

  1. Wählen Sie auf der Registerkarte Clusterunterscheidung für Cluster 1Pacific Cluster aus.

    Standardmäßig wird die Auswahl für Cluster 2 zu **Komplement von **PacificCluster geändert.

    Das oberste Attribut, das Pacific Cluster von allen anderen Fällen unterscheidet, ist die Region. Region ist ein so starkes Attribut für das Clustering, dass es andere Attribute verdeckt. Um diesen Effekt zu vermeiden, sollten einige der kleineren Cluster miteinander vergleichen. Wenn Sie dies tun, wird die Liste der Attribute geändert und enthält möglicherweise mehr Übergänge zwischen Modellen.

  2. Suchen Sie eine Übergangszeile, und halten Sie die Maus über der schattierten Leiste an.

    Die Elemente in der Spalte Werte können sowohl Statuswerte als auch Übergänge enthalten. Die Schattierung für jedes Element gibt das Unterscheidungsergebnis an. Weitere Informationen zur Bedeutung anderer Ergebnisse finden Sie unter Mingingmodellinhalt von Sequence Clustering-Modellen (Analysis Services – Data Mining).

Zurück zum Anfang

Registerkarte Statusübergänge

Auf der Registerkarte Statusübergänge können Sie einen Cluster auswählen und die Statusübergänge durchsuchen. Wenn Sie Auffüllung (Alle) aus der Clusterdropdownliste auswählen, zeigt das Diagramm die Verteilung von Status für das ganze Miningmodell an.

Jeder Knoten im Diagramm stellt einen Status oder möglichen Wert der Sequenzen dar, die Sie versuchen zu analysieren. Die Hintergrundfarbe der Knoten gibt die Frequenz dieses Status an. Zeilen verbinden einige Status und zeigen einen Übergang zwischen Status an. Sie können den Schieberegler nach oben oder unten verschieben, um den Wahrscheinlichkeitsschwellenwert für die Übergänge zu ändern. Einigen Knoten sind Zahlen zugeordnet, die die Wahrscheinlichkeit dieses Status angeben.

So untersuchen Sie die Beziehungen auf der Registerkarte "Statusübergänge"

  1. Wählen Sie auf der Registerkarte Statusübergänge des Miningmodell-Viewers aus der Liste der Cluster Pacific Cluster aus. Stellen Sie sicher, dass die Option Kantenbezeichnungen anzeigen ausgewählt ist.

    Das Diagramm wird aktualisiert, um die Übergänge anzuzeigen, die in diesem Cluster am häufigsten sind.

  2. Klicken Sie auf jeden Knoten, der mit einem anderen Knoten durch eine Linie verbunden ist.

    Das Diagramm wird aktualisiert, und die Knoten mit Beziehungen werden hervorgehoben. Der numerische Wert neben der Linie gibt die Wahrscheinlichkeit des Übergangs an.

  3. Schieben Sie den Schieberegler nach oben bis zu Alle Links, um die Anzahl der im Diagramm enthaltenen Übergänge zu vergrößern.

  4. Wählen Sie Auffüllung (Alle) aus Cluster aus.

    Beachten Sie, dass beim Laden eines anderen Clusters das Diagramm zu den Standardanzeigeeinstellungen zurückgesetzt wird, sodass das Schieberegler-Steuerelement auf die mittlere Position zurückgesetzt wird.

  5. Klicken Sie auf den dunkelsten Knoten im Diagramm; dies sollte Sport-100 sein.

    Beachten Sie, dass dieses Produkt nicht durch Linien mit anderen Produkten verbunden ist.

  6. Schieben Sie den Schieberegler um einen Schritt nach oben, um die Anzahl der im Diagramm enthaltenen Übergänge zu vergrößern. Schieben Sie ihn nicht bis zu Alle Links.

    Das Diagramm wird durch das Hinzufügen einiger weiterer Übergänge zum Diagramm aktualisiert, aber keines enthält das Sport-100-Modell.

  7. Verschieben Sie das Schieberegler-Steuerelement ganz nach Alle Links. Klicken Sie auf den Knoten Sport-100, wenn bereits nicht ausgewählt.

    Das Diagramm wird aktualisiert und zeigt zahlreiche Übergänge an, die das Sport-100-Produkt einschließen. Die Pfeilrichtung auf der verbindenden Zeile zeigt an, ob das Sport-100-Element als erstes oder als zweites Element im Paar ausgewählt wurde.

  8. Klicken Sie auf den Knoten für "Touring Tire" und verschieben Sie das Schieberegler-Steuerelement zurück zur mittleren Position.

    Zunächst werden zahlreiche Übergangszeilen angezeigt, die "Touring Tire" mit anderen Produkten verbinden. Wenn Sie jedoch den Wahrscheinlichkeitsschwellenwert erhöhen, werden die weniger wahrscheinlichen Übergänge aus dem Diagramm entfernt, sodass nur der Übergang "Touring Tire > Touring Tire Tube" übrig bleibt. Dieser Übergang zeigt, dass, wenn ein Kunde einen "Touring Tire" in den Warenkorb legt, eine hohe Wahrscheinlichkeit besteht, dass der Kunde als Nächstes einen "Touring Tire Tube" in den Warenkorb legen wird.

Zurück zum Anfang

Generic Content Tree Viewer

Dieser Viewer kann für alle Modelle verwendet werden, unabhängig vom Algorithmus oder Modelltyp. Der MicrosoftGeneric Content Tree Viewer ist in der Dropdownliste Viewer verfügbar.

Eine Inhaltsstruktur ist die Darstellung eines Miningmodells als eine Reihe von Knoten, in der jeder Knoten das erlangte Wissen über die Trainingsdaten repräsentiert. Der Knoten kann ein Muster, ein Regelsatz, ein Cluster oder die Definition eines Datenbereichs mit gemeinsamen Attributen sein. Der genaue Inhalt des Knotens ist je nach Algorithmus und vorhersagbarem Attribut unterschiedlich, die allgemeine Darstellung des Inhalts ist jedoch gleich.

Sie können jeden Knoten erweitern, um zunehmend mehr Details anzuzeigen, und Sie können den Inhalt eines Knotens in die Zwischenablage kopieren. Weitere Informationen finden Sie unter Anzeigen von Modelldetails mit dem Microsoft Generic Content Tree Viewer.

So zeigen Sie Details für ein Sequenzclustermodell mittels Generic Content Tree Viewer an

  1. Wählen Sie auf der Registerkarte Miningmodell-Viewer die Option Microsoft Generic Content Tree Viewer aus der Liste Viewer aus.

  2. Klicken Sie im Bereich Knotenbeschriftung auf Pacific Cluster (1).

    Der Name für diesen Knoten enthält sowohl den Anzeigenamen, den Sie dem Cluster zugewiesen haben, und die zugrunde liegende Knoten-ID. Sie können mittels der Knoten-IDs einen Drilldown zu weiteren Details im Modell ausführen.

  3. Erweitern Sie den ersten untergeordneten Knoten namens Sequenzebene für Cluster 1.

    Der Sequenzebenenknoten für einen Cluster enthält Details zu den Status und den Übergängen, die in diesem Cluster enthalten sind. Sie können die in der Spalte NODE_DISTRIBUTION verfügbaren Details verwenden, um die Sequenzen und die Status für die einzelnen Cluster oder für das Modell insgesamt zu untersuchen.

  4. Fahren Sie fort, Knoten zu erweitern und die Details im HTML-Viewer-Bereich anzuzeigen.

Weitere Informationen zum Miningmodellinhalt und zur Verwendung von Details im Viewer finden Sie unter Mingingmodellinhalt von Sequence Clustering-Modellen (Analysis Services – Data Mining).

Zurück zum Anfang