Share via


Prüfen des Sequenzclustermodells (Data Mining-Lernprogramm)

 

Gilt für: SQL Server 2016 Preview

Nun, die Sie erstellt haben die Sequence Clustering with Region Modell durchsuchen können Sie es mithilfe der Microsoft Sequence Clustering-Viewer in der Miningmodell-Viewer Registerkarte des Data Mining-Designer. Die Microsoft Sequenzcluster-Viewer enthält fünf Registerkarten: Clusterdiagramm, Clusterprofile, Clustermerkmale, ClusterDiscrimination, und Statusübergänge. Weitere Informationen zum Verwenden des Viewers finden Sie unter Durchsuchen eines Modells mit dem Microsoft Sequenzcluster-Viewer.

  • Registerkarte "Clusterdiagramm"

  • Registerkarte "Clusterprofile"

  • Registerkarte "Clustermerkmale"

  • Registerkarte "Clusterunterscheidung"

  • Registerkarte "Statusübergänge"

  • Generische Inhaltssicht

Registerkarte "Clusterdiagramm"

Die Clusterdiagramm Registerkarte grafisch dargestellt werden, die vom Algorithmus erkannten Cluster in der Datenbank. Das Layout im Diagramm gibt die Beziehungen der Cluster an, wobei ähnliche Cluster nahe zusammen gruppiert sind. Standardmäßig gibt die Schattierung der einzelnen Knotenfarben die Dichte aller Fälle auf dem Cluster an, d. h., je dunkler die Schattierung des Knotens, desto mehr Fälle enthält er. Sie können die Bedeutung der Knotenschattierung ändern, sodass diese die Unterstützung in den einzelnen Clustern für ein Attribut und einen Status darstellt.

Sie können die Cluster auch umbenennen, um es einfacher zu machen, Zielcluster zu identifizieren und mit diesen zu arbeiten. Für dieses Lernprogramm benennen Sie den Cluster um, der den höchsten Prozentsatz an Kunden aus der Pazifikregion hat, und der Cluster, sowie den Cluster, der insgesamt die meisten Fälle enthält.

Hinweis


Die Fälle, die bestimmten Clustern zugewiesen sind, können sich abhängig von den Daten und den Modellparametern ändern, wenn Sie das Modell neu verarbeiten. Auch wenn Sie Cluster umbenennen, gehen die Namen verloren, wenn Sie das Miningmodell erneut verarbeiten.

So ändern Sie das für die Hervorhebung von Clustern verwendete Attribut

  1. In der Schattierungsvariable Liste Modell.

  2. Wählen Sie Cycling Cap in der Zustand Liste.

    Das Diagramm wird aktualisiert, um die Konzentration des ausgewählten Produkts in jeden der Cluster anzuzeigen. Der Cluster mit der dunkelsten Schattierung weist die höchste Dichte für das Produkt "Cycling Caps" auf. Sie können die Schattierungsvariable ändern, um einen beliebigen Status einer beliebigen Eingabespalte zu verwenden.

  3. In der Schattierungsvariable Liste Auffüllung.

    Wenn Sie die Schattierungsvariable in "Auffüllung" ändern, wird das Diagramm aktualisiert, um die Cluster der Größe nach zu vergleichen. Der Cluster, der die dunkelste Schattierung aufweist, enthält mehr Fälle als die anderen Cluster.

So benennen Sie Knoten im Modell um

  1. Änderung Schattierungsvariable auf Region, und legen Sie Status auf Pacific.

  2. Heben Sie den dunkelsten Knoten im Diagramm hervor.

  3. Mit der rechten Maustaste in diesem Cluster, und wählen Sie Cluster umbenennen.

  4. Geben Sie den NamenPazifikcluster.

  5. Ändern Sie den Wert der Schattierungsvariable auf Auffüllung.

  6. Suchen Sie im aktualisierten Diagramm den dunkelsten Cluster; dieser sollte der größte Cluster sein. Wenn Sie nicht mittels der Schattierung erkennen können, welcher Cluster am größten ist, halten Sie den Mauszeiger Maus über jedem Cluster an, und zeigen Sie die QuickInfo an. Wählen Sie dann den Cluster aus, der die meisten Fälle enthält.

  7. Mit der rechten Maustaste in diesem Cluster, und wählen Sie Cluster umbenennen. Geben Sie den neuen Namen größter Cluster.

Sie können einen Drillthrough von dem Knoten aus durchführen, der den Cluster darstellt, um Details der Fälle anzuzeigen, die in jedem Cluster enthalten sind. Dies kann nützlich sein, wenn Sie auf aufgrund der Ergebnisse Ihrer Analyse handeln, z. B. wenn Sie E-Mails an einen Kunden senden. Sie können auch die anderen Attribute der Fälle durchsuchen, die Sie in die Struktur eingeschlossen haben, aber nicht im Modell verwendet haben, z. B. Region und IncomeGroup. Weitere Informationen zum Drillthrough von Miningmodellen zu den zugrunde liegenden Fällen finden Sie unter Drillthroughabfragen ( Data Mining ).

So führen Sie einen Drillthrough zu Details vom Clusterdiagramm aus durch

  1. Mit der rechten Maustaste Pazifikcluster, auf Drillthrough, und wählen Sie dann Modell-und Strukturspalten.

    Die Drillthrough das Dialogfeld wird geöffnet. Spalten, die nicht im Modell verwendet werden, aber für Abfragen verfügbar, sind mit dem Präfix Struktur.

    Sie können sehen, dass dieser Cluster meistens Kunden aus der Pazifikregion enthält und nur wenige Kunden aus anderen Regionen.

  2. Klicken Sie in der geschachtelten Spalte "v Assoc Seq Line Items" auf das Pluszeichen, um die Sequenz von Elementen in einem bestimmten Kundenbefehl anzuzeigen.

  3. Schließen der Drillthrough Dialogfeld.

    Hinweis


    Die Spielen Schaltfläche können Sie die Daten erneut abzufragen; allerdings erneutes Abfragen ändert nicht die Daten, die angezeigt werden, es sei denn, das Modell dynamisch im Hintergrund von einem anderen Prozess aktualisiert wurde.

Zurück zum Anfang

Registerkarte Clusterprofile

Die Profile Registerkarte zeigt die Sequenzen, die in jedem Cluster befinden. Die Cluster aufgelisteten in einzelnen Spalten rechts von der Status Spalte.

Im Viewer die Modell Zeile beschreibt die gesamtverteilung der Elemente in einem Cluster und die Model.samples Zeile enthält Sequenzen der Elemente. Jede Zeile der farbsequenzen in jeder Zelle der der Model.samples Zeile stellt das Verhalten eines zufällig ausgewählten Benutzers im Cluster dar.

Jede Farbe in einem Sequenzhistogramm steht für ein Produktmodell. In der Mininglegende werden Sequenzen von Produkten sowohl unter Verwendung der Farbcodierung als auch des Produktmodellnamens angezeigt. Wenn Sie dem Modell für Clustering, z. B. Region oder Einkommensgruppe, weitere Spalten hinzugefügt haben, enthält der Viewer eine zusätzliche Zeile für jede Spalte, die die Verteilung dieser Werte innerhalb jedes Clusters anzeigt.

So zeigen Sie die Sequenzen an, die in einem Cluster am häufigsten sind

  1. Mit der rechten Maustaste die Modell Zeile in der Spalte für den Cluster größter Cluster, und wählen Sie Legende anzeigen.

    Die Farbe Spalte enthält eine schattierte Leiste, die Häufigkeit der Elemente, die in Sequenzen gesucht wurden angibt. Jedes Element wird durch eine andere Farbe dargestellt. Die Bedeutung Spalte führt die produktmodellnamen für jede Farbe. Die Verteilung Spalte enthält den Prozentsatz der Fälle, in denen dieses Element in einer Sequenz enthalten.

  2. Schließen der Mininglegende.

  3. Mit der rechten Maustaste die Model.samples Zeile in der Spalte mit der Überschrift Auffüllung und wählen Sie Legende anzeigen.

  4. Durchsuchen Sie die Liste der Sequenzen im Gesamtmodell**.**

    In der Mininglegende werden zuerst die häufigsten Sequenzen aufgelistet. Das Produkt "Mountain Tire Tube" ist das erste Element in vielen Sequenzen. Das bedeutet, dass ein Kunde "Mountain Tire Tube" höchstwahrscheinlich als Erstes in den Warenkorb legen wird.

So führen Sie einen Drillthrough zu Fällen vom Cluster-Viewer aus durch

  1. Bildlauf nach unten im Bereich Attribut die Zeile für die Region Attribut.

    Die Zeile enthält ein Histogramm für jeden Cluster im Modell sowie ein zusätzliches Histogramm für Auffüllung, d. h. den gesamten Satz von Fällen im Modell verwendet. Ein Histogramm ist eine Leiste mit verschiedenen Farben, wobei jede Farbe ein Attribut darstellt, und die Größe des farbigen Abschnitts für dieses Attribut stellt den Prozentsatz der Fälle mit diesem Attribut dar.

  2. Vergleichen Sie die Histogramme für den Cluster, die Sie umbenannt Pazifikcluster und größter Cluster. Jeder Cluster wird in einer anderen Spalte angezeigt.

    Beide Cluster werden in Volltonfarben angezeigt, jedoch in unterschiedlichen Farben.

  3. In der Region Zeile, halten Sie den Mauszeiger über dem farbigen Histogramm für größter Cluster.

    Die QuickInfo zeigt Werte an, die die tatsächlichen Prozentsätze der Fälle aus jedem Bereich anzeigen.

  4. Mit der rechten Maustaste in des farbigen Histogramms der Region für Zeile Pazifikcluster, auf Drillthrough, und wählen Sie dann nur Modellspalten.

  5. Verschieben Sie die Bildlaufleiste, um alle Kunden in diesen Cluster zu überprüfen.

    Sie können erneut mittels Drillthrough zu den Details erkennen, dass der Cluster zumeist Bestellungen aus der Pazifikregion enthält, aber auch einige wenige aus den Regionen Nordamerika und Europa.

  6. Schließen der Drillthrough Dialogfeld.

Zurück zum Anfang

Registerkarte Clustermerkmale

Die Clustermerkmale Registerkarte fasst die Übergänge zwischen Zuständen in einem Cluster mit Balken an, die die Bedeutung eines Attributwerts für den ausgewählten Cluster visuell darstellen. Die Variablen Spalte wird angezeigt, was das Modell wichtig für den ausgewählten Cluster oder Auffüllung gefunden: einen bestimmten Wert oder die Beziehung zwischen Werten, bekannt als Übergang. Die Werte Spalte enthält weitere Details zum Wert oder Übergang und die Wahrscheinlichkeit Spalte stellt die Gewichtung dieses Attributs oder Übergangs visuell dar.

So zeigen Sie die wichtigen Attribute für einen Cluster an

  1. In der Cluster Dropdownliste Pazifikcluster.

    Die Liste wird aktualisiert, um die Eigenschaften des Clusters anzuzeigen, die Sie umbenannt Pazifikcluster. In diesem Cluster ist das wichtigste Merkmal Region.

  2. Halten Sie die Maus über der schattierten Leiste in der Zeile für Region.

    Die Wahrscheinlichkeit, dass der Wert "Pazifik" ist, ist sehr hoch. Weitere Informationen zum Interpretieren dieser Werte finden Sie unter Microsoft Sequence Clustering-Algorithmus Technical Reference.

  3. Sehen Sie die Liste der Eigenschaften für den Cluster durch, bis Sie die erste Übergangszeile gefunden haben.

  4. Eine Übergangszeile enthält den Text Übergang in den Variablen Spalte und eine Kombination sequenzieller Attributwerte in den Wert Spalte. Die Sequenz kann auch Anfangspunkte und fehlende Werte enthalten.

    Nehmen Sie z. B. an, dass der Übergang den Wert "[Start] -> Road Tire Tube" hat. Dies bedeutet, dass Kunden in diesem Cluster häufig "Road Tire Tube" zuerst in den Warenkorb gelegt haben. Dies kann anzeigen, dass das Produkt ein häufiges Element ist, das Kunden als Erstes suchen, oder es kann anzeigen, dass das Produkt einfach auf der Einkaufswebsite zu finden ist.

  5. Führen Sie einen Bildlauf durch die Liste, bis Sie den ersten Übergang finden, die nicht [Start] oder fehlt darin.

    Angenommen, Sie finden den Übergang Touring Tire, Touring Tire Tube. Dies bedeutet, dass Kunden in diesem Cluster diese Elemente und genau in dieser Reihenfolge häufig zusammen gekauft haben.

  6. Halten Sie die Maus über der schattierten Leiste für diesen Übergang an.

    Die Wahrscheinlichkeit dieses Übergangs wird als ein Prozentsatz angezeigt.

  7. In der Cluster Dropdownliste Auffüllung (alle).

    Die Liste der Attribute wird aktualisiert, um die Eigenschaften aller Bestellungen anzuzeigen, die verwendet wurden, um das Modell zu erstellen. In diesem Miningmodell ist das wichtigste Merkmal für die Unterscheidung zwischen Clustern Region, mit dem Wert North America.

Sie erkennen zwei Dinge, nachdem Sie diese Tasks überprüft haben. Zum einen benötigen Sie viele Daten, um eine sinnvolle Anzahl von Kombinationen abzurufen. Sind z. B. die Sequenzen mit den höchsten Wahrscheinlichkeiten schließen wahrscheinlich einen [Start] oder fehlt Zustand.

Die zweite ist, dass es eine starke clusteringauswirkung auf Attribute für Region, wodurch es schwieriger, die Gruppen von Sequenzen finden Sie unter. Daher entscheiden Sie sich, ein anderes Modell zu erstellen, das nur Sequenzen verwendet und keine Spalten für die Region oder das Einkommen enthalten.

Zurück zum Anfang

Registerkarte Clusterunterscheidung

Die Clusterunterscheidung Registerkarte bieten einen Vergleich zwischen zwei Clustern, um zu bestimmen, welche Attribute einen bestimmten Cluster von einem anderen Cluster unterscheiden. Die Registerkarte enthält vier Spalten: Variablen, Werte, Cluster 1, und Cluster 2. Sie können jeden Cluster auswählen, verwenden Sie als Cluster 1 und Cluster 2.

Die Variablen Spalte weist den Namen des Attributs, die entweder ein Spaltenname oder eine Kombination aus Spaltennamen und dem Wort Übergang. Die Werte Spalte zeigt den genauen Wert des Attributs oder des Übergangs. Die schattierten Leisten in den Spalten für Cluster 1 und Cluster 2 Gibt die Stärke des Attributs in den Clustern, die Sie vergleichen. Je länger die Leiste, desto wahrscheinlicher schließt der Cluster Fälle mit diesem Attribut ein.

So vergleichen Sie zwei Cluster mittels der Registerkarte "Clusterunterscheidung"

  1. In der Clusterunterscheidung Registerkarte für Cluster 1, auf Pazifikcluster.

    Standardmäßig wird die Auswahl für Cluster 2 ändert sich in Komplement von Pacific *** Cluster.

    Das oberste Attribut, das unterscheidet Pazifikcluster von allen anderen Fällen ist die Region. Region ist ein so starkes Attribut für das Clustering, dass es andere Attribute verdeckt. Um diesen Effekt zu vermeiden, sollten einige der kleineren Cluster miteinander vergleichen. Wenn Sie dies tun, wird die Liste der Attribute geändert und enthält möglicherweise mehr Übergänge zwischen Modellen.

  2. Suchen Sie eine Übergangszeile, und halten Sie die Maus über der schattierten Leiste an.

    Die Elemente in der Werte Spalte kann Zustände und Übergänge enthalten. Die Schattierung für jedes Element gibt das Unterscheidungsergebnis an. Weitere Informationen zur Bedeutung anderer Ergebnisse finden Sie unter Miningmodellinhalt für Sequence Clustering-Modelle ( Analysis Services – Datamining ).

Zurück zum Anfang

Registerkarte Statusübergänge

Auf der Statusübergänge Registerkarte können Sie einen Cluster auswählen und Statusübergänge durchsuchen. Wenn Sie die Option Auffüllung (alle) aus der Dropdownliste Cluster das Diagramm zeigt die Verteilung der Status für das ganze Miningmodell.

Jeder Knoten im Diagramm stellt einen Status oder möglichen Wert der Sequenzen dar, die Sie versuchen zu analysieren. Die Hintergrundfarbe der Knoten gibt die Frequenz dieses Status an. Zeilen verbinden einige Status und zeigen einen Übergang zwischen Status an. Sie können den Schieberegler nach oben oder unten verschieben, um den Wahrscheinlichkeitsschwellenwert für die Übergänge zu ändern. Einigen Knoten sind Zahlen zugeordnet, die die Wahrscheinlichkeit dieses Status angeben.

So untersuchen Sie die Beziehungen auf der Registerkarte "Statusübergänge"

  1. In der Statusübergänge Miningmodell-Viewers, wählen Sie auf der Registerkarte Pazifikcluster aus der Liste der Cluster. Sicherstellen, dass die Kantenbezeichnungen anzeigen ausgewählt ist.

    Das Diagramm wird aktualisiert, um die Übergänge anzuzeigen, die in diesem Cluster am häufigsten sind.

  2. Klicken Sie auf jeden Knoten, der mit einem anderen Knoten durch eine Linie verbunden ist.

    Das Diagramm wird aktualisiert, und die Knoten mit Beziehungen werden hervorgehoben. Der numerische Wert neben der Linie gibt die Wahrscheinlichkeit des Übergangs an.

  3. Schieben Sie den Regler bis zu Alle Links, um die Anzahl der im Diagramm enthaltenen Übergänge zu erhöhen.

  4. Wählen Sie Auffüllung (alle) aus Cluster.

    Beachten Sie, dass beim Laden eines anderen Clusters das Diagramm zu den Standardanzeigeeinstellungen zurückgesetzt wird, sodass das Schieberegler-Steuerelement auf die mittlere Position zurückgesetzt wird.

  5. Klicken Sie auf den dunkelsten Knoten im Diagramm, und sollten Sport-100.

    Beachten Sie, dass dieses Produkt nicht durch Linien mit anderen Produkten verbunden ist.

  6. Schieben Sie den Schieberegler um einen Schritt nach oben, um die Anzahl der im Diagramm enthaltenen Übergänge zu vergrößern. Gehen Sie nicht ganz Alle Links noch.

    Das Diagramm wird durch das Hinzufügen einiger weiterer Übergänge zum Diagramm aktualisiert, aber keines enthält das Sport-100-Modell.

  7. Verschieben Sie das Schieberegler-Steuerelement ganz nach Alle Links. Klicken Sie auf den Knoten Sport-100, wenn bereits nicht ausgewählt.

    Das Diagramm wird aktualisiert und zeigt zahlreiche Übergänge an, die das Sport-100-Produkt einschließen. Die Pfeilrichtung auf der verbindenden Zeile zeigt an, ob das Sport-100-Element als erstes oder als zweites Element im Paar ausgewählt wurde.

  8. Klicken Sie auf den Knoten für "Touring Tire" und verschieben Sie das Schieberegler-Steuerelement zurück zur mittleren Position.

    Zunächst werden zahlreiche Übergangszeilen angezeigt, die "Touring Tire" mit anderen Produkten verbinden. Wenn Sie jedoch den Wahrscheinlichkeitsschwellenwert erhöhen, werden die weniger wahrscheinlichen Übergänge aus dem Diagramm entfernt, sodass nur der Übergang "Touring Tire > Touring Tire Tube" übrig bleibt. Dieser Übergang zeigt, dass, wenn ein Kunde einen "Touring Tire" in den Warenkorb legt, eine hohe Wahrscheinlichkeit besteht, dass der Kunde als Nächstes einen "Touring Tire Tube" in den Warenkorb legen wird.

Zurück zum Anfang

Generic Content Tree Viewer

Dieser Viewer kann für alle Modelle verwendet werden, unabhängig vom Algorithmus oder Modelltyp. Die MicrosoftGeneric Content Tree Viewer steht in den Viewer Dropdown-Liste.

Eine Inhaltsstruktur ist die Darstellung eines Miningmodells als eine Reihe von Knoten, in der jeder Knoten das erlangte Wissen über die Trainingsdaten repräsentiert. Der Knoten kann ein Muster, ein Regelsatz, ein Cluster oder die Definition eines Datenbereichs mit gemeinsamen Attributen sein. Der genaue Inhalt des Knotens ist je nach Algorithmus und vorhersagbarem Attribut unterschiedlich, die allgemeine Darstellung des Inhalts ist jedoch gleich.

Sie können jeden Knoten erweitern, um zunehmend mehr Details anzuzeigen, und Sie können den Inhalt eines Knotens in die Zwischenablage kopieren. Weitere Informationen finden Sie unter Durchsuchen eines Modells mit dem Microsoft Generic Content Tree Viewer.

So zeigen Sie Details für ein Sequenzclustermodell mittels Generic Content Tree Viewer an

  1. In der Miningmodell-Viewer auf die Viewer aus, und wählen Sie Microsoft Generic Content Tree Viewer.

  2. In der Knotenbeschriftung Bereich, klicken Sie auf Pazifikcluster (1).

    Der Name für diesen Knoten enthält sowohl den Anzeigenamen, den Sie dem Cluster zugewiesen haben, und die zugrunde liegende Knoten-ID. Sie können mittels der Knoten-IDs einen Drilldown zu weiteren Details im Modell ausführen.

  3. Erweitern Sie den ersten untergeordneten Knoten mit dem Namen Sequenz Ebene für Cluster 1.

    Der Sequenzebenenknoten für einen Cluster enthält Details zu den Status und den Übergängen, die in diesem Cluster enthalten sind. Sie können die in der Spalte NODE_DISTRIBUTION verfügbaren Details verwenden, um die Sequenzen und die Status für die einzelnen Cluster oder für das Modell insgesamt zu untersuchen.

  4. Fahren Sie fort, Knoten zu erweitern und die Details im HTML-Viewer-Bereich anzuzeigen.

Weitere Informationen zum Inhalt des Miningmodells, und wie Sie die Details im Viewer finden Sie unter Miningmodellinhalt für Sequence Clustering-Modelle ( Analysis Services – Datamining ).

Zurück zum Anfang

Nächste Aufgabe in der Lektion

Erstellen eine verknüpfte Sequence Clustering-Modell ( Datamining-Lernprogramm für fortgeschrittene )

Siehe auch

Microsoft Sequence Clustering-Algorithmus
Sequenzclusteringmodellabfragebeispiele