Untersuchen des Clustering-Modells (Lernprogramm zu Data Mining-Grundlagen)

 

Gilt für: SQL Server 2016 Preview

Die Microsoft Clustering-Algorithmus gruppiert Fälle in Clustern, die ähnliche Merkmale enthalten. Diese Gruppierungen eignen sich zum Durchsuchen von Daten, Identifizieren von Datenanomalien und Erstellen von Vorhersagen.

Der Microsoft Cluster-Viewer bietet die folgenden Registerkarten zum Durchsuchen von Clusteringminingmodellen:

Clusterdiagramm

Clusterprofile

Clustermerkmale

Clusterunterscheidung

Registerkarte "Clusterdiagramm"

Auf der Registerkarte Clusterdiagramm werden alle Cluster in einem Miningmodell angezeigt. Die Linien zwischen den Clustern geben die jeweilige "Nähe" an. Ihre Schattierung hängt davon ab, wie groß die Ähnlichkeit zwischen den Clustern ist. Die tatsächliche Farbe der einzelnen Cluster gibt die Häufigkeit der Variablen und den Status im Cluster an.

So untersuchen Sie das Modell auf der Registerkarte "Clusterdiagramm"

  1. Verwenden der Miningmodell Liste am oberen Rand der Miningmodell-Viewer Tab, um zum Wechseln der TM_Clustering Modell.

  2. In der Viewer Liste Microsoft Cluster-Viewer.

  3. In der Schattierungsvariable Wählen Sie im Fahrradkäufer.

    Die Standardvariable lautet Auffüllung, aber Sie können dies ändern, auf alle Attribute im Modell zu ermitteln, welche Cluster jeweils Elemente enthalten, die die Attribute haben sollen.

  4. Wählen Sie 1 in der Status auf jene Fälle zu untersuchen, in denen ein Fahrrad gekauft wurde.

    Die Dichte Legende beschreibt die Dichte des Attribut-und statuspaar die Schattierungsvariable und den Zustand aktiviert. In diesem Beispiel gibt es an, dass die Clusterwith der dunkelsten Schattierung den höchsten Prozentsatz an fahrradkäufern verfügt.

  5. Zeigen Sie mit der Maus auf den Cluster mit der dunkelsten Schattierung.

    Eine QuickInfo zeigt den Prozentsatz der Fälle, die dem Attribut Bike Buyer = 1.

  6. Wählen Sie den Cluster mit der höchsten Dichte, mit der rechten Maustaste in des Clusters, wählen Sie Cluster umbenennen und Fahrradkäufer hoch für die zukünftige Identifikation. Klicken Sie auf OK.

  7. Suchen Sie den Cluster, der die hellste Schattierung (und die niedrigste Dichte) aufweist. Mit der rechten Maustaste in des Clusters, wählen Sie Cluster umbenennen und Fahrradkäufer niedrig. Klicken Sie auf OK.

  8. Klicken Sie auf die Fahrradkäufer hoch cluster, und ziehen Sie es in einen Bereich des Bereichs, der Sie eine klare Übersicht über die Verbindungen zu anderen Clustern erkennen kann.

    Wenn Sie einen Cluster auswählen, werden die Linien hervorgehoben, die diesen Cluster mit anderen Clustern verbinden, sodass Sie alle Beziehungen dieses Clusters rasch erkennen können. Wenn der Cluster nicht ausgewählt ist, können Sie anhand der Dunkelheit der Linien erkennen wie stark die Beziehungen zwischen den Clustern im Diagramm sind. Ist die Schattierung schwach oder ist keine Schattierung vorhanden, sind sich die Cluster kaum ähnlich.

  9. Mithilfe des Schiebereglers links neben dem Netzwerk können Sie schwächere Links herausfiltern und die Cluster mit den engsten Beziehungen finden. Die Marketingabteilung von Adventure Works Cycles kann ähnliche Cluster kombinieren, um die beste Methode für das Targeted Mailing zu ermitteln.

Zurück zum Anfang

Registerkarte Clusterprofile

Die Clusterprofile bietet einen allgemeinen Überblick über die Registerkarte der TM_Clustering Modell. Die Profile Registerkarte enthält eine Spalte für jeden Cluster im Modell. In der ersten Spalte werden die Attribute aufgelistet, die mit mindestens einem Cluster verknüpft sind. Der Rest des Viewers umfasst die Verteilung der Status eines Attributs für jeden Cluster. Die Verteilung einer diskreten Variablen wird angezeigt, als farbige Balken die maximale Anzahl Balken wird in der Histogrammbalken Liste. Kontinuierliche Attribute werden in einem Rautendiagramm angezeigt, das die mittlere und die Standardabweichung in jedem Cluster angibt.

So untersuchen Sie das Modell auf der Registerkarte "Profile"

  1. Legen Sie Histogramm Wert 5.

    In unserem Modell stellt 5 die maximale Anzahl der Status einer Variablen dar.

  2. Wenn die Mininglegende blockiert die Anzeige der -Attribut Profile, aus dem Weg zu verschieben.

  3. Wählen Sie die Fahrradkäufer hoch Spalte und ziehen Sie es rechts neben der Auffüllung Spalte.

  4. Wählen Sie die Fahrradkäufer niedrig Spalte und ziehen Sie es rechts neben der Fahrradkäufer hoch Spalte.

  5. Klicken Sie auf die Fahrradkäufer hoch Spalte.

    Die Variablen Spalte ist in der Reihenfolge ihrer Wichtigkeit für diesen Cluster sortiert. Führen Sie einen Bildlauf durch die Spalte aus, und überprüfen Sie Merkmale des Clusters Fahrradkäufer hoch. Beispielsweise ist hier die Wahrscheinlichkeit eines kurzen Arbeitswegs höher.

  6. Doppelklicken Sie auf die Alter Zelle der Fahrradkäufer hoch Spalte.

    Die Mininglegende enthält eine detailliertere anzeigen und Sie können die Altersgruppe der Kunden sowie Durchschnittsalter anzeigen.

  7. Mit der rechten Maustaste die Fahrradkäufer niedrig Spalte, und wählen Spalte ausblenden.

Zurück zum Anfang

Registerkarte Clustermerkmale

Mit der Clustermerkmale Registerkarte können Sie untersuchen ausführlicher Merkmale, die einen Cluster bilden. Anstatt die Merkmale aller Cluster (wie auf der Registerkarte Clusterprofile) zu vergleichen, können Sie auch einen Cluster nach dem anderen betrachten. Wenn Sie auswählen, z. B. Fahrradkäufer hoch aus der Cluster Liste, sehen Sie die Merkmale der Kunden in diesem Cluster. Die Anzeige unterscheidet sich zwar vom Viewer für Clusterprofile, die Ergebnisse sind jedoch gleich.

Hinweis


Es sei denn, Sie legen Sie einen Anfangswert für Holdoutseed, das Ergebnis jeder Verarbeitung des Modells ab. Weitere Informationen finden Sie unter HoldoutSeed-Element

Zurück zum Anfang

Registerkarte Clusterunterscheidung

Mit der Clusterunterscheidung Registerkarte Durchsuchen können Sie die Eigenschaften, die einzelnen Cluster voneinander unterscheiden. Nach der Auswahl von zwei Clustern, die aus der Cluster 1 Liste und aus der Cluster 2 Liste Viewer berechnet die Unterschiede zwischen den Clustern und zeigt eine Liste der Attribute, die die Cluster am meisten unterscheiden.

So untersuchen Sie das Modell auf der Registerkarte "Clusterunterscheidung"

  1. In der Cluster 1 Wählen Sie im Fahrradkäufer hoch.

  2. In der Cluster 2 Wählen Sie im Fahrradkäufer niedrig.

  3. Klicken Sie auf Variablen alphabetisch sortiert.

    Einige erhebliche Unterschiede bei den Kunden in den Fahrradkäufer niedrig und Fahrradkäufer hoch Cluster enthalten, Alter, autobesitz, kinderzahl und Region.

Verwandte Aufgaben

Die folgenden Themen enthalten Beschreibungen zu den anderen Miningmodellen.

Nächste Aufgabe in der Lektion

Untersuchen des Naive Bayes-Modells ( Grundlegende Datamining-Lernprogramm )

Vorherige Aufgabe in der Lektion

Untersuchen Decision Tree-Modell ( Grundlegende Datamining-Lernprogramm )

Siehe auch

Durchsuchen eines Modells mit dem Microsoft Cluster-Viewer
Registerkarte "Clusterunterscheidung" (Miningmodell-Viewer)
Registerkarte "Clusterprofile" (Miningmodell-Viewer)
Registerkarte "Clustermerkmale" (Miningmodell-Viewer)
Registerkarte "Clusterdiagramm" (Miningmodell-Viewer)