Artikel
03/30/2012

Untersuchen des Clustering-Modells (Lernprogramm zu Data Mining-Grundlagen)

Der Microsoft-Clustering-Algorithmus gruppiert Fälle in Cluster mit ähnlichen Eigenschaften. Diese Gruppierungen eignen sich zum Durchsuchen von Daten, Identifizieren von Datenanomalien und Erstellen von Vorhersagen.

Der Microsoft Cluster-Viewer bietet die folgenden Registerkarten zum Durchsuchen von Clusteringminingmodellen:

Clusterdiagramm

Clusterprofile

Clustermerkmale

Clusterunterscheidung

In den folgenden Abschnitten wird beschrieben, wie Sie den entsprechenden Viewer auswählen und die anderen Miningmodelle untersuchen.

Registerkarte "Clusterdiagramm"

Auf der Registerkarte Clusterdiagramm werden alle Cluster in einem Miningmodell angezeigt. Die Linien zwischen den Clustern geben die jeweilige "Nähe" an. Ihre Schattierung hängt davon ab, wie groß die Ähnlichkeit zwischen den Clustern ist. Die tatsächliche Farbe der einzelnen Cluster gibt die Häufigkeit der Variablen und den Status im Cluster an.

So untersuchen Sie das Modell auf der Registerkarte "Clusterdiagramm"

Verwenden Sie die Liste Miningmodell oben auf der Registerkarte Miningmodell-Viewer, um zum TM_Clustering zu wechseln.
Wählen Sie in der Liste Viewer den Viewer Microsoft Cluster-Viewer aus.
Wählen Sie im Feld Schattierungsvariable die Variable Bike Buyer aus.

Die Standardvariable lautet Auffüllung. Sie können diese jedoch in jedes beliebige Attribut des Modells ändern, um festzustellen, welche Cluster jeweils Elemente mit den von Ihnen gewünschten Attributen enthalten.
Wählen Sie im Feld Status die Option 1 aus, um jene Fälle zu untersuchen, in denen ein Fahrrad gekauft wurde.

In der Legende Density wird das unter Schattierungsvariable und Status ausgewählte Attribut- und Statuspaar beschrieben In diesem Beispiel weist der Cluster mit derdunkelsten Schattierung den höchsten Prozentsatz an Fahrradkäufern auf.
Zeigen Sie mit der Maus auf den Cluster mit der dunkelsten Schattierung.

Eine QuickInfo zeigt den Prozentsatz von Fällen an, die über das Attribut Bike Buyer = 1 verfügen.
Wählen Sie den Cluster mit der höchsten Dichte aus, und klicken Sie mit der rechten Maustaste auf den Cluster. Wählen Sie Cluster umbenennen aus, und geben Sie für die zukünftige Identifikation den Namen Fahrradkäufer hoch ein. Klicken Sie auf OK.
Suchen Sie den Cluster, der die hellste Schattierung (und die niedrigste Dichte) aufweist. Klicken Sie mit der rechten Maustaste auf den Cluster, wählen Sie Cluster umbenennen aus, und geben Sie Fahrradkäufer niedrig ein. Klicken Sie auf OK.
Klicken Sie auf den Cluster Fahrradkäufer hoch, und ziehen Sie den Cluster in einen Teil des Bereichs, in dem Sie alle Verbindungen zu anderen Clustern erkennen können.

Wenn Sie einen Cluster auswählen, werden die Linien hervorgehoben, die diesen Cluster mit anderen Clustern verbinden, sodass Sie alle Beziehungen dieses Clusters rasch erkennen können. Wenn der Cluster nicht ausgewählt ist, können Sie anhand der Dunkelheit der Linien erkennen, wie stark die Beziehungen zwischen den Clustern im Diagramm sind. Ist die Schattierung schwach oder ist keine Schattierung vorhanden, sind sich die Cluster kaum ähnlich.
Mithilfe des Schiebereglers links neben dem Netzwerk können Sie schwächere Verknüpfungen herausfiltern und die Cluster mit den engsten Beziehungen finden. Die Marketingabteilung von Adventure Works Cycles kann ähnliche Cluster kombinieren, um die beste Methode für das Targeted Mailing zu ermitteln.

Zurück zum Anfang

Registerkarte Clusterprofile

Die Registerkarte Clusterprofile bietet eine Übersicht über das TM_Clustering-Modell. Die Registerkarte Clusterprofile enthält eine Spalte für jeden Cluster im Modell. In der ersten Spalte werden die Attribute aufgelistet, die mit mindestens einem Cluster verknüpft sind. Der Rest des Viewers umfasst die Verteilung der Status eines Attributs für jeden Cluster. Die Verteilung einer diskreten Variablen wird als farbiger Balken angezeigt. Die maximale Anzahl Balken wird in der Liste Histogrammbalken angezeigt. Kontinuierliche Attribute werden in einem Rautendiagramm angezeigt, das die mittlere und die Standardabweichung in jedem Cluster angibt.

So untersuchen Sie das Modell auf der Registerkarte "Profile"

Legen Sie für Histogrammbalken den Wert 5 fest.

In unserem Modell stellt 5 die maximale Anzahl der Status einer Variablen dar.
Wenn die Anzeige von Attributprofilen durch die Mininglegende blockiert wird, verschieben Sie diese.
Wählen Sie die Spalte Fahrradkäufer hoch aus und ziehen Sie diese rechts neben die Population-Spalte.
Wählen Sie die Spalte Fahrradkäufer niedrig aus und ziehen Sie diese rechts neben die Spalte Fahrradkäufer hoch.
Klicken Sie auf die Spalte Fahrradkäufer hoch.

Die Spalte Variablen wird für diesen Cluster nach der Reihenfolge der Wichtigkeit sortiert. Führen Sie einen Bildlauf durch die Spalte aus, und überprüfen Sie Merkmale des Clusters Fahrradkäufer hoch. Beispielsweise ist hier die Wahrscheinlichkeit eines kurzen Arbeitswegs höher.
Doppelklicken Sie in der Spalte Fahrradkäufer hoch auf die Zelle Alter.

Die Mininglegende enthält eine detailliertere Sicht, und Sie können die Altersgruppe der Kunden sowie ihr Durchschnittsalter anzeigen.
Klicken Sie mit der rechten Maustaste auf die Spalte Fahrradkäufer niedrig, und wählen Sie Spalte ausblenden aus.

Zurück zum Anfang

Registerkarte Clustermerkmale

Auf der Registerkarte Clustermerkmale können Sie detailliert die Merkmale eines Clusters prüfen. Anstatt die Merkmale aller Cluster (wie auf der Registerkarte Clusterprofile) zu vergleichen, können Sie auch einen Cluster nach dem anderen betrachten. Wenn Sie beispielsweise Fahrradkäufer hoch aus der Liste Cluster auswählen, können Sie die Merkmale der Kunden in diesem Cluster anzeigen. Die Anzeige unterscheidet sich zwar vom Viewer für Clusterprofile, die Ergebnisse sind jedoch gleich.

Hinweis
Solange Sie keinen Anfangswert für HoldoutSeed angeben, verändern sich die Ergebnisse bei jeder Verarbeitung des Modells. Weitere Informationen finden Sie unter HoldoutSeed-Element.

Zurück zum Anfang

Registerkarte Clusterunterscheidung

Auf der Registerkarte Clusterunterscheidung können Sie die Merkmale untersuchen, durch die sich die einzelnen Cluster voneinander unterscheiden. Wenn Sie aus der Liste Cluster 1 zwei Cluster und aus der Liste Cluster 2 einen Cluster ausgewählt haben, berechnet der Viewer die Unterschiede zwischen den Clustern und zeigt eine Liste der Attribute an, in denen sich die Cluster am meisten unterscheiden.

So untersuchen Sie das Modell auf der Registerkarte "Clusterunterscheidung"

Wählen Sie im Feld Cluster 1 den Eintrag Fahrradkäufer hoch aus.
Wählen Sie im Feld Cluster 2 den Eintrag Fahrradkäufer niedrig aus.
Klicken Sie zur alphabetischen Sortierung auf Variablen.

Zu den bedeutenderen Unterschieden bei den Kunden in den Clustern Fahrradkäufer niedrig und Fahrradkäufer hoch gehören Alter, Autobesitz, Kinderzahl und Region.