Article
03/31/2012

Exploration du modèle de clustering (Didacticiel sur l'exploration de données de base)

L'algorithme MSC (Microsoft Sequence Clustering) regroupe des cas dans les clusters qui contiennent des caractéristiques semblables. Ces regroupements sont utiles pour l'exploration des données, l'identification d'anomalies dans les données et la création de prédictions.

Microsoft Cluster Viewer fournit les onglets suivants pour explorer les modèles d'exploration de données de clustering :

Diagramme de cluster

Profils du cluster

Caractéristiques du cluster

Discrimination de cluster

Les sections suivantes décrivent comment sélectionner la visionneuse appropriée et explorer les autres modèles d'exploration de données.

Onglet Diagramme de cluster

L'onglet Diagramme de cluster affiche tous les clusters qui sont dans un modèle d'exploration de données. Les lignes entre les clusters représentent le lien logique et sont plus ou moins ombrées selon le degré de similitude entre les clusters. La couleur actuelle de chaque cluster représente la fréquence de la variable et l'état dans le cluster.

Pour explorer le modèle dans l'onglet Diagramme de cluster

Utilisez la liste Modèle d'exploration de données en haut de l'onglet Visionneuse de modèle d'exploration de données pour basculer dans le modèle TM_Clustering.
Dans la liste Visionneuse, sélectionnez Microsoft Cluster Viewer.
Dans la zone Variable d'ombrage, sélectionnez Bike Buyer.

La variable par défaut est Remplissage, mais vous pouvez la remplacer par n'importe quel attribut du modèle, afin de découvrir les clusters contenant les membres avec les attributs que vous souhaitez.
Sélectionnez 1 dans la zone Etat pour explorer les cas où un vélo a été acheté.

La légende Densité décrit la densité des deux états d'attribut sélectionnés dans la Variable d'ombrage et l'État. Cet exemple nous indique que le cluster avec l'ombrage le plus foncé a le pourcentage le plus élevé d'acheteurs de vélo.
Arrêtez votre souris sur le cluster avec l'ombrage le plus foncé.

Une info-bulle affiche le pourcentage des cas qui ont l'attribut, Bike Buyer = 1.
Sélectionnez le cluster ayant la densité la plus élevée, cliquez avec le bouton droit sur celui-ci, sélectionnez Renommer le cluster et tapez Bike Buyers High à des fins d'identification ultérieure. Cliquez sur OK.
Recherchez le cluster qui a l'ombrage le plus clair (et la densité la plus faible). Cliquez avec le bouton droit sur le cluster, sélectionnez Renommer le cluster et tapez Bike Buyers Low. Cliquez sur OK.
Cliquez sur le cluster Bike Buyers High et faites le glisser vers une zone du volet qui affiche clairement ses connexions aux autres clusters.

Lorsque vous sélectionnez un cluster, les lignes qui connectent ce cluster aux autres clusters sont mises en surbrillance, afin que vous puissiez consulter facilement toutes les relations du cluster. Lorsque le cluster n'est pas sélectionné, vous pouvez connaître d'après l'obscurité des lignes le degré de force des relations entre tous les clusters du diagramme. Si l'ombrage est clair ou inexistant, les clusters ne sont pas très similaires.
En utilisant le curseur à gauche du réseau, vous pouvez appliquer un filtre pour exclure les liens les moins forts et rechercher les clusters liés par une relation étroite. Le service marketing Adventure Works Cycles peut vouloir associer les clusters similaires pour déterminer la meilleure méthode pour remettre le publipostage ciblé.

Retour en haut

Onglet Profils du cluster

L'onglet Profils du cluster présente une vue d'ensemble du modèle TM_Clustering. L'onglet Profils du cluster contient une colonne pour chaque cluster du modèle. La première colonne contient la liste des attributs associés à au moins un cluster. Les autres colonnes de la visionneuse contiennent la distribution des états d'un attribut pour chaque cluster. La distribution d'une variable discrète est indiquée sous la forme d'une barre de couleur, le nombre maximal de barres étant indiqué dans la liste Barres de l'histogramme. Les attributs continus sont affichés avec un graphique en losange qui représente l'écart moyen et l'écart type dans chaque cluster.

Pour explorer le modèle dans l'onglet Profils du cluster

Définissez les barres de l'Histogramme sur 5.

Dans notre modèle, 5 est le nombre maximal d'états pour toute variable.
Si Légende d'exploration de données bloque l'affichage des Profils d'attribut, déplacez-le.
Sélectionnez la colonne Bike Buyers High et faites-la glisserà droite de la colonne Remplissage.
Sélectionnez la colonne Bike Buyers Low et faites-la glisserà droite de la colonne Bike Buyers High.
Cliquez sur la colonne Bike Buyers High.

La colonne Variables est triée en ordre d'importance pour ce cluster. Faites défiler la colonne et examinez les caractéristiques du cluster Bike Buyer High. Par exemple, elles sont plus susceptibles d'effectuer des trajets courts domicile-travail.
Double-cliquez sur la cellule Age dans la colonne Bike Buyers High.

La Légende d'exploration de données affiche une vue plus détaillée et vous pouvez consulter la tranche d'âge de ces clients ainsi que l'âge moyen.
Cliquez avec le bouton droit sur la colonne Bike Buyers Low et sélectionnez Masquer la colonne.

Retour en haut

Onglet Caractéristiques du cluster

L'onglet Caractéristiques du cluster permet d'étudier plus en détail les caractéristiques d'un cluster. Au lieu de comparer les caractéristiques de tous les clusters (comme dans l'onglet Profils du cluster), vous pouvez explorer un cluster à la fois. Par exemple, si vous sélectionnez Bike Buyers High dans la liste Cluster, vous pouvez consulter les caractéristiques des clients dans ce cluster. Même si l'affichage est différent de la visionneuse Profils du cluster, les conclusions sont les mêmes.

Notes

Sauf si vous définissiez une valeur initiale pour holdoutseed, les résultats varient chaque fois que vous traitez le modèle. Pour plus d'informations, consultez Élément HoldoutSeed

Retour en haut

Onglet Discrimination de cluster

L'onglet Discrimination de cluster permet d'explorer les caractéristiques qui différencient un cluster d'un autre cluster. Lorsque vous sélectionnez deux clusters, l'un dans la liste Cluster 1 et l'autre dans la liste Cluster 2, la visionneuse détermine les différences entre les clusters et affiche la liste des attributs qui les différencient le plus.

Pour explorer le modèle dans l'onglet Discrimination de cluster

Dans la zone Cluster 1, sélectionnez Bike Buyers High.
Dans la zone Cluster 2, sélectionnez Bike Buyers Low.
Cliquez sur Variables pour trier alphabétiquement.

Au nombre des différences plus significatives parmi les clients dans les clusters Bike Buyers Low et Bike Buyers High figurent l'âge, le fait d'être propriétaire d'une voiture, le nombre d'enfants et la région.