Exploration du modèle de clustering (Didacticiel sur l'exploration de données de base)

 

S’applique à : SQL Server 2016 Preview

Le Microsoft algorithme de Clustering regroupe des cas dans les clusters possédant des caractéristiques similaires. Ces regroupements sont utiles pour l'exploration des données, l'identification d'anomalies dans les données et la création de prédictions.

Microsoft Cluster Viewer fournit les onglets suivants pour explorer les modèles d'exploration de données de clustering :

Diagramme de cluster

Profils du cluster

Caractéristiques du cluster

Discrimination de cluster

Onglet Diagramme de cluster

L'onglet Diagramme de cluster affiche tous les clusters qui sont dans un modèle d'exploration de données. Les lignes entre les clusters représentent le lien logique et sont plus ou moins ombrées selon le degré de similitude entre les clusters. La couleur actuelle de chaque cluster représente la fréquence de la variable et l'état dans le cluster.

Pour explorer le modèle dans l'onglet Diagramme de cluster

  1. Utilisez la modèle d’exploration de données liste en haut de la visionneuse de modèle d’exploration de données tab pour basculer vers le TM_Clustering modèle.

  2. Dans la visionneuse liste, sélectionnez Microsoft Cluster Viewer.

  3. Dans la Variable d’ombrage boîte, sélectionnez vélo.

    La variable de la valeur par défaut est remplissage, mais vous pouvez le modifier à tout attribut dans le modèle, pour découvrir quels clusters contiennent des membres qui ont les attributs souhaités.

  4. Sélectionnez 1 dans les état boîte pour Explorer les cas où un vélo a été acheté.

    Le densité légende décrit la densité de la paire d’état d’attribut sélectionnée dans la Variable d’ombrage et de l’état. Dans cet exemple il nous indique que le clusterwith l’ombrage le plus foncé a le plus grand nombre d’acheteurs de vélo.

  5. Arrêtez votre souris sur le cluster avec l'ombrage le plus foncé.

    Une info-bulle affiche le pourcentage de cas qui ont l’attribut Bike Buyer = 1.

  6. Sélectionnez le cluster ayant la densité la plus élevée, cliquez sur le cluster, sélectionnez Renommer le Cluster et type Bike Buyers High pour l’identification ultérieure. Cliquez sur OK.

  7. Recherchez le cluster qui a l'ombrage le plus clair (et la densité la plus faible). Cliquez sur le cluster, sélectionnez Renommer le Cluster et type Bike Buyers Low. Cliquez sur OK.

  8. Cliquez sur le Bike Buyers High de cluster et faites-le glisser vers une zone du volet qui vous donnera un aperçu clair de ses connexions aux autres clusters.

    Lorsque vous sélectionnez un cluster, les lignes qui connectent ce cluster aux autres clusters sont mises en surbrillance, afin que vous puissiez consulter facilement toutes les relations du cluster. Lorsque le cluster n'est pas sélectionné, vous pouvez connaître d'après l'obscurité des lignes le degré de force des relations entre tous les clusters du diagramme. Si l'ombrage est clair ou inexistant, les clusters ne sont pas très similaires.

  9. En utilisant le curseur à gauche du réseau, vous pouvez appliquer un filtre pour exclure les liens les moins forts et rechercher les clusters liés par une relation étroite. Le service marketing Adventure Works Cycles peut vouloir associer les clusters similaires pour déterminer la meilleure méthode pour remettre le publipostage ciblé.

Retour au début

Onglet Profils du cluster

Le profils du Cluster onglet fournit une vue d’ensemble de la TM_Clustering modèle. Le profils du Cluster onglet contient une colonne pour chaque cluster dans le modèle. La première colonne contient la liste des attributs associés à au moins un cluster. Les autres colonnes de la visionneuse contiennent la distribution des états d'un attribut pour chaque cluster. La distribution d’une variable discrète est représentée par une barre de couleur avec le nombre maximal de barres est affiché dans le barres de l’histogramme liste. Les attributs continus sont affichés avec un graphique en losange qui représente l'écart moyen et l'écart type dans chaque cluster.

Pour explorer le modèle dans l'onglet Profils du cluster

  1. Définissez histogramme barres 5.

    Dans notre modèle, 5 est le nombre maximal d'états pour toute variable.

  2. Si le légende d’exploration de données bloque l’affichage de la profils d’attribut, déplacez-le de.

  3. Sélectionnez le Bike Buyers High colonne et faites-le glisser vers la droite de la remplissage colonne.

  4. Sélectionnez le Bike Buyers Low colonne et faites-le glisser vers la droite de la Bike Buyers High colonne.

  5. Cliquez sur le Bike Buyers High colonne.

    Le Variables colonne est triée par ordre d’importance pour ce cluster. Faites défiler la colonne et examinez les caractéristiques du cluster Bike Buyer High. Par exemple, elles sont plus susceptibles d'effectuer des trajets courts domicile-travail.

  6. Double-cliquez sur le Age cellule le Bike Buyers High colonne.

    Le légende d’exploration de données affiche plus vue et vous pouvez voir les tranches d’âge de ces clients, ainsi que l’âge moyen.

  7. Avec le bouton droit le Bike Buyers Low colonne et sélectionnez Masquer la colonne.

Retour au début

Onglet Caractéristiques du cluster

Avec le caractéristiques du Cluster onglet, vous pouvez examiner plus en détail les caractéristiques qui composent un cluster. Au lieu de comparer les caractéristiques de tous les clusters (comme dans l'onglet Profils du cluster), vous pouvez explorer un cluster à la fois. Par exemple, si vous sélectionnez Bike Buyers High à partir de la Cluster la liste, vous pouvez voir les caractéristiques des clients de ce cluster. Même si l'affichage est différent de la visionneuse Profils du cluster, les conclusions sont les mêmes.

Notes


Sauf si vous définissez une valeur initiale pour holdoutseed, les résultats varient chaque fois que vous traitez le modèle. Pour plus d’informations, consultez holdoutseed, élément

Retour au début

Onglet Discrimination de cluster

Avec le Discrimination de Cluster onglet, vous pouvez explorer les caractéristiques qui différencient un cluster à partir d’un autre. Une fois que vous sélectionnez deux clusters, une à partir de la Cluster 1 liste et l’autre à partir de la Cluster 2 liste, la visionneuse calcule les différences entre les clusters et affiche une liste des attributs qui différencient le plus.

Pour explorer le modèle dans l'onglet Discrimination de cluster

  1. Dans la Cluster 1 boîte, sélectionnez Bike Buyers High.

  2. Dans la Cluster 2 boîte, sélectionnez Bike Buyers Low.

  3. Cliquez sur Variables à trier par ordre alphabétique.

    Certaines des différences plus significatives parmi les clients dans le Bike Buyers Low et Bike Buyers High clusters incluent l’âge, voiture, le nombre d’enfants et la région.

Tâches associées

Voir les rubriques qui suivent pour explorer les autres modèles d'exploration de données.

Tâche suivante de la leçon

Exploration du modèle Naive Bayes &#40 ; Didacticiel d’exploration de données de base de données &#41 ;

Tâche précédente de la leçon

Exploration du modèle Decision Tree &#40 ; Didacticiel d’exploration de données de base de données &#41 ;

Voir aussi

Explorer un modèle à l'aide de Microsoft Sequence Cluster
Onglet Discrimination de cluster (visionneuse de modèle d’exploration de données)
Onglet Profils du cluster (visionneuse de modèle d’exploration de données)
Onglet Caractéristiques du cluster (visionneuse de modèle d’exploration de données)
Onglet Diagramme de cluster (visionneuse de modèle d’exploration de données)