Partager via


Exploration du modèle Sequence Clustering (Didacticiel intermédiaire sur l'exploration de données)

 

S’applique à : SQL Server 2016 Preview

Maintenant que vous avez créé le Sequence Clustering avec Region modèle, vous pouvez le parcourir en utilisant le Microsoft visionneuse de Clustering de séquence dans le visionneuse de modèle d’exploration de données onglet du Concepteur d’exploration de données. La Microsoft séquence Cluster Viewer contient cinq onglets : diagramme de Cluster, profils du Cluster, caractéristiques du Cluster, ClusterDiscrimination, et Transitions d’état. Pour plus d’informations sur l’utilisation de cette visionneuse, consultez Parcourir un modèle à l’aide de la séquence de Microsoft Cluster Viewer.

  • Onglet Diagramme de cluster

  • Onglet Profils du cluster

  • Onglet Caractéristiques du cluster

  • Onglet Discrimination de cluster

  • Onglet Transitions d'état

  • Vue de contenu générique

Onglet Diagramme de cluster

Le diagramme de Cluster onglet affiche graphiquement les clusters que l’algorithme a découverts dans la base de données. La disposition du diagramme représente les relations entre les clusters. Dans cette présentation, les clusters similaires sont regroupés. Par défaut, la nuance de chaque nœud représente la densité de tous les cas présents dans le cluster : plus le nœud est foncé, plus le nombre de cas qu'il contient est élevé. Vous pouvez changer la signification de la nuance des nœuds afin qu'elle représente la prise en charge, dans chaque nœud, d'un attribut et d'un état.

Vous pouvez renommer également les clusters pour simplifier l'identification et l'utilisation des clusters cibles. Pour ce didacticiel, vous renommerez le cluster qui a le pourcentage le plus élevé de clients de la région Pacific, et le cluster qui a le plus de cas en général.

Notes


Les cas assignés à des clusters spécifiques peuvent changer lorsque vous retraitez le modèle, en fonction des données et des paramètres du modèle. De plus, si vous renommez des clusters, les noms seront perdus lorsque vous retraitez le modèle d'exploration de données.

Pour modifier l'attribut utilisé pour mettre en surbrillance des clusters

  1. Dans la Variable d’ombrage liste, sélectionnez modèle.

  2. Sélectionnez Cycling Cap dans les état liste.

    Le diagramme est mis à jour pour afficher la concentration du produit sélectionné dans chacun des clusters. Le cluster le plus foncé contient la plus grande densité de casquettes de cyclisme. Vous pouvez modifier la variable d'ombrage pour utiliser l'état de n'importe quelle colonne d'entrée.

  3. Dans la Variable d’ombrage liste, sélectionnez remplissage.

    Lorsque vous remplacez la variable d'ombrage par remplissage, le diagramme est mis à jour pour comparer les clusters par taille. Le cluster dont l'ombrage est le plus sombre contient davantage de cas que les autres clusters.

Pour renommer des nœuds dans le modèle

  1. Modification Variable d’ombrage pour région, et définissez état à PST.

  2. Mettez en surbrillance le nœud le plus sombre dans le graphique.

  3. Cliquez sur ce cluster et sélectionnez Renommer le Cluster.

  4. Tapez le nomPacific Cluster.

  5. Modifiez la valeur de Variable d’ombrage à remplissage.

  6. Dans le graphique mis à jour, localisez le cluster le plus sombre, qui doit être le plus grand cluster. Si vous ne pouvez pas déterminer en fonction de l'ombrage quel cluster est le plus grand, placez la souris sur chaque cluster et consultez l'info-bulle, puis choisissez le cluster qui contient le plus de cas.

  7. Cliquez sur ce cluster et sélectionnez Renommer le Cluster. Tapez le nouveau nom, Cluster le plus grand.

Vous pouvez extraire du nœud qui représente le cluster pour consulter le détail des cas qui sont dans chaque cluster. Cela peut être utile si vous souhaitez agir sur les résultats de votre analyse en envoyant par exemple un message électronique à un client. Vous pouvez parcourir également les autres attributs des cas que vous avez inclus dans la structure mais que vous n'avez pas utilisés dans le modèle, tels que Region et IncomeGroup. Pour plus d’informations sur l’extraction à partir de modèles d’exploration de données dans les cas sous-jacents, consultez requêtes d’extraction &#40 ; l’exploration de données &#41 ;.

Pour extraire des détails dans le diagramme Cluster

  1. Avec le bouton droit Pacific Cluster, sélectionnez extraire, puis sélectionnez les colonnes de modèle et la Structure.

    Le extraire boîte de dialogue s’ouvre. Les colonnes qui ne sont pas utilisées dans le modèle mais qui sont disponibles pour les requêtes portent le préfixe Structure.

    Vous constatez que ce cluster contient principalement des clients de la région Pacific, et seulement quelques clients issus d'autres régions.

  2. Cliquez sur le signe plus dans la colonne imbriquée v Assoc Seq Line Items pour consulter la séquence d'éléments dans une commande particulière.

  3. Fermer la extraire boîte de dialogue.

    Notes


    Le lire bouton permet d’actualiser les données ; Toutefois, cette opération ne modifie pas les données qui s’affiche, sauf si le modèle a été mis à jour dynamiquement en arrière-plan par un autre processus.

Retour au début

Onglet Profils du cluster

Le profils du Cluster onglet affiche les séquences qui se trouvent dans chaque cluster. Les clusters sont répertoriés dans les colonnes individuelles à droite de la états colonne.

Dans la visionneuse, les modèle ligne décrit la distribution globale des éléments dans un cluster et le Model.samples ligne contient des séquences des articles. Chaque ligne des séquences de couleur dans chaque cellule de la Model.samples représente le comportement d’un utilisateur sélectionné de façon aléatoire dans le cluster.

Chaque couleur dans un histogramme de séquences individuelles représente le modèle d'un produit. La légende d'exploration de données vous montre les séquences de produits à l'aide des codes de couleur et des noms de modèle de produit. Si vous avez ajouté d'autres colonnes au modèle pour le clustering, telles que Region ou Income Group, la visionneuse contiendra une ligne supplémentaire pour chaque colonne qui affiche la distribution de ces valeurs dans chaque cluster.

Pour consulter les séquences les plus courantes dans un cluster

  1. Avec le bouton droit le modèle ligne dans la colonne pour le cluster Cluster le plus grand, puis sélectionnez Afficher la légende.

    Le couleur colonne contient une barre grisée qui indique la fréquence d’éléments trouvés dans des séquences. Chaque élément est représenté par une couleur différente. Le sens colonne répertorie les noms de modèle de produit pour chaque couleur. La Distribution colonne indique le pourcentage de cas contenant cet élément dans une séquence.

  2. Fermer la légende d’exploration de données.

  3. Avec le bouton droit le Model.samples ligne dans la colonne avec le titre, remplissage, et sélectionnez Afficher la légende.

  4. Analysez la liste des séquences dans le modèle global**.**

    La légende d'exploration de données répertorie en premier les séquences les plus courantes, vous pouvez ainsi constater que Mountain Tire Tube est le premier élément dans de nombreuses séquences. Cela signifie qu'un client a de fortes chances d'ajouter Mountain Tire Tube en premier dans son panier.

Pour extraire les cas de la visionneuse de clusters

  1. Faites défiler le volet attributs jusqu'à ce que la ligne de la région attribut.

    La ligne contient un histogramme pour chaque cluster dans le modèle, ainsi qu’un histogramme supplémentaire pour remplissage, ce qui signifie que l’ensemble de cas utilisés dans le modèle. Un histogramme est une barre contenant des couleurs différentes, où chaque couleur représente un attribut, et la taille de la section colorée pour cet attribut représente le pourcentage de cas ayant cet attribut.

  2. Comparez les histogrammes pour les clusters que vous avez renommé Pacific Cluster et Cluster le plus grand. Chaque cluster apparaît dans une colonne différente.

    Ils présentent tous les deux des couleurs unies, mais les couleurs sont différentes.

  3. Dans la région de ligne, placez la souris sur l’histogramme coloré pour Cluster le plus grand.

    L'info-bulle affiche des valeurs qui affichent les pourcentages réels de cas de chaque région.

  4. Avec le bouton droit de l’histogramme coloré dans la région ligne Pacific Cluster, sélectionnez extraire, puis sélectionnez colonnes de modèle uniquement.

  5. Déplacez la barre de défilement pour examiner tous les clients dans ce cluster.

    Là encore, l'extraction des détails vous permet de constater que le cluster contient principalement des commandes de la région Pacific, mais également certaines des régions North America et Europe.

  6. Fermer la extraire boîte de dialogue.

Retour au début

Onglet Caractéristiques du cluster

Le caractéristiques du Cluster onglet résume les transitions entre États d’un cluster à afficher les barres qui représentent visuellement l’importance de la valeur d’attribut pour le cluster sélectionné. Le Variables colonne indique que le modèle considère comme important pour le remplissage ou le cluster sélectionné : une valeur particulière ou la relation entre les valeurs, appelées transition. Le valeurs colonne fournit plus de détails sur la valeur ou la transition et le probabilité colonne représente visuellement le poids de cet attribut ou transition.

Pour consulter les attributs importants pour un cluster

  1. Dans la Cluster la liste déroulante, sélectionnez Pacific Cluster.

    La liste des mises à jour pour afficher les caractéristiques du cluster que vous avez renommé Pacific Cluster. Dans ce cluster, la caractéristique la plus importante est région.

  2. Placez la souris sur la barre grisée dans la ligne pour région.

    La probabilité que la valeur soit Pacific est très élevée. Pour plus d’informations sur l’interprétation de ces valeurs, consultez la page Microsoft séquence Clustering algorithme Technical Reference.

  3. Recherchez le cluster dans la liste des caractéristiques du cluster jusqu'à la première ligne de transition.

  4. Une ligne de transition contient la Transition de texte dans le Variables colonne et une combinaison de valeurs d’attribut séquentielles dans la valeur colonne. La séquence peut contenir également des points de départ et des valeurs manquantes.

    Par exemple, supposez que la transition a la valeur, [Start] -> Road Tire Tube. Cela signifie que les clients dans ce cluster ont fréquemment mis en premier l'élément Road Tire Tube dans leur panier. Cela peut signifier que le produit est un article populaire que les clients recherchent en premier, ou cela peut indiquer uniquement que le produit est facile à localiser sur le site d'achat.

  5. Faites défiler la liste jusqu'à ce que vous trouviez la première transition qui n’a pas [Start] ou manquant qu’il contient.

    Par exemple, supposons que vous recherchez la transition Touring Tire, Touring Tire Tube. Cela signifie que les clients dans ce cluster ont fréquemment acheté ces éléments ensemble, dans cet ordre précis.

  6. Placez la souris sur la barre grisée pour cette transition.

    La probabilité de cette transition s'affiche sous la forme d'un pourcentage.

  7. Dans la Cluster la liste déroulante, sélectionnez remplissage (tout).

    La liste des attributs est mise à jour pour afficher les caractéristiques de toutes les commandes utilisées pour créer le modèle. Dans ce modèle d’exploration de données, est la caractéristique la plus importante pour faire la distinction entre les clusters région, avec la valeur Amérique du Nord.

Après avoir examiné ces tâches, vous pouvez faire un double constat. Le premier est que vous avez besoin de beaucoup de données pour obtenir un nombre pertinent de combinaisons. Par exemple, les séquences avec les probabilités plus élevées sont susceptibles d’inclure un [Start] ou manquant état.

La seconde est qu’il existe un fort effet de clustering sur les attributs pour région, ce qui rend plus difficile voir les groupes de séquences. Par conséquent, vous décidez de créer un autre modèle qui utilise uniquement des séquences sans inclure les colonnes pour la région ou le revenu.

Retour au début

Onglet Discrimination de cluster

Le Discrimination de Cluster onglet vous permet de comparer deux clusters, pour déterminer quels attributs différencient un cluster à partir d’un autre cluster. Cet onglet contient quatre colonnes : Variables, valeurs, Cluster 1, et Cluster 2. Vous pouvez choisir n’importe quel cluster à utiliser comme Cluster 1 et Cluster 2.

Le Variables colonne indique le nom de l’attribut, ce qui peut être un nom de colonne ou une combinaison de nom de colonne et le mot transition. Le valeurs colonne indique la valeur exacte de l’attribut ou de la transition. Les barres grisées dans les colonnes pour Cluster 1 et Cluster 2 indiquent la puissance de l’attribut dans les clusters que vous comparez. Plus la barre est longue, plus grande est la probabilité que le cluster inclus des cas avec cet attribut.

Pour comparer deux clusters à l'aide de l'onglet Discrimination de cluster

  1. Dans la Discrimination de Cluster onglet, pour Cluster 1, sélectionnez Pacific Cluster.

    Par défaut, la sélection de Cluster 2 devient complément du Pacifique *** Cluster.

    L’attribut supérieur qui distingue Pacific Cluster correspond à la région à partir de tous les autres cas. La région est un attribut si fort pour le clustering qu'il masque d'autres attributs. Pour éviter cet effet, essayez de comparer plusieurs des clusters plus petits entre eux. Dans ce cas, la liste des attributs change et peut inclure plus de transitions entre les modèles.

  2. Localisez une ligne de transition et placez la souris sur la barre grisée.

    Les éléments de la valeurs colonne peut inclure des États et transitions. L'ombrage de chaque élément indique le score de discrimination. Pour en savoir plus sur la signification des différents scores, consultez modèle d’exploration de contenu pour les modèles de Clustering de séquence &#40 ; Analysis Services - Exploration de données &#41 ;.

Retour au début

Onglet Transitions d’état

Sur le Transitions d’état onglet, vous pouvez sélectionner un cluster et parcourir ses transitions d’état. Si vous sélectionnez remplissage (tout) dans la liste déroulante du cluster, le diagramme montre la répartition des États pour le modèle d’exploration de données entière.

Chaque nœud dans le graphique représente un état, ou une valeur possible, des séquences que vous essayez d'analyser. La couleur d'arrière-plan des nœuds représente la fréquence de cet état. Les lignes connectent des états et indiquent une transition entre des états. Vous pouvez déplacer le curseur vers le haut ou le bas pour modifier le seuil de probabilité pour les transitions. Des nombres sont associés à certains nœuds et indiquent la probabilité de cet état.

Pour explorer les relations dans l'onglet Transitions d'état

  1. Dans la Transitions d’état onglet de la visionneuse de modèle d’exploration de données, sélectionnez Pacific Cluster à partir de la liste des clusters. Assurez-vous que le Afficher les étiquettes du bord option est sélectionnée.

    Le graphique est mis à jour pour afficher les transitions les plus courantes dans ce cluster.

  2. Cliquez sur un nœud connecté par une ligne à un autre nœud.

    Le graphique est mis à jour et met en surbrillance les nœuds connexes. La valeur numérique en regard de la ligne indique la probabilité de la transition.

  3. Remontez le curseur jusqu'à tous les liens, pour augmenter le nombre de transitions incluses dans le graphique.

  4. Sélectionnez remplissage (tout) de Cluster.

    Notez que lorsque vous chargez un cluster différent, le graphique réinitialise les paramètres d'affichage par défaut, donc le contrôle Slider est réinitialisé à la position centrale.

  5. Cliquez sur le nœud le plus sombre dans le graphique, qui doit être Sport-100.

    Notez qu'il n'y a pas de lignes qui connectent ce produit à d'autres produits.

  6. Remontez le curseur d'une étape pour augmenter le nombre de transitions incluses dans le graphique. Ne passez pas complètement à tous les liens encore.

    Le graphique est mis à jour en ajoutant plusieurs transitions supplémentaires au graphique, mais aucune qui inclut le modèle Sport-100.

  7. Déplacez le contrôle slider jusqu’au tous les liens. Cliquez sur le nœud Sport-100 s'il n'est pas déjà sélectionné.

    Le graphique est mis à jour pour afficher de nombreuses transitions qui incluent le produit Sport-100. La direction de la flèche sur la ligne de connexion indique si l'élément Sport-100 a été sélectionné comme le premier élément ou le deuxième élément dans la paire.

  8. Cliquez sur le nœud pour Touring Tire et ramenez le contrôle Slider à la position centrale.

    En premier lieu, il y a de nombreuses lignes de transition qui connectent Touring Tire à d'autres produits, mais lorsque vous élevez le seuil de probabilité, les transitions moins probables sont éliminées du graphique, ce qui laisse simplement la transition, Touring Tire > Touring Tire Tube. Cette transition signifie que si un client ajoute un élément Touring Tire (pneu de vélo) dans son panier, la probabilité qu'il ajoute ensuite un élément Touring Tire Tube (chambre à air de vélo) est forte.

Retour au début

Visionneuse de l'arborescence de contenu générique

Cette visionneuse peut être utilisée pour tous les modèles, quels que soient l'algorithme ou le type de modèle. Le visionneuse d’arborescence de contenu MicrosoftGeneric est disponible à partir de la visionneuse liste déroulante.

Un arbre de contenu est une représentation de n'importe quel modèle d'exploration de données sous la forme d'une série de nœuds, où chaque nœud représente ce qui a été appris sur certaines données d'apprentissage. Le nœud peut contenir un modèle, un ensemble de règles, un cluster ou la définition d'une plage de dates qui partagent certains attributs. Le contenu exact du nœud diffère en fonction de l'algorithme et de l'attribut prédictible, mais la représentation générale du contenu reste la même.

Vous pouvez développer chaque nœud pour voir des informations de plus en plus détaillées et copier le contenu de n'importe quel nœud vers le Presse-papiers. Pour plus d’informations, consultez Explorer un modèle à l’aide de la visionneuse de l’arborescence de contenu générique Microsoft.

Pour consulter des détails pour un modèle Sequence Clustering à l'aide de la Visionneuse de l'arborescence de contenu générique

  1. Dans la visionneuse de modèle d’exploration de données cliquez sur le visionneuse liste, puis sélectionnez visionneuse d’arborescence de contenu générique Microsoft.

  2. Dans la légende du nœud volet, cliquez sur Pacific Cluster (1).

    Le nom de ce nœud contient à la fois le nom convivial que vous avez assigné au cluster et l'ID de nœud sous-jacent. Vous pouvez utiliser les ID de nœud pour extraire les détails supplémentaires dans le modèle.

  3. Développez le premier nœud enfant, nommé de séquence au niveau du cluster 1.

    Le nœud de niveau séquence pour un cluster contient des détails relatifs aux états et transitions inclus dans ce cluster. Vous pouvez utiliser ces détails, disponibles dans la colonne NODE_DISTRIBUTION pour explorer les séquences et les états pour chaque cluster ou pour le modèle.

  4. Continuez à développer des nœuds et consulter les détails dans le volet de visionneuse HTML.

Pour plus d’informations sur le contenu du modèle d’exploration de données et comment utiliser les détails dans la visionneuse, consultez contenu du modèle d’exploration de données pour les modèles de Clustering de séquence &#40 ; Analysis Services - Exploration de données &#41 ;.

Retour au début

Tâche suivante de la leçon

Création d’un modèle de Clustering de séquence connexe &#40 ; didacticiel d’exploration de données intermédiaires &#41 ;

Voir aussi

Algorithme MSC (Microsoft Sequence Clustering)
Exemples de requêtes de modèle MSC (Sequence Clustering)