Création d'une structure de modèle d'exploration de données Sequence Clustering (Didacticiel intermédiaire sur l'exploration de données)

La première étape pour créer un modèle d'exploration de données Sequence Clustering est d'utiliser l'Assistant Exploration de données pour créer une nouvelle structure d'exploration de données et un modèle d'exploration de données selon l'algorithme MSC (Microsoft Sequence Clustering).

Vous utiliserez la même vue de source de données que vous avez utilisée pour l'analyse du panier d'achat, mais vous ajouterez une colonne qui contient l'identificateur sequence. Dans ce scénario, la séquence signifie l'ordre dans lequel le client a ajouté des éléments au panier.

Vous ajouterez également des colonnes utilisées dans l'un des modèles pour regrouper des clients par démographie.

Pour créer un modèle et une structure Sequence Clustering

  1. Dans l'Explorateur de solutions de Business Intelligence Development Studio, cliquez avec le bouton droit sur Structures d'exploration de données et choisissez Nouvelle structure d'exploration de données.

  2. Dans la page Assistant Exploration de données, cliquez sur Suivant.

  3. Dans la page Sélectionner la méthode de définition, vérifiez si l'option À partir d'une base de données relationnelles ou d'un entrepôt de données qui existent déjà est sélectionnée, puis cliquez sur Suivant.

  4. Dans la page Créer la structure d'exploration de données, vérifiez que l'option Créer une structure d'exploration de données avec un modèle d'exploration de données est sélectionnée. Cliquez ensuite sur la liste déroulante pour afficher l'option Quelle technique d'exploration de données souhaitez-vous utiliser ?, puis sélectionnez Algorithme MSC (Microsoft Sequence Clustering). Cliquez sur Suivant.

    La page Sélectionner une vue de source de données s'affiche. Sous Vues de sources de données disponibles, sélectionnez Orders.

    Orders est la même vue de source de données que vous avez utilisée pour le scénario d'analyse de panier. Si vous n'avez pas créé cette vue de source de données, consultez Ajout d'une vue de source de données avec les tables imbriquées (Didacticiel intermédiaire sur l'exploration de données).

  5. Cliquez sur Suivant.

  6. Dans la page Spécifier les types des tables, activez la case à cocher Cas en regard de la table vAssocSeqOrders, puis activez la case à cocher Imbriqué en regard de la table vAssocSeqLineItems. Cliquez sur Suivant.

    Notes

    Si une erreur se produit lorsque vous activez les cases à cocher Cas ou Imbriqué, il se peut que la jointure dans la vue de source de données ne soit pas correcte. La table imbriquée, vAssocSeqLineItems, doit être connectée à la table de cas, vAssocSeqOrders, par une jointure plusieurs-à-un. Vous pouvez modifier la relation en cliquant avec le bouton droit sur la ligne de jointure et en inversant la direction de la jointure. Pour plus d'informations, consultez Boîte de dialogue Créer/Modifier une relation (Analysis Services - Données multidimensionnelles).

  7. Sur la page Spécifier les données d'apprentissage, choisissez les colonnes à utiliser dans le modèle en activant une case à cocher comme suit :

    • **IncomeGroup    **Activez la case à cocher Entrée.

      Cette colonne contient des informations pertinentes sur les clients que vous pouvez utiliser pour le clustering. Vous les utiliserez dans le premier modèle puis les ignorerez dans le deuxième modèle.

    • **OrderNumber    **Activez la case à cocher Clé.

      Ce champ sera utilisé comme l'identificateur de la table de cas, ou Key. En général, vous ne devez jamais utiliser le champ clé de la table de cas comme entrée, parce que la clé contient des valeurs uniques qui ne sont pas utiles pour le clustering.

    • **Région    **Activez la case à cocher Entrée.

      Cette colonne contient des informations pertinentes sur les clients que vous pouvez utiliser pour le clustering. Vous les utiliserez dans le premier modèle puis les ignorerez dans le deuxième modèle.

    • **LineNumber   **Activez les cases à cocher Clé et Entrée.

      Le champ LineNumber sera utilisé comme l'identificateur de la table imbriquée, ou Sequence Key. La clé pour une table imbriquée doit toujours être utilisée pour l'entrée.

    • **Model   **Activez les cases à cocher Entrée et Prédictible.

    Vérifiez que les sélections sont correctes, puis cliquez sur Suivant.

  8. Dans la page Spécifier le type de contenu et de données des colonnes, vérifiez que la grille contient les colonnes, les types de contenu et les types de données présentes dans la table suivante, puis cliquez sur Suivant.

    Tables/Colonnes

    Type de contenu

    Type de données

    IncomeGroup

    Discret

    Texte

    OrderNumber

    Clé

    Texte

    Région

    Discret

    Texte

    vAssocSeqLineItems

      

      

    Numéro de ligne

    Séquence clé

    Long

    Modèle

    Discret

    Texte

  9. Dans la page Créer un jeu de test, remplacez la valeur Pourcentage des données de test par 20, puis cliquez sur Suivant.

  10. Dans la page Fin de l'Assistant, pour Nom de la structure d'exploration de données, tapez Sequence Clustering avec Region.

  11. Pour Nom du modèle d'exploration de données, tapez Sequence Clustering avec Region.

  12. Activez la case à cocher Accepter l'extraction, puis cliquez sur Terminer.

Tâche suivante de la leçon

Traitement du modèle Sequence Clustering