Création d'une structure de modèle d'exploration de données Sequence Clustering (Didacticiel intermédiaire sur l'exploration de données)

 

S’applique à : SQL Server 2016 Preview

La première étape pour créer un modèle d'exploration de données Sequence Clustering est d'utiliser l'Assistant Exploration de données pour créer une nouvelle structure d'exploration de données et un modèle d'exploration de données selon l'algorithme MSC (Microsoft Sequence Clustering).

Vous utiliserez la même vue de source de données que vous avez utilisé pour l’analyse du panier d’achat, mais vous allez ajouter une colonne qui contient la séquence identificateur. Dans ce scénario, la séquence signifie l'ordre dans lequel le client a ajouté des éléments au panier.

Vous ajouterez également des colonnes utilisées dans l'un des modèles pour regrouper des clients par démographie.

Pour créer un modèle et une structure Sequence Clustering

  1. Dans l’Explorateur de solutions dans Outils de données SQL Server (SSDT), avec le bouton droit des Structures d’exploration de données et sélectionnez nouvelle Structure d’exploration de données.

  2. Dans la page Assistant Exploration de données, cliquez surSuivant.

  3. Sur le Sélectionner la méthode de définition page, vérifiez que à partir de la base de données ou de données relationnelle existante est sélectionnée, puis cliquez sur Suivant.

  4. Sur le créer la Structure d’exploration de données page, vérifiez que l’option créer la structure d’exploration de données avec un modèle d’exploration de données est sélectionnée. Ensuite, cliquez sur la liste déroulante de l’option quelle technique d’exploration de données voulez-vous utiliser ?, puis sélectionnez Microsoft Sequence Clustering. Cliquez sur Suivant.

    Le Sélectionner une vue de Source de données page s’affiche. Sous vues de source de données, sélectionnez commandes.

    Orders est la même vue de source de données que vous avez utilisée pour le scénario d'analyse de panier. Si vous n’avez pas créé cette vue de source de données, consultez la page Ajout d’une vue de Source de données avec des Tables imbriquées &#40 ; Intermediate Data Mining Tutorial &#41 ;.

  5. Cliquez sur Suivant.

  6. Sur le spécifier les Types de Table page, sélectionnez le cas case à cocher en regard la vAssocSeqOrders table, puis sélectionnez le Nested case à cocher en regard la vAssocSeqLineItems table. Cliquez sur Suivant.

    Notes


    Si une erreur se produit lorsque vous sélectionnez le cas ou Nested cases à cocher, il peut être que la jointure dans la vue de source de données n’est pas correcte. La table imbriquée, vAssocSeqLineItems, doit être connecté à la table de cas vAssocSeqOrders, par une jointure plusieurs-à-un. Vous pouvez modifier la relation en cliquant avec le bouton droit sur la ligne de jointure et en inversant la direction de la jointure. Pour plus d’informations, consultez créer ou modifier une boîte de dialogue relation &#40 ; Analysis Services - données multidimensionnelles et 41 # ;.

  7. Sur le spécifier les données d’apprentissage Choisissez les colonnes à utiliser dans le modèle en sélectionnant une case à cocher comme suit :

    • IncomeGroupSélectionner la entrée case à cocher.

      Cette colonne contient des informations pertinentes sur les clients que vous pouvez utiliser pour le clustering. Vous les utiliserez dans le premier modèle puis les ignorerez dans le deuxième modèle.

    • OrderNumberSélectionner le clé case à cocher.

      Ce champ sera être utilisé comme identificateur pour la table de cas ou clé. En général, vous ne devez jamais utiliser le champ clé de la table de cas comme entrée, parce que la clé contient des valeurs uniques qui ne sont pas utiles pour le clustering.

    • RégionSélectionner la entrée case à cocher.

      Cette colonne contient des informations pertinentes sur les clients que vous pouvez utiliser pour le clustering. Vous les utiliserez dans le premier modèle puis les ignorerez dans le deuxième modèle.

    • LineNumberSélectionner le clé et entrée cases à cocher.

      Le LineNumber champ sera utilisé comme identificateur pour la table imbriquée, ou séquence clé. La clé pour une table imbriquée doit toujours être utilisée pour l'entrée.

    • ModèleSélectionner la entrée et prédictible cases à cocher.

    Vérifiez que les sélections sont correctes, puis cliquez sur Suivant.

  8. Sur le Type de données et de contenu des colonnes spécifier page, vérifiez que la grille contient les colonnes, les types de contenu et les types de données indiqués dans le tableau suivant, puis cliquez sur Suivant.

    Tables/Colonnes Type de contenu Type de données
    IncomeGroup Discret Texte
    OrderNumber Clé Texte
    Région Discret Texte
    vAssocSeqLineItems
    Numéro de ligne Séquence clé Long
    Modèle Discret Texte
  9. Sur le créer un jeu de test changez la pourcentage des données de test sur 20, puis cliquez sur Suivant.

  10. Sur le fin de l’Assistant page, pour le nom de la structure d’exploration de données, type Sequence Clustering avec Region.

  11. Pour le nom du modèle d’exploration de données, type Sequence Clustering avec Region.

  12. Vérifier la Autoriser l’extraction zone, puis cliquez sur Terminer.

Tâche suivante de la leçon

Traitement du modèle Sequence Clustering

Voir aussi

Concepteur d'exploration de données
Algorithme MSC (Microsoft Sequence Clustering)