Leçon 1 : Création de la structure d'exploration de données Bike Buyer

Dans cette leçon, vous allez créer une structure d'exploration de données à l'aide de laquelle vous pouvez prévoir si un acheteur potentiel de Adventure Works Cycles est intéressé par l'achat d'un vélo. Si les structures d'exploration et leurs rôles dans le cadre de l'exploration de données vous sont inconnus, consultez Structures d'exploration de données (Analysis Services – exploration de données).

La structure d'exploration de données Bike Buyer que vous allez créer au cours de cette leçon prend en charge l'ajout de modèles d'exploration de données fondés sur l'Algorithme Clusters MicrosoftAlgorithme MDT (Microsoft Decision Trees). Au cours d'autres leçons, vous utiliserez les modèles d'exploration de données clustering pour examiner différentes méthodes de regroupement des clients et exploiterez les modèles d'exploration de données d'arbre de décision pour déterminer si un client potentiel est susceptible d'acheter un vélo.

Instruction CREATE MINING STRUCTURE

Pour créer une structure d'exploration de données, vous devez utiliser l'instruction CREATE MINING STRUCTURE (DMX). Le code de cette instruction peut être divisé selon les sections suivantes :

  • Attribution d'un nom à la structure.

  • Définition de la colonne clé.

  • Définition des colonnes d'exploration de données.

  • Définition d'un jeu de données de test facultatif.

L'exemple générique suivant utilise l'instruction CREATE MINING STRUCTURE :

CREATE MINING STRUCTURE [<mining structure name>]
(
    <key column>,
    <mining structure columns>
) 
WITH HOLDOUT (<holdout specifier>)

La première ligne du code définit le nom de la structure :

CREATE MINING STRUCTURE [<mining structure name>]

Pour plus d'informations sur la manière d'attribuer un nom à un objet dans l'extension DMX (Data Mining Extensions), consultez Identificateurs (DMX).

La ligne suivante du code définit la colonne clé de la structure d'exploration de données qui identifie de manière unique une entité au sein des données source :

<key column>,

Dans la structure d'exploration de données que vous allez créer, l'identificateur du client, CustomerKey, définit une entité dans les données sources.

La ligne suivante du code permet de définir les colonnes d'exploration de données qu'utilisent les modèles d'exploration de données associés à la structure d'exploration de données :

<mining structure columns>

Vous pouvez recourir à la fonction DISCRETIZE dans les <colonnes de la structure d'exploration de données> pour discrétiser des colonnes continues à l'aide de la syntaxe suivante :

DISCRETIZE(<method>,<number of buckets>)

Pour plus d'informations sur la discrétisation des colonnes, consultez Méthodes de discrétisation (exploration de données). Pour plus d'informations sur les types de colonnes de structure d'exploration de données qu'il est possible de définir, consultez Colonnes de structure d'exploration de données.

La dernière ligne du code définit une partition facultative dans la structure d'exploration de données :

WITH HOLDOUT (<holdout specifier>)

Vous spécifiez une partie des données à utiliser pour tester des modèles d'exploration de données associés à la structure, puis les données restantes sont utilisées pour l'apprentissage des modèles. Par défaut, Analysis Services crée un jeu de données de test qui contient 30 pour cent de toutes les données de cas. Vous ajoutez ensuite la spécification selon laquelle le jeu de données de test doit contenir 30 pour cent des cas jusqu'à un maximum de 1000 cas. Si 30 pour cent des cas représente moins de 1000, le jeu de données de test contient alors la plus petite quantité.

Tâches de la leçon

Au cours de cette leçon, vous allez effectuer les tâches suivantes :

  • créer une nouvelle requête vide ;

  • modifier la requête pour créer la structure d'exploration de données ;

  • exécutez la requête.

Création de la requête

La première étape consiste à se connecter à une instance de Analysis Services et à créer une nouvelle requête DMX dans SQL Server Management Studio.

Pour créer une requête DMX dans SQL Server Management Studio

  1. Ouvrez SQL Server Management Studio.

  2. Dans la boîte de dialogue Se connecter au serveur, sélectionnez Analysis Services dans la zone Type de serveur. Dans Nom du serveur, tapez LocalHost ou bien le nom de l'instance de Analysis Services à laquelle vous souhaitez vous connecter pour cette leçon. Cliquez sur Se connecter.

  3. Dans l'Explorateur d'objets, cliquez avec le bouton droit sur l'instance de Analysis Services, pointez sur Nouvelle requête, puis cliquez sur DMX pour ouvrir l'Éditeur de requête et une nouvelle requête vide.

Modification de la requête

L'étape suivante implique de modifier l'instruction CREATE MINING STRUCTURE décrite ci-avant en vue de créer la structure d'exploration de données Bike Buyer.

Pour personnaliser l'instruction CREATE MINING STRUCTURE

  1. Dans l'Éditeur de requête, copiez l'exemple générique de l'instruction CREATE MINING STRUCTURE dans la requête vide.

  2. Remplacez le code suivant :

    [<mining structure>] 
    

    par :

    [Bike Buyer]
    
  3. Remplacez le code suivant :

    <key column> 
    

    par :

    CustomerKey LONG KEY
    
  4. Remplacez le code suivant :

    <mining structure columns> 
    

    par :

       [Age] LONG DISCRETIZED(Automatic,10),
       [Bike Buyer] LONG DISCRETE,
       [Commute Distance] TEXT DISCRETE,
       [Education] TEXT DISCRETE,
       [Gender] TEXT DISCRETE,
       [House Owner Flag] TEXT DISCRETE,
       [Marital Status] TEXT DISCRETE,
       [Number Cars Owned] LONG DISCRETE,
       [Number Children At Home] LONG DISCRETE,
       [Occupation] TEXT DISCRETE,
       [Region] TEXT DISCRETE,
       [Total Children]LONG DISCRETE,
       [Yearly Income] DOUBLE CONTINUOUS
    
  5. Remplacez le code suivant :

    WITH HOLDOUT (holdout specifier>)
    

    par :

    WITH HOLDOUT (30 PERCENT or 1000 CASES)
    

    L'instruction complète de la structure d'exploration de données doit se présenter comme suit :

    CREATE MINING STRUCTURE [Bike Buyer]
    (
       [Customer Key] LONG KEY,
       [Age]LONG DISCRETIZED(Automatic,10),
       [Bike Buyer] LONG DISCRETE,
       [Commute Distance] TEXT DISCRETE,
       [Education] TEXT DISCRETE,
       [Gender] TEXT DISCRETE,
       [House Owner Flag] TEXT DISCRETE,
       [Marital Status] TEXT DISCRETE,
       [Number Cars Owned]LONG DISCRETE,
       [Number Children At Home]LONG DISCRETE,
       [Occupation] TEXT DISCRETE,
       [Region] TEXT DISCRETE,
       [Total Children]LONG DISCRETE,
       [Yearly Income] DOUBLE CONTINUOUS
    )
    WITH HOLDOUT (30 PERCENT or 1000 CASES)
    
  6. Dans le menu Fichier, cliquez sur Enregistrer DMXQuery1.dmx sous.

  7. Dans la boîte de dialogue Enregistrer sous, accédez au dossier approprié et nommez le fichier Bike Buyer Structure.dmx.

Exécution de la requête

La dernière étape concerne l'exécution de la requête. Après avoir créé et enregistrée une requête, elle doit être exécutée. Autrement dit, l'instruction doit être exécutée pour créer la structure d'exploration de données sur le serveur. Pour plus d'informations sur l'exécution de requêtes dans l'Éditeur de requête, consultez Fenêtre Éditeur de requête du moteur de base de données SQL Server Management Studio.

Pour exécuter la requête

  • Dans la barre d'outils de l'Éditeur de requête, cliquez sur Exécuter.

    L'état de la requête s'affiche sous l'onglet Messages en bas de l'Éditeur de requête une fois l'exécution de l'instruction terminée. Les messages doivent révéler le texte suivant :

    Executing the query 
    Execution complete
    

    Une nouvelle structure appelée Bike Buyer existe désormais sur le serveur.

Dans la leçon suivante, vous allez ajouter des modèles d'exploration de données à la structure que vous venez de créer.