Leçon 1 : Création de la structure d'exploration de données Bike Buyer

 

S’applique à : SQL Server 2016 Preview

Dans cette leçon, vous allez créer une structure d'exploration de données à l'aide de laquelle vous pouvez prévoir si un acheteur potentiel de Adventure Works Cycles est intéressé par l'achat d'un vélo. Si vous n’êtes pas familiarisé avec les structures d’exploration de données et leur rôle dans l’exploration de données, consultez la page des Structures d’exploration de données &#40 ; Analysis Services - Exploration de données &#41 ;.

La structure d’exploration de données Bike Buyer que vous allez créer dans cette leçon prend en charge l’ajout de modèles d’exploration de données basé sur le l’algorithme Microsoft Clusteringalgorithme d’arbres de décision Microsoft. Au cours d'autres leçons, vous utiliserez les modèles d'exploration de données clustering pour examiner différentes méthodes de regroupement des clients et exploiterez les modèles d'exploration de données d'arbre de décision pour déterminer si un client potentiel est susceptible d'acheter un vélo.

Instruction CREATE MINING STRUCTURE

Pour créer une structure d’exploration de données, vous utilisez la CREATE MINING STRUCTURE &#40 ; DMX &#41 ; instruction. Le code dans l’instruction peut être divisé selon les sections suivantes :

  • Attribution d'un nom à la structure.

  • Définition de la colonne clé.

  • Définition des colonnes d'exploration de données.

  • Définition d'un jeu de données de test facultatif.

L'exemple générique suivant utilise l'instruction CREATE MINING STRUCTURE :

CREATE MINING STRUCTURE [<mining structure name>]  
(  
    <key column>,  
    <mining structure columns>  
)   
WITH HOLDOUT (<holdout specifier>)  

La première ligne du code définit le nom de la structure :

CREATE MINING STRUCTURE [<mining structure name>]  

Pour plus d’informations sur l’appellation d’un objet dans les Extensions DMX (Data Mining), consultez identificateurs &#40 ; DMX &#41 ;.

La ligne suivante du code définit la colonne clé de la structure d'exploration de données qui identifie de manière unique une entité au sein des données source :

<key column>,  

Dans la structure d'exploration de données que vous allez créer, l'identificateur du client, CustomerKey, définit une entité dans les données sources.

La ligne suivante du code permet de définir les colonnes d'exploration de données qu'utilisent les modèles d'exploration de données associés à la structure d'exploration de données :

<mining structure columns>  

Vous pouvez utiliser la fonction DISCRETIZE dans pour discrétiser les colonnes continues à l’aide de la syntaxe suivante :

DISCRETIZE(<method>,<number of buckets>)

Pour plus d’informations sur la discrétisation des colonnes, consultez méthodes de discrétisation &#40 ; d’exploration de données &#41 ;. Pour plus d’informations sur les types de colonnes que vous pouvez définir de la structure d’exploration de données, consultez la page les colonnes de Structure d’exploration de données.

La dernière ligne du code définit une partition facultative dans la structure d'exploration de données :

WITH HOLDOUT (<holdout specifier>)  

Vous spécifiez une partie des données à utiliser pour tester des modèles d'exploration de données associés à la structure, puis les données restantes sont utilisées pour l'apprentissage des modèles. Par défaut, Analysis Services crée un jeu de données de test qui contient 30 pour cent de toutes les données de cas. Vous ajoutez ensuite la spécification selon laquelle le jeu de données de test doit contenir 30 pour cent des cas jusqu'à un maximum de 1000 cas. Si 30 pour cent des cas représente moins de 1000, le jeu de données de test contient alors la plus petite quantité.

Tâches de la leçon

Vous allez effectuer les tâches suivantes dans cette leçon :

  • créer une nouvelle requête vide ;

  • Modifier la requête pour créer la structure d’exploration de données.

  • exécutez la requête.

Création de la requête

La première étape consiste à se connecter à une instance de Analysis Services et à créer une nouvelle requête DMX dans SQL Server Management Studio.

Pour créer une requête DMX dans SQL Server Management Studio

  1. Ouvrez SQL Server Management Studio.

  2. Dans le se connecter au serveur boîte de dialogue pour type de serveur, sélectionnez Analysis Services. Dans nom du serveur, type LocalHost, ou tapez le nom de l’instance de Analysis Services que vous souhaitez vous connecter à cette leçon. Cliquez sur Se connecter.

  3. Dans Explorateur d’objets, cliquez sur l’instance de Analysis Services, pointez sur nouvelle requête, puis cliquez sur DMX pour ouvrir le éditeur de requête et une requête vide.

Modification de la requête

L'étape suivante implique de modifier l'instruction CREATE MINING STRUCTURE décrite ci-avant en vue de créer la structure d'exploration de données Bike Buyer.

Pour personnaliser l'instruction CREATE MINING STRUCTURE

  1. Dans l'Éditeur de requête, copiez l'exemple générique de l'instruction CREATE MINING STRUCTURE dans la requête vide.

  2. Remplacez le code suivant :

    [<mining structure>]   
    

    par :

    [Bike Buyer]  
    
  3. Remplacez le code suivant :

    <key column>   
    

    par :

    CustomerKey LONG KEY  
    
  4. Remplacez le code suivant :

    <mining structure columns>   
    

    par :

    [Age] LONG DISCRETIZED(Automatic,10),  
    [Bike Buyer] LONG DISCRETE,  
    [Commute Distance] TEXT DISCRETE,  
    [Education] TEXT DISCRETE,  
    [Gender] TEXT DISCRETE,  
    [House Owner Flag] TEXT DISCRETE,  
    [Marital Status] TEXT DISCRETE,  
    [Number Cars Owned] LONG DISCRETE,  
    [Number Children At Home] LONG DISCRETE,  
    [Occupation] TEXT DISCRETE,  
    [Region] TEXT DISCRETE,  
    [Total Children]LONG DISCRETE,  
    [Yearly Income] DOUBLE CONTINUOUS  
    
  5. Remplacez le code suivant :

    WITH HOLDOUT (holdout specifier>)  
    

    par :

    WITH HOLDOUT (30 PERCENT or 1000 CASES)  
    

    L'instruction complète de la structure d'exploration de données doit se présenter comme suit :

    CREATE MINING STRUCTURE [Bike Buyer]  
    (  
       [Customer Key] LONG KEY,  
       [Age]LONG DISCRETIZED(Automatic,10),  
       [Bike Buyer] LONG DISCRETE,  
       [Commute Distance] TEXT DISCRETE,  
       [Education] TEXT DISCRETE,  
       [Gender] TEXT DISCRETE,  
       [House Owner Flag] TEXT DISCRETE,  
       [Marital Status] TEXT DISCRETE,  
       [Number Cars Owned]LONG DISCRETE,  
       [Number Children At Home]LONG DISCRETE,  
       [Occupation] TEXT DISCRETE,  
       [Region] TEXT DISCRETE,  
       [Total Children]LONG DISCRETE,  
       [Yearly Income] DOUBLE CONTINUOUS  
    )  
    WITH HOLDOUT (30 PERCENT or 1000 CASES)  
    
  6. Sur le fichier menu, cliquez sur Enregistrer DMXQuery1.dmx sous.

  7. Dans la Enregistrer sous boîte de dialogue, recherchez le dossier approprié et nommez le fichier Bike Buyer Structure.dmx.

L’exécution de la requête

La dernière étape concerne l'exécution de la requête. Après avoir créé et enregistrée une requête, elle doit être exécutée. Autrement dit, l'instruction doit être exécutée pour créer la structure d'exploration de données sur le serveur. Pour plus d’informations sur l’exécution de requêtes dans l’éditeur de requête, consultez éditeur de requête du moteur de base de données &#40 ; SQL Server Management Studio &#41 ;.

Pour exécuter la requête

  1. Dans l’éditeur de requête, dans la barre d’outils, cliquez sur Execute.

    L’état de la requête s’affiche dans le Messages onglet en bas de l’éditeur de requête issue de l’exécution de l’instruction. Les messages doivent révéler le texte suivant :

    Executing the query   
    Execution complete  
    

    Une nouvelle structure appelée vélo existe désormais sur le serveur.

Dans la leçon suivante, vous allez ajouter des modèles d'exploration de données à la structure que vous venez de créer.

Leçon suivante

Leçon 2 : Ajout de modèles d'exploration de données à la structure d'exploration de données Bike Buyer