CREATE MINING STRUCTURE (DMX)

S’applique à :SQL Server Analysis Services

Crée une structure d'exploration de données dans une base de données et, éventuellement, définit les partitions d'apprentissage et de test. Après avoir créé la structure d’exploration de données, vous pouvez utiliser l’instruction ALTER MINING STRUCTURE (DMX) pour ajouter des modèles à la structure d’exploration de données.

Syntaxe

  
CREATE [SESSION] MINING STRUCTURE <structure>  
(  
    [(<column definition list>)]  
)  
[WITH HOLDOUT (<holdout-specifier> [OR <holdout-specifier>])]  
[REPEATABLE(<holdout seed>)]  
<holdout-specifier>::=  <holdout-maxpercent> PERCENT | <holdout-maxcases> CASES  

Arguments

Structure
Nom unique de la structure.

liste de définitions de colonne
Liste des définitions de colonnes séparées par des virgules.

holdout-maxpercent
Entier compris entre 1 et 100 qui indique le pourcentage de données à réserver au test.

holdout-maxcases
Entier qui indique le nombre maximal de cas à utiliser pour le test.

Si la valeur spécifiée pour le nombre maximal de cas est supérieure au nombre de cas d'entrée, tous les cas d'entrée sont utilisés pour le test et un avertissement est déclenché.

Notes

Si le pourcentage et le nombre maximal de cas sont spécifiés, la plus petite des deux limites est utilisée.

valeur initiale de l’exclusion
Entier utilisé comme valeur initiale pour commencer le partitionnement de données.

Si la valeur est 0, le hachage de l'ID de la structure d'exploration de données est utilisé comme valeur initiale.

Notes

Vous devez spécifier une valeur initiale si vous devez vous assurer qu'une partition peut être reproduite.

Valeur par défaut : RÉPÉTABLE(0)

Notes

Vous définissez une structure d'exploration de données en spécifiant une liste de colonnes, en spécifiant éventuellement des relations hiérarchiques entre les colonnes, puis en partitionnant éventuellement la structure d'exploration de données en jeux de données d'apprentissage et de test.

Le mot clé SESSION facultatif indique que la structure est une structure temporaire que vous pouvez utiliser uniquement pour la durée de la session active. Une fois la session terminée, la structure, ainsi que tous les modèles sur celle-ci, seront supprimés. Pour créer des structures et des modèles d’exploration de données temporaires, vous devez d’abord définir la propriété de base de données AllowSessionMiningModels. Pour plus d’informations, consultez Propriétés de l’exploration de données.

Liste des définitions de colonnes

Pour définir une structure d'exploration de données, fournissez les informations suivantes pour chaque colonne de la liste des définitions de colonnes :

  • Nom (obligatoire)

  • Type de données (obligatoire)

  • Distribution

  • Liste des indicateurs de modélisation

  • Type de contenu (obligatoire)

  • Relation à une colonne d'attributs (obligatoire uniquement le cas échéant), indiquée par la clause RELATED TO.

Utilisez la syntaxe suivante pour la liste de définitions de colonnes pour définir une seule colonne :

<column name>    <data type>    [<Distribution>]    [<Modeling Flags>]    <Content Type>    [<column relationship>]  

Utilisez la syntaxe suivante pour la liste des définitions de colonne pour définir une colonne de table imbriquée :

<column name>    TABLE    ( <column definition list> )  

Pour la liste des types de données, types de contenu, distributions de colonnes et indicateurs de modélisation à utiliser pour définir une colonne de structure, consultez les rubriques suivantes :

Vous pouvez définir plusieurs valeurs d'indicateur de modélisation pour une colonne. Toutefois, vous ne pouvez avoir qu'un seul type de contenu et qu'un seul type de données pour une colonne.

Relations de colonnes

Vous pouvez ajouter une clause à n'importe quelle instruction de définition de colonne pour décrire la relation entre deux colonnes. Analysis Services prend en charge l’utilisation de la clause de relation de> colonne suivante<.

LIÉ À
Indique une hiérarchie de valeur. La cible d'une colonne RELATED TO peut être une colonne clé dans une table imbriquée, une colonne de valeurs discrètes dans la ligne de cas ou une autre colonne RELATED TO qui indique une hiérarchie plus profonde.

Paramètres d'exclusion

Lorsque vous spécifiez des paramètres d'exclusion, vous créez une partition des données de structure. Le montant que vous spécifiez pour l'exclusion est réservé pour le test, et les données restantes sont utilisées pour l'apprentissage. Par défaut, si vous créez une structure d’exploration de données à l’aide de SQL Server Data Tools (SSDT), une partition de blocage est créée pour vous qui contient 30 % de données de test et 70 % de données d’entraînement. Pour plus d'informations, voir Training and Testing Data Sets.

Si vous créez une structure d'exploration de données à l'aide des extensions DMX (Data Mining Extensions), vous devez spécifier manuellement la création d'une partition d'exclusion.

Notes

L’instruction ALTER MINING STRUCTURE ne prend pas en charge l’attente.

Vous pouvez spécifier jusqu'à trois paramètres d'exclusion. Si vous spécifiez à la fois un nombre maximal de cas d'exclusion et un pourcentage d'exclusion, un pourcentage de cas est réservé jusqu'à ce que la limite de cas soit atteinte. Vous spécifiez le pourcentage d’attente sous la forme d’un entier suivi de l’mot clé PERCENT, et spécifiez le nombre maximal de cas sous forme d’entier suivi de l’mot clé CASES. Vous pouvez combiner les conditions dans n'importe quel ordre, comme le montrent les exemples suivants :

WITH HOLDOUT (20 PERCENT)   
WITH HOLDOUT (2000 CASES)   
WITH HOLDOUT (20 PERCENT OR 2000 CASES)   
WITH HOLDOUT (2000 CASES OR 20 PERCENT)  

La valeur initiale d'exclusion contrôle le point de départ du processus qui attribue aléatoirement les cas aux jeux de données d'apprentissage ou de test. En définissant une valeur initiale d'exclusion, vous pouvez vous assurer que la partition peut être répétée. Si vous ne spécifiez pas de valeur initiale d’exclusion, Analysis Services utilise le nom de la structure d’exploration de données pour créer une valeur initiale. Si vous renommez la structure, la valeur initiale changera. Le paramètre de la valeur initiale d'exclusion peut être utilisé avec l'un ou l'autre des paramètres d'exclusion, ou les deux.

Notes

Étant donné que les informations de partition sont mises en cache avec les données d’entraînement, pour utiliser l’empêchement, vous devez vous assurer que la propriété CacheMode de la structure d’exploration de données est définie sur KeepTrainingData. Il s’agit du paramètre par défaut dans Analysis Services pour les nouvelles structures d’exploration de données. La modification de la propriété CacheMode en ClearTrainingCases sur une structure d’exploration de données existante qui contient une partition de blocage n’affecte pas les modèles d’exploration de données qui ont été traités. Toutefois, si MiningStructureCacheMode n’est pas défini sur KeepTrainingData, les paramètres de blocage n’auront aucun effet. Cela signifie que toutes les données sources seront utilisées pour l'apprentissage et qu'aucun jeu de test ne sera disponible. La définition de la partition est mise en cache avec la structure ; si vous effacez le cache des cas d'apprentissage, vous effacez également le cache des données de test et la définition du jeu d'exclusion.

Exemples

Les exemples suivants montrent comment créer une structure d'exploration de données avec exclusion à l'aide de DMX.

Exemple 1 : Ajout d'une structure sans jeu d'apprentissage

L'exemple suivant crée une structure d'exploration de données nommée New Mailing sans créer de modèle d'exploration de données associé et sans utiliser d'exclusion. Pour savoir comment ajouter un modèle d’exploration de données à la structure, consultez ALTER MINING STRUCTURE (DMX).

CREATE MINING STRUCTURE [New Mailing]  
(  
    CustomerKey LONG KEY,   
    Gender TEXT DISCRETE,  
    [Number Cars Owned] LONG DISCRETE,  
    [Bike Buyer] LONG DISCRETE   
)  

Exemple 2 : Spécification d'un pourcentage et d'une valeur initiale d'exclusion

La clause suivante peut être ajoutée après la liste des définitions de colonnes pour définir un jeu de données qui peut être utilisé pour tester tous les modèles d'exploration de données associés à la structure d'exploration de données. L'instruction crée un jeu de test qui contient 25 % du nombre total de cas d'entrée, sans limite sur le nombre maximal de cas. La valeur 5 000 est utilisée comme valeur initiale pour la création de la partition. Lorsque vous spécifiez une valeur initiale, les mêmes cas sont choisis pour le jeu de test chaque fois vous traitez la structure d'exploration de données, tant que les données sous-jacentes ne changent pas.

CREATE MINING STRUCTURE [New Mailing]  
(  
    CustomerKey LONG KEY,   
    Gender TEXT DISCRETE,  
    [Number Cars Owned] LONG DISCRETE,  
    [Bike Buyer] LONG DISCRETE   
)   
WITH HOLDOUT(25 PERCENT) REPEATABLE(5000)  

Exemple 3 : Spécification du pourcentage d'exclusion et du nombre maximal de cas

La clause suivante crée un jeu de test qui contient soit 25 % du nombre total de cas d'entrée, soit 2 000 cas, la valeur la plus petite étant retenue. La valeur 0 étant spécifiée comme valeur initiale, le nom de la structure d'exploration de données est utilisé pour créer la valeur initiale utilisée pour commencer l'échantillonnage des cas d'entrée.

CREATE MINING STRUCTURE [New Mailing]  
(  
    CustomerKey LONG KEY,   
    Gender TEXT DISCRETE,  
    [Number Cars Owned] LONG DISCRETE,  
    [Bike Buyer] LONG DISCRETE   
)   
WITH HOLDOUT(25 PERCENT OR 2000 CASES) REPEATABLE(0)  

Voir aussi

Instructions de définition de données DMX (Data Mining Extensions)
Instructions de manipulations de données DMX (Data Mining Extensions)
Guide de référence des instructions DMX (Data Mining Extensions)