CREATE MINING MODEL (DMX)

Crée à la fois un modèle d'exploration de données et une structure d'exploration de données dans la base de données. Vous pouvez créer un modèle en définissant le nouveau modèle dans l'instruction ou en utilisant le langage PMML (Predictive Model Markup Language). La deuxième option s'adresse uniquement aux utilisateurs expérimentés.

La structure d'exploration de données est nommée en annexant "_structure" au nom du modèle, ce qui garantit l'unicité du nom de la structure dans le nom du modèle.

Pour créer un modèle d'exploration de données pour une structure d'exploration de données existante, utilisez l'instruction ALTER MINING STRUCTURE (DMX).

Syntaxe

CREATE [SESSION] MINING MODEL <model>
(
    [(<column definition list>)]
)
USING <algorithm> [(<parameter list>)] [WITH DRILLTHROUGH]
CREATE MINING MODEL <model> FROM PMML <xml string>

Arguments

  • model
    Nom unique du modèle

  • column definition list
    Liste des définitions de colonnes séparées par des virgules.

  • algorithm
    Nom d'un algorithme d'exploration de données, tel que défini par le fournisseur actuel.

    Notes

    Une liste des algorithmes pris en charge par le fournisseur actuel peut être extraite en utilisant Ensemble de lignes DMSCHEMA_MINING_SERVICES. Pour afficher les algorithmes pris en charge dans l'instance actuelle de Analysis Services, consultez Propriétés de l'exploration de données.

  • parameter list
    Facultatif. Liste séparée par des virgules des paramètres définis par le fournisseur de l'algorithme.

  • XML string
    (Pour utilisateurs expérimentés uniquement). Modèle XML codé (PMML). La chaîne doit être entourée de guillemets simples (').

La clause SESSION permet de créer un modèle d'exploration de données qui est automatiquement supprimé du serveur à la fermeture de la connexion ou à l'expiration du délai de la session. Les modèles d'exploration de données SESSION sont utiles car ils n'exigent pas que l'utilisateur soit administrateur de base de données, et ils n'utilisent l'espace disque que durant le temps de la connexion.

La clause WITH DRILLTHROUGH active l'extraction du nouveau modèle d'exploration de données. L'extraction ne peut être activée que lors de la création du modèle. Pour certains types de modèles, l'extraction est requise pour parcourir le modèle dans la visionneuse personnalisée. L'extraction n'est pas requise pour la prédiction ou pour parcourir le modèle à l'aide de la Visionneuse de l'arborescence de contenu générique Microsoft.

L'instruction CREATE MINING MODEL crée un modèle d'exploration de données basé sur la liste des définitions de colonnes, l'algorithme et la liste des paramètres de l'algorithme.

Liste des définitions de colonnes

Pour définir la structure d'un modèle qui utilise la liste des définitions de colonnes, vous devez fournir les informations suivantes pour chaque colonne :

  • Nom (obligatoire)

  • Type de données (obligatoire)

  • Distribution

  • Liste des indicateurs de modélisation

  • Type de contenu (obligatoire)

  • Demande de prévision, qui indique à l'algorithme de prédire cette colonne, indiquée par la clause PREDICT ou PREDICT_ONLY

  • Relation à une colonne d'attributs (obligatoire uniquement le cas échéant), indiquée par la clause RELATED TO

Utilisez la syntaxe suivante pour la liste des définitions de colonnes, pour définir une seule colonne :

<column name>    <data type>    [<Distribution>]    [<Modeling Flags>]    <Content Type>    [<prediction>]    [<column relationship>] 

Utilisez la syntaxe suivante pour la liste des définitions de colonnes, pour définir une colonne de tables imbriquées :

<column name>    TABLE    [<prediction>] ( <non-table column definition list> )

À l'exception des indicateurs de modélisation, vous ne pouvez utiliser qu'une seule clause d'un groupe particulier pour définir une colonne. En revanche, vous pouvez définir plusieurs indicateurs de modélisation pour une colonne.

Pour la liste des types de données, types de contenu, distributions de colonnes et indicateurs de modélisation à utiliser pour définir une colonne, consultez les rubriques suivantes :

Vous pouvez ajouter une clause à l'instruction pour décrire la relation entre deux colonnes. Analysis Services prend en charge l'utilisation de la clause <Column relationship> suivante.

  • RELATED TO
    Cette forme indique une hiérarchie des valeurs. La cible d'une colonne RELATED TO peut être une colonne clé dans une table imbriquée, une colonne de valeurs discrètes dans la ligne de cas ou une autre colonne RELATED TO qui indique une hiérarchie plus profonde.

Utilisez une clause de prévision pour décrire de quelle manière la colonne de prévision est utilisée. Le tableau suivant décrit les deux clauses possibles.

Clause <prediction>

Description

PREDICT

Cette colonne peut être prédite par le modèle, et elle peut être fournie à des cas d'entrée pour prédire la valeur d'autres colonnes prédictibles.

PREDICT_ONLY

Cette colonne peut être prédite par le modèle, mais ses valeurs ne peuvent pas être utilisées dans des cas d'entrée pour prédire la valeur d'autres colonnes prédictibles.

Liste des définitions des paramètres

La liste des paramètres permet d'ajuster les performances et les fonctionnalités d'un modèle d'exploration de données. La syntaxe de la liste des paramètres est la suivante :

[<parameter> = <value>, <parameter> = <value>,…]

Pour obtenir la liste des paramètres associés à chaque algorithme, consultez Algorithmes d'exploration de données (Analysis Services – exploration de données).

Notes

Si vous souhaitez créer un modèle qui a un jeu de données de test intégré, vous devez utiliser l'instruction CREATE MINING STRUCTURE suivie de ALTER MINING STRUCTURE. Toutefois, les types de modèles ne prennent pas tous en charge un jeu de données d'exclusion. Pour plus d'informations, consultez CREATE MINING STRUCTURE (DMX).

Pour une procédure pas à pas indiquant comment créer un modèle d'exploration de données à l'aide de l'instruction CREATEMODEL, consultez Didacticiel DMX sur la prédiction de série chronologique.

Exemple de modèle Naive Bayes

L'exemple suivant utilise l'algorithme Microsoft Naive Bayes pour créer un modèle d'exploration de données. La colonne Bike Buyer (Acheteur de vélo) est définie comme l'attribut prévisible.

CREATE MINING MODEL [NBSample]
(
    CustomerKey LONG KEY, 
    Gender TEXT DISCRETE,
    [Number Cars Owned] LONG DISCRETE,
    [Bike Buyer] LONG DISCRETE PREDICT
)
USING Microsoft_Naive_Bayes

Exemple de modèle Association

L'exemple suivant utilise l'algorithme Microsoft Association pour créer un modèle d'exploration de données. L'instruction bénéficie de la possibilité d'imbriquer une table dans la définition du modèle en utilisant une colonne de table. Le modèle est modifié à l'aide des paramètres MINIMUM_PROBABILITY et MINIMUM_SUPPORT.

CREATE MINING MODEL MyAssociationModel (
    OrderNumber TEXT KEY,
    [Products] TABLE PREDICT (
        [Model] TEXT KEY
    )
)
USING Microsoft_Association_Rules (Minimum_Probability = 0.1, MINIMUM_SUPPORT = 0.01)

Exemple de modèle Sequence Clustering

L'exemple suivant utilise l'algorithme Microsoft Sequence Clustering pour créer un modèle d'exploration de données. Deux clés sont utilisées pour définir le modèle. La colonne OrderNumber est utilisée comme clé de cas et spécifie des commandes individuelles. La colonne LineNumber est utilisée comme clé de table imbriquée et spécifie la séquence selon laquelle les éléments ont été ajoutés à une commande.

CREATE MINING MODEL BuyingSequence (
    [Order Number] TEXT KEY,
    [Products] TABLE 
     (
        [Line Number] LONG KEY SEQUENCE,
        [Model] TEXT DISCRETE PREDICT
    )
)
USING Microsoft_Sequence_Clustering

Exemple de modèle Time Series

L'exemple suivant utilise l'algorithme Microsoft Time Series pour créer un modèle d'exploration de données à l'aide de l'algorithme ARTxp. ReportingDate est la colonne clé pour la série chronologique et ModelRegion est la colonne clé pour la série de données. Dans cet exemple, on suppose que la périodicité des données est tous les 12 mois. Par conséquent, le paramètre PERIODICITY_HINT a la valeur 12.

Notes

Vous devez spécifier le paramètre PERIODICITY_HINT en utilisant des accolades. De plus, étant donné que la valeur est une chaîne, celle-ci doit être mise guillemets simples : "{<valeur numérique>}".

CREATE MINING MODEL SalesForecast (
        ReportingDate DATE KEY TIME,
        ModelRegion TEXT KEY,
        Amount LONG CONTINUOUS PREDICT,
        Quantity LONG CONTINUOUS PREDICT
)
USING Microsoft_Time_Series (PERIODICITY_HINT = '{12}', FORECAST_METHOD = 'ARTXP')