Algorithme MDT (Microsoft Decision Trees)

L'algorithme MDT (Microsoft Decision Trees) est un algorithme de classification et de régression fourni par Microsoft SQL Server 2005 Analysis Services (SSAS) et utilisé pour la modélisation prédictive d'attributs discrets et continus.

Pour les attributs discrets, l'algorithme effectue des prévisions en fonction des relations entre les colonnes d'entrée d'un dataset. Il utilise les valeurs ou les états de ces colonnes pour prévoir les états d'une colonne désignée comme prévisible. En particulier, l'algorithme identifie les colonnes d'entrée en corrélation avec la colonne prévisible. Par exemple, dans un scénario conçu pour prévoir quels clients sont susceptibles d'acheter un vélo, si neuf jeunes clients sur dix achètent un vélo, alors que seulement deux clients plus âgés sur dix le font, l'algorithme déduit que l'âge est un bon facteur de prévision d'achat de vélo. L'arbre de décision effectue des prévisions en fonction de cette tendance vers une issue particulière.

Pour les attributs continus, l'algorithme utilise la régression linéaire pour déterminer où un arbre de décision se divise.

Si plusieurs colonnes sont définies comme prévisibles ou si les données d'entrée contiennent une table imbriquée définie comme prévisible, l'algorithme génère un arbre de décision distinct pour chaque colonne prévisible.

Exemple

Le service marketing de la société Adventure Works Cycle veut identifier les caractéristiques des clients antérieurs, lesquelles peuvent indiquer si ces clients sont susceptibles d'acheter un produit à l'avenir. La base de données AdventureWorks stocke des informations démographiques sur les clients antérieurs. En utilisant l'algorithme MDT (Microsoft Decision Trees) pour analyser ces informations, le service marketing peut créer un modèle pour prévoir si un client particulier achètera des produits, en fonction des états des colonnes connues sur ce client, telles que les statistiques démographiques ou les critères d'achat passés.

Fonctionnement de l'algorithme

L'algorithme MDT (Microsoft Decision Trees) crée un modèle d'exploration de données en créant une série de divisions, également appelées nœuds, dans l'arbre. L'algorithme ajoute un nœud au modèle chaque fois qu'une colonne d'entrée en corrélation significative avec la colonne prévisible est détectée. La manière dont l'algorithme détermine une division diffère selon qu'il prévoit une colonne continue ou une colonne discrète. Pour obtenir des détails sur le fonctionnement de l'algorithme MDT (Microsoft Decision Trees) et l'utilisation de colonnes prévisibles discrètes, consultez Scalable Classification over SQL Databases et Learning Bayesian Networks:. Pour en savoir plus sur le fonctionnement de l'algorithme MDT (Microsoft Decision Trees) et l'utilisation d'une colonne prévisible continue, consultez l'annexe de Autoregressive Tree Models for Time-Series Analysis (en anglais).

Prévision de colonnes discrètes

La manière dont l'algorithme MDT (Microsoft Decision Trees) génère un arbre pour une colonne prévisible discrète peut être illustrée à l'aide d'un histogramme. Le diagramme ci-dessous montre un histogramme qui représente une colonne prévisible, Acheteurs de vélos, par rapport à une colonne d'entrée, Âge. L'histogramme montre que l'âge d'une personne aide à distinguer si cette personne achètera un vélo.

Histogramme d'algorithme MDT (Microsoft Decision Trees)

La corrélation montrée dans ce diagramme entraînera la création d'un nouveau nœud dans le modèle par l'algorithme MDT (Microsoft Decision Trees).

Nœud d'arborescence de décision

Au fur et à mesure que l'algorithme ajoute de nouveaux nœuds dans un modèle, une structure arborescente est formée. Le nœud supérieur de l'arbre décrit le détail de la colonne prévisible pour la population globale des clients. Le modèle continue de croître et l'algorithme prend en compte toutes les colonnes.

Prévision de colonnes continues

Lorsque l'algorithme MDT (Microsoft Decision Trees) génère un arbre en fonction d'une colonne prévisible continue, chaque nœud contient une formule de régression. Une division apparaît à un point de non-linéarité dans la formule de régression. Par exemple, considérons le diagramme ci-dessous.

Plusieurs lignes de régression affichant une non-linéarité

Ce diagramme contient des données qui peuvent être modélisées à l'aide d'une seule ligne ou de deux lignes connectées. Toutefois, une ligne unique entraînerait une représentation médiocre des données. Au lieu de cela, en utilisant deux lignes, le modèle permettra une meilleure approximation des données. Le point d'intersection des deux lignes correspond au point de non-linéarité et au point où un nœud se divise dans un modèle d'arbre de décision. Par exemple, le nœud qui correspond au point de non-linéarité dans le graphique précédent peut être représenté par le diagramme suivant. Les deux équations représentent les équations de régression des deux lignes.

Équation qui représente un point de non-linéarité

Utilisation de l'algorithme

Un modèle d'arbre de décision doit contenir une colonne clé, des colonnes d'entrée et une colonne prévisible.

L'algorithme MDT (Microsoft Decision Trees) prend en charge des types de contenu de colonne d'entrée, des types de contenu de colonne prévisible et des indicateurs de modélisation spécifiques, lesquels sont répertoriés dans le tableau ci-dessous.

Types de contenu de colonne d'entrée

Continu, Cyclique, Discret, Discrétisé, Clé, Table et Ordonné

Types de contenu de colonne prévisible

Continu, cyclique, discret, discrétisé, table et trié

Indicateurs de modélisation

MODEL_EXISTENCE_ONLY, NOT NULL et REGRESSOR

Tous les algorithmes Microsoft prennent en charge un ensemble commun de fonctions. Toutefois, l'algorithme MDT (Microsoft Decision Trees) prend en charge des fonctions supplémentaires, répertoriées dans le tableau ci-dessous.

IsDescendant

PredictNodeId

IsInNode

PredictProbability

PredictAdjustedProbability

PredictStdev

PredictAssociation

PredictSupport

PredictHistogram

PredictVariance

Pour obtenir la liste des fonctions communes à tous les algorithmes Microsoft, consultez Algorithmes d'exploration de données. Pour plus d'informations sur l'utilisation de ces fonctions, consultez Fonctions DMX (Data Mining Extensions).

L'algorithme MDT (Microsoft Decision Trees) prend en charge l'utilisation du langage PMML (Predictive Model Markup Language) pour créer des modèles d'exploration de données.

L'algorithme MDT (Microsoft Decision Trees) prend en charge plusieurs paramètres qui affectent les performances et la précision du modèle d'exploration de données résultant. Le tableau ci-dessous décrit chaque paramètre.

Paramètre Description

MAXIMUM_INPUT_ATTRIBUTES

Spécifie le nombre d'attributs d'entrée que l'algorithme peut traiter avant d'appeler la sélection des fonctionnalités. Attribuez à ce paramètre la valeur 0 pour désactiver la sélection des fonctionnalités.

La valeur par défaut est 255.

MAXIMUM_OUTPUT_ATTRIBUTES

Spécifie le nombre d'attributs de sortie que l'algorithme peut traiter avant d'appeler la sélection des fonctionnalités. Attribuez à ce paramètre la valeur 0 pour désactiver la sélection des fonctionnalités.

La valeur par défaut est 255.

SCORE_METHOD

Spécifie la méthode utilisée pour calculer le résultat de la division. Options disponibles : Entropie (1), Bayésien avec a priori K2 (2) ou Équivalent bayésien de Dirichlet avec a priori (3).

La valeur par défaut est 3.

SPLIT_METHOD

Spécifie la méthode utilisée pour diviser le nœud. Options disponibles : Binaire (1), Complet (2) ou Les deux (3).

La valeur par défaut est 3.

MINIMUM_SUPPORT

Spécifie le nombre minimal de cas feuilles requis pour générer une division dans l'arbre de décision.

La valeur par défaut est 10.

COMPLEXITY_PENALTY

Contrôle la croissance de l'arbre de décision. Une valeur faible entraîne l'augmentation du nombre de divisions, alors qu'une valeur importante entraîne la diminution du nombre de divisions. La valeur par défaut dépend du nombre d'attributs pour un modèle particulier, comme cela est décrit dans la liste suivante :

  • De 1 à 9 attributs, la valeur par défaut est égale à 0,5.
  • De 10 à 99 attributs, la valeur par défaut est égale à 0,9.
  • À partir de 100 attributs, la valeur par défaut est égale à 0,99.

FORCED_REGRESSOR

Force l'algorithme à utiliser les colonnes indiquées comme régresseurs, quelle que soit leur importance, telle que calculée par l'algorithme. Ce paramètre est utilisé uniquement pour les arbres de décision qui prévoient un attribut continu.

Voir aussi

Concepts

Algorithmes d'exploration de données
Assistant Exploration de données
Sélection des fonctionnalités pour l'exploration de données
Affichage d'un modèle d'exploration de données à l'aide de la Visionneuse d'arborescences Microsoft

Autres ressources

CREATE MINING MODEL (DMX)

Aide et Informations

Assistance sur SQL Server 2005