Références techniques relatives à l'algorithme MLR (Microsoft Linear Regression)

Article
10/31/2023

S’applique à : SQL Server 2019 et versions antérieures d’Analysis Services Azure Analysis Services Fabric/Power BI Premium

Important

L’exploration de données a été déconseillée dans SQL Server 2017 Analysis Services et est à présent abandonnée dans SQL Server 2022 Analysis Services. La documentation n’est pas mise à jour pour les fonctionnalités déconseillées et abandonnées. Pour en savoir plus, consultez Compatibilité descendante d’Analysis Services.

L’algorithme de régression linéaire Microsoft est une version spéciale de l’algorithme Microsoft Decision Trees qui est optimisée pour la modélisation de paires d’attributs continus. Cette rubrique explique l'implémentation de l'algorithme, décrit la façon de personnaliser le comportement de l'algorithme et fournit des liens vers des informations supplémentaires sur l'interrogation des modèles.

Implémentation de l'algorithme MLR (Microsoft Linear Regression)

L'algorithme MDT (Microsoft Decision Trees) peut être utilisé pour de nombreuses tâches : régression linéaire, classification ou analyse d'associations. Pour implémenter cet algorithme en vue d'une régression linéaire, les paramètres de l'algorithme sont contrôlés pour restreindre la croissance de l'arborescence et conserver toutes les données du modèle dans un nœud unique. En d'autres termes, bien que la régression linéaire soit basée sur un arbre de décision, l'arborescence contient uniquement une racine unique et aucune branche : toutes les données résident dans le nœud racine.

Pour cela, le paramètre MINIMUM_LEAF_CASES de l’algorithme est défini de façon à être supérieur ou égal au nombre total de cas utilisés par l’algorithme pour l’apprentissage du modèle d’exploration de données. Si le paramètre est défini de cette manière, l'algorithme ne crée jamais de division et effectue par conséquent une régression linéaire.

L’équation qui représente la droite de régression est de type y = ax + b et est appelée « équation de régression ». La variable Y représente la variable de sortie, X représente la variable d’entrée, et a et b sont des coefficients ajustables. Vous pouvez récupérer les coefficients, les ordonnées et d'autres informations à propos de la formule de régression en interrogeant le modèle d'exploration de données terminé. Pour plus d’informations, consultez Exemples de requête de modèle de régression linéaire.

Résultat des méthodes et sélection des fonctionnalités

Tous les algorithmes d’exploration de données SQL Server Analysis Services utilisent automatiquement la sélection des fonctionnalités pour améliorer l’analyse et réduire la charge de traitement. La méthode utilisée pour la sélection des fonctionnalités dans la régression linéaire est le score d'intérêt et de pertinence, car le modèle prend uniquement en charge les colonnes continues. À titre de référence, la table suivante affiche la différence dans la sélection de fonctionnalités entre l'algorithme MLR (Microsoft Linear Regression) et l'algorithme MDT (Microsoft Decision Trees).

Algorithm	Méthode d'analyse	Commentaires
Régression linéaire	Score d'intérêt et de pertinence	Par défaut. Les autres méthodes de sélection de fonctionnalités qui sont disponibles avec l'algorithme MDT s'appliquent uniquement aux variables discrètes. Par conséquent, elles ne peuvent s'appliquer aux modèles de régression linéaire.
Arbres de décision	Score d'intérêt et de pertinence Entropie de Shannon Bayésien avec a priori K2 Équivalent bayésien de Dirichlet avec a priori uniforme (par défaut)	Si des colonnes contiennent des valeurs continues non binaires, le score d'intérêt et de pertinence est utilisé pour toutes les colonnes afin de garantir la cohérence. Sinon, la méthode par défaut ou spécifiée est utilisée.

Les paramètres d'algorithme qui contrôlent la sélection des fonctionnalités pour un modèle d'arbre de décision sont MAXIMUM_INPUT_ATTRIBUTES et MAXIMUM_OUTPUT.

Personnalisation de l'algorithme MLR (Microsoft Linear Regression)

L’algorithme de régression linéaire Microsoft prend en charge les paramètres qui affectent le comportement, les performances et la précision du modèle d’exploration de données résultant. Vous pouvez également définir des indicateurs de modélisation sur les colonnes du modèle ou de la structure d'exploration de données pour contrôler le mode de traitement des données.

Définition des paramètres de l'algorithme

Le tableau suivant répertorie les paramètres fournis pour l’algorithme de régression linéaire Microsoft.

Paramètre	Description
MAXIMUM_INPUT_ATTRIBUTES	Spécifie le nombre d'attributs d'entrée que l'algorithme peut traiter avant d'appeler la sélection des fonctionnalités. Attribuez à ce paramètre la valeur 0 pour désactiver la sélection des fonctionnalités. La valeur par défaut est 255.
MAXIMUM_OUTPUT_ATTRIBUTES	Spécifie le nombre d'attributs de sortie que l'algorithme peut traiter avant d'appeler la sélection des fonctionnalités. Attribuez à ce paramètre la valeur 0 pour désactiver la sélection des fonctionnalités. La valeur par défaut est 255.
FORCE_REGRESSOR	Force l'algorithme à utiliser les colonnes indiquées comme régresseurs, quelle que soit leur importance, telle que calculée par l'algorithme.

Indicateurs de modélisation

L’algorithme de régression linéaire Microsoft prend en charge les indicateurs de modélisation suivants. Lorsque vous créez la structure d'exploration de données ou le modèle d'exploration de données, vous définissez des indicateurs de modélisation pour spécifier la façon dont les valeurs de chaque colonne sont gérées pendant l'analyse. Pour plus d’informations, consultez Indicateurs de modélisation (exploration de données).

Indicateur de modélisation	Description
NOT NULL	Indique que la colonne ne peut pas contenir de valeur Null. Une erreur est générée si Analysis Services rencontre une valeur NULL au cours de l'apprentissage du modèle. S'applique aux colonnes de structure d'exploration de données.
REGRESSOR	Indique que la colonne contient des valeurs numériques continues qui doivent être traitées comme variables indépendantes potentielles pendant l'analyse. S'applique aux colonnes de modèle d'exploration de données. Remarque : attribuer un indicateur de régresseur sur une colonne ne garantit pas que la colonne sera utilisée comme régresseur dans le modèle final.

Régresseurs dans les modèles de régression linéaire

Les modèles de régression linéaire sont basés sur l’algorithme Microsoft Decision Trees. Toutefois, même si vous n’utilisez pas l’algorithme de régression linéaire Microsoft, tout modèle d’arbre de décision peut contenir une arborescence ou des nœuds qui représentent une régression sur un attribut continu.

Il est inutile de spécifier qu'une colonne continue représente un régresseur. L’algorithme Microsoft Decision Trees partitionne le jeu de données en régions avec des modèles significatifs, même si vous ne définissez pas l’indicateur REGRESSOR sur la colonne. La différence réside dans le fait que lorsque vous définissez l'indicateur de modélisation, l'algorithme essaie de rechercher des équations de régression de type a*C1 + b*C2 + ... pour faire tenir les séquences dans les nœuds de l'arbre. La somme des résiduels est calculée et, si l'écart est trop grand, l'arbre est fractionné.

Par exemple, si vous prédisez le comportement d’achat de vos clients en utilisant le revenu comme attribut et que vous définissez l’indicateur de modélisation REGRESSOR sur la colonne [Revenu], l’algorithme essaie dans un premier temps de faire tenir les valeurs en utilisant une formule de régression standard. Si l'écart est trop grand, la formule de régression est abandonnée et l'arbre est fractionné sur un autre attribut. L’algorithme MDT essaie ensuite de faire tenir un régresseur pour le revenu dans chacune des branches après le fractionnement.

Vous pouvez utiliser le paramètre FORCED_REGRESSOR pour faire en sorte que l'algorithme utilise un régresseur particulier. Ce paramètre peut être utilisé avec les algorithmes MDT et MLR.

Configuration requise

Un modèle de régression linéaire doit contenir une colonne clé, des colonnes d'entrée et au moins une colonne prédictible.

Colonnes d'entrée et prédictibles

L’algorithme de régression linéaire Microsoft prend en charge les colonnes d’entrée et les colonnes prévisibles spécifiques répertoriées dans le tableau suivant. Pour plus d’informations sur la signification des types de contenu lorsqu’ils sont utilisés dans un modèle d’exploration de données, consultez Types de contenu (exploration de données).

Colonne	Types de contenu
Attribut d'entrée	Continu, Cyclique, Clé, Table et Ordonné
Attribut prédictible	Continu, Cyclique et Ordonné

Notes

Les types de contenu cyclique et ordonné sont pris en charge, mais l’algorithme les traite comme des valeurs discrètes et n’effectue pas de traitement spécial.

Voir aussi

Algorithme MLR (Microsoft Linear Regression)
Exemples de requête de modèle de régression linéaire
Contenu du modèle d'exploration de données pour les modèles de régression linéaire (Analysis Services - Exploration de données)