Algorithme MLR (Microsoft Linear Regression)

L'algorithme MLR (Microsoft Linear Regression) est une variante de l'algorithme MDT (Microsoft Decision Trees) qui vous permet de calculer une relation linéaire entre une variable dépendante et indépendante, puis utilise cette relation pour la prédiction.

La relation se présente sous la forme d'une équation correspondant à la droite représentant le mieux une série de données. Par exemple, la droite dans le diagramme suivant est la meilleure représentation linéaire possible des données.

Ligne qui modélise un ensemble de données

Pour chaque point de données du diagramme, une erreur est associée à la distance entre le point et la droite de régression. Les coefficients a et b de l'équation de régression ajustent l'angle et l'emplacement de la droite de régression. Vous pouvez obtenir l'équation de régression en ajustant a et b jusqu'à ce que la somme des erreurs associées à tous les points atteigne le plus petit nombre possible.

Il existe d'autres types de régression qui font appel à plusieurs variables ainsi que les méthodes non linéaires de régression. Toutefois, la régression linéaire est une méthode utile et connue pour modéliser une réponse à une modification dans certain facteur sous-jacent.

Exemple

Vous pouvez utiliser la régression linéaire pour déterminer une relation entre deux colonnes continues. Par exemple, vous pouvez utiliser la régression linéaire pour calculer une courbe de tendance à partir de données de fabrication ou de ventes. Vous pouvez aussi utiliser la régression linéaire en précurseur du développement de modèles d'exploration de données plus complexes afin d'évaluer les relations parmi les colonnes de données.

Même s'il y a de nombreuses méthodes pour calculer la régression linéaire qui ne nécessitent pas d'outils d'exploration de données, l'avantage de l'utilisation de l'algorithme MLR (Microsoft Linear Regression) pour cette tâche est de pouvoir calculer et tester automatiquement toutes les relations possibles parmi les variables. Vous n'êtes pas obligé de sélectionner une méthode de calcul, telle que la résolution des moindres carrés. Toutefois, la régression linéaire peut simplifier à l'extrême les relations dans les scénarios où plusieurs facteurs affectent le résultat.

Fonctionnement de l'algorithme

L'algorithme MLR (Microsoft Linear Regression) est une variante de l'algorithme MDT (Microsoft Decision Trees). Lorsque vous sélectionnez l'algorithme MLR (Microsoft Linear Regression), un cas spécial de l'algorithme MDT (Microsoft Decision Trees) est appelé, avec des paramètres qui limitent le comportement de l'algorithme et requièrent certains types de données d'entrée. De plus, dans un modèle de régression linéaire, le jeu de données entier est utilisé pour calculer des relations dans le passage initial, alors qu'un modèle d'arbres de décision standard fractionne à plusieurs reprises les données en sous-ensembles ou arborescences plus petits.

Données requises pour les modèles de régression linéaire

Lorsque vous préparez des données à utiliser dans un modèle de régression linéaire, vous devez comprendre les spécifications liées à l'algorithme. Cela comprend la quantité de données requise et le mode d'utilisation de ces données. Les spécifications pour ce type de modèle sont les suivantes :

  • Une unique key colonne   Chaque modèle doit contenir une colonne numérique ou une colonne de texte qui identifie de façon unique chaque enregistrement. Les clés composées ne sont pas autorisées.

  • Colonne prévisible   Requiert au moins une colonne prévisible. Vous pouvez inclure dans un modèle plusieurs attributs prévisibles, mais ces attributs doivent être des types de données numériques continues. Vous ne pouvez pas utiliser un type de données datetime comme attribut prévisible même si le stockage natif pour les données est numérique.

  • Colonnes d'entrée   Les colonnes d'entrée doivent contenir des données numériques continues et recevoir le type de données approprié.

Pour plus d'informations, consultez la section Conditions requises de Références techniques relatives à l'algorithme MLR (Microsoft Linear Regression).

Affichage d'un modèle de régression linéaire

Pour explorer le modèle, utilisez la Visionneuse d'arborescences Microsoft. L'arborescence d'un modèle de régression linéaire est très simple, toutes les informations relatives à l'équation de régression sont contenues dans un nœud unique. Pour plus d'informations, consultez Affichage d'un modèle d'exploration de données à l'aide de la Visionneuse d'arborescences Microsoft.

Si vous voulez en savoir plus sur l'équation, vous pouvez également afficher les coefficients et autres informations à l'aide de la Visionneuse de l'arborescence de contenu générique Microsoft.

Pour un modèle de régression linéaire, le contenu du modèle inclut des métadonnées, la formule de régression et les statistiques relatives à la distribution de valeurs d'entrée. Pour plus d'informations, consultez Contenu du modèle d'exploration de données pour les modèles de régression linéaire (Analysis Services - Exploration de données).

Création de prédictions

Une fois le modèle traité, les résultats sont stockés sous la forme d'un jeu de statistiques avec le formulaire de régression linéaire que vous pouvez utiliser pour élaborer des prédictions. Pour obtenir des exemples de requêtes à utiliser avec un modèle de régression linéaire, consultez Interrogation d'un modèle de régression linéaire (Analysis Services - Exploration de données).

Pour obtenir des informations générales sur la création de requêtes sur des modèles d'exploration de données, consultez Interrogation de modèles d'exploration de données (Analysis Services - Exploration de données).

En plus de créer un modèle de régression linéaire en sélectionnant l'algorithme MLR (Microsoft Linear Regression), si l'attribut prévisible est un type de données numérique continu, vous pouvez créer un modèle d'arbre de décision qui contient des régressions. Dans ce cas, l'algorithme fractionne les données lorsqu'il recherche des points de séparation appropriés, mais pour certaines régions de données, il crée à la place une formule de régression. Pour plus d'informations sur les arborescences de régression dans un modèle d'arbres de décision, consultez Contenu du modèle d'exploration de données pour les modèles d'arbre de décision (Analysis Services - Exploration de données).

Remarques

  • Ne prend pas en charge l'utilisation du langage PMML (Predictive Model Markup Language) pour créer des modèles d'exploration de données.

  • Ne prend pas en charge la création de dimensions d’exploration de données.

  • Prend en charge l’extraction.

  • Prend en charge l'utilisation de modèles d'exploration de données OLAP.