Algorithme MTS (Microsoft Time Series)

Mis à jour : 15 septembre 2007

L'algorithme MTS (Microsoft Time Series) est un algorithme de régression fourni par Microsoft SQL Server 2005 Analysis Services (SSAS) qui est conçu pour la création de modèles d'exploration de données permettant de prédire des colonnes continues, telles que des ventes de produits, dans un scénario de prévision. Alors que d'autres algorithmes Microsoft créent des modèles, tels que les modèles d'arbre de décision, qui se basent sur des colonnes d'entrée pour prédire la colonne prévisible, la prédiction dans un modèle de série chronologique est uniquement basée sur les tendances que l'algorithme dégage dans le dataset d'origine pendant la création du modèle. Le diagramme suivant représente un modèle standard pour prévoir les ventes d'un produit dans le temps.

Exemple de série chronologique.

Le modèle figurant dans le diagramme est composé de deux parties : des informations historiques, à gauche du graphique, et des informations de prédiction, à droite du graphique. Les données historiques représentent les informations utilisées par l'algorithme pour créer le modèle, tandis que les données de prédiction représentent les prévisions effectuées par le modèle. La ligne formée par la combinaison des données historiques et des données de prédiction est appelée une série. Chaque modèle de prévision doit contenir une série de cas, qui correspond à la colonne différenciant les points d'une série. Par exemple, étant donné que les données du diagramme représentent la série des ventes de vélos historiques et prévues sur une période de plusieurs mois, c'est la colonne de date qui est la série de cas.

Les prédictions croisées sont une fonctionnalité importante de l'algorithme MTS (Microsoft Time Series). Ceci signifie que si vous entraînez l'algorithme avec deux séries distinctes mais connexes, vous pouvez utiliser le modèle résultant pour prédire les résultats d'une série en fonction du comportement de l'autre série. Par exemple, les ventes constatées d'un produit peuvent influencer les prévisions de ventes d'un autre produit.

Exemple

L'équipe dirigeante de la société Adventure Works Cycles souhaite prédire les ventes mensuelles de vélos pour l'année à venir. La société veut tout particulièrement savoir si les ventes de différents modèles de vélos sont liées entre elles, c'est-à-dire si la vente d'un modèle de vélo peut être utilisée pour prédire la vente d'un autre modèle. En appliquant l'algorithme MTS (Microsoft Time Series) aux données historiques des trois dernières années, la société peut créer un modèle d'exploration de données pour prévoir les futures ventes de vélos. De plus, la société peut effectuer des prédictions croisées afin de déterminer si les tendances des ventes de différents modèles de vélos sont liées entre elles.

Fonctionnement de l'algorithme

L'algorithme MDT (Microsoft Decision Trees) entraîne un modèle à l'aide d'un arbre de décision autorégressif. Chaque modèle contient une colonne de temps clé qui définit les tranches de temps que le modèle va définir. L'algorithme associe un nombre variable d'éléments passés à chaque élément actuel prédit.

Pour obtenir des détails sur le fonctionnement de l'algorithme MTS (Microsoft Time Series), consultez Autoregressive Tree Models for Time-Series Analysis (en anglais).

Vous pouvez définir les données d'entrée du modèle MTS (Microsoft Time Series) de deux manières différentes. Pour comprendre la première méthode, examinez le tableau de cas d'entrée ci-dessous :

TimeID Product Sales Volume

1/2001

A

1000

600

2/2001

A

1100

500

1/2001

B

500

900

2/2001

B

300

890

La colonne TimeID du tableau contient un identificateur de temps et possède deux entrées par jour. La colonne Product définit un produit dans la base de données. La colonne Sales décrit les bénéfices bruts du produit spécifié pour un jour et la colonne Volume décrit la quantité du produit spécifié en stock. Dans ce cas, le modèle contient deux colonnes prévisibles : Sales et Volume.

Les données d'entrée du modèle de série chronologique peuvent également être définies comme suit :

TimeID A_Sales A_Volume B_Sales B_Volume

1/2001

1000

600

500

900

2/2001

1100

500

300

890

Dans ce tableau, les colonnes Sales et Volume sont toutes deux divisées en deux colonnes qui sont chacune précédées par le nom du produit. En conséquence, la colonne TimeID ne contient qu'une seule entrée par jour. Dans ce cas, le modèle contient quatre colonnes prévisibles : A_Sales, A_Volume, B_Sales et B_Volume.

Alors que le modèle contient les mêmes informations quelle que soit la méthode de définition des données d'entrée utilisée, le format des cas d'entrée modifie la façon dont vous définissez le modèle d'exploration de données.

Utilisation de l'algorithme

Un algorithme de série chronologique requiert que la ou les colonnes à prédire soient continues. Une seule série de cas est autorisée pour chaque modèle.

L'algorithme MTS (Microsoft Time Series) prend en charge des types de contenu de colonne d'entrée, des types de contenu de colonne prévisible et des indicateurs de modélisation spécifiques qui sont répertoriés dans le tableau suivant.

Types de contenu de colonne d'entrée

Continu, Clé, Temps clé et Table

Types de contenu de colonne prévisible

Continu et Table

Indicateurs de modélisation

NOT NULL et REGRESSOR

Tous les algorithmes Microsoft prennent en charge un ensemble commun de fonctions. Toutefois, l'algorithme MTS (Microsoft Time Series) prend en charge des fonctions supplémentaires qui sont décrites dans le tableau suivant.

Lag

PredictTimeSeries

PredictNodeId

PredictVariance

PredictStdev

Pour obtenir la liste des fonctions qui sont communes à tous les algorithmes Microsoft, consultez Algorithmes d'exploration de données. Pour plus d'informations sur l'utilisation de ces fonctions, consultez Fonctions DMX (Data Mining Extensions).

L'algorithme MTS (Microsoft Time Series) ne prend pas en charge l'utilisation du langage PMML (Predictive Model Markup Language) pour créer des modèles d'exploration de données.

L'algorithme MTS (Microsoft Time Series) prend en charge plusieurs paramètres qui affectent les performances et la précision du modèle d'exploration de données obtenu. Le tableau ci-dessous décrit chaque paramètre.

Paramètre Description

MINIMUM_SUPPORT

Spécifie le nombre minimal de tranches de temps qui sont requises pour générer un fractionnement dans chaque arbre de série chronologique.

La valeur par défaut est 10.

COMPLEXITY_PENALTY

Contrôle la croissance de l'arbre de décision. La diminution de cette valeur augmente la probabilité d'une division. L'augmentation de cette valeur diminue la probabilité d'une division.

La valeur par défaut est 0,1.

PERIODICITY_HINT

Fournit à l'algorithme une indication de la périodicité des données. Par exemple, si les ventes varient chaque année et que l'unité de mesure de la série est le mois, la périodicité est égale à 12. Ce paramètre s'affiche sous la forme {n [, n]}, où n est un nombre positif. Le n entre crochets [] est facultatif et peut être répété aussi souvent que nécessaire.

La valeur par défaut est {1}.

MISSING_VALUE_SUBSTITUTION

Spécifie la méthode employée pour combler les vides dans les données d'historique. Par défaut, les vides et les extrémités irréguliers ne sont pas autorisés dans les données. Les méthodes disponibles pour combler les vides et les extrémités irréguliers sont les suivantes : par Valeur précédente, par Valeur moyenne ou par constante numérique spécifique.

AUTO_DETECT_PERIODICITY

Spécifie une valeur numérique comprise entre 0 et 1 utilisée pour détecter la périodicité. Une valeur proche de 1 favorise la découverte de nombreux modèles quasi-périodiques et la génération automatique d'indications de périodicité. Le traitement d'un grand nombre d'indications de périodicité est susceptible d'allonger de façon significative les durées d'apprentissage des modèles et de produire des modèles plus précis. Si la valeur est proche de 0, la périodicité n'est détectée que pour les données fortement périodiques.

La valeur par défaut est 0,6.

HISTORIC_MODEL_COUNT

Spécifie le nombre de modèles historiques qui seront générés.

La valeur par défaut est 1.

HISTORICAL_MODEL_GAP

Spécifie le décalage dans le temps entre deux modèles historiques successifs. Par exemple, la valeur g produit des modèles historiques générés pour des données tronquées par tranches de temps à des intervalles de g, 2*g, 3*g et ainsi de suite.

La valeur par défaut est 10.

ms174923.note(fr-fr,SQL.90).gifRemarque :
L'indication de périodicité est très sensible à la qualité du modèle. Si l'indication que vous fournissez est différente de la périodicité réelle, vos résultats peuvent être gravement compromis.

Historique des modifications

Version Historique

15 septembre 2007

Contenu modifié :
  • Mise à jour des descriptions du graphique de série chronologique.

Voir aussi

Concepts

Algorithmes d'exploration de données
Assistant Exploration de données
Utilisation des outils d'exploration de données
Affichage d'un modèle d'exploration de données à l'aide de la Visionneuse de l'algorithme MTS (Microsoft Time Series)

Autres ressources

CREATE MINING MODEL (DMX)

Aide et Informations

Assistance sur SQL Server 2005