Validation des modèles d'exploration de données (Analysis Services - Exploration de données)

La validation est le processus consistant à évaluer les performances de vos modèles d'exploration de données sur des données réelles. Il est important de valider les modèles d'exploration de données en comprenant leurs qualité et caractéristiques avant de les déployer dans un environnement de production.

Plusieurs approches permettent d'évaluer la qualité et les caractéristiques d'un modèle d'exploration de données. La première approche inclut l'utilisation de diverses mesures de validité statistique pour déterminer la présence ou non de problèmes au niveau des données ou du modèle. La seconde consiste à scinder les données en jeux d'apprentissage et de test pour tester la précision des prédictions. Enfin, vous pouvez demander à des experts d'examiner les résultats du modèle d'exploration de données pour déterminer si les modèles découverts ont un sens dans le scénario d'entreprise ciblé. Toutes ces méthodes sont utiles dans la méthodologie d'exploration de données et sont utilisées de manière itérative lorsque vous créez, testez et affinez des modèles pour répondre à un problème spécifique.

Cette section présente des concepts de base liés à la qualité des modèles et décrit les stratégies de validation de modèles fournies dans Microsoft SQL Server 2008 Analysis Services. Pour une vue d'ensemble du rôle de la validation des modèles au sein du processus global d'exploration de données, consultez Projets d'exploration de données (Analysis Services - Exploration de données).

Critères de mesure des modèles d'exploration de données

La plupart des méthodes de validation d'un modèle d'exploration de données ne répondent pas directement aux questions, mais fournissent des mesures permettant d'orienter une décision commerciale ou de développement. Il n'existe pas de règle exhaustive pouvant indiquer lorsqu'un modèle est assez perfectionné ou lorsque vous avez suffisamment de données.

Les mesures de l'exploration de données s'expriment généralement en termes de précision, de fiabilité et d'utilité.

Précision, fiabilité et utilité

La précision mesure le degré de corrélation du modèle entre un résultat et les attributs des données fournies. Il existe différentes mesures de précision, mais toutes dépendent des données utilisées. Dans la réalité, les valeurs peuvent être absentes ou approximatives ; plusieurs processus peuvent avoir aussi modifié les données. Dans la phase d'exploration et de développement en particulier, vous pouvez décider d'accepter une certaine quantité d'erreurs dans les données, surtout si les données présentent des caractéristiques assez uniformes. Par exemple, un modèle qui prédit les ventes d'un magasin donné en fonction des ventes passées peut présenter un degré de corrélation très élevé et être très précis, même si ce magasin a utilisé régulièrement une mauvaise méthode de comptabilité. Par conséquent, les mesures de précision doivent être compensées par les évaluations de fiabilité.

La fiabilité évalue le fonctionnement d'un modèle d'exploration de données sur différents jeux de données. Un modèle d'exploration de données est fiable s'il génère le même type de prédictions ou trouve les mêmes types généraux de modèles quelles que soient les données de test fournies. Par exemple, le modèle que vous générez pour le magasin qui a utilisé la mauvaise méthode de comptabilité ne se généraliserait pas bien à d'autres magasins et ne serait par conséquent pas fiable.

L'utilité inclut diverses mesures indiquant si le modèle fournit des informations utiles. Par exemple, un modèle d'exploration de données qui met en corrélation l'emplacement du magasin et les ventes peut être précis et fiable, mais ne pas être utile, parce que vous ne pouvez pas généraliser ce résultat en ajoutant d'autres magasins au même emplacement. De plus, il ne répond pas à la question fondamentale de savoir pourquoi certains emplacements enregistrent plus de ventes. Vous pouvez également découvrir qu'un modèle semblant satisfaisant est en fait inutile, car il est basé sur des corrélations mutuelles des données.

Infrastructure de l'exploration de données Microsoft

CRISP-DM est une méthodologie connue qui décrit les étapes de définition, de développement et d'implémentation d'un projet d'exploration de données. Toutefois, l'infrastructure conceptuelle CRISP-DM ne fournit pas d'instruction spécifique pour définir l'étendue d'un projet et le planifier. Pour mieux répondre aux besoins spécifiques des utilisateurs professionnels qui s'intéressent à l'exploration de données, mais ne savent pas par où commencer la planification, de même que pour répondre aux besoins des développeurs connaissant le développement d'applications .NET, mais débutant dans le domaine de l'exploration de données, Microsoft a développé une méthode pour implémenter un projet d'exploration de données qui inclut un système complet d'évaluation.

Pour plus d'informations, consultez la page sur les ressources d'exploration de données Microsoft (en anglais).

Approches de la validation des modèles d'exploration de données dans SQL Server Analysis Services

SQL Server 2008 propose plusieurs approches de validation des solutions d'exploration de données qui prennent en charge toutes les phases de la méthodologie de développement de l'exploration de données.

Partitionnement des données en jeux d'apprentissage et de test

Le partitionnement des données en jeux d'apprentissage et de test est un procédé établi pour préparer des données en vue d'une évaluation. Une partie des données du jeu de données d'apprentissage est réservée au test, le reste des données étant utilisé pour l'apprentissage. Une fois le modèle terminé, il est utilisé pour effectuer des prédictions sur le jeu de test. Les données du jeu d'apprentissage étant sélectionnées de façon aléatoire dans les mêmes données que celles utilisées pour l'apprentissage, les mesures de précision que vous dérivez du test seront probablement moins affectées par les différences de données et reflèteront par conséquent mieux les caractéristiques du modèle.

Pour plus d'informations, consultez Partitionnement des données en jeux d'apprentissage et jeux de test (Analysis Services – Exploration de données).

Validation croisée des modèles d'exploration de données

La validation croisée vous permet de partitionner un jeu de données en de nombreuses sections croisées plus petites et de créer plusieurs modèles sur ces sections croisées pour tester la validité du jeu de données complet. Analysis Services génère ensuite des mesures de précision détaillées pour chaque partition. En utilisant ces informations, vous pouvez améliorer la qualité d'un modèle ou identifier les meilleurs modèles pour un jeu de données spécifique.

Pour plus d'informations, consultez Validation croisée (Analysis Services - Exploration de données).

Création de graphiques d'analyse de précision de modèle d'exploration de données

Microsoft SQL Server Analysis Services fournit des outils vous permettant de représenter par un graphique la précision des prédictions, de tester le modèle sur des données nouvelles ou existantes ou de comparer plusieurs modèles dans des graphiques et rapports.

Un graphique de courbes d'élévation permet de visualiser l'amélioration que vous obtenez de l'utilisation d'un modèle d'exploration de données, lorsque vous le comparez à une estimation aléatoire. Vous pouvez également créer des graphiques des bénéfices qui associent les gains ou coûts financiers à l'utilisation d'un modèle d'exploration de données, ainsi que des nuages de points pour les modèles de régression. Une matrice de classification permet de trier les estimations exactes et inexactes dans un tableau, de sorte que vous puissiez rapidement et facilement évaluer la précision avec laquelle le modèle prédit la valeur cible.

Pour plus d'informations, consultez Outils de création de diagramme de précision de modèle (Analysis Services - Exploration de données).

Vous pouvez également filtrer les modèles de plusieurs façons pour effectuer l'apprentissage et le test de différentes combinaisons des mêmes données sources. For more information, see Mesure de la précision du modèle d'exploration de données (Analysis Services - Exploration de données).

Exploration et interrogation du contenu du modèle et des cas

Analysis Services fournit un ensemble de visionneuses d'exploration de données pour parcourir et explorer le modèle. Vous pouvez également créer des requêtes de contenu pour vous permettre de mieux comprendre le modèle et déceler des problèmes inattendus dans votre approche ou dans les données. Lorsque vous créez une requête de contenu à l'aide de DMX (Data Mining Extensions), vous pouvez obtenir des informations statistiques sur les modèles découverts par le modèle d'exploration de données ou extraire des cas qui prennent en charge des modèles spécifiques trouvés par le modèle. Vous pouvez également extraire des détails dans la structure d'exploration de données sous-jacente, afin de rechercher ou présenter des informations détaillées qui n'ont pas été incluses dans le modèle ou d'entreprendre des actions sur les modèles trouvés dans les données.

Pour plus d'informations sur l'interrogation du contenu du modèle, consultez Interrogation de modèles d'exploration de données (Analysis Services - Exploration de données).

Pour plus d'informations sur l'exploration du contenu du modèle, consultez Affichage d'un modèle d'exploration de données.

Pour plus d'informations sur la manière d'interpréter le contenu du modèle pour des algorithmes spécifiques, consultez Algorithmes d'exploration de données (Analysis Services – exploration de données).