Validation des modèles d'exploration de données

Vous pouvez utiliser l'onglet Graphique d'analyse de précision de l'exploration de données du Concepteur d'exploration de données pour valider la précision et comparer la capacité prédictive des modèles d'exploration de données d'une structure d'exploration de données. Cette fonction est utile lorsque vous essayez de déterminer quel algorithme doit être utilisé ou de quelle manière ajuster les paramètres au sein d'un algorithme particulier.

La validation est une étape importante du processus d'exploration de données. Il est important de savoir si vos modèles d'exploration de données sont efficaces sur des données réelles avant de les déployer dans un environnement de production. Pour plus d'informations sur le rôle de la validation des modèles au sein du processus global d'exploration de données, consultez Concepts d'exploration de données.

Outils de validation

L'onglet Graphique d'analyse de précision de l'exploration de données fournit les outils suivants pour la validation des modèles d'exploration de données :

  • Graphique de courbes d'élévation
  • Matrice de classification

Graphique de courbes d'élévation

Un graphique de courbes d'élévation est obtenu en représentant graphiquement les résultats des requêtes de prédictions d'un jeu de données de test en fonction des valeurs connues de la colonne prévisible figurant dans le jeu de données. Le diagramme suivant est un exemple de ce type de graphique.

Graphique de courbes d'élévation de cible par rapport à l'ensemble du remplissage

Le graphique contient une ligne pour les résultats du modèle d'exploration de données et deux autres lignes : l'une représente les résultats d'un modèle idéal, avec des prédictions parfaites qui ne sont jamais incorrectes, et l'autre représente les résultats d'une estimation aléatoire. Les résultats de vos modèles se trouveront entre le modèle idéal et l'estimation aléatoire. Toute amélioration au-dessus de la ligne aléatoire s'appelle élévation et plus l'élévation du modèle est importante, plus le modèle est efficace.

Les graphiques de courbes d'élévation qui sont générés à partir d'attributs prévisibles continus ne contiennent pas des lignes, mais un nuage de points.

Pour implémenter un graphique de courbes d'élévation, vous devez disposer des éléments suivants :

  • Un ou plusieurs modèles d'exploration de données entraînés
  • Un jeu de données d'entrée contenant une valeur pour la colonne prévisible
  • Un mappage entre les données d'entrée et la structure du modèle d'exploration de données

Pour plus d'informations : Rubriques Procédure : onglet Graphique d'analyse de précision de l'exploration de données, Mappages de colonnes (Graphique de courbes d'élévation), Graphique de courbes d'élévation

Retour en haut

Matrice de classification

L'onglet Matrice de classification est un autre moyen d'évaluer la précision des prédictions créées par les modèles d'exploration de données d'une structure. Une matrice de classification est obtenue en comparant des valeurs réelles figurant dans le jeu de données de test aux valeurs prédites par le modèle d'exploration de données. La matrice est un outil très utile étant donné qu'elle montre non seulement combien de fois le modèle a correctement prédit une valeur, mais qu'elle identifie aussi les autres valeurs que le modèle a le plus fréquemment prédites de façon incorrecte.

Par exemple, prenons le cas d'un modèle qui a été généré pour prédire le type de carte de membre utilisé par les clients d'un magasin d'alimentation. Il existe trois catégories de cartes : bronze, argent et or. Le tableau suivant représente une matrice de classification pour un modèle qui prédit les valeurs de carte de membre sur une base de données de test dans laquelle la valeur de carte de membre est connue.

Bronze Argent Or

Bronze

Réel

Erreur pour Bronze

Erreur pour Bronze

Argent

Erreur pour Argent

Réel

Erreur pour Argent

Or

Erreur pour Or

Erreur pour Or

Réel

Les valeurs disposées en diagonale entre le coin supérieur gauche et le coin inférieur droit de la matrice correspondent au nombre correct de valeurs qui existent réellement dans le jeu de données de test. Les colonnes de la matrice représentent les éléments qui ont été prédits dans le jeu de données de test. Les lignes représentent l'état réel de l'attribut dans le jeu de données de test.

Par exemple, examinons les prédictions du modèle d'exploration de données pour les clients qui avaient une carte Bronze. La valeur qui se trouve à l'intersection de la colonne Bronze et de la ligne Bronze représente le nombre réel de clients dans la base de données de test qui avaient une carte Bronze. La valeur qui se trouve à l'intersection de la colonne Argent et de la ligne Bronze représente le nombre de cas qui ont été prédits incorrectement comme ayant une carte Argent, alors qu'ils avaient en réalité une carte Bronze. Le nombre de valeurs prédites incorrectement pour Bronze est la somme de l'intersection de la colonne Bronze avec la ligne Argent et de l'intersection de la colonne Bronze avec la ligne Or. La même analyse s'applique aux autres types de cartes.

Pour plus d'informations :Rubriques Procédure : onglet Graphique d'analyse de précision de l'exploration de données, Mappages de colonnes (Graphique de courbes d'élévation), Matrice de classification

Retour en haut

Voir aussi

Concepts

Utilisation des outils d'exploration de données
Concepts d'exploration de données
Utilisation de l'exploration de données

Autres ressources

Rubriques Procédure : onglet Graphique d'analyse de précision de l'exploration de données

Aide et Informations

Assistance sur SQL Server 2005