Validation des modèles d'exploration de données

Article
12/15/2008

Vous pouvez utiliser l'onglet Graphique d'analyse de précision de l'exploration de données du Concepteur d'exploration de données pour valider la précision et comparer la capacité prédictive des modèles d'exploration de données d'une structure d'exploration de données. Cette fonction est utile lorsque vous essayez de déterminer quel algorithme doit être utilisé ou de quelle manière ajuster les paramètres au sein d'un algorithme particulier.

La validation est une étape importante du processus d'exploration de données. Il est important de savoir si vos modèles d'exploration de données sont efficaces sur des données réelles avant de les déployer dans un environnement de production. Pour plus d'informations sur le rôle de la validation des modèles au sein du processus global d'exploration de données, consultez Concepts d'exploration de données.

Outils de validation

L'onglet Graphique d'analyse de précision de l'exploration de données fournit les outils suivants pour la validation des modèles d'exploration de données :

Graphique de courbes d'élévation
Matrice de classification

Graphique de courbes d'élévation

Un graphique de courbes d'élévation est obtenu en représentant graphiquement les résultats des requêtes de prédictions d'un jeu de données de test en fonction des valeurs connues de la colonne prévisible figurant dans le jeu de données. Le diagramme suivant est un exemple de ce type de graphique.

Graphique de courbes d'élévation de cible par rapport à l'ensemble du remplissage

Le graphique contient une ligne pour les résultats du modèle d'exploration de données et deux autres lignes : l'une représente les résultats d'un modèle idéal, avec des prédictions parfaites qui ne sont jamais incorrectes, et l'autre représente les résultats d'une estimation aléatoire. Les résultats de vos modèles se trouveront entre le modèle idéal et l'estimation aléatoire. Toute amélioration au-dessus de la ligne aléatoire s'appelle élévation et plus l'élévation du modèle est importante, plus le modèle est efficace.

Les graphiques de courbes d'élévation qui sont générés à partir d'attributs prévisibles continus ne contiennent pas des lignes, mais un nuage de points.

Pour implémenter un graphique de courbes d'élévation, vous devez disposer des éléments suivants :

Un ou plusieurs modèles d'exploration de données entraînés
Un jeu de données d'entrée contenant une valeur pour la colonne prévisible
Un mappage entre les données d'entrée et la structure du modèle d'exploration de données

Pour plus d'informations : Rubriques Procédure : onglet Graphique d'analyse de précision de l'exploration de données, Mappages de colonnes (Graphique de courbes d'élévation), Graphique de courbes d'élévation

Retour en haut

Matrice de classification

L'onglet Matrice de classification est un autre moyen d'évaluer la précision des prédictions créées par les modèles d'exploration de données d'une structure. Une matrice de classification est obtenue en comparant des valeurs réelles figurant dans le jeu de données de test aux valeurs prédites par le modèle d'exploration de données. La matrice est un outil très utile étant donné qu'elle montre non seulement combien de fois le modèle a correctement prédit une valeur, mais qu'elle identifie aussi les autres valeurs que le modèle a le plus fréquemment prédites de façon incorrecte.

Par exemple, prenons le cas d'un modèle qui a été généré pour prédire le type de carte de membre utilisé par les clients d'un magasin d'alimentation. Il existe trois catégories de cartes : bronze, argent et or. Le tableau suivant représente une matrice de classification pour un modèle qui prédit les valeurs de carte de membre sur une base de données de test dans laquelle la valeur de carte de membre est connue.

	Bronze	Argent	Or
Bronze	Réel	Erreur pour Bronze	Erreur pour Bronze
Argent	Erreur pour Argent	Réel	Erreur pour Argent
Or	Erreur pour Or	Erreur pour Or	Réel

Les valeurs disposées en diagonale entre le coin supérieur gauche et le coin inférieur droit de la matrice correspondent au nombre correct de valeurs qui existent réellement dans le jeu de données de test. Les colonnes de la matrice représentent les éléments qui ont été prédits dans le jeu de données de test. Les lignes représentent l'état réel de l'attribut dans le jeu de données de test.

Par exemple, examinons les prédictions du modèle d'exploration de données pour les clients qui avaient une carte Bronze. La valeur qui se trouve à l'intersection de la colonne Bronze et de la ligne Bronze représente le nombre réel de clients dans la base de données de test qui avaient une carte Bronze. La valeur qui se trouve à l'intersection de la colonne Argent et de la ligne Bronze représente le nombre de cas qui ont été prédits incorrectement comme ayant une carte Argent, alors qu'ils avaient en réalité une carte Bronze. Le nombre de valeurs prédites incorrectement pour Bronze est la somme de l'intersection de la colonne Bronze avec la ligne Argent et de l'intersection de la colonne Bronze avec la ligne Or. La même analyse s'applique aux autres types de cartes.

Pour plus d'informations :Rubriques Procédure : onglet Graphique d'analyse de précision de l'exploration de données, Mappages de colonnes (Graphique de courbes d'élévation), Matrice de classification

Retour en haut

Voir aussi

Validation des modèles d'exploration de données

Outils de validation

Graphique de courbes d'élévation

Matrice de classification

Voir aussi

Concepts

Autres ressources

Aide et Informations

Ressources supplémentaires