Formules de validation croisée
Lorsque vous créez un rapport de validation croisée, il contient des mesures de précision pour chaque modèle, selon le type du modèle d'exploration de données (autrement dit, l'algorithme utilisé pour créer le modèle), le type de données de l'attribut prédictible et la valeur de l'attribut prédictible, le cas échéant.
Cette section répertorie les mesures utilisées dans le rapport de validation croisée et décrit la méthode de calcul.
Pour obtenir une répartition des mesures de précision par type de modèle, consultez Mesures dans le rapport de validation croisée.
Formules utilisées pour les mesures de validation croisée
[!REMARQUE]
Important : ces mesures de précision sont calculées pour chaque attribut cible. Pour chaque attribut, vous pouvez spécifier ou omettre une valeur cible. Si un cas dans le jeu de données n'a pas de valeur pour l'attribut cible, le cas est traité comme faisant appel à une valeur spéciale appelée valeur manquante. Les lignes qui ont des valeurs manquantes ne sont pas comptées lors du calcul de la mesure de précision pour un attribut cible particulier. Notez que, dans la mesure où les scores sont calculés individuellement pour chaque attribut, si des valeurs sont présentes pour l'attribut cible mais manquantes pour d'autres attributs, cela n'affecte pas le score pour l'attribut cible.
Mesure |
S'applique à |
Implémentation |
---|---|---|
Vrai positif |
Attribut discret, valeur spécifiée |
Nombre de cas qui remplissent ces conditions :
|
Vrai négatif |
Attribut discret, valeur spécifiée |
Nombre de cas qui remplissent ces conditions :
|
Faux positif |
Attribut discret, valeur spécifiée |
Nombre de cas qui remplissent ces conditions :
|
Faux négatif |
Attribut discret, valeur spécifiée |
Nombre de cas qui remplissent ces conditions :
|
Succès/échec |
Attribut discret, cible non spécifiée |
Nombre de cas qui remplissent ces conditions :
|
Finesse |
Attribut discret. La valeur cible peut être spécifiée, mais elle n'est pas requise. |
Vraisemblance moyenne du journal pour toutes les lignes avec des valeurs pour l'attribut cible, où la vraisemblance de journal de chaque cas est calculée en tant que Log(ActualProbability/MarginalProbability). Pour calculer la moyenne, la somme des valeurs de la vraisemblance du journal est divisée par le nombre de lignes dans le dataset d'entrée, à l'exclusion des lignes avec les valeurs manquantes pour l'attribut cible. La courbe d'élévation peut être une valeur négative ou positive. Une valeur positive signifie un modèle efficace qui devance l'estimation aléatoire. |
Score du journal |
Attribut discret. La valeur cible peut être spécifiée, mais elle n'est pas requise. |
Journal des valeurs de probabilité réelle pour chaque cas, additionnées, puis divisées par le nombre de lignes dans le jeu de données d'entrée, en excluant les lignes avec des valeurs manquantes pour l'attribut cible. Étant donné que la probabilité est représentée comme une fraction décimale, les scores du journal sont toujours un nombre négatif. Un score plus proche de 0 représente un meilleur score. |
Probabilité de cas |
Cluster |
Somme des scores de vraisemblance de cluster pour tous les cas de la partition, divisée par le nombre de cas dans la partition, en excluant les lignes avec des valeurs manquantes pour l'attribut cible. |
Erreur-type |
Attribut continu |
Somme de l'erreur absolue pour tous les cas de la partition, divisée par le nombre de cas dans la partition. |
Erreur-type |
Attribut continu |
Racine carrée de l'erreur-type pour la partition. |
Erreur-type |
Attribut discret. La valeur cible peut être spécifiée, mais elle n'est pas requise. |
Racine carrée de la moyenne des carrés du complément du score de probabilité, divisée par le nombre de cas dans la partition, en excluant les lignes avec des valeurs manquantes pour l'attribut cible. |
Erreur-type |
Attribut discret, cible non spécifiée |
Racine carrée de la moyenne des carrés du complément du score de probabilité, divisée par le nombre de cas dans la partition, en excluant les cas avec des valeurs manquantes pour l'attribut cible. |
Voir aussi
Concepts
Test et validation (exploration de données)
Validation croisée (Analysis Services - Exploration de données)