Références techniques relatives à l'algorithme MNB (Microsoft Naive Bayes)

Article
12/23/2023

S’applique à : SQL Server 2019 et versions antérieures d’Analysis Services Azure Analysis Services Fabric/Power BI Premium

Important

L’exploration de données a été déconseillée dans SQL Server 2017 Analysis Services et est à présent abandonnée dans SQL Server 2022 Analysis Services. La documentation n’est pas mise à jour pour les fonctionnalités déconseillées et abandonnées. Pour en savoir plus, consultez Compatibilité descendante d’Analysis Services.

L’algorithme Microsoft Naive Bayes est un algorithme de classification fourni par Microsoft SQL Server SQL Server Analysis Services pour une utilisation dans la modélisation prédictive. Cet algorithme calcule la probabilité conditionnelle entre les colonnes d'entrée et les colonnes prédictibles, et suppose que les colonnes sont indépendantes. Naive Bayes tire son nom de cette hypothèse d'indépendance.

Implémentation de l'algorithme MNB (Microsoft Naive Bayes)

Cet algorithme est moins intense en termes de calcul que d’autres algorithmes Microsoft. Il est donc utile pour générer rapidement des modèles d’exploration de données afin de découvrir les relations entre les colonnes d’entrée et les colonnes prévisibles. L'algorithme prend en considération chaque paire de valeurs d'attribut d'entrée et valeurs d'attribut de sortie.

La description des propriétés mathématiques du théorème de Bayes n’est pas traitée dans cette documentation. Pour plus d’informations, consultez le document Microsoft Research intitulé Réseaux bayésiens : connaissance et données statistiques.

Pour obtenir une description de la façon dont les probabilités dans tous les modèles sont ajustées pour tenir compte des valeurs manquantes potentielles, consultez Valeurs manquantes (Analysis Services - Exploration de données).

Sélection de caractéristiques

L’algorithme Microsoft Naive Bayes effectue la sélection automatique des fonctionnalités pour limiter le nombre de valeurs prises en compte lors de la génération du modèle. Pour plus d’informations, consultez Sélection de fonctionnalités (exploration de données).

Algorithm	Méthode d'analyse	Commentaires
Naive Bayes	Entropie de Shannon Bayésien avec a priori K2 Équivalent bayésien de Dirichlet avec a priori uniforme (par défaut)	L'algorithme Naive Bayes accepte uniquement les attributs discrets ou discrétisés ; par conséquent, il ne peut pas utiliser le score d'intérêt et de pertinence.

L'algorithme est conçu pour réduire le temps de traitement et sélectionner efficacement les attributs qui ont la plus grande importance. Toutefois, vous peut contrôler les données utilisées par l'algorithme en définissant des paramètres comme suit :

Pour limiter les valeurs utilisées comme entrées, réduisez la valeur de MAXIMUM_INPUT_ATTRIBUTES.
Pour limiter le nombre d'attributs analysés par le modèle, réduisez la valeur de MAXIMUM_OUTPUT_ATTRIBUTES.
Pour limiter le nombre de valeurs qui peuvent être prise en considération pour n'importe quel attribut, réduisez la valeur de MINIMUM_STATES.

Personnalisation de l'algorithme Naive Bayes

L’algorithme Microsoft Naive Bayes prend en charge plusieurs paramètres qui affectent le comportement, les performances et la précision du modèle d’exploration de données résultant. Vous pouvez également définir des indicateurs de modélisation sur les colonnes du modèle pour contrôler le mode de traitement des données ou sur la structure d'exploration de données por spécifier la gestion des valeurs manquantes ou Null.

Définition des paramètres de l'algorithme

L’algorithme Microsoft Naive Bayes prend en charge plusieurs paramètres qui affectent les performances et la précision du modèle d’exploration de données résultant. La table ci-dessous décrit chaque paramètre.

MAXIMUM_INPUT_ATTRIBUTES
Spécifie le nombre maximal d'attributs d'entrée que l'algorithme peut traiter avant d'appeler la sélection des fonctionnalités. La valeur 0 désactive la sélection des fonctionnalités pour les attributs d'entrée.

La valeur par défaut est 255.

MAXIMUM_OUTPUT_ATTRIBUTES
Spécifie le nombre maximal d'attributs de sortie que l'algorithme peut traiter avant d'appeler la sélection des fonctionnalités. La valeur 0 désactive la sélection des fonctionnalités pour les attributs de sortie.

La valeur par défaut est 255.

MINIMUM_DEPENDENCY_PROBABILITY
Spécifie la probabilité de dépendance minimale entre les attributs d'entrée et les attributs de sortie. Cette valeur sert à limiter la taille du contenu généré par l'algorithme. Cette propriété peut être définie entre 0 et 1. Les plus grandes valeurs réduisent le nombre d'attributs dans le contenu du modèle.

La valeur par défaut est 0.5.

MAXIMUM_STATES
Spécifie le nombre maximal d'états d'attribut que l'algorithme prend en charge. Si le nombre d’états d’un attribut est supérieur au nombre maximal d’états, l’algorithme utilise les états les plus populaires de l’attribut et traite les états restants comme manquants.

La valeur par défaut est 100.

Indicateurs de modélisation

L’algorithme Microsoft Decision Trees prend en charge les indicateurs de modélisation suivants. Lorsque vous créez la structure d'exploration de données ou le modèle d'exploration de données, vous définissez des indicateurs de modélisation pour spécifier la façon dont les valeurs de chaque colonne sont gérées pendant l'analyse. Pour plus d’informations, consultez Indicateurs de modélisation (exploration de données).

Indicateur de modélisation	Description
MODEL_EXISTENCE_ONLY	Signifie que la colonne sera considérée comme ayant deux états possibles : manquant et existant. Une valeur NULL est une valeur manquante. S'applique à la colonne de modèle d'exploration de données.
NOT NULL	Indique que la colonne ne peut pas contenir de valeur Null. Une erreur est générée si Analysis Services rencontre une valeur NULL au cours de l'apprentissage du modèle. S'applique à la colonne de structure d'exploration de données.

Configuration requise

Un modèle d'arbre Naive Bayes doit contenir une colonne clé, au moins un attribut prédictible et au moins un attribut d'entrée. Aucun attribut ne peut être continu ; si vos données contiennent des données numériques continues, elles seront ignorées ou discrétisées.

Colonnes d'entrée et prédictibles

L’algorithme Microsoft Naive Bayes prend en charge les colonnes d’entrée spécifiques et les colonnes prédictibles répertoriées dans le tableau suivant. Pour plus d’informations sur la signification des types de contenu lorsqu’ils sont utilisés dans un modèle d’exploration de données, consultez Types de contenu (exploration de données).

Colonne	Types de contenu
Attribut d'entrée	Cyclique, Discret, Discrétisé, Clé, Table et Trié
Attribut prédictible	Cyclique, Discret, Discrétisé, Table et Trié

Notes

Les types de contenu Cyclique et Trié sont pris en charge, mais l'algorithme les traite comme des valeurs discrètes et n'effectue pas de traitement spécial.

Voir aussi

Algorithme MNB (Microsoft Naive Bayes)
Exemples de requêtes de modèle Naive Bayes
Contenu du modèle d'exploration de données pour les modèles Naive Bayes (Analysis Services - Exploration de données)