Algorithme MNB (Microsoft Naive Bayes)

S’applique à : SQL Server 2019 et versions antérieures d’Analysis Services Azure Analysis Services Fabric/Power BI Premium

Important

L’exploration de données a été déconseillée dans SQL Server 2017 Analysis Services et est à présent abandonnée dans SQL Server 2022 Analysis Services. La documentation n’est pas mise à jour pour les fonctionnalités déconseillées et abandonnées. Pour en savoir plus, consultez Compatibilité descendante d’Analysis Services.

L’algorithme Microsoft Naive Bayes est un algorithme de classification basé sur les théorèmes de Bayes et peut être utilisé pour la modélisation exploratoire et prédictive. Le terme Naïve dans le nom Naïve Bayes est dérivé du fait que l'algorithme utilise des techniques bayésiennes, mais ne prend pas en compte les dépendances qui peuvent exister.

Cet algorithme est moins informatiquement intense que d’autres algorithmes Microsoft, et est donc utile pour générer rapidement des modèles d’exploration de données afin de découvrir les relations entre les colonnes d’entrée et les colonnes prévisibles. Vous pouvez utiliser cet algorithme pour effectuer l'exploration initiale de données et appliquer ensuite les résultats pour créer des modèles d'exploration de données supplémentaires avec d'autres algorithmes qui sont informatiquement plus lourds et plus précis.

Exemple

Dans le cadre d'une stratégie promotionnelle continue, le service marketing de la société Adventure Works Cycle a décidé de cibler les clients potentiels en envoyant des prospectus. Afin de réduire les coûts de la campagne, ils ne veulent envoyer des prospectus qu'aux clients susceptibles de répondre. La société stocke des informations dans une base de données sur des statistiques démographiques et la réponse à un publipostage antérieur. Ils souhaitent utiliser ces données pour déterminer si les statistiques démographiques, telles que l'âge et la situation géographique, peuvent permettre de prédire la réponse à une promotion, en comparant les clients potentiels aux clients existants qui présentent des caractéristiques similaires. Plus particulièrement, ils veulent déterminer les différences entre les clients ayant acheté un vélo et ceux qui n'en ont pas acheté.

En utilisant l’algorithme Microsoft Naive Bayes, le service marketing peut rapidement prédire un résultat pour un profil client particulier et peut donc déterminer quels clients sont les plus susceptibles de répondre aux demandes. En utilisant la visionneuse Microsoft Naive Bayes dans SQL Server Data Tools, elle peut également examiner visuellement spécifiquement quelles colonnes d’entrée contribuent à des réponses positives aux flèches.

Fonctionnement de l'algorithme

L’algorithme Microsoft Naive Bayes calcule la probabilité de chaque état de chaque colonne d’entrée, compte tenu de chaque état possible de la colonne prévisible.

Pour comprendre comment cela fonctionne, utilisez la visionneuse Microsoft Naive Bayes dans SQL Server Data Tools (comme illustré dans le graphique suivant) pour explorer visuellement la façon dont l’algorithme distribue les états.

Naïve bayes distribution des états

Ici, la visionneuse Microsoft Naive Bayes répertorie chaque colonne d’entrée dans le jeu de données et montre comment les états de chaque colonne sont distribués, en fonction de chaque état de la colonne prévisible.

Vous utiliserez cette vue du modèle pour identifier les colonnes d'entrée qui jouent un rôle important dans la différenciation des états de la colonne prédictible.

Par exemple, dans la ligne de Commute Distance illustrée ici, la distribution des valeurs d’entrée est visiblement différente pour les acheteurs par rapport aux non-acheteurs. Cela vous indique que l'entrée, Commute Distance = 0-1 mile, est un prédicteur potentiel.

La visionneuse fournit également des valeurs pour les distributions. Vous pouvez ainsi voir que pour les clients qui effectuent un trajet de un à deux miles pour aller au travail, la probabilité qu’ils achètent un vélo est de 0,387, tandis que la probabilité qu’ils n’en achètent pas est de 0,287. Dans cet exemple, l'algorithme utilise les données numériques, provenant des caractéristiques du client (telles que la distance domicile-travail), pour prédire si un client va ou non acheter un vélo.

Pour plus d’informations sur l’utilisation de la visionneuse Microsoft Naive Bayes, consultez Parcourir un modèle à l’aide de la visionneuse Microsoft Naive Bayes.

Données requises pour les modèles Naive Bayes

Lorsque vous préparez des données à utiliser dans l’apprentissage d'un modèle Naive Bayes, vous devez vous familiariser avec les spécifications liées à l'algorithme, y compris la quantité de données requise et leur mode d'utilisation.

Les spécifications liées à un modèle Naive Bayes se présentent comme suit :

  • Colonne à index unique : chaque modèle doit contenir une colonne numérique ou une colonne de texte qui identifie de façon unique chaque enregistrement. Les clés composées ne sont pas autorisées.

  • Colonnes d’entrée Dans un modèle Naive Bayes, toutes les colonnes doivent être discrètes ou discrétisées. Pour plus d’informations sur la discrétisation des colonnes (bin), consultez Méthodes de discrétisation (exploration de données).

  • Les variables doivent être indépendantes. Pour un modèle Naive Bayes, il est également important de garantir que les attributs d'entrée sont indépendants les uns des autres. Cela est particulièrement important lorsque vous utilisez le modèle pour effectuer une prédiction. Si vous utilisez deux colonnes de données qui sont déjà étroitement liées, l’effet est de multiplier l’influence de ces colonnes, qui peuvent masquer d’autres facteurs qui influencent les résultats.

    Inversement, la capacité de l'algorithme à identifier les corrélations entre les variables est utile lorsque vous explorez un modèle ou un dataset, pour d'identifier les relations entre des entrées.

  • Au moins une colonne prévisible L’attribut prédictible doit contenir des valeurs discrètes ou discrétisées.

    Les valeurs de la colonne prédictible peuvent être traitées comme entrées. Cette approche peut être utile lorsque vous explorez un nouveau dataset, afin de rechercher des relations entre les colonnes.

Affichage du modèle

Pour explorer le modèle, vous pouvez utiliser la Visionneuse de l’algorithme MNB (Microsoft Naive Bayes). Elle illustre la manière dont les attributs d’entrée sont liés à l’attribut prédictible. Elle présente également un profil détaillé de chaque cluster, une liste des attributs qui permettent de distinguer les clusters les uns des autres, ainsi que les caractéristiques du jeu de données d'apprentissage complet. Pour plus d’informations, consultez Explorer un modèle à l’aide de la visionneuse de l’algorithme MNB (Microsoft Naive Bayes).

Si vous souhaitez en savoir plus, vous pouvez parcourir le modèle dans microsoft Generic Content Tree Viewer (Exploration de données). Pour plus d’informations sur le type d’informations stockées dans le modèle, consultez Contenu du modèle d’exploration de données pour les modèles Naive Bayes (Analysis Services - Exploration de données).

Élaboration de prédictions

Après l'apprentissage d'un modèle, les résultats sont stockés sous la forme d'un jeu de modèles que vous pouvez explorer ou utiliser pour effectuer des prédictions.

Vous pouvez créer des requêtes pour obtenir des prédictions sur la manière dont les nouvelles données sont liées à l'attribut prédictible, ou vous pouvez extraire des statistiques qui décrivent les corrélations recherchées par le modèle.

Pour plus d’informations sur la façon de créer des requêtes sur un modèle d’exploration de données, consultez Requêtes d’exploration de données. Pour obtenir des exemples montrant comment utiliser des requêtes avec un modèle Naive Bayes, consultez Exemples de requêtes de modèle Naive Bayes.

Remarques

  • Prend en charge l'utilisation du langage PMML (Predictive Model Markup Language) pour créer des modèles d'exploration de données.

  • Prend en charge l’extraction.

  • Ne prend pas en charge la création de dimensions d’exploration de données.

  • Prend en charge l'utilisation de modèles d'exploration de données OLAP.

Voir aussi

Algorithmes d'exploration de données (Analysis Services - Exploration de données)
Sélection des fonctionnalités (exploration de données)
Exemples de requêtes de modèle Naive Bayes
Contenu du modèle d'exploration de données pour les modèles Naive Bayes (Analysis Services - Exploration de données)
Références techniques relatives à l'algorithme MNB (Microsoft Naive Bayes)