Algorithme MNB (Microsoft Naive Bayes)

L'algorithme MNB (Microsoft Naive Bayes) est un algorithme de classification fourni par Microsoft SQL Server Analysis Services qui est conçu pour la modélisation prédictive. Le nom Naive Bayes découle du fait que l’algorithme utilise le théorème de Bayes sans toutefois prendre en compte les dépendances existantes ; de ce fait, ses suppositions sont dites naïves.

Cet algorithme est informatiquement moins lourd que d'autres algorithmes Microsoft et est, par conséquent, utile pour générer rapidement des modèles d'exploration de données permettant de découvrir les relations entre les colonnes d'entrée et les colonnes prédictibles. Vous pouvez utiliser cet algorithme pour effectuer des explorations initiales de données et appliquer ensuite les résultats pour créer des modèles d'exploration de données supplémentaires avec d'autres algorithmes qui sont informatiquement plus lourds et plus précis.

Exemple

Dans le cadre d'une stratégie promotionnelle continue, le service marketing de la société Adventure Works Cycle a décidé de cibler les clients potentiels en envoyant des prospectus. Afin de réduire les coûts de la campagne, ils ne veulent envoyer des prospectus qu'aux clients susceptibles de répondre. La société stocke des informations dans une base de données sur des statistiques démographiques et la réponse à un publipostage antérieur. Ils souhaitent utiliser ces données pour déterminer si les statistiques démographiques, telles que l'âge et la situation géographique, peuvent permettre de prédire la réponse à une promotion, en comparant les clients potentiels aux clients existants qui présentent des caractéristiques similaires. Plus particulièrement, ils veulent déterminer les différences entre les clients ayant acheté un vélo et ceux qui n'en ont pas acheté.

En utilisant l'algorithme MNB (Microsoft Naive Bayes), le service marketing peut rapidement prédire un résultat pour un profil de client spécifique et peut ainsi déterminer quels clients sont les plus susceptibles de répondre aux prospectus. En utilisant la Visionneuse de l'algorithme MNB (Microsoft Naive Bayes) de Business Intelligence Development Studio, le service marketing peut aussi identifier visuellement les colonnes d'entrée contribuant aux réponses positives aux prospectus.

Fonctionnement de l'algorithme

L'algorithme MNB (Microsoft Naive Bayes) calcule la probabilité de tous les états de chaque colonne d'entrée, en fonction de chaque état possible de la colonne prédictible. Vous pouvez utiliser la Visionneuse de l'algorithme MNB (Microsoft Naive Bayes) dans Business Intelligence Development Studio pour voir comment l'algorithme distribue les états, comme le montre le graphique suivant.

Distribution de l'algorithme MNB (Microsoft Naive Bayes) des états

La Visionneuse de l'algorithme MNB (Microsoft Naive Bayes) répertorie chacune des colonnes d'entrée du jeu de données et montre comment les états de chaque colonne sont distribués, en fonction de chaque état de la colonne prédictible. Vous pouvez utiliser cette vue pour identifier les colonnes d'entrée qui jouent un rôle important dans la différenciation des états de la colonne prévisible. Par exemple, dans la colonne Distance domicile-travail illustrée, si le client habite de 1,5 à 3 kilomètres de son travail, sa probabilité d’achat d’un vélo est de 0,387 tandis que sa probabilité de non-achat d’un vélo est de 0,287. Dans cet exemple, l'algorithme utilise les données numériques, provenant des caractéristiques du client telles que la distance domicile-travail, pour prédire si un client va ou non acheter un vélo. Pour plus d'informations sur l'utilisation de la Visionneuse de l'algorithme MNB (Microsoft Naive Bayes), consultez Affichage d'un modèle d'exploration de données à l'aide de la Visionneuse de l'algorithme MNB (Microsoft Naive Bayes).

Données requises pour les modèles Naive Bayes

Lorsque vous préparez des données à utiliser dans l’apprentissage d'un modèle Naive Bayes, vous devez vous familiariser avec les spécifications liées à l'algorithme, y compris la quantité de données requise et leur mode d'utilisation.

Les spécifications liées à un modèle Naive Bayes se présentent comme suit :

  • Colonne à index unique   Chaque modèle doit contenir une colonne numérique ou une colonne de texte qui identifie de façon unique chaque enregistrement. Les clés composées ne sont pas autorisées.

  • Colonnes d'entrée   Dans un modèle Naive Bayes, toutes les colonnes doivent être discrètes ou discrétisées. Pour plus d'informations sur la discrétisation des colonnes, consultez Méthodes de discrétisation (exploration de données). Pour un modèle Naive Bayes, il est important de garantir que les attributs d'entrée sont indépendants les uns des autres.

  • Au moins une colonne prévisible    L'attribut prévisible doit contenir des valeurs discrètes ou discrétisées. Les valeurs de la colonne prévisible peuvent être traitées comme entrée et elles le sont fréquemment pour trouver des relations dans les colonnes.

Affichage du modèle

Pour explorer le modèle, vous pouvez utiliser la Visionneuse de l'algorithme MNB (Microsoft Naive Bayes). Elle illustre la manière dont les attributs d'entrée sont liés à l'attribut prévisible. Elle présente également un profil détaillé de chaque cluster, une liste des attributs qui permettent de distinguer les clusters les uns des autres, ainsi que les caractéristiques du jeu de données d'apprentissage complet. Pour plus d'informations, consultez Affichage d'un modèle d'exploration de données à l'aide de la Visionneuse de l'algorithme MNB (Microsoft Naive Bayes).

Si vous voulez en savoir plus, vous pouvez parcourir le modèle dans la Visionneuse de l'arborescence de contenu générique Microsoft (Concepteur d'exploration de données). Pour plus d'informations sur le type d’informations stockées dans le modèle, consultez Contenu du modèle d'exploration de données pour les modèles Naive Bayes (Analysis Services - Exploration de données).

Élaboration de prédictions

Après l'apprentissage d'un modèle, les résultats sont stockés sous la forme d'un jeu de motifs que vous pouvez explorer ou utiliser pour effectuer des prédictions.

Vous pouvez créer des requêtes pour obtenir des prédictions sur la manière dont les nouvelles données sont liées à l'attribut prévisible, ou vous pouvez extraire des statistiques qui décrivent les corrélations recherchées par le modèle.

Pour plus d'informations sur la création de requêtes sur un modèle d'exploration de données, consultez Interrogation de modèles d'exploration de données (Analysis Services - Exploration de données). Pour obtenir des exemples d'utilisation de requêtes avec un modèle Naive Bayes, consultez Interrogation d'un modèle Naive Bayes (Analysis Services - Exploration de données).

Remarques

  • Prend en charge l'utilisation du langage PMML (Predictive Model Markup Language) pour créer des modèles d'exploration de données.

  • Prend en charge l’extraction.

  • Ne prend pas en charge la création de dimensions d’exploration de données.

  • Prend en charge l'utilisation de modèles d'exploration de données OLAP.