Algoritmo Naïve Bayes da Microsoft

Artigo
07/30/2013

O algoritmo Naïve Bayes da Microsoft é um algoritmo de classificação baseado no teorema de Bayes e fornecido pelo Microsoft SQL Server Analysis Services para uso em modelagem de previsão. O nome naïve no nome Naïve Bayes foi atribuído pelo fato de o algoritmo usar técnicas Bayesianas, mas não considerar dependências que possam existir. Portanto, suas suposições são consideradas ingênuas. Para obter mais informações sobre métodos Bayesianos, consulte a Comunidade de Pesquisa da Microsoft.

Esse algoritmo é computacionalmente menos intenso de que outros algoritmos da Microsoft e, portanto, é útil para gerar modelos de mineração rapidamente para descobrir as relações entre as colunas de entrada e as colunas previsíveis. Você pode usar esse algoritmo para realizar exploração de dados iniciais, e em seguida, aplicar os resultados para criar modelos de mineração adicionais com outros algoritmos que são computacionalmente mais intensos e mais precisos.

Exemplo

Como estratégia promocional contínua, o departamento de marketing da empresa Adventure Works Cycle decidiu atingir clientes em potencial, enviando folhetos pelo correio. Para reduzir despesas, eles querem enviar folhetos apenas aos clientes que provavelmente irão responder. A empresa armazena as informações sobre dados demográficos e resposta a uma correspondência anterior em um banco de dados. Eles querem usar esses dados para ver como os dados demográficos, tais como idade e local, podem ajudar a prever a resposta a uma promoção, comparando clientes em potencial com clientes que têm características similares e que já compraram da empresa no passado. Especificamente, eles querem ver a diferença entre os clientes que compraram uma bicicleta e aqueles que não compraram.

Usando o algoritmo Naive Bayes da Microsoft, o departamento de marketing pode prever rapidamente o resultado do perfil de um cliente específico e, portanto, determinar os clientes que mais provavelmente irão responder aos folhetos. Usando o Visualizador do Naive Bayes da Microsoft no SSDT (SQL Server Data Tools), eles podem especificamente investigar visualmente as colunas de entrada que contribuem para respostas positivas aos folhetos.

Como o algoritmo funciona

O algoritmo Naive Bayes da Microsoft calcula a probabilidade do estado de cada coluna de entrada, uma vez proporcionado cada possível estado da coluna previsível.

Para entender como isso funciona, use o Visualizador do Naive Bayes da Microsoft no SSDT (SQL Server Data Tools) (conforme mostrado no gráfico a seguir) para explorar visualmente como o algoritmo distribui estados.

Distribuição de naive bayes de estados

Aqui, o Visualizador Naive Bayes da Microsoft lista cada coluna de entrada no conjunto de dados e mostra como os estados de cada coluna são distribuídos, uma vez proporcionado cada estado da coluna previsível.

Você poderia usar essa exibição do modelo para identificar as colunas de entrada que são importantes para diferenciar estados da coluna previsível.

Por exemplo, na linha para Distância do Trabalho mostrada aqui, a distribuição de valores de entrada é visivelmente diferente para compradores versus não compradores. O que isso diz é que a entrada, Distância do Trabalho = 0-1 milhas, é um indicador potencial.

O visualizador também fornece valores para as distribuições, para que você possa ver isso para os clientes que se deslocam até duas milhas para trabalhar, a probabilidade de ele comprar uma bicicleta é 0,387 e a de ele não comprar é 0,287. Nesse exemplo, o algoritmo usa as informações numéricas, derivadas das características do cliente (tais como a distância do trabalho), para prever se o cliente comprará a bicicleta.

Para obter mais informações sobre o uso do Visualizador Naive Bayes da Microsoft, consulte Procurar um modelo usando o Visualizador do Microsoft Naive Bayes.

Dados necessários para modelos Naive Bayes

Ao preparar dados para usar no treinamento de um modelo Naive Bayes, você deve compreender os requisitos do algoritmo, incluindo a quantidade de dados necessária, e a forma que os dados são usados.

Os requisitos para um modelo Naive Bayes são os seguintes:

Uma única coluna de chave Cada modelo deve conter uma coluna de texto ou numérica que identifique unicamente cada registro. Chaves compostas não são permitidas.
Colunas de entrada Em um modelo Naive Bayes, todas as colunas devem ser discretas ou diferenciadas. Para obter mais informações sobre a diferenciação de colunas, consulte Métodos de discretização (mineração de dados).

Além disso, também é importante assegurar que os atributos de entrada sejam independentes uns dos outros. Isto é particularmente importante quando você usa o modelo para previsão.

A razão é que, se você usar duas colunas de dados que já estão intimamente relacionadas, o efeito seria multiplicar a influência dessas colunas, que podem obscurecer outros fatores que influenciam o resultado.

De maneira recíproca, a capacidade de o algoritmo identificar correlações entre variáveis é útil quando você está explorando um modelo ou conjunto de dados, para identificar relações entre entradas.
Pelo menos uma coluna previsível O atributo previsível deve conter valores discretos ou diferenciados.

Os valores da coluna previsível podem ser tratados como entradas. Esta prática pode ser útil quando você está explorando um novo conjunto de dados, para localizar relações entre as colunas.

Exibindo o modelo

Para explorar o modelo, você pode usar o Visualizador Naive Bayes da Microsoft. O visualizador mostra a você como os atributos de entrada se relacionam com o atributo previsível. Ele também fornece um perfil detalhado para cada clusters, uma lista dos atributos que distinguem cada um dos clusters e as características de todo o conjunto de dados de treinamento. Para obter mais informações, consulte Procurar um modelo usando o Visualizador do Microsoft Naive Bayes.

Se você quiser obter mais detalhes, poderá procurar o modelo no Visualizador de árvore de conteúdo genérica da Microsoft (Mineração de Dados). Para obter mais detalhes sobre o tipo de informações armazenadas no modelo, consulte Conteúdo do modelo de mineração para modelos Naive Bayes (Analysis Services – Mineração de Dados).

Fazendo previsões

Depois que o modelo tiver sido treinado, os resultados serão armazenados como um conjunto de padrões, que você poderá explorar ou usar para realizar previsões.

Você pode criar consultas para retornar previsões sobre como novos dados se relacionam com o atributo previsível ou pode recuperar estatísticas que descrevem as correlações encontradas pelo modelo.

Para obter informações sobre como criar consultas com base em um modelo de mineração de dados, consulte Consultas de mineração de dados. Para obter exemplos de como usar consultas com um modelo Naive Bayes, consulte Exemplos de consulta de modelo Naive Bayes.

Comentários

Suporta o uso de PMML (Predictive Model Markup Language) para criar modelos de mineração.
Dá suporte ao detalhamento.
Não suporta a criação de dimensões de mineração de dados.
Suporta o uso de modelos de mineração OLAP.