Artículo
03/30/2012

Algoritmo Bayes naive de Microsoft

El algoritmo Bayes naive de Microsoft es un algoritmo de clasificación que proporciona Microsoft SQL Server Analysis Services para el modelado de predicción. El nombre Bayes naive deriva del hecho de que el algoritmo usa el teorema de Bayes, pero no tiene en cuenta las dependencias que pudieran existir y, por consiguiente, se dice que sus suposiciones son ingenuas o "naive".

Desde el punto de vista computacional, el algoritmo es menos complejo que otros algoritmos de Microsoft y, por tanto, resulta útil para generar rápidamente modelos de minería de datos para descubrir relaciones entre columnas de entrada y columnas de predicción. Puede utilizar este algoritmo para realizar exploraciones iniciales de datos y, más adelante, aplicar los resultados para crear modelos de minería de datos adicionales con otros algoritmos más complejos y precisos desde el punto de vista computacional.

Ejemplo

Como parte de su estrategia promocional, el departamento de comercialización de la empresa Adventure Works Cycles ha decidido atraer a posibles clientes realizando un envío por correo de folletos. Para reducir costos, desean enviar los folletos sólo a los clientes de los que esperan recibir respuesta. La empresa almacena información en una base de datos sobre datos demográficos y respuestas a envíos de correo anteriores. Desean utilizar estos datos para ver el modo en que los datos demográficos como la edad o la ciudad pueden ayudarles a predecir la respuesta a una promoción, comparando los clientes potenciales con los que tienen características similares y con los que han adquirido productos de la empresa en el pasado. En concreto, lo que desean es ver las diferencias entre los clientes que adquirieron una bicicleta y los que no lo hicieron.

Mediante el algoritmo Bayes naive de Microsoft, el departamento de comercialización pude predecir rápidamente un resultado de un perfil de cliente concreto y, por tanto, puede determinar qué clientes responderán a los folletos con más probabilidad. Con el Visor Bayes naive de Microsoft de Business Intelligence Development Studio, también pueden investigar visualmente qué columnas de entrada específicas contribuyen a conseguir respuestas positivas a los folletos.

Funcionamiento del algoritmo

El algoritmo Bayes naive de Microsoft calcula la probabilidad de cada estado de cada columna de entrada, dado cada posible estado de la columna de predicción. Puede utilizar el Visor Bayes naive de Microsoft en Business Intelligence Development Studio para consultar una representación visual del modo en que el algoritmo distribuye los estados, como se muestra en el siguiente gráfico.

Distribución de Bayes naive de estados

El Visor Bayes naive de Microsoft muestra las columnas de entrada del conjunto de datos e indica cómo se distribuyen los estados de cada columna, dado cada estado de la columna de predicción. Puede usar esta vista para identificar las columnas de entrada que son importantes para diferenciar los distintos estados de la columna de predicción. Por ejemplo, en la columna Commute Distance (distancia que se ha de recorrer para llegar al trabajo), si el cliente tiene que desplazarse una distancia de dos a tres kilómetros, la probabilidad de que dicho cliente adquiera una bicicleta es de 0,387, mientras que la probabilidad de que no la adquiera es de 0,287. En este ejemplo, el algoritmo utiliza la información numérica derivada de un dato de cliente como la distancia entre el domicilio y el lugar de trabajo para predecir si un cliente compraría una bicicleta. Para obtener más información acerca de cómo utilizar el Visor Bayes naive de Microsoft, vea Ver un modelo de minería de datos con el Visor Bayes naive de Microsoft.

Datos requeridos para los modelos Bayes naive

Al preparar los datos para su uso en un modelo de entrenamiento Bayes naive, conviene comprender qué requisitos son imprescindibles para el algoritmo, incluidos el volumen de datos necesario y la forma en que estos datos se utilizan.

Los requisitos para un modelo Bayes naive son los siguientes:

Una columna de una sola clave: cada modelo debe contener una columna numérica o de texto que identifique cada registro de manera única. No están permitidas las claves compuestas.
Columnas de entrada: en un modelo Bayes naive, todas las columnas deben ser discretas o de datos discretos. Para obtener información acerca de las columnas de datos discretos, vea Métodos de discretización (minería de datos). En un modelo Bayes naive, es importante asegurarse de que los atributos de entrada sean independientes unos de otros.
Al menos una columna de predicción: el atributo de predicción debe contener valores discretos o discretizados. Los valores de la columna de predicción se pueden tratar como entrada y, a menudo, se usan para buscar las relaciones entre las columnas.

Ver el modelo

Para explorar el modelo, puede usar el Visor Bayes naive de Microsoft. El visor muestra cómo se relacionan los atributos de entrada con el atributo de predicción. El visor también proporciona un perfil detallado de cada clúster, una lista de los atributos que distinguen cada clúster de los demás, y las características del conjunto de datos de entrenamiento completo. Para obtener más información, vea Ver un modelo de minería de datos con el Visor Bayes naive de Microsoft.

Si desea conocer más detalles, puede examinar el modelo en Visor de árbol de contenido genérico de Microsoft (Diseñador de minería de datos). Para obtener más información sobre el tipo de información almacenado en el modelo, vea Contenido del modelo de minería de datos para los modelos Bayes naive (Analysis Services - Minería de datos).

Realizar predicciones

Una vez entrenado el modelo, los resultados se almacenan como un conjunto de patrones que se puede explorar o utilizar para realizar predicciones.

Puede crear consultas para devolver las predicciones sobre cómo se relacionan los nuevos datos con el atributo de predicción, o puede recuperar estadísticas que describan las correlaciones que ha hallado el modelo.

Para obtener información sobre cómo crear consultas en un modelo de minería de datos, vea Consultar modelos de minería de datos (Analysis Services - Minería de datos). Para obtener ejemplos de cómo usar las consultas con un modelo Bayes naive, vea Consultar un modelo Bayes naive (Analysis Services: minería de datos).

Notas

Admite el uso del lenguaje de marcado de modelos de predicción (PMML) para crear modelos de minería de datos.
Admite la obtención de detalles.
No admite la creación de dimensiones de minería de datos.
Admite el uso de modelos de minería de datos OLAP.