Algoritmo Bayes naive de Microsoft

Artículo
12/15/2008

El algoritmo Bayes naive de Microsoft es un algoritmo de clasificación que proporciona Microsoft SQL Server 2005 Analysis Services (SSAS) para el modelado de predicción. Este algoritmo calcula la probabilidad condicional entre columnas de entrada y de predicción y supone que las columnas son independientes. Esta suposición de independencia implica, de manera un tanto ingenua en ocasiones, que este algoritmo no tiene en cuenta las dependencias que puedan existir.

Desde el punto de vista computacional, el algoritmo es menos complejo que otros algoritmos de Microsoft y, por tanto, resulta útil para generar rápidamente modelos de minería de datos para descubrir relaciones entre columnas de entrada y columnas de predicción. Puede utilizar este algoritmo para realizar exploraciones iniciales de datos y, más adelante, aplicar los resultados para crear modelos de minería de datos adicionales con otros algoritmos más complejos y precisos desde el punto de vista computacional.

Ejemplo

Como parte de su estrategia promocional, el departamento de comercialización de la empresa Adventure Works Cycles ha decidido atraer a posibles clientes realizando un envío por correo de folletos. Para reducir costos, desean enviar los folletos sólo a los clientes de los que esperan recibir respuesta. La empresa almacena información en una base de datos sobre datos demográficos y respuestas a envíos de correo anteriores. Desean utilizar estos datos para ver el modo en que los datos demográficos como la edad o la ciudad pueden ayudarles a predecir la respuesta a una promoción, comparando los clientes potenciales con los que tienen características similares y con los que han adquirido productos de la empresa en el pasado. En concreto, lo que desean es ver las diferencias entre los clientes que adquirieron una bicicleta y los que no lo hicieron.

Mediante el algoritmo Bayes naive de Microsoft, el departamento de comercialización pude predecir rápidamente un resultado de un perfil de cliente concreto y, por tanto, puede determinar qué clientes responderán a los folletos con más probabilidad. Con el Visor Bayes naive de Microsoft de Business Intelligence Development Studio, también pueden investigar visualmente qué columnas de entrada específicas contribuyen a conseguir respuestas positivas a los folletos.

Funcionamiento del algoritmo

El algoritmo Bayes naive de Microsoft calcula la probabilidad de cada estado de cada columna de entrada, dado cada posible estado de la columna de predicción. Puede utilizar el Visor Bayes naive de Microsoft en Business Intelligence Development Studio para consultar una representación visual del modo en que el algoritmo distribuye los estados, como se muestra en el siguiente gráfico.

Distribución de Bayes naive de estados

El Visor Bayes naive de Microsoft muestra las columnas de entrada del conjunto de datos e indica cómo se distribuyen los estados de cada columna, dado cada estado de la columna de predicción. Puede utilizar esta vista para identificar las columnas de entrada que son importantes diferenciando entre los estados de la columna de predicción. Por ejemplo, en la columna Commute Distance (distancia que se ha de recorrer) que se muestra, la probabilidad de que un cliente adquiera una bicicleta es de 0,387 si tiene que desplazarse una distancia de dos a tres kilómetros para ir al trabajo, mientras que la probabilidad de que no la adquiera es de 0,287 si no se tiene que desplazar. En este ejemplo, el algoritmo utiliza la información numérica derivada de un dato de cliente como la distancia entre el domicilio y el lugar de trabajo para predecir si un cliente compraría una bicicleta. Para obtener más información acerca de cómo utilizar el Visor Bayes naive de Microsoft, vea Ver un modelo de minería de datos con el Visor Bayes naive de Microsoft.

Usar el algoritmo

Un modelo Bayes naive debe contener una columna de clave, columnas de entrada y una columna de predicción. Todas las columnas deben ser discretas o discretizadas. Para obtener información acerca de la discretización de columnas, vea Métodos de discretización.

El algoritmo Bayes naive de Microsoft es compatible con los tipos de contenido de columna de entrada, tipos de contenido de columna de predicción e indicadores de modelado específicos que se enumeran en la siguiente tabla.

Tipos de contenido de columna de entrada	Cyclical, Discrete, Discretized, Key, Table y Ordered
Tipos de contenido de columna de predicción	Cyclical, Discrete, Discretized, Table y Ordered
Indicadores de modelado	MODEL_EXISTENCE_ONLY y NOT NULL

Todos los algoritmos de Microsoft son compatibles con un conjunto común de funciones. No obstante, el algoritmo Bayes naive de Microsoft admite las funciones adicionales que se enumeran en la siguiente tabla.

IsDescendant	PredictNodeId
PredictAdjustedProbability	PredictProbability
PredictAssociation	PredictSupport
PredictHistogram

Para consultar una lista de las funciones comunes a todos los algoritmos de Microsoft, vea Algoritmos de minería de datos. Para obtener más información acerca del modo de utilizar estas funciones, vea Referencia de funciones de Extensiones de minería de datos (DMX).

El algoritmo Bayes naive de Microsoft no admite el uso del lenguaje de marcado de modelos de predicción (PMML) para crear modelos de minería de datos.

El algoritmo Bayes naive de Microsoft es compatible con varios parámetros que influyen en el rendimiento y la precisión del modelo de minería de datos resultante. Estos parámetros se describen en la tabla siguiente.

Parámetro	Descripción
MAXIMUM_INPUT_ATTRIBUTES	Especifica el número máximo de atributos de entrada que puede administrar el algoritmo antes de invocar la selección de características. Si este valor se establece en 0, se deshabilita la selección de características para atributos de entrada. El valor predeterminado es 255.
MAXIMUM_OUTPUT_ATTRIBUTES	Especifica el número máximo de atributos de salida que puede administrar el algoritmo antes de invocar la selección de características. Si este valor se establece en 0, se deshabilita la selección de características para atributos de salida. El valor predeterminado es 255.
MINIMUM_DEPENDENCY_PROBABILITY	Especifica la probabilidad de dependencia mínima entre los atributos de entrada y salida. Este valor se utiliza para limitar el tamaño del contenido generado por el algoritmo. Puede establecerse un valor de 0 a 1 para esta propiedad. Si se aumenta el valor, se reduce el número de atributos del modelo. El valor predeterminado es 0,5.
MAXIMUM_STATES	Especifica el número máximo de estados de atributo que admite el algoritmo. Si el número de estados que tiene un atributo es mayor que el número máximo de estados, el algoritmo utiliza los estados más conocidos del atributo e interpreta que faltan los estados restantes. El valor predeterminado es 100.

Vea también

Share via

Algoritmo Bayes naive de Microsoft

Ejemplo

Funcionamiento del algoritmo

Usar el algoritmo

Vea también

Conceptos

Otros recursos

Ayuda e información

Recursos adicionales