Share via


Algoritmo Bayes naive de Microsoft

El algoritmo Bayes naive de Microsoft es un algoritmo de clasificación que proporciona Microsoft SQL Server 2005 Analysis Services (SSAS) para el modelado de predicción. Este algoritmo calcula la probabilidad condicional entre columnas de entrada y de predicción y supone que las columnas son independientes. Esta suposición de independencia implica, de manera un tanto ingenua en ocasiones, que este algoritmo no tiene en cuenta las dependencias que puedan existir.

Desde el punto de vista computacional, el algoritmo es menos complejo que otros algoritmos de Microsoft y, por tanto, resulta útil para generar rápidamente modelos de minería de datos para descubrir relaciones entre columnas de entrada y columnas de predicción. Puede utilizar este algoritmo para realizar exploraciones iniciales de datos y, más adelante, aplicar los resultados para crear modelos de minería de datos adicionales con otros algoritmos más complejos y precisos desde el punto de vista computacional.

Ejemplo

Como parte de su estrategia promocional, el departamento de comercialización de la empresa Adventure Works Cycles ha decidido atraer a posibles clientes realizando un envío por correo de folletos. Para reducir costos, desean enviar los folletos sólo a los clientes de los que esperan recibir respuesta. La empresa almacena información en una base de datos sobre datos demográficos y respuestas a envíos de correo anteriores. Desean utilizar estos datos para ver el modo en que los datos demográficos como la edad o la ciudad pueden ayudarles a predecir la respuesta a una promoción, comparando los clientes potenciales con los que tienen características similares y con los que han adquirido productos de la empresa en el pasado. En concreto, lo que desean es ver las diferencias entre los clientes que adquirieron una bicicleta y los que no lo hicieron.

Mediante el algoritmo Bayes naive de Microsoft, el departamento de comercialización pude predecir rápidamente un resultado de un perfil de cliente concreto y, por tanto, puede determinar qué clientes responderán a los folletos con más probabilidad. Con el Visor Bayes naive de Microsoft de Business Intelligence Development Studio, también pueden investigar visualmente qué columnas de entrada específicas contribuyen a conseguir respuestas positivas a los folletos.

Funcionamiento del algoritmo

El algoritmo Bayes naive de Microsoft calcula la probabilidad de cada estado de cada columna de entrada, dado cada posible estado de la columna de predicción. Puede utilizar el Visor Bayes naive de Microsoft en Business Intelligence Development Studio para consultar una representación visual del modo en que el algoritmo distribuye los estados, como se muestra en el siguiente gráfico.

Distribución de Bayes naive de estados

El Visor Bayes naive de Microsoft muestra las columnas de entrada del conjunto de datos e indica cómo se distribuyen los estados de cada columna, dado cada estado de la columna de predicción. Puede utilizar esta vista para identificar las columnas de entrada que son importantes diferenciando entre los estados de la columna de predicción. Por ejemplo, en la columna Commute Distance (distancia que se ha de recorrer) que se muestra, la probabilidad de que un cliente adquiera una bicicleta es de 0,387 si tiene que desplazarse una distancia de dos a tres kilómetros para ir al trabajo, mientras que la probabilidad de que no la adquiera es de 0,287 si no se tiene que desplazar. En este ejemplo, el algoritmo utiliza la información numérica derivada de un dato de cliente como la distancia entre el domicilio y el lugar de trabajo para predecir si un cliente compraría una bicicleta. Para obtener más información acerca de cómo utilizar el Visor Bayes naive de Microsoft, vea Ver un modelo de minería de datos con el Visor Bayes naive de Microsoft.

Usar el algoritmo

Un modelo Bayes naive debe contener una columna de clave, columnas de entrada y una columna de predicción. Todas las columnas deben ser discretas o discretizadas. Para obtener información acerca de la discretización de columnas, vea Métodos de discretización.

El algoritmo Bayes naive de Microsoft es compatible con los tipos de contenido de columna de entrada, tipos de contenido de columna de predicción e indicadores de modelado específicos que se enumeran en la siguiente tabla.

Tipos de contenido de columna de entrada

Cyclical, Discrete, Discretized, Key, Table y Ordered

Tipos de contenido de columna de predicción

Cyclical, Discrete, Discretized, Table y Ordered

Indicadores de modelado

MODEL_EXISTENCE_ONLY y NOT NULL

Todos los algoritmos de Microsoft son compatibles con un conjunto común de funciones. No obstante, el algoritmo Bayes naive de Microsoft admite las funciones adicionales que se enumeran en la siguiente tabla.

IsDescendant

PredictNodeId

PredictAdjustedProbability

PredictProbability

PredictAssociation

PredictSupport

PredictHistogram

Para consultar una lista de las funciones comunes a todos los algoritmos de Microsoft, vea Algoritmos de minería de datos. Para obtener más información acerca del modo de utilizar estas funciones, vea Referencia de funciones de Extensiones de minería de datos (DMX).

El algoritmo Bayes naive de Microsoft no admite el uso del lenguaje de marcado de modelos de predicción (PMML) para crear modelos de minería de datos.

El algoritmo Bayes naive de Microsoft es compatible con varios parámetros que influyen en el rendimiento y la precisión del modelo de minería de datos resultante. Estos parámetros se describen en la tabla siguiente.

Parámetro Descripción

MAXIMUM_INPUT_ATTRIBUTES

Especifica el número máximo de atributos de entrada que puede administrar el algoritmo antes de invocar la selección de características. Si este valor se establece en 0, se deshabilita la selección de características para atributos de entrada.

El valor predeterminado es 255.

MAXIMUM_OUTPUT_ATTRIBUTES

Especifica el número máximo de atributos de salida que puede administrar el algoritmo antes de invocar la selección de características. Si este valor se establece en 0, se deshabilita la selección de características para atributos de salida.

El valor predeterminado es 255.

MINIMUM_DEPENDENCY_PROBABILITY

Especifica la probabilidad de dependencia mínima entre los atributos de entrada y salida. Este valor se utiliza para limitar el tamaño del contenido generado por el algoritmo. Puede establecerse un valor de 0 a 1 para esta propiedad. Si se aumenta el valor, se reduce el número de atributos del modelo.

El valor predeterminado es 0,5.

MAXIMUM_STATES

Especifica el número máximo de estados de atributo que admite el algoritmo. Si el número de estados que tiene un atributo es mayor que el número máximo de estados, el algoritmo utiliza los estados más conocidos del atributo e interpreta que faltan los estados restantes.

El valor predeterminado es 100.

Vea también

Conceptos

Algoritmos de minería de datos
Métodos de discretización
Selección de características en minería de datos
Usar las herramientas de minería de datos
Ver un modelo de minería de datos con el Visor Bayes naive de Microsoft

Otros recursos

CREATE MINING MODEL (DMX)

Ayuda e información

Obtener ayuda sobre SQL Server 2005