Artículo
09/29/2010

Algoritmo de asociación de Microsoft

Este algoritmo de Microsoft es un algoritmo de asociación suministrado por Analysis Services, útil para los motores de recomendación. Un motor de recomendación recomienda productos a los clientes basándose en los elementos que ya han adquirido o en los que tienen interés. El algoritmo de asociación de Microsoft también resulta útil para el análisis de la cesta de compra. Para obtener un ejemplo sobre el análisis de la cesta de la compra, vea Lección 3: Generar un escenario de cesta de la compra (Tutorial intermedio de minería de datos) en el tutorial de minería de datos.

Los modelos de asociación se generan basándose en conjuntos de datos que contienen identificadores para casos individuales y para los elementos que contienen los casos. Un grupo de elementos de un caso se denomina un conjunto de elementos. Un modelo de asociación se compone de una serie de conjuntos de elementos y de las reglas que describen cómo estos elementos se agrupan dentro de los casos. Las reglas que el algoritmo identifica pueden utilizarse para predecir las probables compras de un cliente en el futuro, basándose en los elementos existentes en la cesta de compra actual del cliente. El siguiente diagrama muestra una serie de reglas en un conjunto de elementos.

Conjunto de reglas de un modelo de asociación

Como muestra el diagrama, el algoritmo de asociación de Microsoft puede encontrar potencialmente muchas reglas dentro de un conjunto de datos. El algoritmo usa dos parámetros, soporte y probabilidad, para describir los conjuntos de elementos y las reglas que genera. Por ejemplo, si X e Y representan dos elementos que pueden formar parte de la cesta de la compra, el parámetro de soporte es el número de casos del conjunto de datos que contienen la combinación de ambos elementos, X e Y. Mediante el uso del parámetro de soporte en combinación con los parámetros MINIMUM_SUPPORT y MAXIMUM_SUPPORT, definidos por el usuario, el algoritmo controla el número de conjuntos de elementos que se generan. El parámetro de probabilidad, también denominado parámetro de confianza, representa la fracción de casos del conjunto de datos que contiene X y que también contiene Y. Mediante el uso del parámetro de probabilidad en combinación con el parámetro MINIMUM_PROBABILITY, el algoritmo controla el número de reglas que se generan.

Ejemplo

La empresa Adventure Works Cycle está rediseñando la funcionalidad de su sitio web. El objetivo del nuevo diseño es incrementar la venta directa de sus productos. Debido a que la empresa registra cada venta en una base de datos transaccional, se puede utilizar el algoritmo de asociación de Microsoft para identificar los conjuntos de productos que suelen adquirirse juntos. Así, se pueden predecir los elementos adicionales en los que un cliente puede estar interesado basándose en los elementos que ya se encuentran en su cesta de la compra.

Cómo funciona el algoritmo

El algoritmo de asociación de Microsoft recorre un conjunto de datos para hallar elementos que aparezcan juntos en un caso. A continuación, agrupa en conjuntos de elementos todos los elementos asociados que aparecen, como mínimo, en el número de casos especificado en el parámetro MINIMUM_SUPPORT. Por ejemplo, un conjunto de elementos puede ser "Mountain 200=Existing, Sport 100=Existing", y puede tener un soporte de 710. El algoritmo generará reglas a partir de los conjuntos de elementos. Estas reglas se usan para predecir la presencia de un elemento en la base de datos, basándose en la presencia de otros elementos específicos que el algoritmo ha identificado como importantes. Por ejemplo, una regla puede ser "if Touring 1000=existing and Road bottle cage=existing, then Water bottle=existing", y puede tener una probabilidad de 0.812. En este ejemplo, el algoritmo identifica que la presencia en la cesta del neumático Touring 1000 y del soporte de la botella de agua predice que probablemente la cesta de compra incluirá también una botella de agua.

Para obtener una explicación más detallada del algoritmo, junto con una lista de los parámetros que permiten personalizar su comportamiento y controlar los resultados en el modelo de minería de datos, vea Referencia técnica del algoritmo de asociación de Microsoft.

Datos requeridos para los modelos de asociación

Al preparar los datos para su uso en un modelo de reglas de asociación, conviene comprender qué requisitos son imprescindibles para el algoritmo concreto, incluidos el volumen de datos necesario y la forma en que estos datos se utilizan.

Los requisitos para un modelo de reglas de asociación son los siguientes:

Una única columna key Cada modelo debe contener una columna numérica o de texto que identifique cada registro de manera única. No están permitidas las claves compuestas.
Una única columna de predicción Un modelo de asociación sólo puede tener una columna de predicción. Normalmente, se trata de la columna de clave de la tabla anidada, como el campo que contiene los productos que se han comprado. Los valores deben ser discretos o discretizados.
Columnas de entrada Las columnas de entrada deben ser discretas. Los datos de entrada de un modelo de asociación suelen encontrarse en dos tablas. Por ejemplo, una tabla puede contener la información del cliente y la otra las compras de ese cliente. Es posible incluir estos datos en el modelo mediante el uso de una tabla anidada. Para obtener más información sobre las tablas anidadas, vea Tablas anidadas (Analysis Services - Minería de datos).

Para obtener información más detallada sobre los tipos de contenido y los tipos de datos compatibles con los modelos de asociación, vea la sección Requisitos de Referencia técnica del algoritmo de asociación de Microsoft.

Ver un modelo de asociación

Para explorar el modelo, puede utilizar el Visor de asociación de Microsoft. Cuando se observa un modelo de asociación, Analysis Services presenta las correlaciones desde distintos ángulos para que se puedan comprender mejor las relaciones y las reglas halladas en los datos. El panel Conjunto de elementos del visor proporciona un análisis detallado de las combinaciones o los conjuntos de elementos más comunes. El panel Reglas presenta una lista de las reglas que se han generalizado a partir de los datos, agrega cálculos de probabilidad y otorga un rango a las reglas según su importancia relativa. El visor de redes de dependencias permite explorar visualmente el modo en que se conectan diferentes elementos individuales. Para obtener más información, vea Ver un modelo de minería de datos con el Visor de clústeres de Microsoft.

Si desea obtener más detalles sobre cualquiera de los conjuntos de elementos y reglas, puede examinar el modelo en el Visor de árbol de contenido genérico de Microsoft. El contenido almacenado para el modelo incluye el soporte para cada conjunto de elementos, una puntuación para cada regla y otras estadísticas. Para obtener más información, vea Contenido del modelo de minería de datos para los modelos de asociación (Analysis Services - Minería de datos).

Crear predicciones

Una vez procesado el modelo, puede utilizar las reglas y los conjuntos de elementos para realizar predicciones. En un modelo de asociación, una predicción indica qué elemento es probable que se produzca dada la presencia del elemento especificado, y la predicción puede incluir información como la probabilidad, el soporte o la importancia. Para obtener ejemplos de cómo crear consultas en un modelo de asociación, vea Consultar un modelo de asociación (Analysis Services - Minería de datos).

Para obtener información general sobre cómo crear una consulta en un modelo de minería de datos, vea Consultar modelos de minería de datos (Analysis Services - Minería de datos).

Rendimiento

El proceso de crear conjuntos de elementos y contar las correlaciones puede llevar mucho tiempo. Aunque el algoritmo Reglas de asociación de Microsoft utiliza técnicas de optimización para ahorrar espacio y agilizar el procesamiento, es conveniente saber que se pueden presentar problemas de rendimiento en determinadas circunstancias como las que se mencionan a continuación:

El conjunto de datos es grande y tiene muchos elementos individuales.
El tamaño mínimo establecido para el conjunto de elementos es demasiado pequeño.

Para minimizar el tiempo de procesamiento y reducir la complejidad de los conjuntos de elementos, se puede intentar agrupar en categorías los elementos relacionados antes de analizar los datos.

Observaciones

No admite el uso del lenguaje de marcado de modelos de predicción (PMML) para crear modelos de minería de datos.
Admite la obtención de detalles.
Admite el uso de modelos de minería de datos OLAP.
Admite la creación de dimensiones de minería de datos.