Algoritmo de clústeres de secuencia de Microsoft

Se aplica a: SQL Server 2019 y versiones anteriores de Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

La minería de datos estaba en desuso en SQL Server 2017 Analysis Services y ahora se ha interrumpido en SQL Server 2022 Analysis Services. La documentación no se actualiza para las características en desuso e interrumpidas. Para más información, consulte Compatibilidad con versiones anteriores de Analysis Services.

El algoritmo de agrupación en clústeres de secuencia de Microsoft es un algoritmo único que combina el análisis de secuencia con la agrupación en clústeres. Puede usar este algoritmo para explorar datos que contienen eventos que pueden vincularse con rutas o secuencias. El algoritmo busca las secuencias más comunes y realiza la agrupación en clústeres para buscar secuencias similares. En los ejemplos siguientes se muestran los tipos de secuencia que se pueden capturar como datos para el aprendizaje automático con el fin de proporcionar información sobre problemas comunes o escenarios empresariales:

  • Secuencias de clics o rutas de clics generadas cuando un usuario navega o examina un sitio web.

  • Registros que enumeran eventos que preceden a un incidente, como errores de disco duro o interbloqueos del servidor.

  • Registros de transacciones que describen el orden en el que un cliente agrega elementos a un carro de la compra en línea.

  • Registros que siguen las interacciones del cliente (o paciente) a lo largo del tiempo para predecir cancelaciones del servicio u otros resultados poco satisfactorios.

Este algoritmo es similar de muchas maneras al algoritmo de agrupación en clústeres de Microsoft. Sin embargo, en lugar de buscar clústeres de casos que contienen atributos similares, el algoritmo de agrupación en clústeres de secuencia de Microsoft busca clústeres de casos que contienen rutas de acceso similares en una secuencia.

Ejemplo

El sitio web Adventure Works Cycles recopila información sobre qué páginas visitan los usuarios del sitio y sobre el orden en que se visitan las páginas. Debido a que la empresa ofrece un sistema de pedidos en línea, los clientes deben registrarse en el sitio. Esto permite que la empresa pueda conseguir información de clics por cada perfil de cliente. Mediante el algoritmo de agrupación en clústeres de secuencia de Microsoft en estos datos, la empresa puede encontrar grupos o clústeres de clientes que tengan patrones o secuencias de clics similares. La empresa puede usar estos clústeres para analizar la forma en que los clientes se mueven por el sitio web, identificar qué páginas se relacionan más estrechamente con la venta de un producto en particular y predecir las páginas que tienen mayores probabilidades de ser visitadas a continuación.

Cómo funciona el algoritmo

El algoritmo de agrupación en clústeres de secuencia de Microsoft es un algoritmo híbrido que combina técnicas de agrupación en clústeres con el análisis de cadenas de Markov para identificar clústeres y sus secuencias. Una de las características del algoritmo de agrupación en clústeres de secuencia de Microsoft es que usa datos de secuencia. Estos datos suelen representar una serie de eventos o transiciones entre los estados de un conjunto de datos, como una serie de compras de productos o los clics en web para un usuario determinado. El algoritmo examina todas las probabilidades de transición y mide las diferencias, o las distancias, entre todas las posibles secuencias del conjunto de datos con el fin de determinar qué secuencias es mejor utilizar como entradas para la agrupación en clústeres. Cuando el algoritmo cree la lista de secuencias candidatas, usará la información de las secuencias como entrada para el método EM (maximización de la expectativa) de agrupación en clústeres.

Para obtener una descripción detallada de la implementación, vea Microsoft Sequence Clustering Algorithm Technical Reference.

Datos requeridos para los modelos de clústeres de secuencias

Al preparar los datos para usarlos en el entrenamiento de un modelo de agrupación en clústeres de secuencia, conviene comprender qué requisitos son imprescindibles para el algoritmo concreto, incluidos el volumen de datos necesario y la forma en que se usan los datos.

Los requisitos de un modelo de agrupación en clústeres de secuencia son los siguientes:

  • Una columna de clave única Un modelo de agrupación en clústeres de secuencia necesita una clave que identifique los registros.

  • Una columna de secuencia Para los datos de secuencia, el modelo debe tener una tabla anidada que contenga una columna de identificador de secuencia. El id. de secuencia puede ser cualquier tipo de datos ordenable. Por ejemplo, puede usar el identificador de una página web, un número entero o una cadena de texto, con tal de que la columna identifique los eventos en una secuencia. Solo se admite un identificador de secuencia por cada secuencia y un tipo de secuencia en cada modelo.

  • Atributos opcionales no relacionados con la secuencia : el algoritmo admite la incorporación de otros atributos que no tengan que ver con las secuencias. Estos atributos pueden incluir las columnas anidadas.

Por ejemplo, en el ejemplo mencionado anteriormente del sitio web Adventure Works Cycles, un modelo de agrupación en clústeres de secuencia podría incluir información de pedidos como tabla de casos, datos demográficos sobre el cliente específico para cada pedido como atributos que no son de secuencia y una tabla anidada que contiene la secuencia en la que el cliente ha explorado el sitio o coloca elementos en un carro de la compra como información de secuencia.

Para obtener información más detallada sobre los tipos de contenido y los tipos de datos compatibles con los modelos de agrupación en clústeres, vea la sección Requisitos de Referencia técnica del algoritmo de clústeres de secuencia de Microsoft.

Ver un modelo de agrupación en clústeres de secuencia

El modelo de minería de datos que crea este algoritmo contiene descripciones de las secuencias más comunes en los datos. Para explorar el modelo, puede usar el Visor de clústeres de secuencia de Microsoft. Al ver un modelo de agrupación en clústeres de secuencia, SQL Server Analysis Services muestra los clústeres que contienen varias transiciones. También pueden verse las estadísticas pertinentes. Para más información, vea Examinar un modelo usando el Visor de clústeres de Microsoft.

Si desea obtener más detalles, puede examinar el modelo en el Visor de árbol de contenido genérico de Microsoft. El contenido almacenado para el modelo incluye la distribución para todos los valores de cada nodo, la probabilidad de cada clúster y detalles acerca de las transiciones. Para obtener más información, vea Contenido del modelo de minería de datos para los modelos de agrupación en clústeres de secuencia (Analysis Services - Minería de datos).

Crear predicciones

Una vez entrenado el modelo, los resultados se almacenan como un conjunto de patrones. Puede usar las descripciones de las secuencias más comunes en los datos para predecir el siguiente paso probable de una nueva secuencia. Sin embargo, dado que el algoritmo incluye otras columnas, puede usar el modelo resultante para identificar las relaciones entre los datos de las secuencias y las entradas que no son secuenciales. Por ejemplo, si agrega datos demográficos al modelo, puede realizar predicciones para grupos concretos de clientes. Las consultas de predicción se pueden personalizar para que devuelvan un número variable de predicciones o estadísticas descriptivas.

Para obtener información sobre cómo crear consultas en un modelo de minería de datos, vea Consultas de minería de datos. Para consultar ejemplos de cómo usar las consultas con un modelo de agrupación en clústeres, vea Ejemplos de consultas de modelos de clústeres de secuencia.

Comentarios

  • No se admite el uso del Lenguaje de marcado de modelos de predicción (PMML) para crear modelos de minería de datos.

  • Admite la obtención de detalles.

  • Admite el uso de modelos de minería de datos OLAP y la creación de dimensiones de minería de datos.

Consulte también

Algoritmos de minería de datos (Analysis Services: Minería de datos)
Referencia técnica del algoritmo de clústeres de secuencia de Microsoft
Ejemplos de consultas de modelos de clústeres de secuencia
Examinar un modelo usando el Visor de clústeres de Microsoft