Explorar el modelo de agrupación en clústeres de secuencia (Tutorial intermedio de minería de datos)

Una vez creado el modelo Sequence Clustering with Region, puede explorarlo con el Visor de clústeres de secuencia de Microsoft, que se encuentra en la pestaña Visor de modelos de minería de datos del Diseñador de minería de datos. El visor de clústeres de secuencia de Microsoft contiene cinco pestañas: Diagrama del clúster, Perfiles del clúster, Características del clúster, Distinción del clúster y Transiciones de estado. Para obtener más información sobre cómo usar este visor, vea Ver un modelo de minería de datos con el Visor de clústeres de secuencia de Microsoft.

  • Pestaña Diagrama del clúster

  • Pestaña Perfiles del clúster

  • Pestaña Características del clúster

  • Pestaña Distinción del clúster

  • Pestaña Transiciones de estado

  • Visor de árbol de contenido genérico

Pestaña Diagrama del clúster

La pestaña Diagrama del clúster muestra gráficamente los clústeres que el algoritmo detectó en la base de datos. El diseño del diagrama, con clústeres similares agrupados juntos, representa las relaciones entre los clústeres. De forma predeterminada, el sombreado de cada nodo representa la densidad de todos los casos del clúster: cuanto más oscuro es el sombreado del nodo, más casos contiene. Puede cambiar el significado del sombreado de los nodos para que represente la compatibilidad de un atributo y un estado dentro de cada clúster.

También puede cambiar el nombre de los clústeres para identificar los clústeres de destino y trabajar con ellos fácilmente. En este tutorial, cambiará el nombre del clúster que tiene el porcentaje más alto de clientes de la región del Pacífico y el clúster que tiene en total mayor número de casos.

Nota

Los casos asignados a clústeres concretos pueden cambiar cuando se vuelve a procesar el modelo, en función de los datos y los parámetros del modelo. Además, si cambia el nombre de los clústeres, estos nombres se perderán cuando vuelva a procesar el modelo de minería de datos.

Para cambiar el atributo usado para resaltar los clústeres

  1. En la lista Variable de sombreado, seleccione Modelo.

  2. Seleccione Cycling Cap en la lista Estado.

    El diagrama se actualiza para mostrar la concentración del producto seleccionado en cada uno de los clústeres. El clúster que tiene el sombreado más oscuro contiene mayor cantidad de gorras de ciclismo (cycling cap). Puede cambiar la variable de sombreado para usar cualquier estado de cualquier columna de entrada.

  3. En la lista Variable de sombreado, seleccione Población.

    Cuando cambie la variable de sombreado a Población, el diagrama se actualizará para comparar los clústeres por tamaño. El clúster con el sombreado más oscuro tendrá más casos que los demás clústeres.

Para cambiar el nombre de los nodos del modelo

  1. Cambie Variable de sombreado a Region y establezca Estado en Pacific.

  2. Resalte el nodo más oscuro del gráfico.

  3. Haga clic con el botón secundario del mouse en este clúster y seleccione Cambiar nombre de clúster.

  4. Escriba el nombre Pacific Cluster**.**

  5. Cambie el valor de Variable de sombreado a Población.

  6. En el gráfico actualizado, busque el clúster más oscuro, que debería ser el clúster más grande. Si a través del sombreado no puede determinar cuál es el clúster más grande, sitúe el mouse sobre cada uno de los clústeres y vea la Información sobre herramientas; a continuación, elija el clúster que contiene mayor número de casos.

  7. Haga clic con el botón secundario del mouse en este clúster y seleccione Cambiar nombre de clúster. Escriba el nuevo nombre, Largest Cluster.

Puede explorar en profundidad el nodo que representa el clúster para ver los detalles de los casos que hay en cada clúster. Esto puede resultar útil si desea tomar alguna acción sobre los resultados del análisis, como por ejemplo, enviar un correo electrónico a un cliente. También puede examinar los demás atributos de los casos que incluyó en la estructura y no se usan en el modelo, como Region e IncomeGroup. Para obtener más información sobre cómo explorar en profundidad los modelos de minería de datos para consultar los detalles de los casos subyacentes, vea Usar la obtención de detalles en los modelos y estructuras de minería (Analysis Services - Minería de datos).

Para explorar en profundidad los detalles del diagrama del clúster

  1. Haga clic con el botón secundario del mouse en Pacific Cluster, seleccione Obtener detalles y, a continuación, seleccione Columnas de modelo y estructura.

    Se abre el cuadro de diálogo Obtener detalles. A las columnas que no se usan en el modelo pero están disponibles para su consulta se les agrega el prefijo Estructura.

    Como puede ver, esta clúster contiene en su mayoría clientes de la región del Pacífico y muy pocos clientes de las demás regiones.

  2. Haga clic en el signo más de la columna anidada v Assoc Seq Line Items para ver la secuencia de artículos en un orden de clientes determinado.

  3. Se cierra el cuadro de diálogo Obtener detalles.

    Nota

    El botón Reproducir permite consultar de nuevo los datos; sin embargo, cuando se realiza de nuevo una consulta, no se modifican los cambios que aparecen, a menos que otro proceso los haya actualizado dinámicamente en segundo plano.

Volver al principio

Pestaña Perfiles del clúster

La pestaña Perfiles del clúster muestra las secuencias que hay en cada clúster. Los clústeres se enumeran en columnas individuales ubicadas a la derecha de la columna Estados.

En el visor, la fila Model describe la distribución global de los elementos de un clúster y la fila Model.samples contiene secuencias de los elementos. Las líneas de las secuencias de color de cada celda de la fila Model.samples representan el comportamiento de un usuario seleccionado aleatoriamente en el clúster.

Cada color de un histograma de secuencia individual representa un modelo de producto. La Leyenda de minería de datos muestra las secuencias de productos usando tanto la codificación de colores como los nombres de los modelos de productos. Si agregó otras columnas al modelo para la agrupación en clústeres, como Region o Income Group, el visor incluirá una fila adicional por cada columna en la que se mostrará la distribución de estos valores en cada clúster.

Para ver las secuencias más comunes de un clúster

  1. Haga clic con el botón secundario del mouse en la fila Modelo de la columna del clúster Largest Cluster y seleccione Mostrar leyenda.

    La columna Color contiene una barra sombreada que indica la frecuencia de los elementos encontrados en las secuencias. Cada color representa un elemento diferente. La columna Significado enumera los nombres de modelos de productos para cada color. La columna Distribución indica el porcentaje de casos que contenían este elemento en una secuencia.

  2. Cierre la ventana Leyenda de minería de datos.

  3. Haga clic con el botón secundario del mouse en la fila Model.samples de la columna con el encabezado Población y seleccione Mostrar leyenda.

  4. Examine la lista de secuencias del modelo general.

    En Leyenda de minería de datos se muestran primero las secuencias más comunes, y, como puede ver, Mountain Tire Tube es el primer artículo de muchas secuencias. Esto significa que es muy probable que un cliente incluya primero el artículo Mountain Tire Tube en la cesta de la compra.

Para explorar en profundidad los casos en el visor de clústeres

  1. Desplácese hacia abajo en el panel Atributo hasta que encuentra la fila del atributo Region.

    La fila contiene un histograma por cada clúster del modelo, además de un histograma adicional para Población, lo que significa que en el modelo se usa el conjunto completo de casos. Un histograma es una barra con colores diferentes, donde cada color representa un atributo y el tamaño de la sección coloreada de ese atributo representa el porcentaje de casos en los que aparece ese atributo.

  2. Compare los histogramas de los clústeres que denominó Pacific Cluster y Largest Cluster. Cada clúster aparece en una columna diferente.

    En ambos se usan colores sólidos, pero los colores son diferentes.

  3. En la fila Region, sitúe el mouse sobre el histograma de colores de Largest Cluster.

    En la Información sobre herramientas se muestran los porcentajes reales de casos de cada región.

  4. Haga clic con el botón secundario del mouse en el histograma de colores de la fila Region de Pacific Cluster, seleccione Obtener detalles y, a continuación, seleccione Solo columnas de modelos.

  5. Mueva la barra de desplazamiento para revisar todos los clientes de este clúster.

    Si vuelve a explorar en profundidad los detalles, podrá ver que la mayoría de los pedidos que contiene el clúster proceden de la región del Pacífico, pero también hay unos pocos de las regiones de Norteamérica y Europa.

  6. Se cierra el cuadro de diálogo Obtener detalles.

Volver al principio

Pestaña Características del clúster

En la pestaña Características del clúster se resumen las transiciones entre los estados de un clúster mediante barras que representan visualmente la importancia del valor de atributo en el clúster seleccionado. La columna Variables indica lo que el modelo consideró importante para el clúster o la población seleccionados: un valor determinado o la relación entre los valores, lo que se conoce como transición. La columna Valores proporciona más detalles sobre el valor o la transición, mientras que la columna Probabilidad representa visualmente el peso de este atributo o transición.

Para ver los atributos importantes de un clúster

  1. En la lista desplegable Clúster, seleccione Pacific Cluster.

    La lista se actualiza para mostrar las características del clúster que denominó Pacific Cluster. En este clúster, la característica más importante es Region.

  2. Sitúe el mouse sobre la barra sombreada de la fila correspondiente a Region.

    La probabilidad de que el valor sea Pacific es muy elevada. Para obtener más información sobre cómo se interpretan estos valores, vea Referencia técnica del algoritmo de clústeres de secuencia de Microsoft (Analysis Services - Minería de datos).

  3. Examine la lista de características del clúster hasta que encuentre la primera fila de transición.

  4. Una fila de transición contiene el texto Transición en la columna Variables y una combinación de valores de atributo secuenciales en la columna Valor. La secuencia también puede contener los puntos iniciales y los valores que faltan.

    Por ejemplo, suponga que la transición tiene el valor, [Inicio] -> Road Tire Tube. Esto significa que los clientes de este clúster con frecuencia incluyen primero el artículo Road Tire Tube en su cesta de la compra. Esto podría significar que el producto es un elemento popular que los clientes buscan en primer lugar o podría indicar simplemente que el producto es fácil de encontrar en el lugar de compra.

  5. Desplácese por la lista hasta que encuentre la primera transición que no contiene [Inicio] o ausente.

    Por ejemplo, suponga que encuentra la transición, Touring Tire, Touring Tire Tube. Esto significa que los clientes de este clúster compran a menudo estos artículos juntos, exactamente en este orden.

  6. Sitúe el mouse sobre la barra sombreada de esta transición.

    La probabilidad de esta transición se muestra en forma de porcentaje.

  7. En la lista desplegable Clúster, seleccione Población (Todo).

    La lista de atributos se actualiza para mostrar las características de todos los pedidos usados para crear el modelo. En este modelo de minería de datos, la característica más importante para distinguir entre clústeres es Region, con el valor North America.

Después de revisar estas tareas, habrá observado dos cosas. La primera es que necesita una gran cantidad de datos para obtener un número significativo de combinaciones. Por ejemplo, es probable que las secuencias con la probabilidad más altas incluyan el estado [Inicio] o Ausente.

La segunda es que la agrupación en clústeres tiene un gran efecto sobre los atributos de Region, lo que hace más difícil ver los grupos de secuencias. Por tanto, decídase a crear otro modelo que use exclusivamente secuencias y no incluya las columnas de las regiones o los ingresos.

Volver al principio

Pestaña Distinción del clúster

La pestaña Distinción del clúster ayuda a comparar dos clústeres con el fin de determinar qué atributos distinguen un clúster determinado de otro. La pestaña contiene cuatro columnas: Variables, Valores, Clúster 1 y Clúster 2. Puede elegir cualquier clúster para usarlo como Clúster 1 y Clúster 2.

La columna Variables indica el nombre del atributo, que puede ser un nombre de columna o una combinación del nombre de columna y la palabra transición. En la columna Valores se muestra el valor exacto del atributo o la transición. Las barras sombreadas de las columnas correspondientes a Clúster 1 y el Clúster 2 indican el nivel de fuerza del atributo en los clústeres que está comparando. Cuanto mayor sea la barra, mayor será la probabilidad de que incluya casos con ese atributo.

Para comparar dos clústeres usando la pestaña Distinción del clúster

  1. En la pestaña Distinción del clúster, en Clúster 1, seleccione Pacific Cluster.

    De forma predeterminada, la selección de Clúster 2 cambia a **Complemento de **PacificCluster.

    El principal atributo que distingue Pacific Cluster de todos los demás casos es el que corresponde a la región. Region es un tipo de atributo de agrupación en clústeres que oculta otros atributos. Para evitar este efecto, intente comparar algunos de los clústeres más pequeños entre sí. Al hacerlo, la lista de atributos cambia y se pueden incluir más transiciones entre los modelos.

  2. Busque una fila de transición y sitúe el mouse sobre la barra sombreada.

    Los elementos de la columna Values pueden incluir estados y transiciones. El sombreado de cada elemento indica la puntuación de la distinción. Para obtener más información sobre el significado de distintas puntuaciones, vea Contenido del modelo de minería de datos para los modelos de agrupación en clústeres de secuencia(Analysis Services - Minería de datos).

Volver al principio

Pestaña Transiciones de estado

En la pestaña Transiciones de estado, puede seleccionar un clúster y examinar sus transiciones de estado. Si selecciona Población (Todo) en la lista desplegable de clústeres, en el diagrama se muestra la distribución de estados del modelo completo de minería de datos.

Cada nodo del gráfico representa un estado o valor posible de las secuencias que está intentando analizar. El color de fondo de los nodos representa la frecuencia del estado. Las líneas conectan algunos estados, lo que indica una transición entre estados. Puede mover el control deslizante arriba o abajo para cambiar el umbral de probabilidad de las transiciones. Algunos nodos llevan asociados unos números, que indican la probabilidad de ese estado.

Para explorar las relaciones en la pestaña de Transiciones de estado

  1. En la pestaña Transiciones de estado del visor de modelos de minería de datos, seleccione Pacific Cluster en la lista de clústeres. Asegúrese de que la opción Mostrar etiquetas de bordes está seleccionada.

    El gráfico se actualiza para mostrar las transiciones que son más comunes en este clúster.

  2. Haga clic en cualquier nodo que esté conectado a otro nodo mediante una línea.

    El gráfico se actualiza y resalta los nodos relacionados. El valor numérico situado junto a la línea indica la probabilidad de la transición.

  3. Mueva hacia arriba el control deslizante hasta Todos los vínculos para aumentar el número de transiciones que se incluyen en el gráfico.

  4. Seleccione Población (Todo) en Clúster.

    Tenga en cuenta que al cargar un clúster diferente, se restablece la configuración de presentación predeterminada del gráfico, por lo que el control deslizante se sitúa de nuevo en su posición media.

  5. Haga clic en el nodo más oscuro del gráfico, que debería ser Sport-100.

    Fíjese que no hay líneas que conecten este producto con otros.

  6. Mueva hacia arriba un paso el control deslizante para aumentar el número de transiciones que se incluyen en el gráfico. No suba del todo el control deslizante todavía hasta Todos los vínculos.

    El gráfico se actualiza y se agregan algunas transiciones más, pero ninguna que incluya el modelo Sport-100.

  7. Mueva el control deslizante del todo hasta Todos los vínculos. Haga clic en el nodo Sport-100, si aún no está seleccionado.

    El gráfico se actualiza para mostrar numerosas transiciones que incluyen el producto Sport-100. La dirección de la flecha de la línea de conexión indica si el artículo Sport-100 se seleccionó como primer o segundo elemento del par.

  8. Haga clic en el nodo de Touring Tire y mueva el control deslizante de nuevo hacia abajo, hasta su posición media.

    Al principio, hay muchas líneas de transición que conectan Touring Tire con otros productos, pero al aumentar el umbral de probabilidad, se eliminan del gráfico las transiciones menos probables, por lo que únicamente se mantiene la transición Touring Tire > Touring Tire Tube. Esta transición significa que si el cliente incluye un artículo Touring Tire en la cesta de la compra, existe una gran probabilidad de que incluya a continuación el producto Touring Tire Tube.

Volver al principio

Visor de árboles de contenido genérico

Este visor se puede usar para todos los modelos, sin tener en cuenta el algoritmo o tipo de modelo. El Visor de árbol de contenido genérico de Microsoft está disponible en la lista desplegable Visor.

Un árbol de contenido es una representación de un modelo de minería de datos como una serie de nodos, donde cada nodo representa el conocimiento adquirido acerca de los datos de entrenamiento. El nodo puede contener un patrón, un conjunto de reglas, un clúster o la definición de un intervalo de fechas que comparten ciertos atributos. El contenido exacto del nodo varía en función del algoritmo y del atributo de predicción, pero la representación general del contenido es la misma.

Puede expandir cada nodo para ver un mayor nivel de detalle y copiar el contenido de cualquier nodo en el Portapapeles. Para obtener más información, vea Ver los detalles del modelo con el Visor de árbol de contenido genérico de Microsoft.

Para ver los detalles de un modelo de agrupación en clústeres de secuencia usando el visor de árbol de contenido genérico

  1. En la pestaña Visor de modelos de minería de datos, haga clic en la lista Visor y seleccione Visor de árbol de contenido genérico de Microsoft.

  2. En el panel Título de nodo, haga clic en Pacific Cluster (1).

    El nombre de este nodo contiene tanto el nombre descriptivo que se asignó al clúster como el identificador de nodo subyacente. Puede usar los identificadores de nodo para explorar en profundidad otros detalles del modelo.

  3. Expanda el primer nodo secundario, denominado Nivel de secuencia para el clúster 1.

    El nodo de nivel de secuencia de un clúster contiene los detalles sobre las transiciones y los estados incluidos en dicho clúster. Puede usar estos detalles, disponibles en la columna NODE_DISTRIBUTION, para explorar las secuencias y los estados de cada clúster o del modelo en su conjunto.

  4. Continúe expandiendo los nodos y consulte los detalles en el panel del visor HTML.

Para obtener más información sobre el contenido del modelo de minería de datos y sobre cómo se usan los detalles del visor, vea Contenido del modelo de minería de datos para los modelos de agrupación en clústeres de secuencia(Analysis Services - Minería de datos).

Volver al principio