Explorar el modelo de agrupación en clústeres (Tutorial básico de minería de datos)

El algoritmo de clústeres Microsoft agrupa los casos en clústeres que contienen características similares. Estas agrupaciones son útiles para la exploración de datos, la identificación de anomalías en los datos y la creación de predicciones.

El Visor de clústeres de Microsoft ofrece las siguientes fichas para la exploración de modelos de minería de datos de agrupación en clústeres:

Diagrama del clúster

Perfiles del clúster

Características del clúster

Distinción del clúster

En las secciones siguientes se describe cómo seleccionar el visor adecuado y explorar los otros modelos de minería de datos.

Ficha Diagrama del clúster

La ficha Diagrama del clúster muestra todos los clústeres de un modelo de minería de datos. Las líneas entre los clústeres representan la "proximidad" y aparecen sombreadas en función de la similitud entre los clústeres. El color de cada clúster representa la frecuencia de la variable y el estado del clúster.

Para explorar el modelo en la ficha Diagrama del clúster

  1. Use la lista Modelo de minería de datos de la parte superior de la ficha Visor de modelos de minería de datos para cambiar al modelo TM_Clustering.

  2. En la lista Visor, seleccione Visor de clústeres de Microsoft.

  3. En el cuadro Variable de sombreado, seleccione Bike Buyer.

    La variable predeterminada es Población, pero puede cambiarla a cualquier atributo del modelo con el fin de determinar los clústeres que contienen miembros con los atributos que desea.

  4. Seleccione 1 en el cuadro Estado para explorar esos casos donde se compró una bicicleta.

    La leyenda Densidad describe la densidad del par de estados del atributo que se selecciona en Variable de sombreado y Estado. En este ejemplo se indica que el clúster con el sombreado más oscuro tiene el porcentaje superior de compradores de bicicleta.

  5. Pause su mouse sobre el clúster con el sombreado más oscuro.

    Una información sobre herramientas muestra el porcentaje de casos que tienen el atributo, Bike Buyer = 1.

  6. Elija el clúster con mayor densidad, haga clic con el botón secundario en él, seleccione Cambiar nombre de clúster y escriba Bike Buyers High para una identificación posterior. Haga clic en Aceptar.

  7. Busque el clúster que tiene el sombreado más ligero (y la densidad más baja). Haga clic con el botón secundario en el clúster, seleccione Cambiar nombre de clúster y escriba Bike Buyers Low. Haga clic en Aceptar.

  8. Haga clic en el clúster Bike Buyers High y arrástrelo hacia una área del panel que le dará una vista clara de sus conexiones a los otros clústeres.

    Al seleccionar un clúster, se resaltan las líneas que conectan este clúster con otros para que pueda ver todas las relaciones existentes para el mismo. Cuando el clúster no está seleccionado, puede saber por la oscuridad de las líneas la intensidad de las relaciones entre todos los clústeres del diagrama. Si el sombreado es claro o inexistente, los clústeres no son muy similares.

  9. Use el control deslizante situado en la parte izquierda de la red para filtrar los vínculos de menor intensidad y encontrar los clústeres con las relaciones más próximas. El departamento comercial de Adventure Works Cycles podría desear combinar los clústeres similares al determinar el mejor método para entregar el envío de correo directo.

Volver al principio

Ficha Perfiles del clúster

La ficha Perfiles del clúster proporciona una vista global del modelo TM_Clustering. La ficha Perfiles del clúster contiene una columna para cada clúster del modelo. La primera columna enumera los atributos asociados a un clúster como mínimo. El resto del visor contiene la distribución de estados de un atributo por cada clúster. La distribución de una variable discreta se muestra como una barra coloreada y el número máximo de barras aparece en la lista Barras de histograma. Los atributos continuos se muestran con un diagrama de rombo, que representa la desviación media y estándar en cada clúster.

Para explorar el modelo en la ficha Diagrama del clúster

  1. Establezca las barras Histograma en 5.

    En nuestro modelo, 5 es el número máximo de estados para cualquier variable.

  2. Si la Leyenda de minería de datos bloquea la presentación de los Perfiles del atributo, retírela.

  3. Seleccione la columna Bike Buyers High y arrástrela hacia la derecha de la columna Población.

  4. Seleccione la columna Bike Buyers Low y arrástrela a la derecha de la columna Bike Buyers High.

  5. Haga clic en la columna Bike Buyers High.

    La columna Variables está ordenada por orden de importancia para ese clúster. Desplácese por la columna y revise las características del clúster Bike Buyer High. Por ejemplo, es muy probable que en todas ellas la característica común sea que la distancia al trabajo sea corta.

  6. Haga doble clic en la celda Age en la columna Bike Buyers High.

    Leyenda de minería de datos muestra una vista más detallada donde se puede ver el intervalo de edad de esos clientes así como su edad media.

  7. Haga clic con el botón secundario en la columna Bike Buyers Low y seleccione Ocultar columna.

Volver al principio

Ficha Características del clúster

La ficha Características del clúster le permite examinar con más detalle las características que forman un clúster. En lugar de comparar las características de todos los clústeres (como en la ficha Perfiles del clúster), puede explorar un clúster a la vez. Por ejemplo, si selecciona Bike Buyers High en la lista Clúster puede ver las características de los clientes en este clúster. Aunque la presentación es diferente del visor Perfiles del clúster, los resultados son los mismos.

Nota

A menos que establezca un valor inicial para holdoutseed, los resultados variarán cada vez que procese el modelo. Para obtener más información, vea Elemento HoldoutSeed

Volver al principio

Ficha Distinción del clúster

La ficha Distinción del clúster le permite explorar las características que diferencian a un clúster de otro. Después de seleccionar dos clústeres, uno de la lista Clúster 1 y otro de la lista Clúster 2, el visor calcula las diferencias existentes entre los clústeres y muestra una lista de los atributos que más distinguen a los clústeres.

Para explorar el modelo en la ficha Diagrama del clúster

  1. En el cuadro Clúster 1, seleccione Bike Buyers High.

  2. En el cuadro Clúster 2, seleccione Bike Buyers Low.

  3. Haga clic en Variables para ordenar alfabéticamente.

    Algunas de las diferencias sustanciales entre clientes de los clústeres Bike Buyers Low y Bike Buyers High son la edad, la posesión de un vehículo, el número de hijos y la región.