Explorar el modelo de árbol de decisión (tutorial básico de minería de datos)

El algoritmo de árboles de decisión de Microsoft predice qué columnas influyen en la decisión de comprar una bicicleta en función de las columnas restantes del conjunto de entrenamiento.

El Visor de árbol de decisión de Microsoft proporciona las fichas siguientes para la exploración de los modelos de minería de datos de árbol de decisión:

Árbol de decisión

Red de dependencias

En las secciones siguientes se describe cómo seleccionar el visor adecuado y explorar los otros modelos de minería de datos.

Ficha Árbol de decisión

En la ficha Árbol de decisión, puede examinar los tres modelos de árbol que componen un modelo de minería de datos.

Dado que el modelo de correo directo incluido en este proyecto de tutorial contiene un único atributo de predicción, Bike Buyer, sólo se puede ver un árbol. Si hubiera más árboles, podría utilizar el cuadro Árbol para elegir uno diferente.

Al examinar el modelo TM_Decision_Tree en el Visor de árbol de decisión observamos que la edad es el único factor más importante a la hora de predecir la compra de bicicletas. Es interesante ver que al agrupar los clientes por edad, la siguiente rama del árbol es diferente para cada nodo de edad. Al explorar la ficha Árbol de decisión podemos concluir que los compradores con una edad comprendida entre 34 y 40 años con uno o varios automóviles tienen más probabilidades de comprar una bicicleta, al igual que los clientes jóvenes y solteros que viven en la región del Pacífico y que no tienen automóvil o tienen uno.

Para explorar el modelo en la ficha Árbol de decisión

  1. Seleccione la ficha Visor de modelo de minería de datos en Diseñador de minería de datos.

    De forma predeterminada, el diseñador se abre en el primer modelo que se agregó a la estructura (en este caso, TM_Decision_Tree).

  2. Utilice los botones de lupa para ajustar el tamaño de presentación del árbol.

    De manera predeterminada, el Visor de árboles de Microsoft sólo muestra los primeros tres niveles del árbol. Si el árbol contiene menos de tres niveles, el visor mostrará sólo los niveles existentes. Puede ver más niveles si utiliza el control deslizante Mostrar nivel o la lista Expansión predeterminada.

  3. Deslice Mostrar nivel hasta la cuarta barra.

  4. Cambie el valor de la lista Fondo a 1.

    Al cambiar la configuración de Fondo, podrá ver rápidamente el número de casos de cada nodo que tienen el valor de destino de 1 para [Bike Buyer]. Recuerde que en este escenario en concreto, cada caso representa un cliente. El valor 1 indica que el cliente compró anteriormente una bicicleta; el valor 0 indica que el cliente no ha comprado una bicicleta. Cuanto más oscuro sea el sombreado del nodo, mayor será el porcentaje de casos del nodo que tienen el valor de destino.

  5. Coloque el cursor sobre el nodo Todos. Se mostrará información sobre herramientas con los siguientes datos:

    • Número total de casos

    • Número de casos de personas que no han comprado bicicletas

    • Número de casos de personas que han comprado bicicletas

    • Número de casos con valores que faltan para [Bike Buyer]

    También puede colocar el cursor sobre cualquier nodo del árbol para ver la condición necesaria para alcanzar ese nodo desde el nodo anterior. Esa misma información se puede ver también en la Leyenda de minería de datos.

  6. Haga clic en el nodo de Edad >= 34 y < 41. El histograma se muestra como una barra horizontal delgada a lo largo del nodo y representa la distribución de los clientes con este intervalo de edad que anteriormente compraron (rosa) o no compraron (azul) una bicicleta. El visor nos muestra que es probable que los clientes con edades comprendidas entre 34 y 40 años sin automóvil o con uno compren una bicicleta. Si vamos un poco más lejos, vemos que la probabilidad de comprar una bicicleta aumenta si el cliente tiene una edad comprendida entre 38 y 40 años.

Como habilitó la obtención de detalles cuando creó la estructura y el modelo, puede recuperar información detallada de los casos del modelo y de la estructura de minería de datos, incluidas las columnas que no se incluyeron en el modelo de minería de datos (por ejemplo, emailAddress y FirstName).

Para obtener más información, vea Usar la obtención de detalles en los modelos y estructuras de minería (Analysis Services - Minería de datos).

Para obtener información detallada de los datos del caso

  1. Haga clic con el botón secundario en un nodo y seleccione Obtener detalles y Sólo columnas de modelos.

    Los detalles de cada caso de entrenamiento se muestran en formato de hoja de cálculo. Estos detalles proceden de la vista vTargetMail que seleccionó como la tabla de casos al generar la estructura de minería de datos.

  2. Haga clic con el botón secundario en un nodo y seleccione Obtener detalles y Columnas de modelo y estructura.

    Se muestra la misma hoja de cálculo con las columnas de estructura anexadas al final.

Volver al principio

Ficha Red de dependencias

La ficha Red de dependencias muestra las relaciones entre los atributos que contribuyen a la capacidad de predicción del modelo de minería de datos. El visor Red de dependencias reafirma nuestra conclusión de que la edad y la región son factores importantes para predecir la compra de bicicletas.

Para explorar el modelo en la ficha Red de dependencias

  1. Haga clic en el nodo Bike Buyer para identificar sus dependencias.

    El nodo central de la red de dependencias, Bike Buyer, representa el atributo de predicción del modelo de minería de datos. El sombreado rosa indica que todos los atributos influyen en la compra de bicicletas.

  2. Ajuste el control deslizante Todos los vínculos para identificar el atributo más influyente.

    Conforme baja el control deslizante, sólo permanecen los atributos que afectan en mayor medida a la columna [Bike Buyer]. Ajustando el control deslizante, descubrirá que la edad y la región son los factores más importantes para predecir si alguien ha comprado una bicicleta.