Comprobar la precisión de los modelos de minería de datos (tutorial de minería de datos)

Artículo
12/15/2008

Después de crear, procesar y explorar los modelos de minería de datos para el escenario de correo directo, puede probar los modelos para determinar la precisión de las predicciones y decidir si un modelo es mejor que otro.

En la ficha Gráfico de precisión de minería de datos del Diseñador de minería de datos, puede calcular la precisión de las predicciones de cada modelo y comparar los resultados de diferentes modelos. Este método de comparación se conoce como gráfico de elevación. La ficha Gráfico de precisión de minería de datos utiliza datos de entrada, que son datos separados del conjunto de datos original, para comparar las predicciones con un resultado conocido. Posteriormente, los resultados de la comparación se ordenan y se representan en un gráfico. En este gráfico también se representa un modelo ideal, es decir, un modelo teórico que predice el resultado correcto el 100% de las veces. Puede comparar los resultados de los modelos reales y el modelo ideal para ver el grado de precisión de las predicciones. Para obtener más información acerca del funcionamiento de los gráficos de elevación, vea Gráfico de elevación.

El gráfico de elevación es importante porque permite diferenciar modelos de una estructura que son prácticamente idénticos y determinar cuál ofrece mejores predicciones. Asimismo, el gráfico de elevación muestra qué tipo de algoritmo realiza las mejores predicciones en una determinada situación. Para obtener más información acerca de cómo utilizar la ficha Gráfico de precisión de minería de datos, vea Validar modelos de minería de datos.

En este tema, realizará las tareas siguientes:

Asignar las columnas de entrada
Filtrar filas de entrada
Seleccionar modelos, columnas de predicción y valores
Ver el gráfico de elevación

Asignar las columnas de entrada

El primer paso a la hora de probar la precisión de los modelos de minería de datos consiste en asignar las columnas de la estructura de minería de datos a las columnas de los datos de entrada. Si los nombres de las columnas coinciden directamente, el Diseñador de minería de datos establecerá relaciones automáticamente.

Para asignar columnas de entrada a la estructura de minería de datos

En la ficha Asignación de columnas de la ficha Gráfico de precisión de minería de datos del Diseñador de minería de datos, haga clic en la opción Seleccionar tabla de escenarios del cuadro Seleccionar tabla(s) de entrada.

Se abrirá el cuadro de diálogo Seleccionar tabla. En este cuadro de diálogo, seleccione la tabla que contiene los datos de entrada, es decir, los datos que desee utilizar en las consultas de predicción para determinar la precisión de los modelos. En este tutorial, se utilizarán los mismos datos para las columnas de entrada que los que se utilizaron para procesar los modelos. No obstante, teóricamente, las columnas de entrada constituyen datos separados, es decir, filas que separó de los datos utilizados para procesar los modelos. Esos datos se seleccionarían como columnas de entrada en el cuadro de diálogo Seleccionar tabla.
En la lista Origen de datos, compruebe que Adventure Works DW se haya seleccionado.
En la lista Nombre de tabla o lista, seleccione vTargetMail y, a continuación, haga clic en Aceptar.

Las columnas de la estructura de minería de datos se asignarán automáticamente a las columnas que tengan el mismo nombre en la tabla de entrada.

Para cada modelo de la estructura, se generará una consulta de predicción basada en las asignaciones de columnas. Para eliminar una asignación entre dos columnas, seleccione la línea que vincula la columna de la tabla Estructura de minería de datos con la columna de la tabla Seleccionar tabla(s) de entrada y presione ELIMINAR. También puede crear asignaciones manualmente haciendo clic en una columna de la tabla Seleccionar tabla(s) de entrada y arrastrándola hasta la columna correspondiente de Estructura de minería de datos.

Filtrar filas de entrada

Puede utilizar la cuadrícula que se encuentra en Filtrar los datos de entrada utilizados para generar el gráfico de elevación para filtrar los datos de entrada. Puede arrastrar las columnas de la tabla Seleccionar tabla(s) de entrada hasta la cuadrícula, o bien seleccionar valores haciendo clic en la columna de la cuadrícula y utilizando la lista que aparece. Por ejemplo, si desea limitar las filas de entrada a aquellas en las que el valor de Income es mayor que x, seleccione vTargetMail en la columna Origen, Income en la columna Campo y, a continuación, escriba >x en la columna Criterios o argumento.

Tenga en cuenta que no filtrará los datos en este tutorial.

Seleccionar modelos, columnas de predicción y valores

El paso siguiente consiste en seleccionar los modelos que desea incluir en el gráfico de elevación y elegir la columna de predicción con la que va a comparar los modelos. De forma predeterminada, todos los modelos de la estructura de minería de datos aparecen seleccionados. Puede optar por no incluir un modelo específico, pero para este tutorial deje todos los modelos seleccionados.

Puede crear dos tipos de gráficos de precisión. Si selecciona un valor de predicción, verá un gráfico que muestra el grado de elevación que proporciona el modelo. Si no incluye un valor de predicción, el gráfico mostrará el grado de precisión del modelo.

Para mostrar la elevación de los modelos

En Seleccione las columnas del modelo de minería de datos de predicción que se mostrarán en el gráfico de elevación, compruebe que Bike Buyer (comprador de bicicleta) se ha seleccionado en la lista Nombre de columna de predicción para cada modelo.
En la columna Valor de predicción, seleccione 1 para cada modelo.

Para mostrar la precisión de los modelos

En Seleccione las columnas del modelo de minería de datos de predicción que se mostrarán en el gráfico de elevación, compruebe que Bike Buyer (comprador de bicicleta) se ha seleccionado en la lista Nombre de columna de predicción para cada modelo.

Deje la columna Valor de predicción vacía.

Si la casilla de verificación Sincronizar valores y columnas de predicción está seleccionada, la columna de predicción se sincronizará para cada modelo de la estructura de minería de datos.

[!NOTA] Las columnas del modelo de minería de datos que se enumeran en la lista Nombre de columna de predicción se limitan a las columnas cuyo tipo de uso se ha establecido en Predict o Predict Only. Las columnas también deben basarse en las columnas de la estructura de minería de datos cuyo contenido es de tipo Discrete o Discretized.

En algunos escenarios avanzados, puede generar un gráfico de elevación que incluya una columna de predicción en dos modelos de minería de datos que no se basen en una misma columna de la estructura de minería de datos, pero que contengan los mismos datos. Si desactiva la casilla de verificación Sincronizar valores y columnas de predicción, puede seleccionar cualquier valor y columna de predicción que sean válidos. Los resultados se representarán juntos, independientemente de si tienen sentido o no.

Ver el gráfico de elevación

Para ver el gráfico de elevación, cambie a la ficha Gráfico de elevación del Gráfico de precisión de minería de datos. Cuando haga clic en la ficha, se ejecutará una consulta de predicción en el servidor y la base de datos para la estructura de minería de datos y la tabla de entrada. Los resultados de la predicción se comparan con los valores actuales conocidos y se representan en el gráfico. Para obtener más información acerca de cómo utilizar el gráfico, vea Gráfico de elevación.

Siguiente tarea de la lección

Crear predicciones (tutorial de minería de datos)

Compartir a través de