Validar modelos de minería de datos

Puede utilizar la ficha Gráfico de precisión de minería de datos del Diseñador de minería de datos para validar la precisión y comparar la habilidad de predicción de los modelos de minería de datos de una estructura de minería de datos. Esto resulta útil cuando intenta elegir el algoritmo correcto que va a utilizar o el modo de ajustar los parámetros de un algoritmo determinado.

La validación es un paso importante del proceso de minería de datos. Antes de implementar los modelos de minería de datos en un entorno de producción es importante conocer cómo se comportan con datos reales. Para obtener más información acerca del modo en que la validación del modelo se adapta a procesos grandes de minería de datos, vea Conceptos de minería de datos.

Herramientas de validación

La ficha Gráfico de precisión de minería de datos proporciona las siguientes herramientas para utilizarlas en la validación de los modelos de minería de datos:

  • Gráfico de elevación
  • Matriz de clasificación

Gráfico de elevación

Un gráfico de elevación se crea trazando los resultados de las consultas de predicción de un conjunto de datos de prueba según los valores conocidos de la columna de predicción que existe en el conjunto de datos. En el siguiente diagrama se ofrece un ejemplo de este tipo de gráfico.

Gráfico de elevación de población de destino frente a población general

El gráfico muestra una línea para los resultados del modelo de minería de datos, junto con otras dos líneas: una línea que representa los resultados que produciría un modelo ideal, con las predicciones perfectas que nunca están equivocadas, y una línea que representa los resultados de una estimación aleatoria. Los resultados de sus modelos se situarán entre el modelo ideal y la estimación aleatoria. Cualquier mejora sobre la línea aleatoria se denomina elevación; cuanta más elevación muestre el gráfico, más eficaz será el modelo.

Los gráficos de elevación que se generan a partir de atributos de predicción continuos muestran un gráfico de dispersión en vez de líneas.

Para implementar un gráfico de elevación, necesita los siguientes elementos:

  • Uno o más modelos de minería de datos entrenados
  • Un conjunto de datos de entrada que contenga un valor para la columna de predicción
  • Una asignación entre los datos de entrada y la estructura del modelo de minería de datos

Para obtener más información: Temas de procedimientos de la ficha Gráfico de precisión de minería de datos, Asignaciones de columnas (Gráfico de elevación), Gráfico de elevación

Volver al principio

Matriz de clasificación

La ficha Matriz de clasificación ofrece otro modo de examinar la precisión de creación de predicciones de los modelos de minería de datos de una estructura. Una matriz de clasificación se genera como una comparación de los valores reales que existen en el conjunto de datos de prueba con los valores que predice el modelo de minería de datos. La matriz es una herramienta valiosa porque no sólo muestra la frecuencia con que el modelo predice un valor correctamente, sino que también muestra qué otros valores predice el modelo incorrectamente con más frecuencia.

Por ejemplo, considere un escenario donde se ha generado un modelo para predecir el tipo de tarjeta de socio que utilizan los clientes de una tienda de ultramarinos. Las tarjetas pueden ser de tres tipos: bronce, plata y oro. La siguiente tabla es una representación de una matriz de clasificación de un modelo que predice los valores de tarjeta de socio en una base de datos de prueba donde se conoce el valor de la tarjeta de socio.

Bronce Plata Oro

Bronce

Real

Error para bronce

Error para bronce

Plata

Error para plata

Real

Error para plata

Oro

Error para oro

Error para oro

Real

Los valores que se ejecutan diagonalmente desde la esquina superior izquierda a la esquina inferior derecha de la matriz dan el número correcto de valores del conjunto de datos de prueba. Las columnas de la matriz representan los elementos que se han predicho en el conjunto de datos de prueba. Las filas representan el estado real del atributo como existe en el conjunto de datos de prueba.

Por ejemplo, observe el modo en que el modelo de minería de datos ha predicho los clientes que tenían una tarjeta de bronce. El valor de la intersección de la columna y la fila de bronce representaría el número real de clientes de la base de datos de prueba que tenían una tarjeta de bronce. El valor de la intersección de la columna de plata y la fila de bronce representaría el número de escenarios que se predijeron incorrectamente como plata, cuando en realidad eran bronce. El número de valores predichos incorrectamente para bronce sería la suma de la intersección de la columna de bronce y la fila de plata, y la columna de bronce y la fila de oro. En los demás tipos de tarjeta se cumple el mismo análisis.

Para obtener más información:Temas de procedimientos de la ficha Gráfico de precisión de minería de datos, Asignaciones de columnas (Gráfico de elevación), Matriz de clasificación

Volver al principio

Vea también

Conceptos

Usar las herramientas de minería de datos
Conceptos de minería de datos
Trabajar con minería de datos

Otros recursos

Temas de procedimientos de la ficha Gráfico de precisión de minería de datos

Ayuda e información

Obtener ayuda sobre SQL Server 2005