Matriz de clasificación (Analysis Services - Minería de datos)

La ficha Matriz de clasificación de la ficha Gráfico de precisión de minería de datos del Diseñador de minería de datos muestra una matriz por cada modelo que se especifique en la ficha Selección de entrada. Con este gráfico, al que a veces se denomina matriz de confusión, puede saber rápidamente en cuántas ocasiones ha sido exacta la predicción del modelo.

Las filas de cada matriz representan los valores de predicción del modelo, mientras que las columnas representan los valores reales. La matriz de clasificación se crea ordenando todos los casos en categorías: si el valor de predicción coincidía con el valor real, y si el valor de predicción era correcto o incorrecto. Estas categorías se conocen a veces como falso positivo, verdadero positivo, falso negativo y verdadero negativo. A continuación, se cuentan todos los casos de cada categoría y los totales se muestran en la matriz.

En esta sección se explica cómo se crea una matriz de clasificación y cómo se interpretan los resultados.

Nota

Una matriz de clasificación sólo se puede utilizar con atributos de predicción discretos.

Escenario

Por ejemplo, considere el modelo que creó como parte del Tutorial básico de minería de datos. El modelo TM_DecisionTree, que se utiliza para ayudar a crear una campaña de envío de correo directo, se puede utilizar para predecir qué clientes tienen más probabilidad de comprar una bicicleta. Si es probable que el cliente compre una bicicleta, el valor de la columna [Bike Buyer] es 1; si no, el valor de la columna [Bike Buyer] es 0.

Para evaluar si el modelo es eficaz al realizar las predicciones, se prueba frente a un conjunto de datos para el que ya se conocen los valores de [Bike Buyer]. Normalmente, se utiliza un conjunto de datos de pruebas que se reservó al crear la estructura de minería de datos que se utiliza para entrenar el modelo. Dado que estos datos ya contienen los resultados reales, se puede determinar rápidamente el número de veces que el modelo predijo el valor esperado.

Descripción de la matriz de clasificación

En la tabla siguiente se muestran los resultados producidos cuando una matriz de clasificación se crea para el modelo TM_DecisionTree. Dado que hay sólo dos valores posibles para este atributo de predicción, 0 y 1, es bastante fácil indicar la frecuencia con que el modelo realiza correctamente una predicción.

Previsto

0 (real)

1 (real)

0

362

144

1

121

373

La primera celda de resultados, que contiene el valor 362, indica el número de verdaderos positivos para el valor 0. Dado que 0 indica que el cliente no compró una bicicleta, esta estadística indica que el modelo predijo el valor correcto para quienes no compraron bicicleta en 362 casos.

La celda situada directamente debajo de esa, que contiene el valor 121, indica el número de falsos positivos, o número de veces que el modelo predijo que alguien compraría una bicicleta cuando en realidad no lo hizo.

La celda que contiene el valor 144 indica el número de falsos positivos para el valor 1. Dado que 1 significa que el cliente compró una bicicleta, esta estadística indica que, en 144 casos, el modelo predijo que alguien no compraría una bicicleta cuando sí lo hizo.

Finalmente, la celda que contiene el valor 373 indica el número de verdaderos positivos para el valor de destino 1. En otras palabras, en 373 casos el modelo predijo correctamente que alguien compraría una bicicleta.

Sumando los valores de las celdas contiguas diagonalmente, se puede determinar la exactitud total del modelo. Una diagonal indica el número total de predicciones exactas y la otra indica el número total de predicciones erróneas.

Usar varios valores de predicción

El caso [Bike Buyer] es especialmente fácil de interpretar porque hay sólo dos valores posibles. Cuando el atributo de predicción tiene varios valores posibles, la matriz de clasificación agrega una columna nueva por cada valor real posible y, a continuación, cuenta el número de coincidencias para cada valor predicho. En la tabla siguiente se muestran los resultados en un modelo diferente, donde hay tres valores (0, 1, 2) posibles.

Previsto

0 (real)

1 (real)

2 (real)

0

111

3

5

1

2

123

17

2

19

0

20

Aunque la suma de más columnas hace que el informe parezca más complejo, el detalle adicional puede ser muy útil cuando se desea evaluar el costo de realizar una predicción equivocada. Para crear sumas en las diagonales o comparar los resultados de combinaciones diferentes de filas, puede hacer clic en el botón Copiar que se proporciona en la ficha Matriz de clasificación y pegar el informe en Excel. También puede utilizar un cliente como Cliente de minería de datos para Excel, que admite tanto SQL Server 2005 como SQL Server 2008, para crear directamente un informe de clasificación en Excel que incluya recuentos y porcentajes. Para obtener más información, vea Minería de datos de SQL Server.

Crear una matriz de clasificación

Al crear una matriz de clasificación, hay que seguir estos pasos básicos:

  1. En la ficha Gráfico de precisión de minería de datos del Diseñador de minería de datos, haga clic en la ficha Selección de entrada.

  2. En la ficha Selección de entrada, seleccione un modelo para evaluar.

  3. Especifique el atributo de predicción y, si lo desea, el valor de predicción.

  4. Elija el conjunto de datos que se usará en la evaluación.

  5. Haga clic en la ficha Matriz de clasificación para generar automáticamente un informe en el formato de la matriz de clasificación.

Para consultar un procedimiento paso a paso que se aplica a todos los tipos de gráfico, vea Cómo crear un gráfico de precisión para un modelo de minería de datos.

El Tutorial básico de minería de datos también incluye una visita guiada que explica cómo se crea un gráfico de elevación para el modelo de envío de correo directo. Para obtener más información, vea Probar la exactitud con gráficos de mejora respecto al modelo predictivo (Tutorial básico de minería de datos).