Share via


Matrice di classificazione (Analysis Services - Data mining)

Nella scheda Matrice di classificazione della scheda Grafico accuratezza modello di data mining di Progettazione modelli di data mining viene visualizzata una matrice per ogni modello specificato nella scheda Selezione input. La visualizzazione di questo grafico, denominato anche matrice di confusione consente di accedere rapidamente alla frequenza con cui il modello ha eseguito stime accurate.

Le righe di ogni matrice rappresentano i valori stimati per il modello, mentre le colonne rappresentano i valori effettivi. La matrice di classificazione viene creata ordinando tutti i case in categorie, ovvero in base alla possibilità che il valore stimato corrisponda a quello effettivo o alla possibilità che il valore stimato sia corretto o meno. Tali categorie vengono anche denominate falso positivo, vero positivo, falso negativo e vero negativo. Vengono calcolati tutti i case di ogni categoria, quindi vengono visualizzati i totali nella matrice.

In questa sezione viene illustrato come creare una matrice di classificazione e come interpretarne i risultati.

Nota

Una matrice di classificazione può essere utilizzata solo con attributi stimabili discreti.

Scenario

Si consideri, ad esempio, il modello creato come parte dell'esercitazione descritta in Esercitazione di base sul data mining. Il modello TM_DecisionTree, che consente di semplificare la creazione di una campagna di mailing diretto, può essere utilizzato per eseguire una stima dei clienti che con maggiore probabilità acquisteranno una bicicletta. Se è probabile che il cliente acquisti una bicicletta, il valore della colonna [Bike Buyer] è 1; in caso contrario, il valore della colonna [Bike Buyer] è 0.

Per valutare l'efficacia del modello per l'esecuzione di stime, è possibile verificare nuovamente il modello rispetto a un set di dati per cui i valori di [Bike Buyer] sono già noti. A tale scopo, viene in genere utilizzato un set di dati di test riservato durante la creazione della struttura di data mining utilizzata per il training del modello. Poiché questi dati contengono già i risultati effettivi, è possibile determinare rapidamente il numero di volte in cui il modello è stato in grado di stimare correttamente il valore.

Informazioni sulla matrice di classificazione

Nella tabella seguente vengono illustrati i risultati della creazione di una matrice di classificazione per il modello TM_DecisionTree. Poiché sono possibili due soli valori per questo attributo stimabile, ovvero 0 e 1, è piuttosto semplice individuare la frequenza con cui il modello esegue una stima corretta.

Valori stimati

0 (valore effettivo)

1 (valore effettivo)

0

362

144

1

121

373

La prima cella dei risultati, che contiene il valore 362, indica il numero di veri positivi per il valore 0. Poiché 0 significa che il cliente non ha acquistato una bicicletta, la statistica indica che il modello è stato in grado di eseguire una stima corretta per il valore relativo ai mancati acquirenti di biciclette in 362 case.

La cella immediatamente sottostante, che contiene il valore 121, indica il numero di falsi positivi, o numero di volte in cui il modello ha erroneamente previsto che alcuni clienti avrebbero acquistato una bicicletta.

La cella che contiene il valore 144 indica il numero di falsi positivi per il valore 1. Poiché 1 significa che il cliente ha acquistato una bicicletta, questa statistica indica che in 144 case il modello ha stimato erroneamente che alcuni clienti non avrebbero acquistato una bicicletta.

La cella che contiene il valore 373, infine, indica il numero di veri positivi per il valore di destinazione 1. In altri termini, in 373 case il modello ha eseguito una stima corretta, prevedendo che alcuni clienti avrebbero acquistato una bicicletta.

Sommando i valori nelle celle adiacenti in diagonale, è possibile determinare l'accuratezza complessiva del modello. Una diagonale indica il numero complessivo di stime accurate, mentre l'altra indica il numero totale di stime errate.

Utilizzo di più valori stimabili

Il case [Bike Buyer] è particolarmente semplice da interpretare perché vi sono solo due valori possibili. Quando l'attributo stimabile ha più valori possibili, la matrice di classificazione aggiunge una nuova colonna per ogni valore effettivo possibile, quindi conteggia il numero di corrispondenze per ciascun valore stimato. Nella tabella seguente vengono illustrati i risultati in un modello diverso in cui sono possibili tre valori: 0, 1 e 2.

Valori stimati

0 (valore effettivo)

1 (valore effettivo)

2 (valore effettivo)

0

111

3

5

1

2

123

17

2

19

0

20

Benché l'aggiunta di più colonne renda più complesso l'aspetto del report, il dettaglio aggiuntivo può rivelarsi molto utile quando si desidera valutare il costo di una stima errata. Per creare somme sulle diagonali o confrontare i risultati per diverse combinazioni di righe, è possibile fare clic sul pulsante Copia disponibile nella scheda Matrice di classificazione e incollare il report in Excel. In alternativa, è possibile utilizzare un client, ad esempio il client di data mining per Excel, che supporta sia SQL Server 2005 sia SQL Server 2008, per creare direttamente in Excel un report di classificazione che includa conteggi e percentuali. Per ulteriori informazioni, vedere SQL Server Data Mining.

Creazione di una matrice di classificazione

Per creare una matrice di classificazione, effettuare le operazioni di base seguenti:

  1. In Grafico di accuratezza modello di data mining di Progettazione modelli di data mining fare clic sulla scheda Selezione input.

  2. Nella scheda Selezione input selezionare un modello da valutare.

  3. Specificare l'attributo stimabile e, eventualmente, il valore stimabile.

  4. Scegliere il set di dati da utilizzare nella valutazione.

  5. Fare clic sulla scheda Matrice di classificazione per generare automaticamente un report nel formato della matrice di classificazione.

Per una procedura dettagliata valida per tutti i tipi di grafico, vedere Procedura: Creazione di un grafico di accuratezza per un modello di data mining.

Nell'argomento Esercitazione di base sul data mining è incluso anche uno scenario relativo alla creazione di un grafico di accuratezza per il modello di mailing diretto. Per ulteriori informazioni, vedere Test dell'accuratezza con i grafici di accuratezza (Esercitazione di base sul data mining).