Convalida di modelli di data mining (Analysis Services - Data mining)

La convalida è il processo che consente di valutare le prestazioni dei modelli di data mining rispetto ai dati reali. Per convalidare in modo corretto i modelli di data mining, è importante comprenderne la qualità e le caratteristiche prima di distribuirli in un ambiente di produzione.

La valutazione della qualità e delle caratteristiche di un modello di data mining può essere eseguita in base ad approcci diversi. Il primo prevede l'utilizzo di varie misure della validità statistica per determinare se sono presenti problemi nei dati o nel modello. In secondo luogo è possibile separare i dati in set di training e di testing per valutare l'accuratezza delle stime. Infine è possibile chiedere agli esperti aziendali di esaminare i risultati del modello di data mining per determinare se i modelli individuati sono significativi nello scenario aziendale di destinazione. Tutti questi approcci risultano utili nella metodologia di data mining e vengono utilizzati in maniera iterativa durante la creazione, l'esecuzione di test e l'ottimizzazione di modelli per rispondere a un problema specifico.

In questa sezione vengono introdotti alcuni concetti di base relativi alla qualità dei modelli e le strategie per la convalida dei modelli fornite in Microsoft SQL Server 2008 Analysis Services. Per una panoramica sullo scopo della convalida dei modelli nel contesto più ampio del processo di data mining, vedere Progetti di data mining (Analysis Services - Data mining).

Criteri per misurare modelli di data mining

La maggior parte dei metodi per la convalida di un modello di data mining non risponde direttamente alle domande aziendali, ma fornisce le misure che possono essere utilizzate per prendere una decisione relativa all'azienda o allo sviluppo. Non esiste alcuna regola completa in grado di stabilire quando un modello è affidabile o quando si dispone di dati sufficienti.

Le misure relative al data mining rientrano generalmente nelle categorie di accuratezza, affidabilità e utilità.

Accuratezza, affidabilità e utilità

L'accuratezza consente di misurare il livello di correlazione tra il risultato e gli attributi nei dati specificati fornito dal modello. Sebbene siano disponibili diverse misure di accuratezza, tutte dipendono dai dati utilizzati. Nelle situazioni reali i valori potrebbero non essere disponibili o essere approssimati oppure è possibile che i dati siano stati modificati da più processi. In particolare, nella fase di esplorazione e sviluppo è possibile decidere di accettare una certa quantità di errore nei dati, soprattutto se questi ultimi sono equamente uniformi nelle caratteristiche. Ad esempio, un modello che stima le vendite per un negozio specifico in base alle vendite precedenti può essere strettamente correlato ed estremamente accurato, anche se tale negozio ha utilizzato in modo costante un metodo contabile non corretto. Di conseguenza, le misure dell'accuratezza devono essere bilanciate da valutazioni dell'affidabilità.

L'affidabilità consente di valutare le prestazioni di un modello di data mining rispetto a set di dati diversi. Un modello di data mining è affidabile se genera lo stesso tipo di stime o individua gli stessi tipi generali di modelli indipendentemente dai dati di prova forniti. Il modello generato ad esempio per il negozio che ha utilizzato il metodo contabile non corretto non consentirebbe una generalizzazione accurata rispetto agli altri negozi e pertanto non sarebbe affidabile.

L'utilità include diverse misure che indicano se il modello fornisce informazioni vantaggiose. Un modello di data mining che correla ad esempio l'ubicazione di un negozio con le vendite potrebbe essere accurato e affidabile, ma potrebbe non essere utile, poiché non è possibile generalizzare tale risultato aggiungendo altri negozi nella stessa ubicazione. Tale modello inoltre non risponde alla domanda aziendale fondamentale, ovvero non indica perché a ubicazioni specifiche è associato un numero maggiore di vendite. È possibile anche rilevare che un modello apparentemente positivo non è in effetti significativo, poiché si basa su correlazioni incrociate dei dati.

Framework per il data mining Microsoft

CRISP-DM è una metodologia nota che descrive i passaggi necessari per la definizione, lo sviluppo e l'implementazione di un progetto di data mining. Tale metodologia rappresenta tuttavia un framework concettuale che non fornisce istruzioni specifiche sulle modalità di definizione dell'ambito e di pianificazione di un progetto. Per soddisfare meglio le particolari esigenze di utenti in ambito aziendale interessati al data mining ma che non conoscono il punto in cui iniziare la pianificazione e quelle di sviluppatori esperti in applicazioni .NET ma che non hanno familiarità con i concetti di data mining, Microsoft ha sviluppato un metodo per l'implementazione di un progetto di data mining che include un sistema di valutazione completo.

Per ulteriori informazioni, vedere la pagina relativa alle risorse di data mining Microsoft.

Approcci alla convalida di modelli di data mining in SQL Server Analysis Services

In SQL Server 2008 sono disponibili diversi approcci per la convalida di soluzioni di data mining che supportano tutte le fasi della metodologia di sviluppo di progetti relativi.

Partizionamento dei dati in set di training e in set di testing

Il partizionamento dei dati in set di training e di testing costituisce una tecnica consolidata per preparare i dati per la valutazione. Una parte dei dati del set di training viene riservata per l'esecuzione del testing, mentre la parte rimanente viene utilizzata per eseguire il training. Una volta completato, il modello viene utilizzato per eseguire stime rispetto al set di test. Poiché i dati del set di training vengono selezionati casualmente dagli stessi dati utilizzati per eseguire il training, è meno probabile che le misure di accuratezza che derivano dall'esecuzione del testing siano influenzate dalle discrepanze dei dati e pertanto riflettono meglio le caratteristiche del modello.

Per ulteriori informazioni, vedere Partizionamento dei dati in set di training e in set di testing (Analysis Services - Data mining).

Convalida incrociata di modelli di data mining

La convalida incrociata consente di partizionare un set di dati in sezioni trasversali minori e di creare più modelli su tali sezioni per testare la validità del set di dati completo. Per ciascuna partizione, in Analysis Services vengono quindi generate misure di accuratezza precise. Grazie a queste informazioni, è possibile migliorare la qualità di un modello singolo o identificare i modelli più opportuni per un set di dati specifico.

Per ulteriori informazioni, vedere Convalida incrociata (Analysis Services - Data mining).

Utilizzo di grafici per l'accuratezza di un modello di data mining

In Microsoft SQL Server Analysis Services sono disponibili strumenti che consentono di tracciare l'accuratezza della stima, eseguire il testing del modello rispetto a dati nuovi o esistenti o confrontare più modelli in grafici e report.

Un grafico di accuratezza consente di visualizzare il miglioramento che si ottiene mediante l'utilizzo di un modello di data mining confrontato con un'ipotesi casuale. È inoltre possibile creare grafici dei profitti che associano il guadagno o il costo finanziario all'utilizzo di un modello di data mining e grafici a dispersione per i modelli basati sulla regressione. Una matrice di classificazione consente di ordinare ipotesi accurate e non corrette in una tabella, in modo che sia possibile valutare rapidamente e semplicemente il livello di accuratezza con cui il modello esegue la stima del valore di destinazione.

Per ulteriori informazioni, vedere Strumenti per la creazione di grafici di accuratezza dei modelli (Analysis Services - Data mining).

È inoltre possibile filtrare modelli in varie modi per eseguire il training e il testing di diverse combinazioni degli stessi dati di origine. Per ulteriori informazioni, vedere Misurazione dell'accuratezza di un modello di data mining (Analysis Services - Data mining).

Esplorazione ed esecuzione di query sul contenuto dei modelli e sui case

In Analysis Services è disponibile un set di visualizzatori specifici per eseguire ricerche ed esplorare il modello di data mining. È inoltre possibile creare query sul contenuto che consentono di comprendere meglio il modello e di individuare problemi imprevisti nell'approccio o nei dati. Quando si crea una query sul contenuto utilizzando Data Mining Extensions (DMX), è possibile ottenere informazioni statistiche sui modelli individuati dal modello di data mining o recuperare case che supportano modelli specifici trovati dal modello di data mining stesso. È inoltre possibile eseguire il drill-through per definire più in dettaglio la struttura di data mining sottostante, ricercare o presentare informazioni dettagliate non incluse nel modello o eseguire azioni sui modelli individuati nei dati.

Per ulteriori informazioni sull'esecuzione di query sul contenuto dei modelli, vedere Esecuzione di query sui modelli di data mining (Analysis Services - Data mining).

Per ulteriori informazioni sull'esplorazione del contenuto dei modelli, vedere Visualizzazione di un modello di data mining.

Per ulteriori informazioni sull'interpretazione del contenuto dei modelli per algoritmi specifici, vedere Algoritmi di data mining (Analysis Services - Data mining).