Concetti di base sul data mining

Articolo
12/15/2008

Il data mining viene descritto spesso come "il processo di estrazione di informazioni valide, autentiche e attive da database di grandi dimensioni". In altre parole, il data mining deriva schemi e tendenze esistenti nei dati, i quali possono essere raccolti collettivamente e definiti come modello di data mining. È possibile applicare i modelli di data mining a scenari aziendali specifici, come ad esempio:

Previsioni di vendite
Mailing diretti a clienti specifici
Individuazione dei prodotti che probabilmente verranno venduti insieme
Ricerca di sequenze nell'ordine in cui i clienti aggiungono i prodotti al carrello acquisti

È importante tenere presente che la creazione di un modello di data mining rientra in un processo più ampio che include tutte le fasi necessarie, dalla definizione del problema di base che il modello dovrà risolvere alla distribuzione del modello in un ambiente di lavoro. È possibile definire tale processo suddividendolo nei sei passaggi di base seguenti:

Definizione del problema
Preparazione dei dati
Esplorazione dei dati
Creazione dei modelli
Esplorazione e convalida dei modelli
Distribuzione e aggiornamento dei modelli

Nel diagramma seguente vengono descritte le relazioni tra i vari passaggi del processo e le tecnologie di Microsoft SQL Server 2005 che consentono di completare ogni passaggio.

Passaggi principali del processo di data mining

Sebbene il processo illustrato nel diagramma sia circolare, non necessariamente ogni passaggio porta direttamente a quello successivo. La creazione di un modello di data mining è un processo dinamico e iterativo. Dopo aver esplorato i dati, è possibile scoprire che questi non sono sufficienti per la creazione di modelli di data mining appropriati e che pertanto è necessario cercare altri dati. Analogamente, è possibile creare vari modelli e scoprire che questi non consentono di risolvere il problema definito in precedenza e che pertanto è necessario ridefinire il problema. Potrebbe inoltre essere necessario aggiornare i modelli dopo la relativa distribuzione poiché a questo punto sono disponibili altri dati. È importante comprendere quindi che la creazione di un modello di data mining è un processo in cui ogni passaggio può essere ripetuto il numero di volte necessario per ottenere risultati soddisfacenti.

SQL Server 2005 offre un ambiente integrato per la creazione e l'utilizzo dei modelli di data mining, denominato Business Intelligence Development Studio. Tale ambiente include strumenti e algoritmi di data mining che semplificano la creazione di una soluzione completa per una vasta gamma di progetti. Per ulteriori informazioni sull'utilizzo di BI Development Studio, vedere Sviluppo di soluzioni e progetti di Analysis Services.

Per ulteriori informazioni sull'applicazione degli strumenti di SQL Server agli scenari aziendali precedentemente elencati in questo argomento, vedere Esercitazione sul data mining.

Definizione del problema

Il primo passaggio del processo di data mining, illustrato nel diagramma seguente, consiste nel definire chiaramente il problema aziendale.

Primo passaggio del processo di data mining: definizione del problema

Tale passaggio include l'analisi dei requisiti aziendali e la definizione dell'ambito del problema, della metrica in base alla quale verrà valutato il modello e dell'obiettivo finale per il progetto di data mining. È necessario trasformare queste attività nelle domande seguenti:

Che tipo di dati sono necessari?
Quale attributo del set di dati si desidera stimare?
Che tipo di relazioni si intende individuare?
Si desidera eseguire stime in base al modello di data mining o soltanto cercare schemi e associazioni interessanti?
Come sono distribuiti i data?
Che tipo di relazione esiste tra le colonne o, se esistono più tabelle, tra le tabelle?

Per rispondere a queste domande, potrebbe essere necessario effettuare uno studio sulla disponibilità dei dati al fine di individuare le esigenze degli utenti aziendali in relazione ai dati disponibili. Se i dati non soddisfano le esigenze degli utenti, potrebbe essere necessario ridefinire il progetto.

Preparazione dei dati

Il secondo passaggio del processo di data mining, illustrato nella figura seguente, consiste nel consolidamento e nella rimozione dei dati identificati nel passaggio Definizione del problema.

Secondo passaggio del processo di data mining: preparazione dei dati

Microsoft In SQL Server 2005 Integration Services (SSIS) sono disponibili tutti gli strumenti necessari per completare questo passaggio, incluse le trasformazioni che consentono di automatizzare la rimozione e il consolidamento dei dati.

I dati possono essere sparsi nell'intera azienda e archiviati in formati diversi, oppure possono contenere inconsistenze quali voci non valide o mancanti. Ad esempio, i dati potrebbero indicare che un cliente ha acquistato un prodotto prima ancora di nascere oppure che effettua acquisti periodicamente presso un negozio situato a 2.000 chilometri di distanza da casa. Prima di avviare la creazione dei modelli, è necessario risolvere tali inconsistenze. In genere viene utilizzato un set di dati di dimensioni molto estese e non è possibile esaminare ogni transazione. Pertanto è necessario utilizzare un metodo di automazione, come ad esempio in Integration Services, per esplorare i dati e individuare le inconsistenze.

Esplorazione dei dati

Il terzo passaggio del processo di data mining, illustrato nel diagramma seguente, consiste nell'esplorazione dei dati preparati.

Terzo passaggio del processo di data mining: esplorazione dei dati

Per prendere decisioni appropriate durante la creazione dei modelli, è necessario interpretare correttamente i dati. Tra le tecniche di esplorazione sono inclusi il calcolo dei valori minimi e massimi, il calcolo della deviazione media e standard e l'analisi della distribuzione dei dati. Dopo aver esplorato i dati, è possibile stabilire se il set di dati contiene dati non validi e quindi escogitare una strategia per risolvere i problemi.

Progettazione vista origine dati, disponibile in BI Development Studio, include vari strumenti per l'esplorazione dei dati.

Creazione dei modelli

Il quarto passaggio del processo di data mining, illustrato nel diagramma seguente, consiste nella creazione dei modelli di data mining.

Quarto passaggio del processo di data mining: creazione dei modelli di data mining

Prima di creare un modello, è necessario separare in modo casuale i dati preparati in set di dati di training e di prova distinti. Il set di dati di training viene utilizzato per creare il modello, mentre il set di dati di prova viene utilizzato per verificare l'accuratezza del modello creando query di stima. È possibile dividere il set di dati tramite la Trasformazione Campionamento percentuale in Integration Services.

Le conoscenze acquisite durante il passaggio Esplorazione dei dati verranno utilizzate per definire e creare un modello di data mining. In genere, un modello contiene le colonne di input, una colonna di identificazione e una colonna stimabile. In seguito, è possibile definire queste colonne in un nuovo modello mediante il linguaggio DMX (Data Mining Extensions) o tramite la Creazione guidata modello di data mining in BI Development Studio. Per ulteriori informazioni sull'utilizzo del linguaggio DMX, vedere Guida di riferimento a DMX (Data Mining Extensions). Per ulteriori informazioni sull'utilizzo della Creazione guidata modello di data mining, vedere Creazione guidata modello di data mining.

Dopo aver definito la struttura del modello di data mining, è necessario elaborarla, popolando la struttura vuota con gli schemi che descrivono il modello. Tale processo è noto come training del modello. Gli schemi vengono individuati passando i dati originali attraverso un algoritmo matematico. SQL Server 2005 include un algoritmo diverso per ogni tipo di modello che è possibile creare. È possibile regolare ogni algoritmo tramite l'utilizzo di parametri.

Un modello di data mining viene definito da un oggetto della struttura di data mining, da un oggetto del modello di data mining e da un algoritmo di data mining.

Per ulteriori informazioni:Strutture di data mining (Analysis Services), Algoritmi di data mining

Microsoft SQL Server 2005 Analysis Services (SSAS) include gli algoritmi seguenti:

Esplorazione e convalida dei modelli

Il quinto passaggio del processo di data mining, illustrato nel diagramma seguente, consiste nell'esplorazione dei modelli creati e nella verifica della relativa efficienza.

Quinto passaggio del processo di data mining: convalida dei modelli di data mining

Non è consigliabile implementare un modello in un ambiente di produzione senza prima verificare l'efficacia del modello. Se inoltre sono stati creati vari modelli, sarà necessario individuare il modello più efficace. Se nessuno dei modelli creati durante il passaggio Creazione dei modelli risulta efficace, potrebbe essere necessario tornare al passaggio precedente del processo, ridefinendo il problema o esaminando di nuovo i dati del set originale.

È possibile esplorare le tendenze e gli schemi rilevati dagli algoritmi tramite i visualizzatori di Progettazione modelli di data mining disponibili in BI Development Studio. È inoltre possibile verificare l'accuratezza delle stime create dai modelli mediante gli strumenti della finestra di progettazione, ad esempio con il grafico e la matrice di classificazione. Tali strumenti richiedono l'esecuzione di test sui dati separati dal set di dati originale durante il passaggio di creazione dei modelli.

Per ulteriori informazioni:Visualizzazione di un modello di data mining, Convalida dei modelli di data mining, Grafico lift, Matrice di classificazione

Distribuzione e aggiornamento dei modelli

L'ultimo passaggio del processo di data mining, illustrato nel diagramma seguente, consiste nella distribuzione dei modelli più efficaci in un ambiente di produzione.

Sesto passaggio del processo di data mining: distribuzione dei modelli di data mining

Dopo la distribuzione dei modelli di data mining in un ambiente di produzione, è possibile eseguire numerose attività, a seconda delle necessità. Tra le attività che è possibile eseguire sono incluse le seguenti:

Utilizzare i modelli per creare stime, in base alle quali è possibile prendere decisioni aziendali in una fase successiva. SQL Server include il linguaggio DMX, che consente di creare query di stima, e il generatore delle query di stima, che facilita la creazione di tali query.
Incorporare la funzionalità di data mining direttamente in un'applicazione. È possibile includere la libreria AMO (Analysis Management Objects) o un assembly contenente un set di oggetti utilizzabili dall'applicazione per creare, modificare, elaborare ed eliminare strutture e modelli di data mining. In alternativa, è possibile inviare messaggi XMLA (XML for Analysis) direttamente a un'istanza di Analysis Services.
Utilizzare Integration Services per creare un pacchetto in cui viene utilizzato un modello di data per separare in modo intelligente i dati in entrata dividendoli tra più tabelle. Se ad esempio un database viene aggiornato continuamente con i potenziali clienti, è possibile utilizzare un modello di data mining insieme a Integration Services per dividere i dati in entrata separando i clienti che probabilmente acquisteranno un prodotto dai clienti che probabilmente non lo acquisteranno.
Creare un report che consenta agli utenti di eseguire direttamente le query su un modello di data mining esistente.

L'aggiornamento del modello rientra nell'ambito della strategia di distribuzione. Mano a mano che arrivano più dati all'organizzazione, è necessario rielaborare i modelli, migliorandone in tal modo l'efficacia.

Per ulteriori informazioni:Elaborazione in Analysis Services, Creazione di query di stima DMX, Guida di riferimento a DMX (Data Mining Extensions), Analysis Services Administration Programming (SSAS)

Vedere anche

Share via

Concetti di base sul data mining

Definizione del problema

Preparazione dei dati

Esplorazione dei dati

Creazione dei modelli

Esplorazione e convalida dei modelli

Distribuzione e aggiornamento dei modelli

Vedere anche

Concetti

Altre risorse

Guida in linea e informazioni

Risorse aggiuntive