Creazione guidata modello di data mining (Analysis Services - Data mining)

La Creazione guidata modello di data mining di Microsoft SQL Server Analysis Services viene avviata ogni volta che si aggiunge una nuova struttura di data mining a un progetto di data mining. La creazione guidata consente di definire nuove strutture di data mining e seleziona le origini dati da utilizzare per il data mining. La procedura guidata consente inoltre di partizionare i dati nella struttura di data mining in set di training e di testing e di aggiungere un modello di data mining per ciascuna struttura.

Il contenuto di una struttura di data mining è basato su una vista origine dati o su un cubo esistente. È possibile scegliere le colonne da includere nella struttura di data mining. Tutti i modelli basati su tale struttura possono utilizzare le colonne selezionate. È inoltre possibile consentire agli utenti di un modello di data mining di eseguire il drill-down a partire dai risultati del modello per visualizzare colonne della struttura di data mining aggiuntive non incluse nel modello di data mining stesso.

Quando si crea una struttura e un modello di data mining utilizzando la Creazione guidata modello di data mining, è necessario effettuare le seguenti operazioni:

  • Specificare se la struttura e i modelli di data mining devono essere compilati in base a un database relazionale o a un cubo esistente di un database OLAP.

  • Stabilire la quantità di dati da utilizzare per il training e quella da riservare per il testing. Quando si partiziona una struttura di data mining in set di dati di training e di testing, tutti i modelli basati su tale struttura possono utilizzare il set di testing specifico.

  • Stabilire le colonne o gli attributi da utilizzare per la stima e quelli da utilizzare come input per l'analisi. Ogni struttura deve contenere inoltre una chiave che identifichi in modo univoco un record del case.

  • Stabilire l'algoritmo da utilizzare. Gli algoritmi disponibili in SQL Server Analysis Services includono caratteristiche diverse e restituiscono risultati diversi. È possibile creare più modelli utilizzando algoritmi diversi o modificare i parametri in modo che gli algoritmi creino modelli diversi. .

Nella Creazione guidata modello di data mining sono disponibili funzionalità che consentono di stabilire gli elementi descritti:

  • Pagine della creazione guidata in cui si definisce il case set. È possibile scegliere tabelle del case e tabelle nidificate da un'origine dati relazionale oppure scegliere un'origine dati OLAP, selezionare le colonne chiave del case e le colonne del livello del case e quindi, eventualmente, impostare filtri nel cubo.

  • Finestre di dialogo che consentono di analizzare i dati nelle colonne e contengono informazioni per il corretto utilizzo delle colonne stesso.

  • Rilevamento automatico del contenuto e dei tipi di dati delle colonne.

  • Sezionamento automatico del cubo se il modello di data mining è basato su un'origine dati OLAP.

Dopo avere completato la Creazione guidata modello di data mining, utilizzare Progettazione modelli di data mining per modificare la struttura e i modelli di data mining, determinare l'accuratezza del modello, visualizzare le caratteristiche della struttura e dei modelli o eseguire stime in base ai modelli.

Per ulteriori informazioni, vedere Progettazione modelli di data mining

Utilizzo della Creazione guidata modello di data mining

Per avviare la Creazione guidata modello di data mining, aggiungere una nuova struttura di data mining a un progetto di Analysis Services tramite Esplora soluzioni o il menu Progetto di Business Intelligence Development Studio.

La Creazione guidata modello di data mining viene eseguita in due modi diversi, a seconda che l'origine dati sia relazionale o sia inclusa in un cubo:

  • Modelli di data mining di tipo relazionale

  • Modelli di data mining di tipo OLAP

Nota

Non è necessario disporre di un cubo o di un database OLAP per eseguire il data mining. A meno che i dati non siano già archiviati in un cubo o non si desideri eseguire il data mining delle dimensioni o dei risultati di aggregazioni o calcoli OLAP, è consigliabile utilizzare una tabella o un'origine dati relazionale per il data mining.

Modelli di data mining di tipo relazionale

Quando in Analysis Services si compila un modello di data mining in base a un'origine dei dati relazionale, nella Creazione guidata modello di data mining è necessario specificare innanzitutto che la definizione della struttura del modello deve essere basata su un database relazionale esistente. È possibile creare solo la struttura di data mining o creare la struttura con un modello di data mining associato. Se si decide di creare anche un modello, è necessario specificare la tecnica di data mining da applicare selezionando l'algoritmo più appropriato per il tipo di analisi da eseguire.

Per ulteriori informazioni, vedereAlgoritmi di data mining (Analysis Services - Data mining).

Impostazione della vista origine dati e dei tipi di tabella

Nei passaggi successivi della creazione guidata viene selezionata la vista origine dati desiderata per la definizione della struttura di data mining e viene specificata una tabella del case. La tabella del case verrà utilizzata per eseguire il training del modello di data mining ed eventualmente per eseguirne il testing. È inoltre possibile specificare una tabella nidificata.

La selezione della tabella del case rappresenta una decisione importante, poiché tale tabella deve contenere le entità da analizzare, ad esempio i clienti e le relative informazioni demografiche. La tabella nidificata in genere contiene informazioni aggiuntive sulle entità della tabella del case, ad esempio le transazioni eseguite dal cliente o gli attributi con relazione molti-a-uno con l'entità. In una tabella nidificata associata alla tabella del case Customers, ad esempio, potrebbe essere incluso un elenco di prodotti acquistati da ciascun cliente o un elenco di hobby. Per ulteriori informazioni, vedere Tabelle nidificate (Analysis Services - Data mining).

Impostazione della modalità di utilizzo delle colonne

Dopo aver specificato la tabella del case e le tabelle nidificate, è necessario impostare la modalità di utilizzo delle varie colonne delle tabelle che verranno incluse nella struttura di data mining. Le colonne di cui non si specifica la modalità di utilizzo non vengono incluse nella struttura di data mining.

Le colonne di data mining possono essere di quattro tipi diversi, ovvero colonne chiave, di input, stimabili o una combinazione di colonna di input e stimabile. Le colonne chiave contengono l'identificatore univoco di ogni riga di una tabella. Alcuni modelli di data mining, ad esempio quelli basati sul clustering delle sequenze o gli algoritmi Time Series, possono includere più colonne chiave. Queste chiavi tuttavia non sono chiavi composte nel senso relazionale, ma devono essere selezionate per supportare l'analisi delle serie temporali e del clustering delle sequenze. Per ulteriori informazioni, vedere Algoritmo Microsoft Time Series o Algoritmo Microsoft Sequence Clustering.

Le colonne di input contengono informazioni per l'esecuzione di stime. Le colonne stimabili contengono le informazioni che vengono stimate nel modello di data mining.

Una serie di tabelle potrebbero contenere, ad esempio, gli ID dei clienti, informazioni di tipo demografico e la somma spesa da ogni cliente in un negozio specifico. L'ID del cliente identifica in modo univoco il cliente e correla inoltre la tabella del case alle tabelle nidificate. Questa colonna viene pertanto utilizzata come colonna chiave. È possibile utilizzare alcune colonne contenenti dati demografici come colonne di input e la colonna relativa alla somma spesa da ogni cliente come colonna stimabile e compilare quindi un modello di data mining che mette in relazione i dati demografici con la somma spesa da ogni cliente in un negozio specifico. Questo modello può essere utilizzato come base per marketing diretto.

Nella Creazione guidata modello di data mining è disponibile la caratteristica Suggerisci, che risulta abilitata quando si seleziona una colonna stimabile. I set di dati includono spesso un numero di colonne maggiore rispetto a quello necessario per la compilazione di un modello di data mining. La caratteristica Suggerisci calcola un valore numerico compreso tra 0 e 1 che descrive la relazione tra ogni colonna del set di dati e la colonna stimabile. In base a questo valore vengono indicate le colonne da utilizzare come input per il modello. Se si utilizza la caratteristica Suggerisci, è possibile utilizzare la selezione di colonne indicate, modificare la selezione in base alle specifiche esigenze o ignorare la selezione di colonne suggerita.

Impostazione del tipo di contenuto e di dati

Dopo aver selezionato una o più colonne stimabili e colonne di input, è possibile specificare il tipo di contenuto e di dati per ogni colonna.

Per ulteriori informazioni, vedereTipi di dati (data mining) e Tipi di contenuto (Data mining)

Divisione dei dati in set di training e in set di testing

Il passaggio finale prima di completare la procedura consiste nel partizionare i dati in set di training e di testing. La possibilità di riservare una parte dei dati per eseguire il testing è stata introdotta in SQL Server 2008 e costituisce un meccanismo semplice da utilizzare per garantire che un set coerente di dati di prova sia disponibile per essere utilizzato con tutti i modelli di data mining associati alla nuova struttura.

È possibile specificare che una determinata percentuale dei dati venga utilizzata per eseguire il training e un'altra per eseguire il testing, È inoltre possibile specificare il numero di case da utilizzare per il testing. La definizione della partizione viene archiviata con la struttura di data mining, in modo che tutte le volte in cui si crea un nuovo modello basato sulla struttura, il set di dati di testing sarà disponibile per valutarne l'accuratezza.

Per ulteriori informazioni, vedereConvalida di modelli di data mining (Analysis Services - Data mining) e Partizionamento dei dati in set di training e in set di testing (Analysis Services - Data mining)

Completamento della creazione guidata

Nell'ultimo passaggio della creazione guidata viene assegnato un nome alla struttura di data mining e al modello di data mining associato. Se si seleziona Consenti drill-through, nel modello viene abilitata la funzionalità drill-through, che consente agli utenti che dispongono di autorizzazioni appropriate di esplorare i dati di origine utilizzati per compilare il modello.

Per ulteriori informazioni, vedere Utilizzo del drill-through sui modelli di data mining e strutture di data mining (Analysis Services - Data mining)

Torna all'inizio

Modelli di data mining di tipo OLAP

Quando in Analysis Services si compila un modello di data mining multidimensionale in base a un'origine dei dati OLAP, nella Creazione guidata modello di data mining è necessario specificare innanzitutto che si desidera basare la definizione della struttura del modello su un cubo esistente. È possibile creare solo la struttura di data mining o creare la struttura con un modello di data mining associato. Se si decide di creare anche un modello, è necessario specificare la tecnica di data mining da applicare selezionando l'algoritmo più appropriato per il tipo di problema aziendale.

Per ulteriori informazioni, vedere Algoritmi di data mining (Analysis Services - Data mining).

Impostazione di origine dei dati e chiave del case

Nel passaggio successivo vengono selezionati la dimensione del cubo da utilizzare come origine dei dati per la definizione della struttura di data mining e l'attributo da utilizzare come chiave, o chiave del case, del modello di data mining.

Nota

Il modello di data mining OLAP che si sta compilando e il cubo di origine utilizzato devono essere presenti entrambi nello stesso database di Analysis Services.

Impostazione delle colonne del livello del case e della modalità di utilizzo delle colonne

Dopo aver selezionato una chiave del case, le misure e gli attributi ad essa associati vengono visualizzati in una visualizzazione Albero nel passaggio successivo della creazione guidata. Nell'elenco selezionare gli attributi e le misure da utilizzare come colonne della struttura. Queste colonne sono note come colonne del livello del case. In modo analogo al modello di tipo relazione, è necessario specificare anche la modalità di utilizzo di ogni colonna all'interno della struttura, operazione eseguita nel passaggio successivo della creazione guidata. Le colonne possono essere colonne chiave, di input, stimabili e di input stimabili. È possibile non selezionare alcun tipo di colonna.

Aggiunta di tabelle nidificate

Nella Creazione guidata modello di data mining per la creazione di un modello OLAP è possibile aggiungere tabelle nidificate alla struttura del modello di data mining. Nel passaggio Impostazione utilizzo colonne modello di data mining fare clic su Aggiungi tabelle nidificate. Verrà visualizzata una finestra di dialogo distinta per l'aggiunta di tabelle nidificate. Sono visualizzati solo i gruppi di misure validi per la dimensione specifica. Selezionare un gruppo di misure contenente la chiave esterna della dimensione del case. Specificare quindi la modalità di utilizzo di ogni colonna nel gruppo di misure, ovvero di input o stimabile. La tabella nidificata verrà quindi aggiunta alla tabella del case automaticamente. Il nome predefinito della tabella nidificata corrisponde al nome della dimensione nidificata. È tuttavia possibile rinominare sia la tabella nidificata che le colonne corrispondenti. Per ulteriori informazioni, vedere Tabelle nidificate (Analysis Services - Data mining).

Impostazione del tipo di contenuto e di dati

Dopo aver selezionato una o più colonne stimabili e colonne di input, è possibile specificare il tipo di contenuto e di dati per ogni colonna.

Per ulteriori informazioni, vedereTipi di dati (data mining) e Tipi di contenuto (Data mining).

Sezionamento del cubo di origine

Nella creazione guidata specifica per OLAP, è possibile limitare l'ambito del modello di data mining sezionando il cubo di origine prima di eseguire il training del modello. L'operazione di sezionamento del cubo è simile all'aggiunta di una clausola WHERE in un'istruzione SQL. Se, ad esempio, un cubo contiene informazioni sull'acquisto di prodotti, è possibile limitare un attributo di età a un'età maggiore di 30, una colonna del genere al genere femminile e una data di acquisto a una data non precedente rispetto a marzo 2000. In tal modo è possibile limitare l'ambito del modello a donne con età maggiore di 30 anni e che hanno acquistato un prodotto successivamente al mese di marzo del 2000.

Divisione dei dati in set di training e in set di testing

Il passaggio finale prima di completare la procedura consiste nel partizionare i dati disponibili nel cubo in set di training e di testing. La definizione della partizione viene archiviata con la struttura di data mining, in modo che tutte le volte in cui si crea un nuovo modello basato sulla struttura, il set di dati di testing sarà disponibile per valutarne l'accuratezza.

Per ulteriori informazioni, vedereConvalida di modelli di data mining (Analysis Services - Data mining) e Partizionamento dei dati in set di training e in set di testing (Analysis Services - Data mining)

Completamento della creazione guidata

Nell'ultimo passaggio della creazione guidata viene assegnato un nome alla struttura di data mining e al modello di data mining associato. Se si seleziona Consenti drill-through, nel modello viene abilitata la funzionalità drill-through, che consente agli utenti che dispongono di autorizzazioni appropriate di esplorare i dati di origine utilizzati per compilare il modello. È inoltre possibile specificare se aggiungere una nuova dimensione al cubo di origine basato sul modello di data mining o creare un nuovo cubo a partire dal modello.

Per ulteriori informazioni, vedereUtilizzo del drill-through sui modelli di data mining e strutture di data mining (Analysis Services - Data mining)

Torna all'inizio