Strutture di data mining (Analysis Services – Data mining)

La struttura di data mining definisce i dati in base ai quali vengono creati i modelli di data mining: specifica la vista dell'origine dati, il numero e il tipo di colonne e una partizione facoltativa in set di training e di testing. Una singola struttura di data mining può supportare più modelli di data mining che condividono lo stesso dominio. Nel diagramma seguente viene illustrata la relazione della struttura di data mining con l'origine dati e con i modelli di data mining che la compongono.

Elaborazione dei dati: origine-struttura-modello

La struttura di data mining nel diagramma è basata su un'origine dati che contiene più tabelle o viste, unite in join nel campo CustomerID. Una tabella contiene informazioni sui clienti, ad esempio l'area geografica, l'età, il reddito e il sesso, mentre la tabella nidificata correlata contiene più righe di informazioni aggiuntive su ogni cliente, ad esempio i prodotti che il cliente ha acquistato. Nel diagramma viene evidenziato che è possibile creare più modelli in una struttura di data mining e che i modelli possono utilizzare colonne diverse della struttura.

Modello 1 Utilizza CustomerID, Income, Age, Region e filtra i dati in base a Region.

Modello 2 Utilizza CustomerID, Income, Age, Region e filtra i dati in base a Age.

Modello 3 Utilizza CustomerID, Age, Gender e la tabella nidificata, senza filtro.

Poiché i modelli utilizzano colonne diverse per l'input e poiché due dei modelli limitano ulteriormente i dati utilizzati nel modello applicando un filtro, i modelli potrebbero produrre risultati molto diversi anche se basati sugli stessi dati. Si noti che la colonna CustomerID è obbligatoria in tutti i modelli poiché è l'unica colonna disponibile che può essere utilizzata come chiave del case.

In questa sezione viene descritta l'architettura di base delle strutture di data mining. Per ulteriori informazioni sulla creazione, la gestione, la modifica o la visualizzazione delle strutture di data mining, vedere Gestione di strutture e modelli di data mining.

Definizione delle strutture di data mining

La configurazione di una struttura di data mining include i passaggi seguenti:

  • Definizione di un'origine dati.

  • Selezione delle colonne della struttura e definizione di una chiave.

  • Partizionamento di un'origine dati in un set di training e, facoltativamente, un set di testing.

  • Elaborazione della struttura.

Origini dati per le strutture di data mining

Quando si definisce una struttura di data mining, si utilizzano colonne disponibili in una vista origine dati esistente. Una vista origine dati consente di combinare più origini dati e utilizzarle come sola origine nella struttura o nel modello di data mining creato. Le origini dati originali non possono essere visualizzate dalle applicazioni client.

Per ulteriori informazioni sulle viste origine dati, vedere Viste origine dati (Analysis Services - Dati multidimensionali).

Se si creano più modelli di data mining dalla stessa struttura di data mining, i modelli possono utilizzare colonne diverse dalla struttura e utilizzare le colonne in vari modi. È possibile ad esempio creare una singola struttura, quindi creare modelli di albero delle decisioni e di clustering separati a partire da essa, ognuno contenente colonne diverse e utilizzato per stimare attributi diversi.

In una struttura di data mining vengono archiviate solo le associazioni ai dati di origine. È inoltre possibile creare una struttura di data mining senza associarla a un'origine dati specifica tramite l'istruzione CREATE MINING STRUCTURE (DMX) DMX.

Colonne della struttura di data mining

Gli elementi fondamentali della struttura di data mining sono le relative colonne, che descrivono le informazioni contenute nell'origine dei dati. Tali colonne includono informazioni quali il tipo di dati, il tipo di contenuto e la modalità di distribuzione dei dati. La struttura di data mining non contiene informazioni sulla modalità di utilizzo delle colonne per un modello di data mining specifico o sul tipo di algoritmo utilizzato per generare un modello. Tali informazioni vengono definite nel modello stesso.

Una struttura di data mining può contenere anche tabelle nidificate. Una tabella nidificata rappresenta una relazione uno-a-molti tra l'entità di un case e gli attributi correlati. Se ad esempio le informazioni che descrivono il cliente sono contenute in una tabella mentre quelle relative agli acquisti del cliente sono contenute in un'altra tabella, è possibile utilizzare le tabelle nidificate per combinare le informazioni in un singolo case. L'identificatore del cliente è l'entità, mentre gli acquisti sono gli attributi correlati. Per ulteriori informazioni sull'utilizzo delle tabelle nidificate, vedere Tabelle nidificate (Analysis Services - Data mining).

Per creare un modello di data mining in Business Intelligence Development Studio, è innanzitutto necessario creare una struttura di data mining. La Creazione guidata modello di data mining guida l'utente attraverso il processo di creazione di una struttura di data mining, di scelta dei dati e di aggiunta di un modello di data mining.

Se si crea un modello di data mining tramite DMX (Data Mining Extensions), è possibile specificare il modello e le colonne in esso contenute in modo che DMX crei automaticamente la struttura di data mining necessaria. Per ulteriori informazioni, vedere CREATE MINING MODEL (DMX).

Per ulteriori informazioni, vedere Colonne della struttura di data mining.

Dati di training e dati di testing

Quando si definiscono i dati per la struttura di data mining, è anche possibile specificare che alcuni dei dati vengano utilizzati per il training e altri per il testing. Pertanto, non è più necessario partizionare i dati prima di creare una struttura di data mining. È possibile specificare che una certa percentuale dei dati venga isolata per il testing e che il resto venga utilizzato per il training, oppure è possibile specificare un certo numero di case da utilizzare come set di dati di test. Le informazioni sulle partizioni vengono memorizzate nella cache con la struttura di data mining. Pertanto, lo stesso set di test può essere utilizzato con tutti i modelli basati su quella struttura.

Per ulteriori informazioni, vedere Partizionamento dei dati in set di training e in set di testing (Analysis Services - Data mining).

Attivazione del drill-through

È possibile aggiungere colonne alla struttura di data mining anche se non si intende utilizzare la colonna in un modello di data mining specifico. Se non si specifica un utilizzo per la colonna, la colonna viene ignorata nell'analisi e nella stima. Tuttavia, può ancora essere utilizzata nelle query attivando il drill-through sul modello di data mining. Se si dispone delle autorizzazioni appropriate, è ad esempio possibile eseguire il drill-through da un determinato risultato in un modello di data mining per recuperare informazioni dettagliate sui case nel nodo e accedere alle colonne della struttura che non sono state utilizzate nel modello.

Per ulteriori informazioni, vedere Utilizzo del drill-through sui modelli di data mining e strutture di data mining (Analysis Services - Data mining).

Elaborazione di strutture di data mining

Fino a quando non viene elaborata, una struttura di data mining è soltanto un contenitore di metadati. Quando si elabora una struttura di data mining, in Analysis Services viene creata una cache locale per l'archiviazione delle statistiche relative ai dati, delle informazioni sul modo in cui vengono discretizzati gli eventuali attributi continui e di altre informazioni che verranno utilizzate successivamente dai modelli di data mining. Nel modello di data mining vero e proprio non vengono archiviati dati, esso fa riferimento alle informazioni nella cache. Di conseguenza, quando si elabora un modello di data mining, la cache della struttura deve essere disponibile. Se non è disponibile, la struttura deve essere rielaborata prima che il modello possa essere creato.

Se non si desidera memorizzare i dati nella cache, è possibile modificare la proprietà CacheMode della struttura di data mining in ClearAfterProcessing. In questo modo, la cache verrà distrutta dopo l'elaborazione dei modelli. Impostando la proprietà CacheMode su ClearAfterProcessing verrà disattivato il drill-through dal modello di data mining.

Se i dati memorizzati nella cache sono disponibili, non è necessario rielaborare la struttura di data mining quando si aggiunge un nuovo modello di data mining alla struttura. È possibile elaborare solo il modello. Per ulteriori informazioni, vedere Elaborazione di oggetti di data mining.

Visualizzazione delle strutture di data mining

Non è possibile utilizzare visualizzatori per esplorare i dati in una struttura di data mining. Tuttavia, in Business Intelligence Development Studio è possibile utilizzare la scheda Struttura di data mining nella Progettazione modelli di data mining per visualizzare le colonne della struttura e le relative definizioni. Per ulteriori informazioni, vedere Progettazione modelli di data mining.

Se si desidera esaminare i dati nella struttura di data mining, è possibile creare query utilizzando DMX (Data Mining Extensions). Ad esempio, l'istruzione SELECT * FROM <structure>.CASES restituisce tutti i dati presenti nella struttura di data mining. Per recuperare queste informazioni, è necessario che la struttura di data mining sia stata elaborata e che i risultati dell'elaborazione vengano memorizzati nella cache.

L'istruzione SELECT * FROM <model>.CASES restituisce le stesse colonne, ma solo per i case di quel modello specifico. Per ulteriori informazioni, vedere SELECT FROM <structure>.CASES e SELECT FROM <model>.CASES (DMX).

Utilizzo dei modelli di data mining con le strutture di data mining

Un modello di data mining applica un algoritmo specifico ai dati rappresentati da una struttura di data mining. Un modello di data mining è un oggetto che appartiene a una determinata struttura di data mining ed eredita tutti i valori delle proprietà definite dalla struttura. Il modello può utilizzare tutte le colonne contenute nella struttura di data mining o un subset delle colonne. È possibile aggiungere più copie di una colonna della struttura a una struttura. È anche possibile aggiungere più copie di una colonna della struttura a un modello e quindi assegnare nomi o alias diversi a ogni colonna della struttura nel modello. Per ulteriori informazioni sugli alias delle colonne della struttura, vedere Procedura: Creazione di un alias per una colonna di un modello e Impostazione delle proprietà in un modello di data mining.

Per ulteriori informazioni sull'architettura dei modelli di data mining, vedere Modelli di data mining (Analysis Services - Data mining).