Personalizzare struttura e modelli di data mining

Articolo
07/30/2013

Dopo avere selezionato un algoritmo adatto alle esigenze aziendali, è possibile personalizzare il modello di data mining nei modi seguenti per migliorarne potenzialmente i risultati.

Utilizzare colonne di dati diverse nel modello o modificare l'utilizzo, il tipo di contenuto o il metodo di discretizzazione delle colonne.
Creare filtri per il modello di data mining per limitare i dati utilizzati per il training del modello.
Modificare l'algoritmo utilizzato per analizzare dati.
Impostare i parametri dell'algoritmo per determinare soglie, divisioni dell'albero e altre condizioni importanti.

In questo argomento vengono descritte queste opzioni.

Modifica dei dati utilizzati dal modello

Le decisioni adottate in relazione alle colonne di dati da utilizzare nel modello e alle modalità di utilizzo e di elaborazione dei dati possono influire significativamente sui risultati dell'analisi. Negli argomenti seguenti vengono fornite informazioni che semplificano la comprensione di tali scelte.

Utilizzo della selezione delle funzionalità

Nella maggior parte degli algoritmi di data mining di Analysis Services viene utilizzato un processo denominato selezione delle funzionalità per selezionare solo gli attributi più utili da aggiungere a un modello. La riduzione del numero di colonne e di attributi può migliorare le prestazione e la qualità del modello. I metodi disponibili per la selezione delle funzionalità differiscono a seconda dell'algoritmo scelto.

Selezione delle caratteristica (Data mining).

Modifica dell'utilizzo

È possibile modificare le colonne incluse in un modello di data mining e la modalità di utilizzo di ciascuna colonna. Se non si ottengono i risultati previsti, è necessario esemplificare le colonne utilizzate come input e considerare se si tratta della scelta corretta e se è possibile migliorare la gestione dei dati, ad esempio:

Individuare variabili di categoria etichettate erroneamente come numeri.
Aggiungere categorie per comprimere il numero di attributi e semplificare l'individuazione delle correlazioni.
Modificare la modalità in cui i numeri sono suddivisi in contenitori, o discretizzati.
Rimuovere le colonne che dispongono di molti valori univoci o quelle che contengono in realtà dati di riferimento non utili per l'analisi, ad esempio indirizzi o secondi nomi.

Non è necessario rimuovere fisicamente le colonne dalla struttura di data mining, ma è sufficiente contrassegnarle come Ignora. La colonna viene rimossa dal modello di data mining, ma continuerà a essere utilizzata da altri modelli di data mining della struttura o come riferimento in una query drill-through.

Creazione di alias per le colonne del modello

Quando Analysis Services crea il modello di data mining, utilizza gli stessi nomi della colonna presenti nella struttura di data mining. È possibile aggiungere un alias a qualsiasi colonna nel modello di data mining. Ciò può facilitare la comprensione del contenuto o dell'utilizzo della colonna oppure rendere il nome più corto per semplificare la creazione delle query. Gli alias sono anche utili quando si desidera creare una copia di una colonna e assegnarle un nome descrittivo.

Per creare un alias modificare la proprietà Name della colonna del modello di data mining. In Analysis Services continua a essere utilizzato il nome originale come ID della colonna e il nuovo valore digitato come Nome diviene l'alias della colonna e viene visualizzato nella griglia tra parentesi accanto all'utilizzo della colonna.

Alias nelle colonne del modello di data mining

Nell'illustrazione vengono mostrati i modelli correlati che dispongono di più copie di una colonna della struttura di data mining, tutti correlati a Income. Ogni copia della colonna della struttura è stata discretizzata in modo diverso. I modelli nel diagramma utilizzano ciascuno una colonna diversa dalla struttura di data mining. Tuttavia, per facilitare il confronto delle colonne attraverso i modelli, la colonna in ogni modello è stata rinominata come [Income].

Aggiunta di filtri

È possibile aggiungere un filtro a un modello di data mining. Un filtro è un set di condizioni di WHERE che limitano i dati nei case del modello ad alcuni subset. Il filtro viene utilizzato durante il training del modello e può essere utilizzata facoltativamente durante il test del modello o durante la creazione dei grafici di accuratezza.

L'aggiunta di filtri consente di riutilizzare le strutture di data mining, ma creare modelli basati su subset di dati molto diversi. In alternativa, è possibile utilizzare i filtri semplicemente per eliminare determinate righe e migliorare la qualità dell'analisi.

Per ulteriori informazioni, vedere Filtri per i modelli di data mining (Analysis Services - Data mining).

Modifica dell'algoritmo

Anche se i nuovi modelli aggiunti a una struttura di data mining condividono lo stesso set di dati, è possibile ottenere risultati diversi utilizzando un algoritmo diverso (se supportato dai dati) o modificando i parametri per l'algoritmo. Inoltre, è possibile impostare i flag di modellazione.

La scelta dell'algoritmo determina il tipo di risultati ottenuto. Per informazioni generali sul funzionamento di un algoritmo specifico o gli scenari aziendali in cui l'utilizzo di un determinato algoritmo può rivelarsi utile, vedere Algoritmi di data mining (Analysis Services - Data mining).

Vedere l'argomento di riferimento tecnico relativo a ogni algoritmo per una descrizione dei requisiti e delle restrizioni, nonché per informazioni dettagliate sulle personalizzazioni supportate da ciascun algoritmo.

Algoritmo Microsoft Decision Trees	Algoritmo Microsoft Time Series
Algoritmo Microsoft Clustering	Algoritmo Microsoft Neural Network
Algoritmo Microsoft Naive Bayes	Algoritmo Microsoft Logistic Regression
Algoritmo Microsoft Association Rules	Algoritmo Microsoft Linear Regression
Algoritmo Microsoft Sequence Clustering

Personalizzazione dei parametri dell'algoritmo

Ogni algoritmo supporta parametri che è possibile utilizzare per personalizzare il comportamento dell'algoritmo e ottimizzare i risultati del modello. Per una descrizione di come utilizzare ciascun parametro, vedere gli argomenti seguenti:

L'argomento per ogni tipo di algoritmo include inoltre le funzioni di stima che possono essere utilizzate con i modelli basati sull'algoritmo specifico.

Nome proprietà	Si applica a
AUTO_DETECT_PERIODICITY	Riferimento tecnico per l'algoritmo Microsoft Time Series
CLUSTER_COUNT	Riferimento tecnico per l'algoritmo Microsoft Clustering Riferimento tecnico per l'algoritmo Microsoft Sequence Clustering
CLUSTER_SEED	Riferimento tecnico per l'algoritmo Microsoft Clustering
CLUSTERING_METHOD	Riferimento tecnico per l'algoritmo Microsoft Clustering
COMPLEXITY_PENALTY	Guida di riferimento tecnico per l'algoritmo Microsoft Decision Trees Riferimento tecnico per l'algoritmo Microsoft Time Series
FORCE_REGRESSOR	Guida di riferimento tecnico per l'algoritmo Microsoft Decision Trees Riferimento tecnico per l'algoritmo Microsoft Linear Regression Flag di modellazione (data mining)
FORECAST_METHOD	Riferimento tecnico per l'algoritmo Microsoft Time Series
HIDDEN_NODE_RATIO	Riferimento tecnico per l'algoritmo Microsoft Neural Network
HISTORIC_MODEL_COUNT	Riferimento tecnico per l'algoritmo Microsoft Time Series
HISTORICAL_MODEL_GAP	Riferimento tecnico per l'algoritmo Microsoft Time Series
HOLDOUT_PERCENTAGE	Riferimento tecnico per l'algoritmo Microsoft Logistic Regression Riferimento tecnico per l'algoritmo Microsoft Neural Network [!NOTA] Questo parametro è diverso dal valore della percentuale dei dati di controllo che si applica a una struttura di data mining.
HOLDOUT_SEED	Riferimento tecnico per l'algoritmo Microsoft Logistic Regression Riferimento tecnico per l'algoritmo Microsoft Neural Network [!NOTA] Questo parametro è diverso dal valore di inizializzazione dei dati di controllo che si applica a una struttura di data mining.
INSTABILITY_SENSITIVITY	Riferimento tecnico per l'algoritmo Microsoft Time Series
MAXIMUM_INPUT_ATTRIBUTES	Riferimento tecnico per l'algoritmo Microsoft Clustering Guida di riferimento tecnico per l'algoritmo Microsoft Decision Trees Riferimento tecnico per l'algoritmo Microsoft Linear Regression Riferimento tecnico per l'algoritmo Microsoft Naive Bayes Riferimento tecnico per l'algoritmo Microsoft Neural Network Riferimento tecnico per l'algoritmo Microsoft Logistic Regression
MAXIMUM_ITEMSET_COUNT	Riferimento tecnico per l'algoritmo Microsoft Association Rules
MAXIMUM_ITEMSET_SIZE	Riferimento tecnico per l'algoritmo Microsoft Association Rules
MAXIMUM_OUTPUT_ATTRIBUTES	Guida di riferimento tecnico per l'algoritmo Microsoft Decision Trees Riferimento tecnico per l'algoritmo Microsoft Linear Regression Riferimento tecnico per l'algoritmo Microsoft Logistic Regression Riferimento tecnico per l'algoritmo Microsoft Naive Bayes Riferimento tecnico per l'algoritmo Microsoft Neural Network
MAXIMUM_SEQUENCE_STATES	Riferimento tecnico per l'algoritmo Microsoft Sequence Clustering
MAXIMUM_SERIES_VALUE	Riferimento tecnico per l'algoritmo Microsoft Time Series
MAXIMUM_STATES	Riferimento tecnico per l'algoritmo Microsoft Clustering Riferimento tecnico per l'algoritmo Microsoft Neural Network Riferimento tecnico per l'algoritmo Microsoft Sequence Clustering
MAXIMUM_SUPPORT	Riferimento tecnico per l'algoritmo Microsoft Association Rules
MINIMUM_IMPORTANCE	Riferimento tecnico per l'algoritmo Microsoft Association Rules
MINIMUM_ITEMSET_SIZE	Riferimento tecnico per l'algoritmo Microsoft Association Rules
MINIMUM_DEPENDENCY_PROBABILITY	Riferimento tecnico per l'algoritmo Microsoft Naive Bayes
MINIMUM_PROBABILITY	Riferimento tecnico per l'algoritmo Microsoft Association Rules
MINIMUM_SERIES_VALUE	Riferimento tecnico per l'algoritmo Microsoft Time Series
MINIMUM_SUPPORT	Riferimento tecnico per l'algoritmo Microsoft Association Rules Riferimento tecnico per l'algoritmo Microsoft Clustering Guida di riferimento tecnico per l'algoritmo Microsoft Decision Trees Riferimento tecnico per l'algoritmo Microsoft Sequence Clustering Riferimento tecnico per l'algoritmo Microsoft Time Series
MISSING_VALUE_SUBSTITUTION	Riferimento tecnico per l'algoritmo Microsoft Time Series
MODELLING_CARDINALITY	Riferimento tecnico per l'algoritmo Microsoft Clustering
PERIODICITY_HINT	Riferimento tecnico per l'algoritmo Microsoft Time Series
PREDICTION_SMOOTHING	Riferimento tecnico per l'algoritmo Microsoft Time Series
SAMPLE_SIZE	Riferimento tecnico per l'algoritmo Microsoft Clustering Riferimento tecnico per l'algoritmo Microsoft Logistic Regression Riferimento tecnico per l'algoritmo Microsoft Neural Network
SCORE_METHOD	Guida di riferimento tecnico per l'algoritmo Microsoft Decision Trees
SPLIT_METHOD	Guida di riferimento tecnico per l'algoritmo Microsoft Decision Trees
STOPPING_TOLERANCE	Riferimento tecnico per l'algoritmo Microsoft Clustering

Vedere anche

Concetti

Algoritmi di data mining (Analysis Services - Data mining)

Architettura fisica (Analysis Services – Data mining)