Personalizzare struttura e modelli di data mining

Dopo avere selezionato un algoritmo adatto alle esigenze aziendali, è possibile personalizzare il modello di data mining nei modi seguenti per migliorarne potenzialmente i risultati.

  • Utilizzare colonne di dati diverse nel modello o modificare l'utilizzo, il tipo di contenuto o il metodo di discretizzazione delle colonne.

  • Creare filtri per il modello di data mining per limitare i dati utilizzati per il training del modello.

  • Modificare l'algoritmo utilizzato per analizzare dati.

  • Impostare i parametri dell'algoritmo per determinare soglie, divisioni dell'albero e altre condizioni importanti.

In questo argomento vengono descritte queste opzioni.

Modifica dei dati utilizzati dal modello

Le decisioni adottate in relazione alle colonne di dati da utilizzare nel modello e alle modalità di utilizzo e di elaborazione dei dati possono influire significativamente sui risultati dell'analisi. Negli argomenti seguenti vengono fornite informazioni che semplificano la comprensione di tali scelte.

Utilizzo della selezione delle funzionalità

Nella maggior parte degli algoritmi di data mining di Analysis Services viene utilizzato un processo denominato selezione delle funzionalità per selezionare solo gli attributi più utili da aggiungere a un modello. La riduzione del numero di colonne e di attributi può migliorare le prestazione e la qualità del modello. I metodi disponibili per la selezione delle funzionalità differiscono a seconda dell'algoritmo scelto.

Selezione delle caratteristica (Data mining).

Modifica dell'utilizzo

È possibile modificare le colonne incluse in un modello di data mining e la modalità di utilizzo di ciascuna colonna. Se non si ottengono i risultati previsti, è necessario esemplificare le colonne utilizzate come input e considerare se si tratta della scelta corretta e se è possibile migliorare la gestione dei dati, ad esempio:

  • Individuare variabili di categoria etichettate erroneamente come numeri.

  • Aggiungere categorie per comprimere il numero di attributi e semplificare l'individuazione delle correlazioni.

  • Modificare la modalità in cui i numeri sono suddivisi in contenitori, o discretizzati.

  • Rimuovere le colonne che dispongono di molti valori univoci o quelle che contengono in realtà dati di riferimento non utili per l'analisi, ad esempio indirizzi o secondi nomi.

Non è necessario rimuovere fisicamente le colonne dalla struttura di data mining, ma è sufficiente contrassegnarle come Ignora. La colonna viene rimossa dal modello di data mining, ma continuerà a essere utilizzata da altri modelli di data mining della struttura o come riferimento in una query drill-through.

Creazione di alias per le colonne del modello

Quando Analysis Services crea il modello di data mining, utilizza gli stessi nomi della colonna presenti nella struttura di data mining. È possibile aggiungere un alias a qualsiasi colonna nel modello di data mining. Ciò può facilitare la comprensione del contenuto o dell'utilizzo della colonna oppure rendere il nome più corto per semplificare la creazione delle query. Gli alias sono anche utili quando si desidera creare una copia di una colonna e assegnarle un nome descrittivo.

Per creare un alias modificare la proprietà Name della colonna del modello di data mining. In Analysis Services continua a essere utilizzato il nome originale come ID della colonna e il nuovo valore digitato come Nome diviene l'alias della colonna e viene visualizzato nella griglia tra parentesi accanto all'utilizzo della colonna.

Alias nelle colonne del modello di data mining

Nell'illustrazione vengono mostrati i modelli correlati che dispongono di più copie di una colonna della struttura di data mining, tutti correlati a Income. Ogni copia della colonna della struttura è stata discretizzata in modo diverso. I modelli nel diagramma utilizzano ciascuno una colonna diversa dalla struttura di data mining. Tuttavia, per facilitare il confronto delle colonne attraverso i modelli, la colonna in ogni modello è stata rinominata come [Income].

Aggiunta di filtri

È possibile aggiungere un filtro a un modello di data mining. Un filtro è un set di condizioni di WHERE che limitano i dati nei case del modello ad alcuni subset. Il filtro viene utilizzato durante il training del modello e può essere utilizzata facoltativamente durante il test del modello o durante la creazione dei grafici di accuratezza.

L'aggiunta di filtri consente di riutilizzare le strutture di data mining, ma creare modelli basati su subset di dati molto diversi. In alternativa, è possibile utilizzare i filtri semplicemente per eliminare determinate righe e migliorare la qualità dell'analisi.

Per ulteriori informazioni, vedere Filtri per i modelli di data mining (Analysis Services - Data mining).

Modifica dell'algoritmo

Anche se i nuovi modelli aggiunti a una struttura di data mining condividono lo stesso set di dati, è possibile ottenere risultati diversi utilizzando un algoritmo diverso (se supportato dai dati) o modificando i parametri per l'algoritmo. Inoltre, è possibile impostare i flag di modellazione.

La scelta dell'algoritmo determina il tipo di risultati ottenuto. Per informazioni generali sul funzionamento di un algoritmo specifico o gli scenari aziendali in cui l'utilizzo di un determinato algoritmo può rivelarsi utile, vedere Algoritmi di data mining (Analysis Services - Data mining).

Vedere l'argomento di riferimento tecnico relativo a ogni algoritmo per una descrizione dei requisiti e delle restrizioni, nonché per informazioni dettagliate sulle personalizzazioni supportate da ciascun algoritmo.

Algoritmo Microsoft Decision Trees

Algoritmo Microsoft Time Series

Algoritmo Microsoft Clustering

Algoritmo Microsoft Neural Network

Algoritmo Microsoft Naive Bayes

Algoritmo Microsoft Logistic Regression

Algoritmo Microsoft Association Rules

Algoritmo Microsoft Linear Regression

Algoritmo Microsoft Sequence Clustering

  

Personalizzazione dei parametri dell'algoritmo

Ogni algoritmo supporta parametri che è possibile utilizzare per personalizzare il comportamento dell'algoritmo e ottimizzare i risultati del modello. Per una descrizione di come utilizzare ciascun parametro, vedere gli argomenti seguenti:

L'argomento per ogni tipo di algoritmo include inoltre le funzioni di stima che possono essere utilizzate con i modelli basati sull'algoritmo specifico.

Nome proprietà

Si applica a

AUTO_DETECT_PERIODICITY

Riferimento tecnico per l'algoritmo Microsoft Time Series

CLUSTER_COUNT

Riferimento tecnico per l'algoritmo Microsoft Clustering

Riferimento tecnico per l'algoritmo Microsoft Sequence Clustering

CLUSTER_SEED

Riferimento tecnico per l'algoritmo Microsoft Clustering

CLUSTERING_METHOD

Riferimento tecnico per l'algoritmo Microsoft Clustering

COMPLEXITY_PENALTY

Guida di riferimento tecnico per l'algoritmo Microsoft Decision Trees

Riferimento tecnico per l'algoritmo Microsoft Time Series

FORCE_REGRESSOR

Guida di riferimento tecnico per l'algoritmo Microsoft Decision Trees

Riferimento tecnico per l'algoritmo Microsoft Linear Regression

Flag di modellazione (data mining)

FORECAST_METHOD

Riferimento tecnico per l'algoritmo Microsoft Time Series

HIDDEN_NODE_RATIO

Riferimento tecnico per l'algoritmo Microsoft Neural Network

HISTORIC_MODEL_COUNT

Riferimento tecnico per l'algoritmo Microsoft Time Series

HISTORICAL_MODEL_GAP

Riferimento tecnico per l'algoritmo Microsoft Time Series

HOLDOUT_PERCENTAGE

Riferimento tecnico per l'algoritmo Microsoft Logistic Regression

Riferimento tecnico per l'algoritmo Microsoft Neural Network

[!NOTA]

Questo parametro è diverso dal valore della percentuale dei dati di controllo che si applica a una struttura di data mining.

HOLDOUT_SEED

Riferimento tecnico per l'algoritmo Microsoft Logistic Regression

Riferimento tecnico per l'algoritmo Microsoft Neural Network

[!NOTA]

Questo parametro è diverso dal valore di inizializzazione dei dati di controllo che si applica a una struttura di data mining.

INSTABILITY_SENSITIVITY

Riferimento tecnico per l'algoritmo Microsoft Time Series

MAXIMUM_INPUT_ATTRIBUTES

Riferimento tecnico per l'algoritmo Microsoft Clustering

Guida di riferimento tecnico per l'algoritmo Microsoft Decision Trees

Riferimento tecnico per l'algoritmo Microsoft Linear Regression

Riferimento tecnico per l'algoritmo Microsoft Naive Bayes

Riferimento tecnico per l'algoritmo Microsoft Neural Network

Riferimento tecnico per l'algoritmo Microsoft Logistic Regression

MAXIMUM_ITEMSET_COUNT

Riferimento tecnico per l'algoritmo Microsoft Association Rules

MAXIMUM_ITEMSET_SIZE

Riferimento tecnico per l'algoritmo Microsoft Association Rules

MAXIMUM_OUTPUT_ATTRIBUTES

Guida di riferimento tecnico per l'algoritmo Microsoft Decision Trees

Riferimento tecnico per l'algoritmo Microsoft Linear Regression

Riferimento tecnico per l'algoritmo Microsoft Logistic Regression

Riferimento tecnico per l'algoritmo Microsoft Naive Bayes

Riferimento tecnico per l'algoritmo Microsoft Neural Network

MAXIMUM_SEQUENCE_STATES

Riferimento tecnico per l'algoritmo Microsoft Sequence Clustering

MAXIMUM_SERIES_VALUE

Riferimento tecnico per l'algoritmo Microsoft Time Series

MAXIMUM_STATES

Riferimento tecnico per l'algoritmo Microsoft Clustering

Riferimento tecnico per l'algoritmo Microsoft Neural Network

Riferimento tecnico per l'algoritmo Microsoft Sequence Clustering

MAXIMUM_SUPPORT

Riferimento tecnico per l'algoritmo Microsoft Association Rules

MINIMUM_IMPORTANCE

Riferimento tecnico per l'algoritmo Microsoft Association Rules

MINIMUM_ITEMSET_SIZE

Riferimento tecnico per l'algoritmo Microsoft Association Rules

MINIMUM_DEPENDENCY_PROBABILITY

Riferimento tecnico per l'algoritmo Microsoft Naive Bayes

MINIMUM_PROBABILITY

Riferimento tecnico per l'algoritmo Microsoft Association Rules

MINIMUM_SERIES_VALUE

Riferimento tecnico per l'algoritmo Microsoft Time Series

MINIMUM_SUPPORT

Riferimento tecnico per l'algoritmo Microsoft Association Rules

Riferimento tecnico per l'algoritmo Microsoft Clustering

Guida di riferimento tecnico per l'algoritmo Microsoft Decision Trees

Riferimento tecnico per l'algoritmo Microsoft Sequence Clustering

Riferimento tecnico per l'algoritmo Microsoft Time Series

MISSING_VALUE_SUBSTITUTION

Riferimento tecnico per l'algoritmo Microsoft Time Series

MODELLING_CARDINALITY

Riferimento tecnico per l'algoritmo Microsoft Clustering

PERIODICITY_HINT

Riferimento tecnico per l'algoritmo Microsoft Time Series

PREDICTION_SMOOTHING

Riferimento tecnico per l'algoritmo Microsoft Time Series

SAMPLE_SIZE

Riferimento tecnico per l'algoritmo Microsoft Clustering

Riferimento tecnico per l'algoritmo Microsoft Logistic Regression

Riferimento tecnico per l'algoritmo Microsoft Neural Network

SCORE_METHOD

Guida di riferimento tecnico per l'algoritmo Microsoft Decision Trees

SPLIT_METHOD

Guida di riferimento tecnico per l'algoritmo Microsoft Decision Trees

STOPPING_TOLERANCE

Riferimento tecnico per l'algoritmo Microsoft Clustering

Vedere anche

Concetti

Algoritmi di data mining (Analysis Services - Data mining)

Architettura fisica (Analysis Services – Data mining)