Algoritmo Microsoft Logistic Regression

Articolo
12/15/2008

L'algoritmo Microsoft Logistic Regression è una variazione dell'algoritmo Microsoft Neural Network, in cui il parametro HIDDEN_NODE_RATIO è impostato su 0. Tale impostazione consentirà di creare un modello di rete neurale che non contiene un livello nascosto e, pertanto, è equivalente alla regressione logistica.

Si supponga che la colonna stimabile contenga solo due stati e tuttavia si intenda eseguire comunque un'analisi di regressione, stabilendo una relazione tra le colonne di input e la probabilità che la colonna stimabile includa uno stato specifico. Nel diagramma seguente sono illustrati i risultati che si otterranno se si assegnano i valori 1 e 0 agli stati della colonna stimabile, si calcola la probabilità che la colonna contenga uno stato specifico e si esegue una regressione lineare in base a una variabile di input.

Dati modellati in modo insufficiente con regressione lineare

L'asse x contiene i valori di una colonna di input. L'asse y contiene le probabilità che la colonna stimabile includa solo uno stato o l'altro. In questo caso, il problema è che la regressione lineare non vincola la colonna a valori compresi tra 0 e 1, anche se questi sono rispettivamente il valore minimo e massimo della colonna. Uno dei modi per risolvere tale problema consiste nell'esecuzione della regressione logistica. Anziché creare una linea retta, l'analisi di regressione logistica crea una curva a forma di "S" che contiene i vincoli minimi e massimi. Ad esempio, nel diagramma seguente sono illustrati i risultati che si otterranno se si esegue una regressione logistica in base agli stessi dati utilizzati nell'esempio precedente.

Dati modellati tramite regressione logistica

Si noti che la curva non si sposta mai su valori maggiori di 1 o minori di 0. È possibile utilizzare la regressione logistica per descrivere le colonne di input significative ai fine della determinazione dello stato della colonna stimabile.

Utilizzo dell'algoritmo

Il Visualizzatore Microsoft Neural Network consente di esplorare un modello di data mining per la regressione lineare.

Un modello per la regressione logistica deve contenere una colonna chiave, una o più colonne di input e una o più colonne stimabili.

L'algoritmo Microsoft Logistic Regression supporta tipi di contenuto specifici delle colonne di input, tipi di contenuto specifici delle colonne stimabili e flag di modellazione, elencati nella tabella seguente.

Tipi di contenuto delle colonne di input	Continuous, Cyclical, Discrete, Discretized, Key, Table e Ordered
Tipi di contenuto delle colonne stimabili	Continuous, Cyclical, Discrete, Discretized e Ordered
Flag di modellazione	MODEL_EXISTENCE_ONLY e NOT NULL

Tutti gli algoritmi Microsoft supportano un set comune di funzioni. L'algoritmo Microsoft Logistic Regression supporta tuttavia funzioni aggiuntive, elencate nella tabella seguente.

IsDescendant	PredictStdev
PredictAdjustedProbability	PredictSupport
PredictHistogram	PredictVariance
PredictProbability

Per un elenco delle funzioni comuni a tutti gli algoritmi Microsoft, vedere Algoritmi di data mining. Per ulteriori informazioni sull'utilizzo di queste funzioni, vedere Guida di riferimento alle funzioni DMX (Data Mining Extensions).

I modelli che utilizzano l'algoritmo Microsoft Logistic Regression non supportano il drill-through o le dimensioni di data mining, in quanto non necessariamente la struttura di nodi nel modello di data mining corrisponde direttamente ai dati sottostanti.

L'algoritmo Microsoft Logistic Regression supporta vari parametri che influiscono sulle prestazioni e sull'accuratezza del modello di data mining risultante. Nella tabella seguente viene descritto ogni parametro.

Parametro	Descrizione
HOLDOUT_PERCENTAGE	Specifica la percentuale di case all'interno dei dati di training utilizzata per calcolare l'errore di controllo. Il parametro HOLDOUT_PERCENTAGE viene utilizzato nell'ambito dei criteri di interruzione durante il training del modello di data mining. Il valore predefinito è 30.
HOLDOUT_SEED	Specifica un numero da utilizzare come valore di inizializzazione per il generatore pseudocasuale durante la determinazione casuale dei dati di controllo. Se il parametro HOLDOUT_SEED è impostato su 0, l'algoritmo genera il valore di inizializzazione in base al nome del modello di data mining, per garantire che il contenuto del modello rimanga invariato durante la rielaborazione. Il valore predefinito è 0.
MAXIMUM_INPUT_ATTRIBUTES	Definisce il numero di attributi di input che l'algoritmo è in grado di gestire prima di richiamare la funzionalità di selezione degli attributi. Impostare questo valore su 0 per disattivare la funzionalità di selezione degli attributi. Il valore predefinito è 255.
MAXIMUM_OUTPUT_ATTRIBUTES	Definisce il numero di attributi di output che l'algoritmo è in grado di gestire prima di richiamare la funzionalità di selezione degli attributi. Impostare questo valore su 0 per disattivare la funzionalità di selezione degli attributi. Il valore predefinito è 255.
MAXIMUM_STATES	Specifica il numero massimo di stati degli attributi supportati dall'algoritmo. Se il numero di stati di un attributo è maggiore del numero massimo, l'algoritmo utilizza gli stati più frequenti dell'attributo e ignora gli stati rimanenti. Il valore predefinito è 100.
SAMPLE_SIZE	Specifica il numero di case da utilizzare per il training del modello. Il provider dell'algoritmo utilizza questo numero o la percentuale del numero totale di case non inclusi nella percentuale di controllo specificata dal parametro HOLDOUT_PERCENTAGE, a seconda del valore minore. In altre parole, se il parametro HOLDOUT_PERCENTAGE è impostato su 30, l'algoritmo utilizzerà il valore di questo parametro o un valore uguale al 70 percento del numero totale di case, a seconda del valore minore. Il valore predefinito è 10000.

Vedere anche

Condividi tramite

Algoritmo Microsoft Logistic Regression

Utilizzo dell'algoritmo

Vedere anche

Concetti

Altre risorse

Guida in linea e informazioni

Risorse aggiuntive