Esplorazione del modello di previsione (Esercitazione intermedia sul data mining)

Articolo
05/07/2013

Dopo avere compilato il modello di data mining Forecasting, è possibile esaminare i risultati utilizzando la scheda Visualizzatore modello di data mining di Progettazione modelli di data mining. Il Visualizzatore Microsoft Time Series contiene due schede: Grafici e Modello.

È inoltre possibile utilizzare Microsoft Generic Content Tree Viewer con tutti i modelli. Ogni vista presenta un'immagine leggermente diversa delle informazioni nel modello Time Series.

Scheda Grafici
Scheda Modello
Microsoft Generic Content Tree Viewer

Scheda Grafici

La scheda Grafici del Visualizzatore Microsoft Time Series mostra graficamente ciascuna delle serie, inclusi dati cronologici e stime. Ogni linea del grafico della serie temporale rappresenta una combinazione univoca di prodotto, area e attributo stimabile.

Nella legenda a destra del visualizzatore vengono elencate le serie temporali disponibili, in base alle selezioni nell'elenco a discesa. È possibile scegliere le serie temporali da visualizzare nel grafico selezionando o deselezionando le caselle di controllo.

È inoltre possibile modificare le opzioni di visualizzazione, ad esempio i colori utilizzati per ogni serie temporale, o decidere se visualizzare i valori in qualsiasi punto del grafico.

Per selezionare una serie temporale

Fare clic sulla scheda Grafici della scheda Visualizzatore modello di data mining, se non è già visualizzata.
Fare clic sull'elenco a discesa a destra della vista del grafico e selezionare tutte le caselle di controllo. Fare clic su OK.

A questo punto il grafico dovrebbe contenere 24 linee delle serie.
A destra del grafico, deselezionare le caselle di controllo per nascondere temporaneamente le linee per tutte le serie basate su Amount.

A questo punto deselezionare le caselle di controllo relative alle biciclette R750 e R250.

Il grafico conterrà solo le sei linee delle serie seguenti, in modo da consentire di confrontare più facilmente le tendenze per le biciclette M200 e T1000.
- M200 Europe: Quantity
- M200 North America: Quantity
- M200 Pacific: Quantity
- T1000 Europe: Quantity
- T1000 North America: Quantity
- T1000 Pacific: Quantity

Serie per la stima delle quantità M200 e T1000

Nel grafico riprodotto in questo visualizzatore sono inclusi sia i dati cronologici che quelli stimati. Ai dati stimati viene applicata un'ombreggiatura per distinguerli dai dati cronologici. Per rendere più semplice il confronto tra serie diverse, è inoltre possibile modificare i colori associati a ogni linea nel grafico. Per ulteriori informazioni, vedere Modificare i colori utilizzati nel visualizzatore data mining.

Dalle linee di tendenza è possibile vedere che in genere le vendite totali per tutte le aree sono in aumento e raggiungono il periodo di picco ogni anno nel mese di dicembre. Dal grafico è inoltre possibile vedere che i dati per la bicicletta T1000 hanno inizio molto più tardi dei dati per le altre serie di prodotti. Ciò è dovuto al fatto che si tratta di un prodotto più nuovo, ma essendo questa serie basata su una quantità di dati molto inferiore, è possibile che le stime non siano accurate.

Per impostazione predefinita, vengono visualizzati cinque intervalli per la stima per ogni serie temporale, sotto forma di linea punteggiata. È possibile modificare questo valore in modo da visualizzare un numero maggiore o minore di stime. È inoltre possibile visualizzare graficamente la deviazione standard per le stime aggiungendo barre di errore al grafico.

Per modificare le opzioni relative a stima e visualizzazione nella vista del grafico

Provare a modificare gradualmente il valore di Intervalli per la stima aumentandolo da 5 a 10, quindi ritornare a 6.

Nel caso di ampie fluttuazioni dei dati cronologici, tali fluttuazioni tendono a essere ripetute o addirittura amplificate man mano che si aumenta il numero di stime. A questo punto è probabilmente necessario effettuare una ricerca per comprendere la causa dell'eccessivo aumento di dati cronologici e decidere quindi se accettare i risultati, cercare di trovare un tipo di correzione nei dati di origine o applicare l'anti-aliasing al modello.
Selezionare la casella di controllo Mostra deviazioni.

Questa opzione consente di visualizzare l'errore stimato per ogni valore stimato.
Osservare la scala dell'asse X. Le modifiche dei dati cronologici e stimati vengono sempre espresse come una percentuale, ma i valori effettivi vengono modificati automaticamente in base a tutti i valori nel grafico. In caso di confronto dei modelli, è pertanto opportuno evitare di basarsi solo sugli elementi visivi. Per ottenere il valore esatto o l'aumento percentuale e il valore per le stime, posizionare il mouse sulla linea punteggiata o sulle linee continue oppure fare clic sulle linee per visualizzare i valori in Legenda data mining.

Suggerimento: se Legenda data mining non è visibile, passare alla vista Modello, fare clic con il pulsante destro del mouse su un nodo qualsiasi e scegliere Mostra legenda.

Analizzando queste tendenze si nota la mancanza di dati per alcune serie e si desidera ottenere stime più affidabili facendo la media delle vendite per modello o eventualmente per area. Si esaminerà questo approccio in una lezione successiva di questa esercitazione.

Torna all'inizio

Scheda Modello

La scheda Modello del Visualizzatore Microsoft Time Series in Progettazione modelli di data mining consente di visualizzare il modello di previsione sotto forma di grafico dell'albero.

Notare innanzitutto che poiché i dati descrivono due misure diverse (Amount e Quantity) per vendite di più linee di prodotti (T1000 e così via) in tre aree diverse (Europa, Nord America e Pacific), il modello compilato contiene in effetti 24 alberi diversi, ognuno dei quali rappresenta un modello dei modelli di vendita per una combinazione diversa di area, prodotto e attributo stimabile.

È possibile scegliere quale combinazione di linea di prodotti, area e metrica delle vendite si desidera visualizzare selezionando una serie dall'elenco a discesa Albero nella scheda Modello.

Nozioni che è possibile apprendere visualizzando il modello come un albero Verrà effettuato un confronto tra due modelli, ad esempio, uno con diversi livelli nell'albero e un altro con un solo nodo.

Quando un grafico dell'albero contiene un singolo nodo, significa che la tendenza individuata nel modello è per lo più omogenea nel tempo. È possibile utilizzare questo singolo nodo, con etichetta Tutti, per visualizzare la formula che descrive la relazione tra le variabili di input e il risultato.
Se un grafico dell'albero per una serie temporale dispone di più rami, significa che la serie temporale rilevata è troppo complessa per essere rappresentata come una singola equazione. Il grafico dell'albero potrebbe invece contenere più rami, ognuno identificato con le condizioni che ne hanno causato la divisione. Quando l'albero viene diviso, ogni ramo rappresenta un segmento temporale diverso, all'interno del quale la tendenza può essere descritta come una singola equazione.

Se ad esempio osservando il grafico si nota un aumento improvviso nel volume delle vendite che inizia a settembre e si protrae fino alle festività di fine anno, è possibile passare alla vista Modello per visualizzare la data esatta in cui la tendenza è cambiata. I rami dell'albero che rappresentano "prima di settembre" e "dopo settembre" conterranno formule diverse: una formula descrive matematicamente le tendenze delle vendite fino alla divisione, mentre l'altra descrive le tendenze delle vendite per settembre fino alle festività di fine anno.

Per esplorare l'albero delle decisioni per un modello Time Series

Nell'elenco Albero della scheda Modello del visualizzatore selezionare la serie T1000 Europe: Amount.

Fare clic sul nodo con l'etichetta Tutti.

La descrizione comando visualizzata per un nodo Tutti include informazioni quali il numero di case nell'intera serie e le equazioni della serie temporale derivate dall'analisi dei dati.
Se Legenda data mining non è visibile, fare clic con il pulsante destro del mouse sul nodo e scegliere Mostra legenda.

In Legenda data mining vengono visualizzate praticamente le stesse informazioni presenti nella descrizione comando. Se una delle variabili indipendenti è discreta, verrà inoltre visualizzato un istogramma che illustra la distribuzione delle variabili nel nodo.
A questo punto selezionare una serie temporale diversa da visualizzare. Tramite l'elenco Albero della scheda Modello del visualizzatore selezionare la serie M200 North America: Amount.

Il grafico dell'albero conterrà un nodo Tutti e due nodi figlio. Osservando le etichette dei nodi figlio, è possibile identificare il punto in cui la linea di tendenza è stata modificata.

Nella descrizione presente in Legenda data mining di ogni nodo figlio è inoltre incluso il conteggio di case in ogni ramo dell'albero.

Nell'elenco seguente vengono descritte alcune funzionalità aggiuntive del visualizzatore alberi:

È possibile modificare la variabile rappresentata nel grafico tramite il controllo Sfondo. Per impostazione predefinita, i nodi più scuri contengono più case, perché il valore di Sfondo è impostato su Popolazione. Per visualizzare solo il numero di case presenti in un nodo, posizionare il puntatore del mouse su un nodo e osservare la descrizione comando visualizzata oppure fare clic sul nodo e visualizzare i numeri nella finestra Legenda nodo.
Nella descrizione comando o facendo clic sul nodo è inoltre possibile visualizzare la formula di regressione del nodo. Se è stato creato un modello misto, è possibile visualizzare due formule, una per ARTXP (nei nodi foglia) e uno per ARIMA (nel nodo radice dell'albero).
Nei nodi che rappresentano numeri continui vengono utilizzati piccoli rombi. L'intervallo degli attributi viene visualizzato nella barra su cui è presente il rombo. Il rombo è centrato sulla media del nodo e il relativo spessore rappresenta la varianza dell'attributo in tale nodo.

Torna all'inizio

(Facoltativo) Generic Content Tree Viewer

Oltre al visualizzatore personalizzato per la serie temporale, in Analysis Services è disponibile Microsoft Generic Content Tree Viewer da utilizzare con tutti i modelli di data mining. Questo visualizzatore fornisce alcuni vantaggi:

Visualizzatore Microsoft Time Series: in questa vista vengono uniti i risultati dei due algoritmi. Anche se è possibile visualizzare ogni serie separatamente, non è possibile determinare come sono stati combinati i risultati di ogni algoritmo. Inoltre in questa vista le descrizioni comando e Legenda data mining mostrano solo le statistiche più importanti.
Generic Content Tree Viewer: consente di esplorare e visualizzare tutta la serie di dati utilizzata contemporaneamente nel modello e, se è stato creato un modello misto, gli alberi ARIMA e ARTXP vengono visualizzati nello stesso grafico.

È possibile utilizzare questo visualizzatore per ottenere tutte le statistiche da entrambi gli algoritmi, oltre alle distribuzioni dei valori.

Consigliato per gli utenti esperti di data mining chi desiderano ottenere maggiori informazioni sulle analisi ARIMA e ARTXP.

Per visualizzare i dettagli per una particolare serie di dati in Generic Content Tree Viewer

Nella scheda Visualizzatore modello di data mining selezionare Microsoft Generic Content Tree Viewer dall'elenco a discesa Visualizzatore.
Nel riquadro Didascalia nodo fare clic sul nodo (Tutti) superiore.
Nel riquadro Dettagli nodo esaminare il valore ATTRIBUTE_NAME.

Questo valore indica quale serie, o combinazione di prodotto e area, è contenuta nel nodo. Nell'esempio di AdventureWorks il nodo superiore è relativo alla serie M200 Europe.
Nel riquadro Didascalia nodo individuare il primo nodo che dispone di nodi figlio.

Se un nodo della serie dispone di figli, anche la visualizzazione albero contenuta nella scheda Modello del Visualizzatore Microsoft Time Series disporrà di una struttura con rami.
Espandere il nodo e fare clic su uno dei nodi figlio.

La colonna NODE_DESCRIPTION dello schema contiene la condizione che ha causato la suddivisione dell'albero.
Nel riquadro Didascalia nodo fare clic sul nodo ARIMA superiore ed espanderlo fino a visualizzare tutti i nodi figlio.
Nel riquadro Dettagli nodo esaminare il valore ATTRIBUTE_NAME.

Questo valore indica quale serie temporale è contenuta nel nodo. Il nodo superiore nella sezione ARIMA deve corrispondere al nodo superiore nella sezione (Tutti). Nell'esempio di AdventureWorks questo nodo contiene l'analisi ARIMA relativa alla serie M200 Europe.

Per ulteriori informazioni, vedere Contenuto dei modelli di data mining per i modelli Time Series (Analysis Services - Data mining).

Torna all'inizio

Attività successiva della lezione

Creazione di stime basate su serie temporali (Esercitazione intermedia sul data mining)

Share via

Esplorazione del modello di previsione (Esercitazione intermedia sul data mining)

Scheda Grafici

Per selezionare una serie temporale

Per modificare le opzioni relative a stima e visualizzazione nella vista del grafico

Scheda Modello

Per esplorare l'albero delle decisioni per un modello Time Series

(Facoltativo) Generic Content Tree Viewer

Per visualizzare i dettagli per una particolare serie di dati in Generic Content Tree Viewer

Attività successiva della lezione

Vedere anche

Riferimento

Concetti

Risorse aggiuntive