Esplorazione del modello di clustering (Esercitazione di base sul data mining)

Articolo
05/07/2013

L'algoritmo Microsoft Clustering raggruppa i case in cluster che contengono caratteristiche simili. Tali raggruppamenti sono utili per l'esplorazione dei dati, l'identificazione delle relative anomalie e la creazione di stime.

Per l'esplorazione di modelli di data mining per il clustering, nel Visualizzatore Microsoft Clustering sono disponibili le schede seguenti:

Diagramma dei cluster

Profili cluster

Caratteristiche cluster

Analisi discriminante tra cluster

Nelle sezioni seguenti viene descritto come selezionare il visualizzatore appropriato ed esplorare gli altri modelli di data mining.

Scheda Diagramma dei cluster

Nella scheda Diagramma dei cluster vengono visualizzati tutti i cluster di un modello di data mining. Le linee tra i cluster rappresentano la prossimità e appaiono ombreggiate in base al grado di analogia dei cluster. Il colore effettivo dei cluster rappresenta la frequenza della variabile e lo stato nel cluster.

Per esplorare il modello nella scheda Diagramma dei cluster

Utilizzare l'elenco Modello di data mining nella parte superiore della scheda Visualizzatore modello di data mining per passare al modello TM_Clustering.
Nell'elenco Visualizzatore selezionare Visualizzatore Microsoft Clustering.
Nell'elenco Variabile ombreggiatura selezionare Bike Buyer.

La variabile predefinita è Popolazione, ma è possibile modificarla in un qualsiasi attributo del modello per individuare i cluster che contengono gli attributi desiderati.
Selezionare 1 nella casella Stato per esplorare i case in cui è stata acquistata una bicicletta.

Nella legenda di Densità viene descritta la densità della coppia di stati degli attributi selezionata in Variabile ombreggiatura e Stato. In questo esempio la legenda indica che il cluster con l'ombreggiatura più scura dispone della percentuale più elevata di acquirenti di biciclette.
Posizionare il mouse sul cluster con l'ombreggiatura più scura.

Nella descrizione comando verrà visualizzata la percentuale di case che includono l'attributo Bike Buyer = 1.
Selezionare il cluster con la densità più elevata, fare clic su di esso con il pulsante destro del mouse e scegliere Rinomina cluster, quindi digitare Bike Buyers High per identificarlo più avanti. Fare clic su OK.
Individuare il cluster con l'ombreggiatura più leggera (e la densità più bassa). Fare clic con il pulsante destro del mouse sul cluster, scegliere Rinomina cluster e digitare Bike Buyers Low. Fare clic su OK.
Fare clic sul cluster Bike Buyers High e trascinarlo in un'area del riquadro che consenta di visualizzarne chiaramente le connessioni agli altri cluster.

Quando si seleziona un cluster, le linee che lo connettono agli altri cluster vengono evidenziate, in modo che sia possibile vedere facilmente tutte le relazioni del cluster. Quando il cluster non è selezionato, dal colore delle linee è possibile dedurre il livello di relazione tra tutti i cluster del diagramma. Se l'ombreggiatura è chiara o inesistente, il grado di somiglianza dei cluster è basso.
Utilizzare il dispositivo di scorrimento nella parte sinistra della rete per escludere i collegamenti meno attendibili e individuare i cluster con le relazioni più strette. Il reparto marketing di Adventure Works Cycles potrebbe ad esempio raggruppare i cluster simili durante l'individuazione del metodo migliore per inviare i mailing diretti.

Torna all'inizio

Scheda Profili cluster

La scheda Profili cluster offre una vista complessiva del modello TM_Clustering. La scheda Profili cluster contiene una colonna per ogni cluster nel modello. Nella prima colonna sono elencati gli attributi associati ad almeno un cluster. La parte rimanente del visualizzatore contiene la distribuzione degli stati di un attributo per ogni cluster. La distribuzione di una variabile discreta viene visualizzata come una barra colorata e il numero massimo di barre è visualizzato nell'elenco Barre istogramma. Gli attributi continui sono visualizzati sotto forma di un grafico a rombi che rappresenta la deviazione media e standard in ogni cluster.

Per esplorare il modello nella scheda Profili cluster

Impostare le barre di Istogramma su 5.

Nel modello utilizzato in questo esempio 5 è il numero massimo di stati per ogni singola variabile.
Se Legenda data mining blocca la visualizzazione di Profili attributo, spostare la legenda.
Selezionare la colonna Bike Buyers High e trascinarla a destra della colonna Popolazione.
Selezionare la colonna Bike Buyers Low e trascinarla a destra della colonna Bike Buyers High.
Fare clic sulla colonna Bike Buyers High.

La colonna Variabili verrà ordinata in base all'importanza per tale cluster. Scorrere la colonna e verificare le caratteristiche del cluster Bike Buyers High. È ad esempio più probabile che i clienti raggruppati in questo cluster abitino a breve distanza dal luogo di lavoro.
Fare doppio clic sulla cella Età nella colonna Bike Buyers High.

In Legenda data mining è ora disponibile una vista più dettagliata, che consente di visualizzare l'intervallo di età e l'età media dei clienti.
Fare clic con il pulsante destro del mouse sulla colonna Bike Buyers Low e selezionare Nascondi colonna.

Torna all'inizio

Scheda Caratteristiche cluster

La scheda Caratteristiche cluster consente di esaminare in maggiore dettaglio le caratteristiche che costituiscono un cluster. Anziché confrontare le caratteristiche di tutti i cluster (come nella scheda Profili cluster), è possibile esplorare un cluster alla volta. Ad esempio, se si seleziona Bike Buyers High dall'elenco Cluster, è possibile visualizzare le caratteristiche dei clienti che fanno parte di tale cluster. Sebbene la visualizzazione sia diversa dalla scheda Profili cluster, i risultati sono gli stessi.

[!NOTA]

A meno che non si imposti un valore iniziale per HoldoutSeed, i risultati varieranno ogni volta che si elabora il modello. Per ulteriori informazioni, vedere Elemento HoldoutSeed

Torna all'inizio

Scheda Analisi discriminante tra cluster

La scheda Analisi discriminante tra cluster consente di esaminare le caratteristiche che distinguono ogni cluster da tutti gli altri. Dopo aver selezionato due cluster, uno dall'elenco Cluster 1 e uno dall'elenco Cluster 2, il visualizzatore calcola le differenze tra i cluster e visualizza un elenco degli attributi che distinguono maggiormente i cluster.

Per esplorare il modello nella scheda Analisi discriminante tra cluster

Nella casella Cluster 1 selezionare Bike Buyers High.
Nella casella Cluster 2 selezionare Bike Buyers Low.
Fare clic su Variabili per applicare l'ordinamento alfabetico.

Alcune delle differenze più sostanziali fra i clienti nei cluster Bike Buyers Low e Bike Buyers High includono l'età, la proprietà di un'automobile, il numero di figli e l'area geografica.