Articolo
03/31/2012

Contenuto del modello di data mining (Analysis Services - Data mining)

In seguito alla progettazione e all'elaborazione di un modello di data mining mediante i dati della struttura di data mining sottostante, il modello di data mining è completo e contiene il contenuto del modello di data mining. È possibile utilizzare questo contenuto per eseguire stime o analisi di dati.

Il contenuto del modello di data mining include i metadati relativi al modello, statistiche sui dati e modelli individuati dall'algoritmo di data mining. A seconda dell'algoritmo utilizzato, il contenuto del modello può includere formule di regressione, le definizioni di regole e set di elementi, o pesi e altre statistiche.

Il contenuto del modello di data mining viene visualizzato in una struttura standard a prescindere dall'algoritmo utilizzato. È possibile esplorare la struttura tramite Microsoft Generic Content Tree Viewer in Business Intelligence Development Studio, quindi passare a un visualizzatore personalizzato per visualizzare il modo in cui le informazioni sono interpretate e visualizzate graficamente per ogni tipo di modello. È inoltre possibile creare query sul contenuto del modello di data mining con un client che supporti il set di righe dello schema MINING_MODEL_CONTENT. Per ulteriori informazioni, vedere Utilizzo dei modelli di data mining: Procedure (Analysis Services - Data mining).

In questa sezione viene illustrata la struttura di base del contenuto per tutti i tipi di modelli di data mining. Vengono descritti i tipi di nodo comuni al contenuto del modello di data mining e fornite istruzioni sull'interpretazione delle informazioni.

Struttura del contenuto del modello di data mining

Nodi

Contenuto del modello di data mining in base al tipo di algoritmo

Strumenti per la visualizzazione del contenuto di un modello di data mining

Strumenti per l'esecuzione di query sul contenuto di un modello di data mining

Struttura del contenuto del modello di data mining

Il contenuto di ciascun modello viene presentato come una serie di nodi. Un nodo è un oggetto all'interno di un modello di data mining che contiene i metadati e le informazioni su una parte del modello. I nodi sono disposti in una gerarchia e la loro disposizione esatta, nonché il significato della gerarchia, dipende dall'algoritmo utilizzato. Se ad esempio si crea un modello di albero delle decisioni, il modello può contenere più alberi collegati al nodo radice del modello; se si crea un modello di rete neurale, il modello può contenere una o più reti e un nodo di statistiche.

Il primo nodo di ogni modello è denominato nodo radice o nodo padre del modello. Ogni modello dispone di un nodo radice (NODE_TYPE = 1). Il nodo radice contiene in genere alcuni metadati relativi al modello e il numero di nodi figlio, ma poche informazioni aggiuntive sui modelli individuati dal modello.

Il numero di nodi figlio presenti nel nodo radice varia a seconda dell'algoritmo utilizzato per creare il modello. I nodi figlio hanno significati diversi e contengono contenuto diverso, a seconda dell'algoritmo e della profondità e complessità dei dati.

Torna all'inizio

Nodi

In un modello di data mining, un nodo è un contenitore generico in cui sono archiviate informazioni riguardanti tutto il modello o una parte di esso. La struttura di ogni nodo è sempre la stessa e contiene le colonne definite dal set di righe dello schema di data mining. Per ulteriori informazioni, vedere Set di righe DMSCHEMA_MINING_MODEL_CONTENT.

Ogni nodo include i relativi metadati, tra cui un identificatore univoco all'interno di ciascun modello, l'ID del nodo padre e il numero di nodi figlio presenti. I metadati identificano il modello di appartenenza del nodo e il catalogo del database in cui è archiviato quel modello specifico. Il contenuto aggiuntivo presente nel nodo varia in base al tipo di algoritmo utilizzato per creare il modello e potrebbe includere gli elementi seguenti:

Conteggio dei case nei dati di training che supporta un determinato valore stimato.
Statistiche, quali media, deviazione standard o varianza.
Coefficienti e formule.
Definizione di regole e puntatori secondari.
Frammenti XML che descrivono una parte del modello.

Elenco dei tipi di nodo

Nella tabella seguente sono elencati i diversi tipi di nodo restituiti nei modelli di data mining. Poiché ogni algoritmo elabora in modo diverso le informazioni, ciascun modello genera solo alcuni tipi specifici di nodi. Modificando l'algoritmo, il tipo di nodo potrebbe cambiare. Il contenuto di ogni nodo potrebbe inoltre cambiare se si rielabora il modello.

Nota

Se si utilizza un servizio di data mining diverso da quelli forniti in SQL Server 2008 Analysis Services o se si creano algoritmi plug-in personalizzati, potrebbero essere disponibili altri tipi di nodi personalizzati.

ID NODE_TYPE	Etichetta del nodo	Contenuto del nodo
1	Model	Metadati e nodo di contenuto radice. Si applica a tutti i tipi di modello.
2	Tree	Nodo radice di un albero di classificazione. Si applica ai modelli di albero delle decisioni.
3	Interior	Nodo interno di divisione in un albero. Si applica ai modelli di albero delle decisioni.
4	Distribution	Nodo finale di un albero. Si applica ai modelli di albero delle decisioni.
5	Cluster	Cluster rilevato dall'algoritmo. Si applica ai modelli di clustering e ai modelli Sequence Clustering.
6	Unknown	Tipo di nodo sconosciuto.
7	ItemSet	Set di elementi rilevato dall'algoritmo. Si applica ai modelli di associazione o ai modelli Sequence Clustering.
8	AssociationRule	Regola di associazione rilevata dall'algoritmo. Si applica ai modelli di associazione o ai modelli Sequence Clustering.
9	PredictableAttribute	Attributo stimabile. Si applica a tutti i tipi di modello.
10	InputAttribute	Attributo di input. Si applica ai modelli di alberi delle decisioni e Naïve Bayes.
11	InputAttributeState	Statistiche relative agli stati di un attributo di input. Si applica ai modelli di alberi delle decisioni e Naïve Bayes.
13	Sequence	Nodo di livello superiore per un componente del modello Markov di un cluster di sequenza. Si applica ai modelli Sequence Clustering.
14	Transition	Matrice di transizione Markov. Si applica ai modelli Sequence Clustering.
15	TimeSeries	Nodo non radice di un albero di serie temporali. Si applica solo ai modelli Time Series.
16	TsTree	Nodo radice di un albero di serie temporali corrispondente a una serie temporale stimabile. Si applica ai modelli Time Series e solo se il modello è stato creato utilizzando il parametro MIXED.
17	NNetSubnetwork	Subnet. Si applica ai modelli di rete neurale.
18	NNetInputLayer	Gruppo che contiene i nodi del livello di input. Si applica ai modelli di rete neurale.
19	NNetHiddenLayer	Gruppi contenenti i nodi che descrivono il livello nascosto. Si applica ai modelli di rete neurale.
21	NNetOutputLayer	Gruppi che contengono i nodi del livello di output. Si applica ai modelli di rete neurale.
21	NNetInputNode	Nodo nel livello di input che corrisponde a un attributo di input con gli stati corrispondenti. Si applica ai modelli di rete neurale.
22	NNetHiddenNode	Nodo nel livello nascosto. Si applica ai modelli di rete neurale.
23	NNetOutputNode	Nodo nel livello di output. Questo nodo di solito corrisponde a un attributo di output e agli stati corrispondenti. Si applica ai modelli di rete neurale.
24	NNetMarginalNode	Statistiche marginali sul set di training. Si applica ai modelli di rete neurale.
25	RegressionTreeRoot	Nodo radice di un albero di regressione. Si applica ai modelli di regressione lineare e ai modelli di albero delle decisioni che contengono attributi continui di input.
26	NaiveBayesMarginalStatNode	Statistiche marginali sul set di training. Si applica ai modelli Naïve Bayes.
27	ArimaRoot	Nodo radice di un modello ARIMA. Si applica solo ai modelli Time Series che utilizzano l'algoritmo ARIMA.
28	ArimaPeriodicStructure	Struttura periodica in un modello ARIMA. Si applica solo ai modelli Time Series che utilizzano l'algoritmo ARIMA.
29	ArimaAutoRegressive	Coefficiente autoregressivo per un singolo termine in un modello ARIMA. Si applica solo ai modelli Time Series che utilizzano l'algoritmo ARIMA.
30	ArimaMovingAverage	Coefficiente di media mobile per un singolo termine in un modello ARIMA. Si applica solo ai modelli Time Series che utilizzano l'algoritmo ARIMA.
1000	CustomBase	Punto iniziale dei tipi di nodo personalizzati. I tipi di nodo personalizzati devono essere valori integer maggiori di questa costante. Si applica ai modelli creati tramite algoritmi plug-in personalizzati.

ID, nome, didascalia e descrizione dei nodi

Il valore dell'ID univoco,NODE_UNIQUE_NAME, del nodo radice di qualsiasi modello è sempre uguale a 0. Tutti gli ID dei nodi vengono assegnati automaticamente da Analysis Services e non possono essere modificati.

Il nodo radice di ogni modello contiene anche i metadati di base relativi al modello. Tra i metadati sono inclusi il database di Analysis Services in cui viene archiviato il modello (MODEL_CATALOG), lo schema (MODEL_SCHEMA) e il nome del modello (MODEL_NAME). Queste informazioni sono ripetute in tutti i nodi del modello, pertanto non è necessario eseguire query sul nodo radice per ottenere i metadati.

Oltre al nome utilizzato come identificatore univoco, ciascun nodo dispone di un nome, NODE_NAME, che viene creato automaticamente dall'algoritmo a scopo di visualizzazione e non può essere modificato.

Nota

L'algoritmo Microsoft Clustering consente di assegnare nomi descrittivi a ogni cluster. Questi nomi descrittivi, tuttavia, non vengono salvati in modo permanente sul server e se si rielabora il modello l'algoritmo genera nuovi nomi per i cluster.

La didascalia e la descrizione relative a ogni nodo sono generate automaticamente dall'algoritmo e fungono da etichette per conoscere il contenuto del nodo. Il testo generato per ogni campo dipende dal tipo di modello. A volte il nome, la didascalia e la descrizione contengono esattamente la stessa stringa, ma in alcuni modelli la descrizione può contenere informazioni aggiuntive. Per informazioni dettagliate sull'implementazione, vedere l'argomento relativo al singolo tipo di modello.

Nota

Il server Analysis Services supporta la ridenominazione dei nodi solo se i modelli vengono compilati tramite un algoritmo plug-in personalizzato che implementa la ridenominazione. Per abilitare la ridenominazione, è necessario eseguire l'override dei metodi durante la creazione dell'algoritmo plug-in.

Padri, figli e cardinalità dei nodi

La relazione tra nodi padre e nodi figlio in una struttura ad albero è determinata dal valore della colonna PARENT_UNIQUE_NAME. Questo valore è archiviato nel nodo figlio e indica l'ID del nodo padre. Di seguito sono riportati alcuni esempi delle modalità di utilizzo di queste informazioni:

Se il valore della colonna PARENT_UNIQUE_NAME è NULL, il nodo è il nodo di livello superiore del modello.
Se il valore di PARENT_UNIQUE_NAME è 0, il nodo deve essere un discendente diretto del nodo di livello superiore del modello. Il valore dell'ID del nodo radice infatti è sempre 0.
È possibile individuare discendenti o padri di un determinato nodo utilizzando funzioni in query DMX (Data Mining Extensions). Per ulteriori informazioni sull'utilizzo di funzioni nelle query, vedere Esecuzione di query sui modelli di data mining (Analysis Services - Data mining).

Il termine cardinalità fa riferimento al numero di elementi contenuti in un set. Nel contesto di un modello di data mining elaborato, la cardinalità indica il numero di figli di uno specifico nodo. Ad esempio, in presenza di un modello di albero delle decisioni con un nodo [Yearly Income] che dispone a sua volta di due nodi figlio, uno per la condizione [Yearly Income] = High e uno per la condizione [Yearly Income] = Low, il valore di CHILDREN_CARDINALITY per il nodo [Yearly Income] è uguale a 2.

Nota

In Analysis Services, durante il calcolo della cardinalità di un nodo vengono contati solo i nodi figlio immediati. Tuttavia, se si crea un algoritmo plug-in personalizzato, è possibile eseguire l'overload di CHILDREN_CARDINALITY per contare la cardinalità in modo diverso. L'operazione può essere utile, ad esempio, per contare il numero complessivo di discendenti, non solo i figli immediati.

Sebbene la cardinalità sia contata nello stesso modo per tutti i modelli, la modalità di interpretazione o utilizzo del valore della cardinalità varia in base al tipo di modello. In un modello di clustering, ad esempio, la cardinalità del nodo di livello superiore indica il numero di transizioni trovate. In altri tipi di modello, il valore della cardinalità può sempre essere impostato a seconda del tipo di nodo. Per ulteriori informazioni sull'interpretazione della cardinalità, vedere l'argomento relativo al singolo tipo di modello.

Nota

Alcuni modelli, quali quelli creati dall'algoritmo Microsoft Neural Network, contengono inoltre uno speciale tipo di nodo che fornisce statistiche descrittive sui dati di training per l'intero modello. Per definizione, questi nodi non dispongono mai di nodi figlio.

Distribuzione dei nodi

Nella colonna NODE_DISTRIBUTION è contenuta una tabella nidificata che fornisce importanti e dettagliate informazioni sui modelli individuati dall'algoritmo per molti nodi. Le statistiche esatte fornite nella tabella variano a seconda del tipo di modello, della posizione del nodo nell'albero e del fatto che l'attributo stimabile sia un valore numerico continuo o un valore discreto; possono tuttavia includere i valori minimo e massimo di un attributo, i pesi assegnati ai valori, il numero di case presenti in un nodo, i coefficienti utilizzati in una formula di regressione e misure statistiche quali deviazione standard e varianza. Per ulteriori informazioni su come interpretare la distribuzione dei nodi, vedere l'argomento relativo al tipo specifico di modello utilizzato.

Nota

A seconda del tipo di nodo, la tabella NODE_DISTRIBUTION può essere vuota. Alcuni nodi ad esempio hanno esclusivamente lo scopo di organizzare una raccolta di nodi figlio e sono i nodi figlio a contenere le statistiche dettagliate.

Nella tabella nidificata NODE_DISTRIBUTION sono contenute sempre le colonne riportate di seguito. Il contenuto di ciascuna colonna varia a seconda del tipo di modello. Per ulteriori informazioni su tipi di modello specifici, vedere Contenuto del modello di data mining in base al tipo di algoritmo.

ATTRIBUTE_NAME
Il contenuto varia in base all'algoritmo. Può essere il nome di una colonna, ad esempio un attributo stimabile, una regola, un set di elementi o un'informazione interna all'algoritmo come la porzione di una formula.

Questa colonna può contenere inoltre una coppia attributo-valore.
ATTRIBUTE_VALUE
Valore dell'attributo specificato in ATTRIBUTE_NAME.

Se il nome dell'attributo è una colonna, nel caso più semplice ATTRIBUTE_VALUE contiene uno dei valori discreti per la colonna.

A seconda dei valori elaborati dall'algoritmo, nella colonna ATTRIBUTE_VALUE può essere presente anche un flag che indica se esiste un valore per l'attributo (Existing) o se il valore è Null (Missing).

Ad esempio, se il modello è configurato per la ricerca dei clienti che hanno acquistato almeno una volta un determinato elemento, nella colonna ATTRIBUTE_NAME potrebbe essere contenuta la coppia attributo-valore che definisce l'elemento di interesse, ad esempio Model = 'Water bottle', e nella colonna ATTRIBUTE_VALUE solo la parola chiave Existing o Missing.

SUPPORT
Conteggio dei case che dispongono di questa coppia attributo-valore o che contengono questo set di elementi o regola.

In generale, il valore di supporto per ogni nodo indica quanti case del set di training sono inclusi nel nodo corrente. Nella maggior parte dei tipi di modelli il supporto rappresenta il conteggio esatto dei case. I valori di supporto sono utili perché consentono di visualizzare la distribuzione dei dati all'interno dei case di training senza che sia necessario eseguire una query sui dati di training. Questi valori vengono inoltre utilizzati dal server Analysis Services per confrontare la probabilità archiviata con la probabilità precedente in modo da determinare se l'inferenza è forte o debole.

In un albero di classificazione, ad esempio, il valore di supporto indica il numero di case che dispongono della combinazione di attributi descritta.

In un albero delle decisioni, la somma del supporto in ciascun livello dell'albero ammonta al supporto del nodo padre. Se, ad esempio, un modello che contiene 1200 case viene diviso equamente per genere, e quindi suddiviso equamente per tre valori di reddito: basso, medio e alto, i nodi figlio del nodo (2), ovvero i nodi (4), (5) e (6), ammontano sempre allo stesso numero di case come nodo (2).

ID e attributi del nodo	Conteggio del supporto
(1) Model root	1200
(2) Gender = Male (3) Gender = Female	600 600
(4) Gender = Male e Income = High (5) Gender = Male e Income = Medium (6) Gender = Male e Income = Low	200 200 200
(7) Gender = Female e Income = High (8) Gender = Female e Income = Medium (9) Gender = Female e Income = Low	200 200 200

(1) Model root

1200

(2) Gender = Male

(3) Gender = Female

600

(4) Gender = Male e Income = High

(5) Gender = Male e Income = Medium

(6) Gender = Male e Income = Low

200

(7) Gender = Female e Income = High

(8) Gender = Female e Income = Medium

(9) Gender = Female e Income = Low

200

Per un modello di clustering, è possibile ponderare il numero di supporto in modo da includere le probabilità di appartenenza a più cluster. L'appartenenza a più cluster costituisce il metodo di clustering predefinito. In questo scenario, poiché ogni case non appartiene necessariamente a un unico cluster, il supporto in questi modelli potrebbe non raggiungere il 100% in tutti i cluster.

PROBABILITY
Indica la probabilità per il nodo specificato all'interno dell'intero modello.

La probabilità rappresenta generalmente il supporto per questo determinato valore, diviso per il totale dei case all'interno del nodo (NODE_SUPPORT).

La probabilità è tuttavia leggermente adattata per eliminare distorsioni provocate da valori mancanti nei dati.

Ad esempio, se i valori correnti per [Total Children] sono 1 e 2, si desidera evitare di creare un modello che stimi che è impossibile non avere figli oppure avere tre figli. Per assicurarsi che i valori mancanti siano improbabili ma non impossibili, l'algoritmo aggiunge sempre 1 al conteggio dei valori effettivi per qualsiasi attributo.

Esempio:

Probabilità per [Total Children = 1] = [Conteggio dei case in cui Total Children è uguale a 1] + 1/[Conteggio di tutti i case] + 3

Probabilità per [Total Children = 2] = [Conteggio dei case in cui Total Children è uguale a 2] + 1/[Conteggio di tutti i case] + 3

Nota

Il valore 3 dell'adattamento è calcolato aggiungendo 1 al numero complessivo di valori n esistenti.

Dopo l'adattamento le probabilità per tutti i valori sono ancora uguali a 1. La probabilità per il valore senza dati (in questo esempio, [Total Children = '0', '3' o un altro valore]), inizia da un livello molto basso diverso da zero e aumenta lentamente man mano che vengono aggiunti altri case.
VARIANCE
Indica la varianza dei valori all'interno del nodo. Per definizione, la varianza dei valori discreti è sempre 0. Se il modello supporta valori continui, la varianza viene calcolata come σ (sigma), utilizzando il denominatore no il numero di case presenti nel nodo.

In generale, la deviazione standard, StDev, viene rappresentata tramite due definizioni: un metodo per il calcolo della deviazione standard prende in considerazione la distorsione, mentre l'altro calcola la deviazione standard senza utilizzare la distorsione. In generale, gli algoritmi di data mining di Microsoft non utilizzano la distorsione durante il calcolo della deviazione standard.

Il valore visualizzato nella tabella NODE_DISTRIBUTION costituisce il valore effettivo per gli attributi discreti e discretizzati e la media per i valori continui.

VALUE_TYPE
Indica il tipo di dati del valore o attributo e l'utilizzo del valore. Determinati tipi di valore si applicano solo a determinati tipi di modello:

ID VALUE_TYPE	Valore dell'etichetta	Nome del tipo di valore
1	Mancante	Indica che i dati del case non contengono un valore per questo attributo. Lo stato Missing è calcolato separatamente dagli attributi con valori.
2	Esistente	Indica che i dati del case contengono un valore per questo attributo.
3	Continuo	Indica che il valore dell'attributo è un valore numerico continuo che può pertanto essere rappresentato da una media, insieme alle varianza e deviazione standard.
4	Discreto	Indica che un valore di testo o numerico viene trattato come discreto. Nota i valori discreti possono anche essere mancanti; tuttavia, vengono gestiti in modo diverso durante l'esecuzione dei calcoli. Per ulteriori informazioni, vedere Valori mancanti (Analysis Services - Data mining).
5	Discretizzato	Indica che l'attributo contiene valori numerici discretizzati. Il valore sarà una stringa formattata che descrive i bucket di discretizzazione.
6	Esistente	Indica che l'attributo dispone di valori numerici continui e che i valori sono stati forniti nei dati, a fronte di valori mancanti o derivati.
7	Coefficiente	Indica un valore numerico che rappresenta un coefficiente. Un coefficiente è un valore che viene applicato durante il calcolo della variabile dipendente. Ad esempio, se il modello crea una formula di regressione che stima il reddito in base all'età, il coefficiente viene utilizzato nella formula di correlazione dell'età al reddito.
8	Miglioramento punteggio	Indica un valore numerico che rappresenta il miglioramento del punteggio di un attributo.
9	Statistiche	Indica un valore numerico che rappresenta una statistica per un regressore.
10	Nome univoco nodo	Indica che il valore non deve essere gestito come valore numerico o stringa, ma come l'identificatore univoco di un altro nodo di contenuto del modello. In un modello di rete neurale, ad esempio, gli ID forniscono puntatori dai nodi presenti nel livello di output ai nodi nel livello nascosto, e dai nodi presenti nel livello nascosto ai nodi nel livello di input.
11	Intercetta	Indica un valore numerico che rappresenta l'intercetta in una formula di regressione.
12	Periodicità	Indica che il valore denota una struttura periodica nel modello. Si applica solo a modelli Time Series che contengono un modello ARIMA. Nota L'algoritmo Microsoft Time Series rileva automaticamente le strutture periodiche basate sui dati di training; pertanto le periodicità del modello finale possono includere valori di periodicità che non sono stati forniti come parametri durante la creazione del modello.
13	Ordine autoregressivo	Indica che il valore rappresenta il numero di serie autoregressive. Si applica a modelli Time Series che utilizzano l'algoritmo ARIMA.
14	Ordine media mobile	Rappresenta un valore che indica il numero di medie mobili in una serie. Si applica a modelli Time Series che utilizzano l'algoritmo ARIMA.
15	Ordine delle differenze	Rappresenta un valore che indica il numero di volte in cui viene differenziata la serie. Si applica a modelli Time Series che utilizzano l'algoritmo ARIMA.
16	Booleano	Rappresenta un tipo booleano.
17	Altro	Rappresenta un valore personalizzato definito dall'algoritmo.
18	Stringa visualizzabile	Rappresenta un valore personalizzato che viene visualizzato come stringa dall'algoritmo. Non è stata applicata alcuna formattazione dal modello a oggetti.

I tipi di valore derivano dall'enumerazione ADMOMD.NET. Per ulteriori informazioni, vedere MiningValueType.

Punteggio del nodo

Il significato del punteggio del nodo varia a seconda del tipo di modello e può anche essere specifico del tipo di nodo. Per informazioni sulla modalità di calcolo di NODE_SCORE per ogni modello e tipo di nodo, vedere Contenuto del modello di data mining in base al tipo di algoritmo.

Probabilità del nodo e probabilità marginale

Nel set di righe dello schema del modello di data mining sono incluse le colonne NODE_PROBABILITY e MARGINAL_PROBABILITY per tutti i tipi di modello. Queste colonne contengono valori solo nei nodi che hanno un valore significativo di probabilità. Il nodo radice di un modello, ad esempio, non contiene mai un punteggio di probabilità.

Nei nodi che forniscono punteggi di probabilità, la probabilità del nodo e le probabilità marginali costituiscono calcoli diversi.

La probabilità marginale indica la probabilità di raggiungere il nodo dal padre.
La probabilità del nodo indica la probabilità di raggiungere il nodo dalla radice.
La probabilità del nodo è sempre minore o uguale alla probabilità marginale.

Ad esempio, se il popolamento di tutti i clienti in un albero delle decisioni è suddiviso equamente per genere e nessun valore è mancante, la probabilità dei nodi figlio sarà uguale a 0,5. Si supponga ora che ognuno dei nodi di genere venga equamente diviso per i livelli di reddito: alto, medio e basso. In questo caso il punteggio di MARGINAL_PROBABILITY di ciascun nodo figlio deve essere sempre 0,33, ma il valore di NODE_PROBABILTY sarà il prodotto di tutte le probabilità che conducono a quel nodo e pertanto sarà sempre inferiore al valore di MARGINAL_PROBABILITY.

Livello e valore del nodo/attributo	Probabilità marginale	Probabilità del nodo
Nodo radice del modello Tutti i clienti di destinazione	1	1
Clienti di destinazione suddivisi per genere	.5	.5
Clienti di destinazione suddivisi per genere, quindi suddivisi nuovamente in tre modi in base al reddito	.33	.5 * .33 = .165

Nodo radice del modello

Tutti i clienti di destinazione

Clienti di destinazione suddivisi per genere

Clienti di destinazione suddivisi per genere, quindi suddivisi nuovamente in tre modi in base al reddito

.33

.5 * .33 = .165

Regola del nodo e regola marginale

Nel set di righe dello schema del modello di data mining sono inoltre incluse le colonne NODE_RULE e MARGINAL_RULE per tutti i tipi di modello. Queste colonne contengono frammenti XML che è possibile utilizzare per serializzare un modello o rappresentare parti della sua struttura. In presenza di valori non significativi le colonne di alcuni nodi possono essere vuote.

I due tipi di regole XML fornite sono simili ai due tipi di valori di probabilità. Il frammento XML in MARGINAL_RULE definisce l'attributo e il valore del nodo corrente, laddove il frammento XML in NODE_RULE descrive il percorso al nodo corrente dal nodo radice del modello.

Torna all'inizio

Contenuto del modello di data mining in base al tipo di algoritmo

Ogni algoritmo archivia tipi diversi di informazioni come parte dello schema di contenuto. L'algoritmo Microsoft Clustering, ad esempio, genera una moltitudine di nodi figlio, ognuno dei quali rappresenta un possibile cluster. Ogni nodo del cluster contiene regole che descrivono caratteristiche condivise dagli elementi presenti nel cluster. L'algoritmo Microsoft Linear Regression non contiene invece nodi figlio e il nodo padre del modello contiene l'equazione che descrive la relazione lineare individuata dall'analisi.

Nella tabella seguente vengono forniti collegamenti agli argomenti disponibili per ogni tipo di algoritmo.

Argomenti sul contenuto del modello: viene illustrato il significato di ciascun tipo di nodo per ogni tipo di algoritmo e vengono fornite istruzioni sui nodi di maggior interesse in un particolare tipo di modello.
Argomenti sull'esecuzione di query: vengono forniti esempi di query su un determinato tipo di modello e istruzioni su come interpretare i risultati.

Tipo di modello o di algoritmo	Contenuto del modello	Esecuzione di query sui modelli di data mining
Modelli Association Rules	Contenuto dei modelli di data mining per i modelli di associazione (Analysis Services - Data mining)	Esecuzione di query su un modello di associazione (Analysis Services - Data mining)
Modelli di clustering	Contenuto dei modelli di data mining per i modelli di albero delle decisioni (Analysis Services - Data mining)	Esecuzione di query su un modello di clustering (Analysis Services - Data mining)
Modelli di albero delle decisioni	Contenuto dei modelli di data mining per i modelli di albero delle decisioni (Analysis Services - Data mining)	Esecuzione di query su un modello Decision Trees (Analysis Services - Data mining)
Modelli di regressione lineare	Contenuto dei modelli di data mining per i modelli di regressione lineare (Analysis Services - Data mining)	Esecuzione di query su un modello Linear Regression (Analysis Services - Data mining)
Modelli di regressione logistica	Contenuto dei modelli di data mining per i modelli di regressione logistica (Analysis Services - Data mining)	Esecuzione di query su un modello Linear Regression (Analysis Services - Data mining)
Modelli Naive Bayes	Contenuto dei modelli di data mining per i modelli Naive Bayes (Analysis Services - Data mining)	Esecuzione di una query su un modello Naive Bayes (Analysis Services - Data mining)
Modelli di rete neurale	Contenuto dei modelli di data mining per i modelli di rete neurale (Analysis Services - Data mining)	Esecuzione di query su un modello di rete neurale (Analysis Services - Data mining)
Sequence Clustering	Contenuto dei modelli di data mining per i modelli Sequence Clustering (Analysis Services - Data mining)	Esecuzione di query su un modello Sequence Clustering (Analysis Services - Data mining)
Modelli Time Series	Contenuto dei modelli di data mining per i modelli Time Series (Analysis Services - Data mining)	Esecuzione di una query su un modello Time Series (Analysis Services - Data mining)

Strumenti per la visualizzazione del contenuto di un modello di data mining

Quando si esplora un modello in Business Intelligence Development Studio, è possibile visualizzare le informazioni in Microsoft Generic Content Tree Viewer, disponibile sia in Business Intelligence Development Studio che in SQL Server Management Studio.

In Microsoft Generic Content Viewer vengono visualizzati elementi quali colonne, regole, proprietà, attributi, nodi e altro contenuto del modello utilizzando le informazioni disponibili nel set di righe dello schema relativo al contenuto del modello di data mining. Il set di righe dello schema relativo al contenuto è un framework generico per la presentazione di informazioni dettagliate sul contenuto di un modello di data mining. È possibile visualizzare il contenuto del modello in un client che supporti i set di righe gerarchici. Il visualizzatore di Business Intelligence Development Studio presenta le informazioni in un visualizzatore di tabelle HTML che rappresenta tutti i modelli in un formato coerente e semplifica la comprensione della struttura dei modelli creati. Per ulteriori informazioni, vedere Visualizzazione dei dettagli di un modello con Microsoft Generic Content Tree Viewer.

Torna all'inizio

Strumenti per l'esecuzione di query sul contenuto di un modello di data mining

Per recuperare il contenuto di un modello di data mining, è necessario creare una query sul modello di data mining.

Il modo più semplice per creare una query sul contenuto consiste nell'eseguire l'istruzione DMX seguente in SQL Server Management Studio:

SELECT * FROM [<mining model name>].CONTENT

Per ulteriori informazioni, vedere Esecuzione di query sui modelli di data mining (Analysis Services - Data mining).

È anche possibile eseguire una query sul contenuto del modello di data mining utilizzando i set di righe dello schema di data mining. Un set di righe dello schema è una struttura standard utilizzata dai client per individuare, esplorare ed eseguire query sulle informazioni relative a strutture e modelli di data mining. È possibile eseguire query sui set di righe dello schema tramite istruzioni XMLA, Transact-SQL o DMX.

In SQL Server 2008 è inoltre possibile accedere alle informazioni sui set di righe dello schema di data mining stabilendo una connessione al server Analysis Services ed eseguendo query nelle tabelle di sistema. Per ulteriori informazioni sull'utilizzo di istruzioni SELECT per l'esecuzione di query su set di righe dello schema di data mining, vedere Strumenti di risoluzione dei problemi (Analysis Services - Dati mining).

Torna all'inizio

Vedere anche

Riferimento

Microsoft Generic Content Tree Viewer (Progettazione modelli di data mining)

Concetti

Algoritmi di data mining (Analysis Services - Data mining)

Contenuto del modello di data mining (Analysis Services - Data mining)

Struttura del contenuto del modello di data mining

Nodi

Elenco dei tipi di nodo

ID, nome, didascalia e descrizione dei nodi

Padri, figli e cardinalità dei nodi

Distribuzione dei nodi

Punteggio del nodo

Probabilità del nodo e probabilità marginale

Regola del nodo e regola marginale

Contenuto del modello di data mining in base al tipo di algoritmo

Strumenti per la visualizzazione del contenuto di un modello di data mining

Strumenti per l'esecuzione di query sul contenuto di un modello di data mining

Vedere anche

Riferimento

Concetti

Risorse aggiuntive