Aggiunta di modelli di data mining a una struttura (Analysis Services - Data mining)

Mentre una struttura di data mining definisce il dominio dei dati, un modello di data mining definisce come applicare i dati di tale dominio a un determinato problema. Dopo avere creato una struttura di data mining, è possibile aggiungervi più modelli di data mining. Ogni modello creato può essere destinato a un problema aziendale diverso. Ad esempio, è possibile modificare i parametri per utilizzare un approccio leggermente diverso oppure utilizzare un subset diverso dei dati per ottenere risultati diversi o estrarre modelli specifici per una popolazione di destinazione.

Per ulteriori informazioni:Creazione di una nuova struttura di data mining, Creazione guidata modello di data mining (Analysis Services - Data mining), Gestione di strutture di data mining in Progettazione modelli di data mining

Creazione di un nuovo modello di data mining

Sono disponibili due approcci per la creazione di modelli di data mining. È possibile definire la struttura di data mining, quindi provare modelli diversi che utilizzano tale struttura. In alternativa, è possibile creare il modello desiderato, quindi utilizzare la struttura generata per creare modelli aggiuntivi.

Quando si utilizza la Creazione guidata modello di data mining per creare un nuovo modello di data mining, viene innanzitutto creata una struttura di data mining. La procedura guidata offre quindi la possibilità di aggiungere un modello di data mining iniziale alla struttura e di configurare un set di dati di training e di test all'interno della stessa. Tuttavia, non è necessario creare immediatamente un modello. Se si crea solo la struttura, non è necessario prendere una decisione in merito alla colonna da utilizzare come attributo stimabile o su come utilizzare i dati in un determinato modello. Al contrario, è sufficiente impostare la struttura dei dati generale da utilizzare in futuro e in seguito utilizzare Progettazione modelli di data mining per aggiungere nuovi modelli di data mining basati su tale struttura.

Se si conosce già il tipo di modello di data mining che si desidera creare, è possibile creare la struttura, quindi utilizzare la Creazione guidata modello di data mining per aggiungere il primo modello alla struttura di data mining. Al termine della procedura guidata, è possibile aggiungere più modelli alla struttura.

Nota

In DMX l'istruzione CREATE MINING MODEL inizia con il modello di data mining. Ovvero, si definisce il modello di data mining prescelto e la struttura sottostante viene automaticamente generata in Analysis Services. In seguito è possibile continuare ad aggiungere nuovi modelli di data mining alla struttura utilizzando l'istruzione ALTER STRUCTURE… ADD MODEL.

Per ulteriori informazioni:Gestione dei modelli di data mining in Progettazione modelli di data mining.

Definizione di un modello di data mining

  1. Dopo avere definito il dominio dei dati, indicare a Analysis Services come utilizzare ogni colonna nei dati specificandone il contenuto e il tipo di utilizzo. Nel nuovo modello di data mining non è necessario utilizzare tutte le colonne incluse nella struttura di data mining. Anche se due modelli sono basati sulla stessa struttura, è possibile indicare a Analysis Services di ignorare una determinata colonna per un modello. Per ulteriori informazioni, vedere Architettura logica (Analysis Services – Data mining).

Scelta di un algoritmo

Quando si aggiunge un modello a una struttura, è necessario selezionare un algoritmo di data mining da utilizzare. Ogni algoritmo esegue un tipo diverso di analisi e alcuni presentano requisiti diversi in termini di numero e tipo di colonne di dati utilizzate per l'input o la stima.

Pertanto, a seconda dell'algoritmo selezionato, alcune colonne di dati incluse nella struttura di data mining possono essere ignorate oppure può essere necessario convertirle in un altro tipo di dati o rimuovere i valori. La Creazione guidata modello di data mining modifica automaticamente alcuni valori per consentire il funzionamento del modello. In altri casi, tuttavia, viene consigliato di correggere prima i dati o di aggiungere una colonna obbligatoria, ad esempio una chiave del case.

In alcuni casi è possibile cambiare l'algoritmo utilizzato in un modello, ma la maggior parte delle modifiche nella definizione del modello richiede la rielaborazione del modello e dei relativi dati. In generale, ogni volta che si cambia l'algoritmo utilizzato in un modello, è necessario considerarlo come un modello completamente nuovo da rielaborare.

Per ulteriori informazioni: Algoritmi di data mining (Analysis Services - Data mining)

Specifica dell'utilizzo delle colonne

Dopo avere selezionato un algoritmo, è necessario specificare la modalità con cui verranno gestiti i dati nella struttura. È necessario ad esempio selezionare una o più colonne stimabili, se il modello ne richiede una, selezionare le colonne che fungono da input e specificare una chiave del case o di tabella nidificata. Per ogni modello, queste definizioni di colonna possono variare, anche se i modelli utilizzano gli stessi dati, perché ogni algoritmo presenta requisiti diversi. Si consiglia di tentare di selezionare solo le colonne più utili per l'analisi, perché l'inclusione di dati non necessari implica un aumento dei tempi di elaborazione e può influire sulla qualità dei risultati. La Creazione guidata modello di data mining include una funzionalità facoltativa, Suggerisci, che analizza le colonne incluse nella struttura e indica quelle che forniscono la maggior parte delle informazioni, utilizzando un punteggio basato su entropia.

Per ulteriori informazioni: Colonne del modello di data mining, Impostazione delle proprietà in un modello di data mining

Specifica del contenuto delle colonne

  1. In alcuni casi può anche essere necessario specificare il contenuto della colonna. Nel data mining di SQL Server, la proprietà Tipo di contenuto di ogni colonna di dati indica all'algoritmo come devono essere elaborati i dati in tale colonna. Se ad esempio i dati includono una colonna Income con valori variabili, è necessario specificare che la colonna contiene numeri continui impostando il tipo di contenuto su Continuous. Tuttavia, è anche possibile specificare che i numeri della colonna Income devono essere raggruppati in bucket impostando il tipo di contenuto su Discretized e, se si desidera, specificando il numero esatto di bucket. È possibile creare modelli diversi che gestiscono le colonne in modo diverso. Ad esempio, è possibile provare con un modello che raggruppa i clienti in tre bucket di età e un altro che li raggruppa in 10 bucket di età.

Per ulteriori informazioni: Tipi di dati (data mining), Tipi di contenuto (Data mining)