Progetti correlati per soluzioni di data mining

Articolo
07/30/2013

Come minimo, per una soluzione di data mining è richiesto il progetto di data mining, in cui si definiscono origini dati, viste origine dati, strutture di data mining e modelli di data mining. Tuttavia, quando i modelli di data mining vengono utilizzati nei processi decisionali quotidiani, è importante che il data mining sia integrato con altre parti di una soluzione analitica predittiva, che può includere i seguenti processi e componenti:

Preparazione e selezione di dati e variabili. Include pulizia dei dati, gestione di metadati e integrazione di più origini dati, nonché la conversione, l'unione e il caricamento di dati in un data warehouse.
Report di analisi, presentazione di stime e controllo e rilevamento delle attività di data mining.
Utilizzo di modelli multidimensionali o tabulari per esplorare i risultati.
Perfezionamento della soluzione di data mining per supportare nuovi dati o modifiche nell'infrastruttura di supporto derivanti dall'analisi corrente.

In questo argomento vengono descritte le altre funzionalità di SQL Server 2012 che fanno spesso parte di una soluzione analitica predittiva, per supportare i processi di preparazione dei dati e di data mining o assistere gli utenti fornendo strumenti per l'analisi e l'azione.

Integration Services

Reporting Services

Data Quality Services

Ricerca full-text

Indicizzazione semantica

SQL Server Integration Services

In Integration Services vengono forniti componenti e funzionalità richiesti per le fasi di preparazione dei dati e di training di un progetto di data mining. Benché sia possibile eseguire molte attività di pulizia o preparazione dei dati tramite altri strumenti, ad esempio gli script, Integration Services offre numerosi vantaggi per il data mining:

Rappresenta le attività come parte di un flusso di lavoro che può essere ripetuto, automatizzato, ramificato ed esteso.
Viene fornito ampio supporto per il controllo e diverse modalità di acquisizione degli errori e registrazione degli eventi.

Oltre all'acquisizione della derivazione dei dati, è possibile monitorare le modifiche apportate ai dati per l'intera pipeline per la trasformazione dei dati.

È inoltre possibile integrare i flussi di lavoro SSIS con le funzionalità che supportano la funzionalità Change Data Capture di SQL Server.
È possibile incorporare il data mining nel flusso di lavoro di Integration Services, per separare in modo intelligente i dati in ingresso in più tabelle. Ad esempio, è possibile utilizzare una query di stima per suddividere i nuovi clienti in gruppi diversi come destinazione di una campagna di mailing.

Negli elenchi seguenti vengono forniti collegamenti ai componenti di Integration Services utilizzati maggiormente a supporto del data mining.

Componenti del flusso di controllo

Componenti flusso di dati

Torna all'inizio

SQL Server Reporting Services

Benché Reporting Services non sia in genere considerato un componente critico delle soluzioni di data mining, fornisce le seguenti funzionalità utili per la presentazione di soluzioni di data mining.

Integrazione di dati da più origini in report complessi. Creazione di query rispetto al contenuto del modello per gli analisti e di report che mostrano stime e tendenze per gli utenti finali.
Possibilità di creare un report che consenta agli utenti di eseguire direttamente le query su un modello di data mining esistente.
Integrazione con Analysis Services per supportare drill-through ed esplorazione di dimensioni di data mining e cubi di data mining creati da modelli OLAP.
Parametrizzazione e funzionalità di formattazione disponibili in Reporting Services.

Per ulteriori informazioni sull'utilizzo di Reporting Services con query DMX come origine dati, vedere i collegamenti seguenti:

Recuperare i dati da un modello di data mining (DMX) (SSRS)

Interfaccia utente di Progettazione query DMX in Analysis Services

Tipo di connessione di Analysis Services per DMX (SSRS)

Tuttavia, non è necessario utilizzare DMX come origine dati. I componenti di Integration Services per il data mining supportano inoltre il salvataggio dei risultati di una query di stima in un database relazionale. Se si dispone di un flusso di lavoro stabilito per l'aggiornamento di modelli tramite Integration Services, l'impostazione della persistenza di stime e altri risultati di query di data mining in SQL Server consente di utilizzare Power View per la creazione di report, nonché altri strumenti non interfacciati con DMX.

Per ulteriori informazioni sull'utilizzo di Reporting Services come livello di presentazione per le origini dati, vedere Integrazione di Reporting Services nelle applicazioni.

Torna all'inizio

Data Quality Services

Data Quality Services (DQS) è una novità in SQL Server 2012. Poiché i problemi relativi ai dati possono rendere impossibile il data mining, è probabile che i data miner che eseguono analisi ripetute o lavorano in organizzazioni di grandi dimensioni con origini dati complesse ritengano che un progetto di dati ben pianificato basato su DQS sia una soluzione di data mining più affidabile rispetto alla pulizia ad hoc dei dati tramite Transact-SQL o altri script.

È opportuno considerare le funzionalità seguenti di DQS per la preparazione e l'integrità dei dati in una soluzione di data mining.

Processo di pulizia dei dati assistito da computer tramite cui vengono analizzati i dati di origine e proposte modifiche.
Con DQS è possibile confrontare i dati di origine con dati di riferimento basati su cloud gestiti e garantiti da provider di qualità dei dati.

In DQS è inoltre possibile analizzare dati di origine non elaborati e creare una Knowledge Base dai dati dell'utente. I dati elaborati sono suddivisi in categorie, quindi visualizzati all'utente per ulteriore elaborazione. Il processo di pulizia è interattivo, pertanto l'amministratore dei dati può approvare, rifiutare o modificare i dati proposti dal processo di pulizia assistito da computer.

Il risultato del processo è una Knowledge Base che è possibile migliorare continuamente o riutilizzare in più fasi di miglioramento dei dati.

Per ulteriori informazioni, vedere Pulizia dei dati.
Processo di individuazione delle corrispondenze assistito da computer tramite cui vengono analizzati i dati di origine e proposte modifiche.
Per evitare la duplicazione dei dati, è possibile eseguire pulizie aggiuntive dell'origine dati per identificare corrispondenze esatte e approssimative. Questi componenti consentono di specificare le regole di corrispondenza e le soglie di applicazione.

L'individuazione delle corrispondenze di dati consente di rimuovere duplicati che possono costituire un problema per il data mining. La deduplicazione dei dati non è automatica; l'amministratore dei dati o un professionista IT deve verificare sia le informazioni della Knowledge Base sia le modifiche da apportare ai dati.

Dopo avere creato il progetto DQS iniziale, è possibile automatizzare molte attività tramite i componenti di Integration Services.

Per ulteriori informazioni, vedere Corrispondenza di dati.

Durante l'esecuzione delle attività di pulizia e corrispondenza in un progetto di qualità dei dati, è possibile ottenere statistiche e informazioni in tempo reale sui dati elaborati da DQS. Il profiling dati consente di valutare a che livello la qualità dei dati è stata migliorata grazie alla pulizia o all'individuazione di corrispondenze dei dati e comprendere le modifiche apportate. Per ulteriori informazioni sul profiling dati e le notifiche, vedere Profiling di dati e notifiche in DQS.
Una Knowledge Base che rappresenta tre tipi di conoscenza: conoscenza pronta all'uso, conoscenza generata dal server DQS e conoscenza generata dall'utente.
Una volta creata una Knowledge Base, è possibile utilizzarla in modo iterativo per pulire e verificare altri dati.

È possibile importare nuovi dati nella Knowledge Base da più origini, sia dati puliti da provider di riferimento o dati non elaborati corrispondenti ai dati esistenti nella Knowledge Base.

Per informazioni dettagliate sull'attività di pulizia in un progetto di qualità dei dati, vedere Pulizia dei dati (DQS).

È inoltre possibile applicare la conoscenza presente nella Knowledge Base ad altre origini, per eseguire la pulizia dei dati all'interno di altri processi. Con questa attività di pulizia dei dati è possibile individuare errori di immissione da parte dell'utente, danni subiti durante la trasmissione o l'archiviazione oppure definizioni del dizionario dei dati non corrispondenti.

Per ulteriori informazioni, vedere Knowledge Base e domini DQS.

Torna all'inizio

Ricerca full-text

In SQL Server la ricerca full-text consente ad applicazioni e utenti di eseguire query full-text su dati di tipo carattere in tabelle di SQL Server. Quando la ricerca full-text è abilitata, è possibile eseguire ricerche rispetto a dati di testo migliorati dalle regole specifiche della lingua relative alle diverse forme di una parola o di una frase. È inoltre possibile configurare condizioni di ricerca, ad esempio la distanza tra più termini, e utilizzare funzioni per vincolare i risultati restituiti in ordine di probabilità.

Poiché le query full-text sono una funzionalità fornita dal motore di SQL Server, è possibile creare query con parametri, generare set di dati personalizzati o vettori di termini tramite funzionalità di ricerca full-text in un'origine dati di testo e utilizzare tale origine nel data mining.

Per ulteriori informazioni sull'interazione delle query full-text con l'indice full-text, vedere Esecuzione della query con ricerca Full-Text.

Un vantaggio dell'utilizzo delle funzionalità della ricerca full-text di SQL Server è la possibilità di sfruttare l'intelligenza linguistica contenuta nei word breaker e negli stemmer forniti per tutte le lingue di SQL Server. Tramite i word breaker e gli stemmer forniti, è possibile verificare che le parole siano separate utilizzando i caratteri appropriati per ogni lingua e che i sinonimi basati su segni diacritici o variazioni ortografiche (ad esempio i diversi formati numerici in giapponese) non siano trascurati.

Oltre all'intelligenza linguistica che regola i confini di parola, tramite gli stemmer per ogni lingua è possibile ridurre le varianti di una parola a un solo termine, in base alla conoscenza delle regole di coniugazioni e variazioni ortografiche di tale lingua. Le regole per l'analisi linguistica sono diverse per ogni lingua e sono sviluppate sulla base di ricerche estese su raccolte di testi autentici.

Per ulteriori informazioni, vedere Configurazione e gestione di word breaker e stemmer per la ricerca.

La versione di una parola archiviata dopo l'indicizzazione full-text è un token in formato compresso. Le query successive nell'indice full-text generano più formati flessionali di una determinata parola basati sulle regole della lingua specifica, per garantire l'individuazione di tutte le corrispondenze probabili. Ad esempio, anche se il token archiviato è "acqua", tramite il motore di query vengono cercati anche i termini "acquario", "acquatico" e "acquaio", poiché sono variazioni morfologiche derivate regolarmente dalla radice "acqua".

È inoltre possibile creare e compilare un thesaurus dell'utente per archiviare sinonimi e migliorare i risultati della ricerca o la categorizzazione dei termini. Sviluppando un thesaurus basato sui dati full-text in uso, è possibile ampliare in modo efficace l'ambito delle query full-text su tali dati. Per ulteriori informazioni, vedere Configurare e gestire i file del thesaurus per la ricerca full-text.

Tra i requisiti per l'utilizzo della ricerca full-text sono inclusi:

L'amministratore del database deve creare un indice full-text nella tabella.
È consentito un solo indice full-text per tabella.
Ogni colonna indicizzata deve disporre di una chiave univoca.
L'indicizzazione full-text è supportata solo nelle colonne con i tipi di dati char, varchar, nchar, nvarchar, text, ntext, image, xml, varbinary e varbinary(max). Se la colonna è di tipo varbinary, varbinary(max), image o xml, è necessario specificare l'estensione di file del documento indicizzabile (doc, pdf, xls e così via) in una colonna di tipo separata.

Torna all'inizio

Indicizzazione semantica

La ricerca semantica è basata sulle funzionalità complete della ricerca full-text esistenti in SQL Server, ma utilizza funzionalità e statistiche aggiuntive per consentire scenari quali l'estrazione automatica di parole chiave e l'individuazione di documenti correlati. Ad esempio, è possibile utilizzare la ricerca semantica per compilare una tassonomia di base per un'organizzazione o per classificare una raccolta di documenti. Inoltre, è possibile utilizzare la combinazione di termini estratti e punteggi di somiglianza dei documenti nei modelli di clustering o albero delle decisioni.

Dopo avere abilitato correttamente la ricerca semantica e indicizzato le colonne di dati, è possibile utilizzare le funzioni fornite a livello nativo con l'indicizzazione semantica per eseguire le operazioni seguenti:

Restituire frasi chiave composte da una singola parola con il relativo punteggio.
Restituire documenti che contengono una frase chiave specificata.
Restituire punteggi di somiglianza e termini che contribuiscono al punteggio.

Per ulteriori informazioni, vedere Trovare frasi chiave nei documenti mediante ricerca semantica e Trovare documenti simili e correlati tramite la ricerca semantica.

Per ulteriori informazioni sugli oggetti di database che supportano l'indicizzazione semantica, vedere Abilitare la ricerca semantica in tabelle e colonne.

Tra i requisiti per l'utilizzo della ricerca semantica sono inclusi:

È necessario abilitare anche la ricerca full-text.
L'installazione dei componenti della ricerca semantica crea inoltre un database di sistema speciale che non è possibile rinominare, modificare o sostituire.
I documenti indicizzati tramite il servizio devono essere archiviati in SQL Server, in un qualsiasi oggetto di database supportato per l'indicizzazione full-text, incluse tabelle e viste indicizzate.
Non tutte le lingue full-text supportano l'indicizzazione semantica. Per un elenco delle lingue supportate, vedere sys.fulltext_semantic_languages (Transact-SQL).

Torna all'inizio

Vedere anche

Concetti

Soluzioni di modelli multidimensionali (SSAS)

Soluzioni di modelli tabulari (SSAS tabulare)

Progetti correlati per soluzioni di data mining

SQL Server Integration Services

SQL Server Reporting Services

Data Quality Services

Ricerca full-text

Indicizzazione semantica

Vedere anche

Concetti

Risorse aggiuntive