Algoritmo Microsoft Association Rules

Articolo
12/23/2023

Si applica a: SQL Server 2019 e versioni precedenti di Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

Il data mining è stato deprecato in SQL Server 2017 Analysis Services e ora è stato interrotto in SQL Server 2022 Analysis Services. La documentazione non viene aggiornata per le funzionalità deprecate e non più disponibili. Per altre informazioni, vedere Compatibilità con le versioni precedenti di Analysis Services.

L'algoritmo Microsoft Association è un algoritmo spesso usato per i motori di raccomandazione. Un motore dei suggerimenti consiglia articoli ai clienti in base agli articoli che hanno già acquistato o a cui sono interessati. L'algoritmo Microsoft Association è utile anche per l'analisi del carrello di mercato.

I modelli di associazione vengono compilati in base a set di dati che includono sia gli indicatori dei singoli case che gli indicatori degli elementi contenuti nei case. Un gruppo di elementi in un case viene chiamato set di elementi. Un modello di associazione è costituito da una serie di set di elementi e di regole che descrivono la modalità di raggruppamento di tali elementi all'interno dei case. È possibile utilizzare le regole identificate dall'algoritmo per stimare i probabili acquisti futuri di un cliente, in base agli elementi già esistenti nel relativo carrello acquisti. Nel diagramma seguente viene illustrata una serie di regole all'interno di un set di elementi.

Set di regole per un modello di associazione Set di regole per un

Come illustrato dal diagramma, l'algoritmo Microsoft Association può potenzialmente trovare molte regole all'interno di un set di dati. L'algoritmo utilizza due parametri, uno di supporto e l'altro di probabilità, per descrivere i set di elementi e le regole generati. Se ad esempio X e Y rappresentano due elementi contenuti in un carrello acquisti, il parametro di supporto è il numero di case del set di dati che contengono la combinazione di elementi X e Y. Se il parametro di supporto viene usato insieme ai parametri definiti dall'utente, MINIMUM_SUPPORT e MAXIMUM_SUPPORT, , l'algoritmo controlla il numero di set di elementi generati. Il parametro di probabilità, definito anche confidenza, rappresenta la frazione di case del set di dati che contengono sia l'elemento X che l'elemento Y. Se il parametro di probabilità viene usato insieme al parametro MINIMUM_PROBABILITY , l'algoritmo controlla il numero di regole generate.

Esempio

L'azienda Adventure Works Cycle sta riprogettando la funzionalità del suo sito Web. L'obiettivo della riprogettazione è aumentare le vendite effettive dei prodotti. Poiché l'azienda registra ogni vendita in un database transazionale, può usare l'algoritmo Microsoft Association per identificare i set di prodotti che tendono a essere acquistati insieme. In seguito, è possibile stimare elementi aggiuntivi a cui può essere interessato un cliente, in base agli elementi già esistenti nel relativo carrello acquisti.

Funzionamento dell'algoritmo

L'algoritmo Microsoft Association attraversa un set di dati per trovare gli elementi che vengono visualizzati insieme in un caso. Successivamente, l'algoritmo raggruppa in set gli elementi associati che ricorrono almeno nel numero di case specificati dal parametro MINIMUM_SUPPORT . Un set di elementi, ad esempio, potrebbe essere "Mountain 200=Existing, Sport 100=Existing", con un valore di supporto pari a 710. L'algoritmo genera quindi le regole dai set di elementi. Tali regole vengono utilizzate per stimare la presenza di un elemento nel database, in base alla presenza di altri elementi specifici che l'algoritmo identifica come importanti. Ad esempio, una regola potrebbe essere "if Touring 1000=existing and Road bottle cage=existing, then Water bottle=existing", con un valore di probabilità pari a 0,812. In questo esempio, in base alla presenza di pneumatici Touring 1000 e del contenitore per bottiglie di acqua nel carrello acquisti, l'algoritmo stima che tale carrello contiene probabilmente anche una bottiglia di acqua.

Per una spiegazione più dettagliata dell'algoritmo, insieme a un elenco di parametri per la personalizzazione del comportamento dell'algoritmo e il controllo dei risultati nel modello di data mining, vedere Riferimento tecnico per l'algoritmo Microsoft Association Rules.

Dati richiesti per i modelli di associazione

Quando si preparano i dati da utilizzare in un modello Association Rules, verificare che siano chiari i requisiti per l'algoritmo specifico, tra cui la quantità di dati necessari e la modalità di utilizzo dei dati.

I requisiti per un modello Association Rules sono i seguenti:

Una colonna a chiave singola Ogni modello deve contenere una colonna numerica o di testo che identifichi in modo univoco ogni record. Le chiavi composte non sono consentite.
Una singola colonna stimabile Un modello di associazione può includere un'unica colonna stimabile. In genere si tratta della colonna chiave della tabella nidificata, ad esempio il campo in cui sono elencati i prodotti acquistati. I valori devono essere discreti o discretizzati.
Colonne di input . Le colonne di input devono essere discrete. Spesso, i dati di input per il modello di associazione sono contenuti in due tabelle. Ad esempio, una tabella può contenere informazioni sui clienti mentre l'altra può contenere informazioni sugli acquisti dei clienti. È possibile inserire tali dati nel modello tramite una tabella nidificata. Per altre informazioni sulle tabelle nidificate, vedere Tabelle nidificate (Analysis Services - Data Mining).

Per informazioni più dettagliate sui tipi di contenuto e i tipi di dati supportati per i modelli di associazione, vedere la sezione Requisiti di Riferimento tecnico per l'algoritmo Microsoft Association Rules.

Visualizzazione di un modello di associazione

Per esplorare il modello, è possibile usare il Visualizzatore Microsoft Association Rules. Quando si visualizza un modello di associazione, SQL Server Analysis Services presenta le correlazioni da angoli diversi in modo da poter comprendere meglio le relazioni e le regole trovate nei dati. Il riquadro Set di elementi del visualizzatore fornisce una suddivisione dettagliata delle combinazioni più comuni, ovvero set di elementi. Il riquadro Regole presenta un elenco di regole generalizzate dai dati e consente di aggiungere calcoli di probabilità, nonché di classificare le regole in base all'importanza relativa. Il visualizzatore di reti di dipendenza consente di esplorare visivamente le connessioni tra elementi diversi. Per altre informazioni, vedere Visualizzare un modello usando il Visualizzatore Microsoft Clustering.

Per altri dettagli sui set di elementi e le regole, è possibile esplorare il modello in Microsoft Generic Content Tree Viewer. Il contenuto archiviato per il modello include il supporto per ogni set di elementi, un punteggio per ogni regola e altre statistiche. Per altre informazioni, vedere Contenuto del modello di data mining per modelli di associazione (Analysis Services - Data mining).

Creazione di stime

Dopo l'elaborazione del modello, è possibile utilizzare le regole e i set di elementi per eseguire stime. In un modello di associazione una stima indica quale elemento è probabile che si verifichi data la presenza dell'elemento specificato. La stima può includere informazioni come la probabilità, il supporto o la priorità. Per alcuni esempi su come creare query su un modello di associazione, vedere Esempi di query sul modello di associazione.

Per informazioni generali sulla creazione di query su un modello di data mining, vedere Query di data mining.

Prestazioni

Il processo di creazione di set di elementi e di conteggio delle correlazioni può richiedere tempi lunghi. Anche se l'algoritmo Microsoft Association Rules usa tecniche di ottimizzazione per risparmiare spazio e rendere più veloce l'elaborazione, è necessario sapere che i problemi di prestazioni possono verificarsi in condizioni come quanto segue:

Il set di dati è di grandi dimensioni con molti singoli elementi.
La dimensione minima del set di elementi è impostata su un valore eccessivamente basso.

Per ridurre i tempi di elaborazione e la complessità dei set di elementi, provare a raggruppare gli elementi correlati per categorie prima di analizzare i dati.

Commenti

Non supporta l'utilizzo del linguaggio PMML (Predictive Model Markup Language) per la creazione di modelli di data mining.
Supporta il drill-through.
Supporta l'utilizzo di modelli di data mining OLAP.
Supporta la creazione di dimensioni di data mining.

Vedere anche

Algoritmi di data mining (Analysis Services - Data mining)
Visualizzare un modello utilizzando il Visualizzatore Microsoft Association Rules
Contenuto dei modelli di data mining per i modelli di associazione (Analysis Services - Data mining)
Riferimento tecnico per l'algoritmo Microsoft Association Rules
Esempi di query sul modello di associazione