Cos’hanno le Regole di Associazione nel Data Mining?

Qual'è il ruolo delle regole di associazione nel Data Mining?

Introduzione

L’evoluzione dell’uomo dall’estrazione del carbone all’estrazione dei dati ha un contributo enorme alla crescita umana e allo sviluppo tecnologico. Cambiando l’entità del lavoro fisico coinvolto, il peso si è ora spostato verso lo sforzo mentale per svolgere questo nuovo tipo di estrazione. Il processo di estrazione dei dati comprende molti aspetti, tra cui la regola di associazione, che è significativa per il suo contributo pratico alla comprensione dei clienti e alla crescita del business. Hai requisiti precisi? Sei interessato a migliorare le tue conoscenze per ottenere un aumento esponenziale della soddisfazione del cliente? Sei intenzionato a sviluppare un sistema di raccomandazione migliore che sia competitivo con i grandi brand? Ecco una breve introduzione ai concetti chiave e ai fondamenti delle regole di associazione nell’estrazione dei dati.

Obiettivi di apprendimento

  • Comprendere l’essenza delle regole di associazione come affermazioni if/then che rivelano relazioni all’interno dei dati.
  • Identificare e differenziare applicazioni come l’analisi dei carrelli della spesa, la rilevazione delle frodi e i sistemi di raccomandazione, mettendo in mostra la versatilità e l’importanza pratica delle regole di associazione.
  • Ottenere una migliore comprensione di come funzionano le regole di associazione, esplorando il ruolo della cardinalità, del supporto, della confidenza e del lift nella previsione e nella valutazione delle relazioni nei dataset.

Cosa sono le Regole di Associazione nell’Estrazione dei Dati?

Come suggerisce il nome, le regole di associazione sono affermazioni if/then che identificano le relazioni o le dipendenze tra i dati. Con la caratteristica di adattarsi ai dati categorici numerici e non numerici, viene spesso applicata nell’analisi del carrello della spesa e in altre applicazioni. Può acquisire dati da database relazionali e transazionali e da altre fonti di dati.

La regola di associazione ha due parti: l’antecedente o l’if e il conseguente o il then. L’antecedente è la prima parte disponibile nei dati, mentre il conseguente è la parte risultante disponibile in combinazione con l’antecedente. Ad esempio, l’esempio dell’analisi del carrello della spesa sarà: “Se un cliente compra delle scarpe da corsa, c’è la probabilità che acquisti anche delle barrette energetiche”. Qui, le scarpe da corsa sono l’antecedente e le barrette energetiche sono il conseguente. L’esempio si rivolge in particolare al pubblico appassionato di fitness.

Quali sono gli Utilizzi delle Regole di Associazione?

Le regole di associazione possono essere utilizzate in una vasta gamma di applicazioni. I tre principali esempi di estrazione delle regole di associazione sono:

Analisi del Carrello della Spesa: Un esempio di combinazione di acquisti può essere l’acquisto di yogurt e granola che è probabilmente associato all’acquisto di frutti di bosco. Questo indica l’importanza delle regole di associazione nell’analisi delle abitudini di acquisto e dei requisiti. L’utilizzo pratico dell’interpretazione si nota nello sviluppo di offerte di combinazione adatte, nell’ottimizzazione della posizione dei prodotti e nell’aumento delle vendite.

Rilevazione delle Frodi: Qui, la combinazione delle regole di associazione viene utilizzata per identificare un pattern di acquisto, la sua posizione e la frequenza. La rilevazione delle stesse aiuta a individuare attività fraudolente e adottare misure preventive dallo stesso indirizzo IP.

Sistemi di Raccomandazione: Questi includono la rilevazione dei pattern di utilizzo dalla cronologia di navigazione e dagli acquisti precedenti per prevedere le future esigenze dell’utente. Le raccomandazioni si basano su queste informazioni. L’utilizzo si estende anche al campo della musica e dei servizi basati su spettacoli.

Fonte: Dataaspirant

Come Funzionano le Regole di Associazione?

La previsione delle regole di associazione spiegata in precedenza con esempi viene calcolata in base alla cardinalità, al supporto e alla confidenza. La cardinalità si riferisce alla relazione tra due elementi, che aumenta proporzionalmente con il numero di oggetti. Il supporto indica la frequenza delle affermazioni, mentre la confidenza indica la frequenza di veridicità di queste relazioni. Le regole di associazione funzionano determinando le regole che governano il motivo e la situazione in cui la combinazione può verificarsi. Ad esempio, l’opzione preferita per una colazione sana e veloce combina yogurt, granola e frutti di bosco.

Spesso, nelle situazioni pratiche, i numeri diventano irrealistici. Alcuni elementi statisticamente indipendenti con la combinazione di acquisto meno probabile possono presentarsi insieme con una percentuale significativamente alta nell’utilizzo pratico. Ad esempio, statisticamente, le possibilità di acquisto combinato di birra e pannolini sono basse, mentre le statistiche del mondo reale sono notevolmente più alte. L’aumento delle statistiche è chiamato lift.

Misure dell’efficacia delle regole di associazione

L’efficacia delle regole di associazione è principalmente misurata dal supporto, dalla confidenza e dal lift. Il supporto si riferisce alla frequenza e un alto supporto indica la comunalità della quantità nel dataset. La confidenza misura la affidabilità della regola di associazione. Un’alta confidenza suggerisce che A e B sono proporzionali e quindi aumentano direttamente uno in relazione all’altro.

Il lift confronta la dipendenza dell’oggetto. Se i numeri statistici e pratici sono gli stessi o l’antecedente e il conseguente sono gli stessi, il lift sarà 1 e gli oggetti associati sono indipendenti. Gli oggetti dipendono l’uno dall’altro se il lift> 1 e l’antecedente è maggiore del conseguente. Inoltre, la combinazione si influisce negativamente se il conseguente è maggiore dell’antecedente con lift <1.

Fonte: Mappa di Data Mining

Algoritmi di regole di associazione

Tre algoritmi generano le regole di associazione. Questi sono indicati di seguito:

Algoritmo di Apriori

Le regole di associazione nell’algoritmo di apriori vengono generate attraverso dataset di transazioni frequenti. Spesso usato per l’analisi del carrello della spesa del mercato, utilizza tecniche come la Breadth-first search e l’albero di hash. Fornendo informazioni sui prodotti combinati acquistati insieme, serve anche a scopi medici trovando reazioni ai farmaci per i pazienti.

Algoritmo di Eclat

Conosciuto anche come Equivalent Class Transformation, utilizza una tecnica di ricerca in profondità. Fornendo un’esecuzione rapida e accurata, si occupa anche di database di transazioni. L’algoritmo ELCAT utilizza meno spazio di archiviazione e funziona senza scansioni ripetute dei dati per il calcolo dei valori di supporto individuali. Invece, usa gli insiemi di ID di transazione o Tidsets per scopi di calcolo.

Algoritmo di F-P Growth

Chiamato anche crescita del pattern frequente, è una versione ulteriormente migliorata dell’algoritmo di Apriori. Viene analizzato attraverso due passaggi. Il primo è la conversione del database in una struttura ad albero, guadagnando così il nome a causa della rappresentazione dei pattern frequenti. Il secondo passaggio è il formato di rappresentazione, che facilita ulteriormente l’estrazione dei pattern più frequenti.

Fonte: ResearchGate

Conclusione

Il data mining si riferisce all’estrazione di informazioni da dataset completi. Il data mining delle regole di associazione è il metodo per identificare le correlazioni, i pattern, le associazioni o le strutture causali nei dataset. Con l’immensa portata di applicabilità nel settore della vendita al dettaglio, nella sanità, nella rilevazione delle frodi, nella ricerca biologica e in molti altri campi, la regola di associazione funziona attraverso l’affermazione “se/allora”. Il supporto, la confidenza e il lift svolgono un ruolo critico nella valutazione della sua efficacia. Inoltre, lo sviluppo delle regole di associazione avviene attraverso tre algoritmi. Approfondisci ulteriori concetti importanti insieme all’apprendimento delle regole di associazione nel data mining nel nostro corso di scienze dei dati.

Punti chiave

  • Le regole di associazione trovano un uso pratico in diversi campi, come l’ottimizzazione delle posizioni dei prodotti nell’analisi del carrello della spesa, l’individuazione di attività fraudolente nella rilevazione delle frodi e il miglioramento dell’esperienza dell’utente attraverso i sistemi di raccomandazione.
  • Il supporto, la confidenza e il lift sono metriche cruciali per valutare l’efficacia delle regole di associazione, fornendo informazioni sulla frequenza, l’affidabilità e la dipendenza delle relazioni identificate.
  • Esplora tre algoritmi chiave – Apriori, Eclat e F-P Growth – che guidano la generazione di regole di associazione, ognuno offrendo vantaggi unici in termini di velocità di esecuzione, efficienza di scansione dei dati e campo di applicazione.

Domande frequenti