Introduzione all’entropia e all’indice di Gini
Un'introduzione all'entropia e all'indice di Gini
Comprendere come queste misure ci aiutano a quantificare l’incertezza in una raccolta di dati
L’entropia e l’indice di Gini sono importanti concetti di apprendimento automatico particolarmente utili negli algoritmi degli alberi decisionali per determinare la qualità di una divisione. Entrambe queste metriche sono calcolate in modo diverso ma alla fine vengono utilizzate per quantificare la stessa cosa, ovvero l’incertezza (o l’impurità) all’interno di una raccolta di dati.
Più è alta l’entropia (o l’indice di Gini), più casuale (mista) è la raccolta di dati.
Affrontiamo un’immagine intuitiva dell’impurità in una raccolta di dati e comprendiamo come queste metriche possano aiutare a misurarla. (Impurità, incertezza, casualità, eterogeneità – tutti possono essere utilizzati in modo interscambiabile nel nostro contesto e l’obiettivo è alla fine ridurli per avere una maggiore chiarezza).
Cos’è l’impurità – spiegato con un esempio
Immagina che tu vada al supermercato con i tuoi amici – Alice e Bob – per comprare della frutta. Ciascuno di voi prende un carrello perché nessuno di voi vuole condividere la frutta. Scopriamo cosa avete preso (sembra che tutti amiate le mele!!):
- Un’introduzione all’apprendimento approfondito per i dati sequenziali
- Ricerca semantica moderna per immagini
- Come Self-RAG potrebbe rivoluzionare gli LLM industriali
Questi tre carrelli possono essere considerati come tre diverse distribuzioni di dati. Se assumiamo che all’inizio ci siano due classi (mele e banane), allora le interpretazioni che seguono sarebbero sbagliate. Piuttosto, pensa a ciascun carrello come a una distribuzione diversa: quindi il primo carrello è una distribuzione di dati in cui tutti i punti dati appartengono a una singola classe, mentre il secondo e il terzo carrello sono distribuzioni di dati con due classi.
Osservando l’esempio sopra, è facile identificare i carrelli con le distribuzioni di dati più pure o impure (distribuzioni di classi per essere precisi). Ma per avere una quantificazione matematica della purezza in una raccolta di dati in modo che possa essere utilizzata da un algoritmo per prendere decisioni, l’entropia e l’indice di Gini vengono in aiuto.
Entrambe queste misure considerano la probabilità di occorrenza (o presenza) di ciascuna classe in una raccolta di dati. Nel nostro esempio, abbiamo un totale di 8 punti dati (frutta) in ogni caso, quindi possiamo…