Introduzione all’entropia e all’indice di Gini

Un'introduzione all'entropia e all'indice di Gini

Comprendere come queste misure ci aiutano a quantificare l’incertezza in una raccolta di dati

Puoi dire quali carrelli sono i più puri e i più impuri? (Fonte: Immagine dell'autore)

L’entropia e l’indice di Gini sono importanti concetti di apprendimento automatico particolarmente utili negli algoritmi degli alberi decisionali per determinare la qualità di una divisione. Entrambe queste metriche sono calcolate in modo diverso ma alla fine vengono utilizzate per quantificare la stessa cosa, ovvero l’incertezza (o l’impurità) all’interno di una raccolta di dati.

Più è alta l’entropia (o l’indice di Gini), più casuale (mista) è la raccolta di dati.

Affrontiamo un’immagine intuitiva dell’impurità in una raccolta di dati e comprendiamo come queste metriche possano aiutare a misurarla. (Impurità, incertezza, casualità, eterogeneità – tutti possono essere utilizzati in modo interscambiabile nel nostro contesto e l’obiettivo è alla fine ridurli per avere una maggiore chiarezza).

Cos’è l’impurità – spiegato con un esempio

Immagina che tu vada al supermercato con i tuoi amici – Alice e Bob – per comprare della frutta. Ciascuno di voi prende un carrello perché nessuno di voi vuole condividere la frutta. Scopriamo cosa avete preso (sembra che tutti amiate le mele!!):

Immagine dell'autore

Questi tre carrelli possono essere considerati come tre diverse distribuzioni di dati. Se assumiamo che all’inizio ci siano due classi (mele e banane), allora le interpretazioni che seguono sarebbero sbagliate. Piuttosto, pensa a ciascun carrello come a una distribuzione diversa: quindi il primo carrello è una distribuzione di dati in cui tutti i punti dati appartengono a una singola classe, mentre il secondo e il terzo carrello sono distribuzioni di dati con due classi.

Osservando l’esempio sopra, è facile identificare i carrelli con le distribuzioni di dati più pure o impure (distribuzioni di classi per essere precisi). Ma per avere una quantificazione matematica della purezza in una raccolta di dati in modo che possa essere utilizzata da un algoritmo per prendere decisioni, l’entropia e l’indice di Gini vengono in aiuto.

Entrambe queste misure considerano la probabilità di occorrenza (o presenza) di ciascuna classe in una raccolta di dati. Nel nostro esempio, abbiamo un totale di 8 punti dati (frutta) in ogni caso, quindi possiamo…