Smantellando l’Indice di Gini Come l’Economia ha Ispirato l’Apprendimento Automatico

Smantellando l'Indice di Gini Economia e Apprendimento Automatico

Come l’indice di Gini dall’economia è ora un concetto cruciale per il machine learning

Foto di Ed Robertson su Unsplash

Sfondo

L’indice di Gini è uno strumento popolare all’interno della Data Science che si occupa di decidere come dividere gli alberi decisionali. Tuttavia, la maggior parte degli esperti non è consapevole che l’indice di Gini è originariamente derivato dall’economia come misura dell’ineguaglianza della ricchezza. In questo post, voglio approfondire i dettagli dell’indice di Gini e le sue origini.

Cos’è l’Indice di Gini?

Introdotto da Corrado Gini nel 1912, l’indice di Gini (o coefficiente) misura la distribuzione del reddito all’interno di un paese o di uno stato. Un indice di Gini pari a 0 indica una perfetta disuguaglianza in cui tutti hanno lo stesso reddito; questa è una distribuzione uniforme. Mentre un indice di 1 significa una massima uguaglianza in cui essenzialmente una persona possiede tutta la ricchezza.

Secondo i dati della Banca Mondiale, la Slovenia ha uno dei peggiori indici di Gini, pari a 0.24, mentre il Sudafrica è uno dei migliori con 0.64. Naturalmente, questa è solo una statistica per descrivere la situazione economica di un paese. Come tutto nella statistica, ha bisogno di contesto e ulteriori dati per spiegare l’intera situazione.

Curva di Lorenz

Un modo visuale per vedere l’indice di Gini in azione è attraverso la curva di Lorenz:

Grafico generato dall'autore in Python.

La linea tratteggiata arancione diagonale rappresenta una perfetta uguaglianza, in quanto il cambiamento nella ricchezza cumulativa è perfettamente lineare con il cambiamento nella popolazione cumulativa.

La curva di Lorenz ha lo scopo di rappresentare il grafico reale della ricchezza cumulativa rispetto alla popolazione cumulativa. Più la curva di Lorenz si allontana dalla linea diagonale, maggiore è l’ineguaglianza del reddito.

La zona tra la curva di Lorenz e la linea diagonale è direttamente proporzionale all’indice di Gini.

Matematicamente, ciò significa:

Dove A e B sono le aree corrispondenti mostrate nel grafico sopra, si può vedere che come la linea di Lorenz…