3 Migliori (Spesso Migliori) Alternative agli Istogrammi

3 migliori alternative agli istogrammi

Evitare la trappola più pericolosa degli istogrammi

Immagine di me con Leonardo AI

Binning Bias, il più grande difetto degli istogrammi

Gli istogrammi sono probabilmente il primo grafico che potresti aver utilizzato quando ti sei avventurato come data scientist. Sono grafici intuitivi e facili da capire per analizzare le forme delle distribuzioni.

Tuttavia, man mano che progredisci nel tuo percorso, scoprirai che gli istogrammi non sono così perfetti. Gli istogrammi raggruppano i valori in intervalli chiamati bin e l’altezza di ciascun bin in un istogramma rappresenta il numero di punti in quel bin. Considera questo esempio:

Immagine dell'autore

Da questo istogramma, possiamo subito vedere che la maggior parte dei punteggi si trova tra 60 e 80. Vediamo cosa succede se cambiamo il numero di bin da 10 a 20:

Immagine dell'autore

La tendenza precedente è ancora evidente. Continuiamo a cambiare, questa volta da 20 a 40:

Immagine dell'autore

Ora possiamo vedere che la distribuzione non è così uniforme come sembra. Possiamo notare picchi minori intorno a 40, 62, 68 e 80 con 40 bin. Quindi, il numero di bin potrebbe nascondere informazioni essenziali sulla nostra distribuzione.

Tuttavia, cambiare troppo il numero di bin potrebbe introdurre solo rumore casuale e far sembrare che sia una scoperta importante. Questo ci porta al binning bias, che è il più grande difetto degli istogrammi.

Il binning bias è una trappola degli istogrammi in cui otterrai rappresentazioni diverse dei stessi dati al variare del numero di bin per il grafico.

Nelle sezioni successive, vedremo tre alternative agli istogrammi che evitano il binning bias e forniscono risultati migliori per confrontare le distribuzioni.

Ripasso sui dati discreti e continui