3 Migliori (Spesso Migliori) Alternative agli Istogrammi
3 migliori alternative agli istogrammi
Evitare la trappola più pericolosa degli istogrammi
Binning Bias, il più grande difetto degli istogrammi
Gli istogrammi sono probabilmente il primo grafico che potresti aver utilizzato quando ti sei avventurato come data scientist. Sono grafici intuitivi e facili da capire per analizzare le forme delle distribuzioni.
Tuttavia, man mano che progredisci nel tuo percorso, scoprirai che gli istogrammi non sono così perfetti. Gli istogrammi raggruppano i valori in intervalli chiamati bin e l’altezza di ciascun bin in un istogramma rappresenta il numero di punti in quel bin. Considera questo esempio:
Da questo istogramma, possiamo subito vedere che la maggior parte dei punteggi si trova tra 60 e 80. Vediamo cosa succede se cambiamo il numero di bin da 10 a 20:
La tendenza precedente è ancora evidente. Continuiamo a cambiare, questa volta da 20 a 40:
- Una guida completa ai database di vettori Pinecone
- Un piccolo passo per gli artisti, un grande balzo per la creatività
- La crescente sete dell’IA potrebbe causare una carenza globale di acqua
Ora possiamo vedere che la distribuzione non è così uniforme come sembra. Possiamo notare picchi minori intorno a 40, 62, 68 e 80 con 40 bin. Quindi, il numero di bin potrebbe nascondere informazioni essenziali sulla nostra distribuzione.
Tuttavia, cambiare troppo il numero di bin potrebbe introdurre solo rumore casuale e far sembrare che sia una scoperta importante. Questo ci porta al binning bias, che è il più grande difetto degli istogrammi.
Il binning bias è una trappola degli istogrammi in cui otterrai rappresentazioni diverse dei stessi dati al variare del numero di bin per il grafico.
Nelle sezioni successive, vedremo tre alternative agli istogrammi che evitano il binning bias e forniscono risultati migliori per confrontare le distribuzioni.