Le due metriche che rivelano la vera dispersione dei dati oltre la deviazione standard

Two metrics revealing true data dispersion beyond standard deviation

STATISTICHE

Una guida al calcolo e all’interpretazione del coefficiente di variazione e del coefficiente di dispersione dei quantili

Immagine generata dall'autore utilizzando StockImg.AI

Introduzione

Tutti abbiamo sentito dire che “La varietà è il sale della vita” e nei dati, quella varietà o diversità assume spesso la forma della dispersione.

La dispersione dei dati rende i dati affascinanti mettendo in evidenza modelli e intuizioni che altrimenti non avremmo trovato. Tipicamente, utilizziamo le seguenti misure di dispersione: varianza, deviazione standard, intervallo e intervallo interquartile (IQR). Tuttavia, in alcuni casi potremmo dover esaminare la dispersione dei dati oltre queste misure tipiche.

È qui che il coefficiente di variazione (CV) e il coefficiente di dispersione dei quartili (QCD) forniscono intuizioni quando si confrontano i dati.

In questo tutorial, esploreremo i due concetti di CV e QCD e risponderemo alle seguenti domande per ciascuno di essi:

  • Cosa sono e come vengono definiti?
  • Come possono essere calcolati?
  • Come interpretare i risultati?

Tutte le domande sopra verranno risposte in modo approfondito e attraverso due esempi.

Comprensione della variabilità e della dispersione

Sia che stiamo misurando l’altezza delle persone o i prezzi delle case, raramente troviamo tutti i dati uguali. Non ci aspettiamo che tutti siano uguali. Alcune persone sono alte, altre sono nella media o basse. I dati generalmente variano. Per studiare questa variabilità o dispersione dei dati, di solito la quantifichiamo utilizzando misure come l’intervallo, la varianza, la deviazione standard, ecc. Le misure di dispersione quantificano quanto i nostri dati siano distribuiti.

Tuttavia, cosa succede se desideriamo valutare la variabilità tra i dataset? Ad esempio, se vogliamo confrontare i prezzi di vendita di un negozio di gioielli e una libreria? La deviazione standard non funzionerà qui, poiché le scale dei due dataset sono probabilmente molto diverse.

Il CV e il QCD sono indicatori utili di dispersione in questo contesto.

Approfondimento: Coefficiente di variazione