Le due metriche che rivelano la vera dispersione dei dati oltre la deviazione standard
Two metrics revealing true data dispersion beyond standard deviation
STATISTICHE
Una guida al calcolo e all’interpretazione del coefficiente di variazione e del coefficiente di dispersione dei quantili
Introduzione
Tutti abbiamo sentito dire che “La varietà è il sale della vita” e nei dati, quella varietà o diversità assume spesso la forma della dispersione.
La dispersione dei dati rende i dati affascinanti mettendo in evidenza modelli e intuizioni che altrimenti non avremmo trovato. Tipicamente, utilizziamo le seguenti misure di dispersione: varianza, deviazione standard, intervallo e intervallo interquartile (IQR). Tuttavia, in alcuni casi potremmo dover esaminare la dispersione dei dati oltre queste misure tipiche.
È qui che il coefficiente di variazione (CV) e il coefficiente di dispersione dei quartili (QCD) forniscono intuizioni quando si confrontano i dati.
In questo tutorial, esploreremo i due concetti di CV e QCD e risponderemo alle seguenti domande per ciascuno di essi:
- Uno studente indiano al MIT crea un dispositivo di conversazione senza voce
- I ricercatori del CMU propongono un metodo di attacco semplice ed efficace che fa sì che i modelli di linguaggio allineati generino comportamenti obiettabili con un alto tasso di successo’.
- VoAGI Top Post di giugno 2023 GPT4All è la ChatGPT Locale per i tuoi Documenti ed è gratuita!
- Cosa sono e come vengono definiti?
- Come possono essere calcolati?
- Come interpretare i risultati?
Tutte le domande sopra verranno risposte in modo approfondito e attraverso due esempi.
Comprensione della variabilità e della dispersione
Sia che stiamo misurando l’altezza delle persone o i prezzi delle case, raramente troviamo tutti i dati uguali. Non ci aspettiamo che tutti siano uguali. Alcune persone sono alte, altre sono nella media o basse. I dati generalmente variano. Per studiare questa variabilità o dispersione dei dati, di solito la quantifichiamo utilizzando misure come l’intervallo, la varianza, la deviazione standard, ecc. Le misure di dispersione quantificano quanto i nostri dati siano distribuiti.
Tuttavia, cosa succede se desideriamo valutare la variabilità tra i dataset? Ad esempio, se vogliamo confrontare i prezzi di vendita di un negozio di gioielli e una libreria? La deviazione standard non funzionerà qui, poiché le scale dei due dataset sono probabilmente molto diverse.
Il CV e il QCD sono indicatori utili di dispersione in questo contesto.