Oltre la curva di Gauss Un’introduzione alla distribuzione t
Introduzione alla distribuzione t oltre la curva di Gauss
Scopri le origini, la teoria e le applicazioni dietro la famosa distribuzione t
Cos’è la distribuzione t?
La distribuzione t è una distribuzione di probabilità continua molto simile alla distribuzione normale, ma presenta le seguenti differenze chiave:
- Code più pesanti: La maggior parte della sua massa di probabilità è situata agli estremi (maggiore curtosi). Ciò significa che è più probabile che produca valori lontani dalla media.
- Un parametro: La distribuzione t ha un solo parametro, i gradi di libertà, poiché viene utilizzata quando non conosciamo la varianza della popolazione.
Un fatto interessante sulla distribuzione t è che talvolta viene indicata come “distribuzione t di Student”. Questo perché l’inventore della distribuzione, William Sealy Gosset, uno statistico inglese, l’ha pubblicata utilizzando lo pseudonimo “Student” per mantenere l’anonimato, dando così origine al nome “distribuzione t di Student”.
Teoria e Definizione
Esaminiamo un po’ di teoria dietro la distribuzione per costruire un’intuizione matematica.
Origine
L’origine della distribuzione t deriva dall’idea di modellare dati distribuiti normalmente senza conoscere la varianza della popolazione di quei dati.
- Monitoraggio dei modelli di Machine Learning in produzione Perché e Come?
- Il problema di percezione pubblica del Machine Learning
- Comprendere in profondità i punteggi AUC qual è il punto?
Ad esempio, supponiamo di campionare n punti dati da una distribuzione normale, la seguente sarà la media e la varianza di questo campione rispettivamente:
Dove:
- x̄ è la media del campione.
- s è la deviazione standard del campione.
Combinando le due equazioni sopra, possiamo costruire la seguente variabile casuale:
Qui μ è la media della popolazione e t è la statistica t che appartiene alla distribuzione t!
Vedi qui per una derivazione più dettagliata.
Funzione di Densità di Probabilità
Come dichiarato in precedenza, la distribuzione t è parametrizzata da un solo valore, i gradi di libertà, ν, e la sua funzione di densità di probabilità ha questo aspetto: