Una guida alla stima statistica e all’inferenza

Una guida completa alla stima statistica e all'inferenza

La legge dei grandi numeri e un ragionamento statistico accurato sono alla base dell’inferenza statistica efficace nella scienza dei dati

Foto di Gabriel Ghnassia su Unsplash

La legge dei grandi numeri e un ragionamento statistico accurato sono alla base dell’inferenza statistica efficace nella scienza dei dati.

Il seguente testo trae molto dal mio libro, “Data Science – Un’introduzione alla statistica e all’apprendimento automatico” [Plaue 2023], pubblicato di recente da Springer Nature.

Introduzione

Dall’esperienza quotidiana, abbiamo una comprensione intuitiva di quale sia l’altezza corporea tipica per le persone nella popolazione. Nella maggior parte del mondo, gli adulti sono generalmente alti tra 1,60 m e 1,80 m, mentre le persone più alte di due metri sono rare da incontrare. Fornendo una distribuzione di frequenza dell’altezza corporea, questo fatto intuitivo può essere supportato da evidenze numeriche:

Tabella 1: Frequenza dell'altezza corporea umana. Immagine dell'autore.

Questi dati si basano su un dataset raccolto dai Centers for Disease Control and Prevention (CDC) degli Stati Uniti, che elenca, tra gli altri attributi, l’altezza di oltre 340.000 individui [CDC 2018]. Un’analisi di questa tabella di frequenza mostra che, in effetti, più della metà delle persone intervistate nell’indagine ha dichiarato un’altezza compresa tra 1,60 m e 1,80 m.

Nonostante il campionamento sia di dimensioni limitate, siamo fiduciosi che le nostre indagini ci permettano di trarre conclusioni sull’intera popolazione. Ad esempio, basandoci solo sui dati, possiamo concludere con una certa sicurezza che un essere umano non può crescere fino a tre metri di altezza.

Un obiettivo importante della stocastica è quello di giustificare tali conclusioni in modo rigoroso, matematicamente. Il campo può essere diviso in due sotto-campi:

  • Teoria della probabilità si occupa della definizione matematica e dell’indagine del concetto di probabilità. Un oggetto centrale di tale indagine sono le variabili casuali: variabili la cui valore non è specificato o noto con precisione ma è soggetto a incertezza. In altre parole, può essere attribuita solo una probabilità che una variabile casuale assuma valori all’interno di un certo intervallo.
  • Statistica inferenziale si basa sull’assunzione che le osservazioni e le misure statistiche, come frequenze, medie, ecc., siano valori o realizzazioni di variabili casuali. Al contrario, il campo indaga fino a che punto le caratteristiche delle variabili casuali possono essere stimati dai dati campionati. In particolare, sotto determinate ipotesi semplificative, è possibile quantificare l’accuratezza o l’errore di una tale stima.

Esaminiamo un esempio semplice di inferenza statistica: determinare se una moneta è equa o distorta osservando una sequenza di lanci di monete. Possiamo assumere che l’esito del lancio della moneta sia determinato da una variabile casuale discreta X_1 che assume i valori di zero (rappresentando la coda) o uno (rappresentando la testa). Se dovessimo lanciare di nuovo la stessa moneta, possiamo assumere che l’esito possa essere descritto da una seconda variabile casuale X_2, indipendente dalla prima, ma che segue la stessa distribuzione.

Se non abbiamo prove a sostegno dell’ipotesi che la moneta sia distorta, possiamo assumere che la moneta sia equa. In altre parole, ci aspettiamo che la testa compaia con la stessa probabilità della coda. In base a questa assunzione, nota come ipotesi nulla, se ripetessimo l’esperimento più volte, ci aspetteremmo che la testa compaia circa tanto spesso quanto la coda.

All’inverso, i dati ci permettono di trarre conclusioni sulla vera distribuzione sottostante. Ad esempio, se osservassimo frequenze molto diverse per testa e croce, come una frequenza del 70% per testa rispetto al 30% per croce, allora – se la dimensione del campione è sufficientemente grande – saremmo convinti che dobbiamo correggere la nostra ipotesi originale di probabilità uguali. In altre parole, potremmo dover abbandonare l’ipotesi che la moneta sia equa.

Nell’esempio sopra, la frequenza di testa che appare nei dati funge da stimatore della probabilità dell’evento casuale “la moneta mostra testa”. Il buon senso suggerisce che la nostra fiducia in tali stime aumenti con la dimensione del campione. Ad esempio, se lo squilibrio descritto in precedenza fosse riscontrato solo in dieci lanci di moneta (sette teste e tre croci), potremmo non essere ancora convinti di avere una moneta sbilanciata. È ancora possibile che l’ipotesi nulla di una moneta equa sia vera. In termini quotidiani, l’esito dell’esperimento potrebbe anche essere attribuito alla “pura casualità”. Tuttavia, se osservassimo settanta volte testa su cento lanci di moneta, sarebbe una prova molto più forte a favore dell’ipotesi alternativa che la moneta sia sbilanciata!

Il teorema del limite centrale: dalle stime puntuali agli intervalli di confidenza

Le stime puntuali sono tra gli strumenti più fondamentali nel kit degli statistici e dei data scientist. Ad esempio, la media aritmetica, derivata da un campione significativo di una popolazione, fornisce un’idea del valore tipico che una determinata variabile potrebbe assumere. Nell’apprendimento automatico, stimiamo i parametri del modello dai dati di addestramento, che dovrebbero coprire un numero adeguato di esempi etichettati.

Attraverso esperienza e intuizione, siamo giunti a credere che campioni più grandi e quantità maggiori di dati di addestramento consentano procedure statistiche più accurate e modelli predittivi migliori. Le statistiche inferenziali offrono una base più solida per sostenere questa intuizione, spesso definita come la “legge dei grandi numeri”. Inoltre, acquisiamo una comprensione più profonda di cosa costituisca un “campione sufficientemente grande” calcolando gli “intervalli di confidenza”, anziché basarci unicamente sulle stime puntuali. Gli intervalli di confidenza ci forniscono intervalli di valori entro cui possiamo ragionevolmente affermare che risiede il vero parametro che cerchiamo di stimare.

Nelle sezioni seguenti, presenteremo il quadro matematico per il calcolo degli intervalli di confidenza in modo autonomo, al centro del quale si trova il “teorema del limite centrale”.

La legge dei grandi numeri di Chebyshev

Come ci aspettiamo che la frequenza relativa sia un buon stimatore per la probabilità di un evento o risultato di una variabile binaria, ci aspettiamo che la media aritmetica sia un buon stimatore per il valore atteso della variabile casuale che produce i dati numerici che osserviamo.

È importante notare che anche questa stima è nuovamente una variabile casuale. Se tiriamo un dado cinquanta volte e registriamo il numero medio e poi ripetiamo l’esperimento, otterremo molto probabilmente valori leggermente diversi. Se ripetiamo l’esperimento molte volte, le medie aritmetiche registrate seguiranno una certa distribuzione. Tuttavia, per campioni grandi, ci aspettiamo che mostrino solo una piccola dispersione e siano centrate attorno al vero valore atteso. Questo è il messaggio chiave della “legge dei grandi numeri di Chebyshev”, che dettaglieremo di seguito.

Prima di farlo, introduciamo uno strumento importante nella teoria delle probabilità – “l’ineguaglianza di Chebyshev”. Supponiamo di avere una variabile casuale X con media finita μ e varianza σ². Allora, per qualsiasi ε > 0, vale quanto segue, dove Pr( · ) significa “probabilità di”:

Questo risultato coincide con la nostra comprensione intuitiva di una misura di dispersione: più piccola è la varianza, più probabile è che la variabile casuale assuma valori vicini alla media.

Ad esempio, la probabilità di trovare un valore osservato della variabile casuale entro sei deviazioni standard dal suo valore atteso è molto alta, almeno il 97%. In altre parole, la probabilità che una variabile casuale assuma un valore che si discosta dalla media di più di sei deviazioni standard è molto bassa, inferiore al 3%. Questo risultato vale per distribuzioni di qualsiasi forma fintanto che il valore atteso e la varianza sono valori finiti.

Ora supponiamo che osserviamo dei valori numerici in un campione che sono le realizzazioni delle variabili casuali X_1, …, X_N. Assumiamo che queste variabili casuali siano mutuamente indipendenti e seguano la stessa distribuzione, una proprietà comunemente conosciuta come indipendenti e identicamente distribuite, o i.i.d. per brevità. Questa assumzione è ragionevole quando le osservazioni sono il risultato di prove preparate in modo indipendente e identicamente preparate o quando rappresentano una selezione casuale da una popolazione. Tuttavia, è importante notare che questa assumzione potrebbe non sempre essere giustificata.

Inoltre, assumiamo che il valore atteso μ e la varianza σ² di ogni variabile casuale esistano e siano finite. Poiché le variabili seguono la stessa distribuzione, questi valori sono gli stessi per ciascuna delle variabili. Successivamente, consideriamo la seguente variabile casuale che produce la media aritmetica:

Innanzitutto, mostreremo che l’estimatore di media aritmetica x̄ è un estimatore non distorto: i suoi valori si distribuiscono attorno alla vera media μ. Questo è un risultato che deriva direttamente dalla linearità del valore atteso E[ · ]:

Successivamente, vogliamo mostrare che per campioni grandi, i valori dell’estimatore di media aritmetica non si disperdono troppo lontano dalla vera media. Poiché X_1, …, X_N sono assunti come mutuamente indipendenti, sono non correlati a coppie. Non è difficile verificare che per variabili casuali non correlate a coppie, la varianza può essere rappresentata come segue poiché tutti i termini incrociati si annullano:

Pertanto, la varianza dell’estimatore di media aritmetica è data come segue:

Ora che conosciamo il valore atteso e la varianza dell’estimatore di media aritmetica, possiamo applicare l’ineguaglianza di Chebyshev:

Questo risultato mostra che la media aritmetica è un estimatore coerente del valore atteso: converge in probabilità alla vera media. In altre parole, per campioni grandi, il valore atteso μ della distribuzione sottostante e la media aritmetica del campione probabilmente non differiscono significativamente.

Teorema del limite centrale di Lindeberg–Lévy

La legge dei grandi numeri di Chebyshev afferma che, in condizioni abbastanza generali, la media aritmetica di un campione grande è molto probabilmente simile alla vera media della distribuzione sottostante. Forse sorprendentemente, possiamo essere abbastanza specifici su come le medie di campioni grandi si distribuiscono attorno all’aspettazione vera. Questo è il messaggio chiave del teorema del limite centrale di Lindeberg–Lévy. Per ogni coppia di numeri a, b con a < b:

L’integranda sul lato destro dell’equazione è la funzione di densità di probabilità della distribuzione normale standard: la distribuzione normale — che ha la nota forma a campana — con media che scompare e varianza unitaria.

In generale, una sequenza di variabili casuali si dice che converge in distribuzione verso una qualche variabile casuale se le loro funzioni di distribuzione cumulative convergono punto per punto alla distribuzione di quella variabile casuale. Quindi, matematicamente, il teorema del limite centrale afferma che la seguente sequenza di variabili casuali converge sempre in distribuzione a una variabile casuale distribuita in modo normale standard, indipendentemente da come X_1, …, X_N siano distribuite (a patto che siano i.i.d.):

Statisticamente, il teorema del limite centrale implica che se raccogliamo ripetutamente un campione sufficientemente grande dalla stessa popolazione, i valori medi di quei campioni saranno distribuiti normalmente. Questo teorema è di importanza pratica perché ci permette di fare affermazioni precise sull’accuratezza delle stime statistiche. Una comune idea sbagliata è che questo teorema sia la ragione per cui molte distribuzioni empiriche possono essere approssimate a una distribuzione normale in pratica. Tuttavia, questo non è il caso.

Anche se la dimostrazione del teorema richiede strumenti analitici avanzati che non discuteremo qui (vedi, ad esempio, [Durrett 2019, Teorema 3.4.1]), possiamo capire le sue implicazioni pratiche attraverso un esempio numerico. Consideriamo la seguente funzione di densità di probabilità che assumiamo produca i dati in studio:

Figura 1: Una qualsiasi funzione di densità di probabilità. Immagine dell'autore.

Per sottolineare che il teorema vale per qualsiasi forma della distribuzione sottostante, notiamo come la funzione di densità non assomigli a una curva a campana. Possiamo osservare istogrammi di un gran numero di medie calcolate da campioni di dimensione N estratti ripetutamente dalla distribuzione mediante simulazione numerica. Per campioni costituiti da un’unica istanza, N = 1, non possiamo aspettarci che il teorema del limite si applichi – semplicemente riproduciamo la distribuzione sottostante:

Figura 2: Un istogramma estratto da una distribuzione arbitraria (caso N = 1). Immagine dell'autore.

Tuttavia, anche per una dimensione del campione relativamente piccola N = 5, la distribuzione delle medie aritmetiche – ossia il campionamento ripetuto e il calcolo di (x_1 + … + x_5) / 5 – mostra la tipica forma a campana della distribuzione normale:

Figura 3: Distribuzione di medie di campioni di dimensione N = 5. Immagine dell'autore.

Grant Sanderson, sul suo canale YouTube 3Blue1Brown, ha realizzato un video che fornisce ulteriori intuizioni intuitive sul teorema del limite centrale, davvero piacevole da guardare.

Intervallo di stima e test delle ipotesi

Il teorema del limite centrale è importante perché ci permette di specificare un intervallo di confidenza anziché solo una stima puntale quando stimiamo la media di una certa popolazione: anziché un singolo valore stimato, specifichiamo un intervallo in cui possiamo essere ragionevolmente certi che si trovi la vera media. Ad esempio, supponiamo di voler garantire che la nostra stima sia corretta con il 95% di confidenza per campioni sufficientemente grandi. Possiamo ottenerlo impostando l’intervallo di confidenza con un livello di confidenza γ = 0,95:

Facciamo la seguente ansatz con il numero z > 0, che deve ancora essere determinato:

Il teorema del limite centrale ci permette di concludere:

Quindi, z = z(γ) è determinato dai limiti integrali che producono un’area di γ sotto la curva normale standard. Ad esempio, z(0.95) = 1.96 o z(0.99) = 2.58.

In conclusione, l’intervallo di stima della media con livello di confidenza γ basato su un campione sufficientemente grande (comunemente si usano regole approssimative come N > 30 o N > 50) è il seguente:

Per arrivare alla formula sopra, abbiamo sostituito la media μ e la deviazione standard σ con le loro stime empiriche x̄ e s(x), rispettivamente. Questa è una ragionevole approssimazione per campioni sufficientemente grandi e può essere giustificata dal teorema di Slutsky che sostiene essenzialmente che le operazioni di aritmetica di base si combinano con il limite della distribuzione purché almeno uno dei addendi/fattori converga a una costante.

Al posto del livello di confidenza γ, può essere specificato il livello di significatività, o probabilità di errore, α = 1 − γ.

Calcoliamo un esempio pratico. L’intervallo di confidenza al 99,9% per l’altezza media del corpo dei partecipanti maschi al sondaggio CDC è [177,98 cm, 178,10 cm]. Questa elevata precisione statistica è dovuta alle dimensioni del campione N con oltre 190.000 soggetti maschi intervistati. Vogliamo dimostrare come funziona l’intervallo di stima per un campione di dimensioni inferiori. A tal fine, estrapoliamo ripetutamente un campione casuale di N = 50 valori di altezza del corpo e calcoliamo l’intervallo di confidenza corrispondente al 95%. Il risultato è visibile nella figura seguente:

Figura 5: Intervallo di stima dell'altezza del corpo da campioni di dimensione N = 50. Immagine dell'autore.

Si noti che la maggior parte degli intervalli di confidenza, rappresentati come barre di errore verticali, contengono anche il vero valore di 178 cm, rappresentato come una linea tratteggiata orizzontale. Tuttavia, alcuni non lo contengono, circa cinque su cento — questo è previsto dalla costruzione ed è coerente con la probabilità di errore specificata di α = 5%. C’è sempre la possibilità che la stima dell’intervallo manchi del vero valore medio della popolazione, specialmente a livelli di confidenza bassi.

Un’altra importante applicazione del teorema del limite centrale, strettamente legata all’intervallo di stima, è nei test di ipotesi. Supponiamo che abbiamo motivo di credere che il valore atteso di una variabile casuale X non sia uguale a un certo valore μ. In tal caso, vogliamo confutare l’ipotesi nulla E[X] = μ. Possiamo dire che questa ipotesi nulla non è coerente con i dati se la media osservata non è inclusa nel seguente intervallo:

Riprendiamo l’esempio di una moneta possibilmente truccata dall’introduzione. Registriamo il risultato di ogni lancio della moneta, ottenendo una sequenza di valori binari, dove il valore uno rappresenta testa e il valore zero rappresenta croce. La media aritmetica di quella sequenza è uguale alla frequenza relativa delle teste e possiamo applicare ciò che abbiamo imparato finora. Supponiamo di avere ragione nel credere che la moneta non sia equa. L’ipotesi nulla afferma che la moneta è equa, cioè E[X] = 0,5. In un primo esperimento, osserviamo che dopo dieci lanci, la moneta cade con la testa in alto sette volte. A un livello di confidenza di γ = 0,95, l’intervallo dell’ipotesi nulla per questo esperimento è il seguente: [0,24, 0,76]. La proporzione effettivamente osservata di 0,7 è ancora all’interno di questo intervallo. Pertanto, l’ipotesi nulla di una moneta equa non può essere respinta al dato livello di confidenza.

La dimensione del campione è relativamente piccola ed è consigliabile utilizzare il t-test degli studenti. Un t-test correggerebbe lo score z critico standard z(0.95) = 1.96 a 2.26, determinando quindi un intervallo di confidenza ancora più ampio.

D’altra parte, se osserviamo settanta volte su cento il lancio di una moneta con esito testa, otterremmo l’intervallo di confidenza seguente, assumendo vera l’ipotesi nulla: [0.41, 0.59]. In questo caso, la proporzione osservata effettiva di 0.7 non è contenuta nell’intervallo di confidenza. Pertanto, l’ipotesi nulla dovrebbe essere respinta e possiamo concludere, al livello di confidenza dato, che la moneta è sbilanciata.

Possiamo anche verificare se le medie di due popolazioni sono uguali, basandoci su un campione di ciascuna. Il test Z a due lati e a due campioni Z-test implica il rifiuto dell’ipotesi nulla di medie uguali se viene soddisfatta la seguente condizione:

Trarre conclusioni dai dati: problemi dell’inferenza statistica

Eseguire test statistici e calcolare intervalli di confidenza non sostituisce un adeguato ragionamento statistico: effetti statisticamente significativi potrebbero comunque avere scarsa rilevanza pratica o potrebbero rappresentare una relazione accidentale.

Rilevanza statistica vs. pratica: dimensione dell’effetto

Specialmente per campioni molto grandi, può essere abbastanza comune rilevare differenze statisticamente significative nella media o in altri tipi di effetti considerati significativi secondo i test statistici. Tuttavia, tali effetti potrebbero essere di piccola entità.

Ad esempio: il dataset del CDC permette di confrontare diversi stati degli Stati Uniti. Possiamo confrontare l’altezza media dei partecipanti maschi nel Rhode Island con quella di New York. Applicando il test Z, otteniamo un valore di test di 0.33 cm a un livello di confidenza del 95%. Questo valore è inferiore alla differenza osservata di 0.44 cm. Quindi, la differenza è statisticamente significativa. Tuttavia, è molto piccola in termini di entità e quindi ci si può aspettare che abbia scarsa rilevanza pratica.

In molti casi, la dimensione dell’effetto può essere valutata specificando l’effetto in unità naturali. Nell’esempio precedente, abbiamo scelto le unità metriche di lunghezza. Un’altra possibilità è specificarla in unità corrispondenti a una molteplicità della deviazione standard. Il d di Cohen è una misura della rilevanza pratica di un effetto statistico. È definito come la differenza delle medie diviso la varianza combinata [Cohen 1988, p.67]:

La differenza di 0.44 cm osservata nell’esempio precedente corrisponde a un valore di 0.05 per il d di Cohen. Quando confrontiamo l’altezza media dei partecipanti a Porto Rico con quella di New York, otteniamo un valore di 0.50 per il d di Cohen, corrispondente a una differenza in unità metriche di 4.1 cm.

Le regole empiriche per interpretare i valori del d di Cohen sono riportate nella seguente tabella [Sawiloswky 2009]:

Tabella 2: Dimensione dell'effetto secondo il d di Cohen. Immagine dell'autore.

Inferenza statistica vs. spiegazione causale: il paradosso di Simpson

Certamente, uno dei più frequenti ostacoli citati nell’inferenza statistica è il mantra, “la correlazione non implica la causalità”. Questo concetto è spesso illustrato utilizzando esempi di correlazioni che sono palesemente spurie e talvolta comiche, come attribuire una carenza di pirati al riscaldamento globale.

Tuttavia, nelle applicazioni pratiche, spesso non è ovvio se un’associazione statistica sia in realtà spuria o indicativa di una relazione causale. Una fonte di correlazione spuria che non è immediatamente discernibile è la presenza di variabili di confondimento sconosciute. Infatti, l’esistenza di un confonditore sconosciuto può portare alla inversione di una correlazione quando si esaminano specifiche sottopopolazioni, un fenomeno noto come il paradosso di Simpson.

Il paradosso di Simpson può essere illustrato dal seguente esempio (cf. [Blyth 1972], [Bickel et al. 1975] e [Freedman et al. 2007, Cap. 2, Sez. 4]): Nei sei dipartimenti più grandi di un’università, p_x = il 30% delle 1835 candidate femminili viene ammesso, rispetto al p_y = 45% dei 2691 candidati maschi. Possiamo utilizzare il test Z per concludere che questa differenza nella percentuale di ammissione è significativa con un livello di confidenza del 99%.

Ecco i numeri suddivisi per dipartimento universitario:

Tabella 3: Tassi di ammissione universitari per dipartimento. Immagine dall'autore.

Per ogni dipartimento, possiamo calcolare il punteggio del test a due code e confrontarlo con il valore assoluto della differenza osservata nel tasso di ammissione, | p_y – p_x |. Dai dati disponibili, possiamo anche calcolare il tasso di ammissione p per ciascun dipartimento, indipendentemente dal genere:

Tabella 4: Analisi dei tassi di ammissione universitari. Immagine dall'autore.

Solo il dipartimento A presenta una differenza significativa nei tassi di ammissione. Contrariamente al confronto tra tutti i dipartimenti, è a favore delle candidate femminili. I dipartimenti A e B sono i dipartimenti in cui i candidati hanno maggiori probabilità di essere ammessi, di gran lunga. Il 51% dei candidati maschi sceglie questi dipartimenti per applicare, ma solo il 7% di tutte le candidate femminili lo fa. Pertanto, i dati sono coerenti con l’ipotesi che le candidate femminili abbiano maggiori probabilità di applicare per studi più competitivi, il che implica che abbiano maggiori probabilità di essere respinte.

Conclusione

La legge dei grandi numeri fornisce una solida base per il processo di stima statistica, e la sua validità è rigorosamente supportata dal teorema del limite centrale. Le stime statistiche diventano sempre più accurate man mano che vengono considerati più dati e, in molti casi, possiamo calcolare metriche che quantificano sia l’accuratezza che la nostra fiducia nei risultati.

Tuttavia, è importante sottolineare che adottare un approccio “taci e calcola” è insufficiente per una corretta ragionamento statistico ed una data science efficace. In primo luogo, anche quando gli errori casuali sono minimizzati, i risultati statistici possono essere comunque influenzati da una varietà di errori sistematici. Questi possono derivare da fattori come il bias di risposta, il malfunzionamento dell’attrezzatura di misurazione o un disegno di studio difettoso che introduce un bias di campionamento. Di conseguenza, un’attenta analisi delle potenziali fonti di bias è fondamentale per una affidabile analisi statistica.

In secondo luogo, nell’interpretare i risultati, è fondamentale riconoscere che la significatività statistica e la correlazione da sole non sono sufficienti per valutare l’importanza pratica o le ragioni sottostanti degli effetti osservati. Le scoperte statistiche devono essere contestualizzate per accertare la loro importanza nel mondo reale e per fornire spiegazioni dei fenomeni osservati.

Riferimenti

[Plaue 2023] Matthias Plaue. “Data Science – Introduzione alle Statistiche e all’Apprendimento Automatico”. Springer Berlin, Heidelberg. 2023.

[CDC 2018] Centri per il Controllo e la Prevenzione delle Malattie (CDC). Dati dell’Indagine sul Sistema di Sorveglianza dei Fattori di Rischio Comportamentali. Atlanta, Georgia: Dipartimento della Salute e dei Servizi Umani degli Stati Uniti, Centri per il Controllo e la Prevenzione delle Malattie. 2018.

I dati del CDC sono di dominio pubblico e possono essere riprodotti senza autorizzazione.

[Durrett 2019] Rick Durrett. Probabilità: Teoria ed Esempi. 5a ed. Cambridge University Press, maggio 2019.

[Cohen 1988] Jacob Cohen. Analisi del potere statistico per le scienze comportamentali. 2a ed. New Jersey, USA: Lawrence Earlbaum Associates, 1988.

[Sawilowsky 2009] Shlomo S. Sawilowsky. “Nuove regole di grandezza dell’effetto”. In: Journal of Modern Applied Statistical Methods 8.2 (novembre 2009), pp. 597-599.

[Blyth 1972] Colin R. Blyth. “Su Paradosso di Simpson e il principio della certezza”. In: Journal of the American Statistical Association 67.338 (giugno 1972), pp. 364-366.

[Bickel et al. 1975] P. J. Bickel, E. A. Hammel e J. W. O’Connell. “Preferenza di genere nelle ammissioni ai corsi di laurea: Dati da Berkeley”. In: Science 187.4175 (febbraio 1975), pp. 398-404.

[Freedman et al. 2007] David Freedman, Robert Pisani e Roger Purves. Statistica. 4a ed. W. W. Norton & Company, febbraio 2007.