Torna alle basi regressione probit

Torna alle radici regressione probit

Un metodo cruciale nell’analisi dei risultati binari

Immagine di Issac Smith su Unsplash

Ogni volta che ci troviamo di fronte a un compito relativo all’analisi dei risultati binari, spesso pensiamo alla regressione logistica come metodo di riferimento. Ecco perché la maggior parte degli articoli sulla regressione dei risultati binari si concentra esclusivamente sulla regressione logistica. Tuttavia, la regressione logistica non è l’unica opzione disponibile. Ci sono altri metodi, come il Modello di Probabilità Lineare (LPM), la regressione Probit e la regressione Log-Log Complementare (Cloglog). Purtroppo, c’è una mancanza di articoli su questi argomenti disponibili su Internet.

Il Modello di Probabilità Lineare viene raramente utilizzato perché non è molto efficace nel catturare la relazione curvilinea tra un risultato binario e le variabili indipendenti. Ho discusso precedentemente della regressione Cloglog in uno dei miei articoli precedenti. Sebbene esistano alcuni articoli sulla regressione Probit disponibili su Internet, tendono ad essere tecnici e difficili da comprendere per i lettori non tecnici. In questo articolo, spiegheremo i principi di base della regressione Probit, le sue applicazioni e la compareremo con la regressione logistica.

Sfondo

Ecco come tipicamente si presenta una relazione tra una variabile di risultato binario e una variabile indipendente:

Immagine dell'autore

La curva che si vede viene chiamata curva a forma di S o curva sigmoide. Se osserviamo attentamente questo grafico, noteremo che assomiglia a una funzione di distribuzione cumulativa (CDF) di una variabile casuale. Pertanto, ha senso utilizzare la CDF per modellare la relazione tra una variabile di risultato binario e le variabili indipendenti. Le due CDF più comunemente utilizzate sono quelle logistiche e quelle normali. La regressione logistica utilizza la CDF logistica, data dall’equazione seguente:

Immagine dell'autore

Nella regressione Probit, utilizziamo la funzione di distribuzione cumulativa (CDF) della distribuzione normale. Ragionevolmente, possiamo semplicemente sostituire la CDF logistica con la CDF della distribuzione normale per ottenere l’equazione della regressione Probit:

Immagine dell'autore

Dove Φ() rappresenta la funzione di distribuzione cumulativa della distribuzione normale standard.

Possiamo memorizzare questa equazione, ma non chiarirà il nostro concetto relativo alla regressione Probit. Pertanto, adotteremo un approccio diverso per avere una migliore comprensione di come funziona la regressione Probit.

Il concetto di base dietro la regressione Probit

Supponiamo di avere dati sul peso e lo stato depressivo di un campione di 1000 individui. Il nostro obiettivo è esaminare la relazione tra il peso e la depressione utilizzando la regressione Probit. (Scarica i dati da questo link.)

Per fornire un’idea intuitiva, immaginiamo che se un individuo (l’individuo “i-esimo”) soffrirà di depressione o meno, dipenda da una variabile latente non osservabile, indicata come Ai. Questa variabile latente è influenzata da una o più variabili indipendenti. Nel nostro scenario, il peso di un individuo determina il valore della variabile latente. La probabilità di sperimentare la depressione aumenta con l’aumento della variabile latente.

Immagine dell'autore

La domanda è, dato che Ai è una variabile latente non osservata, come stimiamo i parametri dell’equazione sopra? Bene, se assumiamo che sia distribuita in modo normale con la stessa media e varianza, saremo in grado di ottenere alcune informazioni sulla variabile latente e stimare i parametri del modello. Spiegherò le equazioni in modo più dettagliato in seguito, ma prima facciamo alcuni calcoli pratici.

Tornando ai nostri dati: Nei nostri dati, calcoliamo la probabilità di depressione per ogni età e la tabelliamo. Ad esempio, ci sono 7 persone con un peso di 40 kg, e 1 di esse ha la depressione, quindi la probabilità di depressione per il peso 40 è 1/7 = 0,14286. Se facciamo questo per tutti i pesi, otterremo questa tabella:

Immagine dell'autore

Ora, come otteniamo i valori della variabile latente? Sappiamo che la distribuzione normale dà la probabilità di Y per un determinato valore di X. Tuttavia, la funzione di distribuzione cumulativa inversa (CDF) della distribuzione normale ci consente di ottenere il valore di X per un dato valore di probabilità. In questo caso, abbiamo già i valori di probabilità, il che significa che possiamo determinare il corrispondente valore della variabile latente utilizzando la CDF inversa della distribuzione normale. [Nota: la funzione CDF normale inversa è disponibile in quasi tutti i software statistici, incluso Excel.]

Immagine dell'autore

Questa variabile latente non osservata Ai è conosciuta come deviata equivalente normale (n.e.d.) o semplicemente normit. Guardando da vicino, non è altro che i punteggi Z associati alla variabile latente non osservata. Una volta stimato Ai, stimare β1 e β2 è relativamente semplice. Possiamo eseguire una semplice regressione lineare tra Ai e la nostra variabile indipendente.

Immagine dell'autore

Il coefficiente del peso 0,0256 ci fornisce il cambiamento nel punteggio Z della variabile di output (depressione) associato a una variazione unitaria del peso. In particolare, un aumento di una unità nel peso è associato a un aumento di circa 0,0256 unità di punteggio Z nella probabilità di avere una forte depressione. Possiamo calcolare la probabilità di depressione per qualsiasi età utilizzando la distribuzione normale standard. Ad esempio, per il peso 70,

Ai = -1,61279 + (0,02565)*70

Ai = 0,1828

La probabilità associata a un punteggio Z di 0,1828 (P(x<Z)) è 0,57; cioè la probabilità prevista di depressione per il peso 70 è 0,57.

È abbastanza ragionevole dire che la spiegazione sopra è stata una semplificazione eccessiva di un metodo moderatamente complesso. È anche importante notare che è solo un’illustrazione del principio di base dell’uso della distribuzione normale cumulativa nella regressione Probit. Ora, diamo un’occhiata alle equazioni matematiche.

Struttura Matematica

Abbiamo discusso in precedenza che esiste una variabile latente, Ai, che è determinata dalle variabili predittive. Sarebbe molto logico considerare che esista un valore critico o di soglia (Ai_c) della variabile latente tale che se Ai supera Ai_c, l’individuo avrà la depressione; altrimenti, non la avrà. Data l’assunzione di normalità, la probabilità che Ai sia minore o uguale a Ai_c può essere calcolata dalla funzione di distribuzione cumulativa normale standardizzata:

Immagine dell'autore

Dove Zi è la variabile normale standard, cioè Z ∼ N(0, σ 2) e F è la CDF normale standard.

Le informazioni relative alla variabile latente e β1 e β2 possono essere ottenute invertendo l’equazione sopra:

Immagine dell'autore

La funzione inversa CDF della distribuzione normale standardizzata viene utilizzata quando vogliamo ottenere il valore di Z per un dato valore di probabilità.

Ora, il processo di stima di β1, β2 e Ai dipende dal fatto che abbiamo dati raggruppati o dati non raggruppati a livello individuale.

Quando abbiamo dati raggruppati, è facile calcolare le probabilità. Nel nostro esempio sulla depressione, i dati iniziali non sono raggruppati, cioè c’è un peso per ciascun individuo e il suo stato di depressione (1 e 0). Inizialmente, la dimensione campionaria totale era 1000, ma abbiamo raggruppato quei dati per peso, ottenendo 71 gruppi e calcolando la probabilità di depressione in ciascun gruppo di peso.

Tuttavia, quando i dati non sono raggruppati, viene utilizzato il metodo della massima verosimiglianza (MLE) per stimare i parametri del modello. La figura qui sotto mostra la regressione Probit sui nostri dati non raggruppati (n = 1000):

Immagine dell'autore

Si può osservare che il coefficiente del peso è molto vicino a quello stimato con i dati raggruppati.

Probit vs Logit

Ora che abbiamo compreso il concetto di regressione Probit e siamo familiari (speriamo) con la regressione logistica, sorge la domanda: quale modello è preferibile? Quale modello funziona meglio in diverse condizioni? Beh, entrambi i modelli sono abbastanza simili nell’applicazione e producono risultati comparabili (in termini di probabilità previste). L’unica piccola differenza risiede nella loro sensibilità ai valori estremi. Diamo un’occhiata più da vicino a entrambi i modelli:

Immagine dell'autore

Dal grafico possiamo osservare che i modelli Probit e Logit sono molto simili. Tuttavia, il Probit è meno sensibile ai valori estremi rispetto al Logit. Ciò significa che nei valori estremi, il cambiamento nella probabilità del risultato rispetto al cambio unitario della variabile predittiva è maggiore nel modello logit rispetto al modello probit. Quindi, se vuoi che il tuo modello sia sensibile ai valori estremi, potresti preferire usare la regressione logistica. Tuttavia, questa scelta non influirà significativamente sulle stime, poiché entrambi i modelli producono risultati simili in termini di probabilità previste. È importante notare che i coefficienti ottenuti da entrambi i modelli rappresentano quantità diverse e non possono essere confrontati direttamente. La regressione logit fornisce le variazioni nei logaritmi delle probabilità dell’esito con le variazioni nella variabile predittiva, mentre la regressione probit fornisce le variazioni nello z-score dell’esito. Tuttavia, se calcoliamo le probabilità previste dell’esito utilizzando entrambi i modelli, i risultati saranno molto simili.

Nella pratica, la regressione logistica è preferita rispetto alla regressione Probit a causa della sua semplicità matematica e dell’interpretazione facile dei coefficienti.