La natura controintuitiva delle relazioni probabilistiche

La natura controintuitiva delle relazioni probabilistiche' could be condensed as 'La natura controintuitiva delle relazioni prob.

Se y può essere stimato come una funzione lineare di x non implica che x possa essere stimato come una funzione lineare di y

Un esempio di relazioni probabilistiche (stesso stile di visualizzazione come nella Figura 1A-B) - Immagine dell'autore

Considera due variabili reali x e y, ad esempio, l’altezza di un padre e l’altezza di suo figlio. Il problema centrale delle analisi di regressione in statistica è indovinare y conoscendo x, ad esempio, indovinare l’altezza del figlio basandosi sull’altezza del padre¹.

L’idea nella regressione lineare è utilizzare una funzione lineare di x come indovinello per y. Formalmente, ciò significa considerare ŷ(x) = α₁x + α₀ come nostro indovinello e trovare α₀ e α₁ minimizzando l’errore quadratico medio tra y e ŷ. Ora, supponiamo di utilizzare un enorme dataset e trovare i valori migliori possibili per α₀ e α₁, in modo da sapere come trovare la migliore stima di y basata su x. Come possiamo utilizzare questi migliori valori per α₀ e α₁ per trovare un indovinello x̂(y) su x basato su y? Ad esempio, se sapessimo sempre il miglior indovinello sull’altezza del figlio basato sull’altezza del padre, qual sarebbe il nostro indovinello sull’altezza del padre basato sull’altezza del figlio?

Queste domande sono casi speciali di “Come possiamo utilizzare ŷ(x) per trovare x̂(y)?” Anche se può sembrare banale, questa domanda sembra essere molto difficile da affrontare. In questo articolo, studio il collegamento tra ŷ(x) e x̂(y) sia in contesti deterministici che probabilistici e mostro che la nostra intuizione su come ŷ(x) e x̂(y) si relazionano in contesti deterministici non può essere generalizzata a contesti probabilistici.

La formulazione formale del problema

Impostazioni deterministe

Con impostazioni deterministiche, intendo situazioni in cui (i) non c’è casualità e (ii) ogni valore di x corrisponde sempre allo stesso valore di y. Formalmente, in queste impostazioni, scrivo y = f(x) per qualche funzione f: R → R. In tali casi in cui x determina y con completa certezza (ossia senza casualità o rumore), la scelta migliore di ŷ(x) è f(x) stesso. Ad esempio, se l’altezza di un figlio è sempre 1,05 volte l’altezza di suo padre (ignorando per ora l’impossibilità dell’esempio!), il nostro miglior indovinello sull’altezza del figlio è moltiplicare l’altezza del padre per 1,05.

Se f è una funzione invertibile, allora la scelta migliore di x̂(y) è uguale all’inverso di f. Nell’esempio sopra, ciò significa che il miglior indovinello sull’altezza di un padre è sempre l’altezza di suo figlio divisa per 1,05. Pertanto, il collegamento tra ŷ(x) e x̂(y) nei casi deterministici è diretto e può essere ridotto a trovare la funzione f e la sua inversa.

Impostazioni probabilistiche

In impostazioni probabilistiche, x e y sono campioni di variabili casuali X e Y. In tali casi in cui un singolo valore di x può corrispondere a diversi valori di y, la scelta migliore per ŷ(x) (al fine di ridurre l’errore quadratico medio) è l’aspettazione condizionale E[Y|X=x] – vedi nota a piè di pagina². In parole più semplici, ciò significa che se addestri una rete neurale molto espressiva per prevedere y dato x (con un dataset sufficientemente grande), la tua rete convergerà a E[Y|X=x].

Analogamente, la scelta migliore per x̂(y) è E[X|Y=y] – se addestri la tua rete molto espressiva per prevedere x dato y, essa convergerà, in linea di principio, a E[X|Y=y]. Pertanto, la domanda su come ŷ(x) si relazioni a x̂(y) in impostazioni probabilistiche può essere riformulata come la relazione tra le aspettazioni condizionali E[Y|X=x] ed E[X|Y=y].

L’obiettivo di questo articolo

Per semplificare il problema, mi concentro sulle relazioni lineari, cioè casi in cui ŷ(x) è lineare in x. Una relazione deterministica lineare ha un inverso lineare, il che significa che y = αx (per qualche α≠0) implica che x = βy con β = 1/α — vedere la nota a piè di pagina³. La relazione lineare probabilistica analoga alla relazione deterministica y = αx è

Equazione 1

dove Z è una variabile casuale aggiuntiva, spesso chiamata “rumore” o “termine di errore”, il cui valore medio condizionale si assume sia zero, cioè E[Z|X=x] = 0 per tutti i valori di x; notare che non sempre assumiamo che Z sia indipendente da X. Utilizzando Equazione 1, l’aspettativa condizionale di Y dato X=x è (vedere nota a piè di pagina⁴)

Equazione 2

Equazione 2 afferma che l’aspettativa condizionale ŷ(x) è lineare in x, quindi può essere considerata come il gemello probabilistico della relazione deterministica lineare y = αx.

Nel resto di questo articolo, mi pongo due domande:

  1. La Equazione 2 implica che x̂(y) := E[X|Y=y] = βy per qualche β≠0? In altre parole, la relazione lineare in Equazione 2 ha un inverso lineare?
  2. Se è davvero il caso che x̂(y) = βy, possiamo scrivere β = 1/α come nel caso deterministico?

Utilizzo due controesempi e mostro che, per quanto controintuitivo possa sembrare, la risposta a entrambe le domande è negativa!

Esempio 1: Quando β non è l’inverso di α

Come primo esempio, consideriamo la configurazione più tipica dei problemi di regressione lineare, riassunta nelle seguenti tre ipotesi (oltre a Equazione 1; vedere Figura 1A per la visualizzazione):

  1. Il termine di errore Z è indipendente da X.
  2. X ha una distribuzione gaussiana con media zero e varianza 1.
  3. Z ha una distribuzione gaussiana con media zero e varianza σ².
Figura 1. Visualizzazione dell'esempio 1 e dell'esempio 2. I pannelli A e B visualizzano la distribuzione condizionale di Y dato X per l'esempio 1 (A; α = 0.5 con σ² fissato a 3/4) e l'esempio 2 (B; α = 0.5 con σ² dipendente da x). Dato un valore x per la variabile casuale X, la variabile casuale Y segue una distribuzione gaussiana in entrambi gli esempi: Le linee nere mostrano l'aspettativa condizionale E[Y|X=x], e le aree ombreggiate mostrano la deviazione standard delle distribuzioni gaussiane. I punti mostrano 500 campioni della distribuzione congiunta di (X, Y). Il pannello C mostra la distribuzione marginale di Y (con X che ha una distribuzione normale standard) per l'esempio 1 (blu) e l'esempio 2 (rosso): La distribuzione marginale di Y nell'esempio 1 è gaussiana con media zero e varianza α² + σ², ma possiamo valutare numericamente solo la distribuzione marginale di Y nell'esempio 2.

È facile dimostrare, dopo alcune linee di algebra, che queste ipotesi implicano che Y ha una distribuzione gaussiana con media zero e varianza α² + σ². Inoltre, le ipotesi implicano che X e Y sono congiuntamente gaussiane con media zero e matrice di covarianza uguale a

Dato che abbiamo la distribuzione congiunta completa di X e Y, possiamo derivare le loro aspettative condizionate (vedi nota a piè di pagina⁵):

Di conseguenza, dati gli assunti del nostro primo esempio, Equazione 2 ha un inverso lineare della forma x̂(y) = βy, ma β non è uguale al suo gemello deterministico 1/α — a meno che non abbiamo σ = 0 che è equivalente al caso deterministico!

Questo risultato mostra che le nostre intuizioni sulle relazioni lineari deterministiche non possono essere generalizzate alle relazioni lineari probabilistiche. Per vedere più chiaramente la vera follia di ciò che questo risultato implica, consideriamo prima α = 0.5 in un contesto deterministico (σ = 0; curve blu in Figura 2A e 2B):

Questo significa che, dato un valore di x, il valore di y è la metà di x, e, dato un valore di y, il valore di x è il doppio di y, il che sembra intuitivo. Importante, abbiamo sempre x < y. Ora, consideriamo di nuovo α = 0.5 ma questa volta con σ² = 3/4 (curve rosse in Figura 2A e 2B). Questa scelta di varianza del rumore implica che β = α = 0.5, risultando in

Questo significa che, dato un valore di x, la nostra stima di y è la metà di x, e, dato un valore di y, la nostra stima di x è anche la metà di y! Stranamente, abbiamo sempre x̂(y) < y e ŷ(x) < x — cosa che sarebbe impossibile se le variabili fossero deterministiche. Quello che appare controintuitivo è che Equazione 1 può essere riscritta come

Equazione 3

Tuttavia, questo può implicare solo che (a differenza di Equazione 2)

Equazione 4

Il trucco è che, mentre abbiamo E[Z|X=x]=0 per design, non possiamo dire nulla su E[Z|Y=y] e la sua dipendenza da y! In altre parole, ciò che rende x̂(y) diverso da y/α è che l’osservazione y ha anche informazioni sull’errore Z, ad esempio, se osserviamo un valore molto grande di y, significa che, con alta probabilità, l’errore Z ha anche un valore elevato, che dovrebbe essere preso in considerazione quando si stima X.

Figura 2. Relazioni lineari e i loro inversi negli esempi 1 e 2. Il pannello A mostra la relazione lineare tra ŷ(x) e x nelle impostazioni probabilistiche degli esempi 1 e 2 (rosso; α = 0.5) e la relazione deterministica equivalente tra y e x (blu); si noti che ŷ(x) come funzione di x è la stessa in entrambi gli esempi. I pannelli B e C mostrano le relazioni inverse tra x̂(y) e y nelle impostazioni probabilistiche dell'esempio 1 (rosso in B; σ² fissa = 3/4) e dell'esempio 2 (rosso in C; σ² dipendente da x). La linea blu mostra l'inverso della relazione deterministica equivalente per il confronto. In tutti i pannelli, il tratteggio nero mostra la linea y=x.

Questa è la semplice spiegazione per affermazioni apparentemente contraddittorie come ‘padri alti hanno figli che sono (in media) alti ma non alti quanto loro, e, allo stesso tempo, figli alti hanno padri che sono (in media) alti ma non alti quanto i loro figli’!

Per concludere, il nostro esempio 1 mostra che anche se la relazione lineare probabilistica ŷ(x) = αx ha un’inversa lineare della forma x̂(y) = βy, la pendenza β non è necessariamente uguale al suo gemello deterministico 1/α.

Esempio 2: Quando x̂(y) è non lineare

Avere un’inversa della forma x̂(y) = βy è possibile solo se E[Z|Y=y] in Equazione 4 è anche una funzione lineare di y. Nel secondo esempio, faccio una piccola modifica all’esempio 1 per rompere questa condizione!

In particolare, assumo che la varianza del termine di errore Z dipenda dalla variabile casuale X – a differenza dell’assunzione 1 nell’esempio 1. Formalmente, assumo (oltre a Equazione 1; vedi Figura 1B per visualizzazione):

  1. X ha una distribuzione gaussiana con media zero e varianza 1 (stessa assunzione 2 nell’esempio 1).
  2. Dato X=x, l’errore Z ha una distribuzione gaussiana con media zero e varianza σ² = 0.01 + 1/(1 + 2x²).

Queste assunzioni significano effettivamente che, dato X=x, la variabile casuale Y ha una distribuzione gaussiana con media αx e varianza 0.01 + 1/(1 + 2x²) (vedi Figura 1B). A differenza dell’esempio 1 in cui la distribuzione congiunta di X e Y era una distribuzione gaussiana, la distribuzione congiunta di X e Y nell’esempio 2 non ha una forma elegante (vedi Figura 1C). Tuttavia, possiamo ancora utilizzare la regola di Bayes e trovare la densità condizionale relativamente brutta di X=x dato Y=y (vedi Figura 3 per alcuni esempi valutati numericamente):

Equazione 5

dove curly N indica la densità di probabilità della distribuzione gaussiana.

<img alt="Figura 3. Distribuzione condizionale di X dato Y=y nell'esempio 2. Distribuzione prior p(x) (curve blu), verosimiglianza p(y|x) (curve arancioni) e distribuzione posteriore p(x|y) (curve nere; valutate numericamente utilizzando Equazione 5) per y = 0.5, 1.5 e 2, da sinistra a destra (assumendo α = 0.5 in tutti i casi).” src=”https://miro.medium.com/v2/resize:fit:640/format:webp/1*12GW0Dt4oQCiCpkGq72DaA.png”/>

Possiamo quindi utilizzare metodi numerici e valutare l’aspettativa condizionale

Equazione 6

per un dato y e α. Figura 2C mostra x̂(y) come funzione di y per α = 0.5. Per quanto controintuitivo possa sembrare, la relazione inversa è altamente non lineare – a causa della varianza dell’errore dipendente da x mostrata in Figura 1B. Ciò dimostra che il fatto che y possa essere stimato bene come funzione lineare di x non implica che x possa essere stimato bene anche come funzione lineare di y. Questo perché E[Z|Y=y] in Equazione 4 può avere una strana dipendenza funzionale da y quando andiamo oltre le assunzioni standard simili a quelle nell’esempio 1.

Per concludere, il nostro esempio 2 mostra che la relazione lineare probabilistica ŷ(x) = αx non necessariamente ha un’inversa lineare della forma x̂(y) = βy. È importante sottolineare che la relazione inversa tra x̂(y) e y dipende dalle caratteristiche del termine di errore Z.

Conclusioni

Durante il nostro percorso di formazione, la maggior parte di noi ha sviluppato un’intuizione arricchita sulle relazioni deterministiche, basata sui risultati interessanti che abbiamo visto in calcolo, analisi, ecc. Tuttavia, è fondamentale essere consapevoli dei limiti di questa intuizione e non fidarsi di essa quando si tratta di relazioni probabilistiche. In particolare, gli esempi 1 e 2 mostrano che anche relazioni probabilistiche estremamente semplici possono comportarsi in modo contrario alla nostra intuizione.

Ringraziamenti

Sono grato a Johanni Brea, Mohammad Tinati, Martin Barry, Guillaume Bellec, Flavio Martinelli e Ariane Delrocq per le utili discussioni e i preziosi feedback sul contenuto di questo articolo.

Codice:

Tutto il codice (in linguaggio Julia) per le analisi può essere trovato qui.

Note a piè di pagina:

¹ I lettori interessati possono consultare “Come l’altezza del padre influenza l’altezza del figlio” su Towards Data Science per un trattamento accessibile di questo problema.

² Vedere la pagina “Errore quadratico medio minimo” su Wikipedia per ulteriori dettagli.

³ Senza perdita di generalità, assumiamo sempre che sia x che y abbiano una media zero. Pertanto, nell’esempio delle altezze dei padri e dei loro figli, x e y indicano la differenza tra le loro altezze e le altezze medie dei padri e dei figli, rispettivamente.

⁴ La relazione tra Equazioni 1 e 2 è reversibile, ovvero se Equazione 2 è l’unico vincolo su X e Y, allora possiamo sempre scrivere Y come in Equazione 1 con una variabile casuale Z che soddisfa E[Z|X=x] = 0.

⁵ Consultare la sezione ‘Aspettativa condizionale bivariata’ nella pagina ‘Distribuzione normale multivariata’ su Wikipedia.