Il Problema delle Due Buste

Problema Due Buste

La Serie Paradosso #1

Come il tempo e la causalità stanno emergendo dal caso

Il problema delle due buste, che porta a decisioni paradossali e inconsistenti, si presenta quando si utilizza una stima intuitiva ma errata della probabilità bayesiana per determinare il miglior corso di azione. Correggere l’errore matematico è semplice, ma c’è di più: innanzitutto, modificando leggermente il problema, possiamo renderlo indeterminato – un esempio di ambiguità del linguaggio rispetto al formalismo matematico; in secondo luogo, confrontando diverse soluzioni possibili, possiamo osservare come il tempo stia emergendo nel mondo matematico, consentendoci teoricamente di testare ipotesi causali.

Il problema delle due buste (TEP)

Immagina che ti mostri due buste apparentemente identiche su un tavolo, dicendoti (senza mentire) che entrambe contengono del denaro, una il doppio dell’altra, e ti propongo di prendere una di esse e tenere per te il denaro al suo interno.

Immagine generata da Midjourney

Una volta che hai scelto una busta, e prima di aprirla, ti chiedo se vuoi modificare la tua scelta e prendere invece l’altra busta.

Cosa faresti?

Probabilmente mi diresti che sarebbe inutile cambiare buste, poiché la situazione è la stessa qualunque busta tu scelga. Tuttavia, dovresti notare che hai scelto una quantità di denaro sconosciuta x, e la quantità y nell’altra busta può essere 2x o x/2 con uguale probabilità, il che significa che la quantità attesa y è 2x (1/2) + x/2 (1/2) = 5x/4, che è maggiore di x. Quindi forse dovresti comunque cambiare?

Ovviamente potresti anche calcolare la quantità attesa x in base a y, e poiché c’è mezza possibilità che x sia sia 2y che y/2, scopriresti che la quantità attesa x è 5y/4, che è maggiore di y.

Allora cosa c’è di sbagliato in questo calcolo? Quale busta è più probabile che contenga di più rispetto all’altra, se ce n’è una?

Il difetto matematico nel ragionamento

Possiamo arbitrariamente etichettare una busta come “X” e l’altra come “Y”. Ora calcoleremo correttamente l’aspettativa condizionata dell’importo nella busta X quando sappiamo che l’importo y è nella busta Y.

L’aspettativa dell’importo in X dato l’importo osservato y in Y, indicato con E[X|Y = y], dipende ovviamente dall’importo specifico y osservato: anche se su tutti i possibili valori per y, l’importo x in X può essere sia y/2 che 2y con una probabilità di 1/2 ogni volta, non significa che questo sarà il caso per valori specifici di y. Ad esempio, se y è “molto piccolo” (in un senso che verrà chiarito in seguito), c’è più probabilità che x sia più grande di y, e se y è “molto grande”, c’è più probabilità che x sia più piccolo di y: su tutti i possibili valori per y, le probabilità possono essere bilanciate in modo che X sia la metà del tempo mezza Y, e la metà del tempo doppia Y, ma ciò non significa che P(X = y/2|Y = y) = 1/2 e P(X = 2y|Y = y) = 1/2, solo che P(X = Y/2) = P(X = 2Y) = 1/2.

Quindi cercheremo di calcolare correttamente E[X|Y = y], ma prima dobbiamo chiarire il processo che ci ha portato ad avere queste due buste sul tavolo, con le etichette “X” e “Y”. Supponiamo di avere riempito una prima busta con una quantità casuale U e una seconda busta con una quantità 2U. Poi le abbiamo mescolate e abbiamo chiamato casualmente una delle buste X, mentre l’altra Y. Possiamo rappresentare questo processo di denominazione come segue: estraiamo un numero binario Z (metà delle possibilità di essere 0 o 1). Se Z = 0, X è la busta con U al suo interno, altrimenti (se Z = 1) la busta con la quantità 2U.

Ora possiamo vedere che per l’osservatore esterno che viene chiesto di scegliere ma non ha idea dei numeri casuali scelti per U e Z, le somme nelle buste sembrano così:

Possiamo verificare che P(X = 2Y) = P(U + ZU = 4U – 2ZU) = P(3U – 3ZU = 0) = P(U=ZU) = P(Z = 1) = 1/2 (e sarebbe lo stesso per P(X = Y/2)).

Ora possiamo calcolare correttamente E[X|Y = y] = E[3U-Y|Y = y] = E[3U|Y = y] – E[Y|Y = y] = 3E[U|Y = y] — y.

Dobbiamo ancora calcolare E[U|Y = y], e per questo dobbiamo conoscere P(U=u|Y=y) che è (dal teorema di Bayes) proporzionale a P(Y=y|U=u)P(U=u).

Per calcolare P(Y = y|U) ricordiamo che Y è o U o 2U, il che significa che il valore u assunto da U è o y o y/2:

  • quando y non è u o u/2, non c’è possibilità che Y = y: P(Y = y|U = u) = 0
  • quando y è u, c’è mezza possibilità (Z = 1) che Y = y: P(Y = y|U = u) = 1/2
  • quando y è u/2, c’è mezza possibilità (Z = 0) che Y = y: P(Y = y|U = u) = 1/2

Con la formalizzazione matematica:

dove:

Tutto questo si riassume in:

Poi dobbiamo sapere P(U = u). Possiamo fare solo un’assunzione, ad esempio che U sia distribuita esponenzialmente su numeri reali positivi (con parametro λ>0):

Alla fine, P(U = u|Y = y) è proporzionale a:

In altre parole:

Ora abbiamo tutto il necessario per calcolare E[X|Y = y] = 3E[U|Y = y] — y, che è uguale a:

In sintesi, ora sappiamo che:

Questo è molto diverso dall’iniziale 5y/4 !

L’aspettativa per x è (strettamente) maggiore di y se e solo se:

o detto altrimenti se e solo se:

(che è il doppio della mediana della distribuzione esponenziale di parametro λ da cui sono estratte le quantità).

Quindi possiamo capire meglio l’errore nel nostro ragionamento precedente. Sebbene sia vero, per definizione, che X sia metà del tempo il doppio della quantità y e metà del tempo la metà di questa stessa quantità quando si fa la media su tutti i valori possibili di y, è anche vero che per un valore specifico di y le probabilità non sono metà e metà: se y è “grande” rispetto a quanto ci si aspetta dal modo in cui sono stati scelti i valori U, c’è più probabilità che l’envelope X contenga una quantità più piccola, e se y è “piccolo” al contrario ci sono più possibilità che l’envelope X contenga una quantità più grande. Qui la frontiera tra “grande” e “piccolo” è semplicemente il doppio della mediana della distribuzione esponenziale.

La scelta di X o Y è simmetrica, poiché E[Y|X = x] = E[3U — X|X = x] = 3E[U|X=x] – x e da qui tutte le computazioni precedenti si applicano ancora, mutatis mutandis.

Sembra che il paradosso sia risolto, ma affermo che in realtà il problema delle due buste può essere indecidibile, nel senso che non possiamo sapere realmente se il problema è simmetrico o se dovremmo preferire una busta all’altra.

Un problema indecidibile

Supponiamo ora che sulla tavola siano presenti due buste apparentemente identiche, tranne che siano già state etichettate “X” e “Y”. Ci viene ora detto che l’envelope X contiene la metà dell’importo in Y o il doppio di questo importo con mezza possibilità per ciascuna possibilità. Per simmetria, lo stesso vale per l’envelope Y. Ora ti viene chiesto di scegliere una busta: quale dovresti scegliere?

Sulla base dell’esempio precedente, sembra ovvio che possiamo scegliere indifferentemente una o l’altra. Tuttavia, questo è sbagliato! Dipende tutto dalle nostre ipotesi, o detto in altre parole, dipende dalla rappresentazione (statistica) del problema.

Qui, il fatto che le buste siano già etichettate quando ci viene chiesto di sceglierne una è fondamentale. Qual è stato il processo per scegliere gli importi nelle buste e etichettarle? Se sono state etichettate casualmente come nell’esempio precedente, concordo sul fatto che scegliere una o l’altra sia statisticamente equivalente.

Ma immaginiamo che l’importo per X sia scelto da una distribuzione esponenziale su numeri reali positivi (con parametro λ>0) in modo simile a quanto è stato fatto per U nell’esempio precedente. Quindi l’importo per l’envelope Y è semplicemente scelto casualmente come metà o doppio dell’importo in Y (con probabilità uniforme): Y = HX dove H assume i valori 1/2 o 2 con mezza possibilità ogni volta (H è indipendente da X).

Calcoliamo ora la distribuzione cumulativa dei valori per Y: P(Y < y) = P(HX < y) = P(HX < y |H = 1/2) P(H = 1/2) + P(HX < y |H = 2) P(H = 2)

= P(X/2 < y) (1/2) + P(2X < y) (1/2) = (1/2) P(X < 2y) + (1/2) P(X < y/2)

= (1/2) F(2y) + (1/2) F(y/2) dove F è la funzione di distribuzione cumulativa di X (distribuzione esponenziale)

per valori non negativi di y.

Differenziando per ottenere la densità di probabilità per Y = y, otteniamo:

Questo è la media di due funzioni di densità di probabilità di distribuzioni esponenziali, una di parametro λ/2 e l’altra di parametro 2λ, il che significa che il valore medio nell’envelope Y è la media delle medie 2/λ e 1/(2λ):

Questo è più del valore medio di X, la media di una variabile casuale esponenziale di parametro λ che è 1/λ (per coloro interessati solo al calcolo dell’aspettativa, E[Y] = E[HX] = E[H] E[X] poiché H e X sono indipendenti, e quindi E[Y] = [(1/2)(1/2) + 2(1/2)] E[X] = (5/4)E[X]).

La conclusione è che in questo caso, e se ci preoccupiamo solo della media per prendere una decisione, dovremmo scegliere sistematicamente l’envelope Y.

Tuttavia, potremmo anche assumere che invece di avere Y = HX, abbiamo X = HY, la quantità in Y essendo estratta da una distribuzione esponenziale di parametro λ, e in quel caso dovremmo piuttosto scegliere l’envelope X.

Non sappiamo abbastanza sul processo che ha generato le due buste sul tavolo per poter decidere senza ulteriori ipotesi quale busta dovremmo scegliere.

È tutto ciò che c’è da dire? No, la cosa più interessante deve ancora venire. Possiamo vedere da quello che abbiamo fatto finora che i processi fisici per generare la situazione con le buste devono essere modellati con variabili casuali.

Ma nei processi fisici c’è il tempo: ad esempio, scegliamo una quantità per X e poi deduciamo da essa la quantità da mettere in Y, o viceversa; e il modello statistico è in grado di riprodurlo, con conclusioni diverse se la quantità di X viene scelta prima della quantità di Y, o dopo. In altre parole, i nostri modelli statistici sono in grado di riprodurre matematicamente la realtà fisica del tempo.

L’emergere del tempo e della causalità dalla casualità

Si dice spesso che le matematiche possono solo dimostrare la correlazione, non la causalità. In tal senso, l’analisi della causalità in econometria non è altro che un’analisi della correlazione per quanto riguarda le matematiche. È la mente umana che decide che un evento è la conseguenza di un altro basandosi sulla correlazione tra entrambi gli eventi e basandosi sul tempo: l’evento che segue il primo può essere solo la conseguenza, non la causa.

Perché il tempo non è un concetto matematico ma fisico, sembra che le matematiche siano impotenti nel stabilire relazioni causali indipendentemente da qualsiasi input umano su quale fenomeno sia avvenuto per primo (quindi caratterizzato come causa) e quale fenomeno sia avvenuto per secondo (quindi caratterizzato come conseguenza). Ma è davvero così? Il concetto di tempo ha origine dal concetto di irreversibilità: quando un oggetto si sposta da sinistra a destra, non è un cambiamento dovuto al tempo perché l’oggetto può tornare alla sua posizione originale; quando un oggetto invecchia, è un cambiamento dovuto al passaggio del tempo perché il processo è irreversibile. Il tempo è il cambiamento irreversibile negli stati del mondo.

In fisica, l’irreversibilità è vista come conseguenza di un aumento del disordine, formalmente chiamato entropia: è perché le molecole che compongono un oggetto si stanno disordinando sempre di più che l’oggetto non sarà mai in grado di tornare al suo stato iniziale, e quindi i cambiamenti non sono solo visti come avvenuti nel tempo, ma a causa del tempo. Mentre i cambiamenti negli stati sono sufficienti per dire che il tempo passa, l’irreversibilità fisica fa sì che il tempo scorra solo in una direzione, consentendoci di distinguere cause e conseguenze.

Senza entrare troppo nei dettagli, solo lo stato macro di un oggetto invecchiante non è reversibile: a livello microscopico, dal punto di vista della fisica teorica, le molecole e le particelle possono riordinarsi in modo simile a uno stato passato. Pertanto, l’irreversibilità fisica non potrebbe essere semplicemente modellata da una funzione matematica non invertibile, poiché questa caratteristica sarebbe assente. Invece, le variabili casuali sono macroscopicamente non invertibili ma microscopicamente invertibili: ad esempio, se Y = HX, non significa che X = Y/H (irreversibilità da un punto di vista macroscopico), tuttavia, per qualsiasi valore y, h e x assunto da Y, H e X, y = hx e x = y/h (inversione da un punto di vista microscopico). Il paradosso delle due buste è particolarmente confuso perché nella sua formulazione tutto sembra simmetrico (se x è la metà o il doppio di y, implica che y sia il doppio o la metà di x), mentre questo è vero solo a livello “microscopico”.

Ma come il collegamento tra entropia fisica e variabili casuali potrebbe aiutare nello studio della causalità?

Riconsideriamo l’ultimo esempio con due buste pre-etichettate X e Y e supponiamo di sapere che sia Y = HX o X = HY, il che significa che sia Y è la conseguenza di X o viceversa. Possiamo testare ciascuna ipotesi prendendo un gran numero di osservazioni di X e Y, al fine di identificare le densità di probabilità di queste due variabili casuali e una avrà una densità “più entropica” (“più entropica” in base a una specifica relazione matematica da testare) in quanto sarà basata sulla densità dell’altra variabile casuale, ma “disordinata” dalla variabile casuale H (la cui densità si presume sia nota).

Consideriamo ora problemi più comuni. Spesso vengono effettuate regressioni lineari per quantificare una relazione causale tra diverse variabili. Ad esempio, Y = αX, dove assumiamo che Y sia la conseguenza di X, e vogliamo quantificare il coefficiente di causalità α. Tuttavia, ciò non dimostra in alcun modo una relazione causale da X a Y, ma permette solo di quantificare la relazione ipotizzata tra X e Y se l’ipotesi è vera.

In un esempio così semplice in cui si assume che Y sia uguale a αX, non è possibile identificare matematicamente una relazione causale, perché equivale a dire che X = Y/α. Tuttavia, se il coefficiente α viene considerato come un valore storico del processo più generale A, è possibile confrontare le distribuzioni di Y, A e X e vedere quale è più plausibile tra Y = AX o X = Y/A. Un altro esempio sarebbe lo studio di una relazione Z = X + Y (Z è causato da X e Y), da confrontare con altre possibilità come Y = Z – X (Y è causato da X e Z): un confronto delle distribuzioni di X, Y e Z fornirebbe una risposta al problema della causalità.

Anche se tali considerazioni sono molto teoriche e non si dimostrano direttamente utili nella vita reale, dove stimare correttamente le distribuzioni delle variabili casuali potrebbe essere costoso, complicato o impossibile, è possibile immaginare di utilizzare aggregazioni per effettuare un’analisi della causalità. Ad esempio, nel caso in cui dobbiamo scegliere tra Y = HX e X = HY, abbiamo visto che nel primo caso E[Y] > E[X] e nel secondo caso E[X] > E[Y]. In caso di relazioni lineari, potremmo dover testare tra X = Y + Z, Y = X – Z e Z = X – Y, ma le aspettative non sono utili (tranne se prendiamo l’esponenziale, ad esempio exp(X)=exp(Y)exp(Z)), poiché E[X] è uguale a E[Y] + E[Z] in ogni caso, ma la relazione Var(X) = Var(Y) + Var(Z) + 2Cov(Y, Z) sarebbe vera solo nel primo caso.

Tecniche di questo tipo potrebbero fornire utili indicazioni sulle relazioni causali e aiutare a testare ipotesi. Ma ancora più importante, non è bello che il tempo fisico del nostro mondo emerga nel mondo matematico dal concetto di casualità?

Conclusione

Iniziando analizzando un noto “paradosso” statistico, il problema delle due buste, abbiamo riconosciuto che il paradosso è emerso non solo a causa di un difetto matematico nella soluzione ingenua del problema, ma anche a causa di un’ambiguità nel linguaggio umano che ha fatto sembrare due funzioni distinte di variabili casuali (HX e X/H) fossero equivalenti.

Approfondendo ulteriormente, è emerso che le equazioni che coinvolgono variabili casuali, sebbene impossibili da “invertire” nel caso generale (visione macroscopica), sono “invertibili” quando si considerano invece le realizzazioni delle variabili casuali (visione microscopica).

Questo è stato quindi l’occasione per proporre un’analogia tra lo spazio campione Ω delle variabili casuali e lo spazio di fase dei sistemi fisici, portando successivamente a osservare l’emergere dell'”entropia fisica” nel mondo statistico e quindi dell’irreversibilità e del tempo.

Infine, dopo che il tempo è emerso dai nostri oscuri calcoli, siamo stati in grado di trarre conclusioni su modi per testare ipotesi di causalità che vanno oltre le semplici analisi di correlazione. Tutto questo da due buste!