Double Machine Learning Semplificato Parte 1 – Applicazioni di base dell’Inferenza Causale

Double Machine Learning Semplificato Parte 1 - Inferenza Causale

Tutte le immagini dell'autore

Scopri come utilizzare DML nei compiti di inferenza causale

Questo articolo è il primo di una serie di 2 parti sulla semplificazione e democratizzazione del Double Machine Learning. Nella prima parte, affronteremo i fondamenti del Double Machine Learning, insieme a due applicazioni di base nell’inferenza causale. Poi, nella parte 2, estenderemo questa conoscenza per trasformare il nostro problema di inferenza causale in un compito di previsione, in cui prevediamo gli effetti del trattamento a livello individuale per aiutare nella presa di decisioni e nel targeting basato sui dati.

Le distinzioni concettuali e pratiche tra compiti statistici/machine learning (ML) e inferenza causale/econometrica (CI) sono state stabilite da anni: ML cerca di prevedere, mentre CI cerca di inferire un effetto del trattamento o una relazione “causale” tra variabili. Tuttavia, era comune, e lo è ancora in certa misura, che lo scienziato dei dati trasse conclusioni causali dai parametri di un modello di machine learning addestrato o da qualche altra metodologia ML interpretabile. Nonostante ciò, sono stati compiuti notevoli progressi nell’industria e in molte discipline accademiche per spingere verso una maggiore rigore nel formulare affermazioni causali, e ciò ha stimolato un dibattito molto più ampio e aperto sull’IC. In questa direzione, abbiamo visto un lavoro straordinario che ha iniziato a colmare il divario concettuale tra ML e CI, in particolare strumenti nell’IC che sfruttano la potenza delle metodologie ML.

La motivazione principale di questa serie è democratizzare l’uso e le applicazioni del Double Machine Learning (DML), introdotto per la prima volta da Chernozhukov et al. nel loro articolo pionieristico “Double Machine Learning for Treatment and Causal Parameters”, e consentire allo scienziato dei dati di utilizzare DML nei propri compiti quotidiani di inferenza causale.[1] Per fare ciò, andremo a esaminare i fondamenti del DML. In particolare, affronteremo alcuni dei presupposti concettuali/teorici, tra cui il framework di regressione per la causalità e il teorema di Frisch-Waugh-Lovell, e poi utilizzeremo questo framework per sviluppare il DML. Infine, dimostreremo due applicazioni significative del Double Machine Learning:

  1. Convergere verso l’esogenità/CIA/ignorabilità nel nostro trattamento dati non sperimentali/osservazionali, e