Apprendimento automatico probabilistico con abbinamento dei quantili un esempio con Python

Apprendimento automatico probabilistico con Python

Una tecnica poco conosciuta per trasformare le previsioni di regressione quantile in una distribuzione di probabilità.

“Quantile Matching”, di Giulia Roggia. Utilizzato con il permesso dell'autore.
  • Regressione quantile
  • Corrispondenza di quantili
  • Esempio in Python: previsione della progressione del diabete
  • Conclusioni

Quando addestriamo modelli regressivi, otteniamo previsioni puntuali. Tuttavia, nella pratica spesso siamo interessati a stimare l’incertezza associata ad ogni previsione. Per raggiungere questo obiettivo, assumiamo che il valore che stiamo cercando di prevedere sia una variabile casuale e l’obiettivo è stimarne la distribuzione.

Esistono molti metodi disponibili per stimare l’incertezza dalle previsioni, come la stima della varianza, i metodi bayesiani, le previsioni conformi, ecc. La regressione quantile è uno di questi metodi ben noti.

Regressione quantile

La regressione quantile consiste nel stimare un modello per ciascun quantile di interesse. Questo può essere ottenuto mediante l’uso di una funzione di perdita asimmetrica, nota come perdita a forma di spillo. La regressione quantile è semplice, facile da capire e prontamente disponibile in librerie ad alte prestazioni come LightGBM. Tuttavia, la regressione quantile presenta alcuni problemi:

  • Non c’è alcuna garanzia che l’ordine dei quantili sia corretto. Ad esempio, la previsione per il quantile del 50% potrebbe essere maggiore rispetto a quella ottenuta per il quantile del 60%, il che è assurdo.
  • Per ottenere una stima dell’intera distribuzione, è necessario addestrare molti modelli. Ad esempio, se hai bisogno di una stima per ciascun quantile percentuale, devi addestrare 99 modelli.

Ecco come la corrispondenza di quantili può aiutare.

Corrispondenza di quantili

Lo scopo della corrispondenza di quantili è adattare una funzione di distribuzione data un campione di stime dei quantili. Possiamo considerare questo come un problema di regressione, quindi la curva non deve adattarsi perfettamente ai quantili. Invece, dovrebbe essere “il più vicina possibile”, mantenendo le proprietà che la rendono una funzione di distribuzione.

In particolare, siamo interessati a stimare la funzione di distribuzione cumulativa inversa: data una…