Non dimenticare gli intervalli di confidenza per il tuo prodotto di ML

Non dimenticare di considerare gli intervalli di confidenza per il tuo prodotto di ML

Il machine learning non è mai al 100% corretto. Quindi, un modello di ML è utile solo quando gli utenti comprendono l’incertezza delle previsioni.

Quasi ogni giorno scopriamo il lancio di un nuovo prodotto, servizio o dataset di machine learning. È l’era dell’IA eppure, raramente questi prodotti informano su quanto dovrebbe avere fiducia l’utente nei risultati. Tuttavia, come mostra la ricerca, prendere decisioni informate richiede la conoscenza di quando fidarsi dell’IA e quando no. Altrimenti, si arriva alla situazione comune in cui gli utenti devono provare frequentemente il modello per capire quando fidarsi e quando non fidarsi di quel modello e scoprire se il prodotto offerto è utile per loro.

La ragione di questo principio di prova ed errore da parte dell’utente è che ogni modello (indipendentemente dal fatto che sia basato su ML o su statistiche) è costruito sui dati e sulla loro incertezza. I dati sottostanti del modello non rappresentano la verità assoluta di ciò che il modello deve prevedere. Altrimenti, se questa verità assoluta fosse disponibile, non avresti bisogno di un modello. Quindi, il modello risultante fornirà solo una stima e non un valore di verità.

In breve, la correttezza dei modelli di machine learning e statistici è incerta e non sempre si può fidare.

Esempio: Prevedere gli spostamenti tra le contee

Prendiamo un esempio (Figura 1). Immagina un prodotto che fornisce il numero di persone che si spostano da una contea all’altra. Ovviamente, esistono dati (come le dichiarazioni fiscali) che forniscono queste informazioni, ma rappresentano veramente l’intera popolazione degli spostamenti? Ogni studente, immigrato o espatriato cambia la sua dichiarazione fiscale? No, molto probabilmente non è il caso. Quindi, anche un semplice prodotto come fornire informazioni sugli spostamenti è influenzato dai dati sottostanti (ad esempio dichiarazioni fiscali disponibili pubblicamente). È facile immaginare come prodotti più sofisticati possano essere influenzati.

Per il machine learning, questa limitazione diventa ancora peggiore proprio a causa della sua natura probabilistica, dell’input variegato e di ogni input che rappresenta solo una piccola parte della popolazione. Quindi, il modello sottostante sarà influenzato dalla maggior parte dei casi descritti nei dati di allenamento e si discosterà dal…