Perdita di dati cos’è e perché causa il fallimento dei nostri sistemi predittivi

Perdita di dati e il fallimento dei sistemi predittivi

La perdita di dati rappresenta, insieme all’overfitting/sottoutfitting, la causa principale del fallimento dei progetti di machine learning che vanno in produzione

Foto di Grianghraf su Unsplash

La perdita di dati è senza dubbio una minaccia che colpisce gli scienziati dei dati, indipendentemente dal livello di anzianità.

È quel fenomeno che può colpire tutti, anche professionisti con anni di esperienza nel settore.

Insieme all’overfitting/sottoutfitting, rappresenta la causa principale del fallimento dei progetti di machine learning che vanno in produzione.

La perdita di dati si verifica quando le informazioni presenti nell’insieme di addestramento si infiltrano nell’insieme di valutazione (sia nel set di validazione che nel set di test)

Ma perché la perdita di dati fa così tante vittime?

Perché anche dopo molti esperimenti e valutazioni nella fase di sviluppo, i nostri modelli possono fallire spettacolarmente in uno scenario di produzione.

Evitare la perdita di dati non è facile. Spero che con questo articolo capirete perché e come evitarla nei vostri progetti!

Esempi di perdita di dati

Ecco un esempio che può esservi utile per capire cos’è la perdita di dati.

Immaginate di essere sviluppatori di intelligenza artificiale applicata e di essere impiegati da un’azienda che produce giocattoli per bambini in serie.

Il nostro compito è creare un modello di machine learning per identificare se un giocattolo sarà soggetto a una richiesta di rimborso entro 3 giorni dalla sua vendita.

Riceviamo i dati dalla fabbrica, sotto forma di immagini che catturano il giocattolo prima dell’incannamento.

Foto di Jerry Wang su Unsplash

Utilizziamo queste immagini per addestrare il nostro modello che si comporta molto bene nella convalida incrociata e nel set di test.

Consegniamo il modello e per il primo mese il cliente segnala solo il 5% delle richieste di rimborso per giocattoli difettosi.

Nel secondo mese ci prepariamo per il ritraining del modello. La fabbrica ci invia altre fotografie, che utilizziamo per…