Perdita di dati cos’è e perché causa il fallimento dei nostri sistemi predittivi
Perdita di dati e il fallimento dei sistemi predittivi
La perdita di dati rappresenta, insieme all’overfitting/sottoutfitting, la causa principale del fallimento dei progetti di machine learning che vanno in produzione
La perdita di dati è senza dubbio una minaccia che colpisce gli scienziati dei dati, indipendentemente dal livello di anzianità.
È quel fenomeno che può colpire tutti, anche professionisti con anni di esperienza nel settore.
Insieme all’overfitting/sottoutfitting, rappresenta la causa principale del fallimento dei progetti di machine learning che vanno in produzione.
La perdita di dati si verifica quando le informazioni presenti nell’insieme di addestramento si infiltrano nell’insieme di valutazione (sia nel set di validazione che nel set di test)
- Instagram etichetterà ora i contenuti generati da intelligenza artificiale
- Incontra CREATOR un nuovo framework di intelligenza artificiale che permette agli LLM di creare i propri strumenti attraverso la documentazione e la realizzazione del codice
- Abacus AI presenta un nuovo modello di linguaggio a lungo contesto aperto LLM incontrate Giraffe
Ma perché la perdita di dati fa così tante vittime?
Perché anche dopo molti esperimenti e valutazioni nella fase di sviluppo, i nostri modelli possono fallire spettacolarmente in uno scenario di produzione.
Evitare la perdita di dati non è facile. Spero che con questo articolo capirete perché e come evitarla nei vostri progetti!
Esempi di perdita di dati
Ecco un esempio che può esservi utile per capire cos’è la perdita di dati.
Immaginate di essere sviluppatori di intelligenza artificiale applicata e di essere impiegati da un’azienda che produce giocattoli per bambini in serie.
Il nostro compito è creare un modello di machine learning per identificare se un giocattolo sarà soggetto a una richiesta di rimborso entro 3 giorni dalla sua vendita.
Riceviamo i dati dalla fabbrica, sotto forma di immagini che catturano il giocattolo prima dell’incannamento.
Utilizziamo queste immagini per addestrare il nostro modello che si comporta molto bene nella convalida incrociata e nel set di test.
Consegniamo il modello e per il primo mese il cliente segnala solo il 5% delle richieste di rimborso per giocattoli difettosi.
Nel secondo mese ci prepariamo per il ritraining del modello. La fabbrica ci invia altre fotografie, che utilizziamo per…