Monitoraggio dei modelli di Machine Learning in produzione Perché e Come?

Monitoraggio dei modelli di Machine Learning in produzione Perché e Come?

Come il nostro modello è influenzato nel mondo in evoluzione? Un’analisi focalizzata su esempi di cambiamento e l’implementazione di strategie di monitoraggio basate su Python

Lo sviluppo di modelli di Machine Learning (ML) richiede spesso tempo e competenze tecniche. Come appassionati di data science, quando acquisiamo un dataset da esplorare e analizzare, ci imbarchiamo volentieri nella fase di addestramento e convalida utilizzando diversi modelli all’avanguardia o strategie incentrate sui dati. Ci sentiamo incredibilmente soddisfatti quando ottimizziamo le prestazioni del modello come se tutte le attività fossero state completate.

Tuttavia, dopo aver messo il modello in produzione, ci sono molte ragioni che contribuiscono a una riduzione delle prestazioni o a una degradazione del modello.

Foto di Adrien Delforge su Unsplash

#1 I dati di addestramento sono generati tramite simulazione

Gli scienziati dei dati spesso si trovano ad affrontare limitazioni nell’accesso ai dati di produzione, il che comporta l’addestramento del modello utilizzando dati simulati o di esempio. Sebbene gli ingegneri dei dati abbiano la responsabilità di garantire la rappresentatività dei dati di addestramento in termini di scala e complessità, i dati di addestramento si discostano comunque in qualche misura dai dati di produzione. Esiste anche il rischio di difetti sistematici nell’elaborazione dei dati a monte, come la raccolta e l’etichettatura dei dati. Questi fattori possono influire sull’estrazione di ulteriori utili caratteristiche di input o ostacolare la capacità del modello di generalizzare bene.

Esempio: I dati degli investitori nel settore finanziario o le informazioni sui pazienti nel settore sanitario sono spesso simulati a causa di preoccupazioni legate alla sicurezza e alla privacy.

#2 I nuovi dati di produzione mostrano una nuova distribuzione dei dati

Nel tempo, le caratteristiche delle caratteristiche di input possono anche cambiare, come ad esempio cambiamenti nel gruppo di età, nella fascia di reddito o in altre informazioni demografiche dei clienti. La stessa fonte dei dati potrebbe addirittura essere completamente sostituita a causa di vari casi. Durante il processo di sviluppo del modello, l’ottimizzazione si basa sull’apprendimento e sulla cattura di modelli dal gruppo di maggioranza all’interno dei dati di addestramento. Tuttavia, col passare del tempo, la precedente maggioranza può passare alla minoranza nei dati di produzione, rendendo il modello statico originale inadeguato per soddisfare le esigenze di produzione più recenti.