Come costruire una pipeline di rilevamento automatico completo della deriva dei dati

Come creare una pipeline per il rilevamento automatico della deriva dei dati

Una guida automatizzata per rilevare e gestire la deriva dei dati

Immagine dell'autore

Motivazione

La deriva dei dati si verifica quando la distribuzione delle caratteristiche di input nell’ambiente di produzione differisce dai dati di addestramento, portando a potenziali imprecisioni e diminuzione delle prestazioni del modello.

Immagine dell'autore

Per mitigare l’impatto della deriva dei dati sulle prestazioni del modello, possiamo progettare un flusso di lavoro che rileva la deriva, avvisa il team dei dati e attiva il ritraining del modello.

Immagine dell'autore

Flussi di lavoro

Il flusso di lavoro comprende i seguenti compiti:

  1. Recupera i dati di riferimento dal database Postgres.
  2. Ottieni i dati di produzione correnti dal web.
  3. Rileva la deriva dei dati confrontando i dati di riferimento e i dati correnti.
  4. Aggiungi i dati correnti al database Postgres esistente.
  5. Quando si verifica una deriva dei dati, vengono eseguite le seguenti azioni:
  • Invia un messaggio Slack per avvisare il team dei dati.
  • Ritraina il modello per aggiornarne le prestazioni.
  • Carica il modello aggiornato su S3 per lo storage.

Questo flusso di lavoro è pianificato per essere eseguito in determinati momenti, come ad esempio ogni lunedì alle 11:00.

Immagine dell'autore

In generale, il flusso di lavoro comprende due tipi di compiti: compiti di data science e compiti di data engineering.

I compiti di data science, rappresentati da riquadri rosa, sono eseguiti dai data scientist e riguardano la deriva dei dati…