Smorzare i miti sul backfilling dei dati

Smorzando i miti sul backfilling dei dati

Parliamo dell’incubo degli ingegneri dei dati

Creata dall'autore

Come ingegneri dei dati, affrontiamo sfide uniche ogni giorno. Ma se c’è un compito spaventoso che spicca, deve essere il backfill. Un backfill difettoso significa tempo di elaborazione eccessivo, contaminazione dei dati e bollette cloud consistenti. E sì, significa anche che hai bisogno di un altro lavoro di backfill per correggerlo.

Completare il tuo primo backfill di dati di successo è un rito di passaggio per l’ingegneria dei dati. — Dagster

Il compito di backfill richiede un insieme di abilità di ingegneria dei dati per essere realizzato in modo efficace, come la conoscenza del dominio per convalidare i risultati, l’esperienza nell’utilizzo degli strumenti per eseguire i lavori di backfill e una solida comprensione del database per ottimizzare il processo. Quando tutti questi elementi sono intrecciati all’interno di un singolo compito, le cose possono andare male.

In questo articolo, esploreremo il concetto di backfill dei dati, la sua necessità e metodi di implementazione efficienti. Che tu sia un principiante nel backfilling o qualcuno che spesso si sente in panico per compiti del genere, questo articolo tranquillizzerà la tua mente e ti aiuterà a riacquistare fiducia.

Cos’è il backfill?

Il backfill è il processo di riempimento dei dati mancanti dal passato su una nuova tabella che non esisteva precedentemente, o la sostituzione dei vecchi dati con nuovi record. Di solito non è un lavoro ricorrente ed è necessario solo per i flussi di dati che aggiornano la tabella in modo incrementale.

Differenza tra lavoro regolare e lavoro di backfill (creata dall'autore)

Ad esempio, una tabella è partizionata sulla colonna data. Un lavoro quotidiano regolare aggiorna solo le ultime 2 partizioni. Al contrario, un lavoro di backfill può aggiornare partizioni fino alla partizione iniziale nella tabella. Se il lavoro regolare aggiorna l’intera tabella ogni volta, un lavoro di backfill diventa superfluo poiché i dati storici verranno naturalmente aggiornati tramite il lavoro regolare.

Allora, quando abbiamo bisogno di fare il backfill?

In generale, ci sono alcuni scenari comuni. Vediamo se ti risultano familiari.

  • Creare una nuova tabella e voler riempire i dati storici mancanti