Una introduzione all’ingegneria dei dati analitici

Un'introduzione all'ingegneria dei dati analitici Il mondo dell'analisi dati a portata di mano

Chi è un Ingegnere Analista e cosa devono fare

Immagine generata tramite DALL-E2

Tradizionalmente, i team di dati erano composti da Ingegneri dei Dati e Analisti dei Dati.

Gli Ingegneri dei Dati sono responsabili della creazione dell’infrastruttura per supportare le operazioni sui dati. Queste includono la configurazione dei database e l’implementazione dei processi ETL utilizzati per importare dati da fonti esterne in un sistema di destinazione (forse un altro database). Inoltre, gli Ingegneri dei Dati sono tipicamente responsabili dell’assicurare l’integrità, la freschezza e la sicurezza dei dati in modo che gli Analisti possano interrogarli. Le competenze tipiche di un Ingegnere dei Dati includono Python (o Java), SQL, orchestrazione (utilizzando strumenti come Apache Airflow) e modellazione dei dati.

D’altra parte, gli Analisti dei Dati sono responsabili della creazione di dashboard e report utilizzando Excel o SQL al fine di fornire informazioni aziendali agli utenti e ai dipartimenti interni.

Formazione tradizionale dei Team dei Dati

Transizione da ETL a ELT

Per elaborare dati e ottenere informazioni preziose, è necessario prima estrarli, giusto? 🤯

L’ingestione dei dati viene eseguita utilizzando processi ETL (e più recentemente con processi ELT). Entrambi i paradigmi ETL e ELT prevedono tre fasi principali: Estrarre, Trasformare e Caricare. Per ora, ignoriamo la sequenza di esecuzione di queste fasi e concentriamoci su ciò che fa ciascuna fase indipendentemente.

Estrazione

Questo passaggio si riferisce al processo di prelevamento dei dati da una fonte persistente. Questa fonte di dati potrebbe essere un database, un endpoint API, un file o una coda di messaggi.

Il passaggio di estrazione preleva dati da varie fonti — Fonte: Autore

Trasformazione

Nel passaggio di Trasformazione, il flusso di lavoro deve apportare dei cambiamenti nella struttura e/o nel formato dei dati al fine di raggiungere un determinato obiettivo. Una trasformazione potrebbe essere una modifica (ad esempio mappare “Stati Uniti” in “US”), una selezione di attributi, un calcolo numerico o una join.