Pipeline di dati con Polars Guida passo passo

Guida alla pipeline di dati con Polars

Costruire pipeline di dati scalabili e veloci con Polars

Foto di Filippo Vicini su Unsplash

Introduzione

Lo scopo di questo post è spiegare e mostrarti come costruire pipeline di dati con Polars. Riunisce e utilizza tutte le conoscenze che hai acquisito dalle due parti precedenti di questa serie, quindi se non le hai ancora lette, ti consiglio vivamente di iniziare da lì e tornare qui più tardi.

EDA con Polars: Guida passo-passo per gli utenti di Pandas (Parte 1)

Migliora la tua analisi dei dati con Polars

towardsdatascience.com

EDA con Polars: Guida passo-passo alle funzioni di aggregazione e analitiche (Parte 2)

Aggregazioni avanzate e medie mobili a velocità fulminea con Polars

towardsdatascience.com

Configurazione

Puoi trovare tutto il codice in questo repository, quindi non dimenticare di clonare/pullare e mettere una stella. In particolare, esploreremo questo file, il che significa che finalmente ci sposteremo dai notebook nel mondo reale!

I dati utilizzati in questo progetto possono essere scaricati da Kaggle (CC0: Public Domain). Si tratta dello stesso dataset di tendenze di YouTube utilizzato nelle due parti precedenti. Assumo che tu abbia già installato Polars, quindi assicurati solo di aggiornarlo all’ultima versione utilizzando pip install -U polars.

Pipeline di dati

In parole semplici, una pipeline di dati è una sequenza automatizzata di passaggi che preleva i dati da una o più posizioni, applica passaggi di elaborazione e salva i dati elaborati altrove rendendoli disponibili per un ulteriore utilizzo.

Pipeline in Polars

Il modo di lavorare di Polars con i dati si presta molto bene alla costruzione di pipeline di dati scalabili. Innanzitutto, il fatto che possiamo concatenare i metodi così facilmente consente di scrivere pipeline piuttosto complesse in modo molto elegante.

Ad esempio, diciamo che vogliamo scoprire quali video in tendenza hanno avuto più visualizzazioni in ogni mese del 2018. Di seguito puoi vedere una pipeline completa per calcolare questa metrica e salvarla come file parquet.