Pipeline di dati con Polars Guida passo passo

Guida alla pipeline di dati con Polars

Costruire pipeline di dati scalabili e veloci con Polars

Introduzione

Lo scopo di questo post è spiegare e mostrarti come costruire pipeline di dati con Polars. Riunisce e utilizza tutte le conoscenze che hai acquisito dalle due parti precedenti di questa serie, quindi se non le hai ancora lette, ti consiglio vivamente di iniziare da lì e tornare qui più tardi.

EDA con Polars: Guida passo-passo per gli utenti di Pandas (Parte 1)

Migliora la tua analisi dei dati con Polars

towardsdatascience.com

EDA con Polars: Guida passo-passo alle funzioni di aggregazione e analitiche (Parte 2)

Aggregazioni avanzate e medie mobili a velocità fulminea con Polars

towardsdatascience.com

Configurazione

Puoi trovare tutto il codice in questo repository, quindi non dimenticare di clonare/pullare e mettere una stella. In particolare, esploreremo questo file, il che significa che finalmente ci sposteremo dai notebook nel mondo reale!

I dati utilizzati in questo progetto possono essere scaricati da Kaggle (CC0: Public Domain). Si tratta dello stesso dataset di tendenze di YouTube utilizzato nelle due parti precedenti. Assumo che tu abbia già installato Polars, quindi assicurati solo di aggiornarlo all’ultima versione utilizzando pip install -U polars.

Pipeline di dati

In parole semplici, una pipeline di dati è una sequenza automatizzata di passaggi che preleva i dati da una o più posizioni, applica passaggi di elaborazione e salva i dati elaborati altrove rendendoli disponibili per un ulteriore utilizzo.

Pipeline in Polars

Il modo di lavorare di Polars con i dati si presta molto bene alla costruzione di pipeline di dati scalabili. Innanzitutto, il fatto che possiamo concatenare i metodi così facilmente consente di scrivere pipeline piuttosto complesse in modo molto elegante.

Ad esempio, diciamo che vogliamo scoprire quali video in tendenza hanno avuto più visualizzazioni in ogni mese del 2018. Di seguito puoi vedere una pipeline completa per calcolare questa metrica e salvarla come file parquet.

Pipeline di dati con Polars Guida passo passo

Guida alla pipeline di dati con Polars

Costruire pipeline di dati scalabili e veloci con Polars

Introduzione

EDA con Polars: Guida passo-passo per gli utenti di Pandas (Parte 1)

Migliora la tua analisi dei dati con Polars

EDA con Polars: Guida passo-passo alle funzioni di aggregazione e analitiche (Parte 2)

Aggregazioni avanzate e medie mobili a velocità fulminea con Polars

Configurazione

Pipeline di dati

Pipeline in Polars

Decoupling consapevole fino a che punto è troppo lontano per lo storage, il calcolo e lo stack dati moderno?

Loguru Semplice come una stampa, flessibile come un log

10 migliori generatori di giochi AI (luglio...

Interfaccia cervello-computer si connette t...

Robot sudato potrebbe aiutare gli umani a c...

Migliorare la gestione delle scorte utilizz...

Padronanza delle espressioni regolari in Py...

Cambiare prospettiva sui tuoi dati in Power BI

AI