EDA con Polars Guida passo passo per gli utenti di Pandas (Parte 1)

'Guida EDA con Polars per utenti di Pandas (Parte 1)'

Migliora la tua analisi dei dati con Polars

Foto di Mitul Grover su Unsplash

Introduzione

Ogni tanto, compare uno strumento che modifica significativamente il modo in cui viene effettuata l’analisi dei dati. Credo che Polars sia uno di questi strumenti, quindi in questa serie di articoli, approfondirò questa libreria, la comparerò con una libreria più conosciuta e consolidata – Pandas – e mostrerò il flusso di lavoro di analisi utilizzando un dataset di esempio.

Cos’è Polars?

Polars è una libreria DataFrame estremamente veloce scritta in Rust. Per fortuna per noi (scienziati/analisti dei dati), ha un wrapper Python molto ben documentato che espone un set completo di funzionalità per manipolare i dati e costruire pipeline di dati. Ecco i principali vantaggi che ho riscontrato dopo il passaggio a Polars:

  • Operazioni di pre-elaborazione molto più veloci
  • Possibilità di gestire dataset più grandi della RAM
  • Migliore qualità del codice grazie alla necessità di strutturare correttamente le pipeline di dati

Puoi vedere l’elenco completo dei vantaggi in questa guida per l’utente e i confronti di velocità in questo benchmark di H20.

Passare da Pandas

A prima vista, Pandas e Polars sembrano molto simili, ad esempio i metodi come .read_csv() o .head() sono condivisi tra di loro, quindi puoi eseguire operazioni esplorative di base senza apportare alcuna modifica. Ma più inizi a lavorare con la libreria, più ti accorgerai di quanto siano diverse le due librerie. Dalla sintassi al modo di pensare, passare a Polars non è un compito facile. Ecco perché spero che questi articoli ti aiutino a iniziare.

Configurazione

Per seguire il progetto, assicurati di scaricare questo repository GitHub con l’ultima versione del notebook. I dati utilizzati in questo progetto possono essere scaricati da Kaggle (CC0: Public Domain). Si tratta di un dataset sui video più popolari di YouTube e dovrebbe fornire sufficiente complessità per questa serie di articoli. Inoltre, è necessario avere Pandas e Polars installati, che possono essere installati entrambi utilizzando pip per entrambi i pacchetti.

Ora che tutto è configurato, passiamo al progetto! L’obiettivo principale qui è renderti più familiare con Polars, quindi assicurati di seguirmi o di esercitarti sui concetti su…