EDA con Polars Guida passo passo per gli utenti di Pandas (Parte 1)
'Guida EDA con Polars per utenti di Pandas (Parte 1)'
Migliora la tua analisi dei dati con Polars
Introduzione
Ogni tanto, compare uno strumento che modifica significativamente il modo in cui viene effettuata l’analisi dei dati. Credo che Polars sia uno di questi strumenti, quindi in questa serie di articoli, approfondirò questa libreria, la comparerò con una libreria più conosciuta e consolidata – Pandas – e mostrerò il flusso di lavoro di analisi utilizzando un dataset di esempio.
Cos’è Polars?
Polars è una libreria DataFrame estremamente veloce scritta in Rust. Per fortuna per noi (scienziati/analisti dei dati), ha un wrapper Python molto ben documentato che espone un set completo di funzionalità per manipolare i dati e costruire pipeline di dati. Ecco i principali vantaggi che ho riscontrato dopo il passaggio a Polars:
- Operazioni di pre-elaborazione molto più veloci
- Possibilità di gestire dataset più grandi della RAM
- Migliore qualità del codice grazie alla necessità di strutturare correttamente le pipeline di dati
Puoi vedere l’elenco completo dei vantaggi in questa guida per l’utente e i confronti di velocità in questo benchmark di H20.
Passare da Pandas
A prima vista, Pandas e Polars sembrano molto simili, ad esempio i metodi come .read_csv()
o .head()
sono condivisi tra di loro, quindi puoi eseguire operazioni esplorative di base senza apportare alcuna modifica. Ma più inizi a lavorare con la libreria, più ti accorgerai di quanto siano diverse le due librerie. Dalla sintassi al modo di pensare, passare a Polars non è un compito facile. Ecco perché spero che questi articoli ti aiutino a iniziare.
- Sbloccare il successo della modellazione dei dati 3 tabelle contestuali indispensabili
- Come diventare virale usando ChatGPT
- Ricercatori dell’Università del Wisconsin e di ByteDance presentano PanoHead il primo framework GAN 3D che sintetizza immagini complete del volto coerenti con la vista utilizzando solo immagini da una singola prospettiva.
Configurazione
Per seguire il progetto, assicurati di scaricare questo repository GitHub con l’ultima versione del notebook. I dati utilizzati in questo progetto possono essere scaricati da Kaggle (CC0: Public Domain). Si tratta di un dataset sui video più popolari di YouTube e dovrebbe fornire sufficiente complessità per questa serie di articoli. Inoltre, è necessario avere Pandas e Polars installati, che possono essere installati entrambi utilizzando pip per entrambi i pacchetti.
Ora che tutto è configurato, passiamo al progetto! L’obiettivo principale qui è renderti più familiare con Polars, quindi assicurati di seguirmi o di esercitarti sui concetti su…