EDA con Polars Guida passo passo per gli utenti di Pandas (Parte 1)

'Guida EDA con Polars per utenti di Pandas (Parte 1)'

Migliora la tua analisi dei dati con Polars

Introduzione

Ogni tanto, compare uno strumento che modifica significativamente il modo in cui viene effettuata l’analisi dei dati. Credo che Polars sia uno di questi strumenti, quindi in questa serie di articoli, approfondirò questa libreria, la comparerò con una libreria più conosciuta e consolidata – Pandas – e mostrerò il flusso di lavoro di analisi utilizzando un dataset di esempio.

Cos’è Polars?

Polars è una libreria DataFrame estremamente veloce scritta in Rust. Per fortuna per noi (scienziati/analisti dei dati), ha un wrapper Python molto ben documentato che espone un set completo di funzionalità per manipolare i dati e costruire pipeline di dati. Ecco i principali vantaggi che ho riscontrato dopo il passaggio a Polars:

Operazioni di pre-elaborazione molto più veloci
Possibilità di gestire dataset più grandi della RAM
Migliore qualità del codice grazie alla necessità di strutturare correttamente le pipeline di dati

Puoi vedere l’elenco completo dei vantaggi in questa guida per l’utente e i confronti di velocità in questo benchmark di H20.

Passare da Pandas

A prima vista, Pandas e Polars sembrano molto simili, ad esempio i metodi come .read_csv() o .head() sono condivisi tra di loro, quindi puoi eseguire operazioni esplorative di base senza apportare alcuna modifica. Ma più inizi a lavorare con la libreria, più ti accorgerai di quanto siano diverse le due librerie. Dalla sintassi al modo di pensare, passare a Polars non è un compito facile. Ecco perché spero che questi articoli ti aiutino a iniziare.

Configurazione

Per seguire il progetto, assicurati di scaricare questo repository GitHub con l’ultima versione del notebook. I dati utilizzati in questo progetto possono essere scaricati da Kaggle (CC0: Public Domain). Si tratta di un dataset sui video più popolari di YouTube e dovrebbe fornire sufficiente complessità per questa serie di articoli. Inoltre, è necessario avere Pandas e Polars installati, che possono essere installati entrambi utilizzando pip per entrambi i pacchetti.

Ora che tutto è configurato, passiamo al progetto! L’obiettivo principale qui è renderti più familiare con Polars, quindi assicurati di seguirmi o di esercitarti sui concetti su…

EDA con Polars Guida passo passo per gli utenti di Pandas (Parte 1)

'Guida EDA con Polars per utenti di Pandas (Parte 1)'

Migliora la tua analisi dei dati con Polars

Introduzione

Cos’è Polars?

Passare da Pandas

Configurazione

Sbloccare il successo della modellazione dei dati 3 tabelle contestuali indispensabili

Trasformata di Fourier per le serie temporali Spiegazione della convoluzione rapida con numpy

Falcon AI Il nuovo modello di linguaggio op...

Da GPT-1 a GPT-4 Un’analisi esaustiva...

Quando la visione artificiale funziona più ...

Prevedi la probabilità di guasto della flot...

Evidenzia il testo mentre viene pronunciato...

Un Cambiamento nel Meteo IA, Calcolo Accele...

AI