Due interessanti funzioni di manipolazione dei dati di Pandas che devi conoscere

Due funzioni di manipolazione dati in Pandas da conoscere

Data Science

Funzioni estremamente utili di pandas per convertire una colonna continua in una colonna categorica.

Foto di Brendan Church su Unsplash

Python pandas è una potente e ampiamente utilizzata libreria per l’analisi dei dati.

Oltre a 200+ funzioni e metodi, rendendo la manipolazione e la trasformazione dei dati facile. Tuttavia, conoscere tutte queste funzioni e utilizzarle dove necessario nel lavoro effettivo non è un compito fattibile.

Una delle operazioni comuni nella manipolazione dei dati è la conversione di una colonna con valori numerici continui in una colonna contenente valori discreti o categorici. E pandas dispone di due fantastiche funzioni integrate che possono sicuramente risparmiarti qualche minuto.

Puoi utilizzare questo tipo di trasformazione dei dati per una varietà di applicazioni come raggruppamento dei dati, analisi dei dati per gruppi discreti o visualizzazione dei dati utilizzando istogrammi.

Ad esempio,

Recentemente ho calcolato l’indice Herfindahl-Hirschman (HHI) per capire la concentrazione di mercato di più marche. Quindi in un DataFrame di pandas, avevo una colonna con valori continui di HHI per tutte le marche. Alla fine, volevo convertire questa colonna in una colonna discreta per categorizzare ogni marca come concentrazione di mercato bassa, VoAGI e alta – Ecco dove ho trovato l’ispirazione per questa storia.

Senza conoscere queste funzioni integrate di pandas, potresti dover scrivere più istruzioni if-else e cicli for per ottenere lo stesso risultato.

Quindi, qui esplorerai queste 2 super-utili funzioni integrate di pandas insieme a esempi interessanti (incluso il mio progetto), che potenzieranno la tua analisi dei dati e ti risparmieranno un paio di minuti.

Spesso è necessario convertire una colonna con valori continui in un’altra colonna con valori discreti nel tuo progetto di analisi.

Quindi fondamentalmente si categorizzano i dati continui in diverse categorie, ovvero secchielli o intervalli. E puoi farlo specificando i valori minimi e massimi per ogni intervallo, ovvero definendo i limiti degli intervalli o specificando il numero di intervalli.

A seconda del tuo scopo di suddividere una serie continua in una serie discreta, puoi…