6 Operazioni comuni relative agli indici che dovresti conoscere su Pandas

6 Operazioni fondamentali sugli indici che dovresti conoscere su Pandas

Gestire l’indice in modo efficiente nei tuoi data frame

Foto di Alejandro Luengo su Unsplash

Immagina di avere una libreria piena di migliaia di libri, ognuno contenente un tesoro di informazioni. Per trovare il libro esatto di cui hai bisogno, ti rivolgeresti all’indice della libreria (se ne hai uno), giusto? Quando ti occupi di dati reali, avere un indice simile a una libreria è essenziale per sfogliare grandi quantità di dati, individuando esattamente ciò che desideri senza dover frugare in ogni singolo pezzo.

In questo articolo, condividerò alcune operazioni comuni ma importanti relative all’indice, suddividendo gli argomenti utilizzando semplici scenari applicabili. Che tu sia un principiante dei dati o un professionista esperto, vedrai presto come queste operazioni possano diventare le migliori amiche dei tuoi dati.

Senza ulteriori indugi, cominciamo.

Come nota veloce, in un data frame, sia le righe che le colonne vengono considerate indici, ma nella maggior parte delle manipolazioni dei dati, consideriamo semplicemente le righe come indice di interesse, in quanto molti set di dati sono presentati nel formato largo — ogni riga rappresenta un record di dati e le colonne rappresentano aspetti variati del record di dati. In questo articolo, ci concentreremo sulla manipolazione dell’indice lungo le righe. Cioè, ogni elemento dell’indice corrisponde a una riga.

1. Impostazione dell’indice

Una comune manipolazione dei dati inizia importando dati da una fonte dati tabulata, come file CSV. La seguente immagine mostra una fonte dati online da GitHub.

I dati sorgente utilizzati in questo articolo (screenshot dell'autore)

Quando importi questo file, vedrai che compare una colonna “extra” senza nome prima delle tre colonne che abbiamo visto nel file di origine.

# Leggi i dati grezzi onlineimport pandas as pddata_url = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/flights.csv"df = pd.read_csv(data_url)df
Il data frame letto dalla fonte che mostra l'indice

L’indice generato automaticamente parte da 0 e incrementa di 1 per ogni riga aggiuntiva. Tu…