Pandas Playbook 7 Funzioni di dati complete da conoscere

Pandas Playbook 7 Funzioni dati complete

Immagine generata utilizzando DALL·E 2

Nel campo dell’analisi dei dati e dell’apprendimento automatico, la libreria Pandas si presenta come un potente strumento. Con più di 200 funzioni e metodi, ti permette di manipolare e trasformare i dati, ma allo stesso tempo ti rende incapace di manipolare e trasformare i dati a causa delle sue complessità. È una spada a doppio taglio.

Pertanto, esploreremo le funzioni e i metodi più comuni e utili di Panda. Conoscere questo ti metterà in vantaggio rispetto ad altri principianti che imparano Pandas.

Utilizzeremo un pseudo-dataset per tutto il corso di questo articolo.

Il primo passo è importare pandas come pd. Questa è una delle migliori pratiche per importare pandas, poiché pd è un’abbreviazione ben nota per pandas.

import pandas as pd

Importare i tuoi dati

Prima di qualsiasi manipolazione dei dati, è necessario importare i dati. La funzione read_csv() è il punto di ingresso per caricare set di dati in DataFrame di Pandas. Specificando il percorso del file, questa funzione dà vita ai dati, consentendoti di iniziare l’esplorazione e l’analisi dei dati.

Per importare, segui questa sintassi e inserisci il percorso del file del tuo dataset.

In[*]  car_sales = pd.read_csv("./data/car-sales.csv")       car_sales
Output

Uno sguardo ai tuoi dati

Curioso di vedere le prime o le ultime righe del tuo DataFrame? head() e tail() forniscono un’occhiata rapida, aiutandoti a valutare la struttura e il contenuto del tuo dataset. Ideale per una comprensione preliminare prima di immergersi in trasformazioni dei dati. Puoi inserire un argomento all’interno di head(9) e tail(9) per specificare quanti elementi desideri vedere. Il valore predefinito è di 5 elementi.

Per illustrare, guarda il codice di esempio di input e output di seguito.

In[*]  car_sales.head()
Output
In[*]  car_sales.tail()
Output

Conosci i tuoi dati in fondo

La funzione info() è il tuo detective dei dati. Fornisce un riepilogo completo del tuo DataFrame, mostrando il numero di voci non nulle, i tipi di dati, l’utilizzo della memoria e altro ancora. Questa panoramica rapida può guidare i tuoi sforzi di pulizia e preparazione dei dati.

In[*]  car_sales.info()
Output

Scopri le statistiche descrittive

Le informazioni statistiche sono a portata di mano. La funzione describe() fornisce una serie di statistiche descrittive, tra cui media, mediana, minimo, massimo e quartili. Ottieni uno snapshot della distribuzione dei tuoi dati numerici e individua eventuali valori anomali. Ricorda che describe() potrebbe non mostrare informazioni significative, dipenderà sempre dai tuoi dataset.

In[*]  car_sales.describe()
Output

Raggruppando per ottenere intuizioni

I dati spesso raccontano una storia più ricca quando vengono raggruppati per attributi specifici. La funzione groupby() ti consente di segmentare i dati in base a una colonna specifica, rendendola uno strumento essenziale per aggregare, riassumere e visualizzare le tendenze all’interno del tuo dataset.

In[*]  car_sales.groupby(["Make"]).mean()
Output

Potenziare le trasformazioni personalizzate

A volte, le funzioni standard non sono sufficienti. La funzione apply() ti consente di applicare funzioni personalizzate ai tuoi dati. Questa flessibilità apre le porte a trasformazioni personalizzate dei dati che soddisfano le tue esigenze specifiche. Questo è anche importante per la manipolazione e la pulizia dei tuoi dataset.

In questo esempio, applicheremo una funzione lambda per rimuovere $, , e .00 nei prezzi e convertirli in int per eseguire funzioni significative. Guarda il PRIMA e il DOPO dei prezzi.

In[*]  car_sales["Price"] = car_sales["Price"].apply (lambda x: x.replace(".00", '')).str.replace('[\$\,]', '').astype(int)       car_sales
PRIMA
DOPO

Affrontare i dati mancanti

Gestire i dati mancanti è una sfida comune. La funzione fillna() ti consente di sostituire i valori mancanti, mentre dropna() ti consente di rimuovere righe o colonne con dati mancanti. Queste funzioni garantiscono che la tua analisi si basi su informazioni complete e accurate.

A scopo illustrativo, importiamo un nuovo dataset con dati mancanti.

In[*]  car_sales_missing = pd.read_csv("./data/car-sales-missing-data.csv")       car_sales_missing
Output

Possiamo chiaramente vedere che alcuni dati di Odometer hanno un valore di NaN, quindi useremo fillna() per riempire il valore mancante con la media di Odometer.

In[*]  car_sales_missing["Odometer"] = car_sales_missing["Odometer"].fillna(car_sales_missing["Odometer"].mean())
Output

Ora, Colours, Doors e Price sono gli unici con NaN, situati agli indici 6, 7, 8 e 9 rispettivamente. Rimuoveremo le righe e le colonne che contengono NaN utilizzando dropna().

In[*]  car_sales_missing = car_sales_missing.dropna()       car_sales_missing
Output

Pandas è più di una semplice libreria; è un gateway per una manipolazione e un’analisi efficaci dei dati. Armato di queste funzioni essenziali, sei pronto ad affrontare sfide di dati reali e problemi di machine learning con fiducia. Che tu sia un data scientist, un analista o un ingegnere di machine learning, Pandas ti permette di trasformare dataset disordinati in intuizioni preziose. Quindi, immergiti, sperimenta e sblocca il potenziale illimitato di Pandas per i tuoi sforzi basati sui dati.

Rimani curioso e mantieni la tua mente analitica stimolata!

Se vuoi esplorare di più su Pandas, considera di dare un’occhiata alla loro documentazione!