Pulizia di un dataset di auto disordinate con Python Pandas
Rimozione dei dati disordinati di un dataset di auto utilizzando Python Pandas
Se stai effettuando un’analisi esplorativa dei dati o stai creando un sistema ML complesso, devi essere sicuro di pulire i dati
Il web è una risorsa altamente preziosa come fonte di dati. Ad esempio, una quantità considerevole di dati di addestramento utilizzati per creare grandi modelli di linguaggio proviene dal web.
Tuttavia, solitamente non è nel formato più adatto. I dati del web sono principalmente non strutturati (cioè sotto forma di testo libero). Anche se ha una struttura predefinita, i dati del web richiedono molta pulizia e preelaborazione prima di poter essere utilizzati per scopi analitici.
In questo articolo, prenderemo un dataset disordinato che include il prezzo e alcune altre caratteristiche delle auto e lo puliremo utilizzando la libreria pandas.
Puoi scaricare il dataset dal mio repository dei dataset se vuoi seguire e eseguire il codice da solo. Si chiama “mock_car_dataset”. Alcune delle operazioni che eseguiremo su questo dataset disordinato sono le seguenti:
- 5 Lezioni apprese da Testing Databricks SQL Serverless + DBT
- Esplorando gli algoritmi di flusso di rete canale efficientemente le informazioni
- Come le GPU dei videogiochi hanno portato all’intelligenza artificiale
- Manipolazione di stringhe
- Gestione dei tipi di dati
- Filtraggio basato sulle stringhe
- Sostituzione dei valori
- Aggiornamento dei valori delle colonne utilizzando altre colonne
- Formattazione dei dati numerici
- Analisi dei dati per individuare problemi
Ho creato il dataset con dati simulati. Tuttavia, è proprio come un dataset di auto che si può estrapolare dal web. Lo so perché l’ho già fatto in passato.
Il dataset è in formato CSV. Iniziamo con la creazione di un DataFrame pandas da questo file.
import pandas as pd# crea il DataFramecars = pd.read_csv("mock_car_dataset.csv")# controlla le formecars.shape # output(20, 6)
Il dataset contiene 20 righe e 6 colonne, il che significa che abbiamo dati di 6 attributi per 20 auto. Anche se è un dataset piccolo, le operazioni che faremo possono essere facilmente applicate a dataset molto più grandi (ad esempio centinaia di migliaia di righe)
Vediamo quali sono questi attributi ( cars.head()
ti mostrerà quanto segue ):