Pulizia di un dataset di auto disordinate con Python Pandas

Rimozione dei dati disordinati di un dataset di auto utilizzando Python Pandas

Se stai effettuando un’analisi esplorativa dei dati o stai creando un sistema ML complesso, devi essere sicuro di pulire i dati

(immagine creata dall'autore con Midjourney)

Il web è una risorsa altamente preziosa come fonte di dati. Ad esempio, una quantità considerevole di dati di addestramento utilizzati per creare grandi modelli di linguaggio proviene dal web.

Tuttavia, solitamente non è nel formato più adatto. I dati del web sono principalmente non strutturati (cioè sotto forma di testo libero). Anche se ha una struttura predefinita, i dati del web richiedono molta pulizia e preelaborazione prima di poter essere utilizzati per scopi analitici.

In questo articolo, prenderemo un dataset disordinato che include il prezzo e alcune altre caratteristiche delle auto e lo puliremo utilizzando la libreria pandas.

Puoi scaricare il dataset dal mio repository dei dataset se vuoi seguire e eseguire il codice da solo. Si chiama “mock_car_dataset”. Alcune delle operazioni che eseguiremo su questo dataset disordinato sono le seguenti:

  • Manipolazione di stringhe
  • Gestione dei tipi di dati
  • Filtraggio basato sulle stringhe
  • Sostituzione dei valori
  • Aggiornamento dei valori delle colonne utilizzando altre colonne
  • Formattazione dei dati numerici
  • Analisi dei dati per individuare problemi

Ho creato il dataset con dati simulati. Tuttavia, è proprio come un dataset di auto che si può estrapolare dal web. Lo so perché l’ho già fatto in passato.

Il dataset è in formato CSV. Iniziamo con la creazione di un DataFrame pandas da questo file.

import pandas as pd# crea il DataFramecars = pd.read_csv("mock_car_dataset.csv")# controlla le formecars.shape # output(20, 6)

Il dataset contiene 20 righe e 6 colonne, il che significa che abbiamo dati di 6 attributi per 20 auto. Anche se è un dataset piccolo, le operazioni che faremo possono essere facilmente applicate a dataset molto più grandi (ad esempio centinaia di migliaia di righe)

Vediamo quali sono questi attributi ( cars.head() ti mostrerà quanto segue ):