Pulizia di un dataset di auto disordinate con Python Pandas

Rimozione dei dati disordinati di un dataset di auto utilizzando Python Pandas

Se stai effettuando un’analisi esplorativa dei dati o stai creando un sistema ML complesso, devi essere sicuro di pulire i dati

(immagine creata dall'autore con Midjourney) — (immagine creata dall’autore con Midjourney)

Il web è una risorsa altamente preziosa come fonte di dati. Ad esempio, una quantità considerevole di dati di addestramento utilizzati per creare grandi modelli di linguaggio proviene dal web.

Tuttavia, solitamente non è nel formato più adatto. I dati del web sono principalmente non strutturati (cioè sotto forma di testo libero). Anche se ha una struttura predefinita, i dati del web richiedono molta pulizia e preelaborazione prima di poter essere utilizzati per scopi analitici.

In questo articolo, prenderemo un dataset disordinato che include il prezzo e alcune altre caratteristiche delle auto e lo puliremo utilizzando la libreria pandas.

Puoi scaricare il dataset dal mio repository dei dataset se vuoi seguire e eseguire il codice da solo. Si chiama “mock_car_dataset”. Alcune delle operazioni che eseguiremo su questo dataset disordinato sono le seguenti:

Manipolazione di stringhe
Gestione dei tipi di dati
Filtraggio basato sulle stringhe
Sostituzione dei valori
Aggiornamento dei valori delle colonne utilizzando altre colonne
Formattazione dei dati numerici
Analisi dei dati per individuare problemi

Ho creato il dataset con dati simulati. Tuttavia, è proprio come un dataset di auto che si può estrapolare dal web. Lo so perché l’ho già fatto in passato.

Il dataset è in formato CSV. Iniziamo con la creazione di un DataFrame pandas da questo file.

import pandas as pd# crea il DataFramecars = pd.read_csv("mock_car_dataset.csv")# controlla le formecars.shape # output(20, 6)

Il dataset contiene 20 righe e 6 colonne, il che significa che abbiamo dati di 6 attributi per 20 auto. Anche se è un dataset piccolo, le operazioni che faremo possono essere facilmente applicate a dataset molto più grandi (ad esempio centinaia di migliaia di righe)

Vediamo quali sono questi attributi ( cars.head() ti mostrerà quanto segue ):

Pulizia di un dataset di auto disordinate con Python Pandas

Rimozione dei dati disordinati di un dataset di auto utilizzando Python Pandas

Se stai effettuando un’analisi esplorativa dei dati o stai creando un sistema ML complesso, devi essere sicuro di pulire i dati

5 Lezioni apprese da Testing Databricks SQL Serverless + DBT

Come addestrare BERT per compiti di modellazione del linguaggio mascherato

Questo articolo AI propone ‘MotionDir...

Rete neurale convoluzionale per principianti

6 Operazioni comuni relative agli indici ch...

Kafka Event Streaming AI e Automazione

La newsletter di questa AI è tutto ciò di c...

Classificazione delle immagini per principi...

AI