Iniziare con Great Expectations Una guida alla validazione dei dati in Python

Guida alla validazione dei dati in Python Great Expectations

Scopri come prevenire i problemi di qualità dei dati con poche righe di codice in Python

Foto di Link Hoang su Unsplash

Quando lavori a un progetto di data science con un’azienda, di solito non hai un unico set di test, a differenza dell’università e della ricerca, ma continui a ricevere campioni aggiornati dal cliente.

Prima di applicare il modello di machine learning al nuovo campione, è necessario verificare la qualità dei dati, come i nomi delle colonne, i tipi di colonne e la distribuzione dei campi, che dovrebbero corrispondere al set di addestramento e al vecchio set di test.

L’analisi manuale dei dati può richiedere molto tempo quando i dati sono sporchi e presentano più di 100 caratteristiche. Fortunatamente, esiste una libreria Python che salva la vita, chiamata Great Expectations. Ti ho incuriosito? Cominciamo!

Cos’è Great Expectations?

Illustrazione di Author. Fonte: flaticon.

Great Expectations è una libreria Python open-source specializzata nella risoluzione di tre aspetti importanti per la gestione dei dati:

  • convalida dei dati verificando se rispetta alcune condizioni importanti o aspettative
  • profilazione automatica dei dati per testare i tuoi dati rapidamente senza la necessità di partire da zero
  • documenti formattati, che contengono i risultati delle aspettative e delle convalide.

In questo tutorial, ci concentreremo sulla convalida dei dati, che è uno dei principali problemi quando si lavora con dati reali.

Annunci Airbnb ad Amsterdam

Analizzeremo gli annunci Airbnb forniti da Inside Airbnb. Lavoreremo con dati provenienti da Amsterdam. Il dataset è già diviso in set di addestramento e di test. Come si può intuire dal nome del dataset, l’obiettivo è prevedere i prezzi degli annunci. Se prestiamo attenzione solo al numero di recensioni, possiamo notare che il numero di recensioni nel set di test presenta una maggiore variabilità rispetto a quelle del set di addestramento.