Guida del Data Analyst alla Pulizia dei Dati

Guida Pulizia Dati per Data Analyst

Come affrontare la pulizia di diversi tipi di dati

Immagine di Janeke88 da Pixabay

Nonostante ci siano molti strumenti per imparare competenze tecniche, ve ne sono pochi che approfondiscono come pulire i dati, una competenza essenziale per gli analisti di dati. Potresti pensare di poter applicare lo stesso set di regole per pulire i dati, ma non è sempre il caso. Oggi vorrei condividere ciò che ho imparato nel corso degli anni come analista di dati su come affrontare la pulizia di diversi tipi di dati per l’analisi e la presentazione dei dati.

Valori numerici

Per valori numerici, intendo quelli utili per l’analisi e la presentazione dei dati. Una buona regola generale è se la media sarebbe utile. Ad esempio, la media di un campo di numeri d’ordine è insignificante. Tuttavia, l’importo medio del fatturato è utile.

Numeri memorizzati come campi numerici

Per i numeri salvati in campi numerici, applicare le seguenti regole di pulizia:

  1. Calcolare il minimo, il massimo, la mediana, il percentile 99 e la media. Se il minimo è negativo ma i valori dovrebbero essere zero o superiori, sostituirli con zero se applicabile. Nei dati di vendita di esempio qui sotto, notare la grande differenza tra la mediana di $800 nella riga 13 e la media di $20.560 nella riga 12. Se la mediana e la media o il massimo e il 99° percentile hanno grandi differenze, di solito controllo la presenza di valori anomali, specialmente se non sono familiare con i dati. Se si volesse riportare la media delle vendite includendo i $100.000 nella riga 4, sarebbe $20.560 invece di $560 se si escludessero i $100.000. Ecco perché è bene controllare la presenza di valori anomali ed escluderli, specialmente se si prevede di riportare le medie o utilizzare i dati per creare modelli di apprendimento automatico, poiché i valori anomali possono influire sui risultati del modello. Assegnare prioritariamente il proprio tempo ai campi più importanti perché potrebbero esserne da controllare decine e sarebbe troppo dispendioso controllarli tutti.

2. Contare i valori mancanti e non mancanti. Se il numero di valori mancanti supera il numero di valori non mancanti, allora il campo numerico potrebbe non essere utilizzabile per l’analisi. Ad esempio, se si hanno 1.000 record ma 900 di essi sono mancanti, probabilmente i 100 valori non mancanti non saranno utili per l’analisi. Se il conteggio dei valori mancanti è inferiore al numero di valori non mancanti, sostituire i valori mancanti con zero quando applicabile. Se la mancanza di un valore significa…