Analisi esplorativa dei dati Svelare la storia all’interno del tuo dataset

Analisi dei dati scoprire la storia nel tuo dataset.

L’arte segreta dell’esplorazione dei dati – Comprensione, pulizia e svelamento delle intuizioni nascoste all’interno del tuo dataset

Foto di Andrew Neel su Unsplash

Come appassionati di dati, esplorare un nuovo dataset è un’impresa entusiasmante. Ci consente di acquisire una comprensione più profonda dei dati e getta le basi per un’analisi di successo. Ottenere una buona sensazione di un nuovo dataset non è sempre facile e richiede tempo. Tuttavia, un’analisi esplorativa dei dati (EDA) accurata e approfondita può aiutare molto a comprendere il tuo dataset e a capire come le cose sono connesse e cosa deve essere fatto per elaborare correttamente il tuo dataset.

In effetti, probabilmente passerai l’80% del tuo tempo nella preparazione ed esplorazione dei dati e solo il 20% nella modellazione effettiva dei dati. Per altri tipi di analisi, l’esplorazione potrebbe richiedere una proporzione ancora maggiore del tuo tempo.

**Il Che cosa.

L’Analisi Esplorativa dei Dati, semplicemente, si riferisce all’arte dell’esplorazione dei dati. È il processo di indagine dei dati da diverse angolazioni per migliorare la comprensione, esplorare i modelli, stabilire le relazioni tra le variabili e, se necessario, migliorare i dati stessi

È come andare ad un appuntamento ‘alla cieca’ con il tuo dataset, seduti di fronte a questa enigmatica collezione di numeri e testi, desiderosi di comprenderla prima di intraprendere una relazione seria. Proprio come un appuntamento al buio, l’EDA ti permette di scoprire le sfaccettature nascoste del tuo dataset. Osservi i modelli, individui gli outlier ed esplori i dettagli prima di prendere decisioni significative. Si tratta di fare conoscenza e costruire fiducia con i numeri, assicurandoti di avere basi solide prima di trarre conclusioni.

Ci siamo tutti passati; consapevolmente o inconsapevolmente, addentrandoci in strumenti statistici o cercando tra i report – tutti abbiamo esplorato qualche tipo di dati in qualche momento!

**Il Perché.

Noi, come analisti e data scientist, dobbiamo comprendere al meglio i dati. Dobbiamo diventare esperti nell’interpretazione dei dati. Che si tratti di modelli di apprendimento automatico, framework di sperimentazione o semplici analisi – il risultato è valido solo quanto i dati su cui si basa.

Ricorda, Spazzatura Dentro, Spazzatura Fuori !!

L’EDA permette agli analisti e agli scienziati dei dati di esplorare, comprendere e ottenere intuizioni significative dai dati. Proprio quando pensi di aver capito tutto, il dataset ti presenta un problema. Trovi valori mancanti, incongruenze e dati disordinati. È come scoprire che il tuo appuntamento ha un coccodrillo domestico segreto o una collezione di figurine di unicorni. L’analisi esplorativa dei dati ti fornisce gli strumenti per ripulire il disordine e dare un senso a tutto.

— È come dare al tuo dataset un restyling, trasformandolo da un disordine in un compagno irresistibile.

Alla fine, l’analisi esplorativa dei dati si tratta di conoscere i tuoi dati a un livello più profondo, divertendosi lungo il percorso e creando una solida base per ulteriori analisi. Quindi prendi il tuo cappello da detective ed intraprendi questa avventura emozionante con il tuo dataset. Chissà, potresti trovare un tesoro nascosto o addirittura il vero amore!

**Il Come.

L’Analisi Esplorativa dei Dati, come suggerisce il nome, è un’analisi per esplorare i dati. Si compone di diversi componenti; non tutti sono essenziali tutto il tempo, né tutti hanno la stessa importanza. Di seguito, elenco alcuni componenti basati sulla mia esperienza. Nota che non è una lista esaustiva, ma un framework guida.

1. Comprendere la situazione generale.

Non sai quello che non sai, ma puoi esplorare! La prima cosa da fare è capire i dati – guardare le voci dei dati, dare un’occhiata ai valori delle colonne. Quante righe e colonne hai.

  • un dataset di un rivenditore potrebbe dirti – Il signor X ha visitato il negozio #2000 il 01 agosto 2023 e ha acquistato una lattina di Coca-Cola e un pacchetto di patatine Walker
  • un dataset dei social media potrebbe dirti – La signora Y si è collegata al sito di social networking alle 09:00 del 3 giugno e ha navigato nelle sezioni A, B e C, ha cercato il suo amico Mr A e poi si è disconnessa dopo 20 minuti.

È utile ottenere il contesto aziendale dei dati che si hanno, conoscendo la fonte e il meccanismo di raccolta dei dati; ad esempio, dati di indagine rispetto a dati raccolti digitalmente ecc.).

2. Fare doppio clic sulle variabili

Le variabili sono la lingua parlante di un dataset, parlano continuamente con te. Devi solo fare le domande giuste e ascoltare attentamente.

→ Domande da porsi: – Cosa significano/rappresentano le variabili? – Le variabili sono continue o categoriche? .. Vi è un ordine intrinseco? – Quali sono i possibili valori che possono assumere?

→ AZIONE:

  • Per le variabili continue – controllare le distribuzioni utilizzando istogrammi, box-plot e studiare attentamente la media, la mediana, la deviazione standard, ecc.
  • Per le variabili categoriche/ordinali – trovare i loro valori unici e creare una tabella di frequenza per verificare quelli più/meno frequenti.

Potresti o meno comprendere tutte le variabili, etichette e valori, ma cerca di ottenere il maggior numero possibile di informazioni

3. Cercare pattern/relazioni nei tuoi dati

Attraverso l’EDA, puoi scoprire pattern, tendenze e relazioni all’interno dei dati.

→ Domande da porsi: – Hai qualche ipotesi o presupposto precedente sulle relazioni tra le variabili? – C’è una ragione aziendale per cui alcune variabili sono correlate tra loro? – Le variabili seguono distribuzioni particolari?

Le tecniche di visualizzazione dei dati, i riepiloghi e l’analisi della correlazione aiutano a rivelare pattern nascosti che potrebbero non essere evidenti a prima vista. Comprendere questi pattern può fornire informazioni preziose per la presa di decisioni o la generazione di ipotesi.

→ AZIONE: Pensa all’analisi bivariata visuale.

  • Nel caso di variabili continue – utilizzare grafici a dispersione, creare matrici di correlazione/heatmap, ecc.
  • Una miscela di variabili continue e ordinali/categoriche – considera la creazione di grafici a barre o a torta e crea vecchie e buone tabelle di contingenza per visualizzare la co-occorrenza.

L’EDA consente di convalidare assunzioni statistiche, come la normalità, la linearità o l’indipendenza, per l’analisi o la modellazione dei dati.

4. Rilevare anomalie.

Ecco la tua occasione per diventare Sherlock Holmes sui tuoi dati e cercare qualsiasi cosa fuori dall’ordinario! Chiediti:

– Ci sono voci duplicate nel dataset?

Le voci duplicate rappresentano lo stesso punto di campionamento più volte. Le voci duplicate non sono utili nella maggior parte dei casi in quanto non forniscono informazioni aggiuntive. Potrebbero essere il risultato di un errore e possono compromettere la media, la mediana e altre statistiche. → Controlla con gli stakeholder e rimuovi tali errori dai tuoi dati.

– Errori di etichettatura per variabili categoriche?

Cerca valori unici per le variabili categoriche e crea un grafico delle frequenze. Cerca errori di ortografia e etichette che potrebbero rappresentare cose simili.

– Alcune variabili hanno valori mancanti?

Questo può verificarsi sia per variabili numeriche che categoriche. Verifica se

  • Ci sono righe con valori mancanti per molte variabili (colonne)? Ciò significa che ci sono punti dati che hanno spazi vuoti nella maggior parte delle colonne → non sono molto utili, potremmo doverli eliminare.
  • Ci sono variabili (o colonne) che presentano valori mancanti in più righe? Ciò significa che ci sono variabili che non hanno valori/etichette nella maggior parte dei punti dati → non possono contribuire molto alla nostra comprensione, potremmo doverle eliminare.

AZIONE:

– Conta la proporzione di valori NULL o mancanti per tutte le variabili. Le variabili con più del 15%-20% dovrebbero destare sospetto.

– Filtra le righe con valori mancanti per una colonna e verifica come appaiono le altre colonne. Succede che la maggior parte delle colonne ha valori mancanti insieme?.. c’è un pattern?

– Ci sono valori anomali nel mio dataset?

La rilevazione dei valori anomali consiste nell’identificare punti dati che non si adattano alla norma. Potresti osservare valori molto alti o estremamente bassi per determinate variabili numeriche o una frequenza alta/bassa per variabili di classe categoriche.

  • Ciò che sembra un valore anomalo può essere un errore nei dati. Mentre i valori anomali sono punti dati insoliti per una distribuzione di caratteristiche data, gli inserimenti indesiderati o gli errori di registrazione sono campioni che non dovrebbero essere presenti in primo luogo.
  • Ciò che sembra un valore anomalo potrebbe essere effettivamente un valore anomalo. In altri casi, potremmo avere semplicemente punti dati con valori estremi e una giustificazione perfettamente valida dietro di essi.

AZIONE::

Studia gli istogrammi, i grafici a dispersione e i grafici a barre di frequenza per capire se ci sono alcuni punti dati che si trovano più lontani dagli altri. Rifletti su: – Possono essere veri e avere questi valori estremi? – C’è una ragione commerciale o una giustificazione per queste estremità? – Aggiungerebbero valore alla tua analisi in una fase successiva?

5. Pulizia dei dati.

La pulizia dei dati si riferisce al processo di rimozione di variabili e valori indesiderati dal tuo dataset e di eliminazione di eventuali irregolarità al suo interno. Queste anomalie possono distorcere in modo sproporzionato i dati e quindi influire negativamente sui risultati della nostra analisi da questo dataset.

Ricorda: Spazzatura in, Spazzatura fuori

– Correggi i tuoi dati.

  • Rimuovi le voci duplicate se ne trovi, i valori mancanti e i valori anomali – che non aggiungono valore al tuo dataset. Elimina righe/colonne superflue.
  • Correggi eventuali errori di ortografia o di etichettatura che osservi nei dati.
  • Irrorigibile i tuoi dati anche di eventuali errori di dati che non aggiungono valore ai dati.

– Limita i valori anomali o lasciali così.

  • In alcuni scenari di modellazione dei dati, potremmo dover limitare i valori anomali ad entrambi gli estremi. Il limite viene spesso imposto al percentile 99esimo/95esimo per l’estremità superiore o al percentile 1°/5° per il limite inferiore.

– Tratta i valori mancanti.

In generale, eliminiamo i punti dati (righe) con molti valori mancanti attraverso le variabili. Allo stesso modo, eliminiamo le variabili (colonne) che presentano valori mancanti in molti punti dati

Se ci sono alcuni valori mancanti, potremmo cercare di colmare queste lacune o lasciarle così come sono.

  • Per le variabili continue con valori mancanti, possiamo colmarli utilizzando valori medi o mediani (magari attraverso una particolare stratificazione)
  • Per i valori mancanti categorici, potremmo assegnare la classe più utilizzata o creare una nuova classe “non definita”.

– Arricchimento dei dati.

In base alle esigenze dell’analisi futura, puoi aggiungere ulteriori caratteristiche (variabili) al tuo dataset; come ad esempio (senza limitazioni)

  • Creare variabili binarie che indicano la presenza o l’assenza di qualcosa.
  • Creare etichette/classi aggiuntive utilizzando clausole IF-THEN-ELSE.
  • Scala o codifica le tue variabili in base alle tue future esigenze di analisi.
  • Combina due o più variabili, utilizzando una serie di funzioni matematiche come somma, differenza, media, log e molte altre trasformazioni.

Sommario

L’EDA consente ai data scientist di scoprire informazioni preziose, affrontare problemi di qualità dei dati e gettare una solida base per ulteriori analisi e modellizzazione. Assicura che i risultati dell’analisi dei dati siano affidabili, accurati ed efficaci.

Componenti chiave dell’EDA:

  1. Comprendi la fonte e il “significato” dei tuoi dati.
  2. Conosci tutte le variabili, le loro distribuzioni, le etichette/classi dentro e fuori.
  3. Cerca schemi/relazioni tra variabili per convalidare eventuali ipotesi o presupposti precedenti.
  4. Rileva eventuali anomalie – errori nei dati, valori anomali, valori mancanti.
  5. Pulizia dei dati – rimuovi o correggi eventuali errori/anomalie nei dati, limita i valori anomali, riempi i valori mancanti (se necessario), scala/trasforma le variabili esistenti e crea altre derivate che arricchiscono il tuo dataset per l’analisi successiva.