Semplificare la tua analisi esplorativa dei dati con questi quattro (4) pacchetti

Semplifica l'analisi esplorativa dei dati con questi 4 pacchetti.

Quattro strumenti essenziali che ogni data scientist dovrebbe avere nel proprio toolbox

Foto di Adam Śmigielski su Unsplash

È un ottimo momento per essere un data scientist! Ciò che richiedeva molto tempo per essere messo insieme può essere automatizzato ora, lasciando molto spazio per migliorare la creazione di insights e la progettazione del modello di machine learning.

Molto è già stato scritto su questi strumenti, e ho voluto aggiungere ancora più valore limitando inizialmente la mia scelta di strumenti, e anche incorporando il mio punto di vista unico ed esperienza nell’utilizzo di queste librerie. Dato che dobbiamo essere metodici al riguardo, vedremo rapidamente che dobbiamo scegliere quale pacchetto funziona meglio nel nostro scenario specifico. Alcuni fattori importanti da considerare sono la velocità, la semplicità, la completezza e la dimensione dei dati.

Questo articolo può essere una continuazione dei seguenti articoli che raccolgono le mie intuizioni sul tema della visualizzazione dei dati:

  • Migliora drasticamente la tua analisi esplorativa dei dati (EDA)
  • Non saltare mai questo passaggio nella tua analisi esplorativa dei dati (EDA)!
  • Migliora la tua visualizzazione: Bar Chart Race

Senza ulteriori indugi, cominciamo!

Il Dataset

Iniziamo scegliendo un dataset che abbia variabili quantitative e categoriche sufficienti. Ciò ci permetterà di apprezzare e criticare ogni pacchetto di visualizzazione per il nostro uso personale.

Otterremo uno da OpenML:

pip install openml

Una volta installato questo pacchetto, procediamo al download del dataset sul Reddito e le Spese delle Famiglie Filippine.

La Philippine Statistics Authority (PSA) conduce regolarmente un’indagine nazionale sul Reddito e le Spese delle Famiglie (FIES) ogni tre anni. L’indagine mira a raccogliere dati sui redditi familiari, i modelli di spesa e altri fattori correlati nelle Filippine.

Questo dataset include variabili selezionate dall’ultima FIES, con oltre 40.000 osservazioni e 60 variabili principalmente incentrate sul reddito e le spese delle famiglie. I dati mirano a affrontare la mancanza di un modello di classificazione socio-economica universalmente accettato nelle Filippine esplorando i migliori modelli per la previsione…