Semplificare la tua analisi esplorativa dei dati con questi quattro (4) pacchetti
Semplifica l'analisi esplorativa dei dati con questi 4 pacchetti.
Quattro strumenti essenziali che ogni data scientist dovrebbe avere nel proprio toolbox
È un ottimo momento per essere un data scientist! Ciò che richiedeva molto tempo per essere messo insieme può essere automatizzato ora, lasciando molto spazio per migliorare la creazione di insights e la progettazione del modello di machine learning.
Molto è già stato scritto su questi strumenti, e ho voluto aggiungere ancora più valore limitando inizialmente la mia scelta di strumenti, e anche incorporando il mio punto di vista unico ed esperienza nell’utilizzo di queste librerie. Dato che dobbiamo essere metodici al riguardo, vedremo rapidamente che dobbiamo scegliere quale pacchetto funziona meglio nel nostro scenario specifico. Alcuni fattori importanti da considerare sono la velocità, la semplicità, la completezza e la dimensione dei dati.
Questo articolo può essere una continuazione dei seguenti articoli che raccolgono le mie intuizioni sul tema della visualizzazione dei dati:
- Migliora drasticamente la tua analisi esplorativa dei dati (EDA)
- Non saltare mai questo passaggio nella tua analisi esplorativa dei dati (EDA)!
- Migliora la tua visualizzazione: Bar Chart Race
Senza ulteriori indugi, cominciamo!
- Trasformazione della ricerca su Catalyst incontra CatBERTa, un modello di intelligenza artificiale basato su Transformer progettato per la previsione energetica utilizzando input testuali
- Come funziona realmente la diffusione stabile? Una spiegazione intuitiva
- Rilevamento della forma dei punti cloud 3D per la modellazione interna
Il Dataset
Iniziamo scegliendo un dataset che abbia variabili quantitative e categoriche sufficienti. Ciò ci permetterà di apprezzare e criticare ogni pacchetto di visualizzazione per il nostro uso personale.
Otterremo uno da OpenML:
pip install openml
Una volta installato questo pacchetto, procediamo al download del dataset sul Reddito e le Spese delle Famiglie Filippine.
La Philippine Statistics Authority (PSA) conduce regolarmente un’indagine nazionale sul Reddito e le Spese delle Famiglie (FIES) ogni tre anni. L’indagine mira a raccogliere dati sui redditi familiari, i modelli di spesa e altri fattori correlati nelle Filippine.
Questo dataset include variabili selezionate dall’ultima FIES, con oltre 40.000 osservazioni e 60 variabili principalmente incentrate sul reddito e le spese delle famiglie. I dati mirano a affrontare la mancanza di un modello di classificazione socio-economica universalmente accettato nelle Filippine esplorando i migliori modelli per la previsione…