7 Visualizzazioni con Python per Gestire Dati Categorici Multivariati
7 visualizzazioni con Python per dati categorici multivariati
Idee per visualizzare dati categorici complessi in maniere semplici.
I dati comuni, come ad esempio il noto dataset del fiore iris o del pinguino, utilizzati per l’analisi, sono piuttosto semplici poiché hanno solo alcune variabili categoriche. Tuttavia, i dati del mondo reale possono essere più complessi e contenere più di due livelli di categorie.
I dati categorici multivariati sono un tipo di dati che ha numerose categorie. Ad esempio, pensiamo al raggruppamento delle persone. Possiamo finire per avere molte possibilità poiché una persona può avere diverse caratteristiche a seconda delle categorie, come il genere, la nazionalità, l’intervallo di salario o il livello di istruzione. Anche i veicoli hanno diverse variabili categoriche come il marchio, il paese di origine, il tipo di carburante, i segmenti, ecc.
È consigliabile condurre l’analisi esplorativa dei dati (EDA) utilizzando la visualizzazione dei dati per aiutare a comprendere i dati. I grafici come i grafici a barre o a torta sono scelte di base per tracciare dati categorici semplici. Tuttavia, la visualizzazione di dati categorici multivariati può essere più complicata poiché ci sono molti livelli di variabili categoriche. Pertanto, questo articolo guiderà con grafici che possono esprimere dati con più livelli di categorie.
- Analisi delle prestazioni e ottimizzazione del modello PyTorch – Parte 6
- Valutazione dell’impatto totale dell’esperimento
- Ripensare l’Assicurazione della Qualità nell’era dell’AI Generativa
Ottenere i dati
Inizia con l’importazione delle librerie.
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inline
Questo articolo lavorerà con un dataset di prova contenente 5 categorie. Il dataset generato contiene informazioni sui clienti di un negozio di alimentari: posizione, prodotto, pagamento, genere ed intervallo di età. Ogni variabile categorica può essere generata utilizzando la libreria random, come mostrato nel codice seguente.
Il passaggio successivo può essere omesso se si desidera provare il codice di visualizzazione con altri dataset categorici multivariati.