7 Visualizzazioni con Python per Gestire Dati Categorici Multivariati

7 visualizzazioni con Python per dati categorici multivariati

Idee per visualizzare dati categorici complessi in maniere semplici.

Foto di Kaizen Nguyễn su Unsplash

I dati comuni, come ad esempio il noto dataset del fiore iris o del pinguino, utilizzati per l’analisi, sono piuttosto semplici poiché hanno solo alcune variabili categoriche. Tuttavia, i dati del mondo reale possono essere più complessi e contenere più di due livelli di categorie.

I dati categorici multivariati sono un tipo di dati che ha numerose categorie. Ad esempio, pensiamo al raggruppamento delle persone. Possiamo finire per avere molte possibilità poiché una persona può avere diverse caratteristiche a seconda delle categorie, come il genere, la nazionalità, l’intervallo di salario o il livello di istruzione. Anche i veicoli hanno diverse variabili categoriche come il marchio, il paese di origine, il tipo di carburante, i segmenti, ecc.

Esempi di visualizzazione per mostrare dati categorici multivariati in questo articolo. Immagini dell'autore.

È consigliabile condurre l’analisi esplorativa dei dati (EDA) utilizzando la visualizzazione dei dati per aiutare a comprendere i dati. I grafici come i grafici a barre o a torta sono scelte di base per tracciare dati categorici semplici. Tuttavia, la visualizzazione di dati categorici multivariati può essere più complicata poiché ci sono molti livelli di variabili categoriche. Pertanto, questo articolo guiderà con grafici che possono esprimere dati con più livelli di categorie.

Ottenere i dati

Inizia con l’importazione delle librerie.

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inline

Questo articolo lavorerà con un dataset di prova contenente 5 categorie. Il dataset generato contiene informazioni sui clienti di un negozio di alimentari: posizione, prodotto, pagamento, genere ed intervallo di età. Ogni variabile categorica può essere generata utilizzando la libreria random, come mostrato nel codice seguente.

Il passaggio successivo può essere omesso se si desidera provare il codice di visualizzazione con altri dataset categorici multivariati.