7 Esempi per padroneggiare le operazioni di dati categorici con Python Pandas

7 Esempi per dominare le operazioni con dati categorici utilizzando Python Pandas

Utilizzare il tipo di dati categoria quando si lavora con funzionalità categoriali a bassa cardinalità

(immagine creata dall'autore)

Le variabili categoriche possono assumere un valore tra un numero limitato di valori, che di solito sono fissi. Ecco alcuni esempi di variabili categoriche:

  • Indicatore del livello di competenza in inglese (A1, A2, B1, B2, C1, C2)
  • Gruppo sanguigno di una persona (A, B, AB, 0)
  • Informazioni demografiche come razza e genere
  • Livello di istruzione

Pandas fornisce un tipo di dati dedicato per le variabili categoriche (categoria o CategoricalDtype). Sebbene tali dati possano essere archiviati anche con i tipi di dati oggetto o stringa, ci sono diversi vantaggi nell’utilizzare il tipo di dati categoria. Impareremo su questi vantaggi, ma iniziamo prima con come lavorare con i dati categoriali.

Quando creiamo una Serie o un DataFrame con dati testuali, il suo tipo di dati diventa di default oggetto. Per utilizzare il tipo di dati categoria, dobbiamo definirlo esplicitamente.

import pandas as pd# crea la Serieblood_type = pd.Series(["A", "B", "AB", "0"])print(blood_type)# output0     A1     B2    AB3     0dtype: object# crea la Serie con tipo di dati categoriablood_type = pd.Series(["A", "B", "AB", "0"], dtype="category")print(blood_type)# output0     A1     B2    AB3     0dtype: categoryCategories (4, object): ['0', 'A', 'AB', 'B']

Anche se i valori sono gli stessi, i tipi di dati sono diversi come mostrato con dtype quando si stampa la Serie.

Tratteremo 7 esempi per imparare i seguenti argomenti:

  1. Tipo di dati categoria nei DataFrames
  2. Categorie
  3. Aggiunta e aggiornamento dei valori
  4. Aggiunta e rimozione delle categorie
  5. Ordine tra le categorie
  6. Rinominare le categorie
  7. Vantaggi nell’utilizzare il tipo di dati categoria

Esempio 1 — tipo di dati categoria nei DataFrames

Possiamo dichiarare il tipo di dati categoria quando creiamo la Serie o il DataFrame come abbiamo fatto precedentemente. Possiamo anche convertirli in categoria successivamente utilizzando il…