Rivoluzionare l’Analisi dei Dati con PandasGUI

Revolutionizing Data Analysis with PandasGUI.

PandasGUI permette un’analisi dei dati senza precedenti semplice ed efficiente.

L’analisi dei dati efficace è fondamentale per le aziende nel mondo guidato dai dati di oggi e Pandas, una libreria Python per la manipolazione e la pulizia dei dati, è diventata un valore inestimabile. Anche se non è facile per i principianti o per coloro che preferiscono approcci più visivi per imparare rapidamente. Ma PandasGUI fornisce una soluzione incredibile: una straordinaria libreria con interfacce utente grafiche per semplificare le capacità di manipolazione e visualizzazione dei dati. Questo articolo mostrerà come installarla e illustrerà le sue notevoli funzionalità che possono migliorare le capacità di analisi dei dati.

Iniziare con PandasGUI

Per iniziare a utilizzare PandasGUI, il primo passo è scaricare il suo pacchetto. Puoi farlo eseguendo il seguente comando nella riga di comando:

pip install pandasgui

Ora puoi caricarlo ed importarlo usando i seguenti comandi:

import pandas as pd
import pandasgui

Se stai utilizzando altri sistemi operativi diversi da Windows, potresti incontrare alcuni problemi a causa dell’assenza della variabile d’ambiente APPDATA. Se stai utilizzando Mac OS o Linux e hai provato ad importare PandasGUI, riceverai un errore simile:

Per risolvere questo problema, un semplice workaround consiste nell’assegnare una stringa vuota come valore per la variabile d’ambiente che causa l’errore. In questo modo, puoi bypassare eventuali errori e consentire al tuo codice di continuare senza interruzioni, una soluzione efficiente che fornisce un rapido sollievo dai problemi in questione.

import os
os.environ['APPDATA'] = ""

Ora puoi importarlo senza errori. Potresti ricevere un messaggio di avviso, il che va bene. La ragione di questo avviso è l’assenza di alcune interfacce consigliate in Mac OS, quindi il sistema fornisce questo avviso.

Il ultimo passaggio è caricare un dataset per usare per dimostrare le funzionalità di questa libreria. Puoi caricare un dataset strutturato a tua scelta o puoi utilizzare il dataset disponibile di PandasGUI. In questo articolo, useremo il dataset Titanic che viene fornito con la libreria PandasGUI.

from pandasgui.datasets import titanic

Ora, siamo pronti per lanciare PandasGUI. Basta chiamare la funzione show() come mostrato nel codice qui sotto:

pandasgui.show(titanic)

Dopo l’esecuzione di questi comandi, si aprirà una nuova finestra per mostrare il tuo dataframe caricato.

Le capacità di PandasGUI

L’interfaccia utente è piuttosto semplice. È composta dai seguenti componenti. Li introdurrò nelle sottosezioni successive.

  • Visualizzazione e ordinamento di DataFrames
  • Rimodellare i DataFrames
  • Filtraggio dei DataFrame
  • Statistiche di sintesi
  • Grafici interattivi

Visualizzazione e ordinamento di DataFrames

La prima funzione di PandasGPU è quella di visualizzare e ordinare i DataFrames in ordine crescente e decrescente. Questo è un passaggio importante per l’esplorazione dei dati e può essere fatto facilmente come mostrato nell’immagine qui sotto:

Rimodellare i DataFrames

PandasGUI fornisce due metodi per rimodellare i dataframes che sono pivot e melt. Il Pivot trasforma i dataframes spostando i valori da una colonna a diverse colonne. Puoi usarlo quando stai cercando di ristrutturare i tuoi dati ruotando attorno a una colonna particolare. Specificando un indice e colonne per le operazioni di pivot, puoi rimodellare il tuo dataframe con maggiore facilità.

D’altra parte, il metodo melt ti consente di srotolare il tuo dataframe, combinando più colonne in una singola, mantenendo però altre come variabili. Questa funzione è particolarmente utile durante la transizione da una forma larga a una forma lunga o nella normalizzazione del tuo dataset.

Nel gif qui sotto, utilizzeremo il metodo pivot per rimodellare il dataframe Titanic:

Filtraggio DataFrame

In molte occasioni, si desidera filtrare i propri dati in base a determinate condizioni per comprendere ulteriormente i dati o per estrarre una certa porzione dal proprio dataset. Per applicare i filtri ai propri dati utilizzando PandasGUI, si deve prima accedere alla sezione dei filtri e scrivere ciascun filtro e quindi applicarlo. Supponiamo di voler ottenere solo i passeggeri che sono:

  • Maschi
  • Appartengono alla Pclass 3
  • Sopravvissuti al naufragio
  • Età compresa tra 30 e 40 anni

Ecco quindi i quattro filtri che applicheremo ai nostri dataset:

  • Sesso == ‘maschio’
  • Pclass == ‘3’
  • Sopravvissuti == 1
  • 30 < Età < 40

Nel gif sottostante è presente una guida passo-passo per applicare questi quattro filtri al dataset del Titanic:

Statistiche riassuntive

È possibile utilizzare PandasGUI anche per fornire una panoramica statistica dettagliata del DataFrame. Questo includerà la media, la deviazione standard, il minimo e il massimo di ogni colonna del dataset.

Grafici interattivi

Infine, PandasGUI fornisce potenti opzioni di grafici interattivi per il proprio dataset che includono:

  • Istogramma
  • Grafico a dispersione
  • Grafico a linee
  • Grafico a barre
  • Grafico a box
  • Grafico a violino
  • Grafico a dispersione 3D
  • Mappa di calore
  • Grafico a contorno
  • Grafico a torta
  • Grafico Splom
  • Word cloud

Nel gif sottostante creeremo tre grafici interattivi per il nostro dataset: un grafico a torta, un grafico a barre e una word cloud. Questo articolo evidenzia le funzionalità di PandasGUI, una potente libreria che aggiunge un’interfaccia utente grafica alla libreria Pandas ampiamente utilizzata. Abbiamo prima dimostrato la sua installazione, caricato un dataset di esempio ed esplorato funzionalità come il filtraggio, la classificazione e l’analisi statistica.

Riferimenti

  • PandasGUI: Analisi dei dataframes Pandas con un’interfaccia utente grafica
  • Tutto ciò che devi sapere su PandasGUI
  • PandasGUI: il segreto definitivo per un’analisi dati senza sforzo

Youssef Rafaat è un ricercatore di computer vision e data scientist. La sua ricerca si concentra sullo sviluppo di algoritmi di computer vision in tempo reale per applicazioni sanitarie. Ha inoltre lavorato come data scientist per più di 3 anni nei settori del marketing, della finanza e della sanità.