Python in Excel Questo cambierà per sempre la Data Science

Python in Excel cambierà per sempre la Data Science

 

Come data scientist che lavora nell’industria, l’ultimo anno è sembrato una montagna russa di nuove scoperte tecnologiche e innovazioni nell’ambito dell’IA.

Strumenti come ChatGPT, Notable, Pandas AI e il Code Interpreter mi hanno permesso di risparmiare molto tempo nello svolgere attività come scrittura, ricerca, programmazione e analisi dei dati.

E proprio quando pensavo che le cose non potessero migliorare ulteriormente, Microsoft e Anaconda hanno annunciato l’integrazione di Python in Excel!

Ora è possibile scrivere codice Python per analizzare dati, costruire modelli di machine learning e creare visualizzazioni all’interno dei fogli di calcolo di Excel.

 

Allora… Perché tutto questo entusiasmo intorno all’integrazione di Python in Excel?

 

La possibilità di scrivere codice Python in Excel aprirà nuove opportunità per i data scientist e gli analisti.

Quando ho ottenuto il mio primo lavoro come data scientist, pensavo di passare la maggior parte del mio tempo a lavorare su Jupyter Notebooks. Invece, già il primo giorno di lavoro mi sono dovuto familiarizzare con Excel, poiché la dirigenza, gli stakeholder e i clienti preferivano interpretare i risultati dai fogli di calcolo.

In effetti, in passato ho creato dashboard in Tableau per presentare i risultati ai clienti, solo per dover ricostruire i grafici in Excel, dato che erano più familiari con questa piattaforma.

E questo non è un caso isolato nella mia organizzazione. Nel 2023, oltre un milione di aziende e 1,5 miliardi di persone in tutto il mondo utilizzano Excel.

Molti professionisti del settore dei dati, come me, si trovano costantemente a passare da IDE Python a fogli di calcolo Excel. Utilizziamo il primo per costruire modelli di machine learning e analizzare i dati, mentre utilizziamo il secondo per presentare i risultati.

L’integrazione di Python in Excel aiuterà i data scientist e gli analisti a semplificare il proprio lavoro, consentendo loro di eseguire analisi dei dati, modellazione e presentazione all’interno di una singola piattaforma.

Ancora non convinto?

Esploriamo alcune possibili applicazioni di questa combinazione.

 

Modi in cui i Data Scientist possono utilizzare Python in Excel

 

Ecco alcuni modi in cui i data scientist possono combinare la funzionalità dei fogli di calcolo con le numerose librerie di Python:

 

1. Pre-elaborazione dei dati

 

Se c’è una parte del mio lavoro che vorrei delegare, è la preparazione dei dati. Questo è un compito laborioso che diventa estremamente dispendioso in termini di tempo quando si utilizzano le funzioni native di Excel.

Con l’integrazione di Python in Excel, gli utenti possono ora importare librerie come Pandas direttamente in Excel e eseguire filtri avanzati e aggregazioni dei dati direttamente nei fogli di calcolo.

Puoi semplicemente digitare “=PY” in una cella del foglio di calcolo e selezionare i dati che desideri analizzare con Python, e verrà creato per te un dataframe di Pandas. Puoi quindi procedere a raggruppare e manipolare questi dati come faresti in un Jupyter Notebook.

Ecco un esempio di come puoi creare un dataframe di Pandas in Excel:

 

 

2. Machine Learning

 

Sebbene Excel offra strumenti di base come la regressione lineare e l’adattamento delle linee di tendenza nei grafici, la maggior parte dei casi d’uso di machine learning richiede tecniche di modellazione più complesse che vanno oltre le capacità native di Excel.

Con questa integrazione di Python in Excel, gli utenti possono ora costruire e allenare modelli statistici avanzati all’interno di Excel utilizzando librerie come Scikit-Learn. I risultati del modello possono essere visualizzati e presentati in Excel, colmando il divario tra modellazione e processo decisionale in una singola piattaforma.

Ecco un’immagine che mostra quanto sia semplice costruire un classificatore ad albero decisionale in Excel con Python:

 

 

3. Analisi dei dati

 

Il processo di analisi dei dati in Excel può essere laborioso: quando si lavora con più file contemporaneamente, gli utenti devono copiare e incollare i dati manualmente, trascinare le formule tra le celle e combinare i dati manualmente.

Ad esempio, se ho cinque fogli di dati mensili sulle vendite che assomigliano a questo:

   

Se volessi trovare i prodotti con più di 100 unità vendute in un mese, dovrei prima copiare manualmente i dati da tutti i fogli e incollarli sotto i dati nel primo foglio. Poi dovrei cambiare il formato data e creare una tabella pivot.

Infine, dovrei aggiungere un filtro per trovare i prodotti che corrispondono ai miei criteri.

Ogni volta che ricevo nuovi dati sulle vendite in un file o foglio diverso, devo copiarli e incollarli manualmente.

Questo processo diventa sempre più difficile e soggetto a errori man mano che aumenta la quantità di dati.

Invece, l’intera analisi può essere semplificata in Python utilizzando le seguenti righe di codice:

# 1. Unisci i dati
df_merged = pd.concat([df_jan, df_feb], ignore_index=True)

# 2. Converti il formato data
df_merged['Data'] = pd.to_datetime(df_merged['Data']).dt.strftime('%Y-%m-%d')

# 3. Calcola il totale delle unità vendute per ogni prodotto
grouped_data = df_merged.groupby('Prodotto').agg({'Unità vendute': 'sum'}).reset_index()

# 4. Identifica i prodotti che hanno venduto più di 100 unità
prodotti_oltre_100 = grouped_data[grouped_data['Unità vendute'] > 100]

prodotti_oltre_100

 

Ogni volta che arrivano nuovi dati, basta modificare una riga di codice e rieseguire il programma per ottenere il risultato desiderato. Con un’integrazione Python-Excel, posso massimizzare l’efficienza supervisionando l’intero flusso di lavoro dell’analisi dei dati all’interno di una singola piattaforma.

 

4. Visualizzazione dei dati

 

Anche se Excel offre molte opzioni di visualizzazione, lo strumento è ancora limitato per quanto riguarda i tipi di grafici che è possibile creare. Grafici come i violin plot, le heatmap e i pair plot non sono facilmente disponibili in Excel, rendendo difficile per i data scientist rappresentare relazioni statistiche complesse.

La possibilità di eseguire codice Python consentirà agli utenti di Excel di utilizzare librerie come Matplotlib e Seaborn per creare grafici più complessi e altamente personalizzabili.

 

 

Come puoi usare Python in Excel?

 

Al momento della stesura di questo articolo, la funzione Python-Excel è disponibile solo tramite il programma Microsoft 365 Insider. Devi iscriverti e scegliere il livello di Insider Channel Beta per accedere a questa funzione, poiché non è ancora stata resa disponibile al pubblico.

Una volta iscritto al programma 365 Insider, troverai una sezione Python nella scheda Formule. Devi semplicemente fare clic su “Inserisci Python”. Puoi fare clic su di esso per iniziare a scrivere il tuo codice Python.

In alternativa, puoi semplicemente digitare =PY in qualsiasi cella per iniziare.

 

 

Un’integrazione Python-Excel democratizzerà la scienza dei dati

 

Con il rilascio di ChatGPT, insieme a plugin come il Code Interpreter e Notable, molte attività che richiedevano una forte competenza tecnica sono diventate più facili da eseguire.

Questo è particolarmente vero per i data scientist e gli analisti: ora è possibile caricare file CSV su ChatGPT e questo pulirà, analizzerà e costruirà modelli sui tuoi dati.

A mio parere, l’integrazione Python-Excel ci avvicina sempre di più alla democratizzazione della scienza dei dati e dell’analisi.

In settori come il marketing e la finanza, gli esperti di settore che lavorano esclusivamente in Excel saranno ora in grado di eseguire codice Python per analizzare i loro dati senza nemmeno dover scaricare un IDE di programmazione.

La possibilità di lavorare con i dati in un’interfaccia con cui sono familiari, unita alla competenza di ChatGPT nella scrittura del codice, consentirà ai non programmatori di eseguire flussi di lavoro di data science e risolvere problemi con codice Python.

Se sei un utente di Excel che non sa come programmare, questa è una grande opportunità per imparare la programmazione Python all’interno di un’interfaccia con cui ti senti già a tuo agio.     Natassha Selvaraj è una data scientist autodidatta con una passione per la scrittura. Puoi connetterti con lei su LinkedIn.