Interprete di codice ChatGPT Fai Data Science in pochi minuti

Interprete di codice ChatGPT Data Science in pochi minuti

 

Come scienziato dei dati, sono sempre alla ricerca di modi per massimizzare l’efficienza e creare valore commerciale con i dati.

Quindi, quando ChatGPT ha rilasciato una delle sue caratteristiche più potenti fino ad ora – il plugin Code Interpreter, ho semplicemente dovuto provarlo e incorporarlo nei miei flussi di lavoro.

 

Cos’è ChatGPT Code Interpreter?

 

Se ancora non hai sentito parlare di Code Interpreter, si tratta di una nuova funzionalità che ti consente di caricare codice, eseguire programmi e analizzare dati all’interno dell’interfaccia di ChatGPT.

Nell’ultimo anno, ogni volta che ho dovuto fare il debug del codice o analizzare un documento, dovevo copiare il mio lavoro e incollarlo in ChatGPT per ottenere una risposta.

Questo si è rivelato essere un processo che richiedeva tempo e l’interfaccia di ChatGPT ha un limite di caratteri, che limitava la mia capacità di analizzare dati ed eseguire flussi di lavoro di apprendimento automatico.

Il Code Interpreter risolve tutti questi problemi consentendoti di caricare i tuoi dataset nell’interfaccia di ChatGPT.

E anche se viene chiamato “Code Interpreter”, questa funzionalità non è limitata ai programmatori – il plugin può aiutarti ad analizzare file di testo, riassumere documenti in PDF, creare visualizzazioni dei dati e persino ritagliare immagini secondo il rapporto desiderato.

 

Come puoi accedere a Code Interpreter?

 

Prima di vedere le sue applicazioni, vediamo rapidamente come puoi iniziare a utilizzare il plugin Code Interpreter.

Per accedere a questo plugin, devi avere un abbonamento a pagamento a ChatGPT Plus, che attualmente costa $20 al mese.

Purtroppo, Code Interpreter non è disponibile per gli utenti che non sono abbonati a ChatGPT Plus.

Una volta che hai un abbonamento a pagamento, vai semplicemente su ChatGPT e clicca sui tre puntini in basso a sinistra dell’interfaccia.

Quindi, seleziona Impostazioni:

   

Clicca su “Funzioni Beta” e abilita lo slider che dice Code Interpreter:

   

Infine, clicca su “Nuova Chat”, seleziona l’opzione “GPT-4” e seleziona “Code Interpreter” dalla tendina che appare:

Vedrai uno schermo simile a questo, con un simbolo “+” vicino alla casella di testo:

   

Grande! Hai ora abilitato con successo il Code Interpreter di ChatGPT.

In questo articolo, ti mostrerò cinque modi in cui puoi utilizzare il Code Interpreter per automatizzare i flussi di lavoro della scienza dei dati.

 

1. Riassunto dei dati

 

Come scienziato dei dati, passo molto tempo semplicemente cercando di capire le diverse variabili presenti nel dataset.

Code Interpreter fa un ottimo lavoro nel suddividere ogni punto dati per te.

Ecco come puoi far sì che il modello ti aiuti a riassumere i dati:

Utilizziamo il dataset sulla previsione della sopravvivenza del Titanic su Kaggle come esempio. Userò il file “train.csv”.

Scarica il dataset e vai su Code Interpreter:

   

Clicca sul simbolo “+” e carica il file che vuoi riassumere.

Quindi, chiedi a ChatGPT di spiegarti tutte le variabili presenti in questo file in termini semplici:

   

Voilà!

Code Interpreter ci ha fornito spiegazioni semplici di ogni variabile nel dataset.

 

2. Analisi dei dati esplorativa

 

Ora che abbiamo una comprensione delle diverse variabili nel dataset, chiediamo a Code Interpreter di andare un passo oltre e eseguire un’analisi dei dati esplorativa.

   

Il modello ha generato 5 grafici che ci permettono di comprendere meglio le diverse variabili in questo dataset.

Se fai clic sul menu a tendina “Mostra lavoro”, noterai che Code Interpreter ha scritto ed eseguito del codice Python per aiutarci a ottenere il risultato finale:

  Immagine dell’autore  

Puoi sempre copiare e incollare questo codice nel tuo Jupyter Notebook se desideri eseguire ulteriori analisi.

ChatGPT ci ha anche fornito alcune informazioni sul dataset basate sulle visualizzazioni generate:

  Immagine dell’autore  

Sta dicendo che le donne, i passeggeri di prima classe e i passeggeri più giovani avevano tassi di sopravvivenza più alti.

Queste sono informazioni che richiederebbero tempo per essere ottenute manualmente, specialmente se non si è molto familiari con Python e le librerie di visualizzazione dei dati come Matplotlib.

Code Interpreter le ha generato in pochi secondi, riducendo significativamente il tempo necessario per eseguire l’analisi dei dati esplorativa.

 

3. Preelaborazione dei dati

 

Trascorro molto tempo pulendo i dataset e preparandoli per il processo di modellazione.

Chiediamo a Code Interpreter di aiutarci a preelaborare questo dataset:

  Immagine dell’autore  

Code Interpreter ha delineato tutti i passaggi coinvolti nel processo di pulizia di questo dataset.

Sta dicendo che dobbiamo gestire tre colonne con valori mancanti, codificare due variabili categoriche, eseguire un po’ di ingegneria delle caratteristiche e eliminare le colonne non rilevanti per il processo di modellazione.

Ha quindi creato un programma Python che ha eseguito tutte le operazioni di preelaborazione in pochi secondi.

Puoi fare clic su “Mostra lavoro” se desideri capire i passaggi eseguiti dal modello per eseguire la pulizia dei dati:

  Immagine dell’autore  

Poi ho chiesto a ChatGPT come salvare il file di output e mi ha fornito un file CSV scaricabile:

  Immagine dell’autore  

Nota che non ho nemmeno dovuto eseguire una riga di codice durante questo processo.

Code Interpreter è stato in grado di elaborare il mio file, eseguire il codice nell’interfaccia e fornirmi l’output in tempi record.

 

4. Creazione di modelli di apprendimento automatico

 

Infine, ho chiesto a Code Interpreter di utilizzare il file preelaborato per creare un modello di apprendimento automatico per prevedere se una persona sopravviverà al naufragio del Titanic:

  Immagine dell’autore  

Ha costruito il modello in meno di un minuto ed è stato in grado di raggiungere un’accuratezza del 83,2%.

Ha anche fornito una matrice di confusione e un rapporto di classificazione che riassume le prestazioni del modello e ha spiegato cosa rappresentano tutte le metriche:

  Immagine dell’autore  

Ho chiesto a ChatGPT di fornirmi un file di output che mappi le previsioni del modello con i dati dei passeggeri.

Volevo anche un file scaricabile del modello di apprendimento automatico creato, poiché possiamo sempre eseguire ulteriori ottimizzazioni e addestrarlo in futuro:

  Immagine dell’autore

 

5. Spiegazioni del codice 

 

Un’altra applicazione del Code Interpreter che ho trovato utile è la sua capacità di fornire spiegazioni del codice.

Proprio l’altro giorno, stavo lavorando su un modello di analisi del sentiment e ho trovato del codice su GitHub che era pertinente al mio caso d’uso.

Non ho capito l’intero codice, in quanto l’autore aveva importato librerie con cui non ero familiare.

Con il Code Interpreter, è possibile caricare semplicemente un file di codice e chiedergli di spiegare chiaramente ogni riga.

È anche possibile chiedergli di eseguire il debug e ottimizzare il codice per una migliore performance.

Ecco un esempio: ho caricato un file contenente del codice che ho scritto anni fa per creare un dashboard in Python:

  Immagine dell’autore  

Il Code Interpreter ha suddiviso il mio codice e ha chiaramente delineato cosa è stato fatto in ogni sezione.

  Immagine dell’autore  

Ha anche suggerito di ristrutturare il mio codice per una maggiore leggibilità e ha spiegato dove avrei potuto includere nuove sezioni.

Invece di farlo da solo, ho semplicemente chiesto al Code Interpreter di ristrutturare il codice e fornirmi una versione migliorata:

  Immagine dell’autore  

Il Code Interpreter ha riscritto il mio codice per racchiudere ciascuna visualizzazione in funzioni separate, rendendolo più facile da capire e aggiornare.

 

Cosa significa il Code Interpreter di ChatGPT per i data scientist?

 

C’è molta eccitazione attorno al Code Interpreter in questo momento, poiché è la prima volta che assistiamo a uno strumento in grado di assimilare il codice, comprendere il linguaggio naturale e svolgere flussi di lavoro completi di data science.

Tuttavia, è importante tenere presente che si tratta solo di un altro strumento che ci aiuterà a svolgere la data science in modo più efficiente.

Fino ad ora, l’ho utilizzato per creare modelli di base su dati di prova, poiché non mi è consentito caricare informazioni sensibili dell’azienda sull’interfaccia di ChatGPT.

Inoltre, il Code Interpreter non possiede conoscenze specifiche del dominio. Di solito utilizzo le previsioni che genera come previsioni di base; spesso devo però modificare l’output generato in base al caso d’uso dell’organizzazione.

Non posso presentare i numeri generati da un algoritmo che non ha visibilità sulle dinamiche interne dell’azienda.

Infine, non utilizzo il Code Interpreter per ogni progetto, poiché alcuni dati con cui lavoro comprendono milioni di righe e risiedono in database SQL.

Ciò significa che devo ancora svolgere gran parte delle interrogazioni, l’estrazione dei dati e la trasformazione da solo.

Se sei un data scientist alle prime armi o aspiri a diventarlo, ti suggerirei di imparare come sfruttare strumenti come il Code Interpreter per svolgere in modo più efficiente le parti noiose del tuo lavoro. 

Questo è tutto per questo articolo, grazie per la lettura!     Natassha Selvaraj è una data scientist autodidatta con una passione per la scrittura. Puoi connetterti con lei su LinkedIn.