Interprete di codice ChatGPT Fai Data Science in pochi minuti
Interprete di codice ChatGPT Data Science in pochi minuti
Come scienziato dei dati, sono sempre alla ricerca di modi per massimizzare l’efficienza e creare valore commerciale con i dati.
Quindi, quando ChatGPT ha rilasciato una delle sue caratteristiche più potenti fino ad ora – il plugin Code Interpreter, ho semplicemente dovuto provarlo e incorporarlo nei miei flussi di lavoro.
- Amazon Vs Google Vs Microsoft La corsa per rivoluzionare la sanità con l’intelligenza artificiale
- Esplorare i pattern di progettazione nei sistemi di Machine Learning per migliorare le prestazioni e l’usabilità
- Spotify adotta l’IA dalle playlist personalizzate agli annunci audio
Cos’è ChatGPT Code Interpreter?
Se ancora non hai sentito parlare di Code Interpreter, si tratta di una nuova funzionalità che ti consente di caricare codice, eseguire programmi e analizzare dati all’interno dell’interfaccia di ChatGPT.
Nell’ultimo anno, ogni volta che ho dovuto fare il debug del codice o analizzare un documento, dovevo copiare il mio lavoro e incollarlo in ChatGPT per ottenere una risposta.
Questo si è rivelato essere un processo che richiedeva tempo e l’interfaccia di ChatGPT ha un limite di caratteri, che limitava la mia capacità di analizzare dati ed eseguire flussi di lavoro di apprendimento automatico.
Il Code Interpreter risolve tutti questi problemi consentendoti di caricare i tuoi dataset nell’interfaccia di ChatGPT.
E anche se viene chiamato “Code Interpreter”, questa funzionalità non è limitata ai programmatori – il plugin può aiutarti ad analizzare file di testo, riassumere documenti in PDF, creare visualizzazioni dei dati e persino ritagliare immagini secondo il rapporto desiderato.
Come puoi accedere a Code Interpreter?
Prima di vedere le sue applicazioni, vediamo rapidamente come puoi iniziare a utilizzare il plugin Code Interpreter.
Per accedere a questo plugin, devi avere un abbonamento a pagamento a ChatGPT Plus, che attualmente costa $20 al mese.
Purtroppo, Code Interpreter non è disponibile per gli utenti che non sono abbonati a ChatGPT Plus.
Una volta che hai un abbonamento a pagamento, vai semplicemente su ChatGPT e clicca sui tre puntini in basso a sinistra dell’interfaccia.
Quindi, seleziona Impostazioni:
Clicca su “Funzioni Beta” e abilita lo slider che dice Code Interpreter:
Infine, clicca su “Nuova Chat”, seleziona l’opzione “GPT-4” e seleziona “Code Interpreter” dalla tendina che appare:
Vedrai uno schermo simile a questo, con un simbolo “+” vicino alla casella di testo:
Grande! Hai ora abilitato con successo il Code Interpreter di ChatGPT.
In questo articolo, ti mostrerò cinque modi in cui puoi utilizzare il Code Interpreter per automatizzare i flussi di lavoro della scienza dei dati.
1. Riassunto dei dati
Come scienziato dei dati, passo molto tempo semplicemente cercando di capire le diverse variabili presenti nel dataset.
Code Interpreter fa un ottimo lavoro nel suddividere ogni punto dati per te.
Ecco come puoi far sì che il modello ti aiuti a riassumere i dati:
Utilizziamo il dataset sulla previsione della sopravvivenza del Titanic su Kaggle come esempio. Userò il file “train.csv”.
Scarica il dataset e vai su Code Interpreter:
Clicca sul simbolo “+” e carica il file che vuoi riassumere.
Quindi, chiedi a ChatGPT di spiegarti tutte le variabili presenti in questo file in termini semplici:
Voilà!
Code Interpreter ci ha fornito spiegazioni semplici di ogni variabile nel dataset.
2. Analisi dei dati esplorativa
Ora che abbiamo una comprensione delle diverse variabili nel dataset, chiediamo a Code Interpreter di andare un passo oltre e eseguire un’analisi dei dati esplorativa.
Il modello ha generato 5 grafici che ci permettono di comprendere meglio le diverse variabili in questo dataset.
Se fai clic sul menu a tendina “Mostra lavoro”, noterai che Code Interpreter ha scritto ed eseguito del codice Python per aiutarci a ottenere il risultato finale:
Immagine dell’autore
Puoi sempre copiare e incollare questo codice nel tuo Jupyter Notebook se desideri eseguire ulteriori analisi.
ChatGPT ci ha anche fornito alcune informazioni sul dataset basate sulle visualizzazioni generate:
Immagine dell’autore
Sta dicendo che le donne, i passeggeri di prima classe e i passeggeri più giovani avevano tassi di sopravvivenza più alti.
Queste sono informazioni che richiederebbero tempo per essere ottenute manualmente, specialmente se non si è molto familiari con Python e le librerie di visualizzazione dei dati come Matplotlib.
Code Interpreter le ha generato in pochi secondi, riducendo significativamente il tempo necessario per eseguire l’analisi dei dati esplorativa.
3. Preelaborazione dei dati
Trascorro molto tempo pulendo i dataset e preparandoli per il processo di modellazione.
Chiediamo a Code Interpreter di aiutarci a preelaborare questo dataset:
Immagine dell’autore
Code Interpreter ha delineato tutti i passaggi coinvolti nel processo di pulizia di questo dataset.
Sta dicendo che dobbiamo gestire tre colonne con valori mancanti, codificare due variabili categoriche, eseguire un po’ di ingegneria delle caratteristiche e eliminare le colonne non rilevanti per il processo di modellazione.
Ha quindi creato un programma Python che ha eseguito tutte le operazioni di preelaborazione in pochi secondi.
Puoi fare clic su “Mostra lavoro” se desideri capire i passaggi eseguiti dal modello per eseguire la pulizia dei dati:
Immagine dell’autore
Poi ho chiesto a ChatGPT come salvare il file di output e mi ha fornito un file CSV scaricabile:
Immagine dell’autore
Nota che non ho nemmeno dovuto eseguire una riga di codice durante questo processo.
Code Interpreter è stato in grado di elaborare il mio file, eseguire il codice nell’interfaccia e fornirmi l’output in tempi record.
4. Creazione di modelli di apprendimento automatico
Infine, ho chiesto a Code Interpreter di utilizzare il file preelaborato per creare un modello di apprendimento automatico per prevedere se una persona sopravviverà al naufragio del Titanic:
Immagine dell’autore
Ha costruito il modello in meno di un minuto ed è stato in grado di raggiungere un’accuratezza del 83,2%.
Ha anche fornito una matrice di confusione e un rapporto di classificazione che riassume le prestazioni del modello e ha spiegato cosa rappresentano tutte le metriche:
Immagine dell’autore
Ho chiesto a ChatGPT di fornirmi un file di output che mappi le previsioni del modello con i dati dei passeggeri.
Volevo anche un file scaricabile del modello di apprendimento automatico creato, poiché possiamo sempre eseguire ulteriori ottimizzazioni e addestrarlo in futuro:
Immagine dell’autore
5. Spiegazioni del codice
Un’altra applicazione del Code Interpreter che ho trovato utile è la sua capacità di fornire spiegazioni del codice.
Proprio l’altro giorno, stavo lavorando su un modello di analisi del sentiment e ho trovato del codice su GitHub che era pertinente al mio caso d’uso.
Non ho capito l’intero codice, in quanto l’autore aveva importato librerie con cui non ero familiare.
Con il Code Interpreter, è possibile caricare semplicemente un file di codice e chiedergli di spiegare chiaramente ogni riga.
È anche possibile chiedergli di eseguire il debug e ottimizzare il codice per una migliore performance.
Ecco un esempio: ho caricato un file contenente del codice che ho scritto anni fa per creare un dashboard in Python:
Immagine dell’autore
Il Code Interpreter ha suddiviso il mio codice e ha chiaramente delineato cosa è stato fatto in ogni sezione.
Immagine dell’autore
Ha anche suggerito di ristrutturare il mio codice per una maggiore leggibilità e ha spiegato dove avrei potuto includere nuove sezioni.
Invece di farlo da solo, ho semplicemente chiesto al Code Interpreter di ristrutturare il codice e fornirmi una versione migliorata:
Immagine dell’autore
Il Code Interpreter ha riscritto il mio codice per racchiudere ciascuna visualizzazione in funzioni separate, rendendolo più facile da capire e aggiornare.
Cosa significa il Code Interpreter di ChatGPT per i data scientist?
C’è molta eccitazione attorno al Code Interpreter in questo momento, poiché è la prima volta che assistiamo a uno strumento in grado di assimilare il codice, comprendere il linguaggio naturale e svolgere flussi di lavoro completi di data science.
Tuttavia, è importante tenere presente che si tratta solo di un altro strumento che ci aiuterà a svolgere la data science in modo più efficiente.
Fino ad ora, l’ho utilizzato per creare modelli di base su dati di prova, poiché non mi è consentito caricare informazioni sensibili dell’azienda sull’interfaccia di ChatGPT.
Inoltre, il Code Interpreter non possiede conoscenze specifiche del dominio. Di solito utilizzo le previsioni che genera come previsioni di base; spesso devo però modificare l’output generato in base al caso d’uso dell’organizzazione.
Non posso presentare i numeri generati da un algoritmo che non ha visibilità sulle dinamiche interne dell’azienda.
Infine, non utilizzo il Code Interpreter per ogni progetto, poiché alcuni dati con cui lavoro comprendono milioni di righe e risiedono in database SQL.
Ciò significa che devo ancora svolgere gran parte delle interrogazioni, l’estrazione dei dati e la trasformazione da solo.
Se sei un data scientist alle prime armi o aspiri a diventarlo, ti suggerirei di imparare come sfruttare strumenti come il Code Interpreter per svolgere in modo più efficiente le parti noiose del tuo lavoro.
Questo è tutto per questo articolo, grazie per la lettura! Natassha Selvaraj è una data scientist autodidatta con una passione per la scrittura. Puoi connetterti con lei su LinkedIn.