Optimizzazione dell’analisi dei dati l’integrazione di GitHub Copilot in Databricks

Migliorare l'analisi dei dati attraverso l'integrazione di GitHub Copilot in Databricks

 

Introduzione

 

GitHub Copilot è un assistente di completamento del codice alimentato dall’intelligenza artificiale sviluppato da GitHub in collaborazione con OpenAI, sfruttando il modello ChatGPT. È progettato per aiutare gli sviluppatori ad accelerare il processo di codifica riducendo al minimo gli errori. Il modello sottostante è addestrato su una combinazione di codice con licenza dai propri repository GitHub e di codice pubblicamente disponibile, dotandolo di una comprensione ampia dei paradigmi di programmazione.

D’altra parte, Databricks, una piattaforma di analisi aperta e basata su cloud fondata dai creatori originali di Apache Spark, potenzia le organizzazioni nella costruzione di pipeline di analisi dei dati e di apprendimento automatico in modo fluido, accelerando così l’innovazione. Inoltre, favorisce il lavoro collaborativo tra gli utenti.

Integrando GitHub Copilot con Databricks, gli ingegneri di analisi dei dati e di apprendimento automatico possono implementare soluzioni in modo efficiente e tempestivo. Questa integrazione facilita lo sviluppo di codice più fluido, migliora la qualità e la standardizzazione del codice, aumenta l’efficienza tra linguaggi diversi, accelera lo sviluppo del prototipo e aiuta nella documentazione, elevando di conseguenza la produttività e l’efficienza degli ingegneri.

Prerequisiti per l’integrazione di GitHub Copilot e Databricks:

Account Databricks configurato.

Configurazione di GitHub Copilot.

Scarica e installa Visual Studio Code

 

Passaggi per l’integrazione

 

Installa il Plugin Databricks nel Marketplace di Visual Studio Code.

  

Configura il Plugin Databricks in Visual Studio Code. Se hai già utilizzato Databricks CLI in precedenza, sarà già configurato localmente nel file databrickscfg. Se non lo hai ancora utilizzato, crea il seguente contenuto nel file ~/.databrickscfg.

[DEFAULT]host = https://xxxtoken = <token>jobs-api-version = 2.0

 

Fai clic sull’opzione “Configura Databricks”, quindi scegli la prima opzione dal menu a discesa, che visualizza l’hostname configurato nel passaggio precedente, e continua con il profilo “DEFAULT”.

  

Dopo aver completato la configurazione, viene stabilita una connessione Databricks con Visual Studio Code. Puoi vedere i dettagli di configurazione dello spazio di lavoro e del cluster cliccando sul plugin Databricks.

Una volta completata la configurazione dell’account GitHub Copilot, assicurati di avere accesso a GitHub Copilot. Installa GitHub Copilot e GitHub Copilot Chat Plugins in VSCode tramite il Marketplace.

  

Dopo aver installato i plugin GitHub Copilot & Copilot Chat, ti verrà richiesto di accedere a GitHub Copilot tramite l’IDE di Visual Studio. Se non viene chiesto di autorizzare, fai clic sull’icona a forma di campana nel pannello inferiore di Visual Studio Code IDE.

  

Ora è il momento di sviluppare con GitHub Copilot.

 

Sviluppo di una pipeline di ingegneria dei dati

 

Gli ingegneri dei dati possono utilizzare GitHub Copilot per scrivere pipeline di ingegneria dei dati a portata di mano e a un ritmo più veloce, incluso la documentazione, in tempi rapidi. Di seguito sono riportati i passaggi per creare una semplice pipeline di ingegneria dei dati con tecniche di suggerimento.

Leggi i file dal bucket S3 utilizzando Python e il framework Spark.

  

Scrivi dataframe su bucket S3 usando Python e framework Spark

  

Esegui le funzioni attraverso il metodo principale: rappresentato allo stesso modo nel prompt e risultante dal codice con i passaggi di esecuzione

 

 

Benefici dell’utilizzo di GitHub Copilot per l’Ingegneria dei Dati e l’Apprendimento Automatico in Databricks

 

  • Un valido strumento di programmazione assistita dall’IA per suggerimenti rapidi e sensati e fornisce codice boilerplate.
  • Suggerimenti di prima classe per ottimizzare il codice e il tempo di esecuzione.
  • Migliore documentazione e rappresentazione ASCII per i passaggi logici.
  • Implementazione più rapida di un’infrastruttura di dati con errori minimi.
  • Spiega dettagliatamente la semplice/complessa funzionalità esistente suggerendo tecniche di refactoring del codice intelligenti.

 

Cheat Sheet

 

  • Apre una barra di ricerca/testo Co-pilot in cui è possibile inserire i propri prompt.

     Windows: [Cltr] + [I] 

    Mac: Comando + [I]

  • Apre una finestra separata a destra con i primi 10 suggerimenti di codice.

    Windows: [Cltr] + [Invio]

    Mac: [control] + [Invio]

  

  • Apre una finestra di chat separata di Copilot sul lato sinistro.

    Windows: [Cltr] + [Alt] + [I]

    Mac: [Control] + [Comando] + [I]

  • Elimina una suggerimento inline.

    Windows/Mac: Esc

  • Accetta un suggerimento.

    Windows/Mac: Tab

  • Fai riferimento ai suggerimenti precedenti.

    Windows: [Alt] + [

    Mac: [Opzione] + [

  • Controlla il suggerimento successivo

    Windows: [Alt] + ]

    Mac: [Opzione] + ]

 

Conclusione

 

L’integrazione degli strumenti di programmazione assistita dall’IA con gli ambienti di sviluppo integrati aiuta gli sviluppatori ad accelerare lo sviluppo con suggerimenti di codice in tempo reale, riducendo il tempo dedicato alla consultazione della documentazione per il codice boilerplate e la sintassi, e consentendo agli sviluppatori di concentrarsi sull’innovazione e sulla risoluzione dei problemi di business.

 

Ulteriori risorse

 

  

[Naresh Vurukonda](http://www.linkedin.com/in/naresh-vurukonda-a23861124)è un Principal Architect con oltre 10 anni di esperienza nella creazione di progetti di Ingegneria dei Dati e Apprendimento Automatico nel settore sanitario, nelle Scienze della Vita e nelle organizzazioni di Media Network.