Una nuova ricerca sull’IA propone il modello PanGu-Coder2 e il framework RRTF che potenziano in modo efficiente i modelli di lingua pre-addestrati per la generazione di codice

La ricerca propone PanGu-Coder2 e RRTF come modelli e framework efficienti per la generazione di codice utilizzando l'IA.

I modelli di linguaggio di grandi dimensioni (LLM) hanno guadagnato una quantità enorme di attenzione negli ultimi mesi. Questi modelli imitano gli esseri umani rispondendo in modo rilevante alle domande, generando contenuti precisi, traducendo lingue, riassumendo lunghi paragrafi di testo e completando campioni di codice. I LLM sono stati sviluppati rapidamente, con rilasci regolari di modelli potenti che mostrano un’ottima performance nel generare codice. I ricercatori hanno esaminato diverse tecniche, tra cui il fine-tuning supervisionato, il tuning delle istruzioni, il reinforcement learning e altre, per migliorare la capacità dei LLM pre-addestrati di generare codice.

In uno studio recente, un team di ricercatori di Huawei Cloud Co., Ltd., Chinese Academy of Science e Peking University ha introdotto un framework unico chiamato RRTF (Rank Responses to align Test&Teacher Feedback), che migliora in modo efficace i modelli di linguaggio di grandi dimensioni pre-addestrati per la produzione di codice. Il framework RRTF è stato sviluppato con l’intenzione di migliorare le performance dei LLM per la generazione di codice. Utilizza tecniche di allineamento dei LLM di linguaggio naturale e valuta il feedback anziché utilizzare valori di ricompensa assoluti.

L’approccio del Reinforcement Learning from Human Feedback, che fornisce modelli come InstructGPT o ChatGPT con un approccio di addestramento più semplice ed efficace utilizzando le risposte di ranking come feedback anziché valori di ricompensa assoluti, serve da ispirazione per questo nuovo approccio, che applica tecniche di allineamento dei LLM di linguaggio naturale ai LLM di codice. Come risultato dell’applicazione del framework RRTF, il team ha anche introdotto il modello PanGu-Coder2, che raggiunge un eccezionale tasso di successo del 62,20% nella posizione di punta nella benchmark OpenAI HumanEval.

Utilizzando l’approccio su StarCoder 15B, il team ha superato PanGu-Coder e ha raggiunto la migliore performance di tutti i LLM di codice documentati, dimostrando l’utilità di RRTF. Analisi approfondite di tre benchmark – HumanEval, CoderEval e LeetCode – hanno indicato che i LLM di codice potrebbero essere in grado di superare i modelli di linguaggio naturale delle stesse dimensioni o superiori nelle attività di creazione di codice. Lo studio sottolinea anche il valore dei dati di alta qualità nel migliorare la capacità dei modelli di seguire le istruzioni e scrivere codice.

Il team ha riassunto i contributi come segue –

  1. È stato introdotto il paradigma di ottimizzazione RRTF, che ha diversi vantaggi che lo rendono un approccio neutro al modello, semplice ed efficiente in termini di dati.
  1. È stato introdotto anche il modello PanGu-Coder2. PanGu-Coder2 batte notevolmente il suo modello originale del 30%. HumanEval, CoderEval e LeetCode sono alcuni dei benchmark che mostrano questo significativo guadagno di velocità.
  1. PanGu-Coder2 supera tutti i LLM di codice precedentemente rilasciati in termini di generazione di codice, ottenendo nuovi risultati di alto livello.
  1. Il team ha discusso le proprie idee e conoscenze pratiche sulla creazione di buoni dati di addestramento per la generazione di codice.
  1. Il modello PanGu-Coder2 è stato addestrato utilizzando il framework RRTF e il team ha offerto utili approfondimenti su questo processo.
  1. Oltre al miglioramento dell’efficienza nella generazione di codice, il team ha suggerito metodi di ottimizzazione utilizzati da PanGu-Coder2 per garantire un’infereza rapida. Le scoperte in questo campo aiutano a creare scenari di implementazione realistici perché un’infereza efficiente è fondamentale per le applicazioni del mondo reale.