Questa carta AI introduce l’apprendimento dagli errori (LeMa) migliorare il ragionamento matematico nei grandi modelli di linguaggio attraverso l’apprendimento basato sugli errori

Introduzione di una carta AI per migliorare il ragionamento matematico tramite l'apprendimento basato sugli errori LeMa

Gli esseri umani, come creature intrinsecamente fallibili, navigano l’intricato percorso della vita contrassegnato da successi e fallimenti. Nell’ampio arazzo della nostra esistenza, il filo degli errori tessere un unico modello che contribuisce significativamente alla nostra crescita e sviluppo. Imparare dagli errori è fondamentale per l’esperienza umana, plasmando il nostro carattere, incoraggiando la resilienza e spingendoci verso un futuro più illuminato.

Il LLM può imparare dagli errori? È possibile? Sì, possono farlo. I grandi modelli di linguaggio, come GPT-3, imparano da un vasto insieme di dati, compresi esempi di utilizzo corretto e incorretto del linguaggio. Questi modelli vengono addestrati su diversi set di dati contenenti una vasta gamma di testi tratti da internet, libri, articoli e altro ancora. Il modello impara a riconoscere i modelli, le relazioni e le informazioni contestuali dei dati di addestramento. Comprende la grammatica, la sintassi, la semantica e persino le sfumature dell’uso del linguaggio.

Imitando questo processo di apprendimento basato sugli errori, i ricercatori dell’Università di Jiaotong, dell’Università di Pechino e di Microsoft presentano LEMA, che perfeziona i LLM utilizzando coppie di dati di correzione degli errori generate da GPT-4. Dicono che la loro idea di motivazione è derivata dal processo di apprendimento degli studenti umani dagli errori.

Il loro metodo prevede la generazione di coppie di dati di correzione degli errori e quindi la perfezione dei LLM utilizzando i dati di correzione. Utilizzano diversi LLM, come modelli della serie LLaMA e GPT, per raccogliere percorsi di ragionamento errati al fine di generare dati di correzione. Le correzioni generate contengono tre informazioni sul passaggio errato nella soluzione originale, una spiegazione del perché questo passaggio è errato e come correggere la soluzione originale per arrivare alla risposta finale corretta.

Filtrano le correzioni con risposte finali errate e dicono che questo processo presenta una qualità adeguata per la successiva fase di perfezionamento. Generano ulteriori percorsi di ragionamento per ciascuna domanda nell’insieme di addestramento con GPT-4 e filtrano i percorsi con risposte finali errate. Applicano questa amplificazione dei dati di CoT per creare una solida base di perfezionamento che utilizza solo i dati di CoT. Facilita anche ulteriori studi ablativi sul controllo delle dimensioni dei dati per il perfezionamento. Perfezionano il modello solo sui dati di ragionamento della domanda.

Rispetto al perfezionamento solo sui dati di CoT, LEMA migliora costantemente le prestazioni su vari LLM e compiti. LEMA con LLaMA-2-70B ottiene l’83,5% su GSM8K e il 25,0% su MATH, mentre il perfezionamento solo sui dati di CoT produce rispettivamente l’81,4% e il 23,6%.

I recenti progressi nei LLM hanno consentito loro di eseguire un approccio passo-passo alla risoluzione dei problemi. Tuttavia, questo processo di generazione a più passaggi non implica inherentemente che i LLM possiedano capacità di ragionamento solide, in quanto potrebbero semplicemente emulare il comportamento superficiale del ragionamento umano senza comprendere davvero la logica e le regole sottostanti necessarie per una giustificazione precisa. LEMA utilizza GPT-4 come modello del mondo per insegnare ai modelli più piccoli ad attenersi alla logica e alle regole anziché semplicemente imitare il comportamento passo-passo.