Studio spera di sbloccare il potenziale degli LLM nella risoluzione dei problemi matematici

Studio mira a sbloccare il potenziale degli LLM nella risoluzione dei problemi matematici

Nel panorama in continua evoluzione dell’intelligenza artificiale, anche i LLM più avanzati, inclusi GPT-4 e PaLM 2, affrontano sfide quando si tratta di risolvere problemi matematici complessi. Un recente studio condotto da ricercatori di Google e Yale spera di far luce su come i LLM possano superare questi ostacoli e migliorare significativamente le loro capacità di risoluzione dei problemi aritmetici.

Lo studio, condotto con il modello PaLM 2 nelle sue forme ridotte (PaLM 2-S) e grandi (PaLM 2-L), rivela interessanti intuizioni sul potenziale dei LLM. Inizialmente, la ricerca mostra che i modelli mostrano una maggiore probabilità di scoprire risposte accurate quando hanno la possibilità di affrontare un problema più volte.

Ad esempio, il PaLM 2-L pre-addestrato raggiunge un’impressionante precisione del 33,4% con la decodifica greed; tuttavia, lo studio sottolinea che questa performance può essere ulteriormente migliorata. Campionando 64 soluzioni utilizzando il campionamento della temperatura, per il 79,4% del tempo c’è almeno una risposta accurata (pass@64).

Questo divario evidenzia l’abilità dei LLM di generare soluzioni accurate mentre lottano per discernere tra risposte corrette ed erronee. Per colmare questa differenza di performance, i ricercatori esplorano tre tecniche di affinamento:

  1. Fine-Tuning Supervisionato Passo Dopo Passo (SSFT): Lo studio indaga se i LLM pre-addestrati possono trarre vantaggio da un passo di affinamento supervisionato, al fine di fornire una tecnica di punto di partenza. I LLM vengono adattati per fornire soluzioni e risposte complete.
  2. Reranking di Clusters di Soluzioni (SCR): Questa tecnica si concentra nel perfezionare il generatore come valutatore di soluzioni per il reranking delle soluzioni candidate. I ricercatori introducono un nuovo metodo che combina i vantaggi della votazione di maggioranza con il reranking, classificando efficientemente le risposte candidate in gruppi sulla base dell’equivalenza matematica.
  3. Affinamento Sequenziale Multi-task: Oltre alla valutazione della soluzione, lo studio si concentra nell’aumentare le performance dei LLM nella generazione di soluzioni. Incorniciando la task di valutazione della soluzione come un problema di generazione del linguaggio naturale, i ricercatori mirano a sfruttarla come supervisione preziosa per il modello di generazione delle soluzioni, adattando il modello in tre fasi.

Le conclusioni dello studio su PaLM 2-S e PaLM 2-L evidenziano diversi punti chiave. La dipendenza di SSFT da risposte ben formattate. La qualità e lo stile delle soluzioni step-by-step influenzano significativamente il modello raffinato.

Efficienza del reranking dei cluster di soluzioni comuni: Il reranking solo dei cluster di soluzioni più comuni produce una migliore performance e un’efficienza computazionale migliorata, presentando una possibile pratica standard per i futuri lavori.

Vantaggi dell’addestramento a doppio compito: Addestrare il modello sia per la generazione di soluzioni che per i task di valutazione dimostra una migliorata performance. Il proposto affinamento sequenziale multi-task si dimostra più efficace nel migliorare il modello di generazione di soluzioni rispetto al solo affinamento supervisionato delle soluzioni.