Ricercatori di Yale e Google DeepMind sbloccano il successo nella risoluzione di problemi matematici con tecniche avanzate di perfezionamento su grandi modelli di linguaggio

La collaborazione tra ricercatori di Yale e Google DeepMind sorprende nel risolvere problemi matematici grazie a tecniche innovative di perfezionamento su modelli di linguaggio di grande portata

“`html

Anche i modelli di linguaggio più avanzati (LLM), come GPT-4 e PaLM 2, trovano difficile risolvere problemi matematici in quanto richiedono immaginazione, ragionamento matematico e calcoli. La possibilità che i LLM possano scoprire una risposta corretta è notevolmente più alta quando vengono autorizzati a affrontare il problema più volte. Pertanto, i LLM dimostrano già il potenziale di migliorare questa sfida di risoluzione dei problemi aritmetici. Ad esempio, il PaLM 2-L preaddestrato può raggiungere un’accuratezza del 33,4% con la decodifica avida. Tuttavia, il 79,4% delle volte c’è almeno una risposta corretta (pass@64) quando si campionano 64 soluzioni utilizzando il campionamento di temperatura (Tabella 1).

Tabella 1: Risultati del fine-tuning delle soluzioni supervisionate. Vengono confrontati il dataset MATH e il dataset PRM800K, che sono due fonti diverse di dati di addestramento.

Questa significativa disparità di prestazioni mostra che i LLM potrebbero essere in grado di generare risposte accurate ma hanno difficoltà a differenziare tra soluzioni corrette e erronee. Pertanto, per ridurre la differenza di prestazioni come sopra menzionato, vengono esaminate tecniche di fine-tuning specifiche del compito che potrebbero migliorare la capacità dei LLM di sviluppare e valutare soluzioni.

Sono esaminate tre tecniche di fine-tuning:

(1) SSFT, fine-tuning delle soluzioni passo dopo passo supervisionato. Vengono studiati i benefici del fine-tuning supervisionato per i LLM preaddestrati come tecnica di punto di partenza.

I LLM sono adattati per fornire l’intera soluzione e la risposta.

(2) Riassegnazione dei cluster di soluzioni (SCR). Si continua a perfezionare il generatore come valutatore di soluzioni per la riassegnazione delle soluzioni candidato per migliorare la capacità dei LLM di valutare le soluzioni. Mentre ricerche precedenti hanno esaminato campionamenti di soluzioni o riassegnazione di soluzioni, viene proposto un nuovo metodo che combina i vantaggi del voto di maggioranza con la riassegnazione, riducendo al contempo i costi di valutazione. Più precisamente, come fase preliminare nel voto di maggioranza, le risposte candidate vengono suddivise in diversi gruppi in base alla loro equivalenza matematica. Successivamente, per migliorare ulteriormente i risultati del voto di maggioranza, viene applicato il valutatore di soluzioni alle soluzioni nei cluster più frequenti.

(3) Fine-tuning multi-task sequenziale. Oltre al compito di valutazione delle soluzioni, si desidera migliorare le prestazioni dei LLM nel compito di generazione delle soluzioni e determinare se l’obiettivo di addestramento del compito di valutazione delle soluzioni può aiutare il modello a generare soluzioni.

Per raggiungere questo obiettivo, viene fornito un ambiente di apprendimento multi-task sequenziale in cui il compito di valutazione delle soluzioni viene modellato come un problema di generazione del linguaggio naturale, in modo che il suo obiettivo di addestramento possa offrire un segnale di supervisione utile per il modello di generazione delle soluzioni. Più precisamente, il modello viene adattato in tre fasi: (1) come generatore (SSFT), (2) come valutatore di soluzioni (SCR) e (3) di nuovo come generatore (SSFT).

Sono state condotte approfondite ricerche utilizzando PaLM 2-S* e PaLM 2-L, le forme piccole e grandi di PaLM 2, sul difficile dataset MATH, che ha portato alle seguenti conclusioni:

• Poiché SSFT beneficia di risposte dettagliate e ben formattate, la qualità e lo stile delle soluzioni passo dopo passo possono influenzare significativamente il modello raffinato.

• La riassegnazione solo dei cluster di soluzioni più comuni può portare a una migliore prestazione rispetto alla riassegnazione di tutte le soluzioni e può anche migliorare l’efficienza computazionale, motivo per cui si ritiene che sia una pratica standard migliore per lavori futuri.

• Viene dimostrato il beneficio dell’addestramento del modello per entrambi i compiti di generazione e valutazione delle soluzioni e viene presentato un tentativo riuscito di sfruttare il segnale di apprendimento di un compito di valutazione binaria per un modello di generazione. Il fine-tuning sequenziale multi-task proposto può migliorare in modo più efficace le prestazioni del modello di generazione delle soluzioni rispetto al solo fine-tuning delle soluzioni supervisionate.

“`