Incontra MAmmoTH Una serie di modelli di linguaggio open-source di grandi dimensioni (LLM) appositamente progettati per la risoluzione generale dei problemi matematici.

I moderni modelli di linguaggio di grandi dimensioni (LLM) si basano pesantemente sul ragionamento matematico, che è il focus principale di questo lavoro. C’è una netta divisione tra modelli LLM a codice chiuso e a codice aperto, anche con i recenti progressi in questo settore; modelli a codice chiuso come GPT-4, PaLM-2 e Claude 2 dominano i popolari benchmark di ragionamento matematico come GSM8K e MATH, mentre modelli a codice aperto come Llama, Falcon e OPT sono molto indietro.

Ci sono due approcci principali per colmare questa lacuna:

  • Pre-formazione in corso, come con Galactica e MINERVA, che sta ora addestrando un LLM su più di 100 miliardi di token di dati web collegati alla matematica. Sebbene sia computazionalmente costoso, questo metodo aumenta la capacità di un modello di ragionamento scientifico in generale.
  • Utilizzando dati addestrati unici per ciascun set di dati, vengono utilizzati metodi di messa a punto come la messa a punto con campionamento di rifiuto (RFT) e WizardMath per perfezionare i LLM. Mentre questi metodi sono efficaci all’interno del loro dominio, non sono trasferibili ad altre aree della matematica dove è richiesto il ragionamento.

Ricerche recenti dell’Università di Waterloo, dell’Ohio State University, dell’HKUST, dell’Università di Edimburgo e di IN.AI esplorano una tecnica di messa a punto dell’istruzione matematica leggera ma generalizzabile per migliorare le capacità di ragionamento matematico dei LLM in generale (cioè non solo le attività di messa a punto).

Gli approcci attuali si basano pesantemente sulle metodologie Chain-of-Thought (CoT), che descrivono come risolvono un problema matematico in passi di linguaggio naturale. Questo metodo è limitato quando si tratta di precisione di calcolo e di metodi di ragionamento matematico o algoritmico complessi. Le tecniche basate sul codice come PoT e PAL utilizzano risorse di terze parti per semplificare la procedura di risoluzione dei problemi matematici.

Questo metodo consiglia di delegare compiti computazionalmente intensivi (come la risoluzione di equazioni quadratiche con sympy o il calcolo degli autovalori delle matrici con numpy) a un interprete Python separato. D’altra parte, PoT ha diverse limitazioni nella gestione di scenari di ragionamento più astratti, come il ragionamento di buon senso, la logica formale e l’algebra astratta, specialmente in assenza di API preesistenti.

Per beneficiare dei vantaggi sia di CoT che di PoT, il team presenta un nuovo set di dati ibrido per l’addestramento dell’istruzione matematica chiamato MathInstruct. Le sue caratteristiche principali sono:

  1. Copertura completa di una varietà di aree matematiche e livelli di complessità
  2. Ragionamenti ibridi CoT & PoT.

Sessanta dati appena selezionati e sette set di dati preesistenti forniscono la base per le giustificazioni matematiche di MathInstruct. Dal punto di vista della modellazione, i ricercatori addestrano e valutano circa 50 modelli unici, con basi che vanno da 7B a 70B, per conoscere meglio gli effetti dei formati di input-output variabili e delle fonti di dati.

I modelli risultanti mostrano una promessa senza pari come generalisti matematici.

I ricercatori testano MAmmoTH su una vasta gamma di set di dati, da in-dominio (IND) a fuori-dominio (OOD), come GSM8K, MATH, AQuA-RAT e NumGLUE. Questi modelli migliorano significativamente l’efficienza dei LLM open-source nel ragionamento matematico e generalizzano meglio ai set di dati OOD rispetto agli approcci all’avanguardia. I risultati del modello 7B sul popolare dataset MATH a livello di competizione superano quelli di WizardMath (MATH SoTA open-source) di un fattore di 3,5 (35,2% vs. 10,7%), mentre quelli del modello 34B MAmmoTH-Coder (ottimizzato su Code Llama) superano quelli di GPT-4 (usando CoT). Entrambi i modelli MAmmoTH e MAmmoTH-Coder migliorano significativamente l’accuratezza dei modelli open-source disponibili in precedenza.