Un nuovo studio dell’Università del Wisconsin indaga su come i piccoli trasformatori addestrati da inizializzazione casuale possano imparare efficientemente le operazioni aritmetiche utilizzando l’obiettivo di previsione del prossimo token.

Lo studio dell'Università del Wisconsin esamina l'efficienza di trasformatori addestrati con inizializzazione casuale nell'apprendimento delle operazioni aritmetiche tramite l'obiettivo di previsione del prossimo token.

Per varie attività successive, inclusa la traduzione di linguaggio e codice, il pensiero compositivo e le operazioni aritmetiche fondamentali, modelli di linguaggio di grandi dimensioni come GPT-3/4, PaLM e LaMDA hanno mostrato caratteristiche ad uso generale, talvolta competenze emergenti. Forse sorprendentemente, l’obiettivo di addestramento del modello, che spesso è una perdita auto-regressiva basata sulla previsione del token successivo, non codifica direttamente questi obiettivi. Queste competenze sono state esplorate in modo approfondito in studi precedenti, insieme a come esse cambiano in base alla dimensione del calcolo di addestramento, al tipo di dati e alla dimensione del modello. Tuttavia, data la complessità dei dati e la gamma di lavori valutati, è ancora difficile separare gli elementi. Sono usciti per identificare i principali contributi che accelerano l’apparizione di queste competenze perché erano curiosi dei fattori che stimolano queste abilità nei previsionisti del token successivo.

Questi fattori includono il formato e la dimensione dei dati, la dimensione del modello, l’esistenza di preaddestramento e lo stile di promozione. Il loro lavoro è svolto in un ambiente controllato per consentire un’analisi più approfondita di questi parametri. Si concentrano sull’insegnamento della matematica a modelli di trasformatori di piccole dimensioni, tra cui NanoGPT e GPT-2, quando addestrati da un’inizializzazione casuale. Utilizzano la comune perdita di previsione del token successivo auto-regressivo, scalando da un modello con 10,6 milioni di parametri a uno con 124 milioni. I ricercatori dell’UW Madison intendono comprendere come questi modelli possano imparare in modo efficace le operazioni matematiche fondamentali come l’addizione, la sottrazione, la moltiplicazione, la radice quadrata e il seno, offrendoci una prospettiva più approfondita su come vengano suscitate le competenze emergenti. Hanno delineato le loro conclusioni di seguito.

  1. La dimensione del campione e il formato dei dati sono entrambi importanti.

Innanzitutto, notano che insegnare a un modello l’addizione utilizzando campioni di addizione tipici, come “A3A2A1 + B3B1B1 = C3C2C1”, non è ideale poiché costringe il modello a valutare il C3 della cifra più significativa del risultato per primo, il quale dipende da tutte le cifre dei due addendi collettivamente. Consentono al modello di imparare una funzione più semplice addestrandolo su campioni con risultati invertiti, come “A3A2A1 + B3B1B1 = C1C2C3”, il che aumenta notevolmente la complessità del campione. Per migliorare ulteriormente l’apprendimento, utilizzano un campione bilanciato di molte “variazioni” di addizione, dipendenti dalle cifre e dal riporto coinvolti. Vedono cambiamenti di fase bruschi dall’accuratezza del 0% all’accuratezza del 100% in base alla quantità di dati di addestramento, anche in questo scenario semplice. Inaspettatamente, notano che completare una matrice a rango ridotto è simile all’apprendimento di una mappa di addizione su n cifre da campioni casuali. Grazie a questo collegamento, possono fornire una giustificazione logica per tali cambiamenti di fase.

  1. Dati sul flusso di cognizione durante l’addestramento.

In base a questi risultati, indagano sui possibili vantaggi dei dati a catena di pensiero durante l’addestramento. Questo formato consente al modello di apprendere gli elementi distinti delle attività difficili poiché comprende operazioni passo-passo e output intermedi. Questa struttura è presa direttamente dalla letteratura pertinente, come. In base alla letteratura sul fine-tuning di CoT, scoprono che i dati di addestramento di tipo CoT migliorano notevolmente l’apprendimento in termini di complessità del campione e accuratezza; tuttavia, le loro scoperte rimangono vere anche in assenza di preaddestramento del linguaggio. Ipotizzano che ciò sia dovuto al fatto che il modello può imparare una mappa di funzioni di dimensioni superiori ma più semplice suddividendo la funzione compositiva necessaria da realizzare in componenti individuali. Forniscono esempi di ciascuna delle quattro tecniche di formattazione dei dati che hanno esaminato nella loro ricerca nella Figura 1.

  1. Addestramento con miscele di testo e matematica.

Poiché i modelli di LLM vengono addestrati su enormi volumi di dati scaricati da Internet, dove è difficile separare pulitamente varie forme di dati, esaminano anche come i dati testuali e numerici interagiscono durante l’addestramento. Tracciano come la proporzione di testo rispetto all’input aritmetico influisce sulla perplessità e sull’accuratezza del modello. Scoprono che conoscere le operazioni aritmetiche precedentemente trattate può migliorare le prestazioni di ciascuna attività individualmente e che passare da un’indicazione zero-shot a un’indicazione one-shot aumenta significativamente l’accuratezza. Tuttavia, l’accuratezza è meno apprezzabile quando vengono forniti più esempi. L’importanza della dimensione del modello e del preaddestramento.

  1. Ruolo del preaddestramento e della dimensione del modello.

Inoltre, indagano sulla funzione del preaddestramento mediante il fine-tuning di modelli come GPT-2 e GPT-3 e scoprono che, sebbene le prestazioni zero-shot sulle operazioni aritmetiche siano scarse, le “competenze” precedentemente sviluppate durante il preaddestramento consentono prestazioni accettabili su alcune operazioni aritmetiche fondamentali, anche con un numero limitato di campioni di fine-tuning. Tuttavia, quando il modello viene preaddestrato su operazioni formattate in modo standard, il fine-tuning di un formattazione non standard, come la formattazione inversa, può interferire con le prestazioni del modello e ridurre l’accuratezza. Infine, studiano come la dimensione influisce sulle prestazioni aritmetiche e scoprono che, sebbene la dimensione aiuti nell’apprendimento delle operazioni aritmetiche, non è un prerequisito.

  1. Lunghezza e generalizzazione compositiva.

Si potrebbe chiedere se i loro modelli addestrati hanno una solida comprensione della matematica. Le loro ricerche offrono una risposta complessa. Trovano difficile generalizzare la lunghezza al di là delle lunghezze dei numeri di allenamento. Ad esempio, un modello trova difficile adattarsi e calcolare correttamente questa lunghezza mancante se è addestrato su tutte le lunghezze di numeri a n cifre ma esclude una lunghezza particolare. Di conseguenza, i modelli si comportano bene all’interno dell’intervallo di lunghezza dei numeri di allenamento, ma molto peggio al di fuori di esso. Questo dimostra che i modelli imparano l’aritmetica come una funzione di mappatura limitata alle lunghezze dei numeri insegnate, piuttosto che come una procedura flessibile. Questo va oltre la semplice memorizzazione meccanica ma non raggiunge una “comprensione” approfondita della matematica.

  1. Novità rispetto agli sforzi precedenti.

Non affermano che il loro metodo sia originale per quanto riguarda il tipo di dati di allenamento che utilizzano, ma piuttosto che si basa fortemente su lavori precedenti che utilizzano dati istruttivi per migliorare le prestazioni del modello. L’attenzione principale sui modelli inizializzati casualmente e le approfondite indagini di ablazione sui vari formati di campionamento/dati e impostazioni di scala del modello per separare le variabili che portano alla rapida formazione delle capacità aritmetiche distinguono il loro lavoro da altre ricerche nel campo. Inoltre, alcune delle occorrenze che individuano hanno alcune spiegazioni teoriche semplici ma potenzialmente illuminanti nel loro studio.

Figura 1: Le quattro tecniche di formattazione dei dati esaminate in questo studio sono mostrate. Normale: Formattazione ordinaria dell’addizione; Invertita: L’output è invertito; Taccuino semplificato: Somma di cifre e riporto cifra per cifra; e Taccuino completo: Fasi intermedie complete dell’addizione. Utilizzando dati che sono stati formattati utilizzando queste diverse tecniche di formattazione dell’addizione, addestriamo modelli di trasformatori ridotti da zero. I risultati (mostrati a destra) dimostrano quanto sia importante la formattazione dei dati per le prestazioni e l’efficacia del campione. Man mano che aumentiamo il grado di informazione nel formato dei dati, il formato Normale non raggiunge mai il 100% di precisione e la complessità del campione per le altre tecniche per imparare l’addizione completamente diminuisce progressivamente.