In un nuovo articolo di intelligenza artificiale, ricercatori di CMU e Google ridefiniscono le uscite del modello linguistico come il ritardo delle risposte con i simboli di pausa migliora le performance in compiti di domande e ragionamento.

Nel nuovo articolo di intelligenza artificiale, ricercatori di CMU e Google innovano le uscite del modello linguistico, dimostrando come l'uso dei simboli di pausa ottimizzi le performance nei compiti di domande e ragionamento.

I token vengono generati rapidamente utilizzando modelli di linguaggio causale basati su transformer. Il modello prende in input i K token precedenti e quindi calcola iterativamente K vettori intermedi in ogni hidden layer per produrre il token (K + 1). Il modulo opera sui vettori di output del layer precedente, e ciascun vettore di per sé è l’output di un modulo. Nonostante la complessità di tutta la procedura, una restrizione insolita deve essere soddisfatta: il numero di operazioni necessarie per determinare il prossimo token è limitato dal numero di token già visualizzati.

Uno studio recente dell’Università Carnegie Mellon e di Google ha indagato la strategia di aggiungere token falsi all’input di un modello solo decoder per posticiparne l’output. In questo lavoro, hanno deciso di scegliere un token di pausa (apprendibile) e aggiungerlo all’input una o più volte. Per ottenere la risposta del modello dopo che l’ultimo token è stato visualizzato, semplicemente ignorano gli output corrispondenti fino ad allora.

In modo importante, i ricercatori pensano di introdurre questi ritardi durante l’inference e durante il fine-tuning e il pretraining downstream. Quali effetti potrebbe avere questo piccolo aggiustamento nel mondo reale non si può sapere ora. Il ritardo crea un potenziale canale computazionale “più ampio”, che il Transformer potrebbe sfruttare a suo vantaggio. Un risultato più semplice potrebbe essere che il modello ignora la capacità dei token di causare ritardi e continua l’esecuzione. Dopotutto, né i token stessi né il piccolo numero di nuovi parametri introdotti dall’incorporazione di un singolo token sono sufficienti per codificare informazioni aggiuntive dai dati di addestramento. Questi token insignificanti potrebbero oscurare segnali utili e indebolire il modello.

Il team ha effettuato una valutazione empirica per comprendere l’effetto dell’introduzione di ritardi (aggiunti) in tutte le fasi di addestramento e inference. Hanno esaminato il training con pausa su un modello solo decoder con 1B e 130M parametri inizialmente addestrato su C4 (Raffel et al., 2019) e poi fine-tuned su nove task downstream che coprono la risposta estrattiva alle domande, il ragionamento, la comprensione generale e il richiamo dei fatti. In modo significativo, questo metodo aumenta del 18% il punteggio di corrispondenza esatta del modello 1B nel task di estrazione delle domande e risposte di SQuAD. Allo stesso modo, hanno osservato un aumento dell’8% nel task di comprensione generale di CommonSense QA e un aumento dell’1% nell’accuratezza del task di ragionamento di GSM8k rispetto all’accuratezza del modello standard del 7,5%.

D’altra parte, quando i token vengono introdotti solo durante la fase finale di fine-tuning (utilizzando il modello pretrained di base), si osservano miglioramenti solo in una piccola frazione dei casi. Il team ha condotto anche una serie di eliminazioni chiave, tra cui:

  1. Scoprire che l’aggiunta di token è generalmente superiore alla preparazione.
  2. Scoprire che esiste un numero ottimale di token per ogni task downstream.
  3. Scoprire che la riduzione del numero di token durante l’inference porta a un degrado delle prestazioni graduale.

Il team ritiene che il prossimo passo essenziale sarebbe sviluppare modi per rendere direttamente utili i ritardi su un modello pretrained normale. Immaginano che il loro lavoro apre diverse nuove direzioni di ricerca teoriche e applicate grazie al paradigma dell’accurata previsione del prossimo token in ritardo.