Un’analisi empirica dell’addestramento di modelli di linguaggio di grandi dimensioni ottimizzati per il calcolo

Analisi dell'addestramento di modelli di linguaggio di grandi dimensioni per il calcolo.

Negli ultimi anni, l’attenzione nella modellazione del linguaggio si è concentrata sul miglioramento delle prestazioni attraverso l’aumento del numero di parametri nei modelli basati su trasformatori. Questo approccio ha portato a risultati impressionanti e prestazioni all’avanguardia in molti compiti di elaborazione del linguaggio naturale.

Anche noi abbiamo seguito questa linea di ricerca presso DeepMind e abbiamo recentemente presentato Gopher, un modello con 280 miliardi di parametri che ha stabilito prestazioni di primo piano in una vasta gamma di compiti, tra cui modellazione del linguaggio, comprensione della lettura e risposta alle domande. Da allora, è stato pubblicato un modello ancora più grande chiamato Megatron-Turing NLG con 530 miliardi di parametri.

A causa del costo considerevole per addestrare questi modelli di grandi dimensioni, è fondamentale stimare la configurazione di addestramento migliore possibile per evitare di sprecare risorse. In particolare, il costo di calcolo per l’addestramento dei trasformatori è determinato da due fattori: la dimensione del modello e il numero di token di addestramento.

La generazione attuale di grandi modelli di linguaggio ha allocato risorse di calcolo maggiori per aumentare il numero di parametri dei modelli di grandi dimensioni e mantenere la dimensione dei dati di addestramento fissata intorno a 300 miliardi di token. In questo lavoro, investighiamo empiricamente il compromesso ottimale tra l’aumento della dimensione del modello e la quantità di dati di addestramento con l’aumento delle risorse di calcolo. In particolare, ci poniamo la domanda: “Qual è la dimensione ottimale del modello e il numero di token di addestramento per un determinato budget di calcolo?” Per rispondere a questa domanda, addestriamo modelli di varie dimensioni e con vari numeri di token e stimiamo empiricamente questo compromesso. La nostra principale scoperta è che i modelli di linguaggio di grandi dimensioni attuali sono troppo grandi per il loro budget di calcolo e non vengono addestrati su dati sufficienti. Infatti, scopriamo che per il numero di FLOP di addestramento utilizzati per addestrare Gopher, un modello 4 volte più piccolo addestrato su 4 volte più dati sarebbe stato preferibile.

Figura 1: Sulla base del nostro approccio, mostriamo le nostre previsioni sul numero ottimale di token di addestramento e parametri. Mostriamo punti che rappresentano la configurazione di addestramento di tre diversi modelli di linguaggio di grandi dimensioni consolidati insieme al nostro nuovo modello, Chinchilla.

Testiamo la nostra ipotesi di ridimensionamento dei dati addestrando Chinchilla, un modello con 70 miliardi di parametri addestrato con 1,3 trilioni di token. Mentre il costo di calcolo per l’addestramento di Chinchilla e Gopher è lo stesso, scopriamo che Chinchilla supera Gopher e altri modelli di linguaggio di grandi dimensioni in quasi tutti i compiti misurati, nonostante abbia 70 miliardi di parametri rispetto ai 280 miliardi di Gopher.

Figura 2: Per vari benchmark comuni che includono risposta alle domande (TriviaQA), conoscenza comune (HellaSwag, PIQA, Winogrande e BoolQ), comprensione della lettura (LAMBADA) e il benchmark di conoscenza generale multi-task di linguaggio (MMLU), confrontiamo le prestazioni di Gopher, Chinchilla, GPT-3 e Megatron-Turing NLG.

Dopo il rilascio di Chinchilla, è stato pubblicato un modello chiamato PaLM con 540 miliardi di parametri addestrato su 768 miliardi di token. Questo modello è stato addestrato con circa 5 volte il budget di calcolo di Chinchilla e ha superato Chinchilla in una serie di compiti. Anche se il corpus di addestramento è diverso, i nostri metodi prevedono che un tale modello addestrato sui nostri dati supererebbe Chinchilla nonostante non sia ottimale dal punto di vista del calcolo. Date le risorse di calcolo di PaLM, prevediamo che un modello con 140 miliardi di parametri addestrato su 3 trilioni di token sia ottimale e più efficiente per l’inferenza.

Un ulteriore vantaggio di modelli più piccoli e più performanti è che il tempo di inferenza e i costi di memoria sono ridotti, rendendo le interrogazioni dei modelli più veloci e possibili su hardware meno potente. Nella pratica, mentre i FLOP di addestramento tra Gopher e Chinchilla sono gli stessi, il costo dell’utilizzo di Chinchilla è notevolmente inferiore, oltre a offrire prestazioni migliori. Sono possibili ulteriori ottimizzazioni semplici che possono continuare a fornire grandi miglioramenti.