PaLM Addestramento efficiente di modelli di linguaggio massivi

Efficient training of massive language models with PaLM.

Dimensioni, efficienza e prestazioni senza precedenti per LLM

(Foto di Corey Agopian su Unsplash)

Negli ultimi anni, le grandi reti neurali profonde sono diventate l’architettura definitiva scelta per risolvere la maggior parte dei compiti di comprensione e generazione del linguaggio. Inizialmente, sono stati proposti modelli come BERT [2] e T5 [3], che utilizzavano una metodologia di formazione a due parti di pre-formazione (con obiettivi “infilling” auto-supervisionati) su un grande corpus di testo, quindi affinamento su un set di dati di destinazione; vedi di seguito. Nonostante l’utilità di queste tecniche, il recente lavoro sui grandi modelli di linguaggio (LLMs) ha dimostrato che i grandi modelli di trasformatori autoregressivi (solo decoder) sono incredibilmente capaci nella apprendimento a pochi esempi, raggiungendo prestazioni impressionanti con una minima adattamento ai compiti successivi.

(da [4])

Le capacità di apprendimento a pochi esempi di LLM sono state dimostrate per la prima volta da GPT-3 [4], un LLM di 175 miliardi di parametri. Per effettuare previsioni a pochi esempi, il modello viene pre-formattato (utilizzando un obiettivo di modellizzazione del linguaggio di base) su un grande corpus di testo, quindi fornito con descrizioni di compiti e alcuni esempi su come risolvere un compito; vedi sopra. Ulteriori analisi di LLM hanno indicato che le prestazioni del modello migliorano uniformemente con la scala (secondo una legge di potenza) [5, 6]. Come tale, sono stati proposti vari LLM che cercano di “scalare” il modello e la formazione, spesso ottenendo risultati migliorati attraverso una combinazione di modelli più grandi e dati di pre-formazione più numerosi e migliori.

La formazione di grandi LLM è vantaggiosa ma difficile da eseguire in modo efficiente. Di solito, distribuiamo la formazione su molte macchine, ognuna con diversi acceleratori (cioè, GPU o TPU). Ciò è stato fatto con successo in precedenza (ad esempio, MT-NLG forma un LLM di 530 miliardi di parametri su un sistema con 2240 GPU A100), ma i risultati non sono stati così impressionanti. Il modello, sebbene grande, non è stato formato su abbastanza dati. Tuttavia, con un throughput di formazione più elevato, potremmo (in teoria) pre-formare tali grandi modelli in modo più esteso su set di dati più grandi, ottenendo risultati molto migliori.

In questa panoramica, esploreremo il Modello di Linguaggio Pathways (PaLM), un LLM di 540 miliardi di parametri formato utilizzando…