Non così grandi modelli di linguaggio i buoni dati rovesciano il Golia

Piccoli modelli di linguaggio buoni dati rovesciano Golia

(Immagine generata da DALL·E)

Come creare un modello di linguaggio di dimensioni milionario che supera un modello di dimensioni miliardarie

In questo articolo vedremo come i modelli di linguaggio (LM) possono concentrarsi su strategie di dati e formazione migliori invece che solo sulla dimensione bruta per raggiungere risultati simili a quelli di LLM (a volte anche migliori) e come le persone lo stanno già facendo con successo e democraticamente.

I modelli di linguaggio di grandi dimensioni (LLM) sono evoluti notevolmente. Offrono caratteristiche notevoli, dalla generazione di testo simile a quello umano alla comprensione di contesti complessi. Mentre molta della prima eccitazione si concentrava su modelli con un enorme numero di parametri, gli sviluppi recenti suggeriscono che la dimensione non è l’unica cosa che conta. Ultimamente, un nuovo concetto chiamato modelli di linguaggio di dimensioni ridotte (SLM) è emerso con la giustizia come motivazione per sviluppare modelli di linguaggio in modo più intelligente.

La crescita dei modelli di grandi dimensioni

Quando i LLM sono entrati in scena, la narrazione era semplice: più grande è meglio. Si suppone che i modelli con più parametri comprendano meglio il contesto, commettano meno errori e forniscano risposte migliori. Ma all’aumentare delle dimensioni dei modelli, cresceva anche la loro richiesta di risorse computazionali. Addestrare queste enormi creature è diventato un compito costoso, che non tutti sono disposti (né in grado) di pagare.

Un’enfasi sulla qualità e l’efficienza

Riconoscendo l’insostenibilità e i rendimenti decrescenti di semplicemente aggiungere più parametri, i ricercatori hanno iniziato a ripensare le strategie. Invece di gettare semplicemente soldi nel fuoco del cloud (aggiungendo altri miliardi di parametri), alcuni ricercatori hanno iniziato a utilizzare dati migliori e strategie di formazione più efficienti. L’idea è elegante: un modello più piccolo ma ben addestrato potrebbe superare un modello più grande ma scarsamente addestrato. Ma può farlo?

Chinchilla e il punto ottimale per la formazione di LLM

Il “Chinchilla paper” [1], un contributo significativo nel campo, offre spunti intriganti sulla formazione dei LLM. Gli esperimenti sembrano indicare che esiste un “punto ottimale” durante la formazione dei LLM. Oltre questo punto, investire ulteriormente risorse nella formazione sotto forma di più parametri non comporta necessariamente un aumento proporzionale delle prestazioni. Il paper sottolinea che non è solo la dimensione di un modello a definire le sue prestazioni. Invece, si tratta della qualità dei dati e della quantità di dati utilizzati. Gli autori hanno scoperto che per una formazione computazionalmente ottimale, la dimensione del modello e il numero di token di addestramento dovrebbero essere scalati in modo uguale: per ogni raddoppio della dimensione del modello, il numero di token di addestramento dovrebbe essere raddoppiato.

Lo testano addestrando Chinchilla, un modello con 70 miliardi di parametri addestrato su 1,4 trilioni di token. Nonostante le sue dimensioni ridotte, Chinchilla supera Gopher in quasi tutte le valutazioni, inclusa la modellazione del linguaggio, la risposta alle domande, i compiti di buon senso, ecc.

Dimensione di Chinchilla e Token di Addestramento rispetto a SOTA LLMs. (Fonte: [1])

Anche con la sua dimensione ridotta, Chinchilla si comporta meglio dei suoi omologhi SOTA in una varietà di compiti:

Comprensione del Linguaggio Multi-Compito Massiva (MMLU). Report dell'accuratezza media a 5 prove su 57 compiti con confronti tra modello e accuratezza umana tratti da [2], e la previsione media per l'accuratezza SOTA nel giugno 2022/2023 effettuata da 73 previsionisti umani competitivi in [3]. (Fonte: [1])

La comprensione della lettura e il ragionamento automatizzato sono compiti standard su cui di solito viene testato un modello di linguaggio. Testa la capacità del modello di comprendere il contesto più ampio del testo. Nel nostro caso, potrebbe essere esemplificato come la previsione di parole che potrebbero essere attese solo se il modello potesse comprendere la relazione tra questa parola e il contesto che è venuto prima di essa (a volte lontano dalla posizione di questa parola). Di solito viene valutato utilizzando benchmark e set di dati come RACE-h, RACE-m [4] e LAMBADA [5]. Chinchilla supera modelli molto più grandi anche in questo tipo di compiti difficili da definire e testare.

Sulla comprensione della lettura, Chinchilla migliora notevolmente le prestazioni rispetto a Gopher. (Fonte: [1])

E Chinchilla è uno dei molti ML che mostrano risultati promettenti nonostante non si concentri sull’aumento delle dimensioni.

LLaMA

LLaMA[6] va ancora oltre. Gli autori presentano modelli di linguaggio di base più piccoli che vanno da 7B a 65B di parametri. Sono addestrati su oltre 1 trilione di token utilizzando solo dati disponibili pubblicamente, rendendoli compatibili con l’open source.

LLaMA-13B supera il modello GPT-3 molto più grande con 175B di parametri nella maggior parte dei benchmark, pur essendo oltre 10 volte più piccolo. Gli autori sostengono che, dato un livello di prestazioni target, modelli più piccoli addestrati per un periodo più lungo sono preferibili a modelli più grandi per un determinato budget di calcolo a causa di una migliore efficienza di inferenza.

Prestazioni zero-shot di LLaMA su compiti di ragionamento del senso comune. (Fonte: [6])

Alcuni progetti sono riusciti persino ad eseguire LLaMA (o piuttosto una versione di esso) su smartphone Android con budget limitato, dimostrando ulteriormente che siamo sulla strada giusta per democratizzare l’accesso a ML performanti utilizzando risorse di calcolo ridotte (LLaMA.c [7]).

LLaMA-65B (lo so, non così piccolo come prima, ma comunque…) è competitivo con i modelli attuali all’avanguardia come PaLM-540B, che utilizzano set di dati proprietari. Questo indica chiaramente come i buoni dati non solo migliorino le prestazioni di un modello, ma possano anche renderlo democratico. Un ingegnere di machine learning non avrebbe bisogno di budget enormi per ottenere un buon addestramento del modello su un buon dataset.

I buoni dati superano il Goliath

Rafforzando ulteriormente la tesi che i modelli di linguaggio non devono essere giganteschi per ottenere buoni risultati, TinyStories [8] presenta un set di dati sintetici di storie contenenti solo parole che i bambini piccoli (fino a quattro anni) possono capire. Può essere utilizzato per addestrare modelli di linguaggio piccoli (SLM) con meno di 10 milioni di parametri in grado di generare storie multi-paragrafo con una buona grammatica, ragionamento e coerenza. Ciò contrasta con lavori precedenti in cui modelli con più di 125 milioni di parametri, come GPT-Neo (piccolo) e GPT-2 (piccolo), hanno faticato a produrre un testo coerente.

Un modello addestrato con TinyStories può produrre un output paragonabile a quello di un modello che è due ordini di grandezza più grande. (Fonte: [8])

Uno degli aspetti interessanti di TinyStories è che il set di dati stesso è stato creato da GPT-3.5 e GPT-4. Gli autori introducono anche un nuovo paradigma di valutazione SLM utilizzando GPT-4 per “valutare” le storie generate su dimensioni come grammatica, trama e creatività. Ciò supera le limitazioni dei benchmark standard che richiedono output vincolati.

Conclusione

Il percorso dei ML mostra una lezione fondamentale nell’AI: più grande non è sempre meglio. Mentre la comunità continua a evolversi e innovare, si realizza che l’efficienza, la qualità dei dati e le strategie di addestramento ottimizzate detengono la chiave del futuro del machine learning.

Punti Chiave

  • Chinchilla dimostra che esiste un punto ottimale nella formazione di LMs riguardo al numero di token e alla qualità dei dati di formazione utilizzati. È altrettanto importante (o ancor più) definire il numero di parametri del modello;
  • LLaMa dimostra che è possibile ottenere risultati simili a quelli di Chinchilla utilizzando solo dati disponibili pubblicamente, dimostrando che questa strategia è democraticamente disponibile;
  • Dataset come TinyStories possono essere utilizzati per addestrare modelli di linguaggio di piccole dimensioni (meno di 100 milioni) che superano modelli di dimensioni miliardarie in specifici compiti.

Riferimenti

[1] Hoffmann, Jordan, et al. “Training compute-optimal large language models.” arXiv preprint arXiv:2203.15556 (2022).

[2] D. Hendrycks, et al. “Measuring massive multitask language understanding.” arXiv preprint arXiv:2009.03300 (2020).

[3] J. Steinhardt. Aggiornamenti e lezioni dai pronostici dell’IA, 2021. URL: https://bounded-regret.ghost.io/ai-forecasting/.

[4] Lai, Guokun, et al. “RACE: Large-scale ReAding Comprehension Dataset From Examinations.” In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 785–794, Copenhagen, Denmark. Association for Computational Linguistics.

[5] Paperno et al., 2016 “Il dataset LAMBADA: Predizione delle parole che richiede un ampio contesto discorsivo.” arXiv:1606.06031 (2016).

[6] Touvron, Hugo et al. “LLaMA: Fondamenta aperte ed efficienti per i modelli di linguaggio.” ArXiv abs/2302.13971 (2023)

[7] https://github.com/karpathy/llama2.c

[8] Eldan, Ronen e Yuan-Fang Li. “TinyStories: Quanto piccoli possono essere i modelli di linguaggio e ancora parlare un inglese coerente?” ArXiv abs/2305.07759 (2023)