LLaMA LLM per tutti!

LLaMA LLM for everyone!

Modelli di linguaggio ad alte prestazioni che sono open source…

(Foto di Raspopova Marina su Unsplash)

Da anni, la comunità dell’apprendimento profondo ha abbracciato l’apertura e la trasparenza, portando a grandi progetti open source come HuggingFace. Molti dei concetti più profondi nell’apprendimento profondo (ad esempio, i transformers [2], l’apprendimento auto-supervisionato, ecc.) sono disponibili online, sia tramite repository di codice pubblico che su Arxiv. Anche se l’open source è la norma da molto tempo, la popolarità (e l’applicabilità commerciale) dei grandi modelli di linguaggio (LLM) ha recentemente sfidato questa tendenza.

Molti dei modelli LLM più potenti disponibili oggi possono essere acceduti solo tramite API (ad esempio, da OpenAI o Anthropic), rendendo il codice sorgente e i parametri del modello inaccessibili a ricercatori e sviluppatori. Anche se non è mio obiettivo suscitare una discussione morale sulle tendenze attuali nel panorama LLM, queste informazioni sono rilevanti per l’argomento di questo post: LLM disponibili in modo aperto. Curiosamente, non tutti i modelli di base potenti del linguaggio sono nascosti dietro un paywall. Alcuni modelli, come LLaMA, sono sia disponibili in modo aperto che incredibilmente performanti, mantenendo così un senso di apertura nella comunità di ricerca sull’apprendimento profondo.

Cosa è LLaMA? LLaMA non è un singolo modello, ma piuttosto una serie di LLM con dimensioni che vanno da 7 miliardi a 65 miliardi di parametri. Prendendo ispirazione da Chinchilla [3], questi LLM sono leggermente più piccoli rispetto ai loro equivalenti, ma sono preaddestrati in modo estensivo (cioè modelli più piccoli, più token) e sviluppati con l’obiettivo di fornire un gruppo diversificato di modelli con diversi compromessi tra prestazioni ed efficienza di inferenza. I modelli LLaMA si comportano in modo sorprendentemente buono; ad esempio, il modello da 13 miliardi di parametri è approssimativamente paragonabile a GPT-3 [4], mentre il modello da 65 miliardi di parametri supera spesso le prestazioni di PaLM [5].

“GPT-4 ha appreso da una varietà di fonti dati con licenza, create e disponibili pubblicamente, che possono includere informazioni personali disponibili pubblicamente.” — da [6]

Oltre alle impressionanti prestazioni, LLaMA utilizza solo dati disponibili pubblicamente per il preaddestramento. Facendo un passo (indietro) verso l’open source nel panorama LLM, i modelli LLaMA possono essere riprodotti completamente da risorse online. Modelli recenti come GPT-4 sono noti per essere stati addestrati con una combinazione di dati pubblici e…