Oltre LLaMA Il Potere delle LLM Aperte

Oltre LLaMA il potere delle LLM aperte

Come LLaMA sta rendendo di nuovo cool il software open-source

(Foto di Paz Arando su Unsplash)

Nonostante i recenti progressi nei modelli di linguaggio di grandi dimensioni (LLMs), molti dei modelli più potenti sono accessibili solo tramite API a pagamento e sono allenati utilizzando grandi quantità di dati proprietari, limitando così la comunità di ricerca nell’accesso o nella riproduzione di tali modelli. Questa tendenza solleva seri dubbi sul fatto che gli LLMs saranno principalmente controllati da un numero limitato di gruppi centralizzati che costringono gli altri a pagare per interagire con questi modelli. Uno scenario del genere impedisce strettamente alla maggior parte dei ricercatori di accedere direttamente o migliorare gli LLMs autonomamente.

“[Molti] LLMs richiedono enormi risorse computazionali per l’allenamento e spesso utilizzano set di dati di grandi dimensioni e proprietari. Ciò suggerisce che in futuro, gli LLMs altamente capaci saranno in gran parte controllati da un numero limitato di organizzazioni.” – da [5]

Dato l’onere computazionale dell’allenamento e dell’hosting degli LLMs, potremmo chiederci se rendere open-source questi modelli sia davvero utile per la comunità di ricerca. Se non facciamo parte di un’organizzazione massiccia con risorse di calcolo estese, possiamo fare davvero ricerca utile con gli LLMs? Se no, forse siamo destinati a un mondo di controllo centralizzato e accesso agli LLMs. Questi modelli sembrano avere troppa “gravità” (cioè richiedono accesso a tonnellate di dati e risorse di calcolo) per la maggior parte delle persone per lavorarci facilmente.

La proposta di LLaMA (e la successiva divulgazione al pubblico) si muove in direzione opposta aprendo la possibilità di utilizzare una suite di LLMs potenti, ma di dimensioni più ridotte. In seguito al rilascio di LLaMA al pubblico, abbiamo assistito a una massiccia ondata di ricerca aperta sugli LLMs. Tale ricerca ha prodotto una varietà di modelli diversi, alcuni dei quali erano di qualità comparabile a ChatGPT. Tuttavia, questi modelli sono stati prodotti a costi minimi (cioè meno di 500 dollari nella maggior parte dei casi) e con risorse di calcolo modeste (alcuni di questi modelli possono essere eseguiti su un normale macbook!). Qui, esamineremo alcuni di questi modelli post-LLaMA che sono stati proposti di recente ed esploreremo come la ricerca open-source sugli LLMs ha reso l’argomento più accessibile.

(da [3, 4, 5])

Concetti Fondamentali