La Storia delle LLM Open-Source Modelli di Base Migliori (Parte Due)

La Storia dell'Evoluta LLM Open-Source I Modelli di Base Migliori (Parte Due)

Come LLaMA, MPT, Falcon e LLaMA-2 hanno fatto decollare gli LLM open source…

(Foto di Iñaki del Olmo su Unsplash)

La ricerca open source sui modelli di linguaggio a grande scala (LLM) è incredibilmente preziosa, poiché mira a democratizzare una tecnologia potente ed influente. Sebbene gli LLM open source siano ora comunemente utilizzati e ampiamente studiati, questa area di ricerca ha affrontato alcune difficoltà iniziali che sono state difficili da superare. Inizialmente, gli LLM open source avevano prestazioni scadenti e sono stati fortemente criticati. In questa panoramica, studieremo una linea di ricerca che ha cambiato questa narrazione rendendo LLM pre-addestrati ad alte prestazioni disponibili a tutti. Dato che il pre-addestramento di un modello di linguaggio è molto costoso, i modelli che studieremo qui sono particolarmente importanti. Dopo la creazione e il rilascio di questi modelli di base ad alta performance, molte persone hanno potuto condurre ricerche utilizzando tali modelli a un costo aggiuntivo marginale.

“Le capacità degli LLM sono notevoli considerando la natura apparentemente semplice della metodologia di addestramento.” – da [14]

La serie attuale. Questa panoramica è la seconda parte di una serie di tre sulle origini degli LLM open source. La prima parte della serie ha esaminato i primi tentativi di creare LLM open source. Qui, studieremo i modelli di base open source più popolari (ossia modelli di linguaggio pre-addestrati ma non raffinati o allineati) attualmente disponibili. La prossima volta, vedremo come questi modelli possono essere raffinati o allineati per creare una varietà di applicazioni utili.

(da [10, 12, 14, 15])

I Primi Giorni degli LLM Open Source

Nella prima parte di questa serie, abbiamo visto che i primi giorni di ricerca sugli LLM open source hanno portato alla proposta di diversi modelli di base importanti, come OPT e BLOOM. Tuttavia, questi modelli erano ampiamente considerati come performanti piuttosto scarsi rispetto ai modelli pre-addestrati closed source (ad esempio, GPT-3). Come risolvere questa situazione? Prima, dobbiamo approfondire il processo di addestramento degli LLM.

Pipeline di addestramento. Gli LLM vengono addestrati in diverse fasi, come mostrato nella figura qui sotto. Innanzitutto, pre-addestriamo il modello…