La storia dei LLM open-source i primi giorni (prima parte)

La storia dei LLM open-source i primi giorni (prima parte)

Comprensione di GPT-Neo, GPT-J, GLM, OPT, BLOOM e altro…

(Foto di Chris Lawton su Unsplash)

La ricerca sul modellamento del linguaggio ha una lunga storia che risale a modelli come GPT e GPT-2 o persino tecniche basate su RNN (ad esempio, ULMFit) che precedono i modelli di linguaggio basati su trasformer. Nonostante questa lunga storia, tuttavia, i modelli di linguaggio sono diventati popolari solo relativamente di recente. La prima grande popolarità è arrivata con la proposta di GPT-3 [1], che ha dimostrato che poteva essere ottenuta una prestazione impressionante di apprendimento a poca memoria sia su molte attività tramite una combinazione di pre-addestramento auto-supervisionato e apprendimento in contesto; vedi sotto.

(da [1])

Dopo questo, il riconoscimento ottenuto da GPT-3 ha portato alla proposta di un’ampia gamma di modelli di linguaggio di grandi dimensioni (LLM). Poco dopo, la ricerca sull’allineamento dei modelli di linguaggio ha portato alla creazione di modelli ancora più impressionanti come InstructGPT [19] e, soprattutto, la sua modella gemella ChatGPT. Le prestazioni impressionanti di questi modelli hanno suscitato un’enorme interesse nel modellamento del linguaggio e nell’AI generativa.

Nonostante siano incredibilmente potenti, molti dei primi sviluppi nella ricerca sugli LLM hanno una caratteristica comune: sono software proprietari. Quando i modelli di linguaggio hanno cominciato a ottenere una vasta popolarità, molti dei LLM più potenti erano accessibili solo attraverso API a pagamento (ad esempio, l’OpenAI API) e la possibilità di ricerca e sviluppo di tali modelli era limitata a individui o laboratori selezionati. Questo approccio è nettamente diverso dalle pratiche tipiche di ricerca sull’IA, in cui solitamente si incoraggia l’apertura e la condivisione delle idee per favorire il progresso.

“Questo accesso limitato ha limitato la capacità dei ricercatori di comprendere come e perché funzionano questi grandi modelli di linguaggio, ostacolando il progresso negli sforzi per migliorare la loro robustezza e mitigare problemi noti come il bias e la tossicità.” – da [4]

Questo panorama generale. Nonostante l’attenzione iniziale sulla tecnologia proprietaria, la comunità di ricerca sugli LLM ha cominciato lentamente a creare varianti open source dei modelli di linguaggio popolari come GPT-3. Sebbene i primi modelli di linguaggio open source fossero dietro ai migliori modelli proprietari, hanno posto le basi per…+