Hanno bisogno gli LLM di tutti quei livelli per raggiungere l’apprendimento in contesto?

LLM hanno bisogno di tutti i livelli per l'apprendimento in contesto?

Un recente articolo di Amazon Science getta luce su una delle domande più importanti riguardanti gli LLM.

Creato utilizzando Midjourney

Recentemente ho avviato una newsletter educativa incentrata sull’IA, che conta già oltre 160.000 iscritti. TheSequence è una newsletter orientata all’IA senza fronzoli (senza hype, senza notizie, ecc.) che richiede solo 5 minuti di lettura. L’obiettivo è tenerti aggiornato sui progetti di apprendimento automatico, articoli di ricerca e concetti. Provala iscrivendoti qui di seguito:

TheSequence | Jesus Rodriguez | Substack

La migliore fonte per rimanere aggiornati sugli sviluppi nell’apprendimento automatico, nell’intelligenza artificiale e nei dati…

thesequence.substack.com

I modelli di linguaggio di grandi dimensioni (LLM) hanno attirato molta attenzione di recente, soprattutto con l’emergere di ChatGPT. Questi modelli vengono solitamente preaddestrati su ampi set di dati, con varianti più recenti che incorporano l’apprendimento per rinforzo per seguire istruzioni e integrare il feedback umano. Una capacità intrigante mostrata dagli LLM è l’apprendimento in contesto, in cui il modello può acquisire un compito semplicemente utilizzando alcuni, o a volte anche nessun, esempio rilevante insieme a un nuovo input. Approfondendo questo paradigma di apprendimento, si è osservato che i LLM di dimensioni maggiori superano i loro omologhi più piccoli quando il volume dei dati di preaddestramento rimane costante, dimostrando la loro versatilità in una gamma di compiti.

Una domanda intrigante che ha sempre circondato gli LLM è se abbiano bisogno di tutti quei blocchi di costruzione per abilitare l’apprendimento in contesto. Un recente articolo di Amazon Science esplora il significato della scala del modello nel contesto dell’apprendimento in contesto e dell’interpretabilità architettonica. La domanda principale affrontata nello studio è se tutti i componenti degli LLM siano veramente indispensabili per un efficace apprendimento in contesto.

L’esperimento

Per gli esperimenti, Amazon Science si è affidata al modello OPT-66B, un LLM con 66 miliardi di parametri rilasciato come replica open-source di GPT-3 da Meta l’anno scorso. Al momento dello studio, rappresentava il più grande LLM solo decodificatore disponibile pubblicamente. I risultati della ricerca indicano che una parte significativa del modello…