Gli studiosi di UCL e Google DeepMind rivelano la fugace dinamica dell’apprendimento in contesto (ICL) nelle reti neurali dei trasformatori

Gli esperti di UCL e Google DeepMind svelano la rapida dinamica dell'apprendimento contestuale (ICL) nelle reti neurali dei trasformatori

La capacità di un modello di utilizzare input durante il tempo di inferenza per modificare il suo comportamento senza aggiornare i suoi pesi al fine di affrontare problemi che non erano presenti durante l’addestramento è nota come apprendimento in contesto o ICL. Le architetture delle reti neurali, particolarmente create e addestrate per la conoscenza a poche riprese, ovvero la capacità di imparare un comportamento desiderato da un piccolo numero di esempi, sono state le prime a mostrare questa capacità. Affinché il modello si comporti bene sul set di addestramento, doveva ricordare le corrispondenze esemplare-etichetta dal contesto per fare previsioni in futuro. In queste circostanze, l’addestramento implicava la riorganizzazione delle etichette corrispondenti agli esempi di input su ogni “episodio”. Esempi di nuove corrispondenze tra esempi-etichetta venivano forniti durante il test, e il compito della rete era categorizzare gli esempi di query utilizzando questi.

La ricerca sul ICL si è evoluta in seguito allo sviluppo del transformer. È stato notato che gli autori non hanno specificamente cercato di promuoverlo attraverso l’obiettivo di addestramento o i dati; piuttosto, il modello di linguaggio basato su transformer GPT-3 ha dimostrato ICL dopo essere stato addestrato in modo auto-regressivo a una dimensione appropriata. Da allora, una quantità significativa di ricerca ha esaminato o documentato casi di ICL. A causa di queste scoperte convincenti, le capacità emergenti nelle reti neurali di grandi dimensioni sono state oggetto di studio. Tuttavia, una ricerca recente ha dimostrato che l’addestramento dei transformer produce ICL solo in alcuni casi. I ricercatori hanno scoperto che l’emergere di ICL nei transformer è significativamente influenzato da alcune caratteristiche dei dati linguistici, come il carattere imprevedibile e la distribuzione fortemente sbilanciata.

I ricercatori dell’UCL e di Google DeepMind hanno scoperto che i transformer tendono generalmente a ricorrere all’apprendimento all’interno dei pesi (IWL) quando vengono addestrati su dati privi di queste caratteristiche. Invece di utilizzare informazioni fresche fornite in contesto, il transformer nel regime IWL utilizza dati memorizzati all’interno dei pesi del modello. In modo cruciale, ICL e IWL sembrano essere in contrasto tra loro; ICL sembra emergere più facilmente quando i dati di addestramento sono imprevedibili, ovvero quando gli oggetti appaiono in gruppi anziché casualmente, e hanno un elevato numero di token o classi. È essenziale condurre indagini controllate utilizzando distribuzioni di generazione dati consolidate per comprendere meglio il fenomeno ICL nei transformer.

Contemporaneamente, un corpus ausiliario di ricerca esamina l’emergere di modelli giganteschi addestrati direttamente su dati organici su larga scala, concludendo che caratteristiche notevoli come ICL sono più probabili che compaiano in modelli di grandi dimensioni addestrati su una quantità maggiore di dati. Tuttavia, la dipendenza dai modelli di grandi dimensioni presenta sfide pragmatiche significative, tra cui l’innovazione rapida, l’addestramento energetico in ambienti a risorse limitate e l’efficienza del deployment. Di conseguenza, una quantità significativa di ricerca si è concentrata nello sviluppo di modelli transformer più piccoli che possono garantire prestazioni equivalenti, compresa l’emergente ICL. Attualmente, il metodo preferito per sviluppare convertitori compatti ma efficaci è l’overtraining. Questi modelli più piccoli sono addestrati su un budget di dati maggiore – eventualmente ripetutamente – rispetto alle regole di scaling richieste.

Figura 1: Con 12 strati e una dimensione di incorporamento di 64, addestrato su 1600 corsi con 20 esempi per classe, l’apprendimento in contesto è temporaneo. Ogni sessione di addestramento ha delle velocizzazioni. A causa di un tempo di addestramento insufficiente, i ricercatori non hanno potuto constatare la transitorietà del ICL nonostante abbiano scoperto che questi ambienti incoraggiano fortemente il ICL. (a) Precisione dell’evaluatore ICL. (b) Precisione degli evalutatori IWL. Il team di ricerca nota che, poiché le sequenze di test si trovano fuori distribuzione, la precisione dell’evalutore IWL migliora estremamente lentamente, nonostante la precisione sulle sequenze di addestramento sia del 100%. (c) Perdita dei log di addestramento. Due tonalità indicano i due seed sperimentali.

Fondamentalmente, l’overtraining si basa su una premessa presente nella maggior parte delle recenti indagini sul ICL nei LLM, se non in tutte: la persistenza. Si crede che un modello venga mantenuto durante l’addestramento fintanto che gli viene insegnato abbastanza da far emergere una capacità dipendente dal ICL, purché la perdita di addestramento continui a diminuire. Qui, il team di ricerca confuta la credenza diffusa che la persistenza esista. Il team di ricerca lo fa modificando un comune dataset di few-shot basato su immagini, che ci consente di valutare approfonditamente il ICL in un ambiente controllato. Il team di ricerca fornisce scenari semplici in cui il ICL appare e poi scompare man mano che la perdita del modello continua a diminuire.

Per dirla in altre parole, anche se l’ICL è ampiamente riconosciuto come un fenomeno emergente, il team di ricerca dovrebbe anche considerare la possibilità che possa durare solo temporaneamente (Figura 1). Il team di ricerca ha scoperto che la transitorietà si verifica per varie dimensioni del modello, dimensioni dell’insieme di dati e tipi di dati, anche se ha dimostrato che certe caratteristiche possono ritardare la transitorietà. In generale, le reti che vengono addestrate in modo irresponsabile per periodi prolungati scoprono che l’ICL può svanire tanto velocemente quanto appare, privando i modelli delle competenze che le persone si aspettano dai sistemi AI contemporanei.