Questo articolo sull’IA sblocca il segreto dell’apprendimento in contesto come i modelli linguistici codificano le funzioni nella magia dei vettori

Questo articolo sull'IA svela il segreto dell'apprendimento contestuale come i modelli linguistici codificano le funzioni nella magia dei vettori

Nelle modelli di lingua dei trasformatori auto-regressivi, viene identificato un meccanismo neurale che rappresenta una funzione input-output come un vettore compatto noto come vettore di funzione (FV). L’analisi di mediazione causale viene applicata a diverse attività di apprendimento in contesto, rivelando che un piccolo numero di testine di attenzione trasportano FV, che rimangono robusti in vari contesti, consentendo l’esecuzione delle attività in modalità zero-shot e testo naturale. Gli FV contengono informazioni sullo spazio di output delle funzioni e possono essere combinati per attivare nuove attività complesse, indicando la presenza di astrazioni interne per funzioni ad uso generale nei LLM.

Ricercatori della Northeastern University estendono lo studio dell’apprendimento in contesto (ICL) nei LLM e approfondiscono i trasformatori per scoprire l’esistenza di FV. Fanno riferimento a numerosi studi correlati, inclusi quelli sulle forme di promemoria dell’ICL, sui modelli di meta-apprendimento e sull’inferenza di compito bayesiana, mentre traggono insegnamenti dalla ricerca sul vocabolario decodificato dei trasformatori. Utilizzano anche analisi del comportamento di copia in contesto e metodi di analisi di mediazione causale sviluppati da Pearl e altri per isolare gli FV.

Lo studio indaga l’esistenza di FV in grandi modelli di lingua di trasformatori auto-regressivi addestrati su estesi dati di testo naturale. Estende il concetto di ICL ed esplora i meccanismi sottostanti nei trasformatori che danno origine agli FV. La ricerca precedente sull’ICL, inclusi le forme di promemoria e la scalatura, informa questo studio. Gli FV vengono introdotti come rappresentazioni vettoriali compatte per compiti di input-output. L’analisi di mediazione causale identifica gli FV e ne comprende le caratteristiche, inclusa la robustezza ai cambiamenti di contesto e il potenziale di composizione semantica.

Il metodo utilizza analisi di mediazione causale per esplorare gli FV nei modelli di lingua dei trasformatori auto-regressivi. Effettua test per valutare se gli stati nascosti codificano i compiti e valuta la portabilità del testo naturale misurando l’accuratezza nella generazione dell’output. Sono stati creati oltre 40 lavori per testare l’estrazione di FV in vari contesti, focalizzandosi su sei compiti rappresentativi. Il documento fa riferimento a ricerche precedenti sull’ICL e rappresentazioni di funzioni nei modelli di lingua.

La ricerca attuale individua gli FV nei modelli di lingua dei trasformatori auto-regressivi attraverso l’analisi di mediazione causale. Gli FV fungono da rappresentazioni compatte di compiti di input-output che sono robuste in diversi contesti e possono attivare procedure specifiche in contesti diversi. Dimostra forti effetti causali nei livelli intermedi ed è adatto per la composizione di vettori semantici per compiti complessi. Questo approccio supera i metodi alternativi, sottolineando che i LLM possiedono astrazioni di funzioni interne versatili applicabili in diversi contesti.

L’approccio proposto identifica con successo la presenza di FV all’interno dei modelli di lingua dei trasformatori auto-regressivi attraverso l’analisi di mediazione causale. Queste rappresentazioni compatte dei compiti di input-output dimostrano robustezza in contesti diversi e mostrano forti effetti causali nei livelli intermedi dei modelli di lingua. Sebbene gli FV contengano spesso informazioni che codificano lo spazio di output della funzione, la loro ricostruzione è più complessa. Inoltre, gli FV possono essere combinati per attivare nuovi compiti complessi, mostrando potenziale per la composizione di vettori semantici. I risultati suggeriscono l’esistenza di astrazioni interne di funzioni ad uso generale in contesti diversi.

Le future direzioni di ricerca includono l’approfondimento della struttura interna degli FV per discernere le informazioni codificate e le contribuzioni all’esecuzione, la loro utilità nei compiti complessi e il loro potenziale di componibilità. È importante esplorare la generalizzabilità degli FV su vari modelli, compiti e livelli. Sono necessari studi comparativi con altri metodi di costruzione di FV e indagini sulle loro relazioni con le tecniche di rappresentazione dei compiti. Inoltre, è necessaria una maggiore esplorazione dell’applicazione degli FV in compiti di elaborazione del linguaggio naturale, come la generazione di testo e la risposta alle domande.