3 Domande Jacob Andreas sui grandi modelli linguistici

3 questions by Jacob Andreas about large language models.

Lo scienziato di CSAIL descrive la ricerca di elaborazione del linguaggio naturale attraverso modelli di machine learning all’avanguardia e l’indagine su come il linguaggio possa migliorare altri tipi di intelligenza artificiale.

Jacob Andreas is broadly interested in using language as a communicative and computational tool.

Parole, dati e algoritmi si combinano,
Un articolo sui LLM, così divino.
Uno sguardo nel mondo linguistico,
Dove le macchine del linguaggio sono srotolate.

È stata un’inclinazione naturale affidare a un grande modello linguistico (LLM) come CHATGPT la creazione di una poesia che approfondisce il tema dei grandi modelli linguistici, e successivamente utilizzare detta poesia come pezzo introduttivo per questo articolo.

Quindi, come è stata esattamente creata questa poesia con parole che si rincorrono e piccoli bocconi di frasi intelligenti?

Siamo andati direttamente alla fonte: il professore assistente del MIT e investigatore principale del CSAIL Jacob Andreas, il cui lavoro di ricerca si concentra sullo sviluppo del campo del processing del linguaggio naturale, sia nella creazione di modelli di apprendimento automatico all’avanguardia che nell’esplorazione del potenziale del linguaggio come mezzo per migliorare altre forme di intelligenza artificiale. Ciò include lavori pionieristici in aree come l’utilizzo del linguaggio naturale per insegnare ai robot e sfruttare il linguaggio per consentire ai sistemi di visione artificiale di articolare la logica alla base dei loro processi decisionali. Abbiamo interrogato Andreas riguardo alla meccanica, alle implicazioni e alle prospettive future della tecnologia a portata di mano.

Q: Il linguaggio è un ecosistema ricco di sfumature sottili che gli esseri umani usano per comunicare tra di loro – sarcasmo, ironia e altre forme di linguaggio figurativo. Ci sono numerosi modi per trasmettere il significato oltre al letterale. È possibile per i grandi modelli linguistici comprendere le complessità del contesto? Cosa significa per un modello raggiungere “l’apprendimento in contesto”? Inoltre, come elaborano i transformers multilingue le variazioni e i dialetti di lingue diverse dall’inglese?

A: Quando pensiamo ai contesti linguistici, questi modelli sono capaci di ragionare su documenti e pezzi di testo molto, molto più ampiamente di qualsiasi cosa che abbiamo conosciuto finora. Ma questo è solo un tipo di contesto. Con gli esseri umani, la produzione e la comprensione del linguaggio avviene in un contesto concreto. Ad esempio, so che sto seduto a questo tavolo. Ci sono oggetti a cui posso riferirmi, e i modelli linguistici che abbiamo ora di solito non possono vedere nulla di tutto questo quando interagiscono con un utente umano.

C’è un contesto sociale più ampio che informa gran parte del nostro uso del linguaggio, di cui questi modelli non sono, almeno immediatamente, sensibili o consapevoli. Non è chiaro come fornirgli informazioni sul contesto sociale in cui avviene la generazione e la modellizzazione del linguaggio. Un’altra cosa importante è il contesto temporale. Stiamo girando questo video in un momento specifico in cui sono veri fatti specifici. I modelli che abbiamo ora sono stati addestrati su, di nuovo, una panoramica di Internet che si è fermata in un momento specifico – per la maggior parte dei modelli che abbiamo ora, probabilmente un paio di anni fa – e non sanno nulla di ciò che è successo da allora. Non sanno nemmeno in quale momento della generazione di testo si trovano. Capire come fornire tutti questi diversi tipi di contesti è anche una questione interessante.

Forse uno dei componenti più sorprendenti qui è questo fenomeno chiamato apprendimento in contesto. Se prendo un piccolo dataset di apprendimento automatico (ML) e lo alimenti al modello, ad esempio una recensione di un film e la valutazione in stelle assegnata al film dal critico, dando solo un paio di esempi di queste cose, i modelli linguistici generano la capacità sia di generare recensioni di film plausibili, ma anche di prevedere le valutazioni in stelle. Più in generale, se ho un problema di apprendimento automatico, ho i miei input e le mie uscite. Man mano che si fornisce un input al modello, si dà un altro input e si chiede di prevedere l’output, i modelli spesso riescono a farlo molto bene.

Questo è un modo di fare apprendimento automatico super interessante e fondamentalmente diverso, in cui ho un grande modello generico che posso inserire in esso molti piccoli dataset di apprendimento automatico, eppure senza dover addestrare un nuovo modello per nulla, classificatore o generatore o qualsiasi cosa specializzato per il mio particolare compito. Questo è effettivamente qualcosa su cui abbiamo pensato molto nel mio gruppo e in alcune collaborazioni con colleghi di Google, cercando di capire esattamente come questo fenomeno di apprendimento in contesto si manifesta.

Q: Ci piace credere che gli esseri umani siano (almeno in parte) alla ricerca di ciò che è oggettivamente e moralmente noto come vero. I grandi modelli linguistici, forse con bussole morali ancora da definire o da capire, non sono tenuti alla verità. Perché i grandi modelli linguistici tendono a allucinare fatti o affermare con sicurezza inesattezze? Ciò limita l’utilità per le applicazioni in cui l’accuratezza dei fatti è fondamentale? Esiste una teoria dominante su come risolveremo questo problema? 

A: È ben documentato che questi modelli allucinano fatti, che non sono sempre affidabili. Di recente, ho chiesto a ChatGPT di descrivere alcune delle ricerche del nostro gruppo. Ha citato cinque articoli, quattro dei quali non sono articoli che esistono realmente, e uno dei quali è un vero articolo scritto da un mio collega che vive nel Regno Unito, con cui non ho mai co-autorizzato. La veridicità è ancora un grande problema. Anche al di là di questo, le cose che implicano ragionamenti in un senso veramente generale, le cose che implicano calcoli complicati, inferenze complesse, sembrano ancora essere molto difficili per questi modelli. Potrebbero esserci persino limitazioni fondamentali di questa architettura di trasformatori, e penso che sia necessario fare molto più lavoro di modellizzazione per migliorare le cose.

Perché succede è ancora in parte una domanda aperta, ma forse, solo architetturalmente, ci sono ragioni per cui è difficile per questi modelli creare modelli coerenti del mondo. Possono farlo un po’. Puoi interrogarli con domande di fatto, domande di trivia, e loro le rispondono giuste la maggior parte delle volte, forse anche più spesso di un utente medio umano per strada. Ma a differenza di un utente medio umano, non è affatto chiaro se ci sia qualcosa che vive all’interno di questo modello linguistico che corrisponda a una credenza sullo stato del mondo. Penso che questo sia dovuto sia a motivi architettonici, che i transformatori non hanno, ovviamente, da nessuna parte dove mettere quella credenza, sia per i dati di formazione, che questi modelli sono stati addestrati su Internet, che è stato scritto da un gruppo di persone diverse in momenti diversi che credono cose diverse sullo stato del mondo. Pertanto, è difficile aspettarsi che i modelli rappresentino quelle cose in modo coerente.

Tutto ciò detto, non penso che questa sia una limitazione fondamentale dei modelli linguistici neurali o anche dei modelli linguistici più generali in generale, ma qualcosa che è vero per i modelli linguistici di oggi. Stiamo già vedendo che i modelli si avvicinano alla capacità di costruire rappresentazioni di fatti, rappresentazioni dello stato del mondo, e penso che ci sia spazio per migliorare ulteriormente.

Q: Il ritmo di progresso da GPT-2 a GPT-3 a GPT-4 è stato vertiginoso. Qual è l’aspetto della traiettoria dal futuro? Sarà esponenziale o una curva a S che diminuirà il progresso nel breve termine? In tal caso, ci sono fattori limitanti in termini di scala, calcolo, dati o architettura?

A: Certamente nel breve termine, la cosa che mi fa più paura riguarda queste questioni di veridicità e coerenza che ho menzionato prima, che anche i migliori modelli che abbiamo oggi generano fatti incorretti. Generano codice con bug, e a causa del modo in cui questi modelli funzionano, lo fanno in modo particolarmente difficile per gli umani da individuare poiché l’output del modello ha tutte le statistiche superficiali corrette. Quando pensiamo al codice, è ancora una domanda aperta se sia effettivamente meno lavoro per qualcuno scrivere una funzione a mano o chiedere a un modello linguistico di generare quella funzione e poi far controllare alla persona che l’implementazione di quella funzione fosse effettivamente corretta.

C’è un po’ di pericolo nel correre a distribuire questi strumenti subito, e finiremo in un mondo in cui tutto è un po’ peggio, ma in cui è effettivamente molto difficile per le persone verificare in modo affidabile gli output di questi modelli. Detto questo, questi sono problemi che possono essere superati. Il ritmo con cui le cose si stanno muovendo soprattutto, c’è molto spazio per affrontare queste questioni di veridicità, coerenza e correttezza del codice generato nel lungo termine. Questi sono veramente strumenti, strumenti che possiamo usare per liberarci come società da molte attività sgradevoli, lavori domestici o lavori noiosi che sono stati difficili da automatizzare – e questo è qualcosa di cui essere entusiasti.