Questa ricerca sull’intelligenza artificiale conferma che i modelli di lingua di grandi dimensioni basati su trasformatori sono universalmente computazionali quando vengono potenziati con una memoria esterna.

This AI research confirms that large-scale transformer-based language models are universally computational when enhanced with external memory.

I risultati notevoli ottenuti dai modelli basati su trasformatori come GPT-2 e GPT-3 hanno spinto la comunità di ricerca a esplorare i grandi modelli di linguaggio (LLM). Inoltre, il successo e la popolarità recenti di ChatGPT hanno solo aumentato l’interesse delle persone per i LLM. L’apprendimento in contesto e l’induzione di catena di pensiero sono altre due scoperte importanti che hanno migliorato significativamente l’accuratezza dei modelli. Queste scoperte vanno oltre la semplice risposta a una domanda, in cui un prompt di input contenente una domanda viene utilizzato per produrre una risposta ragionevole.

Anche se queste tattiche di induzione hanno avuto successo nel migliorare le prestazioni, i LLM attuali basati su trasformatori possono condizionarsi solo su una lunghezza fissa di stringa di input, il che limita i calcoli che possono rappresentare. Ciò può essere anche compreso come il fatto che qualsiasi modello di linguaggio deterministico che si basa su stringhe di lunghezza finita è limitato computazionalmente, poiché il modello è equivalente a un automa finito. Per contrastare questo problema, i ricercatori hanno esaminato la possibilità di aggiungere un ciclo di feedback esterno ai LLM, in cui le uscite del modello vengono fornite come input dopo una certa post-elaborazione. Tuttavia, la questione se questo metodo amplia in modo sostanziale l’insieme di calcoli di un modello è ancora aperta.

Google Brain e ricercatori dell’Università di Alberta hanno collaborato per affrontare questo problema. Hanno aggiunto una memoria di lettura-scrittura esterna a un LLM per verificare che potesse emulare qualsiasi algoritmo su qualsiasi input. La loro ricerca è riassunta nel documento “Memory Augmented Large Language Models are Computationally Universal”, che mostra come un LLM potenziato con una memoria di lettura-scrittura associativa sia computazionalmente universale.

Il Flan-U-PaLM 540B è stato il LLM scelto dai ricercatori. L’idea sottostante alla ricerca è quella di utilizzare un computer di istruzioni memorizzate semplice per collegare il LLM e la memoria associativa. Ciò rende possibile che le uscite e i prompt di input da inoltrare al modello di linguaggio interagiscano in un loop. La memoria associativa esterna può essere considerata un dizionario, con le coppie chiave-valore che rappresentano nomi di variabili/posizioni di indirizzi e valori. Il modello di linguaggio e la memoria utilizzano corrispondenze di espressioni regolari per eseguire ciascun passaggio di parsing.

Viene quindi sviluppato un “programma di prompt” unico per dirigere il sistema nella simulazione dell’esecuzione di una macchina di Turing universale dopo aver stabilito un computer di istruzioni memorizzate. Alla fine, dimostrare l’affidabilità della simulazione consiste nell’esaminare un numero limitato di modelli di prompt-risultato e confermare che il modello di linguaggio genera l’output appropriato per ogni insieme finito di possibili stringhe di input. Il fatto che questo studio non comporti alcun “addestramento” aggiuntivo del modello di linguaggio o l’alterazione dei suoi pesi pre-addestrati è uno dei punti di forza principali del lavoro. Invece, la costruzione dipende esclusivamente dalla creazione di un tipo di computer di istruzioni memorizzate che può quindi essere programmato con determinati prompt.

A differenza delle ricerche precedenti in questo campo che esplorano l’universalità computazionale dei modelli, questo studio è distintivo. Il contrasto principale è che i ricercatori hanno dimostrato come l’augmentazione della memoria esterna potesse elicere un comportamento computazionale universale utilizzando un modello di linguaggio fisso con pesi pre-addestrati fissi. I risultati dimostrano che i grandi modelli di linguaggio sono già computazionalmente universali così come sono attualmente, purché abbiano accesso a una memoria esterna infinita.