Ricercatori di Microsoft e UC Santa Barbara propongono LONGMEM un framework di intelligenza artificiale che consente a LLM di memorizzare una lunga storia.

Microsoft and UC Santa Barbara researchers propose LONGMEM, an AI framework that allows LLM to store long-term memory.

I grandi modelli di linguaggio (LLM) hanno notevolmente migliorato lo stato dell’arte in varie attività di comprensione e generazione, rivoluzionando l’elaborazione del linguaggio naturale. La maggior parte dei LLM guadagna dal training auto-supervisionato su grandi corpora raccogliendo informazioni da un contesto locale di dimensioni fisse e mostrando abilità emergenti, tra cui la promptizzazione a zero shot, l’apprendimento in contesto e il ragionamento Chain-of-Thought (CoT). La restrizione della lunghezza dell’input dei LLM attuali impedisce loro di generalizzare ad applicazioni reali, come la pianificazione orizzontale estesa, dove la capacità di gestire materiali a lungo termine oltre una sessione di dimensioni fisse è cruciale.

La soluzione più semplice al problema della limitazione della lunghezza è semplicemente aumentare la lunghezza del contesto di input. Per una migliore interdipendenza a lungo raggio, ad esempio, GPT-3 aumenta la lunghezza dell’input da 1k di GPT-2 a 2k token. Tuttavia, l’attenzione densa in contesto è severamente limitata dalla complessità di calcolo quadratica dell’auto-attenzione del Transformer, e questa tecnica richiede spesso un training computazionalmente esteso dall’inizio. Un’altra nuova area di ricerca, che ancora principalmente richiede una formazione dall’inizio, si concentra sulla creazione di attenzioni sparse in contesto per evitare il costo quadratico dell’auto-attenzione.

Mentre il Memorising Transformer (MemTRM) è uno studio ben noto, approssima l’attenzione scarsa in contesto attraverso l’attenzione densa sia ai token in contesto che ai token memorizzati recuperati da una memoria non differenziabile per i Transformer. MemTRM fornisce notevoli vantaggi di perplessità nella modellizzazione di grandi libri o documenti aumentando il modello di linguaggio risultante per gestire fino a 65k token. L’approccio di memoria collegata di MemTRM, che utilizza un singolo modello per la codifica e la fusione della memoria per la modellizzazione del linguaggio, presenta la difficoltà di memoria obsoleta durante il training. In altre parole, le rappresentazioni memorizzate in memoria potrebbero avere cambiamenti distribuzionali rispetto a quelle del modello più recente quando i parametri del modello vengono modificati, riducendo l’uso dell’aumento di memoria.

In questo documento gli autori di UCSB e Microsoft Research propongono il framework LONGMEM, che consente ai modelli di linguaggio di memorizzare contesti o conoscenze pregressi a lungo termine nella banca di memoria non differenziabile e di trarne vantaggio attraverso un modulo di memoria decoppiato per affrontare il problema della memoria obsoleta. Creano una rete laterale residua rivoluzionaria (SideNet) per raggiungere la memoria decoppiata. Viene utilizzato un LLM di base congelato per estrarre le chiavi di attenzione accoppiate e i valori dal contesto precedente nella banca di memoria. La query di attenzione risultante dell’input corrente viene utilizzata nel layer con memoria aumentata di SideNet per accedere alle chiavi e ai valori memorizzati per i contesti precedenti. Le associazioni di memoria correlate vengono quindi fuse in stati nascosti di apprendimento attraverso un processo di attenzione congiunto.

Un migliore trasferimento di conoscenze dal LLM di base preaddestrato è reso possibile dalle nuove connessioni residue cross-network tra SideNet e il LLM di base congelato. Il LLM preaddestrato può essere modificato per utilizzare la memoria contestuale a lungo termine addestrando ripetutamente SideNet residuo per estrarre e fondere contesto a lungo termine con memoria aumentata. Ci sono due principali vantaggi del loro sistema di memoria decoppiata. In primo luogo, il LLM di base congelato e SideNet decoppiati nella loro architettura proposta isolano il recupero e la fusione della memoria dall’encoding degli input precedenti nella memoria.

Ciò affronta efficientemente il problema della memoria obsoleta poiché il LLM di base serve solo come codificatore di conoscenza contestuale a lungo termine. Al contrario, il SideNet residuo serve come recupero e lettore di memoria. In secondo luogo, è inaffidabile dal punto di vista computazionale e soffre di dimenticanza catastrofica cambiare direttamente il LLM con aumenti di memoria. Oltre ad essere in grado di accedere alla conoscenza appresa in precedenza, LONGMEM può anche prevenire la dimenticanza devastante poiché il LLM di base è congelato durante l’efficace fase di adattamento con memoria aumentata. A seconda delle attività successive, LONGMEM può inserire diversi tipi di testo e informazioni a lungo termine nella banca di memoria.

Si concentrano su due istanze illustrative: apprendimento in contesto con memoria aumentata con migliaia di esempi di dimostrazione rilevanti per il compito e modellizzazione del linguaggio con contesti di libri a lunghezza completa. Valutano le prestazioni del proposto LONGMEM su diverse attività di modellizzazione del linguaggio di testo lungo e apprendimento in contesto con memoria aumentata per la comprensione del linguaggio. Secondo i risultati sperimentali, il loro modello supera regolarmente i forti baselines per quanto riguarda la sua capacità di modellizzazione del testo lungo e l’apprendimento in contesto. Il loro approccio aumenta significativamente la capacità di LLM di rappresentare il linguaggio a lungo termine di -1,38 ~ -1,62 perplessità su varie suddivisioni di lunghezza del corpus di Gutenberg-2022.

Sorprendentemente, il loro modello supera nettamente i forti x-former baselines attuali per raggiungere le prestazioni all’avanguardia del 40,5% di accuratezza di identificazione su ChapterBreak, una difficile benchmark di modellizzazione del contesto lungo. Infine, rispetto a MemTRM e ai baselines senza miglioramento della memoria, LONGMEM mostra forti vantaggi di apprendimento in contesto su comuni compiti di NLU.