Ricercatori di Princeton e Meta AI introducono MemWalker un nuovo metodo che prima elabora il contesto lungo in un albero di nodi di riassunto

Princeton e Meta AI presentano MemWalker un nuovo metodo che trasforma il contesto in un albero di riassunto

Adottare l’architettura del Transformer con auto-attenzione e aumentare le dimensioni del modello e i dati di pre-addestramento ha portato a progressi significativi nei modelli di lingua di grandi dimensioni (LLM). Gli utenti desiderano utilizzare sequenze di input più lunghe durante l’inferenza in modo più frequente man mano che migliorano le capacità degli LLM. Di conseguenza, c’è una crescente necessità di servizi che agevolino l’analisi di testi lunghi, come studi legali o scientifici, e la gestione di conversazioni lunghe. Il tempo di elaborazione del contesto più lungo è molto utile quando si tratta di un così grande volume di consumo di informazioni come richiesto da queste attività.

Nonostante i progressi, le limitazioni del meccanismo di auto-attenzione diventano più evidenti all’aumentare della lunghezza di una sequenza e della quantità di memorie che deve tenere traccia. Sono stati utilizzati diversi metodi per affrontare questo problema, come lo sviluppo di schemi di attenzione più compatti ed efficaci, il fine-tuning con posizionamento delle annotazioni extrapolate o interpolate, l’utilizzo di ricorrenza per trasferire informazioni da un segmento di testo al successivo e il recupero di passaggi pertinenti. Tuttavia, questi metodi hanno ancora vincoli intrinseci. Non importa quanto trascini la barra, la finestra di contesto rimane sempre della stessa dimensione e non ogni punto ha lo stesso peso. Anche la ricorrenza può gestire sequenze di lunghezza indefinita, ma spesso dimentica i dettagli delle parti precedenti della sequenza.

Invece di analizzare l’intera sequenza in una volta sola, ricercatori dell’Università di Princeton e di Meta AI hanno creato un nuovo metodo radicalmente diverso che si avvicina al modello con una finestra di contesto finita come un agente interattivo, risolvendo così i problemi sopra menzionati. Per raggiungere questo obiettivo, presentano MEMWALKER, un metodo che guida il modello attraverso il testo lungo in modo iterativo basato su LLM.

MEMWALKER è un processo a due fasi che coinvolge:

  1. La costruzione di un albero di memoria
  2. L’utilizzo di quell’albero per guidare il percorso.

Il materiale lungo viene suddiviso in pezzi gestibili nella prima fase che il LLM può elaborare. Il LLM quindi condensa le informazioni da ogni segmento in un nodo di riepilogo unificato. La struttura ad albero viene costruita da questi nodi di riepilogo e successivamente riassunta in nodi di riepilogo di livello superiore. Durante l’elaborazione di una richiesta dell’utente, il LLM tornerà all’inizio dell’albero. Esamina ogni ramo dell’albero e analizza il testo per trovare il percorso che risponde alla domanda. Ciò consente a MEMWALKER di elaborare rapidamente testi e individuare le parti cruciali di un lungo testo nella lingua originale senza richiedere alcun fine-tuning da parte dell’utente.

Nella loro analisi di MEMWALKER, il team ha scoperto che il sistema supera i modelli di riferimento di ricorrenza, recupero e LLM vanilla quando viene chiesto di rispondere a tre diverse tipologie di domande di contesto esteso. Altri sistemi aperti di contesto lungo che possono gestire da 8.000 a 16.000 token non possono competere con le performance di MEMWALKER. Valutano le performance di MEMWALKER, dimostrando che può ragionare sulle decisioni di navigazione, utilizzare la memoria di lavoro durante il percorso e correggere gli errori commessi nelle prime fasi della navigazione.

Il team ha anche discusso tre importanti limitazioni di MEMWALKER:

  1. La generazione dell’albero di memoria potrebbe non essere molto scalabile se la sequenza diventa lunga.
  2. I risultati dello studio mostrano che il LLM deve essere grande (oltre 70B) e sintonizzato per le istruzioni affinché MEMWALKER sia efficace.
  3. Le capacità di lettura interattiva di MEMWALKER sono limitate a zero-shot prompting e non utilizzano il fine-tuning in alcun modo.

Tuttavia, il team ritiene che MEMWALKER apra la strada a molte ricerche interessanti in futuro, inclusa l’espansione del suo utilizzo a strutture dati diverse dagli alberi e l’ottimizzazione delle sue prestazioni per il compito di lettura interattiva.