Questo articolo sull’IA propone un metodo di generazione di memoria ricorsiva per migliorare la coerenza conversazionale a lungo termine in grandi modelli di linguaggio

This article proposes a method for generating recursive memory to improve long-term conversational coherence in large language models.

I chatbot e altre forme di sistemi di comunicazione a dominio aperto hanno visto un aumento di interesse e ricerca negli ultimi anni. La configurazione di una discussione a lungo termine è una sfida poiché richiede di conoscere e ricordare i punti cruciali delle conversazioni precedenti.

I modelli di linguaggio estesi (LLM) come ChatGPT e GPT-4 hanno mostrato risultati incoraggianti in diverse recenti attività di linguaggio naturale. Di conseguenza, i chatbot a dominio aperto/task vengono creati utilizzando le capacità del LLM nella sollecitazione. Tuttavia, in una discussione prolungata, anche ChatGPT può perdere il contesto e fornire risposte inconsistenti.

Ricercatori dell’Accademia Cinese delle Scienze e dell’Università di Sydney indagano se i LLM possono essere utilizzati efficientemente in una conversazione a lungo termine senza dati etichettati o strumenti aggiuntivi. I ricercatori utilizzano i LLM per costruire riassunti ricorsivi come memoria, dove salvano informazioni cruciali dalla conversazione in corso, prendendo ispirazione da approcci con memoria augmentata. Nell’uso effettivo, un LLM viene inizialmente fornito di un breve contesto e gli viene chiesto di riassumerlo. Quindi, hanno il LLM combinare le dichiarazioni precedenti e successive per produrre un nuovo riassunto/memoria. Infine, concludono dicendo al LLM di decidere in base alle informazioni più recenti che ha memorizzato.

Lo schema proposto potrebbe servire come soluzione fattibile per consentire all’attuale LLM di modellare il contesto estremamente lungo (sessione di dialogo) senza un costoso aumento dell’impostazione della lunghezza massima e modellare il discorso a lungo termine.

L’utilità dello schema suggerito è dimostrata sperimentalmente sul dataset pubblico a lungo termine utilizzando l’API ChatGPT e text-davinci-003, entrambi facili da usare. Inoltre, lo studio dimostra che l’utilizzo di un singolo campione etichettato può migliorare significativamente le prestazioni della strategia suggerita.

Un modello di linguaggio arbitrariamente grande viene chiesto dai ricercatori di svolgere le attività di gestione della memoria e generazione di risposte. Il primo è responsabile del riassunto iterativo dei dettagli importanti con la conversazione in corso, e il secondo incorpora la memoria per produrre una risposta accettabile.

In questo studio, il team ha utilizzato esclusivamente misure automatiche per valutare l’efficacia della metodologia suggerita, che potrebbe non essere ottimale per i chatbot a dominio aperto. Nelle applicazioni del mondo reale, non possono ignorare il costo di chiamare modelli enormi, che non viene preso in considerazione dalla loro soluzione.

In futuro, i ricercatori pianificano di testare l’efficacia del loro approccio alla modellazione del contesto lungo su altri compiti a contesto lungo, inclusa la produzione di storie. Hanno anche intenzione di migliorare le capacità di riassunto del loro metodo utilizzando un LLM addestrato localmente con supervisione anziché un costoso API online.