Ricercatori dell’UC Berkeley sperano di rivoluzionare le conversazioni orientate agli obiettivi

Ricercatori dell'UC Berkeley sperano di rivoluzionare le conversazioni con uno sguardo al futuro

In un nuovo articolo, i ricercatori dell’Università di Berkeley sperano di rivoluzionare le conversazioni mirate agli obiettivi con i modelli LLM sfruttando il Reinforcement Learning. Nel corso dell’ultimo anno abbiamo visto come i modelli LLM abbiano dimostrato il loro valore in una serie di compiti di linguaggio naturale, dalla sintesi di testo alla generazione di codice.

Tuttavia, questi modelli continuano a incontrare difficoltà nelle conversazioni mirate agli obiettivi. Questa è stata una sfida continua, soprattutto in scenari in cui risposte personalizzate e concise sono cruciali, come ad esempio agire in qualità di esperto agente di viaggio.

Il problema è che i modelli tradizionali sono spesso addestrati con un fine-tuning supervisionato o con RL a singolo passo. Ciò può far sì che non raggiungano risultati conversazionali ottimali in interazioni multiple. Inoltre, gestire l’incertezza all’interno di questi dialoghi rappresenta una significativa difficoltà.

In questo articolo, il team mostra un nuovo metodo che incorpora un algoritmo ottimizzato di “zero-shot” e un motore di immaginazione per generare domande diverse e pertinenti al compito, fondamentali per addestrare agenti downstream in modo efficace.

Il motore di immaginazione, pur non potendo produrre agenti efficaci in modo indipendente, collabora con un LLM per generare scenari potenziali. Per migliorare ulteriormente l’efficacia di un agente nel raggiungere gli obiettivi desiderati, i ricercatori utilizzano RL a più passi per determinare la strategia ottimale.

Quello che rende interessante questa novità è che l’addestramento del modello si discosta dagli approcci convenzionali basati su campioni in politica, utilizzando RL basato su valore offline per apprendere una politica da dati sintetici, riducendo i costi computazionali.

Per convalidare il loro metodo, i ricercatori hanno condotto uno studio comparativo tra un agente GPT e IE+RL, coinvolgendo valutatori umani in due conversazioni mirate agli obiettivi basate su problemi del mondo reale.

L’utilizzo del modello GPT-3.5 nell’IE per la generazione di dati sintetici e di un modello GPT-2 compatto come agente downstream evidenzia la praticità del loro approccio, riducendo le spese computazionali.

Fino ad ora, i risultati degli esperimenti dimostrano senza ambiguità la superiorità dell’agente proposto rispetto al modello GPT in tutte le metriche, garantendo la naturalezza dei dialoghi risultanti. L’agente IE+RL supera il suo omologo generando domande intelligentemente strutturate e pertinenti al contesto, facili da rispondere.

In scenari di simulazione, entrambi gli agenti si sono comportati in modo encomiabile, ma le valutazioni qualitative hanno favorito l’agente IE+RL, sottolineando la sua efficacia nelle applicazioni del mondo reale. Se dimostrato essere scalabile, questo metodo potrebbe apportare miglioramenti futuri agli agenti di dialogo “zero-shot”, aprendo la strada a un’interazione più sofisticata con i sistemi di intelligenza artificiale.