Ricercatori da NYU e Meta AI studiano il miglioramento degli agenti di conversazione sociali tramite l’apprendimento dal dialogo naturale tra gli utenti e un modello implementato, senza ulteriori annotazioni.

Ricercatori di NYU e Meta AI studiano il miglioramento degli agenti di conversazione sociali tramite l'apprendimento dal dialogo naturale, senza annotazioni.

L’input umano è una tattica chiave per migliorare i modelli di dialogo sociale. Nel reinforcement learning con il feedback umano, quando sono necessarie molte annotazioni umane per garantire una funzione di ricompensa soddisfacente, si è registrato un enorme miglioramento nell’apprendimento dal feedback. Le fonti di feedback includono punteggi numerici, classifiche o commenti in linguaggio naturale da parte degli utenti su un turno di dialogo o un episodio di dialogo, così come valutazioni binarie di un turno del bot. La maggior parte degli studi raccoglie deliberatamente questi segnali utilizzando lavoratori freelance poiché gli utenti reali potrebbero evitare di farlo o potrebbero fornire informazioni inaccurate se lo facessero.

In questo studio, i ricercatori della New York University e di Meta AI considerano la situazione in cui dispongono di molti episodi di dialogo al momento dell’implementazione che presentano discussioni reali tra il modello e gli utenti organici. Stanno cercando di determinare se possono estrapolare eventuali indicazioni implicite da queste discussioni degli utenti naturali e utilizzare questi segnali per migliorare il modello di dialogo. Ci sono due motivi per questo. In primo luogo, anche se potrebbero non contribuire con annotazioni esplicite, gli utenti organici sono il più vicino possibile alla distribuzione dei dati per future implementazioni. In secondo luogo, l’utilizzo di segnali impliciti da episodi precedenti di dialogo permette di risparmiare denaro che sarebbe stato speso per il crowd-sourcing.

Figura 1: Panoramica generale dell’approccio. Dalle conversazioni tra umani e robot vengono estrapolati segnali impliciti, come ad esempio se i prossimi turni umani saranno lunghi o brevi, gioiosi o meno.

Più precisamente, esaminano se possono adattare il chatbot all’uso dei migliori segnali di feedback impliciti come la quantità, la lunghezza, il sentimento o la reattività delle risposte umane future. Utilizzano dati pubblicamente disponibili e anonimizzati provenienti dall’implementazione online di BlenderBot per investigare questo problema. Utilizzando questi dati, addestrano modelli di campionamento e di riordinamento, confrontando vari segnali di feedback impliciti. I loro modelli innovativi si sono rivelati superiori alle risposte di base sia attraverso giudizi automatizzati che umani. Inoltre, si chiedono se supportare queste misure comporterà comportamenti indesiderati, dato che i loro segnali di feedback impliciti sono indicatori approssimativi della qualità di entrambe le generazioni.

Sì, a seconda del segnale utilizzato. In particolare, ottimizzare per discussioni più lunghe potrebbe far sì che il modello offra opinioni contrastanti o risponda in modo ostile o combattivo. D’altra parte, ottimizzare per una risposta o un umore favorevoli riduce questi comportamenti rispetto alla risposta di base. Concludono che il feedback implicito degli umani è un segnale di addestramento utile che può migliorare le prestazioni complessive, ma il movimento specifico utilizzato ha significative ripercussioni comportamentali.