Ricercatori dell’Università di Heriot-Watt e Alana AI propongono FurChat un nuovo agente conversazionale incarnato basato su grandi modelli di linguaggio.

Researchers from Heriot-Watt University and Alana AI propose FurChat, a new embodied conversational agent based on large language models.

I modelli di linguaggio di grandi dimensioni (LLM) sono diventati protagonisti in un mondo in cui la tecnologia sta facendo passi da gigante. Questi LLM sono programmi informatici estremamente sofisticati che possono comprendere, generare e interagire con un linguaggio umano in modo straordinariamente naturale. Nella recente ricerca è stato presentato un innovativo agente di conversazione incorporato noto come FurChat. I LLM come GPT-3.5 hanno spinto i limiti di ciò che è possibile nel trattamento del linguaggio naturale. Possono comprendere il contesto, rispondere alle domande e persino generare testo che sembra scritto da un normale essere umano. Questa potente capacità ha aperto le porte a innumerevoli opportunità in vari ambiti come la robotica.

I ricercatori dell’Università Heriot-Watt e di Alana AI propongono FurChat, un sistema rivoluzionario che può funzionare come receptionist, impegnarsi in conversazioni dinamiche e trasmettere emozioni attraverso espressioni facciali. La distribuzione di FurChat al National Robotarium ne esemplifica il potenziale trasformativo, facilitando conversazioni naturali con i visitatori e offrendo varie informazioni sulle strutture, le notizie, la ricerca e gli eventi futuri.

Il robot Furhat, un busto robotico umanoide, ha una maschera tridimensionale che assomiglia da vicino a un volto umano e utilizza un microproiettore per proiettare un’espressione facciale animata su questa maschera. Il robot è montato su una piattaforma monitorata che consente alla sua testa di muoversi e annuire, migliorando le sue interazioni realistiche. Per facilitare la comunicazione, Furhat è dotato di un array di microfoni e altoparlanti, che gli consentono di riconoscere e rispondere al linguaggio umano.

Il suo sistema è progettato per applicazioni senza soluzione di continuità. La gestione del dialogo prevede tre componenti principali: NLU, DM e un database personalizzato. NLU analizza il testo in ingresso, classifica le intenzioni e valuta la fiducia. DM mantiene il flusso conversazionale, invia prompt a LLM e elabora le risposte. Un database personalizzato viene creato attraverso lo scraping del sito web del Nation Robotarium, che fornisce dati pertinenti alle intenzioni dell’utente. L’ingegneria dei prompt garantisce risposte naturali da LLM. Combina alcune tecniche di apprendimento rapido e apprendimento dei prompt per generare risposte consapevoli del contesto. Il parsing dei gesti sfrutta i gesti facciali del SDK di Furhat e il riconoscimento del sentiment di LLM dal testo per sincronizzare le espressioni facciali con il discorso, creando un’interazione coinvolgente. Amazon Polly viene utilizzato per la conversione del testo in voce, ed è disponibile in FurhatOS.

In futuro, i ricercatori sono pronti ad ampliare le sue capacità. Hanno puntato ad abilitare interazioni multiutente, un’area di ricerca attiva nel campo dei robot receptionist. Inoltre, per affrontare il problema delle allucinazioni nei modelli di linguaggio, pianificano di esplorare strategie come il raffinamento del modello di linguaggio e l’esperimento con la generazione diretta di conversazioni, riducendo la dipendenza dai componenti NLU. Un traguardo significativo per i ricercatori è la dimostrazione di FurChat alla conferenza Sigdial. Servirà come piattaforma per mostrare le capacità del sistema a un pubblico più ampio di colleghi ed esperti.