Sottotitoli visivi Utilizzo di grandi modelli linguistici per arricchire le videoconferenze con immagini dinamiche.

Visual subtitles using large language models to enhance videoconferences with dynamic images.

Pubblicato da Ruofei Du, Ricercatore Scientifico, e Alex Olwal, Senior Staff Research Scientist, Google Augmented Reality

Gli avanzamenti recenti nelle videoconferenze hanno notevolmente migliorato la comunicazione video remota attraverso funzionalità come la didascalia dal vivo e la cancellazione del rumore. Tuttavia, ci sono varie situazioni in cui l’aggiunta dinamica di elementi visivi sarebbe utile per trasmettere informazioni complesse e sfumate. Ad esempio, quando si discute su cosa ordinare in un ristorante giapponese, i tuoi amici potrebbero condividere immagini che ti aiuterebbero a sentirti più sicuro nell’ordinare il “Sukiyaki”. Oppure, quando si parla del recente viaggio in famiglia a San Francisco, si potrebbe voler mostrare una foto del proprio album personale.

In “Visual Captions: Augmenting Verbal Communication With On-the-fly Visuals”, presentato presso ACM CHI 2023, introduciamo un sistema che utilizza segnali verbali per arricchire la comunicazione video sincrona con immagini in tempo reale. Abbiamo ottimizzato un grande modello linguistico per suggerire in modo proattivo immagini pertinenti in conversazioni a vocabolario aperto, utilizzando un dataset che abbiamo creato appositamente per questo scopo. Abbiamo reso open source Visual Captions come parte del progetto ARChat, che è stato progettato per la prototipazione rapida della comunicazione aumentata con trascrizione in tempo reale.

Visual Captions facilita la comunicazione verbale con immagini in tempo reale. Il sistema è anche robusto contro gli errori tipici che possono spesso apparire nella trascrizione di discorsi in tempo reale. Ad esempio, fuori contesto, il modello di trascrizione ha frainteso la parola “pier” come “pair”, ma Visual Captions consiglia comunque immagini del Santa Monica Pier.

Spazio di progettazione per l’arricchimento della comunicazione verbale con elementi visivi dinamici

Abbiamo invitato 10 partecipanti interni, ognuno con diverse competenze tecniche e non tecniche, tra cui ingegneri del software, ricercatori, designer UX, artisti visivi, studenti, ecc., per discutere le loro esigenze e i loro desideri per un potenziale servizio di arricchimento visivo in tempo reale. In due sessioni, abbiamo presentato prototipi a bassa fedeltà del sistema immaginato, seguiti da demo video dei sistemi esistenti di testo-immagine. Queste discussioni hanno portato alla definizione di uno spazio di progettazione con otto dimensioni per l’arricchimento visivo delle conversazioni in tempo reale, indicate di seguito come D1-D8.

L’arricchimento visivo potrebbe essere sincrono o asincrono con la conversazione (D1: Temporale), potrebbe essere utilizzato sia per esprimere che per comprendere il contenuto del discorso (D2: Soggetto) e potrebbe essere applicato utilizzando una vasta gamma di contenuti visivi, tipi di visuale e fonti visive (D3: Visivo). Tale arricchimento visivo potrebbe variare a seconda delle dimensioni delle riunioni (D4: Scala) e se una riunione si svolge in ambienti collocati o remoti (D5: Spazio). Questi fattori influenzano anche se le immagini dovrebbero essere visualizzate in privato, condivise tra i partecipanti o pubbliche per tutti (D6: Privacy). I partecipanti hanno anche identificato diversi modi in cui desiderano interagire con il sistema durante le conversazioni (D7: Iniziazione). Ad esempio, le persone hanno proposto diversi livelli di “proattività”, che indica il grado in cui gli utenti desiderano che il modello prenda l’iniziativa. Infine, i partecipanti hanno immaginato diversi metodi di interazione, ad esempio, utilizzando la voce o i gesti per l’input. (D8: Interazione).

Spazio di progettazione per l’arricchimento della comunicazione verbale con elementi visivi dinamici.

Informati da questo feedback iniziale, abbiamo progettato Visual Captions per concentrarsi sulla generazione di visualizzazioni sincrone di contenuti visivi semanticamente rilevanti, tipo e fonte. Mentre i partecipanti a queste sessioni esplorative iniziali partecipavano a conversazioni remote uno a uno, la distribuzione di Visual Captions in natura sarà spesso in scenari uno a molti (ad esempio, un individuo che tiene una presentazione a un pubblico) e molti a molti (ad esempio, una discussione tra molte persone in una riunione).

Poiché la visualizzazione che meglio completa una conversazione dipende fortemente dal contesto della discussione, abbiamo avuto bisogno di un set di addestramento specifico per questo scopo. Abbiamo quindi raccolto un dataset di 1595 quadruple di lingua (1), contenuto visivo (2), tipo (3) e fonte (4) in una varietà di contesti, tra cui conversazioni quotidiane, conferenze e guide di viaggio. Ad esempio, “Mi piacerebbe vederla!” corrisponde a contenuti visivi di “faccia sorridente”, un tipo visivo di “emoji” e una fonte visiva di “ricerca pubblica”. “Ti ha parlato del nostro viaggio in Messico?” corrisponde a contenuti visivi di “una foto del viaggio in Messico”, un tipo visivo di “foto” e una fonte visiva di “album personale”. Abbiamo pubblicato pubblicamente questo dataset VC1.5K per la comunità di ricerca.

Modello di previsione dell’intento visivo

Per prevedere quale visual potrebbe integrare una conversazione, abbiamo addestrato un modello di previsione dell’intento visivo basato su un grande modello di lingua utilizzando il dataset VC1.5K. Per l’addestramento, abbiamo analizzato ogni intento visivo nel formato di ” <Tipo Visivo> di <Contenuto Visivo> da <Fonte Visiva> “.

{"prompt": "<Precedenti Due Frasi> →", 
  "completion": 
"<Tipo Visivo 1> di "<Contenuto Visivo 1> da "<Fonte Visiva 1>;
 <Tipo Visivo 2> di "<Contenuto Visivo 2> da "<Fonte Visiva 2>; 
  ... \𝑛"}

Utilizzando questo formato, questo sistema può gestire conversazioni a vocabolario aperto e prevedere contestualmente contenuti visivi, fonti visive e tipi visivi. Aneddoticamente, abbiamo scoperto che supera gli approcci basati su parole chiave, che non riescono a gestire esempi a vocabolario aperto come “Tua zia Amy verrà in visita questo sabato” e non possono suggerire tipi visivi o fonti visive rilevanti.

Esempi di previsioni di intenti visivi del nostro modello.

Abbiamo utilizzato 1276 (80%) esempi dal dataset VC1.5K per il raffinamento del grande modello di lingua e i restanti 319 (20%) esempi come dati di test. Abbiamo misurato le prestazioni del modello raffinato con la metrica di accuratezza del token, cioè la percentuale di token in un batch che sono stati predetti correttamente dal modello. Durante l’addestramento, il nostro modello ha raggiunto un’accuratezza del token di addestramento del 97% e un’accuratezza del token di convalida dell’87%.

Prestazioni

Per valutare l’utilità del modello di Visual Captions addestrato, abbiamo invitato 89 partecipanti a svolgere 846 attività. Gli è stato chiesto di fornire un feedback su una scala da “1 – Fortemente in disaccordo” a “7 – Fortemente d’accordo” per sei affermazioni qualitative. La maggior parte dei partecipanti preferiva avere il supporto visivo durante una conversazione (Q1, 83% ≥ 5 – Abbastanza d’accordo). Inoltre, hanno considerato le visualizzazioni mostrate utili e informative (Q2, 82% ≥ 5 – Abbastanza d’accordo), di alta qualità (Q3, 82% ≥ 5 – Abbastanza d’accordo) e pertinenti al discorso originale (Q4, 84% ≥ 5 – Abbastanza d’accordo). I partecipanti hanno anche trovato il tipo visivo previsto (Q5, 87% ≥ 5 – Abbastanza d’accordo) e la fonte visiva (Q6, 86% ≥ 5 – Abbastanza d’accordo) accurati data la contestualità della conversazione corrispondente.

Risultati dell’evaluazione tecnica del modello di previsione visiva valutati dai partecipanti allo studio.

Con questo modello di previsione visiva ottimizzato, abbiamo sviluppato Visual Captions sulla piattaforma ARChat, che può aggiungere nuovi widget interattivi direttamente in streaming della telecamera delle piattaforme di videoconferenza, come Google Meet. Come mostrato nel workflow del sistema qui sotto, Visual Captions cattura automaticamente la voce dell’utente, recupera le ultime frasi, le inserisce nel modello di previsione visiva ogni 100 ms, recupera le immagini pertinenti e suggerisce le immagini in tempo reale.

Workflow del sistema Visual Captions.

Visual Captions fornisce tre livelli di proattività nella suggerimento delle immagini:

Auto-display (alta proattività): il sistema cerca e visualizza autonomamente le immagini pubblicamente a tutti i partecipanti alla riunione. Nessuna interazione dell’utente richiesta.
Auto-suggest (proattività media): le immagini suggerite vengono mostrate in una visualizzazione privata. L’utente quindi clicca su un’immagine per mostrarla pubblicamente. In questa modalità, il sistema sta raccomandando immagini in modo proattivo, ma l’utente decide quando e cosa mostrare.
On-demand-suggest (bassa proattività): il sistema suggerirà solo immagini se l’utente preme la barra spaziatrice.

Valutazione quantitativa e qualitativa: Studi sugli utenti

Abbiamo valutato Visual Captions sia in uno studio di laboratorio controllato (n = 26) che in studi di implementazione in-the-wild (n = 10). I partecipanti hanno scoperto che le immagini in tempo reale facilitavano le conversazioni dal vivo aiutando a spiegare concetti sconosciuti, risolvere ambiguità linguistiche e rendere le conversazioni più coinvolgenti. I partecipanti hanno anche segnalato preferenze diverse per interagire con il sistema in situ e che livelli diversi di proattività erano preferiti in diverse situazioni sociali.

Indice di carico di lavoro dei partecipanti e valutazioni su scala Likert (da 1 – Fortemente in disaccordo a 7 – Fortemente d’accordo) di quattro conversazioni senza Visual Captions (“No VC”) e le tre modalità Visual Captions: auto-display, auto-suggest e on-demand suggest.

Conclusioni e direzioni future

Questo lavoro propone un sistema per l’aumento visivo in tempo reale della comunicazione verbale, chiamato Visual Captions, che è stato addestrato utilizzando un dataset di 1595 intenzioni visive raccolte da 246 partecipanti, coprendo 15 categorie di argomenti. Rilasciamo pubblicamente il dataset di addestramento, VC1.5K, alla comunità di ricerca per sostenere ulteriori ricerche in questo campo. Abbiamo anche implementato Visual Captions in ARChat, che facilita le videoconferenze in Google Meet trascrivendo le riunioni e aumentando i flussi video della telecamera.

Visual Captions rappresenta un passo significativo verso il miglioramento della comunicazione verbale con immagini in tempo reale. Comprendendo l’importanza dei segnali visivi nelle conversazioni quotidiane, possiamo creare strumenti di comunicazione più efficaci e migliorare il modo in cui le persone si connettono.

Ringraziamenti

Questo lavoro è una collaborazione tra diverse squadre di Google. I principali contributori al progetto includono Xingyu “Bruce” Liu, Vladimir Kirilyuk, Xiuxiu Yuan, Peggy Chi, Alex Olwal e Ruofei Du.

Vorremmo estendere i nostri ringraziamenti a coloro del team ARChat che hanno fornito assistenza, tra cui Jason Mayes, Max Spear, Na Li, Jun Zhang, Jing Jin, Yuan Ren, Adarsh Kowdle, Ping Yu, Darcy Philippon e Ezgi Oztelcan. Vorremmo anche ringraziare molte persone con cui abbiamo avuto discussioni interessanti e coloro che hanno fornito feedback sul manoscritto, tra cui Eric Turner, Yinda Zhang, Feitong Tan, Danhang Tang e Shahram Izadi. Vorremmo anche ringraziare i nostri revisori CHI per il loro prezioso feedback.

Deep Learning,HCI,Natural Language Understanding