Dalle parole ai mondi Esplorare la narrazione video con la descrizione video fine-grained multimodale dell’IA

Esplorare la narrazione video con l'IA multimodale

Il linguaggio è la modalità predominante di interazione umana, offrendo più di semplici dettagli supplementari ad altre facoltà come la vista e l’udito. Serve anche come canale efficace per la trasmissione di informazioni, ad esempio utilizzando la navigazione guidata dalla voce per condurci in una posizione specifica. Nel caso delle persone non vedenti, possono vivere un film ascoltando la sua descrizione audio. Il primo esempio dimostra come il linguaggio possa migliorare altre modalità sensoriali, mentre il secondo evidenzia la capacità del linguaggio di trasmettere informazioni massime in diverse modalità.

Gli sforzi contemporanei nella modellazione multimodale si sforzano di stabilire connessioni tra il linguaggio e vari altri sensi, compiti che includono la didascalia di immagini o video, la generazione di rappresentazioni testuali da immagini o video, la manipolazione di contenuti visivi guidata dal testo e altro ancora.

Tuttavia, in queste imprese, il linguaggio integra principalmente informazioni relative ad altri input sensoriali. Di conseguenza, questi sforzi spesso non riescono a rappresentare esaustivamente lo scambio intricato di informazioni tra diverse modalità sensoriali. Si concentrano principalmente su elementi linguistici semplicistici, come didascalie di una sola frase.

Dato il carattere sintetico di queste didascalie, riescono solo a descrivere entità e azioni di rilievo. Di conseguenza, le informazioni trasmesse attraverso queste didascalie sono considerevolmente limitate rispetto alla ricchezza di informazioni presenti in altre modalità sensoriali. Questa discrepanza porta a una notevole perdita di informazioni quando si tenta di tradurre informazioni da altre realtà sensoriali nel linguaggio.

In questo studio, i ricercatori vedono il linguaggio come un modo per condividere informazioni nella modellazione multimodale. Creano un nuovo compito chiamato “Descrizione di video udibili dettagliata” (FAVD), che si differenzia dalla semplice didascalia dei video. Di solito, le brevi didascalie dei video si riferiscono alle parti principali. FAVD invece richiede ai modelli di descrivere i video più come farebbe una persona, iniziando con un breve riassunto e poi aggiungendo informazioni sempre più dettagliate. Questo approccio mantiene una parte più significativa delle informazioni video all’interno del quadro linguistico.

Dato che i video racchiudono segnali visivi e uditivi, il compito FAVD incorpora anche descrizioni audio per migliorare la rappresentazione completa. Per supportare l’esecuzione di questo compito, è stato costruito un nuovo benchmark chiamato Fine-grained Audible Video Description Benchmark (FAVDBench) per l’addestramento supervisionato. FAVDBench è una collezione di oltre 11.000 clip video da YouTube, suddivise in più di 70 categorie reali. Le annotazioni includono brevi riassunti di una frase, seguiti da 4-6 frasi dettagliate sugli aspetti visivi e da 1-2 frasi sull’audio, offrendo un dataset completo.

Per valutare efficacemente il compito FAVD, sono stati ideati due nuovi indicatori. Il primo indicatore, chiamato EntityScore, valuta il trasferimento di informazioni dai video alle descrizioni misurando l’esaurienza delle entità all’interno delle descrizioni visive. Il secondo indicatore, AudioScore, quantifica la qualità delle descrizioni audio nello spazio delle caratteristiche di un modello preaddestrato audio-visivo-linguistico.

I ricercatori forniscono un modello fondamentale per il compito appena introdotto. Questo modello si basa su un framework consolidato di didascalia video end-to-end, arricchito da un ramo audio aggiuntivo. Inoltre, viene effettuata un’estensione da un trasformatore visivo-linguistico a un trasformatore audio-visivo-linguistico (AVLFormer). AVLFormer ha la forma di una struttura codificatore-decodificatore come rappresentato di seguito.

https://arxiv.org/abs/2303.15616

Gli encoder audio e visivi sono adattati per elaborare le clip video e l’audio, rispettivamente, consentendo l’amalgama dei token multimodali. L’encoder visivo si basa sul trasformatore video swin, mentre l’encoder audio sfrutta il trasformatore audio patchout. Questi componenti estraggono le caratteristiche visive e audio dai fotogrammi video e dai dati audio. Durante l’addestramento vengono inclusi anche altri componenti, come la modellazione linguistica mascherata e la modellazione linguistica auto-regressiva. Prendendo ispirazione da modelli di didascalia video precedenti, AVLFormer utilizza anche descrizioni testuali come input. Utilizza un tokenizer di parole e un’incorporazione lineare per convertire il testo in un formato specifico. Il trasformatore elabora queste informazioni multimodali e produce una descrizione dettagliata dei video forniti in input.

Di seguito vengono riportati alcuni esempi di risultati qualitativi e confronti con approcci all’avanguardia.

https://arxiv.org/abs/2303.15616

In conclusione, i ricercatori propongono FAVD, una nuova attività di didascalia video per descrizioni audio dettagliate, e FAVDBench, un nuovo benchmark per l’addestramento supervisionato. Inoltre, hanno progettato un nuovo modello di base basato su trasformatori, AVLFormer, per affrontare l’attività FAVD. Se sei interessato e desideri saperne di più, ti preghiamo di consultare i link citati di seguito.