I ricercatori di AI di Baidu presentano VideoGen un nuovo approccio di generazione di testo in video che può generare video ad alta definizione con alta fedeltà di frame.

I ricercatori di AI di Baidu presentano VideoGen, un nuovo approccio di generazione di testo in video per video ad alta definizione di alta qualità.

I sistemi di generazione testo-immagine (T2I) come DALL-E2, Imagen, Cogview, Latent Diffusion e altri hanno fatto molti progressi negli ultimi anni. D’altra parte, la generazione testo-video (T2V) rimane ancora un problema difficile a causa della necessità di contenuti visivi di alta qualità e di un movimento realistico e fluido corrispondente al testo. Inoltre, è molto difficile trovare database su larga scala che combinino testo e video.

Una recente ricerca condotta da Baidu Inc. presenta VideoGen, un metodo per creare un film di alta qualità e senza soluzione di continuità a partire da descrizioni testuali. Per guidare la creazione di T2V, i ricercatori hanno prima costruito un’immagine di alta qualità utilizzando un modello T2I. Successivamente, hanno utilizzato un modulo di diffusione video latente in cascata che genera una serie di rappresentazioni latenti di alta risoluzione e fluide basate sull’immagine di riferimento e sulla descrizione testuale. Quando necessario, utilizzano anche un approccio basato sul flusso per aumentare la frequenza di campionamento della sequenza di rappresentazioni latenti nel tempo. Alla fine, il team ha addestrato un decodificatore video per convertire la sequenza di rappresentazioni latenti in un video effettivo.

Creare un’immagine di riferimento con l’aiuto di un modello T2I ha due vantaggi distinti.

  1. La qualità visiva del video risultante è migliorata. Il metodo proposto sfrutta il modello T2I per attingere a un insieme di dati immagine-testo molto più ampio, che è più diversificato e ricco di informazioni rispetto all’insieme di dati video-testo. Rispetto a Imagen Video, che utilizza l’abbinamento immagine-testo per l’addestramento congiunto, questo metodo è più efficiente durante la fase di addestramento.
  2. Un modello di diffusione video latente in cascata può essere guidato da un’immagine di riferimento, consentendogli di apprendere la dinamica del video anziché il contenuto visivo. Il team ritiene che questo sia un vantaggio aggiuntivo rispetto ai metodi che utilizzano solo i parametri del modello T2I.

Il team menziona inoltre che la descrizione testuale non è necessaria affinché il decodificatore video possa produrre un film a partire dalla sequenza di rappresentazioni latenti. In tal modo, il decodificatore video viene addestrato su un pool di dati più ampio, che include coppie video-testo e film senza etichetta (non accoppiati). Di conseguenza, questo metodo migliora la fluidità e il realismo del movimento del video creato grazie all’utilizzo di dati video di alta qualità.

Come suggeriscono i risultati, VideoGen rappresenta un miglioramento significativo rispetto ai metodi precedenti di generazione testo-video sia in termini di valutazione qualitativa che quantitativa.