I ricercatori dell’Università Nazionale di Singapore propongono Show-1 un modello ibrido di intelligenza artificiale che unisce VDM basati su pixel e VDM basati su latenti per la generazione di testo-video.

I ricercatori dell'Università Nazionale di Singapore propongono Show-1 un innovativo modello ibrido di intelligenza artificiale che combina VDM basati su immagini e VDM basati su concetti nascosti per la creazione di testo-video.

Ricercatori dell’Università Nazionale di Singapore hanno introdotto Show-1, un modello ibrido per la generazione di testo-video che combina i punti di forza dei modelli di diffusione di video basati su pixel e su latenti (VDM). Mentre i VDM basati su pixel sono computazionalmente costosi e i VDM basati su latenti hanno difficoltà nell’allineamento preciso tra testo e video, Show-1 offre una soluzione innovativa. Utilizza inizialmente i VDM basati su pixel per creare video a bassa risoluzione con una forte correlazione tra testo e video, e successivamente impiega i VDM basati su latenti per migliorare la risoluzione di questi video a alta definizione. Il risultato sono video di alta qualità generati in modo efficiente con un allineamento preciso, validato su benchmark standard di generazione video.

La loro ricerca presenta un approccio innovativo per la generazione di video fotorealistici da descrizioni di testo. Sfrutta i VDM basati su pixel per la creazione iniziale del video, garantendo un allineamento preciso e una rappresentazione accurata del movimento, e poi utilizza i VDM basati su latenti per una super risoluzione efficiente. Show-1 raggiunge prestazioni di stato dell’arte sul dataset MSR-VTT, rendendolo una soluzione promettente.

Il loro approccio introduce un metodo per generare video altamente realistici da descrizioni di testo. Combina i VDM basati su pixel per una creazione iniziale precisa del video e i VDM basati su latenti per una super risoluzione efficiente. L’approccio, Show-1, eccelle nel raggiungere un allineamento preciso tra testo e video, una rappresentazione accurata del movimento e la convenienza economica.

Il loro metodo sfrutta sia i VDM basati su pixel che quelli basati su latenti per la generazione di testo-video. I VDM basati su pixel assicurano un preciso allineamento tra testo e video e una rappresentazione accurata del movimento, mentre i VDM basati su latenti eseguono efficientemente la super risoluzione. L’addestramento coinvolge modelli chiave, modelli di interpolazione, modelli iniziali di super risoluzione e un modello di testo-video (t2v). Utilizzando più GPU, i modelli chiave richiedono tre giorni di addestramento, mentre i modelli di interpolazione e di super risoluzione iniziale richiedono ciascuno un giorno. Il modello t2v viene addestrato con apprendimento adattivo esperto su tre giorni utilizzando il dataset WebVid-10M.

I ricercatori valutano l’approccio proposto sui dataset UCF-101 e MSR-VTT. Per UCF-101, Show-1 mostra forti capacità di zero-shot rispetto ad altri metodi misurati dalla metrica IS. Il dataset MSR-VTT supera i modelli di stato dell’arte in termini di punteggio FID-vid, FVD e CLIPSIM, indicando una straordinaria congruenza visiva e coerenza semantica. Questi risultati confermano la capacità di Show-1 di generare video altamente fedeli e fotorealistici, eccellendo nella qualità ottica e nella coerenza dei contenuti.

Show-1, un modello che combina i VDM basati su pixel e su latenti, eccelle nella generazione di testo-video. L’approccio assicura un preciso allineamento tra testo e video, una rappresentazione accurata del movimento e una super risoluzione efficiente, migliorando l’efficienza computazionale. Le valutazioni sui dataset UCF-101 e MSR-VTT confermano la loro qualità visiva superiore e la coerenza semantica, superando o eguagliando altri metodi.

Ricerche future dovrebbero approfondire la combinazione di VDM basati su pixel e su latenti per la generazione di testo-video, ottimizzando l’efficienza e migliorando l’allineamento. Dovrebbero essere esplorati metodi alternativi per un miglior allineamento e una migliore rappresentazione del movimento, insieme alla valutazione di dataset diversi. L’indagine sull’apprendimento trasferibile e l’adattabilità è cruciale. Migliorare la coerenza temporale e gli studi utente per un’uscita realistica ed una valutazione di qualità è essenziale, favorendo gli sviluppi della generazione testo-video.