Ricercatori del NTU svelano Upscale-A-Video Pionieristica Diffusione Latente Guidata da Testo per una Super-Risoluzione Video Potenziata

Ricercatori del NTU rivelano la pionieristica Diffusione Latente Guidata da Testo per una Super-Risoluzione Video Potenziata

La sovra-risoluzione video, che mira a elevare la qualità dei video a bassa risoluzione ad alta fedeltà, affronta la sfida spaventosa di affrontare diverse e complesse degradazioni comuni nel mondo reale. A differenza dei precedenti focus sulle degradazioni sintetiche o specifiche relative alla fotocamera, la complessità nasce da molteplici fattori sconosciuti come il downsampling, il rumore, lo sfocatura, il flickering e la compressione video. Sebbene modelli recenti basati su CNN abbiano mostrato promesse nel mitigare questi problemi, non riescono a produrre texture realistiche a causa delle limitate capacità generative, portando a eccessive levigatezze. Questo studio approfondisce l’utilizzo di modelli di diffusione per affrontare queste limitazioni e migliorare la sovra-risoluzione video.

La complessità dell’ottimizzazione di video nel mondo reale richiede soluzioni che vanno oltre i metodi tradizionali, affrontando una serie di degradazioni complesse. Sebbene i modelli basati su CNN dimostrino abilità nel mitigare diverse forme di degradazione, la loro limitazione risiede nella generazione di texture realistiche, spesso risultando in output troppo levigati. I modelli di diffusione sono emersi come una speranza, mostrando impresionanti capacità di generazione di immagini e video di alta qualità. Tuttavia, adattare questi modelli alla sovra-risoluzione video rimane una sfida formidabile a causa della casualità intrinseca nel campionamento di diffusione, portando a discontinuità temporali e flickering nelle texture a basso livello.

Per affrontare queste sfide, i ricercatori del NTU in questo studio adottano una strategia di coerenza temporale locale-globale all’interno di un framework di diffusione latente. A livello locale, un modello di upscaling preaddestrato viene sottoposto a un fine-tuning con ulteriori livelli temporali, integrando convoluzioni 3D e livelli di attenzione temporale. Questo fine-tuning migliora significativamente la stabilità della struttura nelle sequenze locali, riducendo problemi come il flickering delle texture. Allo stesso tempo, un modulo di propagazione latente ricorrente guidato dal flusso agisce a livello globale, garantendo stabilità complessiva in video più lunghi attraverso la propagazione frame-by-frame e la fusione latente durante l’inferenza.

Figura 1: Confronti tra sovra-risoluzioni di video generati da Intelligenza Artificiale e video reali. La proposta Upscale-A-Video mostra un’eccellente performance di upscaling. Produce risultati incredibili con maggiore realismo visivo e maggiori dettagli grazie all’uso accurato delle indicazioni testuali.

Lo studio esplora nuovi approcci introducendo indicazioni testuali per guidare la creazione delle texture, consentendo al modello di produrre dettagli più realistici e di alta qualità. Inoltre, la robustezza del modello contro degradazioni pesanti o inaspettate viene potenziata dall’inserimento di rumore negli input, offrendo un controllo sull’equilibrio tra ripristino e generazione. Livelli più bassi di rumore privilegiano le capacità di ripristino, mentre livelli più alti favoriscono una generazione di dettagli più raffinati, raggiungendo un compromesso tra fedeltà e qualità.

Il contributo principale risiede nella creazione di un approccio robusto alla sovra-risoluzione dei video nel mondo reale, intrecciando una strategia temporale locale-globale all’interno di un framework di diffusione latente. L’integrazione di meccanismi di coerenza temporale e il controllo innovativo dei livelli di rumore e delle indicazioni testuali permette al modello di raggiungere prestazioni all’avanguardia su benchmark, mostrando un notevole realismo visivo e coerenza temporale.