Ricercatori di Google e Cornell introducono DynIBaR Rivoluzionando la Ricostruzione Dinamica della Scena con l’IA

Rivoluzione nella Ricostruzione Dinamica della Scena Google e Cornell presentano DynIBaR, l'IA all'avanguardia

Un nuovo articolo dei ricercatori di Google e Cornell ha introdotto DynlBaR, un nuovo metodo per la generazione di rendering fotorealistici a vista libera. E secondo il team, tutto ciò deriva da un singolo video di una scena complessa e dinamica.

Negli ultimi anni, il campo della computer vision ha assistito a incredibili avanzamenti nella ricostruzione di scene 3D statiche utilizzando i neural radiance fields (NeRFs). Mentre queste tecniche hanno rivoluzionato la nostra capacità di creare rappresentazioni realistiche 3D, estenderle alle scene dinamiche ha comportato sfide significative.

Ora entra in gioco DynIBaR: Neural Dynamic Image-Based Rendering, una innovativa tecnica di intelligenza artificiale introdotta dai ricercatori di Google e Cornell al CVPR 2023, che offre una soluzione per catturare scene dinamiche con una telecamera telefonica standard.

Ciò che rende interessante questo approccio è che creare rappresentazioni accurate e chiare di scene dinamiche in ambienti reali è stata una sfida persistente nella computer vision. I metodi esistenti, inclusi gli spazio-temporal neural radiace fields o Dynamic NeRFs, spesso incontrano difficoltà di fronte a video lunghi, movimenti complessi degli oggetti e traiettorie di telecamera non regolamentate.

Questo limite ne ha limitato l’applicabilità pratica, specialmente quando si utilizzano strumenti quotidiani come le telecamere degli smartphone per catturare scene dinamiche. DynIBaR porta la ricostruzione di scene dinamiche a un nuovo livello, generando rendering a vista libera altamente realistici da un singolo video catturato con una telecamera telefonica standard.

Questa potente tecnica offre una serie di effetti video, inclusi effetti bullet time (congelamento temporaneo del tempo mentre la telecamera si muove intorno a una scena), stabilizzazione del video, regolazione della profondità di campo e capacità di rallentamento.

Una delle innovazioni chiave di DynIBaR è la sua scalabilità per film dinamici con lunghe durate, scene diverse, movimenti imprevedibili della telecamera e rapidi movimenti complicati degli oggetti. Questa scalabilità viene raggiunta utilizzando campi di traiettoria di movimento rappresentati da funzioni base apprese, modellando efficacemente schemi di movimento complessi che si estendono su più fotogrammi.

Per garantire la coerenza temporale nella ricostruzione di scene dinamiche, DynIBaR introduce una nuova perdita fotometrica temporale che opera all’interno dello spazio dei raggi ray space regolato dal movimento. Questa funzione di perdita migliora la qualità delle visualizzazioni rese, rendendole più realistiche e coerenti.

Inoltre, i ricercatori consigliano di incorporare una nuova tecnica di segmentazione del movimento basata su Image-Based Rendering all’interno di un framework di apprendimento Bayesian. Questo approccio di segmentazione separa efficacemente i componenti dinamici e statici all’interno della scena, contribuendo a un miglioramento complessivo della qualità della resa.

Una sfida significativa nella ricostruzione di scene dinamiche risiede nella complessità computazionale delle reti neurali. Il numero di parametri in un multilayer perceptron aumenta con la complessità e la durata della scena, rendendo difficile addestrare modelli su video reali.

DynIBaR affronta questa sfida utilizzando direttamente i dati dei pixel dai fotogrammi circostanti per costruire nuove visualizzazioni, eliminando la necessità di un MLP eccessivamente grande. La base di DynIBaR è IBRNet, un metodo di rendering basato su immagini originariamente progettato per sintetizzare visualizzazioni in scene statiche.

Costruendo su questa base ed introducendo tecniche innovative, DynIBaR cerca di spingere oltre i confini della ricostruzione di scene dinamiche.