Ricercatori dell’Università di Oxford presentano DynPoint un algoritmo di intelligenza artificiale progettato per facilitare la rapida sintesi di nuove visualizzazioni per video monoculare non vincolati.

I ricercatori dell'Università di Oxford presentano DynPoint un algoritmo di intelligenza artificiale per la rapida sintesi di nuove visualizzazioni di video monoculare non vincolati.

La comunità di computer vision si è concentrata significativamente sulla sintesi di nuove visualizzazioni (VS) a causa del suo potenziale per avanzare nella realtà artificiale e migliorare la capacità di una macchina di comprendere gli aspetti visivi e geometrici di scenari specifici. Le tecniche all’avanguardia che utilizzano algoritmi di rendering neurale hanno ottenuto una ricostruzione fotorealistica di scene statiche. Tuttavia, gli approcci attuali che si basano su relazioni geometriche epipolari sono più adatti a situazioni statiche, mentre gli scenari del mondo reale con elementi dinamici presentano sfide per questi metodi.

Recenti lavori si sono concentrati principalmente sulla sintesi delle visualizzazioni in ambienti dinamici utilizzando uno o più perceptroni multistrato (MLPs) per codificare le informazioni spaziotemporali della scena. Un approccio prevede la creazione di una rappresentazione latente completa del video di destinazione fino al livello del frame. Tuttavia, la capacità di memoria limitata di MLP o altri metodi di rappresentazione limita l’applicabilità di questo approccio a video più brevi nonostante la sua capacità di fornire risultati visivamente accurati.

Per affrontare questa limitazione, i ricercatori dell’Università di Oxford hanno introdotto DynPoint. Questo metodo unico non si basa sull’apprendimento di una rappresentazione canonica latente per generare in modo efficiente visualizzazioni di video monoculari più lunghi. DynPoint utilizza una stima esplicita di profondità coerente e flusso di scena per i punti superficiali, a differenza dei metodi tradizionali che codificano informazioni implicitamente. Le informazioni di più frame di riferimento vengono combinate nel frame di destinazione utilizzando queste stime. Successivamente, viene costruita una nuvola di punti neurale gerarchica dai dati raccolti e le visualizzazioni del frame di destinazione vengono sintetizzate utilizzando questa nuvola di punti gerarchica.

Questo processo di aggregazione è supportato dall’apprendimento delle corrispondenze tra il frame di destinazione e i frame di riferimento, aiutato dall’inferenza di profondità e flusso di scena. Per consentire la rapida sintesi del frame di destinazione all’interno di un video monoculari, i ricercatori forniscono una rappresentazione per l’aggregazione delle informazioni dai frame di riferimento al frame di destinazione. Sono stati condotti ampi valutazioni di velocità e accuratezza di DynPoint nella sintesi delle visualizzazioni su set di dati come Nerfie, Nvidia, HyperNeRF, iPhone e Davis. Il modello proposto dimostra prestazioni superiori sia in termini di accuratezza che di velocità, come evidenziato dai risultati sperimentali.