Ricercatori dell’UC San Diego e di Meta AI introducono MonoNeRF un’architettura autoencoder che separa i video in movimento della telecamera e mappa di profondità tramite l’encoder della telecamera e l’encoder di profondità.
Ricercatori UC San Diego e Meta AI presentano MonoNeRF, un autoencoder che separa video in movimento e mappa la profondità usando gli encoder della telecamera e della profondità.
Un team di ricercatori dell’UC San Diego e di Meta AI ha introdotto MonoNeRF. Questo nuovo approccio consente di apprendere campi di radianza neurali generalizzabili (NeRF) da video monoculari senza dipendere da posizioni di telecamera di riferimento.
Il lavoro evidenzia che NeRF ha mostrato risultati promettenti in varie applicazioni, tra cui sintesi delle visualizzazioni, ricostruzione di scene e oggetti, comprensione semantica e robotica. Tuttavia, la costruzione di NeRF richiede annotazioni precise delle posizioni delle telecamere ed è limitata a una singola scena, risultando in un addestramento lungo e una limitata applicabilità ai video su larga scala non vincolati.
In risposta a queste sfide, gli sforzi di ricerca recenti si sono concentrati sull’apprendimento di NeRF generalizzabili addestrandoli su set di dati contenenti più scene e successivamente migliorandoli su scene individuali. Questa strategia consente una ricostruzione e una sintesi delle visualizzazioni con meno viste in input, ma richiede comunque informazioni sulla posizione delle telecamere durante l’addestramento. Mentre alcuni ricercatori hanno cercato di addestrare NeRF senza posizioni di telecamera, questi approcci rimangono specifici della scena e faticano a generalizzare su scene diverse a causa delle complessità delle calibrazioni auto-supervisionate.
- Ricercatori dell’UC Berkeley propongono una nuova tecnica chiamata Chain of Hindsight (CoH) che può consentire ai LLM di imparare da qualsiasi forma di feedback migliorando le prestazioni del modello
- Incontra TALL Un approccio di intelligenza artificiale che trasforma un video clip in un layout predefinito per realizzare la conservazione delle dipendenze spaziali e temporali
- Questo articolo sull’IA del Georgia Tech propone un metodo di intelligenza artificiale per aiutare a identificare nuovi candidati per potenziali superconduttori in modo più veloce e affidabile
MonoNeRF supera queste limitazioni addestrandosi su video monoculari che catturano i movimenti della telecamera in scene statiche, eliminando efficacemente la necessità di posizioni di telecamera di riferimento. I ricercatori fanno una considerazione critica secondo cui i video del mondo reale spesso mostrano cambiamenti lenti della telecamera anziché punti di vista diversi, e sfruttano questa continuità temporale all’interno del loro framework proposto. Il metodo prevede un modello basato su autoencoder addestrato su un ampio set di dati video del mondo reale. In particolare, un encoder di profondità stima la profondità monocolare per ogni frame, mentre un encoder di posizione di telecamera determina la posizione relativa della telecamera tra frame consecutivi. Queste rappresentazioni disaccoppiate vengono quindi utilizzate per costruire una rappresentazione NeRF per ciascun frame in input, che successivamente viene resa per decodificare un altro frame in input basato sulla posizione stimata della telecamera.
Il modello viene addestrato utilizzando una perdita di ricostruzione per garantire la coerenza tra i frame resi e quelli in input. Tuttavia, affidarsi esclusivamente a una perdita di ricostruzione potrebbe portare a una soluzione banale, poiché la stima della profondità monoculare, della posizione della telecamera e della rappresentazione NeRF potrebbero non essere sulla stessa scala. I ricercatori propongono un nuovo metodo di calibrazione di scala per affrontare questa sfida dell’allineamento delle tre rappresentazioni durante l’addestramento. I vantaggi chiave del loro framework proposto sono due: elimina la necessità di annotazioni di posizione tridimensionali delle telecamere e mostra una generalizzazione efficace su un ampio set di dati video, con conseguente miglioramento della trasferibilità.
Al momento del test, le rappresentazioni apprese possono essere applicate a varie attività successive, come la stima della profondità monoculare da un’immagine RGB singola, la stima della posizione della telecamera e la sintesi di visualizzazioni nuove da un’immagine singola. I ricercatori conducono esperimenti principalmente su scene interne e dimostrano l’efficacia del loro approccio. Il loro metodo migliora significativamente la stima della profondità auto-supervisionata sul set di test di Scannet e mostra una migliore generalizzazione rispetto a NYU Depth V2. Inoltre, MonoNeRF supera costantemente approcci precedenti utilizzando il set di dati RealEstate10K nella stima della posizione della telecamera. Per la sintesi di visualizzazioni nuove, l’approccio MonoNeRF proposto supera i metodi che apprendono senza posizioni di telecamera di riferimento e supera approcci recenti che si basano su telecamere di riferimento.
In conclusione, i ricercatori presentano MonoNeRF come una soluzione innovativa e pratica per l’apprendimento di NeRF generalizzabili da video monoculari senza bisogno di una posizione di telecamera di riferimento. Il loro metodo affronta limitazioni negli approcci precedenti e dimostra prestazioni superiori in varie attività legate alla stima della profondità, alla stima della posizione della telecamera e alla sintesi di visualizzazioni nuove, in particolare su set di dati su larga scala.