Come possiamo misurare l’incertezza nei campi di radianza neurale? Presentiamo BayesRays un quadro post-hoc rivoluzionario per NeRFs

Misuriamo l'incertezza nei campi di radianza neurale con BayesRays, un quadro post-hoc rivoluzionario per NeRFs.

La creazione di modelli 3D fornisce una rappresentazione più coinvolgente e realistica delle scene rispetto alle immagini 2D. Consentono agli spettatori di esplorare e interagire con la scena da diverse angolazioni, fornendo una migliore comprensione del layout spaziale e della profondità delle informazioni.

Questi sono fondamentali per le applicazioni di realtà virtuale (VR) e realtà aumentata (AR). Consentono la sovrapposizione di informazioni digitali sul mondo reale (AR) o la creazione di ambienti completamente virtuali (VR), migliorando l’esperienza degli utenti nei giochi, nell’istruzione, nella formazione e in varie industrie.

Neural Radiance Fields (NeRF) è una tecnica di visione artificiale per la ricostruzione e il rendering di scene 3D. NeRF tratta una scena come un volume 3D in cui ogni punto nel volume ha un colore corrispondente (radiazione) e densità. La rete neurale impara a prevedere il colore e la densità di ogni punto in base alle immagini 2D scattate da diversi punti di vista.

NeRF ha molteplici applicazioni come sintesi di visualizzazioni e stima della profondità, ma l’apprendimento dalle immagini multiview presenta incertezze intrinseche. I metodi attuali per quantificarle sono sia euristici che computazionalmente onerosi. Ricercatori di Google DeepMind, Adobe Research e dell’Università di Toronto hanno introdotto una nuova tecnica chiamata BayesRays.

Consiste in un framework per valutare l’incertezza in qualsiasi NeRF pre-addestrato senza modificare il processo di addestramento. Aggiungendo un campo di incertezza volumetrica utilizzando perturbazioni spaziali e un’approssimazione bayesiana di Laplace, sono riusciti a superare i limiti di NeRF. L’approssimazione bayesiana di Laplace è un metodo matematico per approssimare distribuzioni di probabilità complesse con distribuzioni gaussiane multivariate più semplici.

Le loro incertezze calcolate sono statisticamente significative e possono essere rappresentate come canali di colore aggiuntivi. Il loro metodo supera anche i lavori precedenti su metriche chiave come la correlazione con gli errori di profondità ricostruiti. Utilizzano un approccio probabilistico plug-and-play per quantificare l’incertezza di qualsiasi NeRF pre-addestrato indipendentemente dalla sua architettura. Il loro lavoro fornisce una soglia per rimuovere gli artefatti da NeRF pre-addestrati in tempo reale.

Dicono che l’intuizione alla base della formulazione del loro metodo deriva dall’utilizzo dei campi volumetrici per modellare le scene 3D. I campi di deformazione volumetrici vengono spesso utilizzati nella manipolazione di oggetti rappresentati implicitamente. Il loro lavoro è anche simile alla fotogrammetria, dove la ricostruzione dell’incertezza viene spesso modellata posizionando distribuzioni gaussiane sulle posizioni spaziali identificate.

Infine, dicono che il loro algoritmo è limitato a quantificare l’incertezza di NeRF e non può essere tradotto banalmente in altri framework. Tuttavia, il loro lavoro futuro prevede una formulazione simile di approssimazione di Laplace basata sulla deformazione per rappresentazioni spaziali più recenti come lo splatting gaussiano 3D.