Una nuova ricerca sull’AI da CMU e Meta introduce PyNeRF un balzo in avanti nei Neural Radiance Fields con rendering basato su griglia consapevole della scala

Una nuova ricerca dell'IA da CMU e Meta presenta PyNeRF un grande passo avanti nei Neural Radiance Fields con rendering in scala consapevole basato su griglia

Come possono essere migliorati i Neural Radiance Fields (NeRF) per gestire variazioni di scala e ridurre gli artefatti di aliasing nella ricostruzione della scena? Un nuovo articolo di ricerca proveniente da CMU e Meta affronta questo problema proponendo PyNeRF (Pyramidal Neural Radiance Fields). Migliora i campi di radiazione neurale (NeRF) allenando le teste del modello a diverse risoluzioni di griglia spaziale, che aiutano a ridurre le distorsioni visive che possono verificarsi durante la ricostruzione delle scene a diverse distanze della telecamera. PyNeRF raggiunge questi miglioramenti senza influire significativamente sulle prestazioni, rendendolo una soluzione efficace per accelerare i NeRF mantenendo una ricostruzione della scena di alta qualità.

Ispirandosi a NeRF, lo studio esplora metodi basati su griglie (NSVF, Plenoxels, DVGO, TensoRF, K-Planes, Instant-NGP) che mirano a migliorare la velocità di rendering e l’efficienza della memoria utilizzando griglie di voxel e approssimazioni tensoriali. PyNeRF combina i vantaggi di velocità con la preservazione della qualità su tutte le scale, superando altre approcci di rendering rapido come Instant-NGP, Nerfacto e altri in termini di qualità di rendering e velocità di formazione.

I recenti progressi nel rendering volumetrico neurale, in particolare NeRF, offrono progressi nella sintesi realistica delle visualizzazioni. Tuttavia, NeRF è lento a causa della sua rappresentazione MLP e delle assunzioni, che portano all’aliasing. Metodi basati su griglia come Mip-NeRF accelerano l’allenamento ma mancano di compatibilità con le codifiche posizionali: PyNeRF, ispirato alle estensioni di NeRF di divide-and-conquer e alle tecniche classiche. La piramide di modelli di PyNeRF campionata lungo i raggi e l’approccio di suddivisione migliorano la qualità di rendering mantenendo la velocità di implementazione accelerata dei NeRF, offrendo una soluzione versatile per la sintesi di visualizzazioni nuove efficiente e di alta qualità.

La ricerca suggerisce di modificare i modelli basati su griglia e allenare le teste del modello a diverse risoluzioni spaziali per il rendering di campioni di volume più grandi. Utilizzando SUDS come modello di base, vengono allenati progressivamente a risoluzioni più elevate. Vengono discussi vari metodi di accelerazione basati su griglia, memorizzando le caratteristiche apprese in strutture come griglie di voxel o tabelle hash. I ricercatori valutano il proprio metodo rispetto a LaplacianPyNeRF e altri approcci di interpolazione, esaminando l’impatto del riutilizzo delle griglie delle caratteristiche e dell’utilizzo delle aree dei pixel 2D. Il contributo principale è un metodo di suddivisione versatile che migliora la fedeltà visiva mantenendo la velocità di rendering in qualsiasi approccio di rendering basato su griglia esistente.

PyNeRF migliora significativamente la qualità del rendering, riducendo le error rate dal 20% al 90% nelle scene sintetiche e reali con un impatto minimo sulle prestazioni. Rispetto a Mip-NeRF, ottiene una riduzione dell’errore del 20% mentre si allena oltre 60 volte più velocemente. PyNeRF converge alla qualità di SUDS in 2 ore, superando i risultati baselines in varie metriche, mentre SUDS impiega 4 ore. I test varianti e le valutazioni rispetto agli approcci di rendering rapido mostrano risultati superiori nei dataset sintetici e Multiscale Blender. La valutazione del dataset Argoverse 2 Sensor attesta le ricostruzioni di alta qualità di PyNeRF in numerosi fotogrammi video.

Se vogliamo concludere, PyNeRF ha dimostrato un progresso impressionante nel miglioramento delle caratteristiche anti-aliasing nei renderers volumetrici veloci, mostrando risultati eccezionali su vari dataset. Il metodo sostiene la condivisione delle acquisizioni del mondo reale per ulteriori ricerche nel rendering volumetrico neurale. Tuttavia, riconosce i potenziali rischi di sicurezza e privacy della costruzione efficiente di rappresentazioni neuronali di alta qualità.

La ricerca futura potrebbe beneficiare della condivisione di acquisizioni del mondo reale aggiuntive ed esplorare funzioni di mappatura alternative per assegnare il volume di integrazione a livelli di gerarchia. Una direzione di indagine preziosa sarebbe l’utilizzo di informazioni semantiche per la filtrazione della privacy durante l’allenamento del modello. Interessanti possibili sviluppi futuri includono un ulteriore esplorazione delle architetture per migliorare la fedeltà visiva mantenendo la velocità di rendering negli approcci NeRF veloci. Aree potenziali di ricerca futura coinvolgono l’applicazione dell’approccio piramidale ad altre implementazioni NeRF accelerate e la valutazione delle loro prestazioni.