Questo articolo di intelligenza artificiale propone la tecnica COLMAP-Free 3D Gaussian Splatting (CF3DGS) per la sintesi di nuove visualizzazioni senza parametri della fotocamera noti.

CF3DGS la tecnica COLMAP-Free 3D Gaussian Splatting per visualizzazioni senza parametri della fotocamera

I progressi nella rendering neurale hanno portato a significativi progressi nella ricostruzione delle scene e nella generazione di nuovi punti di vista. Tuttavia, la sua efficacia dipende in gran parte dalla precomputazione precisa delle posizioni della telecamera. Per ridurre al minimo questo problema, sono stati compiuti molti sforzi per addestrare i Neural Radiance Fields (NeRF) senza posizioni precompute della telecamera. Tuttavia, la rappresentazione implicita di NeRF rende difficile ottimizzare contemporaneamente la struttura 3D e le posizioni della telecamera.

Ricercatori dell’UC San Diego, NVIDIA e UC Berkeley hanno introdotto COLMAP-Free 3D Gaussian Splatting (CF-3DGS), che migliora due ingredienti chiave: la continuità temporale dei video e la rappresentazione esplicita dei punti nuvola. Invece di ottimizzare con tutti i fotogrammi contemporaneamente, CF-3DGS costruisce le gaussiane 3D della scena in forma continua, “crescendo” una struttura alla volta mentre la telecamera si muove. CF-3DGS estrae un set locale di gaussiane 3D per ogni fotogramma e mantiene un set globale di gaussiane 3D dell’intera scena.

https://arxiv.org/abs/2312.07504

Sono state impiegate diverse rappresentazioni di scene 3D per generare immagini realistiche da punti di vista, tra cui piani, mesh, istogrammi dei punti e immagini multipiano. NeRF (Neural Radiance Fields) ha acquisito importanza in questo campo grazie alla sua eccezionale capacità di rendering fotorealistico. Il metodo 3DGS (3D Gaussian Splatting) consente il rendering in tempo reale delle visualizzazioni utilizzando una rappresentazione esplicita e un metodo di tabulazione differenziale dei punti.

Sintesi di vista CF-3DGS senza parametri della telecamera noti. Ottimizza il 3D Gaussian Splatting (3DGS) e le posizioni della telecamera simultaneamente. Utilizza un metodo 3DGS locale per stimare la posizione relativa della telecamera dai fotogrammi vicini e un processo 3DGS globale per l’espansione progressiva delle gaussiane 3D dalle visualizzazioni non osservate. CF-3DGS utilizza punti nuvola espliciti per rappresentare scene e sfrutta le capacità di 3DGS e la continuità intrinseca nei flussi video. Elabora sequenzialmente i fotogrammi di input, espandendo progressivamente le gaussiane 3D per ricostruire la scena. Questo approccio consente tempi rapidi di addestramento e inferenza.

https://arxiv.org/abs/2312.07504

Il metodo CF-3DGS ottiene una maggiore robustezza nell’estimazione della posa e una migliore qualità nella sintesi di visualizzazioni nuove rispetto ai metodi di punta precedenti. Il metodo è stato convalidato sui video CO3D, che presentano movimenti della telecamera più complessi e sfidanti, e supera il metodo Nope-NeRF in termini di qualità della sintesi di visualizzazioni. L’approccio supera costantemente Nope-NeRFe su tutte le metriche di stima della posa della telecamera nel dataset CO3D V2, dimostrando la sua robustezza e accuratezza nell’estimazione delle posizioni della telecamera, specialmente in scenari con movimenti complessi della telecamera.

In conclusione, CF-3DGS è un metodo che sintetizza in modo efficace e robusto le visualizzazioni utilizzando la continuità temporale dei video e la rappresentazione esplicita di punti nuvola senza la necessità di preelaborazione Structure-from-Motion (SfM). Ottimizza la posa della telecamera e 3DGS contemporaneamente, rendendolo adatto principalmente per flussi video o collezioni ordinate di immagini. Ha inoltre il potenziale per future estensioni per ospitare collezioni disordinate di immagini.