Ricercatori di Apple propongono una rete end-to-end che produce dettagliate ricostruzioni 3D da immagini posate

Apple researchers propose an end-to-end network that produces detailed 3D reconstructions from posed images.

Hai mai giocato a GTA-5? Ci si ammira per i grafici 3D nel gioco. A differenza dei grafici 2D su un piano piatto, i grafici 3D simulano la profondità e la prospettiva, consentendo visuali più realistiche e coinvolgenti. Questi grafici sono ampiamente utilizzati in vari settori, tra cui videogiochi, produzione cinematografica, visualizzazione architettonica, imaging medico, realtà virtuale e altro ancora.

Il metodo tradizionale per creare un modello 3D consisteva nel calcolare le mappe di profondità per le immagini di input, che venivano successivamente fuse per creare un modello 3D. Un team di ricercatori di Apple e dell’Università della California, Santa Barbara ha creato un’infusione diretta della geometria 3D a livello di scena utilizzando reti neurali profonde, che non coinvolgeva il metodo tradizionale di ottimizzazione in fase di test.

Il metodo tradizionale comportava la mancata geometria o artefatti nelle aree in cui le mappe di profondità non corrispondevano a causa di superfici trasparenti o a bassa texture. L’approccio dei ricercatori prevede l’applicazione delle immagini su una griglia di voxel e la previsione diretta della funzione di distanza firmata troncata (TSDF) della scena utilizzando una rete neurale di convoluzione 3D.

Una rete neurale convoluzionale (CNN) è una rete neurale artificiale specializzata progettata per elaborare e analizzare dati visivi, in particolare immagini e video. Il vantaggio di utilizzare questa tecnica è che la CNN può apprendere e produrre superfici lisce e coerenti che possono riempire le lacune nelle regioni a bassa texture o trasparenti.

I ricercatori hanno utilizzato l’interpolazione trilineare per campionare la TSDF di ground-truth per allinearsi con la griglia di voxel del modello durante l’addestramento. Questo campionamento di interpolazione trilineare ha aggiunto rumore casuale ai dettagli nella sessione di addestramento. Per superare questo problema, hanno considerato solo le previsioni supervisionate nei punti esatti in cui la TSDF di ground-truth è ben nota, e questo metodo ha migliorato i risultati del 10%.

Un voxel è una forma abbreviata per i pixel di volume. Rappresenta un punto nello spazio 3D all’interno di una griglia, simile a come un pixel rappresenta un punto in un’immagine 2D. I voxel esistenti sono di dimensioni pari o superiori a 4 cm, il che non è sufficiente per risolvere i dettagli geometrici visibili nelle immagini naturali, ed è costoso aumentare la risoluzione dei voxel. Hanno risolto questo problema utilizzando una caratteristica di griglia CNN, proiettando direttamente le caratteristiche dell’immagine al punto di interrogazione.

Era necessario utilizzare una retroproiezione densa per campionare qualsiasi caratteristica da ciascuna immagine di input da ciascun voxel. Tuttavia, ciò ha causato sfocatura nel volume di retroproiezione, e hanno risolto il problema utilizzando una stima iniziale della profondità stereo multi-vista, utilizzata ulteriormente per migliorare il volume delle caratteristiche.

I ricercatori affermano che il loro metodo è fondamentale per consentire alla rete di apprendere i dettagli fini e consentire la libera selezione della risoluzione di output senza richiedere ulteriori allenamenti o livelli di convoluzione 3D.