Incontra il GPS-Gaussian un nuovo approccio all’intelligenza artificiale per sintetizzare in modo rapido visioni inedite di un personaggio.

Incontra il GPS-Gaussian un nuovo approccio all'intelligenza artificiale per creare rapidamente visioni originali di un personaggio.

https://shunyuanzheng.github.io/GPS-Gaussianhttps://shunyuanzheng.github.io/GPS-Gaussian

Una funzione essenziale dei sistemi di telecamere multi-view è la sintesi di nuove visualizzazioni (NVS), che cerca di generare immagini fotorealistiche da nuove prospettive utilizzando foto di origine. I sottocampi dell’NVS umano hanno il potenziale di contribuire significativamente all’efficienza in tempo reale e alle apparenze 3D coerenti in aree come la comunicazione olografica, le performance sceniche e la cattura di scene immersive 3D/4D per la radiodiffusione sportiva. Gli sforzi precedenti hanno utilizzato un processo di fusione pesata per creare nuove visualizzazioni, ma generalmente questi si sono basati su visualizzazioni di input che sono sia molto dense che hanno geometria proxy molto accurata. La resa di immagini ad alta fedeltà per l’NVS in condizioni di telecamera con visualizzazione sparata rappresenta ancora un enorme problema.

In diversi compiti di NVS, le rappresentazioni implicite, in particolare Neural Radiance Fields (NeRF), hanno recentemente mostrato prestazioni eccezionali. Sebbene ci siano stati progressi nelle strategie per accelerare il processo, i metodi NVS che utilizzano rappresentazioni implicite richiedono comunque molto tempo per interrogare punti densi nello spazio della scena. Al contrario, le capacità di rendering in tempo reale e ad alta velocità delle rappresentazioni esplicite, in particolare delle nuvole di punti, hanno attirato una grande attenzione. Quando combinata con reti neurali, la grafica basata sui punti fornisce una rappresentazione esplicita impressionante che è realistica ed efficiente rispetto a NeRF nel test NVS umano.

Nuove ricerche dell’Istituto di Tecnologia di Harbin e dell’Università Tsinghua mirano a un approccio generalizzabile di Splatting Gaussiano 3D per regredire parametri gaussiani in modo feed-forward invece di utilizzare l’ottimizzazione per soggetto in questo articolo. Il loro obiettivo è imparare come utilizzare grandi modelli di scansione umani 3D con varie topologie umane, stili di abbigliamento e deformazioni dipendenti dalla posa per creare rappresentazioni gaussiane, traendo ispirazione da approcci di ricostruzione umana basati sull’apprendimento di successo come PIFu. L’approccio proposto consente la rapida rappresentazione delle apparenze umane attraverso un modello gaussiano generalizzabile utilizzando queste conoscenze priori umane acquisite.

I ricercatori presentano mappe di parametri gaussiani 2D definite sui piani delle immagini delle visualizzazioni di origine (posizione, colore, scaling, rotazione, opacità) come alternativa a nuvole di punti non strutturati. Grazie a queste mappe di parametri gaussiani, è possibile rappresentare un personaggio utilizzando parametri per ciascun pixel, in cui ogni pixel in primo piano corrisponde a un punto gaussiano specifico. Inoltre, è possibile utilizzare reti di convoluzione 2D a basso costo invece di operatori 3D. L’estimazione delle mappe di profondità per entrambe le visualizzazioni di origine utilizzando la tecnica di stereoscopia a due visualizzazioni come tecnica di dispestinzione apprendibile solleva mappe di parametri 2D a punti gaussiani 3D. I personaggi sono rappresentati da questi punti gaussiani non proiettati da entrambe le visualizzazioni di origine e l’immagine di nuova visualizzazione può essere generata utilizzando l’approccio di Splatting. Le significative auto-occlusioni nei personaggi umani rendono la stima della profondità un problema difficile con gli approcci di cascata dei volumi di costo esistenti. Pertanto, il team suggerisce di addestrare contemporaneamente la regressione dei parametri gaussiani e un modulo di stima della profondità basato su abbinamento stereo iterativo su grandi quantità di dati. La riduzione della perdita di rendering del modulo gaussiano corregge eventuali artefatti che possono essere causati dalla stima della profondità, migliorando la precisione della determinazione della posizione gaussiana 3D. L’addestramento diventa più stabile con l’aiuto di un tale approccio collaborativo, che è vantaggioso per tutte le parti coinvolte.

Nella realtà, il team è riuscito a ottenere 2K di nuove visualizzazioni con velocità dei fotogrammi superiori a 25 FPS utilizzando solo una scheda grafica all’avanguardia. Un personaggio invisibile può essere reso istantaneamente senza ottimizzazione o affinamento utilizzando la grande generalizzabilità e le rapide capacità di rendering del metodo proposto.

Come evidenziato nel loro articolo, alcuni fattori possono ancora influire sull’efficacia del metodo, anche se il GPS-Gaussiano suggerito sintetizza immagini di alta qualità. Ad esempio, un passaggio di preelaborazione essenziale è la dotazione precisa del primo piano. Inoltre, quando un’area di destinazione è completamente invisibile in una visualizzazione ma visibile in un’altra, come in un sistema a 6 telecamere, il metodo non è in grado di gestire adeguatamente una grande differenza. I ricercatori ritengono che questa difficoltà possa essere risolta utilizzando dati correlati al tempo.