Questo articolo sull’IA svela HiFi4G Una svolta nella modellazione fotorealistica umana e nel rendering efficiente

Questo articolo sull'IA presenta HiFi4G Una rivoluzione nella modellazione fotorealistica umana e nel rendering efficiente

La registrazione volumetrica e la rappresentazione realistica delle prestazioni umane 4D (nello spaziotempo) dissolvono le barriere tra spettatori e artisti. Offre una varietà di esperienze immersive in VR/AR, come la telepresenza e la tele-educazione. Alcuni sistemi iniziali utilizzano la registrazione non rigida in modo esplicito per ricreare modelli con texture dalle riprese registrate. Tuttavia, sono ancora suscettibili ad occlusioni e carenze di texture, che portano a lacune e rumore nell’output di ricostruzione. Recentemente, attraverso le nuove reti neurali, come NeRF, si ottimizza un multistrato basato su coordinate per ottenere il rendering volumetrico fotorealistico, anziché ricorrere alla ricostruzione esplicita.

Alcune variazioni dinamiche di NeRF mirano a preservare uno spazio caratteristico canonico per riprodurre le caratteristiche di ogni fotogramma tramite un campo di deformazione implicito aggiuntivo. Tuttavia, questo design canonico è sensibile a cambiamenti topologici significativi o movimenti massicci. Attraverso la fattorizzazione planare o l’hash encoding, i recenti metodi eliminano i campi di deformazione e descrivono in modo compatto la griglia di caratteristiche 4D. Questi migliorano notevolmente il rendering interattivo dei programmi e la loro formazione, ma pongono ancora problemi di memoria e archiviazione durante l’esecuzione. Di recente, il metodo di splatting gaussiano tridimensionale (3DGS) ritorna a un paradigma esplicito per rappresentare scene statiche, consentendo un rendering di campo di radianza di alta qualità e in tempo reale basato sulla rasterizzazione amichevole per la GPU di primitive gaussiane tridimensionali. Diversi progetti in corso modificano il 3DGS per adattarsi alle situazioni dinamiche.

Alcuni si concentrano sui movimenti non rigidi delle gaussiane dinamiche a discapito della qualità del rendering. Altri perdono l’eleganza esplicita e GPU-friendly del 3DGS originale e non possono gestire movimenti di lunga durata perché utilizzano campi di deformazione impliciti aggiuntivi per compensare le informazioni sul movimento. In questo studio, il team di ricerca di ShanghaiTech University, NeuDim, ByteDance e DGene introduce HiFi4G, un metodo completamente esplicito e compatto basato su gaussiane per ricreare prestazioni umane 4D ad alta fedeltà da video densi (si veda Figura 1). Il loro concetto principale è quello di combinare il tracciamento non rigido con la rappresentazione gaussiana tridimensionale per separare i dati di movimento e apparenza, ottenendo una rappresentazione compatta e adatta alla compressione. HiFi4G offre prestazioni notevolmente migliori in termini di velocità di ottimizzazione, qualità del rendering e spazio di archiviazione rispetto alle tecniche di rendering implicite attuali.

Figura 1 mostra il nostro rendering compatto di splatting gaussiano ad alta risoluzione. HiFi4G combina la tecnica di fusione non rigida classica con il progresso della rasterizzazione differenziabile da video di prestazioni umane multi-view per generare in modo efficace asset 4D compatti.

Grazie alla loro rappresentazione esplicita, i risultati possono essere facilmente integrati nella pipeline di rasterizzazione basata sulla GPU, consentendo agli utenti di vivere prestazioni umane ad alta fedeltà nella realtà virtuale indossando visori VR. Il team di ricerca offre inizialmente una tecnica a doppio grafico composta da un grafico di gaussiane a grana fine e un grafico di deformazione grossolana per collegare naturalmente la rappresentazione gaussiana al tracciamento non rigido. Per il primo, il team di ricerca utilizza NeuS2 per creare una geometria proxy per ogni fotogramma prima di utilizzare la deformazione incorporata (ED) in modo chiave. Questa tecnica di tracciamento esplicito divide la sequenza in parti, fornendo una ricca storia del movimento all’interno di ciascun segmento. Allo stesso modo dell’aggiornamento delle key-volume, il team di ricerca limita il numero di gaussiane nel segmento corrente mediante l’uso del 3DGS per eliminare le gaussiane errate dal segmento precedente e aggiungere quelle nuove.

Successivamente, il team di ricerca costruisce un grafo di gaussiane a grana fine per ulteriori inizializzazioni interpolando il movimento di ciascuna gaussiana dal grafo ED grossolano. Riportare semplicemente il grafo gaussiane piegandolo con il grafo ED e slappandolo nello spazio dello schermo provoca distorsioni innaturali gravi; gli artefatti tremolanti derivano da ottimizzazioni continue senza alcun limite. Per bilanciare adeguatamente l’aggiornamento delle caratteristiche gaussiane e la priorità del movimento non rigido, il team di ricerca propone un approccio di ottimizzazione gaussiano 4D. Il team di ricerca utilizza un regolarizzatore temporale per garantire la coerenza delle proprietà visive di ciascuna gaussiana, come opacità, coefficienti di scala e armoniche sferiche (SH). Il team di ricerca suggerisce un termine di smoothing per le caratteristiche di movimento (posizione e rotazione) per generare movimenti localmente rigidi tra le gaussiane adiacenti.

Un meccanismo di ponderazione adattativo viene aggiunto a questi regolarizzatori per punire gli artefatti di sfarfallamento nelle regioni che mostrano movimenti piccoli e non rigidi. Il team di ricerca genera gaussiane 4D spazialmente-temporali compatte dopo l’ottimizzazione. Il team di ricerca presenta una tecnica di compressione complementare che segue la correzione residuale convenzionale, la quantizzazione e la codifica dell’entropia per i parametri gaussiani per rendere il loro HiFi4G utile per i consumatori. Con un tasso di compressione significativo di circa 25 volte e meno di 2 MB di archiviazione necessari per ogni frame, consente l’osservazione immersiva delle performance umane su vari dispositivi, inclusi visori VR.

In breve, i loro principali contributi includono quanto segue:

• Il team di ricerca ha introdotto una rappresentazione compatta di gaussiane 4D che collega il Gaussian Splatting con il tracking non rigido per la resa delle performance umane.

• Il team di ricerca fornisce un approccio a grafo duale che può recuperare in modo efficiente gaussiane 4D spazialmente-temporalmente consistenti utilizzando diversi design di regolarizzazione.

• Il team di ricerca fornisce un approccio di compressione complementare che consente un’esperienza di performance umane immersiva a bassa archiviazione su diverse piattaforme.