Questa ricerca sull’IA dalla Cina introduce 4K4D una rappresentazione in cloud a 4D dei punti che supporta la rasterizzazione hardware e consente una velocità di rendering senza precedenti.

Il futuro dell'IA Rappresentazione in cloud a 4D dei punti con 4K4D, rasterizzazione hardware e rendering velocissimo

La sintesi visiva dinamica è un compito di computer vision e grafica che cerca di ricostruire scene 3D dinamiche da video registrati e generare riproduzioni virtuali immersive. La praticità di questa tecnica si basa sulla sua capacità di rendering in tempo reale ad alta fedeltà, permettendo l’utilizzo in RV/AR, trasmissioni sportive e cattura di performance artistiche. Gli approcci convenzionali rappresentano scene 3D dinamiche come sequenze di mesh testurizzate e le ricostruiscono utilizzando hardware complessi, limitando la loro applicabilità a ambienti controllati. Le rappresentazioni neurali implicite hanno recentemente dimostrato un notevole successo nella ricostruzione di scene 3D dinamiche da video RGB attraverso il rendering differenziabile. Le tecniche recentemente sviluppate modellano la scena target come un campo dinamico di radianza e utilizzano il rendering volumetrico per sintetizzare immagini, confrontandole con le immagini di input per l’ottimizzazione. Nonostante i risultati impressionanti ottenuti nella sintesi visiva dinamica, gli approcci esistenti richiedono tipicamente secondi o addirittura minuti per rendere un’immagine a risoluzione 1080p a causa della valutazione intensiva delle risorse di rete.

Motivato dalle metodologie di sintesi visiva statica, specifiche tecniche di sintesi visiva dinamica migliorano la velocità di rendering riducendo il costo o il numero di valutazioni di rete. Utilizzando queste strategie, le rappresentazioni note come MLP Maps raggiungono una velocità di rendering di 41.7 fps per esseri umani dinamici in primo piano. Tuttavia, la sfida della velocità di rendering persiste, poiché MLP Maps ottiene prestazioni in tempo reale solo durante la sintesi di immagini a risoluzione moderata (384×512). Quando si rendono immagini a risoluzione 4K, la sua velocità scende a 1.3 FPS.

Il presente studio introduce una nuova rappresentazione neurale, chiamata 4K4D, progettata per la modellazione e il rendering di scene 3D dinamiche. 4K4D presenta miglioramenti significativi rispetto agli approcci precedenti di sintesi visiva dinamica in termini di velocità di rendering mantenendo al contempo competenze in termini di qualità di rendering. La panoramica del sistema è illustrata di seguito.

La vera innovazione risiede in una rappresentazione a nuvola di punti 4D e in un modello di aspetto ibrido. Nello specifico, per la scena dinamica, viene ottenuta una sequenza di nuvole di punti grossolane utilizzando un algoritmo di intaglio dello spazio, con la posizione di ogni punto modellata come un vettore apprendibile. Viene introdotta una griglia di funzioni 4D per assegnare un vettore di caratteristiche a ogni punto, che viene quindi inserito nelle reti MLP per prevedere il raggio del punto, la densità e i coefficienti di armoniche sferiche (SH). La griglia 4D delle caratteristiche applica naturalmente una regolarizzazione spaziale alle nuvole di punti, migliorando la robustezza dell’ottimizzazione. Inoltre, viene sviluppato un algoritmo di pelatura differenziabile, utilizzando il rasterizzatore hardware per raggiungere una velocità di rendering senza precedenti.

Lo studio identifica sfide nella rappresentazione dell’aspetto della scena dinamica mediante il modello MLP-based SH. Per affrontare ciò, viene introdotto un modello di fusione delle immagini per integrare il modello SH nella rappresentazione dell’aspetto della scena. Una scelta di design importante assicura l’indipendenza della rete di fusione delle immagini dalla direzione di visualizzazione, consentendo una pre-elaborazione dopo l’addestramento per migliorare la velocità di rendering. Tuttavia, questa strategia introduce una sfida nel comportamento discreto lungo la direzione di visualizzazione, che viene mitigata utilizzando il modello SH continuo. A differenza dello Splatting gaussiano 3D, che utilizza esclusivamente il modello SH, questo modello di aspetto ibrido sfrutta appieno le informazioni catturate dalle immagini di input, aumentando efficacemente la qualità di rendering.

Estesi esperimenti riportati dagli autori affermano che 4K4D raggiunge un rendering significativamente più veloce, superando nettamente i metodi all’avanguardia in termini di qualità di rendering. Secondo i numeri, utilizzando una GPU RTX 4090, questo metodo raggiunge fino a 400 FPS a risoluzione 1080p e 80 FPS a risoluzione 4K.

Un confronto visivo con tecniche all’avanguardia è riportato di seguito.

Questo è il riassunto di 4K4D, una nuova rappresentazione AI 4D del punto cloud che supporta la rasterizzazione hardware e consente una velocità di rendering senza precedenti. Se sei interessato e vuoi saperne di più, sentiti libero di fare riferimento ai link citati di seguito.