Una nuova ricerca sull’IA dalla Cina propone 4K4D una rappresentazione a nuvola di punti 4D che supporta la rasterizzazione hardware e consente una velocità di rendering senza precedenti

Una nuova scoperta cinese sull'IA 4K4D, una rivoluzionaria rappresentazione a nuvola di punti in 4D che supporta la rasterizzazione hardware e offre una velocità di rendering mai vista prima

La sintesi dinamica delle visualizzazioni è il processo di ricostruzione di scene 3D dinamiche da video catturati e la creazione di riproduzioni virtuali immersive. Questo processo è un problema di ricerca da tempo nel campo della visione artificiale e della grafica, un processo che offre notevoli promesse nel campo della VR/AR, della trasmissione sportiva e della cattura delle performance artistiche.

I metodi tradizionali per rappresentare le scene 3D dinamiche utilizzano sequenze di mesh con texture, ma questi metodi sono complessi e computazionalmente costosi, rendendoli impraticabili per le applicazioni in tempo reale.

Recentemente, alcuni metodi hanno prodotto ottimi risultati quando si tratta di sintesi dinamica delle visualizzazioni, mostrando un’ottima qualità di rendering. Tuttavia, un’area in cui devono ancora migliorare è la latenza durante il rendering di immagini ad alta qualità. Questo documento di ricerca introduce 4K4D, una rappresentazione della nube di punti 4D che supporta la rasterizzazione hardware e consente un rendering rapido.

4K4D rappresenta le scene 3D basandosi su una griglia 4D di caratteristiche, ovvero un vettore di 4 caratteristiche. Tale rappresentazione rende i punti nella griglia regolari e più facili da ottimizzare. Il modello rappresenta prima la geometria e la forma degli oggetti nel video di input utilizzando un algoritmo di intaglio dello spazio e una rete neurale per imparare come rappresentare la scena 3D dalla nube di punti. Viene quindi sviluppato un algoritmo di “differential depth peeling” per il rendering della rappresentazione della nube di punti, e si fa leva su un rasterizzatore hardware per migliorare la velocità di rendering.

Per aumentare la velocità di rendering, vengono applicate le seguenti tecniche di accelerazione:

  • Alcuni parametri del modello vengono precalcolati e memorizzati in memoria, consentendo alla scheda grafica di renderizzare la scena più velocemente.
  • La precisione del modello viene ridotta da float a 16-bit float. Ciò aumenta il frame rate di 20 senza alcuna perdita di prestazioni visibile.
  • Infine, viene ridotto il numero di passaggi di rendering richiesti dall’algoritmo di “depth peeling”, il che aumenta il frame rate di 20 senza alcuna variazione visibile della qualità.

I ricercatori hanno valutato le prestazioni di 4K4D su più dataset come DNA-Rendering, ENeRF-Outdoor, ecc. Il metodo dei ricercatori per il rendering di scene 3D può essere eseguito a oltre 400 FPS a 1080p sul primo dataset e a 80 FPS a 4K sul secondo. Questo è 30 volte più veloce rispetto al metodo di sintesi dinamica delle visualizzazioni in tempo reale all’avanguardia ENeRF, che offre anche una migliore qualità di rendering. Il dataset ENeRF Outdoor è piuttosto impegnativo con attori multipli. 4K4D è comunque riuscito a produrre risultati migliori rispetto agli altri modelli, che hanno prodotto risultati sfocati e mostrato artefatti neri intorno ai bordi dell’immagine in alcune delle rappresentazioni.

In conclusione, 4K4D è un nuovo metodo che mira a risolvere il problema della lentezza del rendering quando si tratta di sintesi delle visualizzazioni in tempo reale di scene 3D dinamiche a risoluzione 4K. Si tratta di una rappresentazione basata sulla nube di punti neurali che raggiunge una qualità di rendering all’avanguardia e presenta un aumento di oltre 30 volte nella velocità di rendering. Tuttavia, ci sono un paio di limitazioni, come i requisiti di archiviazione elevati per i video lunghi e l’individuazione delle corrispondenze dei punti tra i frame, che i ricercatori prevedono di affrontare in lavori futuri.