Questa ricerca di intelligenza artificiale presenta Avatars Gaussiani 3D guidabili (D3GA) Il primo modello controllabile in 3D per corpi umani resi con Gaussian Splats.

Avatars Gaussiani 3D guidabili (D3GA) il primo modello controlabile in 3D per corpi umani resi con Gaussian Splats attraverso l'intelligenza artificiale

Il movimento artistico impressionista è stato fondato nel XIX secolo dalla Società Anonima di Pittori, Scultori, Incisori, ecc. ed è caratterizzato da “breve, frammentato pennellate che a malapena trasmettono forme”. Recenti studi ora rendono i soggetti umani realisticamente possibile in fotografie, una sfida che gli impressionisti hanno evitato.

Poiché le tecniche monoculari mancano di precisione, la creazione di umani fotorealistici guidabili (ovvero possono essere animati per generare nuovi contenuti) richiede attualmente dati multi-view estesi. Inoltre, i metodi attuali necessitano di complessi pre-processing, come registrazioni 3D accurate. Ma per ottenere quelle registrazioni, è necessario utilizzare processi iterativi che non sono facili da incorporare nei flussi di lavoro end-to-end. Altri approcci che non richiedono registrazioni accurate si basano sui campi di radianza neuronale (NeRF). Si trovano in difficoltà nel rendere le animazioni di abbigliamento (con alcune eccezioni) o sono troppo lenti per il rendering in tempo reale.

Ricercatori di Meta Reality Labs Research, Technical University of Darmstadt e Max Planck Institute for Intelligent Systems rappresentano l’apparenza tridimensionale degli esseri umani e le deformazioni in uno spazio canonico utilizzando gaussiane tridimensionali invece che campi di radianza. Le schegge gaussiane vengono utilizzate come sostituto moderno per quelle veloci pennellate in modo che l’anatomia e l’estetica degli avatar corrispondano a quelle dei personaggi vivi e riposizionabili. Le schegge gaussiane non richiedono alcun “hacks” che coinvolgano il campionamento dei raggi della fotocamera. I punti in un NeRF guidabile sono spesso trasformati dallo spazio canonico allo spazio di osservazione utilizzando lo skinning di fusione lineare (LBS). D3GA, al contrario, modella gli esseri umani utilizzando volumi gaussiani tridimensionali come primitive volumetriche e richiede quindi una mappatura dai volumi allo spazio canonico.

Al posto di LBS, i ricercatori utilizzano le gabbie, un altro modello di deformazione ben stabilito adatto alle trasformazioni di volumi. Il gradiente di deformazione generato deformando le gabbie nello spazio canonico si applica direttamente alla rappresentazione gaussiana tridimensionale. Questo approccio si basa su una struttura compositiva che ci consente di rappresentare il torso, il viso e l’abbigliamento separatamente utilizzando le gabbie. Il mistero persistente riguarda il segnale che causa tali distorsioni delle gabbie. Lo stato dell’arte attuale degli avatar guidabili richiede segnali di input densi come immagini RGB-D o anche configurazioni con telecamere multiple, che potrebbero non essere accettabili per connessioni a bassa larghezza di banda nelle applicazioni di telepresenza. Il team ha utilizzato un input più condensato basato sulla postura umana, che include rappresentazioni di quaternioni degli angoli articolari scheletrici e punti chiave tridimensionali del viso. Utilizzano nove sequenze multi-view di alta qualità per addestrare modelli specifici della persona che possono essere guidati con nuove pose da qualsiasi soggetto. Coprono molte forme del corpo, movimenti e abiti (non limitati al fitting stretto).

Il metodo produce output di alta qualità, superando lo stato dell’arte con input equivalente e competendo favorevolmente con metodi che utilizzano maggiori informazioni, come le mesh FFD o le immagini, durante il test. Come bonus, la tecnica proposta non richiede una geometria di riferimento per ottenere risultati promettenti nella modellazione della geometria e dell’apparenza per sequenze dinamiche, riducendo il tempo di elaborazione necessario per i dati.