Ricercatori dell’Università del Wisconsin e di ByteDance presentano PanoHead il primo framework GAN 3D che sintetizza immagini complete del volto coerenti con la vista utilizzando solo immagini da una singola prospettiva.

Ricercatori dell'Università del Wisconsin e di ByteDance presentano PanoHead, un framework GAN 3D che sintetizza immagini complete del volto coerenti con la vista da una singola prospettiva.

Nella visione artificiale e nei grafici, la sintesi di immagini di ritratti fotorealistici è stata costantemente enfatizzata, con una vasta gamma di applicazioni derivate in avatar virtuali, telepresenza, giochi immersivi e molte altre aree. Indistinguibile dalle immagini genuine, gli sviluppi recenti delle reti generative avversariali (GAN) hanno mostrato una qualità di sintesi delle immagini notevolmente elevata. Tuttavia, i metodi generativi contemporanei non modellano le scene 3D sottostanti; al contrario, operano su reti convoluzionali 2D. Di conseguenza, è impossibile garantire correttamente la coerenza 3D durante la sintesi di immagini di testa in diverse posizioni. I metodi tradizionali richiedono un modello di maglia strutturata parametrica appreso da ampie collezioni di scansioni 3D per produrre teste 3D con varie forme e aspetti.

Le immagini prodotte, tuttavia, necessitano di dettagli più fini e hanno una scarsa espressività e qualità percettiva. Per ottenere immagini di volti 3D più realistiche, sono stati creati modelli generativi condizionali con l’avvento della rendering differenziabile e della rappresentazione neurale implicita. Tuttavia, questi metodi dipendono spesso da una supervisione dell’immagine multi-vista o della scansione 3D, che è difficile da ottenere e ha una distribuzione di aspetto limitata perché viene registrata in ambienti controllati. Gli sviluppi recenti nella rappresentazione neurale implicita nella modellazione di scene 3D e nelle reti generative avversariali (GAN) per la sintesi di immagini hanno accelerato lo sviluppo di modelli generativi 3D-aware.

La figura 1 mostra come il nostro PanoHead consenta la geometria ad alta fedeltà e la sintesi di immagini di testa a 360 gradi coerenti con la vista per creare ritratti 3D realistici da una singola prospettiva.

Uno di questi, il pionieristico 3D GAN, EG3D, ha una qualità impressionante nella sintesi di immagini coerenti con la vista ed è stato addestrato utilizzando set di immagini a vista singola trovate in natura. Tuttavia, questi metodi 3D GAN possono sintetizzare solo prospettive quasi frontali. I ricercatori di ByteDance e dell’Università del Wisconsin-Madison propongono PanoHead, un GAN 3D-aware unico addestrato utilizzando esclusivamente foto non strutturate in natura, consentendo una sintesi di testa 3D completa di alta qualità a 360 gradi. Numerose situazioni di interazione immersiva, tra cui telepresenza e avatar digitali, traggono vantaggio dalla capacità del loro modello di sintetizzare teste 3D coerenti che possono essere viste da tutte le prospettive. Ritengono che la loro metodologia sia il primo approccio GAN 3D a realizzare completamente la sintesi di teste 3D a 360 gradi.

Ci sono diversi ostacoli tecnologici principali alla sintesi completa di teste 3D quando si utilizzano framework GAN 3D come EG3D: Molti GAN 3D non riescono a distinguere tra primo piano e sfondo, portando a una geometria di testa 2.5D. Non è possibile renderizzare grandi posture perché lo sfondo, normalmente strutturato come una struttura murale, si intreccia con la testa creata in 3D. Sviluppano un tri-discriminatore consapevole del primo piano che, utilizzando informazioni precedenti dalla segmentazione delle immagini 2D, apprende contemporaneamente la decomposizione della testa in primo piano nello spazio 3D. Inoltre, le rappresentazioni ibride di scene 3D, come i tri-piani, offrono un’elevata incertezza di proiezione per le posizioni delle telecamere a 360 gradi, risultando in un “viso specchiato” sulla testa posteriore nonostante la loro efficienza e compattezza.

Forniscono una rappresentazione unica del volume del tri-grid 3D che separa le caratteristiche frontali dalla testa posteriore preservando l’efficacia delle rappresentazioni tri-piano per affrontare il problema. Infine, ottenere una corretta estrinseca della telecamera delle immagini di testa posteriori in natura per l’addestramento dei GAN 3D è piuttosto impegnativo. Inoltre, c’è una discrepanza nell’allineamento delle immagini tra queste e le foto frontali con segni facciali evidenti. La geometria della testa poco attraente e un aspetto rumoroso risultano dal divario di allineamento. Di conseguenza, suggeriscono un metodo di allineamento a due fasi unico che allinea in modo affidabile le foto da tutte le prospettive. Questa procedura riduce notevolmente la curva di apprendimento dei GAN 3D.

Essi suggeriscono specificamente un modulo di auto-adattamento della telecamera che modifica dinamicamente le posizioni di ripresa per compensare le deviazioni di allineamento nelle immagini della testa posteriore. Come si può vedere nella Figura 1, il loro approccio migliora significativamente la capacità dei 3D GANs di adattarsi a foto dell’intera testa in condizioni reali da punti di vista arbitrari. Il risultato è un 3D GAN che crea immagini RGB a 360° ad alta fedeltà e geometria, superando le tecniche all’avanguardia in termini di misure quantitative. Con questo modello, dimostrano come creare facilmente un ritratto 3D ricostruendo l’intera testa in 3D da un singolo scatto monoculare.

Ecco un riassunto delle loro principali contribuzioni:

• Il primo framework 3D GAN in grado di sintetizzare immagini a 360 gradi dell’intera testa che sono coerenti con il punto di vista e ad alta fedeltà. Utilizzano una ricostruzione tridimensionale ad alta qualità della testa da foto scattate sul campo per illustrare la loro metodologia.

• Una formulazione unica a tre griglie per esprimere scenari tridimensionali a 360 gradi della testa che compromette efficacia ed espressività.

• Un tridiscriminatore che separa la sintesi dello sfondo bidimensionale dalla modellazione tridimensionale della testa.

• Una tecnica all’avanguardia di allineamento delle immagini in due fasi che si adatta in modo adattivo a posture di telecamera non ottimali e ritagli di immagini non allineate, consentendo la formazione di 3D GAN da foto scattate in natura con una vasta gamma di pose della telecamera.