Questa ricerca sull’IA propone TeCH per ricostruire una figura umana vestita in 3D realistica da un’unica immagine con geometria completa dettagliata del corpo e texture di alta qualità.

This AI research proposes TeCH to reconstruct a realistic 3D human figure from a single image with detailed body geometry and high-quality texture.

Alta fedeltà Per molte applicazioni di realtà aumentata e virtuale, incluse i giochi, i social network, l’istruzione, il commercio elettronico e la telepresenza immersiva, le persone digitali 3D sono essenziali. Molte metodologie si concentrano sulla ricostruzione di una figura umana 3D vestita a partire da una singola fotografia per rendere più facile la creazione di persone digitali a partire da foto disponibili in modo spontaneo. Tuttavia, l’assenza di osservazioni di posizioni non visibili rende questo problema poco definito nonostante i progressi ottenuti dalle tecniche precedenti. Non si è riusciti a prevedere le parti invisibili (come la parte posteriore) utilizzando indizi visivi evidenti (come colori ed estimazioni normali), il che ha portato a una texture sfocata e a una geometria smussata. Di conseguenza, osservando queste ricostruzioni da diverse prospettive, compaiono delle discrepanze. La supervisione multi-visuale è una possibile risposta a questo problema. Ma è possibile con un’unica immagine come input? Qui viene suggerito TeCH come possibile soluzione. TeCH combina informazioni testuali acquisite dall’immagine di input con un modello di diffusione testo-immagine personalizzato, ovvero DreamBooth, per guidare il processo di ricostruzione, a differenza delle precedenti ricerche che studiano principalmente la relazione tra segnali frontali evidenti ed aree non visibili.

In particolare, separano le informazioni semantiche dall’immagine di input in un aspetto distintivo e dettagliato del soggetto, che è difficile da descrivere con le parole:

1) Utilizzando un modello di parsing dell’abbigliamento (ovvero SegFormer) e un modello visual-language VQA pre-addestrato (ovvero BLIP), vengono eseguite analisi esplicite delle indicazioni semantiche descrittive provenienti dall’immagine di input. Queste indicazioni includono descrizioni specifiche di colori, stili di abbigliamento, tagli di capelli e tratti del viso.

2) Un modello di diffusione testo-immagine personalizzato incorpora informazioni sull’aspetto indescrivibili, che determinano implicitamente l’aspetto distintivo del soggetto e le caratteristiche dettagliate, in un token speciale “[V]”. Utilizzano il campionamento di distillazione del punteggio multi-visuale (SDS), le perdite di ricostruzione basate sulle osservazioni originali e la regolarizzazione ottenuta da stimatori normali preconfezionati per ottimizzare il modello umano 3D basandosi su queste fonti di informazione per migliorare la fedeltà dei modelli umani 3D ricostruiti mantenendo la loro identità originale.

Figura 1 mostra come TeCH può creare una persona in 3D vestita in modo realistico a partire da una singola fotografia.

Ricercatori della Zhejiang University, del Max Planck Institute for Intelligent Systems, della Mohamed bin Zayed University of Artificial Intelligence e della Peking University suggeriscono una rappresentazione ibrida 3D basata su DMTet per esprimere una geometria ad alta risoluzione a un prezzo ragionevole. Per rappresentare accuratamente la forma generale del corpo, la nostra rappresentazione ibrida 3D combina una griglia tetraedrica esplicita con campi impliciti RGB e Signed Distance Function (SDF). Prima ottimizzano questa griglia tetraedrica, estraggono la geometria rappresentata come una mesh e quindi ottimizzano la texture in una procedura di ottimizzazione a due fasi. TeCH rende possibile ricreare modelli 3D accurati di persone vestite con una geometria completa del corpo precisa e texture ricche con un’unica combinazione di colori e pattern.

Di conseguenza, rende più facile per numerose applicazioni successive, tra cui l’animazione dei personaggi, la generazione di nuove visualizzazioni e la manipolazione della forma e della texture. TeCH si è dimostrato più efficace nel ricreare caratteristiche geometriche nei test quantitativi su dataset di persone vestite in 3D che comprendono una varietà di posture (CAPE) e abbigliamenti (THuman2.0). TeCH supera le approcci SOTA riguardo la qualità della resa, secondo valutazioni qualitative effettuate su foto del mondo reale e ricerche percettive. Il codice sarà accessibile pubblicamente a scopo di ricerca.