Incontra StyleAvatar3D un nuovo metodo di intelligenza artificiale per generare avatar 3D stilizzati utilizzando modelli di diffusione immagine-testo e una rete di generazione 3D basata su GAN.

Incontra StyleAvatar3D, un nuovo metodo di intelligenza artificiale per generare avatar 3D stilizzati con GAN.

Dall’avvento degli abbinamenti su larga scala tra immagini e testo e delle complesse topologie di modelli generativi come i modelli di diffusione, i modelli generativi hanno compiuto enormi progressi nella produzione di immagini 2D ad alta fedeltà. Questi modelli eliminano l’intervento manuale consentendo agli utenti di creare immagini realistiche a partire da suggerimenti di testo. A causa della mancanza di diversità e accessibilità dei modelli di apprendimento 3D rispetto ai loro omologhi 2D, i modelli generativi 3D continuano ad affrontare problemi significativi. La disponibilità di modelli 3D di alta qualità è limitata dalla difficile e altamente specializzata sviluppo manuale di risorse 3D in motori software.

Recentemente, i ricercatori hanno studiato metodi generativi di immagini e testo pre-addestrati per creare modelli 3D ad alta fedeltà per affrontare questo problema. Questi modelli includono dettagliate informazioni precedenti sulla geometria e sull’aspetto degli oggetti, il che potrebbe semplificare la creazione di modelli 3D realistici e variati. In questo studio, ricercatori di Tencent, Nanyang Technological University, Fudan University e Zhejiang University presentano un metodo unico per la creazione di avatar con stile 3D che utilizza modelli di diffusione testo-immagine già addestrati e permette agli utenti di scegliere lo stile e le caratteristiche facciali degli avatar tramite suggerimenti di testo. Utilizzano EG3D, una rete di generazione 3D basata su GAN, specificamente perché ha diversi vantaggi.

In primo luogo, EG3D utilizza foto calibrate anziché dati 3D per l’addestramento, rendendo possibile aumentare continuamente la varietà e la realismo dei modelli 3D utilizzando dati immagine migliorati. Questo è relativamente semplice per le fotografie 2D. In secondo luogo, possono produrre ogni vista in modo indipendente, controllando efficacemente la casualità durante la formazione delle immagini poiché le immagini utilizzate per l’addestramento non richiedono uniformità multi-vista rigorosa nell’aspetto. Il loro metodo utilizza ControlNet basato su StableDiffusion, che consente la produzione di immagini dirette da posizioni predefinite, per creare immagini di addestramento 2D calibrate per addestrare EG3D.

Il riutilizzo delle caratteristiche della fotocamera dalle fotografie di posizione a scopo di apprendimento consente di sintetizzare o recuperare tali posizioni dagli avatar nei motori attuali. Anche quando si utilizzano fotografie di posizioni accurate come guida, ControlNet spesso fatica a creare viste con angoli enormi, come il retro della testa. La generazione di modelli 3D completi deve essere migliorata da questi output falliti. Hanno adottato due approcci separati per affrontare il problema. In primo luogo, hanno creato suggerimenti specifici per ogni vista durante la produzione di immagini per ridurre drasticamente le occorrenze di fallimento. Le foto sintetizzate potrebbero corrispondere parzialmente alle foto di posizione, anche con suggerimenti specifici per la vista.

Per affrontare questa discrepanza, hanno creato un discriminatore grezzo-fine per l’addestramento GAN 3D. Ogni dato immagine nel loro sistema ha una annotazione di posizione grezza e fine. Durante l’addestramento GAN, selezionano casualmente un’annotazione di addestramento. Danno una probabilità elevata all’adozione di una buona annotazione di posizione per viste confidenti come il volto frontale, ma l’apprendimento per il resto delle opinioni si basa maggiormente su idee grezze. Questo metodo può produrre modelli 3D più precisi e variati anche quando le foto di input includono annotazioni disordinate. Inoltre, hanno creato un modello di diffusione latente nello spazio di stile latente di StyleGAN per consentire la creazione 3D condizionale utilizzando un’immagine di input.

Il modello di diffusione può essere addestrato rapidamente grazie alle basse dimensioni del codice di stile, alla grande espressività e compattezza. Campionano direttamente coppie di immagini e codici di stile dai loro generatori 3D addestrati per apprendere il modello di diffusione. Hanno effettuato test completi su molti dataset massicci per valutare l’efficacia della loro strategia proposta. I risultati mostrano che il loro metodo supera le tecniche all’avanguardia attuali per quanto riguarda la qualità visiva e la varietà. In conclusione, questa ricerca introduce un metodo unico che utilizza modelli di diffusione immagine-testo addestrati per produrre avatar 3D ad alta fedeltà.

La loro architettura aumenta notevolmente la versatilità della produzione di avatar consentendo di determinare stili e caratteristiche facciali tramite suggerimenti di testo. Per affrontare il problema del disallineamento delle posizioni delle immagini, hanno anche suggerito un discriminatore grezzo-fine consapevole della posa, che permetterà un miglior utilizzo dei dati immagine con annotazioni errate di posa. Infine, hanno creato un modulo di generazione condizionale aggiuntivo che consente la creazione 3D condizionale utilizzando un’immagine di input nello spazio di stile latente. Questo modulo aumenta ulteriormente l’adattabilità della struttura e consente agli utenti di creare modelli 3D personalizzati ai propri gusti. Hanno anche pianificato di rendere il loro codice open source.