Incontra HyperHuman un nuovo quadro di intelligenza artificiale per una generazione iperrealistica di esseri umani con diffusione strutturale latente.

Incontra HyperHuman l'intelligenza artificiale che crea una generazione di esseri umani iperrealistica con un tocco di fascino intrinseco.

La generazione di immagini umane iperrealistiche da condizioni definite dall’utente, come testo e posizione, è significativa per varie applicazioni, tra cui l’animazione di immagini e i virtual try-on. Sono stati fatti numerosi sforzi per esplorare il compito di generazione controllata di immagini umane. I metodi precedenti si basavano sia su autoencoder variazionali (VAE) in modo di ricostruzione o miglioravano il realismo attraverso le reti generative avversariali (GAN). Nonostante la creazione di immagini di alta qualità da parte di alcuni metodi, le sfide come l’addestramento instabile e la capacità limitata del modello li hanno confinati in piccoli set di dati con bassa diversità.

L’emergere recente di modelli di diffusione (DM) ha introdotto un nuovo paradigma per la sintesi realistica, diventando l’architettura predominante nell’intelligenza artificiale generativa. Tuttavia, i modelli esemplari di testo-immagine (T2I) come Stable Diffusion e DALL·E 2 faticano ancora a creare immagini umane con un’anatomia coerente, come braccia, gambe e posizioni naturali. La sfida principale risiede nelle deformazioni non rigide della forma umana, che richiedono informazioni strutturali difficili da rappresentare solo attraverso indicazioni di testo.

Lavori recenti, come ControlNet e T2I-Adapter, hanno cercato di consentire il controllo strutturale per la generazione di immagini introducendo un ramo apprendibile per modulare i DM pre-addestrati, come Stable Diffusion, in modo plug-and-play. Tuttavia, questi approcci soffrono di discordanze di caratteristiche tra i rami principali e ausiliari, risultando in incostanza tra i segnali di controllo (ad esempio mappe di posa) e le immagini generate. HumanSD propone di inserire direttamente lo scheletro del corpo nella rete U-Net di diffusione tramite concatenazione su canale per affrontare questo problema. Tuttavia, questo metodo è limitato alla generazione di immagini in stile artistico con una diversità limitata. Inoltre, il contenuto umano viene sintetizzato solo con il controllo della posa, trascurando altre informazioni strutturali cruciali come le mappe di profondità e le mappe di normali della superficie.

Il lavoro riportato in questo articolo propone un framework unificato, HyperHuman, per generare immagini umane in-the-wild con alta realismo e layout diversi. La sua panoramica è illustrata nella figura seguente.

La chiave del successo è riconoscere la natura intrinsecamente strutturale delle immagini umane in diversi gradi di granularità, dagli scheletri del corpo a livelli grossolani alla geometria spaziale dettagliata. Catturare tali correlazioni tra l’aspetto esplicito e la struttura latente in un unico modello è essenziale per generare immagini umane coerenti e naturali. Il paper propone un dataset umanocentrico su larga scala chiamato HumanVerse, contenente 340 milioni di immagini umane in-the-wild con annotazioni complete. Basandosi su questo dataset, sono stati progettati due moduli per la generazione iperrealistica e controllabile di immagini umane: il Latent Structural Diffusion Model e lo Structure-Guided Refiner. Il primo migliora la colonna vertebrale di diffusione pre-addestrata per denoizzare simultaneamente RGB, profondità e aspetti normali, garantendo l’allineamento spaziale tra texture e strutture denoizzate.

Grazie a questo progetto meticoloso, la modellazione dell’aspetto dell’immagine, delle relazioni spaziali e della geometria avviene in collaborazione all’interno di una rete unificata. Ciascun ramo si completa a vicenda, incorporando sia la consapevolezza strutturale che la ricchezza testurale. Un programma di rumore migliorato elimina la fuoriuscita di informazioni a bassa frequenza, garantendo valori uniformi di profondità e normali di superficie nelle regioni locali. L’uso dello stesso passo temporale per ogni ramo migliora l’apprendimento e facilita la fusione delle caratteristiche. Con le mappe di struttura allineate spazialmente, lo Structure-Guided Refiner compone le condizioni previste per la generazione di immagini dettagliate ad alta risoluzione. Inoltre, è stato progettato un robusto schema di condizionamento per alleviare l’impatto dell’accumulo di errori nella pipeline di generazione a due fasi.

Un confronto con le tecniche all’avanguardia è riportato qui di seguito.

La prima griglia 4×4 di ogni riga contiene lo scheletro di input, la normal, la profondità e la RGB grezza (512×512) denoizzate congiuntamente, calcolate da HyperHuman.

Questo è stato il riassunto di HyperHuman, un nuovo framework di intelligenza artificiale per generare immagini umane reali e con layout diversi. Se sei interessato e desideri saperne di più, sentiti libero di consultare i link citati di seguito.