Ricercatori del NTU e SenseTime propongono SHERF un modello umano NeRF generalizzabile per il recupero di modelli umani 3D animabili da un’unica immagine di input.

Researchers from NTU and SenseTime propose SHERF, a generalized human NeRF model for retrieving animatable 3D human models from a single input image.

I campi dell’Intelligenza Artificiale e dell’Apprendimento Profondo stanno progredendo costantemente a un ritmo veloce. Dai modelli di linguaggio basati sul Processamento del Linguaggio Naturale ai modelli di testo a immagine che utilizzano i concetti della visione artificiale, l’IA ha fatto molti progressi. Con i campi neurali di radianza umana (NeRF), la ricostruzione di modelli umani 3D di alta qualità da foto 2D è diventata possibile senza la necessità di dati di geometria 3D precisi. Questo sviluppo ha importanti implicazioni per diverse applicazioni, tra cui la realtà aumentata (AR) e la realtà virtuale (VR). I campi NeRF umani accelerano il processo di creazione di figure umane 3D da osservazioni 2D, riducendo il tempo e le risorse che altrimenti sarebbero necessari per acquisire dati 3D di verità fondamentale.

La maggior parte delle tecniche attuali per la ricostruzione di modelli umani 3D utilizzando NeRF utilizza film monoculare o diverse foto 2D acquisite da diverse prospettive utilizzando telecamere multi-view. Poiché questo metodo presenta svantaggi quando viene utilizzato in situazioni reali in cui le foto delle persone vengono scattate da angolazioni casuali, ciò impone considerevoli ostacoli alla produzione di ricostruzioni umane 3D accurate. Per affrontare tali problemi, un team di ricercatori ha introdotto SHERF, il primo modello generalizzabile di campo NeRF umano che può recuperare modelli umani 3D animati da una singola immagine di input.

SHERF opera in uno spazio canonico e può renderizzare e animare i modelli ricostruiti da qualsiasi vista e posa libera producendo rappresentazioni umane 3D in un frame di riferimento standardizzato. Ciò contrasta con le tecniche convenzionali che si basano principalmente su angoli di telecamera fissi. Le rappresentazioni umane 3D codificate includono sia texture locali dettagliate che informazioni sull’aspetto globale per la sintesi riuscita e di alta qualità di punti di vista e posizioni. Questo viene realizzato utilizzando il concetto di una banca di caratteristiche gerarchiche consapevoli del 3D, che ha una varietà di caratteristiche destinate a facilitare una codifica approfondita.

Il team ha menzionato i tre livelli delle caratteristiche gerarchiche, che sono globali, a livello di punto e allineate ai pixel. Ognuna di queste caratteristiche ha una funzione distinta e le informazioni acquisite dall’immagine di input singola sono destinate a essere migliorate dalle caratteristiche globali, che cercano di colmare eventuali lacune lasciate dall’osservazione 2D incompleta. Mentre le caratteristiche allineate ai pixel sono responsabili della conservazione dei dettagli più piccoli che contribuiscono alla correttezza generale e al realismo del modello, le caratteristiche a livello di punto forniscono segnali significativi dell’anatomia umana 3D sottostante.

Il team ha sviluppato un dispositivo chiamato feature fusion transformer per combinare efficientemente queste caratteristiche gerarchiche consapevoli del 3D e questo transformer è stato realizzato per combinare e utilizzare molti tipi di caratteristiche gerarchiche, garantendo che le rappresentazioni codificate siano il più complete e informative possibili. Test completi su più set di dati, tra cui THuman, RenderPeople, ZJU_MoCap e HuMMan, sono stati utilizzati per dimostrare l’efficacia di SHERF. I risultati hanno mostrato che SHERF si comporta al di sopra dei livelli attuali dello stato dell’arte, mostrando una maggiore generalizzabilità per la combinazione di viste e posizioni uniche.

Le principali contribuzioni sono state riassunte dal team come segue – 

  1. È stata introdotta SHERF, che è il primo modello generalizzabile di campo NeRF umano che recupera modelli umani 3D animati da una sola immagine.
  1. Estende l’applicabilità di NeRF umano a scenari reali adattandosi a un contesto più ampio.
  1. SHERF utilizza caratteristiche gerarchiche consapevoli del 3D, catturando attributi dettagliati e globali. Ciò consente di recuperare texture dettagliate e colmare le lacune nelle informazioni dalle osservazioni incomplete.
  1. SHERF eccelle superando i metodi precedenti del campo NeRF umano generalizzabile e ha ottenuto risultati superiori sia nella sintesi di viste che di posa su ampi set di dati.

In conclusione, questa incredibile ricerca ha sicuramente rappresentato un enorme passo avanti nel campo della ricostruzione umana 3D, specialmente in situazioni reali in cui ottenere foto da angolazioni casuali presenta difficoltà specifiche.