I ricercatori di KAIST presentano FaceCLIPNeRF un flusso di lavoro di manipolazione guidato dal testo di un volto 3D utilizzando Deformable NeRF.

I ricercatori di KAIST presentano FaceCLIPNeRF, un flusso di lavoro di manipolazione guidato dal testo per volti 3D utilizzando Deformable NeRF.

Un componente cruciale delle migliorie dei contenuti digitali umani in 3D è la capacità di manipolare facilmente la rappresentazione del viso in 3D. Sebbene Neural Radiance Field (NeRF) abbia compiuto progressi significativi nella ricostruzione di scene in 3D, molte delle sue tecniche manipolative si concentrano su geometrie rigide o manipolazioni del colore, che devono essere migliorate per lavori che richiedono un controllo dettagliato sulle espressioni facciali. Sebbene uno studio recente abbia presentato un approccio di modifica del viso controllato regionalmente, questo richiede una procedura laboriosa di raccolta di maschere annotate dall’utente di diverse parti del viso da frame di allenamento selezionati, seguita dal controllo degli attributi umani per ottenere l’alterazione desiderata.

Le tecniche di rappresentazione implicita specifiche per il viso codificano le espressioni facciali osservate con alta fedeltà utilizzando i parametri dei modelli di viso morfabile come priorità. Tuttavia, le manipolazioni manuali richiedono grandi set di allenamento che coprono una gamma di espressioni facciali e comprendono circa 6000 frame. Ciò rende sia la raccolta dei dati che i processi di manipolazione ardui. Al contrario, i ricercatori del KAIST e di Scatter Lab hanno sviluppato un metodo che si allena su un video ritratto dinamico con circa 300 frame di allenamento che comprendono alcuni tipi diversi di deformazioni del viso per consentire la modifica guidata dal testo, come mostrato nella Figura 1.

Figura 1

Il loro approccio apprende e isola le deformazioni osservate da uno spazio canonico utilizzando HyperNeRF prima di controllare una deformazione del viso. In particolare, viene insegnata una rete implicita a codice latente comune condizionale della scena e codici latenti per deformazioni per frame su tutti i frame di allenamento. La loro scoperta fondamentale consiste nell’utilizzare numerosi codici latenti variabili spazialmente per esprimere deformazioni della scena per compiti di manipolazione. L’epifania nasce dai difetti dell’applicazione ingenua delle formulazioni di HyperNeRF ai problemi di manipolazione, ossia cercare un singolo codice latente che codifichi una distorsione facciale desiderata.

Ad esempio, un singolo codice latente non può trasmettere un’espressione facciale che richiede una miscela di deformazioni locali osservate in molti casi. Nello studio, identificano questo problema come un “problema di attributo locale collegato” e lo affrontano fornendo una scena modificata con codici latenti variabili spazialmente. Per fare ciò, compilano prima tutte le deformazioni osservate in una raccolta di codici di ancoraggio, che poi insegnano a un MLP a combinare per produrre numerosi codici latenti condizionati alla posizione. Successivamente, migliorando le immagini prodotte dai codici latenti per avvicinarsi a un testo target nello spazio di embedding CLIP, si realizza la riflessività dei codici latenti sulle caratteristiche visive di un testo target. In conclusione, il loro lavoro contribuisce quanto segue:

• Design di una rete di manipolazione che impara a rappresentare una scena con codici latenti variabili spazialmente

• Proposta di un flusso di lavoro di manipolazione guidato dal testo di un volto ricostruito con NeRF

• Per quanto ne sappiano, i primi a manipolare testo su un volto ricostruito con NeRF.