Ricercatori di intelligenza artificiale di Apple e dell’Università della Columbia Britannica propongono FaceLit un nuovo quadro di intelligenza artificiale per volti neurali 3D che possono essere illuminati nuovamente.

Ricercatori di intelligenza artificiale di Apple e dell'Università della Columbia Britannica propongono FaceLit, un nuovo quadro di intelligenza artificiale per volti neurali 3D illuminabili.

Recentemente, c’è stata una crescente fascinazione per il compito di acquisire un modello generativo 3D da immagini 2D. Con l’avvento di Neural Radiance Fields (NeRF), la qualità delle immagini prodotte da un modello 3D ha fatto registrare un significativo avanzamento, avvicinandosi al fotorealismo raggiunto dai modelli 2D. Mentre approcci specifici si concentrano esclusivamente sulle rappresentazioni 3D per garantire la coerenza nella terza dimensione, ciò spesso avviene a scapito di un fotorealismo ridotto. Studi più recenti, tuttavia, hanno dimostrato che un approccio ibrido può superare questa limitazione, portando a un fotorealismo intensificato. Tuttavia, un notevole svantaggio di questi modelli risiede nell’intreccio degli elementi della scena, tra cui geometria, aspetto e illuminazione, che ostacola il controllo definito dall’utente.

Sono state proposte varie approcci per svelare questa complessità. Tuttavia, richiedono collezioni di immagini multiview della scena oggetto per una implementazione efficace. Purtroppo, questa richiesta pone difficoltà quando si lavora con immagini scattate in condizioni reali. Mentre alcuni sforzi hanno ridotto questa condizione per includere immagini di diverse scene, la necessità di più visualizzazioni dello stesso oggetto persiste. Inoltre, questi metodi sono privi di capacità generative e richiedono addestramenti individuali per ogni oggetto distintivo, rendendoli incapaci di creare oggetti nuovi. Quando si considerano le metodologie generative, la natura intrecciata della geometria e dell’illuminazione rimane una sfida.

Il framework proposto, noto come FaceLit, introduce un metodo per acquisire una rappresentazione 3D disentangled di un volto esclusivamente da immagini.

Una panoramica dell’architettura è presentata nella figura seguente.

Alla base, l’approccio ruota attorno alla costruzione di una pipeline di rendering che garantisce il rispetto dei modelli di illuminazione fisica consolidati, simili a lavori precedenti, adattati per ospitare i principi del modellamento generativo 3D. Inoltre, il framework sfrutta strumenti di illuminazione e stima della posa prontamente disponibili.

Il modello di illuminazione basato sulla fisica è integrato nella pipeline di Neural Volume Rendering recentemente sviluppata, EG3D, che utilizza componenti a tre piani per generare caratteristiche profonde da immagini 2D per il rendering di volumi. Per questa integrazione vengono utilizzate le Spherical Harmonics. L’addestramento successivo si concentra sul realismo, sfruttando l’adesione intrinseca del framework alla fisica per generare immagini realistiche. Questa conformità ai principi fisici facilita naturalmente l’acquisizione di un modello generativo 3D disentangled.

In modo cruciale, l’elemento fondamentale che consente la metodologia è l’integrazione dei principi di rendering basati sulla fisica nel rendering di volumi neurali. Come indicato in precedenza, la strategia è progettata per una integrazione senza soluzione di continuità con gli estimatori di illuminazione prontamente disponibili esistenti, sfruttando le Spherical Harmonics. All’interno di questo framework, gli aspetti diffusi e speculari della scena sono caratterizzati dai coefficienti delle Spherical Harmonic attribuiti alle normali della superficie e ai vettori di riflessione. Questi coefficienti comprendono la riflessione diffusa, la riflessione speculare del materiale e i vettori normali, che vengono generati attraverso una rete neurale. Tuttavia, questa configurazione apparentemente semplice separa efficacemente l’illuminazione dal processo di rendering.

L’approccio proposto è implementato e testato su tre dataset: FFHQ, CelebA-HQ e MetFaces. Secondo gli autori, questo produce punteggi FID all’avanguardia, posizionando il metodo al vertice dei modelli generativi consapevoli del 3D. Di seguito sono riportati alcuni dei risultati prodotti dal metodo discusso.

Questo è stato il riassunto di FaceLit, un nuovo framework di intelligenza artificiale per acquisire una rappresentazione 3D disentangled di un volto esclusivamente da immagini. Se sei interessato e vuoi saperne di più, non esitare a consultare i link citati di seguito.