Incontra Decaf un nuovo framework di acquisizione deformazione monoculare di intelligenza artificiale per interazioni faccia e mano

Incontra Decaf il nuovo framework di intelligenza artificiale per interazioni viso e mano mediante acquisizione deformazione monoculare

Il tracciamento tridimensionale (3D) da video RGB monoculare è un campo all’avanguardia nella visione artificiale e nell’intelligenza artificiale. Si concentra sulla stima delle posizioni e dei movimenti tridimensionali di oggetti o scene utilizzando solo un unico flusso video bidimensionale.

I metodi esistenti per il tracciamento 3D da video RGB monoculare si concentrano principalmente su oggetti articolati e rigidi, come due mani o esseri umani che interagiscono con ambienti rigidi. La sfida della modellazione delle deformazioni oggettive dense e non rigide, come l’interazione tra mano e viso, è stata largamente trascurata. Tuttavia, queste deformazioni possono migliorare significativamente il realismo delle applicazioni come AR/VR, comunicazione di avatar virtuali 3D e animazioni di personaggi. La scarsa attenzione a questa problematica è attribuita alla complessità intrinseca della configurazione della vista monoculare e alle difficoltà associate, come l’acquisizione di set di dati di training ed evaluation appropriati e la determinazione di una rigidità non uniforme ragionevole per gli oggetti deformabili.

Pertanto, in questo articolo viene presentato un nuovo metodo che affronta le sfide fondamentali precedentemente menzionate. Consente il tracciamento di mani umane che interagiscono con volti umani in 3D dai video RGB monoculare singoli. Il metodo modella le mani come oggetti articolati che inducono deformazioni non rigide durante le interazioni attive. Una panoramica di questa tecnica è riportata nella figura qui sotto.

Questo approccio si basa su un nuovo set di dati creato che cattura il movimento e l’interazione tra mano e viso, includendo deformazioni realistiche del viso. Nella creazione di questo set di dati, gli autori utilizzano la dinamica basata sulla posizione per elaborare le forme 3D grezze e sviluppare una tecnica per stimare la rigidità non uniforme dei tessuti della testa. Questi passaggi portano a annotazioni credibili delle deformazioni superficiali, delle regioni di contatto tra mano e viso e delle posizioni di mano/viso.

Al centro del loro approccio neurale si trova un auto-encoder variazionale che fornisce informazioni sulla profondità per l’interazione tra mano e viso. Inoltre, sono impiegati moduli per guidare il processo di tracciamento 3D stimando i contatti e le deformazioni. Le ricostruzioni 3D finali di mani e volti prodotte da questo metodo sono realistiche e più plausibili rispetto a diversi metodi di confronto applicabili in questo contesto, come supportato da valutazioni quantitative e qualitative.

La ricostruzione contemporanea di mani e volto, considerando le deformazioni superficiali risultanti dalle interazioni, rappresenta un compito particolarmente impegnativo. Ciò diventa particolarmente importante per migliorare il realismo nelle ricostruzioni, poiché tali interazioni sono frequentemente osservate nella vita quotidiana e influenzano significativamente le impressioni che gli altri formano di un individuo. Di conseguenza, la ricostruzione delle interazioni tra mano e viso è vitale in applicazioni come la comunicazione degli avatar, la realtà virtuale/aumentata e l’animazione di personaggi, dove i movimenti realistici del viso sono essenziali per creare esperienze coinvolgenti. Ha anche implicazioni per applicazioni come la trascrizione della lingua dei segni e il monitoraggio della sonnolenza dei conducenti.

Nonostante vari studi siano focalizzati sulla ricostruzione dei movimenti del volto e delle mani, catturare le interazioni tra di essi, insieme alle deformazioni corrispondenti, da un video RGB monoculare è rimasto in gran parte inesplorato, come sottolineato da Tretschk et al. nel 2023. D’altra parte, cercare di utilizzare metodi esistenti basati su modelli per la ricostruzione delle mani e del volto spesso porta a artefatti come collisioni e l’omissione di interazioni e deformazioni. Ciò è principalmente dovuto all’ambiguità di profondità intrinseca delle configurazioni monoculare e all’assenza di modellazione delle deformazioni nel processo di ricostruzione.

Sono associate diverse sfide significative a questo problema. Una sfida (I) è l’assenza di un set di dati di cattura RGB senza marcatori per le interazioni tra volto e mani con deformazioni non rigide, che è essenziale per addestrare modelli e valutare i metodi. Creare un tale set di dati è molto impegnativo a causa delle frequenti occlusioni causate dai movimenti delle mani e della testa, in particolare nelle regioni in cui si verificano deformazioni non rigide. Un’altra sfida (II) deriva dall’ambiguità di profondità intrinseca delle configurazioni RGB a singola vista, rendendo difficile ottenere informazioni accurate sulla localizzazione e causando errori come collisioni o mancanza di contatto tra la mano e la testa durante le interazioni.

Per affrontare queste sfide, gli autori presentano “Decaf” (acronimo di raccolta di deformazioni di volti che interagiscono con mani), un metodo RGB monoculare progettato per catturare le interazioni tra volto e mano insieme alle deformazioni del volto. In particolare, propongono una soluzione che combina una configurazione di cattura multi-vista con un simulatore dinamico basato sulla posizione per ricostruire la geometria della superficie in interazione, anche in presenza di occlusioni. Per incorporare il simulatore di oggetti deformabili, determinano i valori di rigidità di una mesh della testa utilizzando un metodo chiamato “distanza cranio-pelle” (SSD), che assegna una rigidità non uniforme alla mesh. Questo approccio migliora significativamente la plausibilità qualitativa della geometria ricostruita rispetto all’utilizzo di valori di rigidità uniformi.

Utilizzando il loro insieme di dati appena creato, i ricercatori addestrano le reti neurali per estrarre deformazioni superficiali 3D, regioni di contatto sulle superfici della testa e della mano, e una priorità di profondità di interazione da immagini RGB a singola vista. Nella fase finale di ottimizzazione, queste informazioni provenienti da varie fonti vengono utilizzate per ottenere interazioni realistiche tra mano e viso in 3D con deformazioni superficiali non rigide, risolvendo l’ambiguità di profondità insita nella configurazione a singola vista. I risultati illustrati di seguito dimostrano interazioni mano-viso molto più plausibili rispetto ai metodi esistenti.

Questo è stato il riassunto di Decaf, un nuovo framework di intelligenza artificiale progettato per catturare le interazioni tra viso e mano insieme alle deformazioni facciali. Se sei interessato e desideri saperne di più, ti preghiamo di consultare i link citati di seguito.