I modelli di corpo 3D ora hanno il suono Meta AI introduce un modello di intelligenza artificiale in grado di generare audio spaziale 3D preciso per interi corpi umani.

I modelli di corpo 3D ora hanno suono Meta AI introduce un modello di intelligenza artificiale in grado di generare un audio spaziale 3D preciso per l'intero corpo umano.

Lo sviluppo costante di sistemi intelligenti che replicano e comprendono il comportamento umano ha portato a significativi progressi nei campi complementari della Visione Artificiale e dell’Intelligenza Artificiale (AI). I modelli di apprendimento automatico stanno guadagnando enorme popolarità colmando il divario tra realtà e virtualità. Sebbene la modellazione tridimensionale del corpo umano abbia ricevuto molta attenzione nel campo della computer vision, il compito di modellare il lato acustico e produrre audio spaziale 3D a partire dal linguaggio e dal movimento del corpo è ancora oggetto di discussione. L’attenzione è sempre stata rivolta alla fedeltà visiva delle rappresentazioni artificiali del corpo umano.

La percezione umana è di natura multimodale in quanto incorpora indizi uditivi e visivi nella comprensione dell’ambiente. È essenziale simulare un suono 3D che corrisponda con l’immagine visiva in modo accurato al fine di creare un senso di presenza e immersione in un mondo 3D. Per affrontare queste sfide, un team di ricercatori del Laboratorio di Intelligenza Artificiale di Shanghai e del Meta Reality Labs Research ha introdotto un modello che produce rappresentazioni accurate di audio spaziale 3D per interi corpi umani.

Il team ha condiviso che la tecnica proposta utilizza microfoni montati sulla testa e dati sulla postura del corpo umano per sintetizzare in modo preciso il suono spaziale 3D. Lo studio di caso si concentra su uno scenario di telepresenza che combina realtà aumentata e realtà virtuale (AR/VR) in cui gli utenti comunicano utilizzando avatar a tutto corpo. I dati audio egocentrici provenienti dai microfoni montati sulla testa e i dati sulla postura del corpo che vengono utilizzati per animare l’avatar sono stati utilizzati come esempi di input.

I metodi attuali per la spazializzazione del suono presumono che la fonte del suono sia conosciuta e che venga catturata senza disturbi. L’approccio suggerito supera questi problemi utilizzando dati sulla postura del corpo per addestrare una rete multimodale che distingue tra le fonti di vari rumori e produce segnali spazializzati in modo preciso. L’area sonora circostante il corpo è l’output, mentre l’audio proveniente da sette microfoni montati sulla testa e la postura del soggetto costituiscono l’input.

Il team ha condotto una valutazione empirica, dimostrando che il modello può produrre in modo affidabile campi sonori derivanti dai movimenti del corpo quando addestrato con una funzione di perdita adeguata. Il codice e l’insieme di dati del modello sono disponibili per l’uso pubblico su Internet, promuovendo apertura, ripetibilità e ulteriori sviluppi in questo campo. Il repository GitHub può essere visitato su https://github.com/facebookresearch/SoundingBodies.

Le principali contribuzioni del lavoro sono state riassunte dal team come segue.

  1. È stata introdotta una tecnica unica che utilizza microfoni montati sulla testa e posture del corpo per rendere campi sonori 3D realistici per i corpi umani.
  1. È stata condivisa un’ampia valutazione empirica che mette in evidenza l’importanza della postura del corpo e di una funzione di perdita ben concepita.
  1. Il team ha condiviso un nuovo insieme di dati da loro prodotto che combina dati sul corpo umano a vista multipla con registrazioni audio spaziali provenienti da un array di 345 microfoni.