I ricercatori del CMU e del Max Planck Institute svelano WHAM un approccio rivoluzionario dell’IA per una precisa ed efficiente stima del movimento umano in 3D dai video

I ricercatori del CMU e del Max Planck Institute svelano WHAM un approccio rivoluzionario dell'IA per una stima precisa ed efficiente del movimento umano in 3D dai video

La ricostruzione del movimento umano in 3D è un processo complesso che prevede la cattura accurata e la modellazione dei movimenti di un soggetto umano in tre dimensioni. Questo lavoro diventa ancora più sfidante quando si tratta di video catturati da una telecamera in movimento in ambienti reali, in quanto spesso presentano problemi come lo slittamento dei piedi. Tuttavia, un team di ricercatori dell’Università Carnegie Mellon e dell’Istituto Max Planck per i sistemi intelligenti ha ideato un metodo chiamato WHAM (World-grounded Humans with Accurate Motion) che affronta queste sfide e raggiunge una ricostruzione precisa del movimento umano in 3D.

Lo studio esamina due metodi per recuperare la posa umana tridimensionale e la forma dalle immagini: senza modello e basato sul modello. Sottolinea l’uso delle tecniche di apprendimento approfondito nei metodi basati sul modello per stimare i parametri di un modello statistico del corpo. I metodi precedentemente esistenti per la posa umana 3D basata su video incorporano informazioni temporali attraverso varie architetture di reti neurali. Alcuni modi utilizzano sensori aggiuntivi, come sensori inerziali, ma possono essere invasivi. WHAM si distingue per la combinazione efficace di movimento umano 3D e contesto video, sfruttando la conoscenza pregressa e ricostruendo accuratamente l’attività umana 3D in coordinate globali.

La ricerca affronta le sfide nel calcolare con precisione la posa umana tridimensionale e la forma da video monoculare, enfatizzando la coerenza delle coordinate globali, l’efficienza computazionale e il contatto realistico del piede con il suolo. Sfruttando i dati di acquisizione del movimento AMASS e i dataset video, WHAM combina reti di codificatore-decodificatore di movimento per sollevare i punti chiave 2D a pose 3D, un integratore di caratteristiche per le indicazioni temporali e una rete di raffinamento del traiettoria per l’estimazione del movimento globale considerando il contatto con il suolo, migliorando la precisione su superfici non planari.

WHAM utilizza una RNN unidirezionale per l’inferenza online e la ricostruzione precisa del movimento 3D, con un codificatore di movimento per l’estrazione del contesto e un decodificatore di movimento per i parametri SMPL, la traduzione della telecamera e la probabilità di contatto con il suolo. Utilizzando una tecnica di normalizzazione del riquadro delimitatore, si aiuta nell’estrazione del contesto di movimento. L’encoder dell’immagine, preaddestrato sulla ricostruzione di una maglia umana, cattura e integra le caratteristiche dell’immagine con le caratteristiche del movimento attraverso una rete integratrice di caratteristiche. Un decodificatore di traiettorie predice l’orientamento globale e un processo di raffinamento minimizza lo slittamento del piede. Addestrato su dati sintetici AMASS, WHAM supera i metodi esistenti nelle valutazioni.

https://arxiv.org/abs/2312.07531

WHAM supera i metodi attuali all’avanguardia, mostrando una precisione superiore nella stima della posa umana e della forma tridimensionale in ogni singola fotogramma e nei video. WHAM raggiunge una precisa stima della traiettoria globale sfruttando il contesto del movimento e le informazioni sul contatto con il suolo, riducendo lo scivolamento del piede e migliorando il coordinamento internazionale. Il metodo integra le caratteristiche dai punti chiave 2D e dai pixel, migliorando la precisione della ricostruzione del movimento umano tridimensionale. Le valutazioni su dataset variegati dimostrano le eccezionali prestazioni di WHAM in metriche come MPJPE, PA-MPJPE e PVE. La tecnica di raffinamento della traiettoria migliora ulteriormente l’estimazione della traiettoria globale e riduce lo slittamento del piede, come evidenziato da un miglioramento delle metriche di errore.

In conclusione, i punti chiave dello studio possono essere riassunti in pochi punti:

  • WHAM ha introdotto un metodo innovativo che combina il movimento umano 3D e il contesto video.
  • La tecnica migliora la regressione della posa umana tridimensionale e della forma.
  • Il processo utilizza un framework di stima della traiettoria globale che incorpora il contesto di movimento e il contatto con il suolo.
  • Il metodo affronta le sfide dello slittamento del piede e garantisce un tracciamento 3D accurato su superfici non planari.
  • L’approccio di WHAM si comporta bene su dataset di benchmark diversi, tra cui 3DPW, RICH ed EMDB.
  • Il metodo eccelle nella stima efficiente della posa umana e della forma in coordinate globali.
  • La integrazione delle caratteristiche del metodo e il raffinamento della traiettoria migliorano significativamente la ricostruzione del movimento e l’accuratezza della traiettoria globale.
  • L’accuratezza del metodo è stata validata attraverso approfonditi studi di ablazione.