Incontra TRACE Un nuovo approccio di intelligenza artificiale per una precisa stima della posa e della forma umana in 3D con tracciamento delle coordinate globali.

TRACE un nuovo approccio di intelligenza artificiale per la stima precisa della posa e della forma umana in 3D con tracciamento delle coordinate globali.

Molte aree possono beneficiare e utilizzare i recenti progressi nell’analisi della posa e della forma umana in 3D (HPS). Tuttavia, la maggior parte dei metodi considera solo un singolo fotogramma alla volta, stimando le posizioni umane relative alla fotocamera. Inoltre, queste tecniche non seguono gli individui e non possono recuperare i loro percorsi di viaggio in tutto il mondo. Il problema si complica nella maggior parte dei video a mano libera poiché sono girati con una fotocamera tremolante e instabile.

Per risolvere questi problemi, i ricercatori dell’Istituto di Tecnologia di Harbin, dell’Explore Academy di JD.com, dell’Istituto Max Planck per i sistemi intelligenti e di HiDream.ai implementano un nuovo ragionamento end-to-end sulle persone in situazioni utilizzando una rappresentazione a 5D (spazio, tempo e identità). La tecnica proposta TRACE ha varie caratteristiche architettoniche innovative. In particolare, utilizza due nuove “Mappe” per ragionare sul movimento 3D delle persone nel tempo e nello spazio, sia dal punto di vista della fotocamera che dal punto di vista del mondo. Con l’aiuto di un secondo modulo di memoria, è possibile tenere traccia degli individui anche dopo lunghe assenze. TRACE recupera i modelli umani in 3D in coordinate globali da telecamere in movimento in un solo passaggio e contemporaneamente traccia i loro movimenti.

L’obiettivo era quello di ricostruire contemporaneamente le coordinate globali, la posizione 3D, la forma, l’identità e il movimento di ogni persona. Per fare ciò, TRACE estrae prima le informazioni temporali prima di utilizzare una rete neurale dedicata per decodificare ogni sotto-task. Inizialmente, TRACE utilizza due assi paralleli per codificare il video e il movimento in mappe di caratteristiche separate, una per l’immagine temporale (F’i) e una per il movimento (Oi). Utilizzando queste caratteristiche, i sottoalberi di rilevamento e tracciamento eseguono il tracciamento multi-soggetto per ricostruire il movimento umano in 3D nelle coordinate della fotocamera.

La mappa di offset del movimento 3D stimata mostra il movimento relativo di ogni soggetto nello spazio tra due fotogrammi. Un’innovativa unità di memoria estrae le identità dei soggetti e costruisce le traiettorie umane nelle coordinate della fotocamera utilizzando i rilevamenti 3D e gli offset di movimento 3D stimati. Il nuovo ramo “World” quindi calcola una mappa di movimento mondiale per stimare le traiettorie dei soggetti in coordinate globali.

L’assenza di dati del mondo reale per l’addestramento e la valutazione delle stime globali della traiettoria umana persiste anche con una robusta rappresentazione a 5D. Tuttavia, la compilazione della traiettoria umana globale e delle posture della fotocamera per i film dinamici della fotocamera degli ambienti naturali (DC) è difficile. Pertanto, il team ha simulato i movimenti della fotocamera per trasformare i film selvatici acquisiti da telecamere fisse in video DC e generare un nuovo set di dati chiamato DynaCam.

Il team ha testato TRACE utilizzando il set di dati DynaCam e due benchmark di persone multiple in natura. Per quanto riguarda 3DPW, TRACE fornisce risultati che sono SOTA. In MuPoTS-3D, TRACE ottiene risultati migliori nel tracciamento degli esseri umani sotto occlusione a lungo termine rispetto ai precedenti approcci basati sulla rappresentazione 3D e ai metodi di tracciamento per rilevamento. I risultati mostrano che TRACE supera GLAMR su DynaCam per quanto riguarda il calcolo della traiettoria 3D complessiva di un essere umano dai video DC.

Il team suggerisce di investigare l’esplicita stima del movimento della fotocamera utilizzando dati di addestramento come BEDLAM, che include il complicato movimento umano, le scene 3D e i movimenti della fotocamera nel futuro.