Incontra BeLFusion Un approccio di spazio latente comportamentale per la previsione realistica e diversificata del movimento umano stocastico utilizzando la diffusione latente.
Incontra BeLFusion uno spazio latente comportamentale per la previsione realistica e diversificata del movimento umano stocastico.
Mentre l’Intelligenza Artificiale (AI) continua a affascinare il mondo, un’applicazione notevole emerge all’incrocio della computer vision e dell’AI come la Predizione del Movimento Umano (HMP). Questo affascinante compito consiste nel prevedere il futuro movimento o azioni degli individui basandosi su sequenze di movimento osservate. L’obiettivo è prevedere come evolveranno le pose o i movimenti del corpo di una persona. L’HMP trova applicazioni in vari settori, tra cui la robotica, gli avatar virtuali, i veicoli autonomi e l’interazione uomo-computer.
L’HMP stocastico è un’estensione dell’HMP tradizionale che si concentra sulla previsione della distribuzione di possibili futuri movimenti anziché un singolo futuro deterministico. Questo approccio riconosce la spontaneità e l’imprevedibilità del comportamento umano, mirando a catturare l’incertezza associata alle azioni o ai movimenti futuri. L’HMP stocastico tiene conto della variabilità e della diversità nel comportamento umano considerando la distribuzione di possibili futuri movimenti, portando a previsioni più realistiche e flessibili. È particolarmente prezioso quando è cruciale anticipare comportamenti multipli possibili, come nelle applicazioni di robotica assistita o di sorveglianza.
L’HMP stocastico è spesso affrontato utilizzando modelli generativi come GAN o VAE per prevedere più futuri movimenti per ogni sequenza osservata. Tuttavia, questo enfasi sulla generazione di movimenti diversi nello spazio delle coordinate ha portato a previsioni irrealistiche e rapidamente divergenti che potrebbero necessitare di una migliore allineamento con il movimento osservato. Inoltre, questi metodi spesso trascurano l’anticipazione di comportamenti diversi a basso raggio con piccoli spostamenti articolari. Di conseguenza, c’è bisogno di nuovi approcci che tengano conto della diversità comportamentale e producano previsioni più realistiche nei compiti di HMP stocastico. Per affrontare le limitazioni dei metodi esistenti di HMP stocastico, i ricercatori dell’Università di Barcellona e del Computer Vision Center propongono BeLFusion. Questo nuovo approccio introduce uno spazio latente comportamentale per generare sequenze di movimento umano realistiche e diverse.
- Meta presenta AudioCraft uno strumento AI per trasformare il testo in audio e musica.
- 40+ Strumenti AI Cool che Dovresti Controllare (Agosto 2023)
- Ultime novità sui kernel CNN per modelli di immagini di grandi dimensioni
L’obiettivo principale di BeLFusion è separare il comportamento dal movimento, consentendo transizioni più fluide tra pose osservate e previste. Ciò viene ottenuto attraverso un Behavioral VAE composto da un Behavior Encoder, un Behavior Coupler, un Context Encoder e un Auxiliary Decoder. Il Behavior Encoder combina un Gated Recurrent Unit (GRU) e strati convoluzionali 2D per mappare le coordinate articolari in una distribuzione latente. Il Behavior Coupler trasferisce quindi il comportamento campionato al movimento in corso, generando movimenti diversi e contestualmente appropriati. BeLFusion incorpora anche un Modello di Diffusione Latente (LDM) condizionale per codificare accuratamente la dinamica comportamentale e trasferirla in movimenti in corso riducendo al minimo gli errori latenti e di ricostruzione per migliorare la diversità nelle sequenze di movimento generate.
L’architettura innovativa di BeLFusion continua con un Observation Encoder, un autoencoder che genera stati nascosti dalle coordinate articolari. Il modello utilizza il Modello di Diffusione Latente (LDM), che utilizza un U-Net con meccanismi di attenzione incrociata e blocchi residui per campionare da uno spazio latente in cui il comportamento è separato da posa e movimento. Promuovendo la diversità da una prospettiva comportamentale e mantenendo la coerenza con il passato immediato, BeLFusion produce previsioni di movimento significativamente più realistiche e coerenti rispetto ai metodi all’avanguardia nell’HMP stocastico. Attraverso la sua combinazione unica di disintegrazione comportamentale e diffusione latente, BeLFusion rappresenta un avanzamento promettente nella predizione del movimento umano. Offre il potenziale per generare movimenti più naturali e contestualmente appropriati per una vasta gamma di applicazioni.
L’evaluazione sperimentale dimostra le impressionanti capacità di generalizzazione di BeLFusion, che si comporta bene sia in scenari noti che in scenari sconosciuti. Supera i metodi all’avanguardia in vari parametri in una valutazione cross-dataset utilizzando i risultati sfidanti sui dataset Human3.6M e AMASS. Su H36M, BeLFusion mostra un Errore di Spostamento Medio (ADE) di circa 0,372 e un Errore di Spostamento Finale (FDE) di circa 0,474. Allo stesso tempo, su AMASS, raggiunge un ADE di circa 1,977 e un FDE di circa 0,513. I risultati indicano la superiore capacità di BeLFusion di generare previsioni accurate e diverse, dimostrando la sua efficacia e le sue capacità di generalizzazione per la previsione realistica del movimento umano su diversi dataset e classi di azioni.
Nel complesso, BeLFusion è un nuovo metodo per la previsione del movimento umano che raggiunge prestazioni all’avanguardia in termini di precisione per i dataset Human3.6M e AMASS. Utilizza spazi latenti comportamentali e modelli di diffusione latenti per generare previsioni diverse e adattive al contesto. La capacità del metodo di catturare e trasferire comportamenti da una sequenza all’altra lo rende robusto alle variazioni di dominio e migliora le capacità di generalizzazione. Inoltre, la valutazione qualitativa mostra che le previsioni di BeLFusion sono più realistiche rispetto ad altri metodi all’avanguardia. Offre una soluzione promettente per la previsione del movimento umano, con potenziali applicazioni nell’animazione, nella realtà virtuale e nella robotica.