SenseTime Research propone Story-to-Motion un nuovo approccio di intelligenza artificiale per generare il movimento umano e la traiettoria da un lungo testo.

L’intelligenza artificiale sta entrando in quasi ogni settore. Creare movimenti umani naturali da una storia ha il potere di trasformare completamente le industrie dell’animazione, dei videogiochi e del cinema. Uno dei compiti più difficili è il Passaggio da Storia a Movimento, che si presenta quando i personaggi devono muoversi attraverso diverse aree e compiere determinate azioni. Basandosi su una descrizione scritta accurata, questo compito richiede un’integrazione fluida tra un controllo semantico del movimento di alto livello e un controllo di basso livello che si occupa delle traiettorie.

Nonostante siano stati fatti molti sforzi nello studio del passaggio da testo a movimento e del controllo dei personaggi, non è ancora stata trovata una soluzione adeguata. Gli approcci esistenti al controllo dei personaggi hanno molte limitazioni in quanto non riescono a gestire le descrizioni testuali. Anche gli attuali approcci di testo a movimento necessitano di ulteriori vincoli posizionali, che portano alla generazione di movimenti instabili.

Per superare tutte queste sfide, un team di ricercatori ha proposto un approccio unico che è altamente efficace nella produzione di traiettorie e nella generazione di movimenti controllati e infinitamente lunghi che sono in linea con il testo in input. L’approccio proposto ha tre componenti principali, che sono:

  1. Schedulazione del Movimento Guidata dal Testo: I moderni modelli di linguaggio di grandi dimensioni prendono una sequenza di testo, posizione e coppie di durata da lunghe descrizioni testuali e le utilizzano come programmatori di movimento guidato dal testo. Questa fase si assicura che i movimenti generati siano basati sulla storia e includano anche dettagli sulla posizione e la durata di ogni azione.
  1. Sistema di Recupero del Movimento Guidato dal Testo: Il matching del movimento e i vincoli sulle traiettorie e le semantiche del movimento sono stati combinati per creare un sistema completo di recupero del movimento. Ciò garantisce che i movimenti generati soddisfino le proprietà semantiche e posizionali previste oltre alla descrizione testuale.
  1. Transformator Progressive Mask: È stato progettato un trasformatore di maschere progressivo per affrontare gli artefatti frequenti nei movimenti di transizione, come lo scivolamento del piede e le posizioni insolite. Questo elemento è fondamentale per migliorare la qualità dei movimenti generati e produrre animazioni con transizioni più fluide e un aspetto più realistico.

Il team ha dichiarato che l’approccio è stato testato su tre diverse sottotest: fusione del movimento, composizione delle azioni temporali e tracciamento delle traiettorie. La valutazione ha evidenziato una migliore performance in ogni area rispetto alle tecniche di sintesi del movimento precedenti. I ricercatori hanno riassunto le loro principali contribuzioni come segue:

  1. Sono state introdotte traiettorie e semantiche per generare un movimento completo da lunghe descrizioni testuali, risolvendo così il problema di Passaggio da Storia a Movimento.
  1. È stato suggerito un nuovo metodo chiamato Text-based Motion Matching, che utilizza un’ampia input di testo per fornire una sintesi del movimento accurata e personalizzabile.
  1. L’approccio supera le tecniche all’avanguardia nei sottotest di tracciamento delle traiettorie, composizione delle azioni temporali e fusione del movimento, come dimostrato da esperimenti condotti su dataset di riferimento.

In conclusione, il sistema rappresenta sicuramente un importante passo avanti nella sintesi dei movimenti umani a partire da narrazioni testuali. Fornisce una risposta completa ai problemi associati ai lavori di Passaggio da Storia a Movimento e sicuramente avrà un impatto rivoluzionario sulle industrie dell’animazione, dei videogiochi e del cinema.