Incontra OmniControl Un approccio di intelligenza artificiale per incorporare segnali di controllo spaziale flessibili in un modello di generazione del movimento umano condizionato dal testo basato sul processo di diffusione.

OmniControl L'intelligenza artificiale che ti permette di incorporare segnali di controllo spaziale flessibili in un modello di generazione del movimento umano condizionato dal testo basato sul processo di diffusione.

I ricercatori affrontano il problema di combinare segnali di controllo spaziale su ogni giunto in ogni momento in produzione di movimento umano condizionato al testo. Le moderne tecniche basate sulla diffusione possono produrre movimenti umani variegati e realistici, ma trovano difficile incorporare segnali di controllo spaziale variabili, che sono essenziali per molte applicazioni. Ad esempio, un modello deve regolare la posizione della mano per entrare in contatto con la tazza in un luogo e momento specifici e comprendere la semantica “prendere” per sintetizzare l’azione di prendere una tazza. Allo stesso modo, quando si attraversa una stanza con soffitti bassi, un modello deve regolare attentamente l’altezza della testa per un determinato periodo di tempo per evitare incidenti. 

Dato che sono difficili da spiegare nell’indicazione testuale, questi segnali di controllo vengono spesso forniti come posizioni globali di giunti di interesse in quadri chiave. Tuttavia, gli approcci precedenti basati sull’inpainting non possono incorporare segnali di controllo flessibili a causa delle loro rappresentazioni di postura umana relative scelte. I limiti sono in gran parte causati le posizioni reciproche dei giunti e del bacino l’uno rispetto all’altro e al quadro precedente. La posizione pelvica globale fornita nel segnale di controllo deve quindi essere tradotta in una posizione relativa rispetto al quadro precedente per essere inserita nel fotogramma chiave. Come per l’inserimento di altre posizioni delle articolazioni, anche la posizione globale del bacino deve essere convertita. 

Tuttavia, le posizioni relative del bacino tra i processi di generazione di diffusione devono essere più presenti o corrette in entrambi i casi. Per integrare qualsiasi segnale di controllo spaziale su giunti diversi dal bacino, è necessario prima bisogno di aiuto per gestire limitazioni sparse sul bacino. Altri presentano un modello a due fasi, ma ha ancora difficoltà a regolare altri giunti a causa dei segnali di controllo limitati sul bacino. In questo studio, i ricercatori della Northeastern University e Google Research suggeriscono OmniControl, un nuovissimo modello di generazione umana basato sulla diffusione che può includere segnali di controllo spaziale flessibili su qualsiasi giunto in qualsiasi momento. Utilizzando OmniControl, viene aggiunta una guida realistica per regolare la creazione dei movimenti umani. 

Figura 1: Dotato di un prompt scritto e di segnali di controllo spaziale adattabili, OmniControl può produrre gesti umani convincenti. I fotogrammi successivi nella serie sono indicati da colori più scuri. I segnali di controllo di input sono mostrati dalla linea o dai punti verdi.

Per far funzionare bene il modello, utilizzano le stesse rappresentazioni relative alla postura umana per l’input e l’output. Tuttavia, suggeriscono, in contrasto con gli approcci attuali, di convertire il movimento prodotto in coordinate globali per il confronto diretto con i segnali di controllo di input nel modulo di orientamento spaziale, dove i gradienti dell’errore vengono utilizzati per migliorare il movimento. Risolve i difetti dei metodi precedenti basati sull’inpainting eliminando l’incertezza riguardo alle posizioni relative del bacino. Inoltre, rispetto agli approcci precedenti, consente un raffinamento iterativo dinamico del movimento prodotto, migliorando la precisione del controllo. 

Anche se impongono con successo limiti di spazio, solo l’orientamento spaziale spesso provoca problemi di deriva e movimenti umani anomali. Presentano la guida realistica, che restituisce i residui rispetto alle caratteristiche di ogni livello di attenzione del modello di diffusione del movimento, per risolvere questi problemi prendendo ispirazione dalla produzione di immagini controllate. Questi residui possono modificare esplicitamente e densamente il movimento dell’intero corpo. Per produrre movimenti realistici, coerenti e consistenti con restrizioni spaziali, sia l’orientamento spaziale che il realismo sono cruciali, e sono complementari nel bilanciare la precisione del controllo e il realismo del movimento. 

Studi utilizzando HumanML3D e KIT-ML dimostrano che OmniControl funziona significativamente meglio delle tecniche più avanzate di generazione di movimenti basati su testo per il controllo pelvico sia in termini di realismo del movimento che di precisione del controllo. Tuttavia, dove eccelle OmniControl è nell’incorporare le limitazioni spaziali su qualsiasi giunto in qualsiasi momento. Inoltre, come illustrato nella Fig. 1, è possibile addestrare un singolo modello per controllare numerosi giunti collettivamente invece che separatamente (ad esempio, sia i polsi sinistro che destro). 

Queste caratteristiche di OmniControl rendono possibili diverse applicazioni successive, come legare un movimento umano prodotto allo scenario e agli oggetti circostanti, come si vede nell’ultima colonna della Fig. 1. I loro brevi contributi sono: (1) Per quanto ne sappiamo, OmniControl è la prima strategia in grado di combinare segnali di controllo spaziale su qualsiasi giunto in qualsiasi momento. (2) Per bilanciare con successo la precisione del controllo e il realismo dei movimenti prodotti, suggeriamo un modulo di controllo unico che utilizza l’orientamento spaziale e il realismo. (3) I test dimostrano che OmniControl può controllare giunti aggiuntivi utilizzando un singolo modello nella creazione di movimenti basata su testo, impostando un nuovo standard per il controllo del bacino e aprendo diverse applicazioni nella produzione di movimenti umani.