Questo articolo AI propone ‘MotionDirector’ un approccio all’intelligenza artificiale per personalizzare il movimento e l’aspetto dei video.

Personalizza i tuoi video con 'MotionDirector' un approccio all'intelligenza artificiale per dare movimento e stile unico'.

I modelli di diffusione testo-video hanno compiuto progressi significativi di recente. Solo fornendo descrizioni testuali, gli utenti possono creare video realistici o immaginativi. Questi modelli fondamentali sono stati anche adattati per generare immagini che si accostano a determinati aspetti, stili e soggetti. Tuttavia, l’ambito della personalizzazione del movimento nella generazione testo-video deve ancora essere esplorato. Gli utenti potrebbero voler creare video con movimenti specifici, come ad esempio una macchina che si muove in avanti e poi gira a sinistra. Pertanto, diventa importante adattare i modelli di diffusione per creare contenuti più specifici che soddisfino le preferenze degli utenti.

Gli autori di questo documento hanno proposto MotionDirector, che aiuta i modelli fondamentali a ottenere la personalizzazione del movimento mantenendo al contempo la diversità di aspetto. La tecnica utilizza un’architettura a doppio percorso per addestrare i modelli a imparare l’aspetto e il movimento nei video di riferimento singoli o multipli separati, rendendo facile generalizzare il movimento personalizzato ad altri contesti.

L’architettura duale comprende sia un percorso spaziale che temporale. Il percorso spaziale ha un modello fondamentale con adattamenti spatial LoRAs (low-rank adaptions) addestrabili integrati nei suoi livelli di trasformazione per ciascun video. Questi spatial LoRAs vengono addestrati utilizzando un singolo frame selezionato casualmente in ciascun passaggio di addestramento per catturare gli attributi visivi dei video in ingresso. Al contrario, il percorso temporale duplica il modello fondamentale, condividendo gli spatial LoRAs con il percorso spaziale per adattarsi all’aspetto del video di ingresso specifico. Inoltre, i trasformatori temporali in questo percorso sono potenziati con temporal LoRAs, che vengono addestrati utilizzando più frame dai video in ingresso per comprendere i pattern di movimento intrinseci.

Utilizzando solo i trained temporal LoRAs, il modello fondamentale può sintetizzare video con movimenti appresi e aspetti diversi. L’architettura duale consente ai modelli di imparare l’aspetto e il movimento degli oggetti nei video separatamente. Questa separazione consente a MotionDirector di isolare l’aspetto e il movimento dei video e combinare le informazioni da vari video di origine.

I ricercatori hanno confrontato le prestazioni di MotionDirector su un paio di benchmark, con più di 80 movimenti diversi e 600 prompt di testo. Sulla benchmark UCF Sports Action (con 95 video e 72 prompt di testo), MotionDirector è stato preferito dagli operatori umani circa il 75% delle volte per una migliore fedeltà al movimento. Il metodo ha anche superato il 25% delle preferenze dei modelli di base. Sul secondo benchmark, cioè il benchmark LOVEU-TGVE-2023 (con 76 video e 532 prompt di testo), MotionDirector ha ottenuto risultati migliori rispetto ad altri metodi di generazione controllabile e basati su sintonizzazione. I risultati dimostrano che numerosi modelli di base possono essere personalizzati utilizzando MotionDirector per produrre video caratterizzati da diversità e dai concetti di movimento desiderati.

MotionDirector è un nuovo metodo promettente per adattare i modelli di diffusione testo-video per generare video con movimenti specifici. Eccelle nell’apprendimento e nell’adattamento di movimenti specifici di soggetti e telecamere, ed è in grado di generare video con una vasta gamma di stili visivi.

Un ambito in cui MotionDirector può essere migliorato è l’apprendimento del movimento di soggetti multipli nei video di riferimento. Tuttavia, anche con questa limitazione, MotionDirector ha il potenziale per migliorare la flessibilità nella generazione di video, permettendo agli utenti di creare video personalizzati in base alle loro preferenze e esigenze.