ByteDance presenta PixelDance un nuovo approccio alla generazione di video basato sui modelli di diffusione che incorpora istruzioni di immagini con istruzioni di testo

ByteDance presenta PixelDance un nuovo approccio alla generazione di video che combina modelli di diffusione, istruzioni di immagini e istruzioni di testo

Un team di ricercatori di ByteDance Research introduce PixelDance, un approccio alla generazione di video che utilizza istruzioni di testo e immagini per creare video con movimenti diversi e intricati. Attraverso questo metodo, i ricercatori mostrano l’efficacia del loro sistema sintetizzando video con scene complesse e azioni, stabilendo così nuovi standard nel campo della generazione di video. PixelDance eccelle nella sintesi di video con ambientazioni e attività intricate, superando i modelli esistenti che spesso producono video con movimenti limitati. Il modello si estende a varie istruzioni di immagine e combina clip video temporalmente coerenti per generare riprese composite.

A differenza dei modelli di testo-video limitati a scene semplici, PixelDance utilizza istruzioni di immagine per i fotogrammi iniziali e finali, migliorando la complessità del video e consentendo una generazione di clip più lunghe. Questa innovazione supera le limitazioni di movimento e dettaglio riscontrate inapprocci precedenti, in particolare con contenuti fuori dominio. Sottolineando i vantaggi delle istruzioni di immagine, PixelDance si configura come una soluzione per generare video ad alta dinamica con scene intricate, azioni dinamiche e movimenti di telecamera complessi.

L’architettura di PixelDance integra modelli di diffusione e autoencoder variazionali per codificare le istruzioni di immagine nello spazio di input. Le tecniche di addestramento e inferenza si concentrano sulla dinamica dei video, utilizzando dati video pubblici. PixelDance si estende a varie istruzioni di immagine, tra cui mappe semantiche, schizzi, pose e bounding box. L’analisi qualitativa valuta l’impatto del testo, del fotogramma iniziale e delle istruzioni del fotogramma finale sulla qualità video generata.

PixelDance ha superato i modelli precedenti sui dataset MSR-VTT e UCF-101 sulla base delle metriche FVD e CLIPSIM. Gli studi di ablazione su UCF-101 mostrano l’efficacia dei componenti di PixelDance, come testo e istruzioni dell’ultimo fotogramma, nella generazione continua di clip. Il metodo suggerisce percorsi per il miglioramento, tra cui l’addestramento con dati video di alta qualità, il fine-tuning specifico del dominio e la scalabilità del modello. PixelDance dimostra la modifica video in zero-shot, trasformandola in un compito di modifica delle immagini. Raggiunge risultati quantitativi impressionanti nella generazione di video complessi di alta qualità allineati con suggerimenti testuali sui dataset MSR-VTT e UCF-101.

PixelDance eccelle nella sintesi di video di alta qualità con scene e azioni complesse, superando i modelli all’avanguardia. La competenza del modello, allineata con i suggerimenti testuali, mostra il suo potenziale per avanzare nella generazione di video. Vengono identificate aree per il miglioramento, tra cui il fine-tuning specifico del dominio e la scalabilità del modello. PixelDance introduce la modifica video in zero-shot, la trasforma in un compito di modifica delle immagini e produce in modo coerente video temporalmente coerenti. Le valutazioni quantitative confermano la sua capacità di generare video complessi di alta qualità condizionati dai suggerimenti testuali.

L’affidamento di PixelDance su istruzioni esplicite di immagini e testo potrebbe ostacolare la generalizzazione a scenari non visti in precedenza. La valutazione si concentra principalmente su metriche quantitative, necessitando di una valutazione più soggettiva della qualità. L’impatto delle fonti dei dati di addestramento e i potenziali bias non sono stati esplorati in modo esaustivo. La scalabilità, i requisiti computazionali e l’efficienza dovrebbero essere discussi accuratamente. Le limitazioni del modello nella gestione di tipi specifici di contenuti video, come scene altamente dinamiche, devono ancora essere chiarite. La generalizzabilità a diversi domini e compiti di editing video al di là degli esempi deve essere affrontata in modo approfondito.