I ricercatori di Microsoft propongono NUWA-XL una nuova architettura di diffusione su diffusione per la generazione di video estremamente lunghi.
Microsoft researchers propose NUWA-XL, a new architecture for highly long video generation.
Il campo dei modelli generativi ha recentemente visto un aumento di interesse nella sintesi visiva. La generazione di immagini di alta qualità è possibile in lavori precedenti. Tuttavia, la durata dei video presenta maggiori difficoltà nelle applicazioni pratiche rispetto alle foto. La durata media di un lungometraggio è superiore ai 90 minuti. La durata media di un cartone animato è di 30 minuti. La dimensione ideale per un video su TikTok o un’altra app simile è compresa tra i 21 e i 34 secondi.
Il team di ricerca di Microsoft ha sviluppato un’architettura innovativa per la creazione di video lunghi. La maggior parte dei lavori esistenti genera film lunghi segmento per segmento in modo sequenziale, il che di solito porta a una differenza tra l’addestramento su film corti e l’inferenza su video grandi. La generazione sequenziale potrebbe essere più efficiente. Questo nuovo metodo utilizza invece un processo da grossolano a fine, in cui il video viene generato contemporaneamente con la stessa granularità; dopo aver applicato un modello di diffusione globale per produrre le chiavi dell’intero range, modelli di diffusione locali vengono utilizzati per riempire il materiale tra i frame adiacenti in modo iterativo. La differenza tra addestramento e inferenza può essere ridotta attraverso un addestramento diretto su film lunghi e tutte le parti possono essere generate contemporaneamente utilizzando questo approccio semplice ma efficace.
I contributi più importanti sono i seguenti:
- Microsoft e i ricercatori di Columbia propongono LLM-AUGMENTER un sistema di intelligenza artificiale che amplia un LLM black-box con un insieme di moduli plug-and-play
- L’affascinante evoluzione dell’IA Generativa
- Una nuova ricerca sull’IA introduce il Directional Stimulus Prompting (DSP) un nuovo framework di istruzioni per guidare meglio l’LLM nella generazione del riassunto desiderato
- NUWA-XL, un’architettura “Diffusion over Diffusion”, è stata proposta dal team di ricerca perché vedono la creazione di video lunghi come un processo rivoluzionario “da grossolano a fine”.
- NUWA-XL è il primo modello addestrato direttamente su film lunghi (3376 frame), colmando il divario tra addestramento e inferenza per la generazione di tali video.
- L’inferenza parallela è resa possibile da NUWA-XL, che riduce drasticamente il tempo necessario per generare video lunghi. Nella produzione di 1024 frame, NUWA-XL accelera l’inferenza del 94,26 percento.
- Per garantire l’efficacia del modello e fornire uno standard per la creazione di video estesi, il team di ricerca presso FlintstonesHD ha creato un nuovo dataset chiamato FlintstonesHD.
Metodi
Temporal KLVAE (T-KLVAE)
KLVAE trasforma un’immagine di input in una rappresentazione latente a bassa dimensione prima di applicare il processo di diffusione per evitare l’onere computazionale dell’addestramento e del campionamento di modelli di diffusione direttamente sui pixel. I ricercatori propongono Temporal KLVAE (T-KLVAE) attraverso l’aumento dei moduli spaziali originali con convoluzioni temporali esterne e strati di attenzione per trasferire conoscenze superficiali dalla KLVAE di immagini pre-addestrate ai video.
Masked Diffusion in Time (MTD)
Come modello di diffusione fondamentale per l’architettura Diffusion over Diffusion proposta, i ricercatori presentano Mask Temporal Diffusion (MTD). Mentre la trama “grossolana” del film è formata solo da L prompt da usare nella diffusione globale, anche i primi e gli ultimi frame vengono utilizzati come input per la distribuzione locale. L’MTD suggerito è compatibile con la diffusione globale e locale e può prendere in input condizioni con o senza i primi e gli ultimi frame. Di seguito, viene presentato l’intero flusso di lavoro dell’MTD prima di utilizzare un UpBlock per illustrare la fusione di diverse circostanze di input.
Ci sono ancora alcune limitazioni, anche se il NUWA-XL proposto migliora la qualità della creazione di video estesi e accelera la velocità di inferenza: in primo luogo, i ricercatori validano solo l’efficacia di NUWA-XL sui cartoni animati Flintstones disponibili pubblicamente perché i video lunghi di dominio aperto (come film ed episodi TV) non sono attualmente noti. Con successi preliminari nella creazione di un dataset di video lunghi di dominio aperto, si spera di estendere NUWA-XL al dominio aperto in futuro. In secondo luogo, la differenza tra addestramento e inferenza può essere ridotta attraverso l’addestramento diretto su film lunghi, ma questo presenta una sfida formidabile per i dati. Infine, sebbene NUWA-XL possa velocizzare l’inferenza, questo miglioramento richiede una potente unità di elaborazione grafica (GPU) per facilitare l’inferenza parallela.
I ricercatori suggeriscono NUWA-XL, un’architettura “Diffusion over Diffusion”, presentando la creazione di video lunghi come una procedura “da grossolano a fine” non convenzionale. NUWA-XL è il primo modello addestrato direttamente su film lunghi (3376 frame), colmando il divario tra addestramento e inferenza nella produzione di video lunghi. L’inferenza parallela è supportata da NUWA-XL, che accelera la creazione di video lunghi del 94,26 percento producendo 1024 frame. Per verificare ulteriormente l’efficacia del modello e offrire un benchmark per la creazione di video estesi, viene creato FlintstonesHD, un nuovo dataset.