Diffusione stabile dei video modelli di diffusione video latente su grandi dataset

Stabile diffusione dei modelli video di diffusione video latente su ampi dataset

L’IA generativa è da tempo una forza trainante nella comunità dell’IA, e i progressi compiuti nel campo della modellazione generativa delle immagini, in particolare con l’uso di modelli di diffusione, hanno aiutato i modelli generativi video a progredire notevolmente non solo nella ricerca, ma anche in termini di applicazioni nel mondo reale. Tradizionalmente, i modelli generativi video vengono addestrati da zero, oppure vengono parzialmente o completamente affinati da modelli di immagini pre-addestrati con strati temporali aggiuntivi, su una miscela di dataset di immagini e video.

Portando avanti i progressi nei modelli generativi video, in questo articolo parleremo del Modello di Diffusione Video Stabile, un modello di diffusione video latente in grado di generare contenuti immagine-video e testo-video di alta risoluzione e all’avanguardia. Parleremo di come i modelli di diffusione latenti addestrati per la sintesi di immagini 2D abbiano migliorato le capacità e l’efficienza dei modelli generativi video aggiungendo strati temporali e affinandoli su piccoli dataset composti da video di alta qualità. Approfondiremo l’architettura e il funzionamento del Modello di Diffusione Video Stabile e valuteremo le sue prestazioni su diverse metriche, confrontandolo con i framework attuali per la generazione video all’avanguardia. Quindi cominciamo.

Modello di Diffusione Video Stabile e Modelli Video Generativi: Un’introduzione

Grazie al suo potenziale praticamente illimitato, l’IA generativa è da tempo il principale oggetto di studio per i professionisti dell’IA e dell’apprendimento automatico, e negli ultimi anni si sono registrati rapidi progressi sia in termini di efficienza che di prestazioni dei modelli generativi di immagini. Gli apprendimenti dai modelli generativi di immagini hanno consentito ai ricercatori e agli sviluppatori di progredire nei modelli generativi video, migliorandone così la praticità e le applicazioni nel mondo reale. Tuttavia, gran parte delle ricerche volte a migliorare le capacità dei modelli generativi video si concentra principalmente sulla disposizione esatta degli strati temporali e spaziali, prestando poco attenzione all’indagine sull’influenza della scelta dei dati corretti sul risultato di questi modelli generativi.

Grazie ai progressi compiuti dai modelli generativi di immagini, i ricercatori hanno osservato che l’impatto della distribuzione dei dati di addestramento sulle prestazioni dei modelli generativi è effettivamente significativo e indiscusso. Inoltre, i ricercatori hanno osservato che il pre-addestramento di un modello generativo di immagini su un dataset grande e vario, seguito dalla messa a punto su un dataset più piccolo ma di migliore qualità, porta spesso a un miglioramento significativo delle prestazioni. Tradizionalmente, i modelli generativi video implementano gli apprendimenti ottenuti dai modelli generativi di immagini di successo, ma i ricercatori devono ancora studiare l’effetto dei dati e le strategie di addestramento. Il Modello di Diffusione Video Stabile è un tentativo di potenziare le capacità dei modelli generativi video esplorando territori inesplorati in precedenza, con particolare attenzione alla scelta dei dati.

I modelli generativi video recenti si basano su modelli di diffusione e sull’uso di approcci di condizionamento del testo o delle immagini per sintetizzare più frame video o immagini coerenti. I modelli di diffusione sono noti per la loro capacità di imparare gradualmente come rimuovere il rumore da un campione di una distribuzione normale attraverso un processo di raffinamento iterativo, e hanno fornito risultati desiderabili nella sintesi di video ad alta risoluzione e testo-immagine. Utilizzando lo stesso principio al suo centro, il Modello di Diffusione Video Stabile addestra un modello di diffusione video latente sul proprio dataset video, utilizzando anche reti generative avversariali o GAN e modelli autoregressivi in parte.

Il Modello di Diffusione Video Stabile segue una strategia unica mai implementata da nessun modello generativo video, in quanto si basa su basi di diffusione video latenti con un’architettura fissa e una strategia di addestramento fissa, seguita dall’analisi dell’effetto della cura dei dati. Il Modello di Diffusione Video Stabile mira a fornire i seguenti contributi nel campo della modellazione generativa video.

  1. Presentare un flusso di lavoro di cura dei dati sistematico ed efficace nel tentativo di trasformare una grande collezione di campioni video non curati in un dataset di alta qualità che viene poi utilizzato dai modelli generativi video.
  2. Addestrare modelli all’avanguardia per immagine-video e testo-video che superano i framework esistenti.
  3. Conducendo esperimenti specifici del dominio per analizzare la comprensione 3D e la forte conoscenza dei movimenti del modello.

Ora, il Modello di Diffusione Video Stabile implementa gli apprendimenti dai Modelli di Diffusione Video Latenti e le tecniche di cura dei dati al centro della sua fondazione.

Modelli di diffusione video latente

I modelli di diffusione video latente o Video-LDM seguono l’approccio di addestrare il modello generativo primario in uno spazio latente con una complessità computazionale ridotta e la maggior parte dei Video-LDM implementa un modello di testo preaddestrato per immagini unito all’aggiunta di strati di miscelazione temporale nell’architettura di preaddestramento. Di conseguenza, la maggior parte dei modelli di diffusione video latente addestra solo strati temporali o omette del tutto il processo di addestramento, a differenza del Modello di Diffusione Video Stabile, che affina l’intero framework. Inoltre, per la sintesi dei dati di testo in video, il Modello di Diffusione Video Stabile si adegua direttamente a un prompt di testo, e i risultati indicano che il framework risultante può essere facilmente affinato in una sintesi multi-vista o un modello di immagine in video.

Curazione dei dati

La curazione dei dati è un componente essenziale non solo per il Modello di Diffusione Video Stabile, ma per i modelli generativi nel complesso, poiché è essenziale preaddestrare modelli di grandi dimensioni su dataset su larga scala per migliorare le prestazioni su diverse attività, incluse la modellazione del linguaggio o la generazione di testo discriminante per immagini, e molto altro. La curazione dei dati è stata implementata con successo per modelli di immagini generative sfruttando le capacità di rappresentazioni efficienti linguaggio-immagine, anche se tali discussioni non sono mai state focalizzate sullo sviluppo di modelli video generativi. Ci sono diverse sfide che gli sviluppatori incontrano durante la curazione dei dati per modelli video generativi, e per affrontare queste sfide, il Modello di Diffusione Video Stabile implementa una strategia di addestramento in tre fasi, che porta a risultati migliorati e a un significativo aumento delle prestazioni.

Curazione dei dati per la sintesi di video di alta qualità

Come discusso nella sezione precedente, il Modello di Diffusione Video Stabile implementa una strategia di addestramento in tre fasi, che porta a risultati migliorati e a un significativo aumento delle prestazioni. La Fase I è una fase di preaddestramento delle immagini che utilizza un modello di diffusione di testo in immagini bidimensionali. La Fase II è per il preaddestramento dei video in cui il framework è addestrato su una grande quantità di dati video. Infine, la Fase III è per il raffinamento dei video, in cui il modello viene perfezionato su un piccolo sottoinsieme di video di alta qualità e ad alta risoluzione.

Tuttavia, prima che il Modello di Diffusione Video Stabile implementi queste tre fasi, è fondamentale elaborare e annotare i dati in quanto servono da base per la Fase II o la fase di pre- addestramento dei video e svolgono un ruolo critico nel garantire l’output ottimale. Per garantire la massima efficienza, il framework implementa prima una pipeline di rilevamento del taglio a cascata a 3 livelli di framerate (FPS) variabili e la necessità di questa pipeline è dimostrata nell’immagine seguente.

In seguito, il Modello di Diffusione Video Stabile annota ogni clip video utilizzando tre diversi metodi di sottotitolazione sintetica. La tabella seguente confronta i dataset utilizzati nel Framework di Diffusione Stabile prima e dopo il processo di filtrazione.

Fase I: Preaddestramento delle immagini

La prima fase nel flusso di lavoro a tre fasi implementato nel Modello di Diffusione Video Stabile è il preaddestramento delle immagini e per raggiungere questo obiettivo, il framework iniziale del Modello di Diffusione Video Stabile è basato su un modello di diffusione di immagini preaddestrato chiamato Stable Diffusion 2.1 che gli fornisce rappresentazioni visive più solide.

Fase II: Preaddestramento dei video

La seconda fase è la fase di preaddestramento dei video e si basa sulle scoperte che l’uso della curazione dei dati nei modelli generativi multimodali di immagini porta spesso a risultati migliori, efficienza migliorata e potenti generazioni di immagini discriminatorie. Tuttavia, a causa della mancanza di rappresentazioni simili, potenti e preconfigurate per filtrare campioni indesiderati per i modelli video generativi, il Modello di Diffusione Video Stabile si basa sulle preferenze umane come segnali di input per la creazione di un dataset appropriato utilizzato per il preaddestramento del framework. La figura seguente mostra l’effetto positivo del preaddestramento del framework su un dataset curato che aiuta a migliorare le prestazioni complessive del preaddestramento dei video su dataset più piccoli.

Per essere più specifici, il framework utilizza diversi metodi per curare sottoinsiemi di Latent Video Diffusion e tiene conto della classifica dei modelli LVD addestrati su questi dataset. Inoltre, il framework Stable Video Diffusion scopre anche che l’uso di dataset curati per addestrare i framework aiuta a migliorare le prestazioni del framework e dei modelli di diffusione in generale. Inoltre, la strategia di cura dei dati funziona anche su dataset più grandi, più rilevanti e pratici. La figura seguente mostra l’effetto positivo del pre-training del framework su un dataset curato che aiuta a migliorare le prestazioni complessive per il pre-training video su dataset più piccoli.

Stage III: Ottimizzazione ad alta qualità

Fino allo stadio II, il framework Stable Video Diffusion si concentra sul miglioramento delle prestazioni prima del pre-training video, e nel terzo stadio, il framework pone l’accento sull’ottimizzazione o sul miglioramento ulteriore delle prestazioni del framework dopo l’ottimizzazione ad alta qualità del video e su come viene raggiunta la transizione dallo stadio II allo stadio III nel framework. Nello stadio III, il framework si basa su tecniche di addestramento prese in prestito dai modelli di diffusione di immagini latenti e aumenta la risoluzione degli esempi di addestramento. Per analizzare l’efficacia di questo approccio, il framework lo confronta con tre modelli identici che differiscono solo per la loro inizializzazione. Il primo modello identico ha i suoi pesi inizializzati e il processo di addestramento video viene saltato mentre i restanti due modelli identici vengono inizializzati con i pesi presi in prestito da altri modelli video latenti.

Risultati e conclusioni

È il momento di dare un’occhiata a come il framework Stable Video Diffusion si comporta su compiti del mondo reale e come si confronta con i framework attuali all’avanguardia. Il framework Stable Video Diffusion utilizza prima l’approccio di dati ottimali per addestrare un modello di base e quindi esegue l’ottimizzazione per generare diversi modelli all’avanguardia, in cui ogni modello svolge un compito specifico.

L’immagine sopra rappresenta campioni di video ad alta risoluzione generati dal framework mentre la figura seguente dimostra la capacità del framework di generare campioni di testo in video di alta qualità.

Modello base pre-addestrato

Come discusso in precedenza, il modello Stable Video Diffusion è costruito sul framework Stable Diffusion 2.1 e, sulla base delle ultime scoperte, è stato essenziale per gli sviluppatori adottare la pianificazione del rumore e aumentare il rumore per ottenere immagini con una migliore risoluzione durante l’addestramento dei modelli di diffusione delle immagini. Grazie a questo approccio, il modello base Stable Video Diffusion impara potenti rappresentazioni del movimento e nel processo supera i modelli di base per la generazione di video da testo in una configurazione a zero shot, e i risultati sono mostrati nella tabella seguente.

Interpolazione dei fotogrammi e generazione di viste multiple

Il framework Stable Video Diffusion affina il modello di immagine in video su dataset multi-view per ottenere diverse viste di un oggetto, e questo modello è conosciuto come SVD-MV o Stable Video Diffusion – modello Multi View. Il modello originale SVD viene affinato con l’aiuto di due dataset in modo che il framework inserisca un’immagine singola e restituisca una sequenza di immagini multi-view come output.

Come si può vedere dalle immagini seguenti, il framework Stable Video Diffusion Multi View offre prestazioni elevate paragonabili al framework Scratch Multi View all’avanguardia e i risultati sono una chiara dimostrazione della capacità di SVD-MV di sfruttare quanto appreso dal framework SVD originale per la generazione di immagini multi-view. Inoltre, i risultati indicano anche che l’esecuzione del modello per un numero relativamente ridotto di iterazioni aiuta a ottenere risultati ottimali come nel caso della maggior parte dei modelli affinati dal framework SVD.

Nell’immagine sopra, le metriche sono indicate sul lato sinistro e come si può vedere, il framework Stable Video Diffusion Multi View supera di gran lunga il framework Scratch-MV e il framework SD2.1 Multi-View. La seconda immagine mostra l’effetto del numero di iterazioni di addestramento sulle prestazioni complessive del framework in termini di punteggio di clip e i framework SVD-MV offrono risultati sostenibili.

Considerazioni finali

In questo articolo, abbiamo parlato di Stable Video Diffusion, un modello di diffusione video latente in grado di generare contenuti di immagini-video e testo-video all’avanguardia ad alta risoluzione. Il modello Stable Video Diffusion segue una strategia unica mai implementata da alcun modello di generazione di video poiché si basa su linee guida di diffusione di video latenti con un’architettura fissa e una strategia di allenamento fissa seguita dall’analisi dell’effetto della cura dei dati.

Abbiamo parlato di come i modelli di diffusione latente addestrati per la sintesi delle immagini 2D abbiano migliorato le capacità e l’efficienza dei modelli generativi di video aggiungendo livelli temporali e affinando i modelli su piccoli set di dati composti da video di alta qualità. Per raccogliere i dati di pre-addestramento, il framework cond