Incontra Vchitect un sistema di creazione di video generalista open source su larga scala per le applicazioni di convertitore di testo in video (T2V) e convertitore di immagini in video (I2V).

Incontra Vchitect un sistema open source su larga scala per creare video generalisti da testo e immagini

La crescita esponenziale della popolarità dell’Intelligenza Artificiale (IA) negli ultimi tempi ha portato a grandi progressi nei modelli generativi profondi. Questi modelli sono stati applicati al campo della generazione video per creare immagini e sintetizzare immagini. Gli esempi più noti sono i modelli autoregressivi, come GAN e VAE, che hanno suscitato un interesse crescente nella comunità dell’IA nell’uso di tecniche comparabili per creare video.

L’utilizzo di modelli generativi profondi per la generazione di video comporta delle sfide poiché, a causa della loro scala ridotta, la loro applicazione è limitata a specifiche aree, incluse la generazione di volti o di corpi. Tuttavia, nuovi progressi nei modelli di diffusione su larga scala e nella capacità di elaborazione hanno aperto maggiori possibilità per la produzione di video in contesti più ampi. Nonostante i progressi, rimangono problemi da risolvere, come la produzione di film con una qualità visiva cinematografica e la gestione di problemi come la coerenza temporale e la continuità del soggetto, in particolare nei video di lunga durata.

Per superare queste sfide, un team di ricercatori ha introdotto Vchitect, un sistema di creazione di video generalista su larga scala destinato alle applicazioni Text-to-Video (T2V) e Image-to-Video (I2V). Questo sistema è stato progettato con l’obiettivo di sintetizzare film di lunghezza variabile e di estetica visiva cinematografica al fine di facilitare movimenti fluidi della telecamera e coerenza narrativa.

Vchitect può creare video ad alta definizione di qualsiasi durata, da pochi secondi a diversi minuti. Garantisce transizioni fluide tra le scene e supporta una narrazione coerente. Il sistema integra più modelli per soddisfare aspetti distinti della produzione video, che sono i seguenti.

  1. LaVie, Modello Text-to-Video (T2V): Questo funge da paradigma fondante per Vchitect, che trasforma le descrizioni scritte in brevi film di eccellente qualità.
  1. SEINE, Modello di generazione Image-to-Video (I2V): Questa caratteristica aumenta l’adattabilità del sistema, consentendogli di produrre contenuti dinamici da foto statiche.
  1. Il modello Short-to-Long (S2L): Crea connessioni e transizioni senza soluzione di continuità tra i film corti. Migliora la coerenza generale e il flusso dei video più lunghi per garantire una visione più coinvolgente.
  1. Modello di coerenza del soggetto: Questo modello può produrre video con lo stesso soggetto. Mantenere la coerenza tra riprese separate è fondamentale, specialmente quando la stessa persona o oggetto appare in segmenti video multipli.
  1. Modello di interpolazione temporale: Migliora la fluidità del movimento nei video prodotti e migliora il flusso complessivo del contenuto video mediante il potenziamento delle caratteristiche temporali.
  1. Modello di super-risoluzione video: Questo modello migliora la risoluzione dei video prodotti, affrontando anche la qualità visiva spaziale. Questo è fondamentale per garantire la chiarezza e l’eccellente qualità degli elementi visivi.

Il team ha anche selezionato e curato un ampio e diversificato set di dati video chiamato Vimeo25M. Con 25 milioni di coppie testo-video, questa collezione privilegia l’attrattiva visiva, la diversità e la qualità. Il team ha condiviso che per garantire che i modelli siano adeguatamente addestrati e in grado di gestire una vasta gamma di eventi e tipi di contenuti, è necessario includere un set di dati ampio e diversificato.

È stata inoltre condotta un’analisi completa che mostra la preferenza per il modello T2V di base nel sistema Vchitect. Aspetti come la qualità visiva, la coerenza e la capacità di produrre film che corrispondono alle descrizioni verbali fornite sono stati inclusi in questa valutazione.