È arrivato il video editor AI coerente TokenFlow è un modello di intelligenza artificiale che utilizza le caratteristiche di diffusione per un montaggio video coerente.

Il video editor AI TokenFlow è un modello di intelligenza artificiale per il montaggio video coerente.

I modelli di diffusione sono qualcosa che dovresti conoscere a questo punto. Sono stati l’argomento chiave nel campo dell’IA nell’ultimo anno. Questi modelli hanno mostrato un notevole successo nella generazione di immagini e hanno aperto una nuova pagina.

Siamo nell’era della generazione di testo-immagine e migliorano di giorno in giorno. I modelli generativi basati sulla diffusione, come MidJourney, hanno dimostrato incredibili capacità nella sintesi di immagini di alta qualità a partire da descrizioni testuali. Questi modelli utilizzano set di dati immagine-testo su larga scala, che consentono di generare contenuti visivi diversi e realistici basati su prompt testuali.

Il rapido avanzamento dei modelli di testo-immagine ha portato a notevoli progressi nell’editing e nella generazione di immagini. Oggi gli utenti possono controllare vari aspetti sia delle immagini generate che delle immagini reali. Ciò consente loro di esprimere meglio le loro idee e dimostrare il risultato in modo relativamente rapido anziché trascorrere giorni a disegnare manualmente.

Tuttavia, la situazione è diversa quando si tratta di applicare queste eccitanti scoperte nel campo dei video. Qui abbiamo progressi relativamente più lenti. Sebbene siano emersi modelli generativi di testo-video su larga scala, che mostrano risultati impressionanti nella generazione di clip video a partire da descrizioni testuali, siamo ancora limitati per quanto riguarda risoluzione, durata del video e complessità delle dinamiche video che possono rappresentare.

Una delle sfide chiave nell’utilizzare un modello di diffusione delle immagini per l’editing video è garantire che il contenuto modificato rimanga coerente in tutti i fotogrammi del video. Sebbene i metodi di editing video esistenti basati su modelli di diffusione delle immagini abbiano raggiunto una coerenza globale dell’aspetto estendendo il modulo di auto-attenzione per includere più fotogrammi, spesso non riescono a raggiungere il livello desiderato di coerenza temporale. Ciò lascia ai professionisti e ai semiprofessionisti la necessità di ricorrere a complesse pipeline di editing video che richiedono lavoro manuale aggiuntivo.

Conosciamo TokenFlow, un modello di intelligenza artificiale che utilizza la potenza di un modello di testo-immagine pre-addestrato per consentire l’editing guidato dal testo di video naturali.

Il principale obiettivo di TokenFlow è generare video di alta qualità che rispettino la modifica target espressa da un prompt di testo di input, preservando il layout spaziale e il movimento del video originale.

TokenFlow può modificare video naturali utilizzando prompt di testo. Fonte: https://arxiv.org/pdf/2307.10373.pdf

TokenFlow viene introdotto per affrontare l’incoerenza temporale. Impone esplicitamente le corrispondenze inter-frame originali del video sulla modifica. Riconoscendo che i video naturali contengono informazioni ridondanti tra i fotogrammi, TokenFlow si basa sull’osservazione che la rappresentazione interna del video nel modello di diffusione presenta proprietà simili.

Panoramica di TokenFlow. Fonte: https://arxiv.org/pdf/2307.10373.pdf

Questo punto di vista serve come base di TokenFlow, permettendo di imporre modifiche coerenti garantendo che le caratteristiche del video modificato siano coerenti tra i fotogrammi. Ciò viene ottenuto propagando le caratteristiche di diffusione modificate sulla base delle dinamiche video originali, sfruttando la priorità generativa del modello di diffusione delle immagini all’avanguardia senza la necessità di ulteriori addestramenti o affinamenti. TokenFlow funziona anche in modo integrato con un metodo di editing di immagini basato sulla diffusione pronto all’uso.