Incontra LAMP un framework AI di few-shot per l’apprendimento dei modelli di movimento con modelli di diffusione testo-immagine

Incontra LAMP un framework AI di few-shot per l'apprendimento dei modelli di movimento con modelli di diffusione testo-immagine

In uno studio recente, i ricercatori hanno introdotto il rivoluzionario framework di accordatura basato su poche iterazioni chiamato LAMP, progettato per affrontare la sfida della generazione di testo-video (T2V). Mentre la generazione di testo-immagine (T2I) ha fatto progressi significativi, estendere questa capacità alla generazione di testo-video è stato un problema complesso. I metodi esistenti richiedono o coppie estensive di testo-video e risorse computazionali significative o risultano in una generazione di video fortemente allineata con i video di template. Bilanciare la libertà di generazione e i costi delle risorse per la generazione di video si è rivelata una sfida difficile.

Un team di ricercatori provenienti da VCIP, CS, Nankai University e MEGVII Technology propone LAMP come soluzione a questo problema. LAMP è un framework di accordatura basato su poche iterazioni che consente a un modello di diffusione testo-immagine di apprendere specifici modelli di movimento con solo 8-16 video su una singola GPU. Questo framework utilizza una pipeline di condizionamento del primo frame che utilizza un modello di testo-immagine pre-addestrato per la generazione di contenuti, concentrandosi sugli sforzi del modello di diffusione video per l’apprendimento di modelli di movimento. Utilizzando tecniche consolidate di testo-immagine per la generazione di contenuti, LAMP migliora significativamente la qualità del video e la libertà di generazione.

Per catturare le caratteristiche temporali dei video, i ricercatori estendono i livelli di convoluzione 2D del modello T2I pre-addestrato per incorporare livelli di apprendimento del movimento spazio-temporale. Modificano anche i blocchi di attenzione affinché funzionino a livello temporale. Inoltre, introducono una strategia di campionamento del rumore condiviso durante l’inferenza, che migliora la stabilità del video con costi computazionali minimi.

Le capacità di LAMP si estendono oltre la generazione di testo-video. Può essere applicato anche a compiti come l’animazione di immagini del mondo reale e la modifica video, rendendolo uno strumento versatile per varie applicazioni.

Sono stati condotti numerosi esperimenti per valutare le prestazioni di LAMP nell’apprendimento di modelli di movimento su dati limitati e nella generazione di video di alta qualità. I risultati mostrano che LAMP può raggiungere efficacemente questi obiettivi. Riesce con successo a trovare un equilibrio tra l’onere della formazione e la libertà di generazione mentre comprende i modelli di movimento. Sfruttando i punti di forza dei modelli T2I, LAMP offre una potente soluzione per la generazione di testo-video.

In conclusione, i ricercatori hanno introdotto LAMP, un framework di accordatura basato su poche iterazioni per la generazione di testo-video. Questo approccio innovativo affronta la sfida della generazione di video da prompt di testo apprendendo modelli di movimento da un piccolo dataset video. La pipeline di LAMP condizionata al primo frame, i livelli di apprendimento del movimento spazio-temporale e la strategia di campionamento del rumore condiviso migliorano significativamente la qualità e la stabilità dei video. La versatilità del framework consente di applicarlo anche ad altre attività oltre la generazione di testo-video. Attraverso esperimenti estesi, LAMP ha dimostrato la sua efficacia nell’apprendimento di modelli di movimento su dati limitati e nella generazione di video di alta qualità, offrendo una promettente soluzione al campo della generazione di testo-video.