Trasforma le immagini di moda in incredibili video fotorealistici con il framework AI DreamPose

Transform fashion images into incredible photorealistic videos with the AI DreamPose framework.

La fotografia di moda è ubiqua sulle piattaforme online, compresi i social media e i siti di e-commerce. Tuttavia, come immagini statiche, possono essere limitate nella loro capacità di fornire informazioni complete su un capo di abbigliamento, in particolare per quanto riguarda come si adatta e si muove sul corpo di una persona.

Al contrario, i video di moda offrono un’esperienza più completa e coinvolgente, mostrando la texture del tessuto, il modo in cui si adagia e fluisce e altri dettagli essenziali che sono difficili da catturare attraverso foto statiche.

I video di moda possono essere una risorsa preziosa per i consumatori che cercano di prendere decisioni di acquisto informate. Offrono una visione più approfondita dei vestiti in azione, consentendo ai consumatori di valutarne meglio l’adeguatezza alle proprie esigenze e preferenze. Nonostante questi vantaggi, però, i video di moda rimangono relativamente rari e molti marchi e rivenditori si affidano ancora principalmente alla fotografia per presentare i loro prodotti. Con il continuo aumento della domanda di contenuti più coinvolgenti e informativi, è probabile che aumenti la produzione di video di moda di alta qualità in tutta l’industria.

Un nuovo modo per affrontare queste problematiche proviene dall’Intelligenza Artificiale (AI). Il nome è DreamPose e rappresenta un nuovo approccio per trasformare le fotografie di moda in video animati realistici.

Questo metodo prevede la realizzazione di un modello di sintesi video a diffusione basato su Stable Diffusion. Fornendo una o più immagini di una persona e una sequenza di pose corrispondente, DreamPose può generare un video realistico e ad alta fedeltà del soggetto in movimento. La panoramica del suo flusso di lavoro è rappresentata di seguito.

La generazione di video realistici e di alta qualità da immagini presenta diverse sfide. Mentre i modelli di diffusione delle immagini hanno dimostrato risultati impressionanti in termini di qualità e fedeltà, lo stesso non si può dire per i modelli di diffusione video. Tali modelli sono spesso limitati nella generazione di movimenti semplici o visivi simili a cartoni animati. Inoltre, i modelli di diffusione video esistenti presentano diversi problemi, tra cui scarsa coerenza temporale, jitter di movimento, mancanza di realismo e controllo limitato sul movimento nel video di destinazione. Queste limitazioni sono in parte dovute al fatto che i modelli esistenti si basano principalmente sul testo anziché su altri segnali, come il movimento, che potrebbero fornire un controllo più preciso.

Al contrario, DreamPose sfrutta uno schema di condizionamento di immagini e pose per ottenere una maggiore fedeltà di aspetto e coerenza tra frame. Questo approccio supera molte delle limitazioni dei modelli di diffusione video esistenti. Inoltre, consente la produzione di video di alta qualità che catturano accuratamente il movimento e l’aspetto del soggetto di input.

Il modello viene ottimizzato a partire da un modello di diffusione delle immagini pre-addestrato che è molto efficace nel modellare la distribuzione delle immagini naturali. Utilizzando un tale modello, il compito di animare le immagini può essere semplificato identificando il sottospazio delle immagini naturali coerenti con i segnali di condizionamento. Per raggiungere questo obiettivo, l’architettura Stable Diffusion è stata modificata, in particolare ridisegnando l’encoder e i meccanismi di condizionamento per supportare il condizionamento di immagini allineate e pose non allineate.

Inoltre, include un processo di ottimizzazione a due fasi che prevede l’ottimizzazione dei componenti UNet e VAE utilizzando una o più immagini di input. Questo approccio ottimizza il modello per generare video realistici e di alta qualità che catturano accuratamente l’aspetto e il movimento del soggetto di input.

Nella figura seguente sono illustrate alcune esempi dei risultati prodotti dagli autori di questo lavoro. Inoltre, questa figura include un confronto tra DreamPose e tecniche all’avanguardia.

Questo è stato il riassunto di DreamPose, un nuovo framework di intelligenza artificiale per sintetizzare video di moda fotorealistici da un’unica immagine di input. Se sei interessato, puoi saperne di più su questa tecnica ai link sottostanti.