Esplora il potere delle immagini dinamiche con Text2Cinemagraph un nuovo strumento di intelligenza artificiale per la generazione di cinemagraph da prompt di testo

Esplora il potere delle immagini dinamiche con Text2Cinemagraph, un nuovo strumento AI per generare cinemagraph da testo.

Se sei nuovo nel campo della terminologia, potresti chiederti cosa siano i cinemagraph, ma posso assicurarti che probabilmente ti sei già imbattuto in loro. I cinemagraph sono illustrazioni visivamente accattivanti in cui determinati elementi ripetono movimenti continui mentre il resto della scena rimane immobile. Non sono immagini, ma non possiamo classificarli come video. Forniscono un modo unico per mostrare scene dinamiche catturando un momento particolare.

Nel tempo, i cinemagraph hanno guadagnato popolarità come brevi video e GIF animate sui social media e sui siti web di condivisione di foto. Sono anche comunemente presenti su giornali online, siti web commerciali e riunioni virtuali. Tuttavia, creare un cinemagraph è un compito molto impegnativo, poiché richiede la cattura di video o immagini utilizzando una telecamera e l’utilizzo di tecniche semi-automatiche per generare video in loop senza soluzione di continuità. Questo processo richiede spesso un significativo coinvolgimento dell’utente, tra cui la cattura di riprese adatte, la stabilizzazione dei fotogrammi video, la selezione di regioni animate e statiche e la specifica delle direzioni di movimento.

Nello studio proposto in questo articolo, viene esplorato un nuovo problema di ricerca, ovvero la sintesi di cinemagraph basati su testo, al fine di ridurre notevolmente la dipendenza dalla cattura di dati e dagli sforzi manuali laboriosi. Il metodo presentato in questo lavoro cattura effetti di movimento come “caduta dell’acqua” e “fiume in movimento” (illustrati nella figura introduttiva), che sono difficili da esprimere attraverso fotografie statiche e tecniche esistenti di conversione da testo a immagine. Un aspetto cruciale è che questo approccio amplia la gamma di stili e composizioni che possono essere ottenuti nei cinemagraph, consentendo ai creatori di contenuti di specificare diversi stili artistici e descrivere elementi visivi immaginativi. Il metodo presentato in questa ricerca ha la capacità di generare sia cinemagraph realistici che scene creative o surreali.

I metodi attuali affrontano significative sfide nel affrontare questo nuovo compito. Un approccio consiste nell’utilizzare un modello di conversione da testo a immagine per generare un’immagine artistica e successivamente animarla. Tuttavia, i metodi di animazione esistenti che operano su singole immagini faticano a generare movimenti significativi per input artistici, principalmente a causa della formazione su set di dati video reali. Costruire un dataset su larga scala di video artistici in loop è impraticabile a causa della complessità nella produzione di singoli cinemagraph e degli stili artistici diversi coinvolti.

In alternativa, possono essere utilizzati modelli di video basati su testo per generare video direttamente. Tuttavia, questi metodi spesso introducono artefatti di sfarfallio temporale evidenti nelle regioni statiche e non riescono a produrre i desiderati movimenti semi-periodici.

Viene proposto un algoritmo denominato Text2Cinemagraph basato sulla sintesi di immagini gemelle per colmare il divario tra immagini artistiche e modelli di animazione progettati per video reali. Una panoramica di questa tecnica è presentata nell’immagine seguente.

https://arxiv.org/abs/2307.03190

Il metodo genera due immagini da un prompt di testo fornito dall’utente: una artistica e una realistica, che condividono la stessa disposizione semantica. L’immagine artistica rappresenta lo stile e l’aspetto desiderati dell’output finale, mentre l’immagine realistica funge da input che i modelli di previsione del movimento attuali elaborano più facilmente. Una volta previsto il movimento per l’immagine realistica, queste informazioni possono essere trasferite alla sua controparte artistica, consentendo la sintesi del cinemagraph finale.

Anche se l’immagine realistica non viene visualizzata come output finale, svolge un ruolo cruciale come livello intermedio che assomiglia alla disposizione semantica dell’immagine artistica pur essendo compatibile con i modelli esistenti. Per migliorare la previsione del movimento, vengono utilizzate informazioni aggiuntive dai prompt di testo e dalla segmentazione semantica dell’immagine realistica.

I risultati sono riportati di seguito.

https://arxiv.org/abs/2307.03190

Questa è stata la sintesi di Text2Cinemagraph, una nuova tecnica di intelligenza artificiale per automatizzare la generazione di cinemagraph realistici. Se sei interessato e desideri saperne di più su questo lavoro, puoi trovare ulteriori informazioni cliccando sui link di seguito.