Ricercatori KAIST propongono SyncDiffusion un modulo plug-and-play che sincronizza le multiple diffusione tramite discesa del gradiente da una perdita di somiglianza percettiva.

Ricercatori KAIST propongono SyncDiffusion un modulo plug-and-play per la sincronizzazione di varie diffusione tramite discesa del gradiente, basato sulla perdita di somiglianza percettiva.

In un recente articolo di ricerca, un team di ricercatori del KAIST ha introdotto SYNCDIFFUSION, un modulo innovativo che mira a migliorare la generazione di immagini panoramiche utilizzando modelli di diffusione preaddestrati. I ricercatori hanno identificato un problema significativo nella creazione di immagini panoramiche, principalmente legato alla presenza di cuciture visibili quando si uniscono più immagini di dimensioni fisse. Per affrontare questo problema, hanno proposto SYNCDIFFUSION come soluzione.

La creazione di immagini panoramiche, con ampie viste coinvolgenti, presenta sfide per i modelli di generazione delle immagini, in quanto di solito sono addestrati per produrre immagini di dimensioni fisse. Quando si tenta di generare panorami, l’approccio ingenuo di unire diverse immagini comporta spesso cuciture visibili e composizioni incoerenti. Questo problema ha reso necessario lo sviluppo di metodi innovativi per mescolare le immagini senza soluzione di continuità e mantenere una coerenza complessiva.

Due metodi diffusi per la generazione di immagini panoramiche sono l’estrapolazione sequenziale delle immagini e la diffusione congiunta. Il primo consiste nella generazione di un panorama finale estendendo un’immagine data in modo sequenziale, fissando la regione sovrapposta in ogni passaggio. Tuttavia, questo metodo spesso fatica a produrre panorami realistici e tende a introdurre modelli ripetitivi, ottenendo risultati inferiore alle aspettative.

D’altra parte, la diffusione congiunta opera il processo generativo inverso simultaneamente su diverse viste e media immagini rumorose intermedie nelle regioni di sovrapposizione. Sebbene questo approccio generi montaggi senza soluzione di continuità in modo efficace, è carente per quanto riguarda il mantenimento della coerenza di contenuti e stili tra le diverse viste. Di conseguenza, spesso combina immagini con contenuti e stili diversi all’interno di un unico panorama, producendo risultati incoerenti.

I ricercatori hanno introdotto SYNCDIFFUSION come modulo che sincronizza diverse diffusioni utilizzando la discesa del gradiente basata su una perdita di somiglianza percettiva. L’innovazione cruciale sta nell’utilizzare le immagini denoised previste ad ogni passaggio di denoising per calcolare il gradiente della perdita percettiva. Questo approccio offre una guida significativa per creare montaggi coerenti, garantendo che le immagini si mescolino in modo fluido mantenendo la coerenza dei contenuti.

In una serie di esperimenti utilizzando SYNCDIFFUSION con il modello Stable Diffusion 2.0, i ricercatori hanno constatato che il loro metodo ha superato significativamente le tecniche precedenti. Lo studio condotto sugli utenti ha mostrato una preferenza sostanziale per SYNCDIFFUSION, con un tasso di preferenza del 66,35% rispetto al metodo precedente che ha ottenuto il 33,65%. Questo notevole miglioramento dimostra i vantaggi pratici di SYNCDIFFUSION nella generazione di immagini panoramiche coerenti.

SYNCDIFFUSION è un’aggiunta significativa nel campo della generazione di immagini. Affronta efficacemente la sfida di generare immagini panoramiche senza soluzione di continuità e coerenti, che è un problema persistente nel settore. Sincronizzando diverse diffusioni e applicando la discesa del gradiente basata su una perdita di somiglianza percettiva, SYNCDIFFUSION migliora la qualità e la coerenza dei panorami generati. Di conseguenza, offre uno strumento prezioso per una vasta gamma di applicazioni che coinvolgono la creazione di immagini panoramiche e mette in evidenza il potenziale dell’utilizzo della discesa del gradiente nel miglioramento dei processi di generazione delle immagini.