HuggingFace Research presenta LEDITS la prossima evoluzione nella modifica di immagini reali sfruttando l’inversione DDPM e una guida semantica migliorata.

HuggingFace Research presenta LEDITS, un'evoluzione nella modifica di immagini reali con inversione DDPM e guida semantica migliorata.

C’è stato un aumento significativo dell’interesse a causa del realismo eccezionale e della diversità della creazione di immagini utilizzando modelli di diffusione guidati dal testo. Con l’introduzione di modelli su larga scala, gli utenti hanno ora una quantità ineguagliabile di flessibilità creativa nella creazione di foto. Di conseguenza, sono stati sviluppati progetti di ricerca in corso, concentrati nell’indagare modi per utilizzare questi potenti modelli per la manipolazione di immagini. Sono stati presentati recentemente progressi nella manipolazione di immagini basata su testo utilizzando tecniche di diffusione basate solo sul testo. Altri ricercatori hanno recentemente presentato l’idea di guida semantica (SEGA) per i modelli di diffusione.

È stato dimostrato che SEGA ha avanzate abilità di composizione ed editing di immagini e non richiede supervisione esterna o calcoli durante il processo di generazione corrente. Si è dimostrato che i vettori concettuali associati a SEGA sono affidabili, isolati, flessibili nella loro combinazione e monotonicamente scalabili. Ulteriori ricerche hanno esaminato diversi approcci per la creazione di immagini basate sulla comprensione semantica, come Prompt-to-Prompt, che utilizza i dati semantici nei layer di cross-attention del modello per collegare i pixel con i token di prompt del testo. Sebbene SEGA non richieda condizionamenti basati su token e consenta combinazioni di numerose modifiche semantiche, le operazioni sulle mappe di cross-attention consentono cambiamenti diversi nell’immagine risultante.

Le tecnologie moderne devono essere utilizzate per invertire l’immagine fornita per l’editing guidato dal testo su foto reali, il che rappresenta una sfida significativa. È necessario trovare una serie di vettori di rumore che, quando forniti come input a un processo di diffusione, producano l’immagine di input. Nella maggior parte degli studi di editing basati su diffusione, viene utilizzata la tecnica del modello implicito di diffusione per la rimozione del rumore (DDIM), che è una mappatura deterministica da una singola mappa di rumore a un’immagine prodotta. Altri ricercatori hanno proposto un approccio di inversione per lo schema del modello probabilistico di diffusione per la rimozione del rumore (DDPM).

Per fare in modo che le mappe di rumore utilizzate nel processo di generazione della diffusione dello schema DDPM si comportino in modo diverso dalle mappe utilizzate nel campionamento DDPM convenzionale, avendo una varianza maggiore e una maggiore correlazione tra i passaggi temporali, propongono un nuovo metodo per il calcolo delle mappe di rumore. Contrariamente alle tecniche di inversione basate su DDIM, è stato dimostrato che l’inversione Edit Friendly DDPM produce risultati all’avanguardia su lavori di editing basati su testo (sia da sola che in combinazione con altri metodi di editing) e può produrre una varietà di output per ogni immagine di input e testo. In questa recensione, i ricercatori di HuggingFace desiderano investigare casualmente l’accoppiamento e l’integrazione dei metodi di inversione SEGA e DDPM o LEDITS.

Il meccanismo di generazione di diffusione guidato semanticamente è appena modificato in LEDITS. Questo aggiornamento espande la metodologia SEGA alle foto reali. Presenta una strategia di editing combinato che utilizza le capacità di editing simultaneo di entrambi gli approcci, dimostrando contemporaneamente risultati qualitativi competitivi utilizzando tecniche all’avanguardia. Hanno anche fornito una demo di HuggingFace, insieme al codice.