Ricercatori di NTU Singapore presentano ResShift un nuovo modello di upscaler che utilizza lo spostamento residuo e raggiunge la super risoluzione delle immagini più velocemente rispetto ad altri metodi.

I ricercatori di NTU Singapore presentano ResShift, un nuovo upscaler che raggiunge la super risoluzione delle immagini più velocemente.

Un problema di base nella visione a basso livello è la sovrapposizione di immagini (SR), che mira a recuperare l’immagine ad alta risoluzione (HR) da quella a bassa risoluzione (LR). A causa della complessità e della natura sconosciuta dei modelli di degradazione nelle circostanze del mondo reale, è necessario affrontare questo problema. Il modello di diffusione, un modello generativo sviluppato di recente, ha ottenuto risultati straordinari nella creazione di immagini. Ha anche mostrato promettenti risultati nel risolvere diversi problemi di visione a basso livello, come la modifica delle immagini, il completamento delle immagini e la colorazione delle immagini. Inoltre, si stanno ancora conducendo ricerche per determinare quanto bene i modelli di diffusione possano funzionare per il complesso e lungo lavoro di sovrapposizione di immagini ad alta risoluzione.

Un metodo tipico comporta di partire da zero e riaddestrare il modello utilizzando i dati di addestramento per la sovrapposizione di immagini ad alta risoluzione dopo aver introdotto l’immagine a bassa risoluzione nell’input del modello di diffusione corrente (ad esempio, DDPM). Un altro metodo comune è modificare il percorso inverso di un modello di diffusione preaddestrato incondizionato prima di produrre l’immagine desiderata ad alta risoluzione. Purtroppo, entrambi gli algoritmi ereditano la catena di Markov che sta alla base di DDPM, che può essere inefficiente nell’inferenza e talvolta richiede centinaia o addirittura migliaia di passaggi di campionamento. L’algoritmo DDIM viene utilizzato per velocizzare l’inferenza in Fig. 1, anche se sono state ideate diverse metodologie di accelerazione per comprimere le fasi di campionamento nell’inferenza. Queste strategie spesso comportano una notevole riduzione delle prestazioni e risultati troppo lisci.

Figura 1 confronta la qualità del metodo suggerito con lo stato dell’arte degli ultimi anni, tra cui BSRGAN, RealESRGAN, SwinIR, DASR e LDM. Per quanto riguarda LDM e il loro approccio, utilizzano la formula “LDM (o Nostro)-A” per indicare il numero di passaggi di campionamento per una visualizzazione più comprensibile, dove “A” è il numero totale di passaggi di campionamento. Ricordate che LDM ha 1000 passaggi di diffusione nell’addestramento prima di essere accelerato a “A” passaggi durante l’inferenza utilizzando DDIM. Ingrandite per una visione più chiara.

Deve essere creato un nuovo modello di diffusione per la sovrapposizione di immagini ad alta risoluzione che possa garantire efficienza e prestazioni senza compromettere nessuno dei due. Esaminiamo il modello di diffusione per la creazione di immagini. Nel processo in avanti, viene costruita una catena di Markov nel corso di molti passaggi per convertire progressivamente i dati osservati in una distribuzione a priori predefinita, spesso una distribuzione gaussiana convenzionale. Successivamente, è possibile generare immagini campionando una mappa di rumore dalla distribuzione a priori e alimentandola nel percorso inverso della catena di Markov. Sebbene la distribuzione gaussiana sia una buona scelta per la produzione di immagini, potrebbe non essere la migliore opzione per la sovrapposizione di immagini ad alta risoluzione poiché l’immagine a bassa risoluzione è già disponibile.

Secondo il loro argomento in questo studio, il modello di diffusione appropriato per la sovrapposizione di immagini ad alta risoluzione dovrebbe iniziare con una distribuzione a priori basata sull’immagine a bassa risoluzione, consentendo il recupero iterativo dell’immagine ad alta risoluzione dal suo corrispettivo a bassa risoluzione anziché dal rumore bianco gaussiano. Un design del genere può anche ridurre la quantità di passaggi di diffusione necessari per il campionamento, aumentando l’efficacia dell’inferenza. I ricercatori della Nanyang Technological University propongono un efficace modello di diffusione che utilizza una catena di Markov più breve per passare dall’immagine ad alta risoluzione alla sua immagine equivalente a bassa risoluzione. Lo stato iniziale della catena di Markov approssima la distribuzione dell’immagine ad alta risoluzione, mentre lo stato finale approssima la distribuzione dell’immagine a bassa risoluzione.

Creano con cura un kernel di transizione che regola gradualmente il residuo tra di loro per fare ciò. Le informazioni residue possono essere trasmesse rapidamente in diverse fasi, rendendo questa tecnologia più efficace rispetto agli attuali approcci di sovrapposizione di immagini basati sulla diffusione. Inoltre, la loro architettura permette di esprimere il limite inferiore delle prove in modo chiaro e analitico, semplificando l’induzione dell’obiettivo di ottimizzazione per l’addestramento. Creano un programma di rumore altamente flessibile basato su questo kernel di diffusione costruito che regola sia la velocità di spostamento del residuo che il livello di rumore in ogni passaggio.

Regolando i suoi iperparametri, questo programma consente un compromesso tra fedeltà e realismo dei risultati ottenuti. In breve, i seguenti sono i contributi importanti di questo lavoro:

• Forniscono un modello di diffusione efficace per SR che, spostando il residuo tra i due durante l’inferenza, consente un processo di campionamento iterativo dall’immagine LR indesiderata all’immagine HR desiderata. Studi approfonditi mostrano il vantaggio del loro approccio in termini di efficienza, poiché sono necessari solo 15 semplici passaggi per ottenere risultati desiderabili, superando o almeno eguagliando le tecniche esistenti di SR basate sulla diffusione che richiedono una procedura di campionamento prolungata. Fig. 1 mostra un’anteprima dei loro risultati ottenuti rispetto alle tecniche esistenti.

• Per il modello di diffusione suggerito, sviluppano un programma di rumore altamente variabile che consente un controllo più preciso dei livelli di residuo e rumore durante la transizione.