Ricercatori di Google e dell’Università Johns Hopkins rivelano un metodo di distillazione più veloce ed efficiente per la generazione di testo-immagine superando i limiti del modello di diffusione.

Google e l'Università Johns Hopkins scoprono il metodo di distillazione più rapido ed efficiente per generare testo-immagini, superando i limiti dei modelli di diffusione.

Produzione di risultati di alta qualità e varia, i modelli di diffusione testo-immagine addestrati su dati di grande scala hanno dominato considerevolmente i compiti generativi. In una tendenza sviluppata recentemente, le tipiche attività di trasformazione immagine-immagine come l’alterazione, il miglioramento o la sovra-risoluzione dell’immagine sono guidate dai risultati generati con condizioni di immagine esterne utilizzando la diffusione prima dei modelli generativi testo-immagine pre-addestrati. La diffusione precedente introdotta dai modelli pre-addestrati è in grado di migliorare significativamente la qualità visiva delle produzioni di immagini condizionatamente tra vari procedimenti di trasformazione. D’altra parte, i modelli di diffusione dipendono molto da un processo di perfezionamento iterativo che spesso richiede molte iterazioni, il che può richiedere del tempo per essere effettuato in modo efficace.

La loro dipendenza dal numero di ripetizioni aumenta ulteriormente per la sintesi delle immagini ad alta risoluzione. Ad esempio, anche con tecniche di campionamento sofisticate, la qualità visiva eccellente negli attuali modelli latenti di diffusione testo-immagine richiede spesso da 20 a 200 passi di campionamento. Il periodo di campionamento lento limita gravemente l’applicabilità pratica dei modelli di diffusione condizionati sopra menzionati. I tentativi più recenti di velocizzare il campionamento di diffusione utilizzano tecniche di distillazione. Queste tecniche velocizzano notevolmente il campionamento, portandolo a termine in 4-8 passaggi, pur influenzando poco le prestazioni generative. Ricerche recenti dimostrano che queste tecniche possono essere utilizzate anche per condensare modelli di diffusione testo-immagine di grande scala che sono già stati addestrati.

Figura 1 mostra come la nostra tecnica converte immediatamente il modello incondizionato in un modello di diffusione condizionale.

Forniscono l’output del nostro modello distillato in una varietà di compiti condizionati, illustrando la capacità del nostro approccio suggerito di replicare le priorità di diffusione in un periodo di campionamento condensato.

In base a questi metodi di distillazione, è possibile utilizzare un processo di distillazione a due fasi, inizialmente distillazione o condizionamento dell’addestramento, per distillare modelli di diffusione condizionale. Con lo stesso periodo di campionamento, queste due tecniche forniscono risultati generalmente superiori a quelli del modello di diffusione condizionale non distillato. Tuttavia, hanno benefici diversi per quanto riguarda la flessibilità tra compiti e la difficoltà di apprendimento. In questo lavoro, presentano un nuovo metodo di distillazione per estrarre un modello di diffusione condizionale da un modello di diffusione incondizionale che è già stato addestrato. Il loro approccio prevede una singola fase, che inizia con il pre-training incondizionato e termina con il modello di diffusione condizionale distillato, a differenza della tradizionale tecnica di distillazione a due fasi.

La Figura 1 illustra come il loro modello distillato può prevedere risultati di alta qualità in solo un quarto dei passi di campionamento, prendendo spunto dalle impostazioni visive fornite. La loro tecnica è più pratica poiché questo apprendimento semplificato elimina la necessità dei dati originali testo-immagine, necessari nei processi di distillazione precedenti. Evitano anche di compromettere la precedente diffusione nel modello pre-addestrato, un errore comune nell’uso del metodo di condizionamento nell’iniziale fase di distillazione. Con lo stesso tempo di campionamento, dati sperimentali estesi dimostrano che il loro modello distillato ha prestazioni migliori rispetto alle precedenti tecniche di distillazione, sia per quanto riguarda la qualità visiva che le prestazioni quantitative.

Un campo che richiede ulteriori ricerche sono le tecniche di distillazione efficienti in termini di parametri per la generazione condizionale. Mostrano che il loro approccio offre un nuovo meccanismo di distillazione che è efficiente in termini di parametri. Aggiungendo solo pochi parametri apprendibili, può convertire e accelerare un modello di diffusione incondizionale per compiti condizionali. La loro formulazione, in particolare, consente l’integrazione con diverse tecniche di adattamento efficienti in termini di parametri già in uso, come T2I-Adapter e ControlNet. Utilizzando sia i parametri apprendibili appena aggiunti dell’adattatore condizionale, sia i parametri congelati del modello di diffusione originale, la loro tecnica di distillazione impara a riprodurre le priorità di diffusione per compiti dipendenti con minime revisioni iterative. Questo nuovo paradigma ha notevolmente aumentato l’utilità di diversi compiti condizionali.