Ricercatori del MIT e Adobe presentano Distribution Matching Distillation (DMD) un metodo di intelligenza artificiale per trasformare un modello di diffusione in un generatore di immagini in un solo passaggio.

Ricercatori del MIT e Adobe presentano Distribution Matching Distillation (DMD) un metodo di intelligenza artificiale per convertire rapidamente modelli di diffusione in generatori di immagini.

“`html

Con un processo di formazione costante, i modelli di diffusione hanno rivoluzionato la produzione di immagini, raggiungendo livelli di varietà e realismo inimmaginabili in precedenza. Ma a differenza di GAN e VAE, il loro campionamento è un processo laborioso ed iterativo che riduce gradualmente il rumore in un campione di rumore gaussiano per produrre un’immagine complessa tramite denoising progressivo. Questo limita l’interazione quando si utilizza la pipeline di generazione come strumento creativo, richiedendo di solito decine o centinaia di costose valutazioni di reti neurali. Le tecniche precedenti condensano il mapping rumore→immagine trovato dal campionamento di diffusione a più passaggi in una rete studente passante singolarmente per velocizzare il processo di campionamento. Riuscire a modellare un mapping complesso e ad alta dimensionalità è senza dubbio un’impresa difficile.

Una delle aree per migliorare è l’alto costo dell’esecuzione dell’intera traiettoria di denoising per il modello studente per calcolare una singola perdita. Tecniche attuali riducono questo costo estendendo gradualmente la distanza campionaria dello studente senza ripetere il ciclo di denoising dell’originale diffusione. Tuttavia, il modello di diffusione a più passaggi originale ottiene risultati migliori rispetto alle versioni distillate. Al contrario, il team di ricerca impone che le generazioni dello studente siano identiche al modello di diffusione originale invece di richiedere corrispondenze tra rumore e immagini generate attraverso la diffusione. In generale, la motivazione dietro questo obiettivo è simile a quella di altri modelli generativi di abbinamento di distribuzione, come GMMN o GAN.

Tuttavia, scalare il modello sull’insieme generale di dati testo-immagine è risultato difficile nonostante le sue notevoli prestazioni nel produrre grafiche realistiche. Il team di ricerca evita questo problema in questo lavoro iniziando con un modello di diffusione precedentemente addestrato in modo esaustivo sui dati testo-immagine. Per imparare sia la distribuzione dei dati che la distribuzione fittizia prodotta dal generatore di distillazione, il team di ricerca adatta specificamente il modello di diffusione preaddestrato. Il team di ricerca è in grado di interpretare le uscite di diffusione denoising come direzioni di gradiente per rendere un’immagine “più realistica” o, se il modello di diffusione è addestrato su immagini false, “più finta”, poiché i modelli di diffusione sono noti per approssimare le funzioni di punteggio sulle distribuzioni diffuse.

In definitiva, la regola di aggiornamento del gradiente del generatore viene creata come la differenza tra le due, spingendo le immagini artificiali verso una maggiore realtà e una minore falsità. L’ottimizzazione dei modelli 3D nel momento del test può essere ottenuta anche utilizzando il modello di diffusione preaddestrato per modellare le distribuzioni reali e false, come dimostrato dal lavoro precedente utilizzando una tecnica chiamata distillazione di punteggio variazionale. Il team di ricerca scopre che è possibile addestrare un intero modello generativo utilizzando una metodologia simile. Inoltre, il team di ricerca scopre che, in presenza della perdita di corrispondenza di distribuzione, è possibile pre-calcolare un minor numero di risultati di campionamento di diffusione a più passaggi e implementare una semplice perdita di regressione sulla loro generazione a un solo passaggio per funzionare come un regolarizzatore efficace.

Ricercatori del MIT e di Adobe Research forniscono il Distillatore di Abbinamento di Distribuzione (DMD), un processo che converte un modello di diffusione in un generatore di immagini a un solo passaggio con un effetto trascurabile sulla qualità dell’immagine. Il loro approccio, che trae ispirazione e insegnamenti da VSD, GAN e pix2pix, dimostra come il team di ricerca può addestrare un modello generativo a un solo passaggio con un’alta fedeltà utilizzando (1) modelli di diffusione per modellare distribuzioni reali e fittizie e (2) abbinare le uscite di diffusione a più passaggi con una semplice perdita di regressione. Il team di ricerca valuta modelli addestrati utilizzando la loro tecnica di Distillazione di Abbinamento di Distribuzione (DMD) su una serie di compiti, come la creazione di immagini da testo in modalità zero-shot su MS COCO 512×512 e la generazione di immagini su CIFAR-10 e ImageNet 64×64. Il loro generatore a un solo passaggio è molto più performante dei noti metodi di diffusione a pochi passaggi su tutti i benchmark, inclusi Consistency Models, Progressive Distillation e Rectified Flow.

Il DMD raggiunge FID di 2,62 su ImageNet, superando il Consistency Model del 2,4×. Il DMD ottiene un competitivo FID di 11,49 su MS-COCO 2014-30k utilizzando la stessa architettura di denoiser di Stable Diffusion. Le analisi quantitative e qualitative dimostrano che le immagini prodotte dal loro modello sono di alta qualità, comparabili a quelle prodotte dal più costoso modello Stable Diffusion. In particolare, il loro metodo permette una diminuzione di 100× nelle valutazioni della rete neurale mantenendo lo stesso livello di qualità visiva. Grazie alla sua efficienza, il DMD può produrre immagini 512×512 a 20 fotogrammi al secondo utilizzando inferenza FP16, aprendo molte nuove possibilità per applicazioni interattive.

“`