Stability AI introduce Adversarial Diffusion Distillation (ADD) Il metodo innovativo per la sintesi di immagini in tempo reale ad alta fedeltà in pochi passi minimi.

Stability AI introduce Adversarial Diffusion Distillation (ADD) Il metodo innovativo per la sintesi di immagini ad alta fedeltà in tempo reale con pochi passi minimi

Nella modellazione generativa, i modelli di diffusione (DM) hanno assunto un ruolo fondamentale, facilitando i recenti progressi nella produzione di sintesi di immagini e video di alta qualità. Scalabilità e iteratività sono due dei principali vantaggi dei DM; ciò consente loro di svolgere compiti complessi come la creazione di immagini a partire da segnali di testo in forma libera. Purtroppo, i numerosi passaggi di campionamento richiesti per il processo inferenziale iterativo attuale ostacolano l’uso in tempo reale dei DM. D’altra parte, la formulazione a singolo passaggio e la velocità intrinseca delle Reti Generative Avversarie (GAN) le distinguono. Tuttavia, per quanto riguarda la qualità del campionamento, le GAN spesso necessitano di più DM nonostante gli sforzi per estendere a dataset di grandi dimensioni.

I ricercatori di Stability AI in questo studio mirano a combinare la velocità innata delle GAN con la maggiore qualità del campionamento dei DM. La loro strategia è concettualmente semplice: il team di studio suggerisce Diffusion Distillation Avversaria (ADD), una tecnica generica che mantiene una buona fedeltà di campionamento e può potenzialmente migliorare le prestazioni complessive del modello riducendo il numero di passaggi di inferenza di un modello di diffusione pre-addestrato a 1-4 passaggi di campionamento. Il team di ricerca combina due obiettivi di addestramento: (i) una perdita di distillazione equivalente al campionamento di distillazione di punteggio (SDS) con una perdita avversaria.

Ad ogni passaggio in avanti, la perdita avversaria incoraggia il modello a produrre campioni che si trovano direttamente sulla varietà di immagini reali, eliminando artefatti come sfocatura comuni in altre tecniche di distillazione. Per mantenere l’alta composizionalità vista nei DM di grandi dimensioni e fare un uso efficiente delle conoscenze sostanziali del DM pre-addestrato, la perdita di distillazione utilizza un altro DM pre-addestrato (e fisso) come insegnante. Il loro metodo riduce ulteriormente i requisiti di memoria non utilizzando orientamenti senza classificatori durante l’inferenza. Il vantaggio rispetto ai metodi basati su GAN in un solo passaggio precedenti è che il team di ricerca può continuare a sviluppare il modello in modo iterativo e migliorarne i risultati.

Figura 1 mostra foto ad alta fedeltà generate in un’unica operazione. La formazione di diffusione avversaria (ADD) viene utilizzata per creare una singola valutazione della rete U-Net per ogni campione.

Di seguito viene riassunto il loro contributo:

• Il team di ricerca presenta ADD, una tecnica che richiede solo 1-4 passaggi di campionamento per convertire modelli di diffusione pre-addestrati in generatori di immagini ad alta fedeltà e in tempo reale. Il team di studio ha considerato attentamente diverse decisioni di progettazione per il loro approccio unico, che combina addestramento avversario con distillazione di punteggio.

• ADD-XL supera il suo modello insegnante SDXL-Base con una risoluzione di 5122 px utilizzando quattro passaggi di campionamento. • ADD può gestire composizioni di immagini complesse mantenendo un’alta realismo con un solo passaggio di inferenza. • ADD supera significativamente basi solide come LCM, LCM-XL e GAN a un solo passaggio.

In conclusione, questo studio introduce una tecnica generica per la distillazione di un modello di diffusione pre-addestrato in un modello rapido e a pochi passaggi per la generazione di immagini: Diffusion Distillation Avversaria. Utilizzando dati reali tramite il discriminatore e conoscenze strutturali tramite l’istruttore di diffusione, il team di ricerca combina un obiettivo avversario e una distillazione di punteggio per distillare i modelli Stable Diffusion pubblici e SDXL. La loro analisi mostra che la loro tecnica supera tutti gli approcci concorrenti e funziona particolarmente bene nel regime di campionamento ultra-veloce di uno o due passaggi. Inoltre, il team di studio può ancora migliorare i campioni attraverso diversi processi. Il loro modello presenta prestazioni migliori con quattro passaggi di campionamento rispetto a generatori multi-passaggio popolari come IF, SDXL e OpenMUSE. La loro metodologia apre nuove possibilità per la generazione in tempo reale utilizzando modelli di base, consentendo lo sviluppo di foto di alta qualità in un solo passaggio.