Ricercatori di Stanford propongono DDBMs un’estensione semplice e scalabile ai modelli di diffusione adatta per i problemi di traduzione distribuita.

Ricercatori di Stanford propongono un'estensione semplice e scalabile ai modelli di diffusione DDBM, ideale per risolvere problemi di traduzione distribuita.

I modelli di diffusione hanno recentemente ottenuto notevoli successi e attenzione nella comunità dell’Intelligenza Artificiale. Appartenenti alla famiglia dei modelli generativi, questi modelli possono invertire efficacemente un processo di diffusione che trasforma i dati in rumore, consentendo loro di comprendere distribuzioni complesse dei dati. Questo metodo è stato una svolta in vari compiti generativi, in particolare nella generazione di immagini di alta qualità, dove ha superato le tecniche convenzionali basate su GAN. Lo sviluppo di moderni sistemi AI generativi di testo-immagine è reso possibile da questi sviluppi dei modelli di diffusione.

I modelli di diffusione si sono comportati eccezionalmente bene in alcune aree ma meno in altre. Può essere difficile applicarli ad applicazioni come la traduzione di immagini, dove l’obiettivo è mappare tra coppie di immagini poiché presuppongono una distribuzione preesistente di rumore casuale. Spesso si utilizzano metodi complessi come l’addestramento del modello o l’aggiustamento manuale dell’approccio di campionamento per affrontare questo problema. Queste tecniche hanno basi teoriche deboli e supportano frequentemente una mappatura unidirezionale, di solito da immagini corrotte a immagini pulite, tralasciando l’idea di consistenza del ciclo.

In contrasto con il paradigma del modello di diffusione convenzionale, un team di ricercatori ha introdotto una nuova e unica strategia nota come Modelli di Ponti di Diffusione e Denoising (DDBMs). I ponti di diffusione sono una classe di processi che interpolano in modo graduale tra due distribuzioni accoppiate specificate come punti finali, e i DDBMs fanno uso di questa idea. I DDBMs derivano il punteggio del ponte di diffusione direttamente dai dati anziché partire da rumore casuale. Il punteggio appreso quindi guida il modello mentre risolve un’equazione differenziale stocastica per mappare da una distribuzione di punto finale all’altra.

La capacità dei DDBMs di combinare automaticamente diversi tipi di modelli generativi è uno dei loro principali vantaggi. Possono facilmente combinare componenti da modelli OT-Flow-Matching e modelli di diffusione basati su punteggio, consentendo l’adattamento delle decisioni di progettazione attuali e delle strategie architettoniche per affrontare la loro sfida più generale.

Il team ha applicato i DDBMs ai difficili dataset di immagini per la loro analisi empirica, tenendo conto dei modelli sia a livello di pixel che di spazio latente. I DDBMs superano ampiamente approcci di base nei comuni compiti di traduzione dell’immagine, dimostrando la loro idoneità per affrontare sfide di modifica dell’immagine impegnative. I DDBMs producono risultati competitivi con tecniche all’avanguardia appositamente create per la produzione di immagini, come valutato dai punteggi FID quando il team semplifica il problema presumendo che la distribuzione di origine sia rumore casuale.

Questo dimostra quanto i DDBMs siano adattabili e affidabili in una varietà di compiti generativi, anche quando non sono progettati specificamente per la circostanza data. In conclusione, i modelli di diffusione sono stati efficaci in una varietà di compiti generativi, ma presentano svantaggi per lavori come la traduzione di immagini. I suggeriti DDBMs offrono una soluzione innovativa e scalabile che integra la generazione basata sulla diffusione e i metodi di traduzione delle distribuzioni, migliorando le prestazioni e la versatilità nel affrontare compiti impegnativi correlati alle immagini.