Questo articolo sull’IA presenta DiffEnc Sviluppo dei modelli di diffusione per migliorare le prestazioni generative

Innovativo sviluppo di modelli di diffusione con DiffEnc per migliorare le prestazioni generative dell'IA

I modelli di diffusione sono potenti modelli che sono prominenti in una vasta gamma di compiti di generazione – immagini, discorsi, video e musica. Sono in grado di raggiungere prestazioni all’avanguardia nella generazione di immagini, con una qualità visiva superiore e una stima della densità. I modelli di diffusione definiscono una catena di Markov di passi di diffusione per aggiungere gradualmente rumore casuale alle immagini e quindi imparare a invertire il processo per generare immagini desiderate di alta qualità.

I modelli di diffusione operano come un framework gerarchico, con una serie di variabili latenti generate sequenzialmente, in cui ogni variabile dipende da quella generata nel passo precedente. L’architettura dei modelli di diffusione ha i seguenti vincoli:

  • Il processo di introduzione del rumore nei dati è diretto e fisso.
  • Ogni strato di variabili nascoste dipende solo dal passo precedente.
  • Tutti i passi nel modello condividono gli stessi parametri.

Nonostante le limitazioni sopra menzionate, i modelli di diffusione sono altamente scalabili e flessibili. In questo articolo, un gruppo di ricercatori ha introdotto un nuovo framework, DiffEnf, per aumentare ulteriormente la flessibilità senza influire sulla scalabilità.

Diversamente dal metodo tradizionale di aggiunta di rumore, i ricercatori hanno introdotto un codificatore dipendente dal tempo che parametrizza la media del processo di diffusione. Il codificatore prevede essenzialmente l’immagine codificata in un determinato momento. Inoltre, questo codificatore viene utilizzato solo durante la fase di addestramento e non durante il processo di campionamento. Queste due proprietà rendono DiffEnc più flessibile rispetto ai modelli di diffusione tradizionali senza influire sul tempo di campionamento.

Per la valutazione, i ricercatori hanno confrontato diverse versioni di DiffEnc con una baseline standard di VDM su due set di dati popolari: CIFAR-10 e MNIST. Il modello DiffEnc-32-4 ha prestazioni superiori rispetto ai lavori precedenti e al modello VDMv-32 in termini di Bits Per Dimension (BPD) più bassi. Questo suggerisce che il codificatore, sebbene non utilizzato durante il campionamento, contribuisce a un migliore modello generativo senza influire sul tempo di campionamento. I risultati mostrano anche che la differenza nella perdita totale è principalmente dovuta al miglioramento nella perdita di diffusione per DiffEnc-32-4, sottolineando il ruolo utile del codificatore nel processo di diffusione.

I ricercatori hanno osservato anche che l’aumento delle dimensioni del codificatore non produce un miglioramento significativo nella perdita media di diffusione rispetto a VDM. Ipotizzano che per ottenere differenze significative potrebbe essere necessario un addestramento più lungo o potrebbe essere necessario un modello di diffusione più grande per utilizzare appieno le capacità del codificatore.

I risultati mostrano che l’aggiunta di un codificatore dipendente dal tempo potrebbe migliorare il processo di diffusione. Anche se il codificatore non aumenta il tempo di campionamento, il processo di campionamento è comunque più lento rispetto alle Reti Generative Antagonistiche (GAN). Tuttavia, nonostante questa limitazione, DiffEnc migliora ancora la flessibilità dei modelli di diffusione ed è in grado di raggiungere valori di probabilità all’avanguardia sul set di dati CIFAR-10. Inoltre, i ricercatori propongono che il framework possa essere combinato con altri metodi esistenti, come la diffusione latente, la guida del discriminatore e la regolarizzazione della coerenza, per migliorare le rappresentazioni apprese, aprendo potenzialmente nuove vie per una vasta gamma di compiti di generazione di immagini.