Ricercatori del MIT introducono il campionamento di riavvio per migliorare i processi generativi

I ricercatori del MIT usano il campionamento di riavvio per migliorare i processi generativi.

I modelli generativi profondi basati su equazioni differenziali sono emersi di recente come potenti strumenti di modellazione per dati ad alta dimensionalità in campi che vanno dalla sintesi delle immagini alla biologia. Questi modelli risolvono equazioni differenziali in modo iterativo all’indietro, trasformando infine una distribuzione di base (come una Gaussiana nei modelli di diffusione) in una distribuzione di dati complicata.

Studi hanno categorizzato i campionatori precedenti che possono modellare questi processi reversibili in due tipi:

  1. Campionatori ODE il cui sviluppo è deterministico dopo la randomizzazione iniziale
  2. Campionatori SDE le cui traiettorie di generazione sono stocastiche.

Diverse pubblicazioni forniscono prove che questi campionatori mostrano vantaggi in diversi contesti. Gli errori di discretizzazione più piccoli prodotti dai risolutori ODE consentono una qualità campionaria utilizzabile anche a passi più grandi. La qualità dei loro discendenti, però, si stabilizza rapidamente. D’altra parte, gli SDE migliorano la qualità nel regime di grandi NFE, ma a costo di più tempo trascorso nel campionamento.

Ispirati da questo, i ricercatori del MIT hanno sviluppato una nuova tecnica di campionamento chiamata Restart, che combina i vantaggi di ODE e SDE. L’algoritmo di campionamento Restart consiste in K iterazioni di due sotto-routine in un tempo fisso: un processo di avanzamento Restart che introduce una grande quantità di rumore, effettivamente “riavviando” il processo di retroazione originale, e un processo di retroazione Restart che esegue l’ODE all’indietro.

L’algoritmo di Restart decoppia casualità e deriva, e la quantità di rumore aggiunto nel processo di avanzamento di Restart è molto maggiore rispetto al piccolo rumore a passo singolo che si interseca con le derivate negli SDE precedenti, aumentando l’effetto di contrazione sugli errori accumulati. L’effetto di contrazione introdotto ad ogni iterazione di Restart è rafforzato ciclando avanti e indietro K volte. Restart può ridurre gli errori di discretizzazione e ottenere dimensioni di passo simili a ODE grazie ai suoi processi di retroazione deterministici. In realtà, l’intervallo di Restart viene spesso posizionato alla fine della simulazione, dove l’errore accumulato è maggiore, per sfruttare al massimo gli effetti di contrazione. Inoltre, vengono utilizzati più periodi di Restart per attività più difficili al fine di ridurre gli errori iniziali.

I risultati sperimentali mostrano che, in diversi NFE, set di dati e modelli pre-addestrati, Restart supera i risolutori ODE e SDE all’avanguardia in qualità e velocità. In particolare, su CIFAR-10 con VP, Restart raggiunge un’accelerazione di 10 volte rispetto agli SDE con le migliori prestazioni precedenti e su ImageNet 64×64 con EDM, un’accelerazione di 2 volte superando anche i risolutori ODE nel regime di piccolo NFE.

I ricercatori applicano anche Restart a un modello di diffusione stabile pre-addestrato su immagini LAION 512 x 512 per tradurre testo in immagini. Restart migliora i campionatori precedenti trovando un migliore equilibrio tra allineamento testo-immagine/qualità visiva (valutato da punteggi CLIP/Aesthetic) e diversità (misurato dal punteggio FID) con una forza di guida del classificatore variabile.

Per realizzare appieno il potenziale del framework di Restart, il team prevede di costruire un metodo più morale in futuro per selezionare automaticamente gli iperparametri appropriati per Restart basandosi sull’analisi degli errori dei modelli.