Google DeepMind introduce Direct Reward Fine-Tuning (DRaFT) Un metodo efficace di intelligenza artificiale per il raffinamento dei modelli di diffusione al fine di massimizzare le funzioni di ricompensa differenziabili’.

Google DeepMind presenta DRaFT (Direct Reward Fine-Tuning) un efficace metodo di intelligenza artificiale per ottimizzare i modelli di apprendimento al fine di massimizzare le funzioni di ricompensa differenziabili.

I modelli di diffusione hanno rivoluzionato la modellazione generativa in vari tipi di dati. Tuttavia, nelle applicazioni pratiche come la generazione di immagini esteticamente gradevoli da descrizioni di testo, spesso è necessario un aggiustamento fine. I modelli di diffusione da testo a immagine utilizzano tecniche come l’orientamento senza classificatore e set di dati curati come LAION Aesthetics per migliorare la corrispondenza e la qualità delle immagini.

Nella loro ricerca, gli autori presentano un metodo diretto e efficiente per l’aggiustamento fine delle ricompense basato su gradienti, che coinvolge la differenziazione del processo di campionamento della diffusione. Introducono il concetto di Direct Reward Fine-Tuning (DRaFT), che essenzialmente retropropaga attraverso l’intera catena di campionamento, tipicamente rappresentata come un grafo di calcolo non arrotolato con una lunghezza di 50 passaggi. Per gestire efficacemente la memoria e i costi di calcolo, utilizzano tecniche di checkpointing del gradiente e ottimizzano i pesi di LoRA invece di modificare l’intero set di parametri del modello.

L’immagine sopra illustra DRaFT utilizzando modelli di ricompensa per preferenza umana. Inoltre, gli autori introducono miglioramenti al metodo DRaFT per migliorarne l’efficienza e le prestazioni. Prima di tutto, propongono DRaFT-K, una variante che limita la retropropagazione solo agli ultimi K passaggi del campionamento durante il calcolo del gradiente per il raffinamento. I risultati empirici dimostrano che questo approccio di gradiente troncato supera significativamente la retropropagazione completa con lo stesso numero di passaggi di addestramento, poiché la retropropagazione completa può portare a problemi con i gradienti esplosivi.

Inoltre, gli autori introducono DRaFT-LV, una variante di DRaFT-1 che calcola stime del gradiente a varianza inferiore mediante la media su più campioni di rumore, migliorando ulteriormente l’efficienza del loro approccio.

Gli autori dello studio hanno applicato DRaFT a Stable Diffusion 1.4 e hanno condotto valutazioni utilizzando varie funzioni di ricompensa e set di prompt. I loro metodi, che sfruttano i gradienti, hanno dimostrato significativi vantaggi di efficienza rispetto alle basi di raffinamento RL-based. Ad esempio, hanno ottenuto un miglioramento di velocità di oltre 200 volte quando si massimizzano i punteggi del classificatore di LAION Aesthetics rispetto agli algoritmi RL.

DRaFT-LV, una delle loro varianti proposte, ha dimostrato un’efficienza eccezionale, imparando approssimativamente il doppio più velocemente di ReFL, un precedente metodo di raffinamento basato su gradienti. Inoltre, hanno dimostrato la versatilità di DRaFT combinando o interpolando modelli DRaFT con modelli pre-addestrati, che può essere ottenuto attraverso l’aggiustamento dei pesi di LoRA tramite la miscelazione o la scalatura.

In conclusione, l’aggiustamento diretto dei modelli di diffusione su ricompense differenziabili offre una promettente via per migliorare le tecniche di modellazione generativa, con implicazioni per applicazioni che spaziano immagini, testo e altro ancora. La sua efficienza, versatilità ed efficacia lo rendono un’importante aggiunta al set di strumenti dei ricercatori e dei professionisti nel campo dell’apprendimento automatico e della modellazione generativa.