I ricercatori di OpenAI pionieristici nei modelli di coerenza avanzati per il campionamento di dati di alta qualità senza addestramento avversario

I modelli di consistenza rappresentano una categoria di modelli generativi progettati per generare dati di alta qualità in un singolo passaggio senza dipendere dall’addestramento avversario. Questi modelli raggiungono una qualità campionaria ottimale apprendendo dai modelli di diffusione pre-addestrati e utilizzando metriche come LPIPS (Learning Perceptual Image Patch Similarity). La qualità dei modelli di consistenza è limitata al modello di diffusione pre-addestrato quando viene utilizzata la distillazione. Inoltre, l’applicazione di LPIPS introduce un bias indesiderato nel processo di valutazione.

I modelli di consistenza non richiedono numerosi passaggi di campionamento per generare campioni di alta qualità rispetto ai modelli di diffusione basati sul punteggio. Mantengono i principali vantaggi dei modelli di diffusione, come la possibilità di scambiare potenza di calcolo per campionamenti multipli che migliorano la qualità delle campioni. Inoltre, rendono possibile utilizzare una strategia a zero-shot per apportare modifiche ai dati senza alcuna esposizione precedente.

Questi modelli utilizzano LPIPS e distillazione, che è il processo di rimozione delle conoscenze dai modelli di diffusione già addestrati. C’è uno svantaggio: l’introduzione di LPIPS introduce un bias indesiderato nel processo di valutazione, in quanto la distillazione stabilisce una connessione tra la qualità dei modelli di consistenza e quella dei loro modelli di diffusione originali.

Nella loro pubblicazione “Tecniche per l’addestramento di modelli di consistenza”, il team di ricerca di OpenAI ha introdotto metodi innovativi che consentono ai modelli di consistenza di apprendere direttamente dai dati. Questi metodi superano le prestazioni della distillazione di consistenza (CD) nella produzione di campioni di alta qualità mentre allo stesso tempo mitigano i vincoli associati a LPIPS.

La distillazione di consistenza (CD) e l’addestramento di consistenza sono stati storicamente i principali metodi utilizzati per addestrare i modelli di consistenza (CT). Studi precedenti dimostrano in modo coerente che la CD tende a funzionare meglio rispetto alla CT. Ma la CD limita la qualità dei campioni che il modello di consistenza può ottenere richiedendo l’addestramento di un modello di diffusione unico.

I ricercatori suggeriscono di addestrare i modelli in modo coerente aggiungendo un programma di rumore lognormale. Consigliano anche di aumentare regolarmente il numero totale di passi di discretizzazione durante l’addestramento. Questo studio migliora il Contrastive Training (CT) a un livello in cui funziona meglio della Consistency Distillation (CD). Una combinazione di comprensione teorica e sperimentazione approfondita sul dataset CIFAR-10 ha portato a miglioramenti nel CT. I ricercatori indagano ampiamente gli effetti reali delle funzioni di pesatura, degli embedding di rumore e del dropout. Identificano anche un difetto non notato nelle analisi teoriche precedenti e propongono una soluzione semplice: eliminare l’Exponential Moving Average (EMA) dalla rete del docente.

Per mitigare il bias di valutazione causato da LPIPS, il gruppo ha utilizzato perdite pseudo-Huber dal dominio delle statistiche robuste. Esaminano anche il miglioramento della qualità dei campioni attraverso l’aggiunta di più passi di discretizzazione. Il team utilizza queste realizzazioni per presentare un curriculum semplice ma efficiente per determinare il numero totale di passi di discretizzazione.

Hanno scoperto che con l’aiuto di queste innovazioni, il Contrastive Training (CT) può ottenere punteggi Frechet Inception Distance (FID) impressionanti di 2,51 e 3,25 rispettivamente per CIFAR-10 e ImageNet 64×64, tutto in un solo passaggio di campionamento. Questi punteggi mostrano miglioramenti notevoli di 3,5 e 4 volte rispettivamente e superano quelli ottenuti da Consistency Distillation (CD).

I metodi migliorati implementati per CT superano efficacemente i suoi svantaggi precedenti, producendo risultati paragonabili a modelli di diffusione all’avanguardia e Generative Adversarial Networks (GAN). Questo risultato sottolinea il notevole potenziale dei modelli di consistenza come categoria autonoma ed entusiasmante all’interno dello spazio dei modelli generativi.