Ricercatori dell’UT Austin e dell’UC Berkeley introducono Ambient Diffusion un framework di intelligenza artificiale per addestrare/affinare modelli di diffusione dati solo con dati corrotti come input.

Ricercatori dell'UT Austin e dell'UC Berkeley introducono Ambient Diffusion, un framework di intelligenza artificiale per addestrare modelli di diffusione dati con dati corrotti come input.

Per apprendere distribuzioni ad alta dimensionalità e risolvere problemi inversi, i modelli di diffusione generativa stanno emergendo come strutture flessibili e potenti. I modelli di base condizionati al testo come Dalle-2, Latent Diffusion e Imagen hanno ottenuto performance notevoli in domini di immagini generiche grazie a diversi progressi recenti. I modelli di diffusione hanno recentemente mostrato la loro capacità di memorizzare campioni dal loro set di addestramento. Inoltre, un avversario con accesso semplice alle interrogazioni del modello può ottenere campioni del dataset, sollevando preoccupazioni di privacy, sicurezza e copyright.

I ricercatori presentano il primo framework basato sulla diffusione che può apprendere una distribuzione sconosciuta da campioni fortemente contaminati. Questo problema emerge in contesti scientifici in cui ottenere campioni puliti è difficile o costoso. Poiché i modelli generativi non vengono mai esposti a dati di addestramento puliti, è meno probabile che memorizzino campioni di addestramento particolari. Il concetto centrale è quello di corrompere ulteriormente l’immagine originale durante la diffusione introducendo ulteriore distorsione di misurazione e quindi sfidare il modello a prevedere l’immagine corrotta originale a partire dall’altra immagine corrotta. La ricerca scientifica verifica che l’approccio genera modelli capaci di acquisire l’aspettativa condizionale dell’immagine completa non corrotta alla luce di questa ulteriore corruzione di misurazione. L’inpainting e il compressed sensing sono due metodi di corruzione che rientrano in questa generalizzazione. Addestrandoli su benchmark industriali, gli scienziati mostrano che i loro modelli possono apprendere la distribuzione anche quando tutti i campioni di addestramento mancano del 90% dei loro pixel. Dimostrano anche che i modelli di base possono essere sintonizzati su piccoli dataset corrotti e può essere appresa la distribuzione pulita senza memorizzazione dell’insieme di addestramento.

Caratteristiche Notabili

  • Il concetto centrale di questa ricerca è quello di distorto ulteriormente l’immagine e costringere il modello a prevedere l’immagine distorta dall’immagine originale.
  • Il loro approccio addestra modelli di diffusione utilizzando dati di addestramento corrotti su benchmark popolari (CelebA, CIFAR-10 e AFHQ).
  • I ricercatori forniscono un campionatore approssimativo per la distribuzione desiderata p0(x0) basato sulle aspettative condizionali apprese.
  • Come dimostrato dalla ricerca, è possibile apprendere una quantità significativa sulla distribuzione delle foto originali, anche se fino al 90% dei pixel è assente. Hanno risultati migliori sia rispetto al precedente miglior AmbientGAN che ai baselines naturali.
  • Non avendo mai visto un’immagine pulita durante l’addestramento, si dimostra che i modelli si comportano in modo simile o migliore rispetto ai modelli di diffusione state-of-the-art per gestire determinati problemi inversi. Mentre i baselines richiedono molte fasi di diffusione, i modelli hanno bisogno di un solo passaggio di previsione per portare a termine il loro compito.
  • L’approccio viene utilizzato per raffinare ulteriormente i modelli di diffusione preaddestrati standard nella comunità di ricerca. È possibile apprendere distribuzioni da un numero limitato di campioni corrotti e il processo di sintonizzazione richiede solo alcune ore su una singola GPU.
  • Alcuni campioni corrotti su un dominio diverso possono essere utilizzati anche per sintonizzare i modelli di base come Deepfloyd’s IF.
  • Per quantificare l’effetto di apprendimento, i ricercatori confrontano i modelli addestrati con e senza corruzione mostrando la distribuzione delle somiglianze di primo livello rispetto ai campioni di addestramento.
  • Si dimostra che i modelli addestrati su dati sufficientemente distorti non conservano alcuna conoscenza dei dati di addestramento originali. Vengono valutati il compromesso tra corruzione (che determina il livello di memorizzazione), dati di addestramento e qualità del generatore appreso.

Limitazioni

  • Il livello di corruzione è inversamente proporzionale alla qualità del generatore. Il generatore è meno probabile che apprenda dalla memoria quando il livello di corruzione aumenta, ma a costo della qualità. La definizione precisa di questo compromesso rimane un problema di ricerca non risolto. E per stimare E[x0|xt] con i modelli addestrati, i ricercatori hanno provato algoritmi di approssimazione di base in questo lavoro.
  • Inoltre, è necessario stabilire ipotesi sulla distribuzione dei dati per fornire garanzie di privacy rigide per la protezione di qualsiasi campione di addestramento. Il materiale supplementare mostra che l’oracolo di ripristino può ripristinare E precisamente [x0|xt], anche se i ricercatori non forniscono una tecnica.
  • Questo metodo non funzionerà se le misurazioni contengono anche rumore. L’utilizzo della regolarizzazione SURE potrebbe aiutare la ricerca futura a superare questa restrizione.