Ricercatori del KAIST e di Google hanno introdotto la distillazione del punteggio collaborativo (CSD) un metodo di intelligenza artificiale che estende il singolare del modello di diffusione del testo-all’immagine per una sintesi visiva coerente.

Ricercatori del KAIST e Google hanno introdotto il CSD, un metodo di intelligenza artificiale che estende il modello di diffusione testo-immagine per una sintesi visiva coerente.

I modelli di diffusione testo-immagine sono stati costruiti utilizzando miliardi di coppie immagine-testo ed efficienti topologie, dimostrando incredibili capacità nella sintesi di immagini realistiche, di alta qualità e diverse con il testo fornito come input. Si sono anche estesi a diverse applicazioni, tra cui la traduzione immagine-immagine, la creazione controllata e la personalizzazione. Uno degli utilizzi più recenti in questo ambito è la capacità di estendersi oltre le immagini 2D in altre modalità complesse senza modificare i modelli di diffusione mediante l’utilizzo di dati di allenamento specifici per la modalità. Questo studio si propone di affrontare la sfida di utilizzare la conoscenza dei modelli di diffusione testo-immagine pre-addestrati per affrontare sempre più compiti di generazione visiva ad alta dimensionalità oltre le immagini 2D senza modificare i modelli di diffusione utilizzando dati di allenamento specifici per la modalità.

Si inizia con l’intuizione che molti dati visivi complessi, inclusi film e ambienti 3D, possono essere rappresentati come una collezione di immagini limitate dalla coerenza specifica di una certa modalità. Ad esempio, una scena 3D è una collezione di fotogrammi multi-vista con coerenza visiva, mentre un film è una collezione di fotogrammi con coerenza temporale. Sfortunatamente, poiché il loro metodo di campionamento generativo non tiene conto della coerenza quando si utilizza il modello di diffusione delle immagini, i modelli di diffusione delle immagini non sono dotati della capacità di garantire la coerenza tra un gruppo di immagini per la sintesi o la modifica. Di conseguenza, quando i modelli di diffusione delle immagini vengono applicati a questi dati complessi senza tenere conto della coerenza, il risultato potrebbe essere più coerente, come si vede nella Figura 1 (Crop a patch), dove è chiaro dove le foto sono state unite insieme.

Figura 1: Modifica di immagini panoramiche: in alto a destra, Instruct-Pix2Pix produce una modifica di immagini erratiche su patch ritagliate. (Terza riga) Anche con una scala guida y elevata, Instruct-Pix2Pix con MultiDiffusion modifica un’immagine coerente ma con una minore fedeltà all’istruzione. Terza riga Scegliendo la scala guida appropriata, CSD-Edit offre una modifica coerente delle immagini con una maggiore fedeltà all’istruzione.

Questi comportamenti sono stati osservati anche nella modifica video. Pertanto, ricerche successive hanno suggerito di adottare il modello di diffusione delle immagini per affrontare la coerenza temporale specifica del video. Qui, si pone l’attenzione su una nuova strategia chiamata Score Distillation Sampling (SDS), che utilizza la ricca priorità generativa dei modelli di diffusione testo-immagine per ottimizzare qualsiasi operatore differenziabile. Attraverso la condensazione dei punteggi di densità di diffusione appresi, SDS affronta la sfida del campionamento generativo come un problema di ottimizzazione. Mentre altri ricercatori hanno dimostrato l’efficacia di SDS nella produzione di oggetti 3D dal testo utilizzando priorità di campionamento di radianza neurale, che assumono una geometria coerente nello spazio 3D tramite la modellazione di densità, non è ancora stato studiato per la sintesi visiva coerente di altre modalità.

In questo studio, gli autori del KAIST e di Google Research propongono Collaborative Score Distillation (CSD), una tecnica semplice ma efficace che amplia il potenziale del modello di diffusione testo-immagine per una sintesi visiva affidabile. La chiave del loro approccio è duplice: in primo luogo, utilizzano la discesa del gradiente variazionale di Stein (SVGD) per generalizzare SDS, facendo sì che numerosi campioni condividano informazioni apprese dai modelli di diffusione per raggiungere la coerenza tra i campioni. In secondo luogo, forniscono CSD-Edit, una potente tecnica per la modifica visiva coerente che combina CSD con il modello di diffusione delle immagini guidato dall’istruzione recentemente sviluppato Instruct-Pix2Pix.

Utilizzano una varietà di applicazioni, tra cui la modifica di immagini panoramiche, la modifica video e la ricostruzione di scene 3D, per mostrare quanto sia adattabile la loro metodologia. Dimostrano come CSD-alter possa modificare immagini panoramiche con coerenza spaziale massimizzando diverse patch di immagini. Inoltre, il loro metodo raggiunge un equilibrio superiore tra l’accuratezza dell’istruzione e la coerenza tra immagine di origine e immagine di destinazione rispetto agli approcci precedenti. Negli esperimenti di modifica video, CSD-Edit raggiunge la coerenza temporale ottimizzando numerosi fotogrammi, ottenendo così una modifica video coerente tra fotogrammi temporali. Utilizzano inoltre CSD-Edit per generare e modificare scene 3D, promuovendo l’uniformità tra diversi punti di vista.