Una ricerca sull’IA sull’incorporazione dell’interpolazione tra immagini con l’aiuto dei modelli di diffusione

Ricerca sull'IA e interpolazione tra immagini con modelli di diffusione

L’Intelligenza Artificiale è l’ultimo argomento di discussione tra sviluppatori e ricercatori. Dalla Elaborazione del Linguaggio Naturale e la Comprensione del Linguaggio Naturale alla Visione Artificiale, l’AI sta rivoluzionando quasi ogni settore. I recenti modelli di linguaggio di grandi dimensioni come DALL-E sono stati in grado di generare bellissime immagini da prompt testuali. Nonostante ciò, c’è ancora bisogno di ulteriori ricerche nell’interpolazione tra due immagini di input. Queste interpolazioni non possono essere effettuate tramite le pipeline di generazione di immagini attualmente in uso. 

L’aggiunta della funzione di interpolazione nei modelli di generazione di immagini può portare a nuove e innovative applicazioni. Di recente, un team di ricercatori del MIT CSAIL ha pubblicato un articolo di ricerca che affronta il problema e suggerisce una strategia per produrre interpolazioni di alta qualità tra immagini di diversi domini e layout utilizzando modelli di diffusione latente pre-addestrati. Hanno condiviso come l’inclusione dell’interpolazione zero-shot utilizzando modelli di diffusione latente può aiutare. La loro strategia prevede di lavorare nello spazio latente del modello generativo applicando l’interpolazione tra le rappresentazioni latenti corrispondenti delle due immagini di input. 

La procedura di interpolazione avviene a vari livelli progressivamente inferiori di rumore, dove il rumore si riferisce a una perturbazione casuale che viene applicata ai vettori latenti e che influisce sull’aspetto dell’immagine risultante. I ricercatori hanno condiviso come denoiscono le rappresentazioni interpolate dopo aver completato l’interpolazione, minimizzando l’impatto del rumore aggiuntivo, il che aiuterebbe a migliorare le immagini interpolate. 

Le incapsulazioni di testo interpolate ottenute tramite inversione testuale sono necessarie per la fase di denoising. Le descrizioni scritte vengono quindi convertite in caratteristiche visive equivalenti con l’aiuto dell’inversione testuale, che consente al modello di comprendere le proprietà di interpolazione desiderate. Le pose soggetto sono state intentionalmente incorporate per guidare la procedura di interpolazione in modo che il modello sia in grado di produrre interpolazioni più coerenti e realistiche che forniscono informazioni sulla posizione e l’orientamento degli oggetti o delle persone nelle foto.

Questo approccio è in grado di generare molteplici interpolazioni candidate per garantire risultati di alta qualità e una buona flessibilità. Utilizzando CLIP, una rete neurale in grado di comprendere il contenuto di immagini e testi, queste candidature possono essere confrontate e la migliore interpolazione in base a requisiti specifici o preferenze dell’utente può essere scelta. In diversi contesti, tra cui pose soggetto, stili di immagine e contenuti delle immagini, il team ha dimostrato che questo metodo offre interpolazioni credibili. 

Il team ha condiviso che le metriche quantitative convenzionali come FID (Fréchet Inception Distance), comunemente utilizzate per valutare la qualità delle immagini generate, non sono sufficienti per misurare la qualità delle interpolazioni perché le interpolazioni hanno caratteristiche uniche e devono essere valutate in modo diverso dalle singole immagini generate. La pipeline introdotta è utile e facilmente utilizzabile in quanto offre all’utente una grande flessibilità attraverso il condizionamento del testo, la pianificazione del rumore e la possibilità di scegliere manualmente tra le candidature create. 

In conclusione, questo studio affronta un problema che ha ricevuto poco attenzione nel campo dell’editing di immagini. In questa strategia vengono utilizzati modelli di diffusione latente già addestrati, e l’approccio è stato confrontato con altri metodi di interpolazione e risultati qualitativi per mostrare la sua efficacia.