È finita l’attesa per Jurassic Park? Questo modello di intelligenza artificiale utilizza la traduzione immagine-immagine per dare vita a antichi fossili.

È finita l'attesa per Jurassic Park? Questo modello di AI utilizza la traduzione immagine-immagine per animare antichi fossili.

La traduzione immagine-immagine (I2I) è un campo interessante all’interno della computer vision e dell’apprendimento automatico che ha il potere di trasformare il contenuto visivo da un dominio all’altro in modo fluido. Questo processo di trasformazione va oltre il semplice cambio dei valori dei pixel; implica una profonda comprensione delle strutture sottostanti, della semantica e degli stili delle immagini.

L’I2I ha trovato ampie applicazioni in vari settori, dalla generazione di rappresentazioni artistiche delle fotografie alla conversione di immagini satellitari in mappe e persino alla traduzione di schizzi in immagini fotorealistiche. Sfrutta le capacità dei modelli di apprendimento profondo, come le reti generative avversariali (GAN) e le reti neurali convoluzionali (CNN).

I metodi tradizionali di I2I si sono concentrati principalmente sulla traduzione tra domini con piccole differenze, come foto in dipinti o diversi tipi di animali. Tuttavia, questi compiti non richiedono la generazione di caratteristiche visive significativamente diverse o inferenze sulla forma durante il processo di traduzione.

Conosciamo Revive-2I, un nuovo approccio a I2I, che esplora il compito di tradurre teschi in animali viventi, un compito noto come Skull2Animal.

Skull2Animal è un compito impegnativo che comporta la traduzione di teschi in immagini di animali viventi. Questo compito presenta una sfida significativa in quanto richiede la generazione di nuove caratteristiche visive, texture e colori, e l’effettuazione di inferenze sulla geometria del dominio di destinazione.

Compito Skull2Image. Fonte: https://arxiv.org/abs/2308.07316

Per superare le sfide della lunga traduzione I2I, Revive-2I utilizza suggerimenti di testo che descrivono le modifiche desiderate nell’immagine. Può generare risultati realistici e verificabili. Questo approccio offre un vincolo più rigoroso per le traduzioni accettabili, garantendo che le immagini generate si allineino al dominio di destinazione previsto.

Revive-2I utilizza suggerimenti di linguaggio naturale per eseguire la traduzione I2I senza l’uso di dati di addestramento specifici per il dominio di destinazione.

Revive-2I si compone di due fasi principali: codifica e decodifica guidata dal testo. Nella fase di codifica, l’immagine di origine viene trasformata in una rappresentazione latente utilizzando un processo chiamato diffusione. Questa rappresentazione latente viene quindi rumorizzata per incorporare le modifiche desiderate. Effettuando il processo di diffusione nello spazio latente, Revive-2I raggiunge traduzioni più veloci ed efficienti.

Panoramica di Revive-2I. Fonte: https://arxiv.org/abs/2308.07316

Trovare il punto di equilibrio per Revive-2I non è stato un compito facile. Ciò è stato sperimentato con diversi numeri di passaggi nel processo di diffusione in avanti. Effettuando passaggi parziali, il processo di traduzione può preservare meglio il contenuto dell’immagine di origine incorporando le caratteristiche del dominio di destinazione. Questo approccio consente traduzioni più robuste pur iniettando le modifiche desiderate guidate dai suggerimenti di testo.

La capacità di eseguire traduzioni I2I vincolate a lunghe distanze ha implicazioni significative in vari settori. Ad esempio, le agenzie di forze dell’ordine possono utilizzare questa tecnologia per generare immagini realistiche di sospetti basate su schizzi, facilitando l’identificazione. I conservazionisti della fauna selvatica possono mostrare gli effetti dei cambiamenti climatici sugli ecosistemi e gli habitat traducendo le immagini di specie in pericolo in controparti vive. Inoltre, i paleontologi possono dare vita a antichi fossili traducendoli in immagini dei loro corrispondenti viventi. Sembra finalmente di poter avere Jurassic Park.