Salesforce AI ha sviluppato un nuovo algoritmo di editing chiamato EDICT che esegue la generazione di diffusione testo-immagine con un processo invertibile dato qualsiasi modello di diffusione esistente.

Salesforce AI ha sviluppato un algoritmo di editing chiamato EDICT per generare diffusione testo-immagine in modo invertibile con qualsiasi modello di diffusione esistente.

Con gli ultimi progressi nella tecnologia e nel campo dell’Intelligenza Artificiale, ci sono state molte innovazioni. Sia la generazione di testo utilizzando il modello ChatGPT di grande tendenza che la generazione di immagini da un testo, tutto è ora possibile. Attualmente, ci sono diversi modelli di testo-immagine che non solo producono un’immagine fresca da una descrizione testuale, ma modificano anche un’immagine esistente. Generare un’immagine è solitamente più facile che modificare un’immagine disponibile, poiché è necessario mantenere molti dettagli durante la modifica. Per una modifica accurata dell’immagine basata su testo, i ricercatori hanno sviluppato un nuovo algoritmo, EDICT – Exact Diffusion Inversion via Coupled Transformations. EDICT è un nuovo algoritmo in grado di eseguire la modifica delle immagini guidata dal testo con l’aiuto dei modelli di diffusione.

La generazione di testo-immagine è un compito in cui un modello di apprendimento automatico viene addestrato per produrre un’immagine basata su una descrizione testuale fornita. Il modello impara ad associare descrizioni testuali a immagini e genera nuove immagini che corrispondono alla descrizione specificata. EDICT esegue la generazione di diffusione di testo-immagine utilizzando qualsiasi modello di diffusione esistente. Nei modelli di generazione di immagini, i modelli di diffusione sono modelli generativi che utilizzano un processo di diffusione per produrre nuove immagini. Il processo di diffusione inizia da un’immagine casuale e la filtra iterativamente applicando una serie di trasformazioni fino a raggiungere un’immagine finale simile all’immagine di destinazione.

I modelli di diffusione vengono addestrati per generare un’immagine priva di rumore da un’immagine rumorosa con l’aiuto di una descrizione testuale. Per modificare un’immagine, viene aggiunto rumore all’immagine originale e questa generazione parziale viene utilizzata per eseguire una nuova generazione utilizzando il testo fornito. EDICT si basa sul concetto di ottenere un’immagine rumorosa che produca esattamente l’immagine originale quando fornita con il testo originale o il prompt. È una sorta di tecnica di denoising inversa. In questo modo, se il testo originale viene leggermente modificato, l’immagine modificata rimarrà in gran parte invariata con solo le modifiche necessarie.

Il team dietro EDICT condivide i risultati dell’algoritmo con l’aiuto di un esempio. Durante la generazione di un’immagine di un gatto che fa surf sull’acqua modificando un’immagine esistente di un cane che fa surf, molti dettagli e informazioni minute vengono persi, come le onde, il colore della tavola, ecc. Questo perché, in questo metodo, viene semplicemente aggiunto rumore all’immagine originale per generare quella nuova. Nella tecnica EDICT, viene eseguita una generazione inversa trovando un’immagine rumorosa che genererebbe esattamente l’immagine originale. Questa immagine rumorosa genera poi l’immagine effettiva del cane che fa surf con l’aiuto della didascalia testuale. Il rumore dall’immagine generata viene copiato per interrogare nuovamente il modello con l’immagine senza rumore. Seguito da questo, viene effettuata una modifica nel testo semplicemente sostituendo la parola cane con la parola gatto e infine si ottiene un’immagine modificata comparativamente dettagliata di un gatto che fa surf. EDICT si basa semplicemente sull’idea di creare due copie identiche di un’immagine e migliorare alternativamente ciascuna di esse con dettagli dall’altra in modo reversibile.

Questo nuovo approccio sembra senza dubbio promettente, poiché i modelli attuali di generazione di testo-immagine sono inconsistenti e non rendono piena giustizia ai dettagli dell’immagine originale. Invertendo il processo di generazione, è possibile preservare il contenuto importante dell’immagine. Considerando le crescenti innovazioni e la domanda di questi modelli di generazione di immagini, EDICT sembra essere una grande concorrenza per tutti i modelli esistenti.