Sbloccare la precisione nella modifica di immagini guidate dal testo e scene 3D Incontra ‘Watch Your Steps

Sbloccare la precisione nella modifica di immagini guidate dal testo e scene 3D con 'Watch Your Steps'.

I campi di radiazione neurale (NeRF) stanno diventando sempre più popolari grazie alla loro capacità di creare visualizzazioni accurate e intuitive. Ciò ha portato all’idea di modificare i NeRF per cambiare le immagini. I modelli di diffusione del rumore sono anche stati in grado di produrre immagini notevolmente buone a partire da descrizioni testuali e sono diventati popolari per la modifica delle immagini grazie alla loro efficacia. Nonostante la promessa delle tecniche di modifica delle immagini basate sulla diffusione, manca in modo evidente una metodologia automatizzata per identificare le aree che necessitano di modifiche. I metodi attualmente utilizzati si basano o su maschere fornite dall’utente, o sull’impiego di informazioni globali presenti in input rumorosi come punto di partenza, o dipendono dai dati di input per determinare come sarà effettuato il processo di rimozione del rumore.

Tuttavia, questi approcci tendono tipicamente ad apportare modifiche eccessive. Anche l’applicazione IN2N per la modifica dei NeRF incontra problemi con la modifica eccessiva della scena. Similmente a IP2P, DiffEdit utilizza previsioni di rumore guidate da didascalie per individuare zone di modifica, sebbene questo metodo sia più lento e meno efficiente. Un team di ricercatori ha presentato un approccio unico per individuare e localizzare l’area precisa all’interno di un’immagine che deve essere modificata in base a una specifica istruzione testuale. Conosciuto come Watch Your Steps, questo approccio supporta la modifica di immagini e scene locali mediante istruzioni testuali.

Il team ha scoperto una distinzione chiave tra le previsioni fatte da IP2P con e senza l’istruzione utilizzando le capacità di InstructPix2Pix (IP2P). Questa differenza è stata chiamata mappa di rilevanza. La mappa di rilevanza funge essenzialmente da mappa stradale, illustrando l’importanza di cambiare pixel specifici per raggiungere le modifiche desiderate. Serve come guida per apportare modifiche, garantendo che vengano cambiati solo i pixel necessari lasciando quelli non necessari intatti.

Il team ha condiviso che le mappe di rilevanza sono utili anche per oltre la semplice modifica di immagini di base, in quanto migliorano anche l’accuratezza delle alterazioni guidate dal testo nel contesto di scene 3D, specialmente quelle modellate da campi di radianza neurale. Per fare ciò, utilizzando le mappe di rilevanza connesse a diverse visualizzazioni di addestramento, è stata addestrata una mappa di rilevanza. La regione 3D che dovrebbe essere modificata per ottenere le modifiche desiderate è stata definita in modo efficace da questa mappa di rilevanza, e quindi il processo comporta il rendering di mappe di rilevanza dalla mappa di rilevanza stabilita per guidare l’aggiornamento iterativo delle visualizzazioni di addestramento.

Alla valutazione, è stato osservato che questo metodo ha raggiunto un livello di prestazioni senza precedenti per i lavori di modifica dei campi di radianza neurale (NeRF) così come per la modifica delle immagini. Ciò ha dimostrato il valore e l’eccellenza di questo approccio nel superare le difficoltà presentate dalla manipolazione di immagini e scene.