Questo articolo sull’IA propone Blending-NeRF, che consiste in un NeRF preaddestrato e un NeRF modificabile per la modifica di oggetti 3D localizzati guidata dal testo.

L'articolo propone Blending-NeRF, un metodo che combina un NeRF preaddestrato con un NeRF modificabile per la modifica di oggetti 3D guidata dal testo.

Le industrie, tra cui la pittura, il design di prodotti e l’animazione, sono significativamente influenzate dalla sintesi delle immagini 3D e dalle tecnologie associate. Sebbene i nuovi metodi di sintesi delle immagini 3D, come Neural Radiance Field (NeRF), abbiano reso possibile produrre contenuti 3D su larga scala, è ancora difficile che questi metodi vengano ampiamente adottati poiché rendono difficile modificare in modo preciso e locale le forme e i colori degli oggetti. Nonostante diversi tentativi recenti di modifica degli oggetti 3D, è spesso necessario migliorare e rendere più accessibile la manipolazione più localizzata e granulare degli oggetti 3D. Questo è particolarmente vero per l’aggiunta o la cancellazione di specifici elementi di determinati stili. Mentre Text2Mesh e TANGO consentono solo modifiche di base alla texture e alla forma superficiale di oggetti 3D completi, tentativi precedenti come EditNeRF e NeRFEditing offrono solo possibilità di modifica limitate e non versatili. 

Sebbene CLIP-NeRF proponga una tecnica generativa con NeRF condizionali disentangled per la modifica degli oggetti, la modifica della sola porzione richiesta degli oggetti a livello locale è una sfida. È necessaria una quantità sostanziale di dati di addestramento per la categoria di modifica prevista. Forniscono anche un metodo diverso per modificare l’aspetto degli oggetti, ma non la forma: il fine-tuning di un singolo NeRF per scena con un obiettivo guidato da CLIP. È necessario apportare modifiche stilistiche a determinate aree dell’oggetto, come l’alterazione selettiva del colore e l’aggiunta e la cancellazione locali di densità, come illustrato nella Figura 1, per realizzare una modifica localizzata efficace e pratica degli oggetti 3D mediante prompt di testo su larga scala. 

Figura 1 mostra i risultati della nostra strategia per la manipolazione degli oggetti localizzata guidata dal testo. L’oggetto di base è un bulldozer e ogni modifica viene effettuata utilizzando procedure per regolare il colore, aumentare la densità e sottrarre la densità.

In questo articolo, gli autori di LG Electronics e Seoul National University propongono una tecnica all’avanguardia per la modifica localizzata degli oggetti che consente ai prompt di testo di modificare gli oggetti 3D, fornendo una completa stilizzazione e una modifica localizzata basata sulla densità. Ritengono che, per stilizzare completamente forme e colori, affidarsi al semplice fine-tuning di un singolo NeRF per generare nuove densità vicino a una bassa densità iniziale o per modificare densità esistenti tramite un obiettivo guidato da CLIP sia insufficiente. Invece, utilizzano un metodo che combina la rappresentazione originale dell’oggetto 3D con un sottoinsieme di rappresentazioni volumetriche implicite parametrizzate e poi utilizzano un’architettura NeRF modificabile addestrata per produrre l’immagine mescolata in modo naturale. Utilizzano un approccio visione-linguaggio preaddestrato come CLIPSeg per rilevare l’area che deve essere modificata nella procedura di input del testo. Il metodo proposto si basa su un’architettura NeRF stratificata chiamata Blending-NeRF, che comprende un NeRF preaddestrato e un NeRF modificabile. 

In alcuni casi, i NeRF vengono addestrati contemporaneamente per ricreare gli elementi statici e dinamici di una scena attiva utilizzando più NeRF. Tuttavia, il loro metodo aggiunge un ulteriore NeRF per consentire modifiche basate sul testo in aree specifiche di una scena statica preaddestrata. Queste modifiche includono diversi processi di modifica, tra cui regolazioni del colore, aggiunta di densità e riduzione della densità. Possono localizzare e modificare in modo preciso gli oggetti 3D combinando densità e colore dei due NeRF. 

Offrono l’innovativa architettura Blending-NeRF, che combina un NeRF preaddestrato con un NeRF modificabile utilizzando una varietà di obiettivi e metodi di addestramento. 

Questo è un riepilogo dei loro contributi. 

• Con questo metodo è possibile modificare in modo intuitivo alcuni oggetti 3D mantenendone l’aspetto originale. 

• Aggiungono nuove tecniche di mescolamento che misurano la quantità di aggiunta di densità, riduzione di densità e modifica del colore. Il loro approccio consente il mirato esatto di regioni specifiche per la modifica localizzata e limita l’estensione della modifica degli oggetti a causa di queste procedure di mescolamento. 

• Effettuano diversi test che coinvolgono l’editing di oggetti 3D guidati dal testo, come la modifica di forma e colore. Confrontano il loro metodo con metodi precedenti e le relative espansioni dirette, dimostrando che Blending-NeRF è superiore qualitativamente e quantitativamente.