Ricercatori di Stanford introducono la Diffusione Localmente Condizionata un metodo per la generazione compositiva di testo-immagine utilizzando modelli di diffusione.

Ricercatori di Stanford introducono la Diffusione Localmente Condizionata per generare testo-immagine usando modelli di diffusione.

La modellazione di scene 3D è tradizionalmente stata una procedura che richiede molto tempo riservata a persone con competenze specifiche. Sebbene sia disponibile una vasta collezione di materiali 3D nel dominio pubblico, è raro scoprire una scena 3D che corrisponda alle esigenze dell’utente. Per questo motivo, i designer 3D a volte dedicano ore o addirittura giorni alla modellazione di singoli oggetti 3D e al loro assemblaggio in una scena. Rendere la creazione 3D semplice mantenendo il controllo sui suoi componenti aiuterebbe a colmare il divario tra i designer 3D esperti e il pubblico in generale (ad esempio, dimensione e posizione degli oggetti singoli).

L’accessibilità della modellazione di scene 3D è migliorata di recente grazie al lavoro sui modelli generativi 3D. Sono stati ottenuti risultati promettenti per la sintesi di oggetti 3D utilizzando reti generative avversarie (GAN) consapevoli del 3D, indicando un primo passo verso la combinazione degli oggetti creati in scene. Tuttavia, le GAN sono specializzate in una singola categoria di oggetti, il che limita la varietà dei risultati e rende difficile la conversione del testo in 3D a livello di scena. Al contrario, la generazione di testo in 3D utilizzando modelli di diffusione consente agli utenti di sollecitare la creazione di oggetti 3D da una vasta gamma di categorie.

La ricerca attuale utilizza un prompt di una singola parola per imporre una condizionamento globale alle visualizzazioni renderizzate di una rappresentazione differenziabile della scena, utilizzando priori di diffusione di immagini 2D robuste apprese su dati di scala Internet. Queste tecniche possono produrre eccellenti generazioni focalizzate sugli oggetti, ma hanno bisogno di aiuto per produrre scene con diverse caratteristiche uniche. Il condizionamento globale limita ulteriormente la controllabilità poiché l’input dell’utente è limitato a un singolo prompt di testo e non c’è modo di influenzare la progettazione della scena creata. I ricercatori di Stanford forniscono una tecnica per la produzione compositiva di testo in immagine utilizzando modelli di diffusione localmente condizionati.

La loro tecnica suggerita costruisce set 3D coerenti con controllo sulla dimensione e posizionamento degli oggetti singoli utilizzando prompt di testo e bounding box 3D come input. Il loro approccio applica selettivamente fasi di diffusione condizionata a determinate sezioni dell’immagine utilizzando una maschera di segmentazione di input e prompt di testo corrispondenti, producendo output che seguono la composizione specificata dall’utente. Incorporando la loro tecnica in un flusso di lavoro di generazione 3D basato su campionamento di distillazione dei punteggi, possono anche creare scene 3D compositive basate su testo.

In particolare, forniscono le seguenti contribuzioni:

• Presentano la diffusione localmente condizionata, una tecnica che conferisce ai modelli di diffusione 2D maggiore flessibilità compositiva.

• Propongono metodologie di campionamento di pose della telecamera importanti, cruciali per una generazione 3D compositiva.

• Introducono un metodo per la sintesi 3D compositiva aggiungendo la diffusione localmente condizionata a un flusso di lavoro di generazione 3D basato su campionamento di distillazione dei punteggi.