Incontra DORSal Un Modello di Diffusione Strutturato in 3D per la Generazione e l’Editing a Livello di Oggetto delle Scene 3D

Meet DORSal, a 3D Structured Diffusion Model for Generating and Object-Level Editing of 3D Scenes.

L’Intelligenza Artificiale sta evolvendo con l’introduzione dell’IA Generativa e dei Modelli di Linguaggio Estesi (LLM). Modelli ben noti come GPT, BERT, PaLM, ecc., sono alcuni grandi aggiornamenti alla lunga lista di LLM che stanno trasformando il modo in cui gli esseri umani e i computer interagiscono. Nella generazione di immagini, i modelli di diffusione hanno attirato l’attenzione significativa dei ricercatori poiché questi modelli catturano la complessa distribuzione di probabilità di un dataset di immagini e generano nuovi campioni che assomigliano ai dati di addestramento. La comprensione della scena in 3D sta anche evolvendo, consentendo lo sviluppo di reti neurali senza geometria che possono essere addestrate su un ampio dataset di scene per apprendere le rappresentazioni della scena. Queste reti generalizzano bene a scene e oggetti non visti in precedenza, rendono le viste da singole o poche immagini di input e hanno bisogno solo di poche osservazioni per scena per l’addestramento.

Combinando le capacità dei modelli di diffusione e dei modelli di apprendimento delle rappresentazioni delle scene in 3D, un team di ricercatori dell’UC Berkeley, Google Research e Google DeepMind ha introdotto DORSal (Diffusion for Object-centric Representations of Scenes et al.), che è un approccio per la generazione di nuove prospettive in scene tridimensionali combinando rappresentazioni degli oggetti con decoder di diffusione. DORSal è priva di geometria in quanto apprende la struttura della scena in 3D solo dai dati senza richiedere alcun rendering volumetrico costoso.

Per creare scene in 3D, DORSal utilizza un’architettura di diffusione video inizialmente creata per scopi di sintesi delle immagini. Il concetto principale è basarsi su rappresentazioni basate su slot centrate sugli oggetti delle scene per vincolare il modello di diffusione. Queste rappresentazioni catturano dettagli cruciali sugli oggetti della scena e le loro caratteristiche. DORSal facilita la sintesi di prospettive innovative ad alta fedeltà di scene in 3D configurando il modello di diffusione su queste rappresentazioni centrate sugli oggetti. Mantiene anche la capacità di modifica della scena a livello di oggetto, consentendo agli utenti di cambiare e modificare particolari elementi nella scena.

Le principali contribuzioni condivise dal team sono le seguenti:

  1. DORSal, un approccio alla sintesi di nuove viste in 3D, utilizza i punti di forza dei modelli di diffusione e delle rappresentazioni delle scene centrate sugli oggetti per migliorare la qualità delle viste renderizzate.
  1. DORSal supera i metodi precedenti della letteratura sulla comprensione della scena in 3D ed è in grado di generare viste significativamente più precise, con un miglioramento del 5x-10x nella distanza di incezione di Fréchet (FID).
  1. Rispetto ai lavori precedenti sui Modelli di Diffusione in 3D, DORSal mostra prestazioni superiori nella gestione di scene più complesse. Valutando i dati reali di Street View, DORSal offre una qualità di rendering significativamente migliore.
  1. DORSal è in grado di condizionare il modello di diffusione su una rappresentazione strutturata della scena basata sugli oggetti. Utilizzando questa rappresentazione, DORSal impara a comporre scene utilizzando oggetti individuali, il che consente una modifica di base della scena a livello di oggetto durante l’inferenza, consentendo agli utenti di manipolare e modificare oggetti specifici all’interno della scena.

In conclusione, l’efficacia di DORSal può essere vista dagli esperimenti condotti su scene sintetiche complesse con più oggetti e su dataset reali su larga scala come Google Street View. La sua capacità di abilitare con successo il rendering neurale scalabile di scene in 3D con modifica a livello di oggetto lo rende un approccio promettente per il futuro. La sua migliorata qualità di rendering mostra il potenziale per avanzare nella comprensione delle scene in 3D.