Non il Vader che pensi 3D VADER è un modello di intelligenza artificiale che diffonde modelli 3D

Non il Vader che pensi 3D VADER diffonde modelli 3D.

La generazione di immagini non è mai stata così facile. Con l’avvento dei modelli AI generativi, il processo è diventato davvero semplice da avviare. È come se avessi un designer che lavora per te e tutto ciò che devi fare è guidarlo per generare l’immagine che desideri vedere.

Lo stesso vale per la modifica delle immagini. Questi modelli generativi possono essere utilizzati non solo per generare nuove immagini, ma anche per modificare quelle esistenti, grazie agli aggiornamenti recenti forniti dalla ricerca estensiva.

Tutto ciò è stato reso possibile grazie ai modelli di diffusione del denoising. Hanno trasformato completamente il dominio della generazione di immagini. È stato uno dei salti più grandi che abbiamo osservato in questo campo. Questi modelli sono stati applicati in applicazioni di immagini, audio e video.

Tuttavia, qui manca un componente, se hai notato. Dove si trova la terza dimensione? La generazione di immagini ha già raggiunto un punto di fotorealismo e ci sono state numerose tentativi di generazione di video e audio, che migliorano giorno dopo giorno. Ci si può aspettare che raggiungano presto anche un livello davvero realistico. Ma perché non sentiamo parlare molto della generazione di oggetti 3D?

Viviamo in un mondo 3D. È caratterizzato da oggetti 3D statici e dinamici. Ciò rende il colmare il divario tra 2D e 3D una sfida formidabile. Conosciamo 3DVADER, un nuovo sfidante che sta cercando di colmare questa lacuna.

3DVADER affronta la sfida principale dei modelli generativi 3D: come affrontare senza soluzione di continuità i dettagli geometrici del mondo 3D con le impressionanti capacità delle moderne tecniche di generazione di immagini.

3DVADER ripensa a come progettiamo e addestriamo i modelli per il contenuto 3D. A differenza dei metodi precedenti, che hanno avuto difficoltà con la scalabilità e la diversità, questa implementazione affronta audacemente queste sfide, offrendo una prospettiva fresca sul futuro della generazione di contenuti 3D.

3DVADER raggiunge questo obiettivo con un approccio unico. Invece di fare affidamento su autoencoder convenzionali per l’addestramento, introduce un decodificatore auto volumetrico. Questo decodificatore auto mappa un vettore 1D su ciascun oggetto, eliminando la necessità di supervisione 3D e adattandosi a una vasta gamma di categorie di oggetti. L’approccio apprende rappresentazioni 3D da osservazioni 2D, utilizzando la coerenza di rendering come suo principio guida. Questa nuova rappresentazione può gestire parti articolate, una necessità per modellare oggetti non rigidi.

Panoramica di 3DVADER. Fonte: https://arxiv.org/pdf/2307.05445.pdf

L’altro problema riguarda il dataset. Dal momento che le immagini e i video monoculati costituiscono la maggior parte dei dati disponibili, la preparazione di un dataset 3D robusto e versatile è una questione aperta. A differenza degli approcci precedenti, che si basano su dati 3D catturati con fatica, 3DVADER sfrutta immagini multi-view e video monoculati per generare contenuti consapevoli del 3D. Supera le sfide della mancanza di diversità delle posizioni degli oggetti offrendo robustezza ai dati di ground-truth, stimati o addirittura privi di informazioni sulla posizione durante l’addestramento. Inoltre, 3DVADER si adatta a dataset che comprendono diverse categorie di oggetti, affrontando il problema della scalabilità.

3DVADER può generare oggetti 3D. Fonte: https://snap-research.github.io/3DVADER/

Nel complesso, 3DVADER è un nuovo approccio per la generazione di asset 3D statici e articolati, con un decoder automatico 3D che ne costituisce il nucleo. Esso consente l’utilizzo di una supervisione della telecamera esistente o l’apprendimento di queste informazioni durante l’addestramento. Raggiunge prestazioni superiori nella generazione rispetto alle alternative più avanzate attualmente disponibili.