Rivoluzionare la generazione di modelli 3D con MVDream

MVDream Rivoluzionare la generazione di modelli 3D

Originariamente pubblicato su louisbouchard.ai, leggilo 2 giorni prima sul mio blog!

Guarda il video:

Sono super eccitato di condividere questo nuovo modello di intelligenza artificiale con te! Abbiamo visto così tanti nuovi approcci per generare testo, e poi generare immagini che migliorano sempre di più. Poi, abbiamo visto altri incredibili lavori iniziali per generare video e persino modelli 3D da testo. Immagina solo la complessità di una tale sfida quando tutto ciò che hai è una frase e devi generare qualcosa che potrebbe assomigliare a un oggetto nel mondo reale, con tutti i suoi dettagli. Beh, ecco un nuovo passo avanti nella generazione di modelli 3D da semplice testo: MVDream!

Confronto dei risultati (MVDream completamente a destra) generati con il testo: baby yoda nello stile di Mormookiee. Immagine tratta dal paper.

Come puoi vedere, sembra che MVDream sia in grado di comprendere la fisica. Rispetto agli approcci precedenti, ci riesce. Sa che la vista dovrebbe essere realistica con solo due orecchie e non due per qualsiasi possibile vista. Alla fine crea un modello 3D di altissima qualità da soltanto questa semplice riga di testo! Quanto è figo questo? Ma quello che è ancora più figo è come funziona… quindi immergiamoci subito!

Se guardi un modello 3D, la sfida più grande è che deve generare immagini realistiche e di alta qualità per ogni vista da dove lo stai guardando, E quelle viste devono essere coerenti spazialmente tra loro, non come Yoda con 4 orecchie che abbiamo visto prima o soggetti con più facce dato che raramente abbiamo persone di spalle in un dataset di immagini, quindi il modello vuole vedere le facce a tutti i costi. Uno dei principali approcci per generare modelli 3D è simulare un angolo di vista da una telecamera e quindi generare ciò che dovrebbe essere visibile da questo punto di vista. Questo viene chiamato “sollevamento 2D” perché generiamo immagini regolari per combinarle in una scena 3D completa. Poi generiamo tutte le possibili viste intorno all’oggetto. Ecco perché siamo abituati a vedere artefatti strani come questi, perché il modello sta cercando di generare una vista alla volta e non comprende abbastanza bene l’oggetto nel suo complesso nello spazio 3D. Bene, MVDream ha fatto un grande passo in questa direzione. Loro…