Questa ricerca sull’IA presenta MeshGPT un nuovo approccio alla generazione di forme che produce direttamente mesh come triangoli.

MeshGPT Una nuova prospettiva sull'IA per la generazione di forme tridimensionali

MeshGPT è proposto dai ricercatori della Technical University di Monaco di Baviera, del Politecnico di Torino e di AUDI AG come metodo per generare in modo autoregressivo reti di triangoli, sfruttando un’architettura basata su GPT addestrata su un vocabolario appreso di sequenze di triangoli. Questo approccio utilizza un vocabolario geometrico e token geometrici latenti per rappresentare i triangoli, producendo reti coerenti, pulite e compatte con spigoli marcati. A differenza di altri metodi, MeshGPT genera direttamente reti triangolate senza bisogno di conversione, dimostrando la capacità di generare forme sia conosciute che nuove, con un aspetto realistico e di alta fedeltà.

I primi metodi di generazione di forme, compresi quelli basati su voxel e punti cloud, avevano limitazioni nella cattura dei dettagli fini e delle geometrie complesse. I metodi di rappresentazione implicita, anche se codificano le forme come funzioni volumetriche, spesso richiedevano la conversione delle reti e producevano reti dense. I metodi precedenti di generazione di reti basati sull’apprendimento necessitavano di aiuto per catturare dettagli accurati delle forme. MeshGPT, a differenza di PolyGen, utilizza una singola rete solo decoder, utilizzando token appresi per rappresentare i triangoli, ottenendo così una generazione di reti semplificata, efficiente e ad alta fedeltà con maggiore robustezza durante l’implementazione.

MeshGPT offre un approccio alla generazione di forme 3D, producendo direttamente reti di triangoli con un modello di transformer solo decoder. Il metodo ottiene reti coerenti e compatte utilizzando un vocabolario geometrico appreso e un encoder grafo-convolutivo per codificare i triangoli in embedding latenti. Il decoder ResNet consente la generazione autoregressiva delle sequenze di reti di triangoli. MeshGPT supera i metodi esistenti in termini di copertura delle forme e punteggio della distanza Fréchet Inception (FID), offrendo un processo semplificato per la creazione di risorse 3D senza la necessità di post-processing di output densi o troppo lisci.

MeshGPT utilizza un modello di transformer solo decoder addestrato su un vocabolario geometrico, decodificando i token in facce di reti di triangoli. Utilizza un encoder grafico-convolutivo per convertire i triangoli in embedding quantizzati latenti, tradotti da una ResNet per generare le coordinate dei vertici. Vengono condotti preaddestramenti su tutte le categorie, raffinamenti con augmentation durante l’addestramento e ablationi che valutano componenti come gli embedding geometrici. Le prestazioni di MeshGPT vengono valutate utilizzando la copertura delle forme e i punteggi FID, dimostrando la superiorità rispetto ai metodi allo stato dell’arte.

MeshGPT dimostra una performance superiore rispetto ai prominenti metodi di generazione di reti, tra cui Polygen, BSPNet, AtlasNet e GET3D, mostrando un’eccellenza nella qualità delle forme, nella qualità della triangolazione e nella diversità delle forme. Il processo genera reti pulite, coerenti e dettagliate con spigoli ben definiti. In uno studio tra gli utenti, MeshGPT viene preferito nettamente rispetto ai metodi concorrenti per la qualità complessiva delle forme e la similarità dei pattern di triangolazione. MeshGPT può generare forme nuove al di là dei dati di addestramento, evidenziando il suo realismo. Gli ablation studies sottolineano l’impatto positivo degli embedding geometrici appresi sulla qualità delle forme rispetto alla semplice tokenizzazione delle coordinate.

In conclusione, MeshGPT si è dimostrato superiore nella generazione di reti di triangoli di alta qualità con spigoli marcati. L’utilizzo di transformer solo decoder e l’incorporazione di embedding geometrici appresi nell’apprendimento del vocabolario ha prodotto forme che corrispondono strettamente ai veri pattern di triangolazione e superano i metodi esistenti in termini di qualità delle forme. Uno studio recente ha dimostrato che gli utenti preferiscono MeshGPT per la sua qualità complessiva superiore delle forme e la similitudine con i pattern di triangolazione del ground truth rispetto ad altri metodi.