La modellazione 3D si basa sull’IA

La modellazione 3D si basa sull'IA' can be condensed to La modellazione 3D è basata sull'IA.

Credit: Andrij Borys Associates, Shutterstock.AI

La grafica ha sempre ruotato attorno a una premessa fondamentale: una maggiore velocità si traduce in un’esperienza migliore. Naturalmente, le unità di elaborazione grafica (GPU) che rendono le complesse immagini tridimensionali (3D) utilizzate nei videogiochi, nella realtà aumentata e nella realtà virtuale possono spingere le prestazioni visive solo fino a un certo punto prima di raggiungere un limite hardware. Inoltre, man mano che la legge di Moore scompare nella storia, la possibilità di ottenere ulteriori miglioramenti diminuisce.

Tutto ciò ha portato i ricercatori sulla strada dell’intelligenza artificiale, inclusa l’uso delle reti neurali, per sbloccare miglioramenti di velocità e qualità nella grafica 3D. Nel 2022, ad esempio, Nvidia ha introdotto DLSS 3 (Deep Learning Super Sampling), un motore grafico neurale che aumenta la velocità di rendering fino al 530%. La tecnologia utilizza l’apprendimento automatico per prevedere quali pixel possono essere creati al volo utilizzando la GPU.

Queste migliori supposizioni, o allucinazioni, cambiano radicalmente il rendering 3D. “Per decenni, abbiamo investito in algoritmi che possono modellare in modo più accurato oggetti, luce e il modo in cui interagiscono in tempo reale”, afferma Bryan Catanzaro, vicepresidente della ricerca applicata sull’apprendimento profondo per Nvidia. “L’intelligenza artificiale crea l’opportunità di identificare correlazioni nei segnali del processo di rendering grafico”, rendendo possibile ridurre al minimo il lavoro intensivo di calcolo che indebolisce la velocità e consuma risorse.

Contare sull’intelligenza artificiale per prevedere la creazione di pixel ridisegna fondamentalmente la grafica computerizzata. Oltre a Nvidia, Intel e AMD hanno introdotto strutture di modellazione 3D che utilizzano shortcut simili per rendere più veloce la grafica, di solito senza alcuna degradazione evidente della qualità delle immagini. Tuttavia, tutto ciò potrebbe essere solo l’inizio. Presto, il campo in rapida crescita potrebbe generare nuove forme di grafica combinando strumenti di intelligenza artificiale generativa come Dall-E 2 di Open Al e il framework MiP-NeRF di Google con DLSS.

“L’intelligenza artificiale è semplicemente migliore nel fare ipotesi sui pixel mancanti rispetto ai modelli realizzati a mano che abbiamo utilizzato anni fa”, afferma Anton van den Hengel, direttore della scienza applicata presso Amazon e direttore del Centre for Augmented Reasoning presso l’Università di Adelaide in Australia. “Stiamo entrando in un’era molto più avanzata della modellazione 3D”.

Torna in cima

Giocare con tutti gli angoli

Il fotorealismo è sempre stato l’obiettivo principale della modellazione 3D. Negli anni ’90, i ricercatori hanno iniziato a scoprire i segreti della grafica 3D e nei decenni successivi, in particolare dopo l’arrivo delle GPU, i videogiochi e altre applicazioni ad alta intensità grafica hanno avuto un’evoluzione notevole. Tuttavia, questi sistemi continuano ad affrontare un problema fisico fondamentale: la generazione di grafica in tempo reale, in gran parte un esercizio di geometria, richiede molta potenza di calcolo e l’utilizzo della forza bruta può solo accelerare le cose in modo incrementale.

La sfida cresce in modo esponenziale con modelli complessi che coinvolgono decine o centinaia di oggetti e angolazioni possibili, o quando i calcoli avvengono nel cloud. Ad esempio, non è un compito semplice mostrare uno sciame di farfalle o capelli umani; le cose diventano ancora più difficili quando oggetti sintetici appaiono su uno sfondo in continua evoluzione. “Le immagini realistiche richiedono una profonda comprensione della fisica del trasporto della luce e del modo in cui funziona la creazione delle immagini in relazione alla matematica”, afferma Jon Barron, ricercatore senior presso Google. “Ci sono solo poche tecniche basate sull’hardware che puoi utilizzare”.

Le cose diventano ancora più complesse quando la realtà aumentata, la realtà virtuale e il metaverso emergente entrano in gioco. “Nonostante tutti i discorsi sulla realtà aumentata e la realtà virtuale, abbiamo molto poco da mostrare”, afferma van den Hengel. “Da anni sentiamo dire che queste tecnologie cambieranno il mondo e sono dietro l’angolo, ma non sono ancora arrivate del tutto. Per arrivare a una modellazione 3D ultra realistica e utile, è necessario superare l’hardware e incorporare l’intelligenza artificiale”.

I progressi hardware nelle GPU non possono risolvere il problema, principalmente perché gli ingegneri stanno esaurendo le modalità per comprimere più transistor sui chip. Piuttosto che raggiungere il limite logico della grafica 3D, un’approccio basato sul software, come DLSS, sta diventando la chiave per sbloccare guadagni di velocità riducendo al contempo la richiesta energetica dei cicli di calcolo. “L’intelligenza artificiale ha il potere intrinseco di colmare il divario informativo” e migliorare la qualità delle immagini generate al computer, afferma Shigeru Kuriyama, professore nel Visual AI Lab della Toyohashi University of Technology in Giappone.

Torna in cima

L’IA modifica il modello

Verso il 2010, quando i ricercatori scoprirono di poter riutilizzare le GPU per addestrare modelli di deep learning, la scena del modellaggio 3D e del rendering iniziò a cambiare radicalmente. Nvidia introdusse la prima versione di DLSS nel 2018 ed è evoluta attraverso tre iterazioni per diventare una forza dominante nella grafica 3D. Senza DLSS, il rendering veloce e le rappresentazioni fotorealistiche semplicemente non sono possibili. “Anche la GPU più potente non sarebbe in grado di generare modelli 3D ray-traced di alta qualità in tempo reale. I giochi e le applicazioni in esecuzione su di essa non sarebbero piacevoli”, dice Catanzaro.

DLSS 3 ha successo prevedendo quali pixel effettivi possono essere sostituiti al volo con pixel generati dall’IA. Una tecnologia hardware chiamata Optical Flow Accelerator confronta i frame e individua opportunità per apportare modifiche. b DLSS 3 è stato addestrato su miliardi di campioni e il set di addestramento risultante è stato compresso di un fattore di circa 1.000, afferma Catanzaro. Una GPU sul dispositivo dell’utente determina quali pixel può sostituire utilizzando il modello di apprendimento automatico e renderizza le immagini desiderate con precisione. È un po’ come il gioco televisivo “La ruota della fortuna” o un cruciverba all’antica: una persona può vedere alcune lettere e capire la parola giusta. Nel modellismo 3D, l’obiettivo è che il modello di intelligenza artificiale trovi il maggior numero possibile di sostituzioni potenziali per i pixel effettivi e automatizzi lo scambio dei pixel.

Quando Catanzaro e un team di Nvidia hanno esaminato attentamente le prestazioni di DLSS 3, hanno scoperto che l’algoritmo di apprendimento automatico rendeva automaticamente fino a sette pixel su otto in un gioco come Portal. Incredibilmente, DLSS 3 rende possibile per un sistema passare da circa 20 frame al secondo a circa 100 utilizzando un modello 3D. Guadagni di velocità e prestazioni del genere sono significativi. “La tecnologia supera i tradizionali limiti”, afferma Catanzaro.

In effetti, la matematica che circonda DLSS 3 e modelli di intelligenza artificiale simili è piuttosto stupefacente. Un frame in un tipico flusso video grafico contiene circa quattro milioni di pixel, osserva Catanzaro. Se il flusso viene eseguito a 100 frame al secondo, la GPU sta elaborando circa 400 milioni di campioni al secondo. Il segreto del successo risiede nel fatto che gli esseri umani hanno bisogno di vedere solo un milione o meno di campioni al secondo per essere convinti che la scena sia reale. Una rete neurale addestrata può capire quali pixel sono essenziali e renderizzarli nel modo giusto. “Questo rende possibile per il modello funzionare in un intervallo che evita il rumore casuale non correlato che porterebbe a un modello non sostenibile”, dice.

Ciò che rende modelli di reti neurali come DLSS così interessanti è che introducono una smart integrazione tra hardware e software, dice Kuriyama. Introducendo soluzioni basate sui dati e basate sull’IA sviluppate per interpolazioni, extrapolazioni, sovra-risoluzioni, scalatura e riempimento delle lacune, la tecnologia sta spostando l’industria dalle tecnologie di produzione di chip verso sistemi embedded di AI, aggiunge. “Ecco perché Nvidia, Intel e AMD stanno prendendo la questione così seriamente”, afferma.

Torna in cima

Rendere un futuro migliore

Nvidia ha fatto il più grande impatto visivo con DLSS 3, ma Intel e AMD stanno spingendo anche i limiti delle prestazioni con le loro tecnologie di modellazione neurale. Il framework XeSS (Xe Super Sampling) di Intel funge da acceleratore alimentato da IA che ricostruisce i dati dei sottopixel dai pixel adiacenti. Produce circa un aumento delle prestazioni del 2x. c L’architettura grafica RDNA 3 di AMD offre un paio di acceleratori IA in ogni unità di calcolo. AMD sostiene che il framework offre un’accelerazione che si avvicina a un fattore di 2,7x con il 50% in più di Ray Tracing per CU. d

Tuttavia, il rendering accelerato attraverso l’apprendimento profondo è ancora nelle prime fasi. Uno dei problemi è che DLSS 3 e altri modelli di intelligenza artificiale non sono in grado di visualizzare alcuni tipi di effetti, il che può portare a tremolii o a un effetto sfarfallio, oltre ad altri tipi di artefatti. La distorsione può anche verificarsi, soprattutto per immagini animate complesse con un alto livello di dettaglio o quando una scena cambia rapidamente. “Questi sistemi non sono in grado di renderizzare queste immagini in modo di alta qualità, per le scene specifiche in cui l’apprendimento è insufficiente”, afferma Kuriyama.

La realtà aumentata, il metaverso e la realtà virtuale più realistica spingono ulteriormente le richieste. La capacità dell’IA di generare un livello superiore di dettaglio degli oggetti è solo una parte della sfida. Ci sarà anche la necessità di andare oltre i mondi immaginari e abbinare le grafiche 3D generate al computer con punti di riferimento fisici effettivi come negozi, caffè e siti storici. Inoltre, Barron fa notare che è necessario un miglioramento del modellismo 3D per far avanzare la robotica e i veicoli autonomi. “Questi dispositivi inviano e ricevono dati 3D, quindi tutto ciò che può ridurre i dati richiesti per i calcoli è prezioso”.

La modellazione neurale 3D potrebbe anche rivoluzionare l’IA generativa. Ad esempio, Google ha sviluppato un framework chiamato MiP-NeRF 360 che utilizza l’IA per generare rappresentazioni fotorealistiche a 360 gradi degli oggetti. Barron e altri stanno sperimentando modelli di diffusione che generano immagini 3D utilizzando testo e tecniche di diffusione 2D. Combinando un motore come Dall-E 2 di Open AI o Dream Fusion di Google con strumenti come DLSS, è possibile estendere le capacità di modellazione 3D, afferma Catanzaro. “È probabile che sia la prossima frontiera nella modellazione 3D.”

Nessuno mette in dubbio il valore delle tecniche di rendering neurale 3D. Inoltre, è quasi certo che dati di addestramento aggiuntivi alimentino guadagni futuri in una vasta gamma di strumenti e tecnologie. “Proprio quando la legge di Moore sta scadendo e i grafici come al solito si sono scontrati con un ostacolo, l’IA è apparsa come uno strumento prezioso”, conclude Catanzaro. “Ci fornisce metodi nuovi e potenti per spingere avanti i grafici, essendo più intelligenti nel processo di rendering.”

“Siamo alla soglia di un’enorme innovazione nel campo del rendering 3D.”

Ulteriori letture

Poole, B., Jain, A., Barron, J.T., e Mildenhall, B. DreamFusion: Text-to-3D usando la diffusione 2D.

29 settembre 2022.

https://arxiv.org/abs/2209.14988

Mildenhall, B., Hedman, P., Martin-Brualla, R., Srinivasan, P., e Barron, J.T. NeRF al buio: sintesi di visualizzazioni a gamma dinamica elevata da immagini grezze rumorose.

26 novembre 2021.

https://arxiv.org/abs/2111.13679

Tewari, A., Thies, J. et al Avanzamenti nel rendering neurale, Computer Graphics Forum, maggio 2022, pagine 703-735.

https://onlinelibrary.wiley.com/doi/abs/10.1111/cgf.14507

Dundar, A., Gao, J., Tao, A., e Catanzaro, B. Apprendimento della texture dettagliata per le mesh 3D con modelli generativi. 17 marzo 2022. https://doi.org/10.48550/arXiv.2203.09362

Torna in cima

Autore

Samuel Greengard è un autore e giornalista con sede a West Linn, OR, USA.

Torna in cima

Note a piè di pagina

a. https://www.nvidia.com/en-us/geforce/news/dlss3-ai-powered-neural-graphics-innovations/

b. https://developer.nvidia.com/docs/drive/drive-os/latest/linux/sdk/common/topics/nv-media_understand/OpticalFlowAccelerator.html

c. https://www.intel.com/content/www/us/en/support/articles/000090031/graphics/intel-arc-dedicated-graphics-family.html

d. https://www.amd.com/en/technologies/rdna

e. https://jonbarron.info/mipnerf360/

f. https://dreamfusion3d.github.io/

©2023 ACM 0001-0782/23/8

È consentito fare copie digitali o cartacee di parte o di tutto questo lavoro per uso personale o didattico senza alcun costo a condizione che le copie non siano fatte o distribuite a scopo di lucro o vantaggio commerciale e che le copie riportino questa avviso e la citazione completa sulla prima pagina. I diritti d’autore per i componenti di questo lavoro di proprietà di altre parti rispetto all’ACM devono essere rispettati. È consentita l’astrazione con accredito. Per copiare diversamente, ripubblicare, pubblicare su server o redistribuire in elenchi, è necessario un preventivo specifico preventivo e/o un compenso. Richiedere l’autorizzazione a pubblicare a [email protected] o fax (212) 869-0481.

La Digital Library è pubblicata dall’Association for Computing Machinery. Copyright © 2023 ACM, Inc.