Demistificando l’Intelligenza Artificiale Generativa Un’Immersione Approfondita nei Modelli di Diffusione e nell’Evolutzione del Computing Visivo

Decodificando l'Intelligenza Artificiale Generativa Un'Immersione Approfondita nei Modelli Diffusione e nell'Evolutzione del Computing Visivo

Per combinare le immagini generate al computer o dedurre le caratteristiche fisiche di una scena dalle immagini, gruppi di computer grafica e visione computerizzata 3D hanno lavorato per creare modelli fisicamente realistici da decenni. Diverse industrie, tra cui effetti visivi, giochi, elaborazione di immagini e video, progettazione assistita dal computer, realtà virtuale e aumentata, visualizzazione dei dati, robotica, veicoli autonomi e telerilevamento, sono basate su questa metodologia, che include rendering, simulazione, elaborazione geometrica e fotogrammetria. Con l’avvento dell’intelligenza artificiale generativa (IA), si è sviluppato un modo completamente nuovo di pensare al calcolo visivo. Con solo un prompt scritto o un’istruzione umana ad alto livello come input, i sistemi di intelligenza artificiale generativa consentono la creazione e la manipolazione di foto, film o oggetti 3D fotorealistici e stilizzati.

Queste tecnologie automatizzano diverse attività di visual computing che richiedevano in precedenza molto tempo e competenze specialistiche. I modelli di base per il visual computing, come Stable Diffusion, Imagen, Midjourney o DALL-E 2 e DALL-E 3, hanno aperto le incredibili potenzialità dell’IA generativa. Questi modelli hanno “visto tutto” dopo essere stati addestrati su centinaia di milioni o miliardi di coppie di testo-immagine, e sono estremamente vasti, con solo pochi miliardi di parametri apprendibili. Questi modelli sono stati la base degli strumenti di IA generativa menzionati in precedenza e sono stati addestrati su un’enorme nuvola di potenti unità di elaborazione grafica (GPU).

I modelli di diffusione basati su reti neurali convoluzionali (CNN) spesso utilizzate per generare immagini, video e oggetti 3D integrano il testo calcolato utilizzando architetture basate su trasformatori, come CLIP, in modo multi-modale. Nonostante le aziende ben finanziate abbiano utilizzato una quantità significativa di risorse per sviluppare e addestrare modelli di base per la generazione di immagini 2D, c’è ancora spazio per la comunità accademica per contribuire in modo significativo allo sviluppo di questi strumenti per la grafica e la visione. Ad esempio, è necessario chiarire come adattare i modelli di base attuali per l’immagine per l’utilizzo in altri domini di dimensioni superiori, come la creazione di video e scene 3D.

Ciò è principalmente dovuto alla necessità di dati di addestramento più specifici. Ad esempio, ci sono molti più esempi di foto 2D di scarsa qualità e generiche sul web rispetto a oggetti 3D o ambienti vari e di alta qualità. Inoltre, scalare i sistemi di creazione di immagini 2D per ospitare dimensioni più grandi, come quelle necessarie per video, scene 3D o sintesi di scene multi-vista 4D coerenti, non è immediatamente evidente. Un altro esempio di limite attuale è il calcolo: anche se è disponibile un’enorme quantità di dati video (non etichettati) sul web, le architetture di rete attuali sono spesso troppo inefficienti per essere addestrate in un tempo ragionevole o con risorse di calcolo ragionevoli. Ciò comporta modelli di diffusione piuttosto lenti durante l’ottavo. Questo è dovuto alle dimensioni delle loro reti e alla loro natura iterativa.

Figura 1: La teoria e l’applicazione dei modelli di diffusione per il visual computing sono trattate in questo articolo all’avanguardia. Di recente, questi modelli hanno preso il sopravvento come norma accettata per la creazione e la modifica di immagini, video e oggetti in 3D e 4D.

Nonostante le questioni irrisolte, il numero di modelli di diffusione per il visual computing è aumentato drasticamente nell’ultimo anno (vedi esempi illustrativi nella Figura 1). Gli obiettivi di questo rapporto di stato dell’arte (STAR) sviluppato da ricercatori di diverse università sono offrire una revisione organizzata delle numerose pubblicazioni recenti incentrate sulle applicazioni dei modelli di diffusione nel visual computing, insegnare i principi dei modelli di diffusione e individuare questioni ancora aperte.