Questo studio sull’IA approfondisce la comprensione dello spazio latente dei modelli di diffusione attraverso la geometria riemanniana.

Approfondire la comprensione dello spazio latente dei modelli di diffusione attraverso la geometria riemanniana uno studio sull'IA

Con la crescente popolarità dell’Intelligenza Artificiale e dell’Apprendimento Automatico, i suoi principali sottocampi, come l’Elaborazione del Linguaggio Naturale, la Generazione del Linguaggio Naturale, ecc., stanno avanzando a ritmo serrato. La recente introduzione, cioè i modelli di diffusione (DM), ha dimostrato un’eccezionale performance in una serie di applicazioni, tra cui la modifica di immagini, problemi inversi e sintesi testo-immagine. Nonostante questi modelli generativi abbiano ottenuto molti apprezzamenti e successi, si conosce poco dello spazio latente e di come influenzino gli output prodotti.

Anche se le immagini completamente diffuse sono generalmente considerate come variabili latenti, esse cambiano inaspettatamente quando si attraversano direzioni specifiche nello spazio latente, poiché mancano delle qualità rilevanti per regolare i risultati. In un recente lavoro è stata proposta l’idea di uno spazio delle caratteristiche intermedie rappresentato dalla lettera H all’interno del kernel di diffusione che serve come spazio semantico latente. Altre ricerche riguardano le mappe delle caratteristiche delle operazioni di cross-attention o self-attention, che possono influenzare compiti successivi come la segmentazione semantica, aumentare la qualità del campione o migliorare il controllo dei risultati.

Nonostante questi sviluppi, la struttura dello spazio Xt contenente le variabili latenti {xt} deve ancora essere esplorata. Questo è difficile a causa della natura dell’addestramento dei DM, che differisce dalla supervisione convenzionale come la classificazione o la somiglianza nel senso che il modello predice il rumore in avanti indipendentemente dall’input. Lo studio è ulteriormente complicato dall’esistenza di diverse variabili latenti su vari passaggi ricorsivi.

In una ricerca recente, un team di ricercatori ha affrontato le sfide esaminando lo spazio Xt insieme alla sua rappresentazione corrispondente H. La metrica di pullback dalla geometria riemanniana è il modo in cui il team ha suggerito di integrare la geometria locale in Xt. Il team ha coinvolto una prospettiva geometrica per l’analisi ed ha utilizzato la metrica di pullback collegata alle mappe delle caratteristiche di codifica dei DM per derivare una base latente locale all’interno di X.

Il team ha condiviso che lo studio ha portato alla scoperta di una base latente locale fondamentale per consentire funzioni di modifica delle immagini. A tal fine, lo spazio latente dei DM è stato manipolato lungo il vettore di base a determinati passaggi temporali. Questo ha reso possibile aggiornare le immagini senza la necessità di ulteriore addestramento, applicando le modifiche una volta a un determinato passaggio temporale t.

Il team ha anche valutato le varianze tra diversi contesti di testo e l’evoluzione della struttura geometrica dei DM durante i passaggi di diffusione. Questa analisi ha confermato i fenomeni ampiamente riconosciuti della generazione da grezza a fine, che allo stesso tempo chiarisce l’effetto della complessità del dataset e gli effetti time-varying dei prompt di testo.

In conclusione, questa ricerca è unica e è la prima a presentare la modifica di immagini tramite traversata dello spazio x, consentendo modifiche in particolari passaggi temporali senza la necessità di ulteriori addestramenti.