I ricercatori di Apple presentano i Modelli di Diffusione di Matryoshka (MDM) un framework di intelligenza artificiale end-to-end per la sintesi di immagini e video ad alta risoluzione

I ricercatori di Apple presentano i Modelli di Diffusione di Matryoshka (MDM) un framework end-to-end di intelligenza artificiale per la sintesi di immagini e video ad alta risoluzione

I Large Language Models hanno dimostrato incredibili capacità recentemente. I modelli di diffusione, in particolare, sono stati ampiamente utilizzati in una serie di applicazioni generative, dal modellamento 3D alla generazione di testo, immagini e video. Sebbene questi modelli si occupino di vari compiti, incontrano significative difficoltà nel trattare dati ad alta risoluzione. Sono necessari molta potenza di elaborazione e memoria per scalarli a alta risoluzione poiché ogni passaggio richiede la ricodifica dell’intero input ad alta risoluzione.

Spesso si ricorre all’uso di architetture Deep con blocchi di attention per superare questi problemi, anche se aumentano le richieste computazionali e di memoria e complicano l’ottimizzazione. I ricercatori si stanno impegnando nello sviluppare efficaci progetti di rete per le foto ad alta risoluzione. Gli approcci attuali non sono all’altezza delle tecniche standard come DALL-E 2 e IMAGEN in termini di qualità dell’output e non hanno dimostrato risultati competitivi oltre la risoluzione di 512×512.

Queste tecniche ampiamente utilizzate riducono il calcolo fondendo molti modelli di diffusione ad alta risoluzione addestrati in modo indipendente con un modello ad alta risoluzione. Viceversa, i metodi di diffusione latenti (LDM) si basano su un autoencoder ad alta risoluzione addestrato individualmente e addestrano solo modelli di diffusione a bassa risoluzione. Entrambe le strategie richiedono l’utilizzo di pipeline a più stadi e un’ottimizzazione iperparametrica meticolosa.

In una recente ricerca, un team di ricercatori di Apple ha introdotto i Modelli di Diffusione Matryoshka (MDM), una famiglia di modelli di diffusione progettati per la sintesi di immagini e video ad alta risoluzione end-to-end. MDM si basa sull’idea di includere il processo di diffusione a bassa risoluzione come componente fondamentale della generazione ad alta risoluzione. Questo approccio è stato ispirato dalla multi-scala apprendimento delle Generative Adversarial Networks (GANs) e il team lo ha realizzato utilizzando un’architettura Nested UNet per svolgere un processo di diffusione combinato su diverse risoluzioni.

Alcuni dei componenti principali di questo approccio sono i seguenti.

  1. Processo di Diffusione Multi-Risoluzione: MDM include un processo di diffusione che denoisa gli input contemporaneamente a diverse risoluzioni, il che implica che può elaborare e produrre contemporaneamente immagini con diversi livelli di dettaglio. A tal fine, MDM utilizza un’architettura Nested UNet.
  1. Architettura Nested UNet: Le caratteristiche dell’input su scala ridotta e i parametri sono inclusi nelle caratteristiche dell’input su scala più grande e nei parametri nell’architettura Nested UNet. Con questa inclusione, le informazioni possono essere condivise in modo efficace tra le scale, migliorando la capacità del modello di catturare dettagli fini pur mantenendo l’efficienza computazionale.
  1. Piano di Addestramento Progressivo: MDM propone un piano di addestramento che progredisce gradualmente verso risoluzioni più alte, partendo da una risoluzione inferiore. Utilizzando questo metodo di addestramento, il processo di ottimizzazione è migliorato e il modello è in grado di imparare meglio come produrre contenuti ad alta risoluzione.

Il team ha condiviso le prestazioni e l’efficacia di questo approccio attraverso una serie di test di benchmark, come applicazioni di testo-video, produzione di immagini di testo ad alta risoluzione e generazione di immagini in funzione di una determinata classe. MDM ha dimostrato di poter addestrare un singolo modello di spazio di pixel fino alla risoluzione di 1024 × 1024 pixel. Considerando che questo risultato è stato ottenuto utilizzando un dataset relativamente piccolo (CC12M), che consiste solo di 12 milioni di foto, è estremamente notevole. MDM presenta una generaliz