Incontra Paella un nuovo modello di intelligenza artificiale simile alla diffusione che può generare immagini di alta qualità molto più velocemente rispetto all’utilizzo di Diffusione Stabile.

Paella is a new AI model similar to diffusion that can generate high-quality images much faster than using Stable Diffusion.

Negli ultimi 2-3 anni, c’è stato un aumento fenomenale nella qualità e quantità di ricerca svolta nella generazione di immagini da testo utilizzando l’intelligenza artificiale (AI). Uno dei lavori più innovativi e rivoluzionari in questo campo si riferisce ai modelli generativi all’avanguardia chiamati modelli di diffusione. Questi modelli hanno completamente trasformato il modo in cui le descrizioni testuali possono essere utilizzate per generare immagini di alta qualità tramite l’utilizzo dei potenti algoritmi del deep learning. Inoltre, oltre alla diffusione, esistono una serie di altre tecniche potenti, offrendo un percorso entusiasmante per generare contenuti visivi quasi fotorealistici a partire da input testuali. Tuttavia, i risultati eccezionali ottenuti da queste tecnologie all’avanguardia presentano alcune limitazioni. Un certo numero di tecnologie emergenti di AI generativa si basano sui modelli di diffusione, che richiedono architetture intricate e risorse computazionali sostanziali per la formazione e la generazione di immagini. Queste metodologie avanzate riducono anche la velocità di inferenza, rendendole impraticabili per l’implementazione in tempo reale. Inoltre, la complessità di queste tecniche è direttamente legata ai progressi che consentono, ponendo una sfida per il pubblico in generale per comprendere il funzionamento interno di questi modelli e portando a una situazione in cui sono considerati modelli a scatola nera.

Con l’intento di affrontare le preoccupazioni menzionate in precedenza, un team di ricercatori presso la Technische Hochschule Ingolstadt e Wand Technologies, in Germania, ha proposto una nuova tecnica per la generazione di immagini condizionate dal testo. Questa tecnica innovativa è simile alla diffusione ma produce immagini di alta qualità molto più velocemente. La fase di campionamento dell’immagine di questo modello basato sulla convoluzione può essere completata con solo 12 passaggi, producendo comunque un’eccezionale qualità dell’immagine. Questo approccio si distingue per la sua notevole semplicità e velocità di generazione di immagini ridotta, consentendo agli utenti di condizionare il modello e godere dei vantaggi che mancano nelle tecniche all’avanguardia esistenti. La semplicità intrinseca della tecnica proposta ha notevolmente migliorato la sua accessibilità, consentendo a individui provenienti da diverse esperienze di comprendere e implementare facilmente questa tecnologia di testo per immagine. Per convalidare la loro metodologia attraverso valutazioni sperimentali, i ricercatori hanno inoltre addestrato un modello condizionato al testo chiamato “Paella” con un sorprendente miliardo di parametri. Il team ha anche reso open source il loro codice e i pesi del modello sotto licenza MIT per incoraggiare la ricerca intorno al loro lavoro.

Un modello di diffusione attraversa un processo di apprendimento in cui elimina progressivamente diversi livelli di rumore da ogni istanza di addestramento. Durante l’inferenza, quando viene presentato con puro rumore, il modello genera un’immagine sottraendo iterativamente il rumore per diverse centinaia di passaggi. La tecnica ideata dai ricercatori tedeschi trae fortemente da questi principi dei modelli di diffusione. Come i modelli di diffusione, Paella rimuove gradi variabili di rumore dai token che rappresentano un’immagine e li impiega per generare una nuova immagine. Il modello è stato addestrato su 900 milioni di coppie immagine-testo dal dataset estetico LAION-5B. Paella utilizza un’architettura pre-addestrata encoder-decoder basata su una rete neurale convoluzionale, con la capacità di rappresentare un’immagine di 256×256 utilizzando 256 token selezionati da un insieme di 8.192 token appresi durante il pre-addestramento. Per aggiungere rumore al loro esempio durante la fase di addestramento, i ricercatori hanno incluso alcuni token scelti casualmente in questo elenco.

Per generare embedding di testo basati sulla descrizione testuale dell’immagine, i ricercatori hanno utilizzato il modello CLIP (Contrastive Language-Image Pretraining), che stabilisce connessioni tra immagini e descrizioni testuali. L’architettura CNN U-Net è stata quindi impiegata per addestrare il modello nella generazione dell’intero set di token originali, utilizzando gli embedding di testo e i token generati nelle iterazioni precedenti. Questo processo iterativo è stato ripetuto 12 volte, sostituendo gradualmente una porzione più piccola dei token precedentemente generati con ogni ripetizione. Con la guida dei token generati rimanenti, U-Net ha ridotto progressivamente il rumore ad ogni passaggio. Durante l’inferenza, CLIP ha prodotto un embedding basato su un prompt di testo fornito, e U-Net ha ricostruito tutti i token in 12 passaggi per un insieme di 256 token selezionati casualmente. Infine, il decoder ha impiegato i token generati per generare un’immagine.

Per valutare l’efficacia del loro metodo, i ricercatori hanno impiegato la metrica Fréchet inception distance (FID) per confrontare i risultati ottenuti dal modello Paella e dal modello Stable Diffusion. Sebbene i risultati abbiano leggermente favorito Stable Diffusion, Paella ha mostrato un notevole vantaggio in termini di velocità. Questo studio si distingue dagli sforzi precedenti, poiché si è concentrato sulla riconfigurazione completa dell’architettura, che non era stata presa in considerazione in precedenza. In conclusione, Paella può generare immagini di alta qualità con una dimensione del modello più ridotta e meno passaggi di campionamento rispetto ai modelli esistenti e ancora ottenere risultati apprezzabili. Il team di ricerca sottolinea l’accessibilità del loro approccio, che offre una semplice configurazione che può essere facilmente adottata da individui provenienti da diverse esperienze, compresi i domini non tecnici, poiché il campo dell’AI generativa continua a suscitare sempre più interesse col passare del tempo.