Ricercatori del CMU propongono GILL un metodo di intelligenza artificiale per fondere LLM con modelli di codifica e decodifica delle immagini.

CMU researchers propose GILL, an AI method to merge LLM with image encoding and decoding models.

Con il lancio del nuovo GPT 4 di OpenAI, è stata introdotta la multimodalità nei Large Language Models. A differenza della versione precedente, GPT 3.5, che viene utilizzata solo per consentire a ChatGPT di ricevere input testuali, il nuovo GPT-4 accetta sia testo che immagini come input. Recentemente, un team di ricercatori della Carnegie Mellon University ha proposto un approccio chiamato Generating Images with Large Language Models (GILL), che si concentra sull’estensione dei modelli di linguaggio multimodali per generare immagini uniche.

Il metodo GILL consente di elaborare input che sono composti da immagini e testo per produrre testo, recuperare immagini e creare nuove immagini. GILL riesce a fare ciò nonostante i modelli utilizzino codificatori di testo distinti, trasferendo lo spazio di embedding dell’output di un LLM solo testuale congelato a quello di un modello generativo di immagini congelato. A differenza di altri metodi che richiedono dati immagine-testo intercalati, il mapping viene realizzato attraverso il fine-tuning di un piccolo numero di parametri utilizzando coppie di immagini e didascalie.

Il team ha menzionato che questo metodo combina i grandi modelli di linguaggio per il testo con i modelli per la codifica e la decodifica delle immagini che sono già stati addestrati. Può fornire una vasta gamma di capacità multimodali, come il recupero delle immagini, la produzione di immagini uniche e il dialogo multimodale. Ciò è stato realizzato mappando gli spazi di embedding delle modalità per fonderli. GILL funziona con input misti di immagini e testo condizionati e produce output coerenti e leggibili.

Questo metodo fornisce una rete di mappatura efficace che collega il LLM a un modello di generazione testo-immagine per ottenere ottime performance nella generazione di immagini. Questa rete di mappatura converte le rappresentazioni testuali nascoste nello spazio di embedding dei modelli visivi. In questo modo, utilizza le potenti rappresentazioni testuali del LLM per produrre output coerenti dal punto di vista estetico.

Con questo approccio, il modello può recuperare immagini da un dataset specifico oltre a creare nuove immagini. Il modello sceglie se produrre o ottenere un’immagine al momento dell’infereza. Viene utilizzato un modulo decisionale appreso che dipende dalle rappresentazioni nascoste del LLM per prendere questa decisione. Questo approccio è efficiente dal punto di vista computazionale in quanto funziona senza la necessità di eseguire il modello di generazione di immagini durante l’addestramento.

Questo metodo si comporta meglio rispetto ai modelli di generazione di base, specialmente per compiti che richiedono linguaggio più lungo e sofisticato. In confronto, GILL supera il metodo Stable Diffusion nell’elaborazione di testi più lunghi, compresi dialoghi e discorsi. GILL performa meglio nella generazione di immagini condizionate da dialogo rispetto ai modelli di generazione non basati su LLM, trarre vantaggio dal contesto multimodale e generando immagini che corrispondono meglio al testo dato. A differenza dei modelli convenzionali di testo-immagine che elaborano solo input testuali, GILL può anche elaborare input immagine-testo arbitrariamente intercalati.

In conclusione, GILL (Generating Images with Large Language Models) sembra promettente poiché mostra una gamma più ampia di abilità rispetto ai precedenti modelli di linguaggio multimodali. La sua capacità di superare i modelli di generazione non basati su LLM in vari compiti testo-immagine che misurano la dipendenza dal contesto lo rende una soluzione potente per compiti multimodali.