Ricercatori della Peking University e di Microsoft presentano COLE un efficace framework di generazione gerarchica in grado di convertire un semplice prompt di intenzione in un design grafico di alta qualità.

Ricercatori della Peking University e di Microsoft presentano COLE un efficace framework di generazione gerarchica per trasformare un semplice prompt di intenzione in un design grafico di alta qualità.

La produzione di immagini naturali è ora all’altezza della fotografia professionale, grazie a un notevole miglioramento recente della qualità. Questo progresso è attribuibile alla creazione di tecnologie come DALL·E3, SDXL e Imagen. Gli elementi chiave che guidano questi sviluppi sono l’utilizzo del potente Large Language Model (LLM) come codificatore di testo, l’aumento delle dimensioni dei set di dati di addestramento, l’aumento della complessità del modello, una migliore progettazione delle strategie di campionamento e il miglioramento della qualità dei dati. Il team di ricerca ritiene che sia ora il momento giusto per concentrarsi nello sviluppo di un’immagine più professionale, specialmente nel campo del graphic design, dato il suo ruolo cruciale nel branding, nel marketing e nella pubblicità.

Come campo professionale, il graphic design utilizza il potere della comunicazione visiva per trasmettere messaggi chiaramente definiti a determinati gruppi sociali. È un campo che richiede immaginazione, ingegnosità e velocità di pensiero. Nel graphic design, testo e immagini vengono solitamente combinati utilizzando metodi digitali o manuali per creare storie visivamente accattivanti. Il suo obiettivo principale è organizzare dati, dare significato ai concetti e dare espressione ed emozione agli oggetti che documentano esperienze umane. L’uso creativo di caratteri tipografici, disposizione del testo, ornamenti e immagini nel graphic design consente spesso di esprimere idee, sentimenti e atteggiamenti che non possono essere espressi solo con le parole. La produzione di design di alta qualità richiede un’alta capacità di immaginazione, ingegnosità e pensiero laterale.

Secondo lo studio attuale, l’innovativo DALL·E3 ha notevoli abilità nella produzione di immagini di design di alta qualità, caratterizzate da layout e grafica visivamente accattivanti, come si può vedere nella Figura 1. Tuttavia, queste immagini non sono prive di difetti. Le loro sfide continue includono la resa errata del testo visivo, che spesso omette o aggiunge caratteri aggiuntivi (una condizione anche riscontrata in ). Inoltre, poiché queste immagini create sono essenzialmente non modificabili, modificarle richiede procedure complesse come la segmentazione, la cancellazione e l’inpainting. Un altro vincolo significativo è la necessità che gli utenti forniscano dettagliati suggerimenti di testo. La creazione di buoni suggerimenti per la produzione di design visuale richiede solitamente un alto livello di competenza professionale.

Figura 1 utilizza il DESIGNERINTENTION per illustrare le immagini di design prodotte da DALL·E3 (potenziato da GPT-4).

Come illustrato nella Figura 2, a differenza di DALL·E3, il loro sistema COLE può produrre eccellenti immagini di design grafico con solo un requisito di base per gli utenti. Secondo il team di ricerca, queste tre limitazioni compromettono seriamente la qualità delle immagini di design grafico. Un sistema di generazione di design visuale di alta qualità e scalabile dovrebbe idealmente fornire un’area di editing flessibile, generare informazioni tipografiche accurate e di alta qualità per vari utilizzi e richiedere uno sforzo ridotto da parte degli utenti. Gli utenti potrebbero utilizzare le competenze umane a loro disposizione per migliorare ulteriormente i risultati. Questo sforzo mira a creare un sistema di testo-design autonomo stabile ed efficace che possa produrre eccezionali immagini di design grafico basate sulle intenzioni degli utenti.

Figura 2: Una rappresentazione visiva delle immagini prodotte dal sistema COLE è mostrata sopra. Interessante, il nostro sistema riceve solo una descrizione intenzionale testuale come input. Il resto degli elementi, come il testo, i grafici di design e le proprietà tipografiche correlate come il tipo di carattere, la dimensione e la posizione, sono tutti prodotti indipendentemente dal sistema intelligente.

Il team di ricerca di Microsoft Research Asia e l’Università di Pechino propongono COLE, un approccio generativo gerarchico per semplificare il complicato processo di creazione di immagini di design grafico. In questo processo vengono coinvolti diversi modelli di generazione specializzati, ognuno dei quali mira a affrontare una specifica sotto-task.

Prima di tutto, l’enfasi è posta sul design immaginativo e sull’interpretazione, principalmente sulla comprensione delle intenzioni. Ciò viene realizzato utilizzando avanzati LLM, in particolare il Llama2-13B, ottimizzato con un ampio dataset di quasi 100.000 coppie intenzione-JSON selezionate. Il file JSON include importanti informazioni correlate al design, tra cui descrizioni testuali, didascalie degli oggetti e didascalie di sfondo. Il team di ricerca offre anche parametri opzionali per scopi aggiuntivi, come la posizione degli oggetti.

In secondo luogo, ci si concentra sulla disposizione e il miglioramento della parte visiva, che comprende due sotto-task: la produzione di componenti visivi e caratteristiche tipografiche. La creazione di varie caratteristiche visive implica l’ottimizzazione di modelli specializzati a diffusione a cascata come DeepFloyd/IF. Questi modelli sono realizzati in modo da garantire una transizione fluida tra i componenti, come le immagini degli oggetti stratificate e lo sfondo decorativo. Il team di ricerca predice quindi il file JSON tipografico utilizzando un Modello Multimodale di Larga Scala (LMM) per la tipografia, costruito utilizzando LLaVA-1.5-13B. Ciò avviene utilizzando il file JSON predetto dal Design LLM, l’immagine di sfondo proiettata da un modello di diffusione e l’immagine degli oggetti prevista da un modello di diffusione a cascata. Successivamente, un renderizzatore visivo assembla questi componenti utilizzando il layout trovato nel file JSON previsto.

In terzo luogo, alla fine del processo vengono fornite garanzie di qualità e commenti per migliorare la qualità complessiva del design. Un LMM di riflessione deve essere attentamente regolato e GPT-4V(ison) deve essere utilizzato per un’esame completo e sfaccettato della qualità. Questa ultima fase facilita la modifica del file JSON secondo necessità, compresi il cambio delle dimensioni e delle posizioni delle caselle di testo. Infine, il team di ricerca ha sviluppato un DESIGNERINTENTION, comprendente circa 200 promemoria di intenzioni di progettazione grafica professionale che spaziano in diverse categorie e circa 20 creative, per valutare le capacità del sistema. Hanno quindi confrontato il loro approccio con il sistema di generazione di immagini all’avanguardia attualmente in uso, hanno condotto esaurienti esperimenti di ablazione per ogni modello di generazione su varie sotto-task, fornito un’analisi approfondita dei design grafici prodotti dal loro sistema e avuto una conversazione sui svantaggi e sulle potenziali direzioni future della generazione di immagini di design grafico.