Questa ricerca sull’AI propone LayoutNUWA un modello di intelligenza artificiale che tratta la generazione del layout come un compito di generazione del codice per migliorare le informazioni semantiche e sfrutta l’esperienza nascosta nel layout dei grandi modelli di lingua (LLM).

This AI research proposes LayoutNUWA, an AI model that treats layout generation as a code generation task to improve semantic information and leverage the hidden experience in the layout of large language models (LLMs).

Con la crescita dei LLM, è stato condotto un approfondito studio su tutti gli aspetti dei LLM. Pertanto, sono stati condotti studi anche sul layout grafico. Il layout grafico, o come sono disposti e posizionati gli elementi di design, influisce significativamente su come gli utenti interagiscono e percepiscono le informazioni fornite. Un nuovo campo di indagine è la generazione del layout. Si propone di fornire vari layout realistici che semplificano lo sviluppo degli oggetti.

I metodi attuali per la creazione del layout eseguono principalmente ottimizzazioni numeriche, concentrandosi sugli aspetti quantitativi e ignorando le informazioni semantiche del layout, come le connessioni tra ciascun componente del layout. Tuttavia, poiché si concentra principalmente sulla raccolta degli elementi quantitativi del layout, come posizioni e dimensioni, e trascura le informazioni semantiche, come l’attributo di ciascun valore numerico, potrebbe essere necessario essere in grado di esprimere i layout come tuple numeriche.

Dato che i layout presentano collegamenti logici tra le loro parti, i linguaggi di programmazione sono una valida opzione per i layout. Possiamo sviluppare una sequenza organizzata per descrivere ciascun layout utilizzando i linguaggi di codice. Questi linguaggi di programmazione possono combinare concetti logici con informazioni e significato, colmando il divario tra gli approcci attuali e la domanda di una rappresentazione più approfondita.

Come risultato, i ricercatori hanno sviluppato LayoutNUWA. Questo primo modello affronta lo sviluppo del layout come un problema di generazione del codice per migliorare le informazioni semantiche e sfruttare l’expertise nascosta dei layout dei modelli di linguaggio estesi (LLM).

Code Instruct Tuning (CIT) è composto da tre componenti interconnesse. Il modulo di Inizializzazione del Codice (CI) quantifica le circostanze numeriche prima di convertirle in codice HTML. Questo codice HTML contiene maschere posizionate in posizioni specifiche per migliorare la leggibilità e la coesione dei layout. In secondo luogo, per riempire le aree mascherate del codice HTML, il modulo di Completamento del Codice (CC) utilizza le competenze di formattazione dei Large Language Models (LLM). Per migliorare la precisione e la coerenza dei layout generati, questo utilizza i LLM. Infine, il modulo di Rendering del Codice (CR) rende il codice nell’output finale del layout. Per migliorare la precisione e la coerenza dei layout generati, questo utilizza i LLM.

Magazine, PubLayNet e RICO erano tre dataset pubblici frequentemente utilizzati per valutare le prestazioni del modello. Il dataset RICO, che include circa 66.000 layout UI e li divide in 25 tipi di elementi, si concentra sul design dell’interfaccia utente per le applicazioni mobili. D’altra parte, PubLayNet fornisce una considerevole libreria di oltre 360.000 layout in numerosi documenti, categorizzati in cinque gruppi di elementi. Un dataset a bassa risorsa per la ricerca sul layout di riviste, il dataset Magazine comprende oltre 4.000 layout annotati divisi in sei classi di elementi principali. Tutti e tre i dataset sono stati preelaborati e adattati per garantire coerenza utilizzando il framework LayoutDM. Per fare ciò, il dataset di validazione originale è stato designato come set di test, i layout con più di 25 componenti sono stati filtrati e il dataset raffinato è stato diviso in set di addestramento e di nuova validazione, con il 95% del dataset destinato al primo e il 5% al secondo.

Sono stati condotti esperimenti utilizzando rappresentazioni in codice e numeriche per valutare in modo approfondito i risultati del modello. È stato sviluppato un compito di Code Infilling specifico per il formato di output numerico. Invece di prevedere la sequenza di codice completa in questo lavoro, è stato chiesto al Large Language Model (LLM) di prevedere solo i valori nascosti all’interno della sequenza numerica. I risultati hanno mostrato che le prestazioni del modello diminuivano significativamente quando generate nel formato numerico, insieme a un aumento del tasso di fallimento dei tentativi di sviluppo del modello. Ad esempio, questo metodo ha prodotto risultati ripetuti in alcuni casi. Questo calo di efficienza può essere attribuito all’obiettivo del compito di generazione del layout condizionale di creare layout coerenti.

I ricercatori hanno anche affermato che numeri separati e illogici possono essere prodotti se si presta attenzione solo alla previsione delle parti mascherate. Inoltre, questa tendenza può aumentare la possibilità che un modello non riesca a generare dati, soprattutto quando si indicano layout con più valori nascosti.