Possiamo trasformare il testo in grafica vettoriale scientifica? Questo articolo sull’intelligenza artificiale presenta AutomaTikZ e spiega il potere di TikZ.

Possiamo convertire il testo in una rappresentazione grafica vettoriale scientifica? Questo articolo sull'intelligenza artificiale introduce AutomaTikZ e illustra la potenza di TikZ.

Recenti sviluppi nella generazione di immagini da testo hanno reso possibile la creazione di dettagliate grafiche a partire da semplici descrizioni in linguaggio naturale. I risultati ottenuti utilizzando modelli come Stable Diffusion e DALL-E spesso assomigliano a immagini o opere d’arte create dagli esseri umani. Questi modelli non producono le migliori immagini raster per le figure scientifiche, spesso prodotte a basse risoluzioni. Le figure scientifiche sono essenziali per lo studio scientifico perché aiutano i ricercatori a spiegare concetti complicati o comunicare importanti scoperte. Le grafiche raster devono migliorare in questi ambiti, perché richiedono un alto livello di precisione geometrica e testo che possa essere letto anche in piccole dimensioni. Di conseguenza, le grafiche vettoriali, che suddividono i dati in forme geometriche, consentono la ricerca del testo e spesso hanno dimensioni di file ridotte, sono preferite da molti convegni accademici.

Il campo della creazione automatizzata di grafiche vettoriali si sta anche espandendo, anche se gli approcci disponibili hanno dei difetti propri. Nella maggior parte dei casi, vengono prodotti componenti di basso livello del formato Scalable Vector Graphics (SVG), che non riescono a mantenere relazioni geometriche precise o producono output con un basso grado di complessità, come singole icone o lettere di caratteri. Ricercatori dell’Università di Bielefeld, dell’Università di Amburgo e dell’Università di Mannheim e Bielefeld stanno investigando l’utilizzo di linguaggi visivi, che astraggono dai formati vettoriali di basso livello, offrendo strutture di alto livello che possono essere compilati in essi per risolvere queste limitazioni.

I modelli linguistici suggeriscono che acquisire questi linguaggi e utilizzarli per svolgere compiti semplici è possibile. Tuttavia, si sta cercando di determinare fino a che punto possano produrre numeri scientifici. In questo lavoro, si concentrano sul linguaggio grafico TikZ per la sua espressività e l’enfasi sulla scienza, che consente la produzione di figure complesse con poche istruzioni. Vogliono sapere se i modelli linguistici possono creare automaticamente figure scientifiche basate su didascalie di immagini, simile alla creazione di immagini da testo, e catturare le sfumature di TikZ. Ciò potrebbe non solo aumentare la produttività e promuovere l’inclusività (aiutando gli accademici meno familiari con i linguaggi simili alla programmazione, come le scienze sociali), ma potrebbe anche migliorare l’insegnamento mediante la produzione di esempi TikZ personalizzati. L’uso di TikZ è diffuso, ad esempio, nel TEX Stack Exchange, dove circa il 10% delle domande ricevono risposta.

Le loro principali contribuzioni sono:

(i) Come parte del loro progetto AutomaTikZ, hanno sviluppato DaTikZ, che contiene oltre 120.000 disegni TikZ abbinati a didascalie ed è il primo set di dati TikZ di grandi dimensioni.

(ii) Il grande modello linguistico (LLM) LLaMA su DaTikZ è stato adattato e le sue prestazioni sono state confrontate con quelle di LLM a uso generale, in particolare GPT-4 e Claude 2. Valutazioni automatiche e umane hanno dimostrato che le figure scientifiche prodotte da LLaMA adattato sono più simili a quelle create dagli esseri umani.

(iii) Continuano a lavorare su CLiMA, un’estensione di LLaMA che include gli embedding multimodali CLIP. Con questo miglioramento, CLiMA può ora comprendere più facilmente le didascalie di input, migliorando l’allineamento testo-immagine. Inoltre, rende possibile l’uso di foto come input aggiuntivi, migliorando ulteriormente la velocità.

(iv) Mostrano anche che tutti i modelli forniscono risultati originali e hanno pochi problemi di memorizzazione. Mentre LLaMA e CLiMA spesso producono soluzioni degenerate che massimizzano la similarità tra testo e immagine duplicando apertamente la didascalia di input nell’immagine di output, GPT-4 e Claude 2 producono spesso output più semplici.