IA generativa su articoli di ricerca utilizzando il modello Nougat

Generative AI on research articles using the Nougat model

Fare cose interessanti con i dati!

Foto di Dan Dimmock su Unsplash

Introduzione

Gli avanzamenti recenti nei modelli di linguaggio estesi (LLM) come GPT-4 hanno mostrato capacità impressionanti nella generazione di testi coerenti. Tuttavia, analizzare e comprendere correttamente gli articoli di ricerca rimane un compito estremamente difficile per l’IA. Gli articoli di ricerca contengono formattazioni complesse, equazioni matematiche, tabelle, figure e linguaggio specifico del dominio. La densità di informazioni è molto elevata e le semantica importanti sono codificate nella formattazione.

In questo articolo, dimostrerò come un nuovo modello chiamato Nougat, sviluppato da Meta, possa aiutare ad analizzare correttamente gli articoli di ricerca. Lo combineremo poi con una pipeline LLM che estrae e riassume tutte le tabelle presenti nell’articolo.

Il potenziale qui è immenso. Ci sono molti dati/informazioni bloccati negli articoli di ricerca e nei libri che non sono stati analizzati correttamente. L’analisi accurata consente il loro utilizzo in molte applicazioni diverse, compresa la ritrattazione LLM.

Modello Nougat

Nougat è un modello di trasformazione visiva sviluppato dai ricercatori di Meta AI che può convertire le immagini delle pagine dei documenti in testo strutturato [1]. Prende in input un’immagine rasterizzata di una pagina del documento e restituisce il testo in un linguaggio di markup leggero.

Il principale vantaggio di Nougat è che si basa esclusivamente sull’immagine del documento e non ha bisogno di alcun testo OCR. Ciò gli consente di recuperare correttamente la struttura semantica come le equazioni matematiche. È addestrato su milioni di articoli accademici provenienti da arXiv e PubMed per imparare i modelli di formattazione e linguaggio degli articoli di ricerca.

La figura sottostante da [1] mostra come le equazioni matematiche scritte in PDF vengono riprodotte in Latex e visualizzate correttamente.

Fonte: Fig5 da Nougat Paper — https://arxiv.org/pdf/2308.13418.pdf

Nougat utilizza un’architettura codificatore-decodificatore di trasformatori visivi. Il codificatore utilizza un Swin Transformer per codificare l’immagine del documento in embedding latenti. Lo Swin Transformer elabora l’immagine in modo gerarchico utilizzando finestre spostate. Il decodificatore genera quindi i token di testo di output in modo autoregressivo utilizzando l’autoattenzione sul codificatore…