IA generativa su articoli di ricerca utilizzando il modello Nougat
Generative AI on research articles using the Nougat model
Fare cose interessanti con i dati!
Introduzione
Gli avanzamenti recenti nei modelli di linguaggio estesi (LLM) come GPT-4 hanno mostrato capacità impressionanti nella generazione di testi coerenti. Tuttavia, analizzare e comprendere correttamente gli articoli di ricerca rimane un compito estremamente difficile per l’IA. Gli articoli di ricerca contengono formattazioni complesse, equazioni matematiche, tabelle, figure e linguaggio specifico del dominio. La densità di informazioni è molto elevata e le semantica importanti sono codificate nella formattazione.
In questo articolo, dimostrerò come un nuovo modello chiamato Nougat, sviluppato da Meta, possa aiutare ad analizzare correttamente gli articoli di ricerca. Lo combineremo poi con una pipeline LLM che estrae e riassume tutte le tabelle presenti nell’articolo.
Il potenziale qui è immenso. Ci sono molti dati/informazioni bloccati negli articoli di ricerca e nei libri che non sono stati analizzati correttamente. L’analisi accurata consente il loro utilizzo in molte applicazioni diverse, compresa la ritrattazione LLM.
Modello Nougat
Nougat è un modello di trasformazione visiva sviluppato dai ricercatori di Meta AI che può convertire le immagini delle pagine dei documenti in testo strutturato [1]. Prende in input un’immagine rasterizzata di una pagina del documento e restituisce il testo in un linguaggio di markup leggero.
- Trasformare compiti generativi in compiti di classificazione
- Migliora le prestazioni dell’AI con il Fine-Tuning
- 7 Modi per Creare una Matrice di Correlazione in Python
Il principale vantaggio di Nougat è che si basa esclusivamente sull’immagine del documento e non ha bisogno di alcun testo OCR. Ciò gli consente di recuperare correttamente la struttura semantica come le equazioni matematiche. È addestrato su milioni di articoli accademici provenienti da arXiv e PubMed per imparare i modelli di formattazione e linguaggio degli articoli di ricerca.
La figura sottostante da [1] mostra come le equazioni matematiche scritte in PDF vengono riprodotte in Latex e visualizzate correttamente.
Nougat utilizza un’architettura codificatore-decodificatore di trasformatori visivi. Il codificatore utilizza un Swin Transformer per codificare l’immagine del documento in embedding latenti. Lo Swin Transformer elabora l’immagine in modo gerarchico utilizzando finestre spostate. Il decodificatore genera quindi i token di testo di output in modo autoregressivo utilizzando l’autoattenzione sul codificatore…