Meta AI rilascia BELEBELE il primo benchmark di valutazione della comprensione della lettura parallela per 122 lingue

Meta AI releases BELEBELE, the first benchmark for evaluating parallel reading comprehension in 122 languages.

Una sfida significativa nell’valutazione delle capacità di comprensione del testo di modelli multilingue è la mancanza di standard di valutazione simultanea di alta qualità. Ci sono dataset di elaborazione del linguaggio naturale ad alta copertura come FLORES-200, anche se vengono principalmente utilizzati per la traduzione automatica. Anche se più di 100 lingue utilizzano servizi di comprensione e generazione di testo, la mancanza di dati etichettati rappresenta un ostacolo significativo per la costruzione di sistemi efficaci nella maggior parte delle lingue.

È necessaria una significativa ricerca scientifica al di là dei LLM per consentire lo sviluppo efficiente e di successo di sistemi NLP per lingue a risorse limitate. Sebbene molti approcci di modellazione sostengano di essere indipendenti dalla lingua, la loro applicabilità a una vasta gamma di tipi di fenomeni viene spesso testata solo in un piccolo subset di lingue.

Uno nuovo studio condotto da Meta AI, Abridge AI e Reka AI presenta BELEBELE, un punto di riferimento chiave per la valutazione dei sistemi di comprensione del linguaggio naturale in 122 diverse varianti linguistiche. Ogni 488 paragrafi nel dataset ha corrispondenti domande a scelta multipla nel totale di 900 domande del dataset. Le domande distinguono tra modelli con diversi livelli di competenza nella comprensione del linguaggio e sono state create con cura. Le domande sono progettate per premiare modelli NLU generalizzabili e penalizzare intenzionalmente modelli tendenziosi, anche se non richiedono conoscenze o ragionamenti superiori. Le domande poste in inglese possono essere risposte con una precisione quasi perfetta dagli esseri umani. I diversi output del modello indicano che si tratta di una sfida NLU discriminante, simile a ben noti benchmark LLM come MMLU.

Il sistema BELEBELE è il primo del suo genere ed è parallelo in tutte le lingue. Ciò consente il primo confronto diretto delle prestazioni del modello tra le lingue. Il set di dati include 29 sistemi di scrittura e 27 famiglie linguistiche, rappresentando varie disponibilità di risorse e diversità linguistica. Uno dei primi benchmark di elaborazione del linguaggio naturale (NLP) per la versione romanizzata di hindi, urdu, bengalese, nepalese e sinhala si basa su queste sette lingue scritte in due diversi script.

La natura parallela del dataset consente la valutazione di rappresentazioni testuali cross-linguistiche in vari scenari cross-linguistici e può essere utilizzata per valutare modelli monolingui e multilingui. Il compito può essere valutato utilizzando il fine-tuning completo assemblando un set di addestramento da dataset di domande e risposte comparabili. I ricercatori utilizzano numerosi modelli di linguaggio mascherati (MLM) per il fine-tuning delle traduzioni tra lingue e tra inglese e altre lingue. Per confrontare i diversi modelli per LLM, vengono utilizzate valutazioni di apprendimento in contesto a cinque riprese e zero-shot (in lingua e traduzione-test).

I risultati mostrano che mentre i LLM incentrati sull’inglese possono arrivare lontano e generalizzare a oltre 30 lingue, i modelli addestrati su lingue VoAGI e a risorse limitate beneficiano maggiormente di una grande dimensione del vocabolario e di dati di pre-training bilanciati.

Il team spera che il loro studio aiuti a migliorare le architetture dei modelli e i metodi di addestramento esistenti facendo luce su come gestiscono i dati multilingue.