Ricercatori di Inception, MBZUAI e Cerebras hanno reso open-source ‘Jais’ il più avanzato modello di linguaggio arabo al mondo.

Researchers from Inception, MBZUAI, and Cerebras have open-sourced 'Jais', the world's most advanced Arabic language model.

I modelli di linguaggio di grandi dimensioni come GPT-3 e il loro impatto su vari aspetti della società sono oggetto di notevole interesse e dibattito. I modelli di linguaggio di grandi dimensioni hanno notevolmente avanzato il campo dell’NLP. Hanno migliorato l’accuratezza di varie attività legate al linguaggio, tra cui la traduzione, l’analisi del sentiment, la sintesi e la risposta alle domande. I chatbot e gli assistenti virtuali alimentati da modelli di linguaggio di grandi dimensioni stanno diventando sempre più sofisticati e capaci di gestire conversazioni complesse. Vengono utilizzati nel supporto clienti, nei servizi di chat online e persino come compagni per alcuni utenti.

La creazione di modelli di linguaggio di grandi dimensioni (LLM) in arabo presenta sfide uniche a causa delle caratteristiche della lingua araba e della diversità dei suoi dialetti. Come i modelli di linguaggio di grandi dimensioni in altre lingue, gli LLM in arabo possono ereditare pregiudizi dai dati di addestramento. Affrontare questi pregiudizi e garantire l’uso responsabile dell’IA nei contesti arabi è una preoccupazione continua.

I ricercatori di Inception, Cerebras e dell’Università di Intelligenza Artificiale Mohamed Bin Zayed (UAE) hanno introdotto Jais e Jais-chat, un nuovo modello di linguaggio di grandi dimensioni basato sulla lingua araba. Il loro modello si basa sull’architettura di preaddestramento generativo GPT-3 e utilizza solo 13 miliardi di parametri.

La loro sfida principale era ottenere dati in arabo di alta qualità per addestrare il modello. Rispetto ai dati in inglese, che possono essere costituiti da corpora fino a due trilioni di token, i dati in arabo erano disponibili in quantità significativamente inferiore. I corpora sono grandi collezioni strutturate di testi utilizzate in linguistica, elaborazione del linguaggio naturale (NLP) e analisi del testo per la ricerca e l’addestramento dei modelli di linguaggio. I corpora sono risorse preziose per lo studio dei modelli di linguaggio, la semantica, la grammatica e altro ancora.

Hanno addestrato modelli bilingue per risolvere questa problematica, integrando i dati di preaddestramento in arabo limitati con abbondanti dati di preaddestramento in inglese. Hanno preaddestrato Jais su 395 miliardi di token, tra cui 72 miliardi di token in arabo e 232 miliardi di token in inglese. Hanno sviluppato una pipeline di elaborazione del testo in arabo specializzata che include una filtrazione e pulizia dei dati accurata per produrre dati in arabo di alta qualità.

Dicono che le capacità preaddestrate e sintonizzate del loro modello superano tutti i modelli arabi open source conosciuti e sono paragonabili ai modelli inglesi open source all’avanguardia addestrati su dataset più ampi. Considerando le preoccupazioni di sicurezza intrinseche degli LLM, lo hanno ulteriormente sintonizzato con istruzioni orientate alla sicurezza. Hanno aggiunto ulteriori protezioni sotto forma di prompt di sicurezza, filtraggio basato su parole chiave e classificatori esterni.

Dicono che Jais rappresenta un’importante evoluzione e espansione del panorama NLP e AI nel Medio Oriente. Avanza la comprensione e la generazione della lingua araba, fornendo ai giocatori locali opzioni di implementazione sovrane e private e nutrendo un ecosistema vibrante di applicazioni e innovazione; questo lavoro sostiene un’iniziativa strategica più ampia di trasformazione digitale e dell’IA per inaugurare un’era aperta, più linguisticamente inclusiva e consapevole dal punto di vista culturale.