Incontra PolyLM (Polyglot Large Language Model) un modello di lingua multilingue LLM open source addestrato su 640 miliardi di token, disponibile in due dimensioni del modello, 1,7 miliardi e 13 miliardi.

Incontra PolyLM, un modello di lingua multilingue open source, addestrato su 640 miliardi di token. È disponibile in due dimensioni del modello 1,7 miliardi e 13 miliardi.

Con l’introduzione recente dei Grandi Modelli di Linguaggio (LLM), la loro versatilità e capacità hanno attirato l’interesse di tutti nel settore dell’Intelligenza Artificiale. Questi modelli sono stati addestrati su enormi quantità di dati e possiedono brillanti abilità di imitazione umana nell’interpretazione, nel ragionamento e nella generazione di testo basato su istruzioni in linguaggio naturale. Avendo buone prestazioni in compiti zero-shot e few-shot, questi modelli possono affrontare sfide impreviste basate su istruzioni date in linguaggio naturale, venendo sintonizzati su vari insiemi di compiti.

Gli attuali LLM e il loro sviluppo si concentrano sull’inglese e sulle lingue ricche di risorse. La maggior parte dei LLM esistenti è stata appositamente progettata e addestrata per la lingua inglese, risultando in un predominante pregiudizio verso l’inglese nella ricerca e nello sviluppo di questi modelli. Per affrontare questa limitazione, un team di ricercatori della DAMO Academy e del Gruppo Alibaba ha proposto un LLM multilingue chiamato POLYLM (Polyglot Large Language Model). A differenza dei LLM multilingue esistenti che non dispongono di un modello 13B, il team ha rilasciato POLYLM-13B e POLYLM-1.7B per agevolare l’uso.

POLYLM è stato costruito utilizzando un enorme dataset di 640 miliardi di token provenienti da fonti pubblicamente accessibili, tra cui Wikipedia, mC4 e CC-100. Il team ha anche suggerito una tecnica di apprendimento curricolare per affrontare il problema dell’insufficienza di dati per le lingue a risorse limitate. Questo metodo prevede un aumento graduale del rapporto tra lingue di alta qualità e a risorse limitate durante l’addestramento, concentrandosi inizialmente maggiormente sull’inglese. L’attenzione è stata posta sul trasferimento delle conoscenze generali dall’inglese ad altre lingue.

Il team ha inoltre sviluppato MULTIALPACA, un dataset di istruzioni multilingue, per la fase di fine-tuning supervisionato (SFT). I dataset multilingue SFT esistenti sono ottenuti attraverso annotazione manuale, che è dispendiosa in termini di tempo e costi, o attraverso traduzione automatica, che può comportare errori di traduzione e mancare di sfumature culturali. Questo approccio di auto-istruzione multilingue fornisce automaticamente dati di istruzioni multilingue di alta qualità per superare queste restrizioni e fa uso di seed in inglese, traduzioni in molte lingue, produzione di istruzioni e sistemi di filtraggio.

Per la valutazione e per valutare le capacità multilingue degli LLM, il team ha sviluppato una benchmark derivata da compiti multilingue esistenti, tra cui risposta a domande, comprensione del linguaggio, generazione di testo e traduzione automatica cross-linguistica. La benchmark è stata sviluppata con sollecitazioni meticolose e copre dieci compiti in 15 lingue diverse. Il team ha dimostrato attraverso numerosi esperimenti che il loro modello pre-addestrato supera i modelli open-source di dimensioni comparabili nelle lingue non inglesi. La proposta strategia di apprendimento curricolare migliora le prestazioni multilingue mantenendo al contempo la competenza in inglese. L’uso dei dati di istruzioni multilingue migliora significativamente la capacità di POLYLM di affrontare compiti multilingue zero-shot.

Il team ha riassunto le proprie contribuzioni come segue.

  1. È stato realizzato un modello di scala 13B performante che si comporta bene nelle principali lingue non inglesi come lo spagnolo, il russo, l’arabo, il giapponese, il coreano, il thailandese, l’indonesiano e il cinese. Questo modello integra i modelli open-source esistenti che sono carenti nella competenza in queste lingue o hanno versioni più piccole senza le stesse capacità.
  1. È stato proposto un approccio avanzato di apprendimento curricolare che facilita il trasferimento di conoscenze generali, acquisite principalmente in inglese, a diverse lingue non inglesi e a specifici compiti di elaborazione del linguaggio naturale, come la traduzione automatica.
  1. È stato proposto un dataset chiamato MULTIALPACA che integra i dataset di istruzioni esistenti, consentendo agli LLM di seguire meglio le istruzioni multilingue, in particolare da parte di parlanti non nativi di inglese.