Line ha pubblicato in open source ‘japanese-large-lm’ un modello linguistico giapponese con 3,6 miliardi di parametri.

Line ha pubblicato un modello linguistico giapponese open source chiamato 'japanese-large-lm' con 3,6 miliardi di parametri.

Dal novembre 2020, LINE ha intrapreso un percorso di ricerca e sviluppo per creare e sfruttare il potere di un modello di linguaggio su larga scala avanzato appositamente sviluppato per la lingua giapponese. Come pietra miliare significativa in questo percorso, l’unità di sviluppo del Massive LM di LINE ha annunciato il rilascio dei loro modelli di linguaggio giapponese, “Japanese-large-lm”, come software open-source (OSS). Questo rilascio è destinato ad avere un impatto significativo sia sulla comunità di ricerca che sulle aziende che cercano di sfruttare modelli di linguaggio all’avanguardia.

Questi modelli di linguaggio sono disponibili in due varianti: il modello a 3,6 miliardi (3,6B) di parametri e il modello a 1,7 miliardi (1,7B) di parametri, chiamati rispettivamente modello 3,6B e modello 1,7B. Svelando questi modelli e condividendo le loro conoscenze approfondite sulla costruzione del modello di linguaggio, LINE ha l’obiettivo di fornire uno sguardo alle complessità del loro approccio e contribuire all’avanzamento del campo.

I modelli 1,7B e 3,6B sono accessibili tramite HuggingFace Hub (modello 1,7B, modello 3,6B), offrendo un’integrazione senza soluzione di continuità in vari progetti attraverso la popolare libreria transformers. La concessione di licenze per questi modelli con licenza Apache 2.0 garantisce che una vasta gamma di utenti, tra cui ricercatori e entità commerciali, possa sfruttarne le capacità per applicazioni diverse.

Una pietra angolare nello sviluppo di qualsiasi modello di linguaggio ad alte prestazioni risiede nell’utilizzare un set di dati di addestramento esteso e di alta qualità. LINE ha utilizzato il suo corpus web giapponese proprietario, un repository arricchito con dati testuali diversi per raggiungere questo obiettivo. Tuttavia, la sfida che il contenuto derivato dal web presenta è il rumore intrinseco, compreso il codice sorgente e le frasi non giapponesi. La risposta di LINE è stata quella di utilizzare processi di filtraggio meticolosi alimentati dalla libreria OSS HojiChar. Questi processi sono stati fondamentali per distillare un set di dati di alta qualità su larga scala, che costituisce la base della robustezza dei modelli.

L’efficienza nell’addestramento del modello è stata una considerazione chiave, e LINE ha risposto all’occasione implementando tecniche innovative come la parallelismo 3D e il checkpoint di attivazione. Questi progressi hanno facilitato l’assimilazione efficiente di dati voluminosi, spingendo efficacemente i limiti delle capacità di calcolo. Sorprendentemente, il modello 1,7B è stato sviluppato utilizzando solo 4000 ore di GPU su una GPU A100 80GB, a testimonianza dell’efficacia del loro approccio di apprendimento.

È importante notare che la traiettoria di sviluppo di questo modello di linguaggio giapponese si è discostata da quella di HyperCLOVA. Costruito lungo una linea di sviluppo distinta, attentamente supervisionata dall’unità di sviluppo dedicata del Massive LM di LINE, questo modello è una testimonianza dell’impegno di LINE nel creare modelli pre-addestrati eccezionali per la lingua giapponese. Il loro obiettivo generale rimane saldo: integrare le conoscenze e le lezioni della loro vasta esperienza con modelli di linguaggio su larga scala.

LINE ha approfondito i punteggi di perplessità (PPL) e i tassi di accuratezza per compiti di domanda-risposta e comprensione della lettura per valutare l’efficacia dei modelli. PPL fornisce un’idea sulle capacità predictive del modello, mentre i tassi di accuratezza offrono misure di performance tangibili. I risultati sono stati promettenti, con i modelli di LINE che mostrano prestazioni competitive in vari compiti, sfidando i modelli consolidati nel campo.

Alla base del loro successo vi sono una serie di preziosi consigli per l’addestramento efficace di modelli di linguaggio su larga scala. Questi includono considerazioni per la messa a punto, il parametro beta2 di Adam, i tassi di apprendimento ottimali e l’applicazione di un programmatore di tassi di apprendimento giudizioso. Approfondendo queste complessità tecniche, LINE ha sviluppato modelli potenti e condiviso conoscenze che beneficiano la comunità più ampia.

In conclusione, il rilascio da parte di LINE dei modelli di linguaggio giapponese 1,7B e 3,6B segna un passo significativo nell’elaborazione del linguaggio naturale. Il loro impegno nel rilasciare modelli ottimizzati in futuro sottolinea la loro dedizione nel potenziamento delle capacità dei modelli di linguaggio. Mentre LINE continua a fare progressi, la comunità globale attende con impazienza l’impatto duraturo dei loro contributi in corso.