Incontra Skywork-13B Una famiglia di grandi modelli di linguaggio (LLM) addestrati su un corpus di oltre 3,2T token tratti da testi in inglese e cinese.

Incontra Skywork-13B Una Famiglia Eccezionale di Modelli di Linguaggio Addestrati su un Enorme Corpus di Testo in Inglese e Cinese, con oltre 3,2T Token.

Gli LLM bilingue stanno diventando sempre più importanti nel nostro mondo interconnesso, dove la diversità linguistica è una sfida comune. Hanno il potenziale per abbattere le barriere linguistiche, promuovere la comprensione interculturale e migliorare l’accesso alle informazioni e ai servizi per le persone che parlano lingue diverse. Gli LLM bilingue possono essere utilizzati per fornire servizi di traduzione automatica di alta qualità. Possono tradurre il testo da una lingua all’altra, contribuendo a superare le barriere linguistiche e facilitare la comunicazione tra diverse culture e regioni.

Con la crescita della necessità di questi modelli, c’è una crescita della tendenza alla commercializzazione e alla necessità di maggiore trasparenza. Molte organizzazioni rendono disponibili pubblicamente i checkpoint del modello e trattengono le informazioni vitali di un modello. Per riacquistare la trasparenza nell’AI, i ricercatori di Kunlun Technology hanno costruito una famiglia di grandi modelli linguistici addestrati su oltre 3,2 trilioni di token tratti da testi in inglese e cinese con una divulgazione completa. Si chiama Skywork – 13B.

La famiglia Skywork-13B include Skywork-13B-Base e Skywork-13BChat. La base è un modello di fondazione solido con capacità di modellazione del linguaggio cinese all’avanguardia, e la chat è una versione ottimizzata per le conversazioni. A differenza di altre organizzazioni, divulgheranno informazioni dettagliate sul processo di addestramento e sulla composizione dei dati.

Hanno inoltre rilasciato checkpoint intermedi, che rappresentano una risorsa preziosa per capire come si sviluppano le capacità del modello durante l’addestramento. Credono che questa divulgazione permetta ad altri ricercatori di utilizzare i checkpoint per i loro casi d’uso. Hanno anche sviluppato un nuovo metodo che rileva il livello di utilizzo dei dati in-domain durante la fase di addestramento.

Il team ha addestrato il modello di base Skywork-13B su SkyPile. Invece di addestrarlo su SkyPile nel suo complesso, hanno seguito un approccio di addestramento a due fasi. Nella prima fase, costituiscono la fase di preaddestramento primario, che prevede l’addestramento del modello da zero su SkyPile-Main. Nella seconda fase, viene ottimizzato con conoscenze di dominio correlate alla STEM e competenze di problem solving attraverso il preaddestramento continuo su SkyPile-STEM.

Durante l’addestramento del modello, il team ha esaminato la perdita di modellazione del linguaggio su numerosi set di convalida riservati, ognuno dei quali riflette una distribuzione dati distinta creando set di convalida separati per codice, pubblicazioni accademiche, post sui social media e testi web in cinese e inglese. Dicono che seguire questo approccio porta a una facilità nella costruzione, semplicità nel calcolo, elevata sensibilità al progresso dell’addestramento e model-agnosticism.

Il modello Skywork-13B mostra le migliori prestazioni complessive. Ha ottenuto il punteggio medio di perplessità più basso, pari a 9,42. Mostra anche le migliori prestazioni nei singoli domini, raggiungendo i punteggi di perplessità più bassi nei domini tecnologici, dei film, del governo e della finanza. Eccelle non solo nel superare le prestazioni di modelli di dimensioni simili, ma anche nel superare modelli significativamente più grandi come InternLM-20B e Aquila2-34B.