Incontra Baichuan-13B il modello di linguaggio open source della Cina per competere con OpenAI

Incontra Baichuan-13B, il modello di linguaggio open source cinese per competere con OpenAI.

Wang Xiaochuan, il fondatore del motore di ricerca cinese Sogou, ha rilasciato un nuovo enorme modello di linguaggio chiamato Baichuan-13B attraverso la sua azienda, Baichuan Intelligence. Attualmente l’uso commerciale da parte di programmatori e ricercatori è limitato. Il fondatore di Sogou, Wang Xiaochuan, ha recentemente pubblicato su Weibo che “la Cina ha bisogno del proprio OpenAI”. Il businessman cinese è un passo più vicino a realizzare la sua visione dopo che la sua giovane azienda, Baichuan Intelligence, ha rilasciato Baichuan-13B, il suo modello di linguaggio di nuova generazione. Baichuan è stato lanciato tre mesi fa e ha rapidamente attirato un gruppo di investitori disposti a mettere 50 milioni di dollari. Grazie alle eccezionali competenze del fondatore in informatica, la sua organizzazione è ora considerata uno dei più promettenti creatori cinesi di enormi modelli di linguaggio.

Baichuan-13B segue lo stesso design Transformer del GPT e della maggior parte delle varianti cinesi locali. Oltre ad essere addestrato su dati sia in cinese che in inglese, i suoi 13 miliardi di parametri (variabili utilizzate nella produzione e analisi di testo) sono bilingue. Il modello è open source e può essere utilizzato a scopo di lucro, ed è stato creato utilizzando dati da GitHub.

Dopo il successo di Baichuan-7B, Baichuan Intelligent Technology ha creato Baichuan-13B, un modello di linguaggio open source di grandi dimensioni disponibile commercialmente con 13 miliardi di parametri. Rispetto a modelli simili, basati su norme cinesi ed inglesi, supera le aspettative. In questa versione sono inclusi sia la versione di base (Baichuan-13B-Base) che la versione di dialogo (Baichuan-13B-Chat).

Caratteristiche

  • Baichuan-13B si basa su Baichuan-7B aumentando il numero di parametri a 13 miliardi, ed è stato addestrato su 1,4 trilioni di token su corpora di alta qualità, il che è il 40% in più rispetto a LLaMA-13B. Attualmente, tra i modelli di dimensioni 13B open source, è il modello con più dati di addestramento. Utilizza la codifica posizionale ALiBi e una finestra di contesto di 4096 byte e funziona in cinese e inglese.
  • Il modello di pre-addestramento serve come “base” per gli sviluppatori, mentre il modello allineato con le caratteristiche di dialogo è più richiesto dagli utenti regolari. Pertanto, la versione allineata (Baichuan-13B-Chat) è inclusa in questa versione open source, vantando potenti caratteristiche di dialogo, pronta all’uso e che richiede solo poche righe di codice per essere implementata.
  • I ricercatori stanno rendendo disponibili anche versioni quantizzate int8 e int4, ancora più efficienti per l’inferenza, per incoraggiare un uso diffuso da parte degli utenti. Possono essere implementate su schede grafiche di consumo come la Nvidia 3090, ma la versione non quantizzata richiede hardware significativamente più potente.
  • Gratuito per l’uso pubblico senza restrizioni di rivendita o modifica: se uno sviluppatore richiede una licenza commerciale ufficiale tramite email, può utilizzare Baichuan-13B a scopi commerciali senza costi aggiuntivi.

Circa 1,4 miliardi di token vengono utilizzati per addestrare Baichuan-13. ChatGPT-3, secondo OpenAI, è stato suppostamente addestrato su 300 miliardi di token. Il team di Baichuan si è raddoppiato in tre mesi, raggiungendo cinquanta membri, e ha pubblicamente dimostrato il suo modello, Baichuan-7B, che ha sette miliardi di parametri, il mese scorso. La versione Baichuan-13B, rilasciata due giorni fa, è la versione base. Ora viene offerta gratuitamente a ricercatori e programmatori che hanno ottenuto l’autorizzazione legale per utilizzarla a scopo commerciale. Il futuro del rilascio ufficiale del modello per un uso diffuso deve ancora essere scoperto.

Il modello di base Baichuan-13B è ora disponibile gratuitamente per ricercatori e programmatori che hanno ottenuto le necessarie autorizzazioni legali per utilizzarlo a scopo commerciale. Alla luce delle recenti restrizioni degli Stati Uniti contro i produttori cinesi di chip per intelligenza artificiale (AI), è particolarmente significativo il fatto che le varianti di questo modello possano essere eseguite su hardware di consumo come le schede grafiche Nvidia 3090.

I ricercatori di Baichuan Intelligent Technology confermano che il loro gruppo non ha ancora creato app basate su Baichuan-13B per alcuna piattaforma, inclusi iOS, Android, il web o altri. Si invita gli utenti a non utilizzare il modello Baichuan-13B per scopi illegali o dannosi, come compromettere la sicurezza nazionale o sociale. Gli utenti sono inoltre incoraggiati a non utilizzare il modello Baichuan-13B per servizi Internet senza le necessarie verifiche di sicurezza e registrazioni. Si conta su tutti per seguire questa regola e mantenere il progresso tecnologico entro i limiti della legge.