Possono i modelli di linguaggio piccoli offrire alte prestazioni? Scopri StableLM un modello di linguaggio open source che può generare testo e codice fornendo alte prestazioni con un adeguato addestramento.

StableLM è un modello di linguaggio open source che, se adeguatamente addestrato, può generare testo e codice con alte prestazioni, anche se è di dimensioni ridotte.

Stability AI è una startup nel campo dell’intelligenza artificiale, nota soprattutto per la sua tecnologia Stable Diffusion per la generazione di immagini tramite intelligenza artificiale. Oggi ha presentato un nuovo modello di linguaggio gratuito e open source chiamato StableLM. Il modello è offerto in tre diverse dimensioni di parametri per la fase Alpha: tre miliardi, sette miliardi, quindici miliardi e sessantacinque miliardi. Ai sensi delle regole della licenza CC BY-SA-4.0, gli sviluppatori possono esaminare, utilizzare e modificare i modelli di base di StableLM per progetti personali e commerciali.

Il rivoluzionario modello di immagine Stable Diffusion, che offre un’alternativa più aperta, scalabile e trasparente all’intelligenza artificiale proprietaria, è stato reso pubblico nel 2022 grazie agli sforzi di Stability AI. Stability AI ha rilasciato il set di modelli StableLM, ampliando ulteriormente la sua missione di democratizzare le capacità di base dell’intelligenza artificiale. I modelli StableLM alimentano diverse applicazioni con capacità di generazione di testo e codice. Dimostrano come modelli piccoli ed efficienti possano essere addestrati per ottenere buone prestazioni.

Il lavoro precedente del team con EleutherAI, un centro di ricerca no-profit, ha permesso di gettare le basi per il rilascio di StableLM. Il dataset open source Pile è stato utilizzato per addestrare diversi modelli di linguaggio popolari, come GPT-J, GPT-NeoX e la suite Pythia. Cerebras-GPT e Dolly-2 sono solo due esempi dei molti nuovi modelli di linguaggio open source che ampliano questi modelli precedenti.

Il dataset sperimentale utilizzato per addestrare StableLM si basa su The Pile, ma è tre volte più grande con 1,5 trilioni di token. Nonostante abbia solo 3-7 miliardi di parametri (GPT-3 ne ha 175 miliardi), StableLM raggiunge prestazioni eccezionali inaspettate su compiti di conversazione e di codifica grazie alla ricchezza di questo dataset. Le informazioni sul dataset verranno rese pubbliche in una data successiva.

Sono stati rilasciati una serie di modelli di ricerca ottimizzati per l’uso in ambienti scolastici. Questi modelli raffinati utilizzeranno prima i dati di cinque dataset di agenti conversazionali open source recentemente rilasciati: Alpaca, GPT4All, Dolly, ShareGPT e HH. In conformità alla licenza Alpaca di Stanford, questi modelli sintonizzati sono disponibili con una licenza non commerciale CC BY-NC-SA 4.0 per la ricerca accademica.

StableLM rappresenta la visione del team di sviluppare tecnologie di intelligenza artificiale aperte, accessibili e utili attraverso le seguenti capacità:

  1. Trasparenza: Per confermare le prestazioni, stabilire approcci di interpretazione, individuare i rischi e aiutare a creare salvaguardie, i ricercatori possono “guardare sotto il cofano”. Senza divulgare informazioni private o rinunciare all’autorità sulle capacità dell’intelligenza artificiale, le aziende e gli enti governativi possono modificare (o “aggiustare”) questi modelli open source per adattarli alle proprie esigenze.
  2. Accessibilità: Il team sviluppa modelli per il mondo reale, in modo che le persone comuni possano utilizzare i loro modelli sui propri dispositivi. Invece di dipendere da servizi esclusivi di poche aziende, gli sviluppatori possono utilizzare questi modelli per creare applicazioni che funzionano con una gamma più ampia di hardware disponibili pubblicamente. In questo modo, i benefici economici dell’intelligenza artificiale si diffondono tra un ampio gruppo di utenti e creatori. I modelli proposti sono aperti e dettagliati, consentendo a ricercatori e accademici di superare i limiti dei modelli chiusi in termini di interpretazione e sicurezza.
  3. Supporto: Questi modelli sono realizzati per aiutare i clienti, non per sostituirli. Invece di cercare un’intelligenza superumana, il team si concentra sul miglioramento delle capacità dell’intelligenza artificiale nell’esecuzione di compiti specifici in contesti reali. Creano risorse che permettono alle persone comuni e alle aziende di sfruttare il potenziale dell’intelligenza artificiale per favorire l’innovazione, aumentare la produttività e ampliare gli orizzonti economici.

Il team sottolinea che la qualità delle risposte che un utente riceve può variare e possono contenere linguaggio o opinioni sgradevoli, come accade con qualsiasi modello di linguaggio di grandi dimensioni preaddestrato che manca di sintonizzazione fine e apprendimento di rinforzo. La scala, l’aumento dei dati, il feedback della comunità e l’ottimizzazione sono tutti fattori che dovrebbero portare a un notevole miglioramento.