Adept AI Labs rende open-source Persimmon-8B un potente modello di linguaggio con licenza pienamente concessa

Adept AI Labs rende open-source Persimmon-8B

Nel recente passato, il campo dell’intelligenza artificiale ha registrato progressi notevoli, in particolare nello sviluppo di modelli linguistici. Su Marktechpost Media, abbiamo trattato numerosi modelli linguistici basati su vari parametri e prestazioni SOTA. Seguendo questa tendenza, abbiamo un altro lancio, e questa volta è di Adept AI Labs che rilascia Persimmon-8B. Persimmon-8B è un modello open source in classe 8B, con licenza completamente permisiva. Questo modello ha un enorme potenziale per una vasta gamma di applicazioni, mirando ad assistere gli utenti in vari compiti informatici. Tuttavia, è importante notare che, nella sua forma originale, il modello potrebbe produrre output non curati per potenziali tossicità. Ciò solleva una preoccupazione critica sulla necessità di tecniche di valutazione più raffinate.

Mentre modelli linguistici più piccoli hanno dimostrato capacità impressionanti, Persimmon-8B si distingue come un significativo balzo in avanti. Vanta una dimensione del contesto quattro volte quella di LLaMA2 e otto volte quella di modelli come GPT-3, consentendogli di affrontare compiti legati al contesto con maggiore eleganza. Inoltre, le sue prestazioni sono paragonabili, se non superiori, ad altri modelli della stessa dimensione, nonostante sia stato addestrato su quantità significativamente inferiori di dati. Questo esemplifica l’efficienza e l’efficacia del processo di addestramento del modello.

Per valutare le capacità di Persimmon-8B, il team di Adept adotta un approccio unico. Invece di affidarsi unicamente a probabilità implicite, optano per un’interazione più diretta, dove il modello è incaricato di generare risposte. Questa metodologia riproduce le interazioni reali con i modelli linguistici, dove gli utenti pongono domande e si aspettano risposte. Rilasciando i loro input, Adept invita la comunità a riprodurre e convalidare le loro scoperte.

I risultati parlano da soli sulle capacità di Persimmon-8B. Rispetto ad altri modelli della stessa dimensione, come LLama 2 e MPT 7B Instruct, Persimmon-8B-FT emerge come il performer più forte su diverse metriche. Anche il modello di base, Persimmon-8B-Base, dimostra una performance comparabile a LLama 2 nonostante sia stato addestrato su una frazione dei dati. Ciò sottolinea l’efficienza e l’efficacia del modello nell’affrontare una vasta gamma di compiti.

Approfondendo i dettagli tecnici, Persimmon-8B è un transformer solo decoder con diverse migliorie architettoniche. Sfrutta l’attivazione squared ReLU e le codifiche di posizione rotatoria, superando le alternative convenzionali. Il checkpoint del modello contiene circa 9,3 miliardi di parametri ottimizzati per un addestramento efficiente. Da notare, il disaccoppiamento delle rappresentazioni di input e output serve come un miglioramento a livello di sistema, semplificando il processo di addestramento.

Per quanto riguarda la velocità di inferenza, Persimmon-8B mostra prestazioni impressionanti. Utilizzando codice ottimizzato, può generare circa 56 token al secondo su una singola GPU A100 da 80GB. Ciò lo posiziona come uno strumento altamente efficiente per applicazioni in tempo reale.

In conclusione, il rilascio di Persimmon-8B segna una pietra miliare significativa nel campo dei modelli linguistici. Le sue capacità, unite all’approccio di valutazione innovativo adottato da Adept, aprono la strada a una nuova era di applicazioni interattive di intelligenza artificiale. Con l’apertura del codice sorgente di questo modello, Adept invita la comunità a costruire su questa base e guidare ulteriori innovazioni in questo campo dinamico. Con l’aumento dell’adozione del modello, è probabile che trovi applicazioni in una vasta gamma di settori, rivoluzionando il modo in cui le persone interagiscono con i sistemi informatici.