DeepSeek apre il codice sorgente del modello DeepSeek-67B l’ultima novità di ChatGPT proveniente dalla Cina

DeepSeek-67B La Nuova Innovazione di ChatGPT con Codice Sorgente Aperto Arriva dalla Cina, Grazie a DeepSeek!

La startup cinese di intelligenza artificiale DeepSeek AI ha inaugurato una nuova era nei grandi modelli di linguaggio (LLM) presentando la famiglia DeepSeek LLM. Composta dai modelli open source DeepSeek LLM 7B/67B Base e DeepSeek LLM 7B/67B Chat, questi modelli segnano un significativo passo in avanti nella comprensione del linguaggio e nell’applicazione versatile.

Una delle caratteristiche distintive dei LLM di DeepSeek è l’eccezionale performance della versione Base 67B rispetto alla versione Base 70B di Llama2, evidenziando una maggiore capacità di ragionamento, codifica, matematica e comprensione del cinese.

Questo salto qualitativo delle capacità dei LLM di DeepSeek dimostra la loro competenza in un’ampia gamma di applicazioni. Particolarmente degno di nota è il successo di DeepSeek Chat, che ha ottenuto un impressionante tasso di superamento del 73,78% nel benchmark di codifica di HumanEval, superando modelli delle stesse dimensioni. Ha dimostrato notevole abilità ottenendo un punteggio dell’84,1% nel set di dati matematici GSM8K senza raffinamento.

La decisione di DeepSeek AI di rendere open source entrambe le versioni dei suoi modelli, da 7 miliardi e 67 miliardi di parametri, comprese le varianti base e specializzate della chat, mira a promuovere la ricerca e le applicazioni commerciali sull’intelligenza artificiale.

Per garantire valutazioni delle prestazioni imparziali e approfondite, DeepSeek AI ha progettato nuovi set di problemi, come l’esame nazionale delle scuole superiori ungheresi e il set di dati di valutazione del follow perfecta delle istruzioni di Google. Queste valutazioni hanno evidenziato efficacemente le eccezionali capacità del modello nel gestire esami e compiti precedentemente non visti.

La startup ha fornito approfondimenti sul suo meticoloso processo di raccolta dati e formazione, che si è concentrato sull’aumento della diversità e dell’originalità nel rispetto dei diritti di proprietà intellettuale. Il processo a più fasi ha coinvolto la cura di testi di qualità, formulazioni matematiche, codice, opere letterarie e vari tipi di dati, implementando filtri per eliminare la tossicità e i contenuti duplicati.

I modelli di linguaggio di DeepSeek, progettati con architetture simili a LLaMA, sono stati sottoposti a rigorosa preformazione. Il modello 7B ha utilizzato l’Attenzione Multi-Head, mentre il modello 67B ha sfruttato l’Attenzione Query Raggruppata. Il regime di addestramento ha utilizzato dimensioni dei batch elevate e un piano di apprendimento a più fasi, garantendo capacità di apprendimento robuste ed efficienti.

Guidando la pubblicazione di questi LLM open source all’avanguardia, DeepSeek AI ha segnato una pietra miliare nel campo della comprensione del linguaggio e dell’accessibilità all’intelligenza artificiale, promuovendo l’innovazione e applicazioni più ampie nel settore.

L’articolo DeepSeek Open-Sources DeepSeek-67B Model: The Latest ChatGPT Rival from China è apparso per primo su MarkTechPost.