Nuovo modello di intelligenza artificiale supera GPT-3 con soli 30 miliardi di parametri.

A new AI model surpasses GPT-3 with only 30 billion parameters.

MosaicML, il rinomato fornitore di modelli di linguaggio open source (LLM), ha recentemente svelato i suoi rivoluzionari modelli MPT-30B: Base, Instruct e Chat. Questi modelli all’avanguardia, alimentati dagli ultimi acceleratori di generazione H100 di NVIDIA, rappresentano un salto di qualità significativo rispetto al GPT-3 originale.

Inoltre, leggi anche: Che cosa sono i modelli di linguaggio di grandi dimensioni (LLM)?

Il successo senza precedenti di MPT-7B e l’evoluzione a MPT-30B

Dal loro lancio nel maggio 2023, i modelli MPT-7B hanno conquistato l’industria, raggiungendo un impressionante numero di 3,3 milioni di download. Sulla base di questo trionfo, MosaicML ha ora rilasciato i modelli MPT-30B altamente attesi. Questo alza ancora di più l’asticella e sblocca una miriade di nuove possibilità in varie applicazioni.

Caratteristiche senza pari di MPT-30B

Uno dei successi più notevoli di MPT-30B è la sua capacità di superare la qualità di GPT-3 utilizzando solo 30 miliardi di parametri, una frazione dei 175 miliardi di GPT-3. Questa riduzione rivoluzionaria del numero di parametri non solo rende MPT-30B più accessibile per l’implementazione hardware locale, ma riduce significativamente anche il costo di inferenza. Inoltre, i costi associati alla formazione di modelli personalizzati basati su MPT-30B sono notevolmente inferiori rispetto alle stime per la formazione del GPT-3 originale, rendendolo una scelta irresistibile per le imprese.

Per saperne di più: Personalizzazione dei modelli di linguaggio di grandi dimensioni GPT3 per casi d’uso reali

Inoltre, la formazione di MPT-30B ha coinvolto sequenze più lunghe fino a 8.000 token, consentendogli di gestire applicazioni aziendali con dati pesanti. Questa straordinaria performance è resa possibile utilizzando le GPU H100 di NVIDIA, che assicurano un throughput superiore e tempi di formazione accelerati.

Inoltre, leggi anche: Il mercato nascosto della Cina per i potenti chip AI di Nvidia

Esplorando le infinite applicazioni di MPT-30B

Numerose aziende visionarie hanno già abbracciato i modelli MPT di MosaicML, rivoluzionando le loro applicazioni di intelligenza artificiale:

  • Replit, un innovativo ambiente di sviluppo integrato (IDE) basato sul web, ha utilizzato con successo la piattaforma di formazione di MosaicML per costruire un notevole modello di generazione di codice. Replit ha ottenuto notevoli miglioramenti nella qualità del codice, nella velocità e nell’efficienza dei costi sfruttando i suoi dati proprietari.
  • Scatter Lab, una startup di intelligenza artificiale innovativa specializzata nello sviluppo di chatbot, ha sfruttato la tecnologia di MosaicML per formare il proprio modello MPT. Il risultato è un modello AI generativo multilingue in grado di comprendere sia l’inglese che il coreano, migliorando significativamente le esperienze di chat per la loro vasta base di utenti.
  • Navan, un’azienda software di gestione di viaggi e spese di fama mondiale, sta sfruttando la solida base fornita da MPT per sviluppare LLM personalizzati per applicazioni all’avanguardia come agenti di viaggio virtuali e agenti di intelligenza aziendale conversazionale. Il co-fondatore e CTO di Navan, Ilan Twig, elogia entusiasticamente i modelli di base di MosaicML per offrire capacità linguistiche senza pari insieme a una notevole efficienza nel raffinamento e nell’erogazione dell’inferenza su larga scala.

Per saperne di più: Se sei un leader aziendale che vuole sfruttare il potere dell’AI, il workshop “AI per i leader aziendali” al DataHack Summit 2023 è un evento da non perdere.

Accesso al potere di MPT-30B

I programmatori possono accedere senza sforzo alle straordinarie capacità di MPT-30B attraverso HuggingFace Hub, disponibile come modello open source. Ciò consente ai programmatori di raffinare ulteriormente il modello utilizzando i propri dati e di implementarlo senza soluzione di continuità per l’inferenza sulla loro infrastruttura. In alternativa, i programmatori possono optare per il punto finale gestito di MosaicML, MPT-30B-Instruct, una soluzione senza problemi per l’inferenza del modello a una frazione del costo rispetto a punti finali simili. Con un prezzo di soli $0,005 per 1.000 token, MPT-30B-Instruct offre un’opzione eccezionalmente conveniente per i programmatori.

Il nostro parere

Il lancio rivoluzionario dei modelli MPT-30B di MosaicML segna una pietra miliare storica nel campo dei modelli di linguaggio di grandi dimensioni. Ciò consente alle imprese di sfruttare le capacità senza pari dell’AI generativa ottimizzando i costi e mantenendo il controllo completo sui propri dati. In conclusione, MPT-30B rappresenta un vero e proprio gioco da ragazzi, offrendo una qualità e un’efficienza dei costi senza precedenti. Il futuro ha un potenziale immenso, poiché sempre più aziende abbracciano e sfruttano questa tecnologia trasformativa per stimolare l’innovazione in tutti i settori.