Efficienti modelli di lingua piccoli il parametro 1.3 miliardi di phi-1.5 di Microsoft

Efficient language models Microsoft's 1.3 billion parameter phi-1.5 small models.

 

Quando pensavi di aver sentito abbastanza notizie sui Large Language Model (LLM), Microsoft Research è tornata a disturbare nuovamente il mercato. Nel giugno 2023, Microsoft Research ha pubblicato un documento chiamato “Textbooks is All You Need,” in cui ha introdotto phi-1, un nuovo grande modello di linguaggio per il codice. phi-1 è un modello basato su trasformatori con 1,3 miliardi di parametri, che è stato allenato per 4 giorni su 8 GPU A100, utilizzando una selezione di dati di “qualità da manuale” dal web.

Sembra che i LLM stiano diventando sempre più piccoli.

 

Cosa è phi-1.5?

  Ora Microsoft Research ti presenta phi-1.5, un Transformer con 1,3 miliardi di parametri, che è stato allenato utilizzando le stesse fonti di dati di phi-1. Come già detto, phi-1 è stato allenato su dati di alta qualità da manuali, mentre phi-1.5 è stato allenato solo su dati sintetici. phi-1.5 ha utilizzato 32 GPU A100-40G ed è stato allenato con successo in 8 giorni. L’obiettivo di phi-1.5 era creare un modello open-source che possa svolgere un ruolo nella comunità della ricerca utilizzando un modello piccolo non limitato che ti permetta di esplorare le diverse sfide di sicurezza con i LLM, come la riduzione della tossicità, il miglioramento della controllabilità e altro ancora.

Utilizzando l’approccio “Generazione di Dati Sintetici”, le prestazioni di phi-1.5 sono equivalenti a modelli 5 volte più grandi nei test di linguaggio naturale e ha dimostrato di superare la maggior parte dei LLM in compiti di ragionamento più difficili.

Abbastanza impressionante vero?

Il percorso di apprendimento del modello è molto interessante. Ricava dati da diverse fonti, tra cui frammenti di codice Python da StackOverflow, manuali sintetici di Python e esercizi generati da GPT-3.5-turbo-0301.

 

Affrontare la tossicità e i pregiudizi

  Una delle sfide principali con i LLM è la tossicità e il contenuto di pregiudizio. Microsoft Research ha cercato di superare questa sfida continua di contenuto dannoso/offensivo e contenuto che promuove una specifica ideologia.

I dati sintetici utilizzati per allenare il modello generavano risposte con una minore propensione a generare contenuti tossici rispetto ad altri LLM come Falcon-7B e Llama 2-7B, come mostrato nell’immagine seguente:

 

 

Benchmarks

  L’immagine seguente mostra come phi-1.5 si sia comportato leggermente meglio rispetto a modelli all’avanguardia, come Llama 2-7B, Llama-7B e Falcon-RW-1.3B) su 3 benchmark: ragionamento di senso comune, competenze linguistiche e ragionamento a più passi.

   

Come è stato fatto ciò?

L’uso di dati simili a quelli dei manuali ha differenziato l’uso di tali dati nei LLM rispetto ai dati estratti da internet. Per valutare ulteriormente come il modello gestisce i contenuti tossici, è stato utilizzato ToxiGen e sono stati progettati e etichettati manualmente 86 prompt come “pass”, “fail” o “non compreso” per avere una migliore comprensione delle limitazioni del modello.

Detto ciò, phi-1.5 ha superato 47 prompt, ha fallito 34 prompt e non ha compreso 4 prompt. L’approccio di HumanEval per valutare i modelli genera risposte che mostrano che phi-1.5 ha ottenuto punteggi più alti rispetto ad altri modelli ben noti.

 

Punti chiave da ricordare:

  Ecco i principali punti di discussione che dovresti ricordare riguardo a phi-1.5:

  • È un modello basato su trasformatori
  • È un LLM che si concentra sugli obiettivi di previsione della parola successiva
  • È stato allenato su 30 miliardi di token
  • Ha utilizzato 32 GPU A100-40G
  • È stato allenato con successo in 8 giorni

    Nisha Arya è una Data Scientist, Scrittrice Tecnica Freelance e Community Manager presso VoAGI. È particolarmente interessata a fornire consigli sulla carriera in Data Science o tutorial e conoscenze teoriche su Data Science. Desidera anche esplorare i diversi modi in cui l’Intelligenza Artificiale può beneficiare della longevità della vita umana. Un’apprendista appassionata, alla ricerca di ampliare le sue conoscenze tecniche e le sue competenze di scrittura, aiutando nel frattempo a guidare gli altri.