Efficienti modelli di lingua piccoli il parametro 1.3 miliardi di phi-1.5 di Microsoft

Efficient language models Microsoft's 1.3 billion parameter phi-1.5 small models.

Quando pensavi di aver sentito abbastanza notizie sui Large Language Model (LLM), Microsoft Research è tornata a disturbare nuovamente il mercato. Nel giugno 2023, Microsoft Research ha pubblicato un documento chiamato “Textbooks is All You Need,” in cui ha introdotto phi-1, un nuovo grande modello di linguaggio per il codice. phi-1 è un modello basato su trasformatori con 1,3 miliardi di parametri, che è stato allenato per 4 giorni su 8 GPU A100, utilizzando una selezione di dati di “qualità da manuale” dal web.

Sembra che i LLM stiano diventando sempre più piccoli.

Cosa è phi-1.5?

Ora Microsoft Research ti presenta phi-1.5, un Transformer con 1,3 miliardi di parametri, che è stato allenato utilizzando le stesse fonti di dati di phi-1. Come già detto, phi-1 è stato allenato su dati di alta qualità da manuali, mentre phi-1.5 è stato allenato solo su dati sintetici. phi-1.5 ha utilizzato 32 GPU A100-40G ed è stato allenato con successo in 8 giorni. L’obiettivo di phi-1.5 era creare un modello open-source che possa svolgere un ruolo nella comunità della ricerca utilizzando un modello piccolo non limitato che ti permetta di esplorare le diverse sfide di sicurezza con i LLM, come la riduzione della tossicità, il miglioramento della controllabilità e altro ancora.

Utilizzando l’approccio “Generazione di Dati Sintetici”, le prestazioni di phi-1.5 sono equivalenti a modelli 5 volte più grandi nei test di linguaggio naturale e ha dimostrato di superare la maggior parte dei LLM in compiti di ragionamento più difficili.

Abbastanza impressionante vero?

Il percorso di apprendimento del modello è molto interessante. Ricava dati da diverse fonti, tra cui frammenti di codice Python da StackOverflow, manuali sintetici di Python e esercizi generati da GPT-3.5-turbo-0301.

Affrontare la tossicità e i pregiudizi

Una delle sfide principali con i LLM è la tossicità e il contenuto di pregiudizio. Microsoft Research ha cercato di superare questa sfida continua di contenuto dannoso/offensivo e contenuto che promuove una specifica ideologia.

I dati sintetici utilizzati per allenare il modello generavano risposte con una minore propensione a generare contenuti tossici rispetto ad altri LLM come Falcon-7B e Llama 2-7B, come mostrato nell’immagine seguente:

Benchmarks

L’immagine seguente mostra come phi-1.5 si sia comportato leggermente meglio rispetto a modelli all’avanguardia, come Llama 2-7B, Llama-7B e Falcon-RW-1.3B) su 3 benchmark: ragionamento di senso comune, competenze linguistiche e ragionamento a più passi.

Come è stato fatto ciò?

L’uso di dati simili a quelli dei manuali ha differenziato l’uso di tali dati nei LLM rispetto ai dati estratti da internet. Per valutare ulteriormente come il modello gestisce i contenuti tossici, è stato utilizzato ToxiGen e sono stati progettati e etichettati manualmente 86 prompt come “pass”, “fail” o “non compreso” per avere una migliore comprensione delle limitazioni del modello.

Detto ciò, phi-1.5 ha superato 47 prompt, ha fallito 34 prompt e non ha compreso 4 prompt. L’approccio di HumanEval per valutare i modelli genera risposte che mostrano che phi-1.5 ha ottenuto punteggi più alti rispetto ad altri modelli ben noti.

Punti chiave da ricordare:

Ecco i principali punti di discussione che dovresti ricordare riguardo a phi-1.5:

È un modello basato su trasformatori
È un LLM che si concentra sugli obiettivi di previsione della parola successiva
È stato allenato su 30 miliardi di token
Ha utilizzato 32 GPU A100-40G
È stato allenato con successo in 8 giorni

Nisha Arya è una Data Scientist, Scrittrice Tecnica Freelance e Community Manager presso VoAGI. È particolarmente interessata a fornire consigli sulla carriera in Data Science o tutorial e conoscenze teoriche su Data Science. Desidera anche esplorare i diversi modi in cui l’Intelligenza Artificiale può beneficiare della longevità della vita umana. Un’apprendista appassionata, alla ricerca di ampliare le sue conoscenze tecniche e le sue competenze di scrittura, aiutando nel frattempo a guidare gli altri.

artificial intelligence

Ricercatori dell’Università di Tokyo presentano una nuova tecnica per proteggere le applicazioni sensibili basate sull’intelligenza artificiale AI dagli attacchi degli aggressori.

Efficienti modelli di lingua piccoli il parametro 1.3 miliardi di phi-1.5 di Microsoft

Efficient language models Microsoft's 1.3 billion parameter phi-1.5 small models.

Cosa è phi-1.5?

Affrontare la tossicità e i pregiudizi

Benchmarks

Punti chiave da ricordare:

Ricercatori dell’Università di Tokyo presentano una nuova tecnica per proteggere le applicazioni sensibili basate sull’intelligenza artificiale AI dagli attacchi degli aggressori.

Ottimizzazione della memorizzazione dei dati Esplorazione dei tipi di dati e della normalizzazione in SQL

Come genera testo un LLM?

Esplorazione delle reti neurali

AI tradizionale vs AI generativa

Chris Sullens, CEO di CentralReach – ...

I modelli di Machine Learning producono ris...

Incontra MAmmoTH Una serie di modelli di li...

AI