Microsoft Research presenta phi-1 un nuovo grande modello di linguaggio specializzato nella programmazione Python con dimensioni significativamente più piccole rispetto ai modelli concorrenti.

Microsoft Research presenta phi-1, un nuovo modello di linguaggio specializzato in Python, più piccolo dei modelli concorrenti.

Dalla scoperta della progettazione del Transformer, l’arte dell’addestramento di grandi reti neurali artificiali è avanzata enormemente, ma la scienza sottostante a questo risultato è ancora nei suoi primi passi. Un senso di ordine è emerso alla fine della schiacciante e perplessa serie di risultati allo stesso tempo in cui i Transformers sono stati rilasciati, mostrando che le prestazioni aumentano in modo prevedibile aumentando la quantità di calcolo o la dimensione della rete, un fenomeno noto come leggi di scaling. Queste regole di scaling hanno servito da guida per la successiva indagine della scala nell’apprendimento profondo, e la scoperta di variazioni in queste leggi ha portato ad un netto aumento delle prestazioni. 

In questo articolo, si indaga su come la qualità dei dati possa essere migliorata lungo un diverso asse. Dati di migliore qualità producono risultati migliori; ad esempio, la pulizia dei dati è un passaggio cruciale nella creazione di dataset attuali e può risultare in dataset relativamente più piccoli o nella capacità di eseguire i dati attraverso più iterazioni. Ricerche recenti su TinyStories, un dataset di alta qualità creato artificialmente per insegnare l’inglese alle reti neurali, hanno dimostrato che i benefici dei dati di alta qualità vanno ben oltre questo. Attraverso una modifica drammatica delle leggi di scaling, la miglior qualità dei dati può rendere possibile l’eguaglianza delle prestazioni dei modelli di grandi dimensioni con modelli di addestramento molto più snelli. 

In questo studio, gli autori di Microsoft Research dimostrano che i dati di buona qualità possono migliorare ulteriormente lo SOTA dei grandi modelli di linguaggio (LLM), riducendo significativamente la dimensione del dataset e il calcolo di addestramento. Il costo ambientale dei LLM può essere notevolmente ridotto da modelli più piccoli che richiedono meno addestramento. Costruiscono funzioni Python specifiche dalle loro docstring, utilizzando LLM addestrati per la codifica. HumanEval, lo standard di valutazione suggerito nell’ultimo articolo, è stato frequentemente utilizzato per confrontare le prestazioni dei LLM sul codice. 

Dimostrano la potenza dei dati di alta qualità nel rompere le leggi di scaling esistenti addestrando un modello di 1,3 miliardi di parametri, che chiamano phi-1, per circa otto passaggi su 7 miliardi di token (leggermente oltre i 50 miliardi di token totali visti), seguiti dalla messa a punto su meno di 200 milioni di token. In generale, addestrano su dati di “qualità da manuale”, sia generati in modo sintetico (con GPT-3.5) che filtrati da fonti web, e successivamente fanno la messa a punto su dati “simili a esercizi da manuale”. Nonostante siano di diverse ordini di grandezza più piccoli rispetto ai modelli concorrenti, sia in termini di dimensione del dataset che del modello (vedere Tabella 1), raggiungono una precisione di passaggio@1 del 50,6% su HumanEval e del 55,5% pass@1 di accuratezza su MBPP (Mostly Basic Python Programs), che sono uno dei migliori numeri auto-segnalati utilizzando solo una generazione LLM. 

Addestrando un modello di 1,3 miliardi di parametri che chiamano phi-1 per circa otto passaggi su 7 miliardi di token (poco più di 50 miliardi di token totali osservati), seguiti dalla messa a punto su meno di 200 milioni di token, dimostrano la capacità dei dati di alta qualità di sfidare le regole di scaling consolidate. In generale, addestrano su dati di “qualità da manuale” che sono stati sia creati artificialmente (utilizzando GPT-3.5) che filtrati da fonti online, e successivamente fanno la messa a punto su dati “simili a esercizi da manuale”. Raggiungono una precisione di passaggio@1 del 50,6% su HumanEval e del 55,5% pass@1 di accuratezza su MBPP (Mostly Basic Python Programmes), che è uno dei migliori numeri auto-segnalati utilizzando solo una generazione LLM, nonostante siano di diverse ordini di grandezza più piccoli rispetto ai modelli concorrenti.