Sbloccare il Potenziale dell’Intelligenza Artificiale con MINILLM Una Profonda Immersione nella Distillazione della Conoscenza dai Modelli Linguistici Più Grandi ai loro Corrispettivi Più Piccoli.

Unlock AI Potential with MINILLM A Deep Dive into Knowledge Distillation from Largest to Smallest Language Models.

La distillazione della conoscenza, che prevede la formazione di un piccolo modello studente sotto la supervisione di un grande modello insegnante, è una strategia tipica per ridurre la richiesta eccessiva di risorse computazionali a causa del rapido sviluppo di grandi modelli linguistici. Black-box KD, in cui sono accessibili solo le previsioni dell’insegnante, e white-box KD, in cui vengono utilizzati i parametri dell’insegnante, sono i due tipi di KD che vengono spesso utilizzati. La Black-box KD ha recentemente dimostrato risultati incoraggianti nell’ottimizzazione di modelli ridotti sulle coppie di prompt-response prodotte dalle API LLM. La White-box KD diventa sempre più utile per le comunità di ricerca e i settori industriali quando vengono sviluppati altri LLM open-source poiché i modelli studenti ottengono migliori segnali dai modelli istruttori white-box, potenzialmente portando a un miglioramento delle prestazioni. 

Anche se la white-box KD per i LLM generativi non è ancora stata investigata, viene principalmente esaminata per modelli di comprensione del linguaggio piccoli (1B di parametri). In questo articolo si esamina la white-box KD dei LLM. Si sostiene che la KD comune potrebbe essere migliore per i LLM che svolgono compiti generativi. Gli obiettivi standard della KD (inclusi diverse varianti per i modelli a livello di sequenza) minimizzano essenzialmente la divergenza Kullback-Leibler (KLD) in avanti approssimata tra la distribuzione dell’insegnante e quella dello studente, nota come KL, costringendo p a coprire tutte le modalità di q data la distribuzione dell’insegnante p(y|x) e la distribuzione dello studente q(y|x) parametrizzata da. KL funziona bene per i problemi di classificazione del testo poiché lo spazio di output contiene spesso un numero finito di classi, garantendo che sia p(y|x) che q(y|x) abbiano un numero ridotto di modalità. 

Tuttavia, per i problemi di generazione di testo aperto, in cui gli spazi di output sono molto più complicati, p(y|x) può rappresentare un range di modalità sostanzialmente più ampio rispetto a q(y|x). Durante la generazione a esecuzione libera, minimizzare la KLD in avanti può portare a q che dà alle regioni vuote di p una probabilità eccessivamente alta e a produrre campioni altamente improbabili sotto p. Si suggerisce di minimizzare la KL inversa, che è comunemente impiegata nella visione artificiale e nell’apprendimento per rinforzo, per risolvere questo problema. Un esperimento pilota mostra come la sottovalutazione di KL spinge q a cercare le principali modalità di p e a dare alle sue aree vuote una bassa probabilità. 

Ciò significa che nella generazione del linguaggio dei LLM, il modello studente evita di apprendere troppe versioni long-tail della distribuzione dell’insegnante e si concentra sull’accuratezza della risposta prodotta, che è cruciale in situazioni reali in cui è richiesta onestà e affidabilità. Generano il gradiente dell’obiettivo con la Policy Gradient per ottimizzare min KL. Studi recenti hanno dimostrato l’efficacia dell’ottimizzazione della politica nell’ottimizzazione dei PLM. Tuttavia, hanno anche scoperto che la formazione del modello soffre ancora di eccessiva variazione, hacking di ricompensa e bias di lunghezza di generazione. Pertanto, includono:

  1. Regolarizzazione a singolo passo per ridurre la variazione.
  2. Campionamento misto dell’insegnante per ridurre l’hacking di ricompensa.
  3. Normalizzazione della lunghezza per ridurre il bias di lunghezza. 

Nella configurazione di seguire l’istruzione, che comprende una vasta gamma di compiti NLP, i ricercatori del gruppo CoAI, dell’Università di Tsinghua e di Microsoft Research offrono una nuova tecnica chiamata MINILLM, che applicano poi a diversi modelli di linguaggio generativi con dimensioni dei parametri che vanno da 120M a 13B. Vengono utilizzati cinque set di dati di seguire l’istruzione e i feedback Rouge-L e GPT-4 per la valutazione. I loro test dimostrano che MINILM scala con successo da modelli da 120M a 13B e batte costantemente i modelli standard di KD di base su tutti i set di dati (vedi Figura 1). Ulteriori ricerche rivelano che MINILLM funziona meglio nella produzione di risposte più lunghe con maggiore varietà e ha ridotto il bias di esposizione e una migliore calibrazione. I modelli sono disponibili su GitHub.

Figura 1 mostra un confronto del punteggio di feedback GPT-4 medio sui loro set di valutazione tra MINILLM e la KD a livello di sequenza (SeqKD). A sinistra si vede GPT-2-1.5B con GPT-2 125M, 340M e 760M che agiscono come studenti. Al centro: GPT-2 760M, 1.5B e GPT-Neo 2.7B sono gli studenti, mentre GPT-J 6B è l’insegnante. A destra si vede OPT 13B con OPT 1.3B, 2.7B e 6.7B come studenti.