Perfeziona i modelli di chat migliori con l’ottimizzazione delle preferenze di identità distillata (IPO)
Perfeziona i tuoi modelli di chat con l'ottimizzazione delle preferenze di identità distillata (IPO)
Mistral 7B allineato con IPO
Per diventare modelli di chat, i modelli linguistici di grande dimensione pre-addestrati (LLM) vengono affinati su grandi set di dati di istruzioni/domande abbinate alle risposte attese. Sebbene questo semplice affinamento produca modelli di chat convincenti, le loro risposte possono ancora essere incoerenti, tendenziose, non etiche e non sicure dal punto di vista umano. Per questo di solito eseguiamo un passaggio di addestramento aggiuntivo per allineare meglio il LLM con gli esseri umani.
Questo allineamento può essere ottenuto utilizzando il reinforcement learning con feedback umano (RLHF). Come dimostrato da OpenAI e dal successo di ChatGPT, RLHF può produrre modelli di chat all’avanguardia. Tuttavia, RLHF è costoso da eseguire. Richiede grandi set di dati annotati dagli esseri umani e l’addestramento di diversi modelli ausiliari (modelli di riferimento e di ricompensa).
Come alternativa più semplice e economica a RLHF, l’ottimizzazione diretta delle preferenze (DPO) è stata recentemente applicata con successo per allineare LLM come il Zephyr di Hugging Face e l’Neural Chat di Intel.
In questo articolo, basato su un lavoro di Google DeepMind, vedremo che, sebbene RLHF e DPO siano efficaci nel mettere a fuoco LLM, sono lontani dall’essere ottimali dati i set di dati utilizzati per l’addestramento. DeepMind dimostra anche perché DPO è incline all’overfitting. Spiegherò, in modo semplice, in che modo l’alternativa proposta da DeepMind, l’obiettivo di ottimizzazione della politica di identità (IPO), è più semplice e meglio progettata per imparare dai dati di addestramento rispetto a RLHF e DPO.
- Questo articolo sull’IA svela le implicazioni in materia di cibersicurezza dei modelli generativi di IA rischi, opportunità e sfide etiche.
- Incontra EAGLE un nuovo metodo di apprendimento automatico per la decodifica rapida di LLM basato sulla compressione
- Nove regole per l’accelerazione SIMD del tuo codice Rust (Parte 1)
Nelle sezioni seguenti, mostro come utilizzare IPO seguendo una ricetta di addestramento simile a quella utilizzata da Hugging Face per addestrare i modelli Zephyr.
Ho anche implementato un notebook che dimostra l’addestramento di IPO per Mistral 7B. Puoi trovarlo qui:
L’articolo di DeepMind che descrive IPO si trova su arXiv:
Un paradigma teorico generale per comprendere l’apprendimento dalle preferenze umane
ΨPO: Generalizzazione dell’ottimizzazione delle preferenze
RLHF e DPO vengono addestrati su set di dati simili: prompt abbinati ad almeno due possibili risposte valutate dagli esseri umani (o LLM). Le risposte sono abbinate in modo tale che, in un…