Perfeziona i modelli di chat migliori con l’ottimizzazione delle preferenze di identità distillata (IPO)

Perfeziona i tuoi modelli di chat con l'ottimizzazione delle preferenze di identità distillata (IPO)

Mistral 7B allineato con IPO

Foto di Rishabh Dharmani su Unsplash

Per diventare modelli di chat, i modelli linguistici di grande dimensione pre-addestrati (LLM) vengono affinati su grandi set di dati di istruzioni/domande abbinate alle risposte attese. Sebbene questo semplice affinamento produca modelli di chat convincenti, le loro risposte possono ancora essere incoerenti, tendenziose, non etiche e non sicure dal punto di vista umano. Per questo di solito eseguiamo un passaggio di addestramento aggiuntivo per allineare meglio il LLM con gli esseri umani.

Questo allineamento può essere ottenuto utilizzando il reinforcement learning con feedback umano (RLHF). Come dimostrato da OpenAI e dal successo di ChatGPT, RLHF può produrre modelli di chat all’avanguardia. Tuttavia, RLHF è costoso da eseguire. Richiede grandi set di dati annotati dagli esseri umani e l’addestramento di diversi modelli ausiliari (modelli di riferimento e di ricompensa).

Come alternativa più semplice e economica a RLHF, l’ottimizzazione diretta delle preferenze (DPO) è stata recentemente applicata con successo per allineare LLM come il Zephyr di Hugging Face e l’Neural Chat di Intel.

In questo articolo, basato su un lavoro di Google DeepMind, vedremo che, sebbene RLHF e DPO siano efficaci nel mettere a fuoco LLM, sono lontani dall’essere ottimali dati i set di dati utilizzati per l’addestramento. DeepMind dimostra anche perché DPO è incline all’overfitting. Spiegherò, in modo semplice, in che modo l’alternativa proposta da DeepMind, l’obiettivo di ottimizzazione della politica di identità (IPO), è più semplice e meglio progettata per imparare dai dati di addestramento rispetto a RLHF e DPO.

Nelle sezioni seguenti, mostro come utilizzare IPO seguendo una ricetta di addestramento simile a quella utilizzata da Hugging Face per addestrare i modelli Zephyr.

Ho anche implementato un notebook che dimostra l’addestramento di IPO per Mistral 7B. Puoi trovarlo qui:

Ottieni il notebook (#31)

L’articolo di DeepMind che descrive IPO si trova su arXiv:

Un paradigma teorico generale per comprendere l’apprendimento dalle preferenze umane

ΨPO: Generalizzazione dell’ottimizzazione delle preferenze

RLHF e DPO vengono addestrati su set di dati simili: prompt abbinati ad almeno due possibili risposte valutate dagli esseri umani (o LLM). Le risposte sono abbinate in modo tale che, in un…