Perfeziona i modelli di chat migliori con l’ottimizzazione delle preferenze di identità distillata (IPO)

Perfeziona i tuoi modelli di chat con l'ottimizzazione delle preferenze di identità distillata (IPO)

Mistral 7B allineato con IPO

Per diventare modelli di chat, i modelli linguistici di grande dimensione pre-addestrati (LLM) vengono affinati su grandi set di dati di istruzioni/domande abbinate alle risposte attese. Sebbene questo semplice affinamento produca modelli di chat convincenti, le loro risposte possono ancora essere incoerenti, tendenziose, non etiche e non sicure dal punto di vista umano. Per questo di solito eseguiamo un passaggio di addestramento aggiuntivo per allineare meglio il LLM con gli esseri umani.

Questo allineamento può essere ottenuto utilizzando il reinforcement learning con feedback umano (RLHF). Come dimostrato da OpenAI e dal successo di ChatGPT, RLHF può produrre modelli di chat all’avanguardia. Tuttavia, RLHF è costoso da eseguire. Richiede grandi set di dati annotati dagli esseri umani e l’addestramento di diversi modelli ausiliari (modelli di riferimento e di ricompensa).

Come alternativa più semplice e economica a RLHF, l’ottimizzazione diretta delle preferenze (DPO) è stata recentemente applicata con successo per allineare LLM come il Zephyr di Hugging Face e l’Neural Chat di Intel.

In questo articolo, basato su un lavoro di Google DeepMind, vedremo che, sebbene RLHF e DPO siano efficaci nel mettere a fuoco LLM, sono lontani dall’essere ottimali dati i set di dati utilizzati per l’addestramento. DeepMind dimostra anche perché DPO è incline all’overfitting. Spiegherò, in modo semplice, in che modo l’alternativa proposta da DeepMind, l’obiettivo di ottimizzazione della politica di identità (IPO), è più semplice e meglio progettata per imparare dai dati di addestramento rispetto a RLHF e DPO.

Nelle sezioni seguenti, mostro come utilizzare IPO seguendo una ricetta di addestramento simile a quella utilizzata da Hugging Face per addestrare i modelli Zephyr.

Ho anche implementato un notebook che dimostra l’addestramento di IPO per Mistral 7B. Puoi trovarlo qui:

Ottieni il notebook (#31)

L’articolo di DeepMind che descrive IPO si trova su arXiv:

Un paradigma teorico generale per comprendere l’apprendimento dalle preferenze umane

ΨPO: Generalizzazione dell’ottimizzazione delle preferenze

RLHF e DPO vengono addestrati su set di dati simili: prompt abbinati ad almeno due possibili risposte valutate dagli esseri umani (o LLM). Le risposte sono abbinate in modo tale che, in un…

Perfeziona i modelli di chat migliori con l’ottimizzazione delle preferenze di identità distillata (IPO)

Perfeziona i tuoi modelli di chat con l'ottimizzazione delle preferenze di identità distillata (IPO)

Mistral 7B allineato con IPO

ΨPO: Generalizzazione dell’ottimizzazione delle preferenze

Questo articolo sull’IA svela le implicazioni in materia di cibersicurezza dei modelli generativi di IA rischi, opportunità e sfide etiche.

3 Operazioni Python per Risolvere Efficientemente Specifici Compiti di Elaborazione dei Dati

Implementare LoRA da zero

La Terra non è piatta, e nemmeno dovrebbero...

Segmentare qualsiasi cosa in 3D per le nuvo...

6 Lavori remoti di intelligenza artificiale...

Guidare nell’era dell’IA La pau...

La mano nel barattolo dei biscotti Come GPT...

AI