Pipeline di formazione RLHF per LLM utilizzando Huggingface 🤗

Formazione RLHF per LLM utilizzando Huggingface 🤗 Una Pipeline di Successo

Foto di Jongsun Lee su Unsplash

Impara come sviluppare il tuo proprio dominio specifico di LLM con questa guida pratica di Python

Autori

Questo post è stato scritto da Marcello Politi e Vijayasri Iyer.

Introduzione

Ormai, tutti parlano di AI generativa e Large Language Models. Modelli come ChatGPT e Grok sono diventati nomi familiari oggi, e ci sono molte persone che vogliono adottare soluzioni basate su queste tecnologie per migliorare le loro attività.

Dovrebbe essere detto, però, che nonostante le capacità linguistiche di questi modelli siano impressionanti, sono ancora lontani dalla perfezione; infatti, ci sono molti problemi importanti che non riusciamo ancora a risolvere.

I LLM, come tutti i modelli di Apprendimento Automatico/Profondo, apprendono dai dati. Pertanto, non c’è scampo alla regola del garbage in garbage out. Cioè, se addestriamo i modelli su dati di bassa qualità, anche la qualità dell’output durante l’infereza sarà altrettanto bassa.

Questo rappresenta il motivo principale per il quale, durante le conversazioni con i LLM, si verificano risposte con pregiudizi o tendenze.

Tuttavia, ci sono tecniche che ci permettono di avere un maggior controllo sull’output di questi modelli per assicurare l’allineamento del LLM affinché le risposte del modello siano non solo accurate e coerenti, ma anche sicure, etiche e desiderabili dal punto di vista degli sviluppatori e degli utenti. La tecnica più comunemente utilizzata oggi è l’utilizzo del reinforcement learning

Reinforcement learning con feedback umano

Immagine degli autori

Il reinforcement learning con feedback umano (RLHF), che ha recentemente attirato molta attenzione, ha avviato una nuova rivoluzione nell’applicazione delle tecniche di RL nel campo del NLP, in particolare nei large language models (LLM). In questo blog, <strong addestramento="" completo="" di="" huggingface.

Il processo RLHF comprende 3 fasi:

  • Pre-training specifico del dominio: Fine-tuning di un LLM pre-addestrato su testo grezzo con una Causale…