Pipeline di formazione RLHF per LLM utilizzando Huggingface 🤗
Formazione RLHF per LLM utilizzando Huggingface 🤗 Una Pipeline di Successo
Impara come sviluppare il tuo proprio dominio specifico di LLM con questa guida pratica di Python
Autori
Questo post è stato scritto da Marcello Politi e Vijayasri Iyer.
Introduzione
Ormai, tutti parlano di AI generativa e Large Language Models. Modelli come ChatGPT e Grok sono diventati nomi familiari oggi, e ci sono molte persone che vogliono adottare soluzioni basate su queste tecnologie per migliorare le loro attività .
Dovrebbe essere detto, però, che nonostante le capacità linguistiche di questi modelli siano impressionanti, sono ancora lontani dalla perfezione; infatti, ci sono molti problemi importanti che non riusciamo ancora a risolvere.
I LLM, come tutti i modelli di Apprendimento Automatico/Profondo, apprendono dai dati. Pertanto, non c’è scampo alla regola del garbage in garbage out. Cioè, se addestriamo i modelli su dati di bassa qualità , anche la qualità dell’output durante l’infereza sarà altrettanto bassa.
- Migliorare la risposta di RAG tecniche di auto-debugging e riduzione del carico cognitivo
- Creazione di uno strumento di abbinamento per aiutare i fondatori di start-up a trovare i migliori incubatori un progetto freelance completo.
- NOIR, il robot controllato dalla mente dell’IA di Stanford
Questo rappresenta il motivo principale per il quale, durante le conversazioni con i LLM, si verificano risposte con pregiudizi o tendenze.
Tuttavia, ci sono tecniche che ci permettono di avere un maggior controllo sull’output di questi modelli per assicurare l’allineamento del LLM affinché le risposte del modello siano non solo accurate e coerenti, ma anche sicure, etiche e desiderabili dal punto di vista degli sviluppatori e degli utenti. La tecnica più comunemente utilizzata oggi è l’utilizzo del reinforcement learning
Reinforcement learning con feedback umano
Il reinforcement learning con feedback umano (RLHF), che ha recentemente attirato molta attenzione, ha avviato una nuova rivoluzione nell’applicazione delle tecniche di RL nel campo del NLP, in particolare nei large language models (LLM). In questo blog, <strong addestramento="" completo="" di="" huggingface.
Il processo RLHF comprende 3 fasi:
- Pre-training specifico del dominio: Fine-tuning di un LLM pre-addestrato su testo grezzo con una Causale…