Starling-7B LLM con apprendimento rinforzato dai feedback dell’IA

Starling-7B LLM potenziato dall'apprendimento rinforzato mediante i feedback dell'IA

Il team di ricerca dell’UC Berkeley presenta Starling-7B, un modello di grande lingua open-source (LLM) che utilizza il Reinforcement Learning da AI Feedback (RLAIF). Sfruttando la potenza del dataset di ranking etichettato all’avanguardia GPT-4 Nectar e di un sofisticato sistema di addestramento dei premi e di ottimizzazione delle politiche, Starling-7B-alpha ha stabilito un nuovo standard nelle prestazioni del modello linguistico, superando tutti i modelli su MT-Bench, tranne il GPT-4 e il GPT-4 Turbo di OpenAI.

Il potenziale del Reinforcement Learning

Sebbene l’addestramento supervisionato abbia dimostrato efficacia nello sviluppo dei sistemi di chatbot, il potenziale del Reinforcement Learning da Human Feedback (RLHF) o da AI feedback (RLAIF) nel migliorare i modelli su larga scala è stato oggetto di limitate esplorazioni. Modelli precedenti come Zephyr-7B e Neural-Chat-7B non hanno mostrato pienamente il potenziale del RLHF in confronto ai modelli di Supervised Fine-Tuning (SFT) leader del settore.

Per affrontare questa lacuna, il team di ricerca presenta Nectar, un dataset di ranking di alta qualità appositamente studiato per la chat, composto da 183.000 prompt e 3,8 milioni di confronti a coppie. Questo dataset mira a facilitare una ricerca più approfondita sul RLHF, offrendo una gamma diversificata di prompt provenienti da diversi modelli.

Il rilascio del modello di premi, Starling-RM-7B-alpha, e del LLM raffinato, Starling-LM-7B-alpha, su HuggingFace segna un significativo avanzamento nella ricerca di intelligenza artificiale open-source. In particolare, il punteggio di MT-Bench del modello è aumentato da 7,81 a un impressionante 8,09, accompagnato da un significativo miglioramento in AlpacaEval, misurando l’utilità del chatbot dal 88,51% al 91,99%.

Leggi anche: Cos’è il Reinforcement Learning e come funziona (2023)

Valutazione del modello

Valutare Starling-7B presenta sfide uniche. Il LLM presenta funzionalità migliorate di utilità e sicurezza dopo il RLHF, come dimostrato dai miglioramenti nei punteggi MT-Bench e AlpacaEval. Tuttavia, le sue capacità di base nella QA basata sulla conoscenza, nella matematica e nella codifica sono rimaste stabili o hanno subito una leggera regressione.

L’inserimento nell’Arena dei Chatbot del LMSYS per chat dirette e confronti anonimi fornisce una piattaforma per testare le preferenze umane. La valutazione evidenzia anche i limiti nell’utilizzare la classifica degli OpenLLM come punto di riferimento per i modelli di chat, sottolineando l’importanza di valutazioni dettagliate offerte da Alpaca Eval e MT-Bench.

La legge di Goodhart per i dati di preferenza sintetici

Un aspetto cruciale da considerare è la legge di Goodhart per i dati di preferenza sintetici. Sebbene un punteggio MT-Bench più alto indichi un miglioramento delle prestazioni del modello secondo il GPT-4, non correla necessariamente con la preferenza umana. Il RLHF migliora principalmente lo stile di risposta, in particolare negli aspetti di utilità e sicurezza, mettendo in mostra il potenziale di scalare i metodi di RL online con dati di preferenza estesi.

Limitazioni

Nonostante le sue prestazioni notevoli, Starling-7B presenta delle limitazioni, con difficoltà nelle attività che coinvolgono il ragionamento o le matematiche. Inoltre, è riconosciuta la suscettibilità a prompt di jailbreaking e occasionali verbosità nelle risposte. Il team di ricerca si impegna per il miglioramento continuo, invitando la collaborazione della comunità per migliorare il dataset aperto, i modelli di premi e i modelli linguistici con RLHF.

La nostra opinione

Starling-7B, con il suo approccio RLAIF e la meticolosa creazione del dataset, è una testimonianza del potenziale dell’apprendimento per rinforzo nei modelli linguistici. Nonostante le sfide e le limitazioni persistano, l’impegno per il miglioramento e la collaborazione con la comunità più ampia posiziona Starling-7B come un faro nel panorama in evoluzione della ricerca sull’IA. Restate sintonizzati per ulteriori aggiornamenti mentre il team approfondisce la raffinazione dei meccanismi RLHF e contribuisce alla ricerca all’avanguardia sulla sicurezza dell’IA.