5 motivi per cui i modelli di linguaggio di grandi dimensioni (LLM) come ChatGPT utilizzano l’apprendimento per rinforzo invece dell’apprendimento supervisionato per il fine-tuning

5 motivi per cui i LLM come ChatGPT usano l'apprendimento per rinforzo invece dell'apprendimento supervisionato

Con il grande successo dell’Intelligenza Artificiale Generativa negli ultimi mesi, i Modelli di Linguaggio Grandi stanno continuamente avanzando e migliorando. Questi modelli stanno contribuendo a importanti trasformazioni economiche e sociali. Il popolare ChatGPT, sviluppato da OpenAI, è un modello di elaborazione del linguaggio naturale che consente agli utenti di generare testi significativi proprio come gli esseri umani. Non solo questo, può rispondere alle domande, riassumere lunghi paragrafi, scrivere codici ed email, ecc. Altri modelli di linguaggio, come Pathways Language Model (PaLM), Chinchilla, ecc., hanno dimostrato ottime prestazioni nell’imitare gli esseri umani.

I modelli di linguaggio grandi utilizzano l’apprendimento per rinforzo per il raffinamento. L’apprendimento per rinforzo è un metodo di apprendimento automatico basato su un sistema di ricompense. Un agente impara a agire in un ambiente completando determinati compiti e osservando i risultati di tali azioni. L’agente riceve un feedback positivo per ogni buon compito e una penalità per ogni azione negativa. I LLM come ChatGPT mostrano prestazioni eccezionali, grazie all’apprendimento per rinforzo.

ChatGPT utilizza l’apprendimento per rinforzo da feedback umano (RLHF) per raffinare il modello minimizzando i pregiudizi. Ma perché non l’apprendimento supervisionato? Un paradigma di apprendimento per rinforzo di base consiste in etichette utilizzate per addestrare un modello. Ma perché queste etichette non possono essere utilizzate direttamente con l’approccio di apprendimento supervisionato? Sebastian Raschka, un ricercatore di IA e ML, ha condiviso alcune ragioni nel suo tweet su perché l’apprendimento per rinforzo viene utilizzato nel raffinamento anziché l’apprendimento supervisionato.

  1. La prima ragione per non utilizzare l’apprendimento supervisionato è che prevede solo i ranghi. Non produce risposte coerenti; il modello impara solo a dare punteggi alti a risposte simili all’insieme di addestramento, anche se non sono coerenti. D’altra parte, RLHF è addestrato a stimare la qualità della risposta prodotta anziché solo il punteggio di classifica.
  1. Sebastian Raschka condivide l’idea di riformulare il compito come un problema di ottimizzazione vincolata utilizzando l’apprendimento supervisionato. La funzione di perdita combina la perdita di testo di output e il termine del punteggio di ricompensa. Ciò comporterebbe una migliore qualità della risposta generata e dei ranghi. Ma questo approccio funziona solo con successo quando l’obiettivo è produrre correttamente coppie domanda-risposta. Ma le ricompense cumulative sono anche necessarie per consentire conversazioni coerenti tra l’utente e ChatGPT, cosa che l’apprendimento supervisionato non può fornire.
  1. La terza ragione per non optare per l’apprendimento supervisionato è che utilizza l’entropia incrociata per ottimizzare la perdita a livello di token. Anche se a livello di token per un passaggio di testo, modificare singole parole nella risposta può avere solo un effetto ridotto sulla perdita complessiva, il compito complesso di generare conversazioni coerenti può avere un cambiamento completo di contesto se una parola viene negata. Pertanto, dipendere dall’apprendimento supervisionato non può essere sufficiente e RLHF è necessario per considerare il contesto e la coerenza dell’intera conversazione.
  1. L’apprendimento supervisionato può essere utilizzato per addestrare un modello, ma è stato riscontrato che RLHF tende a funzionare meglio empiricamente. Un articolo del 2022, “Learning to Summarize from Human Feedback”, ha mostrato che RLHF funziona meglio dell’apprendimento supervisionato. La ragione è che RLHF tiene conto delle ricompense cumulative per conversazioni coerenti, che l’apprendimento supervisionato non riesce a catturare a causa della sua funzione di perdita a livello di token.
  1. LLM come InstructGPT e ChatGPT utilizzano sia l’apprendimento supervisionato che l’apprendimento per rinforzo. La combinazione dei due è cruciale per ottenere prestazioni ottimali. In questi modelli, il modello viene prima raffinato utilizzando l’apprendimento supervisionato e successivamente aggiornato ulteriormente utilizzando l’apprendimento per rinforzo. La fase di apprendimento supervisionato consente al modello di apprendere la struttura di base e il contenuto del compito, mentre la fase RLHF affina le risposte del modello per una maggiore precisione.

L’articolo 5 Reasons Why Large Language Models (LLMs) Like ChatGPT Use Reinforcement Learning Instead of Supervised Learning for Finetuning è apparso prima su MarkTechPost.