I dati sono la base dei modelli di linguaggio

I dati la fondamenta dei modelli di linguaggio

Come i dati di alta qualità influenzano ogni aspetto del pipeline di formazione LLM…

(Foto di Joshua Sortino su Unsplash)

I Large Language Models (LLMs) esistono da parecchio tempo, ma solo di recente la loro impressionante performance ha meritato un’attenzione significativa da parte della comunità AI più ampia. Tenendo questo in mente, potremmo iniziare a chiederci quale sia l’origine del recente movimento LLM. Cosa ha reso i modelli recenti così impressionanti rispetto ai loro predecessori? Anche se alcuni potrebbero sostenere una varietà di fattori differenti, uno sviluppo particolarmente impattante è stata la capacità di eseguire l’allineamento. In altre parole, abbiamo scoperto come addestrare i LLMs non solo a produrre la parola successiva più probabile, ma a produrre testo che soddisfi gli obiettivi di un essere umano, che sia seguendo un’istruzione o recuperando informazioni importanti.

“Ipotizziamo che l’allineamento possa essere un processo semplice in cui il modello apprende lo stile o il formato per interagire con gli utenti, per esporre le conoscenze e le capacità che sono state già acquisite durante il pre-addestramento” — da [1]

In questa panoramica studieremo il ruolo e l’impatto dell’allineamento, così come l’interazione tra allineamento e pre-addestramento. Interessantemente, queste idee sono state esplorate dal recente modello LIMA [1], che esegue l’allineamento semplicemente facendo il fine-tuning di un LLM già addestrato su un corpus semi-curato manualmente di soli 1000 esempi di risposte di alta qualità. Impareremo che il processo di allineamento, sebbene critico, insegna principalmente a un LLM la manovrabilità e il comportamento o lo stile corretto, mentre la maggior parte delle conoscenze è acquisita durante il pre-addestramento. Come tale, l’allineamento può essere eseguito con successo anche con un numero minimo di dati di addestramento. Tuttavia, vedremo che l’impatto della qualità e della diversità dei dati sia sull’allineamento stesso sia su altre modalità di addestramento degli LLM (come pre-addestramento, fine-tuning, ecc.) è assolutamente enorme.

Il Pipeline di Formazione LLM

“Gli LLM sono addestrati in due fasi: (1) pre-addestramento non supervisionato da testo grezzo, per imparare rappresentazioni a uso generale, e (2) sintonizzazione di istruzioni su larga scala e apprendimento per rinforzo, per allinearsi meglio a compiti finali e preferenze degli utenti” — da [1]

Anche se i modelli linguistici sono stati studiati da una varietà di prospettive diverse nei mesi recenti, la creazione di questi…