Modelli di linguaggio molto grandi e come valutarli

Modelli di linguaggio grandi e valutazione

I modelli di linguaggio di grandi dimensioni possono ora essere valutati su compiti di classificazione zero-shot con Evaluation on the Hub!

La valutazione zero-shot è un modo popolare per i ricercatori di misurare le prestazioni dei modelli di linguaggio di grandi dimensioni, poiché è stato dimostrato che apprendono capacità durante l’addestramento senza essere esplicitamente mostrati esempi etichettati. Il premio Inverse Scaling è un esempio di uno sforzo comunitario recente per condurre una valutazione zero-shot su larga scala su diverse dimensioni e famiglie di modelli al fine di scoprire compiti in cui i modelli più grandi possono avere prestazioni peggiori rispetto ai loro omologhi più piccoli.

Abilitazione della valutazione zero-shot dei modelli di linguaggio su Hub

Evaluation on the Hub ti aiuta a valutare qualsiasi modello su Hub senza scrivere codice ed è alimentato da AutoTrain. Ora, qualsiasi modello di linguaggio causale su Hub può essere valutato in modo zero-shot. La valutazione zero-shot misura la probabilità che un modello addestrato produca un dato insieme di token e non richiede alcun dato di addestramento etichettato, il che consente ai ricercatori di evitare costosi sforzi di etichettatura.

Abbiamo migliorato l’infrastruttura di AutoTrain per questo progetto in modo che i modelli di grandi dimensioni possano essere valutati gratuitamente 🤯! È costoso e richiede tempo agli utenti capire come scrivere codice personalizzato per valutare grandi modelli su GPU. Ad esempio, un modello di linguaggio con 66 miliardi di parametri può impiegare 35 minuti solo per caricare e compilare, rendendo l’evaluazione di modelli di grandi dimensioni accessibile solo a coloro che dispongono di infrastrutture costose e di un’ampia esperienza tecnica. Con queste modifiche, valutare un modello con 66 miliardi di parametri su un compito di classificazione zero-shot con 2000 esempi di frasi di lunghezza richiede 3,5 ore e può essere fatto da chiunque nella comunità. L’Evaluation on the Hub supporta attualmente la valutazione di modelli fino a 66 miliardi di parametri e il supporto per modelli più grandi è in arrivo.

Il compito di classificazione di testo zero-shot prende in input un dataset contenente un insieme di prompt e completamenti possibili. Sotto il cofano, i completamenti vengono concatenati con il prompt e le log-probabilità per ogni token vengono sommate, quindi normalizzate e confrontate con il completamento corretto per riportare l’accuratezza del compito.

In questo post del blog, useremo il compito di classificazione di testo zero-shot per valutare vari modelli OPT su WinoBias, un compito di correferenza che misura il bias di genere legato alle occupazioni. WinoBias misura se un modello ha maggiori probabilità di scegliere un pronome stereotipato per completare una frase che menziona un’occupazione e osserviamo che i risultati suggeriscono una tendenza di scaling inverso rispetto alle dimensioni del modello.

Studio di caso: valutazione zero-shot sul compito WinoBias

Il dataset WinoBias è stato formattato come un compito zero-shot in cui le opzioni di classificazione sono i completamenti. Ogni completamento differisce per il pronome e il target corrisponde al completamento anti-stereotipato per l’occupazione (ad esempio, “sviluppatore” è stereotipicamente un’occupazione dominata dagli uomini, quindi “lei” sarebbe il pronome anti-stereotipato). Vedi qui per un esempio:

In seguito, possiamo selezionare questo dataset appena caricato nell’interfaccia Evaluation on the Hub utilizzando il compito text_zero_shot_classification, selezionare i modelli che desideriamo valutare e inviare i nostri lavori di valutazione! Quando il lavoro è stato completato, riceverai una notifica via email che il bot autoevaluator ha aperto una nuova pull request con i risultati nel repository Hub del modello.

Tracciando i risultati del compito WinoBias, scopriamo che i modelli più piccoli hanno maggiori probabilità di selezionare il pronome anti-stereotipato per una frase, mentre i modelli più grandi hanno maggiori probabilità di apprendere associazioni stereotipate tra genere e occupazione nel testo. Questo corrobora i risultati di altri benchmark (ad esempio, BIG-Bench) che mostrano che modelli più grandi e più capaci hanno maggiori probabilità di essere influenzati dal bias di genere, razza, etnia e nazionalità, e lavori precedenti che mostrano che i modelli più grandi hanno maggiori probabilità di generare testo tossico.

Abilitazione di migliori strumenti di ricerca per tutti

La scienza aperta ha compiuto grandi progressi con lo sviluppo basato sulla comunità di strumenti come il Language Model Evaluation Harness di EleutherAI e il progetto BIG-bench, che semplificano la comprensione del comportamento dei modelli all’avanguardia per i ricercatori.

Evaluation on the Hub è uno strumento a basso codice che semplifica il confronto delle prestazioni zero-shot di un insieme di modelli lungo un asse come FLOPS o dimensione del modello, e il confronto delle prestazioni di un insieme di modelli addestrati su un corpus specifico con un diverso insieme di modelli. Il compito di classificazione di testo zero-shot è estremamente flessibile: qualsiasi dataset che può essere permutato in uno schema Winograd in cui gli esempi da confrontare differiscono solo per poche parole può essere utilizzato con questo compito e valutato su molti modelli contemporaneamente. Il nostro obiettivo è rendere semplice caricare un nuovo dataset per la valutazione e consentire ai ricercatori di testare facilmente molti modelli su di esso.

Un esempio di domanda di ricerca che può essere affrontata con strumenti come questo è il problema dell’inverso della scalatura: mentre i modelli più grandi sono generalmente più capaci nella maggior parte dei compiti linguistici, ci sono compiti in cui i modelli più grandi si comportano peggio. Il premio dell’Inverso della Scalatura è una competizione che sfida i ricercatori a creare compiti in cui i modelli più grandi si comportano peggio rispetto ai loro corrispondenti più piccoli. Ti incoraggiamo a provare la valutazione a zero-shot su modelli di tutte le dimensioni con i tuoi compiti! Se trovi una tendenza interessante tra le dimensioni dei modelli, considera di inviare i tuoi risultati alla seconda fase del Premio dell’Inverso della Scalatura.

Invia un feedback!

Da Hugging Face, siamo entusiasti di continuare a democratizzare l’accesso ai modelli di apprendimento automatico all’avanguardia, e questo include lo sviluppo di strumenti per rendere facile per tutti valutare e analizzare il loro comportamento. Abbiamo già scritto in precedenza su quanto sia importante standardizzare i metodi di valutazione dei modelli per essere coerenti e riproducibili, e per rendere gli strumenti di valutazione accessibili a tutti. I piani futuri per la Valutazione sul Hub includono il supporto alla valutazione a zero-shot per compiti linguistici che potrebbero non adattarsi al formato di concatenare completamenti alle prompt, e l’aggiunta del supporto per modelli ancora più grandi.

Una delle cose più utili che puoi contribuire come parte della comunità è inviarci un feedback! Ci piacerebbe sentire da te quali sono le priorità principali per la valutazione dei modelli. Facci conoscere il tuo feedback e le richieste di funzionalità pubblicando sulla scheda Community della Valutazione sul Hub, o sui forum!