Google AI propone un nuovo metodo per ridurre il carico sugli LLM Pairwise Ranking Prompting

Google AI propone un metodo per ridurre il carico sugli LLM Pairwise Ranking Prompting

I ricercatori di Google AI hanno pubblicato un nuovo articolo in cui propongono un nuovo approccio chiamato Pairwise Ranking Prompting, o PRP per breve. L’obiettivo è alleviare le sfide affrontate dai Large Language Models nella risoluzione dei problemi di classificazione del testo. I LLM, come GPT-3 e PaLM, hanno dimostrato prestazioni notevoli su compiti di linguaggio naturale, anche in contesti di zero-shot.

Tuttavia, quando si tratta di classificazione del testo, i metodi esistenti tendono a rimanere al di sotto dei classificatori di base allenati, ad eccezione dei sistemi a scatola nera come GPT-4. Nel documento, il team riconosce il valore dei sistemi a scatola nera, ma sottolinea anche i vincoli affrontati dai ricercatori accademici, tra cui limitazioni di costo e accesso.

Quindi, nello studio, si approfondiscono le ragioni per cui i LLM faticano con i problemi di classificazione utilizzando gli approcci pointwise e listwise attuali. Secondo il team, hanno scoperto che generare probabilità di previsione calibrate per le tecniche pointwise risulta estremamente difficile per i LLM.

Le tecniche listwise, d’altra parte, producono output inconsistenti o irrilevanti, indicando una mancanza di consapevolezza della classificazione nelle tecniche attuali di pre-training e fine-tuning dei LLM. Quindi, per compensare questa limitazione e ridurre i problemi legati alla complessità del compito, i ricercatori hanno proposto il paradigma PRP.

Questo metodo utilizza un’architettura di prompt semplice, utilizzando una query e una coppia di documenti come prompt per i compiti di classificazione. A differenza dei metodi esistenti, PRP offre sia API di generazione che di punteggio per i LLM per impostazione predefinita, affrontando il problema della calibrazione. Vengono discusse diverse varianti di PRP per garantire efficienza ed efficacia.

Sono stati valutati PRP utilizzando LLM di dimensioni moderate e open source su dataset di benchmark tradizionali. I risultati hanno ripagato poiché hanno superato i metodi precedenti basati sul GPT-4 commerciale a scatola nera con dimensioni del modello significativamente più grandi.

Un esempio di ciò è stato sul dataset TREC-DL2020. Il PRP basato sul modello FLAN-UL2 con 20 miliardi di parametri ha ottenuto un miglioramento superiore al 5% a NDCG@1 rispetto al metodo migliore precedente. Su TREC-DL2019, PRP ha superato soluzioni esistenti come InstructGPT di oltre il 10% in maggior parte delle misure di classificazione, con un lieve degrado delle prestazioni nei metriche NDCG@5 e NDCG@10 rispetto a GPT-4.

In generale, PRP presenta diversi vantaggi, tra cui il supporto per le API di punteggio e generazione dei LLM e la sua insensibilità all’ordine di input. Questo lavoro presenta tre contributi principali. In primo luogo, dimostra l’efficacia della classificazione di zero-shot utilizzando LLM di dimensioni moderate e open source. In secondo luogo, raggiunge prestazioni di classificazione all’avanguardia tramite meccanismi di prompt e punteggio semplici. E infine, esplora miglioramenti di efficienza mantenendo una buona performance empirica.

Nota dell’editore: Sei pronto per scoprire le ultime novità dell’AI generativa? Unisciti a noi per il summit di un giorno sull’AI generativa. Vai oltre l’hype e approfondisci questa tecnologia all’avanguardia. Registrati ora gratuitamente e sblocca il potere dell’AI generativa.