Una nuova ricerca di Google AI propone di ridurre significativamente il carico sugli LLM utilizzando una nuova tecnica chiamata Pairwise Ranking Prompting (PRP).

La ricerca di Google AI propone di ridurre il carico sugli LLM con la tecnica PRP.

Rispetto ai loro omologhi supervisionati, che possono essere addestrati con milioni di esempi etichettati, i Large Language Models (LLM) come GPT-3 e PaLM hanno mostrato prestazioni impressionanti in varie attività di linguaggio naturale, anche in contesti di zero-shot. Tuttavia, utilizzare LLM per risolvere il problema di base del ranking del testo ha dato risultati contrastanti. I risultati esistenti spesso sono notevolmente peggiori rispetto ai ranker basati su modelli addestrati. L’unica eccezione è una nuova strategia che si basa sul sistema GPT-4, massiccio, a scatola nera e commerciale.

Sostengono che fare affidamento su tali sistemi a scatola nera non sia ideale per i ricercatori accademici a causa di significativi vincoli di costo e limitazioni di accesso a questi sistemi. Tuttavia, riconoscono il valore di tali esplorazioni nel dimostrare la capacità dei LLM per le attività di ranking. Le metriche di ranking possono diminuire di oltre il 50% quando l’ordine dei documenti di input cambia. In questo studio, spiegano prima perché i LLM hanno difficoltà con i problemi di ranking quando si utilizzano le formulazioni puntuali e di lista degli approcci attuali. Poiché le API dei LLM solo per la generazione (come GPT-4) non lo consentono, per le tecniche puntuali il ranking richiede che i LLM producano probabilità di previsione calibrate prima di ordinare, il che è notoriamente difficile.

I LLM forniscono frequentemente output inconsistenti o senza senso, anche con istruzioni che sembrano estremamente ovvie per gli esseri umani per le tecniche di lista. Empiricamente, scoprono che i prompt di ranking di lista dai lavori precedenti forniscono risultati su LLM di dimensioni VoAGI che sono completamente privi di significato. Queste scoperte dimostrano che i LLM attualmente utilizzati ampiamente devono comprendere le attività di ranking, probabilmente a causa della mancanza di consapevolezza del ranking delle tecniche di pre-training e fine-tuning. Per ridurre notevolmente la complessità delle attività per i LLM e affrontare il problema della calibrazione, i ricercatori di Google Research propongono il paradigma del ranking a coppie (PRP), che utilizza la query e una coppia di documenti come prompt per le attività di ranking. PRP si basa su un’architettura di prompt semplice e offre di default sia le API di generazione che di scoring per i LLM.

Discutono diverse varianti di PRP per rispondere alle preoccupazioni sull’efficienza. I risultati di PRP sono i primi nella letteratura ad utilizzare LLM di dimensioni moderate e open source su dataset di benchmark tradizionali per ottenere prestazioni di ranking all’avanguardia. Su TREC-DL2020, PRP basato sul modello FLAN-UL2 da 20 miliardi di parametri supera il metodo precedente migliore nella letteratura, basato sul GPT-4 commerciale a scatola nera con dimensioni del modello (stimato) 50 volte più grandi, di oltre il 5% a NDCG@1. Su TREC-DL2019, PRP può superare le soluzioni attuali, come InstructGPT, che ha 175 miliardi di parametri, di oltre il 10% per praticamente tutte le misure di ranking, ma funziona solo peggio della soluzione GPT-4 sulle metriche NDCG@5 e NDCG@10. Inoltre, presentano risultati competitivi utilizzando modelli FLAN-T5 con 3 miliardi e 13 miliardi di parametri per illustrare l’efficacia e l’applicabilità di PRP.

Esaminano anche ulteriori vantaggi di PRP, come il supporto alle API di generazione e scoring per i LLM e la loro insensibilità all’ordine di input. In conclusione, questo lavoro si articola in tre contributi:

• Dimostrano per la prima volta che il ranking a coppie funziona bene per il ranking di zero-shot utilizzando LLM di dimensioni moderate e open source, rispetto a sistemi esistenti che utilizzano modelli a scatola nera, commerciali e notevolmente più grandi.

• Può produrre prestazioni di ranking all’avanguardia utilizzando meccanismi di prompt e scoring semplici. Scoperte come queste renderanno gli studi futuri in questo settore più accessibili.

• Pur mantenendo una complessità lineare, esaminano diverse migliorie di efficienza e dimostrano una buona performance empirica.