Un nuovo studio di ricerca sull’IA risponde se i grandi modelli di linguaggio sono sensibili all’ordine delle scelte nelle domande a risposta multipla

Uno studio di ricerca sull'IA indaga se i grandi modelli di linguaggio sono sensibili all'ordine delle scelte nelle domande a risposta multipla.

I grandi modelli di linguaggio (LLM) hanno attirato una enorme attenzione grazie alle loro prestazioni eccezionali in una varietà di compiti. Sono stati sviluppati in modo tale da superare spesso i modelli supervisionati e persino gli esseri umani in determinate circostanze. Nonostante le loro incredibili capacità, ricerche precedenti hanno evidenziato alcuni vincoli funzionali che possono influire sulla loro utilità nel mondo reale. La sensibilità di questi modelli alle sfumature del linguaggio delle istruzioni, alle dimostrazioni a basso numero di esempi e all’organizzazione di tali dimostrazioni rappresenta un notevole problema di prestazioni. Questa sensibilità compromette la valutazione obiettiva delle capacità dei LLM.

In una recente ricerca condotta da Megagon Labs, un gruppo di ricercatori ha studiato la robustezza dei LLM nella gestione di domande a risposta multipla, che è un compito popolare per testare la loro capacità di inferenza e recupero di dati. L’obiettivo principale dell’indagine è capire come i LLM reagiscono alla riorganizzazione delle opzioni nelle prove a scelta multipla. Dopo un’attenta analisi, è emersa una significativa discrepanza di prestazioni che va dal 13% al 75% su diversi benchmark.

Dopo un’attenta analisi, è stata presentata un’ipotesi secondo cui la sensibilità osservata si verifica quando i LLM sono indecisi tra le prime due o tre opzioni per una previsione. A causa di un pregiudizio di posizione causato dalla formulazione della domanda, l’ordine di alcune opzioni può favorire alcune previsioni tra queste prime selezioni. Sono visibili interessanti schemi che enfatizzano o attenuano la propensione del modello per determinate posizioni delle opzioni.

A scopo di accentuare il pregiudizio, il team ha utilizzato una strategia ottimale, che consiste nel mettere la prima e l’ultima alternativa delle prime due liste per enfatizzare la parzialità. D’altra parte, è stata suggerita la distribuzione di queste selezioni tra le opzioni circostanti per contrastare il pregiudizio. Sono stati condotti vari studi per convalidare la sensibilità ipotizzata. Inoltre, sono state utilizzate due diverse tecniche di calibrazione per migliorare le previsioni effettuate dai LLM. Si sono ottenuti guadagni di prestazioni fino a 8 punti percentuali su diversi modelli e benchmark, con un miglioramento evidente.

La ricerca ha posto alcune domande, tra cui l’entità della sensibilità, ovvero in che misura i LLM sono influenzati dall’ordine delle opzioni nelle domande a risposta multipla, i fattori che contribuiscono alla sensibilità dei LLM e come è possibile migliorare la robustezza dei LLM all’ordine delle opzioni. Per rispondere alla prima domanda, sono stati effettuati esperimenti su cinque diversi benchmark di domande a risposta multipla utilizzando GPT-4 e InstructGPT. È stato riscontrato un significativo divario di sensibilità fino al 75% nella situazione senza training. Riguardo alla seconda domanda, i dati suggeriscono che il pregiudizio di posizione è ciò che causa la sensibilità dei LLM, poiché i LLM tendono a favorire posizioni particolari quando sono incerti sulla migliore decisione tra le opzioni migliori. Per rispondere all’ultima domanda, lo studio ha dimostrato che l’utilizzo di due diverse tecniche di calibrazione aumenta notevolmente le prestazioni dei LLM fino a 8 punti percentuali.

In conclusione, questo studio sottolinea la necessità di affrontare la sensibilità dei LLM agli aspetti delle istruzioni e alla loro organizzazione. Ha portato alla luce le procedure decisionali dei LLM esaminando le sfumature delle risposte alle opzioni riordinate nelle domande a risposta multipla. Ciò può sicuramente portare a un miglioramento dell’utilità e dell’affidabilità dei LLM nelle circostanze del mondo reale.