Ricercatori della NYU propongono GPQA un impegnativo set di dati di 448 domande a risposta multipla scritte da esperti del settore di biologia, fisica e chimica

Ricercatori della NYU propongono GPQA un set di dati sfidante con 448 domande a risposta multipla scritte da esperti di biologia, fisica e chimica

I Large Language Models (LLMs) sono all’avanguardia dell’Intelligenza Artificiale (AI) e mostrano grandi promesse nel superare le capacità umane in questo campo in rapida evoluzione. Ma quando questi modelli si avvicinano alle capacità superumane, valutarli in modo equo e allinearli alla comprensione umana diventa più difficile. Risolvere questo problema è essenziale per garantire che i nuovi sistemi di AI siano affidabili nel fornire informazioni corrette, soprattutto su questioni in cui la verità che gli esseri umani possono verificare può risultare elusiva, un problema noto come supervisione scalabile.

I testbed robusti di valutazione sono necessari per misurare quanto bene i LLM si allineino per questi compiti. I testbed devono ottenere in modo coerente dati accurati da questi modelli, specialmente in scenari in cui l’accesso alla verità generata dagli umani o verificata in modo indipendente è limitato. Tali testbed dovrebbero essere abbastanza difficili da consentire la generalizzazione a problemi al di fuori della conoscenza umana, persino per testare non esperti altamente addestrati. Valutare l’accuratezza delle risposte dei LLM è più difficile quando affrontano argomenti più complessi, specialmente in campi in cui è necessaria una conoscenza specializzata. Un componente importante delle tecniche di supervisione, come il reinforcement learning basato sui feedback umani, è l’accuratezza con cui gli annotatori umani possono valutare l’accuratezza delle risposte dei LLM. Tuttavia, problemi come l’allucinazione e la lisonja nelle risposte del modello peggiorano in aree in cui gli annotatori trovano difficile distinguere la correttezza a causa di una mancanza di esperienza.

In risposta a questi problemi, ricercatori di NYU, Cohere e Anthropic presentano GPQA: una valutazione del set di dati Google-Proof Q&A a livello di laurea. GPQA è un set di dati di valutazione con domande a scelta multipla a livello di laurea che copre biologia, chimica e fisica. Interessante è il fatto che GPQA dedica molto tempo per ogni domanda e la convalida con esperti del settore e non esperti altamente addestrati e motivati, garantendo che le domande siano impegnative. GPQA è il risultato di una procedura accurata in quattro fasi. Le domande sono sviluppate inizialmente da esperti del settore e poi convalidate e revisionate da altri. Due ulteriori validatori esperti valutano le domande modificate per l’oggettività. Infine, i validatori altamente qualificati non esperti che si prendono il tempo per rispondere a ogni domanda confermano la complessità del set di dati. Gli incentivi per i dipendenti sono attentamente studiati per riconoscere e premiare un lavoro superiore ad ogni livello.

Con 448 istanze impegnative, GPQA dimostra la sfida che anche i sistemi di AI più avanzati affrontano. Anche il miglior modello basato su GPT-4 raggiunge solo il 39% di precisione, mentre i professionisti raggiungono il 65% e i non esperti raggiungono il 34%. Ciò sottolinea il valore del set di dati per la ricerca di tecniche di supervisione scalabile per modelli di prossima generazione che superano quelli esistenti. Nonostante la sua importanza, GPQA ha svantaggi, tra cui dimensioni di addestramento del modello molto limitate e possibili bias nella selezione degli esperti. In futuro, i set di dati di supervisione potrebbero cercare di trovare problemi insolubili come standard per la supervisione di AI superumana, colmando il divario di conoscenza tra modelli ed esperienza umana.

GPQA funziona come un set di dati di valutazione all’avanguardia, ampliando i confini della valutazione dell’intelligenza artificiale in campi impegnativi. Il suo approccio allo sviluppo e le tecniche di convalida agevolano lo sviluppo di protocolli per supervisionare efficientemente i sistemi di AI superumani fornendo insights su prove di supervisione scalabili. In sintesi, lo sviluppo di GPQA rappresenta un traguardo significativo nella valutazione dei sistemi di AI e può migliorare potenzialmente l’allineamento dei modelli superumani con la conoscenza umana.