Possono i modelli di linguaggio su larga scala sostituire gli esseri umani nelle attività di valutazione del testo? Questo articolo sull’IA propone di utilizzare i modelli di linguaggio su larga scala per valutare la qualità dei testi come alternativa alla valutazione umana.

GPT-3.5 Turbo può sostituire gli esseri umani nella valutazione del testo? Questo articolo propone di utilizzare modelli di linguaggio su larga scala per valutare la qualità dei testi come alternativa alla valutazione umana.

L’evaluazione umana è stata utilizzata per valutare le prestazioni dei modelli e degli algoritmi di elaborazione del linguaggio naturale per quanto riguarda la qualità del testo. Tuttavia, l’evaluazione umana è solo a volte coerente e potrebbe non essere riproducibile in quanto è difficile reclutare gli stessi valutatori umani e ottenere la stessa valutazione poiché il valutatore utilizza un numero diverso di fattori, tra cui la soggettività o le differenze nella loro interpretazione dei criteri di valutazione.

I ricercatori della National Taiwan University hanno studiato l’uso di “modelli linguistici su larga scala” (modelli addestrati a modellare il linguaggio umano. Sono addestrati utilizzando grandi quantità di dati testuali accessibili sul Web e, di conseguenza, imparano come utilizzare il linguaggio di una persona) come nuovo metodo di valutazione per affrontare questo problema di riproducibilità. I ricercatori hanno presentato i modelli linguistici su larga scala con le stesse istruzioni, campioni da valutare e domande utilizzate per svolgere l’evaluazione umana e poi hanno chiesto ai modelli linguistici su larga scala di generare risposte a quelle domande. Hanno utilizzato l’evaluazione umana e quella dei modelli linguistici su larga scala per valutare i testi in due compiti di elaborazione del linguaggio naturale: la generazione di storie a risposta aperta e gli attacchi avversari.

Nella “generazione di storie a risposta aperta”, hanno verificato la qualità delle storie generate da un umano e da un modello generativo (GPT-2) valutate da un modello linguistico su larga scala e da un umano per verificare se il modello linguistico su larga scala può valutare le storie scritte da umani più in alto rispetto a quelle generate dal modello generativo.

Per farlo, hanno prima generato un questionario (istruzioni di valutazione, frammenti di storie generate e domande di valutazione) preparato e valutato su una scala Likert (5 livelli) in base a quattro attributi diversi (accuratezza grammaticale, coerenza, gradimento e rilevanza), rispettivamente.

Nell’evaluazione umana, l’utente risponde al questionario preparato così com’è. Per l’evaluazione del modello linguistico su larga scala, hanno inserito il questionario come prompt e ottenuto l’output dal modello linguistico su larga scala. I ricercatori hanno utilizzato quattro grandi modelli linguistici T0, text-curie-001, text-davinci-003 e ChatGPT. Per l’evaluazione umana, i ricercatori hanno utilizzato insegnanti di inglese rinomati. Questi modelli linguistici su larga scala e insegnanti di inglese hanno valutato 200 storie scritte da umani e 200 storie generate da GPT-2. Le valutazioni date dagli insegnanti di inglese mostrano una preferenza per tutti e quattro gli attributi (Grammaticalità, Coerenza, Gradimento e Rilevanza) per le storie scritte da umani. Questo dimostra che gli insegnanti di inglese possono distinguere la differenza di qualità tra le storie scritte dal modello generativo e quelle scritte dagli umani. Ma, T0 e text-curie-001 non mostrano una preferenza chiara per le storie scritte da umani. Ciò indica che i modelli linguistici su larga scala sono meno competenti degli esperti umani nell’evaluazione della generazione di storie a risposta aperta. D’altra parte, text-davinci-003 mostra una chiara preferenza per le storie scritte da umani e gli insegnanti di inglese. Inoltre, ChatGPT ha mostrato anche una valutazione più alta per le storie scritte da umani.

Hanno esaminato un compito per gli attacchi avversari che mettono alla prova la capacità dell’IA di classificare le frasi. Hanno testato la capacità di classificare una frase su qualche tipo di attacco ostile (utilizzando sinonimi per cambiare leggermente la frase). Hanno quindi valutato come l’attacco influisce sulla capacità dell’IA di classificare le frasi. Hanno effettuato ciò utilizzando un modello linguistico su larga scala (ChatGPT) e un umano.

Per gli attacchi avversari, gli insegnanti di inglese (valutazione umana) hanno valutato le frasi prodotte dagli attacchi ostili più basse rispetto alle frasi originali per quanto riguarda la fluidità e la conservazione del significato. Inoltre, ChatGPT ha dato valutazioni più alte alle frasi degli attacchi ostili rispetto agli insegnanti di inglese. Inoltre, ChatGPT ha valutato le frasi degli attacchi ostili più basse rispetto alle frasi originali e, nel complesso, i modelli linguistici su larga scala hanno valutato la qualità delle frasi degli attacchi ostili e delle frasi originali allo stesso modo degli umani.

I ricercatori hanno evidenziato i seguenti quattro vantaggi dell’evaluazione tramite modelli linguistici su larga scala: Riproducibilità, Indipendenza, Efficienza e velocità dei costi e Ridotta esposizione a contenuti contestabili. Tuttavia, i modelli linguistici su larga scala sono anche suscettibili di interpretazioni errate dei fatti e il metodo di apprendimento può introdurre pregiudizi. Inoltre, l’assenza di emozioni in questi modelli potrebbe limitarne l’efficacia nella valutazione di compiti che coinvolgono emozioni. Le valutazioni e le valutazioni umane dei modelli linguistici su larga scala hanno punti di forza e debolezza distinti. La loro utilità ottimale è probabilmente raggiunta attraverso una combinazione di umani e di questi modelli su larga scala.