Questo articolo sull’IA esplora il potenziale dei modelli di lingua estesi (LLM) per compiti di annotazione del testo, con un focus su ChatGPT

Questo articolo esplora il potenziale dei modelli di lingua estesi (LLM) per l'annotazione del testo, con un focus su ChatGPT.

I dati etichettati di alta qualità sono necessari per molte applicazioni di NLP, in particolare per addestrare classificatori o valutare l’efficacia dei modelli non supervisionati. Ad esempio, gli accademici cercano spesso di classificare i testi in varie tematiche o categorie concettuali, filtrare i dati rumorosi dei social media per rilevanza o valutare il loro stato d’animo o posizione. I dati etichettati sono necessari per fornire un set di addestramento o un punto di riferimento con cui confrontare i risultati, che si utilizzino metodi supervisionati, semi-supervisionati o non supervisionati per queste attività. Tali dati possono essere forniti per compiti di alto livello come l’analisi semantica, il discorso d’odio e occasionalmente obiettivi più specializzati come l’ideologia di partito.

I ricercatori devono tipicamente effettuare annotazioni originali per verificare che le etichette corrispondano alle loro categorie concettuali. Fino a poco tempo fa, c’erano solo due approcci di base. Gli assistenti di ricerca, ad esempio, possono essere assunti e formati come codificatori dai ricercatori. In secondo luogo, possono fare affidamento su liberi professionisti che lavorano su siti come Amazon Mechanical Turk (MTurk). Questi due approcci vengono spesso combinati, con i lavoratori della folla che aumentano i dati etichettati mentre gli annotatori addestrati producono un piccolo dataset di riferimento. Ogni tattica ha vantaggi e svantaggi propri. Gli annotatori addestrati creano spesso dati di alta qualità, anche se i loro servizi sono costosi.

Tuttavia, ci sono state preoccupazioni per il calo della qualità dei dati di MTurk. Altre piattaforme come CrowdFlower e FigureEight non sono più opzioni praticabili per la ricerca accademica dopo essere state acquisite da Appen, un’organizzazione orientata al business. I dipendenti della folla sono molto più convenienti e flessibili, ma la qualità potrebbe essere migliore, soprattutto per attività complesse e lingue diverse dall’inglese. Ricercatori dell’Università di Zurigo esaminano il potenziale dei grandi modelli di linguaggio (LLM) per compiti di annotazione di testo, con particolare attenzione a ChatGPT, reso pubblico nel novembre 2022. Dimostra che, a una frazione del costo delle annotazioni di MTurk, le classificazioni di ChatGPT zero-shot le superano (cioè senza alcun addestramento aggiuntivo).

I LLM hanno funzionato molto bene per vari compiti, tra cui la categorizzazione delle idee legislative, la scala ideologica, la risoluzione di problemi di psicologia cognitiva ed emulare campioni umani per la ricerca di sondaggi. Sebbene alcune indagini abbiano mostrato che ChatGPT sarebbe in grado di svolgere il tipo di compiti di annotazione di testo specificati, a loro conoscenza non è stata ancora effettuata una valutazione approfondita. Un campione di 2.382 tweet che hanno raccolto per ricerche precedenti è stato utilizzato per la loro analisi. Per quel progetto, i tweet sono stati annotati per cinque compiti separati: rilevanza, posizione, soggetti e due tipi di identificazione di contesto da parte di annotatori addestrati (assistenti di ricerca).

Hanno distribuito i lavori ai lavoratori della folla di MTurk e alle classificazioni zero-shot di ChatGPT, utilizzando gli stessi codici che hanno creato per addestrare i loro assistenti di ricerca. Dopo di che, hanno valutato le prestazioni di ChatGPT rispetto a due benchmark: (i) la sua precisione in confronto ai lavoratori della folla; e (ii) l’accordo intercodificatore in confronto sia ai lavoratori della folla che ai loro annotatori addestrati. Hanno scoperto che l’accuratezza di ChatGPT zero-shot è superiore a quella di MTurk per quattro compiti. ChatGPT supera MTurk e gli annotatori addestrati per tutte le funzioni riguardanti l’accordo intercodificatore.

Inoltre, ChatGPT è molto più conveniente di MTurk: i cinque lavori di categorizzazione su ChatGPT costano circa $68 (25.264 annotazioni), mentre gli stessi compiti su MTurk costano $657 (12.632 annotazioni). Pertanto, ChatGPT costa solo $0,003, o un terzo di centesimo, rendendolo circa venti volte più conveniente di MTurk pur offrendo una qualità superiore. A questo costo è possibile annotare interi campioni o creare ampi set di addestramento per l’apprendimento supervisionato.

Hanno testato 100.000 annotazioni e hanno scoperto che costerebbe circa $300. Questi risultati mostrano come ChatGPT e altri LLM possano cambiare il modo in cui i ricercatori conducono le annotazioni dei dati e sconvolgere alcuni aspetti dei modelli di business delle piattaforme come MTurk. Tuttavia, sono necessarie ulteriori ricerche per comprendere appieno come ChatGPT e altri LLM si comportino in contesti più ampi.