Un gruppo di ricerca proveniente da CMU, AI2 e University of Washington introduce NLPositionality un framework di intelligenza artificiale per caratterizzare i pregiudizi di design e quantificare la posizionalità dei dataset e dei modelli di NLP.

'A research group from CMU, AI2, and the University of Washington introduces NLPositionality, an AI framework to characterize design biases and quantify the positionality of NLP datasets and models.

La posizione dei ricercatori, le loro prospettive formate dalla propria esperienza, identità, cultura e background, influenzano le decisioni di progettazione durante lo sviluppo di dataset e modelli di elaborazione del linguaggio naturale (NLP).

Le scelte di progettazione latenti e la posizione del ricercatore sono due fonti di bias di progettazione nella produzione di dataset e modelli. Ciò porta a discrepanze nella funzionalità dei dataset e dei modelli per diverse popolazioni. Tuttavia, forzando gli standard di un gruppo sul resto del mondo, si può contribuire a mantenere disuguaglianze sistemiche. La difficoltà sorge a causa della vasta varietà di decisioni di progettazione che devono essere prese e solo una parte di queste decisioni può essere registrata durante la creazione di dataset e modelli. Inoltre, molti modelli ampiamente utilizzati in produzione non sono esposti al di fuori delle API, rendendo difficile caratterizzare i bias di progettazione direttamente.

Una recente ricerca condotta dall’Università di Washington, dalla Carnegie Mellon University e dall’Allen Institute for AI presenta NLPositionality, un paradigma per descrivere la posizione e i bias di progettazione dei dataset e dei modelli di elaborazione del linguaggio naturale (NLP). I ricercatori reclutano una comunità globale di volontari provenienti da diversi contesti culturali e linguistici per annotare un campione di dataset. Successivamente, misurano i bias nella progettazione confrontando diverse identità e contesti per vedere quali sono più in linea con le etichette originali del dataset o le previsioni del modello.

NLPositionality ha tre vantaggi rispetto ad altri metodi (come crowdsourcing retribuito o esperimenti in laboratorio):

  1. Rispetto ad altre piattaforme di crowdsourcing e studi di laboratorio convenzionali, LabintheWild ha una popolazione di partecipanti più diversificata.
  2. Invece di fare affidamento su una remunerazione monetaria, questo metodo si basa sull’impulso intrinseco dei partecipanti a crescere espandendo la loro consapevolezza di sé. Le possibilità di apprendimento per i partecipanti aumentano e la qualità dei dati è migliorata rispetto alle piattaforme di crowdsourcing retribuite. Pertanto, a differenza di studi retribuiti una tantum come quelli presenti in altre ricerche, questa piattaforma può raccogliere liberamente nuove annotazioni e riflettere osservazioni più recenti sui bias di progettazione nel corso di periodi estesi.
  3. Questo metodo non richiede l’applicazione post hoc di etichette o previsioni preesistenti a nessun dataset o modello.

I ricercatori utilizzano NLPositionality su due esempi di compiti di elaborazione del linguaggio naturale noti per essere soggetti a bias nella loro progettazione: accettabilità sociale e rilevamento dell’odio. Esaminano modelli di linguaggio ampiamente utilizzati specifici per il compito e generici per il compito (ad esempio, GPT-4) e i relativi dataset e modelli supervisionati. In media, 1.096 annotatori provenienti da 87 paesi hanno contribuito con 38 annotazioni al giorno per un totale di 16.299 annotazioni al 25 maggio 2023. Il team ha scoperto che i millennials bianchi con istruzione universitaria provenienti da paesi di lingua inglese – un sottoinsieme delle popolazioni “WEIRD” (Western, Educated, Industrialized, Rich, Democratic) – sono i più adatti per i dataset e i modelli esaminati. L’importanza di raccogliere dati e annotazioni da una vasta gamma di fonti è evidenziata anche dalla loro osservazione che i dataset mostrano un elevato livello di allineamento con i loro annotatori originali. I loro risultati indicano la necessità di ampliare la ricerca di elaborazione del linguaggio naturale per includere modelli e dataset più diversificati.