Questa ricerca sull’IA da parte di Apple indaga un problema noto del comportamento degli LLM riguardante gli stereotipi di genere

La ricerca di Apple sull'IA analizza il comportamento degli LLM riguardo agli stereotipi di genere.

I modelli di linguaggio di grandi dimensioni (LLM) hanno compiuto enormi progressi negli ultimi mesi, superando i benchmark di stato dell’arte in molti settori diversi. C’è stato un aumento meteorico delle persone che utilizzano e studiano i Modelli di Linguaggio di Grande Dimensione (LLM), in particolare nel campo dell’Elaborazione del Linguaggio Naturale (NLP). Oltre a superare e persino eccellere in test come il SAT, il LSAT, gli esami di medicina e i test di intelligenza, questi modelli hanno superato significativamente lo stato dell’arte (SOTA) in una vasta gamma di compiti di linguaggio naturale. Questi sviluppi notevoli hanno suscitato una discussione diffusa sull’adozione e sulla dipendenza da tali modelli nelle attività quotidiane, dal consiglio medico alle applicazioni di sicurezza fino alla classificazione degli articoli di lavoro.

Un tale nuovo paradigma di test, proposto da un gruppo di ricercatori di Apple, utilizza espressioni che sono probabilmente escluse dai dati di addestramento attualmente utilizzati dai LLM. Mostrano che le supposizioni di genere sono ampiamente utilizzate nei LLM. Esaminano le giustificazioni dei LLM per le loro decisioni e scoprono che i LLM fanno frequentemente affermazioni esplicite sugli stereotipi stessi, oltre a utilizzare affermazioni sulla struttura delle frasi e sulla grammatica che non reggono a un’indagine più approfondita. Le azioni dei LLM sono coerenti con l’Intelligenza Collettiva della civiltà occidentale, almeno come codificata nei dati utilizzati per addestrare i LLM. È fondamentale individuare questo modello di comportamento, isolare le sue cause e suggerire soluzioni.

Bias di genere negli algoritmi di acquisizione del linguaggio

Il bias di genere nei modelli di linguaggio è stato ampiamente studiato e documentato. Secondo la ricerca, i modelli di linguaggio non vincolati riflettono ed esacerbano i pregiudizi della cultura più ampia in cui sono radicati. Oltre all’autocapionamento, all’analisi del sentimento, alla rilevazione della tossicità, alla traduzione automatica e ad altre attività di NLP, è stato dimostrato che il bias di genere esiste in vari modelli. Il genere non è l’unico categoria sociale a subire gli effetti di questo pregiudizio; religioni, colore della pelle, nazionalità, handicap e professione sono tutti inclusi.

Bias inconsci nella comprensione delle frasi

La letteratura sull’elaborazione delle frasi umane ha anche ampiamente documentato il bias di genere utilizzando diversi metodi sperimentali. In sintesi, la ricerca ha dimostrato che conoscere le categorie di genere dei sostantivi in un testo può aiutare nella comprensione e che i pronomi sono generalmente intesi come riferiti ai soggetti anziché agli oggetti. Di conseguenza, i punteggi delle frasi possono diminuire in scenari meno probabili, la velocità di lettura può diminuire e possono verificarsi effetti inaspettati come regressioni negli esperimenti di eye-tracking.

Bias sociale verso le donne

Data l’esistenza e la pervasività dei preconcetti di genere e dei pregiudizi nella cultura odierna, forse non dovrebbe sorprendere che anche le uscite dei modelli di linguaggio mostrino bias. Il bias di genere è stato documentato in numerosi settori, dalla medicina all’economia, dall’istruzione al diritto, ma un’indagine completa di questi risultati va oltre lo scopo di questo lavoro. Ad esempio, sono stati riscontrati bias in vari soggetti e contesti educativi. I bambini fin dai primi anni di scuola dell’infanzia sono vulnerabili alle conseguenze dannose dello stereotipo, che possono avere un impatto duraturo sull’autopercezione, sulle scelte accademiche e professionali e su altre aree di sviluppo.

Progettazione

Gli scienziati ideano un framework per esaminare il pregiudizio di genere, simile ma diverso da WinoBias. Ogni elemento di ricerca presenta una coppia di sostantivi che descrivono professioni, uno stereotipicamente associato agli uomini e l’altro alle donne, e un pronome maschile o femminile. A seconda della tattica, si prevedono diverse reazioni. Inoltre, la tecnica può variare da frase a frase in base alle presupposizioni e alla conoscenza del mondo legate ai componenti lessicali della frase.

Dato che i ricercatori ritengono che le frasi di WinoBias facciano parte dei dati di addestramento per diversi LLM, evitano di utilizzarle nel loro lavoro. Invece, creano schemi di 15 frasi seguendo il modello sopra menzionato. Inoltre, a differenza di WinoBias, non selezionano i sostantivi in base ai dati del Dipartimento del Lavoro degli Stati Uniti, ma piuttosto su studi che hanno misurato le percezioni degli anglofoni sul grado in cui determinati sostantivi che denotano professioni sono considerati sbilanciati verso gli uomini o verso le donne.

Nel 2023, i ricercatori hanno esaminato quattro LLM disponibili al pubblico. Quando c’erano molte opzioni di configurazione per un modello, hanno utilizzato le impostazioni predefinite di fabbrica. Offrono risultati e interpretazioni contrastanti sul collegamento tra pronomi e scelta della carriera.

I ricercatori non considerano come le azioni dei LLM, come l’uso (e il mancato utilizzo) di pronomi di genere neutro come “they” singolare e neo-pronomi, possano riflettere e influenzare la realtà delle persone transgender. Alla luce di questi risultati all’interno di un paradigma binario e della mancanza di dati provenienti da studi precedenti, si ipotizza che includere più generi dipingerebbe un’immagine ancora più desolante delle prestazioni dei LLM. Qui, ammettono che abbracciare queste supposizioni potrebbe danneggiare le persone svantaggiate che non si adattano a queste semplici nozioni di genere, ed esprimono ottimismo sul fatto che future ricerche si concentreranno su queste relazioni sfumate e faranno luce su di esse.

Per riassumere

Per determinare se i Modelli di Linguaggio di Grandi Dimensioni esistenti presentano un bias di genere, i ricercatori hanno ideato uno scenario semplice. WinoBias è un dataset popolare di bias di genere che si presume sia incluso nei dati di addestramento dei LLM esistenti, e il paradigma si amplia ma si differenzia da quel dataset. I ricercatori hanno esaminato quattro LLM rilasciati nel primo trimestre del 2023. Hanno scoperto risultati coerenti tra i modelli, indicando che le loro scoperte potrebbero essere applicabili ad altri LLM attualmente sul mercato. Mostrano che i LLM fanno supposizioni sessiste sugli uomini e sulle donne, in particolare quelli in linea con le concezioni delle professioni maschili e femminili delle persone, piuttosto che quelli basati sulla realtà della situazione, come rilevato dai dati del Bureau of Labor degli Stati Uniti. Una scoperta chiave è che –

(a) I LLM utilizzavano stereotipi di genere per decidere a quale pronome si riferiva più probabilmente quale genere; ad esempio, i LLM utilizzavano il pronome “he” per riferirsi agli uomini e “she” per riferirsi alle donne.

(b) I LLM tendevano ad amplificare le preconcetti basati sul genere sulle donne più che sugli uomini. Mentre i LLM facevano comunemente questa osservazione quando specificamente sollecitati, raramente lo facevano quando lasciati alle loro decisioni.

(d) I LLM davano giustificazioni apparentemente autorevoli per le loro decisioni, che erano spesso sbagliate e potenzialmente celavano le vere motivazioni dietro le loro previsioni.

Un’altra caratteristica importante di questi modelli viene quindi alla luce: poiché i LLM sono addestrati su dati di parte, tendono a riflettere ed esacerbare questi bias anche quando utilizzano l’apprendimento per rinforzo con il feedback umano. I ricercatori sostengono che, proprio come con altre forme di bias sociale, la protezione e il trattamento equo delle persone e dei gruppi emarginati devono essere al centro dello sviluppo e dell’educazione dei LLM.