AI Bias Sfide e Soluzioni

'AI Bias Challenges and Solutions'

Quando ai modelli vengono forniti dati di addestramento contenenti pregiudizi, anche gli esiti saranno pregiudicati. ¶ Credit: thenextweb.com

Il pregiudizio nell’intelligenza artificiale (IA) non è un nuovo problema. Nel 1988, la Commissione per l’uguaglianza razziale del Regno Unito (ora Commissione per i diritti umani e dell’uguaglianza) ha scoperto che la St. George’s Medical School di Londra aveva discriminato in base a motivi razziali e sessuali “attraverso l’operazione di un programma informatico tra il 1982 e il 1986”. L’algoritmo, progettato per automatizzare il processo di ammissione, attribuiva un peso negativo ai “nomi non caucasici” e a quelli delle candidate femminili.

Per decenni, il pregiudizio nell’IA era principalmente una problematica tecnica dibattuta da ricercatori e sviluppatori. Ora, grazie in parte all’enorme diffusione popolare dell’IA generativa, le conversazioni sul pregiudizio sono state lanciate nella sfera pubblica. L’arena è vivace, per dir poco: enormi quantità di dati vengono raccolte per addestrare modelli, alcune tecnologie sono open source, altre sono scatole nere, e le divisioni sociali e le “guerre culturali” volatili aggiungono tensione al dialogo.

I responsabili delle politiche hanno iniziato a muoversi: aspetti della proposta legge sull’IA dell’UE, come la trasparenza e la spiegabilità, probabilmente influenzeranno il pregiudizio, e negli Stati Uniti, l’Istituto nazionale di standardizzazione e tecnologia ha pubblicato la “prima fase della roadmap per lo sviluppo di linee guida socio-tecniche dettagliate per l’identificazione e la gestione del pregiudizio nell’IA”.

Tuttavia, ancora non esistono standard universali per affrontare il pregiudizio nell’IA.

Incorporato fin dall’inizio

Il pregiudizio nell’IA è “il pregiudizio umano che è incorporato negli algoritmi, nei sistemi di apprendimento automatico e nei sistemi computazionali”, spiega Yeshimabeit Milner, fondatrice e CEO di Data for Black Lives (D4BL), che si definisce “un movimento di attivisti, organizzatori e scienziati impegnati nella missione di utilizzare i dati per creare un cambiamento concreto e misurabile nella vita delle persone di colore”. Quando ai modelli di IA vengono forniti dati di addestramento contenenti pregiudizi, anche gli esiti saranno pregiudicati. Dice Milner: “Per usare un vecchio adagio informatico: se metti spazzatura dentro, otterrai spazzatura fuori”.

Secondo Milner, il pregiudizio non riguarda solo le percezioni, ma anche le narrazioni che diventano radicate nelle politiche e poi “incorporate nel codice”. Lei fa notare come l’uso dei codici postali statunitensi nel punteggio di credito basato sull’IA, introdotto da FICO nel 1989, abbia svantaggiato le comunità nere. Sebbene il punteggio di credito non abbia una variabile per la razza, il sistema dei codici postali può sostituire la razza, poiché riflette politiche di esclusione e segregazione degli anni ’30, spiega Milner. “I codici postali sono diventati un surrogato della razza. Se chiedi a qualcuno dove vive, per il suo codice postale, puoi prevedere al di là di ogni ragionevole dubbio di quale razza sia”.

Sanmay Das è co-direttore del Center for Advancing Human-Machine Partnership presso la George Mason University e presidente del Special Interest Group on Artificial Intelligence (ACM SIGAI) dell’ACM. Come Milner, Das evidenzia il punteggio di credito basato sull’IA come esempio delle insidie del pregiudizio, aggiungendo che man mano che l’IA diventa sempre più integrata nella società, le lacune nei dati contribuiscono al problema. Queste lacune si verificano quando gruppi di persone, spesso provenienti da comunità emarginate, sono stati trascurati o esclusi durante i processi di raccolta dati, o quando semplicemente non esistono dati su gruppi specifici. I modelli addestrati su tali dati sono probabilmente inclini a produrre esiti pregiudicati o distorti come risultato.

Dice Das, i ricercatori di IA non sono “bravi quanto” gli scienziati sociali nel pensare ai campioni e spesso si affidano alla scansione del Web per velocità e comodità. “Se vado a cercare tutto ciò che accade sul Web per addestrare un chatbot, otterrò qualcosa di molto diverso dalla società umana nel suo complesso”. Il contenuto in inglese o generato in ciò che Das chiama “stanze di chat tossiche” è probabile che sia sovra-rappresentato a causa del grande volume di ciascuno online, spiega.

Phoenix Perry, artista e ricercatrice di IA presso il Creative Computing Institute della University College London nel Regno Unito, paragona il pregiudizio alla preparazione di un pasto con “ingredienti contaminati”, in questo caso, dati, che sono carichi di pregiudizi diffusi online, come il razzismo, il sessismo e la transfobia. “Se i dati o gli ‘ingredienti’ sono difettosi, nessuna quantità di abilità computazionale o apprendimento automatico avanzato può correggere il prodotto risultante. Questo output contaminato riflette pregiudizi sociali dannosi e perpetua la loro esistenza”, dice Perry.

Anche se i dati di addestramento non sono distorti, possono sorgere problemi a causa dei pregiudizi dei formatori dei modelli, una questione che viene esacerbata dal basso numero di donne rispetto agli uomini che lavorano nell’IA, afferma Arisa Ema dell’Istituto per le Iniziative Future dell’Università di Tokyo e del Centro RIKEN per il Progetto di Intelligenza Avanzata. “Questo pregiudizio nella nostra struttura sociale crea già un pregiudizio nella comunità dei designer e nella selezione degli algoritmi e dei dati.”

Dati buoni e radici

Se il pregiudizio è “incorporato”, come può essere contrastato?

Alcune soluzioni adottano un approccio settoriale. Il team del progetto STANDING Together, guidato dai ricercatori del Trust delle Fondazioni Ospedaliere dell’Università di Birmingham nel Regno Unito e dell’Università di Birmingham, sta sviluppando standard per dataset diversificati per l’IA in sanità che rappresentino meglio la società.

In un contesto legale, alla conferenza FAccT 2022 dell’ACM, un team del Centro per la Ricerca e la Tecnologia Hellas (CERTH) in Grecia, del Centro per il Diritto IT e della Proprietà Intellettuale in Belgio e dei specialisti etici dell’IA Trilateral Research con sede nel Regno Unito, ha presentato un nuovo approccio per la fairness-aware ML per mitigare il pregiudizio algoritmico nell’applicazione della legge. I ricercatori hanno utilizzato campioni generati sinteticamente per creare “dataset più equilibrati” che hanno attenuato casi di pregiudizio – riguardo alla razza – che hanno identificato durante l’analisi dei dati esistenti.

Per Milner, le soluzioni risiedono nell’coinvolgimento della comunità e nella rivalutazione della raccolta dei dati, ambiti in cui D4BL ha dimostrato di poter stimolare il cambiamento. Durante la pandemia, il team ha sollecitato la pubblicazione dei dati a livello statale suddivisi per razza per indagare l’impatto sproporzionato di COVID-19 sulle persone di colore e ha collaborato con data scientist volontari per costruire la base di codice per farlo. “Ogni portale di dati aperti che ha pubblicato i dati su COVID-19 ha fornito automaticamente aggiornamenti in tempo reale sui tassi di morte e di infezione delle comunità nere per stato; è stato uno strumento davvero potente”, afferma.

Milner è ottimista sul potenziale dell’IA nel portare “enormi progressi”. Tuttavia, affinché tutti ne beneficino, il potere dei dati deve essere restituito “alle persone”, afferma. Le conversazioni sull’IA tendono ad essere elitiste, afferma; le soluzioni implicano il coinvolgimento delle organizzazioni di base e “il cambio del cast di personaggi” che prendono decisioni. “Si tratta di portare le persone al tavolo, letteralmente, costruendo un movimento di scienziati attivisti, comunità nere e comunità scientifica”, dice Milner.

Come artista, Perry porta una prospettiva originale, sostenendo l’uso di dataset su piccola scala per contrastare il pregiudizio e facilitare un maggiore influenza umana sull’IA generativa, specialmente in contesti creativi. “Il vantaggio unico di questi dataset è la loro natura altamente personalizzata”, afferma Perry, che appoggia anche la regolamentazione formale per limitare l’uso del pregiudizio “per sfruttare o introdurre pregiudizi nei dataset a fini di lucro, pratica già evidente nei social media.”

Anche Emad Mostaque, fondatore e CEO di Stability AI, ha evidenziato i vantaggi dei dataset più piccoli. Parlando recentemente al programma Sunday della BBC con Laura Kuenssberg, Mostaque ha detto: “Non utilizzate tutto Internet, utilizzate dataset nazionali altamente curati e che riflettano la diversità dell’umanità, piuttosto che l’Internet occidentale come lo conosciamo. Questi modelli sono più propensi a essere stabili; sono più allineati con gli esseri umani.”

Das concorda con Perry sul fatto che sia arrivato il momento della regolamentazione. “Le aziende devono affrontare una forma di controllo su ciò che fanno e mettono nel mondo”, afferma, facendo riferimento ai sistemi regolatori esistenti nello sviluppo di farmaci e nell’ingegneria genetica come esempi. “Dobbiamo pensare a un apparato che abbia dei denti; che possa cercare di incentivare misure di sicurezza adeguate.”

Nuovi approcci alla raccolta dei dati e all’addestramento dei modelli e una maggiore regolamentazione del pregiudizio dell’IA sembrano probabili; se sviluppatori e decisori politici seguiranno il ritmo degli sviluppi è meno certo.

Karen Emslie è una giornalista e saggista freelance che lavora da remoto.