Studio I modelli di intelligenza artificiale non riescono a riprodurre i giudizi umani sulle violazioni delle regole.

AI models cannot replicate human judgments on rule violations.

I modelli addestrati utilizzando tecniche comuni di raccolta dati giudicano le violazioni delle regole in modo più severo di quanto farebbero gli esseri umani, riferiscono i ricercatori.

Researchers have found that machine-learning models trained to mimic human decision-making often suggest harsher judgements than humans would. They found that the way data were gathered and labeled impacts how accurately a model can be trained to judge whether a rule has been violated.

Nello sforzo di migliorare l’equità o ridurre i ritardi, i modelli di machine learning sono talvolta progettati per imitare le decisioni umane, ad esempio decidere se i post sui social media violano le politiche sui contenuti tossici.

Ma i ricercatori del MIT e di altre istituzioni hanno scoperto che questi modelli spesso non replicano le decisioni umane sulle violazioni delle regole. Se i modelli non vengono addestrati con i dati giusti, è probabile che prendano giudizi diversi, spesso più severi di quelli che prenderebbero gli esseri umani.

In questo caso, i dati “giusti” sono quelli etichettati da esseri umani che sono stati esplicitamente chiesti se gli elementi violano una determinata regola. L’addestramento consiste nel mostrare al modello di machine learning milioni di esempi di questi dati “normativi” in modo che possa imparare un compito.

Tuttavia, i dati utilizzati per addestrare i modelli di machine learning sono tipicamente etichettati in modo descrittivo, il che significa che agli esseri umani viene chiesto di identificare le caratteristiche factuali, come ad esempio la presenza di cibo fritto in una foto. Se i “dati descrittivi” vengono utilizzati per addestrare modelli che giudicano le violazioni delle regole, ad esempio se un pasto viola una politica scolastica che vieta il cibo fritto, i modelli tendono a sovrastimare le violazioni delle regole.

Questa diminuzione dell’accuratezza potrebbe avere gravi implicazioni nel mondo reale. Ad esempio, se un modello descrittivo viene utilizzato per prendere decisioni sulla probabilità che un individuo commetta nuovamente un reato, i risultati della ricerca suggeriscono che potrebbe emettere giudizi più severi rispetto a quelli che emetterebbe un essere umano, il che potrebbe portare a cauzioni più elevate o a sentenze penali più lunghe.

“Penso che la maggior parte dei ricercatori di intelligenza artificiale/machine learning assuma che i giudizi degli esseri umani sui dati e le etichette siano di parte, ma questo risultato dice qualcosa di peggio. Questi modelli non riproducono nemmeno giudizi umani già di parte perché i dati su cui vengono addestrati hanno un difetto: gli esseri umani etichetterebbero le caratteristiche delle immagini e del testo in modo diverso se sapessero che quelle caratteristiche sarebbero utilizzate per una valutazione. Ciò ha enormi implicazioni per i sistemi di machine learning nei processi umani”, afferma Marzyeh Ghassemi, professore assistente e responsabile del gruppo Healthy ML nel Laboratorio di informatica e intelligenza artificiale (CSAIL).

Ghassemi è l’autore senior di un nuovo articolo che descrive questi risultati, pubblicato oggi su Science Advances. A unirsi a lei nell’articolo sono l’autore principale Aparna Balagopalan, studente di dottorato in ingegneria e informatica; David Madras, studente di dottorato presso l’Università di Toronto; David H. Yang, ex studente di dottorato che ora è co-fondatore di ML Estimation; Dylan Hadfield-Menell, professore assistente al MIT; e Gillian K. Hadfield, Schwartz Reisman Chair in Technology and Society e professore di diritto presso l’Università di Toronto.

Discrepanza nell’etichettatura

Questo studio è stato ideato a partire da un progetto diverso che esplorava come un modello di machine learning può giustificare le sue previsioni. Raccogliendo dati per quel progetto, i ricercatori hanno notato che gli esseri umani a volte danno risposte diverse se vengono chiesti di fornire etichette descrittive o normative sugli stessi dati.

Per raccogliere etichette descrittive, i ricercatori chiedono ai labeler di identificare le caratteristiche factuali – questo testo contiene linguaggio osceno? Per raccogliere etichette normative, i ricercatori danno ai labeler una regola e chiedono se i dati violano quella regola – questo testo viola la politica esplicita del sito riguardo al linguaggio?

Sorpresi da questa scoperta, i ricercatori hanno avviato uno studio utente per approfondire. Hanno raccolto quattro set di dati per simulare diverse politiche, come ad esempio un set di immagini di cani che potrebbero violare la regola di un appartamento contro le razze aggressive. Poi hanno chiesto a gruppi di partecipanti di fornire etichette descrittive o normative.

In ogni caso, ai labeler descrittivi è stato chiesto di indicare se tre caratteristiche factuali erano presenti nell’immagine o nel testo, come ad esempio se il cane sembra aggressivo. Le loro risposte sono state poi utilizzate per formulare giudizi. (Se un utente ha detto che una foto conteneva un cane aggressivo, allora la regola era violata.) I labeler non conoscevano la politica sugli animali domestici. D’altra parte, ai labeler normativi è stata data la politica che vieta i cani aggressivi e poi chiesto se questa era stata violata da ciascuna immagine, e perché.

I ricercatori hanno scoperto che gli esseri umani erano significativamente più inclini a etichettare un oggetto come violazione nell’ambiente descrittivo. La disparità, calcolata utilizzando la differenza assoluta nelle etichette in media, variava dall’8% su un set di dati di immagini utilizzate per giudicare le violazioni del codice di abbigliamento al 20% per le immagini di cani.

“Sebbene non abbiamo testato esplicitamente il motivo per cui ciò accade, un’ipotesi potrebbe essere che il modo in cui le persone pensano alle violazioni delle regole sia diverso da come pensano ai dati descrittivi. In generale, le decisioni normative sono più indulgenti”, afferma Balagopalan.

Tuttavia, i dati vengono di solito raccolti con etichette descrittive per addestrare un modello per una particolare attività di apprendimento automatico. Questi dati spesso vengono riutilizzati in seguito per addestrare modelli diversi che eseguono giudizi normativi, come violazioni di regole.

Problemi di addestramento

Per studiare gli impatti potenziali del riutilizzo dei dati descrittivi, i ricercatori hanno addestrato due modelli per giudicare le violazioni di regole utilizzando una delle quattro impostazioni dei dati. Hanno addestrato un modello utilizzando dati descrittivi e l’altro utilizzando dati normativi, e poi hanno confrontato le loro prestazioni.

Hanno scoperto che se i dati descrittivi vengono utilizzati per addestrare un modello, esso avrà prestazioni inferiori rispetto a un modello addestrato per eseguire gli stessi giudizi utilizzando dati normativi. In particolare, il modello descrittivo è più propenso a classificare erroneamente gli input prevedendo una violazione di regole. E l’accuratezza del modello descrittivo è stata ancora più bassa quando si trattava di classificare oggetti su cui i valutatori umani non erano d’accordo.

“Ciò dimostra che i dati sono davvero importanti. È importante abbinare il contesto di addestramento al contesto di utilizzo se si stanno addestrando modelli per individuare se una regola è stata violata”, afferma Balagopalan.

Può essere molto difficile per gli utenti determinare come sono stati raccolti i dati; queste informazioni possono essere nascoste nell’allegato di un articolo di ricerca o non rivelate da un’azienda privata, dice Ghassemi.

Migliorare la trasparenza del set di dati è un modo per mitigare questo problema. Se i ricercatori sanno come sono stati raccolti i dati, sanno come utilizzare quei dati. Un’altra possibile strategia è quella di ottimizzare un modello addestrato descrittivamente utilizzando una piccola quantità di dati normativi. Questa idea, nota come trasferimento di apprendimento, è qualcosa che i ricercatori vogliono esplorare in futuro.

Vogliono anche condurre uno studio simile con valutatori esperti, come medici o avvocati, per vedere se porta alla stessa disparità di etichettatura.

“Il modo per risolvere questo problema è di riconoscere in modo trasparente che se vogliamo riprodurre il giudizio umano, dobbiamo utilizzare solo i dati raccolti in quel contesto. Altrimenti, finiremo per avere sistemi che avranno moderazioni estremamente severe, molto più severe di quelle che farebbero gli esseri umani. Gli esseri umani noterebbero delle sfumature o farebbero un’altra distinzione, mentre questi modelli no”, afferma Ghassemi.

Questa ricerca è stata finanziata in parte dal Schwartz Reisman Institute for Technology and Society, da Microsoft Research, dal Vector Institute e dal Canada Research Council Chain.