Come possiamo integrare i valori umani nell’IA?

'Come integrare i valori umani nell'IA?'

Estrazione dalla filosofia per identificare principi equi per l’IA etica

Man mano che l’intelligenza artificiale (IA) diventa sempre più potente e più profondamente integrata nelle nostre vite, le domande su come viene utilizzata e implementata diventano sempre più importanti. Quali valori guidano l’IA? Di chi sono i valori? E come vengono selezionati?

Queste domande gettano luce sul ruolo svolto dai principi – i valori fondamentali che guidano decisioni grandi e piccole nell’IA. Per gli esseri umani, i principi aiutano a plasmare il modo in cui viviamo la nostra vita e il nostro senso del giusto e del sbagliato. Per l’IA, essi plasmano il suo approccio a una serie di decisioni che comportano compromessi, come la scelta tra dare priorità alla produttività o aiutare coloro che ne hanno più bisogno.

In un articolo pubblicato oggi nelle Proceedings of the National Academy of Sciences, traiamo ispirazione dalla filosofia per trovare modi per identificare meglio i principi che guidano il comportamento dell’IA. In particolare, esploriamo come un concetto noto come “velo dell’ignoranza” – un esperimento mentale inteso ad aiutare a identificare principi equi per le decisioni di gruppo – possa essere applicato all’IA.

Nelle nostre prove, abbiamo scoperto che questo approccio incoraggiava le persone a prendere decisioni basate su ciò che ritenevano giusto, che ciò beneficiasse o meno direttamente loro stesse. Abbiamo anche scoperto che i partecipanti erano più inclini a selezionare un’IA che aiutasse coloro che erano più svantaggiati quando ragionavano dietro il velo dell’ignoranza. Queste intuizioni potrebbero aiutare i ricercatori e i responsabili delle politiche a selezionare principi per un assistente IA in modo equo per tutte le parti coinvolte.

Il velo dell'ignoranza (a destra) è un metodo per trovare un consenso su una decisione quando ci sono opinioni diverse in un gruppo (a sinistra).

Uno strumento per decisioni più eque

Un obiettivo chiave per i ricercatori di intelligenza artificiale è stato quello di allineare i sistemi di intelligenza artificiale con i valori umani. Tuttavia, non vi è un consenso su un unico insieme di valori o preferenze umane per governare l’IA – viviamo in un mondo in cui le persone hanno background, risorse e credenze diverse. Come dovremmo selezionare i principi per questa tecnologia, date queste opinioni diverse?

Anche se questa sfida è emersa per l’IA negli ultimi dieci anni, la domanda generale su come prendere decisioni eque ha una lunga tradizione filosofica. Negli anni ’70, il filosofo politico John Rawls propose il concetto del velo dell’ignoranza come soluzione a questo problema. Rawls sosteneva che quando le persone selezionano principi di giustizia per una società, dovrebbero immaginare di farlo senza conoscenza della propria posizione particolare in quella società, inclusi, ad esempio, il loro status sociale o il livello di ricchezza. Senza queste informazioni, le persone non possono prendere decisioni in modo egoistico e dovrebbero invece scegliere principi che siano equi per tutti i soggetti coinvolti.

Ad esempio, pensa di chiedere a un amico di tagliare la torta al tuo compleanno. Un modo per assicurarti che le fette siano proporzionate in modo equo è quello di non dire loro quale fetta sarà la loro. Questo approccio di trattenere informazioni sembra semplice, ma ha ampie applicazioni in campi come la psicologia e la politica per aiutare le persone a riflettere sulle loro decisioni da una prospettiva meno egoistica. È stato utilizzato come metodo per raggiungere un accordo di gruppo su questioni controverse, che vanno dalla sentenza alla tassazione.

Sulla base di questa base, ricerche precedenti di DeepMind hanno proposto che la natura imparziale del velo dell’ignoranza potrebbe contribuire a promuovere l’equità nel processo di allineamento dei sistemi di intelligenza artificiale con i valori umani. Abbiamo progettato una serie di esperimenti per testare gli effetti del velo dell’ignoranza sui principi che le persone scelgono di guidare un sistema di intelligenza artificiale.

Massimizzare la produttività o aiutare i più svantaggiati?

In un “gioco di raccolta online”, abbiamo chiesto ai partecipanti di giocare a un gioco di gruppo con tre giocatori computer, in cui l’obiettivo di ciascun giocatore era raccogliere legna abbattendo alberi in territori separati. In ogni gruppo, alcuni giocatori erano fortunati e venivano assegnati a una posizione privilegiata: i loro campi erano densamente popolati di alberi, permettendo loro di raccogliere legna in modo efficiente. Altri membri del gruppo erano svantaggiati: i loro campi erano sparsi, richiedendo più sforzo per raccogliere gli alberi.

Ogni gruppo era assistito da un unico sistema di intelligenza artificiale che poteva dedicare tempo ad aiutare i singoli membri del gruppo nella raccolta degli alberi. Abbiamo chiesto ai partecipanti di scegliere tra due principi per guidare il comportamento dell’assistente IA. Con il “principio di massimizzazione”, l’assistente IA avrebbe cercato di aumentare il raccolto del gruppo concentrandosi principalmente sui campi più densi. Mentre con il “principio di priorità”, l’assistente IA si sarebbe concentrato ad aiutare i membri svantaggiati del gruppo.

Un'illustrazione del 'gioco di raccolta' in cui i giocatori (rappresentati in rosso) occupano un campo denso che è più facile da raccogliere (i due quadranti superiori) o un campo sparso che richiede più sforzo per raccogliere gli alberi.

Abbiamo posto metà dei partecipanti dietro il velo dell’ignoranza: hanno affrontato la scelta tra diversi principi etici senza sapere quale campo sarebbe stato il loro, quindi non sapevano quanto avvantaggiati o svantaggiati fossero. I partecipanti rimanenti hanno fatto la scelta sapendo se erano migliori o peggiori.

Incentivare l’equità nella presa di decisioni

Abbiamo scoperto che se i partecipanti non conoscevano la loro posizione, preferivano costantemente il principio di priorità, in cui l’assistente AI aiutava i membri del gruppo svantaggiati. Questo pattern è emerso costantemente in tutte e cinque le diverse varianti del gioco, e ha superato le barriere sociali e politiche: i partecipanti hanno mostrato questa tendenza a scegliere il principio di priorità indipendentemente dalla loro propensione al rischio o dall’orientamento politico. Al contrario, i partecipanti che conoscevano la propria posizione erano più propensi a scegliere il principio che li beneficiava di più, che fosse il principio di priorità o il principio di massimizzazione.

Un grafico che mostra l'effetto del velo dell'ignoranza sulla probabilità di scegliere il principio di priorità, in cui l'assistente AI aiuterebbe coloro che sono peggio. I partecipanti che non conoscevano la loro posizione erano molto più propensi a sostenere questo principio per governare il comportamento dell'AI.

Quando abbiamo chiesto ai partecipanti il motivo della loro scelta, coloro che non conoscevano la loro posizione erano particolarmente propensi a esprimere preoccupazioni per l’equità. Spesso spiegavano che era giusto per il sistema AI concentrarsi nell’aiutare le persone che erano in una posizione peggiore nel gruppo. Al contrario, i partecipanti che conoscevano la loro posizione discutevano molto più frequentemente della loro scelta in termini di benefici personali.

Infine, dopo che il gioco di raccolta era finito, abbiamo posto una situazione ipotetica ai partecipanti: se dovessero giocare di nuovo il gioco, questa volta sapendo che sarebbero stati in un campo diverso, sceglierebbero lo stesso principio che hanno scelto la prima volta? Eravamo particolarmente interessati alle persone che in precedenza avevano beneficiato direttamente dalla loro scelta, ma che non avrebbero beneficiato dalla stessa scelta in un nuovo gioco.

Abbiamo scoperto che le persone che in precedenza avevano preso decisioni senza conoscere la loro posizione erano più propense a continuare a sostenere il loro principio, anche quando sapevano che non li avrebbe più favoriti nel loro nuovo campo. Questo fornisce ulteriori prove che il velo dell’ignoranza incoraggia l’equità nella presa di decisioni dei partecipanti, portandoli a principi che erano disposti a sostenere anche quando non ne beneficiavano direttamente.

Principi più equi per l’AI

La tecnologia dell’AI sta già avendo un profondo effetto sulle nostre vite. I principi che governano l’AI ne plasmano l’impatto e come questi potenziali benefici saranno distribuiti.

La nostra ricerca ha esaminato un caso in cui gli effetti dei diversi principi erano relativamente chiari. Questo non sarà sempre il caso: l’AI viene utilizzata in una serie di settori che spesso si basano su un gran numero di regole per guidarla, potenzialmente con effetti collaterali complessi. Tuttavia, il velo dell’ignoranza può ancora potenzialmente informare la selezione dei principi, contribuendo a garantire che le regole che scegliamo siano equi per tutte le parti coinvolte.

Per garantire che costruiamo sistemi AI che beneficiano tutti, abbiamo bisogno di una ricerca approfondita con un’ampia gamma di contributi, approcci e feedback provenienti da diverse discipline e dalla società. Il velo dell’ignoranza può fornire un punto di partenza per la selezione dei principi con cui allineare l’AI. È stato efficacemente utilizzato in altri settori per evidenziare preferenze più imparziali. Speriamo che con ulteriori indagini e attenzione al contesto, possa svolgere lo stesso ruolo per i sistemi AI che vengono costruiti e implementati nella società oggi e in futuro.

Leggi di più sull’approccio di DeepMind alla sicurezza ed etica .