Valutare i rischi sociali ed etici dell’IA generativa

Esaminare i pericoli sociali ed etici dell'IA generativa

Introduzione di un framework basato sul contesto per valutare in modo completo i rischi sociali ed etici dei sistemi AI

I sistemi AI generativi vengono già utilizzati per scrivere libri, creare grafiche, assistere i praticanti medici e stanno diventando sempre più capaci. Garantire che questi sistemi siano sviluppati e implementati in modo responsabile richiede una valutazione attenta dei potenziali rischi etici e sociali che possono presentare.

Nel nostro nuovo articolo, proponiamo un framework a tre livelli per valutare i rischi sociali ed etici dei sistemi AI. Questo framework include valutazioni della capacità del sistema AI, dell’interazione umana e degli impatti sistemici.

Mappiamo anche lo stato attuale delle valutazioni di sicurezza e individuiamo tre lacune principali: contesto, rischi specifici e multimodalità. Per contribuire a colmare queste lacune, chiediamo di riprogettare i metodi di valutazione esistenti per i sistemi AI generativi e di implementare un approccio completo alla valutazione, come nel nostro studio di caso sulla disinformazione. Questo approccio integra risultati come la probabilità che il sistema AI fornisca informazioni inesatte dal punto di vista dei fatti con informazioni su come le persone utilizzano tale sistema e in quale contesto. Le valutazioni multilivello possono trarre conclusioni oltre alla capacità del modello e possono indicare se danni – in questo caso, disinformazione – si verificano effettivamente e si diffondono.

Per fare in modo che qualsiasi tecnologia funzioni come previsto, è necessario risolvere le sfide sociali e tecniche. Pertanto, per valutare in modo più accurato la sicurezza dei sistemi AI, è necessario tenere conto di questi diversi livelli di contesto. Qui, ci basiamo su ricerche precedenti che identificano i potenziali rischi dei modelli di linguaggio su larga scala, come perdite di privacy, automazione del lavoro, disinformazione, e altro ancora, e introduciamo un modo per valutare in modo completo questi rischi in futuro.

Il contesto è fondamentale per valutare i rischi dei sistemi AI

Le capacità dei sistemi AI sono un indicatore importante dei tipi di rischi più ampi che possono sorgere. Ad esempio, i sistemi AI che sono più inclini a produrre output inesatti o fuorvianti possono essere più inclini a creare rischi di disinformazione, causando problemi come la mancanza di fiducia del pubblico.

Misurare queste capacità è fondamentale per le valutazioni di sicurezza AI, ma queste valutazioni da sole non possono garantire che i sistemi AI siano sicuri. Se si verificano danni collaterali, ad esempio se le persone adottano false convinzioni basate su output del modello inesatti, dipende dal contesto. Più specificamente, chi utilizza il sistema AI e con quale obiettivo? Il sistema AI funziona come previsto? Crea effetti esterni imprevisti? Tutte queste domande contribuiscono a una valutazione complessiva della sicurezza di un sistema AI.

Andando oltre la valutazione della capacità, proponiamo una valutazione che può valutare altre due situazioni in cui i rischi collaterali si manifestano: l’interazione umana al punto di utilizzo e l’impatto sistemico in quanto un sistema AI viene incorporato in sistemi più ampi e ampiamente implementato. L’integrazione delle valutazioni di un determinato rischio di danno su questi livelli fornisce una valutazione completa della sicurezza di un sistema AI.

‍La valutazione dell’interazione umana si concentra sull’esperienza delle persone che utilizzano un sistema AI. Come usano il sistema AI? Il sistema funziona come previsto al punto di utilizzo e quali sono le differenze di esperienza tra i diversi gruppi demografici? Possiamo osservare effetti collaterali imprevisti dall’uso di questa tecnologia o dall’esposizione ai suoi output?

‍La valutazione dell’impatto sistemico si concentra sulle strutture più ampie in cui un sistema AI viene incorporato, come le istituzioni sociali, i mercati del lavoro e l’ambiente naturale. La valutazione a questo livello può far luce sui rischi di danno che diventano visibili solo una volta che un sistema AI viene adottato su larga scala.

Il nostro framework di valutazione a tre livelli, che include la capacità, l'interazione umana e l'impatto sistemico. Il contesto è essenziale per valutare la sicurezza dei sistemi AI.

Le valutazioni di sicurezza sono una responsabilità condivisa

Gli sviluppatori di AI devono garantire che le loro tecnologie siano sviluppate e rilasciate in modo responsabile. Gli attori pubblici, come i governi, sono incaricati di garantire la sicurezza pubblica. Poiché i sistemi AI generativi vengono sempre più utilizzati e implementati, garantirne la sicurezza è una responsabilità condivisa tra più attori:

  • Gli sviluppatori di intelligenza artificiale sono ben posizionati per interrogare le capacità dei sistemi che producono.
  • Gli sviluppatori di applicazioni e le autorità pubbliche designate sono in grado di valutare la funzionalità di diverse funzioni e applicazioni e le eventuali esternalità per diversi gruppi di utenti.
  • Stakeholder pubblici più ampi sono unici nel posizionamento per prevedere e valutare le implicazioni sociali, economiche e ambientali di nuove tecnologie, come l’intelligenza artificiale generativa.

Le tre fasi di valutazione nel nostro quadro proposto sono una questione di grado, piuttosto che essere chiaramente separate. Sebbene nessuno di essi sia interamente responsabilità di un singolo attore, la responsabilità principale dipende da chi è più adatto a svolgere valutazioni su ciascuna fase.

Distribuzione relativa delle responsabilità per sviluppatori di intelligenza artificiale e altre organizzazioni.

Lacune nelle valutazioni attuali della sicurezza dell’IA generativa multimodale

Data l’importanza di questo contesto aggiuntivo per valutare la sicurezza dei sistemi di intelligenza artificiale, è importante capire la disponibilità di tali test. Per comprendere meglio il panorama generale, abbiamo compiuto uno sforzo esteso per raccogliere valutazioni che sono state applicate ai sistemi di intelligenza artificiale generativa, in modo completo quanto possibile.

Stato della valutazione di sicurezza sociotecnica per i sistemi di intelligenza artificiale generativa per categoria di rischio, 'livello' di valutazione e modalità di output, basato su una revisione ampia.

Mappando lo stato attuale delle valutazioni di sicurezza per l’intelligenza artificiale generativa, abbiamo individuato tre principali lacune nella valutazione di sicurezza:

  1. Contesto: La maggior parte delle valutazioni di sicurezza considera le capacità dei sistemi di intelligenza artificiale generativa in modo isolato. Poco lavoro è stato fatto per valutare i potenziali rischi in termini di interazione umana o impatto sistemico.
  2. Valutazioni specifiche per rischio: Le valutazioni delle capacità dei sistemi di intelligenza artificiale generativa sono limitate nelle aree di rischio che coprono. Per molte aree di rischio, esistono poche valutazioni. Quando esistono, le valutazioni spesso operazionalizzano il danno in modi riduttivi. Ad esempio, i danni alle rappresentazioni sono tipicamente definiti come associazioni stereotipate di professioni a diversi generi, trascurando altri casi di danno e aree di rischio.
  3. Multimodalità: La maggior parte delle valutazioni di sicurezza esistenti per i sistemi di intelligenza artificiale generativa si concentra esclusivamente sull’output testuale: persistono grandi lacune nella valutazione dei rischi di danno nelle modalità immagine, audio o video. Questa lacuna si sta ampliando con l’introduzione di modalità multiple in un singolo modello, come i sistemi di intelligenza artificiale che possono utilizzare immagini come input o produrre output che intersecano audio, testo e video. Sebbene alcune valutazioni basate su testo possano essere applicate ad altre modalità, le nuove modalità introducono nuovi modi in cui i rischi possono manifestarsi. Ad esempio, una descrizione di un animale non è dannosa, ma se la descrizione viene applicata a un’immagine di una persona lo diventa.

Stiamo creando un elenco di collegamenti a pubblicazioni che dettagliano valutazioni di sicurezza di sistemi di intelligenza artificiale generativa accessibili liberamente tramite questo repository. Se desideri contribuire, aggiungi valutazioni compilando questo modulo.

Mettere in pratica valutazioni più comprehensive

I sistemi di intelligenza artificiale generativa stanno alimentando una nuova ondata di applicazioni e innovazioni. Per assicurare che i potenziali rischi derivanti da questi sistemi siano compresi e mitigati, abbiamo bisogno con urgenza di valutazioni rigorose e comprehensive della sicurezza dei sistemi di intelligenza artificiale che tengano conto di come questi sistemi possano essere utilizzati e integrati nella società.

Un primo passo pratico è riutilizzare valutazioni esistenti e sfruttare i grandi modelli stessi per la valutazione, anche se ciò ha limitazioni importanti. Per una valutazione più completa, abbiamo anche bisogno di sviluppare approcci per valutare i sistemi di intelligenza artificiale in termini di interazione umana e dei loro impatti sistemici. Ad esempio, sebbene la diffusione di disinformazione attraverso l’intelligenza artificiale generativa sia un problema recente, dimostriamo che esistono molti metodi esistenti per valutare la fiducia e la credibilità pubblica che potrebbero essere riutilizzati.

Garantire la sicurezza dei sistemi AI generativi ampiamente utilizzati è una responsabilità condivisa e prioritaria. Sviluppatori di AI, attori pubblici e altre parti devono collaborare e costruire collettivamente un ecosistema di valutazione fiorente e robusto per sistemi AI sicuri.

Leggi il nostro articolo su arXiv: https://arxiv.org/abs/2310.11986

Accedi al Repository delle Valutazioni Sociotecnologiche: https://dpmd.ai/46CPd58

Contribuisci al Repository delle Valutazioni Sociotecnologiche: https://docs.google.com/forms/d/e/1FAIpQLSddpgbOQusru0Kvhq7eAXR0yWnBVioE0SUPX-C_RMwclldOrw/viewform?resourcekey=0-aLrlwk9nVVurJPmtncsC2g