Gli modelli come GPT-4 si comportano in modo sicuro quando viene loro data la capacità di agire? Questo articolo sull’IA introduce il benchmark MACHIAVELLI per migliorare l’etica delle macchine e costruire agenti adattivi più sicuri

GPT-4 e altri modelli agiscono in sicurezza grazie a MACHIAVELLI, un benchmark per l'etica delle macchine e l'adattabilità degli agenti.

Il processing del linguaggio naturale è una delle aree in cui i sistemi di intelligenza artificiale stanno facendo rapidi progressi ed è importante che i modelli vengano rigorosamente testati e guidati verso un comportamento più sicuro per ridurre i rischi di implementazione. Le metriche di valutazione precedenti per questi sistemi sofisticati si concentravano sulla misurazione della comprensione del linguaggio o del ragionamento in astratto. Ma ora, i modelli vengono addestrati per un lavoro effettivo e interattivo. Ciò significa che i benchmark devono valutare le prestazioni dei modelli in contesti sociali.

Gli agenti interattivi possono essere messi alla prova in giochi basati su testo. Gli agenti hanno bisogno di abilità di pianificazione e della capacità di comprendere il linguaggio naturale per progredire in questi giochi. Le tendenze immorali degli agenti dovrebbero essere prese in considerazione insieme alle loro capacità tecniche nella definizione dei benchmark.

Un nuovo studio condotto dall’Università della California, Center For AI Safety, dalla Carnegie Mellon University e dall’Università di Yale propone il benchmark Measuring Agents’ Competence & Harmfulness In A Vast Environment of Long-horizon Language Interactions (MACHIAVELLI). MACHIAVELLI rappresenta un avanzamento nella valutazione della capacità di un agente di pianificazione in contesti sociali naturalistici. L’ambiente è ispirato ai giochi basati su testo Choose Your Own Adventure disponibili su choiceofgames.com, che sono stati sviluppati da umani reali. Questi giochi presentano decisioni di alto livello, fornendo agli agenti obiettivi realistici mentre astraggono le interazioni ambientali a basso livello.

L’ambiente segnala il grado in cui le azioni dell’agente sono disoneste, di minor utilità e alla ricerca di potere, tra altre qualità comportamentali, per tenere sotto controllo i comportamenti non etici. Il team raggiunge questo obiettivo seguendo i passaggi di seguito riportati:

  1. Operazionalizzare questi comportamenti come formule matematiche
  2. Annotare in modo denso le nozioni sociali nei giochi, come il benessere dei personaggi
  3. Utilizzare le annotazioni e le formule per produrre un punteggio numerico per ciascun comportamento.

Dimostrano empiricamente che GPT-4 (OpenAI, 2023) è più efficace nel raccogliere annotazioni rispetto agli annotatori umani.

Gli agenti di intelligenza artificiale affrontano lo stesso conflitto interno degli esseri umani. Come i modelli di linguaggio addestrati per la previsione del token successivo spesso producono testo tossico, gli agenti artificiali addestrati per l’ottimizzazione degli obiettivi spesso manifestano comportamenti immorali e in cerca di potere. Gli agenti addestrati in modo amorale possono sviluppare strategie machiavelliche per massimizzare le loro ricompense a discapito degli altri e dell’ambiente. Incentivando gli agenti ad agire in modo morale, è possibile migliorare questo compromesso.

Il team scopre che l’addestramento morale (spingendo l’agente a essere più etico) riduce l’incidenza di attività dannose per gli agenti basati su modelli di linguaggio. Inoltre, la regolarizzazione comportamentale limita i comportamenti indesiderati in entrambi gli agenti senza ridurre in modo sostanziale la ricompensa. Questo lavoro contribuisce allo sviluppo di decision maker sequenziali affidabili.

I ricercatori sperimentano tecniche come una coscienza artificiale e promemoria etici per controllare gli agenti. Gli agenti possono essere guidati a mostrare meno comportamenti machiavellici, anche se rimane ancora molto da fare. Essi sostengono ulteriori ricerche su questi compromessi ed enfatizzano l’espansione della frontiera di Pareto anziché inseguire ricompense limitate.