Scoprire quando un agente è presente in un sistema

Rilevare presenza di agente in un sistema.

Nuova definizione formale di agenzia fornisce principi chiari per la modellazione causale degli agenti di intelligenza artificiale (AI) e gli incentivi che affrontano

Vogliamo costruire sistemi di intelligenza artificiale generale (AGI) sicuri e allineati che perseguano gli obiettivi voluti dai loro progettisti. I diagrammi di influenza causale (CID) sono un modo per modellare situazioni decisionali che ci permettono di ragionare sugli incentivi degli agenti. Ad esempio, ecco un CID per un processo decisionale di Markov a 1 passo – un framework tipico per problemi decisionali.

S₁ rappresenta lo stato iniziale, A₁ rappresenta la decisione dell'agente (quadrato), S₂ lo stato successivo. R₂ è la ricompensa/utilità dell'agente (diamante). I collegamenti solidi specificano l'influenza causale. I collegamenti tratteggiati specificano i collegamenti informativi - ciò che l'agente sa quando prende la sua decisione.

Relazionando le configurazioni di addestramento agli incentivi che plasmano il comportamento dell’agente, i CID aiutano a individuare potenziali rischi prima di addestrare un agente e possono ispirare migliori progetti di agenti. Ma come sappiamo quando un CID è un modello accurato di una configurazione di addestramento?

Il nostro nuovo articolo, “Scoprire gli agenti”, introduce nuovi modi per affrontare queste questioni, tra cui:

  • La prima definizione causale formale degli agenti: Gli agenti sono sistemi che adatterebbero la loro politica se le loro azioni influenzassero il mondo in modo diverso
  • Un algoritmo per scoprire agenti dai dati empirici
  • Una traduzione tra modelli causali e CID
  • La risoluzione di confusioni precedenti derivanti da una modellazione causale errata degli agenti

Combinate, queste risultati forniscono un ulteriore livello di garanzia che non sia stato commesso un errore di modellazione, il che significa che i CID possono essere utilizzati per analizzare gli incentivi e le proprietà di sicurezza di un agente con maggiore fiducia.

Esempio: modellare un topo come agente

Per illustrare il nostro metodo, consideriamo il seguente esempio composto da un mondo contenente tre quadrati, con un topo che parte dal quadrato centrale e sceglie di andare a sinistra o a destra, raggiungendo la sua posizione successiva e poi potenzialmente ottenendo del formaggio. Il pavimento è scivoloso, quindi il topo potrebbe scivolare. A volte il formaggio è a destra, ma a volte a sinistra.

L'ambiente topo e formaggio.

Ciò può essere rappresentato dal seguente CID:

CID per il topo. D rappresenta la decisione di sinistra/destra. X è la nuova posizione del topo dopo aver preso l'azione sinistra/destra (potrebbe scivolare, finendo accidentalmente dall'altra parte). U rappresenta se il topo ottiene o meno il formaggio.

L’intuizione che il topo sceglierebbe un comportamento diverso in base alle diverse impostazioni dell’ambiente (gelosia, distribuzione del formaggio) può essere catturata da un grafico causale meccanizzato, che per ogni variabile (a livello di oggetto), include anche una variabile meccanismo che governa come la variabile dipende dai suoi genitori. Crucialmente, permettiamo collegamenti tra le variabili di meccanismo.

Questo grafico contiene ulteriori nodi di meccanismo in nero, rappresentando la politica del topo e la gelosia e la distribuzione del formaggio.

Grafico causale meccanizzato per il topo e l'ambiente del formaggio.

Le connessioni tra i meccanismi rappresentano un’influenza causale diretta. I bordi blu sono speciali bordi terminali – approssimativamente, i bordi di meccanismo A~ → B~ che sarebbero ancora lì, anche se la variabile di livello oggetto A fosse modificata in modo che non avesse bordi in uscita.

Nell’esempio sopra, poiché U non ha figli, il suo bordo di meccanismo deve essere terminale. Ma il bordo di meccanismo X~ → D~ non è terminale, perché se tagliamo X dal suo figlio U, il topo non si adatterà più alla sua decisione (perché la sua posizione non influenzerà se ottiene il formaggio o meno).

Scoperta causale degli agenti

La scoperta causale deduce un grafico causale da esperimenti che coinvolgono interventi. In particolare, è possibile scoprire una freccia da una variabile A a una variabile B intervenendo sperimentalmente su A e verificando se B risponde, anche se tutte le altre variabili sono mantenute fisse.

Il nostro primo algoritmo utilizza questa tecnica per scoprire il grafico causale meccanizzato:

L'Algoritmo 1 prende in input dati di intervento dal sistema (topo e ambiente del formaggio) e utilizza la scoperta causale per produrre un grafico causale meccanizzato. Vedere il documento per i dettagli.

Il nostro secondo algoritmo trasforma questo grafico causale meccanizzato in un grafico di gioco:

L'Algoritmo 2 prende in input un grafico causale meccanizzato e lo mappa in un grafico di gioco. Un bordo terminale in entrata indica una decisione, uno in uscita indica un'utilità.

Insieme, l’Algoritmo 1 seguito dall’Algoritmo 2 ci permette di scoprire agenti da esperimenti causali, rappresentandoli utilizzando CIDs.

Il nostro terzo algoritmo trasforma il grafico di gioco in un grafico causale meccanizzato, permettendoci di tradurre tra le rappresentazioni del gioco e del grafico causale meccanizzato in base ad alcune ulteriori ipotesi:

L'Algoritmo 3 prende in input un grafico di gioco e lo mappa in un grafico causale meccanizzato. Una decisione indica un bordo terminale in entrata, un'utilità indica un bordo terminale in uscita.

Migliori strumenti di sicurezza per modellare gli agenti di intelligenza artificiale

Abbiamo proposto la prima definizione causale formale degli agenti. Basata sulla scoperta causale, la nostra intuizione chiave è che gli agenti sono sistemi che adattano il loro comportamento in risposta ai cambiamenti nel modo in cui le loro azioni influenzano il mondo. Infatti, i nostri Algoritmi 1 e 2 descrivono un preciso processo sperimentale che può aiutare a valutare se un sistema contiene un agente.

L’interesse per la modellazione causale dei sistemi di intelligenza artificiale sta crescendo rapidamente e la nostra ricerca basa questo tipo di modellazione su esperimenti di scoperta causale. Il nostro articolo dimostra il potenziale del nostro approccio migliorando l’analisi della sicurezza di diversi esempi di sistemi di intelligenza artificiale e mostra che la causalità è un quadro utile per scoprire se c’è un agente in un sistema, una preoccupazione fondamentale per valutare i rischi derivanti dall’IA generale.

Curioso di saperne di più? Dai un’occhiata al nostro articolo. I feedback e i commenti sono i benvenuti.