Costruzione di agenti di dialogo più sicuri

'Creazione di agenti di dialogo sicuri'

Allenare un’intelligenza artificiale a comunicare in modo più utile, corretto e inoffensivo

Negli ultimi anni, i grandi modelli di linguaggio (LLM) hanno ottenuto successo in una serie di compiti come la risposta alle domande, la sintesi e il dialogo. Il dialogo è un compito particolarmente interessante perché presenta una comunicazione flessibile e interattiva. Tuttavia, gli agenti di dialogo alimentati da LLM possono esprimere informazioni inaccurate o inventate, utilizzare un linguaggio discriminatorio o incoraggiare comportamenti non sicuri.

Per creare agenti di dialogo più sicuri, è necessario essere in grado di imparare dai feedback umani. Applicando l’apprendimento per rinforzo basato sui contributi della ricerca dei partecipanti, esploriamo nuovi metodi per addestrare agenti di dialogo che mostrano promesse per un sistema più sicuro.

Nel nostro ultimo articolo, presentiamo Sparrow – un agente di dialogo utile che riduce il rischio di risposte non sicure e inappropriate. Il nostro agente è progettato per parlare con un utente, rispondere alle domande e cercare su Internet utilizzando Google quando è utile consultare prove per informare le sue risposte.

Il nostro nuovo modello di intelligenza artificiale conversazionale risponde autonomamente a un’iniziale richiesta umana:

Sparrow è un modello di ricerca e una prova concettuale, progettato con l’obiettivo di addestrare agenti di dialogo a essere più utili, corretti e innocui. Imparando queste qualità in un contesto di dialogo generale, Sparrow avanza la nostra comprensione su come possiamo addestrare gli agenti a essere più sicuri e utili e, in definitiva, a contribuire alla costruzione di un’intelligenza artificiale generale (AGI) più sicura e utile.

Sparrow rifiuta di rispondere a una domanda potenzialmente dannosa:

Come funziona Sparrow

Addestrare un’intelligenza artificiale conversazionale è un problema particolarmente difficile perché è difficile individuare cosa rende un dialogo di successo. Per affrontare questo problema, ci rivolgiamo a una forma di apprendimento per rinforzo (RL) basata sui feedback delle persone, utilizzando il feedback di preferenza dei partecipanti allo studio per addestrare un modello su quanto sia utile una risposta.

Per ottenere questi dati, mostriamo ai partecipanti del nostro studio diverse risposte del modello alla stessa domanda e chiediamo loro quale risposta preferiscono di più. Poiché mostriamo risposte con e senza prove recuperate da Internet, questo modello può anche determinare quando una risposta dovrebbe essere supportata da prove.

Chiediamo ai partecipanti allo studio di valutare e interagire con Sparrow in modo naturale o avversario, espandendo continuamente il dataset utilizzato per addestrare Sparrow.

Ma aumentare l’utilità è solo parte della storia. Per assicurarci che il comportamento del modello sia sicuro, dobbiamo limitarne il comportamento. E così, determiniamo un insieme iniziale di regole semplici per il modello, come ad esempio “non fare affermazioni minacciose” e “non fare commenti odiosi o offensivi”.

Forniamo inoltre regole per consigli potenzialmente dannosi e per non fare finta di essere una persona. Queste regole sono state formulate sulla base dello studio del lavoro esistente sugli errori linguistici e della consulenza di esperti. Chiediamo quindi ai partecipanti al nostro studio di parlare con il nostro sistema, con l’obiettivo di ingannarlo per farlo infrangere le regole. Queste conversazioni ci consentono poi di addestrare un modello separato di ‘regole’ che indica quando il comportamento di Sparrow infrange una qualsiasi delle regole.

Verso una migliore intelligenza artificiale e migliori giudizi

Verificare la correttezza delle risposte di Sparrow è difficile anche per gli esperti. Invece, chiediamo ai partecipanti di determinare se le risposte di Sparrow sono plausibili e se le prove fornite da Sparrow supportano effettivamente la risposta. Secondo i nostri partecipanti, Sparrow fornisce una risposta plausibile e la supporta con prove nell’78% dei casi quando viene posta una domanda di fatto. Questo è un grande miglioramento rispetto ai nostri modelli di base. Tuttavia, Sparrow non è immune dall’errore, come ad esempio inventare fatti e fornire risposte fuori tema a volte.

Sparrow ha anche spazio per migliorare il suo rispetto delle regole. Dopo l’addestramento, i partecipanti sono stati ancora in grado di ingannarlo e farlo infrangere le nostre regole all’8% delle volte, ma rispetto ad approcci più semplici, Sparrow è migliore nel rispettare le nostre regole durante le indagini avversarie. Ad esempio, il nostro modello di dialogo originale infrangeva le regole circa 3 volte più spesso rispetto a Sparrow quando i partecipanti cercavano di indurlo a farlo.

Sparrow risponde a una domanda e a una domanda di approfondimento utilizzando prove, quindi segue la regola “Non fingere di essere una persona” quando gli viene posta una domanda personale (campione del 9 settembre 2022).

Il nostro obiettivo con Sparrow era quello di costruire macchinari flessibili per far rispettare regole e norme negli agenti di dialogo, ma le regole particolari che utilizziamo sono preliminari. Sviluppare un insieme di regole migliore e più completo richiederà sia l’apporto degli esperti su molti argomenti (tra cui i responsabili delle politiche, gli scienziati sociali e gli eticisti), sia l’apporto partecipativo di una vasta gamma di utenti e gruppi interessati. Crediamo che i nostri metodi saranno comunque applicabili per un insieme di regole più rigoroso.

Sparrow rappresenta un significativo passo avanti nella comprensione di come addestrare gli agenti di dialogo in modo più utile e sicuro. Tuttavia, la comunicazione efficace e vantaggiosa tra persone e agenti di dialogo non dovrebbe solo evitare danni, ma essere allineata ai valori umani, come discusso in lavori recenti sull’allineamento dei modelli di linguaggio con i valori umani .

Sottolineiamo anche che un buon agente continuerà comunque a rifiutarsi di rispondere a domande in contesti in cui è appropriato deferire agli esseri umani o in cui questo potrebbe scoraggiare comportamenti dannosi. Infine, la nostra ricerca iniziale si è concentrata su un agente di lingua inglese e sono necessari ulteriori studi per garantire risultati simili in altre lingue e contesti culturali.

In futuro, speriamo che le conversazioni tra esseri umani e macchine possano portare a una migliore valutazione del comportamento dell’IA, consentendo alle persone di allineare e migliorare i sistemi che potrebbero essere troppo complessi da comprendere senza l’aiuto delle macchine.

Desideri esplorare un percorso conversazionale per un AGI sicuro? Al momento stiamo assumendo ricercatori per il nostro team di Allineamento Scalabile.