Imitando l’intelligenza interattiva

'Mimicking interactive intelligence'

Bisogna rispondere a due domande all’inizio di ogni ricerca sull’intelligenza artificiale. Cosa vogliamo che facciano i sistemi di intelligenza artificiale? E come valuteremo se stiamo facendo progressi verso questo obiettivo? Alan Turing, nel suo fondamentale articolo che descrive il Test di Turing, che modestamente chiamò il “gioco dell’imitazione”, argomentò che per un certo tipo di intelligenza artificiale, queste domande possono essere una e la stessa cosa. In sostanza, se il comportamento di un’intelligenza artificiale assomiglia a un’intelligenza simile a quella umana quando una persona interagisce con essa, allora l’intelligenza artificiale ha superato il test e può essere chiamata intelligente. Un’intelligenza artificiale progettata per interagire con gli esseri umani dovrebbe essere testata tramite interazione con gli esseri umani.

Allo stesso tempo, l’interazione non è solo un test di intelligenza, ma anche il punto focale. Perché gli agenti di intelligenza artificiale siano generalmente utili, dovrebbero aiutarci in diverse attività e comunicare con noi in modo naturale. Nella fantascienza, la visione di robot con cui possiamo parlare è comune. E agenti digitali intelligenti in grado di aiutare a svolgere un gran numero di compiti sarebbero estremamente utili. Per realizzare questi dispositivi, dobbiamo quindi studiare il problema di come creare agenti capaci di interagire con gli esseri umani e produrre azioni in un mondo complesso.

Creare agenti in grado di interagire con gli esseri umani e con il mondo presenta una serie di importanti sfide. Come possiamo fornire segnali di apprendimento adeguati per insegnare a tali agenti queste abilità? Come possiamo valutare le prestazioni degli agenti che sviluppiamo, quando il linguaggio stesso è ambiguo e astratto? Come la galleria del vento è per la progettazione dell’aeroplano, abbiamo creato un ambiente virtuale per studiare come creare agenti che interagiscono tra loro.

Prima creiamo un ambiente simulato, la Playroom, in cui i robot virtuali possono impegnarsi in una varietà di interazioni interessanti, muovendosi, manipolando oggetti e parlando tra loro. Le dimensioni della Playroom possono essere casuali, così come la disposizione di scaffali, mobili, punti di riferimento come finestre e porte, e una serie di giocattoli per bambini e oggetti domestici. La diversità dell’ambiente consente interazioni che coinvolgono il ragionamento sullo spazio e le relazioni tra gli oggetti, l’ambiguità dei riferimenti, il contenimento, la costruzione, il supporto, l’occlusione, la parziale osservabilità. Abbiamo incorporato due agenti nella Playroom per fornire una dimensione sociale allo studio dell’intenzionalità condivisa, della cooperazione, della comunicazione delle conoscenze private, e così via.

Agenti che interagiscono nella Playroom. L'agente blu istruisce l'agente giallo a “Mettere l'elicottero nella scatola.”
La configurazione della Playroom è casualizzata per creare diversità nella raccolta dei dati.

Sfruttiamo una serie di paradigmi di apprendimento per creare agenti in grado di interagire con gli esseri umani, inclusi l’apprendimento per imitazione, l’apprendimento per rinforzo, l’apprendimento supervisionato e non supervisionato. Come Turing avrebbe potuto anticipare con il nome “gioco dell’imitazione”, il percorso più diretto per creare agenti in grado di interagire con gli esseri umani è forse l’imitazione del comportamento umano. Grandi set di dati sul comportamento umano insieme ad algoritmi per l’apprendimento per imitazione da tali dati sono stati fondamentali per creare agenti in grado di interagire con il linguaggio testuale o giocare a giochi. Per interazioni linguistiche basate sulla realtà, non disponiamo di una fonte di dati pronta e preesistente sul comportamento, quindi abbiamo creato un sistema per elicitarle dai partecipanti umani che interagiscono tra loro. Queste interazioni sono state principalmente elicitate sollecitando uno dei giocatori con una richiesta di improvvisare un’istruzione su, ad esempio, “Chiedi all’altro giocatore di posizionare qualcosa rispetto a qualcos’altro”. Alcune delle richieste di interazione coinvolgono anche domande, oltre alle istruzioni, come “Chiedi all’altro giocatore di descrivere dove si trova qualcosa”. In totale, abbiamo raccolto più di un anno di interazioni umane in tempo reale in questo contesto.

I nostri agenti ricevono immagini e linguaggio come input e producono azioni fisiche e azioni linguistiche come output. Abbiamo costruito modelli di ricompensa con le stesse specifiche di input.
A sinistra: Nel corso di una interazione di 2 minuti, i due giocatori (setter e solver) si muovono, guardano intorno, afferrano e lasciano cadere oggetti e parlano. A destra: Al setter viene chiesto di “Chiedere all'altro giocatore di sollevare qualcosa.” Il setter istruisce l'agente solver a “Sollevare l'aereo che si trova di fronte al tavolo da pranzo”. L'agente solver trova l'oggetto corretto e completa il compito.

L’apprendimento per imitazione, l’apprendimento per rinforzo e l’apprendimento ausiliario (composto da apprendimento supervisionato e non supervisionato della rappresentazione) sono integrati in una forma di auto-gioco interattivo che è cruciale per creare i nostri migliori agenti. Tali agenti possono seguire comandi e rispondere a domande. Chiamiamo questi agenti “risolutori”. Ma i nostri agenti possono anche fornire comandi e fare domande. Chiamiamo questi agenti “impostatori”. Gli impostatori pongono problemi in modo interattivo ai risolutori per produrre risolutori migliori. Tuttavia, una volta addestrati, gli esseri umani possono svolgere il ruolo di impostatori e interagire con gli agenti risolutori.

Dalle dimostrazioni umane addestriamo le politiche utilizzando una combinazione di apprendimento supervisionato (clonazione comportamentale), RL inversa per inferire modelli di ricompensa e RL diretta per ottimizzare le politiche utilizzando il modello di ricompensa inferito. Utilizziamo compiti ausiliari semi-supervisionati per aiutare a modellare le rappresentazioni sia della politica che dei modelli di ricompensa.
L'agente impostatore chiede all'agente risolutore di “Prendi il robot bianco e mettilo sul letto”. L'agente risolutore trova il robot e completa il compito. La funzione di ricompensa appresa dalle dimostrazioni cattura gli aspetti chiave del compito (blu) e fornisce una ricompensa inferiore (grigia) quando le stesse osservazioni sono accoppiate con l'istruzione controfattuale “Prendi il robot rosso e mettilo sul letto”.

Le nostre interazioni non possono essere valutate allo stesso modo in cui la maggior parte dei problemi di apprendimento per rinforzo semplici possono essere valutati. Ad esempio, non esiste una nozione di vincere o perdere. Infatti, comunicare con il linguaggio mentre si condivide un ambiente fisico introduce un numero sorprendente di concetti astratti e ambigui. Ad esempio, se un impostatore chiede a un risolutore di mettere qualcosa vicino a qualcos’altro, cosa significa esattamente “vicino”? Ma la valutazione accurata dei modelli addestrati in contesti standardizzati è un elemento centrale dell’apprendimento automatico e dell’intelligenza artificiale moderne. Per far fronte a questa situazione, abbiamo sviluppato una varietà di metodi di valutazione per aiutare a diagnosticare i problemi e valutare gli agenti, compreso semplicemente far interagire gli agenti con gli esseri umani in grandi prove.

Gli esseri umani hanno valutato le prestazioni di agenti e altri esseri umani nell'esecuzione di istruzioni nella Playroom sia per compiti di seguire le istruzioni che per rispondere alle domande. Gli agenti inizializzati casualmente hanno avuto successo ~0% delle volte. Un agente addestrato solo con la clonazione comportamentale supervisionata (B) ha ottenuto risultati leggermente migliori, con una percentuale di successo di ~10-20%. Gli agenti addestrati con compiti ausiliari semi-supervisionati (B·A) hanno ottenuto risultati migliori. Quelli addestrati con apprendimento supervisionato, semi-supervisionato e per rinforzo utilizzando l'auto-gioco interattivo sono stati giudicati i migliori (BG·A & BGR·A).

Un vantaggio distintivo del nostro contesto è che gli operatori umani possono impostare un insieme virtualmente infinito di nuovi compiti tramite il linguaggio e comprendere rapidamente le competenze dei nostri agenti. Ci sono molti compiti che non possono gestire, ma il nostro approccio alla costruzione di IA offre un percorso chiaro per migliorare un’ampia gamma di competenze. I nostri metodi sono generali e possono essere applicati ovunque abbiamo bisogno di agenti che interagiscono con ambienti complessi e persone.