Imitando l’intelligenza interattiva
'Mimicking interactive intelligence'
Bisogna rispondere a due domande all’inizio di ogni ricerca sull’intelligenza artificiale. Cosa vogliamo che facciano i sistemi di intelligenza artificiale? E come valuteremo se stiamo facendo progressi verso questo obiettivo? Alan Turing, nel suo fondamentale articolo che descrive il Test di Turing, che modestamente chiamò il “gioco dell’imitazione”, argomentò che per un certo tipo di intelligenza artificiale, queste domande possono essere una e la stessa cosa. In sostanza, se il comportamento di un’intelligenza artificiale assomiglia a un’intelligenza simile a quella umana quando una persona interagisce con essa, allora l’intelligenza artificiale ha superato il test e può essere chiamata intelligente. Un’intelligenza artificiale progettata per interagire con gli esseri umani dovrebbe essere testata tramite interazione con gli esseri umani.
Allo stesso tempo, l’interazione non è solo un test di intelligenza, ma anche il punto focale. Perché gli agenti di intelligenza artificiale siano generalmente utili, dovrebbero aiutarci in diverse attività e comunicare con noi in modo naturale. Nella fantascienza, la visione di robot con cui possiamo parlare è comune. E agenti digitali intelligenti in grado di aiutare a svolgere un gran numero di compiti sarebbero estremamente utili. Per realizzare questi dispositivi, dobbiamo quindi studiare il problema di come creare agenti capaci di interagire con gli esseri umani e produrre azioni in un mondo complesso.
Creare agenti in grado di interagire con gli esseri umani e con il mondo presenta una serie di importanti sfide. Come possiamo fornire segnali di apprendimento adeguati per insegnare a tali agenti queste abilità? Come possiamo valutare le prestazioni degli agenti che sviluppiamo, quando il linguaggio stesso è ambiguo e astratto? Come la galleria del vento è per la progettazione dell’aeroplano, abbiamo creato un ambiente virtuale per studiare come creare agenti che interagiscono tra loro.
Prima creiamo un ambiente simulato, la Playroom, in cui i robot virtuali possono impegnarsi in una varietà di interazioni interessanti, muovendosi, manipolando oggetti e parlando tra loro. Le dimensioni della Playroom possono essere casuali, così come la disposizione di scaffali, mobili, punti di riferimento come finestre e porte, e una serie di giocattoli per bambini e oggetti domestici. La diversità dell’ambiente consente interazioni che coinvolgono il ragionamento sullo spazio e le relazioni tra gli oggetti, l’ambiguità dei riferimenti, il contenimento, la costruzione, il supporto, l’occlusione, la parziale osservabilità. Abbiamo incorporato due agenti nella Playroom per fornire una dimensione sociale allo studio dell’intenzionalità condivisa, della cooperazione, della comunicazione delle conoscenze private, e così via.
- MuZero Padronanza di Go, scacchi, shogi e Atari senza regole
- Dati, Architettura o Perdite Cosa Contribuisce di Più al Successo del Transformer Multimodale?
- Teoria dei giochi come motore per l’analisi di dati su larga scala


Sfruttiamo una serie di paradigmi di apprendimento per creare agenti in grado di interagire con gli esseri umani, inclusi l’apprendimento per imitazione, l’apprendimento per rinforzo, l’apprendimento supervisionato e non supervisionato. Come Turing avrebbe potuto anticipare con il nome “gioco dell’imitazione”, il percorso più diretto per creare agenti in grado di interagire con gli esseri umani è forse l’imitazione del comportamento umano. Grandi set di dati sul comportamento umano insieme ad algoritmi per l’apprendimento per imitazione da tali dati sono stati fondamentali per creare agenti in grado di interagire con il linguaggio testuale o giocare a giochi. Per interazioni linguistiche basate sulla realtà, non disponiamo di una fonte di dati pronta e preesistente sul comportamento, quindi abbiamo creato un sistema per elicitarle dai partecipanti umani che interagiscono tra loro. Queste interazioni sono state principalmente elicitate sollecitando uno dei giocatori con una richiesta di improvvisare un’istruzione su, ad esempio, “Chiedi all’altro giocatore di posizionare qualcosa rispetto a qualcos’altro”. Alcune delle richieste di interazione coinvolgono anche domande, oltre alle istruzioni, come “Chiedi all’altro giocatore di descrivere dove si trova qualcosa”. In totale, abbiamo raccolto più di un anno di interazioni umane in tempo reale in questo contesto.


L’apprendimento per imitazione, l’apprendimento per rinforzo e l’apprendimento ausiliario (composto da apprendimento supervisionato e non supervisionato della rappresentazione) sono integrati in una forma di auto-gioco interattivo che è cruciale per creare i nostri migliori agenti. Tali agenti possono seguire comandi e rispondere a domande. Chiamiamo questi agenti “risolutori”. Ma i nostri agenti possono anche fornire comandi e fare domande. Chiamiamo questi agenti “impostatori”. Gli impostatori pongono problemi in modo interattivo ai risolutori per produrre risolutori migliori. Tuttavia, una volta addestrati, gli esseri umani possono svolgere il ruolo di impostatori e interagire con gli agenti risolutori.


Le nostre interazioni non possono essere valutate allo stesso modo in cui la maggior parte dei problemi di apprendimento per rinforzo semplici possono essere valutati. Ad esempio, non esiste una nozione di vincere o perdere. Infatti, comunicare con il linguaggio mentre si condivide un ambiente fisico introduce un numero sorprendente di concetti astratti e ambigui. Ad esempio, se un impostatore chiede a un risolutore di mettere qualcosa vicino a qualcos’altro, cosa significa esattamente “vicino”? Ma la valutazione accurata dei modelli addestrati in contesti standardizzati è un elemento centrale dell’apprendimento automatico e dell’intelligenza artificiale moderne. Per far fronte a questa situazione, abbiamo sviluppato una varietà di metodi di valutazione per aiutare a diagnosticare i problemi e valutare gli agenti, compreso semplicemente far interagire gli agenti con gli esseri umani in grandi prove.

Un vantaggio distintivo del nostro contesto è che gli operatori umani possono impostare un insieme virtualmente infinito di nuovi compiti tramite il linguaggio e comprendere rapidamente le competenze dei nostri agenti. Ci sono molti compiti che non possono gestire, ma il nostro approccio alla costruzione di IA offre un percorso chiaro per migliorare un’ampia gamma di competenze. I nostri metodi sono generali e possono essere applicati ovunque abbiamo bisogno di agenti che interagiscono con ambienti complessi e persone.