Melting Pot una suite di valutazione per l’apprendimento di rinforzo multi-agente

Melting Pot è una suite di valutazione per il Reinforcement Learning multi-agente.

La tecnologia impiegata nel mondo reale inevitabilmente affronta sfide impreviste. Queste sfide sorgono perché l’ambiente in cui la tecnologia è stata sviluppata differisce dall’ambiente in cui sarà implementata. Quando una tecnologia viene trasferita con successo diciamo che si generalizza. In un sistema multi-agente, come la tecnologia dei veicoli autonomi, ci sono due possibili fonti di difficoltà di generalizzazione: (1) variazione dell’ambiente fisico come cambiamenti meteorologici o di illuminazione, e (2) variazione dell’ambiente sociale: cambiamenti nel comportamento di altri individui che interagiscono. Gestire la variazione dell’ambiente sociale è almeno altrettanto importante quanto gestire la variazione dell’ambiente fisico, tuttavia è stata molto meno studiata.

Come esempio di un ambiente sociale, considera come le auto a guida autonoma interagiscono sulla strada con altre auto. Ogni auto ha l’incoraggiamento a trasportare il proprio passeggero il più velocemente possibile. Tuttavia, questa competizione può portare a una scarsa coordinazione (congestione stradale) che influisce negativamente su tutti. Se le auto lavorano in modo cooperativo, più passeggeri potrebbero raggiungere la loro destinazione più velocemente. Questo conflitto è chiamato dilemma sociale.

Tuttavia, non tutte le interazioni sono dilemmi sociali. Ad esempio, ci sono interazioni sinergiche nel software open-source, ci sono interazioni a somma zero nello sport e i problemi di coordinamento sono al centro delle catene di approvvigionamento. Navigare in ognuna di queste situazioni richiede un approccio molto diverso.

L’apprendimento per rinforzo multi-agente fornisce strumenti che ci permettono di esplorare come gli agenti artificiali possono interagire tra loro e con individui sconosciuti (come gli utenti umani). Questa classe di algoritmi si prevede che si comporti meglio quando viene testata per le sue abilità di generalizzazione sociale rispetto ad altri. Tuttavia, finora non c’è stato un benchmark di valutazione sistematica per valutare questo.

Blu: popolazioni focali di agenti addestrati, Rosso: popolazione di sfondo di bot pre-addestrati

Qui introduciamo Melting Pot, una suite di valutazione scalabile per l’apprendimento multi-agente per rinforzo. Melting Pot valuta la generalizzazione a nuove situazioni sociali coinvolgenti individui sia familiari che sconosciuti, ed è stata progettata per testare una vasta gamma di interazioni sociali come: cooperazione, competizione, inganno, reciprocità, fiducia, ostinazione e così via. Melting Pot offre ai ricercatori un insieme di 21 “substrati” MARL (giochi multi-agente) su cui addestrare gli agenti e oltre 85 scenari di test unici su cui valutare questi agenti addestrati. Le prestazioni degli agenti su questi scenari di test sono un indicatore di quanto gli agenti:

  • Si comportino bene in una serie di situazioni sociali in cui gli individui sono interdipendenti,
  • Interagiscano in modo efficace con individui sconosciuti non visti durante l’addestramento,
  • Superino un test di universalizzazione: rispondere positivamente alla domanda “cosa succederebbe se tutti si comportassero così?”

Il punteggio risultante può quindi essere utilizzato per classificare diversi algoritmi di apprendimento multi-agente per rinforzo in base alla loro capacità di generalizzare a nuove situazioni sociali.

Speriamo che Melting Pot diventi un benchmark standard per l’apprendimento multi-agente per rinforzo. Abbiamo intenzione di mantenerlo e di ampliarlo nei prossimi anni per coprire ulteriori interazioni sociali e scenari di generalizzazione.

Per saperne di più, visita la nostra pagina GitHub.