Apprendimento di trasmissione culturale robusta in tempo reale senza dati umani

'Apprendimento di trasmissione culturale in tempo reale senza dati umani'

Nel corso dei millenni, l’umanità ha scoperto, evoluto e accumulato una ricchezza di conoscenze culturali, dalle rotte di navigazione alla matematica, dalle norme sociali alle opere d’arte. La trasmissione culturale, definita come il passaggio efficiente di informazioni da un individuo all’altro, è il processo di eredità alla base di questo incremento esponenziale delle capacità umane.

Il nostro agente, in blu, imita e ricorda la dimostrazione sia dei bot (a sinistra) che degli esseri umani (a destra), in rosso.

Per ulteriori video delle nostre azioni agenti, visita il nostro sito web.

In questo lavoro, utilizziamo il deep reinforcement learning per generare agenti artificiali capaci di trasmissione culturale in fase di test. Una volta addestrati, i nostri agenti possono inferire e ricordare le conoscenze di navigazione dimostrate dagli esperti. Questo trasferimento di conoscenza avviene in tempo reale e si generalizza su un vasto spazio di compiti precedentemente non visti. Ad esempio, i nostri agenti possono imparare rapidamente nuovi comportamenti osservando una singola dimostrazione umana, senza mai addestrarsi su dati umani.

Un riassunto del nostro ambiente di apprendimento per rinforzo. I compiti sono rappresentativi della navigazione per una vasta classe di abilità umane, che richiedono sequenze particolari di decisioni strategiche, come cucinare, orientarsi e risolvere problemi.

Addestriamo e testiamo i nostri agenti in mondi 3D generati proceduralmente, contenenti obiettivi sferici e colorati inseriti in un terreno rumoroso pieno di ostacoli. Un giocatore deve navigare gli obiettivi nell’ordine corretto, che cambia casualmente ad ogni episodio. Poiché l’ordine è impossibile da indovinare, una strategia di esplorazione ingenua comporta una penalità elevata. Come fonte di informazioni trasmesse culturalmente, forniamo un “bot” privilegiato che entra sempre negli obiettivi nella sequenza corretta.

Il nostro agente MEDAL(-ADR) supera le ablationi nei compiti esterni, in mondi senza ostacoli (alto) e con ostacoli (basso).

Attraverso le ablationi, identifichiamo un “kit di partenza” minimo e sufficiente di ingredienti di addestramento necessari affinché emerga la trasmissione culturale, chiamato MEDAL-ADR. Questi componenti includono la memoria (M), la riduzione degli esperti (ED), il bias attenzionale verso l’esperto (AL) e la randomizzazione automatica del dominio (ADR). Il nostro agente supera le ablationi, incluso il metodo state-of-the-art (ME-AL), in una serie di compiti esterni impegnativi. La trasmissione culturale si generalizza sorprendentemente bene al di fuori della distribuzione, e l’agente ricorda le dimostrazioni molto tempo dopo che l’esperto se ne è andato. Esaminando il cervello dell’agente, troviamo neuroni sorprendentemente interpretabili responsabili dell’encoding delle informazioni sociali e degli stati degli obiettivi.

Il nostro agente si generalizza al di fuori della distribuzione di addestramento (alto) e possiede singoli neuroni che codificano informazioni sociali (basso).

In sintesi, forniamo una procedura per addestrare un agente capace di trasmissione culturale flessibile, con un alto grado di richiamo e in tempo reale, senza utilizzare dati umani nel processo di addestramento. Questo apre la strada all’evoluzione culturale come algoritmo per lo sviluppo di agenti artificiali più intelligenti in generale.

Queste note degli autori si basano su un lavoro congiunto del Cultural General Intelligence Team: Avishkar Bhoopchand, Bethanie Brownfield, Adrian Collister, Agustin Dal Lago, Ashley Edwards, Richard Everett, Alexandre Fréchette, Edward Hughes, Kory W. Mathewson, Piermaria Mendolicchio, Yanko Oliveira, Julia Pawar, Miruna Pîslar, Alex Platonov, Evan Senter, Sukhdeep Singh, Alexander Zacherl e Lei M. Zhang.

‍

Leggi l’intero articolo qui .

Technical blog

Apprendimento di trasmissione culturale robusta in tempo reale senza dati umani

'Apprendimento di trasmissione culturale in tempo reale senza dati umani'

Prevedere il passato con Ithaca

Esplorazione dei Trasformatori Immagine-Linguaggio per la Comprensione dei Verbi

Ultimi studi di DeepMind all’ICLR 2022

Quando la passione per il basso e i fiati a...

Affrontare più compiti con un singolo model...

Scoprire quando un agente è presente in un ...

Selezione attiva della politica offline

Un agente generalista

AI