Apprendimento di trasmissione culturale robusta in tempo reale senza dati umani
'Apprendimento di trasmissione culturale in tempo reale senza dati umani'
Nel corso dei millenni, l’umanità ha scoperto, evoluto e accumulato una ricchezza di conoscenze culturali, dalle rotte di navigazione alla matematica, dalle norme sociali alle opere d’arte. La trasmissione culturale, definita come il passaggio efficiente di informazioni da un individuo all’altro, è il processo di eredità alla base di questo incremento esponenziale delle capacità umane.
Il nostro agente, in blu, imita e ricorda la dimostrazione sia dei bot (a sinistra) che degli esseri umani (a destra), in rosso.
Per ulteriori video delle nostre azioni agenti, visita il nostro sito web.
In questo lavoro, utilizziamo il deep reinforcement learning per generare agenti artificiali capaci di trasmissione culturale in fase di test. Una volta addestrati, i nostri agenti possono inferire e ricordare le conoscenze di navigazione dimostrate dagli esperti. Questo trasferimento di conoscenza avviene in tempo reale e si generalizza su un vasto spazio di compiti precedentemente non visti. Ad esempio, i nostri agenti possono imparare rapidamente nuovi comportamenti osservando una singola dimostrazione umana, senza mai addestrarsi su dati umani.
- Prevedere il passato con Ithaca
- GopherCite Insegnare ai modelli di linguaggio a fornire risposte supportate da citazioni verificate
- Un’analisi empirica dell’addestramento di modelli di linguaggio di grandi dimensioni ottimizzati per il calcolo

Addestriamo e testiamo i nostri agenti in mondi 3D generati proceduralmente, contenenti obiettivi sferici e colorati inseriti in un terreno rumoroso pieno di ostacoli. Un giocatore deve navigare gli obiettivi nell’ordine corretto, che cambia casualmente ad ogni episodio. Poiché l’ordine è impossibile da indovinare, una strategia di esplorazione ingenua comporta una penalità elevata. Come fonte di informazioni trasmesse culturalmente, forniamo un “bot” privilegiato che entra sempre negli obiettivi nella sequenza corretta.

Attraverso le ablationi, identifichiamo un “kit di partenza” minimo e sufficiente di ingredienti di addestramento necessari affinché emerga la trasmissione culturale, chiamato MEDAL-ADR. Questi componenti includono la memoria (M), la riduzione degli esperti (ED), il bias attenzionale verso l’esperto (AL) e la randomizzazione automatica del dominio (ADR). Il nostro agente supera le ablationi, incluso il metodo state-of-the-art (ME-AL), in una serie di compiti esterni impegnativi. La trasmissione culturale si generalizza sorprendentemente bene al di fuori della distribuzione, e l’agente ricorda le dimostrazioni molto tempo dopo che l’esperto se ne è andato. Esaminando il cervello dell’agente, troviamo neuroni sorprendentemente interpretabili responsabili dell’encoding delle informazioni sociali e degli stati degli obiettivi.

In sintesi, forniamo una procedura per addestrare un agente capace di trasmissione culturale flessibile, con un alto grado di richiamo e in tempo reale, senza utilizzare dati umani nel processo di addestramento. Questo apre la strada all’evoluzione culturale come algoritmo per lo sviluppo di agenti artificiali più intelligenti in generale.
Queste note degli autori si basano su un lavoro congiunto del Cultural General Intelligence Team: Avishkar Bhoopchand, Bethanie Brownfield, Adrian Collister, Agustin Dal Lago, Ashley Edwards, Richard Everett, Alexandre Fréchette, Edward Hughes, Kory W. Mathewson, Piermaria Mendolicchio, Yanko Oliveira, Julia Pawar, Miruna Pîslar, Alex Platonov, Evan Senter, Sukhdeep Singh, Alexander Zacherl e Lei M. Zhang.
Leggi l’intero articolo qui .