Un agente generalista

An all-purpose agent.

:

Ispirato dai progressi nella modellazione del linguaggio su larga scala, applichiamo un approccio simile per costruire un singolo agente generalista al di là del mondo degli output testuali. L’agente, che chiamiamo Gato, funziona come una politica generalista multimodale, multitask e multi-incarnazione. Lo stesso network con gli stessi pesi può giocare a Atari, descrivere immagini, chattare, impilare blocchi con un braccio robotico reale e molto altro, decidendo in base al contesto se produrre testo, coppie di torsione, pressioni sui pulsanti o altri token.

Durante la fase di addestramento di Gato, i dati provenienti da diverse attività e modalità vengono serializzati in una sequenza piatta di token, raggruppati e processati da una rete neurale trasformatore simile a un grande modello di linguaggio. La perdita è mascherata in modo che Gato preveda solo gli obiettivi di azione e testo.

Quando si utilizza Gato, un prompt, come una dimostrazione, viene tokenizzato, formando la sequenza iniziale. Successivamente, l’ambiente produce la prima osservazione, che viene anch’essa tokenizzata e aggiunta alla sequenza. Gato campiona il vettore di azione in modo autoregressivo, un token alla volta.

Una volta campionati tutti i token che compongono il vettore di azione (determinato dalla specifica di azione dell’ambiente), l’azione viene decodificata e inviata all’ambiente che esegue un passo e restituisce una nuova osservazione. Quindi la procedura si ripete. Il modello vede sempre tutte le osservazioni e le azioni precedenti all’interno della sua finestra di contesto di 1024 token.

Gato è addestrato su un gran numero di set di dati che comprendono l’esperienza dell’agente sia in ambienti simulati che reali, oltre a una varietà di set di dati di linguaggio naturale e immagini. Il numero di attività, in cui le prestazioni del modello Gato preallenato sono superiori a una percentuale del punteggio degli esperti, raggruppate per dominio, è mostrato qui.

Le seguenti immagini mostrano anche come il modello Gato preallenato con gli stessi pesi può fare la descrizione delle immagini, impegnarsi in un dialogo interattivo e controllare un braccio robotico, tra molti altri compiti.