Ricercatori di Apple propongono Large Language Model Reinforcement Learning Policy (LLaRP) un approccio di intelligenza artificiale utilizzando il quale le LLM possono essere modificate per agire come politiche generalizzabili per compiti visivi incarnati

Gli esperti di Apple propongono LLaRP un metodo di apprendimento per rinforzo con Large Language Model per l'intelligenza artificiale, in cui le LLM possono essere adattate come politiche versatili per compiti di visione integrata

Il processing del linguaggio naturale, la comprensione e la generazione hanno raggiunto una nuova fase con l’introduzione di Large Language Models (LLM). Modelli come GPT-3 hanno abilità di riconoscimento del linguaggio senza precedenti perché sono stati allenati su volumi enormi di materiale testuale. La loro utilità va molto oltre le attività legate al linguaggio poiché si sono dimostrati eccezionalmente esperti in diverse aree, come il pensiero incorporato, il ragionamento, la comprensione visiva, i sistemi di dialogo, lo sviluppo del codice e persino il controllo di robot.

Il fatto che molte di queste abilità si manifestino senza la necessità di dati di allenamento specializzati è molto intrigante perché mostra quanto ampia e generica sia la comprensione di questi modelli. I LLM hanno la capacità di gestire compiti che coinvolgono input e output che non sono facilmente espressi a parole. Sono in grado anche di fornire comandi ai robot come output o di comprendere immagini come input.

Nell’AI incorporata, l’obiettivo è sviluppare agenti capaci di prendere decisioni trasferibili ad altri compiti e generalizzabili. I set di dati statici, che richiedono grandi quantità di dati di esperti diversi e costosi, sono storicamente stati la principale fonte di sviluppo nell’uso dei LLM per l’AI incorporata. Come alternativa, gli agenti possono imparare in ambienti virtuali attraverso l’interazione, l’esplorazione e il feedback di ricompensa con l’aiuto dei simulatori di AI incorporata. Tuttavia, le capacità di generalizzazione di tali agenti spesso non sono all’altezza di quanto dimostrato in altri settori.

In una recente ricerca, un team di ricercatori ha proposto un nuovo approccio chiamato Large Language Model Reinforcement Learning Policy (LLaRP), che consente di adattare i LLM per agire come politiche generalizzabili per compiti visivi incorporati. Utilizzando un LLM pre-addestrato e fisso, questo approccio elabora comandi di testo e osservazioni visive egocentriche per generare azioni in tempo reale all’interno di un ambiente. LLaRP è stato allenato per percepire il suo ambiente e comportarsi solo attraverso gli incontri con esso mediante apprendimento per rinforzo.

I principali risultati della ricerca condivisi dal team sono i seguenti.

  1. Robustezza nei confronti della parafrasi complessa: LLaRP dimostra un’eccezionale resilienza alle riformulazioni intricate delle istruzioni di un compito. Ciò significa che, pur mantenendo il comportamento previsto, è in grado di comprendere ed eseguire istruzioni espresse in modi diversi. È in grado di adattarsi a nuove forme linguistiche per lo stesso compito.
  1. Generalizzazione a nuovi compiti: Un aspetto degno di nota di LLaRP è la sua capacità di generalizzazione. È in grado di assumere nuovi compiti che richiedono comportamenti completamente originali e ideali. Dimostra la sua varietà e adattabilità adattandosi a compiti che non ha mai affrontato durante l’allenamento.
  1. Percentuale di successo notevole: LLaRP ha dimostrato un incredibile tasso di successo del 42% su un insieme di 1.000 compiti non visti in precedenza. Rispetto ad altri basi di apprendimento ampiamente utilizzati o applicazioni di LLM non supervisionate, questo tasso di successo è 1,7 volte superiore. Questo dimostra una migliore performance e capacità di generalizzazione dell’approccio LLaRP.
  1. Rilascio di un benchmark: Per migliorare la comprensione delle sfide di AI incorporata a compito condizionato dal linguaggio e di AI massimamente multi-tasking, il team di ricerca ha pubblicato un nuovo benchmark chiamato “Riarrangiamento del linguaggio”. Questo benchmark include un ampio set di dati con 150.000 compiti di allenamento e 1.000 compiti di test per il riarrangiamento del linguaggio. È uno strumento importante per i ricercatori che desiderano approfondire e sviluppare questo ramo dell’AI.

In sintesi, LLaRP è sicuramente un approccio incredibile che adatta i LLM pre-addestrati per compiti visivi incorporati e ottiene risultati eccezionali in generale, in termini di robustezza e di generalizzazione.