I ricercatori dell’Università Duke propongono la Policy Stitching una nuova struttura AI che facilita l’apprendimento di trasferimento dei robot per nuove combinazioni di robot e compiti.

I ricercatori dell'Università Duke propongono 'Policy Stitching' una nuova struttura AI che semplifica l'apprendimento di trasferimento dei robot per nuove combinazioni di robot e compiti.

Nella robotica, i ricercatori affrontano sfide nell’utilizzo dell’apprendimento per rinforzo (RL) per insegnare ai robot nuove abilità, poiché queste abilità possono essere sensibili ai cambiamenti nell’ambiente e nella struttura del robot. I metodi attuali hanno bisogno di aiuto per generalizzare a nuove combinazioni di robot e compiti e gestire compiti complessi nel mondo reale a causa della complessità architettonica e della forte regolarizzazione. Per affrontare questo problema, i ricercatori dell’Università di Duke e del Laboratorio di Ricerca dell’Air Force hanno introdotto il Policy Stitching (PS). L’approccio consente di combinare robot e moduli di compiti addestrati separatamente per creare una nuova policy per l’adattamento rapido. Sia gli esperimenti simulati che quelli nel mondo reale che coinvolgono compiti di manipolazione 3D evidenziano le eccezionali capacità di apprendimento trasferibile zero-shot e few-shot di PS.

Le sfide persistono nel trasferire le politiche dei robot in diverse condizioni ambientali e nuovi compiti. I lavori precedenti si sono concentrati principalmente sullo spostamento di componenti specifiche all’interno del framework di RL, incluse funzioni di valore, ricompense, campioni di esperienza, politiche, parametri e funzionalità. Il meta-apprendimento è emerso come una soluzione per consentire un adattamento rapido a nuovi compiti, offrendo un miglior inizializzazione dei parametri e reti neurali con memoria potenziata per l’integrazione rapida di nuovi dati senza cancellare le conoscenze precedenti. L’apprendimento compositivo nel RL, applicato nell’apprendimento trasferibile zero-shot, nell’apprendimento multi-compito e nell’apprendimento a vita, ha dimostrato promettenti. I moduli addestrati all’interno di questo framework sono limitati all’uso all’interno di un grande sistema modulare e non possono integrarsi senza soluzione di continuità con nuovi moduli.

I sistemi robotici affrontano sfide nel trasferire le esperienze apprese a nuovi compiti e configurazioni del corpo, a differenza della capacità degli esseri umani di acquisire continuamente nuove abilità basate sulle conoscenze precedenti. L’apprendimento basato sul modello dei robot mira a costruire modelli predittivi di cinematica e dinamica dei robot per vari compiti. Al contrario, l’apprendimento del RL senza modello addestra politiche end-to-end, ma le sue prestazioni di apprendimento trasferibile sono spesso limitate. Gli approcci attuali di RL multi-compito incontrano difficoltà poiché la capacità della rete di politiche si espande in modo esponenziale con il numero di compiti.

PS utilizza un design di politica modulare e rappresentazioni trasferibili per facilitare il trasferimento delle conoscenze tra compiti e configurazioni robot distinte. Questa struttura può adattarsi a una gamma di algoritmi di RL senza modello. Lo studio suggerisce di estendere il concetto di Relative Representations dall’apprendimento supervisionato all’apprendimento del RL senza modello concentrandosi sulla promozione di invarianze di trasformazione allineando rappresentazioni intermedie in un sistema di coordinate latente comune. 

PS eccelle nell’apprendimento trasferibile zero-shot e few-shot per nuove combinazioni di robot-compiti, superando i metodi esistenti in scenari simulati e nel mondo reale. Nel trasferimento zero-shot, PS raggiunge un tasso di successo del 100% nel toccare e un tasso di successo complessivo del 40%, dimostrando la sua capacità di generalizzare in modo efficace in ambienti pratici del mondo reale. L’allineamento delle rappresentazioni latenti riduce significativamente le distanze pairwise tra stati latenti ad alta dimensionalità nelle politiche cucite, sottolineando il suo successo nel consentire l’apprendimento di rappresentazioni trasferibili per PS. Gli esperimenti forniscono una comprensione pratica dell’applicabilità del PS nel mondo reale all’interno di un’installazione di robot fisica, offrendo rappresentazioni mobili in PS inefficaci.

In conclusione, PS dimostra la sua efficacia nel trasferire in modo fluido le politiche di apprendimento dei robot a nuove combinazioni di robot-compiti, sottolineando i benefici del design modulare delle politiche e dell’allineamento degli spazi latenti. Il metodo mira a superare le limitazioni attuali, in particolare riguardo alle rappresentazioni di stati ad alta dimensionalità e alla necessità di ottimizzazioni. La ricerca delinea future direzioni di ricerca, compresa l’esplorazione di tecniche di auto-apprendimento per la separazione delle caratteristiche latenti nelle selezioni degli ancoraggi e l’indagine di metodi alternativi per l’allineamento dei moduli di rete senza dipendere dagli stati ancoraggio. Lo studio sottolinea il potenziale di estendere PS a una gamma più ampia di piattaforme robotiche con morfologie diverse.