Ricercatori dell’Università di Austin introducono LIBERO un benchmark di apprendimento robotico a vita per studiare il trasferimento di conoscenza nelle decisioni e nella robotica su larga scala

Gli esperti dell'Università di Austin presentano LIBERO un innovativo benchmark di apprendimento a vita per lo studio del trasferimento di conoscenza nelle decisioni e nella robotica su grande scala

LIBERO, un punto di riferimento nell’apprendimento a vita nel campo della manipolazione di robot, si concentra sul trasferimento di conoscenze nei domini dichiarativi e procedurali. Introduce cinque aree chiave di ricerca nell’apprendimento a vita per la presa di decisioni (LLDM) e offre una pipeline per la generazione di attività procedurali con quattro suite di attività che comprendono 130 compiti. Gli esperimenti rivelano la superiorità del fine-tuning sequenziale rispetto ai metodi esistenti LLDM per il trasferimento in avanti. Le prestazioni dell’architettura dell’encoder visivo variano e il pre-addestramento supervisionato ingenuo può ostacolare gli agenti in LLDM. Il punto di riferimento include dati di dimostrazione umano-teleoperati di alta qualità per tutte le attività.

Ricercatori dell’Università del Texas ad Austin, Sony AI e dell’Università di Tsinghua affrontano lo sviluppo di un agente di apprendimento a vita versatile in grado di svolgere una vasta gamma di compiti. La loro ricerca introduce LIBERO, un punto di riferimento che si concentra sull’apprendimento a vita nella presa di decisioni per la manipolazione di robot. A differenza della letteratura esistente che enfatizza il trasferimento di conoscenze dichiarative, LIBERO esplora il trasferimento di conoscenze dichiarative e procedurali. Offre una pipeline per la generazione di attività procedurali e dati di alta qualità ottenuti tramite teleoperazione umana. Si propone di investigare aree essenziali di ricerca LLDM, come il trasferimento di conoscenze, la progettazione di architetture neurali, la progettazione di algoritmi, la robustezza dell’ordine delle attività e l’utilizzo di modelli preaddestrati.

Nell’apprendimento a vita dei robot, sono stati utilizzati tre reti di politica visione-linguaggio: RESNET-RNN, RESNET-T e VIT-T. Queste reti integrano dati visivi, temporali e linguistici per elaborare le istruzioni delle attività. Le istruzioni linguistiche vengono codificate utilizzando l’embeddings preaddestrato di BERT. RESNET-RNN combina una ResNet e una LSTM per l’elaborazione visiva e materiale. RESNET-T utilizza una ResNet e un decodificatore di trasformazioni per sequenze di token visibili e temporali. VIT-T utilizza un Vision Transformer per i dati visivi e un decodificatore di trasformazioni per i dati temporali. La formazione della politica per singole attività viene realizzata tramite cloning comportamentale, facilitando l’apprendimento efficiente delle politiche con risorse computazionali limitate.

Lo studio confrontava le architetture neurali per l’apprendimento a vita nelle attività di presa di decisioni, con RESNET-T e VIT-T che superavano RESNET-RNN, evidenziando l’efficacia dei trasformatori per l’elaborazione temporale. Le prestazioni variavano con l’algoritmo di apprendimento a vita: PACKNET non mostrava differenze significative tra RESNET-T e VIT-T, tranne per la suite di attività LIBERO-LONG, in cui VIT-T eccelleva. Tuttavia, utilizzando ER, RESNET-T superava VIT-T in tutte le suite di attività tranne che in LIBERO-OBJECT, dimostrando la capacità di ViT di elaborare informazioni visive diverse. Il fine-tuning sequenziale si è dimostrato superiore per il trasferimento in avanti, mentre il pre-addestramento supervisionato ingenuo ha ostacolato gli agenti, sottolineando la necessità di un pre-addestramento strategico.

In conclusione, il loro metodo proposto, LIBERO, è un punto di riferimento cruciale per l’apprendimento a vita dei robot, affrontando aree di ricerca chiave e offrendo preziose intuizioni. Le scoperte significative includono l’efficacia del fine-tuning sequenziale, l’impatto dell’architettura dell’encoder visivo sul trasferimento di conoscenze e i limiti del pre-addestramento supervisionato ingenuo. Il loro lavoro suggerisce interessanti future direzioni nella progettazione di architetture neurali, nel miglioramento degli algoritmi per il trasferimento in avanti e nell’utilizzo del pre-addestramento. Inoltre, sottolinea l’importanza della privacy dell’utente a lungo termine nel contesto dell’apprendimento a vita dalle interazioni umane.

La ricerca futura dovrebbe concentrarsi sulla creazione di architetture neurali più efficienti per l’elaborazione dei dati spaziali e temporali. Lo sviluppo di algoritmi avanzati per potenziare le capacità di trasferimento in avanti è essenziale. Inoltre, l’investigazione di metodi di pre-addestramento per migliorare le prestazioni dell’apprendimento a vita rimane una direzione di ricerca cruciale. Questi sforzi sono fondamentali per avanzare nel campo dell’apprendimento a vita dei robot e della presa di decisioni, migliorando efficienza e adattabilità.