Potenziare i robot con la performance di compiti complessi Meta AI sviluppa un modello di affordance visuale utilizzando video su Internet del comportamento umano.

Meta AI sviluppa un modello di affordance visuale utilizzando video su Internet per potenziare i robot con la capacità di eseguire compiti complessi.

Meta AI, un’organizzazione leader nella ricerca sull’intelligenza artificiale (IA), ha recentemente presentato un algoritmo rivoluzionario che promette di rivoluzionare il campo della robotica. Nel loro articolo di ricerca dal titolo “Affordances dai video umani come rappresentazione versatile per la robotica”, gli autori esplorano l’applicazione dei video di YouTube come potente strumento di addestramento per i robot per imparare e replicare le azioni umane. Sfruttando le immense risorse dei video di istruzione online, questo algoritmo all’avanguardia mira a colmare il divario tra i set di dati statici e le applicazioni di robot nel mondo reale, consentendo ai robot di eseguire compiti complessi con maggiore versatilità e adattabilità.

Centrale a questa innovativa approccio è il concetto di “affordances”. Le affordances rappresentano le potenziali azioni o interazioni che un oggetto o un ambiente offre. Addestrando i robot a comprendere e sfruttare queste affordances attraverso l’analisi dei video umani, l’algoritmo di Meta AI fornisce ai robot una rappresentazione versatile di come eseguire varie attività complesse. Questa svolta migliora la capacità del robot di imitare le azioni umane e li rende in grado di applicare le conoscenze acquisite in ambienti nuovi e sconosciuti.

Per garantire l’integrazione senza soluzione di continuità di questo modello basato su affordance nel processo di apprendimento dei robot, i ricercatori di Meta AI lo hanno incorporato in quattro diversi paradigmi di apprendimento dei robot. Questi paradigmi includono l’apprendimento per imitazione offline, l’esplorazione, l’apprendimento condizionato dagli obiettivi e la parametrizzazione delle azioni per l’apprendimento per rinforzo. Unendo la potenza del riconoscimento delle affordances a queste metodologie di apprendimento, i robot possono acquisire nuove capacità e svolgere compiti con maggiore precisione ed efficienza.

Per addestrare in modo efficace il modello di affordance, Meta AI utilizza grandi set di dati video umani, come Ego4D ed Epic Kitchens. Analizzando questi video, i ricercatori utilizzano detector di interazione tra mano e oggetto pronti all’uso per identificare le regioni di contatto e tracciare la traiettoria del polso dopo il contatto. Tuttavia, si presenta una sfida significativa quando la presenza umana nella scena causa uno spostamento della distribuzione. Per superare questo ostacolo, i ricercatori sfruttano le informazioni disponibili sulla telecamera per proiettare i punti di contatto e le traiettorie post-contatto in un frame senza informazioni umane, che poi serve come input per il loro modello.

Prima di questa svolta, i robot erano limitati nella loro capacità di imitare azioni, principalmente confinati a riprodurre ambienti specifici. Tuttavia, con l’ultimo algoritmo di Meta AI, sono stati compiuti progressi significativi nella generalizzazione delle azioni dei robot. Ciò significa che i robot possono ora applicare le conoscenze acquisite in ambienti nuovi e sconosciuti, dimostrando una maggiore adattabilità.

Meta AI si impegna a far progredire il campo della visione artificiale e a promuovere la collaborazione tra ricercatori e sviluppatori. In linea con questo impegno, l’organizzazione intende condividere il codice e il set di dati del loro progetto. Facendo in modo che queste risorse siano accessibili ad altri, Meta AI mira a incoraggiare ulteriori esplorazioni e sviluppi di questa tecnologia. Questo approccio aperto consentirà lo sviluppo di robot auto-apprendenti in grado di acquisire nuove competenze e conoscenze dai video di YouTube, spingendo il campo della robotica verso nuovi orizzonti di innovazione.