Ricercatori di Microsoft e ETH Zurich presentano HoloAssist un dataset multimodale per i copiloti AI di prossima generazione per il mondo fisico.

Ricercatori di Microsoft e ETH Zurich presentano HoloAssist un dataset multimodale per i copiloti AI di prossima generazione nel mondo fisico.

Nel campo dell’intelligenza artificiale, una sfida persistente è stata lo sviluppo di assistenti AI interattivi che possano navigare ed assistere in modo efficace in compiti del mondo reale. Sebbene siano stati fatti progressi significativi nel dominio digitale, come modelli linguistici, il mondo fisico presenta sfide uniche per i sistemi di intelligenza artificiale.

L’ostacolo principale che i ricercatori spesso affrontano è la mancanza di esperienza diretta per gli assistenti AI nel mondo fisico, che impedisce loro di percepire, ragionare e assistere attivamente in scenari del mondo reale. Questa limitazione è attribuita alla necessità di dati specifici per addestrare i modelli AI in compiti fisici.

Per affrontare questo problema, un team di ricercatori di Microsoft ed ETH Zurich ha introdotto un dataset rivoluzionario chiamato “HoloAssist”. Questo dataset è costruito per scenari di interazione umana in prima persona e a livello oggettivo nel mondo reale. Coinvolge due partecipanti che collaborano in compiti di manipolazione fisica: un esecutore del compito che indossa un visore di realtà mista e un istruttore del compito che osserva e fornisce istruzioni verbali in tempo reale.

HoloAssist vanta una vasta collezione di dati, che include 166 ore di registrazioni con 222 partecipanti diversi, che formano 350 coppie uniche di istruttore-esecutore che completano 20 compiti di manipolazione centrati sugli oggetti. Questi compiti comprendono una vasta gamma di oggetti, dai dispositivi elettronici di uso quotidiano agli articoli industriali specializzati. Il dataset cattura sette modalità di sensori sincronizzati: RGB, profondità, posa della testa, posa della mano in 3D, sguardo oculare, audio e IMU, fornendo una comprensione esaustiva delle azioni e delle intenzioni umane. Inoltre, offre annotazioni manuali in terza persona, incluse sintesi del testo, tipi di intervento, annotazioni degli errori e segmenti di azione.

A differenza dei dataset precedenti, la caratteristica distintiva di HoloAssist risiede nel suo ambiente di esecuzione di compiti multi-persona e interattivi, consentendo lo sviluppo di assistenti AI anticipatori e proattivi. Questi assistenti possono offrire istruzioni tempestive radicate nell’ambiente, migliorando il modello tradizionale di assistente AI “basato su chat”.

Il team di ricerca ha valutato le prestazioni del dataset in compiti di classificazione e anticipazione delle azioni, fornendo risultati empirici che gettano luce sull’importanza delle diverse modalità in vari compiti. Inoltre, hanno introdotto nuovi benchmark incentrati sulla rilevazione degli errori, sulla previsione dei tipi di intervento e sulla previsione della posa della mano in 3D, elementi essenziali per lo sviluppo di assistenti intelligenti.

In conclusione, questo lavoro rappresenta un primo passo verso l’esplorazione di come gli agenti intelligenti possano collaborare con gli esseri umani in compiti del mondo reale. Il dataset di HoloAssist, insieme ai benchmark e agli strumenti correlati, è destinato a far progredire la ricerca nella creazione di potenti assistenti AI per compiti del mondo reale di tutti i giorni, aprendo la strada a numerose future direzioni di ricerca.