Questo articolo sull’IA dalla Cina propone un agente di pianificazione delle attività (TaPA) nelle attività incarnate per la pianificazione con vincoli fisici di scena

This article proposes a Task Planning Agent (TaPA) for embodied activities with physical scene constraints in AI from China.

Come prendiamo decisioni nella vita quotidiana? Spesso siamo influenzati dal nostro buon senso. E i robot? Possono prendere decisioni basate sul buon senso? Per completare con successo le istruzioni umane, sono necessari agenti incorporati con buon senso. A causa della necessità di maggiori dettagli di un mondo realistico, gli attuali LLM producono sequenze di azioni impossibili.

Ricercatori del Dipartimento di Automazione e del Centro Nazionale di Ricerca di Pechino per la Scienza dell’Informazione e la Tecnologia hanno proposto un Agente di Pianificazione delle Attività (TaPA) in attività incorporate con vincoli di scene fisiche. Questi agenti generano piani eseguibili in base agli oggetti presenti nella scena allineando gli LLM con i modelli di percezione visiva.

I ricercatori affermano che TaPA può generare piani concreti senza vincolare tipi di attività e oggetti target. Hanno creato innanzitutto un dataset multimodale in cui ogni campione è un tripletto di scene visive, istruzioni e piani corrispondenti. Dal dataset generato, hanno perfezionato la rete pre-addestrata LLaMA prevedendo i passaggi di azione in base all’elenco degli oggetti della scena, che viene ulteriormente assegnato come pianificatore di attività.

L’agente incorporato visita poi efficacemente i punti di sosta per raccogliere immagini RGB, fornendo informazioni sufficienti in diverse visualizzazioni per generalizzare il rilevatore di vocabolario aperto per immagini multi-vista. Questo processo complessivo consente a TaPA di generare le azioni eseguibili passo dopo passo, considerando le informazioni sulla scena e le istruzioni umane.

Come hanno generato il dataset multimodale? Uno dei modi è quello di utilizzare modelli visione-linguaggio e modelli multimodali ampi. Tuttavia, a causa della mancanza di un dataset multimodale su larga scala per addestrare l’agente di pianificazione, è difficile creare e ottenere una pianificazione attività incorporata che sia ancorata a scene realistiche in interni. Lo hanno risolto utilizzando GPT-3.5 con la rappresentazione della scena presentata e un prompt di design per generare il dataset multimodale su larga scala per l’ottimizzazione dell’agente di pianificazione.

I ricercatori hanno addestrato il pianificatore di attività dagli LLM pre-addestrati e hanno costruito il dataset multimodale contenente 80 scene interne con 15 K istruzioni e piani d’azione. Hanno progettato diverse strategie di raccolta immagini per esplorare le scene 3D circostanti, come criteri di selezione della posizione per posizioni casuali e telecamere ruotate per ottenere immagini multi-vista per ciascun criterio di selezione della posizione. Ispirandosi ai metodi di clustering, hanno suddiviso l’intera scena in diverse sottoregioni per migliorare le prestazioni della percezione.

I ricercatori affermano che gli agenti TaPA raggiungono un tasso di successo dei piani d’azione generati superiore agli LLM di ultima generazione, inclusi LlaMA e GPT-3.5, e modelli multimodali ampi come LLaVA. TaPA può comprendere meglio l’elenco degli oggetti in input con una diminuzione del 26,7% e del 5% nel numero di casi di allucinazione rispetto a LLaVA e GPT-3.5, rispettivamente.

I ricercatori affermano che le statistiche dei dataset multimodali raccolti indicano che le attività sono molto più complesse dei benchmark convenzionali sulle attività di seguire le istruzioni, con passaggi di implementazione più lunghi e richiedono nuovi metodi di ottimizzazione.