Possono i modelli di linguaggio di grandi dimensioni aiutare nell’anticipazione delle azioni a lungo termine dai video? Incontra AntGPT un framework di intelligenza artificiale per incorporare modelli di linguaggio di grandi dimensioni per il compito di anticipazione delle azioni a lungo termine basato su video.

Possono modelli di linguaggio grandi aiutare nell'anticipazione azioni a lungo termine dai video? Incontra AntGPT, un framework di intelligenza artificiale per incorporare modelli di linguaggio grandi per anticipazione azioni a lungo termine da video.

Dalle osservazioni video, la ricerca si concentra sul compito LTA – anticipazione di azioni a lungo termine. Le sequenze di previsioni di verbi e sostantivi per un attore interessato in un orizzonte temporale generalmente esteso sono i suoi risultati desiderati. LTA è fondamentale per la comunicazione uomo-macchina. Un agente meccanico potrebbe utilizzare LTA per aiutare le persone in situazioni come auto a guida autonoma e faccende domestiche di routine. Inoltre, a causa dell’ambiguità e dell’imprevedibilità intrinseche dei comportamenti umani, la rilevazione delle azioni nei video è piuttosto difficile, anche con una percezione perfetta.

La modellazione bottom-up, una strategia LTA popolare, simula direttamente la dinamica temporale dei comportamenti umani utilizzando rappresentazioni visive latenti o etichette discrete delle azioni. La maggior parte delle attuali strategie LTA bottom-up sono implementate come reti neurali addestrate end-to-end utilizzando input visivi. Conoscere l’obiettivo di un attore può aiutare la previsione delle azioni perché il comportamento umano, specialmente nelle situazioni domestiche quotidiane, è spesso “finalizzato”. Di conseguenza, considerano un framework top-down in aggiunta alla strategia bottom-up ampiamente utilizzata. Il framework top-down delinea prima il processo necessario per raggiungere l’obiettivo, implicando quindi l’obiettivo a lungo termine dell’attore umano.

Tuttavia, è tipicamente difficile utilizzare la pianificazione del processo condizionata dall’obiettivo per l’anticipazione delle azioni poiché le informazioni di destinazione sono spesso lasciate senza etichetta e latenti negli standard LTA attuali. Queste questioni sono affrontate nel loro studio sia per LTA top-down che bottom-up. Suggeriscono di esaminare se i grandi modelli di linguaggio (LLM) possono trarre profitto dai film a causa del loro successo nella pianificazione robotica e nella risposta alle domande visive basate su programmi. Propongono che i LLM codifichino informazioni prioritarie utili per il compito di anticipazione di azioni a lungo termine pre-addestrando materiale testuale procedurale, come ricette.

In uno scenario ideale, le conoscenze precedenti codificate nei LLM possono aiutare sia gli approcci LTA bottom-up che top-down poiché possono rispondere a domande come “Quali sono le azioni più probabili a seguire questa azione attuale?” e “Cosa sta cercando di raggiungere l’attore e quali sono i passaggi rimanenti per raggiungere l’obiettivo?”. La loro ricerca mira specificamente a rispondere a quattro domande sull’utilizzo dei LLM per l’anticipazione di azioni a lungo termine: qual è un’interfaccia appropriata per il lavoro LTA tra video e LLM, prima? Secondo, i LLM sono utili per LTA top-down e possono inferire gli obiettivi? Terzo, l’anticipazione delle azioni può essere aiutata dalla conoscenza precedente dei LLM sulle dinamiche temporali? Infine, possono utilizzare la funzionalità LTA a poche informazioni fornita dalla capacità di apprendimento in contesto dei LLM?

Ricercatori dell’Università di Brown e dell’Istituto di Ricerca Honda forniscono un sistema a due fasi chiamato AntGPT per effettuare le valutazioni quantitative e qualitative necessarie per fornire risposte a queste domande. AntGPT identifica prima le attività umane utilizzando algoritmi di riconoscimento delle azioni supervisionate. I modelli OpenAI GPT ricevono le azioni riconosciute da AntGPT come rappresentazioni video discretizzate per determinare l’esito previsto delle azioni o le azioni future, che possono quindi essere opzionalmente post-processate nelle previsioni finali. Nel LTA bottom-up, chiedono esplicitamente al modello GPT di prevedere sequenze di azioni future utilizzando metodi autoregressivi, fine-tuning o apprendimento in contesto. Inizialmente chiedono a GPT di prevedere l’obiettivo dell’attore prima di produrre i comportamenti dell’attore per realizzare LTA top-down.

Utilizzano quindi le informazioni sull’obiettivo per fornire previsioni condizionate dall’obiettivo. Inoltre, esaminano la capacità di AntGPT per LTA top-down e bottom-up utilizzando catene di ragionamento e LTA bottom-up a poche informazioni, rispettivamente. Effettuano test su diversi benchmark LTA, tra cui EGTEA GAZE+, EPIC-Kitchens-55 e Ego4D. I test quantitativi dimostrano la fattibilità del loro suggerito AntGPT. Studi quantitativi e qualitativi aggiuntivi mostrano che i LLM possono inferire gli obiettivi di alto livello degli attori dati i label discretizzati delle azioni dalle osservazioni video. Inoltre, notano che i LLM possono eseguire l’anticipazione delle azioni controfattuale quando vengono forniti diversi obiettivi di input.

Il loro studio contribuisce quanto segue:

1. Suggeriscono di utilizzare grandi modelli di linguaggio per inferire gli obiettivi, modellare le dinamiche temporali e definire l’anticipazione di azioni a lungo termine come metodi bottom-up e top-down.

2. Suggeriscono il framework AntGPT, che collega naturalmente i LLM con gli algoritmi di visione artificiale per comprendere i video e raggiunge prestazioni di previsione di azioni a lungo termine all’avanguardia sui benchmark EPIC-Kitchens-55, EGTEA GAZE+ ed Ego4D LTA v1 e v2.

3. Effettuano valutazioni quantitative e qualitative complete per comprendere le decisioni di progettazione cruciali dei LLMs, i loro vantaggi e svantaggi nell’ambito del lavoro di LTA. Inoltre, hanno in programma di rilasciare presto il codice.