Possono i modelli di linguaggio di grandi dimensioni aiutare nell’anticipazione delle azioni a lungo termine dai video? Incontra AntGPT un framework di intelligenza artificiale per incorporare modelli di linguaggio di grandi dimensioni per il compito di anticipazione delle azioni a lungo termine basato su video.

Possono modelli di linguaggio grandi aiutare nell'anticipazione azioni a lungo termine dai video? Incontra AntGPT, un framework di intelligenza artificiale per incorporare modelli di linguaggio grandi per anticipazione azioni a lungo termine da video.

Dalle osservazioni video, la ricerca si concentra sul compito LTA – anticipazione di azioni a lungo termine. Le sequenze di previsioni di verbi e sostantivi per un attore interessato in un orizzonte temporale generalmente esteso sono i suoi risultati desiderati. LTA è fondamentale per la comunicazione uomo-macchina. Un agente meccanico potrebbe utilizzare LTA per aiutare le persone in situazioni come auto a guida autonoma e faccende domestiche di routine. Inoltre, a causa dell’ambiguità e dell’imprevedibilità intrinseche dei comportamenti umani, la rilevazione delle azioni nei video è piuttosto difficile, anche con una percezione perfetta.

La modellazione bottom-up, una strategia LTA popolare, simula direttamente la dinamica temporale dei comportamenti umani utilizzando rappresentazioni visive latenti o etichette discrete delle azioni. La maggior parte delle attuali strategie LTA bottom-up sono implementate come reti neurali addestrate end-to-end utilizzando input visivi. Conoscere l’obiettivo di un attore può aiutare la previsione delle azioni perché il comportamento umano, specialmente nelle situazioni domestiche quotidiane, è spesso “finalizzato”. Di conseguenza, considerano un framework top-down in aggiunta alla strategia bottom-up ampiamente utilizzata. Il framework top-down delinea prima il processo necessario per raggiungere l’obiettivo, implicando quindi l’obiettivo a lungo termine dell’attore umano.

Tuttavia, è tipicamente difficile utilizzare la pianificazione del processo condizionata dall’obiettivo per l’anticipazione delle azioni poiché le informazioni di destinazione sono spesso lasciate senza etichetta e latenti negli standard LTA attuali. Queste questioni sono affrontate nel loro studio sia per LTA top-down che bottom-up. Suggeriscono di esaminare se i grandi modelli di linguaggio (LLM) possono trarre profitto dai film a causa del loro successo nella pianificazione robotica e nella risposta alle domande visive basate su programmi. Propongono che i LLM codifichino informazioni prioritarie utili per il compito di anticipazione di azioni a lungo termine pre-addestrando materiale testuale procedurale, come ricette.

In uno scenario ideale, le conoscenze precedenti codificate nei LLM possono aiutare sia gli approcci LTA bottom-up che top-down poiché possono rispondere a domande come “Quali sono le azioni più probabili a seguire questa azione attuale?” e “Cosa sta cercando di raggiungere l’attore e quali sono i passaggi rimanenti per raggiungere l’obiettivo?”. La loro ricerca mira specificamente a rispondere a quattro domande sull’utilizzo dei LLM per l’anticipazione di azioni a lungo termine: qual è un’interfaccia appropriata per il lavoro LTA tra video e LLM, prima? Secondo, i LLM sono utili per LTA top-down e possono inferire gli obiettivi? Terzo, l’anticipazione delle azioni può essere aiutata dalla conoscenza precedente dei LLM sulle dinamiche temporali? Infine, possono utilizzare la funzionalità LTA a poche informazioni fornita dalla capacità di apprendimento in contesto dei LLM?

Ricercatori dell’Università di Brown e dell’Istituto di Ricerca Honda forniscono un sistema a due fasi chiamato AntGPT per effettuare le valutazioni quantitative e qualitative necessarie per fornire risposte a queste domande. AntGPT identifica prima le attività umane utilizzando algoritmi di riconoscimento delle azioni supervisionate. I modelli OpenAI GPT ricevono le azioni riconosciute da AntGPT come rappresentazioni video discretizzate per determinare l’esito previsto delle azioni o le azioni future, che possono quindi essere opzionalmente post-processate nelle previsioni finali. Nel LTA bottom-up, chiedono esplicitamente al modello GPT di prevedere sequenze di azioni future utilizzando metodi autoregressivi, fine-tuning o apprendimento in contesto. Inizialmente chiedono a GPT di prevedere l’obiettivo dell’attore prima di produrre i comportamenti dell’attore per realizzare LTA top-down.

Utilizzano quindi le informazioni sull’obiettivo per fornire previsioni condizionate dall’obiettivo. Inoltre, esaminano la capacità di AntGPT per LTA top-down e bottom-up utilizzando catene di ragionamento e LTA bottom-up a poche informazioni, rispettivamente. Effettuano test su diversi benchmark LTA, tra cui EGTEA GAZE+, EPIC-Kitchens-55 e Ego4D. I test quantitativi dimostrano la fattibilità del loro suggerito AntGPT. Studi quantitativi e qualitativi aggiuntivi mostrano che i LLM possono inferire gli obiettivi di alto livello degli attori dati i label discretizzati delle azioni dalle osservazioni video. Inoltre, notano che i LLM possono eseguire l’anticipazione delle azioni controfattuale quando vengono forniti diversi obiettivi di input.

Il loro studio contribuisce quanto segue:

1. Suggeriscono di utilizzare grandi modelli di linguaggio per inferire gli obiettivi, modellare le dinamiche temporali e definire l’anticipazione di azioni a lungo termine come metodi bottom-up e top-down.

2. Suggeriscono il framework AntGPT, che collega naturalmente i LLM con gli algoritmi di visione artificiale per comprendere i video e raggiunge prestazioni di previsione di azioni a lungo termine all’avanguardia sui benchmark EPIC-Kitchens-55, EGTEA GAZE+ ed Ego4D LTA v1 e v2.

3. Effettuano valutazioni quantitative e qualitative complete per comprendere le decisioni di progettazione cruciali dei LLMs, i loro vantaggi e svantaggi nell’ambito del lavoro di LTA. Inoltre, hanno in programma di rilasciare presto il codice.

AI Shorts,artificial intelligence,Editors Pick,Language Model,Large Language Model,Machine Learning,Staff,Tech News,Technology,Uncategorized

Possono modelli di linguaggio grandi aiutare nell'anticipazione azioni a lungo termine dai video? Incontra AntGPT, un framework di intelligenza artificiale per incorporare modelli di linguaggio grandi per anticipazione azioni a lungo termine da video.

Il viaggio ispiratore di un pioniere di Google

Come, in quanto studente, uso ChatGPT per aumentare la mia produttività del 10x

IBM, HuggingFace e NASA rendono open source...

Una nuova ricerca sull’IA presenta i ...

Questa ricerca sull’IA introduce una ...

Cache dei LLM generativi | Risparmio sui co...

Smantellando l’Indice di Gini Come l&...

Una guida per principianti per comprendere ...

AI