Avanzamento del riconoscimento dell’azione umana nella realtà virtuale questo documento AI introduce LKA-GCN con attenzione al kernel grande dello scheletro per prestazioni senza pari.
Avanzamento del riconoscimento dell'azione umana nella realtà virtuale con LKA-GCN per prestazioni senza pari.
Il riconoscimento delle azioni umane basato sullo scheletro è un campo di visione computerizzata che identifica le azioni umane analizzando le posizioni articolari dello scheletro dai dati video. Utilizza modelli di apprendimento automatico per comprendere la dinamica temporale e le configurazioni spaziali, consentendo applicazioni nella sorveglianza, nell’assistenza sanitaria, nell’analisi sportiva e altro ancora.
Dalla nascita di questo campo di ricerca, gli scienziati hanno seguito due principali strategie. La prima strategia sono i metodi creati a mano: queste tecniche iniziali applicavano operazioni geometriche 3D per creare rappresentazioni delle azioni alimentate in classificatori classici. Tuttavia, necessitano di assistenza umana per apprendere indizi d’azione di alto livello, portando a prestazioni obsolete. La seconda strategia sono i metodi di apprendimento profondo: i recenti progressi nell’apprendimento profondo hanno rivoluzionato il riconoscimento delle azioni. I metodi all’avanguardia si concentrano sulla progettazione di rappresentazioni delle caratteristiche che catturano la topologia spaziale e le correlazioni del movimento temporale. Più precisamente, le reti di convoluzione dei grafi (GCNs) sono emerse come una potente soluzione per il riconoscimento delle azioni basato sullo scheletro, ottenendo risultati impressionanti in vari studi.
In questo contesto, è stato recentemente pubblicato un nuovo articolo per proporre un nuovo approccio chiamato “skeleton large kernel attention graph convolutional network” (LKA-GCN). Affronta due principali sfide nel riconoscimento delle azioni basato sullo scheletro:
- Introduzione all’Apprendimento Statistico, Edizione Python Libro gratuito
- Guida completa alle funzioni finanziarie in Excel
- Stability AI’s Stable Diffusion XL 1.0 Una svolta nella generazione di immagini tramite intelligenza artificiale
- Dipendenze a lungo raggio: LKA-GCN introduce un operatore di attenzione del nucleo grande dello scheletro (SLKA) per catturare efficacemente le correlazioni a lungo raggio tra le articolazioni, superando il problema della sovrapposizione eccessiva nei metodi esistenti.
- Informazioni temporali preziose: LKA-GCN utilizza una strategia di modellazione del movimento articolare creato a mano (JMM) per concentrarsi sui fotogrammi con movimenti articolari significativi, migliorando le caratteristiche temporali e aumentando l’accuratezza del riconoscimento.
Il metodo proposto utilizza la modellazione del grafo spaziotemporale per i dati dello scheletro come un grafo, in cui il grafo spaziale cattura la topologia naturale delle articolazioni umane e il grafo temporale codifica le correlazioni della stessa articolazione tra fotogrammi adiacenti. La rappresentazione del grafo è generata dai dati dello scheletro, una sequenza di coordinate 3D che rappresentano le articolazioni umane nel tempo. Gli autori hanno introdotto l’operatore SLKA, che combina meccanismi di autoattenzione con convoluzioni a nucleo grande per catturare efficientemente le dipendenze a lungo raggio tra le articolazioni umane. Aggrega dipendenze indirette attraverso un campo recettivo più ampio riducendo al minimo l’onere computazionale. Inoltre, LKA-GCN include la strategia JMM, che si concentra su caratteristiche temporali informative calcolando fotogrammi di riferimento che riflettono i movimenti articolari medi in intervalli locali. LKA-GCN è composto da moduli SLKA spaziotemporali e una testa di riconoscimento, utilizzando una strategia di fusione multi-stream per migliorare le prestazioni di riconoscimento. Infine, il metodo utilizza un approccio multi-stream, suddividendo i dati dello scheletro in tre flussi: flusso delle articolazioni, flusso delle ossa e flusso del movimento.
Per valutare LKA-GCN, gli autori hanno utilizzato vari esperimenti per condurre uno studio sperimentale su tre set di dati per il riconoscimento delle azioni basato sullo scheletro (NTU-RGBD 60, NTU-RGBD 120 e Kinetics-Skeleton 400). Il metodo è confrontato con una base di confronto e viene analizzato l’impatto di diversi componenti, come l’operatore SLKA e la strategia di modellazione dei movimenti articolari (JMM). Viene esplorata anche la strategia di fusione a due flussi. I risultati sperimentali mostrano che LKA-GCN supera i metodi all’avanguardia, dimostrando la sua efficacia nel catturare dipendenze a lungo raggio e migliorare l’accuratezza del riconoscimento. L’analisi visiva conferma ulteriormente la capacità del metodo di catturare la semantica dell’azione e le dipendenze articolari.
In conclusione, LKA-GCN affronta le principali sfide nel riconoscimento delle azioni basato sullo scheletro, catturando dipendenze a lungo raggio e informazioni temporali preziose. Attraverso l’operatore SLKA e la strategia JMM, LKA-GCN supera i metodi all’avanguardia nelle valutazioni sperimentali. Il suo approccio innovativo offre promesse per un riconoscimento delle azioni più accurato e robusto in varie applicazioni. Tuttavia, il team di ricerca riconosce alcune limitazioni. Hanno intenzione di ampliare il loro approccio includendo modalità di dati come mappe di profondità e nuvole di punti per una migliore performance di riconoscimento. Inoltre, mirano ad ottimizzare l’efficienza del modello utilizzando strategie di distillazione delle conoscenze per soddisfare le richieste industriali.