Questo articolo su IA presenta RTMO una svolta nella stima in tempo reale della posa multi-persona utilizzando mappe termiche duali a 1D.
RTMO Una svolta nella stima in tempo reale della posa multi-persona utilizzando mappe termiche duali a 1D - Un articolo su IA
Il campo della stima della posa, che consiste nel determinare la posizione e l’orientamento di un oggetto nello spazio, è un’area in rapida evoluzione, con i ricercatori che sviluppano continuamente nuovi metodi per migliorare la sua precisione e prestazioni. Ricercatori provenienti da tre istituzioni di alto livello – Tsinghua Shenzhen International Graduate School, Shanghai AI Laboratory e Nanyang Technological University – hanno recentemente contribuito a questo campo sviluppando un nuovo framework RTMO. Il framework ha il potenziale per migliorare la precisione e l’efficienza della stima della posa e potrebbe avere un impatto significativo su diverse applicazioni, tra cui robotica, realtà aumentata e realtà virtuale.
RTMO è un framework di stima della posa in un’unica fase progettato per superare il compromesso tra precisione e prestazioni in tempo reale nei metodi esistenti. RTMO integra modelli di classificazione delle coordinate e di predizione densa, superando altri stimatori di posa in un’unica fase raggiungendo una precisione comparabile alle approcci top-down mantenendo una grande velocità.
La stima in tempo reale della posa multi-persona è una sfida nella visione artificiale, con i metodi esistenti che hanno bisogno di bilanciare velocità e precisione. Gli approcci attuali, sia top-down che in una sola fase, presentano limitazioni in termini di tempo di inferenza o precisione. RTMO è un framework di stima della posa in un’unica fase che combina la classificazione delle coordinate con l’architettura YOLO. Superando le sfide grazie ad un classificatore di coordinate dinamico e funzioni di perdita adattate, RTMO supera gli stimatori di posa in una sola fase esistenti, raggiungendo un’alta Average Precision su COCO mantenendo prestazioni in tempo reale.
- Rapporto State of DevOps 2023 Risultati chiave e approfondimenti
- Navigare tra i Venti del Cambiamento Principali Tendenze Tecnologiche del 2024
- Scatenando il potere di AlphaCode di DeepMind rivoluzionare la scrittura del codice
Lo studio presenta un framework di stima della posa multi-persona in tempo reale, RTMO, che utilizza un’architettura simile a YOLO con CSPDarknet come base e un encoder ibrido. Blocchi di convoluzione duali generano punteggi e caratteristiche di posa a ogni livello spaziale. Il metodo affronta le incompatibilità tra la classificazione delle coordinate e i modelli di predizione densa utilizzando un classificatore di coordinate dinamiche e una funzione di perdita adattata per l’apprendimento della mappa di calore. Viene utilizzata la codifica binaria dinamica per creare rappresentazioni specifiche per ciascun bin e viene impiegata una perdita con smoothing delle etichette Gaussiane e cross-entropy per i compiti di classificazione.
RTMO, un framework di stima della posa in un’unica fase, eccelle nella stima della posa multi-persona grazie all’alta precisione e alle prestazioni in tempo reale. Superando gli stimatori di posa in una sola fase all’avanguardia, raggiunge una Average Precision superiore del 1,1% su COCO operando circa nove volte più velocemente con la stessa base. Il modello più grande, RTMO-l, raggiunge il 74,8% di AP su COCO val2017 e lavora a 141 frame al secondo su una singola GPU V100. In diverse situazioni, la serie RTMO supera metodi leggeri comparabili ad una sola fase in termini di prestazioni e velocità, dimostrando efficienza e precisione. Con dati di addestramento aggiuntivi, RTMO-l raggiunge una Average Precision di prim’ordine pari all’81,7. Il framework genera mappe di calore spazialmente accurate, facilitando previsioni robuste e consapevoli del contesto per ciascun punto chiave.
In conclusione, lo studio può essere riassunto in pochi punti menzionati:
- RTMO è un framework di stima della posa con alta precisione e prestazioni in tempo reale.
- Integra in modo fluido la classificazione delle coordinate all’interno dell’architettura YOLO.
- RTMO utilizza una tecnica innovativa di classificazione delle coordinate utilizzando binari di coordinate per una localizzazione precisa dei punti chiave.
- Supera stimatori di posa in un’unica fase all’avanguardia e raggiunge una Average Precision più alta su COCO mantenendo una velocità significativamente maggiore.
- RTMO eccelle in scenari multi-persona complessi, generando mappe di calore spazialmente accurate per previsioni robuste consapevoli del contesto.
- RTMO bilancia prestazioni e velocità tra i metodi esistenti di stima della posa multi-persona top-down e in un’unica fase.