Questo articolo su IA presenta RTMO una svolta nella stima in tempo reale della posa multi-persona utilizzando mappe termiche duali a 1D.

RTMO Una svolta nella stima in tempo reale della posa multi-persona utilizzando mappe termiche duali a 1D - Un articolo su IA

Il campo della stima della posa, che consiste nel determinare la posizione e l’orientamento di un oggetto nello spazio, è un’area in rapida evoluzione, con i ricercatori che sviluppano continuamente nuovi metodi per migliorare la sua precisione e prestazioni. Ricercatori provenienti da tre istituzioni di alto livello – Tsinghua Shenzhen International Graduate School, Shanghai AI Laboratory e Nanyang Technological University – hanno recentemente contribuito a questo campo sviluppando un nuovo framework RTMO. Il framework ha il potenziale per migliorare la precisione e l’efficienza della stima della posa e potrebbe avere un impatto significativo su diverse applicazioni, tra cui robotica, realtà aumentata e realtà virtuale.

RTMO è un framework di stima della posa in un’unica fase progettato per superare il compromesso tra precisione e prestazioni in tempo reale nei metodi esistenti. RTMO integra modelli di classificazione delle coordinate e di predizione densa, superando altri stimatori di posa in un’unica fase raggiungendo una precisione comparabile alle approcci top-down mantenendo una grande velocità.

La stima in tempo reale della posa multi-persona è una sfida nella visione artificiale, con i metodi esistenti che hanno bisogno di bilanciare velocità e precisione. Gli approcci attuali, sia top-down che in una sola fase, presentano limitazioni in termini di tempo di inferenza o precisione. RTMO è un framework di stima della posa in un’unica fase che combina la classificazione delle coordinate con l’architettura YOLO. Superando le sfide grazie ad un classificatore di coordinate dinamico e funzioni di perdita adattate, RTMO supera gli stimatori di posa in una sola fase esistenti, raggiungendo un’alta Average Precision su COCO mantenendo prestazioni in tempo reale.

Lo studio presenta un framework di stima della posa multi-persona in tempo reale, RTMO, che utilizza un’architettura simile a YOLO con CSPDarknet come base e un encoder ibrido. Blocchi di convoluzione duali generano punteggi e caratteristiche di posa a ogni livello spaziale. Il metodo affronta le incompatibilità tra la classificazione delle coordinate e i modelli di predizione densa utilizzando un classificatore di coordinate dinamiche e una funzione di perdita adattata per l’apprendimento della mappa di calore. Viene utilizzata la codifica binaria dinamica per creare rappresentazioni specifiche per ciascun bin e viene impiegata una perdita con smoothing delle etichette Gaussiane e cross-entropy per i compiti di classificazione.

RTMO, un framework di stima della posa in un’unica fase, eccelle nella stima della posa multi-persona grazie all’alta precisione e alle prestazioni in tempo reale. Superando gli stimatori di posa in una sola fase all’avanguardia, raggiunge una Average Precision superiore del 1,1% su COCO operando circa nove volte più velocemente con la stessa base. Il modello più grande, RTMO-l, raggiunge il 74,8% di AP su COCO val2017 e lavora a 141 frame al secondo su una singola GPU V100. In diverse situazioni, la serie RTMO supera metodi leggeri comparabili ad una sola fase in termini di prestazioni e velocità, dimostrando efficienza e precisione. Con dati di addestramento aggiuntivi, RTMO-l raggiunge una Average Precision di prim’ordine pari all’81,7. Il framework genera mappe di calore spazialmente accurate, facilitando previsioni robuste e consapevoli del contesto per ciascun punto chiave.

https://arxiv.org/abs/2312.07526v1

In conclusione, lo studio può essere riassunto in pochi punti menzionati:

  • RTMO è un framework di stima della posa con alta precisione e prestazioni in tempo reale.
  • Integra in modo fluido la classificazione delle coordinate all’interno dell’architettura YOLO.
  • RTMO utilizza una tecnica innovativa di classificazione delle coordinate utilizzando binari di coordinate per una localizzazione precisa dei punti chiave.
  • Supera stimatori di posa in un’unica fase all’avanguardia e raggiunge una Average Precision più alta su COCO mantenendo una velocità significativamente maggiore.
  • RTMO eccelle in scenari multi-persona complessi, generando mappe di calore spazialmente accurate per previsioni robuste consapevoli del contesto.
  • RTMO bilancia prestazioni e velocità tra i metodi esistenti di stima della posa multi-persona top-down e in un’unica fase.