Questa ricerca sull’IA introduce una nuova distillazione della posa a due fasi per la stima della posa dell’intero corpo

Nuova distillazione della posa a due fasi per l'estima della posa dell'intero corpo nell'IA.

Numerose attività di percezione, comprensione e creazione incentrate sull’essere umano dipendono dall’estimazione della posa dell’intero corpo, compresa la ricostruzione della maglia del corpo umano in 3D, l’interazione uomo-oggetto e la produzione di immagini umane e di movimento condizionate dalla postura. Inoltre, l’utilizzo di algoritmi user-friendly come OpenPose e MediaPipe per la registrazione delle posture umane per lo sviluppo di contenuti virtuali e VR/AR è aumentato notevolmente in popolarità. Tuttavia, nonostante la loro comodità, le loro prestazioni devono ancora migliorare, il che limita il loro potenziale. Pertanto, sono necessari ulteriori sviluppi nelle tecnologie di valutazione della posa umana per realizzare la promessa della produzione di contenuti guidata dall’utente.

In confronto, l’estimazione della posa dell’intero corpo presenta maggiori difficoltà rispetto all’estimazione della posa umana con rilevamento solo dei punti chiave del corpo a causa dei seguenti fattori:

  1. Le strutture gerarchiche del corpo umano per la localizzazione dei punti chiave dettagliata.
  2. Le basse risoluzioni della mano e del volto.
  3. Le parti del corpo complesse corrispondono a più persone in un’immagine, specialmente per l’occlusione e le posizioni difficili delle mani.
  4. Limitazione dei dati, in particolare per la diversa posa delle mani e posizione della testa delle immagini dell’intero corpo.

Inoltre, un modello deve essere compresso in una rete sottile prima della distribuzione. La distillazione, la riduzione e la quantizzazione costituiscono le tecniche di compressione fondamentali.

La distillazione della conoscenza (KD) può potenziare l’efficacia di un modello compatto senza aggiungere spese superflue al processo di inferenza. Questo metodo, che ha un ampio utilizzo in varie attività come la categorizzazione, la rilevazione e la segmentazione, consente agli studenti di acquisire conoscenze da un insegnante più esperto. Come risultato dell’indagine sulla distillazione della conoscenza per l’estimazione della posa dell’intero corpo, in questo lavoro sono stati prodotti un insieme di stimatori di posa in tempo reale con buone prestazioni ed efficienza. I ricercatori della Tsinghua Shenzhen International Graduate School e dell’International Digital Economy Academy suggeriscono specificamente un’architettura di distillazione della posa in due fasi rivoluzionaria chiamata DWPose, che, come dimostrato nella Figura 1, offre prestazioni all’avanguardia. Utilizzano il modello di stima della posa più recente, RTMPose, addestrato su COCO-WholeBody, come loro modello fondamentale.

Figura 1 mostra un confronto tra il loro modello e modelli comparabili per l’estimazione della posa dell’intero corpo di COCO-WholeBody.

Utilizzano nativamente il livello intermedio e i logit finali dell’insegnante (ad esempio, RTMPose-x) nella distillazione della prima fase per guidare il modello dello studente (ad esempio, RTMPose-l). I punti chiave possono essere distinti nell’addestramento precedente sulla posa in base alla loro visibilità, e vengono utilizzati solo i punti chiave visibili per il monitoraggio. Invece, utilizzano tutti gli output dell’insegnante che includono sia i punti chiave visibili che quelli invisibili come logit finali, che possono trasmettere valori accurati e approfonditi per aiutare il processo di apprendimento degli studenti. Utilizzano anche un approccio di decadimento del peso per aumentare l’efficacia, che riduce progressivamente il peso del dispositivo durante la sessione di addestramento. La seconda fase, la distillazione, suggerisce una self-KD consapevole della testa per aumentare la capacità della testa poiché una testa migliore determinerebbe una localizzazione più accurata.

Costruiscono due modelli identici, scegliendo uno come studente da aggiornare e l’altro come insegnante. Solo la testa dello studente viene aggiornata mediante la distillazione basata sui logit, lasciando il resto del corpo congelato. Va notato che questa strategia plug-and-play funziona con le teste di previsione dense e consente allo studente di ottenere risultati migliori con il 20% in meno di tempo di addestramento, che sia addestrato dall’inizio con la distillazione o senza. Il volume e la varietà dei dati che affrontano diverse dimensioni delle parti del corpo umano influenzeranno le prestazioni del modello. A causa della necessità dei dataset di punti chiave annotati in modo completo, gli stimatori esistenti devono aiutare a localizzare con precisione i punti di riferimento dettagliati delle dita e del volto.

Pertanto, incorporano un dataset aggiuntivo chiamato UBody che comprende numerosi punti chiave del volto e della mano fotografati in diversi contesti della vita reale per esaminare l’effetto dei dati. Di conseguenza, si può dire quanto segue riguardo ai loro contributi:

• Per superare la limitazione dei dati dell’intero corpo, esplorano dati di addestramento più completi, in particolare su gesti delle mani e espressioni facciali diverse ed espressive, rendendolo applicabile alle applicazioni reali.

• Introducono un metodo di distillazione della conoscenza della posa a due fasi, perseguendo una stima efficiente e precisa dell’intero corpo.

• Le tecniche di distillazione e dati suggerite possono notevolmente migliorare RTMPose-l dal 64,8% al 66,5% AP, superando anche RTMPose-x istruttore con 65,3% AP, utilizzando il modello di base più recente di RTMPose. Inoltre, confermano la forte efficacia ed efficienza di DWPose nella generazione di lavoro.