Ricercatori cinesi introducono un dataset multi-vista su larga scala e reale chiamato ‘FreeMan’.

I ricercatori cinesi introdurranno un dataset chiamato 'FreeMan'.

Stimare la struttura 3D del corpo umano da scene del mondo reale è un compito impegnativo con implicazioni significative per campi come l’intelligenza artificiale, la grafica e l’interazione uomo-robot. I dataset esistenti per la stima della posa umana 3D sono limitati perché spesso vengono raccolti in condizioni controllate con sfondi statici, che non rappresentano la variabilità degli scenari del mondo reale. Questa limitazione ostacola lo sviluppo di modelli accurati per applicazioni del mondo reale.

I dataset esistenti come Human3.6M e HuMMan sono ampiamente utilizzati per la stima della posa umana 3D, ma vengono raccolti in ambienti di laboratorio controllati, che non catturano adeguatamente la complessità degli ambienti del mondo reale. Questi dataset sono limitati in termini di diversità di scene, azioni umane e scalabilità. I ricercatori hanno proposto vari modelli per la stima della posa umana 3D, ma la loro efficacia è spesso ostacolata quando vengono applicati a scenari del mondo reale a causa delle limitazioni dei dataset esistenti.

Un team di ricercatori cinesi ha introdotto “FreeMan”, un nuovo dataset multicamera su larga scala progettato per affrontare le limitazioni dei dataset esistenti per la stima della posa umana 3D in scenari del mondo reale. FreeMan è un contributo significativo che mira a facilitare lo sviluppo di modelli più accurati e robusti per questo compito cruciale.

FreeMan è un dataset completo che comprende 11 milioni di frame da 8.000 sequenze, catturati utilizzando 8 smartphone sincronizzati in scenari diversi. Copre 40 soggetti in 10 scene diverse, tra cui ambienti interni ed esterni con condizioni di illuminazione variabili. In particolare, FreeMan introduce variabilità nei parametri della fotocamera e nelle dimensioni del corpo umano, rendendolo più rappresentativo degli scenari del mondo reale. Il gruppo di ricerca ha sviluppato un flusso di lavoro di annotazione automatizzato per creare questo dataset che genera in modo efficiente annotazioni 3D precise dai dati raccolti. Questo flusso di lavoro coinvolge il rilevamento umano, il rilevamento dei punti chiave 2D, la stima della posa 3D e l’annotazione della mesh. Il dataset risultante è prezioso per molteplici compiti, tra cui la stima 3D monoculare, l’estensione 2D-3D, la stima 3D multi-vista e la resa neurale dei soggetti umani.

I ricercatori hanno fornito basi di valutazione complete per vari compiti utilizzando FreeMan. Hanno confrontato le prestazioni dei modelli addestrati su FreeMan con quelli addestrati su dataset esistenti come Human3.6M e HuMMan. In particolare, i modelli addestrati su FreeMan hanno mostrato prestazioni significativamente migliori quando testati sul dataset 3DPW, evidenziando la superiorità della generalizzabilità di FreeMan agli scenari del mondo reale.

Negli esperimenti di stima della posa umana 3D multi-vista, i modelli addestrati su FreeMan hanno dimostrato migliori capacità di generalizzazione rispetto a quelli addestrati su Human3.6M quando testati su dataset cross-domain. I risultati hanno costantemente mostrato i vantaggi della diversità e della scala di FreeMan.

Negli esperimenti di estensione della posa 2D-3D, la sfida di FreeMan era evidente, poiché i modelli addestrati su questo dataset hanno affrontato un livello di difficoltà maggiore rispetto a quelli addestrati su altri dataset. Tuttavia, quando i modelli sono stati addestrati sull’intero set di addestramento di FreeMan, le loro prestazioni sono migliorate, dimostrando il potenziale del dataset per migliorare le prestazioni del modello con un addestramento su larga scala.

In conclusione, il gruppo di ricerca ha introdotto FreeMan, un innovativo dataset per la stima della posa umana 3D in scenari del mondo reale. Hanno affrontato diverse limitazioni dei dataset esistenti fornendo diversità nelle scene, azioni umane, parametri della fotocamera e dimensioni del corpo umano. Il flusso di lavoro di annotazione automatizzato di FreeMan e il processo di raccolta dati su larga scala lo rendono una risorsa preziosa per lo sviluppo di algoritmi più accurati e robusti per la stima della posa umana 3D. L’articolo di ricerca evidenzia le superiori capacità di generalizzazione di FreeMan rispetto ai dataset esistenti, mostrando il suo potenziale per migliorare le prestazioni dei modelli nelle applicazioni del mondo reale. Si prevede che la disponibilità di FreeMan stimolerà gli avanzamenti nella modellazione umana, nella visione artificiale e nell’interazione uomo-robot, colmando il divario tra le condizioni controllate di laboratorio e gli scenari del mondo reale.