Ricercatori dell’Università di Cambridge presentano un dataset di 50.000 immagini sintetiche e fotorealistiche di piedi, insieme a una nuova libreria di intelligenza artificiale per piedi.

Esperti dell'Università di Cambridge presentano un dataset di 50.000 immagini fotorealistiche di piedi e una nuovissima libreria di intelligenza artificiale specializzata.

Le industrie della salute, della moda e del fitness sono molto interessate al difficile problema della visione artificiale di ricostruire in 3D parti del corpo umano da immagini. Affrontano il problema di ricostruire un piede umano in questo studio. I modelli accurati dei piedi sono utili per fare shopping di scarpe, ortesi e monitoraggio personale della salute, e l’idea di recuperare un modello di piede in 3D dalle immagini è diventato molto attraente man mano che il mercato digitale per queste attività cresce. Ci sono quattro tipi di soluzioni esistenti per la ricostruzione del piede: l’utilizzo di costosi apparecchi per la scansione è un metodo, la ricostruzione di cloud di punti rumorosi utilizzando mappe di profondità o sensori basati su telefoni come una fotocamera TrueDepth è un altro metodo, Segue Structure from Motion (SfM) e Multi-View Stereo (MVS) e modelli generativi di piedi sono adatti alle sagome delle immagini rappresenta un quarto metodo.

Concludono che nessuna di queste opzioni è adeguata per la scansione precisa in un contesto domestico: la maggior parte delle persone non può permettersi attrezzature costose per la scansione; i sensori basati su telefoni non sono ampiamente disponibili o facili da usare; i cloud di punti rumorosi sono difficili da utilizzare per attività successive, come il rendering e la misurazione; inoltre, i modelli generativi di piedi sono di scarsa qualità e limitanti, e l’uso solo delle sagome delle immagini limita la quantità di informazioni geometriche che si possono ottenere dalle immagini, il che è particolarmente problematico in un contesto a poche viste. SfM dipende da molte immagini di input per abbinare funzionalità dense tra le immagini, e MVS può anche produrre cloud di punti rumorosi.

La scarsa disponibilità di foto accoppiate e dati 3D di riferimento per i piedi per l’addestramento restringe ulteriormente le prestazioni di questi approcci. Per fare ciò, i ricercatori dell’Università di Cambridge presentano FOUND, o Foot Optimisation, utilizzando Uncertain Normals for Surface Deformation. Questo algoritmo utilizza l’incertezza oltre alle normali delle superfici per pixel per migliorare gli approcci di ottimizzazione convenzionali per la ricostruzione multi-vista. Come la loro tecnica richiede un numero minimo di fotografie RGB di input che sono state calibrate. Nonostante si basino solo sulle sagome, prive di informazioni geometriche, utilizzano le normali delle superfici e i punti chiave come indizi supplementari. Mettono anche a disposizione una collezione di dimensioni considerevoli di fotografie fotorealistiche artificiali abbinate a etichette di verità fondamentali per questo tipo di segnali per superare la scarsità di dati.

Le loro principali contributi sono riassunti di seguito:

• Rilasciano SynFoot, un ampio set di dati sintetici di 50.000 fotografie fotorealistiche di piedi con sagome, normali di superficie ed etichette perpunto chiave precise, per aiutare nella ricerca sulla ricostruzione del piede in 3D. Sebbene ottenere tali informazioni su foto reali richieda costosi apparecchi per la scansione, il loro set di dati presenta una grande scalabilità. Dimostrano che il loro set di dati sintetici cattura sufficiente varianza all’interno delle immagini di piedi per attività successive per generalizzarle alle immagini reali nonostante abbiano solo 8 scansioni di piedi reali. Inoltre, mettono a disposizione un set di dati di valutazione composto da 474 foto di 14 piedi reali, ciascuna corrispondente a scansioni 3D ad alta risoluzione e normali di superficie a pixel reale. Infine, rendono noto la loro libreria Python proprietaria per Blender, che consente la creazione efficace di set di dati sintetici su larga scala.

• Mostrano che una rete di stima delle normali di superficie consapevole dell’incertezza può generalizzare a immagini di piedi reali in natura dopo l’addestramento solo sui dati sintetici delle 8 scansioni di piedi. Per ridurre la differenza nel dominio tra foto artificiali e autentiche dei piedi, utilizzano l’aggressiva aumentazione dell’aspetto e della prospettiva. La rete calcola l’incertezza associata e le normali di superficie in ciascun pixel. L’incertezza è utile in due modi: in primo luogo, mediante l’analisi dell’incertezza, è possibile ottenere sagome precise senza dover addestrare una rete diversa; in secondo luogo, utilizzando l’incertezza stimata per ponderare la perdita delle normali di superficie nel loro schema di ottimizzazione, si può aumentare la robustezza contro la possibilità che le previsioni effettuate in alcune viste potrebbero non essere accurate.

• Forniscono una strategia di ottimizzazione che utilizza il rendering differenziabile per adattare un modello generativo di piede a una serie di foto calibrate con normali di superficie e punti chiave attesi. Il loro flusso di lavoro supera la fotogrammetria all’avanguardia per la ricostruzione delle superfici, è consapevole dell’incertezza e può ricostruire una mesh sigillata a prova di acqua da un numero limitato di viste. Può anche essere utilizzato per dati ottenuti dal telefono cellulare di un consumatore.