Incontra BITE un nuovo metodo che ricostruisce la forma e le pose tridimensionali di un cane da un’immagine, anche con pose difficili come seduto e sdraiato.

Meet BITE, a new method that reconstructs the 3D shape and poses of a dog from an image, even with difficult poses such as sitting and lying down.

Diversi campi, tra cui biologia e conservazione, nonché intrattenimento e sviluppo di contenuti virtuali, possono beneficiare della cattura e della modellizzazione di forme e atteggiamenti animali in 3D. Poiché non hanno bisogno che l’animale rimanga immobile, mantenga una particolare postura, faccia contatto fisico con l’osservatore o faccia qualsiasi altra cosa collaborativa, le fotocamere sono un sensore naturale per osservare gli animali. Esiste una lunga storia nell’utilizzo di foto per lo studio degli animali, come le cronofotografie ben note di Muybridge “Horse in Motion”. Tuttavia, a differenza del precedente lavoro sulla forma e sulla posizione umana in 3D, sono stati sviluppati di recente modelli 3D espressivi che possono cambiare la forma e la posizione unica di un animale. Qui, ci concentriamo sulla sfida della ricostruzione 3D del cane da una singola fotografia.

Ci concentriamo sui cani come specie modello a causa delle loro forti deformazioni articolate simili a quelle di un quadrupede e della vasta variazione di forme tra le razze. I cani vengono regolarmente catturati su pellicola. Pertanto, varie posizioni, forme e impostazioni sono facilmente accessibili. Modellare persone e cani può presentare difficoltà simili a prima vista, ma pongono ostacoli tecnologici estremamente distinti. Una vasta quantità di dati di scansione 3D e di acquisizione del movimento è già disponibile per le persone. L’apprendimento di modelli robusti e articolati come SMPL o GHUM è stato reso possibile dalla copertura dei dati delle variabili di postura e forma corrette.

Al contrario, è difficile raccogliere osservazioni 3D degli animali, e attualmente ne servono di più disponibili per addestrare modelli statistici 3D altrettanto espressivi che tengano conto di tutte le forme e posizioni concepibili. È ora possibile ricreare animali in 3D dalle fotografie, compresi i cani, grazie allo sviluppo di SMAL, un modello quadrupede parametrico appreso da figurine giocattolo. Al contrario, SMAL è un modello generale per molte specie, dai gatti agli ippopotami. Sebbene possa rappresentare i molti tipi di corpo di vari animali, non può rappresentare i dettagli distintivi e minuti delle razze di cani, come l’ampia gamma di orecchie. Per risolvere questo problema, i ricercatori dell’ETH di Zurigo, dell’Istituto Max Planck per i sistemi intelligenti, in Germania, e dell’IMATI-CNR, in Italia, forniscono il primo modello parametrico D-SMAL, che rappresenta correttamente i cani.

Un altro problema è che, a differenza delle persone, i cani hanno relativamente pochi dati di acquisizione del movimento, e di quei dati che esistono, le posizioni sedute e reclinabili sono rare. A causa di questo, è difficile per gli algoritmi attuali inferire i cani in determinate posizioni. Ad esempio, l’apprendimento di una priorità su pose 3D dai dati storici la influenzerà verso posizioni in piedi e in camminata. Utilizzando vincoli generici, si può indebolire questa priorità, ma la stima della postura diventerebbe gravemente sottostimata. Per risolvere questo problema, utilizzano informazioni sulla contatto fisico che finora sono state trascurate durante la modellizzazione degli animali (terrestri), come il fatto che sono soggetti alla gravità e quindi stanno in piedi, sono seduti o sdraiati sul terreno.

In situazioni difficili con ampia auto-occlusione, dimostrano come possano utilizzare informazioni di contatto con il terreno per stimare posizioni complesse di cani. Sebbene le restrizioni del piano del terreno siano state utilizzate nella stima della postura umana, il vantaggio potenziale è maggiore per i quadrupedi. Quattro zampe indicano più punti di contatto con il terreno, più parti del corpo oscurate quando si siedono o si sdraiano e deformazioni non rigide più grandi. Un altro svantaggio delle ricerche precedenti è che le pipeline di ricostruzione sono spesso addestrate su immagini 2D poiché la raccolta di dati 3D (con immagini 2D abbinati) è difficile. Di conseguenza, spesso prevedono posizioni e forme che, quando riproiettate, corrispondono strettamente alle prove visive ma sono distorte lungo la direzione di visualizzazione.

La ricostruzione 3D potrebbe essere errata se vista da un angolo diverso perché, in assenza di dati abbinati, non ci sono informazioni sufficienti per determinare dove posizionare componenti corporee ancora più lontane o oscurate lungo la direzione di profondità. Ancora una volta, scoprono che la simulazione del contatto con il terreno è vantaggiosa. Invece di ricostruire manualmente (o sintetizzare) dati accoppiati 2D e 3D, passiamo a un metodo di supervisione 3D più lassista e acquisiamo etichette di contatto con il terreno. Chiedono agli annotatori di indicare se la superficie del terreno sotto il cane è piatta e, in caso affermativo, di annotare anche i punti di contatto con il terreno sull’animale 3D. Lo fanno presentando vere foto agli annotatori.

Figura 1 mostra come BITE rende possibile stimare la forma e l’atteggiamento in 3D di un cane da una singola immagine di input. Il modello è in grado di lavorare con una varietà di razze e tipi, nonché con pose difficili che sono al di fuori del campo delle pose di allenamento, tra cui seduti o sdraiati sul terreno.

Hanno scoperto che la rete può essere insegnata a classificare la superficie e a rilevare i punti di contatto abbastanza accuratamente da una singola immagine, in modo che possano essere impiegati anche durante il test. Queste etichette sono utilizzate non solo per l’addestramento. Basandosi sul modello all’avanguardia più recente, BARC, il loro sistema di ricostruzione è noto come BITE. Ritrasmettono BARC utilizzando il loro nuovo modello di cane D-SMAL come passo iniziale e approssimativo. Successivamente, inviano le previsioni risultanti alla loro rete di raffinamento appena creata, che addestrano utilizzando perdite di contatto a terra per migliorare sia le impostazioni della fotocamera che la posizione del cane. Possono anche utilizzare la perdita di contatto a terra durante il test per ottimizzare completamente l’adattamento all’immagine di test in modo del tutto autonomo.

Ciò aumenta notevolmente la qualità della ricostruzione. Anche se l’insieme di addestramento per la postura BARC precedente non contiene tali pose, possono ottenere cani utilizzando BITE che stanno correttamente sul terreno (localmente piano) o sono ricostruiti realisticamente in posizione seduta e distesa (vedi Fig. 1). Lavori precedenti sulla ricostruzione del cane 3D sono valutati sia mediante valutazioni visive soggettive che mediante la retroproiezione dell’immagine e la valutazione dei residui 2D, proiettando così le inaccuracies relative alla profondità. Hanno sviluppato un insieme di dati unico e semi-sintetico con una verità terrena 3D producendo scansioni 3D di cani reali da diversi angoli di visualizzazione per superare l’assenza di valutazioni 3D oggettive. Valutano BITE e i suoi principali rivali utilizzando questo nuovo insieme di dati, dimostrando che BITE stabilisce un nuovo standard per il campo.

Ecco un riassunto dei loro contributi:

1. Forniscono D-SMAL, un nuovo modello di postura e forma 3D specifico per cani sviluppato da SMAL.

2. Creano BITE, un modello neurale per migliorare le posture dei cani in 3D contemporaneamente valutando il piano di terra locale. BITE favorisce un contatto convincente a terra.

3. Dimostrano come sia possibile recuperare posizioni di cani molto diverse da quelle codificate in un precedente (necessariamente piccolo) utilizzando quel modello.

4. Utilizzando il complesso insieme di dati di StanfordExtra, migliorano lo stato dell’arte per l’estimazione della postura 3D monoculare.

5. Per promuovere la transizione a una vera valutazione 3D, presentano una nuova collezione di test 3D semi-sintetica basata su scansioni di cani reali.