Una nuova ricerca sull’Intelligenza Artificiale condotta da Stanford, Cornell e Oxford presenta un modello generativo che scopre gli intrinseci degli oggetti utilizzando solo poche istanze in un’immagine singola.

Stanford, Cornell, and Oxford conducted a new AI research presenting a generative model that discovers intrinsic object features using only a few instances in a single image.

L’essenza di una rosa è costituita dalla sua geometria unica, dalla texture e dalla composizione del materiale. Questo può essere utilizzato per creare rose di diverse dimensioni e forme in diverse posizioni e con una vasta gamma di effetti di illuminazione. Anche se ogni rosa ha un insieme unico di valori di pixel, possiamo ancora identificarle come membri della stessa classe.

Utilizzando i dati di una singola fotografia, i ricercatori di Stanford, Oxford e Cornell Tech sperano di creare un modello che possa essere utilizzato per generare nuove forme e immagini da diverse prospettive e illuminazioni.

Ci sono tre ostacoli per risolvere questo problema:

  1. Il problema di inferenza è estremamente poco vincolato poiché c’è solo un’immagine nel dataset di addestramento e ha solo alcune centinaia di istanze.
  2. Potrebbero esserci una vasta gamma di possibili valori di pixel in queste poche circostanze. Ciò perché né le posizioni né le condizioni di illuminazione sono state annotate o sono note.
  3. Nessuna due rose sono uguali e c’è bisogno di catturare una distribuzione della loro forma, della texture e del materiale per sfruttare le informazioni multi-vista sottostanti. Pertanto, le intrinseche degli oggetti destinate ad essere inferite sono probabilistiche anziché deterministiche. Questo è un significativo distacco rispetto agli attuali approcci di ricostruzione multi-vista o di rendering neurale per un oggetto o una scena statica.

L’approccio proposto prende le intrinseche degli oggetti come punto di partenza per indurre dei bias nella creazione del modello. Queste regole sono composte da due parti:

  1. Le istanze da presentare devono tutte avere la stessa intrinseca o distribuzione di geometria, texture e materiale.
  2. Le proprietà intrinseche non sono separate l’una dall’altra ma sono intrecciate in modo particolare, come definito da un motore di rendering e, alla fine, dal mondo fisico.

In particolare, il loro modello prende una singola immagine di input e, utilizzando una collezione di maschere di istanza e una distribuzione di pose particolare delle istanze, apprende una rappresentazione neurale della distribuzione sulla forma 3D, l’albedo della superficie e la lucentezza dell’oggetto, eliminando quindi gli effetti delle fluttuazioni di posa e illuminazione. Questa disintegrazione esplicita, basata sulla fisica, aiuta nella loro breve spiegazione delle istanze. Consente al modello di acquisire le intrinseche degli oggetti senza sovradattare le osservazioni scarse fornite da una singola immagine.

Come i ricercatori menzionano, il modello risultante rende possibili molteplici usi. Ad esempio, nuove istanze con identità distinte possono essere generate campionando casualmente dalle intrinseche degli oggetti apprese. Le istanze sintetiche possono essere ri-renderizzate con nuovi angoli di telecamera e impostazioni di illuminazione regolando questi elementi esterni.

Il team ha condotto test approfonditi per dimostrare le prestazioni migliorate del modello nella ricostruzione e generazione di forme, nell’innovativa sintesi di visualizzazioni e nel relighting.