Incontra PUG una nuova ricerca di IA da Meta AI su set di dati fotorealistici e semanticamente controllabili utilizzando Unreal Engine per una valutazione robusta dei modelli

PUG is a new AI research by Meta AI that uses Unreal Engine to evaluate models on photorealistic and semantically controllable datasets.

Imparare rappresentazioni di dati che siano trasferibili e applicabili tra diverse attività è un obiettivo ambizioso nell’apprendimento automatico. La disponibilità di grandi quantità di dati controllabili e realistici per la valutazione e l’addestramento è cruciale per raggiungere questo scopo e monitorare i progressi. Questo è particolarmente importante quando si pensa alla robustezza e all’equità dei modelli di reti neurali profonde, entrambi essenziali per i modelli utilizzati in ambienti pratici oltre alla loro semplice accuratezza. Tuttavia, è difficile ottenere tali informazioni a causa di preoccupazioni legate alla privacy, al bias e alla violazione del copyright. La maggior parte delle banche dati di immagini disponibili pubblicamente è difficile da modificare oltre le semplici aumentazioni delle immagini e manca di metadati dettagliati.

La collezione associata di etichette di fattori può essere facilmente recuperata utilizzando dati di immagini sintetiche in cui tutti i parametri che influenzano la scena generata sono controllati con precisione. In questo modo è possibile valutare tutte le capacità di una rete neurale profonda addestrata, compresa la sua robustezza. Nonostante il loro potenziale, molti dei dataset di immagini sintetiche esistenti potrebbero essere migliori per la ricerca di apprendimento di rappresentazioni di immagini generali a causa della loro mancanza di realismo e della loro tipica portata limitata.

Per affrontare questo problema, i ricercatori di Meta AI (FAIR), Mila-Quebec AI Institute e Université de Montréal forniscono una nuova collezione di dataset sintetici di Grafica Irreale Fotorealistica (PUG), creata con la comunità di ricerca sull’apprendimento di rappresentazioni in mente e caratterizzata da immagini molto più realistiche di quelle attualmente disponibili nel dominio pubblico. L’Unreal Engine [EpicGames] è stato utilizzato per creare gli ambienti, che è elogiato per il suo realismo ed è utilizzato ampiamente nei settori dei videogiochi e dell’intrattenimento. Introducono anche il pacchetto Python TorchMultiverse, che, oltre ai dataset di immagini statiche pre-renderizzate, fornisce un’interfaccia Python semplice per consentire la produzione di dataset facilmente controllabili da qualsiasi ambiente PUG dato. Utilizzando questi metodi, aggiungono quattro dataset aggiuntivi e ne dimostrano l’applicabilità a vari campi di studio:

  1. Animali per lo studio dello spazio simbolico nel contesto della ricerca sui modelli di base e la generalizzazione OOD.
  2. L’insieme completo di cambiamenti di fattori in ImageNet, inclusa la posa, lo sfondo, le dimensioni, la texture e l’illuminazione, serve come ulteriore set di test di robustezza per ImageNet.
  3. SPAR per testare modelli di visione linguistica. Lo utilizzano per mostrare come i dati artificiali possano aggirare i problemi con i benchmark esistenti.
  4. Introducono anche PUG: AR4T, un benchmark per il fine-tuning dei modelli visione-linguaggio, e mostrano quanto bene si complementi con PUG: SPAR.

I dataset PUG stabiliscono collettivamente un nuovo standard per il controllo e il fotorealismo dei dati di immagini artificiali.