Riconoscimento e Generazione di Composizioni di Oggetti-Stato nell’Apprendimento Automatico Utilizzando Taglia e Apprendi

Riconoscimento e Generazione di Composizioni di Oggetti-Stato attraverso Machine Learning Utilizzando Taglia e Apprendi

Il mondo reale contiene oggetti di varie dimensioni, tonalità e texture. Caratteristiche visive, spesso chiamate stati o attributi, possono essere innati a un oggetto (come il colore) o acquisiti attraverso un trattamento (come il taglio). I modelli di riconoscimento basati sui dati attuali (ad esempio, reti neurali profonde) presuppongono la disponibilità di dati di addestramento robusti per attributi completi degli oggetti, ma hanno ancora bisogno di aiuto per generalizzare ad aspetti non visti degli oggetti. Tuttavia, gli esseri umani e altri animali hanno la capacità innata di riconoscere e immaginare una vasta gamma di cose con diverse proprietà, unendo insieme un piccolo numero di articoli conosciuti e i loro stati. I moderni modelli di apprendimento profondo hanno spesso bisogno di una maggiore generalizzazione compositiva e della capacità di sintetizzare e rilevare nuove combinazioni da concetti finiti.

Per contribuire allo studio della generalizzazione compositiva, vale a dire la capacità di riconoscere e produrre composizioni non viste di oggetti in stati diversi, un gruppo di ricercatori dell’Università del Maryland propone un nuovo dataset, Chop & Learn (ChopNLearn). Limitano la ricerca al taglio di frutta e verdura per concentrarsi sul componente compositivo. Questi oggetti cambiano forma in modi riconoscibili quando vengono tagliati in modi diversi, a seconda del metodo di taglio utilizzato. Lo scopo è esaminare come queste diverse approcci al riconoscimento degli stati degli oggetti senza osservazione diretta possano essere applicate a oggetti diversi. La scelta di 20 oggetti e 7 stili di taglio tipici (compreso l’oggetto completo) produce coppie di stati di oggetti di diverse granularità e dimensioni.

Il primo compito richiede al sistema di creare un’immagine a partire da una composizione (oggetto, stato) non incontrata durante l’addestramento. A tal scopo, i ricercatori propongono di modificare i modelli generativi di testo-immagine su larga scala esistenti. Confrontano molte approcci esistenti, tra cui Textual Inversion e DreamBooth, utilizzando prompt di testo per rappresentare la creazione dello stato degli oggetti. Suggeriscono anche un processo diverso, che prevede l’aggiunta di token aggiuntivi per oggetti e stati oltre all’aggiustamento simultaneo di modelli linguistici e di diffusione. Infine, valutano i punti di forza e di debolezza del modello generativo proposto e della letteratura esistente.

Il secondo compito espande un lavoro di riconoscimento azione compositiva esistente. Questo lavoro mira a rilevare piccoli cambiamenti negli stati degli oggetti, un passo iniziale fondamentale per il riconoscimento delle attività, mentre il focus dei lavori precedenti è stato sul tracciamento delle attività a lungo termine nei film. Il compito consente al modello di apprendere cambiamenti negli stati degli oggetti che non sono visibili a occhio nudo riconoscendo le composizioni di stati all’inizio e alla fine del compito. Utilizzando il dataset ChopNLearn, confrontano diverse basi moderne per compiti video. Lo studio conclude discutendo le molte funzioni relative a immagini e video che potrebbero beneficiare dell’utilizzo del dataset.

Ecco alcuni dei contributi:

  • Il dataset proposto di ChopNLearn includerebbe foto e filmati da varie angolazioni della fotocamera, che rappresentano diverse composizioni di stati degli oggetti.
  • Offrono una nuova attività chiamata Generazione Immagine Compositiva per generare immagini per composizioni di oggetti e stati attualmente non visibili per l’utente.
  • Impostano uno nuovo standard per l’azione compositiva nel suo complesso. Il riconoscimento mira ad apprendere e riconoscere come cambiano nel tempo e da diverse prospettive gli oggetti.

Limitazioni

La generalizzazione a pochi esempi sta diventando sempre più significativa man mano che i modelli di base diventano disponibili. Il potenziale di ChopNLearn viene investigato in questo lavoro per l’uso nello studio della produzione compositiva e dell’identificazione di concetti estremamente complessi e interrelati. ChopNLearn è, ammettiamolo, un dataset di piccole dimensioni con uno sfondo verde, il che limita la generalizzabilità dei modelli addestrati su di esso. Tuttavia, questo è il primo tentativo di apprendere come diversi oggetti potrebbero condividere stati sottili comuni (stili di taglio). Lo indagano addestrando e testando modelli più complessi utilizzando ChopNLearn, quindi utilizzando lo stesso strumento per ottimizzare ulteriormente quei modelli con e senza uno sfondo verde. Inoltre, si prevede che la comunità beneficerà dell’utilizzo di ChopNLearn in compiti ancora più difficili come la ricostruzione 3D, l’interpolazione dei frame video, la creazione di cambiamenti di stato, ecc.

Visita https://chopnlearn.github.io/ per ulteriori informazioni.

Per riassumere

I ricercatori offrono ChopNLearn, un nuovo dataset per valutare la generalizzazione compositiva, ovvero la capacità dei modelli di riconoscere e creare composizioni non viste di oggetti in stati diversi. Inoltre, presentano due nuove attività, Generazione Immagine Compositiva e Riconoscimento Azione Compositiva, su cui valutare l’efficacia dei modelli generativi esistenti e delle tecniche di riconoscimento video. Illustrano i problemi con i metodi attuali e la loro limitata generalizzabilità a nuove composizioni. Tuttavia, queste due attività sono solo la punta dell’iceberg proverbiale. Molteplici attività di immagini e video si basano sulla comprensione degli stati degli oggetti, tra cui la ricostruzione 3D, la previsione dei frame futuri, la produzione video, la sintesi e l’analisi di video a lungo termine. Grazie a questo dataset, i ricercatori sperano che vengano proposte e apprese nuove sfide compositive per foto, video, 3D e altri media dalla comunità della computer vision.