Incontra MC-JEPA un’architettura predittiva a incorporamento congiunto per l’apprendimento auto-supervisionato delle caratteristiche di movimento e contenuto.
MC-JEPA è un'architettura predittiva che apprende in modo auto-supervisionato le caratteristiche di movimento e contenuto.
Recentemente, le tecniche che si concentrano sull’apprendimento delle caratteristiche del contenuto – in particolare, le caratteristiche che contengono le informazioni che ci permettono di identificare e discriminare gli oggetti – hanno dominato l’apprendimento auto-supervisionato nella visione. La maggior parte delle tecniche si concentra sull’identificazione di caratteristiche ampie che si comportano bene in compiti come la categorizzazione degli oggetti o la rilevazione delle attività nei film. L’apprendimento di caratteristiche localizzate che eccellono in compiti regionali come la segmentazione e la rilevazione è un concetto relativamente recente. Tuttavia, queste tecniche si concentrano sulla comprensione del contenuto di immagini e video piuttosto che sulla capacità di apprendere caratteristiche sui pixel, come il movimento nei film o le texture.
In questa ricerca, gli autori di Meta AI, PSL Research University e New York University si concentrano contemporaneamente sull’apprendimento delle caratteristiche del contenuto con l’apprendimento auto-supervisionato generico e sulle caratteristiche di movimento utilizzando stime di flusso ottico auto-supervisionato da film come problema pretesto. Quando due immagini – ad esempio, frame successivi in un film o immagini di una coppia stereo – si muovono o hanno una connessione densa di pixel, ciò viene catturato dal flusso ottico. Nella visione artificiale, l’estimazione è un problema fondamentale la cui risoluzione è essenziale per operazioni come l’odometria visiva, la stima della profondità o il tracciamento degli oggetti. Secondo i metodi tradizionali, l’estimazione del flusso ottico è un problema di ottimizzazione che mira a corrispondere i pixel con un requisito di regolarità.
La sfida di classificare i dati del mondo reale invece dei dati sintetici limita gli approcci basati su reti neurali e apprendimento supervisionato. Le tecniche di auto-supervisione competono ora con le tecniche supervisionate consentendo l’apprendimento da quantità sostanziali di dati video del mondo reale. La maggior parte degli approcci attuali, tuttavia, presta attenzione solo al movimento piuttosto che al contenuto (semantico) del video. Questo problema viene risolto apprendendo contemporaneamente elementi di movimento e di contenuto nelle immagini utilizzando un approccio multi-task. Metodi recenti identificano relazioni spaziali tra frame video. L’obiettivo è seguire il movimento degli oggetti per raccogliere dati di contenuto che le stime di flusso ottico non possono fornire.
- Ricercatori di UC Berkeley introducono Nerfstudio un framework Python per lo sviluppo di Neural Radiance Field (NeRF)
- Utilizzare l’IA per proteggersi dalla manipolazione delle immagini tramite l’IA
- Incontra Med-PaLM Multimodal (Med-PaLM M) un grande modello generativo multimodale che codifica e interpreta in modo flessibile i dati biomedici.
Questi metodi sono metodi di stima del movimento a livello di oggetto. Con una generalizzazione relativamente debole ad altri compiti visivi successivi, acquisiscono caratteristiche altamente specializzate per il compito di tracciamento. La scarsa qualità delle caratteristiche visive apprese è rafforzata dal fatto che sono spesso addestrate su piccoli set di dati video che richiedono maggiore diversità rispetto a set di dati di immagini più grandi come ImageNet. L’apprendimento di diverse attività contemporaneamente è una tecnica più affidabile per sviluppare rappresentazioni visive. Per risolvere questo problema, offrono MC-JEPA (Motion-Content Joint-Embedding Predictive Architecture). Utilizzando un codificatore comune, questo sistema basato sull’architettura di joint-embedding-predictive apprende stime di flusso ottico e caratteristiche di contenuto in un ambiente multi-task.
Ecco un riassunto dei loro contributi:
• Offrono una tecnica basata su PWC-Net che è arricchita con numerosi elementi aggiuntivi, come una perdita di coerenza inversa e un termine di regolarizzazione della varianza-covarianza, per l’apprendimento auto-supervisionato del flusso ottico da dati video sintetici e reali.
• Utilizzano M-JEPA con VICReg, una tecnica di apprendimento auto-supervisionato addestrata su ImageNet, in una configurazione multi-task per ottimizzare il flusso stimato e fornire caratteristiche di contenuto che si trasferiscono bene in vari compiti successivi. Il nome del loro approccio finale è MC-JEPA.
• Hanno testato MC-JEPA su una varietà di benchmark di flusso ottico, tra cui KITTI 2015 e Sintel, oltre che su compiti di segmentazione di immagini e video su Cityscapes o DAVIS, e hanno riscontrato che un singolo codificatore si comportava bene su ciascuno di questi compiti. Prevedono che MC-JEPA sarà un precursore delle metodologie di apprendimento auto-supervisionato basate su joint embedding e multi-task learning che possono essere addestrate su qualsiasi dato visivo, inclusi immagini e video, e che si comportano bene in vari compiti, dalla previsione del movimento alla comprensione del contenuto.