È questo vero apprendimento multimodale? — ImageBind spiegato

È davvero questo un vero apprendimento multimodale? — Spiegato ImageBind

Immagine in testo o audio in testo, ecco l’apprendimento multimodale dell’anno scorso! ImageBind [1] di Meta AI. Ora questo è un vero apprendimento multimodale!

ImageBind combina più modalità in uno spazio di embedding condiviso. Ciò significa che possiamo fare un recupero cross-modale, cioè possiamo inserire una sequenza audio, ad esempio, il crepitio di un fuoco, e recuperare un’immagine di un fuoco scoppiettante. O possiamo anche combinare due diverse modalità, come un’immagine di un uccello e il rumore delle onde, per recuperare un’immagine dello stesso uccello in mare. E cosa ne diresti di migliorare DALLE-2 utilizzando l’audio come input invece del testo?

Idea e metodo

La cosa davvero fantastica qui è che ImageBind non è mai stato addestrato su audio e testo, né su testo e profondità, audio e IMU, profondità e termico, e così via. In effetti, tutti i dati necessari erano coppie di qualsiasi modalità e immagine. Quindi, ImageBind. Vincolano ogni modalità alle immagini. O meglio, allo spazio di embedding della visione.

L’idea è molto semplice. Partiamo da un codificatore di Visione preaddestrato, ad esempio, un ViT, che può codificare immagini e video. (Le immagini sono solo video a un singolo frame.) Con questo embedding dell’immagine, possiamo ora addestrare un modello diverso per allineare il suo embedding all’embedding dell’immagine fissa.

Illustrazione della formazione di due modelli separati per prevedere embedding simili per input corrispondenti di diverse modalità. Fonte: Adattata dall'autore da [1]

Ciò significa che, per questa immagine e il suo embedding, addestriamo un codificatore di testo per produrre un embedding per la didascalia dell’immagine che sia molto simile all’embedding dell’immagine. Lo stesso vale per un’immagine e i dati sulla profondità. Abbiamo il nostro embedding dell’immagine e stiamo ora addestrando un nuovo codificatore di dati sulla profondità che produce un embedding simile all’embedding corrispondente dell’immagine. Lo stesso vale per un’immagine e i suoi dati termici, un video e il suo audio e un video e i dati IMU registrati.IMU, a proposito, sono dati in serie temporali registrati da accelerometri e giroscopi.

Esempio di dati IMU. Fonte: [1]

Ad esempio, qui hai un video di una persona che cucina un pasto, a cui sono stati attaccati accelerometri e giroscopi…