È questo vero apprendimento multimodale? — ImageBind spiegato
È davvero questo un vero apprendimento multimodale? — Spiegato ImageBind
Immagine in testo o audio in testo, ecco l’apprendimento multimodale dell’anno scorso! ImageBind [1] di Meta AI. Ora questo è un vero apprendimento multimodale!
ImageBind combina più modalità in uno spazio di embedding condiviso. Ciò significa che possiamo fare un recupero cross-modale, cioè possiamo inserire una sequenza audio, ad esempio, il crepitio di un fuoco, e recuperare un’immagine di un fuoco scoppiettante. O possiamo anche combinare due diverse modalità, come un’immagine di un uccello e il rumore delle onde, per recuperare un’immagine dello stesso uccello in mare. E cosa ne diresti di migliorare DALLE-2 utilizzando l’audio come input invece del testo?
Idea e metodo
La cosa davvero fantastica qui è che ImageBind non è mai stato addestrato su audio e testo, né su testo e profondità, audio e IMU, profondità e termico, e così via. In effetti, tutti i dati necessari erano coppie di qualsiasi modalità e immagine. Quindi, ImageBind. Vincolano ogni modalità alle immagini. O meglio, allo spazio di embedding della visione.
- Iniziare con le query del database a grafo, con foglio di riferimento rapido!
- Perché l’Ingegneria Prompt è una moda
- Google AI introduce Audioplethysmography (APG) una nuova modalità di monitoraggio cardiaco alimentata da intelligenza artificiale per cuffie con cancellazione attiva del rumore (ANC)
L’idea è molto semplice. Partiamo da un codificatore di Visione preaddestrato, ad esempio, un ViT, che può codificare immagini e video. (Le immagini sono solo video a un singolo frame.) Con questo embedding dell’immagine, possiamo ora addestrare un modello diverso per allineare il suo embedding all’embedding dell’immagine fissa.
Ciò significa che, per questa immagine e il suo embedding, addestriamo un codificatore di testo per produrre un embedding per la didascalia dell’immagine che sia molto simile all’embedding dell’immagine. Lo stesso vale per un’immagine e i dati sulla profondità. Abbiamo il nostro embedding dell’immagine e stiamo ora addestrando un nuovo codificatore di dati sulla profondità che produce un embedding simile all’embedding corrispondente dell’immagine. Lo stesso vale per un’immagine e i suoi dati termici, un video e il suo audio e un video e i dati IMU registrati.IMU, a proposito, sono dati in serie temporali registrati da accelerometri e giroscopi.
Ad esempio, qui hai un video di una persona che cucina un pasto, a cui sono stati attaccati accelerometri e giroscopi…