Meta AI presenta IMAGEBIND il primo progetto di intelligenza artificiale open source in grado di unire dati provenienti da sei modalità contemporaneamente, senza la necessità di supervisione esplicita.

Meta AI presenta IMAGEBIND, il primo progetto di intelligenza artificiale open source che unisce dati da sei modalità senza supervisione esplicita.

Gli esseri umani possono comprendere idee complesse dopo essere stati esposti solo a pochi esempi. La maggior parte delle volte, possiamo identificare un animale sulla base di una descrizione scritta e indovinare il suono del motore di una macchina sconosciuta sulla base di un’immagine. Questo è in parte perché un’immagine singola può “unire” un’esperienza sensoriale altrimenti disparata. Sulla base dei dati accoppiati, l’apprendimento multimodale standard ha limitazioni nell’intelligenza artificiale all’aumentare del numero di modalità.

Allineare testo, audio, ecc., con le immagini è stato l’obiettivo di diverse metodologie recenti. Queste strategie utilizzano al massimo due sensi. Tuttavia, le rappresentazioni finali possono rappresentare solo le modalità di allenamento e le loro coppie corrispondenti. Per questo motivo, non è possibile trasferire direttamente le rappresentazioni dei video-audio alle attività immagine-testo o viceversa. La mancanza di enormi quantità di dati multimodali in cui tutte le modalità sono presenti contemporaneamente rappresenta un ostacolo significativo per l’apprendimento di una rappresentazione congiunta reale.

La nuova ricerca Meta introduce IMAGEBIND, un sistema che utilizza diverse forme di dati di coppie di immagini per apprendere uno spazio di rappresentazione condiviso unico. Non è necessario utilizzare set di dati in cui tutte le modalità si verificano contemporaneamente. Questo lavoro sfrutta invece la proprietà di unione delle immagini e dimostra come allineare le rappresentazioni di ogni modalità alle rappresentazioni delle immagini porti a un allineamento emergente tra tutte le modalità.

La grande quantità di immagini e testo disponibili sul web ha portato a una notevole ricerca nell’addestramento di modelli immagine-testo. ImageBind sfrutta il fatto che le immagini si verificano frequentemente insieme ad altre modalità e possono fungere da ponte per connetterle, ad esempio collegare il testo all’immagine con dati online o collegare il movimento al video con dati video acquisiti da telecamere indossabili con sensori IMU.

Gli obiettivi per l’apprendimento delle caratteristiche tra le modalità possono essere le rappresentazioni visive apprese da enormi quantità di dati web. Ciò significa che ImageBind può allineare qualsiasi altra modalità che appare frequentemente insieme alle immagini. L’allineamento è più semplice per modalità come calore e profondità che correlano molto alle immagini.

ImageBind dimostra che utilizzando solo immagini accoppiate è possibile integrare tutte e sei le modalità. Il modello può fornire un’interpretazione più completa delle informazioni permettendo alle diverse modalità di “dialogare” tra loro e scoprire connessioni senza osservazione diretta. Ad esempio, ImageBind può collegare suono e testo anche se non può vederli insieme. In questo modo, altri modelli possono “capire” nuove modalità senza richiedere un addestramento esteso in termini di tempo ed energia. Il comportamento di scalabilità robusto di ImageBind rende possibile utilizzare il modello al posto o in aggiunta a molti modelli di intelligenza artificiale che in precedenza non potevano utilizzare modalità aggiuntive.

La combinazione di dati accoppiati immagine-testo su larga scala con dati auto-supervisionati naturalmente accoppiati attraverso quattro nuove modalità: audio, profondità, termico e letture dell’unità di misura inerziale (IMU) dimostra una forte prestazione emergente di classificazione e recupero a zero-shot per ogni nuova modalità. Il team mostra che il rafforzamento della rappresentazione sottostante dell’immagine migliora queste caratteristiche emergenti.

I risultati suggeriscono che l’emergente classificazione a zero-shot di IMAGEBIND su benchmark di classificazione e recupero audio come ESC, Clotho e AudioCaps sia all’altezza o superi i modelli esperti addestrati con supervisione diretta audio-testo. Su benchmark di valutazione a pochi esempi, le rappresentazioni di IMAGEBIND si comportano anche meglio rispetto ai modelli addestrati da esperti. Infine, dimostrano la versatilità delle rappresentazioni congiunte di IMAGEBIND in varie attività compositive, tra cui il recupero cross-modale, una combinazione aritmetica delle rappresentazioni, la rilevazione della sorgente audio nelle immagini e la generazione di immagini dall’input audio.

Dato che queste rappresentazioni non sono addestrate per una particolare applicazione, rimangono indietro in termini di efficienza rispetto ai modelli specifici del dominio. Il team ritiene che sarebbe utile approfondire la conoscenza su come adattare le rappresentazioni a uso generale a obiettivi specifici, come compiti di previsione strutturata come la rilevazione.