E se potessi trasformare il tuo modello basato solo sulla visione in un VLM allenando solo uno strato lineare usando una modesta quantità di immagini non etichettate? Scopri Text-to-Concept (e ritorno) tramite l’allineamento tra modelli incrociati.

Trasforma il tuo modello vision-based in un VLM con uno strato lineare e poche immagini non etichettate, grazie all'allineamento tra modelli incrociati.

La struttura semantica abbonda negli spazi di rappresentazione utilizzati dai modelli di visione profonda. Tuttavia, gli esseri umani hanno difficoltà a dare un senso a questi spazi di caratteristiche profonde a causa del volume di statistiche coinvolte. A differenza dei modelli di profondità, gli esseri umani hanno sviluppato un linguaggio per rappresentare in modo sintetico il mondo che li circonda, che codifica concetti come vettori in spazi ad alta dimensione.

L’Università del Maryland e Meta AI propongono un metodo per mappare il testo ai vettori di concetto utilizzando encoder di visione disponibili sul mercato addestrati senza supervisione del testo per facilitare il confronto diretto tra le rappresentazioni delle parole e delle immagini. Questo metodo regola lo spazio di rappresentazione di un modello di visione per farlo coincidere con quello di un modello CLIP. Lo spazio di rappresentazione CLIP è destinato ad essere condiviso contemporaneamente da encoder di visione e di testo addestrati. Di conseguenza, l’encoder di testo per il testo-concetto è già incluso nei modelli CLIP.

Il metodo apprende una mappatura tra gli spazi di rappresentazione per utilizzare questa capacità per modelli disponibili commercialmente. Per essere più precisi, i ricercatori massimizzano una funzione per inferire la rappresentazione CLIP di un’immagine dalla rappresentazione della stessa immagine in un modello di visione disponibile sul mercato. Le caratteristiche allineate esisterebbero quindi nello stesso spazio del vettore di concetto per il testo target dopo aver mappato le rappresentazioni del modello preconfezionato a CLIP. Tuttavia, la funzione di mappatura potrebbe alterare drasticamente la semantica dell’input. Per evitare ciò, si assicurano che nello spazio delle ipotesi delle mappe esistano solo trasformazioni affini. Nonostante la loro apparente mancanza di complessità, il team scopre che i livelli lineari sono sorprendentemente utili per il raggiungimento dell’allineamento dello spazio delle caratteristiche tra modelli di architetture e metodi di addestramento variabili.

L’utilizzo di encoder disponibili commercialmente per la classificazione zero-shot testo-concetto fornisce un forte supporto al metodo. Rispetto a un modello CLIP, che è più grande, addestrato su un numero maggiore di campioni con una supervisione più ricca e, soprattutto, esplicitamente progettato per allinearsi con l’encoder di testo utilizzato nel testo-concetto, i modelli mostrano una sorprendente precisione zero-shot su molte attività. Sorprendentemente, in alcuni casi, in particolare per il riconoscimento dei colori, l’accuratezza zero-shot dei modelli disponibili commercialmente supera quella del CLIP.

I vantaggi interpretativi del testo-concetto vanno oltre l’apprendimento zero-shot gratuito e includono, ad esempio, la conversione di encoder visivi in Modelli di Bottleneck di Concetto (CBM) senza la necessità di supervisione del concetto. Ad esempio, il team applica questo metodo al dataset RIVAL10, che contiene etichette di attributi che consultano per garantire l’accuratezza della previsione del concetto zero-shot. Con l’approccio zero-shot presentato, sono riusciti a prevedere gli attributi RIVAL10 con un alto grado di precisione (93,8%), ottenendo così un CBM con i benefici interpretativi attesi.

Il loro articolo dimostra anche che il testo-concetto può spiegare la distribuzione di enormi dataset in termini umani analizzando le somiglianze tra una collezione di vettori testo-concetto e le rappresentazioni allineate dei dati. Questo metodo può diagnosticare spostamenti di distribuzione confrontando il cambiamento con concetti facilmente comprensibili. Il recupero delle immagini basato su concetti è un altro metodo del testo-concetto che facilita l’interazione con enormi dataset. I ricercatori utilizzano la logica dei concetti per interrogare le rappresentazioni delle immagini per un determinato modello che soddisfa un insieme di soglie di somiglianza dei concetti, consentendo agli esseri umani di avere maggior controllo sul peso relativo di ciascun concetto nella ricerca e portando a risultati accettabili nella localizzazione di foto specifiche all’interno di un vasto corpus.

Infine, il team ha introdotto il concetto-testo per decodificare direttamente i vettori nello spazio di rappresentazione di un modello, completando il ciclo di comunicazione uomo-macchina. Utilizzano un decodificatore di spazio CLIP preesistente con un embedding per guidare l’output di GPT-2 dopo aver allineato lo spazio del modello a CLIP. Utilizzano quindi uno studio umano per verificare che le didascalie decodificate spieghino accuratamente la classe collegata a ciascun vettore. I risultati mostrano che il loro approccio semplice ha successo in oltre il 92% dei test.