Un modo semplice per migliorare le prestazioni di Zero-Shot CLIP

Un semplice trucco per potenziare le performance di Zero-Shot CLIP

Parte 1 – Prompt personalizzati tramite modelli di linguaggio (CuPL)

I modelli unimodali sono progettati per lavorare con dati da una singola modalità, che può essere testo o immagini. Questi modelli si specializzano nella comprensione e generazione di contenuti specifici alla modalità scelta. Ad esempio, GPT è eccellente nella generazione di testo simile a quello umano. È stato utilizzato per compiti come la traduzione del linguaggio, la generazione di testo e la risposta a domande. Le reti neurali convoluzionali (CNN) sono esempi di modelli di immagini che eccellono in compiti come la classificazione delle immagini, il rilevamento degli oggetti e la generazione di immagini. Attualmente, molti compiti interessanti come la risposta alle domande visive (VQA) e il recupero di immagini-testo richiedono capacità multimodali. È possibile combinare sia l’elaborazione del testo che delle immagini? Si può! CLIP si distingue come uno dei primi modelli immagine-testo di grande successo, dimostrando competenza sia nel riconoscimento delle immagini che nella comprensione del testo.

Dividiremo questo articolo nelle seguenti sezioni:

  1. Introduzione
  2. Architettura
  3. Processo di addestramento e perdita contrastiva
  4. Capacità zero-shot
  5. CuPL
  6. Conclusioni

Introduzione

Il modello CLIP è un impressionante predittore zero-shot, che consente previsioni su compiti per i quali non è stato esplicitamente addestrato. Come vedremo più in dettaglio nelle sezioni successive, utilizzando prompt di linguaggio naturale per interrogare le immagini, CLIP può eseguire la classificazione delle immagini senza richiedere dati di addestramento specifici del compito. Tuttavia, le sue prestazioni possono essere significativamente migliorate con alcuni trucchi. In questa serie di articoli, esploreremo metodi che sfruttano prompt aggiuntivi generati da grandi modelli di linguaggio (LLM) o da esempi di addestramento a poche ripetizioni senza coinvolgere l’addestramento di parametri aggiuntivi. Questi approcci offrono un vantaggio distintivo in quanto richiedono meno risorse computazionali e non necessitano di un’ulteriore messa a punto dei parametri.

Architettura

CLIP è un modello di doppio encoder con due diversi encoder per modalità visiva e testuale che codificano immagini e testi in modo indipendente. Tale architettura è diversa dal codificatore di fusione che consente l’interazione tra modalità visiva e testuale attraverso un’attenzione incrociata che coinvolge l’apprendimento dei pesi di attenzione che aiutano il modello a concentrarsi su specifiche regioni di…