Una nuova ricerca sull’IA proveniente dalla Cina propone SHIP un approccio all’IA generativa plug-and-play per migliorare i metodi esistenti di fine-tuning.

La ricerca cinese propone SHIP, un nuovo approccio plug-and-play all'IA generativa per migliorare il fine-tuning.

Questo articolo affronta un nuovo approccio chiamato SyntHesIzed Prompts (SHIP) per migliorare i metodi di fine-tuning esistenti.

Fine-tuning: Dopo la pre-trainig, il modello viene poi sottoposto a fine-tuning su un dataset più piccolo e specifico per il compito. Questo comporta il continuo processo di addestramento sui nuovi dati, spesso con un learning rate più basso. L’idea è di modificare la conoscenza generalizzata che il modello ha acquisito durante la pre-training per renderla più applicabile al compito specifico.

Il problema affrontato dai ricercatori è lo scenario in cui alcune classi non hanno dati. Hanno voluto addestrare un modello generativo in grado di sintetizzare le caratteristiche fornendo i nomi delle classi, che consente di generare caratteristiche per categorie senza dati.

Generare caratteristiche per categorie senza dati si riferisce al processo di sintetizzare rappresentazioni per classi o categorie che non sono presenti nel dataset di addestramento. Ciò è particolarmente utile in scenari in cui può essere difficile o impossibile raccogliere dati reali per determinate classi.

I ricercatori hanno quindi sottoposto CLIP a fine-tuning utilizzando sia le caratteristiche originariamente etichettate che quelle sintetizzate con metodi predefiniti. Tuttavia, un ostacolo importante è che i modelli generativi richiedono tipicamente una quantità sostanziale di dati per essere addestrati, il che contrasta con il loro obiettivo di efficienza dei dati. Hanno proposto di utilizzare un autoencoder variazionale (VAE) come framework, che è più facile da addestrare e più efficace in scenari di bassi dati rispetto ai modelli che richiedono l’addestramento avversario.

Anche se sia le GAN che i VAE sono modelli generativi capaci di creare nuovi campioni di dati, differiscono significativamente per architettura, obiettivi e metodi di addestramento. Le GAN sono conosciute per la loro capacità di generare campioni di alta qualità e realistici, ma possono essere difficili da addestrare. I VAE, d’altra parte, forniscono un framework probabilistico che può essere più facile da utilizzare, specialmente in scenari con dati limitati, ma potrebbero non produrre campioni altrettanto nitidi o realistici come le GAN.

CLIP (Contrastive Language–Image Pretraining) è un modello sviluppato da OpenAI che apprende a comprendere e generare immagini a partire da descrizioni testuali e viceversa. È stato preaddestrato su un dataset di grande scala ed ha rappresentazioni visive e linguistiche allineate. L’encoder linguistico preaddestrato aiuta a generare caratteristiche più realistiche. L’obiettivo dell’articolo è migliorare le prestazioni dei metodi di fine-tuning di CLIP utilizzando dati sintetizzati. Sono stati condotti esperimenti approfonditi sulla generalizzazione da base a nuovi compiti, sul trasferimento di apprendimento tra dataset e sull’apprendimento generalizzato zero-shot, ottenendo risultati di stato dell’arte.

L’architettura del modello proposto utilizza il framework VAE per codificare e generare caratteristiche, integrandolo con CLIP per estrarre e ricostruire le caratteristiche delle immagini. Durante l’addestramento, il modello impara a codificare le caratteristiche in uno spazio latente e poi a ricostruirle. Durante la fase di generazione, utilizza questa codifica appresa per sintetizzare caratteristiche per nuove classi, consentendo il fine-tuning di CLIP anche quando alcune classi non hanno dati. Il generatore CLIP-based, composto da un MLP leggero e un encoder testuale CLIP congelato, svolge un ruolo chiave nella trasformazione del codice latente e nella costruzione delle prompt finali per la ricostruzione delle caratteristiche.

Risultati sperimentali osservati dai ricercatori:

Generalizzazione da base a nuovi compiti: Gli esperimenti sono stati condotti su 11 dataset diversi di classificazione delle immagini, tra cui ImageNet, Caltech101, OxfordPets, StanfordCars, Flowers102, Food101, FGVCAircraft, SUN397, DTD, EuroSAT e UCF101. I dataset sono stati suddivisi in classi di base e nuove classi, con addestramento effettuato sulle classi di base con 16 campioni per classe. La valutazione è stata effettuata sia sulle classi di base che sulle nuove classi.

Impostazione di apprendimento generalizzato zero-shot: L’articolo ha valutato anche la generalizzazione da base a nuovi compiti in un contesto di apprendimento generalizzato zero-shot più realistico, in cui i dati di base e nuovi sono mischiati nel dataset di test. I risultati hanno indicato una significativa diminuzione delle prestazioni per i metodi precedenti, ma il metodo proposto, SHIP, ha continuato a migliorare le prestazioni nelle nuove classi.

Confronto con altri metodi: I risultati sono stati confrontati con altri metodi, tra cui CLIP, CoOp, CLIP-Adapter e Tip-Adapter. Il metodo proposto, SHIP, ha mostrato un miglioramento delle prestazioni nelle nuove classi su vari dataset.

Conclusion:

Il paper propone un nuovo approccio chiamato SyntHesIzed Prompts (SHIP) per migliorare i metodi di fine-tuning esistenti, in particolare in scenari in cui alcune classi non hanno dati disponibili. Il metodo ha ottenuto prestazioni all’avanguardia su varie attività sintetizzando caratteristiche per le categorie prive di dati e sottoponendo CLIP a fine-tuning utilizzando sia le caratteristiche originali etichettate che quelle appena sintetizzate. Il paper riconosce i costi aggiuntivi di addestramento come un limite e esprime l’intenzione di esplorare l’applicabilità di SHIP in attività di predizione densa nella ricerca futura.

Nel complesso, il paper presenta un contributo significativo nel campo affrontando la sfida della scarsità di dati per determinate classi e migliorando le prestazioni dei metodi di fine-tuning di CLIP utilizzando dati sintetizzati.