Svelare i segreti del successo dei dati di CLIP Presentazione di MetaCLIP per una pre-elaborazione di lingua e immagini ottimizzata

Negli ultimi anni sono stati fatti eccezionali progressi nell’Intelligenza Artificiale, con l’introduzione di molti nuovi modelli avanzati, specialmente nell’NLP e nella Computer Vision. CLIP è una rete neurale sviluppata da OpenAI addestrata su un enorme dataset di coppie di testo e immagine. Ha contribuito ad avanzare numerose ricerche sulla visione artificiale e ha supportato i sistemi di riconoscimento moderni e i modelli generativi. I ricercatori ritengono che l’efficacia di CLIP sia dovuta ai dati su cui è stato addestrato, e credono che scoprire il processo di cura dei dati consentirebbe di creare algoritmi ancora più efficaci.

In questo articolo di ricerca, i ricercatori hanno cercato di rendere disponibile al pubblico l’approccio di cura dei dati di CLIP e hanno introdotto la Preparazione pre-formazione Linguaggio-Immagine MetaDati-Curata (MetaCLIP). MetaCLIP prende dati non organizzati e metadati derivati dai concetti di CLIP, crea un sottoinsieme bilanciato e produce un sottoinsieme bilanciato sulla distribuzione dei metadati. Supera i dati di CLIP su più benchmark quando applicato al dataset CommonCrawl con 400M di coppie immagine-testo.

Gli autori di questo articolo hanno applicato i seguenti principi per raggiungere il loro obiettivo:

  • I ricercatori hanno prima curato un nuovo dataset di 400M di coppie immagine-testo raccolte da varie fonti su Internet.
  • Utilizzando la corrispondenza delle sottostringhe, allineano le coppie immagine-testo con le voci dei metadati, associando efficacemente i testi non strutturati con i metadati strutturati.
  • Tutti i testi associati a ciascuna voce dei metadati vengono quindi raggruppati in liste, creando una corrispondenza tra ogni voce e i testi corrispondenti.
  • La lista associata viene quindi sottocampionata, garantendo una distribuzione dei dati più bilanciata, rendendola più adatta per la pre-formazione.
  • Per formalizzare il processo di cura, viene introdotto un algoritmo che mira a migliorare la scalabilità e ridurre la complessità dello spazio.

MetaCLIP cura i dati senza utilizzare direttamente le immagini, ma migliora comunque l’allineamento dei contenuti visivi controllando la qualità e la distribuzione del testo. Il processo di corrispondenza delle sottostringhe rende più probabile che il testo menzioni le entità presenti nell’immagine, aumentando così la possibilità di trovare il contenuto visivo corrispondente. Inoltre, il bilanciamento favorisce le voci “a coda lunga”, che potrebbero avere contenuti visivi più diversificati rispetto alle voci principali.

Per gli esperimenti, i ricercatori hanno utilizzato due pool di dati: uno per stimare un obiettivo di 400M di coppie immagine-testo e l’altro per scalare il processo di cura. Come già accennato, MetaCLIP supera CLIP quando applicato a CommonCrawl con 400M di punti dati. Inoltre, MetaCLIP supera CLIP nella classificazione ImageNet zero-shot utilizzando modelli ViT di varie dimensioni.

MetaCLIP raggiunge un’accuratezza del 70,8% nella classificazione ImageNet zero-shot utilizzando un modello ViT-B, mentre CLIP raggiunge un’accuratezza del 68,3%. MetaCLIP raggiunge anche un’accuratezza del 76,2% utilizzando un modello ViT-L, mentre CLIP raggiunge un’accuratezza del 75,5%. Scalando i dati di addestramento a 2,5 miliardi di coppie immagine-testo e utilizzando lo stesso budget di addestramento e una distribuzione simile, l’accuratezza di MetaCLIP migliora ulteriormente raggiungendo il 79,2% per ViT-L e l’80,5% per ViT-H. Questi sono risultati senza precedenti per la classificazione ImageNet zero-shot.

In conclusione, nell’intento di comprendere il processo di cura dei dati di CLIP di OpenAI in modo da poter riprodurre le sue alte prestazioni, gli autori di questo articolo hanno introdotto MetaCLIP, che supera i dati di CLIP su più benchmark. MetaCLIP riesce a fare ciò utilizzando la corrispondenza delle sottostringhe per allineare le coppie immagine-testo con le voci dei metadati e sottocampionando la lista associata per garantire una distribuzione dei dati più bilanciata. Questo rende MetaCLIP un nuovo approccio promettente per la cura dei dati e ha il potenziale per consentire lo sviluppo di algoritmi ancora più efficaci.