Come mantenere aggiornati i modelli di fondazione con i dati più recenti? I ricercatori di Apple e CMU presentano il primo riferimento di Web-Scale Time-Continual (TiC) con 12.7 miliardi di coppie di immagini e testo con timestamp per l’addestramento

Come tenere i modelli di fondotinta aggiornati con i dati più recenti? I ricercatori di Apple e CMU presentano il primo riferimento Web-Scale Time-Continual (TiC) con 12,7 miliardi di coppie di immagini e testo con timestamp per l'addestramento.

È avvenuto un cambiamento di paradigma nell’apprendimento multimodale grazie ai contributi di grandi modelli di base multimodali come CLIP, Flamingo e Stable Diffusion, che consentono miglioramenti precedentemente impensabili nella generazione di immagini e nella generalizzazione zero-shot. Questi modelli di base sono generalmente addestrati su grandi insiemi di dati statici su scala web. Non è noto se i modelli legacy, come i modelli CLIP di OpenAI, addestrati su dati di scala Internet fino al 2020, funzioneranno su dati futuri.

Per iniziare, i ricercatori di Apple e Carnegie Mellon University esaminano come i modelli CLIP di OpenAI si confrontano con quelli presenti nel repository OpenCLIP che sono stati sviluppati utilizzando dataset web selezionati più aggiornati che includono dati fino al 2022 in termini di robustezza. A causa della mancanza di uno standard con cui misurare i modelli CLIP, hanno compilato un insieme di compiti dinamici di classificazione e recupero che coprono il periodo 2014-2022. Mentre i modelli OpenCLIP mantengono le loro prestazioni, il team ha scoperto che i modelli OpenAI mostrano una disparità sostanziale nelle prestazioni di recupero per dati del 2021-2022 rispetto al periodo 2014-2016. Sebbene i modelli CLIP di OpenAI siano leggermente più robusti rispetto ai modelli OpenCLIP, ciò non viene pienamente rispecchiato nei test tipici come l’accuratezza nelle variazioni di distribuzione di ImageNet.

Il loro lavoro rivela che l’utilizzo di benchmark statici (come ImageNet) ha limitazioni e che i modelli devono adattarsi ed evolversi insieme a distribuzioni mutevoli dei dati. Un metodo semplice ma frequente per adattarsi ai dati cambianti è iniziare nuovamente ogni volta che si ottiene un nuovo set di dati immagine-testo e addestrare un nuovo modello CLIP. La ragione dietro questo metodo è che è più difficile adattare il comportamento di un modello a un nuovo input quando l’addestramento viene avviato da un modello già esistente. Tuttavia, è impraticabile investire ripetutamente il tempo e l’energia necessari per addestrare nuovi modelli di base dall’inizio.

Gli sforzi recenti che si concentrano su tecniche di apprendimento perpetuo per i modelli CLIP hanno principalmente lo scopo di migliorare l’efficienza in un singolo compito successivo o in un piccolo numero di compiti. Sebbene alcune ricerche recenti abbiano iniziato ad affrontare questi problemi, i benchmark attuali sono troppo modesti in termini di portata o mancano di dati collegati immagine-testo per essere veramente utili.

Come primo passo verso l’allenamento temporale continuo (TIC) dei modelli CLIP, i ricercatori osservano il naturale cambiamento nella distribuzione dei dati nel tempo. Includendo dati di “crawling” nel già esistente dataset CommonPool, stabiliscono TIC-DataComp come un nuovo benchmark per l’allenamento temporale continuo dei modelli CLIP. I ricercatori riciclano anche dataset di larga scala provenienti da Internet, raccolti da luoghi come Reddit e Flickr, per scopi nuovi. In particolare, utilizzano le informazioni temporali fornite da YFCC e Redcaps per selezionare TIC-YFCC e TICRedCaps rispettivamente. Questo lavoro mira a costruire tecniche di apprendimento continuo che possano funzionare all’interno di un budget computazionale limitato ogni volta che viene disponibile un nuovo dataset. Queste strategie vanno contro l’approccio Oracle, che reimposta i parametri di addestramento ogni volta che riceve nuovi dati e utilizza il suo budget computazionale cumulativo per un nuovo modello.

I ricercatori conducono una valutazione zero-shot dei modelli addestrati nel framework TIC-CLIP utilizzando una serie di 28 compiti di classificazione e recupero ben consolidati, come ImageNet, variazioni di distribuzione ImageNet e Flickr. Infine, utilizzando i loro benchmark, progettano e testano una serie di approcci di apprendimento continuo, inclusi buffer di riproduzione, programmi di tasso di apprendimento e altri tipi di checkpoint (come l’avvio rapido, la patching e la distillazione).

Il team trae una lezione importante dal fatto che, avviando l’addestramento dal checkpoint più recente e riproducendo tutti i dati storici, la tecnica cumulativa offre prestazioni paragonabili a un Oracle con un’efficienza computazionale 2,7 volte superiore. Ottengono anche importanti intuizioni sui programmi di tasso di apprendimento per l’addestramento sequenziale e mostrano interessanti compromessi tra le dimensioni del buffer per le prestazioni statiche e dinamiche. Le loro scoperte sono coerenti tra diverse dimensioni e tecniche, evidenziando tendenze da insiemi di dati che vanno da 11 milioni a 3 miliardi di campioni. Il codice e i dati temporali raccolti in cima ai dataset esistenti saranno presto resi pubblici in modo che la comunità più ampia possa utilizzare i benchmark proposti. Il team spera che gettando luce su questo argomento poco esplorato, il loro lavoro possa aprire la strada all’addestramento continuo dei modelli di base.