Google DeepMind presenta NaViT un nuovo modello ViT che utilizza il confezionamento delle sequenze durante l’addestramento per elaborare input di risoluzioni e rapporti di aspetto arbitrari.

Google DeepMind presenta NaViT, un nuovo modello ViT che utilizza il confezionamento delle sequenze per elaborare input di risoluzioni e rapporti di aspetto arbitrari durante l'addestramento.

Il Vision Transformer (ViT) sostituisce rapidamente le reti neurali basate su convoluzione a causa della sua semplicità, flessibilità e scalabilità. Un’immagine è suddivisa in patch e ogni patch viene proiettata linearmente su un token, formando la base di questo modello. Le foto di input di solito vengono quadrate e divise in un numero fisso di patch prima di essere utilizzate.

Le recenti pubblicazioni hanno indagato potenziali deviazioni da questo modello: FlexiViT consente un intervallo continuo di lunghezza della sequenza e quindi calcola il costo alloggiando dimensioni di patch variabili in un unico design. Questo viene realizzato selezionando casualmente una dimensione della patch durante ogni iterazione di addestramento e utilizzando una tecnica di ridimensionamento per adattarsi a numerose dimensioni di patch nell’embedding convoluzionale iniziale. L’approccio di patching alternativo di Pix2Struct, che mantiene il rapporto d’aspetto, è prezioso per compiti come la comprensione di grafici e documenti.

NaViT è un’alternativa sviluppata dai ricercatori di Google. Patch n’ Pack è una tecnica che consente di variare la risoluzione mantenendo il rapporto d’aspetto mediante l’aggregazione di molte patch di immagini diverse in una singola sequenza. Questa idea si basa sul “packing di esempi”, una tecnica utilizzata nell’elaborazione del linguaggio naturale per addestrare efficientemente modelli con input di lunghezze variabili combinando diverse istanze in una singola sequenza. Gli scienziati hanno trovato prove di;

Una quantità significativa può ridurre il tempo di addestramento campionando casualmente le risoluzioni. NaViT ottiene ottime prestazioni su un’ampia gamma di soluzioni, facilitando un compromesso fluido tra costo e prestazioni al momento dell’infereza ed è facilmente adattabile a basso costo a nuovi compiti.

Ideee di ricerca come il campionamento di risoluzioni che preservano il rapporto d’aspetto, tassi variabili di eliminazione dei token e calcolo adattivo emergono dalle forme di batch fisse rese possibili dal packing di esempi.

L’efficienza computazionale di NaViT è particolarmente impressionante durante il pre-training e persiste attraverso il fine-tuning. L’applicazione di un singolo NaViT a diverse risoluzioni consente un compromesso fluido tra prestazioni e costo di inferenza.

L’uso di batch predefiniti per l’alimentazione dei dati in una rete neurale profonda durante l’addestramento e l’operazione è una pratica comune. Di conseguenza, le applicazioni di visione artificiale devono utilizzare dimensioni e geometrie di batch predeterminate per garantire prestazioni ottimali sull’hardware esistente. A causa di ciò e dei vincoli architetturali intrinseci delle reti neurali convoluzionali, è diventata pratica comune ridimensionare o riempire le immagini a una dimensione predeterminata.

Anche se NaViT si basa sul ViT originale, in teoria si può utilizzare qualsiasi variante di ViT che può elaborare una sequenza di patch. I ricercatori implementano i seguenti cambiamenti strutturali per supportare Patch n’ Pack. Patch n’ Pack è un’applicazione semplice del packing di sequenze a trasformatori visivi che aumenta notevolmente l’efficienza di addestramento, come dimostrato dalla comunità di ricerca. I modelli risultanti di NaViT sono flessibili e facili da adattare a nuovi compiti senza spese eccessive. La ricerca su calcolo adattivo e nuovi algoritmi per migliorare l’efficienza di addestramento e inferenza sono solo due esempi delle indagini rese possibili da Patch n’ Pack, che in precedenza erano ostacolate dalla necessità di forme di batch fisse. Vedono anche NaViT come un passo nella giusta direzione per i ViT perché rappresenta un cambiamento rispetto all’input e al pipeline di modellazione convenzionale dei modelli di visione artificiale più comuni basati su CNN.