Incontra MatFormer Un’architettura Universal Nested Transformer per la flessibile implementazione di modelli su varie piattaforme

Incontra MatFormer Un'architettura Universal Nested Transformer per la flessibile implementazione di modelli su diverse piattaforme

I modelli Transformer trovano applicazioni in vari settori, che vanno dai potenti cluster multi-acceleratori ai singoli dispositivi mobili. I diversi requisiti per l’infusione in questi contesti fanno sì che gli sviluppatori addestrino modelli fondamentali come PaLM 2, Llama e ViTs in dimensioni diverse. Tuttavia, i costi più elevati associati alla formazione portano a un insieme limitato di dimensioni dei modelli supportati.

Gli ampi modelli fondamentali vengono utilizzati in diverse situazioni, come fornire risposte rapide su telefoni cellulari o gestire batch su GPU multi-cluster per applicazioni web su larga scala. Ciascun modello fornisce una selezione di modelli addestrati indipendentemente in diverse dimensioni per adattarsi a circostanze diverse. Per accogliere una vasta gamma di applicazioni, queste dimensioni dei modelli vengono tipicamente raggruppate su una scala logaritmica in modo approssimativamente lineare.

Di conseguenza, un gruppo di ricercatori di Google Research, dell’Università del Texas a Austin, dell’Università di Washington e dell’Università di Harvard ha introdotto MatFormer, un’architettura Transformer appositamente progettata per l’adattabilità, come indicato nel loro ultimo articolo, intitolato MatFormer: Nested Transformer for Elastic Inference. MatFormer rende più facile costruire un modello integrato che può generare numerosi sottomodelli più piccoli senza ulteriore formazione.

Hanno incorporato una struttura interna nidificata all’interno del Transformer standard e ottimizzato congiuntamente tutte le granularità per produrre un singolo modello elastico universale.

I ricercatori hanno sottolineato di aver prodotto molti sottomodelli precisi senza acquisire costi di formazione aggiuntivi mescolando deliberatamente diversi livelli di informazioni in diverse strati di un modello MatFormer universale. Ogni blocco di rete feedforward (FFN) nell’architettura MatFormer è ottimizzato con una collezione di blocchi FFN più piccoli e nidificati. Attraverso questo approccio di formazione, hanno combinato e regolato la complessità del modello tra diversi strati.

La struttura nidificata è implementata sulle rappresentazioni nascoste del blocco di rete feedforward (FFN), amplificando le capacità del modello posizionando le attention head in ordine di importanza. Viene creata una sottostruttura all’interno delle attention head dal più almeno importante. Rispetto all’allenamento indipendente di sottomodelli equivalenti basati su Transformer, la formazione viene accelerata del 15% poiché le attention head più significative sono distribuite tra un maggior numero di sottomodelli. Inoltre, questo metodo si allinea con la curva di sottomodelli specificamente ottimizzata e consente l’estrazione di diversi sottomodelli più piccoli mantenendo l’accuratezza.

I ricercatori hanno scoperto che potevano produrre un numero considerevole di modelli più piccoli accurati senza ulteriori ottimizzazioni scegliendo diversi livelli di dettaglio per ciascun livello MatFormer.

Il team ha studiato l’efficacia su una serie di tipi di modelli (decoder ed encoder), modalità (lingua e visione) e scale (fino a 2,6 miliardi di parametri). I ricercatori hanno sottolineato che confrontando questi modelli più piccoli con i loro equivalenti addestrati in modo indipendente, si ottiene una perdita di convalida comparabile e una prestazione downstream a singolo colpo. Inoltre, MatFormer mostra una generalizzazione robusta e funziona bene come encoder di visione (MatViT) e modelli di linguaggio solo per decodificatori (MatLM). In termini di accuratezza e affidabilità, scala in modo simile al Transformer tradizionale.