AdaTape di Google AI è un nuovo approccio di intelligenza artificiale con un’architettura basata su Transformer

AdaTape di Google AI è un nuovo approccio di intelligenza artificiale basato su Transformer

In un post di blog della scorsa settimana, Google Research ha introdotto AdaTape, un nuovo approccio di intelligenza artificiale con un’architettura basata su trasformatori che utilizza il calcolo adattivo. AdaTape utilizza la sua funzione adattiva per creare una sequenza di input elastica in grado di modulare il suo budget computazionale.

Secondo l’articolo di ricerca allegato, AdaTape inietta direttamente l’adattività nella sequenza di input anziché nella profondità del modello. Utilizza anche un meccanismo di lettura del nastro adattativo per determinare vari token di nastro che vengono aggiunti a ciascun input e che si basano sulla complessità dell’input stesso.

Il blog menziona che AdaTape utilizza una rappresentazione vettoriale per rappresentare ciascun input al fine di selezionare dinamicamente una sequenza di token di nastro di dimensioni variabili. Il team di Google Research afferma inoltre che AdaTape crea ciò che viene chiamato “nastro vuoto” per memorizzare tutti i token di nastro candidati.

Per creare le banche dei nastri, i ricercatori hanno utilizzato due metodi. Il primo è una banca guidata dall’input. Il modo in cui funziona è che la banca guidata dall’input estrae una serie di token dall’input, utilizzando un approccio diverso dal tokenizer del modello originale per mappare l’input grezzo in una sequenza di token di input.

Il secondo metodo è la banca apprendibile. Si tratta di un metodo più generale per generare la banca dei nastri utilizzando un insieme di vettori addestrabili come token di nastro. Una volta completato tutto ciò, i token di nastro prodotti vengono aggiunti all’input originale e inviati al trasformatore.

In seguito, vengono utilizzate due reti feed-forward. Una viene utilizzata per l’input originale e l’altra per tutti i token di nastro. I ricercatori hanno osservato una qualità leggermente migliore utilizzando reti feed-forward separate per l’input e i token di nastro.

Il team di Google ha scoperto che AdaTape può superare tutti i baselines incorporando la ricorrenza nel suo meccanismo di selezione dell’input. Hanno anche valutato AdaTape in compiti di classificazione delle immagini. Durante il test, AdaTape è stato testato su ImageNet-1K. Hanno scoperto che in termini di trade-off tra qualità e costo, AdaTape si comporta molto meglio rispetto ai baselines dei trasformatori adattivi alternativi.

Secondo la conclusione di Google, hanno scoperto che AdaTape ha il potenziale per risolvere compiti che sono sfidanti sia per i trasformatori standard che per i trasformatori adattivi esistenti. Se sei interessato a saperne di più, puoi leggere l’articolo qui e il post di Google qui.

Nota dell’editore: Se sei interessato alle ultime novità sui trasformatori, ai modelli di lingua di grande dimensione e all’intelligenza artificiale, non puoi perderti ODSC West 2023. Impara dagli esperti di spicco che arrivano a San Francisco per approfondire questi argomenti. Acquista oggi il tuo biglietto per partecipare di persona o virtualmente!