Google AI presenta AdaTape un nuovo approccio di intelligenza artificiale con un’architettura basata su Transformer che consente la computazione dinamica nelle reti neurali attraverso token adattivi del nastro.

Google AI presenta AdaTape, un nuovo approccio di intelligenza artificiale basato su Transformer con token adattivi del nastro per la computazione dinamica nelle reti neurali.

Mentre gli esseri umani possiedono la capacità di adattare il loro pensiero e le loro risposte in base a situazioni o condizioni variabili, le Reti Neurali, sebbene incredibilmente potenti e intricate, sono vincolate da funzioni e input fissi. Esse eseguono costantemente la stessa funzione indipendentemente dalla natura o complessità dei campioni presentati.

Per affrontare questo problema, i ricercatori utilizzano l’adattività (un potente paradigma che non solo offre ai professionisti la flessibilità riguardo all’uso successivo di questi modelli, ma può anche essere un potente bias induttivo per risolvere determinate classi di problemi complessi). Si riferisce alla capacità di un sistema di apprendimento automatico di adattare il suo comportamento in risposta al cambiamento di scenario o ambiente.

Mentre le reti neurali convenzionali hanno una funzione e capacità computazionale fissa, un modello con una computazione adattiva e dinamica modula il budget computazionale che dedica a elaborare ogni input, a seconda della complessità dell’input. La computazione adattiva nelle reti neurali è interessante per due motivi. Primo, fornisce un bias induttivo che consente diversi numeri di passaggi computazionali per diversi input, il che può essere cruciale per risolvere problemi aritmetici che richiedono la modellazione di gerarchie di diverse profondità. Secondo, facilita la capacità di regolare il costo dell’elaborazione attraverso una maggiore flessibilità offerta dalla computazione dinamica, poiché questi modelli possono essere adattati per dedicare più FLOP all’elaborazione di un nuovo input.

Di conseguenza, i ricercatori di Google hanno introdotto un nuovo modello che utilizza la computazione adattiva, chiamato AdaTape. AdaTape è molto semplice da implementare in quanto inietta direttamente l’adattività nella sequenza di input anziché nella profondità del modello ed è anche molto accurato. AdaTape utilizza un meccanismo di lettura adattiva del nastro per determinare vari token di nastro aggiunti a ciascun input in base alla complessità dell’input.

AdaTape è un’architettura basata su Transformer che utilizza un insieme dinamico di token per creare una sequenza di input elastica. AdaTape utilizza la funzione adattiva. Inoltre, utilizza una rappresentazione vettoriale per rappresentare ciascun input e selezionare dinamicamente una sequenza di token di nastro di dimensioni variabili.

AdaTape utilizza una “banca di nastri” per memorizzare tutti i token di nastro candidati che interagiscono con il modello attraverso il meccanismo di lettura adattiva del nastro per effettuare una selezione dinamica di una sequenza di token di nastro di dimensioni variabili. I ricercatori hanno utilizzato due diversi metodi per creare la banca di nastri: una banca basata sull’input (la banca basata sull’input estrae una banca di token dall’input utilizzando un approccio diverso rispetto al tokenizer originale del modello per mappare l’input grezzo in una sequenza di token di input) e una banca apprendibile (un metodo più generale per generare la banca di nastri utilizzando un insieme di vettori addestrabili come token di nastro).

Dopo ciò, i token di nastro vengono aggiunti all’input originale e inviati al transformer. Quindi, vengono utilizzate due reti feed-forward. Una viene utilizzata per l’input originale e l’altra per tutti i token di nastro. I ricercatori hanno osservato una qualità leggermente migliore utilizzando reti feed-forward separate per l’input e i token di nastro.

I ricercatori hanno testato l’utilità di AdaTape su molti parametri. Hanno scoperto che supera tutti i baselines incorporando la ricorrenza nel meccanismo di selezione dell’input, fornendo un bias induttivo che consente il mantenimento implicito di un contatore, cosa impossibile nei Transformer standard. I ricercatori hanno anche valutato AdaTape su compiti di classificazione delle immagini. Hanno testato AdaTape su ImageNet-1K e hanno scoperto che, in termini di trade-off tra qualità e costo, AdaTape si comporta molto meglio rispetto agli altri baselines dei transformer adattivi.