Ricercatori di UC Berkeley propongono CRATE un innovativo White-Box Transformer per la compressione dei dati e la sparizione efficiente nel deep learning

Ricercatori UC Berkeley propongono CRATE un innovativo White-Box Transformer per la compressione dei dati e la sparizione efficiente nel deep learning

Il successo pratico del deep learning nel processare e modellare grandi quantità di dati ad alta dimensionalità e multi-modali è cresciuto in modo esponenziale negli ultimi anni. Gran parte di questo successo può essere attribuito alla capacità delle reti neurali profonde di scoprire strutture a bassa dimensionalità che comprimono i dati e successivamente trasformano queste scoperte in una rappresentazione economica, cioè compatta e strutturata. Tale rappresentazione rende molte attività successive, incluse quelle legate alla visione, classificazione, riconoscimento e segmentazione, nonché alla generazione, più semplici.

Per imparare rappresentazioni organizzate e condensate, ricercatori dell’UC Berkeley, del Toyota Technological Institute a Chicago, della ShanghaiTech University, della Johns Hopkins University, dell’University of Illinois e dell’University of Hong Kong propongono un singolo obiettivo: una misura principiata di bontà. Nel loro lavoro, i ricercatori sostengono che uno degli obiettivi più comuni dell’apprendimento delle rappresentazioni è quello di ridurre la dimensionalità dello spazio in cui le rappresentazioni dei dati (qui, insiemi di token) sono conservate adattandole a una mistura gaussiana che è poi supportata da sottospazi incoerenti. La bontà di tale rappresentazione può essere valutata utilizzando una misura principiata chiamata riduzione del tasso sparso che ottimizza contemporaneamente il guadagno di informazione intrinseca e la sparssità estrinseca della rappresentazione appresa. Approcci iterativi per massimizzare questa misura possono essere visti come quello che popolari disegni di reti neurali profonde come i transformers fanno. In particolare, alternando l’ottimizzazione su diversi aspetti di questo obiettivo, si arriva a un blocco transformer: innanzitutto, l’operatore di auto-attenzione multi-head comprime la rappresentazione tramite un passo di discesa del gradiente approssimativa sul tasso di codifica delle caratteristiche, e poi il successivo percettore multi-strato specifica le caratteristiche.

Ciò li ha portati a un disegno di rete neurale profonda che assomiglia a un transformer, che è completamente “white box” nel senso che il suo obiettivo di ottimizzazione, gli operatori di rete e la rappresentazione appresa sono completamente interpretabili matematicamente. Questo tipo di architettura profonda white-box viene definita “crate” o “crate-transformer”, che è un’abbreviazione di “coding-rate” transformer. Il team fornisce anche una rigorosa prova matematica che queste mappe incrementali sono invertibili in un senso distribuzionale, con inverse che comprendono la stessa famiglia di operatori. Pertanto, possono essere implementati codificatori, decodificatori e auto-codificatori utilizzando un design di crate approssimativamente identico.

Per dimostrare che questo framework può davvero colmare il divario tra teoria e pratica, i ricercatori hanno condotto estesi esperimenti sia su dati di immagini che di testo per valutare le prestazioni pratiche del modello crate su una vasta gamma di compiti di apprendimento e impostazioni che transformers convenzionali, come ViT, MAE, DINO, BERT e GPT2, hanno dimostrato di avere ottime prestazioni. Sorprendentemente, il crate ha mostrato prestazioni competitive rispetto ai suoi equivalenti black-box in tutti i compiti e le impostazioni, incluse la classificazione delle immagini tramite apprendimento supervisionato, il completamento mascherato non supervisionato per dati immagine e linguaggio e l’apprendimento delle caratteristiche auto-supervisionato per dati immagine. Inoltre, il modello crate presenta molte caratteristiche utili. Mostra un significato semantico separando facilmente un oggetto dal suo sfondo e suddividendolo in parti condivise. Ogni livello e ogni operatore di rete hanno un significato statistico e geometrico. Si ritiene che il paradigma computazionale proposto mostrerà un enorme potenziale nel collegare la teoria e la pratica del deep learning da un punto di vista unificato della compressione dei dati.

Il team sottolinea che, con risorse limitate, non mirano a prestazioni all’avanguardia in tutti i compiti sopra citati, che richiederebbero un ingegnerizzazione complessa o un notevole sintonizzazione, né possono costruire e testare i loro modelli su scala industriale. Le soluzioni sviluppate per queste mansioni sono in generale generiche e mancano di flessibilità specifica per il compito. Tuttavia, ritengono che questi studi abbiano dimostrato oltre ogni ragionevole dubbio che il modello crate per la rete neurale profonda white-box costruito da questi dati è universalmente efficace e fornisce una solida base per la ricerca e lo sviluppo ingegneristico futuro.

Su insiemi di dati e compiti (discriminativi e generativi) di grandi dimensioni nel mondo reale (immagini o testo), in situazioni supervisionate, non supervisionate e auto-supervisionate, queste reti mostrano prestazioni paragonabili a transformer esperti, nonostante forse siano le più semplici tra tutte le architetture disponibili. Si ritiene che questo lavoro offra una prospettiva nuova che potrebbe illuminare il pieno potenziale dei sistemi AI attuali, che si basano spesso su reti neurali profonde come i transformers.