Topological Generalization con Transformers di Diffusione Advettiva

Generalizzazione topologica con i transformers di diffusione advettiva

Generalizzazione topologica in GNN

Una delle principali domande aperte nello studio delle reti neurali grafiche (GNN) è la loro capacità di generalizzazione, in particolare di fronte a cambiamenti nella topologia del grafo. In questo post, studiamo questo problema dal punto di vista delle equazioni di diffusione del grafo, che sono strettamente legate alle GNN e sono state utilizzate in passato come un framework per analizzare la dinamica delle GNN, la loro potenza espressiva e per giustificare le scelte architetturali. Descriviamo una nuova architettura basata sulla diffusione advettiva che combina la struttura computazionale delle reti neurali di passaggio di messaggi (MPNN) e dei Transformer e mostra capacità superiori di generalizzazione topologica.

Immagine: Unsplash

Questo post è stato scritto in collaborazione con Qitian Wu e Chenxiao Yang ed è basato sul paper di Q. Wu et al., Advective Diffusion Transformer per la Generalizzazione Topologica nell’Apprendimento dei Grafi (2023) arXiv:2310.06417.

Le reti neurali grafiche (GNN) sono emerse nell’ultimo decennio come un’architettura popolare per l’apprendimento automatico su dati strutturati come grafi, con una vasta gamma di applicazioni che vanno dai social network alle scienze della vita e al design di farmaci e alimenti.

Due delle principali domande teoriche relative alle GNN riguardano la loro capacità espressiva e di generalizzazione. La prima domanda è stata affrontata approfonditamente nella letteratura attraverso varianti del test di isomorfismo dei grafi [1], e più recentemente formulando le GNN come equazioni di tipo diffusione discretizzate [2]. Tuttavia, la seconda domanda, nonostante i numerosi approcci recenti [3–4], è ancora largamente aperta.

Empiricamente, le GNN sono spesso riportate a mostrare una scarsa performance [5–7] quando i dati di allenamento e di test sono generati da diverse distribuzioni (cosiddetto “cambio di distribuzione”), specialmente quando la topologia del grafo cambia (“cambio topologico”). Questo è un…