Google AI introduce un nuovo algoritmo di clustering che combina efficacemente i vantaggi di scalabilità dei modelli di embedding con la qualità dei modelli di attenzione incrociata.

Google AI presenta un nuovo algoritmo di clustering che unisce in modo efficiente la scalabilità dei modelli di embedding alla qualità dei modelli di attenzione incrociata.

Il clustering rappresenta una sfida fondamentale e diffusa nei campi del data mining e dell’apprendimento automatico non supervisionato. Il suo obiettivo è quello di raggruppare elementi simili in gruppi distinti. Esistono due tipi di clustering: il clustering metrico e il clustering su grafo. Il clustering metrico implica l’utilizzo di uno spazio metrico specificato che stabilisce le distanze tra vari punti di dati. Queste distanze servono da base per raggruppare i punti di dati, con il processo di clustering che si basa sulla separazione tra di essi. D’altra parte, il clustering su grafo impiega un grafo dato che collega punti di dati simili tramite edge. Il processo di clustering organizza quindi questi punti di dati in gruppi in base alle connessioni esistenti tra di essi.

Una strategia di clustering coinvolge l’utilizzo di modelli di embedding come BERT o RoBERTa per formulare un problema di clustering metrico. In alternativa, un altro approccio utilizza modelli di cross-attention (CA) come PaLM o GPT per stabilire un problema di clustering su grafo. Mentre i modelli di CA possono fornire punteggi di similarità altamente precisi, la costruzione del grafo di input potrebbe richiedere un numero di chiamate all’inferenza del modello quadratico poco pratico. Al contrario, le distanze tra gli embedding prodotti dai modelli di embedding possono definire efficacemente uno spazio metrico.

I ricercatori hanno introdotto un algoritmo di clustering chiamato KwikBucks: Correlation Clustering with Cheap-Weak and Expensive-Strong Signals. Questo innovativo algoritmo unisce efficacemente i vantaggi di scalabilità dei modelli di embedding con la qualità superiore che i modelli di CA forniscono. L’algoritmo per il clustering su grafo ha accesso alle query sia al modello di CA che al modello di embedding. Tuttavia, c’è un vincolo sul numero di query effettuate al modello di CA. Questo algoritmo utilizza il modello di CA per gestire le query sugli edge e sfrutta l’accesso illimitato ai punteggi di similarità dal modello di embedding.

Il processo prevede di identificare innanzitutto un insieme di documenti noti come centri che non condividono edge di similarità e quindi creare cluster basati su questi centri. Viene presentato un metodo chiamato oracolo di similarità combo per bilanciare le informazioni di alta qualità offerte dai modelli di Cross-Attention (CA) e le operazioni efficaci dei modelli di embedding.

In questa metodologia, il modello di embedding viene utilizzato per guidare la selezione delle query dirette al modello di CA. Quando viene presentato un insieme di documenti centro e un documento target, il meccanismo dell’oracolo di similarità combo genera un output identificando un centro dall’insieme simile al documento target se esiste tale similarità. L’oracolo di similarità combo si rivela prezioso nel conservare il budget allocato limitando il numero di chiamate di query al modello di CA durante la selezione dei centri e la formazione dei cluster. Ciò viene ottenuto classificando inizialmente i centri in base alla loro similarità di embedding con il documento target e successivamente interrogando il modello di CA per la coppia identificata.

Dopo il clustering iniziale, c’è anche una successiva fase di post-elaborazione in cui i cluster vengono uniti. Questa unione avviene quando viene identificata una connessione forte tra due cluster, in particolare quando il numero di edge di connessione supera il numero di edge mancanti tra i due cluster.

I ricercatori hanno testato l’algoritmo su diversi set di dati con diverse caratteristiche. Le prestazioni dell’algoritmo sono state testate rispetto alle due migliori algoritmi di base utilizzando una varietà di modelli basati su embedding e cross-attention.

L’approccio di clustering basato su query efficienti consente l’utilizzo solo del modello di Cross-Attention (CA) e delle funzioni entro limiti di clustering definiti dal budget. Per realizzare ciò, si applica il clustering spettrale utilizzando il grafo dei k vicini (kNN). Utilizzando la similarità basata sull’embedding per interrogare il modello di CA per i k vicini di ogni vertice, viene creato questo grafo.

La valutazione coinvolge il calcolo di precisione e richiamo. La precisione quantifica la percentuale di coppie simili tra tutte le coppie co-clusterate, mentre il richiamo misura la percentuale di coppie simili co-clusterate tra tutte le coppie simili.