Ricercatori di Microsoft e ETH Zurich presentano LightGlue

Microsoft and ETH Zurich researchers present LightGlue.

Nel campo della visione artificiale, il confronto dei punti corrispondenti tra immagini svolge un ruolo vitale in applicazioni come il tracciamento della fotocamera e la mappatura 3D. Tuttavia, questi metodi hanno limitazioni ed è qui che entra in gioco una nuova rete neurale chiamata LightGlue.

Risultato di uno sforzo di ricerca collaborativo tra ETH Zurich e Microsoft, LightGlue sfrutta una rete neurale che combina il confronto delle immagini e l’eliminazione degli outliers. Incorpora il modello Transformer, che impara a confrontare coppie di immagini complesse sfruttando vasti dataset. Questo approccio innovativo dimostra una notevole robustezza sia in ambienti interni che esterni.

LightGlue eccelle nella localizzazione visiva in condizioni sfidanti e mostra prestazioni promettenti in compiti come il confronto aereo, la stima della posizione degli oggetti e la re-identificazione dei pesci. Questo nuovo approccio mira a risolvere i limiti di “SuperGlue”, che soffriva di inefficienza computazionale e della richiesta di risorse di calcolo sostanziali.

Per risolvere questo problema, il team ha sviluppato LightGlue come un’alternativa più precisa, efficiente e facile da addestrare. Attraverso modifiche architettoniche meticolose e distillazione di una ricetta per l’addestramento di corrispondenze profonde ad alte prestazioni con risorse limitate, il team ha raggiunto una precisione all’avanguardia in pochi giorni di GPU.

LightGlue presenta anche una soluzione Pareto-ottimale. Ciò significa che può trovare un equilibrio ideale tra efficienza e precisione. A differenza degli approcci precedenti, LightGlue si adatta alla difficoltà di ogni coppia di immagini. Ciò viene fatto prevedendo le corrispondenze dopo ogni blocco computazionale e valutando la fiducia per ulteriori calcoli, i punti non abbinabili vengono scartati inizialmente.

Ciò consente di concentrare gli sforzi computazionali sulle aree di interesse e migliorare l’efficienza. Finora, i risultati sperimentali mostrano la superiorità di LightGlue rispetto alle corrispondenze sparse e dense esistenti. Offre anche corrispondenze da caratteristiche locali riducendo significativamente i tempi di esecuzione.

Lo sviluppo di LightGlue può potenziare l’implementazione di corrispondenze profonde in applicazioni sensibili alla latenza come la localizzazione e mappatura simultanea o SLAM. Può inoltre ricostruire scene più ampie a partire da dati generati dagli utenti.

In modo entusiasmante, il modello e il codice di addestramento di LightGlue saranno resi pubblicamente disponibili con una licenza permissiva. Questo rilascio non solo concede ai ricercatori e agli operatori l’accesso alle capacità di LightGlue, ma incoraggia anche il contributo per avanzare nelle applicazioni di visione artificiale che richiedono un confronto efficiente e preciso delle immagini.