Incontra TARDIS un framework di intelligenza artificiale che identifica le singolarità in spazi complessi e cattura le strutture singolari e la complessità geometrica locale nei dati delle immagini.

TARDIS is an AI framework that identifies singularities in complex spaces and captures singular structures and local geometric complexity in image data.

Siamo sommersi da enormi volumi di dati provenienti da tutti i diversi settori, tra cui dati scientifici, medici, di social media ed educativi. Analizzare tali dati è un requisito fondamentale. Con l’aumentare della quantità di dati, è importante avere approcci per estrarre rappresentazioni semplici e significative da dati complessi. I metodi precedenti lavorano sulla stessa assunzione che i dati si trovino vicino a una varietà a bassa dimensionalità nonostante abbiano una grande dimensione ambientale e cercano la varietà a dimensionalità più bassa che meglio caratterizza i dati.

I metodi di apprendimento di varietà sono utilizzati nell’apprendimento di rappresentazioni, dove i dati ad alta dimensionalità vengono trasformati in uno spazio a bassa dimensionalità mantenendo intatte le caratteristiche cruciali dei dati. Anche se l’ipotesi di varietà funziona per la maggior parte dei tipi di dati, non funziona bene nei dati con singolarità. Le singolarità sono le regioni in cui l’ipotesi di varietà si rompe e possono contenere informazioni importanti. Queste regioni violano le proprietà di regolarità o di morbidezza di una varietà.

I ricercatori hanno proposto un framework topologico chiamato TARDIS (Topological Algorithm for Robust DIscovery of Singularities) per affrontare la sfida dell’identificazione e della caratterizzazione delle singolarità nei dati. Questo framework di apprendimento di rappresentazioni non supervisionato rileva le regioni singolari nei dati a nuvola di punti ed è stato progettato per essere agnostico alle proprietà geometriche o stocastiche dei dati, richiedendo solo una nozione della dimensione intrinseca dei quartieri. Si propone di affrontare due aspetti chiave: quantificare la dimensione intrinseca locale e valutare la varietà di un punto in diverse scale.

Gli autori hanno menzionato che la quantificazione della dimensione intrinseca locale misura la dimensionalità efficace del quartiere di un punto di dati. Il framework ha raggiunto questo obiettivo utilizzando metodi topologici, in particolare l’omologia persistente, che è uno strumento matematico utilizzato per studiare la forma e la struttura dei dati su diverse scale. Stimando la dimensione intrinseca del quartiere di un punto applicando l’omologia persistente, che fornisce informazioni sulla complessità geometrica locale. Questa dimensione intrinseca locale misura il grado in cui il punto di dati è varietà e indica se si conforma all’ipotesi di varietà a bassa dimensionalità o si comporta in modo diverso.

Lo score di Euclidicità, che valuta la varietà di un punto in diverse scale, quantifica la deviazione di un punto dal comportamento euclideo, rivelando l’esistenza di singolarità o strutture non varietà. Il framework cattura le differenze nella varietà di un punto tenendo conto dell’Euclidicità a varie scale, rendendo possibile individuare le singolarità e comprendere la complessità geometrica locale.

Il team ha fornito garanzie teoriche sulla qualità di approssimazione di questo framework per determinate classi di spazi, inclusi quelli di varietà. Hanno eseguito esperimenti su una varietà di dataset, da collezioni di immagini ad alta dimensionalità a spazi con singolarità conosciute, per convalidare la loro teoria. Queste scoperte hanno dimostrato quanto bene l’approccio individua e elabora le porzioni di dati non varietà, mettendo in luce i limiti dell’ipotesi di varietà ed esponendo importanti dati nascosti nelle regioni singolari.

In conclusione, questo approccio mette efficacemente in discussione l’ipotesi di varietà ed è efficiente nell’individuare le singolarità che sono i punti che violano l’ipotesi di varietà.