Ricercatori dell’Università di Toronto svelano una sorprendente ridondanza nei grandi set di dati sui materiali e il potere dei dati informativi per migliorare le prestazioni del machine learning

I 'Ricercatori dell'Università di Toronto rivoluzionano l'utilizzo dei dati nei materiali per migliorare il machine learning

Translate this html (keep the html code in the result) to Italian:

Con l’avvento dell’IA, il suo utilizzo si fa sentire in tutti i settori della nostra vita. L’IA sta trovando applicazione in tutti gli ambiti della vita. Ma l’IA ha bisogno di dati per l’addestramento. L’efficacia dell’IA dipende fortemente dalla disponibilità di dati per scopi di addestramento.

Convenzionalmente, raggiungere l’accuratezza nell’addestramento dei modelli di IA è stato legato alla disponibilità di ingenti quantità di dati. Affrontare questa sfida in questo campo comporta la navigazione di un’ampia area di ricerca potenziale. Ad esempio, il Progetto Open Catalyst utilizza più di 200 milioni di punti dati relativi a materiali catalitici potenziali.

Le risorse di calcolo necessarie per l’analisi e lo sviluppo dei modelli su tali dataset rappresentano un grosso problema. I dataset di Open Catalyst hanno utilizzato 16.000 giorni di GPU per l’analisi e lo sviluppo dei modelli. Budget di addestramento del genere sono disponibili solo per alcuni ricercatori, limitando spesso lo sviluppo dei modelli a dataset più piccoli o a una porzione dei dati disponibili. Di conseguenza, lo sviluppo dei modelli è spesso limitato a dataset più piccoli o a una parte dei dati disponibili.

Uno studio condotto da ricercatori dell’Università di Toronto Engineering, pubblicato su Nature Communications, suggerisce che la convinzione che i modelli di deep learning richiedano molti dati di addestramento potrebbe non essere sempre vera.

I ricercatori hanno affermato che dobbiamo trovare un modo per individuare subset di dataset più piccoli che possano essere utilizzati per l’addestramento dei modelli. Il dottor Kangming Li, studioso post-dottorato presso Hattrick-Simpers, ha utilizzato come esempio un modello che prevede i voti finali degli studenti ed ha sottolineato che funziona meglio sul dataset degli studenti canadesi su cui è stato addestrato, ma potrebbe non essere in grado di prevedere i voti degli studenti di altri paesi.

Una possibile soluzione è individuare sottoinsiemi di dati all’interno di dataset incredibilmente ampi per affrontare le problematiche sollevate. Questi sottoinsiemi dovrebbero contenere tutta la diversità e le informazioni del dataset originale, ma essere più facili da gestire durante l’elaborazione.

Li ha sviluppato metodi per individuare sottoinsiemi di informazioni di alta qualità provenienti da dataset di materiali già resi pubblici, come JARVIS, The Materials Project e Open Quantum Materials. L’obiettivo era acquisire una maggiore comprensione di come le proprietà del dataset influenzino i modelli che addestrano.

Per creare il suo programma informatico, ha utilizzato il dataset originale e un sottoinsieme molto più piccolo con il 95% in meno di punti dati. Il modello addestrato sul 5% dei dati si è comportato in modo comparabile al modello addestrato sull’intero dataset nel predire le proprietà dei materiali all’interno del dominio del dataset. Secondo questo, l’addestramento del machine learning può escludere in modo sicuro fino al 95% dei dati senza avere effetti significativi sull’accuratezza delle previsioni all’interno della distribuzione. Il materiale sovra-rappresentato è il principale oggetto dei dati ridondanti.

Secondo Li, le conclusioni dello studio forniscono un modo per valutare quanto un dataset sia ridondante. Se l’aggiunta di ulteriori dati non migliora le prestazioni del modello, è ridondante e non fornisce ai modelli nuove informazioni da apprendere.

Lo studio supporta una crescente base di conoscenze tra gli esperti di IA in diversi settori: i modelli addestrati su dataset relativamente piccoli possono avere buone performance, a patto che la qualità dei dati sia alta.

In conclusione, si sottolinea l’importanza della ricchezza delle informazioni più che la quantità di dati da sola. La qualità delle informazioni dovrebbe essere prioritaria rispetto alla raccolta di enormi volumi di dati.