Ricercatori di NYU hanno creato una rete neurale per la genomica che può spiegare come raggiunge le sue previsioni

Ricercatori della NYU sviluppano una rete neurale genomica per spiegare le sue predizioni

Nel mondo della ricerca biologica, i modelli di apprendimento automatico stanno compiendo progressi significativi nel migliorare la nostra comprensione dei processi complessi, con particolare attenzione allo splicing dell’RNA. Tuttavia, una limitazione comune di molti modelli di apprendimento automatico in questo campo è la loro mancanza di interpretabilità: possono prevedere accuratamente i risultati ma faticano a spiegare come sono arrivati a tali previsioni.

Per affrontare questo problema, i ricercatori dell’NYU hanno introdotto un approccio “interpretabile per design” che non solo garantisce risultati predittivi accurati, ma fornisce anche intuizioni sui processi biologici sottostanti, in particolare lo splicing dell’RNA. Questo modello innovativo ha il potenziale per migliorare significativamente la nostra comprensione di questo processo fondamentale.

I modelli di apprendimento automatico, come le reti neurali, sono stati fondamentali nell’avanzamento della scoperta scientifica e nella progettazione sperimentale nelle scienze biologiche. Tuttavia, la loro non interpretabilità è stata una sfida persistente. Nonostante la loro elevata accuratezza, spesso non sono in grado di spiegare il ragionamento alla base delle loro previsioni.

Il nuovo approccio “interpretabile per design” supera questa limitazione creando esplicitamente un modello di rete neurale progettato per essere interpretabile, pur mantenendo un’accuratezza predittiva all’altezza dei modelli più avanzati. Questo approccio rappresenta una svolta nel campo, poiché colma il divario tra accuratezza e interpretabilità, garantendo che i ricercatori non solo abbiano le risposte corrette, ma comprendano anche come queste risposte siano state ottenute.

Il modello è stato attentamente addestrato con un’attenzione alla interpretabilità, utilizzando Python 3.8 e TensorFlow 2.6. Sono stati ottimizzati vari iperparametri e il processo di addestramento ha incorporato passi progressivi per introdurre gradualmente i parametri apprendibili. L’interpretabilità del modello è stata ulteriormente migliorata attraverso l’introduzione di termini di regolarizzazione, garantendo che le caratteristiche apprese fossero concise e comprensibili.

Un elemento notevole di questo modello è la sua capacità di generalizzare e fare previsioni accurate su vari set di dati provenienti da diverse fonti, evidenziando la sua robustezza e il suo potenziale per catturare aspetti essenziali della logica regolatoria dello splicing. Ciò significa che può essere applicato a contesti biologici diversi, fornendo preziose intuizioni in diverse situazioni di splicing dell’RNA.

L’architettura del modello include filtri di sequenza e struttura, che sono fondamentali per comprendere lo splicing dell’RNA. In modo importante, assegna forza quantitativa a questi filtri, facendo luce sulla portata della loro influenza sui risultati dello splicing. Attraverso uno strumento di visualizzazione chiamato “balance plot”, i ricercatori possono esplorare e quantificare come più caratteristiche dell’RNA contribuiscono ai risultati dello splicing degli esoni individuali. Questo strumento semplifica la comprensione dell’interazione complessa di diverse caratteristiche nel processo di splicing.

Inoltre, questo modello non solo ha confermato caratteristiche di splicing dell’RNA precedentemente stabilite, ma ha anche scoperto due nuove caratteristiche di skipping degli esoni non caratterizzate legate a strutture a ansa e sequenze a basso contenuto di G. Queste scoperte sono significative e sono state validate sperimentalmente, rafforzando la credibilità del modello e la rilevanza biologica di queste caratteristiche.

In conclusione, il modello di apprendimento automatico “interpretabile per design” rappresenta un potente strumento nelle scienze biologiche. Non solo raggiunge un’alta accuratezza predittiva, ma fornisce anche una comprensione chiara e interpretabile dei processi di splicing dell’RNA. La capacità del modello di quantificare il contributo di specifiche caratteristiche ai risultati dello splicing ha il potenziale per diverse applicazioni nei campi medico e biotecnologico, dalla modifica del genoma allo sviluppo di terapie basate sull’RNA. Questo approccio non è limitato allo splicing, ma può essere applicato per decifrare altri processi biologici complessi, aprendo nuove vie alla scoperta scientifica.