Gen AI per il genoma LLM prevede le caratteristiche delle varianti di COVID

Intelligenza Genetica AI per il genoma LLM prevede le caratteristiche delle varianti di COVID

Un ampio modello linguistico per dati genomici, ampiamente acclamato, ha dimostrato la sua capacità di generare sequenze di geni che assomigliano molto alle varianti del mondo reale del SARS-CoV-2, il virus responsabile del COVID-19.

Chiamato GenSLMs, il modello, che lo scorso anno ha vinto il premio speciale Gordon Bell per la ricerca sull’elaborazione ad alte prestazioni basata sul COVID-19, è stato addestrato su un set di dati di sequenze di nucleotidi, i mattoni costitutivi del DNA e dell’RNA. È stato sviluppato da ricercatori dell’Argonne National Laboratory, NVIDIA, dell’Università di Chicago e di molti altri collaboratori accademici e commerciali.

Quando i ricercatori hanno analizzato le sequenze di nucleotidi generate da GenSLMs, hanno scoperto che le caratteristiche specifiche delle sequenze generate dall’IA corrispondevano molto alle sottovarianti reali di Eris e Pirola, che sono state prevalenti quest’anno, nonostante l’IA sia stata addestrata solo sui genomi del virus COVID-19 del primo anno della pandemia.

“Il processo generativo del nostro modello è estremamente ingenuo, privo di informazioni o restrizioni specifiche su come dovrebbe apparire una nuova variante di COVID”, ha detto Arvind Ramanathan, ricercatore principale del progetto e biologo computazionale all’Argonne. “La capacità dell’IA di predire i tipi di mutazioni genetiche presenti nelle recenti varianti COVID, nonostante abbia visto solo le varianti Alfa e Beta durante l’addestramento, è una forte validazione delle sue capacità”.

Oltre a generare le proprie sequenze, i GenSLMs possono anche classificare e raggruppare diverse sequenze genomiche COVID distinguendo tra varianti. In una demo che presto sarà disponibile su NGC, la piattaforma di NVIDIA per il software accelerato, gli utenti potranno esplorare visualizzazioni dell’analisi di GenSLMs sui pattern evolutivi delle varie proteine all’interno del genoma virale COVID.

 

Lettura tra le righe, scoprendo pattern evolutivi

Una caratteristica fondamentale di GenSLMs è la sua capacità di interpretare lunghe sequenze di nucleotidi, rappresentate da sequenze delle lettere A, T, G e C nel DNA, o A, U, G e C nell’RNA, allo stesso modo in cui un LLM addestrato sul testo inglese interpreta una frase. Questa capacità consente al modello di comprendere la relazione tra diverse parti del genoma, che nei coronavirus è composto da circa 30.000 nucleotidi.

Nella demo, gli utenti potranno scegliere tra otto diverse varianti COVID per capire come il modello IA segue le mutazioni nelle diverse proteine del genoma virale. La visualizzazione mostra le associazioni evolutive tra le proteine virali, evidenziando quali frammenti del genoma sono probabili che compaiano in una determinata variante.

“Capire come diverse parti del genoma si coevolvono ci fornisce indizi su come il virus potrebbe sviluppare nuove vulnerabilità o nuove forme di resistenza”, ha detto Ramanathan. “Analizzando la comprensione del modello sulle mutazioni particolarmente significative in una variante, gli scienziati potrebbero ottenere informazioni utili per determinare come uno specifico ceppo può eludere il sistema immunitario umano”.

 

GenSLMs è stato addestrato su oltre 110 milioni di sequenze genomiche procariotiche e ottimizzato con un dataset globale di circa 1,5 milioni di sequenze virali COVID utilizzando dati open-source provenienti dal Bacterial and Viral Bioinformatics Resource Center. In futuro, il modello potrebbe essere ottimizzato sui genomi di altri virus o batteri, consentendo nuove applicazioni di ricerca.

Per addestrare il modello, i ricercatori hanno utilizzato supercomputer potenziati da GPU Tensor Core NVIDIA A100, tra cui il sistema Polaris dell’Argonne, Perlmutter del Dipartimento dell’Energia degli Stati Uniti e Selene di NVIDIA.

Il premio speciale Gordon Bell del team di ricerca di GenSLMs è stato assegnato alla conferenza SC22 sul supercalcolo dello scorso anno. In quest’anno SC23, a Denver, NVIDIA sta condividendo una nuova serie di lavoro innovativo nel campo dell’elaborazione accelerata. Consulta il programma completo e rivedi il discorso speciale di NVIDIA qui di seguito.

NVIDIA Research comprende centinaia di scienziati e ingegneri in tutto il mondo, con team focalizzati su argomenti tra cui intelligenza artificiale, computer grafica, computer vision, auto a guida autonoma e robotica. Scopri di più su NVIDIA Research e iscriviti alle notizie sulla salute di NVIDIA.

Immagine principale cortesia di Bharat Kale dell’Argonne National Laboratory.

Questa ricerca è stata supportata dal Progetto di elaborazione su scala exascale (17-SC-20-SC), uno sforzo collaborativo dell’Ufficio della Scienza del Dipartimento dell’Energia degli Stati Uniti e dell’Amministrazione per la Sicurezza Nucleare Nazionale. La ricerca è stata supportata dal Dipartimento dell’Energia attraverso il Laboratorio Nazionale di Biotecnologia Virtuale, un consorzio di laboratori nazionali del Dipartimento dell’Energia focalizzato sulla risposta al COVID-19, con finanziamenti forniti dallo US Coronavirus CARES Act.