Ricercatori dell’Università di Toronto presentano scGPT un modello fondamentale per la biologia delle singole cellule basato su Generative Pre-Trained Transformer su un repository di oltre 33 milioni di cellule.

I ricercatori dell'Università di Toronto presentano scGPT, un modello basato su Generative Pre-Trained Transformer, fondamentale per la biologia delle singole cellule. Il modello è stato allenato su un repository di oltre 33 milioni di cellule.

Elaborazione del linguaggio naturale e visione artificiale sono solo degli esempi dei campi in cui i modelli generativi pre-addestrati hanno ottenuto un incredibile successo. In particolare, una strategia valida per la costruzione di modelli di base è quella di combinare set di dati su larga scala con transformers pre-addestrati. Lo studio indaga la fattibilità di modelli di base per la ricerca in biologia cellulare e genetica, stabilendo connessioni tra linguaggio e costruzioni biologiche (dove i testi costituiscono i geni e caratterizzano rispettivamente parole e cellule). I ricercatori sono stati all’avanguardia nella costruzione di scGPT, un modello di base per la biologia delle cellule singole basato su un transformer generativo pre-addestrato che copre un repository di oltre un milione di cellule, utilizzando il crescente corpo di dati di sequenziamento delle cellule singole. I risultati mostrano che scGPT, un transformer generativo pre-addestrato, estrae efficacemente importanti intuizioni biologiche legate ai geni e alle cellule. Lo script può essere migliorato per l’uso in varie applicazioni utilizzando il trasferimento di apprendimento in modi nuovi. Queste sfide includono l’inferenza della rete genica, la previsione della perturbazione genetica e l’integrazione multi-batch. Visualizza il codice sorgente di scGPT.

Facilitando la caratterizzazione dettagliata dei diversi tipi di cellule e migliorando la nostra conoscenza della patogenesi delle malattie, il sequenziamento del RNA a cellule singole (scRNA-seq) apre la strada all’indagine dell’eterogeneità cellulare, al tracciamento delle linee cellulari, all’elucidazione dei meccanismi patogenici e allo sviluppo di approcci terapeutici personalizzati per il paziente.

Dato l’enorme crescita dei dati di sequenziamento, è urgente creare metodi che possano sfruttare, migliorare e adattarsi efficacemente a queste nuove tendenze. Il pre-addestramento generativo di modelli di base è una strategia efficace per superare questa difficoltà. Apprendendo da set di dati massicci, il pre-addestramento generativo ha recentemente ottenuto un successo straordinario in vari domini. I casi d’uso popolari includono la generazione di linguaggio naturale (NLG) e la visione artificiale. Questi modelli di base, tra cui DALL-E2 e GPT-4, si basano sul principio del pre-addestramento di transformers su set di dati eterogenei su larga scala che possono essere facilmente adattati a specifici compiti e scenari successivi. Non solo, ma questi modelli generativi pre-addestrati superano sempre le loro controparti addestrate su misura.

I ricercatori prendono spunto dal metodo di pre-addestramento auto-supervisionato NLG per migliorare la modellazione di enormi quantità di dati di sequenziamento delle cellule singole. È stato dimostrato che il transformer auto-attenzione è un framework utile ed efficiente per modellare i token di input del testo.

Utilizzando il pre-addestramento generativo su oltre un milione di cellule, questi scienziati offrono il primo tentativo di costruire un modello di base per le cellule singole, chiamato scGPT. Presentano nuovi approcci per il pre-addestramento di grandi quantità di dati omici a cellule singole, affrontando sia le questioni metodologiche che quelle ingegneristiche che sorgono. Utilizzano una struttura dati in memoria con accesso rapido per archiviare centinaia di set di dati, consentendo di gestire enormi quantità di dati. Modificano l’architettura del transformer per apprendere contemporaneamente rappresentazioni delle cellule e dei geni e costruire un approccio di pre-addestramento generativo unificato adattato ai dati omici non sequenziali. Per consentire l’uso del modello pre-addestrato in vari compiti successivi, forniscono anche pipeline standard con obiettivi specifici per il raffinamento del modello.

Attraverso questi tre componenti, il modello scGPT evidenzia il potenziale rivoluzionario del concetto di base delle cellule singole. Questo inizia con scGPT, il primo modello di base generativo su larga scala che supporta il trasferimento di apprendimento verso varie attività successive. Dimostrano l’efficacia dell’approccio “pre-addestramento universale, raffinamento su richiesta” come soluzione generalista per le applicazioni computazionali in omica a cellule singole ottenendo prestazioni all’avanguardia nell’annotazione dei tipi cellulari, nella previsione della perturbazione genetica, nella correzione dei batch e nell’integrazione multi-omica.

In particolare, scGPT è l’unico modello di base in grado di incorporare dati scATAC-seq e altre omiche a cellule singole. In secondo luogo, scGPT rivela importanti intuizioni biologiche sulle interazioni gene-gene specifiche della condizione confrontando le rappresentazioni dei geni e i pesi di attenzione tra i modelli pre-addestrati raffinati e grezzi. In terzo luogo, i risultati mostrano una legge di scalabilità: rappresentazioni pre-addestrate migliori e prestazioni superiori nei compiti successivi derivano dall’uso di più dati nella fase di pre-addestramento. Questa scoperta sottolinea la promettente possibilità che i modelli di base possano migliorare costantemente man mano che sempre più dati di sequenziamento diventano disponibili alla comunità di ricerca. Alla luce di questi risultati, ipotizzano che l’uso di modelli di base pre-addestrati aumenterà significativamente la nostra conoscenza della biologia delle cellule e gettare le basi per futuri progressi nel campo. Rendere i modelli e il flusso di lavoro scGPT disponibili pubblicamente consente di rafforzare e accelerare la ricerca in questi e in altri campi correlati.

Lo script è un nuovo modello di base generativo pre-addestrato che utilizza transformers pre-addestrati per dare senso a un’ampia quantità di dati a cellule singole, come descritto dagli autori dello studio. Il pre-addestramento auto-supervisionato si è dimostrato efficace nei modelli di linguaggio come chatGPT e GPT4. Nello studio delle cellule singole, hanno utilizzato la stessa strategia per decifrare intricate connessioni biologiche. Per modellare meglio diverse sfaccettature dei processi cellulari, scGPT utilizza transformers per apprendere contemporaneamente rappresentazioni dei geni e delle cellule. Single-cell GPT (scGPT) cattura le interazioni gene-gene a livello di cellula singola, aggiungendo un nuovo grado di interpretabilità utilizzando il meccanismo di attenzione dei transformers.

I ricercatori hanno utilizzato ampie ricerche in scenari di zero-shot e fine-tuning per dimostrare il valore del pre-training. Il modello addestrato è già un estrattore di caratteristiche per qualsiasi dataset. Dimostra una notevole capacità di interpolazione, mostrando un’elevata formazione di gruppi cellulari nello studio zero-shot. Inoltre, c’è un elevato grado di congruenza tra le reti geniche apprese in scGPT e le relazioni funzionali precedentemente stabilite. Abbiamo fiducia nella capacità del modello di scoprire scoperte rilevanti nella biologia delle singole cellule perché cattura le interazioni gene-gene e riflette in modo efficace le informazioni biologiche conosciute. Inoltre, con un po’ di fine-tuning, le informazioni apprese dal modello pre-addestrato possono essere utilizzate per vari compiti successivi. Il modello scGPT ottimizzato supera regolarmente i modelli addestrati da zero in compiti come l’annotazione del tipo di cellula, l’integrazione multi-batch e multi-omic. Ciò dimostra come il modello pre-addestrato beneficia dei compiti successivi migliorando l’accuratezza e la rilevanza biologica. Nel complesso, i test dimostrano l’utilità del pre-training in scGPT, dimostrando la sua capacità di generalizzare, catturare reti geniche e migliorare le prestazioni in compiti successivi utilizzando il transfer learning.

Caratteristiche Chiave

  • La strategia generalista permette di eseguire un’analisi multi-omic integrata e una previsione di perturbazione utilizzando un singolo modello per uno studio di singola cellula.
  • Possiamo identificare interazioni geniche specifiche della condizione utilizzando pesi di attenzione appresi e embedding genici.
  • È stato identificato una legge di scala che dimostra il miglioramento continuo delle prestazioni del modello con il carico dati crescente.
  • Ora sono disponibili molti modelli di base pre-addestrati per diversi organi solidi nel modello scGPT zoo (vedi github) e un modello pan-cancro completo. Inizia a esplorare i dati utilizzando il miglior punto di partenza possibile.

Si prevede che il pre-training avvenga su un dataset molto più grande che include dati multi-omici, omics spaziali e una vasta gamma di stati patologici. Il modello può apprendere collegamenti causali e stimare come i geni e le cellule rispondono nel tempo se i dati di perturbazione e temporali sono inclusi nella fase di pre-training. Per comprendere e interpretare meglio gli apprendimenti del modello pre-addestrato, sarebbe ideale convalidare il modello su un insieme più ampio di compiti biologicamente significativi. Inoltre, si mira a investigare la conoscenza sensibile al contesto per i dati delle singole cellule. Il modello pre-addestrato deve comprendere e adattarsi a nuovi compiti e ambienti senza ulteriore fine-tuning in una configurazione zero-shot. Possiamo migliorare l’utilità e l’applicabilità di scGPT in numerosi contesti di studio insegnandogli a comprendere le sottigliezze e le esigenze uniche di vari studi. Ci aspettiamo che il paradigma del pre-training sia facilmente implementato nella ricerca sulle singole cellule e getti le basi per sfruttare le conoscenze accumulate negli atlanti cellulari in rapida espansione.