Questo modello di linguaggio proteico basato sull’intelligenza artificiale sblocca la modellazione di sequenze a uso generale.
Questo modello di IA per il linguaggio proteico sblocca la modellazione di sequenze generiche.
Il modo in cui le persone studiano il linguaggio della vita è stato fondamentalmente alterato confrontando la sintassi-semantica delle lingue naturali e la funzione di sequenza delle proteine. Sebbene questo confronto abbia un valore intrinseco quando viene visto come una pietra miliare storica che ha contribuito a migliorare l’applicazione dell’elaborazione del linguaggio naturale (NLP) nel campo delle proteine (come i modelli di linguaggio), i risultati nell’ambito dell’NLP non si traducono completamente nel linguaggio delle proteine. Oltre ad aumentare le dimensioni dei modelli NLP, l’aumento delle dimensioni dei modelli di linguaggio delle proteine può avere un impatto molto maggiore rispetto all’aumento delle dimensioni dei modelli NLP.
L’osservazione di modelli di linguaggio con un numero enorme di parametri addestrati su un numero enorme di passaggi che presentano ancora gradienti di apprendimento evidenti e pertanto vengono percepiti come sottostimati tende ad incoraggiare – erroneamente – la proporzionalità tra la dimensione del modello e la ricchezza delle sue rappresentazioni apprese. Di conseguenza, la scelta di rappresentazioni delle proteine più accurate o rilevanti è gradualmente passata alla scelta di modelli più grandi, che richiedono una maggiore potenza di calcolo e quindi sono meno accessibili. Notoriamente, le dimensioni dei modelli PLM sono recentemente aumentate da 106 a 109 parametri. Basano il loro benchmark delle prestazioni in base alle dimensioni utilizzando ProtT5-XL-U50 di ProtTrans, un trasformatore codificatore-decodificatore pre-addestrato sul database UniRef50, i cui parametri sono 3B per l’addestramento e 1,5B per l’infereza, gettando luce storicamente sullo stato dell’arte dei modelli di linguaggio delle proteine (SOTA).
Per sviluppare principi di scalabilità per la modellazione delle sequenze proteiche, la famiglia di modelli di linguaggio RITA, che è un primo passo in questa direzione, è stata utilizzata per mostrare come le prestazioni di un modello cambiano in base alla sua dimensione. RITA presenta quattro modelli alternativi con aumenti delle dimensioni proporzionali alle prestazioni da 85M a 300M, a 680M, a 1.2B parametri. Uno schema simile è stato successivamente confermato da ProGen2, una collezione di modelli di linguaggio delle proteine addestrati su diversi dataset di sequenziamento e che includono 6.4B parametri. Infine, e al momento della pubblicazione di questo studio, ESM-2, un’indagine sui modelli di linguaggio delle proteine a scopo generale che mostra un aumento proporzionale delle prestazioni in base alla dimensione da 650M a 3B a 15B parametri, è l’aggiunta più recente che incoraggia l’incremento delle dimensioni del modello.
- Principali strumenti per la privacy DNS nel 2023
- Incontra DiffComplete un interessante metodo di intelligenza artificiale che può completare oggetti 3D da forme incomplete
- Ricercatori dell’Università di Pechino presentano ChatLaw un modello linguistico legale open source di grandi dimensioni con basi di conoscenza esterne integrate.
La semplice relazione tra modelli PLM più grandi e apparentemente migliori trascura diversi fattori, tra cui i costi di calcolo e la progettazione e implementazione di modelli agnostici rispetto al compito. Ciò aumenta la soglia di accesso per la ricerca innovativa e ne limita la capacità di crescita. Sebbene le dimensioni del modello influenzino indubbiamente il raggiungimento degli obiettivi sopra descritti, non sono l’unico fattore. La scalabilità dei dataset di pre-addestramento nella stessa direzione è condizionale, ovvero dataset più grandi non sono sempre preferibili a dataset più piccoli di maggiore qualità. Sostengono che l’aumento delle dimensioni dei modelli di linguaggio è condizionato e continua nello stesso approccio (cioè modelli più grandi non sono necessariamente migliori dei modelli più piccoli di conoscenza delle proteine guidati da ottimizzazione).
Il principale obiettivo di questo studio è incorporare l’ottimizzazione guidata dalla conoscenza in un quadro empirico iterativo che favorisce l’accesso all’innovazione della ricerca attraverso risorse pratiche. Poiché il loro modello “sblocca” il linguaggio della vita apprendendo rappresentazioni migliori dei suoi “caratteri”, gli amminoacidi, hanno chiamato il loro progetto “Ankh” (un riferimento al segno dell’Antico Egitto per la chiave della vita). Questo viene ulteriormente sviluppato in due evidenze per valutare la generalità e l’ottimizzazione di Ankh.
Uno studio generazionale per l’ingegneria delle proteine su applicazioni High-N (basate sulla famiglia) e One-N (basate su una singola sequenza), dove N è il numero di sequenze di input, è il primo passo per superare le prestazioni del SOTA in una vasta gamma di benchmark di struttura e funzione. Il secondo passo è raggiungere queste prestazioni attraverso un’indagine sugli attributi ottimali, includendo non solo l’architettura del modello ma anche il software e l’hardware utilizzati per la creazione, l’addestramento e l’implementazione del modello. In base alle esigenze dell’applicazione, forniscono due modelli preaddestrati chiamati Ankh big e Ankh base, ognuno dei quali offre due modi di calcolo. Il loro modello principale, Ankh big, viene chiamato Ankh per comodità. I modelli preaddestrati sono disponibili sulla loro pagina GitHub. Contiene anche dettagli su come eseguire il codice sorgente.