Ricercatori del MIT presentano MechGPT un pioniere basato sul linguaggio che unisce scala, discipline e modalità nella modellazione meccanica e dei materiali

Ricercatori del MIT presentano MechGPT un pioniere linguistico che unisce scala, discipline e modalità per la modellazione meccanica e dei materiali

I ricercatori si confrontano con una sfida formidabile nell’ampio campo della scienza dei materiali – distillare efficacemente intuizioni essenziali da testi scientifici densamente imballati. Questa danza intricata comporta la navigazione di contenuti complessi e la generazione di coppie domanda-risposta coerenti che racchiudono il nucleo del materiale. La complessità risiede nella sostanziale attività di estrapolazione di informazioni cruciali dalla densa trama di testi scientifici, richiedendo ai ricercatori di creare coppie di domande e risposte significative che catturino l’essenza del materiale.

Le metodologie attuali in questo campo utilizzano spesso modelli di linguaggio ad uso generale per l’estrazione di informazioni. Tuttavia, questi approcci hanno bisogno di aiuto per il perfezionamento del testo e l’accurata incorporazione di equazioni. In risposta, un team di ricercatori del MIT ha introdotto MechGPT, un nuovo modello basato su un modello di linguaggio pre-addestrato. Questo approccio innovativo utilizza un processo a due fasi, utilizzando un modello di linguaggio ad uso generale per formulare coppie di domande e risposte illuminanti. Oltre all’estrazione, MechGPT migliora la chiarezza dei fatti chiave.

Il viaggio di MechGPT inizia con un processo di addestramento meticoloso implementato in PyTorch all’interno dell’ecosistema di Hugging Face. Basato sull’architettura del trasformatore Llama 2, il modello sfoggia 40 strati del trasformatore e sfrutta gli embedding posizionali rotatori per facilitare lunghezze di contesto estese. Utilizzando un ottimizzatore AdamW a 32 bit, il processo di addestramento raggiunge una perdita notevole di circa 0,05. I ricercatori introducono Low-Rank Adaptation (LoRA) durante il fine-tuning per aumentare le capacità del modello. Ciò comporta l’integrazione di ulteriori strati addestrabili mentre il modello pre-addestrato originale viene congelato, impedendo al modello di cancellare la sua base di conoscenza iniziale. Il risultato è un’efficienza di memoria migliorata e un aumento della velocità di addestramento.

Oltre al modello fondamentale MechGPT con 13 miliardi di parametri, i ricercatori si adentrano nell’addestramento di altri due modelli più estesi, MechGPT-70b e MechGPT-70b-XL. Il primo è una versione raffinata del modello Meta/Llama 2 70 chat, mentre il secondo incorpora RoPE scalato dinamicamente per lunghezze di contesto sostanziali che superano i 10.000 token.

Il campionamento all’interno di MechGPT aderisce al principio autoregressivo, implementando maschere causali per la generazione della sequenza. Ciò garantisce che il modello predica ogni elemento basato sugli elementi precedenti, prevenendo la considerazione di parole future. L’implementazione incorpora la regolazione della temperatura per focalizzare il modello, introducendo il concetto di temperatura di incertezza.

In conclusione, MechGPT emerge come un faro di promesse, specialmente nell’arduo terreno dell’estrazione di conoscenza da testi scientifici nel campo della scienza dei materiali. Il processo di addestramento del modello, arricchito da tecniche innovative come LoRA e quantizzazione a 4 bit, mostra il suo potenziale per applicazioni oltre ai modelli di linguaggio tradizionali. La manifestazione tangibile di MechGPT in un’interfaccia di chat, che offre agli utenti accesso a Google Scholar, funge da ponte per future estensioni. Lo studio presenta MechGPT come un prezioso asset nella scienza dei materiali e lo posiziona come un pioniere, spingendo i confini dei modelli di linguaggio in ambiti specializzati. Mentre il team di ricerca continua a progredire, MechGPT si configura come una testimonianza dell’evoluzione dinamica dei modelli di linguaggio, sbloccando nuove frontiere nell’estrazione di conoscenza.