Incontra xVal Un modo continuo per codificare numeri nei modelli di linguaggio per applicazioni scientifiche che utilizza un singolo token per rappresentare qualsiasi numero.

Incontra xVal Una soluzione innovativa per codificare numeri nei modelli di linguaggio per applicazioni scientifiche utilizzando un singolo token per qualsiasi tipo di numero.

Nel campo dei Large Language Models, spicca un problema perplesso. Mentre questi modelli possono padroneggiare molte attività linguistiche, spesso inciampano quando eseguono calcoli numerici che coinvolgono numeri grandi. In particolare, moltiplicare due numeri di quattro cifre porta a un tasso di successo appena superiore al 90%, lasciando spazio per il miglioramento.

Questo problema deriva dalle differenze intrinseche tra i numeri e altre forme di linguaggio. A differenza di lettere o parole, i numeri racchiudono uno spettro continuo di valori, soggetto a regole intricate e rigorose. Questa sfida ha sollevato domande sull’intersezione dei modelli di linguaggio e dei dati numerici e ha ispirato la ricerca di una soluzione.

Le soluzioni esistenti a questo problema sono poche e lontane dalla perfezione. I LLM, che eccellono nelle attività legate al linguaggio, faticano ad adattarsi alla natura continua e infinitamente variabile dei numeri. La maggior parte degli approcci comporta la tokenizzazione, in cui i numeri vengono suddivisi in più token, aumentando la complessità del modello e i requisiti di memoria.

I ricercatori di Polymathic AI introducono una potenziale innovazione: la strategia di codifica xVal. Questo approccio innovativo offre una prospettiva nuova sulla codifica dei numeri in LLM per applicazioni scientifiche. xVal utilizza un token singolare denominato [NUM] per rappresentare qualsiasi numero.

La strategia xVal raggiunge questo obiettivo trattando i numeri in modo diverso nel modello di linguaggio. Invece di fare affidamento su più token, ogni numero viene pre-elaborato e memorizzato in un vettore separato. Il testo sostituisce il numero con il token [NUM]. Durante la decodifica, un token head dedicato nell’architettura del transformer viene impiegato per prevedere il valore associato al token [NUM], utilizzando l’errore quadratico medio (MSE) come metrica guida.

In una serie di esperimenti, le capacità di xVal sono state rigorosamente testate e confrontate con altre quattro strategie di codifica numerica. I risultati sono stati intriganti. xVal ha superato gli altri metodi nelle attività multi-operando e si è comportato in modo comparabile nei calcoli complessi, come la moltiplicazione di grandi numeri interi multi-cifra.

Quando applicato alle letture di temperatura dell’insieme di dati climatici globali ERA5, il bias di continuità intrinseco di xVal gli ha permesso di eccellere, ottenendo le migliori prestazioni nel minor tempo di addestramento.

Le Simulazioni Planetarie hanno rivelato le eccezionali capacità di interpolazione di xVal nelle simulazioni di pianeti che orbitano attorno a una massa centrale, superando tutti gli altri schemi di codifica quando si effettuano previsioni per dati fuori distribuzione.

In conclusione, l’approccio innovativo di xVal alla codifica dei numeri nei modelli di linguaggio ha il potenziale per rivoluzionare il futuro. Affrontare la sfida della rappresentazione dei numeri in LLM con un metodo più efficiente e accurato apre la porta a applicazioni innovative nel campo scientifico. Questa soluzione innovativa potrebbe aprire la strada allo sviluppo di modelli fondamentali che collegano più domini della scienza, modificando in ultima analisi il panorama dell’indagine scientifica negli anni a venire.