I ricercatori avanzati di Meta AI propongono gli LLM a lungo contesto

Gli esperti di Meta AI propongono gli LLM con un lungo contesto

In un nuovo articolo, i ricercatori di Meta AI propongono avanzati LLM a lungo contesto per affrontare la mancanza di accesso a LLM con robuste capacità di lungo contesto. In passato, questo era principalmente disponibile tramite API proprietarie.

Il problema, però, è che questo approccio ha lasciato un vuoto per i ricercatori e gli sviluppatori che cercano soluzioni open-source. Anche se esistono modelli open-source a lungo contesto, spesso non soddisfano valutazioni rigorose, concentrandosi sulla perdita di modellizzazione del linguaggio e su compiti sintetici che non riflettono adeguatamente scenari reali.

Per affrontare queste sfide, Meta AI spinge avanti una nuova metodologia. Si basa sulla preaddestramento continuo dai checkpoint di LLAMA 2, incorporando ulteriori 400 miliardi di token per creare sequenze di addestramento estese che catturano l’essenza della comprensione del lungo contesto.

Fino ad ora, i risultati si riferiscono a una serie di varianti di modelli, da modelli più piccoli da 7B/13B addestrati con sequenze da 32.768 token a modelli più grandi da 34B/70B con sequenze da 16.384 token. Ciò che distingue questo approccio è la completezza del processo di valutazione.

A differenza degli studi precedenti, Meta Research valuta i modelli su molteplici dimensioni, inclusa la capacità di modellazione del linguaggio, compiti sintetici e benchmark del mondo reale. Coprono sia compiti di lungo che di breve contesto, fornendo una visione completa delle capacità dei modelli.

I risultati mettono in evidenza il comportamento di scalabilità dei modelli, dimostrando un miglioramento continuo delle prestazioni con contesti sempre più estesi. La lunghezza del contesto emerge come un asse cruciale per la scalabilità di LLM.

Rispetto a LLAMA 2 sui benchmark di ricerca, questo metodo offre significativi avanzamenti nei compiti di lungo contesto e modesti miglioramenti nei compiti standard di breve contesto. In particolare, eccelle nella codifica, nella risoluzione di problemi matematici e nei compiti legati alla conoscenza.

Un altro aspetto che questa ricerca esplora è trovare un approccio economico per il fine-tuning dell’istruzione, risultando in un modello di chat che supera gpt-3.5-turbo-16k su vari benchmark di lungo contesto.

Basandosi sull’articolo e sui risultati, sembra che l’approccio di Meta Research colmi il divario tra LLM a lungo contesto proprietari e open-source. Afferma di offrire modelli con prestazioni superiori, valutazioni complete e approfondimenti sui fattori che ne plasmano le capacità.

Questo lavoro permette ai ricercatori e agli sviluppatori di sfruttare il potenziale dei LLM a lungo contesto, che a loro volta possono contribuire a inaugurare una nuova era di ricerca basata sull’NLP. Da aiutare a spingere avanti maggiori interazioni uomo-computer, Meta AI punta a favorire una maggiore democratizzazione e accesso a modelli di linguaggio avanzati e strumenti.