Ricercatori di NVIDIA presentano Retro 48B il più grande modello LLM preaddestrato con rilevamento prima dell’ottimizzazione istruzionale

Ricercatori di NVIDIA presentano Retro 48B il più grande modello LLM preaddestrato con rilevazione prima dell'ottimizzazione istruzionale

“`html

I ricercatori di Nvidia e dell’Università dell’Illinois a Urbana Champaign presentano Retro 48B, un modello di linguaggio significativamente più grande rispetto ai modelli di recupero potenziato precedenti come Retro (7,5 miliardi di parametri). Retro 48B è pre-addestrato con il recupero su un corpus esteso, portando a un miglioramento della perplessità. L’encoder in InstructRetro può essere eliminato, suggerendo che il recupero potenziato dell’addestramento preliminare migliora le prestazioni del decoder nella risposta alle domande.

I modelli di linguaggio potenziati per il recupero sono ben consolidati nel contesto delle risposte alle domande a dominio aperto, beneficiando sia durante l’addestramento preliminare che durante l’inferenza. Il loro approccio riduce la perplessità del modello, migliora la veridicità e potenzia le prestazioni del compito dopo il fine-tuning. I modelli di recupero potenziati esistenti sono limitati per dimensioni rispetto ai modelli solo decoder, limitando il loro potenziale di generalizzazione zero-shot dopo il tuning dell’istruzione. Il tuning dell’istruzione, vitale per la comprensione del linguaggio naturale, ha ricevuto supporto da dataset di alta qualità come FLAN, OpenAssistant e Dolly, consentendo prestazioni superiori in chat e compiti di risposta alle domande.

Il preaddestramento dei modelli di linguaggio con il recupero, come Retro, ha mostrato promessa nel ridurre la perplessità e migliorare l’accuratezza fattuale. Tuttavia, i modelli di recupero potenziati esistenti necessitano di più parametri e dati di addestramento, influenzando le loro prestazioni nel tuning dell’istruzione e in altri compiti tipici dei grandi modelli di linguaggio. Il loro studio presenta Retro 48B, il modello di recupero potenziato più grande, continuando a preaddestrare un modello GPT da 43B con token aggiuntivi. InstructRetro, derivato da questo processo, migliora significativamente la risposta alle domande zero-shot rispetto ai modelli GPT tradizionali. Il decoder di InstructRetro ottiene risultati simili quando l’encoder viene eliminato, dimostrando l’efficacia del pre-addestramento potenziato per il recupero nell’incorporazione del contesto nella risposta alle domande.

Il loro studio esplora un processo esteso che prevede il preaddestramento di un modello GPT per creare Retro 48B, istruendolo per migliorare le sue abilità di risposta alle domande zero-shot ed esaminando le sue prestazioni in vari compiti. Presenta un nuovo modello di linguaggio potenziato per il recupero di dimensioni 48B, InstructRetro, che supera significativamente il modello GPT standard nei compiti di risposta alle domande zero-shot dopo il tuning dell’istruzione. Questo approccio di scalabilità dimostra il potenziale di modelli di recupero potenziati più grandi nella comprensione del linguaggio naturale.

Retro 48B, un modello di linguaggio pre-addestrato con il recupero, supera il modello GPT originale in termini di perplessità. Dopo il tuning dell’istruzione, noto come InstructRetro, migliora significativamente la risposta alle domande zero-shot, con un miglioramento medio del 7% nelle domande a breve termine e del 10% nelle domande a lungo termine rispetto al suo omologo GPT. Sorprendentemente, solo il backbone del decoder di InstructRetro offre risultati comparabili, indicando l’efficacia del preaddestramento basato sul recupero nell’incorporazione del contesto nella risposta alle domande.

Introducendo InstructRetro 48B, il più grande modello di linguaggio potenziato per il recupero, migliora significativamente l’accuratezza zero-shot in una vasta gamma di compiti di risposta alle domande aperte rispetto al suo omologo GPT. Il preaddestramento con il recupero utilizzando il metodo di potenziamento Retro ha migliorato la perplessità. I risultati del loro studio suggeriscono che il preaddestramento continuato con il recupero prima del tuning dell’istruzione offre una direzione promettente per potenziare i decoder GPT nei compiti di risposta alle domande. Sorprendentemente, il decoder raggiunge un’accuratezza comparabile, dimostrando l’efficacia del preaddestramento per l’incorporazione del contesto. InstructRetro eccelle nei compiti a lungo termine delle domande e evidenzia il potenziale del preaddestramento potenziato per il recupero in compiti impegnativi.

“`