Gli esperti di Intelligenza Artificiale di NVIDIA propongono Tied-Lora un nuovo approccio all’Intelligenza Artificiale che mira a migliorare l’efficienza dei parametri dei metodi di adattamento a basso rango (LoRA).

Gli esperti di NVIDIA propongono Tied-Lora, un innovativo approccio all'Intelligenza Artificiale che ottimizza i parametri dei metodi di adattamento a basso rango (LoRA).

Un gruppo di ricercatori di Nvidia ha sviluppato una nuova tecnica chiamata Tied-LoRA, che mira a migliorare l’efficienza dei parametri del metodo Low-rank Adaptation (LoRA). Il corso utilizza il weight tying e l’addestramento selettivo per trovare l’equilibrio ottimale tra prestazioni e parametri addestrabili. I ricercatori hanno condotto esperimenti su diverse attività e modelli linguistici di base e hanno scoperto che ci sono dei compromessi tra efficienza e prestazioni.

Recenti progressi nelle tecniche di fine-tuning dei parametri efficienti includono LoRA, che riduce i parametri addestrabili attraverso approssimazioni di matrici a rango ridotto. AdaLoRA è un’estensione di LoRA che introduce l’aggiustamento dinamico del rango e combina il tuning dell’adattatore con LoRA. Un’altra tecnica è VeRA, proposta da Kopiczko, che riduce i parametri attraverso matrici congelate e vettori di ridimensionamento addestrabili. QLoRA utilizza modelli di base quantizzati per ottenere un’efficienza di memoria LoRA. Questo studio applica il weight tying alle matrici di pesi a rango ridotto, migliorando ulteriormente l’efficienza dei parametri.

Per affrontare l’onere computazionale del fine-tuning LLMs per le attività successive, Tied-LoRA è un approccio nuovo che combina il weight tying e l’addestramento selettivo per migliorare l’efficienza dei parametri di LoRA. Esplora diverse combinazioni di addestramento/scongelamento dei parametri e del weight tying attraverso esperimenti sistematici su diversi studi e modelli linguistici di base. I ricercatori identificano una specifica configurazione di Tied-LoRA che raggiunge prestazioni comparabili utilizzando solo il 13% dei parametri rispetto al metodo LoRA standard.

Tied-LoRA è un metodo che migliora l’efficienza dei parametri dell’approccio LoRA combinando il weight tying e l’addestramento selettivo. Si tratta di applicare il weight tying alle matrici a rango ridotto in LoRA, condividendo le stesse conseguenze tra i livelli nel modello linguistico di base e riducendo quindi il numero di parametri addestrabili. Esplora varie combinazioni di addestramento/scongelamento dei parametri e di weight tying per ottenere un equilibrio ottimale tra prestazioni e parametri addestrabili. Le configurazioni proposte di Tied-LoRA sono valutate su diverse attività, dimostrando un’efficienza nei diversi contesti dei dati, tra cui la traduzione e il ragionamento matematico.

Negli esperimenti su diverse attività e due modelli linguistici di base, diverse configurazioni di Tied-LoRA hanno mostrato compromessi tra efficienza e prestazioni. Una specifica configurazione di Tied-LoRA, vBuA, ha superato le altre, raggiungendo prestazioni comparabili. vBuA è stato identificato come l’opzione ottimale, mantenendo le prestazioni riducendo i parametri dell’87%. Le valutazioni su attività come la risposta estrattiva alle domande, la sintesi e il ragionamento matematico hanno dimostrato la capacità di Tied-LoRA di migliorare l’efficienza dei parametri preservando significativamente le prestazioni competitive.

Dopo aver condotto esperimenti su diverse attività, è stato scoperto che Tied-LoRA è un paradigma che migliora l’efficienza dei parametri del metodo LoRA utilizzando il weight tying e l’addestramento selettivo. I risultati suggeriscono che Tied-LoRA può sostituire funzioni come il NLI del senso comune, la risposta estrattiva alle domande e la sintesi. Inoltre, offre un’efficienza dei parametri migliorata senza compromettere le prestazioni, utilizzando solo il 13% dei parametri del LoRA standard. Tuttavia, discutere delle limitazioni e dei confronti con altri metodi di efficienza dei parametri è importante per identificare possibili aree di esplorazione futura.