Questa ricerca sull’IA presenta BOFT un nuovo metodo generale di affinamento dell’IA per l’adattamento dei modelli di fondazione

BOFT Un nuovo metodo di affinamento dell'IA per l'adattamento dei modelli di fondotinta - Una ricerca completa sull'intelligenza artificiale

Gli sviluppi recenti nel campo dell’Intelligenza Artificiale, in particolare l’introduzione dei Modelli di Linguaggio Estesi, hanno aperto la strada all’IA in quasi ogni settore. I modelli fondamentali, come ChatGPT e Stable Diffusion, hanno un notevole potenziale di generalizzazione. Tuttavia, addestrare questi modelli da zero rappresenta una sfida a causa dell’aumento del numero di parametri.

L’approccio del fine-tuning dei modelli è semplice in quanto non comporta ritardi aggiuntivi nell’inferenza. Tuttavia, le informazioni relazionali delle matrici di peso sono difficili da mantenere in modo ottimale con le tecniche di fine-tuning convenzionali, che hanno un tasso di apprendimento basso. I ricercatori hanno studiato la tecnica di Orthogonal Fine-tuning (OFT), che mantiene gli angoli coppia di neuroni durante il fine-tuning trasformando i neuroni nello stesso strato utilizzando la stessa matrice ortogonale. Anche se questa tecnica ha un buon potenziale, si verifica la stessa limitazione, ovvero l’enorme numero di parametri addestrabili che derivano dall’alta dimensionalità delle matrici ortogonali.

Per superare questa sfida, un team di ricercatori ha introdotto Orthogonal Butterfly (BOFT), un metodo unico e avanzato che affronta l’efficienza dei parametri nel Fine-tuning Ortogonale. Ispirato alle strutture a farfalla nella tecnica di trasformata di Fourier veloce di Cooley-Tukey, BOFT produce una matrice ortogonale densa assemblandola con numerose matrici sparso fattorizzate. Per esprimere la matrice ortogonale come prodotto di matrici sparse, il tempo di calcolo deve essere scambiato per lo spazio.

Il team ha condiviso che questa tecnica può essere compresa confrontandola con un problema di trasmissione delle informazioni su una griglia strutturata a grafico, il che rende possibile l’utilizzo di diverse tecniche di fattorizzazione di matrici sparse che preservano l’espressività limitando i parametri addestrabili. BOFT si è ispirato al grafico a farfalla del metodo di Cooley-Tukey, con la sua innovazione principale che è il processo di fattorizzazione a farfalla.

Utilizzando questa fattorizzazione, può essere creata una matrice densa con un prodotto di O(log d) matrici sparse, ognuna con O(d) elementi non nulli. BOFT può offrire una parametrizzazione ortogonale efficiente con solo O(d log d) parametri, una riduzione considerevole rispetto alla parametrizzazione originale di OFT, garantendo l’ortogonalità per ogni matrice sparso. BOFT offre un framework di fine-tuning ortogonale generale e include OFT.

Il team ha confrontato BOFT con la struttura a blocco diagonale in OFT ed ha dimostrato che, al fine di ridurre i parametri addestrabili effettivi, sia BOFT che OFT aggiungono entrambi sparsità alle matrici ortogonali. Ma per le applicazioni successive, BOFT ha fornito una classe di ipotesi più piccola all’interno del gruppo ortogonale, consentendo un’interpolazione più fluida tra matrici del gruppo ortogonale completo e matrici identità. Al fine di sottolineare che entrambe le matrici a basso rango e sparse sono famiglie di matrici strutturate che raggiungono l’efficienza dei parametri, questo approccio strutturato è stato confrontato con la struttura a basso rango in LoRA.

I ricercatori hanno riassunto le loro principali contribuzioni come segue.

  1. Sono stati studiati i problemi di efficienza dei parametri nel fine-tuning ortogonale per migliorare l’adattabilità dei modelli di grandi dimensioni per compiti successivi.
  1. È stato introdotto un nuovo framework per la trasmissione delle informazioni che riconfigura la sfida di costruire una matrice ortogonale densa ed efficiente dei parametri come un problema all’interno di un grafico strutturato a griglia.
  1. È stato introdotto Orthogonal Butterfly (BOFT), un metodo di fine-tuning ortogonale efficiente dei parametri.
  1. È stata discussa la fattorizzazione di matrici e le spiegazioni teoriche su come BOFT riduca considerevolmente i parametri addestrabili preservando l’espressività e la stabilità dell’addestramento.
  1. BOFT ha superato le tecniche allo stato dell’arte nelle applicazioni di adattamento, dimostrando la sua superiorità in termini di efficienza dei parametri e capacità di generalizzazione.