Possono i grandi modelli di linguaggio autovalutarsi per la sicurezza? Incontra RAIN un nuovo metodo di inferenza che trasforma l’allineamento e la difesa dell’IA senza riaffinamento

Possono i modelli di linguaggio autovalutarsi per la sicurezza? RAIN è un nuovo metodo di inferenza che trasforma l'allineamento e la difesa dell'IA senza riaffinamento.

I modelli di linguaggio preaddestrati di grandi dimensioni (LLM), come GPT-3, hanno dimostrato di avere straordinarie capacità nel comprendere e rispondere a domande da parte degli esseri umani, aiutando con i compiti di programmazione e altro ancora. Tuttavia, generano spesso risultati diversi da quelli desiderati dalle persone. In passato, i ricercatori hanno cercato di risolvere questo problema raccogliendo informazioni sulle preferenze umane e poi allineando i modelli precedentemente addestrati mediante l’utilizzo dell’apprendimento per rinforzo o dell’ottimizzazione delle istruzioni, che richiede una fase di ottimizzazione. È più interessante allineare i LLM congelati, ovvero quelli che non hanno ancora subito ulteriori addestramenti, senza la necessità di dati aggiuntivi.

Recentemente, un team di ricercatori ha scoperto che i LLM non allineati possono produrre direttamente risposte che corrispondono alle preferenze umane attraverso un processo di auto-miglioramento che include meccanismi di autovalutazione e di retrocessione. In nome della sicurezza dell’IA, hanno introdotto Rewindable Auto-regressive INference (RAIN), una tecnica di inferenza unica che consente ai LLM preaddestrati di valutare il proprio testo generato e utilizzare i risultati della valutazione per guidare la retrocessione e la generazione in avanti.

RAIN si distingue per la sua capacità di funzionare senza richiedere ulteriori dati per l’allineamento del modello. Elimina la necessità di aggiornamenti dei parametri, calcolo dei gradienti o addestramento. Il modello ottiene indicazioni su quali preferenze umane allineare durante la fase di autovalutazione attraverso un prompt a modello fisso, eliminando la necessità di regolare ripetutamente la query iniziale.

I risultati sperimentali, valutati dal modello GPT-4 e dagli esperti umani, hanno mostrato il successo di RAIN. Ad esempio, utilizzando l’HH dataset, RAIN mantiene costante il tasso di utilità e aumenta notevolmente il tasso di innocuità di LLaMA 30B rispetto all’inferenza standard, passando dall’82% al 97%. Il team ha condiviso che RAIN ha anche stabilito una nuova base per la difesa, riducendo il tasso di successo degli attacchi dal 94% al 19% quando Vicuna 33B è il bersaglio di un noto attacco ostile (LLM-ATTACKS).

RAIN offre diversi vantaggi rispetto ai metodi attualmente utilizzati per l’allineamento dei modelli di linguaggio di grandi dimensioni (LLM) –

  1. Universalità: L’approccio RAIN è flessibile e può essere utilizzato per una varietà di compiti di generazione del linguaggio. Si integra perfettamente con il paradigma dell’inferenza auto-regressiva, che è la norma per molti LLM. Ciò significa che RAIN è altamente personalizzabile e facile da usare e può essere integrato rapidamente nella maggior parte dei LLM attuali.
  1. Allineamento con pesi congelati: RAIN non richiede la manutenzione di modelli aggiuntivi o la memorizzazione di dati sui gradienti e delle reti computazionali, a differenza di altre strategie di allineamento come RLHF. Il carico di memoria minimo prodotto da questo è paragonabile a quello dell’inferenza auto-regressiva semplice. RAIN è una scelta realistica per allineare LLM con pesi congelati grazie alla sua implementazione semplice e al suo design a basso consumo di memoria, eliminando procedure di ottimizzazione che richiedono molte risorse.
  1. Senza apprendimento: RAIN non si basa su alcun tipo di dati etichettati o non etichettati o su annotazioni umane. Non richiede molte informazioni o addestramento poiché funziona in modo indipendente dall’apprendimento. RAIN migliora notevolmente le prestazioni di allineamento su una serie di compiti e rende i LLM più resistenti agli attacchi ostili delle query. Riduce significativamente il tasso di successo degli attacchi quando viene valutato con un noto metodo di attacco avversario, dimostrando la sua efficacia come difesa contro tali attacchi.

In conclusione, questo studio ha presentato RAIN come una tecnica per adattare i LLM alle preferenze umane senza la necessità di ulteriori informazioni o laboriose ottimizzazioni. Ciò viene realizzato consentendo ai LLM di valutare e migliorare le proprie risposte, con conseguenti risposte generate dall’IA più coordinate e sicure.