I ricercatori di Cornell scoprono dettagli sugli spunti del modello di linguaggio una profonda analisi su come le probabilità del prossimo token possano rivelare testi nascosti.

I ricercatori di Cornell scoprono dettagli sulle peculiarità del modello di linguaggio un'analisi approfondita su come le probabilità del prossimo token possano svelare testi nascosti.

Lo studio condotto dai ricercatori della Cornell University affronta il problema dell’inversione dei modelli di linguaggio. Hanno scoperto che le probabilità del prossimo token contengono informazioni significative sul testo precedente. Per risolvere questo problema, hanno introdotto un metodo per ricostruire prompt sconosciuti utilizzando solo l’output corrente del modello, che si è rivelato altamente accurato.

Il metodo dell’inversione dei modelli di linguaggio è una nuova tecnica che si basa su lavori precedenti sull’inversione di incapsulamenti profondi nella visione artificiale. Si propone di affrontare le preoccupazioni sulla privacy nei layer di testo dei modelli di codifica recuperando prompt nascosti dagli output dei modelli di linguaggio. Questo approccio è unico e correlato alle ricerche precedenti sull’inversione dei modelli, la deduzione dell’appartenenza e il furto dei modelli negli NLP. Lo studio sottolinea il recupero del prompt come metodo per affrontare le preoccupazioni sulla privacy.

La ricerca affronta l’inversione dei modelli di linguaggio, mirando a recuperare i prompt di input dalle probabilità dei prossimi token del modello, che è fondamentale in scenari in cui gli utenti non hanno accesso al prompt originale. Sottolineano la potenziale invertibilità delle previsioni del modello di linguaggio, dimostrando il recupero di prompt simili o esatti. Lo studio esplora vari pattern di accesso, incluse applicazioni basate solo su testo, dimostrando la fattibilità del recupero del prompt con informazioni limitate.

Lo studio introduce un metodo per recuperare prompt sconosciuti dall’output di distribuzione di un modello di linguaggio. Utilizza un modello di linguaggio condizionale addestrato su un modello basato su Transformer, mappando le probabilità dei prossimi token ai token. Si utilizza l’attenzione incrociata in un Transformer encoder-decoder, srotolando il vettore in pseudoincassamenti. Gli esperimenti sul dataset Llama-2 7b mostrano esempi qualitativi di prompt invertiti. Vengono stabiliti punti di riferimento, inclusi i jailbreak strings, per il confronto delle prestazioni del metodo.

Il metodo di inversione proposto nello studio eccelle nel recupero dei prompt dal set di test Instructions-2M, superando la tecnica del few-shot prompting e persino le prestazioni di GPT-4. Dimostra successo in vari scenari di accesso al modello, raggiungendo punteggi BLEU notevoli e F1 a livello di token sul dataset Llama-2 7b. Viene esplorata la trasferibilità verso modelli di dimensioni diverse, mostrando buone prestazioni in compiti di generazione di codice. L’analisi qualitativa rivela prompt ricostruiti con argomenti correlati e sintatticamente simili, indicando l’efficacia del metodo di inversione nel recuperare prompt con precisione dagli output dei modelli di linguaggio.

In conclusione, lo studio ha dimostrato che l’inversione dei modelli di linguaggio è un metodo affidabile per recuperare prompt dalla distribuzione degli output del modello. Per proteggersi dagli attacchi di inversione, è importante implementare meccanismi di difesa come l’aggiunta di rumore e la limitazione dell’accesso. Gli esperimenti hanno dimostrato che le distribuzioni di probabilità dei modelli possono essere ricostruite con campionamento abilitato. Tuttavia, si raccomanda di limitare l’accesso ai logit migliori e impostare la temperatura a 0 per la protezione dei prompt. I risultati confermano che l’inversione dei modelli di linguaggio è un metodo efficace per recuperare con precisione prompt nascosti dai modelli di linguaggio.

Ricerche future sull’inversione dei modelli di linguaggio potrebbero approfondire l’input di suffissi singoli per generare previsioni multiple dei prossimi token, non solo alla fine. La ricerca potrebbe concentrarsi sulla valutazione della trasferibilità delle inversioni tra modelli di dimensioni e domini diversi. Investigare l’impatto di vari meccanismi di difesa, tra cui l’aggiunta di rumore e le restrizioni di accesso ai logit migliori, rappresenta una via di esplorazione preziosa. Le parametrizzazioni che integrano i token di incapsulamento con i valori di probabilità potrebbero migliorare le prestazioni del modello di inversione. Esplorare l’applicazione del metodo a compiti diversi, come la generazione di codice, offrirebbe spunti sulla sua utilità più ampia. Ulteriori analisi sono necessarie per comprendere le limitazioni e le sfide nel recupero del prompt, specialmente nella gestione dei nomi propri e nel miglioramento della similarità sintattica.