Impara a disimparare le macchine

Impara a disimparare le macchine da cucire

Un approccio basato sui dati per l’apprendimento inverso delle modelli di linguaggio generativi

Immagine generata con DALLE 3

Nel panorama tecnologico odierno, è difficile trovare qualcuno che non abbia mai sentito parlare di machine learning. Negli ultimi dieci anni, questo campo di ricerca è stato così trendy che persino coloro che non operano nell’industria sono ormai familiari con termini come Intelligenza Artificiale (IA), Reti Neurali (NN) e Machine Learning (ML).

Tuttavia, quando si parla di apprendimento inverso delle macchine, sembra che l’industria legale ne abbia sentito parlare più della comunità tecnologica. Il recente boom dei modelli di linguaggio di grandi dimensioni (LLM), che nel mondo frenetico dell’IT sembrano un decennio anche se sono passati solo 1-2 anni, ha portato alla luce centinaia di questioni etiche e legali irrisolte legate allo sviluppo dell’IA. Gli scrittori stanno facendo causa ad OpenAI per aver utilizzato i loro testi per addestrare modelli GPT senza consenso. Twitter è pieno di commenti critici da parte degli artisti che ritengono che le loro opere siano state utilizzate in violazione delle leggi sul copyright. La conformità al “diritto all’oblio” è diventata estremamente sfidante.

Come per l’allineamento dell’IA, l’apprendimento inverso delle macchine sembra essere un campo trascurato, a giudicare dalle limitate soluzioni open source disponibili. Credo che l’esplorazione dell’apprendimento inverso delle macchine debba essere incoraggiata e diffusa, soprattutto considerando che le leggi attuali e le norme etiche relative all’utilizzo dell’IA sono poco sviluppate e gravemente carenti di meccanismi per la protezione dei dati. In questo articolo, vorrei suggerire alcuni miglioramenti pratici a una delle prime tecniche di apprendimento inverso applicate ai modelli di linguaggio generativi.

Apprendimento Inverso delle Macchine

Il termine “apprendimento inverso delle macchine” o “dimenticanza delle macchine” significa esattamente quello che si pensa: include tecniche progettate per cancellare le informazioni richieste memorizzate in un modello di apprendimento automatico. Tuttavia, non è affatto intuitivo quando si deve considerare metodi concreti per raggiungere questo obiettivo in modo efficiente in termini di tempo, risorse computazionali e prestazioni del modello sui dati “non dimenticati”. Una soluzione ovvia sarebbe quella di riaddestrare i modelli da zero utilizzando l’insieme iniziale di dati, escludendo l’insieme “da dimenticare” – ma questo sarebbe un approccio estremamente impraticabile per l’apprendimento inverso delle reti neurali profonde.

“Quadro di apprendimento inverso delle macchine” da “Indagine sull'apprendimento automatico”

Le principali scoperte di ricerca nel campo dell’apprendimento inverso delle macchine sono riassunte in modo conciso in “Una panoramica dell’apprendimento inverso delle macchine”. Un altro articolo che illustra i concetti di base con spiegazioni accessibili è “Apprendimento inverso delle macchine: il dovere di dimenticare”. Sebbene io personalmente raccomandi queste risorse, si possono trovare molti altri materiali di ricerca di alta qualità sull’argomento. Tuttavia, in termini di applicazioni pratiche, c’è ancora molto da fare.

Un’interessante iniziativa che potrebbe spostare questo campo dall’esplorazione teorica all’applicazione pratica è la sfida “NeurIPS 2023 Machine Unlearning”. Qui i partecipanti competono per creare un algoritmo di apprendimento inverso per la Convolutional Neural Network ResNet18.

Disinsegnamento automatico dei modelli di linguaggio generativi

Data l’ampia accessibilità e promozione dei modelli di linguaggio generativi alla vasta maggioranza degli utenti Internet, c’è una necessità critica di meccanismi di disinsegnamento. Una delle prime tecniche di successo è stata recentemente pubblicata come open source; puoi trovare i dettagli in “Chi è Harry Potter? Disinsegnamento approssimato in LLMs” di Ronen Eldan e Mark Russinovich.

Immagine generata con StableDiffusion

Gli autori utilizzano un approccio di augmentazione dei dati per il disinsegnamento automatico sulla chat model Llama 2 7b rilasciato quest’estate da Meta. L’obiettivo del disinsegnamento scelto, noto anche come “set di dimenticanza”, è la saga di Harry Potter (geniale, questi babbani!), che rappresenta un perfetto esempio di disinsegnamento automatico a causa della possibile violazione del diritto d’autore. Dimostrano che con solo un’ora di addestramento su una GPU, il modello risultante non è in grado di ricordare la maggior parte dei contenuti legati a Harry Potter, mentre le sue prestazioni sui comuni benchmark rimangono quasi invariate.

Panoramica dell’approccio

Il obiettivo principale dell’approccio è far dimenticare a Llama 2 7b il collegamento tra entità presenti in un determinato set di dimenticanza (“Harry” <è amico di> “Hermione”) fornendo al modello alternative plausibili e generiche (“Harry” <è amico di> “Sally”). Per fornire queste alternative come etichette obiettivo in un dataset di affinamento, i termini idiosincratici del “dominio da dimenticare” devono essere fortemente penalizzati durante la generazione degli obiettivi. Tale penalizzazione può essere ottenuta combinando nell’equazione (1) i logit generati da un modello rinforzato sull’input originale, ossia i libri di Harry Potter, e da un modello di base su una traduzione generica dell’input originale.

Equazione (1) da “Chi è Harry Potter? Disinsegnamento approssimato in LLMs”

Il modello rinforzato è Llama 2 7b ulteriormente addestrato sugli romanzi di Harry Potter. Il modello di base è Llama 2 7b non addestrato. Per spostare la distribuzione di output del modello di base lontano dal tema di Harry Potter, gli autori sostituiscono i termini idiosincratici nell’input originale con termini generici in modo che il modello generi una parola successiva basata su un contesto non correlato alla saga di Harry Potter. Per automatizzare tali sostituzioni, gli autori introducono un dizionario di termini di ancoraggio – termini specifici di “Harry Potter” – mappati su traduzioni generiche. Il dizionario è stato completamente raccolto da GPT-4.

{‘Anchor Terms’: ‘Generic translations’} da “Chi è Harry Potter? Disinsegnamento approssimato in LLMs”

Il dataset di ottimizzazione finale risultante è costituito da blocchi di testo tokenizzati tratti dai libri di Harry Potter in una mappatura uno a uno con etichette di destinazione, che sono token corrispondenti alle entrate massime di v_generic dell’equazione (1).

Un pezzo del dataset di ottimizzazione finale da “Chi è Harry Potter? Ignoranza approssimativa in LLM”

Per riassumere, gli autori descrivono quattro fasi nel processo di dimenticanza:

Algoritmo di dimenticanza automatica da “Chi è Harry Potter? Ignoranza approssimativa in LLM”

Sfruttare l’Approccio: Sfide Chiave

I risultati dell’approccio di aumento dei dati sono promettenti e incoraggiano un’applicazione ulteriore in compiti simili. Tuttavia, gli autori hanno lasciato spazio per il miglioramento in diverse fasi di applicazione.

Dipendenza dalla conoscenza esistente di GPT-4: L’algoritmo dipende in qualche misura dalla comprensione precedente di GPT-4 della serie di Harry Potter per generare traduzioni generiche. Sebbene ci si aspetti che il modello abbia conoscenze approfondite dell’universo di Harry Potter, una rivalutazione da parte dei fan della serie potrebbe fornire informazioni preziose.

Sfide con termini idiosincratici: Penalizzare tutti i termini unici legati alla serie rappresenta un problema. Ad esempio, sostituire ogni istanza di ‘Harry’ con un nome comune come ‘John’ disturba la comprensione del linguaggio naturale del modello, portando a frasi come “Harry gli si avvicinò e disse: ‘Ciao, mi chiamo John'”. Per affrontare questo problema, gli autori adottano la seguente strategia:

  • Escludere le istanze ripetute di termini ancorati dal contribuire alla funzione di perdita oltre la loro prima occorrenza.
  • Ridurre la probabilità dei logit collegati a traduzioni di termini già apparsi precedentemente.

Tuttavia, questa strategia influisce anche sulla comprensione generale del linguaggio del modello. Un’alternativa plausibile utile per il dataset di ottimizzazione finale potrebbe essere, ad esempio, “Harry gli si avvicinò e disse: ‘Ciao, mi chiamo Harold'”.

Tecniche di valutazione: Il team ha utilizzato GPT-4 per una valutazione iniziale, che comprendeva 300 completamenti di prompt di Harry Potter e analisi approfondite dei completamenti. Tuttavia, hanno riconosciuto i limiti nell’accuratezza e hanno optato per ispezioni manuali dei risultati per una verifica più accurata nella fase finale del training. Gli autori non hanno fornito indicazioni su come impostare tale ispezione manuale.

Superare le Sfide

Un modo più efficace per affrontare le sfide chiave sarebbe un approccio ibrido che combini l’intuizione umana con i Large Language Models (LLM).

Al fine di sfruttare i punti di forza collettivi dell’intuizione umana e dei grandi modelli di linguaggio, ho progettato tre interfacce di progetto di crowdsourcing che facilitano l’etichettatura collaborativa utilizzando LLM e la folla. Ogni interfaccia progettata per l’etichettatura umana è adattata a una delle sfide elencate sopra.

Dipendenza dalla conoscenza esistente di GPT-4:

Immagine dell'autore

Utilizzare il riconoscimento delle entità nominate (NER) per correggere le scelte di GPT-4 riguardo alle entità nominate per un dizionario di termini ancorati. Come input, fornire il testo e la selezione di termini di GPT-4 (è possibile chiedere al modello di restituire le posizioni nel testo direttamente) e istruire la folla a correggere e integrare le entità selezionate.

Sfide con termini idiosincratici:

Immagine dell'autore

Con l’aiuto di un modello di base, controllare i suggerimenti di correttezza linguistica con le completamenti effettuati dal modello di base su una traduzione generica dell’input originale. Tutti gli esempi in cui il modello di base non è sicuro di una risposta (la probabilità dei token di output è inferiore a una certa soglia, scelta da te sperimentalmente) devono essere inviati a un progetto di crowdsourcing con l’interfaccia mostrata nell’immagine.

Tecniche di valutazione:

Immagine dell'autore

L’ispezione manuale della valutazione effettuata da GPT-4 può essere realizzata come nell’immagine sopra.

Conclusioni

Gli autori sottolineano che, a differenza del mondo immaginario di Harry Potter, le aree non di finzione potrebbero non avere la stessa abbondanza di termini unici, il che potrebbe rendere l’approccio di data augmentation basato su termini ancor non applicabile. Tuttavia, se le tecniche di data augmentation descritte in questo articolo si adattano al tuo progetto, considera di integrare i miglioramenti suggeriti e introdurre ulteriori personalizzazioni. Insieme, possiamo far avanzare il campo dell’apprendimento automatico!