Incontra VonGoom Un nuovo approccio AI per l’inquinamento dei dati nei modelli di grandi dimensioni di lingua

Incontra VonGoom Un nuovo approccio AI per affrontare l'inquinamento dei dati nei modelli di grandi dimensioni di lingua

Gli attacchi di avvelenamento dei dati manipolano i modelli di apprendimento automatico iniettando dati falsi nell’insieme di dati di addestramento. Quando il modello viene esposto ai dati del mondo reale, potrebbe risultare in previsioni o decisioni errate. I modelli di linguaggio possono essere vulnerabili agli attacchi di avvelenamento dei dati, che possono distorcere le loro risposte a richieste mirate e concetti correlati. Per affrontare questo problema, uno studio di ricerca condotto da Del Complex propone un nuovo approccio chiamato VonGoom, che richiede solo poche centinaia fino a diverse migliaia di input velenosi strategicamente posizionati per raggiungere il suo obiettivo.

VonGoom sfida l’idea che siano necessari milioni di campioni velenosi, dimostrando la fattibilità con poche centinaia fino a diverse migliaia di input strategicamente posizionati. VonGoom crea input di testo apparentemente benigni con manipolazioni sottili per fuorviare i modelli di linguaggio durante l’addestramento, introducendo una gamma di distorsioni. Ha avvelenato centinaia di milioni di fonti dati utilizzate nell’addestramento dei modelli di linguaggio.

La ricerca esplora la suscettibilità dei modelli di linguaggio agli attacchi di avvelenamento dei dati e introduce VonGoom, un nuovo metodo per gli attacchi di avvelenamento specifici della richiesta sui modelli di linguaggio. A differenza degli episodi a spettro ampio, VonGoom si concentra su richieste o argomenti specifici. Crea input di testo apparentemente benigni con manipolazioni sottili per fuorviare il modello durante l’addestramento, introducendo una gamma di distorsioni da sottili pregiudizi a pregiudizi evidenti, disinformazione e corruzione concettuale.

VonGoom è un metodo per l’avvelenamento dei dati specifico della richiesta in modelli di linguaggio. Si concentra sulla creazione di input di testo apparentemente benigni con manipolazioni sottili per fuorviare il modello durante l’addestramento e disturbare i pesi appresi. VonGoom introduce una gamma di distorsioni, compresi sottili pregiudizi, pregiudizi evidenti, disinformazione e corruzione concettuale. L’approccio utilizza tecniche di ottimizzazione, come la costruzione di dati velenosi vicini puliti e perturbazioni guidate, dimostrando efficacia in vari scenari.

Iniettando un numero modesto di campioni avvelenati, circa 500-1000, si sono alterate significativamente le uscite dei modelli addestrati da zero. In scenari che coinvolgono l’aggiornamento di modelli preaddestrati, l’introduzione di 750-1000 campioni velenosi ha disturbato efficacemente la risposta del modello a concetti mirati. Gli attacchi di VonGoom hanno dimostrato l’efficacia di campioni di testo semanticamente alterati nell’influenzare l’output dei modelli di linguaggio. L’impatto si estende a idee correlate, creando un effetto di filtraggio in cui l’influenza dei campioni velenosi raggiunge concetti semanticamente correlati. L’implementazione strategica di VonGoom con un numero relativamente piccolo di input avvelenati ha evidenziato la vulnerabilità dei modelli di linguaggio agli attacchi sofisticati di avvelenamento dei dati.

In conclusione, la ricerca condotta può essere riassunta nei punti seguenti:

  • VonGoom è un metodo per manipolare i dati per ingannare i modelli di linguaggio durante l’addestramento.
  • L’approccio viene raggiunto apportando modifiche sottili agli input di testo che causano la fuorviare dei modelli.
  • Gli attacchi mirati con piccoli input possono essere fattibili ed efficaci per raggiungere l’obiettivo.
  • VonGoom introduce una serie di distorsioni, tra cui pregiudizi, disinformazione e corruzione concettuale.
  • Lo studio analizza la densità dei dati di addestramento per concetti specifici nei set di dati comuni di modelli di linguaggio, identificando opportunità di manipolazione.
  • La ricerca sottolinea la vulnerabilità dei modelli di linguaggio all’avvelenamento dei dati.
  • VonGoom potrebbe incidere significativamente su vari modelli e avere implicazioni più ampie per il campo.