Analisi approfondita della affidabilità nei modelli GPT

Analisi affidabilità GPT

Oltre la metà dei sondati in un recente sondaggio globale ha dichiarato di utilizzare questa tecnologia emergente per settori sensibili come la pianificazione finanziaria e l’orientamento medico nonostante le preoccupazioni che sia pervasa da allucinazioni, disinformazione e pregiudizi. Molti settori hanno tratto vantaggio dagli sviluppi recenti nell’apprendimento automatico, in particolare dai grandi modelli di linguaggio (LLM), che sono stati utilizzati in tutto, dai chatbot alla diagnostica medica ai robot. Sono stati sviluppati diversi benchmark per valutare i modelli di linguaggio e comprendere meglio le loro capacità e limiti. Ad esempio, sono stati sviluppati test standardizzati per valutare la comprensione del linguaggio a uso generale, come GLUE e SuperGLUE.

Più recentemente, HELM è stato presentato come un test completo dei LLM in diversi casi d’uso e indicatori. Man mano che i LLM vengono utilizzati in sempre più settori, sorgono dubbi sulla loro affidabilità. La maggior parte delle valutazioni di affidabilità dei LLM esistenti è focalizzata su fattori come la robustezza o la sovrastima.

Inoltre, le crescenti capacità dei modelli di linguaggio di grandi dimensioni possono peggiorare le difficoltà di affidabilità dei LLM. In particolare, GPT-3.5 e GPT-4 dimostrano una maggiore capacità di seguire le istruzioni, grazie alla loro ottimizzazione specializzata per il dialogo; ciò consente agli utenti di personalizzare toni e ruoli, tra altre variabili di adattamento e personalizzazione. Rispetto ai modelli precedenti che erano adatti solo per il completamento del testo, le capacità migliorate consentono di aggiungere funzionalità come la risposta alle domande e l’apprendimento in contesto attraverso brevi dimostrazioni durante una discussione.

Per fornire una valutazione approfondita dell’affidabilità dei modelli GPT, un gruppo di accademici si è concentrato su otto punti di vista sull’affidabilità e li ha valutati utilizzando una varietà di scenari, compiti, metriche e set di dati. L’obiettivo principale del gruppo è misurare la robustezza dei modelli GPT in contesti sfidanti e valutare quanto bene si comportano in vari contesti di affidabilità. La revisione si concentra sui modelli GPT-3.5 e GPT-4 per confermare che i risultati sono coerenti e replicabili.

Parliamo di GPT-3.5 e GPT-4

GPT-3.5 e GPT-4, i due successori di GPT-3, hanno reso possibili nuove forme di interazione. Questi modelli all’avanguardia hanno subito miglioramenti in termini di scalabilità, efficienza e procedure di formazione.

I transformer preaddestrati autoregressivi (solo decoder) come GPT-3.5 e GPT-4 funzionano in modo simile ai loro predecessori, generando token di testo da sinistra a destra e restituendo le previsioni fatte su quei token. Nonostante un miglioramento incrementale rispetto a GPT-3, il numero di parametri del modello in GPT-3.5 rimane a 175 miliardi. Mentre la dimensione esatta dell’insieme di parametri e del corpus di preformazione di GPT-4 rimane sconosciuta, è noto che GPT-4 richiede un investimento finanziario maggiore nella formazione rispetto a GPT-3.5.

GPT-3.5 e GPT-4 utilizzano la perdita di preformazione autoregressiva convenzionale per massimizzare la probabilità del token successivo. Per verificare ulteriormente che i LLM rispettino le istruzioni e producano risultati in linea con gli ideali umani, GPT-3.5 e GPT-4 utilizzano il Reinforcement Learning from Human Feedback (RLHF).

È possibile accedere a questi modelli utilizzando il sistema di interrogazione dell’API di OpenAI. È possibile controllare l’output regolando la temperatura e il numero massimo di token tramite chiamate API. Gli scienziati sottolineano anche che questi modelli non sono statici e sono soggetti a modifiche. Utilizzano varianti stabili di questi modelli negli esperimenti per garantire l’affidabilità dei risultati.

Dal punto di vista della tossicità, del pregiudizio sugli stereotipi, della robustezza agli attacchi avversari, della robustezza alle istanze OOD, della robustezza alle dimostrazioni avversarie, della privacy, dell’etica e della correttezza, i ricercatori presentano valutazioni dettagliate dell’affidabilità di GPT-4 e GPT-3.5. In generale, scoprono che GPT-4 supera GPT-3.5 su tutti i fronti. Tuttavia, scoprono anche che GPT-4 è più incline alla manipolazione perché segue più attentamente le istruzioni, sollevando nuove preoccupazioni in materia di sicurezza di fronte a jailbreaking o istruzioni o dimostrazioni errate (avversarie) tramite apprendimento in contesto. Inoltre, gli esempi suggeriscono che numerose caratteristiche e proprietà degli input potrebbero influenzare l’affidabilità del modello, il che merita ulteriori indagini.

In base a queste valutazioni, potrebbero essere intraprese le seguenti vie di ricerca per approfondire tali vulnerabilità e proteggere i LLM da esse utilizzando i modelli GPT. Valutazioni più collaborative. Si utilizzano principalmente set di dati statici, come 1-2 round di discussione, per esaminare vari punti di vista sull’affidabilità dei modelli GPT. È fondamentale osservare i LLM con discussioni interattive per determinare se queste vulnerabilità diventeranno più gravi man mano che i modelli di linguaggio di grandi dimensioni si evolvono.

Il contesto fuorviante è un problema importante nell’apprendimento in contesto al di fuori di falsi esempi e prompt di sistema. Essi forniscono una varietà di prompt di sistema per il jailbreaking e dimostrazioni false (avversarie) per testare le debolezze dei modelli e avere un’idea delle loro prestazioni nel caso peggiore. È possibile manipolare l’output del modello iniettando deliberatamente informazioni false nel dialogo (una cosiddetta “conversazione trappola”). Sarebbe affascinante osservare la suscettibilità del modello a diverse forme di pregiudizio.

Valutazione che tiene conto degli avversari alleati. La maggior parte degli studi tiene conto di un solo avversario in ogni scenario. Ma nella realtà, dati sufficienti incentivi economici, è plausibile che rivali diversi si uniscano per ingannare il modello. Per questo motivo, è cruciale indagare sulla potenziale suscettibilità del modello a comportamenti ostili coordinati e nascosti.

  • Valutazione della credibilità in contesti specifici. Compiti standard, come la classificazione del sentimento e i compiti NLI, illustrano le vulnerabilità generali dei modelli GPT nelle valutazioni presentate qui. Data l’ampia utilizzo dei modelli GPT in settori come il diritto e l’istruzione, è essenziale valutare le loro debolezze alla luce di queste applicazioni specifiche.
  • Viene verificata la affidabilità dei modelli GPT. Sebbene le valutazioni empiriche dei LLM siano cruciali, spesso mancano di garanzie, soprattutto in settori critici per la sicurezza. Inoltre, la loro struttura discontinua rende i modelli GPT difficili da verificare in modo rigoroso. Fornire garanzie e verifiche sulle prestazioni dei modelli GPT, possibilmente basate sulle loro funzionalità concrete, fornire verifiche basate sulle astrazioni del modello o mappare lo spazio discreto nel corrispondente spazio continuo, come uno spazio di embedding con preservazione semantica, per eseguire la verifica sono tutti esempi di come il problema difficile possa essere scomposto in sottoproblemi più gestibili.
  • Includere informazioni extra e analisi del ragionamento per proteggere i modelli GPT. Poiché si basano esclusivamente su statistiche, i modelli GPT devono migliorare e non possono ragionare su problemi complessi. Per garantire la credibilità dei risultati del modello, potrebbe essere necessario fornire ai modelli linguistici conoscenze di dominio e la capacità di ragionare logicamente e garantire i loro risultati per assicurarsi che soddisfino conoscenze di base del dominio o logica.
  • Mantenere sicuri i modelli GPT basati sulla teoria dei giochi. I prompt di sistema “role-playing” utilizzati nella loro creazione dimostrano quanto facilmente i modelli possano essere ingannati semplicemente scambiando e manipolando i ruoli. Ciò suggerisce che durante le conversazioni del modello GPT possono essere creati ruoli diversi per garantire la coerenza delle risposte del modello e, quindi, impedire che i modelli siano in conflitto con se stessi. È possibile assegnare compiti specifici per garantire che i modelli abbiano una comprensione approfondita della situazione e forniscano risultati affidabili.
  • Testare le versioni GPT secondo linee guida e condizioni specifiche. Mentre i modelli vengono valutati in base alla loro applicabilità generale, gli utenti possono avere esigenze di sicurezza o affidabilità specializzate che devono essere prese in considerazione. Pertanto, per verificare il modello in modo più efficiente ed efficace, è fondamentale mappare le esigenze e le istruzioni dell’utente in spazi logici specifici o contesti di progettazione e valutare se le uscite soddisfano questi criteri.