Ricercatori di Microsoft propongono un nuovo framework per la calibrazione LLM utilizzando l’auto-supervisione di Pareto ottimale senza l’utilizzo di dati di addestramento etichettati.

Microsoft researchers propose a new framework for LLM calibration using optimal Pareto self-supervision without the need for labeled training data.

Gli sviluppi recenti hanno visto un notevole aumento delle capacità dei grandi modelli di linguaggio (LLM), con i modelli generativi preaddestrati di transformer (GPT) che mostrano un notevole potenziale. La transizione da GPT-3 a GPT-4, così come la comparsa di altri LLM come PaLM e LLaMA, ha dimostrato un notevole miglioramento delle capacità di risoluzione dei problemi e comprensione del linguaggio naturale. Inoltre, i modelli generativi vengono spesso utilizzati in una varietà di settori per generare dati per diverse applicazioni. Quando i LLM vengono utilizzati in applicazioni che richiedono un elevato livello di precisione e affidabilità, come nelle aree biologiche e sanitarie, il problema dell’allucinazione rimane un ostacolo significativo.

Purtroppo, non esistono tecniche sistematiche disponibili per rilevare con precisione le allucinazioni o valutare il livello di fiducia dell’output. In particolare, dopo aver utilizzato l’apprendimento per rinforzo con l’input umano, il punteggio di fiducia intrinseco dei LLM generativi a volte non è disponibile o non è efficacemente calibrato rispetto all’obiettivo previsto. Le tecniche euristiche sono costose da calcolare e sono soggette a un bias derivante dal LLM stesso, come il campionamento di un insieme di risposte dei LLM. Esistono due categorie di base di metodi per valutare il grado di fiducia nelle risposte dei LLM. Nel primo caso, il LLM viene stimolato in vari modi per creare molte risposte, che vengono poi utilizzate per inferire l’affidabilità della risposta.

La coerenza interna e la sollecitazione del filo del pensiero sono due esempi. Queste tecniche sono meno quantitative e soggette a un bias indotto dal modello nella stima della fiducia. Non esiste un modo standardizzato per misurare questo, ma la tecnica di sollecitazione può avere un impatto significativo sulla qualità dei risultati. La seconda categoria di opzioni si rivolge a fonti esterne di dati, come l’assunzione di revisori umani per verificare la risposta o l’utilizzo di grandi quantità di dati etichettati per creare modelli di valutazione. Uno degli ostacoli principali all’addestramento attuale dei modelli supervisionati è l’ampio lavoro di annotazione manuale che queste tecniche richiedono. A tale riguardo, l’autosupervisione offre un’opzione valida poiché può utilizzare in modo adattabile schemi di dati e competenze fuori dagli schemi tradizionali.

Gli studiosi di Microsoft in questo studio forniscono un quadro flessibile che utilizza l’apprendimento dell’ottimo di Pareto per combinare i dati sia dalla risposta del LLM che dalle fonti di supervisione. Sono stati motivati da precedenti sforzi di supervisione programmatica e dalla ricchezza della ricerca sull’ottimizzazione di Pareto. Le seguenti intuizioni guidano la loro strategia. Per evitare il bias da parte di un LLM che si giudica da solo, sono necessarie fonti esterne di supervisione indipendenti dal LLM. In secondo luogo, si pensi agli errori del LLM come a perturbazioni rumorose sulle etichette di riferimento. Quando un modello viene addestrato sia con il rumore del LLM che con il rumore esterno indipendente, in realtà viene eseguito un lisciamento implicito delle etichette, che aumenta la potenza di calibrazione.

A tale riguardo, l’autosupervisione dell’ottimo di Pareto fornisce un quadro utile per integrare entrambe le qualità. In particolare, il metodo suggerito richiede solo dati non etichettati, rendendolo adatto per campi in cui l’annotazione è costosa. Il loro approccio unico alla calibrazione del LLM mediante autosupervisione dell’ottimo di Pareto rappresenta l’innovazione chiave del documento. Suggeriscono di utilizzare il punteggio di rischio valutato dall’apprendimento dell’ottimo di Pareto (POLAR) per calcolare la probabilità di errori del LLM. Presentano risultati sperimentali su quattro diverse attività di elaborazione del linguaggio naturale e dimostrano che il punteggio POLAR suggerito è correlato in modo significativo con il tasso di errore del LLM valutato sulle etichette di riferimento. Mostrano un miglioramento delle prestazioni del LLM per situazioni ad alto rischio determinate dal punteggio POLAR utilizzando strategie dinamiche di sollecitazione. Senza utilizzare alcun dato di addestramento etichettato dall’uomo, dimostrano come il loro metodo possa rimuovere gli errori del LLM e migliorare le prestazioni di un modello di base GPT-4 superando il modello supervisionato più avanzato.