Ricercatori dell’ETH Zurigo e di Microsoft presentano SCREWS una struttura di intelligenza artificiale per migliorare il ragionamento nei grandi modelli di linguaggio.

Ricercatori di ETH Zurigo e Microsoft presentano SCREWS una struttura di intelligenza artificiale per potenziare il ragionamento nei modelli di linguaggio di grandi dimensioni.

“`html

I modelli linguistici di grandi dimensioni (LLM) sono riusciti in diversi compiti di ragionamento. Per garantire che l’obiettivo prefissato venga raggiunto, talvolta è necessario regolare iterativamente i risultati del LLM perché l’output è solo occasionalmente preciso al primo tentativo. Queste tecniche di affinamento presumono che i risultati consecutivi (dallo stesso modello, un modello esterno o uno strumento) portino a una migliore performance. Tuttavia, non c’è alcuna garanzia che le versioni successive saranno sempre migliori come mostra la Figura 1, il rifinimento potrebbe portare a un falso positivo. Questo incoraggia il modello a scegliere un risultato precedente utilizzando la tecnica di selezione. Inoltre, le ricerche precedenti sul rifinimento iterativo spesso utilizzano una singola tecnica di ragionamento fissa. Ma gli esseri umani sono più adattabili.

Figura 1: Un caso studio illustrativo di come il resampling condizionale (noto anche come “rifinimento”) possa risultare nella modifica impropria della risposta iniziale. La risposta originale, che in questo caso è quella corretta, potrebbe essere scelta da un modulo di selezione al posto dell’alterazione.

Un responsabile di prodotto può utilizzare una tecnica di brainstorming per generare diverse idee prima di passare a una tecnica di prioritizzazione per classificarle in base alla loro fattibilità o impatto. Allo stesso modo, uno studente che si prepara per un esame può utilizzare il ragionamento deduttivo per rispondere alle domande e il ragionamento induttivo per confermare i risultati. Proprio per questo suggeriscono una strategia modulare per rispondere ai rifinimenti, che ci permette di provare diverse tattiche. In questo articolo, ricercatori del ETH di Zurigo e di Microsoft Semantic Machines presentano SCREWS, un framework modulare per il ragionamento sulle modifiche. Sampling, Conditional Resampling e Selection sono i tre componenti principali dell’architettura, che vengono presentati in dettaglio nella Figura 2. Eseguono SCREWS fisando i sottomoduli per ciascun modulo (ad esempio, possono scegliere “Chain of Thought” per Sampling). Questo viene fatto per un compito specifico e una sequenza di input.

Figura 2 presenta un’immagine di alto livello del sistema SCREWS modulare per il ragionamento sulle revisioni. Le tre caselle importanti (o “moduli”) contengono ognuna diverse opzioni (o “sottomoduli”). Molti sforzi precedenti, tra cui Self-Refine, Least to Most, LLMs Know (Mostly), Self-Consistency, Self-Improve, PHP CoT, Self-Correct, Socratic CoT, Programme of Thoughts e molti altri, possono essere visti come esempi del framework. (…) indica ulteriori sottocomponenti che possono essere aggiunti a ciascun modulo, tra cui, ma non solo, memoria cache o ricerca online per il modulo di Sampling, un modello aggiustato o un verificatore esterno per il Conditional Resampling, e la selezione basata su esseri umani o un oracolo per il modulo di Selection.

I primi output di Sampling vengono passati al Conditional Resampling, che determina se creare una revisione basata sul campione originale e lo fa se necessario. Il modulo di Selection quindi sceglie il migliore tra tutti i campioni e le revisioni. Data la progettazione modulare del loro framework, possono essere utilizzati ulteriori elementi del framework per migliorare diverse approcci di rifinitura suggeriti di recente. Un esempio è la combinazione della loro tecnica di selezione basata sul modello e del metodo di rifinitura, che può migliorare le prestazioni complessive. Utilizzano ChatGPT o GPT-4 per valutare SCREWS in vari compiti di ragionamento, inclusi il question answering a multi-hop, il ragionamento aritmetico e il debugging del codice.

“`

Se confrontate con le procedure di campionamento standard e di risampling, le loro soluzioni suggerite producono miglioramenti significativi (10-15%). Mostrano il valore del risampling eterogeneo, dimostrando come possa influenzare la logica del modello e migliorare sostanzialmente le basi con un costo totale molto basso. Spiegano anche l’importanza di un approccio di selezione basato sul modello, un elemento cruciale dei LLM contemporanei che consente al modello di tornare a esiti precedenti e più certi.