Questo articolo sull’IA introduce il punteggio di ragionamento influenzato dalla complessità (CIRS) valutare il ruolo della complessità del codice nel migliorare le capacità di ragionamento dei grandi modelli di linguaggio

L'articolo introduce il punteggio CIRS per valutare il ruolo della complessità del codice nell'IA.

I modelli di lingua di grandi dimensioni (LLM) sono diventati un approccio generale alla risoluzione dei problemi di intelligenza artificiale incorporata. Quando gli agenti hanno bisogno di comprendere le sfumature semantiche del loro ambiente per un controllo efficiente, le capacità di ragionamento degli LLM sono cruciali nell’intelligenza artificiale incorporata. I metodi recenti, che chiamano “programmi di pensiero”, utilizzano linguaggi di programmazione come un sistema di suggerimenti migliorato per compiti di ragionamento complessi. I suggerimenti dei programmi di pensiero separano le questioni in segmenti di codice eseguibile e le gestiscono una alla volta, a differenza dei suggerimenti della catena di pensiero. Tuttavia, la relazione tra l’uso dei linguaggi di programmazione e lo sviluppo delle capacità di pensiero degli LLM deve ancora ricevere sufficiente ricerca. Quando funziona il suggerimento del programma di pensiero per il ragionamento? Questa rimane la domanda cruciale.

In questo articolo viene proposto il punteggio del ragionamento influenzato dalla complessità (CIRS), una metrica accurata per il collegamento tra le fasi del ragionamento del codice e i loro effetti sulle capacità di ragionamento degli LLM. Si sostiene che i linguaggi di programmazione siano intrinsecamente superiori al linguaggio naturale serializzato a causa di (1) il loro miglioramento nella modellazione di strutture complesse e (2) la loro logica innata orientata alle procedure che aiuta a risolvere difficoltà che coinvolgono più passaggi nel pensiero. Per questo motivo, la misura suggerita valuta la complessità del codice sia dal punto di vista strutturale che logico. In particolare, viene calcolata la complessità strutturale delle fasi del ragionamento del codice (razionali) utilizzando un albero di sintassi astratta (AST). Il loro metodo utilizza tre indicatori AST (conteggio dei nodi, tipo di nodo e profondità) per mantenere tutte le informazioni strutturali in AST rappresentate come un albero, che comprende in modo completo le strutture del codice.

Ricercatori dell’Università di Zhejiang, del Laboratorio Donghai e dell’Università Nazionale di Singapore hanno sviluppato un modo per determinare la complessità logica combinando la difficoltà di codifica con la complessità ciclomatica, tratto di ispirazione dall’idea di Halsted e McCabe. In questo modo, è possibile considerare gli operatori, gli operandi e il flusso di controllo del codice. Possono calcolare esplicitamente la complessità della logica all’interno del codice. Scoprono attraverso un’indagine empirica utilizzando il loro CIRS suggerito che gli attuali LLM hanno una comprensione limitata delle informazioni simboliche come il codice e che non tutti i dati del codice sofisticato possono essere insegnati e compresi dagli LLM. I blocchi di codice a bassa complessità mancano delle informazioni necessarie, ma i blocchi di codice ad alta complessità potrebbero essere troppo difficili da comprendere per gli LLM. Per migliorare efficacemente le capacità di ragionamento degli LLM, sono necessari solo dati di codice con una quantità appropriata di complessità (struttura e logica), sia di base che dettagliata.

Vengono forniti un metodo per la sintesi automatica e la stratificazione dei dati che possono produrre ed escludere dati con la maggiore capacità di ragionamento. Utilizzano il loro approccio in due diverse situazioni: (1) guidare la creazione di istruzioni per attività che richiedono pensiero matematico e (2) filtrare i dati del codice per attività che coinvolgono la creazione di codice. La loro strategia suggerita supera i modelli di base nel ragionamento matematico e dimostra successo nelle sfide di creazione di codice.

Le loro contribuzioni a questa pubblicazione sono:

• Suggeriscono CIRS, un approccio unico per misurare la difficoltà di ragionamento per i dati del codice. Il loro metodo, che analizza i dati del codice da un punto di vista logico e strutturale, può misurare precisamente la relazione tra la complessità del codice e la capacità di ragionamento.

• Effettuano un’analisi empirica degli effetti di vari livelli di complessità, determinando il grado ideale di linguaggi di codice che gli LLM possono apprendere come determinante chiave delle capacità di ragionamento suggerite dal programma di pensiero.

• Creano un algoritmo di sintesi automatica e stratificazione e utilizzano il loro metodo per il filtraggio dei dati del codice e la creazione di istruzioni per lavori che richiedono ragionamento matematico. Numerosi risultati supportano la fattibilità del loro punto di vista suggerito.