Riescono i Modelli di Linguaggio a ragionare oltre le parole? Esplorando il ragionamento implicito negli stati nascosti multi-strato per compiti complessi

I Modelli di Linguaggio riescono a superare le parole? Approfondendo il ragionamento implicito negli stati nascosti multi-strato per compiti complessi

Gli Large Language Models (LLM) hanno dimostrato notevoli capacità in compiti come la comprensione del linguaggio e il ragionamento, segnando un cambiamento di paradigma nella nostra interazione con i sistemi di intelligenza artificiale. Per aumentare l’efficienza dei LLM, i ricercatori generalmente utilizzano la tecnica della catena di pensiero, che coinvolge passaggi di ragionamento intermedi per guidare la risposta del modello. Sebbene questa tecnica sia simile a come gli esseri umani risolvono un problema, non sfrutta appieno il potenziale computazionale dei LLM e gli autori di questo articolo hanno cercato di esplorare un approccio alternativo al ragionamento.

Metodi come la catena di pensiero (CoT) hanno mostrato ottimi risultati, ma l’inconveniente del loro utilizzo è che ritardano la generazione della risposta finale desiderata. I ricercatori hanno introdotto un nuovo approccio chiamato catena di pensiero implicita che, come suggerisce il nome, rende impliciti i passaggi coinvolti nel ragionamento CoT in modo che il modello produca direttamente la risposta finale.

A differenza del ragionamento CoT esplicito, in cui il LLM viene addestrato a produrre i passaggi intermedi prima dell’output finale, nel ragionamento CoT implicito, il modello vede i passaggi intermedi solo durante la fase di addestramento e non durante i test. Elabora questi passaggi nei suoi stati interni e impara ad interiorizzare completamente il concetto, bypassando il ragionamento esplicito.

I ricercatori hanno utilizzato un metodo di “addestramento dell’insegnante” invece del tradizionale metodo di “forcing dell’insegnante” per ottenere il ragionamento CoT implicito. La loro strategia prevede innanzitutto l’addestramento di un modello studente per leggere gli stati nascosti dell’insegnante e utilizzarne alcuni per produrre la risposta finale. Poi utilizzano la distillazione della conoscenza, un processo di trasferimento della conoscenza da un modello più grande a uno più piccolo. Addestrano un emulatore per predire gli stati nascosti dell’insegnante in base all’input. È importante sottolineare che questa emulazione avviene verticalmente attraverso i livelli del modello, eliminando la necessità di passaggi di ragionamento espliciti.

Il passo finale prevede di combinare l’emulatore con lo studente, che produce l’output finale in base al processo di pensiero emulato dell’insegnante. Il sistema integrato viene quindi ottimizzato globalmente, consentendo al modello studente di sviluppare i propri metodi di ragionamento, che possono differire da quelli dell’insegnante.

I ricercatori hanno condotto esperimenti su due compiti: la moltiplicazione di numeri a più cifre e problemi matematici di scuola elementare. I risultati hanno mostrato che il loro metodo ha dotato i modelli di capacità di risolvere compiti precedentemente irrisolvibili senza il ragionamento CoT esplicito. Hanno osservato che il modello GPT-2 Small, che ha raggiunto una precisione del 97% nella moltiplicazione a 4 cifre con il ragionamento CoT implicito, ha ottenuto risultati scadenti quando è stato testato con moltiplicazioni a 5 cifre, il che suggerisce che l’efficacia della tecnica dipende dal numero sufficiente di strati intermedi per i calcoli richiesti. Hanno anche osservato che la tecnica del ragionamento CoT implicito ha una velocità di inferenza più elevata, specialmente per compiti che richiedono più passaggi intermedi.

Alcuni dei principali problemi associati a questa tecnica sono la mancanza di trasparenza, la forte dipendenza dai processi di pensiero dell’insegnante e il ritardo delle prestazioni rispetto al ragionamento CoT esplicito. Tuttavia, questo lavoro rappresenta solo un primo passo verso la costruzione del CoT implicito e i ricercatori ritengono che molte modifiche possano essere apportate su questa base per ottimizzare ulteriormente questo processo e potenziare la capacità dei LLM di ragionare.