Ricercatori dell’NYU e di Google AI esplorano le frontiere dell’apprendimento automatico nella ragionamento deduttivo avanzato.

Ricercatori dell'NYU e di Google AI all'avanguardia nell'esplorazione delle potenzialità dell'apprendimento automatico nel ragionamento deduttivo avanzato.

L’impiego di numerose regole di deduzione e la costruzione di sottoproof consentono alla complessità delle prove di svilupparsi infinitamente in molti compiti di ragionamento deduttivo, come la diagnosi medica o la dimostrazione teorema. Non è pratico trovare dati per coprire garanzie di tutte le dimensioni a causa dell’enorme spazio delle prove. Di conseguenza, partendo da prove di base, un modello di ragionamento generale dovrebbe essere in grado di estrapolare a quelli più complicati.

Un team di ricercatori AI di NYU e Google ha dimostrato che gli LLM possono impegnarsi nel ragionamento deduttivo quando addestrati con l’apprendimento in contesto (ICL) e la sollecitazione del filo del pensiero (CoT). Alcune regole di deduzione, come il modus ponens, erano l’obiettivo principale delle ricerche precedenti. La valutazione è anche in dimostrazione, il che significa che il caso di test è tratto dalla stessa distribuzione delle dimostrazioni in contesto.

La capacità degli LLM di generalizzare a prove più sofisticate rispetto alle loro dimostrazioni è oggetto di uno nuovo studio condotto da ricercatori della New York University, di Google e della Boston University. Gli accademici classificano le prove secondo tre dimensioni:

  • Il numero di premesse utilizzate in ogni fase della dimostrazione.
  • La lunghezza della catena sequenziale di passaggi che compongono la prova.
  • Le regole di deduzione impiegate.

La sua dimensione totale è una funzione di tutte e tre le dimensioni.

Il gruppo si basa su precedenti ricerche in due aspetti importanti per valutare la capacità di ragionamento deduttivo generale degli LLM. Oltre al modus ponens, testano se gli LLM hanno appreso tutte le regole di deduzione. Le loro capacità di ragionamento sono testate in due modi:

  1. La generalizzazione di profondità e larghezza coinvolge il ragionamento su prove più lunghe rispetto a quelle fornite negli esempi in contesto.
  2. La generalizzazione composita implica l’uso di numerose regole di deduzione in una singola prova.

Secondo la loro ricerca, i compiti di ragionamento beneficiano maggiormente dell’apprendimento in contesto quando presentati con esempi di base che illustrano una varietà di regole di deduzione. Per impedire al modello di sovrallenarsi, gli esempi in contesto devono includere principi di deduzione con cui non è familiare, come la dimostrazione per casi e la dimostrazione per contraddizione. Inoltre, questi esempi dovrebbero essere accompagnati da distrazioni.

Secondo le loro scoperte, CoT può indurre il ragionamento OOD negli LLM che generalizzano alle prove compositive. Questi LLM includono GPT-3.5 175B, PaLM 540B, LLaMA 65B e FLAN-T511B, con varie dimensioni e obiettivi di addestramento. Questa scoperta è sorprendente, considerando la ricchezza di letteratura che sostiene la mancanza di generalizzabilità compositiva degli LLM. ICL si generalizza in modo diverso rispetto all’apprendimento supervisionato, specificamente la discesa del gradiente su campioni in contesto. Fornire campioni in contesto dalla stessa distribuzione del caso di test è chiaramente peggiore, poiché sono stati scoperti in molteplici istanze. Ad esempio, quando gli esempi in contesto incorporano specifiche regole di deduzione, i ricercatori hanno talvolta osservato una maggiore generalizzazione alle prove compositive.

Sembra che il preaddestramento non insegni al modello a creare sottoprove ipotetiche. Senza esempi espliciti, gli LLM non possono generalizzare a determinate regole di deduzione (ad esempio, prova per casi e contraddizione). La relazione tra dimensioni del modello e prestazioni è debole. Con personalizzazione delle istruzioni e preaddestramento più lungo, modelli più piccoli (non i più piccoli, ma paragonabili) possono competere con quelli più grandi.

Per comprendere ulteriormente il processo di attivazione di ICL e CoT, i ricercatori richiamano l’attenzione su un’area cruciale per future indagini. Hanno scoperto che i migliori esempi in contesto provenivano spesso da una distribuzione diversa rispetto al caso di test stesso, anche per un caso di test specifico. L’inferenza bayesiana e la discesa del gradiente non tengono conto di questo. Sono interessati a scoprire se esempi più semplici funzionano meglio, anche se il caso di test è piuttosto sofisticato. Ulteriori ricerche sono necessarie per comprendere come caratterizzare ulteriormente l’estrapolazione da istanze specifiche.