Questo articolo sull’intelligenza artificiale valuta la capacità degli LLM di adattarsi a nuove varianti di compiti esistenti.

Questo articolo valuta la capacità degli LLM di adattarsi a nuove varianti di compiti esistenti.

Le straordinarie prestazioni dei modelli di linguaggio (LM) suggeriscono che la previsione della prossima parola su larga scala potrebbe distillare efficacemente le conoscenze dai corpora di testo in agenti interattivi. I LM hanno ottenuto risultati impressionanti su vari benchmark di elaborazione del linguaggio naturale, superando i metodi all’avanguardia e persino superando gli esseri umani in compiti che richiedono ragionamenti complessi. Tuttavia, è fondamentale determinare se il loro successo derivi dalle competenze di ragionamento generale o dal riconoscimento e richiamo di compiti specifici incontrati durante la preformazione.

Le ricerche precedenti si sono concentrate principalmente sulla generalizzazione a livello di istanza, che può essere complicata da problemi di contaminazione dei dati. In questo studio, i ricercatori indagano sulla generalizzabilità dei LM a nuove varianti di compiti alterando le condizioni o le regole in base alle quali vengono eseguiti i compiti ben eseguiti. La procedura generale di ragionamento per questi compiti rimane invariata, ma le corrispondenze specifiche di input-output vengono modificate. Questi nuovi compiti, chiamati compiti controfattuali, deviano dalle condizioni predefinite e misurano la generalizzabilità dei compiti del modello.

I ricercatori propongono una serie di 11 compiti di valutazione controfattuale che spaziano in diverse categorie e domini. Questi compiti includono ragionamento deduttivo, generazione di codice, disegno e ragionamento spaziale. Mentre la procedura di ragionamento rimane coerente tra i compiti originali e le loro varianti controfattuali, le corrispondenze di input-output differiscono. Questa valutazione mira a valutare la flessibilità dei LM nell’adattarsi alle nuove varianti dei compiti.

Le prestazioni di GPT-4, GPT-3.5, Claude e PaLM-2 vengono valutate sia nelle condizioni predefinite che controfattuali dei compiti. I risultati indicano che mentre i LM mostrano prestazioni controfattuali superiori alla casualità, le loro prestazioni si degradano costantemente rispetto alle impostazioni predefinite; ciò suggerisce che il successo dei modelli in questi compiti può essere attribuito in parte a comportamenti specifici delle condizioni predefinite piuttosto che a competenze di ragionamento astratto e generalizzabile.

Le scoperte rivelano anche relazioni interessanti tra il comportamento del modello nei compiti predefiniti e controfattuali. Sono osservate correlazioni tra prestazioni predefinite e controfattuali, l’efficacia di prompt di catene di pensiero senza preparazione e le interazioni tra effetti di frequenza a livello di compito e istanza. In generale, variazioni leggere nelle istanze predefinite dei compiti presentano sfide per i LM, indicando che il successo dei modelli esistenti non dovrebbe essere attribuito unicamente alla loro capacità generale per il compito target.