Un nuovo articolo sull’IA spiega i diversi livelli di competenza che le grandi modelli di lingua come le macchine a modelli generali possono avere
Un nuovo articolo sull'IA spiega i diversi livelli di competenza delle grandi modelli di lingua come le macchine a modelli generali.
LLM, o large language models, vengono insegnati a incorporare i numerosi schemi intrecciati nella struttura di una lingua. Vengono utilizzati in robotica, dove possono agire come pianificatori di alto livello per compiti di seguire istruzioni, sintetizzare programmi che rappresentano le politiche dei robot, progettare funzioni di ricompensa e generalizzare le preferenze degli utenti. Mostrano anche una varietà di abilità “out-of-the-box”, come generare catene di ragionamento, risolvere puzzle logici e completare problemi matematici. Queste impostazioni rimangono semantiche nei loro input e output e si basano sui pochi esempi context-aware in prompt di testo che stabiliscono il dominio e il formato di input-output per i loro compiti.
Una scoperta importante del loro studio è che gli LLM possono funzionare come tipi più semplici di macchine a pattern generali grazie alla loro capacità di rappresentare, modificare ed estrapolare schemi astratti e non linguistici. Questa scoperta potrebbe andare contro il senso comune. Per illustrare questo argomento, consideriamo l’Abstract Reasoning Corpus. Questa ampia benchmark di intelligenza artificiale include collezioni di griglie 2D con schemi che alludono a nozioni astratte (come il riempimento, il conteggio e la rotazione degli oggetti). Ogni compito inizia con alcuni esempi di una relazione input-output prima di passare ai test input, il cui obiettivo è prevedere l’output relativo. La maggior parte degli approcci basati sulla sintesi dei programmi viene costruita manualmente utilizzando linguaggi specifici del dominio o valutata rispetto a variazioni condensate o sottoinsiemi della benchmark.
LLM con prompt in stile ASCII art (vedi Figura 1) possono prevedere correttamente soluzioni per fino a 85 (su 800) problemi, superando alcuni dei metodi migliori finora, senza la necessità di ulteriori addestramenti o messa a punto del modello, secondo i loro esperimenti. D’altra parte, i metodi di apprendimento automatico end-to-end risolvono solo un piccolo numero di problemi di test. Sorprendentemente, scoprono che ciò vale non solo per i numeri ASCII, ma che gli LLM possono ancora produrre buone risposte quando la loro sostituzione è un mapping a token selezionati casualmente dal lessico. Queste scoperte aprono la possibilità affascinante che gli LLM possano avere capacità di rappresentazione ed estrapolazione più ampie indipendentemente dai token specifici presi in considerazione.
- Democratizzazione dei dati 5 strategie di Dati per tutti abbracciate dalle grandi aziende
- Mettere alla prova l’IA Una valutazione approfondita di ChatGPT e altri grandi modelli di linguaggio nella rilevazione delle fake news
- Questa newsletter sull’AI è tutto ciò di cui hai bisogno #56
Questo è coerente con – e supporta – le scoperte precedenti secondo cui le etichette ground-truth funzionano meglio rispetto ai mapping casuali o astratti quando utilizzate per la categorizzazione context-aware. Nella robotica e nella presa di decisioni sequenziali, dove una vasta gamma di problemi coinvolge schemi che possono essere difficili da ragionare in modo preciso con le parole, si ipotizza che le capacità che sottendono il ragionamento sui pattern nell’ARC possano consentire la manipolazione di pattern generali a diversi livelli di astrazione. Ad esempio, un metodo per riposizionare spazialmente le cose su un tavolo può essere espresso utilizzando token casuali (vedi Figura 2). Un altro esempio è l’estensione di una sequenza di token di stato e azione con ritorni crescenti per ottimizzare una traiettoria rispetto a una funzione di ricompensa.
I ricercatori dell’Università di Stanford, Google DeepMind e TU Berlin hanno 2 obiettivi principali per questo studio: (i) valutare le capacità di zero-shot che gli LLM possono già possedere per eseguire un certo livello di manipolazione di pattern generali e (ii) indagare come queste abilità possano essere utilizzate nella robotica. Questi sforzi sono ortogonali e complementari allo sviluppo di politiche multi-task tramite pre-training su grandi quantità di dati di robot o modelli di base per la robotica che possono essere messi a punto per compiti successivi. Queste competenze sono indubbiamente insufficienti per sostituire completamente gli algoritmi specializzati, ma caratterizzarle può aiutare a determinare le aree più importanti su cui concentrarsi durante l’addestramento di modelli di robot generalisti. Secondo la loro valutazione, gli LLM ricadono in tre categorie: trasformazione di sequenze, completezza di sequenze o potenziamento di sequenze (vedi Figura 2).
Prima di tutto, dimostrano che LLM può generalizzare alcune trasformazioni di sequenza di crescente complessità con una certa invarianza dei token, e suggeriscono che ciò possa essere utilizzato in applicazioni robotiche che richiedono pensiero spaziale. Successivamente, valutano la capacità di LLM di completare modelli da funzioni semplici (come i sinusoidi), dimostrando come ciò potrebbe essere utilizzato per attività robotiche come estendere un movimento di pulizia da dimostrazioni tattili o creare modelli su una lavagna bianca. LLM può eseguire tipi fondamentali di miglioramento delle sequenze grazie alla combinazione di estrapolazione e trasformazione delle sequenze in contesto. Dimostrano come l’utilizzo del contesto di traiettoria contrassegnato da ricompensa e l’interazione online possano aiutare un agente basato su LLM a imparare a navigare in una griglia piccola, trovare un controllore stabilizzante CartPole e ottimizzare la traiettoria di base utilizzando l’addestramento con incentivi umani tramite un “clicker”. Hanno reso pubblico il loro codice, i benchmark e i video.