Prompt analogico e di arretramento Un tuffo nelle recenti innovazioni di Google DeepMind

Approfondendo l'analogia e la retrocessione Un'immersione nelle recenti innovazioni di Google DeepMind

Introduzione

L’ingegneria delle prompt si concentra sulla creazione di prompt efficaci per guidare Large Language Models (LLM) come GPT-4 nella generazione di risposte desiderate. Un prompt ben strutturato può fare la differenza tra una risposta vaga o inaccurata e una precisa e illuminante.

Nell’ecosistema più ampio dell’IA, l’ingegneria delle prompt è uno dei vari metodi utilizzati per estrarre informazioni più accurate e pertinenti dal contesto dai modelli linguistici. Altri includono tecniche come l’apprendimento few-shot, in cui al modello vengono forniti alcuni esempi per aiutarlo a comprendere il compito, e il fine-tuning, in cui il modello viene ulteriormente allenato su un dataset più piccolo per specializzare le sue risposte.

Google DeepMind ha recentemente pubblicato due articoli che approfondiscono l’ingegneria delle prompt e il suo potenziale per migliorare le risposte in diverse situazioni.

Questi articoli fanno parte dell’esplorazione in corso nella comunità dell’IA per affinare e ottimizzare il modo in cui comunicano i modelli linguistici e forniscono nuove intuizioni sulla strutturazione dei prompt per una migliore gestione delle query e interazione con i database.

Questo articolo approfondisce i dettagli di questi articoli di ricerca, eludando i concetti, le metodologie e le implicazioni delle tecniche proposte, rendendolo accessibile anche ai lettori con conoscenze limitate in AI e NLP.

Articolo 1: Large Language Models as Analogical Reasoners

Il primo articolo, intitolato “Large Language Models as Analogical Reasoners”, introduce un nuovo approccio di prompt chiamato Analogical Prompting. Gli autori, Michihiro Yasunaga, Xinyun Chen e altri, si ispirano al ragionamento analogico, un processo cognitivo in cui gli esseri umani sfruttano esperienze passate per affrontare nuovi problemi.

Concetti chiave e Metodologia

L’Analogical Prompting incoraggia i LLM a autogenerare esempi o conoscenze rilevanti nel contesto prima di procedere a risolvere un problema. Questo approccio elimina la necessità di esempi etichettati, offrendo generalità e comodità, e adatta gli esempi generati a ogni problema specifico, garantendo adattabilità.

A sinistra: i metodi tradizionali di prompt dei LLM si basano su input generici (0-shot CoT) o richiedono esempi etichettati (few-shot CoT). A destra: il nuovo approccio incoraggia i LLM a autogenerare esempi rilevanti prima di risolvere un problema, eliminando la necessità di etichettatura mentre personalizza gli esempi per ogni specifico problema

A sinistra: i metodi tradizionali di prompt dei LLM si basano su input generici (0-shot CoT) o richiedono esempi etichettati (few-shot CoT). A destra: il nuovo approccio incoraggia i LLM a autogenerare esempi rilevanti prima di risolvere un problema, eliminando la necessità di etichettatura mentre personalizza gli esempi per ogni specifico problema

Esempi Autogenerati

La prima tecnica presentata nell’articolo sono gli esempi autogenerati. L’idea è sfruttare le ampie conoscenze che i LLM hanno acquisito durante il loro addestramento per aiutarli a risolvere nuovi problemi. Il processo prevede di aggiungere a un problema di destinazione istruzioni che guidano il modello nel richiamare o generare problemi e soluzioni rilevanti.

Ad esempio, dato un problema, al modello viene chiesto di richiamare tre problemi distinti e rilevanti, descriverli e spiegare le loro soluzioni. Questo processo è progettato per essere eseguito in un solo passaggio, consentendo al LLM di generare esempi rilevanti e risolvere il problema iniziale in modo fluido. L’uso di simboli ‘#’ nei prompt aiuta a strutturare la risposta, rendendola più organizzata e facile da seguire per il modello.

Le decisioni tecniche chiave evidenziate nell’articolo includono l’importanza di generare esempi rilevanti e diversi, l’adozione di un approccio in un unico passaggio per maggiore comodità e la scoperta che generare da tre a cinque esempi produce i migliori risultati.

Conoscenza Autogenerata + Esempi

La seconda tecnica, conoscenza autogenerata + esempi, viene introdotta per affrontare le sfide nei compiti più complessi, come la generazione di codice. In questi scenari, i LLM potrebbero fare affidamento eccessivo su esempi di basso livello e faticare a generalizzare nella risoluzione dei problemi di destinazione. Per mitigare questo problema, gli autori propongono di potenziare il prompt con una seconda istruzione che incoraggia il modello a identificare concetti fondamentali nel problema e fornire un tutorial o un concetto generale.

Una considerazione critica è l’ordine in cui vengono generati la conoscenza e gli esempi. Gli autori hanno scoperto che generare conoscenza prima degli esempi porta a risultati migliori, in quanto aiuta il LLM a concentrarsi sugli approcci fondamentali di risoluzione dei problemi anziché solo sulle somiglianze superficiali.

Vantaggi e Applicazioni

L’approccio analogico di sollecitazione offre diversi vantaggi. Fornisce esempi dettagliati di ragionamento senza la necessità di etichettatura manuale, affrontando sfide associate a metodi di catena di pensiero (CoT) con capacità di zero-shot e few-shot. Inoltre, gli esempi generati sono personalizzati per problemi individuali, offrendo una guida più pertinente rispetto al tradizionale few-shot CoT, che utilizza esempi fissi.

Il paper dimostra l’efficacia di questo approccio su varie attività di ragionamento, tra cui la risoluzione di problemi matematici, la generazione di codice e altre attività di ragionamento in BIG-Bench.

Le tabelle seguenti mostrano le metriche di performance dei vari metodi di sollecitazione nelle diverse architetture di modello. È importante sottolineare che il metodo “Esempi Autogenerati” si distingue costantemente dagli altri metodi in termini di accuratezza. Per quanto riguarda l’accuratezza GSM8K, questo metodo raggiunge la performance più alta sul modello PaLM2 al 81,7%. Allo stesso modo, per l’accuratezza in MATH, si posiziona al top della classifica su GPT3.5-turbo al 37,3%.

Performance nelle attività matematiche, GSM8K e MATH

Performance nelle attività matematiche, GSM8K e MATH

Nella seconda tabella, per i modelli GPT3.5-turbo-16k e GPT4, il metodo “Conoscenza Autogenerata + Esempi” mostra la migliore performance.

Performance nella generazione di codice Codeforces

Performance nella generazione di codice Codeforces

Paper 2: Fare un Passo Indietro: Evocare il Ragionamento tramite l’Astrazione in Modelli di Lingua Grandi

Panoramica

Il secondo paper, “Fare un Passo Indietro: Evocare il Ragionamento tramite l’Astrazione in Modelli di Lingua Grandi“, presenta Step-Back Prompting, una tecnica che incoraggia i LLM (Large Language Models) ad astrarre concetti di alto livello e principi fondamentali da istanze dettagliate. Gli autori, Huaixiu Steven Zheng, Swaroop Mishra e altri, mirano a migliorare le capacità di ragionamento dei LLM guidandoli lungo un percorso di ragionamento corretto verso la soluzione.

Rappresentazione di STEP-BACK PROMPTING attraverso due fasi di Astrazione e Ragionamento, guidate da concetti e principi chiave.

Rappresentazione di STEP-BACK PROMPTING attraverso due fasi di Astrazione e Ragionamento, guidate da concetti e principi chiave.

Creiamo un esempio più semplice utilizzando una domanda matematica di base per illustrare la tecnica della “Domanda di Stepback”:

Domanda Originale: Se un treno viaggia alla velocità di 60 km/h e copre una distanza di 120 km, quanto tempo ci vorrà?

Opzioni:

3 ore 2 ore 1 ora 4 ore Risposta Originale [Errata]: La risposta corretta è 2).

Domanda di Stepback: Qual è la formula di base per calcolare il tempo dato la velocità e la distanza?

Principi: Per calcolare il tempo, utilizziamo la formula: Tempo = Distanza / Velocità

Risposta Finale: Utilizzando la formula, Tempo = 120 km / 60 km/h = 2 ore. La risposta corretta è 2) 2 ore.

Anche se oggi i LLM possono rispondere facilmente alla domanda precedente, questo esempio serve solo a illustrare come funzionerebbe la tecnica del passo indietro. Per scenari più impegnativi, la stessa tecnica può essere applicata per analizzare e affrontare il problema in modo sistematico. Di seguito è riportato un caso più complesso dimostrato nel paper:

STEP-BACK PROMPTING sul dataset MMLU-Chemistry

STEP-BACK PROMPTING sul dataset MMLU-Chemistry

Concetti chiave e metodologia

L’essenza dello Step-Back Prompting risiede nella sua capacità di far fare agli LLM un passo indietro metaforico, incoraggiandoli a guardare l’immagine più ampia anziché perdersi nei dettagli. Questo viene ottenuto attraverso una serie di prompt attentamente elaborati che guidano gli LLM ad astrarre informazioni, derivare concetti di alto livello e applicare questi concetti per risolvere il problema dato.

Il processo inizia con la richiesta agli LLM di astrarre i dettagli dalle istanze fornite, incoraggiandoli a concentrarsi sui concetti e principi sottostanti. Questo passaggio è cruciale in quanto prepara il terreno affinché gli LLM affrontino il problema da una prospettiva più informata e basata su principi.

Una volta derivati i concetti di alto livello, vengono utilizzati per guidare gli LLM attraverso i passaggi di ragionamento verso la soluzione. Questa guida garantisce che gli LLM rimangano sulla giusta strada, seguendo un percorso logico e coerente basato sui concetti e principi astratti.

Gli autori conducono una serie di esperimenti per convalidare l’efficacia dello Step-Back Prompting, utilizzando modelli PaLM-2L su una serie di compiti impegnativi legati al ragionamento. Questi compiti includono problemi STEM, Knowledge QA e Multi-Hop Reasoning, fornendo una piattaforma di test completa per valutare la tecnica.

Miglioramenti sostanziali su tutti i compiti

I risultati sono impressionanti, con lo Step-Back Prompting che porta a significativi miglioramenti delle prestazioni su tutti i compiti. Ad esempio, la tecnica migliora le prestazioni di PaLM-2L per la Fisica MMLU e la Chimica MMLU rispettivamente del 7% e dell’11%. Allo stesso modo, migliora le prestazioni su TimeQA del 27% e su MuSiQue del 7%.

Prestazioni di STEP-BACK PROMPTING

Prestazioni di STEP-BACK PROMPTING vs CoT

Questi risultati sottolineano il potenziale dello Step-Back Prompting nel migliorare significativamente le capacità di ragionamento degli LLM.

Conclusioni

Entrambi gli articoli di Google DeepMind presentano approcci innovativi all’ingegneria dei prompt, con l’obiettivo di migliorare le capacità di ragionamento dei modelli di linguaggio avanzati. Analogical Prompting sfrutta il concetto del ragionamento analogico, incoraggiando i modelli a generare i propri esempi e conoscenze, conducendo a una risoluzione dei problemi più adattabile ed efficiente. D’altra parte, lo Step-Back Prompting si concentra sull’astrazione, guidando i modelli a derivare concetti e principi di alto livello che, a loro volta, migliorano le loro capacità di ragionamento.

Questi articoli di ricerca forniscono preziose intuizioni e metodologie che possono essere applicate in vari settori, portando a modelli di linguaggio più intelligenti e capaci. Mentre continuiamo ad esplorare e comprendere le complessità dell’ingegneria dei prompt, questi approcci fungono da pietre miliari cruciali verso il raggiungimento di sistemi di intelligenza artificiale più avanzati e sofisticati.