ChatGPT e l’Ingegneria avanzata dei prompt Guidare l’evoluzione dell’IA

ChatGPT e l'Ingegneria avanzata dei prompt

OpenAI è stato fondamentale nello sviluppo di strumenti rivoluzionari come OpenAI Gym, progettato per addestrare algoritmi di rinforzo, e i modelli GPT-n. L’attenzione è anche rivolta a DALL-E, un modello di intelligenza artificiale che crea immagini da input testuali. Un modello che ha attirato considerevole attenzione è ChatGPT di OpenAI, un esempio luminoso nel campo dei Large Language Models.

GPT-4: Ingegneria delle Prompt

ChatGPT ha trasformato il panorama dei chatbot, offrendo risposte simili a quelle umane agli input degli utenti ed estendendo le sue applicazioni in vari ambiti, dalla sviluppo e testing software alla comunicazione aziendale, e persino alla creazione di poesie.

Nelle mani di aziende e individui, GPT-4, ad esempio, potrebbe fungere da serbatoio inesauribile di conoscenza, competente in argomenti che spaziano dalla matematica alla biologia, fino agli studi legali. Modelli di intelligenza artificiale sofisticati e accessibili come questi sono destinati a ridefinire il futuro del lavoro, dell’apprendimento e della creatività.

I modelli generativi come GPT-4 possono produrre nuovi dati basati su input esistenti. Questa caratteristica distintiva consente loro di svolgere diverse attività, tra cui generare testi, immagini, musica e video.

Nel contesto di ChatGPT e dei modelli di OpenAI, una prompt è l’input che gli utenti forniscono ai modelli, di solito sotto forma di testo. Le prompt sono il principale mezzo di controllo dell’output generato da questi modelli, rendendole cruciali per conversazioni di successo e rilevanti.

L’Impatto della Qualità della Prompt

Utilizzare prompt ben definiti è la chiave per impegnarsi in conversazioni utili e significative con i sistemi di intelligenza artificiale. Prompt mal definiti possono generare output che non è utile per l’utente e possono persino portare a contenuti fuorvianti.

Per dimostrare l’impatto della qualità della prompt, confrontiamo due prompt diversi forniti a ChatGPT. Il primo, mal definito e che assume una conoscenza precedente, genera una risposta potenzialmente inutile per l’utente. D’altra parte, il secondo prompt fornisce più contesto ed esempi, garantendo una risposta più rilevante e comprensibile.

Prompt 1: “Parlami delle reti neurali convoluzionali.”

Risposta 1: “Le reti neurali convoluzionali (CNN) sono reti perceptron multistrato che consistono di strati completamente connessi e strati di pooling. Sono comunemente utilizzate per compiti di riconoscimento delle immagini. Il processo prevede l’applicazione di filtri alle immagini di input e la riduzione delle dimensioni tramite strati di pooling.”

Prompt 2: “Voglio imparare le reti neurali convoluzionali, ma non ho conoscenze precedenti sulle reti neurali artificiali. Puoi fornire una spiegazione adatta ai principianti e un esempio di come le CNN vengono utilizzate nel riconoscimento delle immagini?”

Risposta 2: “Le reti neurali convoluzionali (CNN) sono un tipo di rete neurale utilizzato principalmente per compiti di riconoscimento delle immagini. A differenza di altre reti neurali, sfruttano strati convoluzionali e strati di pooling per elaborare le immagini. Immagina di avere un’immagine di un gatto. Le CNN possono identificare diverse caratteristiche dell’immagine, come i baffi, le orecchie e la coda, applicando filtri e riducendo le dimensioni dell’immagine tramite strati di pooling. Questo processo rende le CNN molto efficaci nel riconoscimento degli oggetti nelle immagini.”

Confrontando le due risposte, è evidente che una prompt ben definita porta a una risposta più rilevante e user-friendly. La progettazione e l’ingegneria delle prompt sono discipline in crescita che mirano a ottimizzare la qualità dell’output dei modelli di intelligenza artificiale come ChatGPT.

Nelle sezioni successive di quest’articolo, approfondiremo il campo delle metodologie avanzate mirate al perfezionamento dei Large Language Models (LLM), come le tecniche e le tattiche di ingegneria delle prompt. Queste includono il learning a poche istanze, ReAct, chain-of-thought, RAG e altro ancora.

Tecniche di Ingegneria Avanzate

Prima di procedere, è importante comprendere un problema chiave dei LLM, chiamato ‘allucinazione’. Nel contesto dei LLM, l”allucinazione’ indica la tendenza di questi modelli a generare output che potrebbero sembrare ragionevoli ma non sono basati sulla realtà fattuale o sul contesto di input fornito.

Questo problema è stato evidenziato in modo evidente in un recente caso giudiziario in cui un avvocato difensore ha utilizzato ChatGPT per ricerche legali. Lo strumento di intelligenza artificiale, a causa del problema di ‘allucinazione’, ha citato casi legali inesistenti. Questo errore ha avuto ripercussioni significative, causando confusione e compromettendo la credibilità durante il processo legale. Questo incidente serve come un chiaro monito alla necessità urgente di affrontare il problema dell”allucinazione’ nei sistemi di intelligenza artificiale.

La nostra esplorazione delle tecniche di progettazione di prompt mira a migliorare questi aspetti degli LLM. Potenziando la loro efficienza e sicurezza, apriamo la strada a innovative applicazioni come l’estrazione di informazioni. Inoltre, si aprono le porte per integrare in modo fluido gli LLM con strumenti esterni e fonti di dati, ampliando la gamma delle loro potenziali utilizzazioni.

Apprendimento Zero e Pochi Esempi: Ottimizzazione con Esempi

I Generative Pretrained Transformers (GPT-3) hanno segnato un punto di svolta importante nello sviluppo dei modelli di Intelligenza Artificiale Generativa, introducendo il concetto di “apprendimento con pochi esempi”. Questo metodo ha cambiato il gioco grazie alla sua capacità di operare in modo efficace senza la necessità di un’ottimizzazione approfondita. Il framework GPT-3 è discusso nel paper “I modelli linguistici sono apprendisti con pochi esempi”, in cui gli autori dimostrano come il modello eccelle in diversi casi d’uso senza richiedere set di dati o codice personalizzato.

A differenza dell’ottimizzazione approfondita, che richiede uno sforzo continuo per risolvere casi d’uso variabili, i modelli con pochi esempi dimostrano una maggiore adattabilità a una vasta gamma di applicazioni. Mentre l’ottimizzazione approfondita potrebbe fornire soluzioni robuste in alcuni casi, può essere costosa su larga scala, rendendo l’uso di modelli con pochi esempi un approccio più pratico, specialmente quando integrato con la progettazione di prompt.

Immagina di provare a tradurre dall’inglese al francese. Nel caso dell’apprendimento con pochi esempi, forniresti a GPT-3 alcuni esempi di traduzione come “lontre di mare -> sea otter”. GPT-3, essendo un modello avanzato, è quindi in grado di continuare a fornire traduzioni accurate. Nel caso dell’apprendimento zero, non forniresti nessun esempio e GPT-3 sarebbe comunque in grado di tradurre dall’inglese al francese in modo efficace.

Il termine “apprendimento con pochi esempi” deriva dall’idea che al modello venga fornito un numero limitato di esempi da “apprendere”. È importante notare che “apprendere” in questo contesto non implica l’aggiornamento dei parametri o dei pesi del modello, ma influisce sulle prestazioni del modello.

Apprendimento con pochi esempi come dimostrato nel paper GPT-3

L’apprendimento zero spinge questo concetto un passo avanti. Nell’apprendimento zero, non vengono forniti al modello esempi di completamento del compito. Il modello è invece previsto di svolgere bene il compito in base al suo addestramento iniziale, rendendo questa metodologia ideale per scenari di domanda-risposta in un dominio aperto, come ChatGPT.

In molti casi, un modello competente nell’apprendimento zero può svolgere bene anche quando gli vengono forniti pochi o addirittura un solo esempio. Questa capacità di passare tra scenari di apprendimento zero, con pochi esempi o con un solo esempio sottolinea l’adattabilità dei grandi modelli, migliorando le loro potenziali applicazioni in diversi settori.

I metodi di apprendimento zero stanno diventando sempre più diffusi. Questi metodi si caratterizzano per la loro capacità di riconoscere oggetti non visti durante l’addestramento. Ecco un esempio pratico di un Prompt con Pochi Esempi:

"Traduci le seguenti frasi inglesi in francese:

'sea otter' si traduce in 'loutre de mer' 'sky' si traduce in 'ciel' Come si traduce 'cloud' in francese?"

Fornendo al modello alcuni esempi e poi ponendo una domanda, possiamo guidare efficacemente il modello per generare l’output desiderato. In questo caso, GPT-3 probabilmente tradurrebbe correttamente ‘cloud’ in ‘nuage’ in francese.

Approfondiremo le varie sfumature della progettazione di prompt e il suo ruolo essenziale nell’ottimizzazione delle prestazioni del modello durante l’inferenza. Esamineremo anche come può essere utilizzato in modo efficace per creare soluzioni economiche e scalabili in una vasta gamma di casi d’uso.

Continuando a esplorare la complessità delle tecniche di progettazione di prompt nei modelli GPT, è importante sottolineare il nostro ultimo post “Guida essenziale alla progettazione di prompt in ChatGPT”. Questa guida fornisce approfondimenti sulle strategie per istruire efficacemente i modelli di Intelligenza Artificiale in una miriade di casi d’uso.

Nelle nostre discussioni precedenti, abbiamo esaminato i metodi di prompt fondamentali per i grandi modelli linguistici (LLM), come l’apprendimento zero e con pochi esempi, così come il prompt di istruzione. Padroneggiare queste tecniche è cruciale per affrontare le sfide più complesse della progettazione di prompt che esploreremo qui.

L’apprendimento con pochi esempi può essere limitato a causa della finestra di contesto ristretta della maggior parte dei LLM. Inoltre, senza le opportune precauzioni, i LLM possono essere indotti a fornire output potenzialmente dannosi. Inoltre, molti modelli faticano con compiti di ragionamento o con l’esecuzione di istruzioni a più passaggi.

Dati questi vincoli, la sfida consiste nel sfruttare i LLM per affrontare compiti complessi. Una soluzione ovvia potrebbe essere lo sviluppo di LLM più avanzati o il perfezionamento di quelli esistenti, ma ciò potrebbe richiedere un notevole sforzo. Quindi, sorge la domanda: come possiamo ottimizzare i modelli attuali per migliorare la risoluzione dei problemi?

Altrettanto affascinante è l’esplorazione di come questa tecnica interagisca con applicazioni creative in “Mastering AI Art di Unite AI: una guida concisa all’ingegneria di medio percorso e prompt”, che descrive come la fusione dell’arte e dell’IA possa portare a opere d’arte mozzafiato.

Catena di pensiero Prompting

La catena di pensiero Prompting sfrutta le proprietà auto-regressive intrinseche dei grandi modelli di linguaggio (LLM), che eccellono nel prevedere la parola successiva in una sequenza data. Stimolando un modello a chiarire il suo processo di pensiero, si induce una generazione di idee più approfondita e metodica, che tende ad allinearsi strettamente alle informazioni accurate. Questo allineamento deriva dall’inclinazione del modello a elaborare e fornire informazioni in modo ponderato e ordinato, simile a un esperto umano che guida un ascoltatore attraverso un concetto complesso. Una semplice affermazione come “guidami passo dopo passo su come…” è spesso sufficiente per innescare questa produzione più verbosa e dettagliata.

Zero-shot Chain-of-thought Prompting

Mentre il prompt CoT convenzionale richiede una pre-formazione con dimostrazioni, un’area emergente è il prompt CoT senza shot. Questo approccio, introdotto da Kojima et al. (2022), aggiunge in modo innovativo la frase “Pensiamo passo dopo passo” al prompt originale.

Creiamo un prompt avanzato in cui ChatGPT viene incaricato di riassumere le principali conclusioni da articoli di ricerca su AI e NLP.

In questa dimostrazione, useremo la capacità del modello di comprendere e riassumere informazioni complesse da testi accademici. Utilizzando l’approccio di apprendimento few-shot, insegniamo a ChatGPT a riassumere le principali scoperte degli articoli di ricerca su AI e NLP:

1. Titolo dell'articolo: "L'attenzione è tutto ciò di cui hai bisogno" Punto chiave: ha introdotto il modello transformer, sottolineando l'importanza dei meccanismi di attenzione rispetto agli strati ricorrenti per le attività di trasduzione delle sequenze.

2. Titolo dell'articolo: "BERT: Pre-training di trasformatori bidirezionali profondi per la comprensione del linguaggio" Punto chiave: ha introdotto BERT, mostrando l'efficacia del pre-training di modelli bidirezionali profondi, raggiungendo così risultati all'avanguardia su varie attività di NLP.

Ora, con il contesto di questi esempi, riassumi le principali conclusioni dal seguente articolo:

Titolo dell'articolo: "Prompt Engineering in Large Language Models: An Examination"

Questo prompt non solo mantiene una chiara catena di pensiero, ma utilizza anche un approccio di apprendimento few-shot per guidare il modello. Si collega alle nostre parole chiave concentrandosi sui domini AI e NLP, chiedendo specificamente a ChatGPT di eseguire un’operazione complessa legata all’ingegneria dei prompt: riassumere gli articoli di ricerca.

Prompt ReAct

ReAct, o “Reason and Act”, è stato introdotto da Google nel paper “ReAct: Sinergia tra ragionamento e azione nei modelli di linguaggio” e ha rivoluzionato il modo in cui i modelli di linguaggio interagiscono con un compito, spingendo il modello a generare dinamicamente tracce di ragionamento verbale e azioni specifiche per il compito.

Immagina uno chef umano in cucina: non solo esegue una serie di azioni (taglia le verdure, fa bollire l’acqua, mescola gli ingredienti), ma si impegna anche in ragionamenti verbali o dialoghi interni (“ora che le verdure sono tagliate, dovrei mettere la pentola sul fornello”). Questo dialogo mentale in corso aiuta a pianificare il processo, adattarsi a improvvisi cambiamenti (“sono senza olio d’oliva, userò burro al suo posto”) e ricordare la sequenza delle attività. ReAct imita questa capacità umana, consentendo al modello di imparare rapidamente nuovi compiti e prendere decisioni robuste, proprio come farebbe un essere umano in circostanze nuove o incerte.

ReAct può affrontare l’allucinazione, un problema comune con i sistemi di catena di pensiero (CoT). CoT, sebbene una tecnica efficace, manca della capacità di interagire con il mondo esterno, il che potrebbe potenzialmente portare all’allucinazione di fatti e alla propagazione degli errori. ReAct, tuttavia, compensa ciò interfacciandosi con fonti esterne di informazione. Questa interazione consente al sistema non solo di convalidare il suo ragionamento, ma anche di aggiornare le sue conoscenze in base alle ultime informazioni provenienti dal mondo esterno.

Il funzionamento fondamentale di ReAct può essere spiegato attraverso un’istanza di HotpotQA, un compito che richiede un ragionamento di alto livello. Ricevuta una domanda, il modello ReAct suddivide la domanda in parti gestibili e crea un piano d’azione. Il modello genera una traccia di ragionamento (pensiero) e identifica un’azione rilevante. Potrebbe decidere di cercare informazioni sull’Apple Remote su una fonte esterna, come Wikipedia (azione), e aggiornare la sua comprensione in base alle informazioni ottenute (osservazione). Attraverso più passaggi di pensiero-azione-osservazione, ReAct può recuperare informazioni per supportare il suo ragionamento mentre affina ciò che deve recuperare successivamente.

Nota:

HotpotQA è un dataset, derivato da Wikipedia, composto da 113.000 coppie domanda-risposta progettate per addestrare i sistemi di intelligenza artificiale nel ragionamento complesso, in quanto le domande richiedono di ragionare su più documenti per fornire una risposta. D’altra parte, CommonsenseQA 2.0, costruito tramite gamification, include 14.343 domande a risposta sì/no ed è progettato per mettere alla prova la comprensione del buon senso da parte dell’intelligenza artificiale, in quanto le domande sono intenzionalmente formulate in modo da ingannare i modelli di intelligenza artificiale.

Il processo potrebbe essere simile a questo:

  1. Pensiero: “Devo cercare il Telecomando Apple e i suoi dispositivi compatibili”.
  2. Azione: Cerca “Dispositivi compatibili con il Telecomando Apple” su una fonte esterna.
  3. Osservazione: Ottiene una lista di dispositivi compatibili con il Telecomando Apple dai risultati della ricerca.
  4. Pensiero: “In base ai risultati della ricerca, diversi dispositivi, oltre al Telecomando Apple, possono controllare il programma con cui è stato originariamente progettato per interagire”.

Il risultato è un processo dinamico basato sul ragionamento che può evolvere in base alle informazioni con cui interagisce, portando a risposte più accurate e affidabili.

Visualizzazione comparativa di quattro metodi di stimolazione – Standard, Chain-of-Thought, Act-Only e ReAct, nella risoluzione di HotpotQA e AlfWorld (https://arxiv.org/pdf/2210.03629.pdf)

La progettazione di agenti React è un compito specializzato, data la loro capacità di raggiungere obiettivi complessi. Ad esempio, un agente conversazionale, basato sul modello base React, incorpora una memoria conversazionale per fornire interazioni più ricche. Tuttavia, la complessità di questo compito è semplificata da strumenti come Langchain, diventato lo standard per la progettazione di questi agenti.

Stimolazione fedele al contesto

L’articolo ‘Stimolazione fedele al contesto per modelli di linguaggio di grandi dimensioni’ sottolinea che, sebbene i modelli di linguaggio di grandi dimensioni (LLM) abbiano mostrato un notevole successo nelle attività di elaborazione del linguaggio naturale basate sulla conoscenza, la loro eccessiva dipendenza dalla conoscenza parametrica può portarli fuori strada nelle attività sensibili al contesto. Ad esempio, quando un modello di linguaggio viene addestrato su fatti obsoleti, può produrre risposte errate se non considera gli indizi contestuali.

Questo problema si manifesta in casi di conflitto di conoscenza, in cui il contesto contiene fatti diversi dalla conoscenza preesistente del LLM. Si consideri un caso in cui un modello di linguaggio di grandi dimensioni (LLM), istruito con dati precedenti alla Coppa del Mondo del 2022, viene fornito di un contesto che indica che la Francia ha vinto il torneo. Tuttavia, il LLM, basandosi sulla sua conoscenza preaddestrata, continua a sostenere che il vincitore precedente, cioè la squadra che ha vinto nella Coppa del Mondo del 2018, è ancora il campione in carica. Questo dimostra un classico caso di ‘conflitto di conoscenza’.

In sostanza, il conflitto di conoscenza in un LLM si verifica quando le nuove informazioni fornite nel contesto contraddicono la conoscenza preesistente su cui il modello è stato addestrato. La tendenza del modello a basarsi sul suo addestramento precedente anziché sul contesto appena fornito può portare a output errati. D’altra parte, l’allucinazione nei LLM consiste nella generazione di risposte che possono sembrare plausibili ma non sono radicate nei dati di addestramento del modello o nel contesto fornito.

Un altro problema si presenta quando il contesto fornito non contiene informazioni sufficienti per rispondere correttamente a una domanda, una situazione nota come predizione con astensione. Ad esempio, se a un LLM viene chiesto chi è il fondatore di Microsoft sulla base di un contesto che non fornisce queste informazioni, dovrebbe astenersi dall’indovinare.

Altri esempi di conflitto di conoscenza e il potere dell’astensione

Per migliorare la fedeltà contestuale dei LLM in questi scenari, i ricercatori hanno proposto una serie di strategie di stimolazione. Queste strategie mirano a rendere le risposte dei LLM più attente al contesto anziché fare affidamento sulla loro conoscenza codificata.

Una di queste strategie consiste nel formulare le domande di stimolo come domande basate sull’opinione, in cui il contesto viene interpretato come una dichiarazione del narratore e la domanda riguarda l’opinione di questo narratore. Questo approccio riorienta l’attenzione del LLM sul contesto presentato anziché ricorrere alla sua conoscenza preesistente.

L’aggiunta di dimostrazioni controfattuali ai prompt è stata identificata come un modo efficace per aumentare la fedeltà nei casi di conflitto di conoscenza. Queste dimostrazioni presentano scenari con fatti falsi, che guidano il modello a prestare maggiore attenzione al contesto per fornire risposte accurate.

Istruzione di ottimizzazione

L’ottimizzazione delle istruzioni è una fase di apprendimento supervisionato che sfrutta il fornire al modello istruzioni specifiche, ad esempio “Spiega la differenza tra un’alba e un tramonto”. L’istruzione è abbinata a una risposta appropriata, qualcosa del tipo: “Un’alba si riferisce al momento in cui il sole appare all’orizzonte al mattino, mentre un tramonto segna il punto in cui il sole scompare sotto l’orizzonte alla sera”. Attraverso questo metodo, il modello impara essenzialmente come seguire ed eseguire le istruzioni.

Questo approccio influenza significativamente il processo di sollecitazione delle LLM, portando a un cambiamento radicale nello stile di sollecitazione. Una LLM ottimizzata per le istruzioni consente l’esecuzione immediata di compiti zero-shot, garantendo prestazioni senza soluzione di continuità. Se la LLM non è ancora stata ottimizzata, potrebbe essere necessario un approccio di apprendimento few-shot, incorporando alcuni esempi nella tua richiesta per guidare il modello verso la risposta desiderata.

“Instruction Tuning with GPT-4” discute il tentativo di utilizzare GPT-4 per generare dati di seguito delle istruzioni per l’ottimizzazione delle LLM. Hanno utilizzato un ricco dataset, composto da 52.000 voci uniche di seguito delle istruzioni sia in inglese che in cinese.

Il dataset svolge un ruolo fondamentale nell’ottimizzazione delle istruzioni dei modelli LLaMA, una serie di LLM open source, che porta a una migliore performance zero-shot su nuovi compiti. Progetti notevoli come Stanford Alpaca hanno impiegato efficacemente l’ottimizzazione Self-Instruct, un metodo efficiente per allineare le LLM con l’intento umano, sfruttando i dati generati da modelli di insegnanti ottimizzati per le istruzioni avanzate.

Lo scopo principale della ricerca sull’ottimizzazione delle istruzioni è quello di potenziare le capacità di generalizzazione zero e few-shot delle LLM. Ulteriori dati e scalabilità del modello possono fornire preziosi spunti. Con la dimensione attuale dei dati di GPT-4 pari a 52.000 e la dimensione del modello di base LLaMA a 7 miliardi di parametri, c’è un enorme potenziale per raccogliere ulteriori dati di seguito delle istruzioni di GPT-4 e combinarli con altre fonti di dati per addestrare modelli LLaMA più grandi per prestazioni superiori.

STaR: Bootstrap del ragionamento con il ragionamento

Il potenziale delle LLM è particolarmente evidente in compiti complessi di ragionamento come matematica o risposta a domande di buon senso. Tuttavia, il processo di indurre un modello di linguaggio a generare ragionamenti – una serie di giustificazioni passo dopo passo o “catena di pensiero” – ha le sue sfide. Spesso richiede la costruzione di ampi dataset di ragionamento o un sacrificio dell’accuratezza a causa della dipendenza solo da inferenze few-shot.

“Self-Taught Reasoner” (STaR) offre una soluzione innovativa a queste sfide. Utilizza un semplice ciclo per migliorare continuamente la capacità di ragionamento di un modello. Questo processo iterativo inizia con la generazione di ragionamenti per rispondere a più domande utilizzando alcuni esempi razionali. Se le risposte generate sono errate, il modello riprova a generare un ragionamento, questa volta fornendo la risposta corretta. Il modello viene quindi ottimizzato su tutti i ragionamenti che hanno portato a risposte corrette e il processo si ripete.

Metodologia STaR, che illustra il ciclo di ottimizzazione e la generazione di ragionamenti su un campione di dataset CommonsenseQA (https://arxiv.org/pdf/2203.14465.pdf)

Per illustrare questo con un esempio pratico, considera la domanda “Cosa può essere utilizzato per trasportare un cane piccolo?” con scelte di risposta che vanno da una piscina a un cestino. Il modello STaR genera un ragionamento, identificando che la risposta deve essere qualcosa in grado di trasportare un cane piccolo e giungendo alla conclusione che un cestino, progettato per contenere cose, è la risposta corretta.

L’approccio di STaR è unico nel suo genere in quanto sfrutta la capacità di ragionamento preesistente del modello di linguaggio. Utilizza un processo di auto-generazione e perfezionamento dei ragionamenti, bootstraping iterativo delle capacità di ragionamento del modello. Tuttavia, il ciclo di STaR ha dei limiti. Il modello potrebbe non riuscire a risolvere nuovi problemi nel set di allenamento perché non riceve alcun segnale di allenamento diretto per i problemi che non riesce a risolvere. Per affrontare questo problema, STaR introduce la razionalizzazione. Per ogni problema a cui il modello non riesce a rispondere correttamente, genera un nuovo ragionamento fornendo al modello la risposta corretta, il che consente al modello di ragionare all’indietro.

STaR, quindi, rappresenta un metodo di bootstrap scalabile che consente ai modelli di imparare a generare i propri ragionamenti mentre imparano anche a risolvere problemi sempre più difficili. L’applicazione di STaR ha mostrato risultati promettenti in compiti che coinvolgono l’aritmetica, i problemi di matematica e il ragionamento di buon senso. Su CommonsenseQA, STaR ha migliorato sia una base few-shot che una base ottimizzata per prevedere direttamente le risposte e ha ottenuto prestazioni comparabili a un modello 30 volte più grande.

Tagged Context Prompts

Il concetto di “Tagged Context Prompts” ruota attorno alla fornitura del modello di intelligenza artificiale con uno strato aggiuntivo di contesto, mediante l’etichettatura di determinate informazioni all’interno dell’input. Queste etichette agiscono essenzialmente come segnali stradali per l’IA, guidandola su come interpretare il contesto in modo accurato e generare una risposta pertinente e basata sui fatti.

Immagina di avere una conversazione con un amico su un determinato argomento, diciamo “scacchi”. Fai una dichiarazione e poi la etichetti con un riferimento, ad esempio “(fonte: Wikipedia)”. Ora, il tuo amico, che in questo caso è il modello di intelligenza artificiale, sa esattamente da dove provengono le tue informazioni. Questo approccio mira a rendere le risposte dell’IA più affidabili, riducendo il rischio di allucinazioni o generazione di falsi fatti.

Un aspetto unico dei tagged context prompts è il loro potenziale per migliorare l’intelligenza contestuale dei modelli di intelligenza artificiale. Ad esempio, il documento dimostra ciò utilizzando un insieme diversificato di domande tratte da diverse fonti, come articoli di Wikipedia riassunti su vari argomenti e sezioni di un libro recentemente pubblicato. Le domande sono etichettate, fornendo al modello di intelligenza artificiale un contesto aggiuntivo sulla fonte delle informazioni.

Questo strato aggiuntivo di contesto può risultare incredibilmente vantaggioso quando si tratta di generare risposte che non solo sono accurate, ma che rispettano anche il contesto fornito, rendendo l’output dell’IA più affidabile e degno di fiducia.

Conclusion: Uno Sguardo alle Tecniche Promettenti e alle Direzioni Future

ChatGPT di OpenAI mette in mostra il potenziale inesplorato dei Large Language Models (LLMs) nel affrontare compiti complessi con notevole efficienza. Tecniche avanzate come il few-shot learning, il ReAct prompting, il chain-of-thought e STaR, ci consentono di sfruttare questo potenziale in una moltitudine di applicazioni. Scavando più a fondo nelle sfumature di queste metodologie, scopriamo come stanno plasmando il panorama dell’IA, offrendo interazioni più ricche e sicure tra esseri umani e macchine.

Nonostante le sfide come il conflitto di conoscenze, la dipendenza eccessiva dalla conoscenza parametrica e la possibilità di allucinazioni, questi modelli di IA, con l’opportuna progettazione delle istruzioni, si sono dimostrati strumenti trasformativi. Il fine-tuning delle istruzioni, il prompting fedele al contesto e l’integrazione con fonti di dati esterne amplificano ulteriormente la loro capacità di ragionare, apprendere e adattarsi.