All’interno di COSP e USP Google ricerca nuovi metodi per migliorare il ragionamento nelle LLMs

Google ricerca nuovi metodi per migliorare il ragionamento nelle LLMs all'interno di COSP e USP

Attraverso la promptizzazione adattativa, i due nuovi metodi migliorano le capacità di ragionamento di senso comune nelle LLM.

Creato utilizzando DALL-E 3

Recentemente ho avviato una newsletter educativa centrata sull’IA, che conta già oltre 160.000 abbonati. TheSequence è una newsletter orientata al machine learning senza fronzoli (senza hype, senza notizie, ecc.), che richiede solo 5 minuti per essere letta. L’obiettivo è tenervi aggiornati su progetti di apprendimento automatico, paper di ricerca e concetti. Provate a iscrivervi qui di seguito:

TheSequence | Jesus Rodriguez | Substack

La migliore fonte per rimanere aggiornati sulle novità nell’apprendimento automatico, intelligenza artificiale e dati…

thesequence.substack.com

L’evoluzione della generazione di prompt è uno dei principali fondamenti delle applicazioni basate su LLM. Compiti come il ragionamento o il fine-tuning dipendono molto dalla disponibilità di dataset di prompt di qualità. Tecniche come il few-shot setup hanno significativamente ridotto la necessità di una grande quantità di dati per il fine-tuning dei modelli per compiti specifici. Tuttavia, rimangono sfide quando si tratta di creare prompt campione, specialmente in scenari in cui una vasta gamma di compiti viene coperta da modelli generici. Anche la generazione di un numero modesto di dimostrazioni può essere un compito formidabile. Questo è particolarmente vero per compiti come la sintesi di articoli lunghi o la risposta a domande che richiedono conoscenze specializzate in determinati ambiti, come quella medica.

In tali situazioni, i modelli dotati di una robusta performance zero-shot intervengono in soccorso, eliminando la necessità di generare prompt manualmente. Tuttavia, è importante notare che la performance zero-shot tende ad essere meno potente, in quanto il modello del linguaggio opera senza indicazioni specifiche, lasciando spazio a occasionali risultati errati.

Di recente, Google Research ha introdotto due tecniche che migliorano la promptizzazione adattativa zero-shot nelle LLM. Il primo metodo è conosciuto come “Consistency-Based Self-Adaptive Prompting (COSP)”, descritto in un recente paper di ricerca ACL 2023. COSP affronta il problema della generazione di prompt adatti sfruttando campioni non etichettati e le previsioni del modello stesso, colmando così il divario di performance tra zero-shot e few-shot, preservando nel contempo i vantaggi della promptizzazione zero-shot.

In uno sviluppo parallelo, “Universal Self-Adaptive Prompting (USP)”, come presentato nel prossimo paper EMNLP 2023, estende il concetto a una vasta gamma di compiti di comprensione e generazione del linguaggio naturale, dimostrando la sua efficacia in vari domini.

COSP e USP in dettaglio

L’idea di base sia di COSP che di USP è di utilizzare le uscite zero-shot del modello come dimostrazioni per il prompt stesso. La sfida sta nella selezione di dimostrazioni auto-generate affidabili, poiché dimostrazioni erronee possono essere dannose. Per superare questa sfida, COSP sfrutta l’osservazione che le previsioni coerenti e sicure del modello sono più probabilmente corrette. La misurazione di questa confidenza si basa esclusivamente sulle previsioni del modello e non richiede dati etichettati. Le previsioni ad alta confidenza e i relativi input corrispondenti vengono trattati come pseudo-dimostrazioni.

Sulla base di questa base, la confidenza del modello nel suo output viene valutata mediante una valutazione di auto-coerenza, che funge da misura di correttezza. Per generare una serie di possibili giustificazioni e risposte, il modello viene interrogato più volte con prompt zero-shot usando una “temperatura” como parametro iperbolico per controllare il livello di casualità. Si calcola quindi l’entropia delle risposte per quantificare l’incertezza. Vengono considerate affidabili e selezionate le risposte con alta auto-coerenza e maggiore certezza del modello.

In sintesi, COSP e USP seguono una metodologia simile:

· Inserire domande non etichettate nel modello per ottenere diverse giustificazioni e risposte.

· Evidenziare le risposte più frequenti e misurare la loro coerenza tra diversi output del modello.

· Penalizzare la ripetizione e promuovere la diversità nelle dimostrazioni selezionate.

· Concatenare le pseudodimostrazioni in domande di test e interrogare nuovamente il modello per la risposta finale prevista.

Immagine Credit: Ricerca Google

Mentre COSP si concentra principalmente su compiti di domande e risposte con risposte corrette chiare, USP generalizza l’approccio ad altri compiti di NLP, inclusa la classificazione, la generazione di brevi formulari e la generazione di lunghe forme, adattando di conseguenza le tecniche di misurazione della confidenza. In USP, Google Research estende la sua metodologia a un ampio spettro di compiti di elaborazione del linguaggio naturale:

· Classificazione (CLS): In questa categoria, i problemi riguardano la determinazione della probabilità di ogni classe in base ai logit di output della rete neurale. Google Research utilizza questo approccio per valutare l’incertezza senza la necessità di campionamento multiplo calcolando l’entropia della distribuzione dei logit.

· Generazione di brevi formulari (SFG): I problemi simili a quelli delle domande e risposte beneficiano di una procedura simile a quella utilizzata in COSP, senza la fase di generazione delle razionalizzazioni, se necessario.

· Generazione di lunghe forme (LFG): Compiti come la sintesi e la traduzione spesso coinvolgono domande aperte con output non identici, anche quando il modello è sicuro di sé. In questi casi, Google Research utilizza una metrica di sovrapposizione, calcolando il punteggio ROUGE medio per coppie distinte di output per la stessa query.

Immagine Credit: Ricerca Google

Questi approcci innovativi rappresentano un importante passo avanti nel campo dell’incitamento dell’IA, consentendo ai modelli di incitarli efficacemente e migliorare le loro prestazioni in un’ampia gamma di compiti di linguaggio naturale.

I risultati

Google Research ha valutato COSP e USP su diversi benchmark. Nel caso di Consistency-Based Self-Adaptive Prompting (COSP), Google Research si concentra inizialmente su un set di sei problemi di ragionamento aritmetico e di buon senso. Hanno confrontato COSP con l’approccio 0-shot-CoT, utilizzando la self-consistency su tutti i baselines per garantire un confronto equo delle risorse di calcolo. Su tre diversi grandi modelli linguistici (LLMs), i risultati rivelano in modo inequivocabile che il COSP a zero-shot supera il baselines a zero-shot standard.

Immagine Credit: Ricerca Google

Con Universal Self-Adaptive Prompting (USP), Google Research adotta un approccio più ampio, allargando la portata dell’analisi a oltre 25 compiti di classificazione, generazione di brevi formulari e generazione di lunghe forme. Inoltre, utilizzano modelli PaLM 2 all’avanguardia per affrontare il formidabile insieme di compiti HARD di BIG-Bench, un dominio in cui i LLM hanno avuto precedenti difficoltà nel confronto con le prestazioni umane. In modo sorprendente, in linea con i risultati di COSP, Google Research dimostra che USP supera costantemente i metodi baselines e rimane competitivo confrontato all’incitamento con esempi dorati.

Immagine Credit: Ricerca Google

L’impegno di Google Research nel comprendere i meccanismi di USP è evidente attraverso la loro indagine sulla relazione tra la confidenza e la correttezza. I loro risultati sostengono l’osservazione chiave che USP seleziona prevalentemente previsioni sicure, che tendono a produrre risultati superiori in tutti i tipi di compiti considerati, come illustrato nella figura allegata. Questo rafforza l’efficacia di USP nel migliorare le prestazioni dei modelli linguistici in diversi compiti di comprensione e generazione del linguaggio naturale.

Immagine Credit: Ricerca Google

Sia COSP che USP esplorano importanti aree di generazione di incitamenti per migliorare il ragionamento di buon senso nei LLM.