Comprensione dinamica del linguaggio adattamento a nuove conoscenze nei modelli parametrici e semi-parametrici

Dynamic language understanding adapting to new knowledge in parametric and semi-parametric models.

Molteplici successi recenti nei modelli di linguaggio (LM) sono stati ottenuti all’interno di un “paradigma statico”, in cui l’attenzione è posta sul miglioramento delle prestazioni sui benchmark creati senza considerare l’aspetto temporale dei dati. Ad esempio, rispondendo a domande su eventi che il modello potrebbe apprendere durante l’addestramento, o valutando su testo sottocampionato dallo stesso periodo dei dati di addestramento. Tuttavia, il nostro linguaggio e la nostra conoscenza sono dinamici ed in continua evoluzione. Pertanto, per consentire una valutazione più realistica dei modelli di domanda-risposta per il prossimo salto in termini di prestazioni, è essenziale garantire che siano flessibili e robusti quando si incontrano dati nuovi e non visti.

Figura 1. Valutiamo i nostri modelli su linguaggio e conoscenza non visti, qui utilizzando domande sugli eventi del 2020, mentre il modello è stato addestrato su dati fino alla fine del 2019.

Nel 2021, abbiamo pubblicato “Mind the Gap: Assessing Temporal Generalization in Neural Language Models” e i benchmark di modellazione del linguaggio dinamico per WMT e arXiv per facilitare la valutazione dei modelli di linguaggio che tengono conto delle dinamiche temporali. In questo articolo, abbiamo evidenziato i problemi che affrontano i modelli di grandi LMs all’avanguardia per quanto riguarda la generalizzazione temporale e abbiamo scoperto che i token ricchi di conoscenza subiscono una notevole perdita di prestazioni.

Oggi, pubblichiamo due articoli e un nuovo benchmark che fanno ulteriori progressi nella ricerca su questo argomento. In “StreamingQA: A Benchmark for Adaptation to New Knowledge over Time in Question Answering Models”, studiamo il compito successivo di domanda-risposta sul nostro nuovo benchmark proposto, StreamingQA: vogliamo capire come i modelli di domanda-risposta parametrici e basati su recupero si adattano alle nuove informazioni, al fine di rispondere a domande su nuovi eventi. In “Internet-augmented language models through few-shot prompting for open-domain question answering”, esploriamo il potere di combinare un ampio modello di linguaggio condizionato da poche istanze insieme a Google Search come componente di recupero. In questo modo, miriamo a migliorare la veridicità del modello, garantendo nel contempo l’accesso a informazioni aggiornate per rispondere a un insieme diversificato di domande.

StreamingQA: A Benchmark for Adaptation to New Knowledge over Time in Question Answering Models

La conoscenza e la comprensione del linguaggio dei modelli valutate attraverso la domanda-risposta (QA) sono state comunemente studiate su istantanee statiche della conoscenza, come Wikipedia. Per studiare come i modelli di QA semi-parametrici e i loro LM parametrici sottostanti si adattano alla conoscenza in evoluzione, abbiamo costruito il nuovo benchmark su larga scala, StreamingQA, con domande scritte da umani e generate automaticamente poste in una data specifica, da rispondere utilizzando articoli di notizie con timestamp di 14 anni (vedi Figura 2). Mostriamo che i modelli parametrici possono essere aggiornati senza doverli addestrare nuovamente, evitando il cosiddetto “oblio catastrofico”. Per i modelli semi-parametrici, l’aggiunta di nuovi articoli nello spazio di ricerca consente un rapido adattamento. Tuttavia, i modelli con un LM sottostante non aggiornato hanno prestazioni inferiori rispetto a quelli con un LM riformato.

Figura 2. Esempi di domande dal benchmark StreamingQA.

Internet-augmented language models through few-shot prompting for open-domain question-answering

Stiamo cercando di sfruttare le uniche capacità di few-shot offerte dai modelli di linguaggio su larga scala per superare alcune delle loro sfide, riguardo all’ancoraggio a informazioni fattuali e aggiornate. Motivati dai LMs semi-parametrici, che basano le loro decisioni su evidenze recuperate esternamente, utilizziamo il few-shot prompting per imparare a condizionare gli LMs sulle informazioni restituite dal web utilizzando Google Search, una fonte di conoscenza ampia e costantemente aggiornata. Il nostro approccio non prevede il fine-tuning o l’apprendimento di parametri aggiuntivi, rendendolo quindi applicabile a praticamente qualsiasi modello di linguaggio. E, infatti, scopriamo che gli LMs condizionati sul web superano le prestazioni dei modelli a libro chiuso di dimensioni simili, o addirittura maggiori, nella domanda-risposta a dominio aperto.