Recupero della conoscenza assume il ruolo centrale

Il recupero della conoscenza assume un ruolo centrale

Credit immagine: Adobe Stock.

Architettura GenAI: verso modelli generativi con orientamento interpretativo e di recupero centrale

Per passare da un utilizzo consumer a uno aziendale per GenAI, le soluzioni dovrebbero essere costruite principalmente attorno a informazioni esterne al modello utilizzando la generazione centrata sul recupero (RCG).

Mentre l’intelligenza artificiale generativa (GenAI) inizia a essere utilizzata in diverse industrie per una vasta gamma di utilizzi aziendali, le aziende necessitano di modelli che offrano efficienza, accuratezza, sicurezza e tracciabilità. L’architettura originale dei modelli simili a ChatGPT ha dimostrato una lacuna importante nel soddisfare questi requisiti chiave. Nei primi modelli di GenAI, il recupero è stato utilizzato come un’aggiunta per affrontare le lacune dei modelli che si basano su informazioni memorizzate nella memoria parametrica. I modelli attuali hanno fatto notevoli progressi su questa problematica, arricchendo le piattaforme di soluzioni con un front-end di generazione potenziata dal recupero (RAG) per consentire l’estrazione di informazioni esterne al modello. Forse è ora di riconsiderare ulteriormente l’architettura dell’intelligenza artificiale generativa e spostarsi da sistemi RAG in cui il recupero è un complemento a modelli di generazione centrati sul recupero (RCG) costruiti attorno al recupero stesso come accesso principale alle informazioni.

I modelli di generazione centrati sul recupero possono essere definiti come soluzioni di intelligenza artificiale generativa progettate per sistemi in cui la maggior parte dei dati risiede al di fuori della memoria parametrica del modello e per lo più non viene vista durante il pre-addestramento o il raffinamento. Con il RCG, il ruolo principale del modello GenAI è interpretare ricche informazioni recuperate dal corpus di dati indicizzati di un’azienda o da altri contenuti curati. Piuttosto che memorizzare i dati, il modello si concentra sul raffinamento per costrutti, relazioni e funzionalità mirate. Si prevede che la qualità dei dati nell’output generato si avvicini all’accuratezza e alla tempestività del 100%. La capacità di interpretare correttamente e utilizzare grandi quantità di dati non visti durante il pre-addestramento richiede un aumento dell’astrazione del modello e l’uso degli schemi come capacità cognitiva chiave per identificare modelli e relazioni complesse nelle informazioni. Questi nuovi requisiti di recupero, uniti all’apprendimento automatico degli schemi, porteranno ad ulteriori evoluzioni nel pre-addestramento e nel raffinamento dei grandi modelli di linguaggio (LLMs).

Figura 1. Vantaggi e sfide della generazione centrata sul recupero (RCG) rispetto alla generazione potenziata dal recupero (RAG). Credit immagine: Intel Labs.

La riduzione sostanziale dell’uso di dati memorizzati nella memoria parametrica nei modelli GenAI e il ricorso a fonti indicizzate verificabili migliorerà la provenienza e avrà un ruolo importante nel miglioramento dell’accuratezza e delle prestazioni. L’assunto prevalente nelle architetture GenAI fino ad ora è stato che più dati nel modello sia meglio. In base a questa struttura attualmente predominante, ci si aspetta che la maggior parte dei token e dei concetti sia stata assimilata e mappata in modo da consentire ai modelli di generare risposte migliori a partire dalla memoria parametrica. Tuttavia, nello scenario aziendale comune, ci si aspetta che la grande maggioranza dei dati utilizzati per l’output generato provenga da input recuperati. Stiamo ora osservando che avere più dati nel modello mentre si fa affidamento sulla conoscenza recuperata causa conflitti di informazioni o l’inclusione di dati che non possono essere tracciati o verificati con la loro origine. Come ho descritto nel mio ultimo blog, Survival of the Fittest, modelli mirati, agili, progettati per utilizzare il RCG, non hanno bisogno di memorizzare tanti dati nella memoria parametrica.

In contesti aziendali in cui i dati provengono principalmente dal recupero, il sistema mirato deve eccellere nell’interpretazione di informazioni rilevanti non viste per soddisfare le esigenze dell’azienda. Inoltre, la diffusione di database di vettori di grandi dimensioni e un aumento delle dimensioni della finestra di contesto (ad esempio, OpenAI ha recentemente aumentato la finestra di contesto in GPT-4 Turbo da 32.000 a 128.000) stanno spingendo i modelli verso il ragionamento e l’interpretazione di dati complessi non visti. I modelli ora richiedono l’intelligenza per trasformare dati ampi in conoscenza efficace utilizzando una combinazione di recupero sofisticato e raffinamento. Man mano che i modelli diventano orientati al recupero, le competenze cognitive per la creazione e l’utilizzo degli schemi assumeranno un ruolo centrale.

Utilizzo di GenAI da parte dei consumatori rispetto all’uso aziendale

Dopo un decennio di rapida crescita della dimensione e complessità dei modelli di intelligenza artificiale, il 2023 segna un cambiamento di focus verso l’efficienza e l’applicazione mirata dell’IA generativa. La transizione da un focus sui consumatori all’uso aziendale è uno dei fattori chiave che guidano questo cambiamento su tre livelli: qualità dei dati, fonte dei dati e utilizzi mirati.

Qualità dei dati: Quando si generano contenuti e analisi per le aziende, il 95% di precisione non è sufficiente. Le aziende hanno bisogno di precisione quasi completa o completa. Per garantire la qualità dell’output sono necessari sia il miglioramento della prestazione per specifiche attività sia il controllo della qualità dei dati utilizzati. Inoltre, i dati devono essere tracciabili e verificabili. La provenienza dei dati è importante e il recupero è fondamentale per determinare la fonte dei contenuti.

Fonte dei dati: La grande maggioranza dei dati nelle applicazioni aziendali è prevista che sia selezionata da fonti esterne affidabili, nonché dai dati aziendali/aziendali proprietari, inclusi informazioni su prodotti, risorse, clienti, catena di approvvigionamento, operazioni interne e altro ancora. Il recupero è fondamentale per accedere all’insieme più recente ed esteso di dati proprietari non preaddestrati nel modello. I modelli, grandi o piccoli, possono avere problemi di provenienza quando utilizzano dati dalla propria memoria interna rispetto a dati verificabili e tracciabili estratti da fonti aziendali. Se i dati sono in conflitto, ciò può confondere il modello.

Utilizzi mirati: I costrutti e le funzioni dei modelli aziendali tendono ad essere specializzati su un insieme di utilizzi e tipi di dati. Quando la funzionalità di GenAI viene implementata in un flusso di lavoro specifico o in un’applicazione aziendale, è improbabile che richieda una funzionalità “tutto in uno”. E poiché i dati provengono principalmente dal recupero, il sistema mirato deve eccellere nell’interpretare informazioni rilevanti non viste dal modello in modi particolari richiesti dall’azienda.

Ad esempio, se un’azienda finanziaria o sanitaria intende utilizzare un modello GenAI per migliorare i propri servizi, si concentrerà su una serie di funzioni necessarie per l’uso previsto. Hanno l’opzione di preaddestrare un modello da zero e cercare di includere tutte le loro informazioni proprietarie. Tuttavia, tale sforzo è probabile che sia costoso, richieda una forte competenza e sia incline a rimanere indietro rapidamente man mano che la tecnologia evolve e i dati aziendali cambiano continuamente. Inoltre, dovranno comunque fare affidamento sul recupero per accedere alle informazioni concrete più recenti. Un percorso più efficace è prendere un modello di base preaddestrato esistente (come il Meta’s Llama 2) e personalizzarlo tramite il perfezionamento e l’indicizzazione per il recupero. Il perfezionamento utilizza solo una piccola parte delle informazioni e delle attività per affinare il comportamento del modello, ma le informazioni aziendali proprietarie estese possono essere indicizzate e rese disponibili per il recupero quando necessario. Man mano che il modello di base viene aggiornato con la più recente tecnologia GenAI, l’aggiornamento del modello di destinazione dovrebbe essere un processo relativamente semplice che comporta il ripetere del flusso di perfezionamento.

Passaggio a una generazione incentrata sul recupero: Progettazione attorno all’estrazione di informazioni indicizzate

Meta AI e i collaboratori universitari hanno introdotto nel 2021 la generazione assistita dal recupero per affrontare le questioni di provenienza e aggiornamento delle conoscenze mondiali nei LLM (Large Language Models). I ricercatori hanno utilizzato RAG come approccio generale per aggiungere una memoria non parametrica ai modelli di generazione con memoria parametrica preaddestrati. La memoria non parametrica utilizzava un indice di vettori densi di Wikipedia accessibile da un recupero preaddestrato. In un modello compatto con meno dati memorizzati, vi è un forte enfasi sulla completezza e qualità dei dati indicizzati a cui il database di vettori fa riferimento, poiché il modello non può fare affidamento su informazioni memorizzate per le esigenze aziendali. Sia RAG che RCG possono utilizzare lo stesso approccio di recupero estrarre conoscenze rilevanti da corpora curati al volo durante il tempo di inferenza (vedi Figura 2). Differiscono nel modo in cui il sistema GenAI posiziona le informazioni e nelle aspettative di interpretazione dei dati precedentemente non visti. Con RAG, il modello stesso è una fonte importante di informazioni ed è aiutato dai dati recuperati. In contrasto, con RCG, la grande maggioranza dei dati risiede al di fuori della memoria parametrica del modello, rendendo l’interpretazione dei dati non visti il ruolo principale del modello.

Vale la pena notare che molte soluzioni RAG attuali si basano su flussi come LangChain o Haystack per concatenare un recupero front-end con uno store di vettori indipendente a un modello GenAI che non è stato preaddestrato con il recupero. Queste soluzioni forniscono un ambiente per l’indicizzazione delle fonti di dati, la scelta del modello e la formazione del comportamento del modello. Altre approcci, come REALM di Google Research, sperimentano l’addestramento end-to-end con il recupero integrato. Attualmente, OpenAI sta ottimizzando il suo percorso per il recupero di GenAI anziché lasciare che sia l’ecosistema a creare il flusso per ChatGPT. L’azienda ha recentemente rilasciato l’Assistants API, che recupera dati proprietari di dominio, informazioni sui prodotti o documenti degli utenti esterni al modello.

Figura 2. Sia RCG che RAG recuperano dati pubblici e privati durante l'inferenza, ma differiscono nel modo in cui posizionano e interpretano i dati non visti. Credito immagine: Intel Labs.

In altri esempi, modelli di recupero veloci come fastRAG di Intel Labs utilizzano modelli di fondazione preaddestrati per estrarre informazioni richieste da una base di conoscenza senza alcuna ulteriore formazione, fornendo una soluzione più sostenibile. Costruito come un’estensione del framework open-source Haystack GenAI, fastRAG utilizza un modello di recupero per generare risposte di conversazione recuperando documenti attuali da una base di conoscenza esterna. Inoltre, un team di ricercatori di Meta ha recentemente pubblicato un articolo in cui introduce Retrieval-Augmented Dual Instruction Tuning (RA-DIT), “una metodologia di fine-tuning leggera che fornisce una terza opzione tramite l’adattamento di qualsiasi grande modello di linguaggio con capacità di recupero”.

Il passaggio da modelli RAG a modelli di tipo RCG mette in discussione il ruolo delle informazioni nella formazione. Invece di essere sia lo spazio di memorizzazione delle informazioni che l’interprete delle informazioni in risposta a un prompt, con RCG la funzionalità del modello si sposta principalmente verso l’interpretazione in contesto delle informazioni recuperate (di solito curate dal mondo degli affari). Questo potrebbe richiedere un approccio modificato alla fase di pre-training e fine-tuning, poiché gli obiettivi attualmente utilizzati per addestrare i modelli di linguaggio potrebbero non essere adatti a questo tipo di apprendimento. RCG richiede al modello diverse capacità come contesto più lungo, interpretazione dei dati, curatela dei dati e altre nuove sfide.

Ci sono ancora pochi esempi di sistemi di tipo RCG nell’ambito accademico o industriale. In un caso, i ricercatori di Kioxia Corporation hanno creato il programma open-source SimplyRetrieve, che utilizza un’architettura RCG per migliorare le prestazioni dei LLM separando l’interpretazione del contesto e la memorizzazione delle conoscenze. Implementato su un modello di tipo Wizard-Vicuna-13B, i ricercatori hanno scoperto che RCG ha dato una risposta accurata a una query sulla posizione della fabbrica di un’organizzazione. Al contrario, RAG ha cercato di integrare la base di conoscenza recuperata con la conoscenza del’organizzazione del modello Wizard-Vicuna. Questo ha portato a informazioni parzialmente errate o a illusioni. Questo è solo un esempio – RAG e la generazione senza recupero (ROG) potrebbero offrire risposte corrette in altre situazioni.

Figura 3. Confronto tra la generazione centrata sul recupero (RCG), la generazione potenziata dal recupero (RAG) e la generazione senza recupero (ROG). Le risposte corrette sono mostrate in blu, mentre le illusioni sono mostrate in rosso. Credito immagine: Kioxia Corporation.

In un certo senso, il passaggio da RAG a RCG può essere paragonato alla differenza nella programmazione nell’utilizzo di costanti (RAG) e variabili (RCG). Quando un modello di intelligenza artificiale risponde a una domanda su una Ford Mustang cabriolet, un modello grande sarà familiare con molti dei dettagli correlati dell’auto, come l’anno di introduzione e le specifiche del motore. Il grande modello può aggiungere anche alcune informazioni recuperate di recente, ma risponderà principalmente in base ai termini noti o costanti interni specifici. Tuttavia, quando un modello viene utilizzato da un’azienda di veicoli elettrici in preparazione al lancio del prossimo modello, il modello richiede deduzione e interpretazione complessa poiché la maggior parte dei dati sarà sconosciuta. Il modello dovrà capire come utilizzare il tipo di informazioni, come i valori delle variabili, per dare un senso ai dati.

Schema: Generalizzazione e Astrazione come Competenze Durante l’Inferenza

Gran parte delle informazioni recuperate in contesti aziendali (organizzazione aziendale e persone, prodotti e servizi, processi interni e risorse) potrebbero non essere state viste dal corrispondente modello GenAI durante la fase di pre-training e probabilmente vengono appena campionate durante il fine-tuning. Ciò implica che l’architettura del trasformatore non sta inserendo parole o termini “noti” (cioè precedente assorbiti dal modello) come parte del suo output generato. Invece, l’architettura deve inserire termini non visti all’interno di un’adeguata interpretazione contestuale. Questo è in qualche modo simile a come l’apprendimento contestuale consente già alcune nuove capacità di ragionamento nei LLM senza addestramento aggiuntivo.

Con questo cambiamento, diventa necessario ottenere ulteriori miglioramenti nella generalizzazione e nell’astrazione. Una competenza chiave che deve essere potenziata è la capacità di utilizzare schemi appresi quando si interpretano e si utilizzano termini o token non visti durante il processo inferenziale tramite prompt. Uno schema in ambito delle scienze cognitive “descrive un modello di pensiero o comportamento che organizza categorie di informazioni e le relazioni tra di loro”. Uno schema mentale “può essere descritto come una struttura mentale, una struttura che rappresenta un aspetto del mondo”. Allo stesso modo, nei modelli GenAI, lo schema è un meccanismo di astrazione essenziale necessario per l’interpretazione corretta di token, termini e dati non visti. I modelli di oggi già mostrano una buona comprensione della costruzione e interpretazione degli schemi emergenti, altrimenti non sarebbero in grado di svolgere compiti generativi su complessi dati di contesto del prompt non visti così come fanno. Poiché il modello recupera informazioni precedentemente non viste, deve identificare lo schema migliore corrispondente per i dati. Ciò consente al modello di interpretare i dati non visti attraverso la conoscenza relativa allo schema, non solo le informazioni esplicite incorporate nel contesto. È importante notare che in questa discussione mi riferisco a modelli di reti neurali che apprendono e astraggono lo schema come una capacità emergente, piuttosto che alla classe di soluzioni che si basano su uno schema esplicito rappresentato in un grafo di conoscenza e consultato durante il processo di inferenza.

Osservando le tre tipologie di capacità del modello (competenze cognitive, abilità funzionali e accesso alle informazioni), l’astrazione e l’utilizzo dello schema appartengono in modo diretto alla categoria delle competenze cognitive. In particolare, i modelli di dimensioni ridotte dovrebbero essere in grado di ottenere risultati comparabili a quelli di modelli molto più grandi (se dispongono dei dati appropriati recuperati) se affinano la capacità di costruire e utilizzare gli schemi nell’interpretazione dei dati. È ragionevole aspettarsi che la formazione pre-ordinata basata su programmi di studio relativi agli schemi stimoli le competenze cognitive nei modelli. Ciò include la capacità dei modelli di costruire una varietà di schemi, identificare gli schemi appropriati da utilizzare in base al processo generativo e inserire/utilizzare le informazioni con la costruzione dello schema per ottenere il miglior risultato.

Ad esempio, i ricercatori hanno mostrato come gli attuali LLM possono apprendere schemi di base utilizzando il framework Hypotheses-to-Theories (HtT). I ricercatori hanno scoperto che un LLM può essere utilizzato per generare regole che poi segue per risolvere problemi di ragionamento numerico e relazionale. Le regole scoperte da GPT-4 potrebbero essere considerate uno schema dettagliato per comprendere le relazioni familiari (vedi Figura 4). I futuri schemi delle relazioni familiari potrebbero essere ancora più concisi e potenti.

Figura 4. Utilizzando il dataset CLUTRR per il ragionamento relazionale, il framework Hypotheses-to-Theories stimola GPT-4 a generare regole simili a uno schema per il LLM da seguire nel rispondere alle domande di test. Credito immagine: Zhu et al.

Applicando questo concetto a un semplice caso aziendale, un modello GenAI potrebbe utilizzare uno schema per comprendere la struttura della catena di approvvigionamento di un’azienda. Ad esempio, sapendo che “B è un fornitore di A” e “C è un fornitore di B” implica che “C è un fornitore di secondo livello di A” sia importante quando si analizzano documenti per potenziali rischi nella catena di approvvigionamento.

In un caso più complesso come quello di insegnare a un modello GenAI le varianti e le sfumature della documentazione di una visita di un paziente a un professionista sanitario, uno schema emergente stabilito durante la pre-formazione o l’aggiustamento fine fornirebbe una struttura per comprendere le informazioni recuperate per generare rapporti o supportare domande e risposte del team sanitario. Lo schema potrebbe emergere nel modello all’interno di una formazione / aggiustamento fine più ampia su casi di assistenza ai pazienti, che includono appuntamenti così come altri elementi complessi come test e procedure. Con l’esposizione del modello GenAI a tutti gli esempi, dovrebbe creare l’esperienza per interpretare i dati parziali del paziente che verranno forniti durante l’inferenza. La comprensione del modello del processo, delle relazioni e delle variazioni gli consentirà di interpretare correttamente casi di pazienti mai visti in precedenza senza richiedere le informazioni del processo nella richiesta. Al contrario, non dovrebbe cercare di memorizzare informazioni particolari sui pazienti di cui è stato esposto durante la pre-formazione o l’aggiustamento fine. Tale memorizzazione sarebbe controproducente perché le informazioni dei pazienti cambiano continuamente. Il modello deve imparare le costruzioni anziché i casi particolari. Tale impostazione ridurrebbe anche le eventuali preoccupazioni sulla privacy.

Riassunto

Con l’implementazione su larga scala di GenAI nelle aziende di tutti i settori, c’è un chiaro passaggio alla dipendenza da informazioni proprietarie di alta qualità, nonché requisiti di tracciabilità e verificabilità. Questi requisiti chiave, insieme alla pressione sull’efficienza dei costi e all’applicazione focalizzata, stanno guidando la necessità di modelli GenAI piccoli e mirati progettati per interpretare dati locali, per lo più non visti durante il processo di pre-formazione. I sistemi incentrati sulla ricerca richiedono l’aumento di alcune competenze cognitive che possono essere padroneggiate dai modelli GenAI di apprendimento profondo, come la costruzione e l’identificazione degli schemi appropriati da utilizzare. Utilizzando RCG e guidando il processo di pre-formazione e di aggiustamento fine per creare generalizzazioni e astrazioni che riflettano le costruzioni cognitive, GenAI può fare un salto nella sua capacità di comprendere gli schemi e dare un senso ai dati non visti dalla ricerca. L’astrazione raffinata (come il ragionamento basato sugli schemi) e le competenze cognitive altamente efficienti sembrano essere l’avanguardia successiva.

Per saperne di più: Serie GenAI

Survival of the Fittest: Modelli IA generativi compatti sono il futuro per l’IA su larga scala a costo-effettivo

Riferimenti

  1. Gillis, A. S. (2023, 5 ottobre). retrieval-augmented generation. Enterprise AI. https://www.techtarget.com/searchenterpriseai/definition/retrieval-augmented-generation
  2. Singer, G. (2023, 28 luglio). Survival of the fittest: Compact generative AI models are the future for Cost-Effective AI at scale. VoAGI. https://towardsdatascience.com/survival-of-the-fittest-compact-generative-ai-models-are-the-future-for-cost-effective-ai-at-scale-6bbdc138f618
  3. New models and developer products announced at DevDay. (n.d.). https://openai.com/blog/new-models-and-developer-products-announced-at-devday
  4. Meta AI. (n.d.). Introducing Llama 2. https://ai.meta.com/llama/
  5. Lewis, P. (2020, 22 maggio). Retrieval-Augmented Generation for Knowledge-Intensive NLP tasks. arXiv.org. https://arxiv.org/abs/2005.11401
  6. LangChain. (n.d.). https://www.langchain.com
  7. Haystack. (n.d.). Haystack. https://haystack.deepset.ai/
  8. Guu, K. (2020, 10 febbraio). REALM: Retrieval-Augmented Language Model Pre-Training. arXiv.org. https://arxiv.org/abs/2002.08909
  9. Intel Labs. (n.d.). GitHub – Intel Labs/FastRAG: Efficient Retrieval Augmentation and Generation Framework. GitHub. https://github.com/IntelLabs/fastRAG
  10. Fleischer, D. (2023, 20 agosto). Open Domain Q&A usando Retrievers Densi in fastRAG – Daniel Fleischer – VoAGI. https://medium.com/@daniel.fleischer/open-domain-q-a-using-dense-retrievers-in-fastrag-65f60e7e9d1e
  11. Lin, X. V. (2023, 2 ottobre). RA-DIT: Retrieval-Augmented Dual Instruction Tuning. arXiv.org. https://arxiv.org/abs/2310.01352
  12. Ng, Y. (2023, 8 agosto). SimplyRetrieve: uno strumento di IA generativa privato e leggero. arXiv.org. https://arxiv.org/abs/2308.03983
  13. Wikipedia contributors. (2023, 27 settembre). Schema (psicologia). Wikipedia. https://en.wikipedia.org/wiki/Schema_(psychology)
  14. Wikipedia contributors. (2023a, 31 agosto). Modello mentale. Wikipedia. https://en.wikipedia.org/wiki/Mental_schema
  15. Zhu, Z. (2023, 10 ottobre). Le Large Language Models possono imparare le regole. arXiv.org. https://arxiv.org/abs/2310.07064