Cosa sono i Large Language Models (LLM)? Applicazioni e Tipi di LLM.

Large Language Models (LLM) sono modelli di linguaggio di grandi dimensioni. Essi sono utilizzati per diverse applicazioni nel campo dell'intelligenza artificiale e del trattamento del linguaggio naturale. I LLM sono in grado di generare testi coerenti e comprensibili, e possono essere utilizzati per la traduzione automatica, la generazione di contenuti, l'elaborazione del linguaggio naturale e molte altre applicazioni. Ci sono diversi tipi di LLM, come GPT-3, BERT e Transformer, ognuno con le proprie caratteristiche e capacità.

I programmi informatici chiamati modelli di linguaggio di grandi dimensioni forniscono al software opzioni innovative per analizzare e creare testi. Non è raro che i modelli di linguaggio di grandi dimensioni vengano allenati utilizzando petabyte o più di dati di testo, rendendoli di dimensioni nell’ordine dei terabyte. I parametri di un modello sono i componenti appresi dai dati di allenamento precedenti e, in sostanza, stabiliscono l’efficienza del modello su un determinato compito, come la generazione di testo. Le attività di elaborazione del linguaggio naturale (NLP), compresa la trascrizione vocale, l’analisi del sentimento, la sintesi del testo, il controllo ortografico, la categorizzazione dei token, ecc., si basano sui modelli di linguaggio come fondamento. I modelli di linguaggio possono analizzare un testo e prevedere la probabilità del token successivo nella maggior parte dei compiti di elaborazione del linguaggio naturale. Unigrammi, N-grammi, reti esponenziali e neurali sono forme valide per il modello di linguaggio.

Applicazioni dei modelli di linguaggio di grandi dimensioni (LLM)

Il grafico di seguito riassume lo stato attuale del panorama dei modelli di linguaggio di grandi dimensioni (LLM) in termini di funzionalità, prodotti e software di supporto.

Fonte immagine: https://cobusgreyling.medium.com/the-large-language-model-landscape-9da7ee17710b
  • Generazione di comandi shell

Warp, un terminale di nuova generazione, utilizza GPT-3 per trasformare il linguaggio naturale in istruzioni shell eseguibili “come GitHub Copilot, ma per il terminale”.

Anche per i programmatori esperti, la sintassi dei comandi shell potrebbe richiedere spiegazioni.

  • Generazione di espressioni regolari

La generazione di espressioni regolari è un’operazione che richiede tempo per gli sviluppatori; tuttavia, Autoregex.xyz sfrutta GPT-3 per automatizzare il processo.

  • Copywriting

Il modello più popolare per questo compito è GPT-3; tuttavia, ci sono alternative open source come BLOOM (di BigScience) e GPT-J di Eleuther AI. Copy ai, Copysmith, Contenda, Cohere e Jasper ai sono alcune delle startup che sviluppano app in questo campo; i loro strumenti semplificano la scrittura di articoli di blog, contenuti di vendita, annunci digitali e copy di siti web in modo rapido.

  • Classificazione

La classificazione del testo in categorie predefinite è un esempio di apprendimento supervisionato. Il testo con significati simili può essere raggruppato insieme senza l’uso di classi predefinite mediante l’utilizzo del clustering, una tecnica di apprendimento non supervisionato.

  • Generazione di risposte

La generazione di risposte è l’idea di produrre un flusso di dialogo utilizzando conversazioni campione e un approccio di apprendimento automatico. Fino a che punto la prossima discussione presentata all’utente è determinata da un modello, tenendo conto delle risposte precedenti dell’utente e della conversazione futura più probabile, questo viene chiamato dialogo predittivo.

  • Generazione di testo

La capacità dei modelli di linguaggio di grandi dimensioni di produrre testi da una breve descrizione con o senza dati di esempio potrebbe essere considerata la loro “meta capacità”.

Quasi tutti i modelli di linguaggio di grandi dimensioni svolgono il ruolo della generazione. I dati di apprendimento a poche istanze non solo aumentano significativamente la generazione, ma anche la rappresentazione dei dati influisce su come quei dati vengono utilizzati.

  • Risposta a domande sulle conoscenze

La risposta a domande sulle conoscenze è un’applicazione dell’elaborazione del linguaggio naturale basata su conoscenze intensive (KI-NLP), che consente di rispondere a domande generiche e cross-domain senza la necessità di interrogare un’interfaccia di programmazione dell’applicazione (API) o fare affidamento su un deposito di conoscenza convenzionale.

L’elaborazione del linguaggio naturale basata su conoscenze intensive non è una ricerca sul web ma una ricerca semantica supportata da una base di conoscenza.

  • Generazione di frontend/siti web

Pygma viene utilizzato per convertire i mockup di Figma in codice pronto per la produzione. L’obiettivo finale dell’iniziativa CodeGen di Salesforce è facilitare la progettazione e la generazione di siti web conversazionali.

  • Generazione di SQL

Cogram è un traduttore del linguaggio di interrogazione dei database che elimina la necessità che gli utenti siano esperti di SQL per accedere ai dati e ottenere informazioni aziendali.

  • Revisione automatica del codice e miglioramento della qualità del codice

Codiga fornisce revisioni automatiche del codice e Mutable AI ha industrializzato i notebook Jupyter.

  • Optimizzazione delle query del database e assistenza/automazione DevOps

Gli errori del database, come cache mancanti e indici mancanti, possono causare varie difficoltà, che Ottertune può aiutarti a diagnosticare e correggere.

  • Generazione di codice e completamento automatico

Codex (che alimenta Copilot) è l’approccio più generale; tuttavia, esiste un’alternativa open-source in CodeGen di Salesforce. Il panorama delle startup nello sviluppo software include aziende come Tabnine, Codiga e Mutable AI.

  • Raccomandazioni personalizzate

Riguardo alla piattaforma di e-commerce di Naver, HyperCLOVA fa molto di più che alimentare la ricerca. Consente anche funzionalità come “riassumere le recensioni dei consumatori in una sola riga”, “raccomandare e curare prodotti secondo le preferenze di acquisto dell’utente” e “generare frasi di marketing per collezioni di acquisti in primo piano”.

Shaped AI fornisce anche algoritmi di classifica per feed, raccomandazioni e siti di scoperta.

  • Generazione di documentazione dei requisiti del prodotto (PRD)

Monterey sta lavorando a un “copilota per lo sviluppo del prodotto” che potrebbe includere LLM.

  • Insight sui prodotti

Questi quattro strumenti – Viable, Interpret, Cohere e Anecdote – aiutano a trasformare i feedback degli utenti in informazioni utili per il miglioramento del prodotto.

  • Ricerca aziendale

Attraverso GPT-3, Glean, Hebbia e Algolia, è possibile cercare dati di testo o app SaaS per aiutare gli utenti (interni o esterni) a trovare ciò che stanno cercando. Le note interne sul tuo posto di lavoro sono anche organizzate automaticamente da Mem.

  • Traduzione

Meta ha condotto studi per migliorare la qualità della traduzione per 204 lingue diverse, il doppio del numero di lingue mai tradotte contemporaneamente.

  • Tutoraggio personalizzato

Korbit integra i corsi online di massa, mentre Replit aiuta nella comprensione del codice informatico.

  • Assistente chatbot/assistente di supporto

Strumenti come LaMDA, Rasa, Cohere, Forethought e Cresta possono essere utilizzati per alimentare chatbot o migliorare la produttività del personale del servizio clienti.

  • Assistente generale per strumenti software

L’obiettivo a lungo termine di Adept AI è diventare un copilota/assistente universale, in grado di consigliare passaggi di lavoro per qualsiasi programma.

  • Correzione grammaticale e di stile

Gli aiuti intelligenti per la scrittura possono essere trovati su siti come Duolingo, Writer.com e Grammarly.

  • Processo decisionale personale

Con l’aiuto di Oogway, le persone possono organizzare meglio le proprie opzioni e prendere decisioni informate.

Tipi di LLM

Modelli di linguaggio estesi

Non è raro che i modelli di linguaggio estesi siano addestrati utilizzando petabyte o più di dati di testo, rendendoli di dimensioni di decine di terabyte. Sono tra i modelli più grandi in termini di numero di valori indipendenti che il modello può regolare durante l’apprendimento. I parametri di un modello sono i componenti appresi dai dati di addestramento precedenti e, in sostanza, stabiliscono l’efficienza del modello in un compito, come la generazione di testo. Gli ultimi anni hanno mostrato una crescita drammatica della popolarità dei grandi modelli di linguaggio a causa della ricerca su strutture sempre più complesse.

Diverse nuove aziende, come Cohere e AI21 Labs, forniscono API per l’accesso a modelli simili a GPT-3. Al contrario, altre aziende, inclusi giganti di internet come Google, hanno scelto di tenere segreti i loro elaborati modelli di linguaggio.

Modelli di linguaggio ottimizzati

Rispetto ai concorrenti più ingombranti dei modelli di linguaggio, i modelli ottimizzati tendono ad essere più compatti. L’ottimizzazione può migliorare le prestazioni di un modello, che si tratti di rispondere a domande o di generare sequenze proteiche. Tuttavia, può anche migliorare la conoscenza di un modello in un campo specifico, come la scienza medica.

Grazie alla loro origine in modelli di linguaggio preesistenti, i modelli ottimizzati richiedono molto meno tempo e potenza di calcolo per essere addestrati ed eseguiti. Molti campi hanno utilizzato l’ottimizzazione, ma InstructGPT di OpenAI è un esempio particolarmente impressionante e aggiornato.

Modelli di linguaggio edge

Le varianti di Edge, progettate per essere compatte, potrebbero assumere la forma di versioni raffinate degli originali. Spesso vengono addestrate fin dall’inizio su dati estremamente limitati per conformarsi a determinate restrizioni hardware. Quando un modello può essere eseguito localmente sul dispositivo di bordo, si evita il costo dell’utilizzo del cloud. I costi dei modelli basati su cloud popolari possono salire a migliaia di dollari per compiti come l’analisi di milioni di tweet. Poiché i modelli di bordo non inviano dati al cloud per l’elaborazione, dovrebbero essere più privati rispetto ai loro equivalenti dipendenti da Internet.

I migliori modelli di linguaggio open source 

  • GPT-Neo, GPT-J e GPT-NeoX

Modelli di intelligenza artificiale estremamente potenti, come GPT-Neo, GPT-J e GPT-NeoX, possono essere utilizzati per problemi di apprendimento a pochi esempi. L’apprendimento a pochi esempi è simile all’addestramento e alla messa a punto di qualsiasi modello di apprendimento profondo, ma richiede meno campioni. Rispetto ad altri modelli GPT open source disponibili pubblicamente, GPT-NeoX, principalmente costruito su Megatron-LM e DeepSeed, rappresenta un significativo avanzamento. È stato costruito utilizzando Mesh TensorFlow ed è ottimizzato per le GPU a causa della sua complessità e dimensione. Fino ad ora, il modello autoregressivo denso più grande pubblicamente accessibile era il modello GPT-NeoX-20B, che ha 20 miliardi di parametri ed è stato addestrato su Pile. Le capacità di apprendimento a pochi esempi del GPT-NeoX-20B consentono la creazione di prove di concetto che possono essere utilizzate per valutare la fattibilità del progetto.

  • XLNet

Comprensione della lettura, categorizzazione del testo, analisi del sentiment e altre attività di elaborazione del linguaggio naturale (NLP) sono solo alcune delle molte per le quali i ricercatori dell’Università Carnegie Mellon e Google hanno sviluppato un nuovo modello chiamato XLNet. Ottimizzando la probabilità su tutti gli ordini possibili di fattorizzazione, la sua formulazione autoregressiva supera le restrizioni di BERT, consentendo di acquisire conoscenze in entrambe le direzioni. Viene preaddestrato utilizzando un modello autoregressivo generalizzato. Inoltre, XLNet incorpora il modello autoregressivo all’avanguardia, Transformer-XL, nel processo di preaddestramento. XLNet ottiene prestazioni all’avanguardia su 18 attività, tra cui risposta alle domande, inferenza del linguaggio naturale, analisi del sentiment e valutazione del documento, e batte BERT su 20 attività.

  • Roberta

Il processo di addestramento per la rappresentazione bidirezionale dell’encoder di Google da parte dei trasformatori (BERT) è stato studiato dai ricercatori di Facebook AI e dell’Università di Washington. Sono state apportate molte modifiche al regime di addestramento e i risultati sono migliorati. I ricercatori hanno anche addestrato il modello con molte più iterazioni rispetto a BERT, utilizzato un set di dati più ampio, scelto batch più grandi, abbandonato la previsione della prossima frase (NSP), ecc. Ne è risultato RoBERTa (Robustly Optimized BERT Approach), che raggiunge prestazioni di livello XLNet nel test GLUE (General Language Understanding Evaluation).

  • DeBERTa

Microsoft Research ha proposto DeBERTa, un modello BERT potenziato con attenzione disentangled per migliorare i modelli BERT e RoBERTa. Il meccanismo di attenzione è stato prima decoppiato; le parole sono rappresentate da una coppia di vettori che trasmettono il loro contenuto e la loro posizione. I pesi di attenzione tra i termini vengono calcolati da una matrice che considera entrambi i fattori in modo indipendente. In secondo luogo, viene utilizzato un decodificatore di maschera migliorato per prevedere i token mascherati durante il preaddestramento del modello anziché l’output di uno strato softmax. Al momento della pubblicazione, il modello DeBERTa ha ottenuto un punteggio di riferimento GLUE superiore alla base umana. I modelli DeBERTa sono ancora ampiamente utilizzati per molte applicazioni di elaborazione del linguaggio naturale, tra cui risposta alle domande, sintesi, token e categorizzazione del testo.

  • XLM-RoBERTa

XLM-RoBERTa è un modello di linguaggio che utilizza i trasformatori per tradurre il testo in cento lingue diverse e viceversa. In passato, ciò doveva essere fatto ripetutamente per ogni nuova lingua, con le sue sfumature uniche. I modelli multilingue, come XLM-RoBERTa, consentono alle organizzazioni di fornire valore ai consumatori che hanno bisogno di aiuto per comprendere l’inglese in modo molto più rapido. Tuttavia, a volte offrono la migliore prestazione per lavoro.

  • DistilBERT

DistilBERT adotta un approccio diverso rispetto ai modelli precedenti che cercano di massimizzare l’efficienza di BERT. DistilBERT mira ad aumentare la velocità di inferenza, mentre altri metodi simili, come XLNet, RoBERTa e DeBERT, migliorano le prestazioni. Il suo obiettivo è rendere BERT BASE e BERT LARGE, che hanno rispettivamente 110M e 340M parametri, più veloci e più piccoli.

Per riassumere

Non si può sottovalutare l’importanza della lingua. È il mezzo attraverso il quale acquisiamo informazioni sul mondo e vi contribuiamo (ad esempio, accordi, leggi o messaggi). La lingua favorisce anche la connessione e la comunicazione. Nonostante i rapidi progressi del software, le capacità linguistiche dei computer sono ancora limitate. Il software eccelle nel trovare corrispondenze parola per parola nel testo, ma fatica con le tecniche linguistiche più sottili che le persone usano quotidianamente. È indubbiamente necessario disporre di strumenti più sofisticati con una comprensione linguistica migliorata.

Lo sviluppo delle tecnologie di elaborazione del linguaggio è stato un grande passo avanti nell’intelligenza artificiale (IA), consentendoci di creare sistemi sempre più intelligenti con una comprensione più profonda della lingua umana. Nonostante i modelli di linguaggio enormi, ottimizzati e all’avanguardia siano in costante miglioramento grazie alla ricerca in corso, devono ancora affrontare sfide per essere ampiamente utilizzati. Nonostante la loro utilità, l’addestramento e l’implementazione efficiente di questi modelli richiedono dati, potenza di calcolo e competenze tecniche.