Dal testo al di là delle parole

Beyond words, from text

Una breve storia dei Grandi Modelli di Linguaggio (LLM)

Foto di Andy Kelly su Unsplash

Sembra probabile che una volta avviato il metodo di pensiero delle macchine, non ci vorrebbe molto per superare le nostre deboli capacità… Sarebbero in grado di conversare tra loro per affinare le loro menti. Ad un certo punto, quindi, dovremmo aspettarci che le macchine prendano il controllo.

— Alan Turing (1912–1954)

Ciao lettori, oggi viviamo nell’era dei Grandi Modelli di Linguaggio (LLM), che alimentano software come GPT4, ChatGPT, DALL·E e molte altre tecnologie AI. Queste tecnologie sono responsabili di alcune delle scoperte più significative nella storia dell’umanità e quindi siamo sull’orlo di un significativo cambiamento sociale. A breve, forse durante la nostra vita, i sistemi AI che sviluppiamo e utilizziamo ampiamente potrebbero diventare molto più intelligenti dell’intelligenza combinata di tutti gli esseri umani. Questo potrebbe essere una benedizione per l’umanità da un lato, mentre dall’altro potrebbe portare una maledizione.

Può essere considerato una benedizione a causa delle innumerevoli possibilità che vengono scoperte e che devono ancora essere scoperte, che hanno il potenziale per potenziare l’umanità, liberandola dalla diffusa povertà, dalla sofferenza e dall’eterna aspirazione umana, la “felicità”.

Chiamatelo una maledizione a causa del potere esercitato da un’AGI (Intelligenza Artificiale Generale) superintelligente, che ha il potenziale per cancellare intenzionalmente o involontariamente l’intera civiltà umana. Questa minaccia può manifestarsi sotto forma di totalitarismo orwelliano, come descritto nel romanzo “1984”, o nella distopia di Huxley nel romanzo “Il mondo nuovo”, dove afferma: “Le persone arriveranno ad amare la loro oppressione, ad adorare le tecnologie che annullano le loro capacità di pensare”.

Attualmente stiamo vivendo una transizione rapida e profonda da una fase di esistenza a un’altra e siamo ben consapevoli del destino che colpisce le specie che non riescono ad adattarsi a un mondo in cambiamento: affrontano l’estinzione. Pertanto, è importante per noi studiare questi argomenti con tutto il cuore immergendoci nella loro esplorazione, acquisiamo la conoscenza e l’approfondimento necessari per navigare il percorso straordinario che ci attende. Iniziamo il nostro viaggio di esplorazione attraverso questo articolo, “Dal testo al di là delle parole: una breve storia dei Grandi Modelli di Linguaggio”.

Introduzione

Immagina di avere un amico intelligente che può capire ciò che stai dicendo e rispondere in modo coerente. I modelli di linguaggio sono come quegli amici intelligenti, ma sotto forma di programmi informatici. Utilizzano tecniche avanzate per imparare da molto testo e diventare molto bravi nell’interpretare e generare linguaggio. Possono fare cose come completare frasi, tradurre lingue, rispondere a domande ed analizzare il sentimento o l’emozione nel testo.

L’Origine: L’Ascesa dei Grandi Modelli di Linguaggio

Lo studio dei primi modelli di linguaggio era importante perché hanno gettato le basi per i successivi sviluppi. Ci hanno insegnato di più su come funziona il linguaggio e su come i computer possono imparare da esso. Tuttavia, non riuscivano a comprendere appieno le complessità del linguaggio umano. Utilizzavano approcci diversi per dare un senso alle parole e alle frasi.

Un approccio consisteva nell’utilizzare regole, che erano come istruzioni su come elaborare il linguaggio. Queste regole venivano create da esperti e indicavano al computer come analizzare e generare linguaggio. Ma questi sistemi basati su regole avevano difficoltà con le complessità del linguaggio umano e spesso non riuscivano a comprendere il significato completo.

Un altro approccio consisteva nell’utilizzare la statistica, ossia osservare i modelli presenti in molti esempi di linguaggio. I computer imparavano da questi modelli e facevano congetture su quali parole dovessero venire dopo. Sebbene questo approccio fosse migliore nel gestire alcune complessità del linguaggio, aveva comunque limitazioni nella comprensione del contesto e nella generazione di frasi significative.

In seguito, è arrivato un modello più avanzato, che utilizzava nuove tecniche che lo rendevano molto più bravo nell’interpretare e generare linguaggio. Questo nuovo modello riusciva a catturare le connessioni tra le parole e a comprendere il contesto in modo molto più efficace. Veniva chiamato Transformer.

Il Transformer: Una Svolta per i Modelli di Linguaggio

Foto di Praswin Prakashan su Unsplash

Ebbene, ovviamente, non il Bumblebee, stiamo parlando di un modello di apprendimento profondo qui nei problemi di sequenza a sequenza come la traduzione automatica neurale, le prime proposte utilizzavano le RNN (Reti Neurali Ricorrenti) in un’architettura codificatore-decodificatore. Tuttavia, queste architetture hanno faticato a conservare le informazioni dall’inizio delle lunghe sequenze quando venivano aggiunti nuovi elementi. Lo stato nascosto del codificatore era tipicamente associato all’ultima parola nella frase di input. Di conseguenza, se il decodificatore si basava solo sull’ultimo stato nascosto, avrebbe perso informazioni importanti sugli elementi iniziali. Per affrontare questa limitazione, è stata introdotta la meccanica di attenzione.

Al posto di fare affidamento esclusivamente sull’ultimo stato del codificatore, la meccanica di attenzione consente al decodificatore di accedere a tutti gli stati del codificatore, catturando informazioni da tutta la sequenza di input. Ciò comporta l’estrazione di una somma ponderata degli stati precedenti del codificatore, consentendo al decodificatore di assegnare importanza a ciascun elemento dell’input durante la previsione del prossimo elemento di output. Tuttavia, questo approccio ha ancora una limitazione: ogni sequenza deve essere elaborata un elemento alla volta. Sia il codificatore che il decodificatore devono attendere che i t-1 passaggi siano completati prima di elaborare il passaggio t. Di conseguenza, quando si lavora con grandi insiemi di dati, questo approccio diventa lento e inefficiente dal punto di vista computazionale.

Il modello Transformer utilizza una meccanica di auto-attenzione per estrarre caratteristiche per ogni parola, determinando la loro importanza rispetto alle altre parole nella frase. A differenza delle unità ricorrenti, questa estrazione di caratteristiche coinvolge somme ponderate e attivazioni, rendendola altamente parallelizzabile ed efficiente.

L’uso di questa meccanica di attenzione è stato introdotto nel paper “Attention is all you need” (Vaswani, Ashish & Shazeer, Noam & Parmar, Niki & Uszkoreit, Jakob & Jones, Llion & Gomez, Aidan & Kaiser, Lukasz & Polosukhin, Illia. (2017))[1]. Questo paper ha rappresentato una svolta significativa nell’uso della meccanica di attenzione, che è stata l’innovazione chiave per un modello noto come Transformer.

I modelli più famosi attuali che sono emersi nei compiti di elaborazione del linguaggio naturale (NLP) sono composti da dozzine di trasformatori e una delle sue varianti è stata GPT-2.

Predecessori dei Modelli di Linguaggio di Ampia Scala

Qui esploreremo due modelli influenti, Word2Vec e GloVe, che hanno rivoluzionato la rappresentazione delle parole in NLP. Inoltre, approfondiremo le reti neurali ricorrenti (RNN) e la loro capacità di elaborare dati sequenziali. Scopriamo gli aspetti chiave di questi modelli e il loro contributo al campo dell’elaborazione del linguaggio.

  • Word2Vec: Un modello popolare introdotto nel 2013. Rappresenta le parole come vettori densi in uno spazio ad alta dimensionalità, catturando i significati delle parole. Allenandosi su grandi quantità di testo, impara a prevedere le parole circostanti date una parola di destinazione. Word2Vec ha trasformato la rappresentazione delle parole nel processing del linguaggio naturale, consentendo una migliore comprensione dei significati delle parole.
  • GloVe: Introdotto nel 2014, è un altro modello influente. Rappresenta le parole come vettori in uno spazio continuo e utilizza statistiche globali sulla co-occorrenza delle parole. Considerando il contesto delle parole, GloVe cattura sia le relazioni semantiche che sintattiche, migliorando la comprensione del linguaggio.
  • Reti Neurali Ricorrenti (RNN): Le RNN sono reti neurali che elaborano dati sequenziali come frasi. Mantengono una memoria interna per catturare informazioni precedenti. Le RNN eccellono nella generazione di output rilevanti in base alla sequenza di input, ma hanno difficoltà con le dipendenze a lungo termine e la comprensione di contesti estesi.

Hanno dimostrato l’importanza di apprendere rappresentazioni distribuite delle parole, catturando relazioni semantiche e modellando dati sequenziali. Questo ha gettato le basi per modelli di linguaggio su larga scala avanzati come GPT-3 e oltre, spingendo i confini dell’elaborazione del linguaggio.

Evoluzione dei modelli su larga scala

Seguendo la linea temporale dei progressi nei modelli di linguaggio su larga scala, da GPT-1 a GPT-3 e oltre.

  • GPT-1 (Generative Pre-Trained Transformer 1): Nel 2018, OpenAI ha introdotto GPT-1, un modello di linguaggio su larga scala pionieristico basato su trasformatori. È stato allenato su grandi quantità di dati di testo tratti da internet e ha mostrato straordinarie capacità linguistiche, eccellendo in vari compiti.
  • GPT-2 (Generative Pre-Trained Transformer 2): Rilasciato nel 2019, GPT-2 ha portato i modelli di linguaggio su larga scala a nuovi livelli. Con un dataset più ampio rispetto a GPT-1 e 1,5 miliardi di parametri, ha mostrato eccezionali capacità di generazione di testo. Sebbene inizialmente fosse limitato per motivi di preoccupazione, in seguito OpenAI ha reso il modello completo accessibile al pubblico.
  • GPT-3 (Generative Pre-Trained Transformer 3): Svelato nel 2020, GPT-3 ha rappresentato un avanzamento rivoluzionario nella modellazione del linguaggio su larga scala. È diventato uno dei modelli più grandi mai creati, con 175 miliardi di parametri. GPT-3 ha dimostrato straordinarie capacità di generazione di linguaggio e ha ottenuto prestazioni eccezionali in diversi compiti, dalle risposte alle domande alla generazione di codice e conversazioni realistiche. ChatGPT si basa sull’architettura di GPT-3. Il termine “ChatGPT” viene spesso utilizzato per riferirsi all’implementazione specifica del modello GPT-3 progettata per conversazioni interattive e sistemi di dialogo.

Inoltre, Sam Altman, il CEO di OpenAI, in una delle sue interviste, ha confermato che il GPT-4 avrà circa 100 trilioni di parametri. Quindi, sarà un altro enorme passo avanti nello sviluppo di super AGI.

I lavori saranno influenzati?

Bene, non dubitiamo che questo enorme passo avanti nel campo dell’Intelligenza Artificiale creerà nuovi posti di lavoro. Ma ciò significa anche che alcuni dei lavori che vediamo in tutto il mondo oggi potrebbero non esistere domani?

Vediamo cosa ha risposto Sam Altman a una domanda simile in una delle sue interviste.

“Una grande categoria che potrebbe essere enormemente influenzata, direi, è la categoria del servizio clienti in cui potrei vedere che ci sono semplicemente molti meno posti di lavoro relativamente presto. Non sono sicuro di questo, ma potrei crederci. Voglio essere chiaro: penso che questi sistemi faranno scomparire molti posti di lavoro. Ogni rivoluzione tecnologica lo fa. Miglioreranno molti posti di lavoro, rendendoli molto migliori, più divertenti e meglio retribuiti, e creeranno nuovi posti di lavoro che sono difficili da immaginare, anche se iniziamo a intravedere i primi segnali.”

“Penso che, come società, siamo confusi su se vogliamo lavorare di più o di meno. E certamente, su se alla maggior parte delle persone piace il proprio lavoro e se ne trae valore o meno. Alcune persone lo fanno. Amo il mio lavoro; sospetto che tu lo faccia anche tu. È un vero privilegio, non tutti possono dirlo. Se possiamo spostare più persone nel mondo verso lavori migliori e lavorare per qualcosa che può essere un concetto più ampio, non qualcosa che devi fare per poter mangiare, ma qualcosa che fai come espressione creativa e come modo per trovare realizzazione, felicità e tutto il resto. Anche se quei lavori sembrano estremamente diversi dai lavori di oggi, penso che sia fantastico.”

— Sam Altman, CEO di OpenAI

Quindi, questo riassume praticamente il mio articolo. Mi scuso se era troppo lungo, spero ti sia piaciuto. Abbiamo parlato della crescita dei LLM e abbiamo assistito al loro viaggio “Dal testo oltre le parole. Una cosa che sappiamo per certo è che questi modelli continueranno a migliorare a un ritmo molto più veloce giorno dopo giorno. Ma ciò non assicura che non avranno un impatto negativo sulle nostre vite. Ci saranno nuovi lavori, ma alcuni lavori attuali scompariranno; saremo in grado di fare 10 volte di più, ma ci sarà anche 10 volte di più da fare. C’è solo una verità, il mondo non sarà più lo stesso.