Il primo anniversario di ChatGPT Ridefinire il futuro dell’interazione AI

Il primo anniversario di ChatGPT Ridefinire il futuro dell'interazione AI

Riflettendo sul primo anno di ChatGPT, è chiaro che questo strumento ha cambiato significativamente la scena dell’IA. Lanciato alla fine del 2022, ChatGPT si è distinto per il suo stile conversazionale e facile da usare, che ha reso l’interazione con l’IA più simile a una conversazione con una persona che con una macchina. Questo nuovo approccio ha immediatamente catturato l’attenzione del pubblico. Solo cinque giorni dopo il suo lancio, ChatGPT aveva già attirato un milione di utenti. All’inizio del 2023, questo numero è aumentato a circa 100 milioni di utenti mensili e entro ottobre la piattaforma ha registrato circa 1,7 miliardi di visite in tutto il mondo. Questi numeri parlano da soli sulla sua popolarità e utilità.

Nell’ultimo anno, gli utenti hanno trovato modi creativi di utilizzare ChatGPT, dalle semplici attività come scrivere e-mail e aggiornare curriculum fino alla creazione di imprese di successo. Ma non si tratta solo di come le persone lo utilizzano; la tecnologia stessa è cresciuta e migliorata. Inizialmente, ChatGPT era un servizio gratuito che forniva risposte testuali dettagliate. Ora, c’è ChatGPT Plus, che include ChatGPT-4. Questa versione aggiornata è addestrata su un maggior numero di dati, fornisce meno risposte sbagliate e comprende meglio le istruzioni complesse.

Uno dei più grandi aggiornamenti è che ChatGPT ora può interagire in modi multipli: può ascoltare, parlare e persino elaborare immagini. Ciò significa che puoi parlarci tramite la sua app mobile e mostrargli immagini per ottenere risposte. Questi cambiamenti hanno aperto nuove possibilità per l’IA e hanno modificato il modo in cui le persone vedono e pensano al ruolo dell’IA nelle nostre vite.

Dai suoi esordi come demo tecnologica al suo attuale status di protagonista nel mondo della tecnologia, il percorso di ChatGPT è davvero impressionante. Inizialmente, era visto come un modo per testare e migliorare la tecnologia ottenendo feedback dal pubblico. Ma è rapidamente diventato una parte essenziale del panorama dell’IA. Questo successo dimostra quanto sia efficace affinare i grandi modelli di linguaggio (LLM) con l’apprendimento supervisionato e il feedback degli esseri umani. Di conseguenza, ChatGPT può gestire una vasta gamma di domande e compiti.

La corsa per sviluppare sistemi IA sempre più capaci e versatili ha portato alla proliferazione di modelli sia open-source che proprietari come ChatGPT. Comprendere le loro capacità generali richiede il confronto completo su un’ampia varietà di compiti. Questa sezione esplora questi riferimenti, gettando luce su come diversi modelli, inclusa ChatGPT, si confrontano tra loro.

Valutazione dei LLM: I riferimenti

  1. MT-Bench: Questo riferimento testa le capacità di conversazione a più turni e di seguire le istruzioni in otto domini: scrittura, gioco di ruolo, estrazione di informazioni, ragionamento, matematica, codifica, conoscenze STEM e scienze umanistiche/sociali. I LLM più potenti come GPT-4 vengono utilizzati come valutatori.
  2. AlpacaEval: Basato sul set di valutazione di AlpacaFarm, questo valutatore automatico basato su LLM confronta i modelli con le risposte di LLM avanzati come GPT-4 e Claude, calcolando il tasso di successo dei modelli candidati.
  3. Classifica Open LLM: Utilizzando il sistema di valutazione dei modelli di linguaggio, questa classifica valuta i LLM su sette riferimenti chiave, compresi i test di ragionamento e le prove di conoscenza generale, sia in modalità zero-shot che few-shot.
  4. BIG-bench: Questo riferimento collaborativo copre oltre 200 nuovi task di linguaggio, spaziando su una vasta gamma di argomenti e lingue. Lo scopo è sondare i LLM e prevedere le loro future capacità.
  5. ChatEval: Un framework di dibattito multi-agente che consente a squadre di discutere autonomamente e valutare la qualità delle risposte di diversi modelli su domande aperte e compiti tradizionali di generazione del linguaggio naturale.

Rendimento Comparativo

In termini di riferimenti generali, i LLM open-source hanno mostrato un notevole progresso. Llama-2-70B, ad esempio, ha ottenuto risultati impressionanti, soprattutto dopo essere stato affinato con dati di istruzioni. La sua variante, Llama-2-chat-70B, ha eccelso in AlpacaEval con un tasso di successo del 92,66%, superando GPT-3.5-turbo. Tuttavia, GPT-4 rimane in testa con un tasso di successo del 95,28%.

Zephyr-7B, un modello più piccolo, ha dimostrato capacità paragonabili a LLM più grandi come 70B, specialmente in AlpacaEval e MT-Bench. Nel frattempo, WizardLM-70B, affinato con una vasta gamma di dati di istruzioni, ha ottenuto il punteggio più alto tra i LLM open-source in MT-Bench. Tuttavia, è ancora rimasto indietro rispetto a GPT-3.5-turbo e GPT-4.

Una voce interessante, GodziLLa2-70B, ha ottenuto un punteggio competitivo sulla classifica Open LLM, dimostrando il potenziale di modelli sperimentali che combinano dataset diversi. Allo stesso modo, Yi-34B, sviluppato da zero, si è distinto con punteggi paragonabili a GPT-3.5-turbo e solo leggermente dietro a GPT-4.

UltraLlama, con il suo fine-tuning su dati diversificati e di alta qualità, ha eguagliato GPT-3.5-turbo nei suoi benchmark proposti e lo ha persino superato in ambito di conoscenze mondiali e professionali.

Scaling Up: La Crescita dei Giganti LLM

Modelli LLM

I migliori modelli LLM dal 2020

Una tendenza significativa nello sviluppo degli LLM è stata l’aumento dei parametri del modello. Modelli come Gopher, GLaM, LaMDA, MT-NLG e PaLM hanno spinto i limiti, culminando in modelli con fino a 540 miliardi di parametri. Questi modelli hanno dimostrato capacità eccezionali, ma la loro natura proprietaria ha limitato la loro applicazione più ampia. Questa limitazione ha suscitato interesse nello sviluppo di LLM open-source, una tendenza che sta guadagnando slancio.

In parallelo all’aumento delle dimensioni dei modelli, i ricercatori hanno esplorato strategie alternative. Invece di limitarsi a rendere i modelli più grandi, si sono concentrati sul miglioramento della pre-training dei modelli più piccoli. Esempi sono Chinchilla e UL2, che hanno dimostrato che “più” non è sempre “meglio”; strategie più intelligenti possono dare risultati efficienti anche con modelli più piccoli. Inoltre, si è prestata considerevole attenzione al tuning delle istruzioni dei modelli linguistici, con progetti come FLAN, T0 e Flan-T5 che hanno dato un contributo significativo in questo ambito.

Il Catalizzatore ChatGPT

L’introduzione di ChatGPT di OpenAI ha segnato un punto di svolta nella ricerca del NLP. Per competere con OpenAI, aziende come Google e Anthropic hanno lanciato i loro modelli, rispettivamente Bard e Claude. Mentre questi modelli mostrano una prestazione comparabile a ChatGPT in molte attività, sono comunque indietro rispetto all’ultimo modello di OpenAI, GPT-4. Il successo di questi modelli è attribuito principalmente all’apprendimento per rinforzo dal feedback umano (RLHF), una tecnica che sta ricevendo una maggiore attenzione nella ricerca per ulteriori miglioramenti.

Voci e Speculazioni su Q* (Q-Star) di OpenAI

Rapporti recenti suggeriscono che i ricercatori di OpenAI abbiano raggiunto un significativo progresso nell’IA con lo sviluppo di un nuovo modello chiamato Q* (pronunciato Q star). Si dice che Q* abbia la capacità di svolgere operazioni matematiche di livello elementare, un risultato che ha suscitato discussioni tra gli esperti riguardo al suo potenziale come pietra miliare verso l’intelligenza artificiale generale (AGI). Sebbene OpenAI non abbia commentato su questi rapporti, le presunte capacità di Q* hanno generato un notevole entusiasmo e speculazioni sui social media e tra gli appassionati di IA.

Lo sviluppo di Q* è degno di nota perché i modelli di linguaggio esistenti come ChatGPT e GPT-4, pur essendo in grado di svolgere alcune operazioni matematiche, non sono particolarmente abili nel gestirle in modo affidabile. La sfida sta nella necessità per i modelli di IA di non solo riconoscere pattern, come fanno attualmente attraverso deep learning e transformer, ma anche di ragionare e comprendere concetti astratti. La matematica, essendo una misura del ragionamento, richiede all’IA di pianificare ed eseguire passaggi multipli, dimostrando una profonda comprensione di concetti astratti. Questa capacità segnerebbe un significativo balzo in avanti nelle capacità dell’IA, che potrebbe estendersi oltre la matematica ad altre attività complesse.

Tuttavia, gli esperti ammoniscono contro un eccessivo entusiasmo riguardo a questo sviluppo. Sebbene un sistema di IA in grado di risolvere in modo affidabile problemi matematici sarebbe un risultato impressionante, non necessariamente segna l’avvento di un’IA superintelligente o di una AGI. La ricerca attuale sull’IA, compresi gli sforzi di OpenAI, si è concentrata su problemi elementari, con risultati variabili nelle attività più complesse.

Le potenziali applicazioni di avanzamenti come Q* sono vastissime, dall’assistenza personalizzata all’insegnamento alla ricerca scientifica e ingegneristica. Tuttavia, è anche importante gestire le aspettative e riconoscere le limitazioni e le preoccupazioni sulla sicurezza associate a tali sviluppi. Le preoccupazioni riguardo alle minacce esistenziali dell’IA, una preoccupazione fondamentale di OpenAI, rimangono pertinenti, soprattutto quando i sistemi di IA iniziano ad interagire maggiormente con il mondo reale.

Il Movimento degli LLM Open-Source

Per potenziare la ricerca LLM open-source, Meta ha rilasciato i modelli della serie Llama, scatenando una serie di nuovi sviluppi basati su Llama. Ciò include modelli ottimizzati con dati di istruzioni, come Alpaca, Vicuna, Lima e WizardLM. La ricerca sta anche indirizzandosi verso il potenziamento delle capacità degli agenti, il ragionamento logico e la modellazione di contesti più lunghi all’interno del framework basato su Llama.

Inoltre, c’è una tendenza crescente nello sviluppo di potenti LLM da zero, con progetti come MPT, Falcon, XGen, Phi, Baichuan, Mistral, Grok e Yi. Questi sforzi riflettono un impegno per democratizzare le capacità delle LLM closed-source, rendendo strumenti avanzati di intelligenza artificiale più accessibili ed efficienti.

L’impatto di ChatGPT e dei modelli open source nell’assistenza sanitaria

Guardiamo a un futuro in cui le LLM assistono nella redazione di note cliniche, nella compilazione di moduli per i rimborsi e nel supporto ai medici nella diagnosi e nella pianificazione del trattamento. Questo ha attirato l’attenzione sia dei giganti tecnologici che delle istituzioni sanitarie.

Le discussioni di Microsoft con Epic, uno dei principali fornitori di software per le cartelle cliniche elettroniche, segnalano l’integrazione delle LLM nell’assistenza sanitaria. Iniziative sono già in corso presso UC San Diego Health e Stanford University Medical Center. Allo stesso modo, le partnership di Google con Mayo Clinic e il lancio di HealthScribe da parte di Amazon Web Services, un servizio di documentazione clinica AI, rappresentano passi significativi in questa direzione.

Tuttavia, questi rapidi implementi sollevano preoccupazioni riguardo alla cessione del controllo della medicina agli interessi delle aziende. La natura proprietaria di queste LLM rende difficile valutarle. La loro possibile modifica o interruzione per motivi di profitto potrebbe compromettere l’assistenza, la privacy e la sicurezza dei pazienti.

Il bisogno urgente è di un approccio aperto e inclusivo allo sviluppo delle LLM nell’assistenza sanitaria. Le istituzioni sanitarie, i ricercatori, i clinici e i pazienti devono collaborare a livello globale per costruire LLM open-source per l’assistenza sanitaria. Questo approccio, simile al Trillion Parameter Consortium, consentirebbe di condividere risorse computazionali, finanziarie e competenze.