8 Modelli di Linguaggio di grandi dimensioni in tendenza e nuovi da tenere d’occhio
8 Modelli di Linguaggio di tendenza e nuovi da tenere d'occhio
Stiamo sentendo molto parlare di modelli di lingua di grandi dimensioni, o LLM, di recente nelle notizie. Se non lo sai, gli LLM sono un tipo di intelligenza artificiale che viene addestrata su enormi quantità di dati di testo. Ciò consente loro di generare testo spesso indistinguibile da quello scritto da un essere umano, come ChatGPT. Grazie a ciò, gli LLM hanno una vasta gamma di applicazioni potenziali, inclusi i campi dell’elaborazione del linguaggio naturale, della traduzione automatica e della generazione di testo.
Detto questo, ecco alcuni degli LLM più recenti e in tendenza che vale la pena tenere d’occhio.
RWKV
- Come l’IA generativa è diventata una competenza indispensabile
- 5 Considerazioni Etiche per l’Intelligenza Artificiale Generativa
- Costruire sistemi LLM affidabili con schemi
Sperando di combinare i punti di forza dei potenti trasformatori con l’efficienza delle RNN, RWKV spera di unire le migliori caratteristiche dei due. Si spera che RWKV possa raggiungere prestazioni all’avanguardia con costi di calcolo inferiori. In caso di successo, ciò potrebbe portare a modelli di NLP più efficienti in futuro.
Palm 2
PaLM 2 è un nuovo modello di linguaggio più multilingue, più efficiente e con migliori capacità di ragionamento rispetto al suo predecessore, PaLM. È un modello basato su trasformatori addestrato utilizzando una miscela di obiettivi simili a UL2. PaLM 2 ha dimostrato di avere una qualità significativamente migliorata su compiti successivi di diverse dimensioni del modello, mostrando al contempo un’inferenza più rapida ed efficiente rispetto a PaLM. PaLM 2 dimostra anche robuste capacità di ragionamento e prestazioni stabili su una serie di valutazioni di intelligenza artificiale responsabile.
Pythia
Pythia è una suite di 16 LLM addestrati sugli stessi dati pubblici che possono essere utilizzati per studiare lo sviluppo e l’evoluzione degli LLM. È stato anche utilizzato per studiare la memorizzazione, gli effetti della frequenza dei termini su alcune brevi esecuzioni e la riduzione del bias di genere. I modelli variano in dimensione da 70M a 12B di parametri. Pythia è disponibile pubblicamente e include strumenti per scaricare e ricostruire i caricamenti dei dati di addestramento.
GPT – 4
GPT-4 è un modello multimodale su larga scala che può accettare input di immagini e testo e produrre output di testo. Mostra prestazioni a livello umano su vari benchmark professionali e accademici, inclusa la superamento di un esame simulato da avvocato. È un modello basato su trasformatori pre-addestrato per prevedere il token successivo in un documento. Il processo di allineamento post-addestramento porta a un miglioramento delle prestazioni in termini di factualità e aderenza a un comportamento desiderato. GPT-4 è uno degli LLM più conosciuti in questa lista ed è già stato dimostrato che fa cose incredibili grazie a prompt creativi.
Kosmos
Kosmos-1 è un modello di linguaggio multimodale di grandi dimensioni che può percepire modalità generali, imparare nel contesto e seguire istruzioni. È stato addestrato su corpora multimodali su larga scala, compresi testo e immagini. Kosmos-1 raggiunge prestazioni impressionanti in una vasta gamma di compiti, tra cui comprensione del linguaggio, generazione e compiti di percezione del linguaggio. Può anche beneficiare del trasferimento cross-modale, che gli consente di trasferire conoscenze dal linguaggio al multimodale e viceversa.
LLaMA
LLaMA di Meta, che sta per Large Language Model from scratch with Annotated Massive Text, varia in dimensione da 7B a 65B di parametri. LLaMA è stato addestrato su set di dati pubblicamente disponibili. LLaMA dimostra che è possibile addestrare modelli di linguaggio all’avanguardia utilizzando solo dati pubblicamente disponibili e che LLaMA-13B supera GPT-3 (175B) in gran parte dei benchmark. LLaMA-65B è competitivo con i migliori modelli, Chinchilla70B e PaLM-540B. Attualmente, quei modelli sono stati rilasciati solo alla comunità di ricerca caso per caso.
Vicuna
Vicuna-13B è una chatbot open-source addestrato attraverso il fine-tuning di LLaMA su conversazioni condivise dagli utenti, raccolte da ShareGPT. Ispirato al Meta LLaMA e al progetto Stanford Alpaca, Vicuna-13B è supportato da un dataset migliorato e da un’infrastruttura scalabile e facile da usare. L’obiettivo di questo LLM è rimuovere le barriere che ostacolano il raggiungimento e l’innovazione open-source nel campo.
Dolly
Dolly 2.0 è un modello di linguaggio con 12B di parametri che è open-source ed è uno dei pochi LLM in questa lista che può essere utilizzato per scopi commerciali. Dolly 2.0 è stato addestrato su un set di dati di 15.000 coppie di istruzioni generate dall’essere umano. Il set di dati è stato creato dai dipendenti di Databricks e contiene una varietà di compiti, come Q&A aperte, Q&A chiuse, estrazione di informazioni da Wikipedia, sintesi di informazioni da Wikipedia, brainstorming, classificazione e scrittura creativa.
Conclusion
Abbastanza ordinato, vero? Beh, c’è molto di più da imparare sui grandi modelli di linguaggio, ma non devi preoccuparti di cercare su internet. ODSC ha pensato a tutto con il Generative AI Summit – una conferenza virtuale gratuita che si terrà il 20 luglio e che riunirà le menti più avanzate nel campo dell’intelligenza artificiale generativa. Acquista subito il tuo biglietto e scopri di persona le ultime novità sui LLM, l’IA generativa e il loro impatto in diversi settori.