Approfondimento su Llama 2 Nuovo modello di fondazione Open Source di Meta AI

Approfondimento su Llama 2, nuovo modello di fondazione Open Source di Meta AI.

Il modello include importanti miglioramenti rispetto ai suoi predecessori e rappresenta un importante obiettivo per i modelli di fondazione open-source.

Creato utilizzando Midjourney

Recentemente ho lanciato una newsletter educativa incentrata sull’IA, che conta già più di 160.000 iscritti. TheSequence è una newsletter orientata all’apprendimento automatico, senza fronzoli (cioè senza hype, senza notizie, ecc.) che richiede 5 minuti di lettura. L’obiettivo è tenerti aggiornato sui progetti di apprendimento automatico, gli articoli di ricerca e i concetti. Prova a iscriverti qui di seguito:

TheSequence | Jesus Rodriguez | Substack

La migliore fonte per restare aggiornati sugli sviluppi nell’apprendimento automatico, nell’intelligenza artificiale e nei dati…

thesequence.substack.com

La scorsa settimana, Meta AI ha rubato i titoli nello spazio dell’IA generativa con il rilascio open source e la disponibilità commerciale di Llama 2. Il modello è stato rilasciato in tre diverse versioni: 7B, 13B e 70B di parametri rispettivamente. Oggi vorrei approfondire alcuni dettagli tecnici di questo rilascio.

Nel loro rilascio, Meta AI ha sviluppato e introdotto Llama 2, una famiglia di modelli di linguaggio preaddestrati e perfezionati (LLM), che comprende Llama 2 e Llama 2-Chat, con scala di parametri fino a 70 miliardi. Dopo aver condotto una serie di test di utilità e sicurezza, Meta AI ha osservato che i modelli Llama 2-Chat in generale superano i modelli open-source esistenti e si comportano in modo comparabile a alcuni modelli closed-source. Per migliorare la sicurezza di questi modelli, Meta AI ha utilizzato annotazioni specifiche sulla sicurezza, messa a punto, red teaming e valutazioni iterative. Inoltre, il documento offre una descrizione completa della loro metodologia di perfezionamento e del loro approccio per migliorare la sicurezza di LLM. Meta AI mira a favorire l’apertura e consentire alla comunità di riprodurre LLM perfezionati, promuovendo lo sviluppo responsabile di tali modelli. Una cosa importante da capire è che il rilascio includeva due famiglie di modelli:

1. Llama 2: Una versione aggiornata di Llama 1, addestrata su una nuova combinazione di dati disponibili pubblicamente. La dimensione del corpus di preaddestramento è stata aumentata del 40%, la lunghezza del contesto del modello è stata raddoppiata e l’attenzione per le query raggruppate…