Anthropic ha rilasciato il loro modello Claude 2 con miglioramenti significativi nella codifica, matematica e ragionamento rispetto ai modelli precedenti.

Anthropic ha rilasciato il modello Claude 2 con miglioramenti significativi.

Anthropic ha lanciato il suo nuovo modello chiamato Claude 2, vantando prestazioni migliorate, risposte più lunghe e accessibilità tramite un’API e un sito web di beta pubblica. Gli utenti hanno elogiato le capacità di conversazione di Claude, le spiegazioni chiare, la ridotta probabilità di generare output dannosi e la memoria migliorata rispetto ai modelli precedenti. In particolare, Claude 2 ha mostrato migliori prestazioni nel coding, nella matematica e nei compiti di ragionamento. Ad esempio, ha ottenuto un punteggio del 76,5% nella sezione a scelta multipla dell’esame di avvocatura, superando il punteggio del suo predecessore, che era del 73,0%. Rispetto agli studenti universitari che si candidano per la scuola di specializzazione, Claude 2 ha ottenuto risultati superiori al 90° percentile nei test di lettura e scrittura del GRE e risultati simili al candidato mediano nel ragionamento quantitativo.

Gli sviluppatori immaginano Claude come un collega virtuale amichevole e entusiasta o un assistente personale in grado di comprendere istruzioni in linguaggio naturale per assistere in varie attività. L’API di Claude 2 per le aziende è disponibile allo stesso prezzo del suo predecessore, Claude 1.3. Inoltre, le persone negli Stati Uniti e nel Regno Unito possono già utilizzare l’esperienza di chat in versione beta.

Sono stati fatti sforzi per migliorare le prestazioni e la sicurezza dei modelli di Claude. Le lunghezze di input e output sono state aumentate, consentendo agli utenti di inserire fino a 100K token per prompt. Ciò consente a Claude di elaborare documentazione tecnica estesa e libri e generare documenti più lunghi come memo, lettere e storie che comprendono migliaia di token.

Il modello più recente, Claude 2, ha competenze di coding significativamente migliorate, raggiungendo un punteggio del 71,2% nel test di coding Python Codex HumanEval rispetto al punteggio del 56,0% di Claude 1.3. Nel set di problemi matematici GSM8k, Claude 2 ha ottenuto un punteggio dell’88,0% rispetto all’85,2% del suo predecessore. I piani futuri includono il graduale miglioramento delle capacità di Claude 2.

Le misure di sicurezza sono state un focus di sviluppo, mirando a ridurre gli output dannosi e offensivi. Una valutazione interna red-teaming valuta i modelli di Claude rispetto a un insieme rappresentativo di prompt dannosi, combinando test automatizzati con controlli manuali. Claude 2 ha mostrato il doppio dell’efficacia nel fornire risposte innocue rispetto a Claude 1.3. Sebbene nessun modello sia completamente immune a output indesiderati, tecniche di sicurezza e red-teaming estensivo sono state utilizzate per migliorare la qualità complessiva degli output.

Diverse aziende hanno già adottato l’API di Claude, con partner come Jasper e Sourcegraph che sfruttano le capacità di Claude 2. Jasper, una piattaforma di generazione di intelligenza artificiale, ha evidenziato la compatibilità di Claude 2 con modelli all’avanguardia per diversi casi d’uso, sottolineando la sua forza nelle applicazioni a lunga durata e a bassa latenza. Sourcegraph, una piattaforma di intelligenza artificiale per il codice, incorpora l’abilità di ragionamento migliorata di Claude 2 nel loro assistente di codifica, Cody. Cody può fornire risposte più accurate alle richieste degli utenti mentre trasmette un maggiore contesto del codice attraverso finestre di contesto fino a 100K. L’addestramento di Claude 2 sui dati più recenti fornisce a Cody conoscenze su nuovi framework e librerie, consentendo agli sviluppatori di costruire software in modo più efficiente.

Nel complesso, il rilascio di Claude 2 rappresenta avanzamenti in termini di prestazioni, sicurezza e versatilità, consentendo agli utenti di sfruttarne le capacità in vari ambiti.