Questa newsletter sull’IA è tutto ciò di cui hai bisogno #57

Newsletter sull'IA #57

Cosa è successo questa settimana nell’ambito dell’IA da Louie

Nel mondo dell’IA questa settimana, le valutazioni delle prestazioni del modello LLM sono state argomento di attenzione. In particolare, c’è stato un vivace dibattito su uno studio recente condotto da studenti di Stanford e Berkeley. La ricerca presenta prove che suggeriscono che i modelli GPT-4 potrebbero essere in declino delle prestazioni, comunemente definito come “diventare più “sciocco” nel tempo. Il paper ha presentato una serie di valutazioni come l’identificazione dei numeri primi, che è diminuita dal 97,6% a marzo al 2,4% a giugno, e la risoluzione di quesiti di codifica che ha avuto una significativa diminuzione dall’accuratezza del 52% al 10%.

Ciò ha suscitato molte discussioni, incluso se OpenAI stesse dando priorità alla velocità e al costo dell’elaborazione rispetto alle prestazioni del modello. Ci sono anche discussioni in corso sulla precisione di queste affermazioni. Sono emersi alcuni risultati che indicano che i modelli successivi mostrano prestazioni significativamente migliorate semplicemente modificando il formato dell’output. Inoltre, un’altra valutazione ha dimostrato che nessuna delle due versioni dell’API ha superato il caso puro quando si trattava del problema della classificazione dei numeri primi. In risposta ai nuovi risultati, gli autori del paper hanno chiarito le loro intenzioni, affermando che lo scopo dell’esperimento non era dimostrare la degradazione della qualità nelle API di OpenAI. Invece, hanno cercato di fare luce sul problema dell’instabilità e di sensibilizzare sulla possibilità che le applicazioni possano bloccarsi quando le risposte del modello sottostante cambiano. Inoltre, OpenAI ha affrontato queste affermazioni in un post sul blog e ha garantito agli utenti che stanno adottando misure per migliorare la stabilità dell’API. Forniscono la possibilità agli sviluppatori di specificare e utilizzare una determinata versione del modello, offrendo così maggior controllo e prevedibilità nelle loro applicazioni.

Passando a una nota più positiva per le valutazioni di GPT-4 questa settimana, uno studio separato condotto su esami clinici ha confrontato GPT-4 con studenti di medicina e i risultati hanno mostrato che GPT-4 ha superato gli studenti di primo e secondo anno di Stanford. La ricerca specifica che non è stata utilizzata nessuna tecnica di stimolo speciale. Uno degli autori ha utilizzato Twitter per condividere approfondimenti sui risultati, suscitando discussioni sulla riconsiderazione del futuro delle valutazioni degli studenti.

Abbiamo trovato entrambi questi paper interessanti e il possibile degrado delle prestazioni di GPT-4 ha suscitato un importante dibattito. Una cosa è chiara per noi: nel mondo dei prodotti commercializzati che utilizzano le API LLM, il cambiamento e l’instabilità delle prestazioni delle LLM su compiti specifici e per prompt specifici con l’aggiornamento dei modelli è una nuova sfida per gli sviluppatori e le aziende con cui lavorare. E ciò sarà ancora più importante per le potenziali applicazioni mediche! Crediamo anche che sia necessario fare più lavoro sugli standard di valutazione delle LLM in modo più ampio, compreso il benchmarking accurato e coerente delle prestazioni delle nuove LLM open source come Llama 2.

– Louie Peters, Co-fondatore e CEO di Towards AI

Questa edizione è sponsorizzata da:

https://ai4.io/usa/?

Unisciti a noi alla conferenza leader nel settore dell’intelligenza artificiale, Ai4 2023, a Las Vegas dal 7 all’9 agosto presso il MGM Grand. Questa è la tua ultima possibilità di unirti a oltre 2200 leader dell’IA, 240 relatori e 100 espositori all’avanguardia nell’IA. Richiedi un pass gratuito o registrati ora per risparmiare il 12% sul prezzo finale.

Ultime notizie

  1. Meta rilascia Llama 2

Meta ha rilasciato Llama-2, un modello open source con licenza commerciale, che mostra prestazioni simili a ChatGPT. Addestrato su 2T di token con diverse dimensioni dei parametri, Llama-2 è stato ulteriormente affinato e migliorato attraverso una combinazione di istruzioni e apprendimento per rinforzo, superando altri modelli open source come Falcon e MPT in termini di prestazioni.

2. Annuncio di LangSmith: una piattaforma unificata per le applicazioni LLM

LangChain ha sviluppato LangSmith, una piattaforma progettata per aiutare gli sviluppatori a colmare il divario tra prototipo e produzione. Fornendo funzionalità essenziali di debug, test, valutazione e monitoraggio, LangSmith aiuta i professionisti dell’IA a individuare e affrontare problemi come risultati inattesi, errori e latenza.

3. Apple sta testando un chatbot simile a ChatGPT

Apple sta sviluppando il suo chatbot, chiamato “Apple GPT”, per sfidare OpenAI e Google. Nonostante le iniziali preoccupazioni sulla sicurezza, il chatbot è ora accessibile a un numero maggiore di dipendenti di Apple per scopi di prototipazione, con un utilizzo limitato e senza funzionalità legate ai clienti.

4. Cerebras Systems firma un accordo da 100 milioni di dollari per un supercomputer di intelligenza artificiale con G42 degli Emirati Arabi Uniti

Cerebras Systems ha annunciato un accordo da 100 milioni di dollari con G42, segnando il debutto dei supercomputer di intelligenza artificiale che potrebbero potenzialmente sfidare la posizione di mercato di Nvidia. Per accelerare il lancio, Cerebras costruirà tre sistemi Condor Galaxy negli Stati Uniti, con il primo supercomputer pronto per andare online quest’anno.

5. Istruzioni personalizzate per ChatGPT

OpenAI sta introducendo istruzioni personalizzate per ChatGPT, consentendo agli utenti di avere un’esperienza più su misura e adattabile. Questa funzionalità sottolinea l’importanza della personalizzazione nel soddisfare esigenze diverse. Le istruzioni personalizzate verranno gradualmente implementate per tutti gli utenti, con l’accesso inizialmente offerto ai sottoscrittori del piano Plus in versione beta.

Cinque letture/video da 5 minuti per continuare a imparare

  1. LLaMA 2 – Tutte le risorse di cui hai bisogno

Questo post del blog include tutte le risorse pertinenti per aiutarti a iniziare con LLaMa 2. Comprende argomenti come “Cosa è LLaMa 2”, dove puoi testare il modello, la ricerca dietro il modello, quanto è buono il modello, come porre correttamente una domanda al modello di chat e altro ancora.

2. Allucinazioni nell’intelligenza artificiale

Le allucinazioni nell’intelligenza artificiale alimentano narrazioni iperboliche attorno ai modelli fondamentali e all’open-source. È difficile sapere cosa credere e a chi affidarsi. Questa lettura illuminante di John Luttig approfondisce alcune delle narrazioni e tendenze nell’intelligenza artificiale che sono facilmente fraintese o semplicemente sbagliate.

3. Costruire una WebTV di intelligenza artificiale

Il progetto WebTV di intelligenza artificiale mostra il potenziale dei modelli di testo-video come Zeroscope e MusicGen nella generazione di video divertenti. Creato utilizzando i servizi di Hugging Face, utilizza una combinazione di ChatGPT, Zeroscope V2 e FILM per creare clip video di alta qualità con musica di accompagnamento.

4. Temere la cosa sbagliata

Mike Loukides sostiene che l’unica cosa da temere è non riuscire a fare la transizione alla programmazione assistita dall’intelligenza artificiale. Ha parlato e scritto della fine della programmazione, ma cosa significa questo nella pratica? In questo articolo, Mike condivide perché e come l’uso dell’intelligenza artificiale cambierà la disciplina nel suo complesso.

5. Come garantire la coerenza nelle immagini dell’intelligenza artificiale

Questo tutorial si concentra sulla generazione di coerenza nelle immagini dell’intelligenza artificiale. Offre tecniche di base e avanzate per ottenere un controllo di coerenza in Stable Diffusion, Midjourney e InsightFace.

Articoli e repository

  1. FlashAttention-2: Attention più veloce con una migliore parallelismo e suddivisione del lavoro

La Stanford University ha introdotto FlashAttention-2, un algoritmo che accelera l’attenzione e riduce l’utilizzo della memoria nei modelli di linguaggio. La versione aggiornata è 2 volte più veloce dell’originale e ottiene prestazioni migliorate attraverso una migliore parallelismo e tecniche di suddivisione del lavoro.

2. Perso nel mezzo: come i modelli di linguaggio utilizzano contesti lunghi

Questo studio indaga sulle prestazioni dei modelli di linguaggio nell’utilizzo di contesti estesi per compiti come la risposta alle domande e il recupero delle informazioni. Mentre i modelli eccellono nel trovare informazioni rilevanti all’inizio o alla fine dell’input, le loro prestazioni diminuiscono quando accedono alle sezioni centrali dei contesti lunghi. Lo studio evidenzia le sfide nell’utilizzare efficacemente contesti lunghi e sottolinea la necessità di miglioramenti futuri in questo ambito.

3. Verso un agente unificato con modelli fondamentali

I ricercatori hanno scoperto che l’incorporazione di modelli di linguaggio e modelli di linguaggio visivo negli agenti di apprendimento per rinforzo può affrontare sfide significative nel campo. Sfruttando le conoscenze memorizzate in questi modelli, gli agenti possono esplorare efficacemente ambienti con ricompense scarse, riutilizzare dati per l’apprendimento, pianificare abilità per compiti nuovi e apprendere dalle osservazioni degli esperti.

4. Imparare a recuperare esempi in contesto per grandi modelli di linguaggio

I ricercatori hanno sviluppato un framework che utilizza recuperatori densi per selezionare automaticamente esempi di alta qualità per l’apprendimento in contesto dei modelli di linguaggio a larga scala. I risultati sperimentali dimostrano la sua efficacia nel migliorare le prestazioni dei modelli di linguaggio a larga scala recuperando esempi simili e rilevanti dal contesto.

5. Come sta cambiando il comportamento di ChatGPT nel tempo?

Uno studio di ricerca ha esaminato le prestazioni di GPT-3.5 e GPT-4 su vari compiti nel tempo. Ha riscontrato alcune variazioni significative nel loro comportamento, con una diminuzione dell’accuratezza di GPT-4 nell’identificare i numeri primi da marzo a giugno 2023. Inoltre, entrambi i modelli hanno mostrato un aumento degli errori di formattazione durante la generazione del codice.

Ti piacciono questi articoli e riepiloghi delle notizie? Ricevi un riassunto quotidiano nella tua casella di posta!

La sezione Comunità di Learn AI Together!

Meme della settimana!

Meme condiviso da rucha8062

Post in evidenza dalla Community di Discord

Louvivien ha sviluppato un’app di trading di intelligenza artificiale open-source che si collega in modo fluido ad Alpaca, consentendo agli utenti di accedere a posizioni, ordini e condurre transazioni di azioni. Con questa app, gli utenti possono importare strategie di trading collaborative e gestire in modo efficiente i fondi di trading di intelligenza artificiale. È possibile esplorare questo progetto su GitHub e supportare un membro della community. Per coloro interessati al trading di intelligenza artificiale, è possibile unirsi a questo progetto open-source collegandosi al thread qui.

Sondaggio AI della settimana!

Unisciti alla discussione su Discord.

Sezione TAI curata

Articolo della settimana

Risolvere il problema più grande di SimCLR — Spiegazione del paper BYOL di Boris Meinardus

SimCLR ha implementato con successo l’idea del Contrastive Learning e, a quel tempo, ha raggiunto una nuova performance di stato dell’arte. Tuttavia, l’idea presenta debolezze fondamentali, come la sensibilità a specifiche trasformazioni e l’esigenza di batch molto grandi. Un nuovo approccio all’apprendimento auto-supervisionato chiamato Bootstrap Your Own Latent (BYOL), sviluppato dai ricercatori di DeepMind, implementa un approccio completamente nuovo per allenare modelli auto-supervisionati.

I nostri articoli da leggere assolutamente

Sfruttare il potere dei database vettoriali: influenzare i modelli di linguaggio con informazioni personalizzate di Pere Martra

Machine Learning in uno spazio non euclideo di Mastafa Foufa

I migliori paper di Computer Vision durante la settimana dal 10/7 al 16/7 di Youssef Hosni

Data Science Accelerata: interprete di codice ChatGPT come il tuo assistente di intelligenza artificiale di Esmaeil Alizadeh

Se sei interessato a pubblicare su Towards AI, controlla le nostre linee guida e iscriviti. Pubblicheremo il tuo lavoro sulla nostra rete se rispetta le nostre politiche editoriali e i nostri standard.

Offerte di lavoro

Responsabile del Contenuto + Relazioni con gli Sviluppatori @ngrok Inc. (Remoto)

Ingegnere Senior Backend @Remoto (Remoto)

Ingegnere Senior Software di Infrastruttura @ClickHouse (Remoto)

Developer di prodotto @Shiru (Alameda, CA, USA)

Ingegnere Senior di Test Software @Clari (Bangalore, India)

Ingegnere di prodotto @Encord (Londra, Regno Unito)

Se sei interessato a condividere un’opportunità di lavoro qui, contatta [email protected].

Se ti stai preparando per il tuo prossimo colloquio di machine learning, non esitare a visitare il nostro sito web leader nella preparazione degli interviste, confetti!