Come funzionano 8 modelli più piccoli in GPT4?

Funzionamento di 8 modelli più piccoli in GPT4?

Il segreto del “Modello degli Esperti” è stato svelato; capiamo perché GPT4 è così buono!

Negli ultimi anni, i modelli di deep learning sono stati il fulcro di tutto. Ogni azienda li sta sviluppando. E con ciò è iniziata la corsa al modello più grande e potente! Abbiamo tutti visto grafici che mostrano le dimensioni dei modelli come questi —

Fonte: Ref

Abbiamo tutti confrontato Chinchillas, GPT-3, PaLM e molti altri. Durante tutto questo tempo, Microsoft e OpenAI hanno lavorato su GPT-4. Hanno creato tutto il mistero intorno allo sviluppo di GPT-4. Tutti speculavano che GPT-4 sarebbe stato il primo modello con trilioni di parametri. Sebbene il margine di miglioramento delle prestazioni del modello GPT-3 fosse piuttosto basso, ci aspettavamo molto da GPT-4. E poi le notizie/voci sono diventate realtà. GPT-4 non è realmente un singolo modello, ma sono otto modelli più piccoli di 220 miliardi di parametri, che lavorano insieme per produrre un modello mastodontico di 1,6-1,7 trilioni di parametri.

GPT-4: Otto Modelli in Uno ; Il Segreto è Stato Svelato

GPT4 ha tenuto il modello segreto per evitare concorrenza, ora il segreto è stato svelato!

pub.towardsai.net

Come funzionano insieme otto modelli?

Per rispondere a questa domanda, dobbiamo tornare indietro nel tempo. 33 anni fa, nel 1991, Robert A. Jacobs, Michael I. Jordan, Steven J. Nowlan e il padrino dell’AI, Geoffrey Hinton, hanno scritto un articolo intitolato “Adaptive Mixtures of Local Experts”.

Hanno scritto,

“Presentiamo una nuova procedura di apprendimento supervisionato per un sistema composto da molte reti separate, ognuna delle quali impara a gestire un sottoinsieme completo di casi di addestramento. La nuova procedura può essere vista sia come una versione modulare di una rete supervisionata multistrato, sia come una versione associativa dell’apprendimento competitivo. Pertanto, fornisce un nuovo collegamento tra queste due approcci apparentemente diversi. Dimostriamo che la procedura di apprendimento suddivide un compito di discriminazione delle vocali in sotto-task appropriati, ciascuno dei quali può essere risolto da una rete di esperti molto semplice.”

Cosa significa? Scopriamolo —