Emily Webber di AWS su Preallenamento di Grandi Modelli di Linguaggio

Emily Webber di AWS sul Preallenamento di Modelli di Linguaggio

A volte, quando emergono nuovi campi all’interno della scienza dei dati e la ricerca è ancora difficile da comprendere, è meglio parlare con gli esperti e i pionieri del settore. Di recente, abbiamo parlato con Emily Webber, Principal Machine Learning Specialist Solutions Architect presso AWS. È autrice di “Pretrain Vision and Large Language Models in Python: Tecniche end-to-end per la costruzione e l’implementazione di modelli fondamentali su AWS”. Nell’intervista, abbiamo discusso della preformazione di modelli di visione e dei grandi modelli di linguaggio (LLM) in Python. Puoi ascoltare l’intervista completa qui e leggere la trascrizione di due domande interessanti con Emily Webber di seguito.

Q: I LLM non hanno raggiunto popolarità fino alla fine del 2022. Da cosa hai avuto l’idea di iniziare a scrivere questo libro prima dell’ascesa dei LLM?

Emily Webber: Per me, il momento emozionante sono state le leggi di scalabilità, più di ogni altra cosa. Ovviamente, ci interessa interagire con i LLM e vedere l’output di linguaggio ad alta prestazione prodotto dai modelli, ma sono rimasta davvero colpita dalle leggi di scalabilità più di ogni altra cosa.

Nell’apprendimento automatico, gran parte del nostro lavoro è sperimentale. Proviamo una cosa, otteniamo un’accuratezza, valutiamo i risultati e poi proviamo e riproviamo. È un processo estremamente iterativo e sperimentale, ma c’è anche un grado di incertezza in cui non c’è davvero un modo efficace per sapere quanto bene il tuo modello si comporterà dopo un certo periodo.

E così, quando ho visto le leggi di scalabilità di Jared Kaplan all’inizio del 2020, per me è stato il vero cambiamento, perché in sostanza, le leggi di scalabilità ci danno un modo per stimare le

prestazioni del tuo modello. È letteralmente un’equazione in cui puoi dire “Oh, ecco quanti acceleratori ho, ecco quanto è grande il mio set di dati e ecco il mio modello, quindi qual è la mia accuratezza?” E quando hai quell’equazione, puoi sperimentare e quantificare molto più facilmente quanto buono sarà il tuo modello.

In pratica, ho visto questo e mi ha spinto a rivalutare il mio percorso di apprendimento automatico

e il modo in cui mi approcciavo all’IA. Ancora e ancora, questo è emerso in vari modi mentre i modelli diventavano più grandi e le tecniche di ottimizzazione miglioravano. E poi ho trascorso molti anni lavorando con i clienti. Presso AWS, collaboro con clienti che stavano realizzando i loro progetti di modellazione su larga scala molto prima che diventasse di moda, ma perché vedevano i benefici, potevano anche cogliere questa tendenza e quindi mi ha convinto che questo è davvero il futuro.

Q: Quali sono altri sviluppi nell’IA che vale la pena tenere d’occhio?

Emily Webber: In un certo senso, se guardi alcune delle performance più interessanti e all’avanguardia nell’IA degli ultimi dieci anni, molto di esso ha a che fare con la scala. Molto dipende dalla costruzione di un sistema distribuito davvero eccellente utilizzando tecniche per ottimizzare i tuoi set di dati a una scala molto ampia e ottimizzare le tue reti neurali e i tuoi modelli a una scala molto ampia.

Richard Sutton, considerato il padre del reinforcement learning, ha scritto questo famoso post sul blog nel 2019 chiamato “The Bitter Lesson”. E quindi la lezione amara di Richard Sutton, che discuto in dettaglio nel libro insieme alle leggi di scalabilità, essenzialmente Sutton si arrende e dice “Oh, quello che abbiamo imparato dopo gli ultimi 70 anni di ricerca sull’IA è che ciò che alla fine ha più impatto è ciò che utilizza più calcoli”.

Per me, più di ogni altra cosa, è un gioco di efficienza. I modelli fondamentali sono potenti perché sono semplicemente più efficienti; invece di andare a caccia di centinaia e migliaia di questi piccoli alberi, o regressioni logistiche, o addirittura boosting o RNN o CNN, anziché N modelli, creiamo un unico modello massiccio che fa tutto, che ha tutti i casi d’uso, che ha tutta l’alta accuratezza e lo caricano inizialmente, puntando a creare questo modello di grandi dimensioni, ma poi possiamo usarlo per tutto.

Con SageMaker e lavorando con i clienti presso Amazon, è già abbastanza difficile portare a termine un progetto di apprendimento automatico dall’ideazione, alla scalabilità, all’operazionalizzazione, al ciclo di vita del prodotto e alla gestione. I modelli fondamentali sono potenti perché sono efficienti ed è semplicemente un uso più efficiente e razionale delle risorse. Una volta che ho visto questo prendere vita essenzialmente attraverso il mio lavoro presso AWS, sono diventata convinta che questa è semplicemente la direzione da seguire senza ambiguità.

Come approfondire la conoscenza dei grandi modelli di linguaggio

Se non hai ancora iniziato a utilizzare grandi modelli di lingua o desideri approfondire le tue competenze esistenti, allora ODSC West è la conferenza giusta per te. Dal 30 ottobre al 2 novembre, potrai partecipare a decine di sessioni legate all’NLP, ai grandi modelli di lingua e altro ancora. Ecco alcune sessioni confermate con molte altre in arrivo:

  • Personalizzazione dei modelli di lingua con uno Store di Funzionalità: Jim Dowling | CEO | Hopsworks
  • Tecniche di valutazione per grandi modelli di lingua: Rajiv Shah, PhD | Ingegnere di Machine Learning | Hugging Face
  • Comprensione del panorama dei grandi modelli: Lukas Biewald | CEO e Co-fondatore | Weights & Biases

Non perdere tempo e acquista il tuo biglietto! Lo sconto del 60% termina presto! Registrati qui.