Modellizzazione del linguaggio su larga scala Gopher, considerazioni etiche e recupero

Modellizzazione linguaggio Gopher su larga scala considerazioni etiche e recupero.

Il linguaggio e il suo ruolo nel dimostrare e facilitare la comprensione – o l’intelligenza – è una parte fondamentale dell’essere umano. Conferisce alle persone la capacità di comunicare pensieri e concetti, esprimere idee, creare ricordi e costruire comprensione reciproca. Questi sono elementi fondamentali dell’intelligenza sociale. È per questo che i nostri team di DeepMind studiano gli aspetti del trattamento del linguaggio e della comunicazione, sia negli agenti artificiali che negli esseri umani.

Come parte di un portafoglio più ampio di ricerca sull’IA, crediamo che lo sviluppo e lo studio di modelli di linguaggio più potenti – sistemi che prevedono e generano testo – abbiano un enorme potenziale per la costruzione di sistemi avanzati di intelligenza artificiale che possano essere utilizzati in modo sicuro ed efficiente per riassumere informazioni, fornire consigli esperti e seguire istruzioni attraverso il linguaggio naturale. Lo sviluppo di modelli di linguaggio benefici richiede la ricerca sui loro potenziali impatti, compresi i rischi che comportano. Ciò include la collaborazione tra esperti di diverse discipline per prevedere e affrontare attentamente le sfide che l’addestramento degli algoritmi su set di dati esistenti può creare.

Oggi pubblichiamo tre articoli su modelli di linguaggio che riflettono questo approccio interdisciplinare. Essi includono uno studio dettagliato su un modello di linguaggio trasformatore chiamato Gopher con 280 miliardi di parametri, uno studio sui rischi etici e sociali associati ai grandi modelli di linguaggio e un articolo che indaga una nuova architettura con una migliore efficienza nell’addestramento.

Gopher – Un modello di linguaggio con 280 miliardi di parametri

Nella ricerca per esplorare i modelli di linguaggio e svilupparne di nuovi, abbiamo addestrato una serie di modelli di linguaggio trasformatore di diverse dimensioni, che vanno da 44 milioni di parametri a 280 miliardi di parametri (il modello più grande che abbiamo chiamato Gopher).

La nostra ricerca ha indagato i punti di forza e di debolezza di questi modelli di diverse dimensioni, evidenziando le aree in cui aumentare la scala di un modello continua a migliorarne le prestazioni – ad esempio, in aree come la comprensione della lettura, la verifica dei fatti e l’identificazione del linguaggio tossico. Sono stati presentati anche risultati in cui la scala del modello non migliora significativamente i risultati – ad esempio, nel ragionamento logico e nelle attività di buon senso.

Prestazioni sul benchmark Massive Multitask Language Understanding (MMLU) suddivise per categoria. Gopher migliora il lavoro precedente in diverse categorie.

Nella nostra ricerca, abbiamo scoperto che le capacità di Gopher superano i modelli di linguaggio esistenti per diverse attività chiave. Questo include il benchmark Massive Multitask Language Understanding (MMLU), in cui Gopher dimostra un significativo avanzamento verso le prestazioni di un esperto umano rispetto al lavoro precedente.

Oltre alla valutazione quantitativa di Gopher, abbiamo anche esplorato il modello attraverso l’interazione diretta. Tra le nostre principali scoperte c’è il fatto che, quando Gopher viene indirizzato verso un’interazione di dialogo (come in una chat), il modello può talvolta fornire una sorprendente coerenza.

Qui Gopher può discutere di biologia cellulare e fornire una citazione corretta nonostante l’assenza di un addestramento specifico sul dialogo. Tuttavia, la nostra ricerca ha anche descritto diverse modalità di fallimento che persistono a prescindere dalle dimensioni del modello, tra cui una tendenza alla ripetizione, la riflessione di stereotipi e la diffusione sicura di informazioni errate.

Questo tipo di analisi è importante perché la comprensione e la documentazione delle modalità di fallimento ci danno un’idea di come i grandi modelli di linguaggio possano portare a danni successivi e ci mostrano dove gli sforzi di mitigazione nella ricerca dovrebbero concentrarsi per affrontare tali problemi.

Rischi etici e sociali dei grandi modelli di linguaggio

Nel nostro secondo articolo, anticipiamo i possibili rischi etici e sociali dei modelli di linguaggio e creiamo una classificazione completa di questi rischi e delle modalità di fallimento, basandoci sulla ricerca precedente in questo campo [Bommasani et al 2021, Bender et al 2021, Patterson et al 2021]. Questa panoramica sistematica è un passo essenziale per comprendere questi rischi e mitigare i possibili danni. Presentiamo una tassonomia dei rischi legati ai modelli di linguaggio, suddivisi in sei aree tematiche, e approfondiamo 21 rischi.

Avere una visione ampia delle diverse aree di rischio è essenziale: come mostrato nell’articolo, una focalizzazione eccessivamente stretta su un singolo rischio in isolamento può aggravare altri problemi. La tassonomia che presentiamo serve come base per esperti e per un dibattito pubblico più ampio per costruire una panoramica condivisa delle considerazioni etiche e sociali sui modelli di linguaggio, prendere decisioni responsabili e scambiare approcci per affrontare i rischi identificati.

La nostra ricerca ha individuato due aree in particolare che richiedono ulteriori approfondimenti. In primo luogo, gli attuali strumenti di benchmarking sono insufficienti per valutare alcuni rischi importanti, ad esempio quando i modelli di linguaggio emettono informazioni errate e le persone si fidano che tali informazioni siano vere. Valutare rischi come questi richiede un’analisi più approfondita dell’interazione uomo-computer con i modelli di linguaggio. Nel nostro articolo elenchiamo diversi rischi che richiedono strumenti di analisi nuovi o più interdisciplinari. In secondo luogo, è necessario un lavoro più approfondito sulle mitigazioni del rischio. Ad esempio, si sa che i modelli di linguaggio riproducono stereotipi sociali dannosi, ma la ricerca su questo problema è ancora agli stadi iniziali, come ha dimostrato un recente articolo di DeepMind.

Addestramento efficiente con recupero su scala Internet

Il nostro ultimo articolo si basa sulle fondamenta di Gopher e sulla nostra tassonomia dei rischi etici e sociali, proponendo un’architettura di modello di linguaggio migliorata che riduce il costo energetico dell’addestramento e facilita il tracciamento delle uscite del modello alle fonti all’interno del corpus di addestramento.

Il Retrieval-Enhanced Transformer (RETRO) è preaddestrato con un meccanismo di recupero su scala Internet. Ispirandosi al modo in cui il cervello si affida a meccanismi di memoria dedicati durante l’apprendimento, RETRO effettua query efficienti per passaggi di testo al fine di migliorare le sue previsioni. Confrontando i testi generati con i passaggi su cui RETRO si è basato per la generazione, possiamo interpretare perché il modello effettua determinate previsioni e da dove provengono. Vediamo anche come il modello ottiene prestazioni paragonabili a un Transformer regolare con un ordine di grandezza di parametri inferiore e ottiene prestazioni all’avanguardia su diversi benchmark di modellazione del linguaggio.

Prospettive future

Questi articoli offrono una base per la ricerca linguistica di DeepMind in futuro, in particolare nelle aree che avranno un impatto su come questi modelli vengono valutati e implementati. Affrontare queste aree sarà fondamentale per garantire interazioni sicure con gli agenti di intelligenza artificiale, sia che si tratti di persone che comunicano agli agenti ciò che desiderano, sia che si tratti di agenti che spiegano le proprie azioni alle persone. La ricerca nella comunità più ampia sull’uso della comunicazione per la sicurezza include spiegazioni in linguaggio naturale, l’uso della comunicazione per ridurre l’incertezza e l’uso del linguaggio per scomporre decisioni complesse in elementi come l’amplificazione, il dibattito e la modellazione ricorsiva del reward, tutte aree critiche di esplorazione.

Nel proseguire la nostra ricerca sui modelli di linguaggio, DeepMind sarà cauta e riflessiva. Ciò richiede di fare un passo indietro per valutare la situazione in cui ci troviamo, mappare i rischi potenziali e studiare le mitigazioni. Cercheremo di essere trasparenti e aperti sulle limitazioni dei nostri modelli e lavoreremo per mitigare i rischi identificati. Ad ogni passo, ci avvaliamo della vasta esperienza dei nostri team multidisciplinari, tra cui i team di Linguaggio, Deep Learning, Etica e Sicurezza. Questo approccio è fondamentale per creare grandi modelli di linguaggio che servono la società, perseguendo la nostra missione di risolvere l’intelligenza per avanzare nella scienza e beneficiare dell’umanità.