La più recente ricerca di DeepMind al ICLR 2023

'Ricerca più recente di DeepMind a ICLR 2023.'

Ricerca verso modelli di intelligenza artificiale in grado di generalizzare, scalare e accelerare la scienza

La prossima settimana segna l’inizio dell’11° Conferenza Internazionale sulla Rappresentazione dell’Apprendimento (ICLR), che si terrà dal 1 al 5 maggio a Kigali, in Ruanda. Questa sarà la prima importante conferenza sull’intelligenza artificiale (AI) ad essere ospitata in Africa e il primo evento in presenza dall’inizio della pandemia.

Ricercatori provenienti da tutto il mondo si riuniranno per condividere il loro lavoro all’avanguardia nell’apprendimento profondo che spazia nei campi dell’AI, delle statistiche e della scienza dei dati, nonché nelle applicazioni che includono la visione artificiale, il gaming e la robotica. Siamo orgogliosi di sostenere la conferenza come sponsor Diamond e campioni della diversità, equità e inclusione (DEI).

Le squadre di DeepMind presenteranno quest’anno 23 articoli. Ecco alcuni dei punti salienti:

Domande aperte sul percorso verso AGI

I progressi recenti hanno mostrato l’incredibile performance dell’AI nel campo del testo e delle immagini, ma sono necessarie ulteriori ricerche per far sì che i sistemi possano generalizzare tra domini e scale. Questo sarà un passo cruciale nel percorso verso lo sviluppo dell’intelligenza artificiale generale (AGI) come strumento trasformativo nella nostra vita quotidiana.

Presentiamo un nuovo approccio in cui i modelli imparano risolvendo due problemi contemporaneamente. Addestrando i modelli a considerare un problema da due prospettive contemporaneamente, imparano come ragionare su compiti che richiedono la soluzione di problemi simili, il che è vantaggioso per la generalizzazione. Abbiamo anche esplorato la capacità delle reti neurali di generalizzare confrontandole con la gerarchia di Chomsky delle lingue. Attraverso rigorosi test su 2200 modelli su 16 diversi compiti, abbiamo scoperto che alcuni modelli faticano a generalizzare e abbiamo constatato che migliorare le prestazioni richiede l’uso di memoria esterna.

Un’altra sfida che affrontiamo è come progredire in compiti a lungo termine a livello di esperti, in cui le ricompense sono poche e distanti tra loro. Abbiamo sviluppato un nuovo approccio e un set di dati di addestramento open-source per aiutare i modelli a imparare ad esplorare in modi simili agli esseri umani nel corso di lunghi orizzonti temporali.

Approcci innovativi

Man mano che sviluppiamo capacità di intelligenza artificiale sempre più avanzate, è necessario assicurarsi che i metodi attuali funzionino come previsto ed in modo efficiente nel mondo reale. Ad esempio, anche se i modelli di linguaggio possono produrre risposte impressionanti, molti non sono in grado di spiegare le loro risposte. Introduciamo un metodo per utilizzare i modelli di linguaggio per risolvere problemi di ragionamento a più passaggi sfruttando la loro struttura logica sottostante, fornendo spiegazioni che possono essere comprese e verificate dagli esseri umani. D’altra parte, gli attacchi avversari sono un modo per sondare i limiti dei modelli di intelligenza artificiale spingendoli a creare output errati o dannosi. L’addestramento su esempi avversari rende i modelli più robusti agli attacchi, ma può comportare una riduzione delle prestazioni su input “regolari”. Mostreremo che aggiungendo adattatori possiamo creare modelli che ci consentono di controllare questo compromesso al volo.

L’apprendimento per rinforzo (RL) si è dimostrato efficace per una serie di sfide del mondo reale, ma gli algoritmi RL sono di solito progettati per svolgere un solo compito e faticano a generalizzare a nuovi compiti. Proponiamo la distillazione dell’algoritmo, un metodo che consente a un singolo modello di generalizzare in modo efficiente a nuovi compiti addestrando un trasformatore a imitare le storie di apprendimento degli algoritmi RL su compiti diversi. I modelli RL imparano anche per tentativi ed errori, che possono richiedere molta quantità di dati e tempo. Ci sono voluti quasi 80 miliardi di frame di dati affinché il nostro modello Agent 57 raggiungesse una performance di livello umano in 57 giochi Atari. Condivideremo un nuovo modo di addestrare a questo livello utilizzando il 200 volte meno esperienza, riducendo notevolmente i costi di calcolo ed energia.

IA per la scienza

L’IA è uno strumento potente per i ricercatori per analizzare grandi quantità di dati complessi e comprendere il mondo che ci circonda. Diversi articoli mostrano come l’IA stia accelerando il progresso scientifico e come la scienza stia avanzando nell’IA.

La previsione delle proprietà di una molecola dalla sua struttura tridimensionale è fondamentale per la scoperta di nuovi farmaci. Presentiamo un metodo di denoising che raggiunge un nuovo stato dell’arte nella previsione delle proprietà molecolari, consente un addestramento su larga scala e generalizza su diversi dataset biologici. Introduciamo anche un nuovo trasformatore che può effettuare calcoli di chimica quantistica più accurati utilizzando solo dati sulle posizioni atomiche.

Infine, con FIGnet, ci ispiriamo alla fisica per modellare le collisioni tra forme complesse, come una teiera o un ciambellone. Questo simulatore potrebbe avere applicazioni nella robotica, nei grafici e nel design meccanico.

Vedi l’elenco completo degli articoli di DeepMind e il programma degli eventi a ICLR 2023.