L’evoluzione automatizzata affronta compiti difficili

L'evoluzione automatizzata affronta compiti difficili' can be condensed to 'L'evoluzione automatizzata affronta compiti difficili'.

L'intersezione tra calcolo naturale ed evolutivo nel contesto dell'apprendimento automatico e del calcolo naturale. ¶ Credito: Evolutionary Machine Learning: A Survey, AKBAR TELIKANI et al, https://doi.org/10.1145/3467477

Le reti neurali profonde (DNN) che utilizzano l’apprendimento per rinforzo (RL, che esplora uno spazio di decisioni casuali per combinazioni vincenti) possono creare algoritmi che si avvicinano a quelli prodotti dagli esseri umani per giochi, elaborazione del linguaggio naturale (NLP), visione artificiale (CV), istruzione, trasporti, finanza, assistenza sanitaria e robotica, secondo il documento fondamentale “Introduzione all’apprendimento automatico per rinforzo profondo” (DRL).

Purtroppo, i successi delle DNN stanno diventando sempre più difficili da ottenere a causa della sensibilità dei parametri iniziali scelti (come la larghezza e la profondità della DNN, così come altre condizioni iniziali specifiche dell’applicazione). Tuttavia, queste limitazioni sono state recentemente superate combinando RL con il calcolo evolutivo (EC), che mantiene una popolazione di agenti di apprendimento, ognuno con condizioni iniziali uniche, che insieme “evolvono” una soluzione ottimale, secondo Ran Cheng e colleghi della Southern University of Science and Technology, Shenzhen, Cina, in collaborazione con la Bielefeld University in Germania e l’University of Surrey nel Regno Unito.

Scegliendo tra molti agenti di apprendimento in evoluzione (ciascuno con diverse condizioni iniziali), l’apprendimento per rinforzo evolutivo (EvoRL) sta estendendo l’intelligenza del DRL a compiti umani interdisciplinari difficili da risolvere come automobili autonome e robot, secondo Jurgen Branke, professore di Ricerca Operativa e Sistemi presso l’University of Warwick nel Regno Unito e redattore capo della nuova rivista dell’ACM Transactions on Evolutionary Learning and Optimization.

Ha affermato Branke: “La natura utilizza due modalità di adattamento: l’evoluzione e l’apprendimento. Quindi non è sorprendente che la combinazione di questi due paradigmi sia anche di successo ‘in-silico’ [cioè l’evoluzione algoritmica simile all’evoluzione biologica ‘in-vivo’]”.

Apprendimento per Rinforzo

L’apprendimento per rinforzo è l’algoritmo di apprendimento più recente per le reti neurali profonde (DNN differiscono dal percettrone a tre strati originale aggiungendo molti strati intermedi, il cui funzionamento non è completamente compreso dai programmatori, chiamato scatola nera). I primi due metodi di apprendimento principali per DNN erano supervisionati, ossia apprendimento da dati etichettati da esseri umani (come fotografie di uccelli, auto e fiori, ciascuna etichettata come tale) per imparare a riconoscere e etichettare automaticamente nuove fotografie. Il secondo metodo di apprendimento più popolare era non supervisionato, che raggruppa dati non etichettati in gruppi simili o diversi, in base a comunanze trovate dalla scatola nera della DNN.

L’apprendimento per rinforzo, d’altra parte, raggruppa dati non etichettati in insiemi di preferenze, ma con l’obiettivo di massimizzare le ricompense cumulative che riceve da una funzione di valutazione umana. Il risultato è una DNN che utilizza RL per superare gli altri metodi di apprendimento, sebbene utilizzando ancora strati interni che non si adattano a un modello matematico conoscibile. Ad esempio, nella teoria dei giochi, le ricompense cumulative sarebbero le partite vinte. ‘Ottimizzazione’ viene spesso utilizzato per descrivere la metodologia ottenuta dall’apprendimento per rinforzo, secondo Marco Wiering presso l’University of Groningen (Paesi Bassi) e Martijn Otterlo presso la Radboud University (Nijmegen, Paesi Bassi) nel loro documento del 2012 “Reinforcement Learning”, anche se non esiste un modo per dimostrare che il “comportamento ottimale” trovato con RL sia la soluzione “più” ottimale.

A tal fine, RL esplora gli angoli oscuri e nascosti di uno spazio soluzione per vedere se si ottengono ricompense più ottimali, così come per indurre la DNN a soluzioni più ottimali a partire dalle sue conoscenze già accumulate che hanno dimostrato di produrre più ricompense. L’apprendimento per rinforzo raggiunge ricompense cumulative sempre più alte man mano che si avvicina all’ottimizzazione, secondo Richard Sutton, professore di Scienze Informatiche in Apprendimento per Rinforzo e Intelligenza Artificiale presso l’University of Alberta in Canada e Distinguished Research Scientist presso DeepMind, che lavora con Andrew Bartow, professore emerito di informatica presso l’University of Massachusetts (Amherst), nel loro articolo del 2012 “Reinforcement learning: An introduction”.

Il reinforcement learning evolutivo (EvoRL) utilizza sei metodologie principali, la prima delle quali è l'ottimizzazione degli iperparametri, un algoritmo universale utilizzato anche nelle altre cinque metodologie in quanto consente di realizzare contemporaneamente l'apprendimento end-to-end e il miglioramento delle prestazioni. La ricerca della politica cerca di identificare una politica che massimizzi la ricompensa cumulativa per un dato compito. L'esplorazione incoraggia gli agenti a esplorare più stati e azioni e addestra agenti robusti a rispondere meglio ai cambiamenti dinamici negli ambienti. La modellazione della ricompensa mira a migliorare la ricompensa originale con ulteriori ricompense per compiti con ricompense scarse. Il Meta-RL cerca di sviluppare un algoritmo di apprendimento di tipo generale che possa adattarsi a diversi compiti. L'RL multi-oggetto mira a ottenere agenti compromesso in compiti con un numero di obiettivi in conflitto. Credit: Evolutionary Reinforcement Learning: A Survey

Calcolo Evolutivo

Il calcolo evolutivo, d’altra parte, crea una popolazione casuale di agenti risolutori di problemi, quindi li “evolve” sottoponendo ciascuno a una selezione “naturale”, cioè scartando i peggiori, mutando gli altri e ripetendo il processo. Ogni agente viene valutato rispetto a una funzione di fitness, come nella “sopravvivenza del più adatto”. Il processo viene ripetuto quante volte necessario fino a ottenere una soluzione ottimale, sebbene non garantita essere perfettamente ottimale.

Quando il calcolo evolutivo viene combinato con il reinforcement learning (EvoRL), la metodologia combinata evolve una popolazione di agenti, ognuno con diverse condizioni iniziali specifiche dell’applicazione, eliminando così la necessità di riavviare manualmente un DRL che non converge su un ottimo adeguato.

“EvoRL fornisce un potente framework per affrontare problemi complessi sfruttando i punti di forza del RL e dei metodi evolutivi. Consente agli agenti di esplorare un’ampia gamma di politiche, portando alla scoperta di strategie innovative e contribuendo allo sviluppo di sistemi autonomi”, ha detto Giuseppe Paolo, Senior AI Research Scientist presso Noah’s Ark Lab di Huawei (Parigi) e guest editor di un numero speciale imminente su Evolutionary Reinforcement Learning del nuovo giornale Transactions on Evolutionary Learning and Optimization dell’ACM.

Aggiunge un altro guest editor, Adam Gaier, Principal Research Scientist presso Autodesk’s AI Lab (Germania), “Volevamo portare l’attenzione di ricercatori e professionisti di entrambi i settori su questo campo combinato come modo per incoraggiare ulteriori esplorazioni. Nel numero speciale, presentiamo una vasta rassegna del campo, nuove ricerche originali e un’applicazione di EvoRL a un problema del mondo reale. EvoRL è quindi un campo sempre più attivo che combina il potere del Reinforcement Learning (RL) e del Calcolo Evolutivo per affrontare gli ostacoli principali dell’RL. Mentre l’RL eccelle in compiti complessi, fatica con la sensibilità ai valori iniziali di configurazione, nel determinare le azioni che portano a ricompense ritardate e nella navigazione di obiettivi in conflitto. D’altra parte, gli Algoritmi Evolutivi (EA) gestiscono questi problemi, ma falliscono nel trattare la scarsità di dati e problemi complessi ad alta dimensionalità. EvoRL combina elegantemente l’ottimizzazione dell’RL e i metodi basati sulla popolazione degli EA, migliorando la diversità di esplorazione e superando i vincoli degli EA, amplificando al contempo i punti di forza dell’RL.”

Mentre il reinforcement learning da solo di solito segue il gradiente fornito dalla funzione di valutazione per migliorare efficacemente le soluzioni potenziali, il calcolo evolutivo inizia con una popolazione di soluzioni candidate le cui condizioni iniziali sono scelte casualmente. La popolazione viene valutata dalla funzione di fitness fornita dall’essere umano. Quelle con la fitness più bassa vengono scartate, mentre le altre vengono mutate attraverso il calcolo evolutivo e il processo si ripete fino al raggiungimento del punto di rendimenti decrescenti nell’ottimizzazione. Ciò consente al processo evolutivo di essere meno soggetto a rimanere bloccato in ottimi locali (un ostacolo per gli approcci basati sul gradiente) e fornisce “creatività”, secondo Antoine Cully, docente senior in Robotica e Intelligenza Artificiale e direttore del Laboratorio di Robotica Adattiva e Intelligente presso il Dipartimento di Informatica dell’Imperial College London del Regno Unito.

Ha detto Cully, anche un guest editor per il numero speciale, “Il dominio dell’Apprendimento Rinforzato Evolutivo è un’area di ricerca molto eccitante poiché combina la creatività e le capacità di esplorazione degli algoritmi evolutivi, con l’efficacia della discesa del gradiente dell’Apprendimento Rinforzato Profondo, che permette di ottimizzare politiche di reti neurali complesse. Siamo solo all’inizio nell’esplorare le sinergie tra queste due aree di ricerca, ma ha già dimostrato di essere fruttuoso.”

Secondo Cheng et al, ci sono sei principali varianti di EvoRL utilizzate oggi (come elencato nella didascalia della grafica sopra). L’efficienza è una delle principali direzioni future per il perfezionamento, poiché tutti e sei gli algoritmi principali di EvoRL richiedono molte risorse computazionali. Sono necessari miglioramenti nelle codifiche, nei metodi di campionamento, negli operatori di ricerca, nei framework algoritmici e nelle metodologie di fitness/valutazione. Sono necessari anche benchmark, ma potrebbe essere difficile stabilirli, secondo Cheng et al, poiché le sei approcci di base utilizzano iperparametri diversi e algoritmi specifici per l’applicazione. Sono anche necessarie piattaforme scalabili che vengono sviluppate, ma al momento sono principalmente limitate a uno o due dei sei principali approcci.”

R. Colin Johnson è un Kyoto Prize Fellow che ha lavorato come giornalista tecnologico per due decenni.