Un modo più efficace per addestrare le macchine per situazioni incerte del mondo reale.

A more effective way to train machines for uncertain real-world situations.

I ricercatori sviluppano un algoritmo che decide quando una macchina studente dovrebbe seguire il suo insegnante e quando dovrebbe imparare da sola.

A collage shows, on left, a row of chalk boards with complex math on them. The scene is cut diagonally, and on right is a silhouette of a head looking away from the boards, and a lightbulb is inside the head. The head is connected to the green balls of a neural network.

Qualcuno che impara a giocare a tennis potrebbe assumere un insegnante per imparare più velocemente. Poiché questo insegnante è (sperabilmente) un grande giocatore di tennis, ci sono momenti in cui cercare di imitare esattamente l’insegnante non aiuta lo studente a imparare. Forse l’insegnante salta in alto per tornare agilmente una volée. Lo studente, incapace di copiarlo, potrebbe invece provare alcune altre mosse da solo finché non ha padroneggiato le abilità necessarie a tornare le volée.

Anche gli scienziati informatici possono utilizzare sistemi “insegnanti” per addestrare un’altra macchina a completare un compito. Ma proprio come con l’apprendimento umano, la macchina studente si trova di fronte al dilemma di sapere quando seguire l’insegnante e quando esplorare da sola. A tal fine, ricercatori del MIT e del Technion, l’Istituto Israeliano di Tecnologia, hanno sviluppato un algoritmo che determina automaticamente e indipendentemente quando lo studente dovrebbe imitare l’insegnante (conosciuto come apprendimento per imitazione) e quando dovrebbe invece imparare attraverso prova ed errore (conosciuto come apprendimento per rinforzo).

Il loro approccio dinamico consente allo studente di divergere dalla copia dell’insegnante quando quest’ultimo è troppo bravo o non abbastanza bravo, ma poi tornare a seguire l’insegnante in un momento successivo del processo di formazione se ciò comporta risultati migliori e un apprendimento più rapido.

Quando i ricercatori hanno testato questo approccio in simulazioni, hanno scoperto che la loro combinazione di apprendimento per prova ed errore e apprendimento per imitazione ha permesso agli studenti di apprendere compiti in modo più efficace rispetto ai metodi che utilizzano solo un tipo di apprendimento.

Questo metodo potrebbe aiutare i ricercatori a migliorare il processo di formazione per le macchine che verranno utilizzate in situazioni reali incerte, come un robot addestrato a navigare all’interno di un edificio che non ha mai visto prima.

“Questa combinazione di apprendimento per prova ed errore e seguendo un insegnante è molto potente. Dà al nostro algoritmo la capacità di risolvere compiti molto difficili che non possono essere risolti utilizzando una sola tecnica”, afferma Idan Shenfeld, studente di laurea in ingegneria elettrica e informatica (EECS) e autore principale di un articolo su questa tecnica.

Shenfeld ha scritto l’articolo con i coautori Zhang-Wei Hong, uno studente di laurea in EECS; Aviv Tamar, professore associato di ingegneria elettrica e informatica al Technion; e l’autore senior Pulkit Agrawal, direttore di Improbable AI Lab e professore associato nel Laboratorio di Scienze Informatiche e Intelligenza Artificiale. La ricerca sarà presentata alla Conferenza Internazionale sull’Apprendimento Automatico.

Trovare un equilibrio

Molti dei metodi esistenti che cercano di trovare un equilibrio tra apprendimento per imitazione e apprendimento per rinforzo lo fanno attraverso la prova ed errore a forza bruta. I ricercatori scelgono una combinazione pesata dei due metodi di apprendimento, eseguono l’intera procedura di formazione e poi ripetono il processo finché non trovano l’equilibrio ottimale. Questo è inefficiente e spesso così computazionalmente costoso da non essere neanche fattibile.

“Vogliamo algoritmi che siano fondati, che coinvolgano l’ottimizzazione di pochi parametri e che raggiungano alte prestazioni – questi principi hanno guidato la nostra ricerca”, afferma Agrawal.

Per raggiungere questo obiettivo, il team ha affrontato il problema in modo diverso rispetto al lavoro precedente. La loro soluzione prevede la formazione di due studenti: uno con una combinazione pesata di apprendimento per rinforzo e apprendimento per imitazione e un secondo che può utilizzare solo l’apprendimento per rinforzo per apprendere lo stesso compito.

L’idea principale è quella di regolare automaticamente e dinamicamente la ponderazione degli obiettivi di apprendimento per rinforzo e imitazione del primo studente. Qui entra in gioco il secondo studente. L’algoritmo dei ricercatori confronta continuamente i due studenti. Se quello che utilizza l’insegnante sta facendo meglio, l’algoritmo mette maggior peso sull’apprendimento per imitazione per addestrare lo studente, ma se quello che utilizza solo la prova ed errore sta ottenendo risultati migliori, si concentrerà di più sull’apprendimento dal rinforzo.

Determinando dinamicamente quale metodo ottiene risultati migliori, l’algoritmo è adattativo e può scegliere la migliore tecnica durante l’intero processo di formazione. Grazie a questa innovazione, è in grado di insegnare in modo più efficace agli studenti rispetto ad altri metodi che non sono adattivi, afferma Shenfeld.

“Una delle principali sfide nello sviluppare questo algoritmo è stata che ci è voluto del tempo per capire che non dovremmo addestrare i due studenti in modo indipendente. È diventato chiaro che dovevamo collegare gli agenti per farli condividere le informazioni e poi trovare il modo giusto per fondare tecnicamente questa intuizione”, dice Shenfeld.

Risolvere problemi difficili

Per testare il loro approccio, i ricercatori hanno creato molte simulazioni di addestramento insegnante-studente, come la navigazione attraverso un labirinto di lava per raggiungere l’angolo opposto di una griglia. In questo caso, l’insegnante ha una mappa dell’intera griglia mentre lo studente può vedere solo una porzione di essa davanti a sé. Il loro algoritmo ha ottenuto un tasso di successo quasi perfetto in tutti gli ambienti di testing ed è stato molto più veloce rispetto ad altri metodi.

Per dare un test ancora più difficile al loro algoritmo, hanno allestito una simulazione che coinvolge una mano robotica con sensori di tocco ma senza visione, che deve riorientare una penna nella posizione corretta. Il docente aveva accesso all’orientamento effettivo della penna, mentre lo studente poteva solo utilizzare i sensori di tocco per determinare l’orientamento della penna.

Il loro metodo ha superato altri che utilizzavano solo l’apprendimento per imitazione o solo l’apprendimento per rinforzo.

Il riorientamento degli oggetti è una tra le numerose attività di manipolazione che un futuro robot domestico dovrebbe eseguire, una visione alla quale sta lavorando il laboratorio Improbable AI, aggiunge Agrawal.

L’apprendimento insegnante-studente è stato applicato con successo per addestrare i robot a eseguire complesse attività di manipolazione degli oggetti e di locomozione in simulazione e quindi trasferire le competenze acquisite nel mondo reale. In questi metodi, il docente ha informazioni privilegiate accessibili dalla simulazione che lo studente non avrà quando verrà impiegato nel mondo reale. Ad esempio, il docente conoscerà la mappa dettagliata di un edificio che il robot studente sta imparando a navigare utilizzando solo le immagini catturate dalla sua fotocamera.

“I metodi attuali per l’apprendimento insegnante-studente nella robotica non tengono conto dell’incapacità dello studente di imitare l’insegnante e quindi sono limitati nelle prestazioni. Il nuovo metodo apre la strada alla costruzione di robot superiori”, afferma Agrawal.

Oltre ai robot migliori, i ricercatori ritengono che il loro algoritmo abbia il potenziale per migliorare le prestazioni in diverse applicazioni in cui viene utilizzato l’apprendimento per imitazione o rinforzo. Ad esempio, i grandi modelli di linguaggio come GPT-4 sono molto bravi nell’eseguire una vasta gamma di compiti, quindi forse si potrebbe utilizzare il grande modello come insegnante per addestrare un modello studente più piccolo a essere ancora “migliore” in un particolare compito. Un’altra direzione entusiasmante è quella di indagare sulle somiglianze e le differenze tra le macchine e gli esseri umani che imparano dai rispettivi insegnanti. Tale analisi potrebbe contribuire a migliorare l’esperienza di apprendimento, dicono i ricercatori.

“Ciò che è interessante di questo approccio rispetto ai metodi correlati è quanto sembri robusto rispetto alle varie scelte dei parametri e la varietà di domini in cui mostra risultati promettenti”, afferma Abhishek Gupta, professore associato presso l’Università di Washington, che non ha partecipato a questo lavoro. “Sebbene l’attuale insieme di risultati sia in gran parte in simulazione, sono molto entusiasta delle future possibilità di applicare questo lavoro a problemi che coinvolgono la memoria e il ragionamento con diverse modalità come il sensore tattile”.

“Questo lavoro presenta un interessante approccio per riutilizzare il lavoro computazionale precedente nell’apprendimento per rinforzo. In particolare, il loro metodo proposto può sfruttare le politiche di insegnamento subottimali come guida evitando così gli attenti programmi di iperparametri richiesti dai metodi precedenti per bilanciare gli obiettivi di imitare l’insegnante rispetto all’ottimizzazione della ricompensa del compito”, aggiunge Rishabh Agarwal, ricercatore senior presso Google Brain, che non ha partecipato a questa ricerca. “Speriamo che questo lavoro renda meno oneroso reincarnare l’apprendimento per rinforzo con politiche apprese”.

Questa ricerca è stata supportata, in parte, dal MIT-IBM Watson AI Lab, dalla Hyundai Motor Company, dal programma DARPA Machine Common Sense e dall’Office of Naval Research.