Un passo verso autopiloti sicuri e affidabili per il volo

A step towards safe and reliable autopilots for flight.

Un nuovo approccio basato sull’AI per il controllo di robot autonomi soddisfa gli obiettivi spesso contrastanti di sicurezza e stabilità.

MIT researchers developed a machine-learning technique that can autonomously drive a car or fly a plane through a very difficult “stabilize-avoid” scenario, in which the vehicle must stabilize its trajectory to arrive at and stay within some goal region, while avoiding obstacles.

Nel film “Top Gun: Maverick”, Maverick, interpretato da Tom Cruise, ha il compito di addestrare giovani piloti per portare a termine una missione apparentemente impossibile: volare con i loro jet in profondità in una canyon rocciosa, rimanendo così bassi da non poter essere rilevati dal radar, per poi uscire rapidamente dal canyon ad un angolo estremo, evitando le pareti rocciose. Spoiler Alert: Con l’aiuto di Maverick, questi piloti umani riescono a portare a termine la loro missione.

Al contrario, una macchina avrebbe difficoltà a portare a termine lo stesso compito adrenalinico. Per un aeromobile autonomo, ad esempio, il percorso più semplice verso il bersaglio entra in conflitto con ciò di cui la macchina ha bisogno per evitare di collidere con le pareti del canyon o di rimanere non rilevata. Molti dei metodi di AI esistenti non sono in grado di superare questo conflitto, noto come il problema di stabilizzazione-evitamento, e non sarebbero in grado di raggiungere il loro obiettivo in sicurezza.

Ricercatori del MIT hanno sviluppato una nuova tecnica che può risolvere problemi complessi di stabilizzazione-evitamento meglio di altri metodi. Il loro approccio di apprendimento automatico corrisponde o supera la sicurezza dei metodi esistenti, fornendo un aumento di stabilità dieci volte superiore, il che significa che l’agente raggiunge e rimane stabile nella sua zona di obiettivo.

In un esperimento che farebbe orgoglioso Maverick, la loro tecnica ha pilotato con successo un jet aereo simulato attraverso un corridoio stretto senza schiantarsi al suolo.

“Questo è un problema difficile da tempo. Molte persone lo hanno esaminato ma non sapevano come gestire una dinamica così complessa e ad altissime dimensioni”, afferma Chuchu Fan, il Wilson Assistant Professor di Aeronautica e Astronautica, membro del Laboratorio per i Sistemi Informativi e Decisionali (LIDS) e autore senior di un nuovo paper su questa tecnica.

Fan è affiancato dal lead author Oswin So, uno studente di dottorato. Il paper verrà presentato alla conferenza Robotics: Science and Systems.

La sfida di stabilizzazione-evitamento

Molti approcci affrontano problemi complessi di stabilizzazione-evitamento semplificando il sistema in modo che possano risolverlo con matematica diretta, ma i risultati semplificati spesso non reggono alle dinamiche del mondo reale.

Tecniche più efficaci utilizzano l’apprendimento per rinforzo, un metodo di apprendimento automatico in cui un agente apprende per tentativi ed errori con una ricompensa per il comportamento che lo avvicina a un obiettivo. Ma qui ci sono davvero due obiettivi: rimanere stabili ed evitare gli ostacoli, e trovare il giusto equilibrio è noioso.

I ricercatori del MIT hanno suddiviso il problema in due fasi. In primo luogo, hanno riformulato il problema di stabilizzazione-evitamento come un problema di ottimizzazione vincolata. In questa configurazione, risolvere l’ottimizzazione consente all’agente di raggiungere e stabilizzarsi al suo obiettivo, il che significa che rimane all’interno di una determinata regione. Applicando i vincoli, assicurano che l’agente eviti gli ostacoli, spiega So.

Quindi per la seconda fase, hanno riformulato quel problema di ottimizzazione vincolata in una rappresentazione matematica nota come forma epigrafica e risolto il problema utilizzando un algoritmo di apprendimento per rinforzo profondo. La forma epigrafica consente loro di bypassare le difficoltà che altri metodi incontrano quando utilizzano l’apprendimento per rinforzo.

“Ma l’apprendimento per rinforzo profondo non è progettato per risolvere la forma epigrafica di un problema di ottimizzazione, quindi non potevamo semplicemente inserirlo nel nostro problema. Abbiamo dovuto derivare le espressioni matematiche che funzionano per il nostro sistema. Una volta che abbiamo avuto quelle nuove derivazioni, le abbiamo combinate con alcuni trucchi di ingegneria esistenti utilizzati da altri metodi”, dice So.

Nessun punto per il secondo posto

Per testare il loro approccio, hanno progettato una serie di esperimenti di controllo con diverse condizioni iniziali. Ad esempio, in alcune simulazioni, l’agente autonomo deve raggiungere e rimanere all’interno di una regione di obiettivo mentre effettua manovre drastiche per evitare gli ostacoli che si trovano su un percorso di collisione con esso.

Rispetto a diversi baselines, il loro approccio è stato l’unico in grado di stabilizzare tutte le traiettorie mantenendo la sicurezza. Per spingere ulteriormente il loro metodo, l’hanno utilizzato per far volare un jet aereo simulato in uno scenario che si potrebbe vedere in un film di “Top Gun”. Il jet doveva stabilizzarsi su un obiettivo vicino al suolo mantenendo un’altitudine molto bassa e rimanendo all’interno di un corridoio di volo stretto.

Questo modello di jet simulato è stato reso open source nel 2018 ed è stato progettato da esperti di controllo del volo come sfida di testing. I ricercatori potevano creare uno scenario che il loro controller non riusciva a far volare? Ma il modello era così complicato che era difficile da gestire e non riusciva ancora a gestire scenari complessi, dice Fan.

Il controller dei ricercatori del MIT è stato in grado di evitare che il jet si schiantasse o si arrestasse mentre si stabilizzava verso l’obiettivo molto meglio di tutti i baselines.

In futuro, questa tecnica potrebbe essere un punto di partenza per la progettazione di controller per robot altamente dinamici che devono soddisfare requisiti di sicurezza e stabilità, come i droni di consegna autonomi. Oppure potrebbe essere implementato come parte di un sistema più ampio. Forse l’algoritmo viene attivato solo quando una macchina slitta su una strada innevata per aiutare il conducente a navigare in modo sicuro verso una traiettoria stabile.

Navigare in scenari estremi che un essere umano non sarebbe in grado di gestire è dove il loro approccio brilla davvero, aggiunge So.

“Crediamo che un obiettivo a cui dovremmo aspirare come campo sia quello di garantire all’apprendimento per rinforzo le garanzie di sicurezza e stabilità di cui avremo bisogno per fornirci l’assicurazione quando metteremo in funzione questi controller su sistemi critici. Pensiamo che questo sia un primo passo promettente verso il raggiungimento di questo obiettivo”, afferma.

In futuro, i ricercatori vogliono migliorare la loro tecnica in modo che sia in grado di tenere meglio in conto l’incertezza durante la risoluzione dell’ottimizzazione. Vogliono anche indagare su come funziona l’algoritmo quando viene messo in funzione sull’hardware, poiché ci saranno discrepanze tra la dinamica del modello e quelle del mondo reale.

“Il team del professore Fan ha migliorato le prestazioni dell’apprendimento per rinforzo per i sistemi dinamici in cui la sicurezza è importante. Invece di semplicemente raggiungere un obiettivo, creano dei controller che garantiscono che il sistema possa raggiungere il suo obiettivo in modo sicuro e rimanervi indefinitamente”, afferma Stanley Bak, professore assistente presso il Dipartimento di Informatica dell’Università di Stony Brook, che non ha partecipato a questa ricerca. “La loro formulazione migliorata consente la generazione di controller sicuri per scenari complessi, inclusa un modello di aereo a getto non lineare a 17 stati progettato in parte dai ricercatori dell’Air Force Research Lab (AFRL), che incorpora equazioni differenziali non lineari con tavole di portanza e resistenza”.

Il lavoro è finanziato, in parte, dal MIT Lincoln Laboratory nell’ambito del programma Safety in Aerobatic Flight Regimes.