Un nuovo framework di Deep Reinforcement Learning (DRL) può reagire agli attaccanti in un ambiente simulato e bloccare il 95% degli attacchi informatici prima che si aggravino

Un nuovo framework di DRL può bloccare il 95% degli attacchi informatici in un ambiente simulato.

I difensori della cybersecurity devono adattare dinamicamente le loro tecniche e tattiche man mano che la tecnologia si sviluppa e il livello di complessità di un sistema aumenta. Con l’avanzamento della ricerca nell’apprendimento automatico (ML) e nell’intelligenza artificiale (AI) negli ultimi dieci anni, anche i casi d’uso di queste tecnologie nei vari domini legati alla sicurezza informatica sono aumentati. Alcune funzionalità nella maggior parte delle applicazioni di sicurezza esistenti sono supportate da algoritmi di machine learning addestrati su ampi set di dati. Un esempio di ciò è l’integrazione degli algoritmi di ML nei gateway di sicurezza delle email nei primi anni 2010.

Quando si tratta di scenari reali, creare strategie di difesa del sistema informatico autonomo e raccomandazioni di azione è piuttosto complicato. Ciò è dovuto al fatto che fornire supporto decisionale per meccanismi di difesa del sistema informatico richiede sia l’incorporazione delle dinamiche tra attaccanti e difensori, sia la caratterizzazione dinamica dell’incertezza nello stato del sistema. Inoltre, i difensori informatici spesso si trovano di fronte a una varietà di limitazioni delle risorse, tra cui costi, lavoro e tempo. Anche con l’AI, lo sviluppo di un sistema capace di difesa proattiva rimane un obiettivo ideologico.

Nel tentativo di offrire una soluzione a questo problema, i ricercatori del Pacific Northwest National Laboratory (PNNL) del Dipartimento dell’Energia degli Stati Uniti hanno creato un nuovo sistema di intelligenza artificiale basato sull’apprendimento approfondito per rinforzo (DRL) in grado di rispondere agli attaccanti in un ambiente simulato e di fermare il 95% degli attacchi informatici prima che si aggravino. I ricercatori hanno creato un ambiente di simulazione personalizzato che dimostra un conflitto digitale a più fasi tra attaccanti e difensori in una rete. Successivamente, hanno addestrato quattro reti neurali DRL utilizzando i principi dell’apprendimento per rinforzo, come la massimizzazione delle ricompense basate sulla prevenzione di compromissioni e sulla riduzione delle interruzioni di rete. Il lavoro del team è stato presentato anche all’Association for the Advancement of Artificial Intelligence a Washington, DC, dove ha ricevuto molti apprezzamenti.

La filosofia del team nello sviluppare un tale sistema era prima di tutto dimostrare che è possibile addestrare con successo un’architettura DRL del genere. Prima di addentrarsi in strutture sofisticate, volevano dimostrare metriche di valutazione utili. La prima cosa che i ricercatori hanno fatto è creare un ambiente di simulazione astratto utilizzando lo strumento Open AI Gym. La fase successiva è stata quella di utilizzare questo ambiente per sviluppare entità attaccanti che mostrassero livelli di competenza e persistenza basati su un subset di 15 approcci e sette tattiche del framework MITRE ATT&CK. L’obiettivo degli attaccanti è passare attraverso i sette passaggi della catena di attacco, dalla fase di accesso iniziale e ricognizione ad altre fasi di attacco fino a raggiungere il loro obiettivo finale, che è la fase di impatto ed esfiltrazione.

È importante ricordare che il team non aveva intenzione di sviluppare un modello per bloccare un nemico prima che potesse lanciare un attacco all’interno dell’ambiente. Piuttosto, si assume che il sistema sia già stato compromesso. I ricercatori hanno quindi utilizzato l’apprendimento per rinforzo per addestrare quattro reti neurali. I ricercatori hanno affermato che è concepibile addestrare un tale modello senza utilizzare l’apprendimento per rinforzo, ma ci vorrebbe molto tempo per sviluppare un buon meccanismo. D’altra parte, l’apprendimento approfondito per rinforzo fa un uso molto efficiente di questo enorme spazio di ricerca imitando alcuni aspetti del comportamento umano.

Gli sforzi dei ricercatori per dimostrare che i sistemi di intelligenza artificiale possono essere addestrati con successo su un ambiente di attacco simulato hanno dimostrato che un modello di intelligenza artificiale è in grado di reagire in modo difensivo agli attacchi in tempo reale. Per valutare rigorosamente le prestazioni di quattro algoritmi DRL senza modello rispetto a sequenze di attacco reale a più fasi, i ricercatori hanno eseguito diversi esperimenti. La loro ricerca ha mostrato che gli algoritmi DRL possono essere addestrati con profili di attacco a più fasi con diversi livelli di competenza e persistenza, producendo risultati di difesa efficaci in ambienti simulati.