Apprendimento per rinforzo senza modello per lo sviluppo dei processi chimici

Apprendimento per rinforzo senza modello per processi chimici

Verso operatori di processi chimici universali

Foto di Alex Kondratiev su Unsplash

Introduzione

Sviluppo di processo, progettazione, ottimizzazione e controllo sono alcune delle principali responsabilità nell’ambito dell’ingegneria chimica e dei processi. In termini concreti, l’obiettivo è trovare una ricetta ottimale o una configurazione adeguata di attrezzature o parametri di processo (tramite esperimenti di laboratorio) in modo che determinati obiettivi (ad esempio, rendimento o throughput) siano massimizzati, mentre i vincoli potenziali (ad esempio, concentrazioni di input, flussi, volumi del reattore o punti di ebollizione dei solventi) siano rispettati. Automatizzando queste attività, ad esempio tramite robot di laboratorio, si potrebbe risparmiare molto lavoro manuale.

I recenti progressi nell’apprendimento per rinforzo (RL) hanno dimostrato che gli agenti possono padroneggiare compiti complessi e giocare una varietà di giochi, o addirittura scoprire procedure matematiche più efficienti, ad esempio per le operazioni matriciali. Con la disponibilità di parametri cinetici, sia da esperimenti che da simulazioni numeriche, gli agenti possono trovare configurazioni e ricette di sintesi ottimali. A differenza dell’ottimizzazione convessa, però, l’algoritmo/modello può essere utilizzato direttamente per il controllo dei processi. Tali esperimenti possono avvenire sia sul computer che direttamente in laboratorio, a seconda dell’efficienza campionaria del metodo. A lungo termine, questo automatizzerebbe (parzialmente) lo sviluppo dei processi. Lo scopo di questo articolo è illustrare questo esempio di paracetamolo utilizzando l’ottimizzazione di politica prossimale (PPO).

Definizione del problema

Abbiamo un programma per computer, un cosiddetto agente, che chiamiamo un operatore di processi chimici universale. Questo operatore si trova in un ambiente in cui può eseguire operazioni chimiche, ovvero azioni. Tali azioni includono dosare il componente A, aumentare/diminuire il flusso di input/output, aumentare/diminuire la temperatura, e così via. Man mano che l’agente esegue azioni in determinati stati, come le concentrazioni di determinati componenti, transita in nuovi stati.

Il paracetamolo (PC) viene sintetizzato da p-amminofenolo (AP) e anidride acetica (AA), come mostrato nella figura 1a. Conosciuta la cinetica, questo processo può essere modellato e rappresenta l’ambiente, ad esempio in un reattore continuo agitato (CSTR) come mostrato in Fig…