Ricercatori di Google DeepMind propongono l’ottimizzazione tramite PROmpting (OPRO) Modelli di linguaggio avanzati come ottimizzatori

Google DeepMind researchers propose PROmpting Optimization (OPRO) Advanced language models as optimizers.

Con i continui progressi nel campo dell’Intelligenza Artificiale, i suoi sottocampi, tra cui l’Elaborazione del Linguaggio Naturale, la Generazione del Linguaggio Naturale, la Comprensione del Linguaggio Naturale e la Visione Artificiale, stanno diventando sempre più popolari. I grandi modelli linguistici (LLM) che di recente hanno attirato molta attenzione vengono utilizzati come ottimizzatori. La loro capacità viene utilizzata per la comprensione del linguaggio naturale al fine di migliorare le procedure di ottimizzazione. L’ottimizzazione ha implicazioni pratiche in diversi settori e contesti. I metodi di ottimizzazione basati sui derivati hanno dimostrato storicamente di essere efficaci nel gestire una varietà di problemi.

Ciò comporta alcune sfide poiché i gradienti possono essere disponibili solo in determinate circostanze reali, il che presenta problemi difficili. Per affrontare questi problemi, un team di ricercatori di Google DeepMind ha introdotto un approccio unico chiamato Ottimizzazione tramite PROmpting (OPRO) come soluzione a questo problema. Attraverso l’uso dei LLM come ottimizzatori, OPRO fornisce una tecnica semplice ma incredibilmente potente. In questo caso, la principale novità è l’uso del linguaggio quotidiano per esprimere compiti di ottimizzazione, rendendo il processo più semplice e accessibile.

OPRO inizia fornendo una descrizione in linguaggio naturale del problema di ottimizzazione. Ciò indica che il problema viene espresso utilizzando un linguaggio semplice anziché formule matematiche complesse, rendendolo più facile da comprendere. In secondo luogo, fornisce una Generazione di Soluzioni Iterative. Il LLM crea nuove soluzioni candidati per ogni passo di ottimizzazione in base al prompt di linguaggio naturale fornito. Questo prompt, che è significativo, contiene dettagli sulle soluzioni precedentemente create e i loro valori associati. Queste opzioni tradizionali fungono da punto di partenza per ulteriori sviluppi.

Vengono quindi sviluppate soluzioni aggiornate e valutate, e ne viene valutata la performance o la qualità. Il prompt per il passaggio di ottimizzazione successivo include queste soluzioni dopo che sono state esaminate. Le soluzioni vengono progressivamente migliorate man mano che il processo iterativo procede. Sono stati utilizzati alcuni esempi pratici per illustrare l’efficacia di OPRO. All’inizio, OPRO è stato utilizzato per affrontare due problemi di ottimizzazione ben noti: il problema della regressione lineare e il problema del commesso viaggiatore. Questi problemi sono importanti e servono come standard per valutare l’efficacia del metodo. OPRO ha dimostrato la sua capacità di identificare ottime soluzioni a questi problemi.

In secondo luogo, è stato utilizzato per l’ottimizzazione del prompt. OPRO ha superato il problema di affrontare specifici problemi di ottimizzazione. È stato affrontato anche il problema di ottimizzare i prompt stessi. L’obiettivo era trovare istruzioni che aumentassero l’accuratezza di un compito. Questo è particolarmente vero per i compiti che coinvolgono l’elaborazione del linguaggio naturale, in cui la struttura e il contenuto del prompt hanno una grande influenza sul risultato.

Il team ha dimostrato che i prompt ottimizzati da OPRO superano costantemente quelli creati dagli esseri umani. In un caso, hanno migliorato le prestazioni sui carichi di lavoro di Big-Bench Hard fino al sorprendente 50% e fino al 8% sul benchmark GSM8K. Ciò dimostra il notevole potenziale di OPRO nel migliorare i risultati dell’ottimizzazione.

In conclusione, OPRO presenta un metodo rivoluzionario di ottimizzazione che utilizza grandi modelli linguistici. OPRO mostra la sua efficienza nel risolvere problemi comuni di ottimizzazione e nel migliorare i prompt spiegando i compiti di ottimizzazione in linguaggio normale e producendo e affinando continuamente le soluzioni. I risultati indicano notevoli miglioramenti delle prestazioni rispetto ai metodi convenzionali, specialmente quando le informazioni sul gradiente non sono disponibili o difficili da raccogliere.