Ricercatori cinesi presentano ControlLLM una struttura di intelligenza artificiale che permette a grandi modelli di linguaggio (LLM) di utilizzare strumenti multimodali per risolvere compiti complessi del mondo reale.

I ricercatori cinesi presentano ControlLLM una struttura di intelligenza artificiale che permette ai grandi modelli di linguaggio (LLM) di utilizzare strumenti multimodali per risolvere sfide complesse nel mondo reale.

Le prestazioni delle LLM nell’affrontare compiti complessi del mondo reale sono impressionanti. Tuttavia, ci sono casi in cui possono richiedere assistenza nell’utilizzo corretto degli strumenti a causa di suggerimenti vaghi dell’utente, selezione errata degli strumenti e parametrizzazione e pianificazione inadeguate. Per affrontare queste sfide, un gruppo di ricercatori della Hong Kong University of Science and Technology, OpenGVLab, Shanghai AI Laboratory, Tsinghua University e SenseTime propone un framework rivoluzionario chiamato ControlLLM. Lo studio mira ad esaminare l’importanza di ControlLLM nel migliorare l’efficacia delle LLM.

Le LLM hanno compiuto progressi significativi nell’affrontare sfide di pianificazione, ragionamento e decisione per agenti autonomi. Un’altra area di studio si concentra sul potenziamento delle LLM con strumenti esterni per accedere alle informazioni attuali, ridurre l’allucinazione e consentire interazioni multimodali. Le LLM potenziate dagli strumenti sfruttano l’apprendimento in contesti a zero o pochi esempi delle LLM per gestire la decomposizione dei compiti, la selezione degli strumenti e il completamento dei parametri senza un accordo esplicito. Sfide come l’allucinazione e la decomposizione efficace persistono. Sono in corso sforzi per coltivare LLM con capacità multimodali innate, ampliando la loro applicabilità a scenari del mondo reale più complessi.

Le LLM hanno dimostrato la loro abilità nella comprensione del linguaggio naturale e ora stanno estendendo le loro capacità per includere interazioni multimodali. Le LLM potenziate dagli strumenti cercano di ampliare la funzionalità delle LLM incorporando strumenti che consentano loro di gestire compiti che coinvolgono immagini, video, audio e altro nonostante la necessità di risolvere sfide come la decomposizione dei compiti, la selezione degli strumenti, l’assegnazione degli argomenti e la pianificazione efficiente dell’esecuzione. Metodi precedenti, come Chain-of-Thought, Tree-of-Thought e self-consistency, hanno affrontato compiti complessi suddividendoli in sotto-compiti più piccoli.

Il framework ControlLLM comprende tre componenti essenziali: un decompositore di compiti, un approccio Thoughts-on-Graph e un motore di esecuzione versatile. Il decompositore di compiti suddivide le richieste complesse degli utenti in sotto-compiti ben definiti con input e output distinti. Il Thoughts-on-Graph esplora il miglior percorso di soluzione su un grafo predefinito degli strumenti, specificando le relazioni tra parametri e dipendenze tra gli strumenti. Il motore di esecuzione interpreta questo percorso ed esegue efficientemente azioni su vari dispositivi di elaborazione.

Il framework ControlLLM eccelle in termini di precisione, efficienza e versatilità rispetto ai metodi esistenti, in particolare in vari compiti che comprendono l’elaborazione di immagini, audio e video. Vanta un impressionante tasso di successo del 98% nella valutazione delle soluzioni per compiti impegnativi, superando la migliore prestazione di base al 59%. ControlLLM migliora significativamente anche l’utilizzo degli strumenti, deducendo agevolmente e assegnando gli argomenti degli strumenti. In scenari semplici e complessi, ControlLLM integra senza soluzione di continuità vari tipi di informazioni per generare risposte complete e significative basate sui risultati dell’esecuzione.

In conclusione, il framework ControlLLM permette alle LLM di utilizzare strumenti multimodali per affrontare compiti complessi del mondo reale, offrendo una precisione, efficienza e adattabilità superiori. I suoi componenti, tra cui un decompositore di compiti, la metodologia Thoughts-on-Graph e un motore di esecuzione versatile, contribuiscono complessivamente a miglioramenti sostanziali nell’utilizzo degli strumenti. ControlLLM dimostra costantemente la sua abilità deducendo e assegnando argomenti agli strumenti e ottenendo un alto tasso di successo nelle valutazioni delle soluzioni. Attraverso ampie case study, riafferma le sue capacità di pianificazione dei compiti, offrendo soluzioni diverse che migliorano l’esperienza dell’utente. ControlLLM integra diverse fonti di informazioni per generare risposte complete e significative basate sui risultati dell’esecuzione.