Modelli di linguaggio e amici Gorilla, HuggingGPT, TaskMatrix e altro

Modelli di linguaggio e altri amici come Gorilla, HuggingGPT, TaskMatrix

Cosa succede quando diamo accesso a LLMS a migliaia di modelli di apprendimento profondo?

(Foto di Mike Arney su Unsplash)

Recentemente, abbiamo assistito alla popolarità dei modelli fondamentali nella ricerca sull’apprendimento profondo. I modelli di linguaggio di grandi dimensioni pre-addestrati (LLMs) hanno portato a un nuovo paradigma, in cui un singolo modello può essere utilizzato – con sorprendente successo – per risolvere molti problemi diversi. Nonostante la popolarità dei LLM generici, tuttavia, l’addestramento fine-tuning dei modelli in modo specifico per un compito tende ad essere più performante rispetto ad approcci che sfruttano i modelli fondamentali. In parole semplici, i modelli specializzati sono ancora molto difficili da battere! Detto questo, potremmo iniziare a chiederci se i poteri dei modelli fondamentali e dei modelli di apprendimento profondo specializzati possano essere combinati. In questa panoramica, studieremo recenti ricerche che integrano i LLM con altri modelli di apprendimento profondo specializzati imparando a utilizzare le loro API associate. Il framework risultante utilizza il modello di linguaggio come un controller centralizzato che forma un piano per risolvere compiti complessi legati all’IA e delega porzioni specializzate del processo di soluzione a modelli più appropriati.

“Fornendo solo le descrizioni dei modelli, HuggingGPT può integrare continuamente e comodamente diversi modelli esperti dalle comunità di AI, senza alterare alcuna struttura o impostazione di prompt. Questo modo aperto e continuo ci avvicina sempre di più alla realizzazione di un’intelligenza generale artificiale.” – da [2]

(da [2, 3])

Sfondo

Prima di esplorare come i modelli di linguaggio possono essere integrati con altri modelli di apprendimento profondo, dobbiamo coprire alcune idee di base, come gli strumenti LLM, il recupero delle informazioni e l’autoistruzione [11]. Per ulteriori informazioni di base su modelli di linguaggio, consulta le risorse seguenti.

  • Modelli di linguaggio di base (GPT e GPT-2) [link]
  • L’importanza della scala per i modelli di linguaggio (GPT-3) [link]
  • Modelli LLM moderni [link] e specializzati [link]
  • Ingegneria di prompt di base [link] e avanzata [link]

Utilizzo di strumenti con…