L’IA È DIVENTATA TROPPO UMANA? I ricercatori di Google AI scoprono che gli LLM possono ora utilizzare modelli di ML e API solo con la documentazione degli strumenti!

L'IA sempre più umana? Gli LLM di Google AI possono ora utilizzare ML e API solo con la documentazione!

In quest’era in cui ogni giorno sembra che l’IA stia prendendo il sopravvento sul pianeta, i grandi modelli di linguaggio si avvicinano sempre più al cervello umano. I ricercatori di Google hanno dimostrato che i grandi modelli di linguaggio possono utilizzare strumenti non scoperti in modo diretto senza alcun addestramento precedente, semplicemente presentando al modello la documentazione di ciascun strumento.

Possiamo pensare a questa soluzione come insegnare ad Audrey, una bambina di quattro anni, a guidare una bicicletta. Inizialmente le abbiamo mostrato come andare in bicicletta e l’abbiamo aiutata a imparare (abbiamo dimostrato). Le abbiamo mostrato come salire e pedalare con le rotelle di allenamento e poi senza. In altre parole, le abbiamo mostrato tutti i diversi scenari. Questa soluzione si occupa principalmente di come Audrey ha letto su come andare in bicicletta in un libro (la documentazione), ha imparato le varie funzionalità della bicicletta e può usarla senza alcun aiuto da parte nostra, e lo fa in modo davvero impressionante. Può fare la ruota, può guidare con e senza rotelle di allenamento. Sembra che la nostra Audrey sia cresciuta, vero?

Le dimostrazioni (demo) insegnano ai modelli di linguaggio ad utilizzare gli strumenti attraverso pochi esempi. Potremmo aver bisogno di tonnellate di esempi per coprire tutti i piani di strumenti che esistono. La documentazione (docs), invece, insegna ai modelli di linguaggio ad utilizzare gli strumenti descrivendone le funzionalità.

Sono state condotte combinazioni di inclusione/esclusione di documentazione e dimostrazioni nelle richieste, così come variazioni nel numero di dimostrazioni, per analizzare i risultati e le prestazioni del modello. Gli esperimenti sono stati effettuati su sei compiti in diverse modalità con vari set di strumenti. Il pianificatore del modello di linguaggio utilizzato è ChatGPT (gpt-3.5-turbo), e i sei compiti erano: risposta a domande multimodali su ScienceQA, ragionamento matematico su dati tabulari in TabMWTabMWP, un dataset di ragionamento matematico, ragionamento multimodale su NLVRv2, uso di API sconosciute su un dataset appena raccolto, modifica di immagini con linguaggio naturale e tracciamento video.

Hanno valutato le prestazioni del modello, con e senza documentazione degli strumenti, in base al numero variabile di dimostrazioni su ciascun dataset. I risultati mostrano che la documentazione degli strumenti riduce la necessità di dimostrazioni. Con i documenti degli strumenti, il modello sembrava mantenere prestazioni stabili anche eliminando gradualmente il numero di dimostrazioni. Ma senza documenti degli strumenti, le prestazioni del modello sono risultate essere estremamente sensibili al numero di dimostrazioni utilizzate.

Attraverso confronti qualitativi, si è scoperto che fare affidamento sulla documentazione anziché sulle dimostrazioni fornisce una soluzione più scalabile per dotare i grandi modelli di linguaggio di un gran numero di strumenti disponibili. Inoltre, solo con la documentazione degli strumenti, i modelli di linguaggio sono in grado di comprendere e utilizzare i modelli visione più recenti per ottenere risultati impressionanti su compiti di modifica di immagini e tracciamento video senza alcuna nuova dimostrazione. I ricercatori hanno scoperto che, sebbene i risultati siano estremamente impressionanti e suggeriscano un altro grande progresso, c’è una degradazione delle prestazioni quando la lunghezza del documento supera le 600 parole.

Questo studio non si limita solo a come i modelli di linguaggio possono apprendere gli strumenti tramite la documentazione, ma ha dimostrato di replicare i risultati di progetti popolari come ‘Grounded SAM’ e ‘Track Anything’ senza ulteriori dimostrazioni, suggerendo un potenziale per la scoperta automatica di conoscenza tramite la documentazione degli strumenti. Questo apre una nuova direzione nella prospettiva dell’uso degli strumenti con i modelli di linguaggio e cerca di gettare luce sulle capacità di ragionamento del modello.