Vectara introduce un innovativo modello open-source per valutare e affrontare le allucinazioni nei modelli di linguaggio AI.

Vectara presenta un nuovo modello open-source innovativo per valutare e affrontare le allucinazioni nei modelli di linguaggio AI.

In un gesto senza precedenti che favorisce la responsabilità nello spazio in rapida evoluzione dell’Intelligenza Artificiale Generativa (GenAI), Vectara ha rilasciato un Modello di Valutazione delle Allucinazioni open-source, segnando un passo significativo verso la standardizzazione della misurazione dell’accuratezza fattuale nei Large Language Models (LLM). Questa iniziativa offre una risorsa commerciale e open-source per valutare il grado di ‘allucinazione’ o la deviazione dai fatti verificabili da parte dei LLM, unito a una classifica dinamica e pubblicamente disponibile.

Il rilascio mira a rafforzare la trasparenza e a fornire un metodo oggettivo per quantificare i rischi delle allucinazioni nei principali strumenti di GenAI, una misura essenziale per promuovere una IA responsabile, mitigare le disinformazioni e sostenere una regolamentazione efficace. Il Modello di Valutazione delle Allucinazioni è destinato a essere uno strumento determinante per valutare il grado in cui i LLM rimangono ancorati ai fatti quando generano contenuti basati su materiale di riferimento fornito.

Il Modello di Valutazione delle Allucinazioni di Vectara, ora accessibile su Hugging Face sotto una licenza Apache 2.0, offre una chiara visione dell’integrità fattuale dei LLM. Prima di questo, le affermazioni dei fornitori di LLM riguardo alla resistenza delle loro modelli alle allucinazioni rimanevano in gran parte non verificabili. Il modello di Vectara utilizza gli ultimi progressi nella ricerca sulle allucinazioni per valutare in modo oggettivo i riepiloghi dei LLM.

Insieme al rilascio è presente una Classifica, simile a un punteggio FICO per l’accuratezza della GenAI, mantenuta dal team di Vectara in collaborazione con la comunità open-source. Classifica i LLM in base alle loro prestazioni in un insieme standardizzato di prompt, fornendo alle aziende e agli sviluppatori informazioni preziose per prendere decisioni consapevoli.

I risultati della Classifica indicano che attualmente i modelli di OpenAI sono in testa in termini di prestazioni, seguiti a breve distanza dai modelli di Llama 2, con Cohere e Anthropic che mostrano anche risultati positivi. I modelli Palm di Google, tuttavia, hanno ottenuto punteggi inferiori, riflettendo l’evoluzione continua e la competizione nel settore.

Sebbene non sia una soluzione per le allucinazioni, il modello di Vectara è uno strumento decisivo per un’adozione più sicura e accurata della GenAI. La sua introduzione arriva in un momento critico, con una maggiore attenzione ai rischi di disinformazione nell’avvicinarsi di eventi significativi come l’elezione presidenziale negli Stati Uniti.

Il Modello di Valutazione delle Allucinazioni e la Classifica sono destinati a essere strumenti fondamentali per promuovere un approccio basato sui dati alla regolamentazione della GenAI, offrendo un punto di riferimento standardizzato tanto atteso sia dall’industria che dagli organismi di regolamentazione.