Valutare il dominio linguistico dell’Intelligenza Artificiale Un’analisi approfondita delle abilità morfologiche di ChatGPT in diverse lingue

Valutazione della competenza linguistica dell'Intelligenza Artificiale Un'analisi dettagliata delle abilità morfologiche di ChatGPT in diverse lingue

I ricercatori esaminano rigorosamente le capacità morfologiche di ChatGPT in quattro lingue (inglese, tedesco, tamil e turco). ChatGPT non raggiunge il livello dei sistemi specializzati, soprattutto in inglese. L’analisi sottolinea i limiti di ChatGPT nelle abilità morfologiche, mettendo in discussione le affermazioni di una competenza linguistica simile a quella umana.

Indagini recenti sui modelli di linguaggio di grandi dimensioni (LLM) si sono concentrate principalmente sulla sintassi e la semantica, trascurando la morfologia. La letteratura esistente sui LLM deve spesso prestare maggior attenzione a tutte le diverse fenomenologie linguistiche. Mentre studi precedenti hanno esplorato il tempo passato dell’inglese, è necessaria un’analisi completa delle abilità morfologiche nei LLM. Il metodo utilizza il test “Wug” per valutare le abilità morfologiche di ChatGPT nelle quattro lingue menzionate. I risultati mettono in discussione le affermazioni di una competenza linguistica simile a quella umana in ChatGPT, indicando i suoi limiti rispetto ai sistemi specializzati.

Mentre recenti modelli di linguaggio di grandi dimensioni come GPT-4, LLaMA e PaLM hanno mostrato promesse nelle abilità linguistiche, c’è stata una lacuna notevole nell’analisi delle loro capacità morfologiche, ovvero la capacità di generare parole in modo sistematico. Studi precedenti si sono concentrati principalmente sulla sintassi e la semantica, trascurando la morfologia. Questo approccio affronta la carenza analizzando sistematicamente le abilità morfologiche di ChatGPT utilizzando il test “Wug” nelle quattro lingue menzionate e confrontando le sue prestazioni con sistemi specializzati.

Il metodo proposto valuta le abilità morfologiche di ChatGPT attraverso il test “Wug”, confrontando i suoi risultati con baseline supervisionate e annotazioni umane, utilizzando l’accuratezza come metrica. Vengono creati set di dati unici di parole nonce per garantire che ChatGPT non abbia avuto esposizione precedente. Sono utilizzati tre stili di invio, zero-shot, one-shot e few-shot, con esecuzioni multiple per ogni stile. La valutazione tiene conto della variazione morfologica intra-parlatore e comprende quattro lingue: inglese, tedesco, tamil e turco, confrontando i risultati con sistemi creati appositamente per svolgere questa valutazione delle prestazioni.

Lo studio ha rivelato che ChatGPT ha bisogno di sistemi appositamente creati con capacità morfologiche, in particolare per l’inglese. Le prestazioni variano tra le lingue, con il tedesco che raggiunge livelli di competenza simili a quelli umani. Il valore di k (numero di risposte in cima alla classifica prese in considerazione) ha avuto un impatto, ampliando il divario tra le baseline e ChatGPT all’aumentare di k. ChatGPT tende a generare flessioni inverosimili, potenzialmente influenzate da un’inclinazione verso parole reali. I risultati sottolineano la necessità di ulteriori ricerche sulle capacità morfologiche dei modelli di linguaggio di grandi dimensioni e invitano a non fare affermazioni affrettate riguardo alle competenze linguistiche simili a quelle umane.

Lo studio ha analizzato rigorosamente le capacità morfologiche di ChatGPT in quattro lingue indicate, rivelando una performance inferiore, soprattutto in inglese. Sottolinea la necessità di ulteriori ricerche sulle capacità morfologiche dei modelli di linguaggio di grandi dimensioni e avverte contro affermazioni premature di competenze linguistiche simili a quelle umane. ChatGPT ha mostrato prestazioni variabili tra le lingue, con il tedesco che raggiunge un livello di competenza simile a quello umano. Lo studio ha anche evidenziato il bias del mondo reale di ChatGPT, sottolineando l’importanza di considerare la morfologia nelle valutazioni dei modelli di linguaggio, data la sua funzione fondamentale nel linguaggio umano.

Lo studio ha utilizzato un singolo modello (gpt-3.5-turbo-0613), limitando la generalizzabilità ad altre versioni di GPT-3 o a GPT-4 e oltre. Concentrarsi su un piccolo set di lingue solleva questioni sulla generalizzabilità dei risultati a diverse lingue e dataset. Il confronto tra lingue è difficile a causa delle variabili non controllate. Il numero limitato di annotatori e l’accordo inter-annotatore ridotto per il tamil possono influire sulla affidabilità. Le prestazioni variabili di ChatGPT tra le lingue suggeriscono possibili limitazioni nella generalizzabilità.