Una nuova ricerca sull’intelligenza artificiale pubblica SWIM-IR un dataset di recupero sintetico multilingue su larga scala con 28 milioni di coppie di addestramento in 33 lingue

Uno studio rivoluzionario sull'intelligenza artificiale pubblica SWIM-IR, un vasto dataset sintetico di recupero multilingue con 28 milioni di coppie di addestramento in 33 lingue

I ricercatori di Google Research, Google DeepMind e dell’Università di Waterloo presentano SWIM-IR, un set di dati di addestramento per il recupero sintetico che comprende 33 lingue, affrontando la sfida dei limitati coppie di addestramento etichettate dall’uomo nel recupero multilingue. Utilizzando il metodo SAP (summarize-then-ask prompting), SWIM-IR è costruito per consentire il raffinamento sintetico di modelli di recupero multilingue densi senza supervisione umana. I modelli SWIM-X, addestrati su SWIM-IR, dimostrano competitività con modelli di recupero densi supervisionati dall’uomo su vari benchmark, tra cui XOR-Retrieve, XTREME-UP e MIRACL.

Lo studio affronta le limitazioni dei modelli di recupero multilingue densi. I modelli di recupero multilingue esistenti affrontano sfide legate alla scarsità o alla disomogeneità dei dati di addestramento. SWIM-IR utilizza SAP per aiutare i modelli LLM a generare query informative nella lingua target. I modelli SWIM-X, addestrati su SWIM-IR, mostrano prestazioni competitive con modelli supervisionati dall’uomo su vari benchmark, evidenziando il potenziale dei set di dati sintetici come alternativa economica ai dati di addestramento etichettati dall’uomo per i modelli di recupero multilingue densi.

La ricerca affronta il limitato successo dei modelli di recupero multilingue densi, attribuendolo a dati di addestramento supervisionati insufficienti per le lingue non inglesi. Questo set di dati sintetico consente il raffinamento dei modelli di recupero multilingue densi, valutati su benchmark come XOR-Retrieve, XTREME-UP e MIRACL. I risultati dimostrano l’efficacia di SWIM-IR come sostituto dei costosi dati di addestramento etichettati dall’uomo, stabilendo prestazioni competitive per i modelli di recupero multilingue densi rispetto ai corrispondenti supervisori umani.

SWIM-IR, un set di dati di addestramento per il recupero sintetico che comprende 33 lingue, è stato generato mediante la tecnica SAP. Utilizzando SWIM-IR, lo studio esplora il raffinamento sintetico di modelli di recupero multilingue densi adattando il modello Dense Passage Retrieval (DPR). Utilizzando il framework di recupero T5X, replica i baselines di zero-shot mContriever e mDPR inizializzando da un checkpoint T5-base multilingue e raffinandolo sul set di dati in lingua inglese MS MARCO. Attraverso un preaddestramento sul set di dati mC4 e l’utilizzo di contrastive loss per gli in-batch negatives, i ricercatori utilizzano il modello PaLM 2 Small per la generazione di query cross-linguaggio.

Basandosi sui dati di addestramento sintetici di SWIM-IR, i modelli SWIM-X mostrano prestazioni competitive nel recupero multilingue denso. SWIM-X (7M) supera mContriever-X, il miglior modello raffinato, di 7.1 punti in Recall5kt nel benchmark XOR-Retrieve. Anche il baselines a budget limitato, SWIM-X (500k), supera mContriever-X di 3.6 punti. SWIM-X (180K) si comporta bene nel benchmark MIRACL, superando il miglior modello zero-shot di 6.6 punti in nDCG10, anche se è inferiore a mContriever-X, che trae vantaggio dalle coppie di addestramento etichettate dall’uomo con negativi difficili. I baselines sintetici, SWIM-X (120K) e SWIM-X (120K)MT, mostrano risultati promettenti nei baselines supervisionati cross-linguaggio, superando i modelli esistenti in termini di Recall5kt. Lo studio sottolinea l’importanza di tecniche di addestramento ottimizzate, compresa l’ottimizzazione del campionamento dei negativi difficili con SWIM-IR, per migliorare ulteriormente le prestazioni dei modelli sintetici.

Il set di dati SWIM-IR utilizzato nello studio presenta limitazioni, tra cui decontestualizzazione, code-switching, qualità e lunghezza del passaggio e inconsistenze fattuali nella generazione dei LLM. Lo studio riconosce che i LLM possono generare testi privi di un solido ancoraggio alle fonti di conoscenza, correndo il rischio di disinformazione e allucinazioni nei risultati generati. Sebbene queste limitazioni possano influire sulla qualità e l’accuratezza delle query generate, non influiscono direttamente sul compito di recupero multilingue. Tuttavia, lo studio non discute in modo esaustivo le limitazioni dei metodi, come l’approccio SAP o il processo di raffinamento.

SWIM-IR è un set di dati di addestramento sintetico per il recupero multilingue creato utilizzando l’approccio SAP per generare query informative in molteplici lingue. Con 28 milioni di coppie di addestramento query-passo in 33 lingue, SWIM-IR facilita il raffinamento di modelli di recupero multilingue densi senza richiedere dati di addestramento etichettati dall’uomo. I modelli risultanti di SWIM-X mostrano prestazioni competitive nel recupero multilingue, superando i modelli esistenti di richiamo e classifica reciproca media sia nei benchmark cross-linguaggio che monolingue. Sottolinea il potenziale di SWIM-IR come sostituto economico dei costosi dati di addestramento per il recupero etichettati dall’uomo, consentendo lo sviluppo di modelli robusti di recupero multilingue densi.