Google AI presenta Visually Rich Document Understanding (VRDU) un dataset per il miglioramento del monitoraggio del progresso del compito di comprensione dei documenti.

Google AI presenta VRDU, un dataset per migliorare il monitoraggio del compito di comprensione dei documenti.

Sempre più documenti vengono creati e archiviati dalle aziende nell’era digitale di oggi. Sebbene questi documenti possano includere informazioni utili, a volte sono facili da leggere e comprendere. Fatture, moduli e contratti che sono anche visivamente complessi presentano una difficoltà ancora maggiore. La disposizione, le tabelle e le grafiche di tali pubblicazioni potrebbero rendere difficile estrarre le informazioni utili.

Per colmare questa lacuna di conoscenza e migliorare il monitoraggio del progresso nelle attività di comprensione dei documenti, i ricercatori di Google hanno annunciato la disponibilità del nuovo dataset Visually Rich Document Understanding (VRDU). Basandosi sui tipi di documenti reali tipicamente elaborati dai modelli di comprensione dei documenti, presentano cinque criteri per un benchmark efficace. Il documento descrive come la maggior parte dei dataset comunemente utilizzati dalla comunità di ricerca sia carente in almeno una di queste aree, mentre VRDU eccelle in tutte. I ricercatori di Google sono lieti di condividere che il dataset VRDU e il codice di valutazione sono ora disponibili al pubblico con una licenza Creative Commons.

L’obiettivo del ramo di ricerca, Visually Rich Document Understanding (VRDU), è trovare modi per comprendere automaticamente tali materiali. Informazioni strutturate come nomi, indirizzi, date e somme possono essere estratte dai documenti utilizzando i modelli VRDU. L’elaborazione delle fatture, il CRM e la rilevazione delle frodi sono solo alcuni esempi di come le aziende potrebbero utilizzare queste informazioni.

VRDU si trova di fronte a molte difficoltà. La vasta gamma di tipi di documenti rappresenta un ostacolo. A causa dei loro modelli e disposizioni intricate, i documenti visivamente ricchi presentano una difficoltà ancora maggiore. I modelli VRDU devono essere in grado di gestire input imperfetti come errori di battitura e lacune nei dati.

Nonostante le difficoltà, VRDU è un campo promettente e in rapido sviluppo. I modelli VRDU possono aiutare le aziende a ridurre i costi e aumentare l’efficienza migliorando al contempo la precisione delle loro operazioni.

Negli ultimi anni, sono stati sviluppati sofisticati sistemi automatizzati per elaborare e convertire documenti aziendali complessi in oggetti strutturati. L’inserimento manuale dei dati richiede tempo; un sistema in grado di estrarre automaticamente i dati dai documenti come ricevute, preventivi assicurativi e bilanci potrebbe aumentare drasticamente l’efficienza aziendale eliminando questo passaggio. I nuovi modelli basati sul framework Transformer hanno mostrato significativi miglioramenti di precisione. Anche questi processi aziendali vengono ottimizzati con l’aiuto di modelli più grandi come PaLM 2. Tuttavia, le difficoltà osservate nei casi d’uso del mondo reale non si riflettono nei dataset utilizzati nelle pubblicazioni accademiche. Ciò significa che mentre i modelli si comportano bene secondo i criteri accademici, hanno prestazioni inferiori in contesti reali più complessi.

Standard di misurazione

In primo luogo, i ricercatori hanno confrontato i benchmark accademici (ad esempio, FUNSD, CORD, SROIE) con l’accuratezza dei modelli all’avanguardia (ad esempio, con FormNet e LayoutLMv2) nei casi d’uso del mondo reale. I ricercatori hanno scoperto che i modelli all’avanguardia forniscono significativamente meno accuratezza nella pratica rispetto a quelli utilizzati come benchmark accademici. Successivamente, hanno confrontato i dataset comuni con i modelli di comprensione dei documenti rispetto ai benchmark accademici e hanno sviluppato cinque condizioni affinché un dataset rifletta accuratamente la complessità delle applicazioni del mondo reale.

Nella loro ricerca, gli scienziati incontrano vari schemi complessi utilizzati per l’estrazione strutturata. Informazioni numeriche, testuali, di data e ora sono solo alcune delle molte tipologie di dati delle entità che potrebbero essere necessarie, opzionali, ripetute o addirittura nidificate. I problemi tipici nella pratica dovrebbero essere riflessi nelle operazioni di estrazione eseguite su schemi piatti semplici (intestazione, domanda, risposta).

Gli elementi di layout complessi dei documenti dovrebbero avere molti tipi diversi. Si verificano problemi quando i documenti incorporano tabelle, coppie chiave-valore, layout a una colonna e a due colonne, dimensioni dei caratteri variabili per diverse sezioni, immagini con didascalie e note a piè di pagina. Al contrario, la ricerca classica di elaborazione del linguaggio naturale su input lunghi spesso si concentra su dataset in cui la maggior parte dei documenti è organizzata in frasi, paragrafi e capitoli con intestazioni di sezione.

Dovrebbero essere inclusi modelli con strutture variabili in un benchmark utile. I modelli ad alta capacità possono memorizzare rapidamente la struttura di un determinato modello, semplificando l’estrazione da esso. La suddivisione del train-test di un benchmark dovrebbe valutare questa capacità di generalizzare a nuovi modelli/layout, poiché è essenziale nella pratica.

I risultati dell’Optical Character Recognition (OCR) dovrebbero essere di alta qualità per tutti i documenti inviati. Questo benchmark mira ad eliminare gli effetti delle diverse piattaforme OCR sulle prestazioni di VRDU.

La documentazione dovrebbe includere annotazioni a livello di token che possono essere mappate al testo di input corrispondente, consentendo di annotare i singoli token come parte delle rispettive entità. Questo contrasta con la pratica standard di passare il testo del valore dell’entità da analizzare. Ciò è essenziale per produrre dati di addestramento privi di errori, privi di corrispondenze accidentali al valore fornito, in modo che i ricercatori possano concentrarsi su altri aspetti del loro lavoro. Se l’importo fiscale è zero, il campo “totale prima delle tasse” su una ricevuta può avere lo stesso valore del campo “totale”. Attraverso l’annotazione a livello di token, è possibile evitare dati di addestramento in cui entrambe le occorrenze del valore corrispondente sono designate come verità fondamentale per il campo “totale”, portando a esempi rumorosi.

Set di dati e compiti in VRDU

La collezione VRDU comprende due set di dati pubblici separati: il set di dati dei moduli di registrazione e il set di dati dei moduli di acquisto pubblicitario. Questi set di dati offrono istanze che si applicano a scenari reali e soddisfano tutti e cinque i criteri sopra menzionati.

641 file nella collezione dei moduli di acquisto pubblicitario descrivono aspetti di annunci politici. Una stazione televisiva e un gruppo di difesa hanno firmato una fattura o una ricevuta. Nomi dei prodotti, date di trasmissione, costi totali e orari di rilascio sono solo alcuni dettagli registrati nelle tabelle, nelle colonne multiple e nelle coppie chiave-valore dei documenti.

Ci sono 1.915 file nella collezione dei moduli di registrazione che dettagliano il background e le attività degli agenti stranieri che si sono registrati presso il governo degli Stati Uniti. Dettagli importanti riguardanti gli agenti stranieri impegnati in attività che devono essere rese pubbliche sono registrati in ogni documento. Nome del registrante, indirizzo dell’agenzia collegata, attività registrate e altre informazioni.

Sviluppi recenti in VRDU

Ci sono stati molti sviluppi in VRDU negli ultimi anni. I modelli linguistici su larga scala (LLM) sono una di queste innovazioni. Le misure di similarità rappresentazionale su larga scala (LLM) vengono addestrate su grandi set di dati di testo e codice e possono essere utilizzate per rappresentare il testo e il layout di testi graficamente ricchi.

La creazione di “tecniche di apprendimento a poche istanze” è un altro risultato significativo. Con approcci di apprendimento a poche istanze, i modelli VRDU possono imparare rapidamente ad estrarre informazioni da tipi di documenti nuovi. Questo è significativo perché amplia i tipi di testi a cui i modelli VRDU possono essere applicati.

Google Research ha reso disponibile il benchmark VRDU alla comunità di ricerca. Fatture e moduli sono due esempi di documenti graficamente ricchi inclusi nello standard VRDU. Ci sono 10.000 fatture nel set di dati delle fatture e 10.000 moduli nel set di dati dei moduli. Il benchmark VRDU include anche un insieme ben pensato di strumenti per valutare le prestazioni.

I ricercatori nel campo di VRDU troveranno il benchmark uno strumento prezioso. I ricercatori possono ora valutare le prestazioni di vari modelli VRDU sullo stesso corpus di testo. Il benchmark VRDU è utile non solo per individuare problemi, ma può anche aiutare nella futura ricerca diretta nell’area.

  • I dati strutturati come possono essere estratti dai documenti utilizzando modelli VRDU.
  • Nomi, Indirizzi, Date, Importi, Prodotti, Servizi, Condizioni e Requisiti.
  • Diversi processi aziendali utili possono essere automatizzati con l’uso di modelli VRDU, tra cui:
  • Gestione delle fatture, Marketing e gestione dei clienti esistenti, Rilevamento delle frodi, Segnalazione alle autorità.
  • Riducendo la quantità di informazioni digitate manualmente nei sistemi, i modelli VRDU possono aumentare la precisione delle operazioni aziendali.
  • Automatizzando il flusso di lavoro di elaborazione dei documenti, i modelli VRDU possono aiutare le aziende a risparmiare tempo e denaro.
  • Le organizzazioni possono utilizzare i modelli VRDU per aumentare la soddisfazione del cliente accelerando e perfezionando il loro servizio.

Il futuro di VRDU

Le prospettive per VRDU sono ottimistiche. Lo sviluppo di LLM e metodi di apprendimento a poche istanze porterà a modelli VRDU più robusti e flessibili in futuro. Grazie a questo, i modelli VRDU possono essere utilizzati per automatizzare ulteriori processi aziendali e con più tipi di documenti.

Quando utilizzato per l’elaborazione e la comprensione dei documenti nel mondo aziendale, VRDU potrebbe avere un impatto profondo. La comprensione dei documenti in Realtà Virtuale (VRDU) può risparmiare tempo e denaro alle aziende automatizzando il processo di comprensione dei documenti e può anche contribuire ad aumentare l’accuratezza delle operazioni aziendali.

Gli esperimenti presentati dai ricercatori di Google dimostrano ulteriormente la difficoltà dei compiti VRDU e l’opportunità significativa di miglioramento rispetto ai set di dati generalmente utilizzati nella letteratura, dove i punteggi F1 superiori a 0,90 sono tipici. Il set di dati VRDU e il codice di valutazione saranno resi pubblicamente disponibili nella speranza che possano contribuire a far progredire lo stato dell’arte della comprensione dei documenti tra i team di ricerca.