Accelerando l’IA dei documenti

Accelerating document AI.

Le imprese sono piene di documenti contenenti conoscenze che non sono accessibili dai flussi di lavoro digitali. Questi documenti possono variare da lettere, fatture, moduli, report a ricevute. Grazie ai progressi nell’AI testuale, visiva e multimodale, è ora possibile sbloccare queste informazioni. Questo post ti mostra come i tuoi team possono utilizzare modelli open-source per creare soluzioni personalizzate gratuitamente!

L’AI per i documenti include molte attività di data science, come la classificazione delle immagini, la conversione delle immagini in testo, la risposta alle domande sui documenti, la risposta alle domande sulle tabelle e la risposta alle domande visive. Questo post inizia con una tassonomia dei casi d’uso all’interno dell’AI per i documenti e i migliori modelli open-source per tali casi d’uso. Successivamente, il post si concentra sulle licenze, la preparazione dei dati e la modellazione. In tutto il post, ci sono collegamenti a demo web, documentazione e modelli.

Casi d’uso

Esistono almeno sei casi d’uso generici per la creazione di soluzioni di AI per i documenti. Questi casi d’uso differiscono per il tipo di documenti in input e output. Spesso è necessaria una combinazione di approcci per risolvere i problemi aziendali relativi all’AI per i documenti.

Analisi del layout del documento con DiT.

L’analisi del layout del documento utilizza tipicamente la metrica mAP (mean average-precision), spesso utilizzata per valutare i modelli di rilevamento degli oggetti. Un importante punto di riferimento per l’analisi del layout è il dataset PubLayNet. LayoutLMv3, all’epoca della stesura del post, raggiunge un punteggio mAP complessivo di 0,951 (fonte).

Prossimi passi

Vedi le possibilità dell’AI per i documenti? Ogni giorno lavoriamo con le imprese per sbloccare dati preziosi utilizzando modelli di visione e linguaggio all’avanguardia. Abbiamo incluso collegamenti a varie demo in tutto il post, quindi utilizzali come punto di partenza. L’ultima sezione del post contiene risorse per iniziare a scrivere il proprio codice per modelli personalizzati, come la risposta alle domande visive. Una volta pronti a iniziare a costruire le vostre soluzioni, l’hub pubblico di Hugging Face è un ottimo punto di partenza. Ospita una vasta gamma di modelli di AI per i documenti.

Se desideri accelerare i tuoi sforzi di AI per i documenti, Hugging Face può aiutarti. Attraverso il nostro Enterprise Acceleration Program collaboriamo con le imprese per fornire orientamento sui casi d’uso di AI. Per l’AI per i documenti, ciò potrebbe includere assistenza nella creazione di un modello di pre-addestramento, migliorare l’accuratezza in un compito di fine-tuning o fornire una guida generale per affrontare il primo caso d’uso di AI per i documenti.

Possiamo anche fornire pacchetti di crediti di calcolo per utilizzare i nostri prodotti di training (AutoTrain) o di inferenza (Spaces o Inference Endpoints) su larga scala.

Risorse

Notebook e tutorial per molti modelli di AI per i documenti possono essere trovati su:

  • Tutorial di Transformers di Niels
  • AI per i documenti con Hugging Face Transformers di Philipp