La nuova funzione Layout di Amazon Textract introduce efficienze nelle attività di elaborazione di documenti di intelligenza artificiale di scopo generale e generativa

La nuova funzione Layout di Amazon Textract efficienza nell'elaborazione di documenti di intelligenza artificiale generale e generativa

Amazon Textract è un servizio di apprendimento automatico (ML) che estrae automaticamente testo, scrittura a mano e dati da qualsiasi documento o immagine. AnalyzeDocument Layout è una nuova funzionalità che consente ai clienti di estrarre automaticamente elementi di layout come paragrafi, titoli, sottotitoli, intestazioni, piè di pagina e altro ancora dai documenti. Il layout estende la rilevazione delle parole e delle linee di Amazon Textract raggruppando automaticamente il testo in questi elementi di layout e sequenziandoli secondo i modelli di lettura umani. (Cioè, l’ordine di lettura da sinistra a destra e dall’alto in basso).

La creazione di soluzioni di elaborazione e comprensione dei documenti per rapporti finanziari e di ricerca, trascrizioni mediche, contratti, articoli di informazione e così via, richiede l’estrazione delle informazioni presenti in titoli, intestazioni, paragrafi, ecc. Ad esempio, quando si catalogano rapporti finanziari in un database di documenti, l’estrazione e l’archiviazione del titolo come indice di catalogo consente un facile recupero. Prima dell’introduzione di questa funzione, i clienti dovevano costruire questi elementi utilizzando codice di post-elaborazione e le parole e le linee di risposta da Amazon Textract.

La complessità dell’implementazione di questo codice viene amplificata con documenti con più colonne e layout complessi. Con questo annuncio, l’estrazione degli elementi di layout comuni dai documenti diventa più facile e consente ai clienti di creare soluzioni efficienti di elaborazione dei documenti più velocemente con meno codice.

A settembre 2023, Amazon Textract ha lanciato la funzionalità Layout che estrae automaticamente elementi di layout come paragrafi, titoli, elenchi, intestazioni e piè di pagina e ordina il testo e gli elementi come farebbe un essere umano. Abbiamo anche rilasciato la versione aggiornata del toolkit di post-elaborazione open source, appositamente creato per Amazon Textract, noto come Amazon Textract Textractor.

In questo post, discutiamo come i clienti possono sfruttare questa funzionalità per carichi di lavoro di elaborazione dei documenti. Discutiamo anche uno studio qualitativo che dimostra come Layout migliora l’accuratezza delle attività di intelligenza artificiale generativa (AI) sia per attività astrattive che estraenti per carichi di lavoro di elaborazione documenti che coinvolgono modelli di linguaggio ampi (LLMs).

Elementi di layout

Centrali nella funzionalità di layout di Amazon Textract sono i nuovi elementi di layout. La funzionalità LAYOUT dell’API AnalyzeDocument ora può rilevare fino a dieci diversi elementi di layout in una pagina di un documento. Questi elementi di layout sono rappresentati come tipo di blocco nella risposta JSON e contengono la fiducia, la geometria (cioè informazioni sul bounding box e sul poligono) e le Relationships, che sono un elenco di ID corrispondenti al tipo di blocco LINE.

Titolo – Il titolo principale del documento. Restituito come tipo di blocco LAYOUT_TITLE.
Intestazione – Testo situato nella parte superiore del margine del documento. Restituito come tipo di blocco LAYOUT_HEADER.
Piè di pagina – Testo situato nella parte inferiore del margine del documento. Restituito come tipo di blocco LAYOUT_FOOTER.
Titolo sezione – I titoli sotto il titolo principale che rappresentano le sezioni del documento. Restituito come tipo di blocco LAYOUT_SECTION_HEADER.
Numero di pagina – Il numero di pagina dei documenti. Restituito come tipo di blocco LAYOUT_PAGE_NUMBER.
Elenco – Qualsiasi informazione raggruppata insieme in forma di elenco. Restituito come tipo di blocco LAYOUT_LIST.
Figura – Indica la posizione di un’immagine in un documento. Restituito come tipo di blocco LAYOUT_FIGURE.
Tabella – Indica la posizione di una tabella nel documento. Restituito come tipo di blocco LAYOUT_TABLE.
Chiave Valore – Indica la posizione delle coppie chiave-valore in un documento. Restituito come tipo di blocco LAYOUT_KEY_VALUE.
Testo – Testo presente principalmente come parte dei paragrafi nei documenti. È una raccolta per il testo non presente in altri elementi. Restituito come tipo di blocco LAYOUT_TEXT.

Ogni elemento di layout può contenere una o più relazioni LINE, e queste linee costituiscono il contenuto testuale effettivo dell’elemento di layout (ad esempio, il LAYOUT_TEXT è tipicamente un paragrafo di testo contenente più LINE). È importante notare che gli elementi di layout appaiono nell’ordine di lettura corretto nella risposta API come l’ordine di lettura nel documento, il che facilita la costruzione del testo di layout dalla risposta JSON dell’API.

Casi d’uso dell’estrazione consapevole del layout

Ecco alcuni dei casi d’uso comuni per la nuova funzionalità AnalyzeDocument LAYOUT.

Estrazione degli elementi di layout per l’indicizzazione di ricerca e il catalogo. I contenuti del LAYOUT_TITLE o LAYOUT_SECTION_HEADER, insieme all’ordine di lettura, possono essere utilizzati per contrassegnare o arricchire appropriatamente i metadati. Questo migliora il contesto di un documento in un archivio documentale per migliorare le capacità di ricerca o organizzare i documenti.
Riassumere l’intero documento o parti di un documento estrarre il testo nell’ordine di lettura corretto e utilizzare gli elementi di layout.
Estrazione di parti specifiche del documento. Ad esempio, un documento può contenere una miscela di immagini con testo al suo interno e altre sezioni di testo normale o paragrafi. Ora è possibile isolare le sezioni di testo utilizzando l’elemento LAYOUT_TEXT.
Migliore performance e risposte accurate per documenti in contesto Q&A ed estrazioni di entità utilizzando un LLM.

Ci sono altri possibili casi d’uso di automazione dei documenti in cui il layout può essere utile. Tuttavia, in questo articolo spieghiamo come estrarre gli elementi di layout al fine di aiutare a comprendere come utilizzare la funzionalità per le soluzioni tradizionali di automazione della documentazione. Discutiamo i vantaggi dell’utilizzo del layout per un caso d’uso Q&A del documento con LLM utilizzando un metodo comune noto come Retrieval Augmented Generation (RAG), e per l’estrazione delle entità. Per i risultati di entrambi questi casi d’uso, presentiamo punteggi comparativi che aiutano a differenziare i vantaggi del testo consapevole del layout rispetto al semplice testo normale.

Per evidenziare i vantaggi, abbiamo eseguito test per confrontare come il testo normale estratto utilizzando scansioni raster con DetectDocumentText e il testo linearizzato consapevole del layout estratto utilizzando AnalyzeDocument con la funzione LAYOUT influisce sul risultato degli output Q&A in contesto di un LLM. Per questo test, abbiamo utilizzato il modello Claude Instant di Anthropic con Amazon Bedrock. Tuttavia, per layout di documenti complessi, la generazione di testo nell’ordine di lettura corretto e il successivo raggruppamento appropriato possono essere sfidanti, a seconda della complessità del layout del documento. Nelle sezioni seguenti, discutiamo come estrarre gli elementi di layout e linearizzare il testo per costruire un’applicazione basata su LLM. In particolare, discutiamo l’evaluazione comparativa delle risposte generate dall’LLM per l’applicazione Q&A del documento utilizzando il testo normale basato su scansioni raster e il testo linearizzato consapevole del layout.

Estrazione degli elementi di layout da una pagina

Il toolkit Amazon Textract Textractor può elaborare un documento tramite l’API AnalyzeDocument con la funzionalità LAYOUT e successivamente espone gli elementi di layout rilevati tramite la proprietà PAGE_LAYOUT della pagina e la sua sottoproprietà TITLES, HEADERS, FOOTERS, TABLES, KEY_VALUES, PAGE_NUMBERS, LISTS e FIGURES. Ogni elemento ha la propria funzione di visualizzazione, che ti consente di vedere esattamente ciò che è stato rilevato. Per iniziare, puoi installare Textractor utilizzando

pip install amazon-textract-textractor

Come dimostrato nel seguente frammento di codice, il documento news_article.pdf viene elaborato con l’API AnalyzeDocument con la funzionalità LAYOUT. La risposta restituisce una variabile documento che contiene ciascuno dei blocchi di layout rilevati dalle proprietà.

from textractor import Textractorfrom textractor.data.constants import TextractFeaturesextractor = Textractor(profile_name="default")input_document = "./news_article.pdf"document = extractor.analyze_document(                   file_source=input_document,                   features=[TextractFeatures.LAYOUT],                   save_image=True)document.pages[0].visualize()document.pages[0].page_layout.titles.visualize()document.pages[0].page_layout.headers.visualize()document.pages[0].page_layout.section_headers.visualize()document.pages[0].page_layout.footers.visualize()document.pages[0].page_layout.tables.visualize()document.pages[0].page_layout.key_values.visualize()document.pages[0].page_layout.page_numbers.visualize()document.pages[0].page_layout.lists.visualize()document.pages[0].page_layout.figures.visualize()

Visualizzazione del layout con Amazon Textract Textractor

Vedi un esempio più approfondito nella documentazione ufficiale di Textractor.

Linearizzazione del testo dalla risposta di layout

Per utilizzare le funzionalità di layout, Amazon Textract Textractor è stato ampiamente rivisto per la versione 1.4 al fine di fornire linearizzazione con oltre 40 opzioni di configurazione, consentendoti di adattare l’output del testo linearizzato al tuo caso d’uso successivo con poco sforzo. Il nuovo linearizzatore supporta tutte le API AnalyzeDocument attualmente disponibili, compresi i moduli e le firme, che ti consentono di aggiungere elementi di selezione al testo risultante senza apportare alcuna modifica al codice.

from textractor import Textractorfrom textractor.data.constants import TextractFeaturesfrom textractor.data.text_linearization_config import TextLinearizationConfigextractor = Textractor(profile_name="default")config = TextLinearizationConfig(                         hide_figure_layout=True,                         title_prefix="# ",                         section_header_prefix="## ")document = extractor.analyze_document(                                 file_source=input_document,                                 features=[TextractFeatures.LAYOUT],                                 save_image=True)print(document.get_text(config=config))

Vedi questo esempio e altro nella documentazione ufficiale di Textractor.

Abbiamo anche aggiunto un pretty printer di layout alla libreria che ti permette di chiamare una singola funzione passando la risposta dell’API di layout nel formato JSON e ottenere il testo linearizzato (per pagina) in cambio.

python -m pip install -q amazon-textract-prettyprinter

Hai la possibilità di formattare il testo in formato markdown, escludere il testo all’interno delle figure nel documento e escludere estrazioni di intestazione, piè di pagina e numeri di pagina dall’output linearizzato. Puoi anche memorizzare l’output linearizzato in formato testo semplice nel tuo sistema file locale o in un’ubicazione Amazon S3 passando il parametro save_txt_path. Il seguente frammento di codice illustra un utilizzo di esempio:

from textractcaller.t_call import call_textract, Textract_Featuresfrom textractprettyprinter.t_pretty_print import get_text_from_layout_jsontextract_json = call_textract(input_document=input_document,                      features=[Textract_Features.LAYOUT,                      Textract_Features.TABLES])layout = get_text_from_layout_json(textract_json=textract_json,exclude_figure_text=True, # opzionaleexclude_page_header=True, # opzionaleexclude_page_footer=True, # opzionaleexclude_page_number=True, # opzionalesave_txt_path="s3://bucket/prefix") # opzionalefull_text = layout[1]print(full_text)

Valutazione delle metriche di prestazione di LLM per attività astratte ed estrattive

Si è riscontrato che il testo consapevole del layout migliora le prestazioni e la qualità del testo generato da LLM. In particolare, valutiamo due tipi di attività LLM – attività astratte ed estrattive.

Le attività astratte si riferiscono a compiti che richiedono all’intelligenza artificiale di generare un nuovo testo che non si trova direttamente nel materiale di origine. Alcuni esempi di attività astratte includono la sintesi e la risposta alle domande. Per queste attività, utilizziamo la metrica Recall-Oriented Understudy for Gisting Evaluation (ROUGE) per valutare le prestazioni di un LLM nelle attività di risposta alle domande rispetto a un insieme di dati veri.

Le attività estrattive si riferiscono a attività in cui il modello identifica ed estrae porzioni specifiche del testo di input per costruire una risposta. In queste attività, il modello si concentra sulla selezione dei segmenti rilevanti (come frasi, frasi o parole chiave) dal materiale di origine anziché generare nuovo contenuto. Alcuni esempi sono il riconoscimento di entità denominate (NER) ed estrazione di parole chiave. Per queste attività, utilizziamo la Similarità Normalizzata Media Levenshtein (ANLS) sul riconoscimento di entità denominate basato sul testo linearizzato dal layout estratto da Amazon Textract.

Analisi del punteggio ROUGE nel compito di risposta astrattiva alle domande

Il nostro test è stato impostato per eseguire Q&A in contesto su un documento multicolumna estrarrendo il testo e quindi eseguendo RAG per ottenere risposte alle domande dal LLM. Eseguiamo Q&A su un insieme di domande utilizzando il testo grezzo basato su scansione raster e il testo linearizzato consapevole del layout. Valutiamo quindi le metriche ROUGE per ciascuna domanda confrontando la risposta generata dalla macchina con la risposta corrispondente definita come verità di riferimento. In questo caso, la verità di riferimento è lo stesso insieme di domande risposte da un essere umano, che viene considerato come gruppo di controllo.

La Q&A in contesto con RAG richiede l’estrazione del testo dal documento, la creazione di porzioni più piccole del testo, la generazione di embedding vettoriali delle porzioni e il successivo immagazzinamento in un database vettoriale. Questo viene fatto affinché il sistema possa eseguire una ricerca di rilevanza con la domanda nel database vettoriale per restituire le porzioni di testo più rilevanti per la domanda posta. Queste porzioni rilevanti vengono quindi utilizzate per costruire il contesto globale e fornite all’LLM in modo che possa rispondere in modo accurato alla domanda.

Il documento seguente, tratto dal dataset DocUNet: Document Image Unwarping via a Stacked U-Net, viene utilizzato per il test. Questo documento è un documento multicolumna con intestazioni, titoli, paragrafi e immagini. Abbiamo anche definito un insieme di 20 domande con relative risposte da parte di un essere umano come gruppo di controllo o verità di riferimento. Lo stesso insieme di 20 domande è stato poi utilizzato per generare le risposte dall’LLM.

Documento di esempio tratto dal dataset DocUNet

Nel passaggio successivo, estraiamo il testo da questo documento utilizzando le API DetectDocumentText e AnalyzeDocument con la funzione LAYOUT. Poiché la maggior parte degli LLMs ha una finestra di contesto limitata per i token, abbiamo mantenuto la dimensione delle porzioni piccola, di circa 250 caratteri con un overlap di 50 caratteri, utilizzando il RecursiveCharacterTextSplitter di LangChain. Ciò ha comportato la generazione di due insiemi separati di porzioni di documento – uno generato utilizzando il testo grezzo e l’altro utilizzando il testo linearizzato consapevole del layout. Entrambi gli insiemi di porzioni sono stati archiviati in un database vettoriale generando embedding vettoriali utilizzando il modello di embedding di testo Amazon Titan Embeddings G1 Text.

Segmentazione e embedding con Amazon Titan Embeddings G1 Text

Il seguente frammento di codice genera il testo grezzo dal documento.

import textractcaller as tcfrom textractcaller.t_call import call_textractfrom textractprettyprinter.t_pretty_print import get_lines_stringplain_textract_json = call_textract(input_document = input_document)plain_text = get_lines_string(textract_json = plain_textract_json)print(plain_text)

L’output (ridotto per brevità) presenta il seguente aspetto. L’ordine di lettura del testo è errato a causa della mancanza di consapevolezza del layout delle API, e il testo estratto copre le colonne di testo.

PHOTONICS FOR A BETTER WORLDUNESCO ENDORSESINTERNATIONAL DAY OF LIGHTFirst celebration in 2018 will become an annualreminder of photonics-enabled technologiesT he executive board of the United Nations Educational,in areas such as science, culture, education, sustainable development,Scientific, and Cultural Organization (UNESCO) has endorsedmedicine, communications, and energy.a proposal to establish an annual International Day of LightThe final report of IYL 2015 was delivered to UNESCO in Paris(IDL) as an extension of the highly successful International Year ofduring a special meeting in October 2016. At this event, SPIE memberLight and Light-based Technologies (IYL 2015)....

È possibile visualizzare l’ordine di lettura visivo per il testo grezzo estratto da DetectDocumentText nell’immagine seguente.

Visualizzazione dell'ordine di lettura della scansione raster — Visualizzazione dell’ordine di lettura della scansione raster

Il seguente frammento di codice genera il testo linearizzato del layout dal documento. Puoi utilizzare uno dei due metodi per generare il testo linearizzato dal documento utilizzando la versione più recente della libreria Python Textract Textractor di Amazon Textract.

import textractcaller as tcfrom textractcaller.t_call import call_textract, Textract_Featuresfrom textractprettyprinter.t_pretty_print import get_text_from_layout_jsonlayout_textract_json = call_textract(input_document = input_document,                                     features = [Textract_Features.LAYOUT])layout_text = get_text_from_layout_json(textract_json = layout_textract_json)[1]print(layout_text)

L’output (ridotto per brevità) appare come segue. L’ordine di lettura del testo è preservato poiché abbiamo utilizzato la funzionalità LAYOUT, e il testo ha più senso.

PHOTONICS FOR A BETTER WORLDUNESCO ENDORSES INTERNATIONAL DAY OF LIGHTLa prima celebrazione nel 2018 diventerà un promemoria annuale delle tecnologie abilitate dalla fotonicaIl consiglio esecutivo dell'Organizzazione delle Nazioni Unite per l'Educazione, la Scienza e la Cultura (UNESCO) ha approvato una proposta per istituire un Giorno internazionale della luce (IDL) come estensione dell'altamente riuscito Anno internazionale della luce e delle tecnologie basate sulla luce (IYL 2015).L'approvazione di un Giorno della Luce è stata accolta da SPIE e altri partner fondatori di IYL 2015....

È possibile visualizzare l’ordine di lettura visivo per il testo grezzo estratto da AnalyzeDocument con la funzionalità LAYOUT nell’immagine seguente.

Visualizzazione dell'ordine di lettura consapevole del layout — Visualizzazione dell’ordine di lettura consapevole del layout

Abbiamo eseguito la suddivisione su entrambi i testi estratti separatamente, con una dimensione di chunk di 250 e una sovrapposizione di 50.

Successivamente, generiamo embedding vettoriali per i chunk e li carichiamo in un database di vettori in due collezioni separate. Abbiamo utilizzato ChromaDB open source come nostro database di vettori in memoria e abbiamo utilizzato il valore topK di 3 per la ricerca di rilevanza. Ciò significa che per ogni domanda, la nostra query di ricerca di rilevanza con ChromaDB restituisce 3 chunk di testo rilevanti di dimensioni 250 ciascuno. Questi tre chunk vengono quindi utilizzati per creare un contesto per LLM. Abbiamo intenzionalmente scelto una dimensione di chunk più piccola e un topK più piccolo per creare il contesto per le seguenti ragioni specifiche.

Ridurre le dimensioni complessive del nostro contesto poiché la ricerca suggerisce che gli LLM tendono a migliorare le prestazioni con un contesto più breve, anche se il modello supporta un contesto più lungo (attraverso una finestra di contesto dei token più grande).
Dimensioni complessive del prompt più piccole comportano una latenza inferiore del modello di generazione di testo complessivo. Maggiori sono le dimensioni complessive del prompt (che includono il contesto), più tempo potrebbe impiegare il modello per generare una risposta.
Conformità alla finestra di contesto limitata del modello, come nel caso della maggior parte degli LLM.
Efficienza dei costi poiché l’utilizzo di meno token significa un costo inferiore per domanda per i token di input e output combinati.

Si noti che Anthropic Claude Instant v1 supporta una finestra di contesto di token di 100.000 tramite Amazon Bedrock. Ci siamo intenzionalmente limitati a una dimensione di chunk più piccola poiché ciò rende anche il test rilevante per i modelli con meno parametri e finestre di contesto complessive più brevi.

Abbiamo utilizzato le metriche ROUGE per valutare il testo generato dalle macchine rispetto a un testo di riferimento (o verità fondamentale), misurando vari aspetti come la sovrapposizione di n-grammi, sequenze di parole e coppie di parole tra i due testi. Abbiamo scelto tre metriche ROUGE per la valutazione.

ROUGE-1: Compara la sovrapposizione di unigrammi (singole parole) tra il testo generato e un testo di riferimento.
ROUGE-2: Compara la sovrapposizione di bigrammi (sequenze di due parole) tra il testo generato e un testo di riferimento.
ROUGE-L: Misura la sottosequenza comune più lunga (LCS) tra il testo generato e un testo di riferimento, concentrandosi sulla sequenza più lunga di parole che appaiono in entrambi i testi, anche se non necessariamente in modo consecutivo.

Per le nostre 20 domande campione rilevanti al documento, abbiamo eseguito Q&A sia con il testo grezzo che con il testo linearizzato, e poi abbiamo effettuato l’analisi del punteggio ROUGE. Abbiamo notato un miglioramento medio di quasi il 50 percento nella precisione complessiva. E c’è stato un miglioramento significativo nei punteggi F1 quando il testo linearizzato del layout è stato confrontato con la verità fondamentale rispetto al confronto tra il testo grezzo e la verità fondamentale.

Ciò suggerisce che il modello è diventato migliore nel generare risposte corrette con l’aiuto del testo linearizzato e della suddivisione in parti più piccole. Ciò ha portato a un aumento della precisione e il bilanciamento tra precisione e richiamo si è spostato favorevolmente verso la precisione, portando a un aumento del punteggio F1. L’aumento del punteggio F1, che bilancia precisione e richiamo, suggerisce un miglioramento. È essenziale considerare le implicazioni pratiche di questi cambiamenti metrici. Ad esempio, in uno scenario in cui i falsi positivi sono costosi, l’aumento della precisione è molto vantaggioso.

Grafico ROUGE sul risultato del compito di Q&A con layout

Analisi del punteggio ANLS su compiti estrapolativi su set di dati accademici

Misuriamo l’ANLS o Similarità Normalizzata Media di Levenshtein, che è una metrica di distanza di modifica introdotta dal paper Scene Text Visual Question Answering e mira a penalizzare leggermente le imperfezioni OCR minori considerando contemporaneamente le capacità di ragionamento del modello. Questa metrica è una versione derivata della tradizionale distanza di Levenshtein, che è una misura della differenza tra due sequenze (come stringhe). È definita come il numero minimo di modifiche di singolo carattere (inserimenti, cancellazioni o sostituzioni) richieste per trasformare una parola nell’altra.

Per i nostri test ANLS, abbiamo eseguito un compito NER in cui è stato chiesto al LLM di estrarre il valore esatto dal testo estratto con OCR. I due set di dati accademici utilizzati per i test sono DocVQA e InfographicVQA. Abbiamo utilizzato l’approccio di prompt zero-shot per tentare l’estrazione delle entità chiave. Il prompt utilizzato per i LLM presenta la seguente struttura.

template = """Ti viene chiesto di rispondere a una domanda utilizzando solo il documento fornito. La risposta alla domanda dovrebbe essere presa così com'è dal documento e il più breve possibile. Documento:\n{document}Domanda: {question}Estrai la risposta dal documento con il minor numero di parole possibile."""

Sono stati osservati miglioramenti di precisione in tutti i set di dati di domande-risposte sui documenti testati con il modello open source FlanT5-XL utilizzando il testo linearizzato consapevole del layout, rispetto al testo grezzo (scansione raster), in risposta a prompt zero-shot. Nel set di dati InfographicVQA, l’utilizzo del testo linearizzato consapevole del layout consente al modello FlanT5-XL più piccolo con 3 miliardi di parametri di ottenere prestazioni simili al modello FlanT5-XXL più grande (sul testo grezzo), che ha quasi quattro volte più parametri (11 miliardi).

Set di dati	ANLS*
FlanT5-XL (3B)	FlanT5-XXL (11B)
Non consapevole del layout (raster)	Consapevole del layout	Δ	Non consapevole del layout (raster)	Consapevole del layout	Δ
DocVQA	66,03%	68,46%	1,43%	70,71%	72,05%	1,34%
InfographicsVQA	29,47%	35,76%	6,29%	37,82%	45,61%	7,79%

* ANLS è misurato sul testo estratto da Amazon Textract, non dalla trascrizione del documento fornito

Conclusioni

Il lancio di Layout segna un significativo progresso nell’utilizzo di Amazon Textract per costruire soluzioni di automazione documentale. Come discusso in questo post, Layout utilizza metodi AI tradizionali e generativi per migliorare l’efficienza nella costruzione di una vasta gamma di soluzioni di automazione documentale come la ricerca di documenti, la Q&A contestuale, la sintesi, l’estrazione di entità chiave e altro ancora. Continuando ad abbracciare il potere dell’AI nella costruzione di sistemi di elaborazione e comprensione dei documenti, questi miglioramenti apriranno senza dubbio la strada a flussi di lavoro più efficienti, maggiore produttività e analisi dei dati più approfondite.

Per maggiori informazioni sulla funzione Layout e su come sfruttarla per soluzioni di automazione documentale, consulta la documentazione su AnalyzeDocument, Analisi del layout e Linearizzazione del testo per l’applicazione di AI generativa.

Amazon Textract,artificial intelligence,Generative AI,Intermediate (200)

Incorporamento del testo e recupero di similarità delle frasi su larga scala con Amazon SageMaker JumpStart

Gli studiosi di Stanford innovano nel modello di linguaggio di ampia portata per la fattualità classificazioni di preferenza automatiche e progressi nell’elaborazione del linguaggio naturale per la riduzione degli errori

La nuova funzione Layout di Amazon Textract introduce efficienze nelle attività di elaborazione di documenti di intelligenza artificiale di scopo generale e generativa

La nuova funzione Layout di Amazon Textract efficienza nell'elaborazione di documenti di intelligenza artificiale generale e generativa

Elementi di layout

Casi d’uso dell’estrazione consapevole del layout

Estrazione degli elementi di layout da una pagina

Linearizzazione del testo dalla risposta di layout

Valutazione delle metriche di prestazione di LLM per attività astratte ed estrattive

Analisi del punteggio ROUGE nel compito di risposta astrattiva alle domande

Analisi del punteggio ANLS su compiti estrapolativi su set di dati accademici

Conclusioni

Incorporamento del testo e recupero di similarità delle frasi su larga scala con Amazon SageMaker JumpStart

Gli studiosi di Stanford innovano nel modello di linguaggio di ampia portata per la fattualità classificazioni di preferenza automatiche e progressi nell’elaborazione del linguaggio naturale per la riduzione degli errori

Come Amazon Music utilizza SageMaker con NV...

Artista 3D crea in modo stupefacente render...

Cosa direbbe il Chatbot?

NVIDIA collabora con Genentech per accelera...

Ricercatori trovano ulteriori potenziali di...

La Corea del Sud permette ai robot autonomi...

AI