Costruire soluzioni IDP ben strutturate con una prospettiva personalizzata – Parte 6 Sostenibilità

Creare soluzioni IDP efficaci con un punto di vista personalizzato - Parte 6 Sostenibilità

Un progetto di elaborazione intelligente dei documenti (IDP) combina tipicamente l’OCR (Riconoscimento Ottico dei Caratteri) e l’NLP (Elaborazione del Linguaggio Naturale) per leggere e comprendere automaticamente documenti. I clienti di tutti i settori eseguono carichi di lavoro IDP su AWS per fornire valore aziendale automatizzando casi d’uso come moduli KYC, documenti fiscali, fatture, pratiche assicurative, rapporti di consegna, rapporti di inventario e altro ancora. I flussi di lavoro IDP su AWS possono aiutarti ad estrarre informazioni aziendali dai tuoi documenti, ridurre lo sforzo manuale e elaborare i documenti più velocemente e con maggiore precisione.

Creare una soluzione IDP pronta per la produzione nel cloud richiede una serie di compromessi tra costo, disponibilità, velocità di elaborazione e sostenibilità. Questo post fornisce indicazioni e migliori pratiche su come migliorare la sostenibilità del tuo flusso di lavoro IDP utilizzando Amazon Textract, Amazon Comprehend e l’ IDP Well-Architected Custom Lens.

Il AWS Well-Architected Framework ti aiuta a comprendere i benefici e i rischi delle decisioni prese durante la creazione di carichi di lavoro su AWS. Gli AWS Well-Architected Custom Lenses integrano il Well-Architected Framework con contenuti più specifici per settori, domini o flussi di lavoro. Utilizzando il Well-Architected Framework e l’IDP Well-Architected Custom Lens, acquisirai conoscenze sulle migliori pratiche operative e architetturali per progettare ed eseguire carichi di lavoro affidabili, sicuri, efficienti, convenienti e sostenibili nel cloud.

L’IDP Well-Architected Custom Lens fornisce indicazioni su come affrontare le sfide comuni nei flussi di lavoro IDP che riscontriamo nel campo. Rispondendo a una serie di domande nel Well-Architected Tool, sarai in grado di identificare i potenziali rischi e affrontarli seguendo il piano di miglioramento.

Questo post si concentra sul pilastro della Sostenibilità dell’IDP custom lens. Il pilastro della Sostenibilità si concentra sulla progettazione e implementazione della soluzione per ridurre l’impatto ambientale del tuo carico di lavoro e minimizzare gli sprechi aderendo ai seguenti principi di progettazione: comprendere il tuo impatto, massimizzare l’utilizzo delle risorse e utilizzare servizi gestiti e anticipare il cambiamento e prepararsi per miglioramenti. Questi principi ti aiutano a rimanere concentrato mentre esplori le aree di interesse: raggiungere risultati aziendali tenendo conto della sostenibilità, gestire in modo efficace i tuoi dati e il loro ciclo di vita e essere pronto per e stimolare il miglioramento continuo.

Principi di progettazione

Il pilastro della Sostenibilità si concentra sulla progettazione e implementazione della soluzione attraverso i seguenti principi di progettazione:

  • Comprendere il tuo impatto – Misura l’impatto sulla sostenibilità del tuo carico di lavoro IDP e modella l’impatto futuro del tuo carico di lavoro. Includi tutte le fonti di impatto, incluso l’impatto dell’utilizzo da parte dei clienti dei tuoi prodotti. Ciò comprende anche l’impatto dell’IDP che consente la digitalizzazione e consente alla tua azienda o ai tuoi clienti di completare processi senza carta. Stabilisci indicatori chiave di prestazione (KPI) per il tuo carico di lavoro IDP al fine di valutare le modalità per migliorare la produttività e l’efficienza riducendo al contempo l’impatto ambientale.
  • Massimizzare l’utilizzo delle risorse e utilizzare servizi gestiti – Riduci al minimo l’utilizzo di risorse inutilizzate, l’elaborazione e lo stoccaggio per ridurre l’energia totale necessaria per eseguire il tuo carico di lavoro IDP. AWS opera a scala, quindi la condivisione dei servizi su un’ampia base clienti contribuisce a massimizzare l’utilizzo delle risorse, il che significa massimizzare l’efficienza energetica e ridurre la quantità di infrastruttura necessaria per supportare i carichi di lavoro IDP. Con i servizi gestiti di AWS, puoi ridurre al minimo l’impatto del tuo carico di lavoro IDP su calcolo, rete e archiviazione.
  • Anticipare il cambiamento e prepararsi per miglioramenti – Anticipa il cambiamento e supporta i miglioramenti upstream che i tuoi partner e fornitori apportano per aiutarti a ridurre l’impatto dei tuoi carichi di lavoro IDP. Monitora e valuta continuamente le nuove offerte di hardware e software più efficienti. Progetta per la flessibilità al fine di abbassare le barriere per l’introduzione di modifiche e consentire l’adozione rapida di nuove tecnologie efficienti.

Aree di interesse

I principi di progettazione e le migliori pratiche del pilastro della Sostenibilità si basano su informazioni raccolte dai nostri clienti e dalle nostre comunità di specialisti tecnici IDP. Puoi utilizzarli come guida per supportare le tue decisioni di progettazione e allineare la tua soluzione IDP con le esigenze del tuo business e della sostenibilità.

Di seguito sono indicate le aree di interesse per la sostenibilità delle soluzioni IDP nel cloud: raggiungere risultati aziendali tenendo conto della sostenibilità, gestire in modo efficace i dati e il loro ciclo di vita e essere pronti e promuovere il miglioramento continuo.

Raggiungere risultati aziendali tenendo conto della sostenibilità

Per determinare le migliori regioni per le esigenze aziendali e gli obiettivi di sostenibilità, consigliamo i seguenti passaggi:

  • Valutare e selezionare potenziali regioni – Inizia selezionando potenziali regioni per il tuo carico di lavoro in base alle tue esigenze aziendali, inclusa la conformità, il costo e la latenza. I nuovi servizi e le nuove funzionalità vengono distribuiti gradualmente nelle regioni. Consulta la Lista dei servizi AWS disponibili per regione per verificare quali regioni offrono i servizi e le funzionalità necessarie per eseguire il tuo carico di lavoro IDP.
  • Scegli una regione alimentata al 100% da energia rinnovabile – Dalla tua lista, identifica le regioni vicine ai progetti di energia rinnovabile di Amazon e le regioni in cui, nel 2022, l’elettricità consumata era attribuibile al 100% di energia rinnovabile. In base al Protocollo delle emissioni di gas serra (GHG), esistono due metodi per tenere traccia delle emissioni prodotte dalla produzione di energia elettrica: basato sul mercato e basato sulla posizione. Le aziende possono scegliere uno di questi metodi in base alle loro politiche di sostenibilità per monitorare e confrontare le loro emissioni di anno in anno. Amazon utilizza il modello basato sul mercato per segnalare le nostre emissioni. Per ridurre la tua impronta di carbonio, seleziona una regione in cui, nel 2022, l’elettricità consumata era attribuibile al 100% di energia rinnovabile.

Gestire in modo efficace i dati e il loro ciclo di vita

I dati svolgono un ruolo chiave all’interno della soluzione IDP. A partire dall’acquisizione iniziale dei dati, i dati vengono elaborati attraverso varie fasi di elaborazione e infine restituiti come output agli utenti finali. È importante capire come le scelte di gestione dei dati influenzeranno l’intera soluzione IDP e la sua sostenibilità. Archiviare e accedere ai dati in modo efficiente, oltre a ridurre le risorse di archiviazione inutilizzate, porta a un’architettura più efficiente e sostenibile. Quando si considerano diversi meccanismi di archiviazione, ricorda che stai facendo dei compromessi tra efficienza delle risorse, latenza di accesso e affidabilità. Ciò significa che dovrai selezionare il modello di gestione di conseguenza. In questa sezione, discutiamo alcune delle migliori pratiche per la gestione dei dati.

Creare e acquisire solo dati rilevanti

Per ottimizzare l’impronta di archiviazione per la sostenibilità, valuta quali dati sono necessari per soddisfare gli obiettivi aziendali e crea e acquisisci solo dati pertinenti lungo il flusso di lavoro IDP.

Archiviare solo dati rilevanti

Nella progettazione del flusso di lavoro IDP, considera per ogni passaggio del flusso di lavoro quali output intermedi di dati devono essere archiviati. Nella maggior parte dei flussi di lavoro IDP, non è necessario archiviare i dati utilizzati o creati in ogni passaggio intermedio in quanto possono essere facilmente riprodotti. Per migliorare la sostenibilità, archivia solo i dati che non sono facilmente riproducibili. Se è necessario archiviare i risultati intermedi, valuta se sono idonei per una regola di ciclo di vita che li archivia e li elimina più rapidamente rispetto ai dati con requisiti di conservazione più rigorosi.

Preserva i dati attraverso ambienti di calcolo come lo sviluppo e la pianificazione dei test. Implementa meccanismi per imporre un processo di gestione del ciclo di vita dei dati, compresi l’archiviazione e l’eliminazione e identifica continuamente i dati inutilizzati e cancellali.

Per ottimizzare l’acquisizione e l’archiviazione dei dati, considera la risoluzione dei dati ottimale che soddisfa l’uso previsto. Amazon Textract richiede almeno 150 dpi. Se il tuo documento non è in un formato supportato da Amazon Textract (PDF, TIFF, JPEG e PNG) e hai bisogno di convertirlo, sperimenta per trovare la risoluzione ottimale per ottenere i migliori risultati anziché scegliere la massima risoluzione.

Utilizzare la tecnologia corretta per archiviare i dati

Per i flussi di lavoro IDP, la maggior parte dei dati è probabilmente costituita da documenti. Amazon Simple Storage Service (Amazon S3) è un servizio di archiviazione di oggetti progettato per archiviare e recuperare qualsiasi quantità di dati da qualsiasi posizione, rendendolo adatto per i flussi di lavoro IDP. L’utilizzo di tier di archiviazione diversi di Amazon S3 è un componente chiave per ottimizzare l’archiviazione per la sostenibilità.

Quando si considerano diversi meccanismi di archiviazione, ricorda che stai facendo compromessi tra efficienza delle risorse, latenza di accesso e affidabilità. Ciò significa che dovrai selezionare il tuo modello di gestione di conseguenza. Conservando i dati meno volatili su tecnologie progettate per un’archiviazione efficiente a lungo termine, puoi ottimizzare l’occupazione di storage. Per archiviare dati o conservare dati che cambiano lentamente, sono disponibili Amazon S3 Glacier e Amazon S3 Glacier Deep Archive. In base alla classificazione dei dati e al flusso di lavoro, è possibile scegliere Amazon S3 One Zone-IA, che riduce il consumo di energia e la capacità del server archiviando i dati all’interno di una singola Availability Zone.

Gestire attivamente il ciclo di vita dei dati in base ai tuoi obiettivi di sostenibilità

Gestire il ciclo di vita dei dati significa ottimizzare l’occupazione di storage. Per i flussi di lavoro IDP, identifica prima i requisiti di conservazione dei dati. In base ai tuoi requisiti di conservazione, crea configurazioni del ciclo di vita di Amazon S3 che trasferiscono automaticamente gli oggetti in una diversa classe di storage in base alle tue regole predefinite. Per i dati senza requisiti di conservazione e con pattern di accesso sconosciuti o variabili, utilizza Amazon S3 Intelligent-Tiering per monitorare i pattern di accesso e spostare automaticamente gli oggetti tra le classi.

Ottimizza continuamente l’occupazione di storage utilizzando gli strumenti giusti

Nel tempo, l’utilizzo dei dati e i pattern di accesso nel tuo flusso di lavoro IDP possono cambiare. Gli strumenti come Amazon S3 Storage Lens offrono visibilità sull’utilizzo dello storage e le tendenze delle attività e possono persino fornire raccomandazioni per miglioramenti. Puoi utilizzare queste informazioni per ridurre ulteriormente l’impatto ambientale dell’archiviazione dei dati.

Abilita la vicinanza dei dati e del calcolo

Mentre rendi il tuo flusso di lavoro IDP disponibile a un numero maggiore di clienti, l’ammontare dei dati che viaggiano sulla rete aumenterà. Allo stesso modo, maggiore è la dimensione dei dati e maggiore è la distanza che un pacchetto deve percorrere, maggiori risorse sono necessarie per trasmetterlo.

Ridurre la quantità di dati inviati sulla rete e ottimizzare il percorso di un pacchetto comporterà un trasferimento dei dati più efficiente. La configurazione di un archivio dati vicino all’elaborazione dei dati aiuta ad ottimizzare la sostenibilità a livello di rete. Assicurati che la Regione utilizzata per archiviare i dati sia la stessa Regione in cui hai distribuito il tuo flusso di lavoro IDP. Questo approccio aiuta a ridurre al minimo il tempo e il costo del trasferimento dei dati verso l’ambiente di calcolo.

Sii pronto e promuovi un continuo miglioramento

Migliorare la sostenibilità del tuo flusso di lavoro IDP è un processo continuo che richiede architetture flessibili e automazione per supportare miglioramenti più piccoli e frequenti. Quando la tua architettura è debolmente accoppiata e utilizza servizi serverless e gestiti, puoi abilitare nuove funzionalità senza difficoltà e sostituire componenti per migliorare la sostenibilità e ottenere efficienze delle prestazioni. In questa sezione, condividiamo alcune best practice.

Migliora in modo sicuro e continuo attraverso l’automazione

Utilizzando l’automazione per distribuire tutti i cambiamenti, si riduce il potenziale per gli errori umani e si consente di testare prima di apportare cambiamenti di produzione per assicurarsi che i piani siano completi. Automatizza il processo di distribuzione del software utilizzando i flussi di lavoro di integrazione continua e distribuzione continua (CI / CD) per testare e distribuire potenziali miglioramenti al fine di ridurre lo sforzo e limitare gli errori causati da processi manuali. Definisci i cambiamenti utilizzando l’infrastruttura come codice (IaC): tutte le configurazioni dovrebbero essere definite in modo dichiarativo e memorizzate in un sistema di controllo della sorgente come AWS CodeCommit, proprio come il codice dell’applicazione. La fornitura, l’orchestrazione e la distribuzione dell’infrastruttura dovrebbero anche supportare l’IaC.

Utilizza servizi serverless per l’orchestrazione dei flussi di lavoro

I flussi di lavoro IDP sono tipicamente caratterizzati da picchi elevati e periodi di inattività (ad esempio, al di fuori dell’orario lavorativo) e sono principalmente guidati dagli eventi (ad esempio, quando viene caricato un nuovo documento). Ciò li rende adatti alle soluzioni serverless. I servizi serverless di AWS possono aiutarti a creare rapidamente e in modo sostenibile una soluzione scalabile per i flussi di lavoro IDP. Servizi come AWS Lambda, AWS Step Functions e Amazon EventBridge aiutano ad orchestrare il tuo flusso di lavoro guidato dagli eventi e a ridurre al minimo le risorse inattive per migliorare la sostenibilità.

Utilizza un’architettura orientata agli eventi

Utilizzare i servizi serverless di AWS per implementare un approccio basato sugli eventi ti permetterà di costruire flussi di lavoro IDP scalabili, a prova di errore e di ridurre al minimo le risorse inattive.
Ad esempio, puoi configurare Amazon S3 per avviare un nuovo flusso di lavoro quando viene caricato un nuovo documento. Amazon S3 può scatenare EventBridge o chiamare una funzione Lambda per avviare un lavoro di rilevazione Amazon Textract. Puoi utilizzare il servizio Amazon Simple Notification Service (Amazon SNS) per il fanout degli eventi o per inviare messaggi di completamento del lavoro. Puoi utilizzare il servizio Amazon Simple Queue Service (Amazon SQS) per una comunicazione affidabile e duratura tra i microservizi, ad esempio invocando una funzione Lambda per leggere l’output di Amazon Textract e successivamente chiamare un classificatore Amazon Comprehend personalizzato per classificare un documento.

Utilizza servizi gestiti come Amazon Textract e Amazon Comprehend

Puoi eseguire IDP utilizzando un modello personalizzato self-hosted o servizi gestiti come Amazon Textract e Amazon Comprehend. Utilizzando servizi gestiti invece del tuo modello personalizzato, puoi ridurre lo sforzo richiesto per sviluppare, addestrare e riaddestrare il tuo modello personalizzato. I servizi gestiti utilizzano risorse condivise, riducendo l’energia necessaria per costruire e mantenere una soluzione IDP e migliorando la sostenibilità.

Consulta i post del blog di AWS per rimanere informato sugli aggiornamenti delle funzionalità

Ci sono vari post e risorse disponibili per aiutarti a rimanere aggiornato sulle novità di AWS e conoscere nuove funzionalità che potrebbero migliorare il tuo carico di lavoro IDP. AWS re:Post è un servizio di domande e risposte basato sulla community progettato per aiutare i clienti AWS a rimuovere ostacoli tecnici, accelerare l’innovazione e migliorare le operazioni. AWS re: Post comprende oltre 40 argomenti, tra cui una community dedicata ad AWS Well-Architected. AWS ha anche blog specifici per i singoli servizi per aiutarti a mantenerti aggiornato su Amazon Textract e Amazon Comprehend.

Conclusioni

In questo post, abbiamo condiviso principi di progettazione, aree di focus e migliori pratiche per ottimizzare la sostenibilità nel tuo flusso di lavoro IDP. Per saperne di più sulla sostenibilità nel cloud, consulta la seguente serie su come Ottimizzare la tua infrastruttura AWS per la sostenibilità, Parte I: Calcolo, Parte II: Archiviazione e Parte III: Networking.

Per saperne di più sul custom lens Well-Architected IDP, esplora i seguenti post di questa serie:

AWS si impegna nella lentezza ben architettata IDP come strumento vivo. Man mano che le soluzioni IDP e i relativi servizi AI di AWS si evolvono e nuovi servizi AWS diventano disponibili, aggiorneremo di conseguenza la lentezza ben architettata IDP.

Per iniziare con IDP su AWS, fare riferimento alla Guida per l’elaborazione intelligente dei documenti su AWS per progettare e costruire la propria applicazione IDP. Per una visione approfondita delle soluzioni end-to-end che coprono l’ingestione, la classificazione, l’estrazione, l’arricchimento, la verifica e la convalida dei dati, nonché il consumo, fare riferimento a Elaborazione intelligente dei documenti con i servizi AI di AWS: Parte 1 e Parte 2. Inoltre, l’elaborazione intelligente dei documenti con Amazon Textract, Amazon Bedrock e LangChain illustra come estendere un’architettura IDP nuova o esistente con modelli di lingua ampia (LLM). Si imparerà come integrare Amazon Textract con LangChain come caricatore di documenti, utilizzare Amazon Bedrock per estrarre dati dai documenti e utilizzare le capacità di IA generativa nelle varie fasi di IDP.

Se necessitate di ulteriori indicazioni da parte di esperti, contattate il vostro team di account AWS per coinvolgere un Solution Architect Specialista IDP.