Come Reveal’s Logikcull ha utilizzato Amazon Comprehend per rilevare e riportare PII dai documenti legali su larga scala

Come Reveal's Logikcull ha utilizzato Amazon Comprehend per identificare e riferire dati personali sensibili (PII) da documenti legali su vasta scala

Oggi, le informazioni personalmente identificabili (PII – Personally Identifiable Information) sono ovunque. Le PII si trovano nelle email, nei messaggi su Slack, nei video, nei PDF e così via. Si riferiscono a qualsiasi dato o informazione che può essere utilizzata per identificare una persona specifica. Le PII sono di natura sensibile e includono vari tipi di dati personali, come nome, informazioni di contatto, numeri di identificazione, informazioni finanziarie, informazioni mediche, dati biometrici, data di nascita e così via.

Trovare e redigere le PII è essenziale per tutelare la privacy, garantire la sicurezza dei dati, rispettare le leggi e i regolamenti e mantenere la fiducia dei clienti e delle parti interessate. È un componente critico delle pratiche moderne di gestione dei dati e di sicurezza informatica. Tuttavia, trovare le PII tra la mole di dati elettronici può presentare sfide per un’organizzazione. Queste sfide sorgono a causa del vasto volume e varietà di dati, frammentazione dei dati, crittografia, condivisione dei dati, contenuti dinamici, falsi positivi e negativi, comprensione contestuale, complessità legale, vincoli di risorse, dati in continua evoluzione, contenuti generati dagli utenti e minacce adattive. Tuttavia, la mancata individuazione e redazione accurata delle PII può comportare gravi conseguenze per le organizzazioni. Le conseguenze possono comprendere sanzioni legali, cause legali, danni alla reputazione, costi di violazione dei dati, indagini regolatorie, interruzioni operative, erosioni della fiducia e sanzioni.

Nel sistema legale, la scoperta è il processo legale che disciplina il diritto di ottenere e l’obbligo di produrre materiale non privilegiato pertinente alle pretese o alle difese di qualsiasi parte in una controversia. La scoperta elettronica, nota anche come eDiscovery, è l’aspetto elettronico dell’individuazione, raccolta e produzione di informazioni conservate elettronicamente (ESI – Electronically Stored Information) in risposta a una richiesta di produzione in una causa o un’indagine. Nel campo legale, spesso è necessario identificare, raccogliere e produrre ESI durante una causa o un’indagine. Se le organizzazioni devono occuparsi di eDiscovery per cause legali o rispondere a citazioni, potrebbe preoccuparle la condivisione accidentale di PII. Molte organizzazioni, tra cui agenzie governative, distretti scolastici e professionisti legali, sono sfidate nell’individuare e redigere con precisione le PII su larga scala. In particolare, se fanno parte di un gruppo governativo, la redazione delle PII attraverso l’uso dell’Act sulla libertà di informazione e del Digital Services Act è cruciale per proteggere la privacy individuale, garantire la conformità alle leggi sulla protezione dei dati, prevenire il furto di identità e mantenere la fiducia e la trasparenza nei confronti del governo e dei servizi digitali. Si tratta di trovare un equilibrio tra trasparenza e privacy, mitigando rischi legali e di sicurezza.

Le organizzazioni possono cercare le PII utilizzando metodi come ricerche di parole chiave, confronto di modelli, strumenti di prevenzione della perdita di dati, apprendimento automatico (ML), analisi dei metadati, software di classificazione dei dati, riconoscimento ottico dei caratteri (OCR), rilevamento dell’impronta dei documenti e crittografia.

Ora parte della piattaforma di eDiscovery basata sull’IA di Reveal, Logikcull è una soluzione self-service che consente ai professionisti legali di elaborare, esaminare, etichettare e produrre documenti elettronici come parte di una causa o un’indagine. Questa offerta unica aiuta gli avvocati a scoprire informazioni preziose relative alla questione in questione, riducendo i costi, accelerando le soluzioni e mitigando i rischi.

In questo post, gli esperti di Reveal illustrano come hanno utilizzato Amazon Comprehend nel loro sistema di elaborazione dei documenti per individuare e redigere singoli pezzi di PII. Amazon Comprehend è un servizio di elaborazione del linguaggio naturale (NLP – Natural Language Processing) completamente gestito e continuamente addestrato, che può estrarre informazioni sul contenuto di un documento o testo. È possibile utilizzare le capacità di ML di Amazon Comprehend per individuare e redigere le PII nelle email dei clienti, nei ticket di supporto, nelle recensioni dei prodotti, nei social media e altro ancora.

Panoramica della soluzione

L’obiettivo generale del team di ingegneria è individuare e redigere le PII da milioni di documenti legali per i loro clienti. Utilizzando la soluzione Logikcull di Reveal, il team di ingegneria ha implementato due processi, ovvero la rilevazione delle PII nel primo passaggio e la rilevazione e redazione delle PII nel secondo passaggio. Questa soluzione a due passaggi è stata resa possibile utilizzando le API ContainsPiiEntities e DetectPiiEntities.

Rilevazione delle PII nel primo passaggio

Il obiettivo del primo passaggio per la rilevazione di PII è trovare i documenti che potrebbero contenere PII.

  1. Gli utenti caricano i file su cui desiderano eseguire la rilevazione e la rettifica di PII attraverso il sito web pubblico di Logikcull in una cartella di progetto. Questi file possono essere documenti di ufficio, file .pdf, email o un file .zip contenente tutti i tipi di file supportati.
  2. Logikcull memorizza queste cartelle di progetto in modo sicuro all’interno di un bucket Amazon Simple Storage Service (Amazon S3). I file passano quindi attraverso il flusso di elaborazione parallela di Logikcull ospitato su Amazon Elastic Compute Cloud (Amazon EC2), che elabora i file, estrae i metadati e genera artefatti in formato testuale per la revisione dei dati. Il flusso di elaborazione di Logikcull supporta l’estrazione di testo per una grande varietà di forme e file, inclusi file audio e video.
  3. Dopo che i file sono disponibili in formato testuale, Logikcull passa il testo di input insieme al modello linguistico, che è l’inglese, attraverso Amazon Comprehend effettuando la chiamata API ContainsPiiEntities. I server del flusso di elaborazione ospitati su Amazon EC2 effettuano la chiamata API ContainsPiiEntities di Amazon Comprehend passando i parametri della richiesta come testo e codice linguistico. La chiamata API ContainsPiiEntities analizza il testo di input per la presenza di PII e restituisce le etichette dei tipi di entità PII identificate, come nome, indirizzo, numero di conto bancario o numero di telefono. La risposta dell’API include anche un punteggio di confidenza che indica il livello di sicurezza che Amazon Comprehend ha assegnato all’accuratezza della rilevazione. Il punteggio di confidenza ha un valore compreso tra 0 e 1, con 1 che indica una sicurezza del 100%. Logikcull utilizza questo punteggio di confidenza per assegnare l’etichetta PII Detected ai documenti. Logikcull assegna questa etichetta solo ai documenti che hanno un punteggio di confidenza superiore a 0,75.
  4. I documenti con etichetta PII Detected vengono inseriti nel cluster dell’indice di ricerca di Logikcull per consentire agli utenti di identificare rapidamente i documenti che contengono entità PII.

Rilevazione e rettifica PII del secondo passaggio

Il processo di rilevazione PII del primo passaggio riduce l’ambito del dataset identificando i documenti che contengono informazioni PII. Questo velocizza il processo di rilevazione PII e riduce anche il costo complessivo. L’obiettivo del secondo passaggio per la rilevazione di PII è identificare le singole istanze di PII e rettificarle dai documenti contrassegnati nel primo passaggio.

  1. Gli utenti cercano documenti sul sito web di Logikcull che contengono PII utilizzando la funzione di filtri di ricerca avanzati di Logikcull.
  2. La richiesta viene gestita dai server dell’applicazione di Logikcull ospitati su Amazon EC2 e i server comunicano con il cluster dell’indice di ricerca per trovare i documenti.
  3. I server delle applicazioni di Logikcull sono in grado di identificare le singole istanze di PII effettuando la chiamata API DetectPiiEntities. I server effettuano la chiamata API passando il testo e la lingua dei documenti di input. L’azione API DetectPiiEntities ispeziona il testo di input per individuare entità che contengono PII. Per ogni entità, la risposta fornisce il tipo di entità, dove inizia e termina il testo dell’entità e il livello di confidenza che Amazon Comprehend ha nella sua rilevazione.
  4. Gli utenti selezionano poi le specifiche entità che desiderano rettificare utilizzando l’interfaccia web di Logikcull. I server delle applicazioni inviano queste richieste al flusso di elaborazione di Logikcull. Di seguito è riportata una schermata di un PDF che è stato caricato nell’applicazione di Logikcull. Dalla schermata sottostante, è possibile vedere che sono state evidenziate diverse entità PII come nome, indirizzo, numero di telefono, indirizzo email, e così via.

  1. La redazione dei dati PII viene applicata in modo sicuro all’interno del flusso di lavoro di elaborazione di Logikcull utilizzando logica di business personalizzata. Dalla schermata seguente, è possibile vedere che gli utenti possono selezionare sia specifici tipi di entità PII sia tutti i tipi di entità PII che desiderano redigere e quindi, con un semplice clic, redigere tutte le informazioni PII.

Risultati

Logikcull, una tecnologia Reveal, sta attualmente elaborando oltre 20 milioni di documenti ogni settimana ed è in grado di restringere il campo di rilevamento utilizzando l’API ContainsPiiEntities e visualizzare ai propri clienti singole istanze di entità PII utilizzando l’API DetectPiiEntities.

“Grazie ad Amazon Comprehend, Logikcull è stato in grado di implementare rapidamente potenti capacità di NLP in una frazione del tempo richiesto da una soluzione personalizzata.”

– Steve Newhouse, VP di Prodotto per Logikcull.

Conclusioni

Amazon Comprehend consente alla tecnologia Logikcull di Reveal di eseguire il rilevamento di PII su larga scala a un costo relativamente basso utilizzando Amazon Comprehend. L’API ContainsPiiEntities viene utilizzata per effettuare una scansione iniziale di milioni di documenti. L’API DetectPiiEntities viene utilizzata per eseguire un’analisi dettagliata di migliaia di documenti e identificare singoli elementi di PII nei loro documenti.

Dai un’occhiata a tutte le funzionalità di Amazon Comprehend. Prova le funzionalità e inviaci i tuoi feedback tramite il forum AWS per Amazon Comprehend o tramite i tuoi contatti di supporto AWS abituali.