Indicizza i tuoi contenuti Alfresco utilizzando il nuovo connettore Amazon Kendra Alfresco

Indicizza i contenuti Alfresco con il connettore Amazon Kendra Alfresco

Amazon Kendra è un servizio di ricerca intelligente altamente accurato e semplice da usare, alimentato dall’apprendimento automatico (ML). Amazon Kendra offre una serie di connettori di origine dati per semplificare il processo di ingestione e indicizzazione dei contenuti, ovunque siano archiviati.

I dati di valore nelle organizzazioni sono archiviati sia in repository strutturati che non strutturati. Una soluzione di ricerca aziendale dovrebbe essere in grado di indicizzare e cercare tra diversi repository strutturati e non strutturati.

Alfresco Content Services fornisce funzionalità di gestione dei contenuti aziendali (ECM) aperte, flessibili e altamente scalabili con i vantaggi aggiunti di una piattaforma di servizi per i contenuti, rendendo i contenuti accessibili ovunque e in qualsiasi modo si lavori attraverso facili integrazioni con le applicazioni aziendali che si utilizzano ogni giorno. Molte organizzazioni utilizzano la piattaforma di gestione dei contenuti Alfresco per archiviare i loro contenuti. Uno dei requisiti fondamentali per i clienti aziendali che utilizzano Alfresco è la capacità di trovare facilmente e in modo sicuro informazioni accurate in tutti i documenti archiviati.

Siamo entusiasti di annunciare che ora è possibile utilizzare il nuovo connettore Amazon Kendra Alfresco per cercare documenti archiviati nei repository e nei siti Alfresco. In questo post, mostriamo come utilizzare il nuovo connettore per recuperare documenti archiviati in Alfresco a scopo di indicizzazione e utilizzare in modo sicuro la funzione di ricerca intelligente di Amazon Kendra. Inoltre, la ricerca intelligente basata su ML può trovare accuratamente informazioni da documenti non strutturati con contenuto di narrazione in linguaggio naturale, per i quali la ricerca basata su parole chiave non è molto efficace.

Novità nel connettore Amazon Kendra Alfresco

Il connettore Amazon Kendra Alfresco offre il supporto per quanto segue:

  • Mecanismi di autenticazione di base e OAuth2 per la piattaforma Alfresco On-Premises (On-Prem)
  • Mecanismi di autenticazione di base e OAuth2 per la piattaforma Alfresco PaaS
  • Indicizzazione basata su aspetti dei documenti del repository Alfresco

Panoramica della soluzione

Con Amazon Kendra, è possibile configurare più origini dati per fornire un punto centrale per la ricerca in tutti i repository e i siti documentali. La soluzione in questo post dimostra quanto segue:

  • Recupero di documenti e commenti dai siti privati e pubblici di Alfresco
  • Recupero di documenti e commenti dai repository Alfresco utilizzando aspetti specifici di Amazon Kendra
  • Autenticazione contro le piattaforme Alfresco On-Prem e PaaS utilizzando meccanismi di autenticazione di base e OAuth2, rispettivamente
  • La capacità di ricerca di Amazon Kendra con controllo degli accessi tra siti e repository

Se si intende utilizzare solo una delle piattaforme, è comunque possibile seguire questo post per costruire la soluzione di esempio; basta ignorare i passaggi corrispondenti alla piattaforma che non si sta utilizzando.

Di seguito è riassunto il procedimento per costruire la soluzione di esempio:

  1. Caricare i documenti nei tre siti e nella cartella del repository Alfresco. Assicurarsi che i documenti caricati siano univoci tra i siti e le cartelle del repository.
  2. Per i due siti privati e il repository, utilizzare la gestione dei permessi di Alfresco a livello di documento per impostare i permessi di accesso. Per il sito pubblico, non è necessario impostare i permessi a livello di documento. Si noti che le informazioni sui permessi vengono recuperate dal connettore Amazon Kendra Alfresco e utilizzate per il controllo degli accessi tramite la funzione di ricerca di Amazon Kendra.
  3. Per i due siti privati e il repository, creare un nuovo indice di Amazon Kendra (lo stesso indice viene utilizzato per i siti privati e il repository). Per il sito pubblico, creare un nuovo indice di Amazon Kendra.
  4. Per il sito privato On-Prem, creare una fonte dati Amazon Kendra Alfresco utilizzando l’autenticazione di base, all’interno dell’indice di Amazon Kendra per i siti privati.
  5. Per i documenti del repository On-Prem con aspetti specifici di Amazon Kendra, creare una fonte dati utilizzando l’autenticazione di base, all’interno dell’indice di Amazon Kendra per i siti privati.
  6. Per il sito privato PaaS, creare una fonte dati utilizzando l’autenticazione di base, all’interno dell’indice di Amazon Kendra per i siti privati.
  7. Per il sito pubblico PaaS, creare una fonte dati utilizzando l’autenticazione OAuth2, all’interno dell’indice di Amazon Kendra per i siti pubblici.
  8. Eseguire una sincronizzazione per ogni fonte dati.
  9. Eseguire una query di test nell’indice di Amazon Kendra destinato ai siti privati e al repository utilizzando il controllo degli accessi.
  10. Eseguire una query di test nell’indice di Amazon Kendra destinato ai siti pubblici senza controllo degli accessi.

Prerequisiti

È necessario disporre di un account AWS con i privilegi per creare ruoli e politiche di gestione dell’accesso e dell’identità di AWS. Per ulteriori informazioni, consultare Panoramica della gestione dell’accesso: Autorizzazioni e politiche. È necessario avere una conoscenza di base di AWS e di come navigare nella Console di gestione AWS.

Per la piattaforma Alfresco On-Prem, completare i seguenti passaggi:

  1. Crea un sito privato o utilizza un sito esistente.
  2. Crea una cartella di repository o utilizza una cartella di repository esistente.
  3. Ottieni l’URL del repository.
  4. Ottieni le credenziali di autenticazione di base (ID utente e password).
  5. Assicurati che l’autenticazione faccia parte del gruppo ALFRESCO_ADMINISTRATORS.
  6. Ottieni il certificato X509 pubblico in formato .pem e salvatelo localmente.

Per la piattaforma Alfresco PaaS, completa i seguenti passaggi:

  1. Crea un sito privato o utilizza un sito esistente.
  2. Crea un sito pubblico o utilizza un sito esistente.
  3. Ottieni l’URL del repository.
  4. Ottieni le credenziali di autenticazione di base (ID utente e password).
  5. Ottieni le credenziali OAuth2 (ID client, segreto client e URL del token).
  6. Verifica che gli utenti di autenticazione facciano parte del gruppo ALFRESCO_ADMINISTRATORS.

Passaggio 1: Carica documenti di esempio

Ogni documento caricato deve avere una dimensione di testo inferiore o uguale a 5 MB. Per ulteriori informazioni, consulta i limiti di servizio di Amazon Kendra. Puoi caricare documenti di esempio o utilizzare documenti esistenti all’interno di ciascun sito.

Come mostrato nella schermata seguente, abbiamo caricato quattro documenti nel sito privato Alfresco On-Prem.

Abbiamo caricato tre documenti nel sito privato Alfresco PaaS.

Abbiamo caricato cinque documenti nel sito pubblico Alfresco PaaS.

Abbiamo caricato due documenti nel repository Alfresco On-Prem.

Assegna l’aspetto awskendra:indexControl a uno o più documenti nella cartella del repository.

Passaggio 2: Configura i permessi di Alfresco

Utilizza la funzione di Gestione dei permessi di Alfresco per concedere aiutenti di esempio i diritti di accesso per la visualizzazione dei documenti caricati. Si presume che tu abbia alcuni nomi utente di esempio di Alfresco, con indirizzi email, che possono essere utilizzati per impostare i permessi a livello di documento nei siti privati. Questi utenti non vengono utilizzati per l’indicizzazione dei siti.

Nell’esempio seguente per il sito privato On-Prem, abbiamo fornito agli utenti My Dev User1 e My Dev User2 l’accesso come consumatori del sito per il documento di esempio. Ripeti la stessa procedura per gli altri documenti caricati.

Nell’esempio seguente per il sito privato PaaS, abbiamo fornito all’utente Kendra User 3 l’accesso come consumatore del sito per il documento di esempio. Ripeti la stessa procedura per gli altri documenti caricati.

Per i documenti del repository Alfresco, abbiamo fornito all’utente My Dev user1 l’accesso in sola lettura al documento di esempio.

La seguente tabella elenca i nomi del sito o del repository, i nomi dei documenti e le autorizzazioni.

Piattaforma Nome sito o repository Nome documento ID utenti
On-Prem MyAlfrescoSite ChannelMarketingBudget.xlsx My Manager User3
On-Prem MyAlfrescoSite wellarchitected-sustainability-pillar.pdf My Dev User1, My Dev User2
On-Prem MyAlfrescoSite WorkDocs.docx My Dev User1, My Dev User2, My Manager User3
On-Prem MyAlfrescoSite WorldPopulation.csv My Dev User1, My Dev User2, My Manager User3
PaaS MyAlfrescoCloudSite2 DDoS_White_Paper.pdf Kendra User3
PaaS MyAlfrescoCloudSite2 wellarchitected-framework.pdf Kendra User3
PaaS MyAlfrescoCloudSite2 ML_Training.pptx Kendra User1
PaaS MyAlfrescoCloudPublicSite batch_user.pdf Tutti
PaaS MyAlfrescoCloudPublicSite Amazon Simple Storage Service – Guida per l’utente.pdf Tutti
PaaS MyAlfrescoCloudPublicSite AWS Batch – Guida per l’utente.pdf Tutti
PaaS MyAlfrescoCloudPublicSite Amazon Detective.docx Tutti
PaaS MyAlfrescoCloudPublicSite Pricing.xlsx Tutti
On-Prem Repo: MyAlfrescoRepoFolder1 Polly-dg.pdf (aspetto awskendra:indexControl) My Dev User1
On-Prem Repo: MyAlfrescoRepoFolder1 Transcribe-api.pdf (aspetto awskendra:indexControl) My Dev User1

Passaggio 3: Configura gli indici di Amazon Kendra

Puoi creare un nuovo indice di Amazon Kendra o utilizzare un indice esistente per indicizzare documenti ospitati in siti privati di Alfresco. Per creare un nuovo indice, segui i seguenti passaggi:

  1. Nella console di Amazon Kendra, crea un indice chiamato Alfresco-Private.
  2. Crea un nuovo ruolo IAM, quindi scegli Avanti.
  3. Per Controllo accessi, scegli .
  4. Per Tipo token, scegli JSON.
  5. Mantieni il nome utente e il gruppo come predefiniti.
  6. Scegli Nessuno per l’espansione del gruppo utenti poiché assumiamo che non ci sia integrazione con AWS IAM Identity Center (successore di AWS Single Sign-On).
  7. Scegli Avanti.
  8. Scegli Edizione sviluppatore per questa soluzione di esempio.
  9. Scegli Crea per creare un nuovo indice.

Nella seguente immagine viene mostrato l’indice Alfresco-Private dopo essere stato creato.

  1. Puoi verificare la configurazione del controllo accessi nella scheda Controllo accessi utente.

  1. Ripeti questi passaggi per creare un secondo indice chiamato Alfresco-Public.

Passaggio 4: Crea una fonte dati per il sito privato On-Prem

Per creare una fonte dati per il sito privato On-Prem, segui i seguenti passaggi:

  1. Nella console di Amazon Kendra, vai all’indice Alfresco-Private.
  2. Scegli Fonti dati nel riquadro di navigazione.
  3. Scegli Aggiungi fonte dati.

  1. Scegli Aggiungi connettore per il connettore Alfresco.

  1. Per Nome fonte dati, inserisci Alfresco-OnPrem-Private.
  2. Opzionalmente, aggiungi una descrizione.
  3. Mantieni le impostazioni rimanenti come predefinite e scegli Avanti.

Per connetterti al sito Alfresco On-Prem, il connettore ha bisogno dell’accesso al certificato pubblico corrispondente al server On-Prem. Questo era uno dei prerequisiti.

  1. Utilizza una scheda del browser diversa per caricare il file .pem in un bucket di Amazon Simple Storage Service (Amazon S3) nel tuo account.

Utilizza questo nome del bucket S3 nei passaggi successivi.

  1. Torna alla pagina di creazione della fonte dati.
  2. Per Fonte, seleziona server Alfresco.
  3. Per URL repository Alfresco, inserisci l’URL del repository (creato come prerequisito).
  4. Per URL applicazione utente Alfresco, inserisci lo stesso valore dell’URL del repository.
  5. Per Percorso certificato SSL, scegli Sfoglia S3 e seleziona il bucket S3 in cui hai caricato il file .pem.
  6. Per Autenticazione, seleziona Autenticazione di base.
  7. Per Segreto AWS Secrets Manager, scegli Crea e aggiungi nuovo segreto.

Si apre una finestra pop-up per creare un segreto AWS Secrets Manager.

  1. Inserisci un nome per il tuo segreto, nome utente e password, quindi scegli Salva.

  1. Per Virtual Private Cloud (VPC), scegli Nessuna VPC.
  2. Attiva il crawler di identità.
  3. Per Ruolo IAM, scegli Crea un nuovo ruolo IAM.
  4. Scegli Avanti.

Puoi configurare la fonte dati per sincronizzare i contenuti da uno o più siti Alfresco. Per questo post, sincronizziamo il sito privato on-prem.

  1. Per Contenuto da sincronizzare, seleziona Sincronizzazione singolo sito Alfresco e scegli MyAlfrescoSite.
  2. Seleziona Includi commenti per recuperare i commenti oltre ai documenti.
  3. Per Modalità di sincronizzazione, seleziona Sincronizzazione completa.
  4. Per Frequenza, scegli Esegui su richiesta (o un’altra opzione di frequenza se necessario).
  5. Scegli Avanti.

  1. Mappa i campi dei documenti Alfresco ai campi dell’indice Amazon Kendra (puoi mantenere le impostazioni predefinite), quindi scegli Avanti.

  1. Nella pagina Revisione e crea, verifica tutte le informazioni, quindi scegli Aggiungi fonte dati.

Dopo che la fonte dati è stata creata, viene visualizzata la pagina della fonte dati come mostrato nella seguente schermata.

Passaggio 5: Crea una fonte dati per i documenti del repository On-Prem con aspetti specifici di Amazon Kendra

In modo simile ai passaggi precedenti, crea una fonte dati per i documenti del repository On-Prem con aspetti specifici di Amazon Kendra:

  1. Nella console di Amazon Kendra, vai all’indice Alfresco-Private.
  2. Scegli Fonti dati nel riquadro di navigazione.
  3. Scegli Aggiungi fonte dati.
  4. Scegli Aggiungi connettore per il connettore Alfresco.
  5. Per Nome fonte dati, inserisci Alfresco-OnPrem-Aspects.
  6. Opzionalmente, aggiungi una descrizione.
  7. Mantieni le impostazioni rimanenti come predefinite e scegli Avanti.
  8. Per Sorgente, seleziona Server Alfresco.
  9. Per URL repository Alfresco, inserisci l’URL del repository (creato come prerequisito).
  10. Per URL applicazione utente Alfresco, inserisci lo stesso valore dell’URL del repository.
  11. Per Percorso certificato SSL, scegli Sfoglia S3 e seleziona il bucket S3 in cui hai caricato il file .pem.
  12. Per Autenticazione, seleziona Autenticazione di base.
  13. Per Segreto Gestore Secreti AWS Secrets Manager, scegli il segreto che hai creato in precedenza.
  14. Per Virtual Private Cloud (VPC), scegli Nessuna VPC.
  15. Disattiva il crawler di identità.
  16. Per Ruolo IAM, scegli Crea un nuovo ruolo IAM.
  17. Scegli Avanti.

Per questo scopo, il connettore recupera solo quei documenti del repository del server On-Prem a cui è stato assegnato un aspetto chiamato awskendra:indexControl.

  1. Per Contenuto da sincronizzare, seleziona Sincronizzazione degli aspetti Alfresco.
  2. Per Modalità sincronizzazione, seleziona Sincronizzazione completa.
  3. Per Frequenza, scegli Esegui su richiesta (o un’opzione di frequenza diversa se necessario).
  4. Scegli Avanti.
  5. Mappa i campi dei documenti Alfresco ai campi dell’indice Amazon Kendra (puoi mantenere le impostazioni predefinite), quindi scegli Avanti.
  6. Nella pagina Rivedi e crea, verifica tutte le informazioni, quindi scegli Aggiungi fonte dati.

Dopo aver creato la fonte dati, la pagina della fonte dati viene visualizzata come mostrato nella seguente schermata.

Passaggio 6: Crea una fonte dati per il sito privato PaaS

Segui passaggi simili alle sezioni precedenti per creare una fonte dati per il sito privato PaaS:

  1. Nella console di Amazon Kendra, vai all’indice Alfresco-Private.
  2. Scegli Fonti dati nel riquadro di navigazione.
  3. Scegli Aggiungi fonte dati.
  4. Scegli Aggiungi connettore per il connettore Alfresco.
  5. Per Nome fonte dati, inserisci Alfresco-Cloud-Private.
  6. Opzionalmente, aggiungi una descrizione.
  7. Mantieni le impostazioni rimanenti come predefinite e scegli Avanti.
  8. Per Sorgente, seleziona Cloud Alfresco.
  9. Per URL repository Alfresco, inserisci l’URL del repository (creato come prerequisito).
  10. Per URL applicazione utente Alfresco, inserisci lo stesso valore dell’URL del repository.
  11. Per Autenticazione, seleziona Autenticazione di base.
  12. Per Segreto Gestore Secreti AWS Secrets Manager, scegli Crea e aggiungi nuovo segreto.
  13. Inserisci un nome per il tuo segreto, nome utente e password, quindi scegli Salva.
  14. Per Virtual Private Cloud (VPC), scegli Nessuna VPC.
  15. Disattiva il crawler di identità.
  16. Per Ruolo IAM, scegli Crea un nuovo ruolo IAM.
  17. Scegli Avanti.

È possibile configurare la fonte dati per sincronizzare i contenuti da uno o più siti Alfresco. Per questo post, configuriamo la fonte dati per la sincronizzazione dal sito privato PaaS MyAlfrescoCloudSite2.

  1. Per Contenuti da sincronizzare, selezionare Sincronizzazione singolo sito Alfresco e scegliere MyAlfrescoCloudSite2.
  2. Selezionare Includi commenti.
  3. Per Modalità di sincronizzazione, selezionare Sincronizzazione completa.
  4. Per Frequenza, scegliere Esegui su richiesta (o un’altra opzione di frequenza necessaria).
  5. Scegliere Avanti.
  6. Mappare i campi dei documenti Alfresco ai campi dell’indice Amazon Kendra (è possibile mantenere le impostazioni predefinite) e scegliere Avanti.
  7. Nella pagina Rivedi e crea, verificare tutte le informazioni, quindi scegliere Aggiungi fonte dati.

Dopo che è stata creata la fonte dati, la pagina della fonte dati viene visualizzata come mostrato nella seguente immagine.

Passaggio 7: Creare una fonte dati per il sito pubblico PaaS

Seguiamo i passaggi simili precedentemente per creare una fonte dati per il sito pubblico PaaS:

  1. Nella console di Amazon Kendra, passare all’indice Alfresco-Public.
  2. Scegliere Fonti dati nel riquadro di navigazione.
  3. Scegliere Aggiungi fonte dati.
  4. Scegliere Aggiungi connettore per il connettore Alfresco.
  5. Per Nome fonte dati, inserire Alfresco-Cloud-Public.
  6. Opzionalmente, aggiungere una descrizione.
  7. Mantenere le impostazioni rimanenti predefinite e scegliere Avanti.
  8. Per Origine, selezionare Alfresco cloud.
  9. Per URL repository Alfresco, inserire l’URL del repository (creato come prerequisito).
  10. Per URL applicazione utente Alfresco, inserire lo stesso valore dell’URL del repository.
  11. Per Autenticazione, selezionare Autenticazione OAuth2.0.
  12. Per Segreto di AWS Secrets Manager, scegliere Crea e aggiungi nuovo segreto.
  13. Inserire un nome per il segreto, ID client, segreto client e URL del token, quindi scegliere Salva.
  14. Per Virtual Private Cloud (VPC), scegliere Nessuna VPC.
  15. Disattivare il crawler di identità.
  16. Per Ruolo IAM, scegliere Crea un nuovo ruolo IAM.
  17. Scegliere Avanti.

Configuriamo questa fonte dati per la sincronizzazione con il sito pubblico PaaS MyAlfrescoCloudPublicSite.

  1. Per Contenuti da sincronizzare, selezionare Sincronizzazione singolo sito Alfresco e scegliere MyAlfrescoCloudPublicSite.
  2. Opzionalmente, selezionare Includi commenti.
  3. Per Modalità di sincronizzazione, selezionare Sincronizzazione completa.
  4. Per Frequenza, scegliere Esegui su richiesta (o un’altra opzione di frequenza necessaria).
  5. Scegliere Avanti.
  6. Mappare i campi dei documenti Alfresco ai campi dell’indice Amazon Kendra (è possibile mantenere le impostazioni predefinite) e scegliere Avanti.
  7. Nella pagina Rivedi e crea, verificare tutte le informazioni, quindi scegliere Aggiungi fonte dati.

Dopo che è stata creata la fonte dati, la pagina della fonte dati viene visualizzata come mostrato nella seguente immagine.

Passaggio 8: Esegui una sincronizzazione per ogni origine dati

Naviga su ciascuna delle origini dati e scegli Sincronizza ora. Completare solo una sincronizzazione alla volta.

Attendi che la sincronizzazione sia completa per tutte le origini dati. Quando la sincronizzazione è completa per un’origine dati, vedrai lo stato come mostrato nella seguente schermata.

Puoi anche visualizzare i log di Amazon CloudWatch per una sincronizzazione specifica sotto Cronologia esecuzione sincronizzazione.

Passaggio 9: Esegui una query di test nell’indice privato utilizzando il controllo di accesso

Ora è il momento di testare la soluzione. Prima eseguiamo una query nell’indice privato utilizzando il controllo di accesso:

  1. Nella console di Amazon Kendra, vai all’indice Alfresco-Private e scegli Cerca contenuto indicizzato.

  1. Inserisci una query nel campo di ricerca.

Come mostrato nella seguente schermata, Amazon Kendra non ha restituito risultati.

  1. Scegli Applica token.
  2. Inserisci l’indirizzo email corrispondente all’utente My Dev User1 e scegli Applica.

Nota che il controllo di accesso di Amazon Kendra funziona in base all’indirizzo email associato a un nome utente Alfresco.

  1. Esegui nuovamente la ricerca.

La ricerca restituisce un elenco documenti (contenente wellarchitected-sustainability-pillar.pdf nell’esempio seguente) in base alla configurazione del controllo di accesso.

Se esegui la stessa query di nuovo e fornisci un indirizzo email che non ha accesso a nessuno di questi documenti, non dovresti vedere questi documenti nell’elenco dei risultati.

  1. Inserisci un’altra query per cercare nei documenti in base all’aspetto awskendra:indexControl.
  2. Scegli Applica token, inserisci l’indirizzo email corrispondente all’utente My Dev User1 e scegli Applica.
  3. Riesegui la query.

Passo 10: Esegui una query di test nell’indice pubblico senza controllo degli accessi.

Allo stesso modo, possiamo testare la nostra soluzione eseguendo query nell’indice pubblico senza controllo degli accessi:

  1. Nella console di Amazon Kendra, passa all’indice Alfresco-Public e scegli Ricerca contenuto indicizzato.
  2. Esegui una ricerca.

Poiché questo esempio di sito pubblico Alfresco non è stato configurato con alcun controllo degli accessi, non utilizziamo un token di accesso.

Pulizia

Per evitare costi futuri, pulire le risorse create come parte di questa soluzione. Eliminare le origini dati Alfresco appena aggiunte all’interno degli indici. Se hai creato nuovi indici Amazon Kendra durante il test di questa soluzione, eliminare anche quelli.

Conclusioni

Con il nuovo connettore Alfresco per Amazon Kendra, le organizzazioni possono accedere in modo sicuro al repository di informazioni memorizzate nel proprio account utilizzando la ricerca intelligente fornita da Amazon Kendra.

Per saperne di più su queste possibilità e altro ancora, consulta la Guida per lo sviluppatore di Amazon Kendra. Per ulteriori informazioni su come creare, modificare o eliminare metadati e contenuti durante l’ingestione dei dati da Alfresco, consulta l’arricchimento dei documenti durante l’ingestione e arricchisci i tuoi contenuti e metadati per migliorare l’esperienza di ricerca con l’arricchimento personalizzato dei documenti in Amazon Kendra.