Indicizza i contenuti del tuo sito web analizzati usando il nuovo Web Crawler per Amazon Kendra

Analizza e ottimizza i contenuti del tuo sito web con il nuovo Web Crawler per Amazon Kendra

Amazon Kendra è un servizio di ricerca intelligente altamente accurato e semplice da usare alimentato dall’apprendimento automatico (ML). Amazon Kendra offre una serie di connettori di origine dati per semplificare il processo di importazione ed indicizzazione dei contenuti, ovunque si trovino.

I dati di valore all’interno delle organizzazioni sono archiviati in repository strutturati e non strutturati. Una soluzione di ricerca aziendale dovrebbe essere in grado di fornire un’esperienza completamente gestita e semplificare il processo di indicizzazione dei contenuti da una varietà di origini dati nell’azienda.

Uno di questi repository di dati non strutturati sono i siti web interni ed esterni. Potrebbe essere necessario eseguire lo spider dei siti per creare feed di notizie, analizzare l’utilizzo del linguaggio o creare chatbot per rispondere a domande basate sui dati dei siti web.

Siamo lieti di annunciare che ora è possibile utilizzare il nuovo Web Crawler di Amazon Kendra per cercare risposte da contenuti archiviati in siti web interni ed esterni o creare chatbot. In questo articolo, mostriamo come indicizzare le informazioni archiviate nei siti web e utilizzare la ricerca intelligente in Amazon Kendra per cercare risposte da contenuti archiviati in siti web interni ed esterni. Inoltre, la ricerca intelligente alimentata da ML può ottenere risposte accurate alle tue domande da documenti non strutturati con contenuti narrativi in linguaggio naturale, per cui la ricerca per parole chiave non è molto efficace.

Il Web Crawler offre le seguenti nuove funzionalità:

  • Supporto per l’autenticazione Basic, NTLM/Kerberos, Form e SAML
  • Possibilità di specificare 100 URL di partenza e archiviare la configurazione della connessione in Amazon Simple Storage Service (Amazon S3)
  • Supporto per un proxy web e internet con la possibilità di fornire le credenziali del proxy
  • Supporto per lo spider del contenuto dinamico, come un sito web contenente JavaScript
  • Funzionalità di mappatura dei campi e filtro regex

Panoramica della soluzione

Con Amazon Kendra, è possibile configurare più origini dati per fornire un punto centrale in cui effettuare la ricerca nel tuo repository di documenti. Per la nostra soluzione, mostriamo come indicizzare un sito web spiderizzato utilizzando il Web Crawler di Amazon Kendra. La soluzione è composta dai seguenti passaggi:

  1. Scegli un meccanismo di autenticazione per il sito web (se richiesto) e salva i dettagli in AWS Secrets Manager.
  2. Crea un indice Amazon Kendra.
  3. Crea una fonte dati Web Crawler V2 tramite la console di Amazon Kendra.
  4. Esegui una query di prova per testare la soluzione.

Prerequisiti

Per provare il Web Crawler di Amazon Kendra, hai bisogno di quanto segue:

  • Un sito web da spiderizzare.
  • Un account AWS con privilegi per creare ruoli e politiche di Identity and Access Management (IAM) di AWS. Per ulteriori informazioni, consulta la panoramica della gestione degli accessi: autorizzazioni e politiche.
  • Conoscenze di base su AWS.

Raccolta dei dettagli di autenticazione

Per i siti web protetti e sicuri, sono supportati i seguenti tipi di autenticazione e standard:

  • Basic
  • NTLM/Kerberos
  • Autenticazione tramite modulo
  • SAML

Hai bisogno delle informazioni di autenticazione quando configuri la fonte dati.

Per l’autenticazione di base o NTLM, è necessario fornire il segreto di Secrets Manager, il nome utente e la password.secrets manager basic auth

L’autenticazione tramite modulo e SAML richiede informazioni aggiuntive, come mostrato nella seguente schermata. Alcuni dei campi come Pulsante Nome utente Xpath sono facoltativi e dipenderanno dal fatto che il sito che stai spiderizzando utilizzi un pulsante dopo aver inserito il nome utente. Nota anche che dovrai sapere come determinare l’Xpath del campo nome utente e password e dei pulsanti di invio.

gestore di segreti SAML

Crea un indice Amazon Kendra

Per creare un indice Amazon Kendra, segui i seguenti passaggi:

  1. Nella console di Amazon Kendra, seleziona Crea un indice.kendra
  2. Per Nome indice, inserisci un nome per l’indice (ad esempio, Web Crawler).
  3. Inserisci una descrizione opzionale.
  4. Per Nome ruolo, inserisci un nome per il ruolo IAM.
  5. Configura le impostazioni facoltative di crittografia e i tag.
  6. Scegli Avanti.dettagli indice
  7. Nella sezione Configura il controllo di accesso dell’utente, lascia le impostazioni dei valori predefiniti e scegli Avanti.controllo di accesso dell'utente
  8. Per Edizioni di provisioning, seleziona Edizione sviluppatore e scegli Avanti.edizione di provisioning
  9. Nella pagina di revisione, scegli Crea.

Ciò crea e propaga il ruolo IAM e quindi crea l’indice Amazon Kendra, il che può richiedere fino a 30 minuti.

indice kendra

Crea un originatore dati Web Crawler Amazon Kendra

Segui i seguenti passaggi per creare il tuo originatore dati:

  1. Nella console di Amazon Kendra, seleziona Originatori dati nel riquadro di navigazione.
  2. Trova la casella Connettore WebCrawler V2.0 e scegli Aggiungi connettore.connettore webcrawler
  3. Per Nome origine dati, inserisci un nome (ad esempio, crawl-fda).
  4. Inserisci una descrizione facoltativa.
  5. Scegli Avanti.dettagli origine dati
  6. Nella sezione Origine, seleziona URL origine e inserisci un URL. In questo post, utilizziamo https://www.fda.gov/ come esempio URL di origine.
  7. Nella sezione Autenticazione, scegli l’autenticazione appropriata in base al sito che desideri esplorare. In questo post, selezioniamo Nessuna autenticazione perché si tratta di un sito pubblico e non richiede autenticazione.
  8. Nella sezione Proxy web, puoi specificare un segreto di Secrets Manager (se necessario).
    1. Scegli Crea e aggiungi nuovo segreto.
    2. Inserisci i dettagli di autenticazione che hai raccolto in precedenza.
    3. Scegli Salva.
  9. Nella sezione Ruolo IAM, scegli Crea un nuovo ruolo e inserisci un nome (ad esempio, AmazonKendra-Web Crawler-ruolo-originatore-dati).
  10. Scegli Avanti.accesso e sicurezza
  11. Nella sezione Portata sincronizzazione, configura le impostazioni di sincronizzazione in base al sito che stai esplorando. In questo post, lasciamo tutte le impostazioni predefinite.
  12. Per Modalità sincronizzazione, scegli come desideri aggiornare l’indice. In questo post, selezioniamo Sincronizzazione completa.
  13. Per Cronologia sincronizzazione, scegli Esegui su richiesta.
  14. Scegli Avanti.impostazione sincronizzazione
  15. Opzionalmente, puoi impostare le corrispondenze dei campi. In questo post, per ora, manteniamo le impostazioni predefinite.

Il mapping dei campi è un esercizio utile in cui è possibile sostituire i nomi dei campi con valori che sono user-friendly e che si adattano al vocabolario della tua organizzazione.

  1. Seleziona Avanti.mappatura dei campi
  2. Seleziona Aggiungi origine dei dati.aggiungi origine dei dati
  3. Per sincronizzare l’origine dei dati, seleziona Sincronizza ora sulla pagina dei dettagli dell’origine dei dati.avvia sincronizzazione
  4. Attendi che la sincronizzazione sia completata.sincronizzazione completata

Esempio di un sito web autenticato

Se desideri eseguire la scansione di un sito che richiede l’autenticazione, allora nella sezione Autenticazione nei passaggi precedenti, è necessario specificare i dettagli dell’autenticazione. Di seguito è riportato un esempio se hai selezionato Autenticazione tramite modulo.

  1. Nella sezione Origine, seleziona URL dell’origine e inserisci un URL. Per questo esempio, utilizziamo https://accounts.autodesk.com.

  2. Nella sezione Autenticazione, seleziona Autenticazione tramite modulo.

  3. Nella sezione Web proxy, specifica il tuo segreto del Secrets Manager. Questo è richiesto per qualsiasi opzione diversa da Nessuna autenticazione.

    1. Seleziona Crea e aggiungi nuovo segreto.
    2. Inserisci i dettagli di autenticazione che hai raccolto in precedenza.
    3. Seleziona Salva.
    crea segreto del Secrets Manager

Testare la soluzione

Ora che hai acquisito il contenuto dal sito nel tuo indice Amazon Kendra, puoi testare alcune query.

  1. Vai al tuo indice e seleziona Ricerca contenuto indicizzato.
  2. Inserisci una query di ricerca di esempio e testa i risultati della ricerca (la tua query varierà in base ai contenuti del sito che hai eseguito la scansione e alla query inserita).risultati di ricerca

Congratulazioni! Hai utilizzato con successo Amazon Kendra per ottenere risposte e insights basati sui contenuti indicizzati dal sito che hai eseguito la scansione.

Pulire

Per evitare costi futuri, pulisci le risorse create come parte di questa soluzione. Se hai creato un nuovo indice Amazon Kendra durante il test di questa soluzione, eliminatelo. Se hai solo aggiunto una nuova origine dei dati utilizzando l’Amazon Kendra Web Crawler V2, elimina quella origine dei dati.

Conclusione

Con il nuovo Amazon Kendra Web Crawler V2, le organizzazioni possono eseguire lo scraping di qualsiasi sito web accessibile pubblicamente o con autenticazione e utilizzarlo per una ricerca intelligente potenziata da Amazon Kendra.

Per scoprire queste possibilità e altro ancora, consulta la Guida per sviluppatori di Amazon Kendra. Per ulteriori informazioni su come creare, modificare o eliminare metadati e contenuti durante l’acquisizione dei dati, consulta Arricchimento dei documenti durante l’acquisizione e Arricchisci i tuoi contenuti e metadati per migliorare la tua esperienza di ricerca con l’arricchimento dei documenti personalizzato in Amazon Kendra.