Crea riepiloghi delle registrazioni utilizzando l’IA generativa con Amazon Bedrock e Amazon Transcribe

Crea sintesi delle registrazioni utilizzando l'IA generativa con Amazon Bedrock e Amazon Transcribe

Le note di riunione sono una parte cruciale della collaborazione, eppure spesso vengono trascurate. Tra condurre discussioni, ascoltare attentamente e prendere appunti, è facile che informazioni chiave sfuggano non registrate. Anche quando le note vengono catturate, possono essere disorganizzate o illeggibili, rendendole inutili.

In questo post, esploreremo come utilizzare Amazon Transcribe e Amazon Bedrock per generare automaticamente riassunti puliti e concisi di registrazioni video o audio. Che si tratti di una riunione interna del team, di una sessione di conferenza o di una telefonata di guadagni, questo approccio può aiutarti a sintetizzare ore di contenuto in punti salienti.

Presentiamo una soluzione per trascrivere una riunione del team del progetto e riassumere le principali conclusioni con Amazon Bedrock. Discuteremo anche come personalizzare questa soluzione per altre situazioni comuni come lezioni universitarie, interviste e chiamate di vendita. Continua a leggere per semplificare e automatizzare il tuo processo di prendere appunti.

Panoramica della soluzione

Combina Amazon Transcribe e Amazon Bedrock per risparmiare tempo, catturare informazioni e migliorare la collaborazione. Amazon Transcribe è un servizio di riconoscimento automatico della voce (ASR) che rende semplice aggiungere capacità di trascrizione vocale alle applicazioni. Utilizza tecnologie avanzate di apprendimento profondo per trascrivere accuratamente l’audio in testo. Amazon Bedrock è un servizio completamente gestito che offre una scelta di modelli di base ad alte prestazioni (FMs) da aziende leader nell’IA come AI21 Labs, Anthropic, Cohere, Meta, Stability AI e Amazon, insieme a un ampio set di funzionalità necessarie per creare applicazioni di IA generative. Con Amazon Bedrock, puoi facilmente sperimentare con una varietà di FMs di alto livello e personalizzarli privatamente con i tuoi dati utilizzando tecniche come il fine-tuning e la generazione con recupero aumentato (RAG).

La soluzione presentata in questo post è orchestrata utilizzando una macchina a stati di AWS Step Functions che viene attivata quando carichi una registrazione nel cestino designato di Amazon Simple Storage Service (Amazon S3). Step Functions consente di creare flussi di lavoro senza server per orchestrare e collegare componenti tra i servizi AWS. Gestisce la complessità sottostante, consentendoti di concentrarti sulla logica dell’applicazione. È utile per coordinare attività, elaborazione distribuita, ETL (estrarre, trasformare e caricare) e automazione dei processi aziendali.

Il seguente diagramma illustra l’architettura della soluzione a livello generale.

Il flusso di lavoro della soluzione include i seguenti passaggi:

  1. Un utente archivia una registrazione nel cestino delle risorse S3.
  2. Questa azione attiva la macchina a stati di Step Functions per la trascrizione e il riassunto.
  3. Come parte della macchina a stati, viene attivata una funzione AWS Lambda, che trascrive la registrazione utilizzando Amazon Transcribe e archivia la trascrizione nel cestino delle risorse.
  4. Una seconda funzione Lambda recupera la trascrizione e genera un riassunto utilizzando il modello Anthropic Claude in Amazon Bedrock.
  5. Infine, una funzione Lambda finale utilizza Amazon Simple Notification Service (Amazon SNS) per inviare un riassunto della registrazione al destinatario.

Questa soluzione è supportata nelle regioni in cui Anthropic Claude su Amazon Bedrock è disponibile.

La macchina a stati coordina i passaggi per svolgere i compiti specifici. Il diagramma seguente illustra il processo dettagliato.

Prerequisiti

Gli utenti di Amazon Bedrock devono richiedere l’accesso ai modelli prima che siano disponibili per l’uso. Questa è un’azione da compiere una sola volta. Per questa soluzione, sarà necessario abilitare l’accesso al modello Anthropic Claude (non Anthropic Claude Instant) in Amazon Bedrock. Per ulteriori informazioni, fare riferimento a Accesso al modello.

Deploy delle risorse della soluzione

La soluzione viene implementata utilizzando un modello AWS CloudFormation, trovato nel repo GitHub, per generare automaticamente le risorse necessarie nel vostro account AWS. Il modello richiede i seguenti parametri:

  • Indirizzo email utilizzato per inviare il riepilogo – Il riepilogo verrà inviato a questo indirizzo. È necessario confermare l’email di conferma iniziale di Amazon SNS prima di ricevere ulteriori notifiche.
  • Istruzioni per il riepilogo – Queste sono le istruzioni fornite al modello Amazon Bedrock per generare il riepilogo.

Eseguire la soluzione

Dopo aver implementato la soluzione utilizzando AWS CloudFormation, completare i seguenti passaggi:

  1. Confermare l’email di conferma di Amazon SNS che si dovrebbe ricevere qualche istante dopo la creazione dello stack CloudFormation.
  2. Sulla console di AWS CloudFormation, passare allo stack appena creato.
  3. Nella scheda Output dello stack, cercare il valore associato a AssetBucketName; avrà un aspetto simile a summary-generator-assetbucket-xxxxxxxxxxxxx.
  4. Sulla console di Amazon S3, passare al bucket delle risorse.

Qui sarà possibile caricare le registrazioni. I formati di file validi sono MP3, MP4, WAV, FLAC, AMR, OGG e WebM.

  1. Caricare la registrazione nella cartella recordings.

Il caricamento delle registrazioni attiverà automaticamente lo stato del sistema Step Functions. Per questo esempio, utilizziamo una registrazione di una riunione di prova nella directory sample-recording del repository GitHub.

  1. Sulla console di Step Functions, passare al flusso di stato del generatore di riepilogo.
  2. Scegliere il nome dell’esecuzione del flusso di stato con lo stato In esecuzione.

Qui è possibile monitorare l’avanzamento del flusso di stato durante l’elaborazione della registrazione.

  1. Dopo aver raggiunto lo stato Riuscito, si dovrebbe ricevere un riepilogo della registrazione via email.

In alternativa, è possibile accedere al bucket delle risorse S3 e visualizzare la trascrizione nella cartella dei trascritti.

Revisiona il riepilogo

Riceverai il riepilogo della registrazione via email all’indirizzo fornito durante la creazione dello stack di CloudFormation. Se non ricevi l’email entro qualche istante, assicurati di aver confermato l’email di conferma di Amazon SNS che avresti dovuto ricevere dopo aver creato lo stack e successivamente carica di nuovo la registrazione, che attiverà il processo di riepilogo.

Questa soluzione include una registrazione di una riunione simulata che puoi utilizzare per testare la soluzione. Il riepilogo avrà un aspetto simile all’esempio seguente. Tuttavia, a causa della natura dell’AI generativa, l’output sarà leggermente diverso, ma il contenuto dovrebbe essere simile.

Ecco i punti chiave della standup:

  • Joe ha terminato la revisione dello stato attuale per il task EDU1 e ha creato un nuovo task per sviluppare lo stato futuro. Questo nuovo task è nel backlog da prioritizzare. Ora sta iniziando EDU2, ma è bloccato nella selezione delle risorse.
  • Rob ha creato una strategia di etichettatura per SLG1 basata sulle best practice, ma potrebbe essere necessario coordinarsi con altri team che hanno creato le proprie strategie per allinearsi su un approccio uniforme. È stato creato un nuovo task per coordinare le strategie di etichettatura.
  • Rob ha fatto progressi nel debug per SLG2, ma potrebbe aver bisogno di ulteriori aiuti. Questo task verrà spostato in Sprint 2 per avere il tempo di ottenere risorse extra.

Prossimi passi:

  • Joe continuerà a lavorare su EDU2 come possibile fino a quando verrà decisa la selezione delle risorse
  • Nuovo task da prioritizzare per coordinare le strategie di etichettatura tra i team
  • SLG2 spostato a Sprint 2
  • Le standup si spostano al lunedì a partire dalla prossima settimana

Espandi la soluzione

Ora che hai una soluzione funzionante, ecco alcune idee potenziali per personalizzare la soluzione per i tuoi casi d’uso specifici:

  • Prova ad alterare il processo per adattarlo ai tuoi contenuti di origine disponibili e ai risultati desiderati:
    • Per situazioni in cui sono disponibili trascrizioni, crea un flusso di lavoro Step Functions alternativo per inglobare trascrizioni esistenti basate su testo o PDF.
    • Invece di utilizzare Amazon SNS per notificare i destinatari tramite email, puoi usarlo per inviare l’output a un endpoint diverso, come un sito di collaborazione di squadra o al canale di chat della squadra.
  • Prova a cambiare le istruzioni di sintesi parametro dello stack CloudFormation fornito ad Amazon Bedrock per produrre output specifici per il tuo caso d’uso (questo è l’aiuto IA generativo):
    • Quando si riassume una call di guadagni di un’azienda, si potrebbe far focalizzare il modello sulle opportunità promettenti potenziali, le aree di preoccupazione e le cose che si dovrebbero continuare a monitorare.
    • Se si utilizza questo per riassumere una lezione del corso, il modello potrebbe identificare i prossimi compiti, riassumere i concetti chiave, elencare i fatti e filtrare eventuali chiacchiere dalla registrazione.
  • Per la stessa registrazione, crea diversi riassunti per diversi tipi di pubblico:
    • I riassunti per gli ingegneri si concentrano sulle decisioni di design, le sfide tecniche e i consegne imminenti.
    • I riassunti per i project manager si concentrano sulle tempistiche, i costi, i consegne e gli elementi di azione.
    • I project sponsor ricevono un breve aggiornamento sullo stato del progetto e le problematiche da affrontare.
    • Per registrazioni più lunghe, prova a generare riassunti per diversi livelli di interesse e impegno di tempo. Ad esempio, crea una frase singola, un paragrafo singolo, una singola pagina o un riassunto approfondito. Oltre all’aiuto, potresti voler regolare il parametro max_tokens_to_sample per adattarsi a diverse lunghezze di contenuto.

Pulizia

Per pulire la soluzione, elimina lo stack CloudFormation creato in precedenza. Tieni presente che l’eliminazione dello stack non cancellerà il bucket degli asset. Se non hai più bisogno delle registrazioni o delle trascrizioni, puoi eliminare questo bucket separatamente. Amazon Transcribe eliminerà automaticamente i lavori di trascrizione dopo 90 giorni, ma puoi eliminarli manualmente prima di allora.

Conclusioni

In questo post, abbiamo esplorato come utilizzare Amazon Transcribe e Amazon Bedrock per generare automaticamente riassunti puliti e concisi di registrazioni video o audio. Ti incoraggiamo a continuare ad esaminare Amazon Bedrock, Amazon Transcribe e altri servizi IA di AWS, come Amazon Textract, Amazon Translate e Amazon Rekognition, per vedere come possono aiutarti a raggiungere i tuoi obiettivi aziendali.