Iniziamo con Amazon SageMaker Ground Truth

Inizia con Amazon SageMaker Ground Truth.

Introduzione

In questa era di Generative Al, la generazione di dati è al suo apice. Costruire un modello di apprendimento automatico e intelligenza artificiale accurato richiede un dataset di alta qualità. L’assicurazione della qualità del dataset è il compito più critico, poiché i dati di scarsa qualità causano analisi inaccurate e previsioni non identificate che possono influenzare l’intero patrimonio di qualsiasi attività aziendale e causare una perdita di miliardi o trilioni di importo.

Fonte: Forbes

L’etichettatura dei dati è il primo passo verso l’assicurazione della qualità dei dati che li rende comprensibili per i modelli di intelligenza artificiale. Non ci si può affidare agli esseri umani per etichettare i dati in quanto gli esseri umani non possono etichettare i dati illimitati/generati ogni giorno, quindi qui impariamo su Amazon SageMaker ground truth, una fantastica tecnica per creare un dataset accuratamente etichettato.

Questo articolo è stato pubblicato come parte del Data Science Blogathon.

Cos’è Amazon SageMaker Ground Truth?

Amazon SageMaker Ground Truth è un servizio self-service che rende accessibile la creazione di un dataset efficiente e altamente accurato eseguendo compiti di etichettatura dei dati. Ground Truth offre anche la possibilità di utilizzare annotatori umani tramite fornitori di terze parti, Amazon Mechanical Turk o persino la nostra forza lavoro privata, e un’esperienza gestita per configurare lavori di etichettatura end-to-end.

Fonte: Edlitera.com

SageMaker Ground Truth può generare milioni di dati sintetici etichettati automaticamente senza alcuno sforzo manuale di raccolta o etichettatura dei dati da parte nostra. Ground Truth offre una struttura di etichettatura dei dati per vari tipi di dati, tra cui immagini, testo e video. Aiuta i modelli di apprendimento automatico a semplificare compiti di classificazione del testo, segmentazione del testo, rilevamento degli oggetti e classificazione delle immagini.

Casi d’uso di Amazon SageMaker Ground Truth

Ecco alcuni casi d’uso dell’utilizzo di SageMaker Ground Truth:

  1. Veicoli autonomi: I modelli di addestramento per veicoli autonomi richiedono una grande quantità di dati etichettati. SageMaker Ground Truth può annotare oggetti come auto, pedoni, segnali stradali e segnalazioni stradali per sviluppare modelli di percezione accurati e contribuire alla guida autonoma sicura.
  2. Sanità: Etichettare dataset di immagini mediche utilizzando SageMaker Ground Truth per addestrare modelli per la diagnosi e l’identificazione di malattie come il cancro, i tumori cerebrali e altre anomalie. Può anche trascrivere e annotare cartelle mediche per applicazioni di elaborazione del linguaggio naturale (NLP).
  3. Manifatturiero: L’etichettatura di immagini e dati dei sensori nei processi di produzione può aiutare nel controllo della qualità, nella rilevazione dei difetti, nella manutenzione predittiva e nell’ottimizzazione dell’efficienza produttiva.

La flessibilità di SageMaker Ground Truth consente la sua applicazione in vari settori in cui sono richiesti dataset etichettati per addestrare e migliorare modelli di apprendimento automatico.

Etichettatura automatica dei dati tramite Ground Truth

Amazon SageMaker Ground Truth è l’applicazione di algoritmi di apprendimento automatico. Utilizza il concetto di Active Learning per etichettare automaticamente e con precisione i dati. L’Active Learning è un tipo di tecnica di apprendimento automatico utilizzata per identificare dati complessi che la macchina non può capire al primo colpo, li estrae e li invia agli umani per l’etichettatura. Discutiamo il funzionamento di Ground Truth!

Fonte: LinkedIn

Passaggio 1: Archiviazione dei dati

Raccogliere i dati grezzi e non etichettati da diverse fonti e archiviarli nel bucket S3.

Fonte: Sagemaker

Passaggio 2: Invio dei dati agli umani

In questo passaggio, selezionare una parte casuale di un dataset e inviarla agli umani per l’etichettatura manuale dei dati.

Fonte: Marktechpost.com

Passaggio 3: Etichettatura umana

Non appena i lavoratori hanno ricevuto il frammento di dati, hanno iniziato ad etichettarlo.

Passaggio 4: Algoritmo di consolidamento delle etichette

Amazon Sagemaker Ground Truth utilizza questo algoritmo di consolidamento delle etichette per eliminare il rischio di errori umani e migliorare l’accuratezza dei dataset etichettati. Il funzionamento dell’algoritmo prevede la raccolta di tutte le etichette per ciascun punto dati nel dataset, seguita dalla consolidazione in etichette singole a seconda del peso delle etichette.

Passaggio 5: Dataset risultante

Adesso, abbiamo memorizzato il dataset risultante, un piccolo dataset etichettato.

Passaggio 6: Modello Amazon Sagemaker

Adesso creiamo un modello di autoapprendimento basato sugli algoritmi di apprendimento automatico e lo installiamo con l’account del cliente per addestrare il modello a partire dal piccolo dataset etichettato che il cliente sta creando, in modo che etichetti autonomamente il resto dei dati non etichettati.

Passaggio 7: Utilizzare il modello di apprendimento automatico

In questo passaggio, stiamo utilizzando il modello di apprendimento automatico appena creato per etichettare i punti dati non etichettati del dataset originale.

Passaggio 8: Etichettatura automatica

L’etichettatura automatica viene applicata al dataset restante con l’aiuto del metodo di apprendimento attivo.

Passaggio 9: Alta affidabilità

In questo passaggio verifichiamo il punteggio di affidabilità del modello e applichiamo l’annotazione automatica solo se il punteggio del nostro modello è alto.

Passaggio 10: Bassa affidabilità

Se il punteggio di affidabilità del modello è basso, non possiamo applicare l’annotazione automatica e invieremo quella parte dei dati agli umani per etichettarla. Tuttavia, in questo caso, il modello creerà automaticamente un nuovo dataset per addestrarsi e migliorare la sua accuratezza.

L’intero dataset passa attraverso un ciclo di ripetizione di questi passaggi fino a quando non viene completamente etichettato.

Impatto di Amazon SageMaker Ground Truth per aumentare l’accuratezza

Sagemaker propone fondamentalmente due metodi per migliorare l’accuratezza dei dati di addestramento:

1. Consolidamento delle annotazioni

Lo scopo del consolidamento delle annotazioni è contrastare l’errore/bias di ciascun lavoratore inviando ciascun oggetto dati a due o più lavoratori e quindi consolidando le loro risposte in un’unica etichetta per i nostri oggetti dati.

Fonte: Amazon

Dopo aver raccolto i dati da vari lavoratori, applica l’algoritmo di consolidamento per confrontarli.

Algoritmo

  • Rileva le annotazioni anomale che vengono ignorate.
  • Applica un consolidamento ponderato delle annotazioni assegnando maggior peso alle annotazioni più affidabili.
  • L’etichetta assegnata a ciascun oggetto nel dataset è una stima probabilistica di un’etichetta vera. L’oggetto può avere più annotazioni, ma l’output è un’unica etichetta per ciascun oggetto.
  • Sebbene possiamo scegliere il numero di lavoratori per eseguire l’annotazione, il che aumenterà l’accuratezza delle nostre etichette, il problema è che aumenterà anche il costo dell’etichettatura.

La funzione di consolidamento delle annotazioni offerta da Ground Truth si applica a tutte le attività di etichettatura predefinite, inclusa la NER (riconoscimento delle entità nominate), il bounding box, la segmentazione semantica e la classificazione di immagini e testi. Capisciamo ogni funzione!

  • Named Entity Recognition (NER): La similarità di Jaccard viene utilizzata per raggruppare le selezioni di testo in NER. Si prende la moda dell’etichetta per calcolare i confini della selezione e, se la moda non è chiara, si opta per una mediana dell’etichetta. Infine, la selezione casuale svolgerà il ruolo di interruttore per risolvere l’etichetta di entità più assegnata nel cluster.
  • Bounding Box Annotation: Nell’annotazione del bounding box, il compito di consolidazione viene eseguito acquisendo i bounding box da vari lavoratori e selezionando quelli più simili tramite l’indice di Jaccard o l’intersezione sulla unione dei box e facendone la media.
  • Multi-class Annotation Consolidation for Image and Text Classification: La consolidazione viene eseguita stimando la vera classe in base alle annotazioni di classe provenienti da lavoratori separati tramite inferenza bayesiana.
  • Semantic Segmentation Annotation: Il sistema considera ogni pixel di un’immagine come un oggetto multi-classe e tratta le annotazioni dei pixel dei lavoratori come “voti”. Inoltre, incorpora informazioni extra dai pixel circostanti applicando una funzione di smoothing all’immagine.

2. Migliori pratiche sull’interfaccia di annotazione

L’interfaccia di annotazione ha varie funzionalità per migliorare l’accuratezza o la qualità dei compiti di etichettatura umana. Questa interfaccia ben organizzata e progettata aiuta il lavoratore a ottenere un dataset adeguato con errori minimi. Le migliori pratiche includono la visualizzazione di brevi istruzioni su un pannello fisso laterale e ottimi esempi di etichette e cattivi esempi. Inoltre, ha una funzione per evidenziare solo il contorno dell’immagine per le annotazioni del bounding box scurendo lo sfondo.

Conclusioni

Abbiamo discusso di come Amazon Sagemaker Ground Truth aiuterà a generare dataset di alta qualità per il modello di apprendimento automatico. I punti chiave di questo blog su Ground Truth includono quanto segue:

  • L’etichettatura dei dati è il primo passo verso l’assicurazione della qualità dei dati che li rende comprensibili per i modelli di intelligenza artificiale.
  • Può generare milioni di dati sintetici etichettati automaticamente senza alcuno sforzo manuale di raccolta o etichettatura dei dati da parte nostra.
  • La consolidazione delle annotazioni e le migliori pratiche sull’interfaccia di annotazione sono due modi in cui Sagemaker può migliorare l’accuratezza dei dati di addestramento.

Domande frequenti

I media mostrati in questo articolo non sono di proprietà di Analytics Vidhya e sono utilizzati a discrezione dell’autore.