Preelaborazione del testo per prepararsi all’apprendimento automatico in Python – Elaborazione del linguaggio naturale

Preelaborazione del testo per l'apprendimento automatico in Python - Elaborazione del linguaggio naturale

Foto di Kiril Dobrev su Unsplash

Alcune tecniche comunemente utilizzate per la pre-elaborazione del testo in Python con esempi

In questa era dei social media e dell’era del business online, i dati testuali provengono da ovunque. Tuttavia, gestire i dati testuali è complicato. Poiché il testo grezzo può contenere tutti i tipi di impurità, rumori superflui, errori di ortografia e altro ancora. Pertanto, è necessario eseguire una corretta pre-elaborazione prima di affrontare la modellazione dei dati testuali.

In questo articolo, lavoreremo su alcune tecniche comuni di pre-elaborazione del testo per preparare i dati testuali per l’apprendimento automatico.

Rimozione dei numeri

I numeri nel testo possono essere ingannevoli per i modelli di apprendimento automatico. Poiché comunque, il testo deve essere convertito in numeri. Ogni testo viene convertito in un numero. Se il testo contiene di nuovo numeri, potrebbe interferire con tali numeri inutilmente. Pertanto, rimuovere i numeri può essere utile.

In questo caso ho utilizzato le espressioni regolari per rimuovere i numeri. Quindi, ho dovuto importare ‘re’ prima.

import re  text = "La classe A ha 35 studenti, la classe B ha 29 studenti e tutti loro sono bravi in matematica"res = re.sub(r'\d+', '', text)res 

Output:

'La classe A ha  studenti, la classe B ha  studenti e tutti loro sono bravi in matematica'

Tutti i numeri sono scomparsi dal testo.

Rimozione degli spazi extra

Questo è un altro problema divertente. A volte, all’inizio e alla fine, può esserci uno spazio extra nei dati grezzi che non sembra essere un problema. Ma può creare problemi. Se c’è uno spazio extra, la stessa parola potrebbe apparire come due parole diverse. Ad esempio, se aggiungiamo uno spazio extra all’inizio della parola ‘canzone’ durante lo sviluppo di un modello, questa verrà considerata come una parola diversa da ‘canzone’ solo a causa dello spazio, il che potrebbe essere dannoso per le prestazioni del modello.

st = " il risultato è stato ottimo "st.strip()

Output:

'il risultato è stato ottimo'

Gli spazi all’inizio e alla fine sono scomparsi.

Ho utilizzato i dati twitter.csv da Kaggle per…