Aula 02 - Pre-processando os dados
1- Introdução
Assim como aprendemos na seção 5 deste curso, o pré-processamento do texto é necessário para para criação do classificador que é capaz de identificar se uma sentença é positiva ou negativa. Portanto, símbolos (não palavras), números serão desconsiderados.
2- Pré processamento em python
Para realizar o pré-processamento do texto utilizaremos a biblioteca de expressões regulares (re). O primeiro passo é importar a biblioteca usando o comando:
import re
Após a importação, percorremos o dataset importado removendo os caracteres e elementos que não desejamos.
# creating the corpus corpus = [] for i in range (0,len(X)): review = re.sub(r'\W', ' ', str(X[i])) #remove o que não são palavras review = review.lower() #coloca todos os caracteres em minusculo review = re.sub(r'\s+[a-z]\s+', ' ', review) #remove o que não são letras review = re.sub(r'^[a-z]\s+', ' ', review) review = re.sub(r'\s+', ' ', review) # remove espaços adicionais corpus.append(review)
Utilizando essa técnica teremos um corpus (lista de sentenças) sem caracteres indesejados.
Post a Comment