Aula 02 - Pre-processando os dados


1- Introdução


Assim como aprendemos na seção 5 deste curso, o pré-processamento do texto é necessário para para criação do classificador que é capaz de identificar se uma sentença é positiva ou negativa. Portanto, símbolos (não palavras), números serão desconsiderados.


2- Pré processamento em python


Para realizar o pré-processamento do texto utilizaremos a biblioteca de expressões regulares (re). O primeiro passo é importar a biblioteca usando o comando:

import re

Após a importação, percorremos o dataset importado removendo os caracteres e elementos que não desejamos.

# creating the corpus

corpus = []

for i in range (0,len(X)):
    review = re.sub(r'\W', ' ', str(X[i])) #remove o que não são palavras
    review = review.lower() #coloca todos os caracteres em minusculo
    review = re.sub(r'\s+[a-z]\s+', ' ', review) #remove o que não são letras
    review = re.sub(r'^[a-z]\s+', ' ', review)
    review = re.sub(r'\s+', ' ', review) # remove espaços adicionais
    corpus.append(review)


Utilizando essa técnica teremos um corpus (lista de sentenças) sem caracteres indesejados.










Aula 02 - Pre-processando os dados Aula 02 - Pre-processando os dados Reviewed by Vinicius dos Santos on 03:37:00 Rating: 5

Nenhum comentário

Escreve ai sua opinião!