Aula 03 - Pré-processamento usando regex
1- Como utilizar o python para pré processar texto
O primeiro passo para realizar o pré-processamento de texto é definir seu objetivo. É importante entender que o pré-processamento é realizado para reduzir o ruído do modelo que será aplicado para análise dos dados. Nesse exemplo iremos realizar a remoção de vários caracteres indesejados em um texto.
Primeiro importe o módulo para regex (expressões regulares):
import re
Faça a leitura de algum texto para pré-processar:
file = open('sampleText', 'rb') content = file.read() content = str(content)
A partir deste ponto você poderá localizar o texto desejado por meio de um padrão e substituir por um espaço ou uma string vazia:
#remove any digit that you do not want in text removeSharp = re.sub('[^A-Za-z0-9]+', ' ', content) removeSharp
É claro que as expressões regulares podem buscar padrões bastante complexos e podem se tornar difíceis de entender. Portanto, a dica valiosa para você que deseja pré-processar é buscar códigos prontos feitos por usuários do stackoverflow ou outros fóruns. Visto que encontrar padrões é muito comum e é bastante fácil de encontrar com uma simples busca no google.
Post a Comment