Aula 03 - Pré-processamento usando regex

1- Como utilizar o python para pré processar texto

O primeiro passo para realizar  o pré-processamento de texto é definir seu objetivo. É importante entender que o pré-processamento é realizado para reduzir o ruído do modelo que será aplicado para análise dos dados. Nesse exemplo iremos realizar a remoção de vários caracteres indesejados em um texto.

Primeiro importe o módulo para regex (expressões regulares):

import re

Faça a leitura de algum texto para pré-processar:

file = open('sampleText', 'rb')
content = file.read()
content = str(content)


A partir deste ponto você poderá localizar o texto desejado por meio de um padrão e substituir por um espaço ou uma string vazia:

#remove any digit that you do not want in text
removeSharp = re.sub('[^A-Za-z0-9]+', ' ', content)
removeSharp

É claro que as expressões regulares podem buscar padrões bastante complexos e podem se tornar difíceis de entender. Portanto, a dica valiosa para você que deseja pré-processar é buscar códigos prontos feitos por usuários do stackoverflow ou outros fóruns. Visto que encontrar padrões é muito comum e é bastante fácil de encontrar com uma simples busca no google.



Aula 03 - Pré-processamento usando regex Aula 03 - Pré-processamento usando regex Reviewed by Vinicius dos Santos on 06:37:00 Rating: 5

Nenhum comentário

Escreve ai sua opinião!