Aula 02 - Entendendo o Pré-processamento

1- O que é pré-processamento?

A própria palavra já nos dá uma dica do que essa técnica realiza em um corpus de texto. O objetivo do pré-processamento é "limpar" o texto de palavras ou símbolos que podem atrapalhar na análise do texto ou criação de modelos. Realizar o pré-processamento não  é tão simples. Tudo depende do objetivo do pesquisador e qual modelo ele irá utilizar futuramente. 

2- Quais as principais tarefas do pré-processamento?


O pré-processamento ocorre em etapas sendo essencial para melhorar o resultado final da análise. O primeiro passo é remover símbolos indesejados como Hashtags, links, @ & etc...
É interessante que o pesquisador remova todos as possíveis palavras que causarão problemas. As stopwords (palavras sem valor semântico) são o melhor exemplo de palavras que devem ser removidas, pois se repetem durante o texto e não agregam a análise final. 
O Stemming também é muito comum no pré-processamento, pois remove palavras que foram flexionadas pela linguagem e traz elas para seu radical. 


3- Leia mais


Esse artigo disponibilizado explica muito bem algumas técnicas de pré-processamento.

http://www.inf.ufsc.br/~luis.alvares/INE5644/G2_texto.pdf

Aula 02 - Entendendo o Pré-processamento Aula 02 - Entendendo o Pré-processamento Reviewed by Vinicius dos Santos on 05:23:00 Rating: 5

Nenhum comentário

Escreve ai sua opinião!