Como fazer o pré-processamento de dados em linguagem natural

Como fazer o pré-processamento de dados em linguagem natural

O que é pré-processamento?

A própria palavra já nos dá uma dica do que essa técnica realiza em um corpus de texto. O objetivo do pré-processamento é “limpar” o texto de palavras ou símbolos que podem atrapalhar na análise do texto ou criação de modelos. Realizar o pré-processamento não  é tão simples. Tudo depende do objetivo do pesquisador e qual modelo ele irá utilizar futuramente.   

Quais as principais tarefas do pré-processamento?

O pré-processamento ocorre em etapas sendo essencial para melhorar o resultado final da análise. O primeiro passo é remover símbolos indesejados como Hashtags, links, @ & etc… É interessante que o pesquisador remova todos as possíveis palavras que causarão problemas.

As stopwords (palavras sem valor semântico) são o melhor exemplo de palavras que devem ser removidas, pois se repetem durante o texto e não agregam a análise final.  O Stemming também é muito comum no pré-processamento, pois remove palavras que foram flexionadas pela linguagem e traz elas para seu radical.     

Vinicius dos Santos

Apenas um apaixonado por Ciência da Computação e forma com que ela pode transformar vidas!

Deixe uma resposta