Como reduzir uma palavra ao seu radical em python (Stemming)

Autor do post:Vinicius dos Santos
Post publicado:19 de dezembro de 2018
Categoria do post:Curso de Processamento de Linguagem Natural usando Python / Cursos
Comentários do post:0 Comentário

Nesse artigo vamos explicar um pouco como o que é stemming e como isso pode ser feito usando a linguagem Python.

Gosta de aprender sobre Processamento de Linguagem Natural? Veja nossos conteúdos gratuitos.

O que é o Stemming?

A linguagem natural possui diversas formas para flexionar uma palavra para que ela caiba em uma frase. É claro que essas características são determinadas de acordo com a língua que você estará utilizando. Pense por exemplo no verbo andar: Andei – Ande – Andarei – Andamento, Andando – Andante…

O processo de stemização (do inglês, stemming) consiste em reduzir uma palavra ao seu radical. A palavra “meninas” se reduziria a “menin”, assim como “meninos” e “menininhos”. As palavras “gato”, “gata”, “gatos” e “gatas” reduziriam-se para “gat”. A lematização reduz a palavra ao seu lema, que é a forma no masculino e singular.

No caso de verbos, o lema é o infinitivo. Por exemplo, as palavras “gato”, “gata”, “gatos” e “gatas” são todas formas do mesmo lema: “gato”. Igualmente, as palavras “tiver”, “tenho”, “tinha”, “tem” são formas do mesmo lema “ter”. A vantagem de aplicar a stemização ou lematização é clara: redução de vocabulário e abstração de significado. Esses pré-processamentos são de cunho morfossintático, que atuam em cima de itens lexicais, ou seja, palavras.

História

Existem alguns stemmers criados para várias línguas, porém um dos mais utilizados é o stemmer de porter. O algoritmo stemming de Porter (ou ‘Porter stemmer’) é um processo para remover as terminações morfológicas e inflexionais mais comuns das palavras em inglês. Seu uso principal é como parte de um processo de normalização de termos que geralmente é feito ao configurar sistemas de Recuperação de Informações.

C.J. van Rijsbergen, S.E. Robertson and M.F. Porter, 1980. New models in probabilistic information retrieval. London: British Library. (British Library Research and Development Report, no. 5587).
M.F. Porter, 1980, An algorithm for suffix stripping, Program, 14(3) pp 130−137.
Karen Sparck Jones and Peter Willet, 1997, Readings in Information Retrieval, San Francisco: Morgan Kaufmann, ISBN 1-55860-454-4.

O original lematizador foi escrito em BCPL, uma língua outrora popular, mas agora extinta. Nos primeiros anos após 1980, foi distribuído em seu formato BCPL, por meio de uma fita de papel perfurada. Versões em outras línguas logo começaram a aparecer e, em 1999, estavam sendo amplamente usadas, citadas e adaptadas. Infelizmente, havia inúmeras variações na funcionalidade entre essas versões, e essa página da Web foi criada principalmente para “corrigir o problema” e estabelecer uma versão definitiva para distribuição.

Como realizar o Stemming usando o NLTK

import nltk
#importa o porter stemmer
from nltk.stem import PorterStemmer

# inserimos um texto aleatório
texto = """France, in Western Europe, encompasses medieval cities, alpine villages and Mediterranean beaches. Paris, its capital, is famed for its fashion houses, classical art museums including the Louvre and monuments like the Eiffel Tower. The country is also renowned for its wines and sophisticated cuisine. Lascaux’s ancient cave drawings, Lyon’s Roman theater and the vast Palace of Versailles attest to its rich history."""
sentences = nltk.sent_tokenize(texto)
wordstokenized = nltk.word_tokenize(texto)

# Para reduzirmos um termo para sua raiz realizamos o processo de stemming - Essas palavras podem ou não ter um sentido
# por exemplo: intelligently - intelligen

# instancia o porter stemmer
stemmer = PorterStemmer()

# primeira forma => output: uma string contendo tudo junto
for i in range(len(sentences)):
    words = nltk.word_tokenize(sentences[i])
    newwords = [stemmer.stem(word) for word in words]
    sentences[i] = ' '.join(newwords)

print (sentences)

['franc , in western europ , encompass mediev citi , alpin villag and mediterranean beach .', 'pari , it capit , is fame for it fashion hous , classic art museum includ the louvr and monument like the eiffel tower .', 'the countri is also renown for it wine and sophist cuisin .', 'lascaux ’ s ancient cave draw , lyon ’ s roman theater and the vast palac of versail attest to it rich histori .']

# segunda forma => output: uma lista de palavras
newd = []
for i in range(len(wordstokenized)):
    newd.append(stemmer.stem(wordstokenized[i]))

Tags: Algoritmos de PLN, Python, Stemmer, Stemming

Vinicius dos Santos

Apenas um apaixonado por Ciência da Computação e a forma com que ela pode transformar vidas!

Cookie	Duração	Descrição
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

O que é o Stemming?

História

Como realizar o Stemming usando o NLTK

Vinicius dos Santos

Você também pode gostar

Como reconhecer nomes e entidades em Python

Como coletar informações de API usando python

Eventos com JavaScript

Deixe um comentário Cancelar resposta

Informações sobre sua privacidade