Tokenização de palavras e sentenças em Python

Autor do post:Vinicius dos Santos
Post publicado:19 de dezembro de 2018
Categoria do post:Curso de Processamento de Linguagem Natural usando Python / Cursos
Comentários do post:0 Comentário

Nesse artigo vamos um pouco sobre a tokenização de palavras e sentenças usando a linguagem Python. Essa tarefa é importantíssima no contexto de PLN e permite que os profissionais dessa área executem várias outras tarefas. Nesse artigo você vai entender o que é tokenização e também como implementar um exemplo funcional usando Python e a biblioteca NLTK.

Você gosta de aprender sobre Processamento de Linguagem Natural? Veja nosso conteúdo gratuito.

O que é tokenização

O primeiro passo para descobrir informações em textos construídos em linguagem natural é a tokenização. Essa palavra vêm da palavra “Token” da língua inglesa onde os brasileiros adaptaram para a nossa língua. Tokenizar já pode ser encontrado pela web e em alguns casos com definição. O IBM knowledge center define a tokenização é uma operação que é utilizada pelo mecanismo Analítica de Texto para conduzir a análise morfológica, como detectar os limites de token e partes do discurso.

Realizando o processo na “força bruta”

Este processo é bem simples de se imaginar como é implementado. As palavras são divididas graças a cada espaço entre elas. Sendo assim, para tokenizar uma sentença separando em um array de palavras é simplesmente a quebra de uma sentença usando os espaços como separador.

Já para as frases é preciso utilizar a pontuação do texto para “compreender” quais os delimitadores de uma sentença. O ponto final é o principal indicador do fim de uma sentença, no entanto, podem existir diversas formas de expressão da linguagem escrita.

Usando o NLTK para tokenizar

O NTLK possui algumas ferramentas que ajudam na tokenização de sentenças. O primeiro passo é importar o NLTK para o código:

# Para importar o nltk 
import nltk

O próximo passo é chamar o NLTK para tokenizar sentenças:

# inserimos um texto aleatório
texto = """France, in Western Europe, encompasses medieval cities, alpine villages and Mediterranean beaches. Paris, its capital, is famed for its fashion houses, classical art museums including the Louvre and monuments like the Eiffel Tower. The country is also renowned for its wines and sophisticated cuisine. Lascaux’s ancient cave drawings, Lyon’s Roman theater and the vast Palace of Versailles attest to its rich history."""

# separamos cada sentença
tokenized_sentences = nltk.sent_tokenize(texto)
print(tokenized_sentences)

['France, in Western Europe, encompasses medieval cities, alpine villages and Mediterranean beaches.', 'Paris, its capital, is famed for its fashion houses, classical art museums including the Louvre and monuments like the Eiffel Tower.', 'The country is also renowned for its wines and sophisticated cuisine.', 'Lascaux’s ancient cave drawings, Lyon’s Roman theater and the vast Palace of Versailles attest to its rich history.']

Para separar cada palavra e gerar um “token” único fazemos:

# separamos cada palavra
tokenized_words = nltk.word_tokenize(texto)
print(tokenized_words)

['France', ',', 'in', 'Western', 'Europe', ',', 'encompasses', 'medieval', 'cities', ',', 'alpine', 'villages', 'and', 'Mediterranean', 'beaches', '.', 'Paris', ',', 'its', 'capital', ',', 'is', 'famed', 'for', 'its', 'fashion', 'houses', ',', 'classical', 'art', 'museums', 'including', 'the', 'Louvre', 'and', 'monuments', 'like', 'the', 'Eiffel', 'Tower', '.', 'The', 'country', 'is', 'also', 'renowned', 'for', 'its', 'wines', 'and', 'sophisticated', 'cuisine', '.', 'Lascaux', '’', 's', 'ancient', 'cave', 'drawings', ',', 'Lyon', '’', 's', 'Roman', 'theater', 'and', 'the', 'vast', 'Palace', 'of', 'Versailles', 'attest', 'to', 'its', 'rich', 'history', '.']

Quer ver o código completo?

Acesse nosso github

Tags: Pos-tagging, Python

Vinicius dos Santos

Apenas um apaixonado por Ciência da Computação e a forma com que ela pode transformar vidas!

Cookie	Duração	Descrição
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

O que é tokenização

Realizando o processo na “força bruta”

Usando o NLTK para tokenizar

Vinicius dos Santos

Você também pode gostar

Erros mais comuns em Java

Como instalar e configurar o banco de dados MySQL

O que é AJAX e como usar em PHP

Deixe um comentário Cancelar resposta

Informações sobre sua privacidade