Aula 01 - Entendendo a sumarização de textos



1- Introdução


Uma das funções do Processamento de Linguagem Natural é realizar a sumarização automática de textos utilizando algum critério de relevância. É claro que a sumarização automática de textos é uma função bastante genérica e pode ser empregada em qualquer contexto.

Imagine que você têm 500 textos de 10 páginas para realizar a leitura. No entanto, você não tem certeza se determinado texto está dentro do escopo que você precisa abordar na pesquisa. É possível que a realização de uma sumarização automática forneça um texto mais compacto e possa agilizar no processo de seleção dos melhores candidatos a serem lidos na íntegra.

O exemplo supracitado é na verdade apenas uma aplicação de muitas outras que a sumarização pode beneficiar. Nesta seção iremos implementar um exemplo de sumarização feito em python. É claro que devemos salientar que essa área é bastante grande e existem diversas técnicas para realizar a sumarização.

2- Resumo da abordagem


Esta abordagem utilizará como fonte de dados a Wikipedia. Esse repositório muito conhecido possui "toneladas" de texto e podem ser utilizados gratuitamente. A seguir, um breve passo a passo da abordagem:


Obtendo dados da Web - como obter dados de um artigo da wikipedia utilizando o python
Parse usando Soup - realizando a conversão do formato soup para texto plano
Tokenização de texto em sentenças - processando o texto utilizando o NLTK
Construindo um histograma  - construindo a estrutura para realizar a avaliação dos parágrafos.
Calculando a pontuação - calculando a pontuação com base na relevância de cada parágrafo
Obtendo o resumo - selecionando os melhores parágrafos.
Aula 01 - Entendendo a sumarização de textos Aula 01 - Entendendo a sumarização de textos Reviewed by Vinicius dos Santos on 11:08:00 Rating: 5

Nenhum comentário

Escreve ai sua opinião!