Web as corpus – utilizando a web como corpus

Web as corpus – utilizando a web como corpus

Você já pensou na quantidade de textos disponíveis na internet, será que eles poderiam ser usados como corpus (web as corpus)? A resposta é sim e nesse post vamos mostrar uma ferramenta que faz exatamente isso.  

O que é a WebCorp?

A WebCorp é um conjunto de ferramentas que permite o acesso à World Wide Web como um corpus – uma grande coleção de textos a partir dos quais os fatos sobre a linguagem podem ser extraídos. Esse conjunto de ferramentas levanta uma questão interessante que é a mutação da língua.  

Vamos pensar um pouco, imagine a quantidade de gírias, memes, palavras que nascem dentro da internet todos os dias. Isso torna nossa língua muito dinâmica e viva, porém, dificulta muito o trabalho das pessoas que trabalham com processamento de linguagem natural.

No entanto, quando utilizamos a web como um corpus essa dificuldade é superada, visto que diariamente muitos dados são trafegados pela rede e podemos utilizar isso como corpus de treinamento. Sendo assim, as ferramentas que usam esse conceito podem se manter atualizadas constantemente.

Quem pode usar a WebCorp?

A WebCorp pode ser usada por qualquer pessoa que tenha interesse em linguagem e como palavras e frases específicas são usadas, especialmente palavras e frases que são muito novas ou raras para aparecer em qualquer dicionário ou corpus padrão.

Desde seu lançamento, a WebCorp tem sido usada por linguistas de corpus, lexicógrafos, professores de idiomas e alunos, editores, jornalistas, anunciantes e pesquisadores em diversos campos. Embora a WebCorp tenha sido projetada para pesquisa de dados lingüísticos, muitos usuários descobriram que seu formato de resultados (com seções relevantes de texto de várias páginas da Web reunidas em uma página) é útil para recuperação de informações do tipo para o qual os mecanismos de pesquisa padrão são normalmente usados.    

Quem é responsável pela WebCorp?

A WebCorp foi criada e é operada e mantida pela Unidade de Pesquisa e Desenvolvimento para Estudos em Inglês (RDUES) na Escola de Inglês da Birmingham City University.    

Exemplo de utilização

Primeiramente, abra o site da webcorp e você vai encontrar uma tela assim:

Agora, você pode digitar uma palavra para ser uma “semente”, selecionar a língua e pronto!

Está pronto seu corpus contendo tal palavra.      

Vinicius dos Santos

Apenas um apaixonado por Ciência da Computação e forma com que ela pode transformar vidas!

Deixe uma resposta