[Aula 02] A floresta linguística



1- O projeto da Linguateca


A Linguateca é um centro de recursos distribuído para o processamento computacional da língua portuguesa. Ela tem como objetivo é servir a comunidade que se dedica ao  processamento da nossa língua. Em particular, facilitar o acesso aos recursos já existentes, através do desenvolvimento de serviços de acesso na rede, e mantendo um portal com informação útil, desenvolver, de forma harmoniosa, em colaboração com os interessados, os recursos considerados mais prementes, organizar avaliações conjuntas que envolvam a comunidade como um todo.

Duas linhas mestras norteiam a atividade da Linguateca:

Total abertura: Todas as atividades e trabalhos desenvolvidos pela Linguateca são públicos. 
Disponibilização livre: Os autores de recursos serão remunerados ou compensados de forma a não serem lesados, mas a Linguateca não se destina a desenvolver ou apoiar o desenvolvimento de recursos proprietários, mas sim a criar condições para a existência de recursos bons e gratuitos para a língua portuguesa.


2- A floresta

A "Floresta Sintática" um conjunto de frases (corpus) analisadas (morfo)sintaticamente. Como, além da indicação das funções sintácticas, a análise também explicita hierarquicamente informação relativa à estrutura de constituintes, dizemos que uma frase sintaticamente analisada se parece com uma árvore, donde um conjunto de árvores constitui uma floresta sintáctica (em inglês, treebank).

O projecto Floresta Sintática é uma colaboração entre a Linguateca e o projecto VISL. Contém textos em português (do Brasil e de Portugal) anotados (analisados) automaticamente pelo analisador sintáctico PALAVRAS (Bick 2000) e revistos por linguistas.

Atualmente, a Floresta Sintática tem quatro partes, que diferem quanto ao gênero textual, quanto ao modo (escrito vs falado) e quanto ao grau de revisão linguística: o Bosque, totalmente revisto por linguistas; a Selva, parcialmente revista, a Floresta Virgem e a Amazônia, não revistos. Junto, todo esse material soma cerca de 261 mil frases (6,7 milhões de palavras) sintaticamente analisadas 

Toda a Floresta Sintática está publicamente disponível, sendo possível levantá-la na íntegra, em diferentes formatos, ou interrogá-la por meio de várias interfaces de busca, nomeadamente o Milhafre, o Águia e o CorpusEye.

Uma floresta sintáctica serve para o treino e avaliação de analisadores morfossintácticos, para estudos baseados em corpos e para investigação da língua, não apenas da sintaxe, mas também de aspectos semânticos e discursivos. Pode, ainda, ser um auxiliar no ensino.

Subjacente a uma floresta sintáctica há sempre um modelo de gramática, com suas regras e categorias. Na Floresta Sintática, procuramos minimizar o impacto de um modelo. 

Veja aqui perguntas já respondidas sobre o projecto, como citar a Floresta Sintática.
[Aula 02] A floresta linguística [Aula 02] A floresta linguística Reviewed by Vinicius dos Santos on 06:03:00 Rating: 5

Nenhum comentário

Escreva aí sua opinião!