Aula 03 - LacioWeb - Corpus de textos em português



Compilação do Corpora Brasileiro e Implementação de Ferramentas Corpora para Análise Lingüística

Objetivos


Criar recursos básicos de linguística e computação (como corpora e ferramentas associadas) para a implementação de aplicativos de processamento em português brasileiro, que são necessários para aumentar, organizar, manipular e pesquisar informações na web.


Características


O projeto Lacio-Web (LW) visa a compilação de corpora de acesso livre tanto para usuários não especialistas interessados ​​na língua portuguesa quanto para usuários especialistas que realizam estudos lingüísticos teóricos e práticos e desenvolvem ferramentas de linguística computacional (por exemplo, taggers, parsers, sentença). e alinhadores de palavras, ferramentas automáticas de extração de termos e sumarizadores automáticos) e aplicativos como sistemas de computador para recuperação de informações em linguagem natural, tradução automática e verificação gramatical.

O projeto LW compreende seis corpora: 1) um corpus de referência chamado Lacio-Ref; 2) Mac-Morpho, uma porção padrão-ouro da Lacio-Ref, compreendendo 1,1 milhão de palavras, que foi validada manualmente para tags morfo-sintáticas; 3) uma parte anotada automaticamente do Lacio-Ref com lemas, POS e tags sintáticas que são usadas pelo analisador Curupira desenvolvido no NILC; 4) um corpus de desvio composto de textos não revisados ​​(Lacio-Dev); e 5) paralelos e 6) corpora português-inglês comparáveis ​​chamados, respectivamente, Par-C e Comp_C.


Equipe


Sandra Maria Aluísio - ICMC-USP (coordenadora)
Marcelo Finger - IME-USP (vice-coordenador)
Stella Tagnin - FFCHL-USP
Cláudia Monteiro Peixoto - IME-SP
Rachel Xavier Aires - ICMC-USP
Maria das Graças Volpe Nunes - ICMC-USP
Osvaldo Novais de Oliveira Jr. - IFSC-USP
Bento Carlos Dias da Silva - FCL-Unesp
Jorge Augusto Teles - FATEC-TQ
Jorge Marques Pelizzoni - ICMC-USP
Ana Raquel Marchi - Unesp / IBILCE - SP
Lucélia Helena de Oliveira - FCL - Unesp
Regiana Manenti - UFSCar-SP
Vanessa Marquiafável - UFSCar - SP
Gisele Montilha - FCL - Unesp
Leandro Henrique Mendonça de Oliveira - ICMC-USP
Luiz Carlos Genoves Junior - ICMC-USP
Aline Maria Pacífico Manfrin - UFSCar - SP
Betânia Carvalho de Morais - FFLCH - USP
Edvan Pereira de Brito - FFLCH - USP


Você poderá acessar esse corpus pelo site do NILC

Aula 03 - LacioWeb - Corpus de textos em português Aula 03 - LacioWeb - Corpus de textos em português Reviewed by Vinicius dos Santos on 13:06:00 Rating: 5

Nenhum comentário

Escreve ai sua opinião!