Aula 01 - corpus e sua importância no PLN

O que é um corpus?

Para o que é um corpus temos várias definições na literatura. Aqui estão algumas delas:

‘Uma coletânea de textos naturais (‘naturally occurring’), escolhidos para caracterizar
um estado ou variedade de linguagem’. (Sinclair, 1991, p. 171).

‘[Corpus é] um corpo de linguagem natural (autêntica) que pode ser usado como base para pesquisa lingüística’. (Sinclair, 1991, p. 171)

‘Corpus é uma coletânea de porções de linguagem que são selecionadas e organizadas de acordo com critérios lingüísticos explícitos, a fim de serem usadas como uma amostra da linguagem’. (Percy et al., 1996, p. 4).

‘Um corpo de material lingüístico que existe em formato eletrônico e que pode ser processado por computador para vários propósitos.’ (Leech, 1997, p. 1)

‘Corpus de material lingüístico natural (textos inteiros, amostra de textos, ou às vezes somente sentenças desconexas), que são armazenadas em formato legível por máquina’. (Leech, 1991, pp. 115-116)

'Uma coletânea grande e criteriosa de textos naturais’ (Biber et al., 1998 , p. 4)

Talvez a descrição mais completa - no sentido que incorpora todas as outras é: 

‘Um conjunto de dados lingüísticos (pertencentes ao uso oral ou escrito da língua, ou a ambos), sistematizados segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso lingüístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise’ (Sanchez, 1995, pp. 8-9)

O que é a Linguística de corpus?


A Lingüística de Corpus ocupa-se da coleta e exploração de corpora, ou conjuntos de dados linguísticos textuais que foram coletados criteriosamente com o propósito de servirem para a pesquisa de uma língua ou variedade linguística. Como tal, dedica-se à exploração da linguagem através de evidências empíricas, extraídas por meio de computador. 

Havia corpora antes do computador, já que o sentido original da palavra ‘corpus’ é ‘corpo’, ‘conjunto de documentos’ (conforme o dicionário Aurélio). Na Grécia Antiga, Alexandre, o Grande definiu o Corpus Helenístico. Na Antiguidade e na Idade Média, produziam-se corpora de citações da Bíblia.

Referência [essencial] para compreensão do que são corpus


Estas definições foram retiradas do artigo de Sardinha 2010. Nesse artigo, o autor traz toda uma retrospectiva de como a ciência trouxe os corpus como forma de aprendizado. Além disso o autor coloca diversas discussões sobre a linguística de corpus e como a definição de um corpus e suas características foram importantes para compreender melhor as informações neles contidas.


Aula 01 - corpus e sua importância no PLN Aula 01 - corpus e sua importância no PLN Reviewed by Vinicius dos Santos on 05:45:00 Rating: 5

Nenhum comentário

Escreva aí sua opinião!