O que é um corpus e sua importância no PLN?
Corpus

O que é um corpus e sua importância no PLN?

Nesse artigo vamos discutir um pouco o que é um corpus e como ele pode ser utilizado dentro do contexto de PLN.

Antes de mais nada precisamos partir do pressuposto que a língua é algo extremamente difícil de ser aprendida, ou seja, mesmo que existam milhares de regras que nossa mente é capaz de seguir para se expressar usando a linguagem, codificá-las é um trabalho muito árduo. Considerando que o PLN é a ciência que buscar transpor nossa língua para as máquinas, os cientistas precisaram começar literalmente do início, ou seja, era preciso ensinar o que eram as palavras e ensinar cada uma das regras linguísticas.

Então fica a pergunta, como podemos ensinar todas essas variações para uma máquina?

É ai que a linguística de corpus acaba sendo muito útil. A partir de corpus (exemplos) é possível que você faça o aprendizado supervisionado das máquinas e identifique as regras de determinada língua (automaticamente). É por isso que esse recurso é tão importante.

O que é um corpus?

Para o que é um corpus temos várias definições na literatura.

Aqui estão algumas delas:  

  • ‘Uma coletânea de textos naturais (‘naturally occurring’), escolhidos para caracterizar um estado ou variedade de linguagem’. (Sinclair, 1991, p. 171).  
  • ‘[Corpus é] um corpo de linguagem natural (autêntica) que pode ser usado como base para pesquisa lingüística’. (Sinclair, 1991, p. 171)  
  • ‘Corpus é uma coletânea de porções de linguagem que são selecionadas e organizadas de acordo com critérios lingüísticos explícitos, a fim de serem usadas como uma amostra da linguagem’. (Percy et al., 1996, p. 4).
  • ‘Um corpo de material lingüístico que existe em formato eletrônico e que pode ser processado por computador para vários propósitos.’ (Leech, 1997, p. 1)  
  • ‘Corpus de material lingüístico natural (textos inteiros, amostra de textos, ou às vezes somente sentenças desconexas), que são armazenadas em formato legível por máquina’. (Leech, 1991, pp. 115-116)  
  • ‘Uma coletânea grande e criteriosa de textos naturais’ (Biber et al., 1998 , p. 4)  

Talvez a descrição mais completa – no sentido que incorpora todas as outras é:   

  • ‘Um conjunto de dados lingüísticos (pertencentes ao uso oral ou escrito da língua, ou a ambos), sistematizados segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso lingüístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise’ (Sanchez, 1995, pp. 8-9)  

O que é a Linguística de corpus?

 A Lingüística de Corpus ocupa-se da coleta e exploração de corpora, ou conjuntos de dados linguísticos textuais que foram coletados criteriosamente com o propósito de servirem para a pesquisa de uma língua ou variedade linguística. Como tal, dedica-se à exploração da linguagem através de evidências empíricas, extraídas por meio de computador.   

Havia corpora antes do computador, já que o sentido original da palavra ‘corpus’ é ‘corpo’, ‘conjunto de documentos’ (conforme o dicionário Aurélio). Na Grécia Antiga, Alexandre, o Grande definiu o Corpus Helenístico. Na Antiguidade e na Idade Média, produziam-se corpora de citações da Bíblia.  

Referências

Estas definições foram retiradas do artigo de Sardinha 2010. Nesse artigo, o autor traz toda uma retrospectiva de como a ciência trouxe os corpus como forma de aprendizado. Além disso o autor coloca diversas discussões sobre a linguística de corpus e como a definição de um corpus e suas características foram importantes para compreender melhor as informações neles contidas.    

Clique para acessar o artigo

Vinicius dos Santos

Apenas um apaixonado por Ciência da Computação e forma com que ela pode transformar vidas!

Deixe uma resposta