Linguística de corpus

Linguística de Córpus (ou corpus) é uma área da Linguística que se ocupa da coleta e análise de corpus, que é um conjunto de dados linguísticos coletados criteriosamente para serem objeto de pesquisa linguística. (Berber Sardinha, 2004)

A linguística de córpus surgiu com a necessidade que estudiosos da língua sentiram de se apoiar em usos reais para fazerem generalizações ou esboçarem teorias a respeito do funcionamento linguístico. Atualmente, a linguística de corpus está intimamente ligada ao uso do computador, visto que os córpus são eletrônicos. Assim, a Linguística de Córpus contemporânea caracteriza-se pela coleta e análise de córpus eletrônicos com o auxílio de ferramentas eletrônicas.

O córpus deve ser constituído de dados autênticos (não inventados), legíveis por computador e representativos de uma língua ou variedade da língua da qual se deseja estudar.

O computador desempenha um papel importante para os estudos na área. As ferramentas computacionais são geralmente utilizadas para reorganização e extração de informações no corpus para observação e interpretação de dados, fornecendo novas perspectivas para a análise linguística. As ferramentas computacionais mais comuns são:

Programas para listar palavras - fazem a contagem das palavras em um córpus;
Concordanciadores - programas que permitem que o usuário procure por palavras específicas em um córpus, fornecendo exaustivas listas para as ocorrências da palavra em contexto;
Etiquetadores - fazem análises automáticas do córpus e inserem etiquetas (códigos) de ordem morfossintática, sintática, semântica ou discursiva.

A Linguística de Córpus faz uso de uma abordagem empirista, distinta da abordagem racionalista, do ponto de vista linguístico, e tem como central a noção de linguagem enquanto sistema probabilístico.

De acordo com essa noção, os traços linguístico não ocorrem de forma aleatória, sendo possível evidenciar e quantificar regularidades (padrões). É comum na área afirmar que a linguagem é padronizada (patterned), isto é, existe uma correlação entre os traços linguísticos e os contextos situacionais de uso da linguagem.

Na Linguística de Córpus, a padronização se evidencia por colocações, coligações ou estruturas que se repetem significativamente. Os principais conceitos de padronização na Linguística de Córpus são: colocação, coligação e prosódia semântica.

Para muitos pesquisadores, a Linguística de Córpus revolucionou o modo como a linguagem é estudada. Seus achados contribuem para diversas áreas de pesquisa linguística (Lexicografia, Ensino-aprendizagem, Tradução, etc,).

As principais áreas da Linguística de Córpus são:

Compilação de corpora;
Desenvolvimento de ferramentas para análise de corpora;
Descrição de linguagem;
Exploração do uso de descrições baseadas em corpora para várias aplicações tal como ensino-aprendizagem de línguas, processamento de linguagem natural por máquinas, reconhecimento de voz e tradução.