Linguística de corpus
área que analisa conjuntos de dados linguísticos coletados criteriosamente para pesquisa linguística / De Wikipedia, a enciclopédia encyclopedia
Linguística de Córpus (ou corpus) é uma área da Linguística que se ocupa da coleta e análise de corpus, que é um conjunto de dados linguísticos coletados criteriosamente para serem objeto de pesquisa linguística. (Berber Sardinha, 2004)
Esta página ou se(c)ção precisa ser formatada para o padrão wiki. (Agosto de 2015) |
Este artigo ou secção contém uma lista de referências no fim do texto, mas as suas fontes não são claras porque não são citadas no corpo do artigo, o que compromete a confiabilidade das informações. (Agosto de 2015) |
A linguística de córpus surgiu com a necessidade que estudiosos da língua sentiram de se apoiar em usos reais para fazerem generalizações ou esboçarem teorias a respeito do funcionamento linguístico. Atualmente, a linguística de corpus está intimamente ligada ao uso do computador, visto que os córpus são eletrônicos. Assim, a Linguística de Córpus contemporânea caracteriza-se pela coleta e análise de córpus eletrônicos com o auxílio de ferramentas eletrônicas.
O córpus deve ser constituído de dados autênticos (não inventados), legíveis por computador e representativos de uma língua ou variedade da língua da qual se deseja estudar.
O computador desempenha um papel importante para os estudos na área. As ferramentas computacionais são geralmente utilizadas para reorganização e extração de informações no corpus para observação e interpretação de dados, fornecendo novas perspectivas para a análise linguística. As ferramentas computacionais mais comuns são:
- Programas para listar palavras - fazem a contagem das palavras em um córpus;
- Concordanciadores - programas que permitem que o usuário procure por palavras específicas em um córpus, fornecendo exaustivas listas para as ocorrências da palavra em contexto;
- Etiquetadores - fazem análises automáticas do córpus e inserem etiquetas (códigos) de ordem morfossintática, sintática, semântica ou discursiva.
A Linguística de Córpus faz uso de uma abordagem empirista, distinta da abordagem racionalista, do ponto de vista linguístico, e tem como central a noção de linguagem enquanto sistema probabilístico.
De acordo com essa noção, os traços linguístico não ocorrem de forma aleatória, sendo possível evidenciar e quantificar regularidades (padrões). É comum na área afirmar que a linguagem é padronizada (patterned), isto é, existe uma correlação entre os traços linguísticos e os contextos situacionais de uso da linguagem.
Na Linguística de Córpus, a padronização se evidencia por colocações, coligações ou estruturas que se repetem significativamente. Os principais conceitos de padronização na Linguística de Córpus são: colocação, coligação e prosódia semântica.
Para muitos pesquisadores, a Linguística de Córpus revolucionou o modo como a linguagem é estudada. Seus achados contribuem para diversas áreas de pesquisa linguística (Lexicografia, Ensino-aprendizagem, Tradução, etc,).
As principais áreas da Linguística de Córpus são:
- Compilação de corpora;
- Desenvolvimento de ferramentas para análise de corpora;
- Descrição de linguagem;
- Exploração do uso de descrições baseadas em corpora para várias aplicações tal como ensino-aprendizagem de línguas, processamento de linguagem natural por máquinas, reconhecimento de voz e tradução.