Vous êtes sur la page 1sur 6

Ficha Terminolgica Informatizada: etapas e descrio de um banco de dados

terminolgico bilnge.
Guilherme Fromm 1

RESUMO: o objetivo deste texto apresentar um banco de dados, ainda no estgio de


desenvolvimento, que ser incorporado ao Projeto Comet/USP. Esse banco servir para a
elaborao de fichas terminolgicas semi-automatizadas e ser alimentado pelos diversos
corpora existentes no projeto. Essas fichas prevem a elaborao de vocabulrios tcnicos
baseados unicamente em corpus.
UNITERMOS: Lingstica de Corpus, Banco de Dados, Terminografia, Terminologia,
Traduo.
ABSTRACT: this text aims the linguistic description of a data bank, still being developed,
that will be incorporated to the Projeto Comet/USP. This bank is being developed to fulfill
semi-automatic terminological cards and will be fed by various corpora available at Comet.
These cards preview the construction of technical vocabulary based only on corpora.
KEYWORDS: Corpus Linguistics, Data Bank, Terminography, Terminology, Translation.
O projeto COMET (Corpora Multilnge para Ensino e Traduo) 2, da FFLCH/USP, coleta,
j h alguns anos, vrios corpora em diferentes reas. Os alunos de mestrado e doutorado da
Profa. Dra. Stella E. O. Tagnin, coordenadora do projeto, alm de contriburem para a
construo desses corpora, tambm vm desenvolvendo trabalhos de ps-graduao para
expor diferentes maneiras de trabalhar com esses corpora. Uma das vertentes de estudo a
construo de vocabulrios baseados em corpora de reas de especialidade. Foram tomados
como modelos dicionrios, monolnges ou bilnges, baseados em grandes corpora gerais de
lngua (como as das editoras inglesas Longman e a Oxford, que trabalharam com corpora
prprios ou o British National Corpus). A proposta de alguns doutorandos a construo de
ferramentas e modelos que funcionem como alicerce para a futura organizao de obras
terminolgicas baseadas exclusivamente em corpora.
Qualquer trabalho terminolgico pressupe vrias etapas para a construo do produto final,
que seria um vocabulrio de uma determinada rea ou um glossrio (usando as concepes de
dicionrio, vocabulrio e glossrio, propostas por Barbosa, 2001). Entre essas etapas, uma
das mais importantes a organizao dos dados recolhidos atravs de uma ficha, comumente
chamada de ficha terminolgica. Cabr (1993) nos explica o que vem a ser essa ficha:
Las fichas terminolgicas son materiales estructurados que deben contener toda la
informacin relevante sobre cada trmino. Las informaciones que presentan se extraen de
las fichas de vaciado o de la documentacin de referencia, y se representan siguiendo
unos critrios fijados previamente.
1
2

FFLCH/USP UNIBAN.
Uma melhor descrio do projeto pode ser vista em Tagnin, 2005.

Hay muchos modelos de fichas terminolgicas, de acuerdo com los objetivos de cada
trabajo y las necesidades de cada organismo. De entrada, podemos distinguir entre fichas
monolinges, fichas monolinges com equivalncia y fichas bilinges o plurilinges.

A ficha terminolgica foi, durante muito tempo, elaborada e preenchida atravs de um


trabalho manual. O advento dos computadores permitiu no s o desenvolvimento da
Lingstica de Corpus 3, como tambm a informatizao dessas fichas e a construo de
bancos de dados. Propomos, a partir desse momento, a construo de um banco de dados
terminolgico bilnge para o projeto COMET.
O objetivo inicial da construo desse banco prover o Projeto COMET de uma ferramenta
informatizada semi-automtica que auxilie no desenvolvimento de obras terminolgicas
desenvolvidas a partir da grande base de corpora bilnges j levantadas e disponibilizadas
pelo mesmo. O objetivo secundrio fornecer uma base para o desenvolvimento de novas
ferramentas ligadas extrao de termos a partir de corpora de reas de especialidade e a
construo de novas ferramentas de visualizao do produto final (vocabulrios tcnicos
bilnges) para diferentes usurios.
Embora existam vrios programas disponveis no mercado internacional (como o Multiterm,
Term-PC e outros, muito bem analisados por Gavenski, 2001) e vrios bancos de dados
terminolgicos j desenvolvidos no pas, como os pequenos bancos usados pelo
CITRAT/CETRAD/USP no ensino de Terminologia para a rea de traduo 4 ou os grandes
bancos, como o TERMISUL (Maciel, 2001), pensou-se na construo de um banco
personalizado para as necessidades do COMET. A vantagem, alm do baixo custo de
desenvolvimento (a servio da Empresa Jr., do ICMC/USP So Carlos), a possibilidade de
agregao de novos mdulos, associados s pesquisas de mestrado e doutorado sob a
responsabilidade da Profa. Stella e outros.
A criao de uma ficha terminolgica essencial para o desenvolvimento de um vocabulrio
tcnico. Vrios modelos j foram propostos e, entre eles, podemos citar Aubert (1996),
Krieger & Finatto (2004), Gavenski (2001), Bacellar (2002). O modelo que tomamos como
ponto de partida para esse banco, no entanto, baseado em Fromm (2002) 5. A proposta da
dissertao de mestrado do autor era mostrar um modelo para a construo de vocabulrio
3

A Lingstica de Corpus ocupa-se da coleta e da explorao de corpora, ou conjuntos de dados lingsticos


textuais coletados criteriosamente, com o propsito de servirem para a pesquisa de uma lngua ou variedade
lingstica. Como tal, dedica-se explorao da linguagem por meio de evidncias empricas, extradas por
computador. (Sardinha, 2004, p. 3).
4
Desenvolvidos pelo Prof. Dr. Francis H. Aubert, baseados em um modelo construdo no banco de dados
Access, da Microsoft.
5
A ficha terminolgica ali apresentada est disponibilizada aqui como anexo.

especializado de informtica para tradutores. Usando como base a ficha terminolgica


monolnge no-informatizada ali apresentada, desenvolvemos uma nova proposta para uma
ficha monolnge com equivalncia, que servir de base para a construo do banco de dados.
Em conversas com o tcnico da Empresa Jr., decidiu-se pela construo de um banco de
dados padro SQL, com duas tabelas bsicas para a inputao de dados. Devido
complexidade de trabalho num banco de dados desse padro, ser criado um ambiente WEB
para que os pesquisadores possam preencher as fichas. Em virtude dos custos de elaborao
do projeto, somente um administrador ter acesso ao controle do banco numa primeira fase.
Ao administrador caber o cadastro de pesquisadores (para que esses possam alimentar as
fichas) e somente ele poder aprovar as fichas, sendo que essas s sero disponibilizadas para
consulta no sistema aps aprovao pelo mesmo. Ao administrador caber, tambm, a
insero de novas fichas terminolgicas, atualizao e remoo de fichas existentes no
sistema.
A primeira tabela do banco servir para a inputao de contextos (previamente selecionados)
retirados de um corpus de especialidade de uma rea escolhida. Sero colocados, para cada
termo, tantos contextos quanto os extrados do corpus e preenchidos os campos relativos a
cada um: exemplo, fonte, data de coleta, data de insero. A partir de cada contexto, o
pesquisador deve, tambm, extrair um conceito do mesmo. Devemos lembrar que ainda na
primeira tabela, com a visualizao dos contextos em destaque, sero extradas vrias
informaes morfolgicas, sintticas, semnticas e relativas ao corpus possveis 6: entrada
equivalente na outra lngua, nmero da acepo 7, posio de freqncia no corpus, formas
equivalentes na mesma lngua, categoria gramatical, gnero, nmero, possibilidades de
nmero (para palavras que s existem no singular ou plural), sigla, acrnimo, entrada por
extenso, variaes morfossintticas, relaes de hiperonmia, relaes de hiponmia, relaes
de co-hiponmia, relaes de antonmia, relaes de sinonmia, possveis remissivas. Alm
disso, o pesquisador poder cruzar referncias com obras j publicadas, verificando se o
termo dicionarizado, se h definies coincidentes, a fonte da definio e a definio
dicionarizada em si.
A segunda tabela do banco, disponibilizada numa segunda pgina de insero de dados,
servir para a construo da definio do termo. Nela sero visualizados os conceitos
6

Uma obra terminolgica, normalmente, no apresenta aos leitores tantas informaes assim. Preferimos, no
entanto, elaborar uma ficha com contedo o mais abrangente possvel, deixando-a mais prxima de uma ficha
lexicogrfica.
7
Embora obras terminolgicas tendam a apresentar definies monossmicas, preferimos inserir esse campo.
Algumas reas, que j atualmente apresentam uma grande diversidade de terminologia, como a informtica,
podem vir a apresentar algumas definies polissmicas em suas diferentes subreas.

extrados pelos pesquisadores na primeira tabela e, a partir dos mesmos, selecionados os


traos distintivos. Dali sero tirados o conceito final e a definio do termo 8. A consulta aos
dados do banco poder ser feita por diferentes ferramentas, que devero ser desenvolvidas
visando extrao de dados especficos ou gerais do mesmo.
Podemos citar, como exemplo de trabalho em curso, a tese de doutorado de Fromm, que
propor um website para o treinamento de alunos de traduo na rea de vocabulrios
tcnicos. O usurio final ter acesso aos dados do banco, porm somente para consulta. A
inovao proposta ser a forma de consultar o banco. A construo do ambiente web est
sendo feita em conjunto com a construo do banco de dados.

Elisa Duarte Teixeira

desenvolve uma pesquisa (ainda em fase inicial), tambm de doutorado, para a extrao de
dados diretamente de um corpus, o que providenciar a alimentao automtica de exemplos
para a ficha terminolgica.

Referncias Bibliogrficas

AUBERT, F. H. Introduo metodologia da pesquisa terminolgica bilnge. So Paulo:


Humanitas, 1996.
BACELLAR, F. Elementos para a elaborao de um dicionrio terminolgico bilnge em
Cincias Agrrias. 2002. 200 f. Tese (Doutorado em Lingstica) Faculdade de Filosofia,
Letras e Cincias Humanas, Universidade de So Paulo, So Paulo, 2002.
BARBOSA, M. A. Dicionrio, vocabulrio, glossrio: concepes. In: ALVES, I. M. (org.).
A constituio da normalizao terminolgica no Brasil. So Paulo: FFLCH/CITRAT, 2001.
BERBER SARDINHA, T. Lingstica de Corpus. So Paulo: Manole, 2004.
CABR, M. T. La terminologa. Teoria, metodologia, aplicaciones. Barcelona: Editorial
Antrtida/Empries, 1993. p. 281-282.
FROMM, G. Proposta para um modelo de glossrio de informtica para tradutores.
Dissertao (Mestrado em Lingstica). Faculdade de Filosofia, Letras e Cincias Humanas,
Universidade de So Paulo, So Paulo, 2002.
GAVENSKI, M. M. Microisis: uma experincia no gerenciamento de dados terminolgicos.
In: KRIEGER, M. G.; MACIEL, A. M. B (org.). Temas de terminologia. Porto Alegre/So
Paulo: Ed. Universidade/UFRGS/Humanitas/USP, 2001.

O conceito final montado tendo em vista os vrios conceitos previamente elaborados pelo termingrafo. A
definio deve obedecer os critrios previamente estabelecidos na construo da obra. Cabr (1993, p. 207-213)

KRIEGER, M. G.; FINATTO, M. J. B. Introduo terminologia: teoria e prtica. So


Paulo: Contexto, 2004.
MACIEL, A. M. B. Termisul e termintica. In: KRIEGER, M. G.; MACIEL, A. M. B (org.).
Temas de terminologia. Porto Alegre/So Paulo: Ed.Universidade/UFRGS/Humanitas/USP,
2001.
TAGNIN. S. E. O (2004). Um corpus multilnge para ensino e traduo o Comet: da
construo explorao. Tradterm 10. So Paulo: Humanitas, 2004.

Anexo Exemplo de Ficha Terminolgica no Informatizada

Vous aimerez peut-être aussi