Académique Documents
Professionnel Documents
Culture Documents
a rede Wordnet.Br
Bento Carlos Dias da Silva1, Maria Carolina Ávila2
1,2
Centro de Estudos Lingüísticos e Computacionais da Linguagem - Faculdade de
Ciências e Letras - Universidade Estadual Paulista (UNESP)
Caixa Postal 174 – 14.800-901 – Araraquara – SP – Brasil
bento@fclar.unesp.br, avilacarol@hotmail.com
1. Introdução
Este artigo discute uma estratégia de análise léxico-gramatical dos verbos que
parte da hipótese de que a realização sintática da estrutura de argumentos do verbo
reflete sua estrutura conceitual. Essa discussão aponta para duas importantes aplicações
da metodoloia: a descrição léxico-semântica e sintática dos verbos do Português e o
refinamento e ampliação da base de verbos da Rede Wordnet do Português do Brasil,
uma rede léxico-semântica de unidades lexicais em desenvolvimento no projeto
Wordnet.Br.1
2. O Método
Levin e Rappaport-Hovav (1991) investigam a natureza do conhecimento
lexical do falante (do inglês) no que diz respeito à sua competência para classificar as
unidades lexicais da língua em classes nocionais como, por exemplo, a classe dos
“verbos de remoção” (clear “retirar”, wipe “limpar com um pano”, remove “remover”).
Observe-se que, em uma primeira avaliação, esse verbos parecem projetar uma
única configuração sintática para sua estrutura de argumentos: o argumento A1,
tematicamente AGENT, projeta-se como Sujeito (Suj), o argumento A2, tematicamente
LOCATUM, como Objeto (Obj) e o argumento A3, tematicamente LOCATION, como
Complemento Oblíquo FROM (Obl). Em palavras: trata-se da classe dos verbos que
descrevem a remoção de um objeto físico (A1) de um local (A3) por um agente (A1).
Os exemplos (1), (2) e (3) ilustram essa análise.
(1) Doug (A1=AGENT-Suj) cleared the dishes (A2=LOCATUM-Obj) from the
table (A3=LOCATION-Obl ). FROM
Essa breve análise de alternâncias sugere que os três verbos devem, na verdade,
encabeçar três classes semânticas distintas:
Classe 1: Classe dos verbos que especificam o processo de remoção de um
objeto (LOCATUM) de um determindo local (LOCATION). Trata-se da classe
formada por verbos como remove, dislodge “desalojar”, draw “sacar, arrancar,
tirar”, extract “extrair” e withdraw “retirar”.
Classe 2: Classe dos verbos que especificam o modo de remoção, isto é, verbos
como erase “limpar raspando ou esfregando”, shave “limpar cortando”, rub
“limpar esfregando” e scrape “limpar raspando”; ou que especificam o
instrumento empregado na remoção, como os verbos wipe, brush “limpar com
uma escova”, mop “limpar com um esfregão”, rake “limpar com um ancinho”,
vacuum “limpar com um aspirador de pó” e buff “limpar com uma camurça”;
Classe 3: Classe dos verbos que especificam o estado resultante da remoção,
mas não como esse estado é alcançado. Trata-se da classe dos verbos como
clear, clean “limpar” e empty “esvaziar”.
Uma análise mais refinada das classes 2 e 3 apresenta ainda um resultado
surpreendente: essas classes, contrariando a avaliação intuitiva inicial, não aglutinam
"verbos de remoção", mas "verbos de atividade" e "verbos de mudança de estado",
respectivamente. Aqueles participam da alternância conativa, ilustrada no exemplo
(10); estes participam da alternância causativo/incoativo, ilustrada no exemplo (11).
(10) Kay rubbed the counter. / Kay rubbed at the counter.
(11) The strong winds cleared the skies. / The skies cleared.
A seguir, aborda-se a aplicação desse procedimento analítico na montagem e
refinamento dos synsets de verbos de uma rede wordnet.
4. A Aplicação do Método
No estágio de desenvolvimento atual, a base da rede Wordnet.Br está sendo
ampliada com informação contextual, isto é, para cada unidade lexical constitutiva dos
synsets, por meio de pesquisa em córpus, seleciona-se uma frase-exemplo para ilustrar o
sentido específico e em uso evocado pelo synset de que a unidade é membro. O córpus
de referência é composto por três fontes digitais de informação lexical, apresentadas na
respectiva ordem de prioridade da pesquisa: (i) o Córpus do NILC (CORPUS NILC,
2004), composto por textos escritos em português do Brasil, nos registros jornalístico,
didático e epistolar; (ii) textos do português do Brasil localizados na Internet por meio
do motor de busca Google; (iii) as abonações registradas nos dicionários Michaelis
(WEISZFLOG, 1998), Aurélio (FERREIRA, 1999) e Houaiss (HOUAISS, 2001).
Nesse processo de coleta e seleção de frases-exemplo, em que é crucial a
delimitação do sentido “evocado” pelo synset, os analistas encontram-se diante de
problemas diversos: desde a análise de synsets muito extensos, o que torna difícil a
identificação do sentido codificado no synset, passando pela análise de synsets com
unidades que não se conformam com o sentido “dominante” do synset, até a análise de
synsets cujas unidades não apresentam o mesmo comportamento sintático.
Parte desses problemas decorre de deficiências diversas que comprometem a boa
formação dos synsets: carência de técnicas precisas de análise léxical, análises lexicais
imprecisas ou equivocadas, erros de impressão e digitação, entre outras. A análise
Notas
1
Este trabalho contou com auxílios do CNPq e FAPESP.