Vous êtes sur la page 1sur 15

VIII ENANCIB Encontro Nacional de Pesquisa em Cincia da Informao

28 a 31 de outubro de 2007 Salvador Bahia Brasil GT 2 Organizao e Representao do Conhecimento Pster

INDEXAO AUTOMTICA E SEMNTICA: estudo da anlise do contedo de teses e dissertaes SEMANTIC AND AUTOMATIC INDEXING: study of subject analysis of thesis and dissertations
Graciane Silva Bruzinga (ECI/UFMG, gracianesb@yahoo.com.br) Benildes Coura Moreira dos Santos Maculan (ECI/UFMG, benildes@gmail.com) Gercina ngela Borm de Oliveira Lima (ECI/UFMG, glima@eci.ufmg.br) Resumo: Esse estudo apresenta o resultado parcial da pesquisa de mestrado intitulada Utilizao de Tcnicas de Indexao Automtica para a Representao do Contedo Semntico de Documentos Acadmicos que tem como objetivo avaliar a contribuio de tcnicas especficas de indexao automtica no processo de representao semntica do contedo de teses e dissertaes. Descrevem-se os processos de Indexao Manual e de Indexao Automtica e aborda-se a aplicao dos critrios sinttico-semnticos na extrao automtica de termos relevantes para a representao do contedo de documentos acadmicos. Discutem-se os referenciais tericos advindos da semntica e da lingstica computacional. Para implementar o processo de indexao automtica so apresentados o parser Tropes, para extrao automtica dos termos; e a Taxonomia da Cincia da Informao elaborada por Hawkins, Larson e Caton, em 2003, como cenrio semntico embutido no software. Palavras-chave: Indexao automtica. Representao da informao. Semntica. Sintaxe. Lingstica computacional. Abstract: This study presents partial results from the Masters Degrees research called "Utilizao de Tcnicas de Indexao Automtica para a Representao do Contedo Semntico de Documentos Acadmicos" (Automatic Indexing Techniques in the Representation of Academic Documentss Semantic Content). It aims at evaluating the specific contributions of automatic indexation techniques for the semantic representation process of dissertations and thesiss content. It describes the manual and automatic indexation processes and approaches the application of the semantic-syntactical criteria used in the automatic extraction of relevant terms in the representation of academic documents. It discusses theoretical references drawn from the Semantics and Computational Linguistics. To implement the automatic indexations process are presented the Parser Tropes for automatic extraction of the terms and the Taxonomy of Information Science (Hawkins, Larson and Caton,2003) as a semantic context built in the software. Keywords: Automatic indexation. Representation of the information. Semantics. Syntax. Computational linguistic.

Introduo Este estudo apresenta um resultado parcial da pesquisa de mestrado, da primeira autora, intitulada Utilizao de Tcnicas de Indexao Automtica para a Representao do Contedo Semntico de Documentos Acadmicos. Tem como objetivo avaliar a contribuio de tcnicas especficas de indexao automtica no processo de representao semntica do contedo de teses e dissertaes defendidas na Escola de Cincia da Informao da Universidade Federal de Minas Gerais, da linha de pesquisa Organizao e Uso da Informao OUI. Esse tipo de material necessita de tratamento otimizado para que se obtenha uma recuperao mais eficiente. Esta pesquisa, por sua vez, um subprojeto do Projeto de Pesquisa Modelagem Conceitual para Organizao Hipertextual de Documentos Acadmicos, que tem como objetivo a continuao da implementao do prottipo Mapa Hipertextual -MHTX. Essa implementao teve incio com o projeto de pesquisa da tese de doutorado "Mapa Hipertextual (MHTX): um modelo para organizao hipertextual de documentos" (LIMA, 2004). Esta tese objetivou a construo de um modelo hipertextual para organizao de documentos acadmicos (teses e dissertaes) e sua implementao tecnolgica. O projeto destina-se a servir s instncias de: (1) produo primria (autores intelectuais) de documentos hipertextuais originais, (2) produo secundria (autores tecnolgicos) na organizao de sistemas hipertextuais ou bibliotecas digitais. Indexar o ato de selecionar ou definir termos (palavras ou expresses) que iro descrever o contedo de um determinado documento, sempre levando em considerao uma clientela especfica. Assim, de acordo com Lancaster (2004), uma mesma publicao poder apresentar conjuntos diferentes de termos de indexao dependendo do grupo de usurios ao qual se destina e aos interesses particulares desse grupo, ou seja, no h uma nica forma correta de indexar. Segundo Navarro (1988), o ato de indexar define-se em traduzir o contedo de um documento em palavras que torne possvel sua recuperao, entretanto, observam-se significativas dificuldades na interseo de lingstica e indexao nesse processo.
A capacidade ntima de reconhecer sobre o que trata o documento a questo central do procedimento de indexao. [...]. Para fins de Indexao, o(s) termo(s) selecionado(s) a correlao comportamental sobre o que se pensa sobre o que o documento trata, pois seria o termo usado para se procurar por tal documento (MARON, 1977 apud GUEDES, 1994).

Em sntese, indexar substituir o texto de um documento por uma descrio abreviada de seu contedo, com o intuito de sinalizar sua essncia. E essa representao feita a partir da anlise do contedo do texto-fonte, que, necessariamente, deveria ser feita por especialistas, sob o olhar atento de metodologias e procedimentos. Existem, pelo menos, duas formas para se fazer a anlise do contedo semntico: indexao manual e indexao automtica. Na Cincia da Informao, os estudos sobre essas duas formas de indexao tm sido continuamente abordados pelos pesquisadores da rea. As investigaes sobre a indexao manual apontam para alternativas que visam melhorar a abstrao e tornar a representao da informao mais fidedigna temtica tratada pelo autor, cabendo ao indexador fazer esse processo manualmente. Em relao aos estudos sobre a indexao automtica, nota-se que seu surgimento foi devido necessidade de resolver problemas tal como a morosidade vivenciada na indexao manual e como soluo para agilizar os processos nos meios digitais. Destaca-se aqui que a semntica o meio utilizado para a representao do significado dos enunciados. As relaes semnticas so importantes na estruturao do conhecimento e na formao de conceitos para escolha de termos representativos de significado.

Neste artigo so apresentados os critrios tericos que tratam da importncia da semntica e da estrutura sinttica no processo de indexao automtica e como o tringulo semntico de Ogden e Richards (1972), exposto na Teoria do Conceito de Dahlberg (1978), pode ser relacionado com esse contexto. Nesse trabalho, Dahlberg usa o tringulo semntico como modelo para a construo de conceitos e para representar as relaes existentes entre o objeto, o conceito e o termo (LIMA, 2007). Os critrios computacionais, tais como lgica de programao; algoritmos; frmulas estatsticas e outros, imprescindveis para o desenvolvimento de softwares de indexao automtica, sero abordados em estudo posterior. Indexao Manual e Indexao Automtica O processo manual de indexao pode ser divido em duas etapas essenciais: a anlise conceitual e a traduo. A etapa de anlise conceitual objetiva determinar do que trata um documento, isto , qual seu assunto. Nessa atividade, a leitura e a compreenso do texto so primordiais, porm, o tempo restrito do indexador e a quantidade cada vez maior de documentos passveis de tratamento so fatores preocupantes. Ao indexador raramente dado o luxo de poder ler um documento do comeo ao fim (LANCASTER, 1993, p. 20-21). Para essa anlise, preciso considerar o domnio no qual o documento est inserido, identificando as caractersticas especficas do campo de conhecimento, sejam elas de ordem cultural, terminolgica, histricas e lingsticas. Para tanto, o conhecimento do indexador sobre esse domnio importante para a qualidade dessa anlise. Assim, a anlise ser feita contextualmente, pois o documento no ser considerado uma parte isolada, mas, como parte de um todo (HJORLAND, 1992). A etapa de traduo objetiva converter o contedo do documento, determinado na etapa de anlise conceitual, em um conjunto de termos de indexao; e essa transferncia tambm feita por meio de mediao semntica. Isso sempre acontecer, mesmo em casos nos quais no houver prescrio de regras formais. Essas regras podem ser estipuladas em funo dos interesses da instituio ou do instrumento de controle terminolgico. Esse controle feito a partir do uso de termos autorizados retirados de algum vocabulrio controlado, sendo que, muitas vezes, essa tarefa feita de forma intuitiva. Alguns dos principais vocabulrios controlados utilizados na Biblioteconomia so: Taxonomia; Lista de Cabealho de Assunto; Classificao Decimal de Dewey CDD; e Classificao Decimal Universal CDU. Entretanto, a indexao manual vem se revelando inadequada para minimizar a subjetividade inerente indexao, alm de ser caracterizado como um processo relativamente moroso e caro. Vrios fatores podem ser apontados como causa deste problema. O conhecimento que o indexador tem sobre o assunto indexado determina o grau de consistncia atingido. Tem-se ainda, a dinamicidade do conhecimento, que exige do indexador permanente atualizao. Outro aspecto a considerar, segundo Borko (1977 apud GUEDES, 1994), refere-se inconsistncia interindexadores (diferentes indexadores atribuindo diferentes termos-ndice a um mesmo conceito/documento) e intraindexador (o mesmo indexador atribuindo diferentes termos-ndice a um mesmo conceito/documento, em diferentes momentos). A possibilidade do indexador no dominar o idioma do documento tambm um fator que prejudica a qualidade da indexao. Todos os problemas enumerados impulsionaram as pesquisas no campo da indexao automtica, tornando-o bastante abordado pelos pesquisadores da Cincia da Informao. Alguns dos resultados dessas investigaes apontam alternativas que podem trazer solues interessantes para a rea, sobretudo em ambientes digitais.

Segundo Robredo (1982), o processo de indexao automtica similar ao processo de leitura-memorizao humano, sendo seu princpio geral baseado na comparao de cada palavra do texto com uma relao de palavras vazias de significado, previamente estabelecida, que conduz, por eliminao, a considerar as palavras restantes do texto como palavras significativas. Ao ler um texto, no interessam, ao indivduo, as letras, mas a idia que elas representam quando organizadas em palavras ou em conjuntos de palavras. O olho, janela do crebro, reconhece as palavras significativas e suas associaes fixando-se nelas um tempo necessrio para assegurar a memorizao das idias, pulando, praticamente, as palavras no significativas (ROBREDO, 1982). Pode-se separar o processo de memorizao humana em duas etapas principais: (1) memorizao temporria e inconsciente, nessa etapa h a conservao das palavras significativas passando por uma modificao ou aperfeioamento das mesmas a partir da deteco de novos conceitos significativos; e (2) memorizao permanente dos conceitos assim trabalhados, qual se atribui o nome de memria. Depois de ocorridas as duas etapas, tem-se, no fim do processo, a fixao na memria de uma srie de palavras-conceitosdescritores que representam as idias bsicas do documento que acabamos de ler. A leitura, atravs de um processo de anlise-indexao, leva armazenagem dos descritores que representam o contedo dos documentos (ROBREDO, 1982). Podem-se destacar dois tipos de processos de indexao automtica: (1) indexao por extrao automtica e (2) indexao por atribuio automtica. No Processo de Indexao por Extrao Automtica, palavras ou expresses que aparecem no texto so extradas para representar seu contedo como um todo. Considerando uma verso eletrnica desse documento, possvel utilizar um programa computacional para extrair os termos a partir dos mesmos princpios utilizados por seres humanos, como: freqncia da palavra dentro do texto; posio da palavra no texto (no ttulo, nas legendas, no resumo etc.) e por seu prprio contexto (LANCASTER, 2004). Na dcada de 1950 teve incio a indexao automtica baseada em freqncia com os trabalhos de Luhn, em 1957, e de Baxendale, em 1958. Baxendale (1958 apud LANCASTER, 2004) sugere que em substituio ao processo que analisa todo o texto, sejam analisadas apenas o Tpico Frasal e as Palavras Sugestivas. Seus estudos demonstraram que era necessrio o processamento apenas da primeira e da ltima frase de cada pargrafo, pois, em 85% das vezes a primeira frase era o tpico frasal e em 7% dos casos a ltima frase o era. Considera-se como tpico frasal a parte do texto que provia o mximo de informaes relativas ao contedo do texto. Os sistemas baseados em indexao por extrao automtica realizam, basicamente, as seguintes tarefas: (1) contar palavras num texto; (2) cotej-las com uma lista de palavras proibidas; (3) eliminar palavras no significativas (artigos, preposies, conjunes, etc.); (4) ordenar as palavras de acordo com sua freqncia. O Processo de Indexao por Atribuio Automtica mais complexo de ser realizado com maior eficincia, que o processo de indexao por extrao automtica. Em geral, considerada uma atividade difcil, pois para a representao do contedo temtico necessrio um controle terminolgico. Deve-se desenvolver, para cada termo atribudo, um perfil de palavras ou expresses que costumam ocorrer nos documentos. Por exemplo, para o termo chuva cida incluir-se-iam as expresses precipitao cida, poluio atmosfrica, dixido de enxofre etc. Um problema relevante nesse processo pode ser ilustrado com a seguinte situao: a frase dois dias depois de a substncia haver sido ingerida surgiram diversos sintomas, pode ser legitimamente indexada por uma pessoa sob o assunto toxidade. J para um software, essa tarefa verdadeiramente difcil (OCONNOR, 1965 apud LANCASTER, 2004). Esse tipo de indexao automtica remonta uma longa histria.

Tentativas iniciais no obtiveram muito xito, porm, nos ltimos 40 anos tm-se resultados melhores nessa rea (BORKO e BERNICK, 1963 apud LANCASTER, 2004). O histrico da indexao automtica pode ser associado com o uso de programas de computacionais para gerao de ndices pr-coordenados. Segundo Lancaster (2004, p. 50), a flexibilidade inerente aos sistemas ps-coordenados deixa de existir quando os termos de indexao so impressos em papel ou fichas catalogrficas convencionais. Dois exemplos de ndices pr-coordenados so os ndices impressos e os catlogos, sendo caracterizados por: (1) dificuldade de representao de multidimensionalidade das relaes entre os termos; (2) possibilidade de listagem dos termos somente em uma seqncia, o que implica que o primeiro termo mais importante que os demais; (3) dificuldade, ou impossibilidade, de combinao de termos no momento da busca (LANCASTER, 2004, p. 50). Segundo Lancaster (2004, p. 52), vrios programas de computador foram desenvolvidos para gerar, automaticamente, um conjunto de entradas de ndices a partir de uma seqncia de termos. Como exemplos podem-se citar os modelos SLIC, o PRECIS, o KWIC, o KWOC e o NEPHIS, descritos a seguir. O Selective Listing in Combination SLIC (Listagem Seletiva em Combinao) foi criado por J. R. Sharp em 1966. O programa organiza a seqncia de termos de um documento em ordem alfabtica e elimina as seqncias redundantes. J o mtodo PRECIS produz ndice impresso baseado na ordem alfabtica e na alterao sistemtica de termos para que ocupem a posio de entrada. Modelos como o SLIC pressupe o emprego de termos de indexao e no de texto livre1. Entretanto, desenvolveram-se mtodos bem mais simples para a construo de ndices a partir de texto, especialmente a partir de palavras que ocorrem nos ttulos dos documentos. So exemplos desses mtodos o Keyword in Context KWIC (Palavra-chave no Contexto) e o Keyword out of Context KWOC (Palavras-chave fora do contexto) (LANCASTER, 2004, p.54). Para Robredo (1982, p. 238), a primeira aplicao generalizada da indexao automtica de documentos tcnicos, a partir de palavras significativas dos ttulos, se deu com KWIC, produzindo ndices de ttulos permutados. O KWIC foi desenvolvido por H. P. Luhn em 1959 e corresponde a um ndice rotativo onde cada palavra-chave que aparece nos ttulos dos documentos torna-se uma entrada do ndice. Cada palavra-chave destacada de alguma forma e as palavras restantes do ttulo aparecem envolvendo-a. O critrio usado para selecionar as palavras que iro compor o ndice chamado de processo reverso, ou seja, o programa reconhece as palavras que no so palavras-chave, baseado em uma lista de palavras proibidas, e impede que elas sejam adotadas na entrada. Os vocbulos dessa lista de palavras proibidas tm funo sinttica (artigos, preposies, conjunes, etc.), mas em si mesmos no representam contedo temtico. O KWIC um mtodo simples, barato e que obtm, em certo nvel, acesso temtico ao contedo de uma coleo. ntido, porm, que sua qualidade est diretamente relacionada qualidade dos ttulos, no sentido em que estes devem ser bons indicadores do contedo dos textos (LANCASTER, 2004, p.54 e 55). O mtodo KWOC semelhante ao KWIC, porm, as palavras-chave que se tornam pontos de acesso so repetidas fora do contexto, normalmente destacadas no canto esquerdo da pgina ou usadas com cabealhos de assunto. Ainda de segundo Lancaster (2004, p.56-59), o Nested Phrase Indexing System NEPHIS (Sistema de Indexao de Frase Encaixada) um ndice articulado de assunto e foi criado por T. C. Craven em 1977. ndice este que foi descrito minuciosamente por Armstrong e Keen em 1982. Nesse modelo, os termos de entrada so reordenados de tal modo que cada um deles se liga a seu vizinho original por meio de uma palavra funcional ou pontuao especial, conservando-se, assim, a estrutura similar de uma frase; mesmo que muitas vezes

disposta em ordem diferente. Dessa forma, a sintaxe do texto original mantida de modo que o significado do enunciado no fica obscuro. O Papel da Semntica e da Sintaxe na Indexao Automtica sabido que toda lngua tem seu prprio recorte e semntica, que, como dito anteriormente, estuda os significados das coisas. Essa lngua pode ser repleta de regionalismos, metforas, grias, linguagem figurada, denotao e conotao. Tudo aquilo que est presente na vida das pessoas possui um nome, que parte do lxico. A estrutura lexical compreende o conjunto de vocbulos de uma lngua e abrange o conhecimento lingstico partilhado pela sociedade na qual falada, possuindo valor diferente de lngua para lngua. A anlise sinttica consegue determinar se uma expresso ou frase est adequada gramtica dessa lngua especfica. Temos ainda, a unidade lexicalizada, que pode conter vrias palavras com significado convencionado, como por exemplo, bater as botas (morrer) ou dar com os burros ngua (fracassar). Nesse contexto, quando entendemos que a expresso bater as botas morrer, o que fazemos dar um significado semntico ao texto. Para Rector e Yunes (1980, p. 14),
uma explicao de propriedades semnticas requer mais do que a anlise do sentido das palavras apenas, isto , para que se entenda o sentido de uma sentena e suas relaes semnticas com outras expresses, preciso saber no s o significado de suas unidades lxicas, mas tambm como estas se relacionam a dependncia da estrutura sinttica da sentena.

Por exemplo, retomando a expresso bater as botas (FIG. 1):


AS = Signo BATER AS BOTAS Significa, em algumas regies do Brasil, morrer.

BATER AS BOTAS

BATER = Signo

BOTAS = Signo

* Cada signo pode representar sentidos diferentes para diferentes indivduos.

FIGURA 1 A semntica de uma frase Fonte: Desenvolvida pelas autoras.

O processo de anlise conceitual tambm demanda forte carga cognitiva, efetuado pela mente humana, que a interpretao, a coordenao de signos e a abstrao de significados. Signo uma palavra que, isoladamente, pode ter sentido para determinado indivduo, mas, no possui significado. O significado de um signo (uma palavra) est estreitamente ligado estrutura lexical, isto , ao contexto no qual o signo est inserido. J o sentido, uma abstrao pessoal, ou seja, como cada indivduo entende o signo. Sobre isso, temos a afirmao:
Considerado isoladamente, signo algum tem significao [significado]. Toda significao de signo nasce de um contexto, quer entendamos por isso um contexto de situao ou um contexto explcito [...]. necessrio, assim, abster-se de acreditar que um substantivo est mais carregado de sentido do que uma preposio, ou que uma palavra est mais carregada de significao do que um sufixo de derivao ou uma terminao flexional (HJELMSLEV, 1975, p. 50 apud SILVA, [2004]).

A semntica e a sintaxe tm papis importantes na indexao automtica, na medida em que permitem ao software identificar a estrutura lexical das frases e o significado dos termos que representam o contedo do documento. A sintaxe determina a forma correta de construo das frases de uma determinada lngua, levando em considerao a seqncia de sujeitos, verbos, objetos, predicados, artigos, preposies etc. A semntica, por sua vez, se encarrega do significado da frase construda. Dessa forma, podemos ter frases sintaticamente corretas, mas sem um significado semntico, e vice-versa. Exemplos: A chuva gosta de cair sobre meus cabelos ruivos = Frase com sintaxe correta, porm, sem semntica. Fingimos que fumus e vortemos = Frase com semntica, porm, sem sintaxe correta. A sintaxe permite apenas escrever frases corretas numa lngua. Por exemplo, as frases: "O rato come o queijo" e "O queijo come o rato", so sintaticamente corretas, porm, assumimos que apenas a primeira frase tem significado na nossa lngua. Isso se deve ao nosso conhecimento de que ratos so animais que se alimentam de queijo e de que impossvel um queijo comer um rato. Durante a anlise sinttica, pode-se perceber se os sintagmas foram colocados na seqncia correta. Sintagmas so expresses que ditam uma relao de dependncia, na qual um elo de subordinao estabelecido e cada um dos elementos um sintagma. Esse termo geralmente empregado para designar cada parte de uma orao e pode ser: sintagma nominal (nome); sintagma adjetival (adjetivo); sintagma verbal (verbo); sintagma preposicional (preposio); e sintagma adverbial (advrbio). Conseguir identificar os sintagmas muito importante na anlise sinttica, porque facilitar a compreenso do papel exercido pelas palavras na frase. Com exemplo, temos a frase: O Christiano acreditou na vitria, analisada na FIG. 2.
S SN SV

Det

V Det

SN N vitria

Christiano

acreditou

na

FIGURA 2 rvore sintagmtica Legenda: S = sentena (frase) SN = sintagma nominal Det = determinante N = nome ou substantivo SV = sintagma verbal V = verbo Fonte: Adaptada de OTHERO e MENUZZI, 2005, p. 49.

Portanto, para determinar um sintagma necessrio identificar o elemento ncleo, uma vez que ele pode possuir mais de uma palavra. Ainda pode existir, numa mesma frase, mais de um sintagma de mesmo tipo, como o caso do exemplo acima: Christiano e vitria so ncleos dos sintagmas nominais. Nesses casos, preciso estabelecer quais funes

sintticas esses ncleos desempenham, no caso de nosso exemplo seria: Christiano tem funo de sujeito e vitria tem a funo de objeto indireto. Em sntese, para que um software de indexao automtica apresente resultados satisfatrios, entre vrios outros critrios possveis e importantes, essencial que ele seja capaz de analisar um texto tanto sobre seu aspecto sinttico quanto semntico. A Lingstica Computacional A rea de Lingstica Computacional preocupa-se com a compreenso da lngua e de tcnicas apropriadas interpretao dessa lngua, escrita ou falada, tentando imitar a capacidade humana de comunicao. Para tanto, essa rea utiliza elementos de sintaxe; semntica; fontica e fonologia; pragmtica e anlise do discurso. De acordo com Othero e Menuzzi (2005), a Lingstica Computacional pode ser dividida em Lingstica de Corpus e Processamento da Lngua Natural (PLN). Ainda segundo esses autores, a Lingstica de Corpus trabalha com o corpora eletrnicos, isto , grandes bancos de dados que contenham amostras de linguagem natural, que podem ser de diferentes fontes. O objetivo estudar os fenmenos lingsticos que podem acontecer em grandes amostras de uma lngua especfica e, no, necessariamente, produzir um software. Esses corpora podem ser compostos de linguagem falada; linguagem escrita; textos de jornal etc. J a PLN, preocupa-se com o estudo da linguagem diretamente voltado para a construo de softwares, como tradutores automticos, chatterbots, reconhecedores automticos de voz, geradores automticos de resumos, parsers entre outros. Um parser ,
no contexto da lingstica computacional, um analisador automtico (ou semiautomtico) de sentenas [frases]. Esse tipo de programa capaz de analisar uma sentena com base em uma gramtica preestabelecida de determinada lngua, verificando se as sentenas fazem parte ou no da lngua, de acordo com o que autoriza a sua gramtica. Um parser tambm analisa sintaticamente as sentenas, decompondo-as em uma srie de unidades menores, primeiramente em ndulos noterminais (os sintagmas), at chegar a ndulos terminais (os itens lexicais), atribuindo-lhes uma estrutura de constituintes. Essa estrutura de constituintes, que representa a representao hierrquica e sinttica da frase apresentada comumente em rvores sintticas ou atravs de colchetes rotulados (OTHERO e MENUZZI, 2005, p. 49).

Ainda no contexto da lingstica computacional, gramtica entendida como um conjunto relativamente pequeno de regras e vocbulos de uma lngua, que possibilita reconhecer todas as frases possveis dessa determinada lngua, atribuindo a elas uma estrutura sintagmtica; essa gramtica denominada gramtica sintagmtica. J no contexto da Lingstica, o termo gramtica entendido sob diferentes acepes, desde as normas que regem um lngua at o sentido de gramtica histrica e comparada (OTHERO e MENUZZI, 2005). Um parser utiliza linguagem do tipo declarativa; essa linguagem fornece proposies ao computador com as quais ele capaz de analisar as frases de um texto por meio de combinaes lgicas. A maioria das linguagens de programao geralmente do tipo procedural, que, ao contrrio da do tipo declarativa, provm ao computador um algoritmo cujos passos so aes executadas pelo computador at que ele chegue a determinado resultado (OTHERO e MENUZZI, 2005, p. 42). Vocabulrio Controlado: Taxonomia Para o tratamento da produo cientfica pode-se utilizar a linguagem natural ou a linguagem controlada. Na linguagem natural, o termo (palavra ou expresso) ser retirado do texto. Na linguagem controlada, h uma lista de termos escolhidos, cuja funo a de s

admitir uma forma de interpretao, ou seja, de significado, alm de possibilitar uma maior padronizao e rigor de utilizao de termos. Nesse contexto, a Biblioteconomia estuda as possibilidades de elaborao de linguagens documentais que possibilitem identificar o contedo, isto , termos (palavras e expresses) mais significativos e estabelecer relaes semnticas entre esses termos, por meio de hierarquias. O principal objetivo dessas investigaes facilitar a representao temtica do contedo de um documento e index-lo. Dessa forma, um importante instrumento para representao temtica de documentos a taxonomia, que uma ferramenta especializada. Ela conseguida, na maioria das vezes, por meio de um processo que visa arranjar hierarquicamente uma lista de conceitos que representam a temtica de determinada rea. As taxonomias devem atender a diversos tipos de objetivos e podem ser apresentadas na forma de representaes grficas, facilitando a compreenso e explorao do contedo (FIGUEIREDO, 2006). Uma taxonomia,
em linhas gerais, a rea do conhecimento que se ocupa das regras e dos princpios da nomenclatura. Pode ser vista como um sistema de classificao tendo por base, normalmente, uma hierarquia de termos e conceitos, na qual os termos localizados nos nveis mais baixos representam os aspectos mais especficos do contedo. At recentemente, o seu interesse era restrito a profissionais da rea de cincia da informao, biblioteconomia ou especialistas em determinadas cincias, como a biologia, mas agora parte do interesse dos profissionais da gesto do conhecimento. A correta definio e classificao das bases de conhecimento de uma empresa, ou seja, uma estrutura adequada de termos e conceitos tornou-se fundamental para a gesto da Intranet, portais, etc. (GLOSSRIO NETIC, [200-]).

Quando uma taxonomia assume interface grfica, as informaes dispersas no texto so organizadas, respeitando-se os temas, assuntos e a hierarquia estipulados pela ferramenta. Dessa forma, ser extrado o que h de mais relevante naquele contexto. A taxonomia define classes, subclasses e as relaes entre elas, e o conjunto de regras de inferncia fornece o mecanismo de manipulao dos objetos das classes utilizando raciocnio lgico (PICKLER, 2007, p. 73). Proposta de Indexao Automtica Utilizando Critrios Sinttico-Semnticos O mercado oferece softwares de indexao automtica que prometem realizar a extrao de termos relevantes para a representao do contedo informacional, baseados em critrios semelhantes aos utilizados pelos seres humanos. Nessa seo apresentaremos um parser de extrao automtica que utiliza os critrios sinttico-semntico. Essa exposio ser restrita a uma avaliao terica da importncia do uso desses critrios; tendo em vista que os testes necessrios para a verificao da eficcia, ou no, desse parser, sero realizados em uma etapa posterior da pesquisa. Alm disso, ser apresentada uma comparao do tringulo semntico, exposto na Teoria do Conceito de Dahlberg, com a utilizao da taxonomia utilizada como cenrio para enriquecer e filtrar o contedo semntico das teses e dissertaes. Para o desenvolvimento desta etapa do trabalho de pesquisa sero utilizadas as seguintes ferramentas: o parser Tropes e a taxonomia da rea de Cincia da Informao construda por Hawkins, Larson e Caton, elaborada em 2003, como cenrio semntico, que sero descritos a seguir. O parser Tropes foi criado em 1994 e, em sua primeira verso, era capaz de analisar obras literrias do tipo romance. Atualmente, ele tornou-se um motor semntico, funcionando em seis lnguas, entre elas o portugus de Portugal e o portugus do Brasil. Para analisar o contedo utilizando critrios sinttico-semnticos, o Tropes usa os recursos de uma gramtica sintagmtica e de um cenrio padronizado determinado

previamente anlise. Essa gramtica j vem embutida no Tropes, abrangindo substantivos, verbos, adjetivos, determinantes, conectores, modalizaes e pronomes relativos e pessoais. J o cenrio precisa representar o contedo semntico da rea a ser analisada. Ele possui a vantagem de permitir que o utilizador construa seu prprio cenrio, adequando-o aos seus objetivos. Portanto, nessa nossa proposta, construiremos um cenrio a partir de uma taxonomia da rea de Cincia da Informao. Na anlise lexico-semntica, o Tropes ir detectar as palavras que representem o contedo de uma frase, agrupando-as em classes de equivalentes determinadas pelo cenrio. Se o cenrio apresentar uma palavra em determinada classe, o Tropes ser capaz de resolver problemas de ambigidade. Assim, se nesse cenrio a palavra <cultura> estiver na classe <Agricultura>, ela sempre ser associada a essa classe, independente do texto utilizado. Alm disso, o Tropes calcula a probabilidade da ocorrncia da palavra <cultura> nessa classe, com uma taxa mdia de erro de 5%. Outro exemplo de aplicao desse recurso a capacidade do Tropes de fazer a distino entre o rato (animal) do rato (mouse do computador), a partir de cenrios que poderiam tratar, por exemplo, de <Veterinria> e <Informtica>, respectivamente. O Tropes consegue fazer, ainda, uma anlise morfo-sinttica, na qual identifica a categoria morfolgica que a anlise da origem, da formao e do significado de cada uma das palavras numa frase; alm de sua classificao e flexo (de gnero, grau e nmero). Nessa tarefa, ele pode revelar os homnimos2, com uma taxa de erro de 2%. Na anlise morfolgica, por exemplo, a frase O Tropes um software seria destrinchada: O = artigo definido; Tropes = substantivo prprio; = verbo; um = artigo indefinido e software = substantivo comum. Para a utilizao do Tropes neste trabalho de pesquisa, ao invs de criar o prprio cenrio semntico baseado na terminologia da linha de pesquisa Organizao e Uso da Informao OUI optou-se por escolher um cenrio mais abrangente, porm, que possibilite ao software trabalhar contextualmente nesse domnio. Assim, esse ser um cenrio especializado, que poder ser mudado constantemente, com a insero de novos termos facilitando a filtragem de termos equivalentes, garantindo assim a consistncia na indexao. Um dos instrumentos que podem ser utilizados como cenrio especializado uma taxonomia, que pode ser definida, de forma literal, como a organizao de um conjunto de termos a partir de princpios estabelecidos. O princpio mais utilizado o de uma taxonomia hierrquica, construda em nveis de generalidades. Como mencionado anteriormente, para a construo desse nosso cenrio especializado, foi utilizada a Taxonomia da rea de Cincia da Informao, elaborada por Hawkins, Larson, e Caton, e proposta no Information Science Abstracts; cuja traduo est incorporada ao trabalho das autoras Oddone e Gomes (2003). Neste trabalho, tambm apresentam uma taxonomia da mesma rea, de autoria prpria. A taxonomia escolhida apresenta objetivos muito similares aos objetivos da taxonomia de Oddone e Gomes; apesar de algumas diferenas, principalmente em relao nfase, nomenclatura, e organizao e detalhamento. Cabe justificar aqui que a deciso pela escolha da Taxonomia de Hawkins, Larson e Caton foi baseada unicamente no fato de que este instrumento apresenta categorias mais especficas e que estas contemplam mais detalhadamente as temticas tratadas na rea de organizao e uso da informao. A utilizao da taxonomia como cenrio especializado no Tropes nos remete anlise conceitual feita partindo do princpio do tringulo semntico, apresentado no trabalho de Dahlberg (1978). Um indivduo, ao olhar um referente (objeto), ir, a partir de seus conhecimentos prvios, memria e experincias anteriores, atribuir caractersticas (conceitos) a esse referente. A partir dessas caractersticas, ele ir atribuir uma forma verbal (termo) que

represente plenamente esse referente. Cada indivduo poder atribuir formas verbais diferentes para um mesmo referente. Essa maneira de identificar significados pode ser adequada na vida cotidiana, mas quando se trata de indexao de documentos cientficos, isso no seria muito apropriado. As caractersticas (conceitos) podem ser consideradas como a matria-prima do processo de indexao. Para Dahlberg (1978), conceito a anlise e a sntese de enunciados verdadeiros sobre um objeto, e pode ser entendido como uma unidade de conhecimento, representado por uma forma verbal. Para Campos e Gomes (2006), o conceito , de fato, o ponto de partida para estabelecer as relaes conceituais e determinar a forma verbal mais adequada para represent-lo. Temos assim, o tringulo de Dahlberg (FIG.3):
Referente

predicao

denominao

Caractersticas
designao

Forma Verbal

FIGURA 3 Tringulo de Dahlberg Fonte: Adaptado de DAHLBERG, 1978.

Para Lima (2007, p. 2),


O processo mental da formao do conceito se d atravs de uma linha de pensamento que leva elaborao do conhecimento, passando por um processo de assimilao da informao pelo crebro, transformando-a. Aps essa elaborao mental, baseada no conhecimento prvio do indivduo, a unidade de informao se transforma em uma unidade conceitual que representada por um termo [forma verbal], o qual possui um nico significado, geralmente expresso por smbolos e palavras, com o objetivo de comunicao. Conceitos e categorias so temas centrais de estudo dentro da rea de cincia da informao, sendo a base para a organizao e para a representao do conhecimento.

O emprego da taxonomia de Hawkins, Larson e Caton como cenrio especializado para auxiliar a filtragem da terminologia de cada tese pode ser transposta para os princpios do tringulo de Dahlberg atravs de dois outros tringulos, exemplificados a seguir (FIG. 4).
rea da Cincia da Informao Teses e Dissertaes

A)

B)

Conceitos da rea

Taxonomia

Cenrio: taxonomia de Hawkins, Larson, e Caton

Forma Verbal

FIGURA 4 Relao do tringulo de Dahlberg com a construo e uso de taxonomias a) Construo de uma taxonomia da rea de Cincia da Informao b) Aplicao da taxonomia de Hawkins, Larson e Caton na representao de teses e dissertaes

Fonte: Desenvolvido pelas autoras.

Fazendo relao com a FIG. 3, o tringulo A representa, primeiramente, como Referente a rea da Cincia da Informao, representada pelo contedo temtico disponveis na literatura especializada na rea. As Caractersticas so os Conceitos da rea desse domnio, identificados por meio de uma anlise conceitual. A Forma Verbal a Taxonomia, desenvolvida para representar mais adequadamente os conceitos. O tringulo B representa a aplicao do critrio semntico transportado para o processo de indexao automtica proposto. Nele, o Referente ser representado pelas Teses e Dissertaes, selecionadas da linha OUI, que sero inseridas no parser Tropes; e as Caractersticas so representadas pelo Cenrio: Taxonomia da Cincia da Informao de Hawkins, Larson e Caton a ser utilizada como um ambiente conceitual validado. A Forma Verbal ser o resultado final dessa indexao automtica, ou seja, o conjunto de termos que representar o contedo das teses e dissertaes. Finalmente, esse conjunto de termos extrados ser analisado e organizado sob critrios ainda no estipulados, permitindo a avaliao da eficcia, ou no, das ferramentas utilizadas nesse processo. Consideraes Finais Este trabalho est nos permitindo investigar o processo de indexao automtica e as teorias nas quais ele se baseia. Embora ainda no possamos relatar os resultados finais desta pesquisa, podemos vislumbrar algumas consideraes. A indexao o elo forte entre o que disponibilizado no sistema e a necessidade do usurio. A fase de anlise de contedo a mais importante e, em contrapartida, a mais morosa para o indexador, principalmente quando quer fazer um trabalho bem feito. A atividade de indexar tem se tornado cada vez mais intensa, desde que as publicaes se multiplicaram. As constantes buscas por informao pelo usurio propiciam um cenrio no qual se faz necessrio organizar as informaes de forma sistemtica, para disponibiliz-las. So muitos os estudos que atentam para a soluo desse problema e h softwares construdos com diferentes modelos de indexao automtica. Todos visam otimizar a atividade de anlise de contedo, uma vez que conseguem fazer uma leitura quase instantnea do texto, muitas vezes com mais coerncia e menos tendenciosidade que um ser humano. O que se espera na atualidade, e que deve ser uma das prioridades da rea, que esses instrumentos de indexao automtica sejam ferramentas capazes de, concomitantemente, minimizar a subjetividade do indexador e imitar o raciocnio humano. Eles devero levar em considerao o contexto semntico, respeitando princpios tericos consistentes. Esperamos que, nesta pesquisa, o processo de indexao automtica venha suprir os problemas inerentes indexao manual descritos, agilizando a seleo dos termos dos documentos acadmicos do Programa de Ps-graduao em Cincia da Informao da ECI/UFMG. Isso ser uma importante contribuio para a efetiva implementao do prottipo Mapa Hipertextual - MHTX. Nota
1

De acordo com Lancaster (2004), no contexto da recuperao da informao, texto livre corresponde s palavras que ocorrem em textos impressos, podendo ser o ttulo; um resumo; um extrato; ou texto o integral de uma publicao. Segundo o Dicionrio Aurlio, no sentido gramtico, homnimo uma palavra que se pronuncia da mesma forma que outra, mas cujo sentido e escrita so diferentes (os homfonos lao = laada, lasso = cansado), ou que se pronuncia e escreve do mesmo modo, mas cujo significado diverso (os homgrafos falcia = qualidade de falaz, e falcia = falatrio).

13

Referncias BARQUIN, Beatriz A. R.; GONZLEZ, Jos A. M.; PINTO, Adilson L. Construo de uma ontologia para sistemas de informao empresarial para a rea de telecomunicaes. DataGramaZero/Rev. Ci. Inf., Braslia, v. 7, n. 2, abr. 2006. BAXENDALE, P. B. Machine-made index for technical literature: an experiment. IBM Journal of Research and Development, n. 2, p. 354-361, 1958 apud LANCASTER, F. W. Indexao e resumos: teoria e prtica. Braslia: Briquet de Lemos, 2004. 452 p. BORKO, H. Toward a theory of indexing. Information Processing and Management, v. 13, p. 355-365, 1977 apud GUEDES, Vnia L. S. Estudo de um critrio para indexao automtica derivativa de textos cientficos e tecnolgicos. Ci. Inf., Braslia, v. 23, n. 3, p.318326, set./dez. 1994. BORKO, H.; BERNICK, M. Automatic document classification. Journal of the Association for Computing Machinery, n. 10, p. 151-162, 1963 apud LANCASTER, F. W. Indexao e resumos: teoria e prtica. Braslia: Briquet de Lemos, 2004. 452 p. CAMPOS, Maria Luiza Almeida; GOMES, Hagar Espanha. Metodologia de elaborao de tesauro conceitual: a categorizao como princpio norteador. Persp. Ci. Inf., Belo Horizonte, v. 11, n. 3, Sept./Dec. 2006. Disponvel em: <http://www.scielo.br/scielo.php? script=sci_arttext&pid=S1413-9362006000300005&lng=enenandothers&nrm=iso&tlng= enenandothers>. Acesso em: 21 jul. 2007. DAHLBERG, Ingetraut. Teoria do conceito. Ci. Inf., Rio de Janeiro, v. 7, n. 2, p. 101-107, jul./ dez. 1978. FIGUEIREDO, Saulo. O impacto da taxonomia nas empresas. [S.l.]: Webinsider, 28 nov. 2006. Disponvel em: <http://webinsider.uol.com.br/index.php/2006/11/28/a-importancia-e-oimpacto-da-taxonomia-nas-empresas/>. Acesso em: 24 jul. 2007. GUEDES, Vnia L. S. Estudo de um critrio para indexao automtica derivativa de textos cientficos e tecnolgicos. Ci. Inf., Braslia, v. 23, n. 3, p. 318-326, set./dez. 1994. HAWKINS, Donald T.; LARSON, Signe E.; CATON, Bari Q. Information science abstracts: tracking the literature of information science. Part 2: a new taxonomy for information science. Journal of the American Society for Information Science and Technology, v. 54, n. 8, p. 771-781, 2003. HJELMSLEV, Louis. Prolegmenos a uma teoria da linguagem. Trad. J. Teixeira Coelho Netto. So Paulo: Perspectiva, 1975 apud SILVA, Antnio Carlos da. As teorias do signo e as significaes lingsticas. [2004]. [Texto online]. Disponvel em: <http://www.partes.com.br/ed39/teoriasignosreflexaoed39.htm>. Acesso em: 10 jul. 2007. HJORLAND, Birger. The concept of subject in Information Science. Journal of Documentation, v. 48, n. 2, p.172-200, June 1992. LANCASTER, F. W. Indexao e resumos: teoria e prtica. Braslia: Briquet de Lemos, 2004. 452 p.

14

LANCASTER, F. W. Indexao e resumos: teoria e prtica. Braslia: Briquet de Lemos, 1993. 347 p. LEROY, M. As grandes correntes da lingstica moderna. Trad. de Izidoro Blikstein e Jos Paulo Paes. So Paulo: Cultrix, 1971. 194 p. LIMA, G. A. B. Categorizao como um processo cognitivo. Cincias & Cognio; ano 4, v. 11, p.156-167, 2007. Disponvel em: <www.cienciasecognicao.org>. Acesso em: 9 ago. 2007. MARON, M. E. On Indexing, retrieval and the meaning of about. Journal of the American Society for Information Science, n. 28, n. 1, p. 38-43, 1977 apud GUEDES, Vnia L. S. Estudo de um critrio para indexao automtica derivativa de textos cientficos e tecnolgicos. Ci. Inf., Braslia, v. 23, n. 3, p. 318-326, set./dez. 1994. NAVARRO, Sandrelei. Interface entre lingstica e indexao: uma reviso de literatura. Rev. Bras. Biblio. Doc., So Paulo, v. 21, n. 1/2, p. 46-62, jan./jun. 1988. OCONNOR, J. Automatic subject recognition in scientific papers: an empirical study. Journal of the Association for Computing Machinery, n. 12, p. 490-515, 1965 apud LANCASTER, F. W. Indexao e resumos: teoria e prtica. Braslia: Briquet de Lemos, 2004. 452 p. ODONNE, Nanci; GOMES, Maria T.F.S. Os temas de pesquisa em cincia da informao e suas implicaes poltico-epistemolgicas. In: ENCONTRO NACIONAL DE CINCIA DA INFORMAO: CINFORM, 5., Salvador, 2004. Anais... Salvador: UFBA, 2004. Disponvel em: <http://www.cinform.ufba.br/v_anais/artigos/nancioddone.html>. Acesso em: 2 jul. 2007. OGDEN, C. K.; RICHARDS, I. A. O significado de significado: um estudo da influncia da linguagem sobre o pensamento e sobre a Cincia do Simbolismo. Rio de Janeiro: Zahar, 1972. 348 p. OTHERO, Gabriel de vila; MENUZZI. Srgio de Moura. Lingstica computacional: teoria e prtica. So Paulo: Parbola, 2005. 126 p. PICKLER, Maria Elisa Valentim. Web semntica: ontologias como ferramentas de representao do conhecimento. Persp. Ci. Inf., Belo Horizonte, v. 12, n. 1, p. 65-83, jan./abr. 2007. Disponvel em: <http://www.scielo.br/scielo.php?script=sci_arttext&pid= S1413-99362007000100006&lng=en&nrm=iso&tlng=en>. Acesso em: 24 jul. 2007. RECTOR, Monica; YUNES, Eliana. Manual de semntica. Rio de Janeiro: Ao Livro Tcnico, 1980. 171 p. ROBREDO, Jaime. Documentao de hoje e de amanh: uma abordagem revisitada e contempornea da Cincia da Informao e de suas aplicaes biblioteconmicas, documentrias, arquivsticas e museolgicas. 4 ed. Braslia: Reproart, 2005. 409 p. ROBREDO, J. A indexao automtica de textos: o presente j entrou no futuro. In: Machado, U. D. (Org.). Estudos Avanados em Cincia da Informao. Braslia, DF.: Associao dos Bibliotecrios do Distrito Federal, 1982. v. 1, p. 235-274.

15

SILVA, Antnio Carlos da. As teorias do signo e as significaes lingsticas. [2004]. [Texto online]. Disponvel em: <http://www.partes.com.br/ed39/teoriasignosreflexaoed39.ht m>. Acesso em: 10 jul. 2007. TAXONOMIA. In: GLOSSRIO NETIC. [S.l.]: Portal NETIC - Ncleo de Estudos em Tecnologias para Informao e Conhecimento, [200-]. Disponvel em: <http://www.netic.com.br/ glossario.html#T>. Acesso em: 24 jul. 2007. Nas bibliotecas digitais, a indexao manual, ou automtica, utilizada para a representao do contedo dos documentos armazenados. Atualmente, esse processo preocupao constante dos pesquisadores, pois se constitui campo importante dentro da Cincia da Informao, a partir dos avanos tecnolgicos utilizados na recuperao da informao. Para a recuperao da informao pode-se usar Sistema de Recuperao da Informao (SRI), composto pela entrada de dados, pelo processamento e pela recuperao desses dados pelo usurio final, que a sada do sistema. Em outras palavras, resume-se um SRI com um meio onde existe entrada, processamento, e sada de dados. Biblioteca digital consiste em um Sistema de Recuperao da Informao (SRI), ou seja, um ambiente no qual existe a entrada de dados, o processamento desses dados e sua recuperao pelo usurio final, que a sada do sistema. Em outras palavras, resume-se um SRI com um meio onde existe entrada, processamento, e sada de dados. Ressaltamos que este trabalho est centrado no tratamento dos dados para a entrada no SRI, processo esse que denominado no campo da Cincia da Informao como indexao de assuntos. No se pode esquecer que uma recuperao bem sucedida da informao (sada de dados) depende diretamente da qualidade da representao de seu contedo (indexao de assuntos).

Vous aimerez peut-être aussi