Vous êtes sur la page 1sur 237

F.W.

Lancaster

Indexao e resumos:
teoria e prtica
Segunda edio

Traduo de Antonio Agenor Briquet de Lemos

BRIQUET DE LEMOS
UVROS
Copyright. 2003 by F. \V. Lancaster Sumrio
Ttulo original: !ndexing and abstracting in themy and practice
Primeira edio original: 1991 Prefcio vii
Segunda edio original: 1998 Agradecimentos ix
Terceira edio original: 2003
Uma nota sobre terminologia (e a redescoberta da roda) X

Primeira edio brasileira: 1993


Lista de figuras XV
Segunda edio brasileira: 2004 (baseada na terceira edio original de 2003)
Parte 1 Teoria, princpios e aplicaes
Direitos autorais desta traduo 2004 Lemos Informao e Comunicao Ltda. Captulo I Introduo
Todos os direitos reservados Captulo 2 Princpios da indexao 6
Captulo 3 A prtica da indexao 24
De acordo com a lei n." 9 61 O, de 19/2/1998, nenhuma parte deste livro pode ser
fOtocopiada, gravada, reproduzida ou nm1azenada num sistema de recuperao Captulo 4 ndices pr-coordenados 50
de infonnaes ou transmitida sob qualquer fonna ou por qualquer meio Captulo 5 Coerncia da indexao 68
eletrnico ou mecnico sem o prvio consentimento do Captulo6 Qualidade da indexao 83
detentor dos direitos autorais, do tradutor e do editor.
Captulo 7 Resumos: tipos e funes I 00
Captulo 8 A redao do resumo 113
Reviso: Maria Lucia Vil ar de Lemos Captulo 9 Aspectos da avaliao 135
Captulo lO Mtodos adotados em servios de indexao e
Capa: Formatos Designe lnfom1tica Ltda.
resumos 158
Captulo li Como melhorar a indexao 186
Dados internacionais de Catalogao na Publicao (CIP) Captulo 12 Da indexao e redao de resumos de obras de
(Cmara Brasileira do Livro, SP, Brasil)
~~ 199
Captulo 13 Bases de dados de imagens e sons 214
lancastcr, F.W., 1933- Captulo 14 Buscas em textos 249
lndexao e resumos : teoria e pnitica I F. W. Lrmcaster ; traduo de Antonio Agenor
Briquet de Lemos.- 2. ed. rev. atual.- Brasilia, DF: Briquet de Lemos I Livros, 200>l. Captulo 15 Indexao automtica, redao auto!'ntica de
resumos e processos afins 284
Titulo original: lnde:.;in~; and abstracting in theory nnd practice.
Bibliografia.
Captulo 16 A indexao e a internet 339
Captulo 17 O futuro da indexao e redao de resumos 358
ISBN 85-85637-24-2

1. Indexao. 2. Resumos- Redao 1. Titulo. Parte 2 Prtica


COD 025.3 Captulo 18 Exercfcios de indexao 369
04-5201
ndices para catlogo sistemtico Captulo 19 Exerccios de redao de resumos 383
1. lndexno: Cincia da infonna.'i.o 025.3

Apndices
2004
Apndice I Sfntese de princfpios de redao de resumos 392
Briquet de Lemos I Livros Apndice 2 Anlse de contedo modular 394
SRTS -Quadra 701 -Bloco K -Sala 831
Editicio Embassy Tower
Braslia, DF 70340-000 Referncias 397
Telelones (61) 322 9806 /313 6923
Fax (61) 323 !725 ndice 440
www.briquetdelemos.com.br
cditora@briquetdelemos.com.br
r
Para Shane, Aaron, PREFCIO
Rachael, Maddie, Alex,
J oshua, Evan e Emma,
A primeira edio desta obra, que recebeu o prmio de melhor livro do ano
bem como sobre cincia da informao, outorgado pela American Society for Information
Lakshmi e Rajeshwari Science, foi publicada em 1991; a segunda foi lanada em 1998. Ambas foram
bem-recebidas pelos crticos, e o livro tem sido amplamente utilizado como
texto didtico na Amrica do Norte, no Reino Unido e em outros pases.
Entre 1991 e 1998 este campo passou por mudanas notveis, o que susci-
tou a necessidade de novos captulos, principalmente sobre a internet e a inde-
xao e elaborao de resumos para bases de dados de imagens e sons. As mu-
danas verificadas a partir de 1998 foram menos marcantes. No entanto, ocor-
reram avanos que definiam a necessidade de uma terceira edio.
Todo o texto foi atualizado, embora os captUlos iniciais, que tratam mais de
princpios bsicos, permaneam bem similares aos da segunda edio. Em com-
pensao, alguns dos captulos finais foram substancial ou completamente rees-
critos. Refiro-me aos captulos 13-17 que tratam, respectivamente, de bases de
dados de imagens e sons, buscas em textos, indexao automtica e atividades
afins, indexao e a internet, e o futuro da indexao e da redao de resumos.
No alterei muitas das figuras porque acho que as que foram utilizadas na
segunda edio ainda continuam totalmente vlidas para ilustrar os aspectos
que desejo mostrar. Isso ainda mais verdadeiro no que tange ao captulo 10,
sobre servios impressos de indexao e resumos. Embora pudesse ter atualiza-
do as pginas apresentadas Como amostras, pareceu-me bastante desnecessrio
faz-lo.
Embora a indexao e redao de resumos fossem antigamente tidas como
processos que somente interessavam a bibliotecas e a algumas editoras, sua
relevncia e utilidade so reconhecidas hoje em dia de modo muito mais amplo,
pois, obviamente, encontram aplicao em todos os tipos de recursos de infor-
mao em formato digital. Assim, esta edio, embora continue sendo destina-
da fundamentalmente ao uso como texto didtico em escolas de bibliotecono-
mia e cincia da informao (e programas afins), ainda se reveste de interesse
para um pblico muito maior: produtores de bases de dados de todos os tipos,
bem como aquelas pessoas interessadas em outras reas, como o projeto de
intranets, desenvolvimento de p011ais, sistemas de gerenciamento da informa-
o, e gesto do conhecimento em geral.
Acho que devo dizer algo acerca das fontes citadas. O autor de uma recenso
da primeira edio criticou-me por continuar citando fontes 'antigas'. Apesar
de ter feito um esforo para atualizar por completo as fontes citadas (at o co-
meo de 2003), no tenho por que me desculpar por continuar citando material
antigo e at muito antigo. Para mim inconcebvel que um livro sobre este
assunto deixe de citar (por exemplo) Cutter (1876) e Ranganathan (dcada de

vi i
1930). Ademais, muitas pessoas que hoje escrevem sobre esses temas parecem
AGRADECIMENTOS
no ter interesse nem conhecer as primeiras contribuies feitas a este campo.
Acredito que seja impo11ante, principalmente para os estudantes, compreender
como este campo se desenvolveu e reconhecer que muitas das idias atualmente
apresentadas como novas podem ser encontradas, de fato, na literatura de trinta Encontra-se consignada nas legendas das figuras a permisso para utilizao de
ou mais anos passados, em forma um tanto similar. vrias figuras de diferentes fontes. Alm disso, quero agradecer a: Elsevier
Do mesmo que nas edies anteriores, esta no procura lidar com os ndices Science pela permisso para citar alguns trechos extensos de textos publicados
de livros isolados, que aparecem no final dos livros impressos. Trata-se de as- em Information Processing and Alanagement; OCLC Inc. pela permisso para
sunto bem estudado em outras obras escritas por pessoas com muito mais expe- reproduzir longas passagens de um artigo de O'Neill et ai. (2001); John Wiley
rincia do que eu nessa rea especfica. and Sons pela permisso para citar vrios trechos extensos de material publica-
Esta edio deve ainda ser vista como um texto de natureza introdutria. do no Journal oftheAmerican Society for Information Science and Tec!mology
Embora creia que os captulos 1-12 sejam bastante abrangentes, j sobre os (e seus antecessores); Infonnation Today Inc. (<www.infotoday.com> pela per-
temas focalizados nos captulos 13-15 foram escritos livros completos, de modo misso para reproduzir extensas citaes de Hock (200 I), de EContent e de
que esses captulos, em particular, devem ser lidos como introdues a esses Online; IBM pela permisso para reproduzir uma longa citao do IBAl Systems
temas. Journal; Thomas Craven pela permisso para reproduzir citaes de vrios de
seus mtigos; Getty Research lnstitute por extensas citaes de Layne (2002);
F. W. LANCASTER lOS Press pela permisso de reproduzir uma extensa citao de Nielsen (1997);
Urbana, lllinois (EUA) e ACM Publications pela permisso de fazer citao de Wactlar et ai. (2002).
Maro de 2003 Os termos e definies extrados da ISO 5963:1985 so reproduzidos com a
permisso da International Organization for Standardization (ISO). Esta norma
pode ser obtida junto a qualquer membro da ISO e no stio na Rede da secretaria
central da ISO no seguinte endereo: <www. iso.org>. O detentor do direito auto-
ral a ISO.
Por fim, quero agradecer a vrias pessoas por sua ajuda nesta edio: Bella
Weinberg por ter me chamado a ateno para algumas fontes que, de outra for-
ma, me teriam passado despercebidas; Bryan Heidorn por ter lido um primeiro
rascunho do captulo 13; Susanne Humphrey e Lou Knecht por atualizarem as
informaes de que dispunha acerca da National Libra1y of Medicine; June
Silvester, do Center for AeroSpace Infonnation; Chandra Prabha pelas informa-
es do OCLC; o pessoal da Librmy and Information Science Library da University
oflllinois (e especialmente Sandy Wolf), por sua paciente ajuda na localizao
de material para mim, e Kathy Painter pelo seu trabalho, tradicionalmente exce-
lente, de colocar a reviso do texto em formato eletrnico.

F. W. LANCASTER
Urbana, Illinois
Abril de 2003

vi i i
:rviuitas idias surgidas hoje possuem claros antecedentes na literatura de 30
UMA NOTA SOBRE TERMINOLOGIA
ou 40 anos atrs, mas esses trabalhos pioneiros so completamente desconheci-
(e a redescoberta da roda) dos para os pesquisadores atuais. Um caso pe11inente a pesquisa sobre mapas
visuais ou 'navegadores' [browsers] para facilitar a navegao em sistemas de
hipenndia (por exemplo, Fowler et ai., 1996; Zizi, 1996) que basicamente
Tenho trabalhado em bibliotecas ou em torno delas h muitos anos. Durante uma redescoberta dos 'mapas semnticos' [semanfic road maps] de Doyle (1961 ).
grande pmte desse tempo estive envolvido, de uma ou outra forma, com a an- O campo da recuperao de imagens parece ser o pior de todos em matria
lise de assuntos. Em 1957, comecei a trabalhar redigindo resumos, que abrangi- de reinventar a roda. Por exemplo, um artigo de Schreiber et ai. (200 I) descreve
am uma ampla gama de material cientifico e tecnolgico, para um boletim de um esquema para indexao de fotografias (denominam-no 'anotao fotogr-
resumos para a indstria, tarefa que exigia tambm um nvel minucioso de inde- fica baseada na ontologia' [ontology-based photo annotation], que se baseia
xao temtica dos itens resumidos. Em 1958, assumi o trabalho de editor desse essencialmente num conjunto bastante simples de facetas. Parece que acredi-
boletim. Anteriormente tivera experincia com a classificao de livros numa tam que a anlise de facetas surgiu com eles ou, pelo menos, com outros que tra-
biblioteca pblica, alm de redigir anotaes, sobre caractersticas locais, a se- balham na mesma rea. Ironicamente, o trabalho deles foi publicado num peri-
rem includas nas fichas catalogrficas (na dcada de 1950 a catalogao coo- dico dedicado a 'sistemas inteligentes'.
perativa ou centralizada ainda no era a norma). Por volta de 1961 estava en- Os cientistas da computao que escrevem sobre recuperao da informa-
volvido no campo da 'recuperao da informao', e publiquei meu primeiro o parecem reconhecer e citar somente outros cientistas da computao que
artigo em 1963 e o primeiro livro em 1968. escrevem sobre recuperao da informao. Exemplo bvio o reconhecimen-
Em outras palavras, tem sido muito longa minha participao nas reas de to e a citao quase unnimes de Salton como a autoridade em medidas de revo-
anlise temtica/recuperao da informao, presenciei inmeras mudanas e cao e preciso na avaliao de atividades de recuperao da infonnao. Gerard
conheci muitos dos principais atores deste palco em pmticular. Salton, por mais importante que tenha sido no campo da recuperao da infor-
At o final da dcada de 1940 e comeo da dcada de 1950, o campo que mao, com a maior ce1teza no foi o introdutor dessas medidas, que, de fato,
hoje lembramos como 'recuperao da informao' era domnio quase exclusi- remontam dcada de 1950.
vo da profisso de bibliotecrio. A realizao de duas impmtantes conferncias Esse fenmeno de redescobrimento foi salientado por Holmes (2001), ele
internacionais, alm do reconhecimertto de que os computadores poderiam apor- prprio um cientista da computao, que nos faz lembrar a advertncia feita por
tar uma contribuio impo11ante ao problema da recuperao da informao, George Santayana para quem aqueles que no podem recordar o passado esto
tornaram o campo mais atraente e para ele acorreram pesquisadores de muitas condenados a repeti-lo. Holmes, partindo disso, acrescenta:
outras reas.
(...] o que pensamos que sejam inovaes muitas vezes so meras repeties [ ... ]
Ao longo de um perodo de mais de 50 anos, as contribuies bibliografia nossa profisso pode desenvolver-se de modo mais rpido e melhor por meio de
sobre recuperao da informao tiveram origem em praticamente todos os cam- inovaes cumulativas, construindo sobre os alicerces de seu passado ao invs de
pos acadmicos, inclusive matemtica, cincia da computao, psicologia, es- ignor-lo (p. 144).
tatstica, direito e medicina (informtica mdica).
Embora rostos novos e novos enfoques sejam sempre bem-vindos, lamen- Ele afirma que, em palticular, as obras de Vannevar Bush e Hans Peter Luhn,
tvel que muitos dos que hoje trabalham neste campo no tenham nenhuma for- que datam de 40 ou 60 anos, contm idias que desde ento so reinventadas.
mao prvia e, por isso, nenhum alicerce slido sobre o qual construir. O mai- "Minha pior experincia com esse problema especffico ocorreu h vrios
or problema causado pelo fato de que muitos dos que atualmente trabalham anos, quando deparei com um artigo escrito por um cientista europeu, essenci-
com recuperao da informao parecem completamente ignorantes do fato de almente um matemtico, acerca de assunto sobre o qual eu publicara anterior-
que outros processos diferentes dos totalmente automticos foram aplicados, mente. Quando escrevi para mostrar que ele deixara de citar meu trabalho ante-
com algum sucesso, recuperao da informao durante mais de l 00 anos, e rior, e diversos outros de autoria de outros pesquisadores, ele contestou, folga-
que de fato existe uma bibliografia sobre recuperao da informao alm da- damente, para dizer que nunca pesquisava na literatura, a no ser que estivesse
quela da comunidade de informtica. Exemplo gritante encontra-se em Agosti escrevendo um mtigo de reviso! Que espcie de no-cincia egosta essa?
et ai. (1995), que definem as 'etapas da indexao' como "extrao de termos Outro resultado da multiplicidade de profisses que agora contribuem para
[term extraction], remoo de termos proibidos [stop-term remova/], fuso a literatura de anlise temtica/recuperao da informao est na substituio,
[conflation] e ponderao [weighting]". sem necessidade, da terminologia, apropriada e reconhecida, da profisso bi-
bliotecria. Exemplo bvio 'metadados'. O Oxford English Dictionary (em
!i description] e so obtidas por meio de 'extrao semntica' [semantic extraction]
linha) registra 1968 como o ano do aparecimento dessa palavra. Na poca foi
! que, provavelmente, significa identificao do assunto tratado.
usada para designar dados que descreviam conjuntos de dados (numricos ou Pmie dessa confuso terminolgica se deve a desleixo no trabalho editorial.
estatsticos). Desde ento tornou-se praticamente um substih1to para 'descrio Faz pouco deparei comum miigo em que a palavra' indexation', que estava at
bibliogrfica', denominao esta perfeitamente razovel, com a qual conviva- no ttulo, era usada como sinnimo de' indexing'. O vocbulo' indexation' real-
mos h muitos e muitos anos e que aceita em normas internacionais. Algum, mente xiste na lfngua inglesa, mas empregado apenas em contexto econmico
claro, poderia argumentar qu~ 'bibliogrfico' aplica-se apenas a livros. Sua (por exemplo, em relao a ce1ias variveis, como aumento ou reduo de sal-
extenso, porm, a outras formas documentrias (como em 'base de dados bi- rios e juros s mesmas taxas do fndice de custo de vida); quase com certeza no
Uhogrficos' e 'referncia bibliogrfica') convive conosco h muito tempo. sinnimo de 'indexing'. Os autores, neste caso, tm uma desculpa porque so
Alguns autores, com cer1eza, chamaram ateno para o mesmo problema. franceses(' indexation' o equivalente francs de' indexing'), mas no h des-
Nfilstead e Feldman (l999), por exemplo, argumentam convincentemente: culpa para os editores de um peridico em lngua inglesa se permitirem tal in-
correo. Aguardo agora que a palavra' inde.wtion' venha a substituir' indexing'
Quer o chamemos de catalogao, indexao ou metadados, o conceito familiar
aos protissionais da informao. Agora, o mundo eletrnic por fim o descobriu. na literatura de cincia da computao.
Faz alguns anos, somente uns poucos filsofos haviam ouvido falar em 'metadados'. Santini (2002), outro cientista da computao, conclamou seus colegas de
Hoje em dia, diflcil encontrar uma publicao sobre recursos eletrnicos que igno- profisso a ser mais responsveis no uso da linguagem. E adverte que:
re essa palavra. [... ] Como o personagem que passou toda a vida escrevendo prosa O irrefrevel uso incorreto da linguagem em informtica ameaa levar nossa profis-
sem saber que o tzia,* os bibliotecrios e indexadores vm h sculos produzindo
so a se isolar da sociedade e tornar incompreensveis nossas realizaes (p. 128).
e normalizando metadados. Ignorando este legado, uma imensa variedade de outros
atores ingressaram recentemente nesse campo, e muitos deles no tm qualquer idia Santini concorda com o ponto que venho tentando expor:
de que algum mais antes deles j tenha 'estado ali, feito aquilo'. Sistemas diferen-
tes esto sendo desenvolvidos para tipos diferentes- e s vezes os mesmos- de Outras palavras fazem mais sentido, mas esto sendo inexplicavelmente abandona-
informao, disso resultando uma atmosfera catica de nonnas conflitantes (p. 25). das em favor de vocbulos menos apropriados (p. 126).

No obstante, parecem dispostas a aceitar a nova terminologia. Dentre os termos que ele destaca para serem desprezados esto 'data ware-
Pessoas de nosso prprio campo, que certamente deveriam saber mais (e ser house' [armazm de dados] e 'data mart' [mercado de dados] em vez de 'data-
mais responsveis), colaboram com essa situao. Por exemplo, Greenberg base' [base de dados].
(2003) nos diz que a gerao de metadados por seres humanos ocorre quando Uma palavra que enfrento ce11a dificuldade em aceitar 'mining' [minera-
uma pessoa, como um criador profissional de metadados ou um fornecedor de o] (como em data mining, text mining, speech mining ou Web mining [mine-
contedo, produz metadados. Para ela 'criador profissional de metadados' o rao de dados, minerao de texto, minerao de fala ou minerao da Rede],
'catalogador' ou 'indexador', conforme admite depois em seu artigo (embora que amide usada como sinnimo de 'knowledge discove1y' [descoberta de
ela tambm inclua '-web master' nesta categoria). Fiquei profundamente choca- conhecimento]. Meu pai passou muitos anos da vida numa mina de carvo do
do (e de modo algum satisfeito) ao saber que gastei vrios anos de minha vida nmie da Inglaterra, trabalhando como cavouqueiro. Eram longas horas de tra-
como criador profissional de metadados, se bem que inocente disso. balho, e durante a maior patie do ano s lhe era possvel ver a luz do dia uma
Nfuitos que escrevem sobre recuperao de imagens usam o termo 'anota- vez por semana. Nluitas vezes, cavoucava o carvo num 'veio molhado', deita-
o' para designar a atribuio de rtulos de texto, como palavras-chave, que do na gua, de costas ou de.lado, numa galeria de teto muito baixo. No tenho
identificam o que a imagem representa, o que, evidentemente, 'indexao'. Isso certeza de que esse tipo de extrao trabalhosa, na semi-escurido, seja a analo-
duas vezes lamentvel porque 'anotao' [annotation], h muitos anos, em- gia que os 'data miners' [mineradores de dados] queiram realmente usar.
pregada para designar o que , fundamentalmente, um resumo muito sucinto Minha maior queixa, porm, o fato de o substantivo'c/assij/cation' haver
(que aparecia antigamente em fichas de catlogos). Liu e Li (2002) mencionam sido praticamente substitudo por (pasme-se!) 'taxonomy' (pasme-se duas ve-
termos de indexao atribudos a videoclipes como 'etiquetas de anotao' [anno- zes!!), 'ontology' ou at (pasme-se trs vezes!!!) 'taxonomized set of terms'
tation tags]. Parece que elas constituem uma 'descrio semntica' [semantic [conjunto taxonomizado de termos]. A maneira como estes termos so defini-
dos em artigos recentes mostra claramente que so empregados como sinni-
mos de 'classification scheme' [esquema de classificao]. Caracterstico disso
* Monsieur Jourdan, personngem deLe hourgeois genti/Jwmme, de MoliCre. (N.T.) um m1igo de Hovy (2003) que define:

vi i xiii
[... ]uma ontologia simplesmente como um conjunto taxonomizado de termos, que
variam desde termos muito gerais na parte superior [ ... ] at termos muito espe-
LISTA DE FIGURAS
cializados na parte inferior (p. 48).
A 'ontologia' de Hovy torna-se uma 'concept hierarchy' [hierarquia de con- A funo da elaborao de ndices e resumos no quadro mais amplo
ceitos] em I'v[eng et ai. (2002), que a definem como "um grande nmero de con- da recuperao da informao 2
ceitos organizados em mltiplos nveis, de modo que os conceitos em nveis su- O problema da recuperao de itens pertinentes de uma base de dados 3
periores possuem significados mais amplos do que os de nveis inferiores". Quan- Efeito da extenso do registro sobre a recuperabilidade 8
do fiz o curso de biblioteconomia, zilhes de anos atrs, essas definies teriam Exemplo de documento indexado segundo diferentes pontos de vista 1O
sido definies exatas, embora muito simplistas, de classificao hierrquica. Anlise conceitual traduzida em trs vocabulrios controlados 23
Soergel (1999) tambm execrou a substituio de 'classificao' por 'ontolo- As duas dimenses dq indexao de um documento 30
gia' e o fez com muita propriedade: Rendimentos decrescentes na indexao 32
Uma classificao, qualquer que seja seu nome, continua sendo uma classificao. Sistema de recuperao da informao representado como uma matriz 40
O emprego de termo diferente sintomtico da falta de comunicao entre as comu- Formulrio de indexao utilizado pela National Librmy oflvledicine 41
nidades cientficas. lgnora-se amplamente o vasto corpo de conhecimentos, que se Formulrio caracterfstico da indexao de lvlooers 42
desenvolveu em torno das classificaes bibliogrficas e mais geralmente da cincia Pm1e de vocabulrio do U.S. Patent and Trademark Office 44
da informao, sobre a estrutura das classificaes e as maneiras de represent-las, Seo do microtesauro do Air Pollution Teclmical Information Center 45
bem como o imenso capital intelectual consubstanciado em muitos esquemas de
Tela de etiquetas no DCMS 46
classificao e tesauros. Sistemas grandes e teis vm sendo construdos com mais
esfOro do que seria necessrio. Exemplos so o cvc ontology (<www.cyc.com/cyc- Registro de indexao pronto no DCMS 47
2-l/intro-public.html>), cuja apresentao poderia ser bastante melhorada, ou wordNet Exemplo de entradas de lv!edical subject headings- annotated
(<cogsci.princeton.edu/-wn> ou <www.notredame.ac.jp/cgi-bin/wn.cgi>), um sis- alphabetic list 49
tema maravilhoso cuja construo teria lucrado com a aplicao da experincia com Exemplo de entradas de Tumor key 48
a construo de tesauros e cuja hierarquia (de conceitos) synset deveria ser tornada Entradas de um fndice sue 52
mais facilmente acessvel com o emprego de mtodos clssicos de representao de Entradas de fndice baseado na alternao sistemtica (modelo da
classificao. Outro exemplo o ANSI Ad Hoc Group on Ontology Standards (<www- Excerpta Medica) 54
ksl.stanford.edu/onto-Std/index.html> ), que parece no contar entre seus membros Exemplo de entradas de um ndice KWIC 55
com nenhum cientista da informao interessado em classificao (p. 1120).
Amostra das entradas de um ndice KWOC 57
A 'classificao' como atividade tambm est sendo substituda na literatura Formato alternativo de um ndice KWOC 58
de cincia da informao pela 'categorizao' (como em 'categorizao de tex- Exemplo de entradas do British Tec/mology Index 64
tos'), mas isso, apesar de aborrecer, no parece ser to escandaloso. Sistema de relaes de Farradane 65
Alguns termos da nova terminologia so superficialmente atraentes. Fui ra- Termos (A~J) atribudos ao mesmo documento por cinco
zoavelmente receptivo ao vocbulo 'summarization' [sumarizao] (porque indexadores diferentes 69
poderia ser usado para abarcar 'abstracting' [redao de resumos], 'extracting Possveis fatores que influem na coerncia da indexao 71
[extratao] e at mesmo 'annotation' [anotao]) at que descobri que um livro Relao entre coerncia e quantidade de termos atribudos 72
impmiante sobre o assunto (Endres-Niggemeyer, 1998) inclui a indexao Efeito da quantidade de termos atribudos sobre a coerncia do
temtica como uma forma de sumarizao. Embora um conjunto de termos de indexador (dois indexadores) 73
indexao possa, de fato, funciOnar como uma espcie de resumo do contedo, Dois enfoques diferentes na indexao de um m1igo intitulado
a sumarizao no , com certeza, o principal objetivo da indexao. ''Quando os circunstantes apenas observam 78
Neste livro, sempre que possvel, ative-me terminologia antiga. Por razes Dois enfoques diferentes na indexao de um artigo intitulado
de clareza, usei alguns poucos termos novos, como metadados, mas o fiz com "Um curso de literatura infantil para pais 1' 79
relutncia. Dois enfoques diferentes na indexao de um artigo intitulado
"Orientao em cursos de ps-graduao em educao 80
31 Dois enfoques diferentes na indexao de artigo intitulado "Televiso 62 Disperso de itens sob termos de indexao 148
com legenda fechada: uma nova ferramenta para o ensino da leitura,' 80 63 Exemplo de entradas do Cumulated Index Medicus 160
32 Diferenas na anlise conceitual de um mtigo intitulado uo ato em 64 Exemplo de entradas do Medica/ subject headings 161
extino: um estudo dos romances sentimentais, 81 65 Exemplo de entradas da estrutura hierrquica do Medicai subject
33 Fatores que influem nos resultados de uma busca numa base de dados 84 headings 162
34 Exemplo da perda de um item importante por causa de mera omisso 66 Exemplo de entradas do ndice de autores do Cumulated Jndex
do indexador 86 Medi cus 163
35 Fatores que podem afetar a qualidade da indexao 89 67 Exemplo de entradas do App/ied Science and Techno/ogy Index 164
36 Coerncia do indexador relacionada aos interesses dos usurios 92 68 Exemplo de entradas do volume anual do Engineering Jndex 165
37 'Padro' de indexao de um mtigo mdico 96 69 Exemplo de entradas do ndice de assuntos do Engineering lndex 166
38 Escores de dois indexadores em comparao com o padro da 70 Exemplo de entradas do Librmy and Information Science Abstracts 167
figura 37 97 71 Exemplo de entradas do ndice de assuntos do Librmy and
39 Resumo indicativo lO I Information Science Abstracts 168
40 Resumo informativo 102 72 Categorias de assuntos usadas pelo Librmy and Information
41 Exemplo de um resumo crtico 104 Science Abstracts 169
42 Gabarito para um resumo estruturado 106 73 Exemplo de entradas do Librmy and Information Science Abstracts 170
43 Resumo em 'diagrama de bloco' 107 74 Exemplo de entradas do ndice de assuntos do Librmy and
44 Resumos modulares 108 Information Science Abstracts 171
45 Entradas de ndices modulares 109 75 Exemplo de entradas do ndice de assuntos do Chemical Abstracts 172
46 Comparao de minirresumo, resumo de autor e resumos publicados 76 Exemplo de entradas do fndice de palavras-chave do Chemical
em Chemical Abstracts e Biological Abstracts 110 Abstracts 173
47 Princpios para redao de resumos, do Defense Documentation 77 Exemplo de entradas do ndice de frmulas do Chemica/ Abstracts 174
Center (1968) 115 78 Exemplo de resumos de Socio/ogy o[ Education Abstracts 175
48 Exemplo de resumo altamente formatado ll8 79 Exemplo de entradas de ndice do Sociology o[ Education Abstracts 176
49 Informaes essenciais de que necessitam os clnicos no resumo 80 Exemplo de entradas do ndice de assuntos do Epilepsy Abstracts 177
estruturado ll9 81 Exemplo de entradas do Current Technology Index 178
50 Fundamentos da redao de resumos 121 82 Exemplo de entradas PRECIS do British Education Index 178
51 Resultados hipotticos de um teste de previsibilidade de relevncia 124 83 Exemplo de entradas do Social Sciences Citation Index 180
52 Regras, destinadas a resumidores, concernentes s caractersticas de 84 Exemplo de entrada do ndice de fontes do Social Sciences Citation
recuperabilidade dos resumos 132 lndex 180
53 Crescimento da literatura cientffica sobre AIDS, 1982-1987 140 85 Exemplo de entrada do ndice de assuntos Permuterm do Social
54 Literatura sobre AIDS: cobertura por idioma, 1982-1987 140 Sciences Citation Jndex 181
55 Literatura sobre AIDS: cobetiura por pas, 1982-1987 140 86 Exemplo de pgina do Current Contents 183
56 Nmero de peridicos que publicaram artigos sobre AIDS, 1982-1987 140 87 Exemplo de ennadas do fndice de palavras-chave do Current Contents 184
57 Disperso da literatura de peridicos sobre AIDS em 1987 141 88 O sistema de indicadores de funo do EJC 191
58 Grfico da disperso da literatura sobre AIDS 143 89 Infixos semnticos do sistema da \Vestem Reserve University 193
59 Peridicos cientficos que publicaram a maioria dos artigos 90 Indicadores de funo do sistema da Western Reserve University 194
sobre AJDS, 1982-1987 143 91 Resumo telegrfico ar.mazenado em formato eletrnico 195
60 Exemplo hipottico da distribuio de itens sobre 'supercondutores' 92 Os dispositivos de preciso criam classes menores; os dispositivos
sob termos num ndice impresso 147 de revocao criam classes maiores 198
61 Distribuio de itens sobre imunologia celular no porco sob termos 93 Exemplo de entrada da base de dados de fico Book House 205
no Index i\ledicus 147 94 Exemplo de um romance indexado com o mtodo de Pejtersen 206

~"" --- ...


95 Duas sinopses possveis de As aventuras de Pedro, o Coelho, de Parte 1
Beatrix Potter 210
96 Exemplo de uma entrada de Masterplots 212
97 Estruturas lingsticas para orientar a anotao e indexao Teoria, princpios e aplicaes
de fico 213
98 Principais nveis de abstrao na base de dados de um museu 215
99 Exemplo de registro catalogrfico de uma pintura 217
100 Consulta formulada a uma base de dados meteorolgicos 222
1O1 Dois mapas meteorolgicos recuperados em resposta consulta
da figura l 00 224
I 02 Consulta incrementai numa base de dados de imagens 226
103 Comparao entre resumo e indexao com vocabulrio
controlado 257
104 Os prs e contras do texto livre versus vocabulrio controlado 259
105 Exemplo de entrada da base de dados TERM 275
l 06 Os problemas fundamentais da recuperao da informao 286
107 Exemplo de entradas de tesauro extradas por mtodos
automticos 298
108 Ligaes de citaes/referncias 299
109 Exemplo de um auto-resumo de Luhn 302
11 O Exemplo de extrato produzido pelo sistema ADAivl de redao
automtica de resumos 304
111 Mapa de relaes textuais 308
112 Busca inicial numa base de dados de um servio de atendimento
a clientes 330
113 Pesquisa por mais informao em base de dados de setvio de
atendimento a clientes 331
114 Casos selecionados com ordenao mais alta 332
ll5 Resumo de caso com a ao recomendada ao cliente 333
CAPTULO 1

Introduo

O propsito principal da elaborao de ndices e resumos construir repre-


sentaes de documentos publicados numa forma que se preste a sua
incluso em algum tipo de base de dados. Essa base de dados de representaes
pode ser impressa (como numa publicao de indexao/resumos; por exemplo,
o Chemical Abstracts ou o Engineering lndex), em formato eletrnico (quando
a base de dados muitas vezes ser o equivalente aproximado de um servio im-
presso), ou em fichas (como num catlogo convencional de biblioteca).
A funo das operaes de indexar/resumir, no mbito maior das atividades
de recuperao da informao, acha-se esquematizada na figura 1. Em primeiro
lugar, o produtor da base de dados seleciona da populao de documentos
recm-publicados aqueles que atendam a cettos critrios para sua incluso na
base de dados. O mais bvio desses critrios o assunto de que trata o docu-
mento. Outros critrios, no entanto, como o tipo de documento, a lfngua em que
se acha escrito, ou sua origem, tambm so impottantes. No caso das bases de
dados que lidam principalmente com mtigos de peridicos, os critrios de sele-
o comumente estaro centrados no peridico e no no attigo; ou seja, alguns
peridicos sero includos e outros no (embora alguns peridicos sejam inde-
xados em sua inteireza e outros o sejam de fonna seletiva). A cobettura propor-
cionada por muitas bases de dados , em grande medida, determinada por razes
de custo-eficcia. Particularmente no caso de bases de dados que abranjam um
campo altamente especializado, elas somente incluiro aqueles peridicos que
publicam prioritariamente attigos sobre os assuntos de interesse.
Os itens selecionados para incluso na base de dados sero 'descritos' de
vrias formas. Os processos de catalogao descritiva (que no aparecem na
figura 1) identificam autores, ttulos, fontes, e outros elementos bibliogrficos;
os processos de indexao identificam o assunto de que trata o documento; e o
resumo serve para sintetizm: o contedo do item. Os termos utilizados na inde-
xao sero com freqncia extra fdos de algum tipo de vocabulrio controlado,
como um tesauro (o 'vocabulrio do sistema' da figura 1), mas, em vez disso,
podem ser termos 'livres' (por exemplo, extra[dos do prprio documento).*

* Os termos utilizados podem, genericmnente, ser designados como 'tem10s de indexao',


embora, muitas vezes, seja tambm empregada a palavra 'descritores', em particular quando nos
estamos referindo a tennos de um tesauro. Neste livro, mnbas as expresses so usadas de modo
equivalente.
2 INDEXAO E RESUMOS: TEORIA E PRTICA

Estas atividades de descrio criam representaes dos documentos numa forma


que se presta para sua incluso na base de dados. Os prprios documentos nor-
malmente sero destinados a l!l tipo diferente de base de dados (o acervo de
documentos) como o caso das estantes de uma biblioteca.
1. INTRODUO

'estratgia de busca', a qual pode ser to simples quanto a escolha de um nico


termo para consultar um ndice impresso ou um catlogo em fichas, ou exigir a
combinao de muitos termos numa estratgia mais elaborada e complexa, em-
pregada para consultar uma base de dados mantida localmente ou conectada em
3

Os membros da comunidade a ser atendida utilizaro a base de dados, funda- linha a alguma rede de computadores.
mentalmente, para satisfazer a diferentes necessidades de informao. Para O que se almeja, evidentemente, ao fazer uma busca numa base de dados,
lograr isso, devem converter uma necessidade de informao em algum tipo de encontrar documentos que sejam teis -para satisfazer a uma necessidade de
informao, e evitar a recuperao de itens inteis. 'Relevante' e 'pertinente' so
termos freqentemente empregados para se referir a itens 'teis', e foram defini-
Populao de'----- dos de diferentes formas. H muito desacordo sobre o que realmente significam
documentos r Documentos 'relevncia' e 'pertinncia' (Lancastere Warner, 1993). Neste livro considerarei
selecionados
como sinnimas as expresses 'til', 'pertinente' e 'relevante para uma necessi-
dade de informao'. Ou seja, um documento pertinente (til) aquele que con-
tribui para satisfazer a uma necessidade de informao.
O problema da recuperao da informao est representado graficamente
Redao dos na figura 2. O retngulo inteiro representa uma base de dados e os itens que
resumos
contm. Os itens com sinal de adio (+) so aqueles que um consulente
Descrio dos
hipottico consideraria teis para atender a uma necessidade de informao
documentos
atual, e os itens com sinal de subtrao(-) so aqueles que no consideraria
teis. Para qualquer necessidade especfica de informao haver muito mais
itens- do que itens+. Na realidade, se se desenhasse o diagrama em escala',

- - - - - + -
Vocabulrio
Base de dados en
do sistema
,............... .~ fum1ato impresso
ou eletrnico +-
---- - - - - - - - -- -
t + - - +- - - - - - - +- -
Estratgia
de busca

t + + - - - - - -
Necessidades de
informao - - + - -
Populao de
ust1rios da ---+--
base de dados
+ - - - - - + -

FIGURA I
A funo da elaborao de indices e resumos no quadro mais amplo FIGURA 2
da recuperao da informao O problema da recuperao de itens pertinentes de uma base de dados
r
4 1. INTRODUO 5

I
JNDEXAO E RESUMOS: TEORIA E PRTICA

seria quase certo que os onze itens teis estariam acompanhados de toda uma enceta qualquer esforo no sentido de tratar de todos esses fatores (ainda que
muralha de itens inteis. O problema est em recuperar tantos itens teis quantos todos estejam inter-relacionados), mas se concentra nas atividades impmiantes
for possfvel, e o menor nmero possvel de itens inteis. de descrio do documento ou, pelo menos, aquelas que dizem respeito ao
O menor dos dois retnguloS internos da figura 2 representa os resultados de contedo dos documentos.
uma busca realizada na base de dados, que recuperou 57 itens, seis dos quais Em princpio, a base de dados representada na figura I poderia ser a totali-
foram teis e 51 inteis. A relao entre itens teis e o total de itens recuperados dade do contedo da Rede Mundial (World \Vide Web) (doravante denominada
(6/57 ou cerca de 10% neste caso) comumente denominada coeficiente de simplesmente a Rede). No entanto, o diagrama no representa a situao da Rede
preciso. O ndice empregado habitualmente para expressar a extenso com que to bem quanto representa bases de dados, como o catlogo de uma biblioteca
todos os itens teis so encontrados o coeficiente de revocao. No presente universitria ou uma base de dados de registros bibliogrficos de atiigos de
exemplo, o coeficiente de revocao de 6/ll ou cerca de 54%. peridicos, como a base de dados MEDLINE da National Library o f Medicine.
Nessa situao, provavelmente seria preciso, para melhorar a revocao, Uma vez que qualquer organizao ou qualquer pessoa pode criar uma pgina na
fazer uma busca mais genrica. Essa busca representada pelo maior dos dois Rede, no est em causa nenhum processo de seleo real. Adernais, embora os
retngulos internos. Ao fazer a busca de modo mais genrico, aumentou-se a stios da Rede possam incluir algum tipo de dado descritivo sobre seu contedo
revocao para 8/11 (73%), mas a preciso caiu ainda mais para 8/!12, ou cerca (normalmente denominados 'metadados'; ver a nota que precede imediatamente
de 7%. Uma caracterfstica lamentvel, inerente recuperao da informao, este captulo), muitos no o fazem, e os dados descritivos so parte integrante
que uma melhoria da revocao em geral implica perda de preciso e vice-versa. das prprias pginas da Rede, no se encontrando numa base de dados separada.
A figura 2 sugere outro fenmeno. Talvez fosse possvel fazer uma busca Alm do que, a indexao e a elaborao de resumos de contedos da Rede por
suficientemente genrica para localizar todos os itens teis (isto , alcanar seres humanos constituem mais a exceo do que a regra, de modo que a maior
100% de revocao); entretanto a preciso seria provavelmente inaceitvel. patie das buscas ali feitas ocorre no texto integral dos stios acessados por deter-
Ademais, quanto maior for a base de dados, menos aceitvel ser uma baixa pre- minado mecanismo de busca. Nos casos em que so realizadas operaes de
ciso. Ernbora o usurio esteja qisposto a examinar, por hiptese, 57 itens, a fim indexao ou resumo, o provvel que sejam efetuadas 'automaticamente' por
de encontrar seis que lhe sejam teis, talvez se sinta muito menos inclinado a meio de vrias etapas de processamento infonnatizado. Esses procedimentos
examinar 570 resumos para encontr.ar 60 que sejam teis. Em bases de dados automticos, junto com as buscas em textos completos e o caso especfico da
muito grandes torna-se, pmianto, progressivamente mais difcil alcanar um Rede, so tratados nos captulos finais deste livro. Embora a figura l no
nvel de revocao aceitvel com um nfvel de preciso satisfatrio, uma situao COlTesponda exatamente situao encontrada na Rede, a figura 2, sim. Isto , o
que chegou a um ponto crtico quando se procura informao na internet. problema de busca mostrado ali igualmente pertinente s buscas feitas na Rede,
Neste livro emprego o termo revocao [recai!] para designar a capacidade exceto que multiplicada por ordens de grandeza.
de recuperar documentos teis, e preciso para designar a capacidade de evitar
documentos inteis. Existem outras medidas do desempenho para buscas reali-
zadas em bases de dados (ver, por exemplo, Robe1tson, 1969), algumas das
quais so matematicamente mais exatas, porm a revocao e a preciso com-
pem o quadro geral e ainda parecem ser as medidas bvias a serem utilizadas
para expressar os resultados de qualquer busca que simplesmente divida uma
base de dados em duas partes (recuperados e no recuperados).* A figura 1 deixa
evidente que so muitos os fatores que determinam se uma busca numa base de
dados ou no bem sucedida. Entre tais fatores encontra-se a cobertura da base
de dados, sua poltica de indexao, sua prtica de indexao, sua poltica e
prtica de redao de resumos, a qualidade do vocabulrio empregado na inde-
xao, a qualidade das estratgjas de busca, e assim por diante. Este livro no

* Uma busca que classifique os resultados em ordem de 'relevncia provvel' exige uma medida
um tanto diferente, a qual, com efeito, compara a classitlcao [ranking] obtida com uma elas-
si ti cao ideal.
r
I 2, PR!NcfPIOS DA INDEXAO 7

CAPTULO 2 A diferena ent1e indexao e redao de resumos est se tornando cada vez
mais difusa. Por um lado, uma lista de termos de indexao pode ser copiada pela
I impressora ou mostrada na tela de modo a constituir um minirresumo. Por outro
lado. o texto de resumos pode ser armazenado num sistema informatizado de
Princpios da indexao
I modo a permitir a realizao de buscas por meio da combinao de palavras que
ocorram nos textos. Esses resumos podem ser utilizados no lugar de termos de
indexao, permitindo o acesso aos itens, ou complementar os pontos de acesso
proporcionados pelos termos de indexao. Em ce11a medida isso modifica a
funo do resumidor, que deve agora preocupar-se no s em redigir uma des-
E mbora o ttulo deste livro se refira 'indexao', seu alcance limita-se, de
fato, indexao de assuntos e redao de resumos. A indexao de assun-
tos e a redao de resumos so atividades intimamente relacionadas, pois ambas
crio clara e de boa qualidade do contedo do documento, mas tambm em
criar um registro que seja uma representao eficaz para fins de recuperao.
implicam a preparao de uma representao do contedo temtico dos docu- Se a indexao e a redao de resumos fossem consideradas como atividades
mentos. O resumidor redige uma descrio narrativa ou sntese do documento, e inteiramente complementares, a natureza da atividade de indexao sofreria al-
o indexador descreve seu contedo ao empregar um ou vrios termos de inde- gum tipo de mudana. Por exemplo, o indexador se concentraria na atribuio de
xao, comumente selecionados de algum tipo de vocabulrio controlado. termos que complementassem os pontos de acesso existentes no resumo. Tal
O principal objetivo do resumo indicar de que trata o documento ou sin- complementaridade, porm. deve ser inteiramente reconhecida e compreendida
tetizar seu contedo. Um grupo de termos de indexao serve ao mesmo prop- pelo usurio da base de dados. Do contrrio, um conjunto de termos de indexa-
sito. Por exemplo, o seguinte conjunto de termos proporciona uma idia bastante o isolados daria uma imagem bastante equivocada do contedo de um item.
razovel sobre os assuntos tratados num relatrio hipottico:
Extenso do registro
Centros de Informao
Compartilhamento de Recursos Uma das propriedades mais impot1antes de uma representao de contedo
Catlogos Coletivos temtico sua extenso. O efeito da extenso do registro acha-se exemplificado
Catalogao Cooperativa na figura 3. No lado esquerdo da figura, encontram-se vrias representaes do
Redes em Linha contedo de um artigo de peridico na forma de texto narrativo; no lado direito,
Emprstimos entre Bibliotecas esto duas representaes na forma de listas de termos de indexao.
O thtlo contm uma indicao geral sobre aquilo de que trata o artigo. O
Em certo sentido, essa lista de termos pode ser vista como uma espcie de minir- resumo breve oferece mais detalhes, indicando que o artigo apresenta resultados
resumo. Serviria a tal propsito se todos os termos fossem reunidos num ndice da pesquisa e identificando as principais questes analisadas. O resumo ampli-
publicado, copiados pela impressora ou mostrados na tela para representar um ado vai mais alm, identificando todas as questes focalizadas na pesquisa e
item recuperado numa base de dados, como resultado de uma busca em linha. informando sobre o tamanhO da amostra utilizada no estudo.
De modo mais evidente, os termos atribudos pelo indexador servem como Quanto mais informaes so apresentadas, mais claramente a representao
pontos de acesso mediante os quais um item localizado e recuperado, durante revela o alcance do artigo, tornando-se mais provvel que venha a indicar para o
uma busca por assunto num ndice publicado ou numa base de dados eletrnica.* leitor se esse artigo satisfaz ou no a uma necessidade de informao. Por exem-
Assim, num ndice impresso, convm que se possa encontrar o item hipottico plo, algum talvez esteja procura de artigos que mencionem as atitudes nm1e-
mencionado anteriormente sob qualquer um dos seis termos. Num sistema de americanas em relao a vrios lideres rabes. O ttulo no traz indicao
recuperao informatizado, evidentemente, seria natural encontr-lo sob qual- alguma de que esse tpico especfico seja analisado, e o resumo breve, ao focali-
quer um desses termos ou, de fato, sob qualquer combinao deles. zar outros tpicos, sugere que talvez isso no acontea. somente o resumo
ampliado que mostra que o artigo inclui informaes sobre esse assunto.
"'Outros autores empregam terminologia diferente para designar a indexao e os termos de inde-
xao sem que isso altere de modo relevante o significado adotado neste livro. Por exemplo, Anderson Tambm, quanto maior a representao, mais pontos de acesso ela propor-
(1985) v os termos como 'indicadores' de contedo; indexao como "o processo de indicar o ciona. Se as palavras do tftulo fossem os nicos pontos de acesso, esse item
contedo e caractersticas afins de um documento". O'Connor (1996) prefere o termo 'aponta- provavelmente no seria localizado em muitas buscas para as quais poderia ser
mento' [pointing]: os termos de indexao so apontadores; indexao a tarefa de atribuir apon-
considerado uma resposta vlida. medida que se aumenta a extenso da repre-
tadores teis a fontes de informao.
8 INDEXAO E RESm.ms: TEORIA E PRTICA 2. PRINCPIOS DA INDEXAO 9
sentao tambm se aumenta a recuperabilidade do item. provvel que somen- 1. Anlise conceitual, e
te com o resumo ampliado fosse possvel recuperar esse item durante uma busca 2. Traduo.
de informaes sobre as atitudes norte-americanas em face dos lderes rabes. Intelectualmente so etapas totalmente distintas, embora nem sempre sejam
diferenadas com clareza e possam, de fato, ocorrer de modo simultneo.
Ttulo Indexao (seletiva) A anlise conceitual, em primeiro lugar, implica decidir do que trata um do-
Pesquisa nacional de opinio pblica sobre as atitu- OPINIO PBLICA cumento- isto , qual o se assunto. Os termos que aparecem na lista direita,
des norte-americanas a respeito do Oriente Mdio PESQUISAS POR TELEFONE
ESTADOS UNIDOS
na figura 3, representam a anlise conceitual de um artigo feita por este autor-
Resumo (breve) ATITUDES aquilo que, segundo sua opinio, constitua o assunto do artigo.
Uma pesquisa realizada por telefone em 1985 ORIENTE MDIO Esta afirmativa sobre anlise conceitual est bastante simplificada. A indexa-
apresenta opinies sobre tpicos como: a ajuda nor- o de assuntos normalmente feita visando a atender s necessidades de deter-
te-americana a Israel e ao Egito; se os EUA devem to- minada clientela- os usurios de um centro de informao ou de uma publica-
mar o partido de Israel, das naes rabes, ou de ne- Indexao (exaustiva)
nlmm destes; se a OLP deve participar de uma confe OPINIO PBLICA
o especifica. Uma indexao de assuntos eficiente implica que se tome uma
rncia de paz; e se um Estado palestino independente PESQUISAS POR TELEFONE deciso no somente quanto ao que tratado num documento, mas tambm por
um prrequisito para a paz. ESTADOS UNIDOS que ele se reveste de provvel interesse para determinado grupo de usurios. Em
AT!TUDES outras palavras, no h um conjunto 'correto' de termos de indexao para docu-
Resumo (ampliado) ORIENTE MDIO
mento algum. A mesma publicao ser indexada de modo bastante diferente em
Em 1985 foram feitas entrevistas por telefone com ISRAEL
EGITO diferentes centros de informao, e deve ser indexada de modo diferente, se os
uma amostra probabilstica de 655 norteamericanos.
Obtiveran1Se respostas s seguintes questes: o esta NAES RABES grupos de usurios estiverem interessados no documento por diferentes razes.*
belecimento de um Estado palestino essencial para ORGANIZAO PARA A LIBERTAO DA O indexador, ento, deve formular vrias perguntas sobre um documento:
a paz; deve ser reduzida a ajuda norteamericana a PALESTfNA
Israel e ao Egito; os EUA devem participar de uma CONFERNCIAS DE PAZ 1. De que trata?
PAZ
conferncia de paz que inclua a OLP; os EUA no 2. Por que foi incorporado a nosso acervo?
devem favorecer nem Israel nem as naes rabes, ESTADO PALESTINO
AJUDA EXTER.'IA 3. Quais de seus aspectos sero de interesse para nossos usurios?
mas, sim, manter relaes amistosas com eles? Tam
LiDERES POLTICOS
bm se expressarmn opinies sobre os principais lde- Esta situao acha-se bem exemplificada na figura 4. Esse exemplo hipo-
res do Oriente Mdio (Hussein, Arafat, Peres, Muba- ttico refere-se a relatrio publicado pela National Aeronautics and Space
rak, Fahd, Assad), especialmente seus esforos pela
paz, e se os entrevistados achavam que possuam ou Administration (NASA) a respeito de um vo espacial tripulado. Ao incorporar
.

no infomwes suficientes sobre os diversos grupos esse relatrio sua prpria base de dados, a NASA provavelmente estar
nacionais da regio. interessada em todas as suas facetas e o indexar exaustivamente, procurando
abranger todos os seus aspectos, talvez em nvel razoavelmente genrico. Uma
F!GURA3 parte do relatrio refere-se ao traje usado pelos astronautas, mencionando
Efeito da extenso do registro sobre a recuperabilidade alguns compostos novos de borracha sinttica empregados em partes dsse traje.
Isto faz com que o relatrio seja interessante para uma fbrica de borracha. Ao
A mesma situao aplica-se indexao. A indexao seletiva, que inclua ser incorporado ao acervo de documentos dessa fbrica, o relatrio ser inde-
apenas cinco termos, apresenta uma indicao muito geral daquilo de que trata o xado, porm, de modo bastante diferente. Sero usados termos altamente espec-
at1igo (aproximadamente equivalente, neste caso, ao ttulo) e um nvel de acesso ficos para indexar os compostos novos, e o termo genrico TRAJES ESPACIAIS
muito limitado. A indexao mais exaustiva proporciona uma indicao muito talvez seja empregado para indicar determinada aplicao para esses compos-
melhor do assunto especfico de que trata o artigo, bem como possibilita muito tos. Uma empresa metalrgica poder interessar-se pelo mesmo relatrio por um
mais pontos de acesso. motivo diferente: ele menciona uma nova tcnica de soldagem desenvolvida

Etapas da indexao de assuntos


* Dabney (1986a) admitiu isso ao fazer uma distino entre indexao orientada para o documen-
A indexao de assuntos envolve duas etapas principais: to e indexao orientada para a consultn. Acha-se tambm implcito no mtodo chamado 'gedcmken'
proposto por Cooper (1978).
r

10 rNDEXAO E RESUMOS: TEORIA E PRTICA .


I
! 2. PRINCfPIOS DA INDEXAO 11
possuem lacunas de informao de vrios tipos procurariam nos casos em que o re-
para unir certas ligas na construo do veculo espacial. Nes~e caso, ser ind~xa
do sob os termos relativos a soldagem, os termos apropnados para meta1s e
talvez o termo de aplicao gen~rica VECULOS ESPACIAIS. A fbrica de borracha
I! gistro de que dispem, de fato, tica a meio caminho de satisfazer a necessidade de in-
formao do usurio. Quando se pensa em tal desafio, possvel perceber que se trata
de algo muito peculiar. Quais os tipos de necessidades de infOrmao que as pessoas
indexa o relatrio de forma muito diferente daquela adotada pela empresa teriam e as levariam a querer informaes que o registro, de tto, contm? (p. 1187).
metalrgica, e nenhum desses conjuntos de termos se assemelha lista mais t Mai (2001), que se vale da semitica na anlise do processo de indexao
exaustiva adotada pela prpria NASA. temtica, faz uma descrio lcida das dificuldades que caracterizam o esforo
E assim porque assim tem que ser. Quanto mais especializada a clientela de de reconhecer por que determinado documento viria a ter interesse para futuros
um centro de informao maior a probabilidade de que a indexao possa e deva usurios:
ser feita sob medida, ajustando-se com preciso aos interesses do grup~. ~o
mente entre instituies de carter mais genrico, como, por exemplo, biblio- Seria quase impossvel, naturalmente, para qualquer pessoa ou, neste caso, qualquer
indexador, precisar todas as idias e significados que estivessem associados a qual-
tecas universitrias gerais, que existe a possibilidade de uma delas indexar um
quer documento, posto que sempre haver idias e signiticados potenciais que dife-
documento exatamente da mesma forma que outra. Fidel (1994) emprega a ex-
rentes pessoas em diferentes momentos e lugares podero descobrir nesse docu-
presso 'indexao centrada no usurio' para designar~ princ~io da indexao mento. Alm do que, seria quase impossfvel prever com exatido quais das inmeras
que se baseia nos pedidos que so esperados de determmada clientela. idias e significados que estivessem associados ao documento seriam especifica-
mente teis para os usurios ou dariam ao documento alguma utilidade duradoura.
Relatrio Tcnico da NASA Com a Descrio de uma Nova Misso Espacial Tripulada da mxima importncia reconhecer e aceitar essa indefinio fundamental. O inde-
Empresa Metalrgica
xador deve compreender, desde o inicio, que jamais descobrir todas as idias e sig-
NASA Fbrica de Borracha
niticados que estariam associados ao documento e que, portanto, no possvel des-
Novos Novas crever todas essas idias e significados (p. 606).
Indexao
exaustiva compostos tcnicas
de
Layne (2002), referindo-se especificamente indexao de imagens no
abrangendo de
borracha soldagem e campo da arte, tambm admite a necessidade de indexao diferente, com ter-
todos os
aspectos sinttica metais minologia diferente, para pblicos diferentes:
num nvel envolvidos
O segundo aspecto da escolha do vocabulrio para imagens artisticas est em que
um tanto
genrico TRAJES ESPACIAIS VEiCULO$ ESPACIAIS uma imagem pode interessar a vrias disciplinas com diferentes vocabulrios. Por
exemplo, O nascimento de Esa e Jac teria interesse para historiadores da medicina
que desejassem usar o vocabulrio mdico, ao invs de um vocabulrio mais comum,
na busca de imagens. Evidentemente, no prtico empregar todos os vocabulrios
possveis quando da criao de acessos temticos para imagens artsticas. Mas, se se
FlGURA4 souber ou houver a inteno de que determinado acervo de imagens artsticas ser
Exemplo de um documento indexado segundo diferentes pontos de vista usado por determinada disciplina, talvez valha a pena ponderar quanto ao uso de um
vocabulrio especializado alm do vocabulrio geral. Por exemplo, uma imagem de
Hj 0 rland (200 1) concorda que a indexao deve ser moldada para se ajustar tulipas seria indexada comO 'tulipas' ou mesmo 'flores' para usurios comuns, e os
s necessidades de determinada clientela: nomes cientficos das espcies, como Tulipa turkestanica, seriam empregados como
termos de indexao, caso houvesse botnicos entre os usurios pretendidos (p. 15).
Urna vez que qualquer docurriento pode, em princpio, proporcionar.re~postas a uma
infinidade de questes, as anlises de assuntos devem estabelecer pnondades bas:a- Para certos tipos de materiais, a indexao orientada para o usurio pode at
das nos grupos de usurios especificas atendidos (ou servios especfic.os prop?rciO- ser mais importante do que o no caso de mtigos de peridicos, livros ou rela-
nados na ecologia da informao). O assunto de um documento assun relatiVO a? trios tcnicos. Por exemplo, certos autores, como Shatford ( 1986) e Enser
objetivo do servio de informao especfico. Defino assunto[ ... ] co~o os ~o.ten~l (1995), salientam que diferentes grupos de usurios podem ver os acervos de
ais epistemolgicos ou informativos dos documentos. A melhor anlise temat1ca e a imagens de modo bastante diferente. O que levou Brown et ai. (1996) a sugeri-
que faz o melhor prognstico qtmnto ao uso futuro do documento (p. 776). rem a necessidade de um tratamento 'democrtico' da indexao, em que os
Este aspecto foi tambm examinado por Bates ( 1998): usurios acrescentariam aos registros termos de sua prpria escolha, quando isso
fosse necessrio e apropriado.
[ ... ] 0 desafio para o indexador tenta'r antecipar quais os termos que as pessoas que
12 INDEXAO E RESUMOS: TEORIA E PRTICA 2. PRINCPIOS DA lNDEXAO 13
Hidderley e Rafferty (1997) apresentam um mtodo de tratamento democr- e o fato de ser 'relativo'. No entanto, ela baseia essa afirmao no fato de que os
tico da indexao. Uma amostra de usurios recebe um objeto (livro, artigo, vocabulrios (por exemplo, cabealhos de assuntos, classificaes) mudam e
imagem) junto com uma indexao desse objeto que reflete uma 'viso pblica' no no fato de que as necessidades e interesses dos usurios mudam.
(por exemplo, um conjunto de termos extrados de um tesauro por indexadores Mai (2000) tambm adve1te que a indexao orientada para o usuano
experientes). Os usurios alteram a viso pblica de modo a refletir sua prpria somente pode estar voltada para determinado conjunto de usurios em determi-
'viso particular'. Com base em mltiplas vises patticulares de um conjunto de nado ponto no tempo:
objetos, surge uma nova viso pblica. Adota~se um processo de harmonizao
Se se focalizar exclusivamente o aspecto da representao, ignorando os usurios
para chegar viso pblica final. Esse processo leva em conta quantos usurios futuros, corre~se o risco de representar os documentos de uma forma que no ter
associaram determinado termo a determinado objeto. Em especial, os autores qualquer serventia para os usurios. Um indexador que no d muita ateno aos
defendem um tratamento 'democrtico' da indexao de obras de fico porque, usurios poder optar por representar assuntos de documentos que no tenham
11
como salientam, "o texto ficcional pode ser lido de muitas maneiras diferentes interesse para eles, ou usar um vocabulrio diferente do vocabulrio deles, ou repre-
:tvltodos co laborativos ou 'democrticos' so, no mais das vezes, recomen- sentar o assunto em nvel que seja muito genrico ou muito especfico para eles. No
dados para o caso da indexao de imagens (ver o captulo 13). entanto, se o indexador der excessiva ateno aos usurios do sistema, poder repre~
Os mtodos co laborativos de indexao so, obviamente, mais viveis em sentar os documentos numa forma tal que a representao temtica dos documentos
somente atenda aos usurios atuais e s necessidades de informao atuais (p. 294).
ambiente de biblioteca digital. Isto , usurios de uma biblioteca podem oferecer
novos termos de indexao aos itens que consultam, e esses termos fornecidos
pelos usurios sero ento armazenados em novo campo do registro. Villarroel Atinncia
et ai. (2002) propem um enfoque em que os usurios destacam sees do texto Nas consideraes anteriores no se fez qualquer tentativa para definir a
digital que consideram importantes, e esse destaque pode levar reviso dos expresso 'de que trata um documento': a expresso ''de que trata' era simples-
'pesos' (ver captulo 11) relativos aos termos de indexao ou palavras do texto. mente um sinnimo para 'tem por assunto'. Ou seja, usou-se 'de que trata um
H uma importante lio a tirar dos princpios da indexao orientada para o documento' para designar o mesmo que 'os assuntos de um documento'. Estas
usurio. preciso que os indexadores saibam muito mais do que os princpios da expresses talvez no sejam muito precisas e no fcil definir 'trata de' e 'tem
indexao. Devem, em especial, estar inteiramente a par dos interesses da comu- por assunto'. Apesar disso, so expresses que soam aceitveis para a maioria
nidade atendida e das necessidades de informao de seus membros. Na reali- das pessoas, sendo por elas compreendidas. No pretendo pmtir para uma
dade, recomenda-se, usualmente, que o indexador no fique 'nos bastidores', discusso filosfica sobre o significado de 'trata de' ou 1 atinncia'. *Vrios au-
mas que tambm procure desempenhar outras atividades, inclusive a de biblio- tores j o fizeram. E nem assim conseguiram esclarecer a situao, pelo menos
tecrio de referncia, onde participam de buscas nos registros que criaram. no que tange atividade da indexao de assuntos. Beghtol (1986) e Hutchins
Pode-se avanar ainda mais com o princpio da indexao orientada para o (1978) recorrem ambos lingstica do texto ao examinar esta questo; :tvlaron
usurio ao sustentar que, em relao a determinado acervo de documentos e (I 977) adota um enfoque probabiHstico, e Swift et ai. (1978) so cautelosos ao
determinado grupo de usurios, qualquer conjunto ideal de termos de indexao salientar que a atinncia na indexao talvez no coincida com a atinncia que as
ser ideal somente em determinado ponto no tempo. Passados alguns anos, o pessoas que esto em busca de informaes tm em mente. Wilson ( 1968) chega
mesmo grupo de usurios poder precisar de acesso ao mesmo acervo (ou outro ao ponto de sugerir que a indexao de assuntos se defronta com problemas
bastante semelhante) a partir de perspectivas diferentes. Um exemplo bvio 'intratveis', visto ser to difcil decidir do que trata um documento.
seria uma coleo de relatrios tcnicos dentro de uma instituio de pesquisa: IVIoens et ai. (1999) afin1.1am que um texto no possui uma 'atinncia' intrn-
as mudanas de prioridades e os interesses de pesquisa da instituio podem seca, mas que tambm possui diferentes 'significados' de acordo com "o uso
alterar a forma como a coleo til para a comunidade. Isso pode ser verdade, pmticular que uma pessoa pode fazer da atinncia em dado momento".
em especial, no caso de pesquisas interdisciplinares. De fato, pode~se alegar que, Layne (2002) faz distino entre 'de-ncia' ['ofness'] e atinncia ['about-
num mundo ideal, um acervo seria organizado (isto , indexado) em torno dos ness'] no caso de imagens artsticas:
interesses de determinado projeto de pesquisa. Quando o projeto mudasse, o
acervo seria reorganizado em torno das novas exigncias. Naturalmente, o custo
da reindexao e reorganizao em geral torna essa proposta economicamente *O autor emprega os termos ingleses ahoul e aboutness. O primeiro traduzimos por 'trata de' e o
pouco atraente. Weinberg ( 1992) salientou a impermanncia do acesso temtico segundo por 'atinncia'. Outros traduzem ahoutness por' tematicidade', 'temtica', 'acerca-de',
'ser acerca-de', 'ser sobre algo', etc. (N.T.)
INDEXAO E RESUMOS: TEORIA E PRTICA 2. PRINCPIOS DA INDEXAO 15
14
Menos bvio do que a de-ncia [ofness] de uma obra de arte, mas muitas vezes mais que ele 'trata' da comunicao internacional, sendo improvvel que venha a ser
instigante, aquilo de que trata a obra de arte. [... ]s vezes, a atinncia [about-ness] indexado desta forma, a menos que o autor faa meno explicitamente ao
de uma obra de arte relativamente bvia, como na Alegoria da justia, de Georg aspecto da comunicao internacional.
Pencz. [... ]Essa a imagem de [oj] uma mulher despida que segura uma espada e Wong et ai. (2001) tratam 'atinncia' como sendo mais ou menos sinnimo
urna balana, mas o ttulo nos diz que a imagem uma f1gura alegrica qu~ represen- de 'relevncia':
ta a justia ou, em outras palavras, que a imagem trata do [is about] concetto abstrato
de 'justia'. No desenho de GoyaDespreciarlos insultos[ ... ] aatinncia um pouco [... ]se um dado documento. o trata do pedido Q, ento existe uma alta probabilidade
m'nos bvia, mas claro que essa obra possui algum significado alm simplesmente de que D ser relevante em relao necessidade de informao associada. Assim, o
do que mostra de. De fato, uma descrio do que contm- um homem, talvez o pr- problema da recuperao da informao se reduz deciso acerca da relao de
prio Goya, gesticulando para dois anes uniformizados- no basta realmente para atinncia entre documentos e pedidos (p. 338).
dar sentido imagem; ela simboliza algo mais, trata de algo mais: a relao entre Es-
Eles relacionam a atinncia diretamente s medidas de revocao e preciso.
panha e Frana no incio do sculo XIX ou, mais especificamente, a atitude pessoal de
Continuam a aparecer na literatura m1igos sobre atinncia. Hj.mland (200 I) e
Goya em relao ocupao da Espanha pela Frana (p. 4).
Bruza et ai. (2000) so exemplos. Embora possam apresentar algum interesse
Ela acredita que essa distino vlida e que, na recuperao, deveria ser poss- acadmico (Hjorland d-se ao trabalho de tentar diferenar termos como
vel separar uma da outra: 'assunto', 'tpico', 'tema', 'domnio', 'campo' e 'contedo'), no tm qualquer
[... ] possibilita recuperar, por ~xemplo, exatamente aquelas imagens que sejam da imp011ncia prtica para o indexador, que far bem se ignorar essas diferenas
'morte' e excluir as que tratam_da 'morte'. Tambm permite a subdiviso de grandes semnticas e simplesmente atribuir ao item os rtulos que o tornaro utilmente
conjuntos de imagens recuperadas com base nessas distines. Por exemplo, uma recupervel pelos membros de uma comunidade-alvo.
pesquisa sobre 'morte' como assunto recuperaria imagens subdivididas em grupos Em outras palavras, ser que precisamos realmente compreender o que
baseados em se a imagem representa explicitamente a 'morte' ou se trata do tema da 'atinncia' a fim de indexar de maneira eficiente? No bastar que sejamos capa-
'morte' (p. 13). zes de reconhecer que um documento tem interesse para determinada comuni-
Bruza et ai. (2000) focalizam a atinncia de uma pei-spectiva lgica. Tentam dade pelo fato de contribuir para nossa compreenso dos tpicos X, Y e z? O
"formalizar a relevncia lgica mediante a formalizao de propriedades do sen- reconhecimento de que realmente contribui para isso exemplificao processo que
so comum que descrevem a relao de atinncia". Tambm trabalham com a chamamos 'anlise conceitual', enquanto o processo de 'traduo' envolve uma
'no-atinncia' e a interao entre atinncia e no-atinncia. No contexto da deciso sobre quais dos rtulos disponveis melhor representam X, Y e z. 'Con-
recuperao da informao, a no-atinncia constitui realmente uma situao ceito' outra palavra sobre a qual alguns autores gostam de filosofar (ver, por
mais simples porque a grande mairia dos itens em qualquer base de dados exemplo, Dahlberg [1979]). Neste livro emprego-a para referir-me a um assun-
evidentemente no guarda qualquer relao possvel com qualquer consulta ou to estudado por um autor ou representado de alguma outra forma (por exemplo,
necessidade de informao (isto , so naturalmente itens 'no-atinentes'). numa fotografia ou outra imagem). 'Anlise conceitual', portanto, significa nada
O tema da atinncia est relacionado muito de perto com o da relevncia- mais do que a identificao dos assuntos estudados ou representados num docu-
isto , a relao entre um documento e uma necessidade de informao ou entre mento. Preschel (1972) adota uma abordagem muito prtica. Para ela, 'cOnceito'
um documento e um enunciado de necessidade de informao (uma consulta). O significa 'matria indexvel', e 'anlise conceitual' a 'percepo pelo inde-
tema da relevncia/pertinncia produziu um grande volume de debates~ publi- xador de matria indexvel'. Tinker talnbm adota uma posio prtica ( 1966):
caes. Encontra-se em Mizzaro ( 1998) um apanhado muito completo; Hjorland Ao atribuir um descritor [isto , um termo de indexao] a um documento, o
(2000) salienta que a relevncia dependente dos pressupostos teoncos que indexador declara que tal descritor possui alto grau de relevncia para o contedo do
orientam o comportamento da pessoa que busca informao. documento; quer dizer, ele declara que o significado do descritor est fortemente
Conforme Harter ( 1992) ressaltou, no entanto, um documento pode ser associado a um conceito incorporado ao documento, e que adequado rea
relevante para uma necessidade de informao sem 'tratar' d~ssa necessi~ade~de temtica do documento (p. 97).
informao. Por exemplo, se escrevo sobre o tema das barre1ras comumca~ao, Wooster (1964) ainda mais pragmtico, ao se referir indexao como a
uma histria do latim talvez tenha alguma relevncia, principalmente se hdar atribuio de termos "provavelmente relacionados de alguma forma com o con-
com a utilizao atual do latim pela Igreja Catlica e com_as instituies ~ue hoje tedo intelectual do documento original, para ajudar voc a encontr-lo quando
em dia se esforam para promover seu uso mais amplo. No obstante, atnda ~ue precisar".
possa inspirar-me nessa fonte ao escrever meu a11igo, poucas pessoa~ ate ganam
16 INDEXAO E RESUMOS: TEORIA E PRTICA 2. PR!NCiPIOS DA INDEXAO 17
No vejo nada de errado nessas definies ou descries pragmticas da rENCIA TRAO poderia ser subdividido em vinte termos mais especficos,
indexao temtica. Os pul'ist~s sem dvida tergiversaro sobre elas argu- cada um representando uma ordem de valores d resistncia trao) e eles
mentando que expresses como 'matria indexvel', 'relevncia', 'significado', estariam em algumas bases de dados, assim como os ndices de uma empresa
'associado a', 'conceito', 'adequado a', 'relacionado com' e 'contedo intelec- para seus prprios arquivos de contratos, ndices de compilaes de dados, ou
tual' no se acham definidas precisamente de modo a satisfazer a todos. No certas bases de dados de patentes. Algumas das objees de Breton, ento,
entanto, se tivermos de chegar a um acordo quanto definio exata dos termos seriam contestadas mediante a indexao em nvel muito mais alto de especifici-
antes de encetar qualquer tarefa, improvvel que cheguemos muito longe, seja dade. Tambm possvel indexar as funes, desde que as que possivelmente se
na indexao seja em qualquer outra atividade. apliquem a um dispositivo sejam identificadas pelo autor e. haja termos apro-
Weinberg (1988) levanta a hiptese de que a indexao frustra o pesquisador priados no vocabulrio da base de dados. Porm, totalmente irracional alimen-
porque ela lida apenas de forma genrica com aquilo de que 'trata' um docu- tar a expectativa de que o indxador seja capaz de reconhecer aplicaes que no
mento e no focaliza aquilo que ele proporciona de 'novidade' a respeito do t- foram especificamente afirmadas pelo autor.
pico. Ela afirma que esta distino se reflete na diferena entre 'atinncia' e 'as- Posteriormente, Breton ( 1991) relatou pesquisas sobre um sistema de inde-
pecto', entre 'tpico' e 'comentrio' ou entre 'tema' e 'rema'. Ela no consegue xao que concretizava suaS idias e pretendia ajudar no processo de 'inven-
convencer que essas distines sejam realmente teis no contexto da indexao o'. O sistema experimental resultou da indexao de milhares de produtos
ou que seja possvel para os indexadores sustentar essas distines. industriais segundo as funes que desempenham e seus 'atributos distintivos'.
Swift et ai. (1978) examinam as limitaes de um enfoque baseado na atinn- Os atributos incluam coisas como 'mais leve', 'mais barato\ 'mais seguro' e
cia na indexao em cincias sociais, e recomendam que os documentos sejam 'mais forte'.
indexados de acordo com os 'problemas' com os quais paream estar relaciona- Alguns autores sugerem que possvel melhorar a recuperao em certos
dos. difcil perceber como a distino que fazem difere da distino, feita ante- contextos por meio da indexao somente de determinadas caractersticas de um
riormente neste capftulo, entre lo que trata um documento e por que um deter- texto. Por exemplo, Oh ( 1998) sugere que, em psicologia, a indexao apenas de
minado usurio ou grupo de usurios teria interesse nele. Crowe (1986) afirma 'fatos empricos' (nomes de variveis, valores de correlao e informao sobre
que o indexador deve remeter ao 'ponto de vista subjetivo' do autor. Um de seus o nvel de significncia) melhoraria as condies de recuperao. Embora uma
exemplos trata do tpico da depresso, o qual pode ser estudado em livros ou indexao altamente especializada como essa seja justificvel em raras situa-
artigos a partir de diferentes pontos de vista (por exemplo, tratamento por meio es, improvvel que seja uma exigncia da maioria e provavelmente ser
de psicoterapia, por meio de medicamentos, etc.). Outra vez torna-se difcil vis- muito mais dispendiosa do que uma abordagem mais convencional.
lumbrar como isso difere da prtica habitual da indexao, como, por exemplo, o Virou moda nos ltimos anos considerar o problema da recuperao da
emprego de subcabealhos pela National Library ofMedicine. infnnao como sendo fundamentalmente uma questo de comparar o 'estado
Breton (1981) alega que os engenheiros pouco recorrem s bases de dados anmalo de conhecimento' de um consulente com o estado de conhecimento
porque os indexadores rotulam os documentos com os nomes de materiais ou mais 'coernte' dos autores (ver, por exemplo, Belkin et ai., 1982), implicando
dispositivos, enquanto mais provvel que os engenheiros precisem fazer as isso que os problemas residem mais na sarda do sistema (busca) do que na entra-
buscas a partir dos atributos ou das funes desempenhadas por esses materiais da. H um certo equvoco nisso. Se aceitamos que a indexao mais eficiente
ou dispositivos. Em outras palavras, eles gostariam de localizar um material ou quando se orienta para as necessidades de determinado grupo de usurios, a
dispositivo que satisfizesse a algum requisito atual (quanto resistncia, condu- funo do indexador ser prever os tipos de pedidos para os quais determinado
tividade, resistncia corroso, ou coisa que o valha) sem terem de nome-lo. documento ser provavelmente uma resposta til. Talvez isso ainda seja mais
Isso no constitui uma condenao da indexao de assuntos de per si, mas das difcil do que prever quais os tipos de documentos que tm probabilidade de cor-
polticas de indexao adotadas pela maioria dos produtores de bases de dados. responder de modo til a determinado pedido, o que constitui, em certo sentido,
Se se diz que um novo material ou uma liga descrita num relatrio possui certa a funo de quem faz a busca. Poder-se~ ia argir, ento, que o estado 'anmalo'
resistncia trao, esta propriedade pode ser indexada (por exemplo, atribuin- de conhecimento aplica-se mais ao lado de entrada do sistema de recuperao do
do o termo RESISTNCIA TRAO), porm o valor especfico dessa propriedade que sua sada. Olafsen e Vokac ( 1983) vem essa pmticularidade com clareza:
(isto , a resistncia alcanvel) no seria indexado pela maioria dos produtores
O indexador tem de lzer conjeturas sobre quais consultas sero formuladas pelo
de bases de dados, embora se possa mencion-lo no resumo. Naturalmente, no futuro usurio do sistema. Independentemente do grau de habilidade aplicada a esse
h razo para que os valores no sejam indexados (por exemplo, o termo RESIS- exerccio de adivinhao, ainda assim sero conjeturas, e o usurio recorre ao sistema
I
18 INDEXAO E RESUMOS: TEORIA E PR T!CA

levando sua prpria questo concreta, e as associaes que faz podem ser diferentes
das do indexador (p. 294).
I 2. PRINCPIOS DA INDEXAO

OPINIO PBLICA
PESQUISAS POR TELEFONE
ISRAEL
EGITO
19

ESTADOS UNIDOS NUDA


Estes autores tambm cometem um exagero de simplificao ao se referirem s ATITUDES PAZ
questes trazidas pelo usurio como 'concretas', quando, de fato, muitas delas ORlENTE MDIO
estaro longe disso. Apesar de tudo, talvez estejam certos ao sugerirem que os todos os quais aparecem no titulo ou no resumo. Uma forma primitiva de indexa~
problemas de uma eficiente entrada de dados num sistema de recuperao supe- o derivada, conhecida como Uniterm, empregava apenas termos formados por
ram os problemas concernentes sada. Conforme Fairthorne (1958) salientou, uma nica palavm para representar o contedo temtico. Se fosse estritamente
h muitos anos: "A indexao o problema fundamental bem como o obstculo observado, o sistema Unitenn acarretaria alguns resultados esquisitos, como a
mais dispendioso da recuperao da informao." separao de Oriente Mdio em ORIENTE e MDIO.
Em algumas aplicaes da indexao talvez seja possvel ser bastante mais A indexao por atribuio envolve a atribuio de termos ao documento a
preciso no que se refere ao que deva ser considerado 'indexvel'. Ao tratar da partir de uma fonte que no o prprio documento. Os termos podem ser
indexao de uma enciclopdia,. Preschel ( 1981) oferece as seguintes diretrizes: extrados da cabea do indexador; por exemplo, ele decidiria que os termos AJU-
Toda informao textual de natureza substantiva deve ser indexada. Define-se como DA EXTERNA e RELAES EXTERIORES, que no aparecem explicitamente em
'substantiva' a informao que abranja de 8 a 1O linhas de texto ou que seja singular nenhum dos resumos, seriam termos bons de usar no documento da figura 3.
ou notvel e que quase com certeza no ocorra em outro lugar da enciclopdia(p. 2). * Mais freqUentemente, a indexao por atribuio envolve o esforo de
representar a substncia da anlise conceitual mediante o emprego de termos
Em outras situaes nem sempre possvel tanta preciso.
extrados de alguma forma de vocabulrio controlado.
Com efeito, a questo sobre de que trata um item torna-se muito mais difcil
quando se examina a indexao de obras de criao, como textos de fico ou
filmes de longa-metragem, ou imagens em geral. Nesses contextos, a atinncia
Vocabulrios controlados
ser vista em prximos captulos. Um vocabulrio controlado essencialmente uma lista de termos autoriza-
Naturalmente, toda a questo da 'atinncia' tornou~se muito mais complexa dos. Em geral, o indexador somente pode atribuir a um documento termos que
no atual ambiente de hipertexto/hipenndia. Quando um item pode ser vinculado constem da lista adotada pela instituio para a qual trabalha. Comumente, no
[linked] a muitos outros, j no existe mais clareza sobre onde um comea e o entanto, o vOcabulrio contrOlado mais do que uma mera lista. Inclui, em geral,
outro acaba. Um documento trata apenas daquilo com que lida diretamente, ou uma forma de estrutura semntica. Essa estrutura destina-se, especialmente, a:
trata tambm dos tpicos abordados nos itens a ele associados? Pouco se 1. controlar sinnimos, optando por uma nica forma padronizada, com remis~
escreveu sobre a indexao de hipertextos de per si, embora nela se toque com sivas de todas as outras;
cet1a extenso na literatura de hipet1exto/hipermdia. Savoy (1995) e Salton et 2. diferenar homgrafos. Por exemplo, PERU (PAS) um termo bastante dife-
ai. (1997) examinam possveis mtodos para o estabelecimento automtico de rente de PERU (AVE); e
vnculos [links) de hipertexto, oque pode ser considerado uma forma de indexa- 3. reunir ou ligar termos cujos significados apresentem uma relao mais estrei-
o automtica. Em capftulos posteriores trataremos desse tema. ta entre si. Dois tipos de relaes so identificados explicitamente: as hierr-
quicas e as no-hierrquicas (ou associativas). Por exemplo, o termo MULHE-
Traduo RES OPERRIAS relaciona-se hierarquicamente com MULHERES (como uma
Traduo, a segunda etapa da indexao de assuntos, envolve a converso da espcie deste termo) e com DONAS DE CASA (tambm uma espcie do termo
anlise conceitual de um documento num determinado conjunto de termos de MULHERES), bem como est associado a outros termos, como EMPREGO ou
indexao. A esse respeito, faz-se uma distino entre indexao por extrao FAMLIAS MONDPARENTAIS, que aparecem em hierarquias bem diferentes.
(indexao derivada) e indexao por atribuio. Na indexao por extrao,
So trs os tipos principais de vocabulrios controlados: esquemas de classi-
palavras ou expresses que realmente ocorrem no documento so selecionadas
ficao bibliogrfica (como a Classificao Decimal de Dewey), listas de cabe-
para representar seu contedo temtico. Por exemplo, o item da figura 3 poderia
alhos de assuntos e tesauros. Todos procuram apresentar os termos tanto alfab-
ser indexado com os seguintes termos:
tica quanto 1 Sistematicamente'. Nas classificaes, o arrm~o alfabtico secun~
drio, na forma de um ndice que remete para o arranjo principal, que hierr-
* Esta citao de um texto indito reproduzida com autorizao de Funk & Wognalls. quico. No tesauro, o arranjo explcito dos termos alfabtico, mas existe uma
20 INDEXAO E RESUMOS: TEORIA E PRTICA 2. PRINCPIOS DA INDEXAO 21
estrutura hierrquica implcita, incorporada lista alfabtica por meio de remisR nhamos que o bibliotecrio tome um livro e decid que trata de ~aves'. Ele lhe
sivas. A tradicional lista de cabealhos de assuntos similar ao tesauro por ser de atribui o cabealho de assunto AVES. Alternativamente, pode atribuir o nmero
base alfabtica, mas difere dele porque incorpora uma estrutura hierrquica im- de classificao 598. Nluitos se refeririam primeira operao como cataloga-
perfeita e por no distinguir claramente as relaes hierrquicas das associa- o de assuntos e segunda como classificao, uma distino totalmente
tivas. Os trs tipos de vocabulrio controlam sinnimos , distinouem
b homora-
b absurda. A confuso ainda maior quando se percebe que indexao de assuntos
fos e agrupam termos afins, mas empregam mtodos um tanto diferentes para pode envolver o emprego de um esquema de classificao ou que um ndice
alcanar estes objetivos. impresso de assuntos pode a.dotar a seqncia de um esquema de classificao.
Um estudo mais completo dessas questes encontra-se em Lancaster (1986). Estas diferenas terminolgicas so muito inexpressivas e s servem para
confundir (ver Acton, 1986, para um exemplo tpico). O fato que a classifica-
Indexao como classificao o, em sentido mais amplo, permeia todas as atividades pe11inentes ao armaze-
Na bibliografia de biblioteconomia e cincia da informao, faz-se, s vezes, namento e recuperao da informao. Parte dessa confuso terminolgica se
uma distino entre as trs expresses indexao de assuntos, catalogao de deve incapacidade de distinguir entre as etapas de anlise conceitual e de
assuntos e classificao. Catalogao de assuntos refere-se comumente atri- traduo na indexao.
buio de cabealhos de assuntos para representar o contedo total de itens bi- Suponhamos que um especialista em informao tenha em mo um item bi-
bliogrficos inteiros (livros, relatrios, peridicos, etc.) no catlogo das biblio- bliogrfico e decida que ele trata do assunto 'robs'. A atividade intelectual que
tecas. Indexao de assuntos expresso usada de modo mais impreciso; refere- tal deciso implica a mesma, qualquer que seja o tipo de documento que tenha
se representao do contedo temtico de partes de itens bibliogrficos intei- em mo- livro, pa1te de livro, peridico, attigo de peridico, anais de evento,
ros, como o caso do ndice de final de livro. Assim, uma biblioteca pode 'cata- trabalho apresentado em evento, seja o que for. O especialista classificou o item,
logar' um livro sob o cabealho de assunto CES, para indicar seu contedo te- isto , colocou~o na classe conceitual de 'documentos que tratam de robs'.
mtico global; o contedo pormenorizado somente revelado pelo ndice de as- Como vimos antes, o processo de traduo envolve a representao da an-
suntos no final do livro.Adistino entre as expresses catalogao de assuntos lise conceitual mediante um termo ou termos extrafdos de um vocabulrio. Um
e indexao de assuntos, uma delas referindo-se a itens bibliogrficos inteims e termo atribudo a um item constitui simplesmente um rtulo que identifica deter-
a outra a paties de itens, m1ificial, enganosa e incongruente. O processo pelo minada classe de itens. Esse rtulo poderia ser o termo INTELIGNCIA ARTIFICIAL,
qual o contedo temtico de itens bibliogrficos representado em bases de extrado de um tesauro, de uma lista de cabealhos de assuntos ou do prprio
dados publicadas ~ em formato impresso ou eletrnico - quase invaria- documento, uma palavra eqpivalente de outra lingua, ou um rtulo como 006.3
velmente chamado de indexao de assuntos, quer se estejam examinando itens extrado de um esquema de classificao.
total ou parcialmente. Assim, o ndice de assuntos, por exemplo, do Chemical O processo que consiste em decidir do que trata um item e de atribuir-lhe um
Abstracts remete a livros ou relatrios tcnicos inteiros, bem como a partes de rtulo que represente esta deciso conceitualmente o mesmo, quer o rtulo
itens bibliogrficos (captulos de livros, trabalhos publicados em anais de even- atribudo seja extrado de um esquema de classificao, de um tesauro ou de uma
tos, ai1igos de peridicos). Por outro lado, as bibliotecas podem optar por repre- lista de cabealhos de assuntos, quer o item seja uma entidade bibliogrfica com-
sentar em seus catlogos partes de livros (por exemplo, captulos ou artigos); a pleta ou patie dela, quer o rtulo seja subseqentemente arquivado em ordem
isto se denomina comumente catalogao analtica. Quando aplicada ao con- alfabtica ou em outra seqncia (ou, com efeito, no arquivado de modo
tedo temtico, esta atividade seria a catalogao analtica de assuntos. algum), quer o objeto do exerccio seja organizar documentos em estantes ou
A situao fica ainda mais c~nfusa ao se examinar o termo classificao. Os registros em catlogos, ndices impressos ou bases de dados eletrnicas.
bibliotecrios costumam empregar esta palavra para designar a atribuio de No campo do armazenamento e recuperao da informao, a classificao
nt'lmeros de classificao (extrados de um esquema de classificao- por de documentos refere-se formao de classes de itens com base no contedo
exemplo, o Decimal de Dewey (CDD), o Decimal Universal (CDU), o da Library temtico. Tesauros, cabealhos de assuntos e esquemas de classificao biblio-
o f Congress (LC))- a itens bibliogrficos, especialmente com a finalidade de grfica so essencialmente listas dos rtulos com os quais se identificam e, por-
arrum~ los nas estantes das bibliotecas, em mveis de arquivo, etc. O catlogo ventura, se organizam essas classes. O processo da busca de informao implica
de assuntos de uma biblioteca, porm, pode ser organizado alfabeticamente decidir quais classes consultar num ndice impresso, catlogo em fichas ou base
(catlogo alfabtico de assuntos ou catlogo dicionrio) ou organizado segun- de dados eletrnica. A busca pode compreender o exame de uma nica classe
do a seqncia de um esquema de classificao (catlogo sistemtico). Supo- o
(por exemplo, tudo que aparea sob cabealho ROBS) ou abranger combina-
es de vrias classes (por ~xemplo, itens que apaream sob ROBS e tambm
22 INDEXAO E RESUMOS: TEORIA E PRTICA 2. PR!NdPIOS DA INDEXAO 23
sob INTELIGNCIA ARTIFICIAL). Quantas combinaes so possveis ou com qual
facilidade vrias classes podem ser combinadas algo que depende muito do Anlise Classificao Decimal Library ofCongress INSPEC
conceitual de Dewey Subject Headings Thesaurus
formato da ferramenta que estiver sendo utilizada na busca, principalmente se
for impressa ou em formato eletrnico. Robs industriais ROBOTS, INDUSTRIAL INDUSTRIAL
Em suma, a indexao de assuntos conceitualmente idntica cataloga- ROBOTS
o de assuntos. A atividade que isso compreende a classificao de assuntos, Inteligncia 670.427263 Inteligncia ARTIFICIAL ARTIFICIAL
ou seja, formar classes de objetos com base em seu contedo temtico. Neste artificial artificial aplicada a robs INTELLJGENCE JNTELLIGENCE
em operaes de
texto, emprega-se indexao de assuntos ou mesmo indexao, por razes de fabricao
comodidade, para designar todas as atividades de classificao de assuntos.
Operaes de MANUFACTURING MANUFACTURING
fabricao PROCESSES- PROCESSES
Especificidade do vocabulrio AUTOMATION

A figura 5 mostra uma anlise conceitual feita para um mtigo de peridico, Manuseio de 621.86 Equipnmento MATERIALS l\IATERlALS
materiais de manuseio de HANDU~G HANDLI~G
bem como a traduo desta anlise conceitual em trs tipos diferentes de voca-
materiais
bulrio. O artigo trata da utilizao de robs na indstria, especificamente, suas
Locomoo 531.112 Cinemtica ROBOTS - MOTION KINEI-.!ATICS
aplicaes na fabricao e manuseio de materiais. Tambm examina o emprego
de tcnicas de inteligncia artificial no projeto e operao de robs, bem como
FIGURAS
os problemas especficos inerentes a fazer com que os robs se movimentem
Anlise conceitual traduzida em trs vocabulrios controlados
adequadamente (isto , problemas de locomoo).
Com relao a todos esses aspectos, a anlise conceitual pode ser traduzida
tra que, embora a especificidade seja uma propriedade muito importante de um
efetivamente para qualquer um dos vocabulrios. Observe-se que as idias trans-
vocabulrio controlado, pode ser obtida de diferentes formas em diferentes
mitidas pela anlise conceitual da figura 5 so abrangidas coletivamente pelos
vocabulrios. importante considerar, em especial, as propriedades de combi-
grupos de termos listados nos trs vocabulrios. Por exemplo, os trs nmeros de
naes de termos de indexao mais do que as propriedades de termos isolados.
classificao da coo, tomados em conjunto, abrangem o contedo temtico
Vejamos, pot exemplo, um artigo sobre os servios de sade mental. O Voca-
desse artigo, de modo claro e completo, embora no haja uma relao unvoca
bulrio A contm o descritor especifico SERVIOS DE SADE MENTAL, enquanto o
entre os elementos individuais da anlise conceitual e os termos da CDD. Embora
Vocabulrio B possui o termo SERVIOS DE SADE, mas no o termo mais espe-
edies anteriores da CDD no permitissem muita sntese das notaes (isto , a
cfico. Porm, B tambm inclui o termo SADE MENTAL, de modo que a idia de
construo de nmeros), edies posteriores permitem isso cada vez mais. As-
'servios de sade mental' abrangida especificamente pela indexao sob SER-
sim, 670.4272 (robs em operaes de fabricao) pode ser subdividido por
VIOS DE SADE e SADE MENTAL. Sobre este tpico, pOitanto, o Vocabulrio 8
004-006. Uma vez que 006.3 representa inteligncia artificial, os nmeros
to especfico quanto A. Os vocabulrios C e D so menos especficos: c contm o
podem ser combinados para formar o nmero altamente especfico 670.427263.
termo SADE MENTAL, mas no possui termo algum para servios de sade, en-
A anlise conceitual da figura 5 abrangida de modo igual, completa e
quanto D traz SERVIOS DE SADE, mas carece de um termo para sade mental, de
especificamente, em cada vocabulrio, quando se consideram grupos inteiros de
modo que nenhum dos dois apresenta a possibilidade de expressar especifica-
termos. No nvel de um nico termo, claro, existem de fato diferenas. Se
mente a idia de 'servios de sade mental'. No momento de realizar uma busca
apenas um termo pudesse ser atribudo a esse artigo, a CDD seria melhor do que
nos sistemas representados pelos diferentes vocabulrios, seria possivel obter
os outros vocabulrios, pois possvel construir um nico nmero de classi-
resultados efetivos em A e B, mas seria impossvellirnitar a busca em C e D-ou
ficao que expresse o tpico pdncipal desse artigo.
seria recuperado tudo sobre sade mental, ou tudo sobre servios de sade.
Este exemplo ilustra dois aspectos importantes. Primeiro, o tipo de vocabu-
Este captulo tratou dos princpios da indexao apenas teoricamente, pois
lrio controlado (esquema de classificao, cabealhos de assuntos, tesauro) no
no usou como modelo nenhum servio de informao. provvel que grandes
o fator mais impmtante a influir na etapa de traduo da indexao. lVIuito mais
servios de informao produzam suas prprias diretrizes de indexao, que
importantes so o alcance (abrangncia) e a especificidade do vocabulrio. Nes-
merecem ser examinadas para se ver como as regras so aplicadas em deter-
te exerccio de indexao, os trs vocabulrios podem abranger o assunto muito
minado contexto. Um bom exemplo a estudar o manual de indexao e resumos
bem embora de modo um tanto diferente. O segundo aspecto que o exemplo ilus-
' do Sistema Internacional de Informao Nuclear (Brk et ai., 1996).
3. A PRTICA DA INDEXAO 25
Todos esses elementos devem ser examinados e avaliados pelo indexador durante a
CAPTUL03 anlise que faz do documento. No recomendvel fazer a indexao a partir exclusi-
vamente do tftulo, e, se houver um resumo, no deve ser visto como um substituto sa-
tisfatrio do exame do texto. Os tftulos podem ser enganosos; tanto os ttulos quanto
os resumos podem ser inadequados; em muitos casos nenhum dos dois uma fonte
A prtica da indexao confivel do tipo de informao que o indexador requer (p. 2).
Em seu abrangente estudo sobre como os indexadores realmente executam
suas atividades, Oliver et ai. (1966) descobriram que a maioria adota, efetiva-
mente, um mtodo de ler/passar os olhos:
A o indexador raramente dado o luxo de poder ler um documento atenta-
mente do comeo ao fim. A exigncia de indexar determinada quantidade
de itens por dia haver de lhe impor qu~ se satisfaa comumente com uma leitura
O maior grupo de indexadores (cerca de 85% do total) afirmou que examinam roti-
neiramente o documento inteiro. Esses indexadores, porm, salientaram que certas
que e~tar longe de ser completa. Usualmente, recomenda-se um misto de ler e partes do documento eram examinadas mais atentamente do que outras. Essas partes
'passar os olhos' pelo texto. As partes a serem lidas atentamente so as que incluiam resumo, introduo, sinopse, conduses, metodologia, resultados e tabelas
apresentam maior probabilidade de dizer o mximo sobre o contedo no menor e grficos. Se uma ou mais de uma dessas sees 'condensadas' fosse considerada
adequada pelo indexador, ele poderia examinar de relance ou simplesmente 'folhear'
tempo: tftulo, resumo, sinopse e concluses. Os ttulos das sees e as legendas
outras partes do documento. Os principais motivos para examinar o corpo do docu-
das ilustraes ou tabelas tambm merecem maior ateno. Convm passar os
mento foram para constatar se alguma coisa passara despercebida, oferecer maior
olhos pelo restante do texto, para confirmar se as partes mais condensadas con- profundidade da indexao, e dirimir quaisquer dvidas ou questes (p. 4-14).
tm uma imagem exata do que trata o documento. No entanto, o indexador deve,
habitualmente, levar em conta o documento inteiro (partes lidas, partes que fo- Posteriormente, Chu e O'Brien (1993) observaram que indexadores novatos
ram vistas de relance), e os termos atribudos precisam refletir o todo. A exceo utilizavam bastante os resumos, quando existiam, para determinar o assunto dos
seria quando somente parte do documento (por exemplo, um documento longo artigos. Embora hajam observado mais de cem indexadores, o eshtdo abrangeu
Com mltiplos assuntos) interessasse ao grupo de usurios a ser atendido. apenas trs artigos.
Jones (1976), citando Anderson (1971), salienta que ce11as partes de um Tudo isso se apia no pressuposto de que possvel ler o documento a ser
documento so particularmente gratificantes para o indexador: "Pargrafos de indexado. Conforme ressalta a ISO 5963 (Methods for examining documents,
abertura (de captulos ou sees) e frases de abertura e encerramento de pargra- 1985), procedimentos diferentes se aplicaro a outros tipos de itens:
fos parecem ser especialmente ricos em palavras indexveis. 11 Isso confirma as Documentos no-impressos, como os meios audiovisuais, visuais e sonoros, inclu-
concluses de Baxendale (1958) em seu trabalho sobre o desenvolvimento de sive objetos tridimensionais, exigem procedimentos diferentes. Nem sempre possf-
processos de indexao automtica de documentos. vel, na prtica, examinar um registro em sua inteireza (por exemplo, projetando um
Uma norma internacional sobre indexao de assuntos (At/ethodsfor examin- filme). A indexao, ento, comumente feita a partir de um ttulo e/ou de uma
ing documents, 1985) oferece ouhas instrues sobre como analisar um docu- sinopse, embora ao indexador deva ser dada a oportunidade de assistir ou ouvir o que
mento: se acha gravado, caso a descrio escrita seja inadequada ou parea inexata {p. 2).

Muitas vezes impraticvel fazer uma leitura completa, que nem sempre neces- Um livro de Sauperl (2002) descreve como os catalogadores nas bibliotecas
sria, porm o indexador deve assegurar-se de que nenhuma informao til lhe pas- identificam o assunto de um livro e escolhem os cabealhos e nmeros de classi-
sou despercebida. As partes importantes do texto devem ser examinadas cuida- ficao que lhe sero atribudos. Baseia-se na observao minuciosa do trabalho
dosamente, dando-se especial ateno s seguintes: de doze pessoas.
a) titulo; A indexao de fontes em formato eletrnico apresenta problemas especiais.
b) resumo, se houver; Browne (2001), por exemplo, chamou ateno para os problemas relativos
c) sumrio; indexao de stios da Rede:
d) introduo, as frases e pargrafos de abe11ura de capftulos, e as concluses;
e) Hustraes, grficos, tabelas e respectivas legendas; A primeira etapa na indexao de um stio da Rede ter uma noo do volume e do
t) palavras ou grupos de palavras que apaream sublinhados ou grafados com tipo de material a ser indexado. No caso das provas tipogrficas de um livro, pos-
tipos diferentes. svel segur-las com uma das mos e folhe-las rapidamente. Na Rede isso im-
possvel, de modo que se obrigado a examinar sistematicamente o stio, anotando o
26 INDEXAO E RESUMOS: TEORTA E PRTICA 3. A PRTJCA DA INDEXAO 27
tipo de informao, a quantidade de informaes e a qualidade dos vnculos de nave- mais preciso, e sua atribuio ser errnea, apesar de ter sido usado pelo autor.
gao. Verifica-se o tamanho dos arquivos em megabytes. Solicita-se ao responsvel So as idias com que lida o autor, e no as palavras por ele empregadas, que
pelo stio [webmaster] que fornea o maior nmero possvel de informaes sobre os
devem ser indexadas.
arquivos, inclusive quantos autores colaboraram com pginas. Quanto mais autores,
Hjorland (200 I) trata da seguinte forma a etapa da traduo na indexao:
mais variaes sero previstas, e maior ser a amostragem a ser feita {p. 32}.
Uma deciso posterior refere-se a quais descritores do vocabulrio controlado sero
O motivo para se examinar o documento , naturalmente, a deciso sobre o atribudos ao documento. Tal deciso pode (e deve) ser vista da perspectiva inversa: sob
que incluir na indexao (nas palavras de Preschel ( 1972), isso constitui a iden- quais descritores pareceria relevante para o usurio encontrar esse documento? {p.
tificao da <matria indexvel').* 777).
Conforme sugerido no captulo 2, o indexador, para fazer isso com eficin-
cia, precisa conhecer muito bem os interesses da comunidade servida pelo Embora concorde inteiramente com que a indexao esteja relacionada s neces-
ndice. Numa instituio especfica, os indexadores podem ser orientados no sidades de determinado grupo de usurios, acho que Hj0rland pode estar confun-
sentido de procurar nos documentos cettos elementos predefinidos; caso ocor- dindo as etapas de anlise conceitual e traduo. durante a primeira que se
ram, devero ser includos na indexao. Conforme o tipo de instituio, esses identificam as necessidades dos usurios. Isto , o indexador decide quais aspec-
elementos importantes incluem: materiais de fabricao, temperaturas envolvi- tos do documento provavelmente interessaro aos usurios. Em seguida, o inde-
das, gmpo etrio envolvido, nvel de escolaridade, etc. Em certos casos, os ele- xador seleciona os termos controlados que melhor representam esses aspectos.
mentos mais importantes so pr-impressos no formulrio de indexao, lem-
brando ao indexador que os tet'mos apropriados devem ser usados, se se apli- Exaustividade da indexao
carem a determinado documento. Por exemplo, a National Librmy ofNiedicine Os fatores que influem no desempenho de um sistema de recuperao da
emprega 'etiquetas' [checktags] desse tipo para indicar grupos etrios, gnero, informao e que so diretamente atribuveis indexao podem ser assim
tipos de animais utilizados em experincias, etc. categorizados:
Essa etapa de 'anlise conceitual' da indexao no deve ser influenciada
I. Poltica de indexao
pelas caractersticas do vocabulrio a ser usado na etapa de traduo. Isto , o
2. Exatido da indexao
indexador decide, primeiramente, quais os assuntos que precisam ser represen-
tados; s depois (a todo momento talvez) que verificar se o vocabulrio per- Anlise conceitual
mite ou no represent-los adequadamente. Em outras palavras, o indexador no Traduo
deve ignorar um ~ssunto porque sabe ou desconfia que no pode ser expresso As decises quanto poltica so tomadas pelos gestores do servio de infor-
adequadamente. E possfvel que um exame mais meticuloso do vocabulrio mao, estando, pmtanto, fora do controle do indexador individual; os fatores
mostre que estava equivocado. Ademais, uma funo impmtante do indexador relativos exatido se esto sob o controle do indexador individual.
contribuir para o aperfeioamento do vocabulrio controlado, comunicando A principal deciso poltica diz respeito exaustividade da indexao, a qual
suas deficincias aos responsveis por sua manuteno. improvvel que isso cOJTesponde, grosso modo, ao nmero de termos atribudos em mdia. O efeito
ocorra se o indexador for estimulado a 'pensar' com os termos controlados. A da exaustividade foi anteriormente exemplificado na figura 3. A indexao
propsito, discordo totalmente da ISO 5963, que afirma que "tanto a anlise exaustiva implica o emprego de termos em nmero suficiente para abranger o
quanto a transcrio devem ser realizadas com o auxlio de instrumentos de contedo temtico do documento de modo bastante completo. A indexao sele-
indexao, como tesauros e esquemas de classificao". A transcrio, claro, tiva, por outro lado, implica o emprego de uma quantidade muito menor de
no se realiza sem essas ferramentas, mas a anlise independe totalmente delas. termos, a fim de abranger somente o contedo temtico principal do documento.
Um fator afim a lembrar que a terminologia usada pelo autor pode no Quanto mais termos forem utilizados para indexar um documento mais acessvel
corresponder exatamente aos termos do vocabulrio controlado. Mesmo que os ele se tornar e, provavelmente, mais vezes ser recuperado. Um centro de infor-
termos empregados pelo autor coincidam com os termos controlados, a maneira mao procurar indexar exaustivamente se seus usurios solicitarem com fi:e-
como so utilizados pode ser diferente. Pot exemplo, um autor emprega o termo qUncia a realizao de buscas completas. Um consulente que precise localizar
'epidemiologia' de forma muito imprecisa, mas o vocabulrio define-o de modo todos os itens que, de alguma forma, tratem da OLP ter a expectativa de recu-
perar o documento mostrado na figura 3, mas isso somente ser poss[vel se a
*Ver Milstead (1984) para outras consideraes sobre como examinar um texto para identificar indexao tiver sido razoavelmente exaustiva.
sua 'matria indexvel'.
28 INDEXAO E RESUMOS: TEORIA E PRTICA 3. A PRTICA DA INDEXAO 29
As decises da poltica, no q"ue se refere exaustividade, no devem assumir usados na indexao de um documento, imaginemoRlo como se possusse duas
a forma de limites absolutos quantidade de termos a serem atribudos. Ao invs dimenses, como mostra a figura 6. Digamos que o indexador consiga identi-
disso, essa poltica poderia sugerir uma faixa de termos; por exemplo, 'a maioria ficar dez assuntos afins que so estudados no documento. ConsideraRse isso
dos documentos ser indexada com 8 a 15 termos'. Num grande centro de infor- como sendo o mbito de abrangncia do documento. Se o indexador tentar in-
mao, que lide com muitos tipos diferentes de documentos, a poltica pode cluir todos esses assuntos, a indexao ser tida como exaustiva (isto , ela uma
variar segundo o tipo de documento. Por exemplo, o centro de informao de representao exaustiva do contedo temtico). Quanto mais assuntos forem in-
uma grande empresa estabeleceria a seguinte poltica: cludos mais exaustiva ser a indexao. Por outro lado, quanto menos assuntos
Relatrios tcnicos da prpria empresa I 5-25 termos forem includos mais seletiva ser a indexao. Evidentemente, a indexao
Outros relatrios tcnicos 10-15 termos exaustiva exigir o emprego de maior nmero de termos.
Patentes I 5-20 termos A segunda dimenso do documento, do ponto de vista da indexao, deno-
Artigos de peridicos 5-1 Otermos minada especificidade na figura 6. Isto , alguns assuntos identificados seriam
indexados em mais de um nvel de especificidade. Suponhamos que o primeiro
e assim por diante. Alternativamente, a poltica tomaria como base o contedo
assunto seja 'arquitetura de catedrais', que seria indexado sob o termo ARQUITE-
temtico, sendo os assuntos de maior interesse da empresa indexados com uma
TURA RELIGIOSA, que no suficientemente especfico. Para aumentar a especi-
quantidade maior de termos.
ficidade, o indexador acrescentaria um segundo termo, CATEDRAIS. O emprego
Embora uma base de dados indexada exaustivamente costume possibilitar
conjunto dos dois termos representa precisamente o assunto estudado. Por outro
buscas exaustivas (alta revocao),* provvel que a indexao exaustiva saia
lado, a incluso de ARQUITETURA DA HABITAO aumentaria a exaustividade e
mais cara do que a indexao seletiva. Ademais, a indexao exaustiva redunda-
no a especificidade. pois estaria introduzindo um novo conceito na indexao.
r em menor preciso das buscas. Quer dizer, ser recuperado um nmero maior
Em outras palavras, a incluso de mais termos de indexao aumentaria a
de itens que o consulente considera como no sendo petiinentes a sua neces-
exaustividade de uma representao ou aumentaria sua especificidade. Por con-
sidade de informao. Isso pode acontecer devido a dois motivos:
seguinte, embora seja verdadeiro dizer que a 'exaustividade' corresponde gros-
1. O nmero de 'falsas associaes' aumentar conforme aumente o nmero de so modo ao nmero de termos atribudos, no h uma relao unvoca exata entre
termos atribudos. Por exemplo, o item da figura 3 seria recuperado durante exaustividade e nmero de termos. Neste livro, 'exaustividade' refere-se ao m-
uma busca sobre pesquisas por telefone no Egito, embora nada tenha a ver bito de abrangncia da indexao exemplificado na figura 6. 'Profundidade'
com este tpico. um termo menos satisfatrio porque denota o oposto de abrangncia e se aplica
2. Quanto mais termos forem empregados para indexar um item, mais ele ser de modo mais apropriado dimenso da especificidade mostrada na figura 6.
recuperado em resposta a assuntos de busca que nele so tratados somente A quantidade de termos atribudos ao documento constitui realmente uma
de forma muito secundria. provvel que o item da figura 3 seja recupera- questo de custo-eficcia. Em geral, quanto mais exaustiva for a indexao
do numa busca de m1igos que tratem de lderes polticos dos estados rabes, maior ser o custo,* e no muito razovel indexar num nvel de maior exaus-
porm a pessoa que solicita essa busca pode decidir que ele contribui to tividade que as necessidades dos usurios do servio no justifique. Ser preciso
pouco para este tema que dificilmente seria considerado til. um nvel mais alto de exaustividade se forem formulados muitos pedidos de
A idia de 'exaustividade' tambm se aplica a um sistema de recuperao buscas realmente exaustivas. No caso de serem feitos muitos pedidos de buscas
que funcione com base em buscas feitas em textos (ver captulo 13). O ttulo do que realmente cubram o assunto de modo completo, ser necessrio um alto
documento da figura 3 no constitui uma representao muito exaustiva de seu nvel de exaustividade. Se essas buscas que procuram exaurir o assunto forem a
contedo temtico. A exaustividade cresce medida que aumenta o nmero de exceo e no a regra, bastar um nvel muito mais baixo de exaustividade.
palavras presentes na represent~o.
O termo 'profundidade' freqentemente empregado para designar a quanti-
*Na realidade, naturalmente, isso um exagero de.simplificao. Quando tem em mos um docu-
dade de termos atribudos a um documento. Quer dizer, emprega-se 'profundi- mento prolixo, o indexador talvez precise de mais tempo para incluir de modo exaustivo seu con-
dade' em lugar de 'exaustividade'. Ambos os termos so imprecisos e podem ser tedo. Em outros casos, talvez seja mais rpido usar muitos termos ao invs de tentar selecionar
enganosos. Para compreender melhor o efeito do aumento do nmero de termos alguns poucos de um grupo em que eles podem estar estreitamente relacionados ou serem coinci-
dentes. Em geral, no entanto, quanto mais tem10s fOrem usados, mais dispendioso ser dar-lhes
entrada na base de dados e process-los subseqentemente. Alm disso, aumentar a quantidade de
termos aumentar substancialmente os custos dos ndices em formato de fichas ou impressos.
*Isso foi demonstrado em numerosas ocasies; por exemplo, por Boyce e McLain (1989).
r 3. A PRTICA DA INDEXAO 31

!
30 INDEXAO E RESUMOS: TEORIA E PRTICA

claro que quanto mais termos forem empregados por documento (isto , cias de palavras no texto), de modo que possvel aplicar medidas de 'densi-
maior for a exaustividade), maior ser a probabilidade de ele ser recuperado e dade' (isto , o nmero de termos de indexao ou a extenso do resumo em rela-
maior ser o nmero de caracte'rsticas que o distingam de outros documentos. o extenso do texto). Connolly e Landeen (200 1) propem e aplicam medida
1V1as a distribuio de itens entre os termos tambm afetar a discriminao: similar (nmero de entradas do ndice em relao ao nmero total de linhas de
termos que se aplicam a muitos documentos no oferecero muita discrimina- texto) aos ndices do final de livros.
o; os que se aplicarem a poucos documentos sero bons discriminadores. bvio que, medida que as bases de dados crescem de tamanho, a quan-
tidade de itens que aparecem sob qualquer termo tambm tende a crescer. Torna-
ESPECIFICIDADE
se necessrio, p011anto, indexar com o emprego de mais termos (e tambm torn-
I. los cada vez mais especficos) de modo que a indexao seja mais discriminativa
2. para possibilitar pesquisas em que se alcance um nvel adequado de revocao
3. com nvel tolervel de preciso. Lamentavelmente, isso no tem sido levado em
4. conta na prtica da catalogao de assuntos entre a comunidade bibliotecria dos
5.
6. EUA. O contedo temtico dos livros representado em nvel muito genrico e
7. superficial (em mdia, menos de duas combinaes de cabealho de assunto/
8. subcabealho por item, conforme O'Neill e Aluri, 1981). Mesmo que isso fosse
9.
aceitvel h 50 anos, quando os acervos eram bem menores, e ainda o seja no
10.
caso de acervos muito pequenos, hoje praticamente intil em catlogos que
abranjam vrios milhes de itens. A converso de catlogos em fichas para cat-
FIGURA6 logos em linha proporcionou aos usurios uma grande vantagem potencial- a
As duas dimenses da indexao de um documento possibilidade de fazer buscas com termos em combinaes lgicas. O valor
potencial disso, porm, reduz-se grandemente devido ao baixo nvel de exausti-
\Volfram e Zhang (2002) empregaram simulao em computador para estu- vidade das representaes constantes do catlogo. Por conseguinte, as pesquisas
dar os efeitos da variao tanto dos nveis de exaustividade quanto das distribui- em linha nos catlogos de grandes bibliotecas universitrias freqentemente
es dos termos (o nmero mdio de itens aos quais um termo se aplica). Sua resultam na recuperao de centenas de itens, a maioria dos quais talvez seja
concluso foi que: totalmente imprestvel para o consulente (Lancaster et al., 1991). Esse 'fen-
meno da recuperao volumosa' estimulou a realizao de muitas experincias
Baixa exaustividade e distribuies de termos pouco profundas produzem menos
sobre como fazer buscas em grandes catlogos de forma mais discriminativa
diferenciao entre documentos, pois menos termos so atribudos por documento e
mais termos comuns so compartilhados entre documentos, disso resultando maior (ver, por exemplo, Prabha, 1991), tais como a delimitao por data, lngua e
nmero de termos de baixo valor representativo. Exaustividade mais alta oferece outros critrios. O fato de a maioria dos catlogos permitir buscas nas palavras
maiores oportunidades para o acrscimo ao documento de termos adicionais mais dos ttulos (e s vezes nos nmeros de classificao), bem como nos cabealhos
distintivos. Igualmente, uma distribuio de termos mais profunda, quando se encon- de assuntos, parece ter tido, surpreendentemente, reduzido efeito na exaustivi-
tra um ndice mdio menor de atribuio de termos especficos ao item, acentua a dade da representao, uma vez que as palavras dos ttulos, os cabealhos de
distinguibiHdade do.documento. Quando se tm alta exaustividade para descrever de assuntos e os nmeros de classificao em geral se repetem (Xu e Lancaster, 1998).
modo mais completo o documento e distribuies de termos mais profundas, defi- Vrios estudos examinaram a extenso com que os cabealhos de assuntos
nindo conjuntos de termos mais exclusivos, encontram-se as menores densidades de
nos catlogos em linha de acesso pblico [OPACs] repetem as palavras-chave dos
documentos, o que facilita distinguir os documentos entre si. Os resultados de cada
modelo demonstram ser possvel obter densidades espaciais similares de documen- ttulos dos livros. Voorbij ( 1998), por exemplo, analisou essa questo num con-
tos com diferentes combinaes de exaustividade de indexao e distribuies de ter- texto holands. De fato, ele procurava comprovao de que a atribuio de
mos. Por exemplo, a combinao de alta exaustividade/distribuio de termos pouco descritores aos livros, um processo dispendioso, valia a pena. Ou seja, em que
profunda e baixa exaustividade/distribuio de termos profunda resultou em nveis eles contribuem que as palavras-chave do ttulo no o faam? Os descritores de
sin1ilares de densidade espacial de documentos (p. 950-951 ). assuntos conseguiram recuperar quase duas vezes mais itens relevantes do que
as palavras-chave. No s muitos ttulos so indicadores inadequados daquilo de
Os mtodos de indexao e redao automticas de resumos (ver captulo
que trata um livro, mas, salienta Voorbij, o mesmo assunto pode aparecer nos
15) baseiam-se grandemente em critrios estatsticos (a contagem de ocorrn-
32 JNDEXAO E RESUMOS: TEORIA E PRTICA 3, A PRTICA DA INDEXAO 33
ttulos representado de muitas maneiras diferentes. O controle de vocabulrio nvel exaustivo que atenda a diferentes pontos de vista. Isso acontece, por exem-
imposto pelos cabealhos de assuntos impmtante. Esse estudo foi realizado plo, na indexao de imagens, que podem ser vistas pelos indexadores em nveis
nas humanidades e cincias sociais, que podem, em mdia, apresentar ttulos diferentes, desde o altamente concreto at o altamente abstrato (Enser, 1995).
menos descritivos ou completos do que acontece nas cincias rgidas. lntner (1984) mostrou que, ao decidir sobre o que incluir e quantos termos
A figura 7 mostra a lei dos rendimentos decrescentes aplicada indexao. usar, o indexador poderia realmente exercer uma forma de censura, talvez dei-
No exemplo hipottico desse servio de informao, a atribuio em mdia de X xando de cobrir algum aspecto do trabalho que ele desaprova. A situao inver-
termos satisfar a cerca de 80% das necessidades dos usurios. A fim de elevar sa, naturalmente, consiste em usar uma quantidade injustificvel de termos para
esse percentual para 90-95% seria preciso uma exaustividade muito maior na fazer com que um item seja recuperado o maior nmero possvel de vezes, tenta-
indexao. A posio do ponto X nessa curva e o que X representa em nmero de o capaz de ocorrer se estiver associado sua recuperao algum ganho finan-
termos dependero muitfssimo de questes especficas do sistema. Os gestores ceiro ou de outro tipo. Tal fenmeno tem sido observado no ambiente da internet
do servio de informao elaboram diretrizes sobre exaustividade da indexao (ver captulo 16), onde denominado 'spoofing' ou 'spamming'. Price (1983)
que resultam do seu conhecimento das necessidades dos usurios. Essas diretri- talvez tenha sido o primeiro a reconhecer isso corno um prob.lema em potenciaL
zes costumam basear-se na intuio, embora seja possfvel realizar experimen- Bel ( 1991 a) estuda uma situao semelhante em relao aos ndices do final
tos controlados em que se comparem amostras de necessidades de informao de livros_: os indexadores, ou possivelmente os editores, podem revelar um vis
com uma coleo de documentos indexados com quantidades variadas de termos. ao omitir certos tpicos do ndice, ao reforar as idias do autor (ou o contrrio),
ou ao introduzir as prprias Utitudes do indexador. Apresenta vrios exemplos.
A quantidade de termos atribudos a um documento um fator crtico para
definir se determinado item ser ou no recuperado. Outros fatores afins, porm,
tambm pmticipam disso. Obviamente, quase certo que a quantidade de itens
X. recuperados venha a declinar medida que mais termos forem combinados
numa relao do tipo e, numa estratgia de busca. claro que a extenso com que
Percentagem de os termos podem ser combinados com xito numa busca depende grandemente
pedidos que da quantidade de termos usados na indexao. Tomando-se um exemplo trivial,
podem ser a combinao de trs termos (ABC) pode recuperar um grande nmero de itens
satisfeitos
quando se emprega na indexao uma mdia de 20 termos por item, mas
improvvel que recupere muitos deles numa base de dados em que somente trs
termos sejam atribudos em mdia a cada item. (Devido a razes antes mencio-
nadas, no recuperaria muitos, se que recuperaria algum, numa busca feita num
catlogo de biblioteca em linha.) Quanto mais seletiva for a indexao mais
X
necessidade haver de combinar termos numa relao do tipo ou, a fim de me-
O Nmero de termos atrbuidcis lhorar a revocao. As interaes entre exaustividade de indexao e as caracte-
rsticas das estratgias de busca foram estudadas por Sparck Jones (1973).
FIGURA 7 Estudos sobre o efeito da exaustividade em mtodos mais automticos de recu-
Rendimentos decrescentes na indexao perao (ver captulo 15) encontram-se em Shaw (1986, 1999a,b) e Burgin
(1991, 1995).
Evidentemente, a idia de um nvel ideal de exaustividade aplicvel a todos Em muitos servios de informao a indexao visa a duas finalidades um
os itens de uma base de dados um tanto enganosa, uma vez que se aplicariam tanto diferentes: a) permitir que se tenha acesso a um item num ndice impresso,
valores ideais extremamente diferentes a diferentes documentos, dependendo e b) permitir que se tenha acesso a esse mesmo item numa base de dados ele-
dos pedidos efetivamente formulados pelos usurios do sistema (Maron, 1979). trnica. Nessas circunstncias, exige-se do indexador que indexe de acordo com
A exaustividade ideal inteiramente dependente dos pedidos. certo nvel de exaustividade preestabelecido para a segunda das finalidades aci-
Para alguns tipos de itens indexveis, ser excepcionalmente difcil chegar a 'ma, e que selecione um subconjunto dos termos de indexao (talvez entre dois e
um acordo sobre 'de que eles tratam'. Em relao a eles, no ser fcil alcanar quatro) assim atribudos, os quais serviro de pontos de acesso no ndice impres-
consenso e coerncia na indexao, e, por isso, talvez precisem ser indexados em
34
3. A PRTICA DA INDEXAO
JNDEXAAO E RESUMOS: TEORIA E PRTICA 35
so. Os termos desse subconjunto sero aqueles que o indexador considerar como !idade de solicitar ao computador que faa uma busca sobre o termo FRUTAS e
os que melhor representam os aspectos mais impotiantes do documento. Isto tudo que estiver abaLYo de!~ na estrutura hierrquica (todos os termos espec-
pode ser visto como uma forma tosca de indexao 'ponderada': um termo rece- ficos, TEs, no caso de um tesauro).
be um de dois pesos- 'principal' (contedo temtico fundamental, para o Em geral, portanto, no se deve contar com que os termos FRUTAS CTRICAS e
ndice impresso) ou 'secundrio' (todos os outros termos). No captulo 11 exa- LARANJAS sejam aplicados ao mesmo item. A nica sihtao que justificaria esta
mina-se mais detidamente a indexao ponderada. combinao seria aquela onde houvesse um artigo que tratasse de frutas ctricas
em geral, mas que inclusse extensas consideraes sobre laranjas, ou outro que
Princpio da especificidade tratasse de fiutas cftricas e em que as laranjas fossem o exemplo (por exemplo, a
O princpio que, isoladamente, o mais importante da indexao de assun- irrigao de frutas ctricas com exemplos tomados da irrigao de laranjais).
tos, e que remonta a Cutter (1876), aquele segundo o qual um tpico deve ser O indexador deve ter em mente que possvel conseguir especificidade me-
indexado sob o termo mais especfico que o abranja completamente. Assim, um diante combinaes de termos. Se no houver nenhum termo que sozinho possa
attigo que trate do cultivo de laranjas ser indexado sob LARANJAS e no sob representar o tpico, busca-se uma combinao apropriada de termos no voca-
FRUTAS CTRICAS ou FRUTAS. bulrio controlado. Eis alguns exemplos hipotticos:
Normalmente, seria melhor utilizar vrios termos especficos, ao invs de um Literatura Francesa Medieval
termo que seja mais genrico. Se um artigo descreve o cultivo de limes, limas e indexado sob LITERATURA MEDIEVAL e LITERATURA FRANCESA
tangerinas, ser mais bem indexado sob os trs termos especficos do que sob o Bibliotecas Mdicas
termo mais genrico FRUTAS CTRICAS. 0 termo FRUTAS CTRICAS ser usado indexado sob BIBLIOTECAS ESPECIALIZADAS e CINCIAS MDICAS
apenas para artigos que tratem das fi:utas ctricas em geral, e para aqueles que Literahua Canadense
tratem praticamente de todas as frutas ctricas. Esta diretriz pode ser estendida indexado sob LITERATURA e CANAD
situao na qual se trata de vrias frutas ctricas, mas no com muitos detalhes (a leo de Amendoim
juzo do indexador) que justifiquem o emprego dos termos especficos. Em indexado sob LEOS VEGETAIS e AMENDOIM
alguns casos, tambm, a clientela atendida pelo indexador pode estar interessada Observe-se que o indexador deve procurar a combinao mais apropriada
apenas em determinadas frutas. Nesta situao seria vlido indexar apenas estas para cada caso. Teoricamente, Literatura Medieval Francesa seria expresso por
e no incluir termos correspondentes s outras frutas. meio de LITERATURA MEDIEVAL e FRANA, mas a combinao de LITERATURA
Alguns estudantes de indexao cometem o equfvoco de indexar de modo MEDIEVAL e LITERATURA FRANCESA exprime a idia de modo mais exato. Da
redundante. Tendo indexado um artigo sobre laranjas sob o termo LARANJAS, mesma forma, combinou-se CINCIAS MDICAS com BIBLIOTECAS ESPECIALIZA-
sentem necessidade de tambm atribuir-lhe o termo FRUTAS CTRICAS e at mes- DAS e no com BIBUOTECAS, para expressar a idia de bibliotecas mdicas, pois
mo FRUTAS. No h necessidade disso. Na verdade, trata-se de uma prtica de estas so evidentemente especializadas, e combinou-se AMENDOIM com LEOS
indexao medocre. Se os termos genricos forem atribudos toda vez que for VEGETAJS e no com LEOS, uma vez que o leo de amendoim um leo vegetal.
utilizado um termo especfico, ficar difcil diferenar artigos genricos de arti- s vezes, o vocabulrio controlado no inclui um termo no nvel de especi-
gos especficos. Por exemplo, o usurio que consulta um ndice sob o termo FRU- ficidade exigido por determinado documento. Nesse caso o indexador adotar o
TAS espera encontrar itens sobre frutas em geral, e no sobre frutas especficas. termo mais especfico existente (por exemplo, FRUTAS CTRICAS, ao invs de
Nos sistemas manuais de recuperao que antecederam os sistemas infor- FRUTAS, para um attigo sobre laranjas). Ele pode tambm sugerir equipe res-
matizados, de fato era preciso desdobrar as entradas dos termos especficos para ponsvel pela manuteno do tesauro que existe a necessidade de termos mais
os genricos respectivos; por exemplo, o emprego do tenno LARANJAS ao se especficos nessa categoria.
indexar um item implicava que tambm lhe seriam atribudos os termos FRUTAS
CTRICAS, FRUTAS e talvez at mesmo PRODUTOS AGRCOLAS. A razo disso era Outras diretrizes
permitir as buscas genricas. Se no fosse assim, seria praticamente impossvel
O processo da indexaO de assuntos parece ser refratrio a regras iigorosas.
realizar urna busca completa sobre, por exemplo, todas as frutas. Quando, no en-
Alm do princpio da especificidade, no foram desenvolvidas regras verdadei-
tanto, se projeta um sistema informatizado de modo apropriado, torna-se desne-
ras sobre a atribuio de termos, apesar de haver muitas acerca do que fazer com
cessrio esse desdobramento para os nveis genricos, pelo menos quando se
os termos de indexao depois de atribudos (por exemplo, como estabelecer a
utiliza um vocabulrio controlado. Convm, por exemplo, que haja a possibi-
seqncia em que so listados, a fim de formar cabealhos num ndice impresso).
36 INDEXAO E RESUMOS: TEORIA E PRTICA 3. A PRTICA DA INDEXAO 37
l'vluitas 'teorias' sobre indexao foram formuladas, algumas das quais passadas ser indexada se se sabe que esse composto bastante recente; anos depois seria
em revista por Borko (1977), porm, costumam no ser teorias de verdade, e necessrio um volume muito maior de informaes para justificar sua incluso.
oferecem pouca ajuda prtica para o indexador. A expresso 'necessidades ou interesses dos usurios', na segunda regra,
Fugmann (1979, 1985) apresentou vrios axiomas sobre 'indexao e provi- implica que o princpio da especificidade pode e deve ser modificado quando se
so de informao', mas nem todos tm relao direta com a indexao como tal. sabe que os usurios de um sistema ou ferramenta de informao, em ce11as cir-
O nico princpio de indexao verdadeiro at agora formulado, denominado cunstncias, seriam mais bem servidos por meio da indexao de determinado
'indexao compulsria', afirma que o indexador deve utilizar os termos mais tpico em nvel mais genrico. Por exemplo, numa base de dados de medicina os
apropriados de que disponha para descrever o contedo temtico de um docu- artigos de veterinria aplicada a ces seriam indexados sob os nomes das respec-
mento. Como isso significa, normalmente, os termos mais especficos, trata-se tivas raas caninas. Por outro lado, artigos sobre o uso de ces em experincias
essencialmente de uma reiterao do princpio da especificidade. A maior parte de laboratrio seriam simplesmente indexados sob CES, mesmo quando a raa
dos axiomas de Fugmann cm-responde realmente a fatores que influem no de- especfica fosse mencionada.
sempenho de sistemas de recuperao da informao e no a elementos de uma Um corolrio da primeira regra acima que assuntos que no sejam examina-
teoria da indexao, embora vrios deles tenham implicaes para a indexao. dos no documento no devem ser considerados pelo indexador. En)bora isso
Por exemplo, o axioma da definibilidade tem relao com a capacidade de defi- para bvio e banal, no necessariamente assim. Alguns indexadores, princi-
nir clara e inequivocamente uma necessidade de informao. Isso pode, eviden- palmente os que se consideram'especialistas' num assunto, podem sentir-se ten-
temente, ser estendido capacidade de definir o contedo temtico de docu- tados a ver num documento coisas que jamais passaram pelas intenes do autor
mentos de modo claro e inequfvoco. O axioma da previsibilidade diz que o xito (por exemplo, aplicaes de um dispositivo que extrapolam as alegadas no do-
de uma busca num sistema de recuperao depende grandemente da previsibi- cumento). Embora uma das funes importantes de certos especialistas em in-
lidade com que descrito o contedo temtico, o que aponta para a impot1ncia formao (como os que atuam na indstria) seja chamar a ateno dos usurios
da coerncia na indexao. O axioma da fidelidade diz que outro fator que influi do servio de informao para aplicaes potenciais, isso, de fato, no constitui
no desempenho a capacidade de definir com rigor e exatido o contedo tem- funo do indexador. muito melhor que se atenha ao texto e s afirmaes do
tico (das necessidades de informao e, por extenso, dos documentos), que tem autor. O ERIC processing manual de 1980 traz bons conselhos a respeito disso:
a ver mais com o vocabulrio usado para indexar do que com a prpria indexao.
Indexe o documento que tem em mos, no o documento que o autor gostaria de ter
No consegui, de fato, encontrar uma teoria verdadeira, qualquer que fosse, escrito ou pretende escrever no futuro. No confunda suposies ou menes a im-
aplicvel ao processo de indexao, embora haja algumas (ver, por exemplo, plicaes e possibilidades com o verdadeiro contedo (p. Vll-13).
Jonker (1964)) relativas s caracterfsticas dos termos de indexao. Ademais,
creio ser possvel identificar apenas duas regras bsicas da indexao: uma, que 'Resultados no alegados pelo autor' no devem, claro, ser confundidos
se refere etapa de anlise conceitual, e a outra, etapa de traduo, a saber: com resultados negativos, pois estes comumente merecem ser indexados. Por
exemplo, se um estudo mostra que certo material no se presta para ser utilizado
1. Inclua todos os tpicos reconhecidamente de interesse para os usurios do em determinada aplicao, a aplicao mencionada deve ser definitivamente
servio de informao, que sejam tratados substantivamente no documento.
includa na indexao, caso .sejam contemplados outros critrios (por exemplo,
2. Indexe cada um desses ~picos to especificamente quanto o permita ovo-
o volume de informaes fornecidas).
cabulrio do sistema e o justifiquem as necessidades ou interesses dos usu-
~m aplicaes mais especializadas, os.indexadores podem ser estimulados a
rios.
buscar inferncias. Por exemplo, Schroeder (1998), repmtando-se a experincia
Estas regras esto, naturalmente, sujeitas a interpretao. Por exemplo, o que no General tvlotors Media Archives, ressalta a imp011ncia de uma 'camada de
'substantivamente' de fato significa? Uma orientao possvel diria que o assun- inferncia' na indexao de imagens. Por exemplo, uma fotografia de determi-
to X deve ser indexado quando se supe que a maioria dos usurios que buscam nado veculo pode mostr-lo atravessando um terreno acidentado, sendo ento
informaes sobre X considerariam esse item como sendo de interesse. claro necessrio identificar no somente o veculo mas tambm empregar termos que
que' substantivamente' no uma propriedade que possa ser expressa ou medida indiquem sua capacidade de desempenho em locais pedregosos.
com rigor. Se um dado assunto merece ou no ser indexado algo que depender Klement (2002) faz uma distino entre indexao de 'sistema abetto' e
grandemente de trs fatores: a) a quantidade de informaes apresentadas sobre indexao de 'sistema fechado'. A ltima (cujo exemplo mais evidente so os
o assunto, b) o grau de interesse no assunto, e c) a quantidade de informaes j ndices de final de livro) refere-se a fndices de um nico item; esses ndices so
existentes sobre o assunto: uma meno breve e isolada de um composto merece no-contnuos. A indexao de sistema aberto, ao contrrio, aplica-se a inme-
38 INDEXAO E RESUMOS: TEORIA E PRTICA

ros itens e contnua, como o caso da indexao de attigos de peridicos em


bases de dados como, por exemplo, o MEDLINE. Quando a indexao se aplica a
muitos itens, e contnua, os termos adotados nas entradas do ndice devem ser
r
l
3. A PRTICA DA INDEXAO

desses sistemas manuais. Pode-se imagin-lo conceitualmente como uma matriz


semelhante mostrada na figura 8.
Os arquivos de um sistema em linha incluem dois elementos principais:
39

padronizados. A padronizao no constitui de fato um problema na indexao I. Um conjunto completo de representaes de documentos: a referncia bi-
de sistema fechado, embora sej obviamente necessrio utilizar uma terminolo- bliogrfica acompanhada normalmente de termos de indexao ou um resu-
gia uniforme, coerente, em toda a extenso do ndice. A indexao de sistema mo, ou ambos.
fechado pode usar termos que so no-contnuos: 'Leonardo da Vinci, morre' 2. Uma lista de termos que mostra quais os documentos indexados sob eles
pode ser perfeitamente apropriado nesse tipo de ndice, sendo improvvel que (s vezes chamada arquivo invertido ou arquivo de lanamentos). Os do-
aparea num ndice de sistema aberto (embora 'Leonardo da Vinci' aparea). cumentos so identificados por nmeros de registro como mostra a figura 8.
Pode-se demonstrar o que se passa durante uma busca em linha consultando a
ndices ps-coordenados matriz da figura 8. Suponhamos que quem faz a busca entra com MOAMBIQUE
O contedo temtico objeto de um documento e representado pelos termos num terminal e que este termo representado por P no diagrama. O sistema
de indexao que lhe so atribudos possui carter multidimensional. Vejamos, responde indicando que sete itens foram indexados sob tal termo. A pessoa entra
por exemplo, um artigo que trate da migrao de mowde-obra de Moambique com TRABALHADORES MIGRANTES (L no diagrama) e recebe a informao de que
para as minas da frica do Sul e que indexado sob os seguintes termos: quatro itens aparecem sob este termo. Se ela pedir agora que seja feita a combi-
nao de L com P, o sistema comparr os nmeros dos documentos nas duas
MOAMBIQUE
FRICA DO SUL
listas e indicar que trs itens satisfazem a esse requisito. Atendendo solicita-
TRABALHADORES MIGRANTES o do interessado, o computador localiza esses registros pelos seus nmeros de
MINEIROS identificao (4, 8, I O) e os mostra na tela do monitor ou os imprime.
RELAES ECONMICAS Esse processo permanece o mesmo independentemente de quantos termos se
Embora os termos sejam aqui apresentados em forma de lista, representam, achem envolvidos e quais sejam as relaes lgicas especificadas por quem faz a
na realidade, uma rede de relaes: busca. Se for pedido F ou G, o sistema indicar que cinco itens satisfazem con-
MOAMBIQUE
dio. Quem faz a busca solicita ento que esta lista de cinco itens seja combina-
da com a lista sob N-isto , (F ou G) e N- do que resulta a recuperao de trs
itens. A respeito dos sistemas ps-coordenados possvel afirmar que:
1. Os termos podem ser combinados entre si de qualquer forma no momento em
TRABALHADORES
MIGRANTES
que se faz a busca.
2. Preserva-se a multidimensionalidade das relaes entre os termos.
RELAES ECONliHCAS
3. Todo termo atribudo a um documento tem peso igual- nenhum mais im-
portante do que outro (embora a indexao ponderada, estudada em captulo
posterior, possa ser utilizada).
FRICA DO SUL
Estas caractersticas no se aplicam a ndices pr-coordenados, que sero objeto
do prximo captulo.
Convm recuperar esse documento durante uma busca que envolva qualquer
um dos termos tomados isoladamente ou qualquer combinao entre eles: quais- Instrumentos auxiliares da indexao
quer dois termos, quaisquer trs, quaisquer quatro, ou todos os cinco. Um siste-
O indexador precisa contar com alguma forma de anotao dos resultados da
ma de recuperao da informao que permite que uma busca combine os termos
operao de indexao. So quatro as possibilidades:
de qualquer maneira freqUentemente denominado ps-coordenado (outras
denominaes empregadas tm sido ps-combinao ou manipulatrio). 1. Anotao no prprio documento
Os sistemas ps-coordenados surgiram na dcada de 1940, quando foram 2. Preenchimento de algum tipo de formulrio impresso em papel
implantados com a utilizao de vrios tipos de fichas. Um sistema infonnatiza- 3. Gravao numa fita de udio
do moderno, funcionando em linha, pode ser visto como um descendente direto 4. Preenchimento de um formulrio mostrado na tela de um monitor em linha
40 3. A
INDEXAO E RESUMOS: TEORIA E PRTICA PRTICA DA INDEXAO 4!
TERMOS DOCUMENTOS
(CLASSES)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
A X X -'-
n X X X X X

c X X X

D X X

E X X X X X X X

F X
~
J O{Ul
.. !< ...1 l?o"wo c ou..rn.1
"OJW.O>
o-
I OIY!IUOT
I Ol,..(lll
I~"~
0-
G X X X X )[]~1....:.; 10 ... - h l .... l \OOOC:l~l'O lOft"-'<J O !UtD1
( Otit'Oo'l co..,llll-1 -o~ oV<t>O ' o , .. W<I

H X X X 00~ t OOoU>,tl!lll OOG>-..~1 l OU..lolltn I 01,.,.0:01 ~~~~


MOI~U!I I OCtc.llli-Ul , O ....... lnLI ~ o'"-""'1\01' \ 020"0101
o~ll:tll-<11! o o~ < O.UO:olo:T 'o ...or>dV
1 X (10.11;<.\lllt-411 10 ........... 1 'o """tv>l 0Q!>0~1W't'IU I~ ....J... I<;.Ul(!JoQ
><O.....,.<GI:I'J...C.II I OU]j o 0"-XUM OIIQIII/1w.1~'
I OW~llll o O-
J X X X X X X

K X X X X X X X

L X X X X

M X X X X

N X X X X X X X "
o X X X X X "
X "
p X X X X X X

"
FiGURA 8
Sistema de recuperao da infOrmao representado como uma matriz "n
n
"
Embora hoje em dia a norma seja indexa1 diretamente em linha, com o emprego "
de algum tipo de tela estruturada, antigamente eram comuns outras possibili-
"n

dades que ainda so adotadas em certos lugares. "
Em certas instituies o indexador simplesmente marca o documento que
tem em mos, e um datilgrafo transcreve o que ele marcou. Esta forma de traba-
lho s convm, normalmente, se se adota um mtodo de indexao relativamente FIGURA 9
simples, como, por exemplo, enriquecimento de ttulos associado incluso de Formulrio de indexao utilizado antigamente pela National Library ofMedicine
uma quantidade relativamente pequena de termos ou cdigos de indexao.
At que os sistemas em linha se tornassem comuns, era corriqueiro o inde~ impresso no formulrio eficiente e econmica, pois o indexador s precisa
xador dar entrada aos termos num formulrio impresso. A figura 9, por exem- ticar os que se aplicarem a cada caso. Isto no s poupa tempo ao indexador mas
plo, mostra uma verso do formulrio que era adotado pela National Library tambm faz com que se lembre de que esses termos devem ser ahibudos sempre
ofMedicine. Observe-se o emprego de 'etiquetas' [checktags], que so termos que se aplicarem a determindo documento. Devido a essa forma de advet1ncia,
potencialmente aplicveis a inmeros documentos da base de dados. Sua pr- as etiquetas so atribudas de modo mais coerente do que outros termos (Lancas-
ter, l968a; Funk et ai., 1983).
42 INDEXAO E RESUMOS: TEORIA E PRTICA 3. A PRTICA DA INDEXAO 43
aerodinmica. A lista de descritores, apresentada dessa forma, simplifica o pro-
Qual o material O processo di- Existem cargas Envolve resistncia
estudado? nmico (ao invs
cesso de indexao porque poupa ao indexador uma parte de seu esforo intelec-
aerodinmicas estrutural e
de esttico)? especificas? elasticidade? tual. As utilizaes potenciais que um documento de interesse pode ter para a
Metais Vibraes instituio so representadas pela lista de perguntas 'orientadoras' que foi crite-
Sustentao Tenso e deforma-
Gases Resposta transitria Arrasto o riosamente compilada por pessoal cientfico graduado. O indexador simples-
Plsticos Impacto Momento Plasticidade mente segue as 'dicas' dadas nessa lista.
Alumnio Estabilidade Rajada Falha Antigamente, o U.S. Patentand Trademark Office deSenvolvetl pequenos sis-
Magnsio Velocidade Presso Propriedades-! imite
Titnio temas de recuperao limitados a uma nica classe ou a um nmero restrito de
Centro de nplica- Propriedades
Ar o, p. ex., centro materiois classes na rea de patentes: Foram criados vocabulrios especializados para
aerodinmico, cen- Aeroelasticidade essas classes, suficientemente sucintos para que fossem impressos em poucas
tro de presso, etc. Vibrao folhas. A figura ll mostra parte de um desses vocabulrios, destinado sub clas-
Qual o tipo de um problema Ou existe outro Existe um processo se de patentes que tratam de computadores digitais de uso geral. Igual s tabelas
escoamento de de estabilidade e problema de trmico envolvido?
fluido? controle? aerodinmica? de descritores de Mooers, todo o vocabulrio pode ser facilmente examinado,
evitando que o indexador deixe passar despercebido um termo importante, e eli-
Escoamento de Estabilidade Cmnada-limite Tennodinmica
tluido Controle Aeroelasticidade Constantes
minando a necessidade de dar entrada aos termos num formulrio de indexao.
Escoamento intemo Esttico Vibrao termodinmicas Neste caso, encontram-se disponveis mltiplos exemplares da lista de termos, e
Subsnico Resp. trans. Deflexo Combusto uma patente indexada simplesmente traando-se um crculo em volta dos ter-
Transnico dinmica Perda de sustentao Transferncia de calor mos apropriados ou seus cdigos num exemplar da lista. Todo o processamento
Supersnico Longitudinal Interferncia Resfriamento
Hipersnico Lateral Hidrulica Conveco
posterior requer apenas trabalho de rotina. O 'microtesauro' do Air Pollution
Laminar Derivadas Trajetria Conduo Technical Infonnation Center, descrito por Tancredi e Nichols ( 1968), foi tam-
Turbulncia Amortecimento Goticulas Trmico bm criado para ser utilizado traando-se um crculo em volta dos termos. Uma
Escoamento de Peso e equillbrio, p. Tcnica modificante Radiao parte desse microtesauro mostrada na figura 12.
escorregamento ex., centro de Desempenho Aquecimento
Compressibilidade gravidade, aerodinmico
Tambm se logrou xito em algumas instituies onde o indexador passou a
Viscosidade momentos de ditar os termos num gravador de fita para serem posteriormente transcritos por
Vrtices inrcia, etc. datilgrafos. Este mtodo de fato apresenta alguns problemas. Podem ocorrer
Ondas de choque
muitos erros de datilografia quando se emprega um extenso vocabulrio tcnico,
Envergadura finita
estranho ao datilgrafo, o que exige um trabalho de reviso muito cuidadoso.
Alguns indexadores no conseguem trabalhar bem dessa maneira porque tm
FIGURA 10
dificuldades em se lembrar quais foram os termos que j atriburam a um item.
Formulrio caracterstico da indexao de Mooers
Reproduzido d<! Brermer & "-looers {195S) com penniss.l:o de Van Nos!rand Reinhold Hoje em dia, porm, a maioria dos produtores de bases de dados adota pro-
cessos de indexao em linha. Assim, aparecem no monitor vrias telas forma-
Em ambientes onde se pratica uma indexao altamente especializada, tal- tadas e o indexador vai inserindo os dados nos campos apresentados. Essa
vez seja poss!vel pr-imprimir o. vocabulrio controlado completo no formulrio modalidade de operao oferece grandes vantagens em relao s suas prede-
de indexao, permitindo assim que todos os termos se tornem basicamente eti- cessoras: o indexador pode receber vrios tipos de mensagens, alguns de seus
quetas. O pioneiro desse mtodo foi provavelmente Mooers. A figura I O( con- equvocos podem ser reconhecidos por programas de deteco de erros que o
forme Brenner e Mooers, 1958) mostra um formulrio caracterstico da indexa- advertem imediatamente, alm de dispensar a etapa rotineira intermediria,
o de Ivlooers. Observe-se como os descritores so agrupados sistematicamen- quando se conve11e o trabalho do indexador para formato eletrnico. Ademais,
te. Ao analisar o documento, o indexador considera basicamente cada descritor existe a possibilidade de o indexador passar do modo de entrada de dados para o
da tabela como potencialmente aplicvel. Com efeito, o indexador formula a si de recuperao, e assim valer-se de casos precedentes Para se orientar quanto a
mesmo as perguntas propostas pelo prprio formulrio de indexao. Se, por cet1as decises concernentes indexao. Quer dizer, o indexador a cessa a base
exemplo, a resposta pergunta' existem cargas aerodinmicas?' for' sim' (isto , de dados, para verificar como um termo foi usado antes ou como um documento
o documento em exame trata de cargas especficas), o indexador levar isso em mais antigo, afim a outro que est sendo examinado, foi indexado.
considerao atribuindo o descritor, ou descritores, mais apropriado para carga
44 INDEXAO E RESUMOS: TEORIA E PRTfCA 3. A PRTICA DA INDEXAO 45

SYSTEH ARCHITECTURE
228 .Plural prooe~~or~ with different .<>>Ta>c'"
interna! ~tructures (28/0) =~v..oe
C"-'.~00.,.,..,

"''-'-""'~"'
228.1 ,Shred memory (28/l)
228.2 .Virtual processor/maohine (28/2) O.<'< e-<=
228.3 Plural {redundant) central processors ,_cooo._.~.,.,~

e><M.,<-<>:<coo <>o~
...........,.,,..,..,--...
"''""""""'
228. q
(28/3)
.Central processor combined with
~=~
,_..r_,~._.
.
.,.""'""'-'-
.,..._.,.
U-~0 "'"'""""''
terminal processar (28/~) <><'<D<OO>.._,..T,.,.
"""'"""''"-"<-
228.5 ,Central processar combined with """""'r.;.<"-"'"-"'
.,..,,.-"'T v.~..,. ..... -e ....... <~"-
TErr>~..._.,.,.. '"-"-'"<>-,_,.,
interface processar (28/5) ,...,.==TEc~_,<>..<-<

228.6 .Central processar combined with


'-""'"'-'""- "'"'-""
r~ec-..~..P'u
""'.
,_., ....TQo.<oo-..;u
r~~;~~:=~
m~e

coprocessor (28/6)
228.7 .Hultiple instruction multiple data
(HIHD) (28/7) ' ''"'""
"o"'
228.8 Loosely ooupled MIHD (28/8) ~:H -=
228.9 Tightly coupled HIHD (28/9) <>-<=,-=
,_,..._,r.o-o""~'"T

"'"'"-"-'"''"ru
~ij~E_l~:.~
229 .Hultiprocessor interoonneotion (29/0) <-e><.,_,

....~:H ~~-:::-
229.1 Direot (29/1) """.,.,_."'"'
229.2 ><=<--~"''"'"'~' ,.,.
Parallel (common bus) (29/2) ~.

~_-;~~ .... <..o<;;::-...


229.3
229
loop (29/3)
Reconfigurable (29/q) .E~.-..
Od?

~~~r,
~"O'~
""""'"''
M<=

229.Q1 .. Tree structure (29/A) = ...~. ~ ..__, ,.,,.~wCd

229.5 other specific multiprocessor U~O<"TTE.


....,3 ....... .....
~ ~~

..._-. "'"~'"-'"""'
interconnection (29/5) '""''~""'"'"" "'--'OS ft,.~~

230
230.1
.Hultiprocessor/Processor control (30/0)
Priority assignment (30/1)
...,.,., ........
e~.._,.,.,=~
,,_ ,.,..,,""""'""""
-~
:~~
.~... ~-
~:;.;~..o---~

230.2 Interrupt handling (30/2) ,.......


.."""""''" ~:~ ~~~-: ...~:'"'
~:~ ~":::""~ ...-.e~o.-
230.3 rask w~~ig11~ent (30/3) """"' o--<.. ~
230,q Supervhory (ma.:ster/dave) (30/ll) e.-oa o-e-=o...-.<;r<>o
co-7 """'"""'"'"""""'
230.5 ,,Qther specific multiprocessar oontrol
230.6
(30/5)
.Other specific multiprocessar system
H:~ ~~i:=
CO-t3 ....... 0<~1

(30/6) ~i; =~~::.:~:.


231
231. 1
.Hini/Hicro/Personal computer (31/0)
Portable {31/1)
"'-~-"'""

..........,..
-0-<"0 ...
.._.,a
,_,.
..,,,...,,.,
uo~

'"'~"-""""'

. . s~~.~~
o;;<-t& ~<:ou
''"""~
231.2
231.3
Hand-held/Carried on person (31/2)
Other portable oomputer (31/3) ~m
231. 31 Other speclfic mini/micro/personal
computer (31/A)
231 .Timeshared (31/q)
231.5 ..Peripheral devices (31/5)
231.6 Plural prograas (Hultiprogra~med) FIGURA 12
(31/6)
231.7 Other specific timeshare (31/7) Seo do microtesauro do Ai r Pollution Technical Information Center
231.8 .Pipelined (31/8) Apud rlmaimu JJoouHmfll/iou {Tannedi & Nid1ols (196S))
231.9 Parallel array/Single Instruction Copyright 1963 Jolm Wiley & Sons, Inc. Reproduzida com permisso de John \\'lley & Sons, Inc .
Kultiple Data (SIHD) (31/9)
232 ,Orthogonal (32/0)
232.1 VIrtual (3211) Um tpico sistema de indexao em linha, conhecido como DCMS (Data Cre-
232.2 ,Adaptive (32/2) ation and Maintenance System), utilizado pela National Library ofl'vledicine
232.21 .Vector processor (32/A}
232.22 .Data flow (32/B) para entrada de dados na base MEDLINE. O trabalho do indexador consiste em
preencher vrias 'telas' no monitor. Ver, por exemplo, a figura 13, que mostra
uma tela com a verso atual das etiquetas. Observe-se que o indexador ticou (,I)
FIGURA 11
as etiquetas que se aplicam a esse artigo do American Journal ofHuman Gene-
Parte de vocabulrio especializado sobre computadores digitais utilizado pelo
u.s. Patent and Trademark Office fies, a saber, adult, middle age, aged, human, ma/e, e {ema/e. A figura 14 mostra
Reprodt~zida com permiS>o do u.s. Patent and TrademMk Offke a tela seguinte com as etiquetas selecionadas pelo indexador. Vrios descritores
(cabealhos de assuntos sozinhos ou com subcabealhos) foram selecionados
pelo indexador. O sistema ofer~ce a possibilidade de enviar mensagens ao inde-
xador. Por exemplo, se for tisada a etiqueta pregnancy, o DCMS informar auto-
46 JNDEXAO E RESUMOS: TEOR(A E PRTICA 3. A PRTICA DA INDEXAO 47
maticamente ao indexador para acrescentar (ema/e e o advertir para usar ani- ----~-

mal ou human. O DCMS tambm advet1ir para o emprego de cetias etiquetas,


//
com base num nmero limitado de palavras que ocorrem nos ttulos ou resu-
mos. Por exemplo, se a palavra (fe/ine' aparecer no texto, o indexador ser
advetiido para examinar a possibilidade de usar a etiqueta cats.

l"'----
FIGURA 14
Registro de indexao pronto no DCMS

uso, local p~los indexadores, consulentes e lexicgrafos. Esse vocabulrio po-


dera estar disponvel em formato impresso ou em linha.
Por exemplo, a National Library of Medicine (NLM) lana mo de vrias
FIGURA 13
~erra~1entas, rica~ em c~mponentes de vocabulrio de entradas e diretrizes para
Tela de etiquetas no DCMS
mdexao. A mms bvw o navegador eletrnico MeSH Browser. Esta ferra-
O DCM~ tem outras caractersticas que facilitam o processo de indexao. O menta, feita para a Rede, destina-se a ser usada por indexadores, catalogadores
vocabulrio (Medicai Subject Headings) pode ser visualizado na tela e o inde- de assuntos e especialistas em buscas e muito mais elaborada do que os Medi-
xador pode selecionar termos sem ter que redigit-Jos. Para qualquer um dos cal Subject Headings, que tem por finalidade servir de ouia no uso do /ndex
termos que for selecionado o sistema pode ser solicitado a mostrar na tela do 1\1edi~us impresso. Outra ferramenta, em formato impres;o, !v/edical Subject
monitor uma anotao explicativa ou, alternativamente, uma lista dos subcabe- Headmgs ~ Annotated Alphabetic List. A figura 15 mostra algumas entradas
alhos que podem ser usados com esse termo. O sistema tambm levar ('mape- desta vers? ~notada. Essa ferramenta bastante complexa possui componentes
ar') de um termo no-aprovado para um aprovado por meio das remissivas de vocabulano de entradas (por exemplo, depth intoxication [intoxicao pro-
incluidas no Medicai Subject Headings. ~nda~ remete. para inert gas narcosis [narcose por gs inerte] bem como outras
Obviamente, o vocabulrio controlado usado por um servio de informao d1retnzes ou mstrues para indexao: termos relacionados (ver, por exem-
ser ferramenta de importncia crucial para o indexador. Dever ser organiza- plo, o fato de que depressive disorder [transtorno depressivo] deve ser dife-
do e apresentado de forma a oferecer ao indexador um auxlio positivo na sele- renado de depression [depresso], termos que eram usados antigamente (por
o dos termos mais apropriados para determinada situao. Embora tenba es- exemplo, no periodo d~ 1973-1990 o termo dermacentor somnte existia para
treita relao com o tema da indexao, a construo e' as propriedades dos vo- ~uscas em lmha; para Impresso no lndex JVfedicus esse organismo devia ser
cabulrios controlados so questes que esto fora do mbito deste livro. Fo- mdexado tambm sob o cabealho mais genrico ticks [carrapatos]) e mesmo
ram tratadas com detall1es em outras publicaes (Lancaster, 1986; Soergel, 1974). algumas definies (ver, por exemplo, dermabrasion [dermabraso]).
Um tesauro publicado incorpora normalmente um limitado vocabulrio de ,Entre os vocabulrios de entradas mais especficos desenvolvidos pela NLM
entradas na forma de remissivas do tipo ver, usar ou ver sob. Um grande centro esta o 1lu;10r key [Chave de tumores], que orientava sobre indexao de doen-
de informao poder desenvolver um vocabulrio de entradas separado para as neoplas1cas. A figura 16 mostra entradas desse vocabulrio. Observe-se como
48 INDEXAO E RESUMOS: TEORIA E PRTICA 3. A PRTICA DA INDEXAO 49
Deprcssive Disorder cyst, teratoid- TERATOMA
F3.600.300+
do not confuse \\i:th DEPRESSION: se e note there; depression lasting over 2 years cyst, teratomatous- TERATONlA
= DYSTHYMIC DISORDER
cyst, thyroglossal
81; DEPRESSION, NEUROTIC was DEPRESSIVENEUROSES see
DEPRESSION, REACTtVE 1979-80, see under DEPRESSION, REACTIVE THYROGLOSSAL CYST not neo-
1969-78 plastic
X Depression, Endogenous cyst, umbilical
X Depression, Neurotic
X Depression, Unipo!ar URACHAL CYST (not neoplastic)
X Depressive Syndrome cyst, urachal- URACHAL CYST (not neoplastic)
X Melancho!ia
X Neurosis, Depressive cystadenocarcinoma (unspecified)
X Unipolar Depression CYSTADENOCARCINOMA
Depressivc Disorder, i\Iajor see Depression, lnvolutional cystadenocarcinoma, bile duct
Dcprcssive Symptoms see Depression CYSTADENOCARC!NOMA +
Depressivc Syndrome see Depressive Disorder CHQLANGIOCARCINOMA
Dcpth lntoxication see lnert Gas Narcosis cystadenocarcil1on1a, endometrioid
Depth Perception CARCINOMA, ENDOMETRIOID
FL463.593.200+ F2.463.593.932.869.255+ cystadenocarcinoma, mucinous
Gll.697.911.860.317+ CYSTADENOCARCINOMA, MUCINOUS
disord ofdepth perception: coord ltvl with PERCEPTUAL DISORDERS (IM) cystadenocarcil1oma, mucinous papillary
X Stereopsis
X Stereoscopic Vision CYSTADENOCARCINOMA, MUCINOUS
Dequalinium cystadenocarcilwma, papillary (unspecified)
CYSTADENOCARCINOMA,
03.438.810.824.200
PAPILLARY
1991(1976); see QUrNOLINIUt\.1 COMPUNDS 1976-1990; for
DECHALINIUM & DEQUALONUM see DEQUALINIUM 1976-1993
Dercum's Disca se see Adiposis Dolorosa FIGURA 16
Derealization see Depersonalization Exemplo de entradas de Tumor key, um vocabulrio de entradas especializado
antigamente utilizado pela National Library ofMedicine
Dermabrasion
E4.680.250 A maioria dos tesauros publicados inclui componentes de vocabulrios de
mechunical plnning: of the skin; do not use /util except MeSH definition entradas, mas improvvel que possuam a riqueza (ou complexidade) do exem-
Dennacentor plo da figura 15.
Bl.131.166.132.832.400.200 As obras de referncia publicadas so muito teis para o indexador, princi-
infestation: oord IM wit!t TICK INFESTATIONS ((M)
91(73}; wus see under TICKS 1973-90 ' pahnente na definio do significado de termos pouco comuns. Particularmente
impmiantes so os dicionrios e enciclopdias especializados e gerais, bem como
FIGURA 15 os glossrios de todos os tipos. Bakewell (1987) elaborou uma lista de obras de
Exemplo de entradas de Medicai subject headings- annotated alphabetic list (2003) referncia de interesse potencial para o indexador, porm hoje ela se apresenta
muito desatualizada. Em algumas instituies o trabalho do indexador conta
pode ser considerado um verdadeiro vocabulrio de entradas que inclui tanto com o auxlio do acesso em linha a bancos de dados terminolgicos.
remissivas unidirecionais quanto multidirecionais. Por exemplo, cisto teratide
1teratoid cyst] deve ser indexado sob teratoma, porm cistoadenocarcinoma do
dueto biliar [bife duct cystadenocarcinoma] ser indexado sob cystadenocarci-
noma [cistoadenocarcinoma] e tambm sob cholangiocarcinoma [colangiocar-
cinoma]. Esses vocabulrios especializados no so mais mantidos pela NLM.
4. NDICES PR-COORDENADOS 51
Moambique- Relaes Econmicas
CAPTULO 4
ou mesmo
Moambique- Relaes Econmicas- frica do Sul
Os subcabealhos, no entanto, costumam ser adotados de maneira relativa-
ndices pr-coordenados mente parcimoniosa nos catlogos de bibliotecas, e seria raro o catlogo que reu.:.
nisse toda uma seqUncia* de termos como na seguinte entrada pr-coordenada:
Moambique, Relaes Econmicas, frica do Sul, Trabalhadores Migrantes, Mineiros
mais provvel que entradas detalhadas como essa apaream em ndices im-
A flexibilidade inerente aos sistemas ps-coordenados deixa de existir quan-
do os termos de indexao so impressos em papel ou fichas catalogrficas
convencionais. Os ndices impressos e os catlogos em fichas so pr-coOlde-
pressos do que em catlogos em fichas. A este respeito, os ndices impressos so
considerados ferramentas de recuperao mais eficientes do que os catlogos
nados; suas caractersticas so ~s seguintes: convencionais de bibliotecas. Em certos ndices impressos, o usurio percor-
reria as entradas sob Moambique para verificar se alguma delas tambm men-
l. diffcil representar a multidimensionalidade das relaes entre os termos.
ciona a frica do Sul. Exemplos de vrias formas de ndices impressos encon-
2. Os termos somente podem ser listados numa detenninada seqncia (A, B, c,
tram-se no captulo I O.
o, E), o que implica que o primeiro termo mais impmiante do que os outros.
Nias uma entrada como essa do exemplo apresenta um problema bvio: ela
3. No fcil (seno completamente impossvel) combinar termos no momento
proporciona acesso ao documento somente para quem estiver procurando sob o
em que se faz uma busca.
termo MOAt\1BIQUE, sem dar acesso numa busca relativa frica do Sul, minei-
A forma mais rudimentar de um sistema de recuperao da informao talvez ros ou trabalhadores migrantes. Para que sejam oferecidos pontos de acesso
seja o tradicional catlogo em fichas utilizado h sculos nas bibliotecas. Veja- adicionais preciso criar mais entradas no ndice.
mos o item. mencionado anteriormente: um livro sobre migrao de mo-de-obra No existe maneira alguma pela qual um ndice impresso possa proporcio-
de Moambique para as minas da frica do Sul. Suponhamos que lhe tenham nar, de forma econmica, o mesmo nvel de acesso ao documento que propor-
sido atribudos trs cabealhos de assuntos: MOAMBIQUE, FRICA DO SUL e cionado por um sistema de recuperao ps-coordenado. Conforme moshamos
TRABALHADORES MIGRANTES. A descrio bibliogrfica do livro apareceria sob anteriormente, um sistema ps-coordenado permite o acesso por meio de qual-
todos os trs cabealhos num catlogo alfabtico de assuntos em formato de quer combinao de termos atribudos ao documento. O nmero de combina-
fichas. Isso faz com que se tenha acesso ao livro sob qualquer um desses cabe- es 2n-1, onde n representa o nmero de termos.Assim, para um item indexa-
alhos. Ser, entretanto, extremamente difcil realizar uma busca a respeito de do sob cinco termos, haver 2 5-1 combinaes, ou seja, um total de 31. Teorica-
qualquer combinao desses termos. Por exemplo, um usurio que esteja procu- mente, ento, um fndice impresso proporcionaria todas as combinaes de cinco
rando livros sobre as relaes polticas ou econmicas entre Moambique e termos, se imprimisse 31 entradas. Seria economicamente invivel criar um ndi-
fiica do Sul precisaria examinar todas as entradas sob o cabealho MOAM- ce impresso que contivesse tantas entradas para cada item, e a quantidade de
BIQUE ou sob o cabealho FRICA DO SUL. Mesmo que o fizesse, no reconhe- entradas aumentaria dramaticamente medida que aumentasse o nmero de ter-
ceria necessariamente os itens pertinentes. Se procurasse sob MOMIBIQUE, mos- existem 255 combinaes de oito termos!
provavelmente s reconheceria que um livro era pertinente se o mesmo cotlti- Alm do mais, como os termos devem ser impressos um em seguida ao outro
vesse em seu ttulo o termo 'frica do Sul' (e vice-versa, se procurasse sob numa entrada (isto , numa seqncia linear), aos ndices impressos preside a
FRICA DO SUL), ou se no p da ficha catalogrfica aparecessem os outros cabe- permutao e no a comb;nao. Por exemplo, a seqncia MOA1v1BIQUE,
alhos atribudos ao livro (seria improvvel que os consultasse, a menos que FRICA DO SUL no a mesma de FRICA DO SUL, MOAMBIQUE. 0 nmero de
fosse um usurio de catlogos muito experiente). Outra possibilidade ~eria permutaes n fatorial, sendo no nmero de termos. Por exemplo, o nmero
procurar sob todas as entradas com MOAMBIQUE e todas as entradas com AFRI- de permutaes de oito termos 40 320 (8x7x6x5x4x3x2x 1).
CA oo SUL para tentar encontrar ttulos que ocorressem sob ambas- um pro- A situao dos ndices impressos no to desoladora quanto essas conside-
cesso muito enfadonho, Se houver muitas entradas para consultar.
possvel melhorar essa situao nos catlogos em fichas mediante o em-
prego de um cabealho como subcabealho (isto , os termos s? pr-coor- * Por isso, esse tipo de indexao s vezes chamado indexao em seqiincia [string indexing}
(Craven, 1986).
denados numa entrada). Assim, ter-se-ia uma entrada como a segumte:
52 INDEXAO E RESUMOS: TEORIA E PRTICA 4. NDICES PR-COORDENADOS 53
raes do a entender. Vrios programas de computador foram desenvolvidos esquerda, a fim de se tornar um ponto de entrada, sendo os demais termos lista-
para gerar automaticamente um conjunto de entradas de ndice a pm1ir de uma dos depois dele:
seqncia de termos. Um desses processos conhecido como sue (Selective ABCDE
Listing in Combination [Listagem Seletiva em Combinao]. O programa, cria- BCDEA
do por Sharp (1966), primeiro organiza a seqncia de termos em ordem CDEAB
alfabtica. Esta seqncia (ver figura 17) torna-se a primeira entrada do ndice. DEABC
O programa gera, ento, todas as demais entradas julgadas necessrias, obede- EABCD
cendo a duas regras simples:
Note-se que, aps o termo de entrada, vm primeiro os termos que o seguiam
I. Os termos so sempre listados em ordem alfabtica. na seqncia original e, depois, os que originalmente o precediam. No ndice
2. As seqncias redundantes so eliminadas (por exemplo, a entrada Traba- alternado, a sucesso de termos numa seqUncia no precisa dispor-se segundo
lhadores Migrantes, Mineiros no ser necessria se j houver Trabalha- uma ordem evidente, embora estejam freqUentemente ordenados alfabeticamen-
dores lvligrantes, IVIineiros, frica do Sul). te e possam ser ordenados 'sistematicamente' (como se ver adiante).
Quando esta regra obedecida, a quantidade de entradas cai de 2n-1 para 2n-t. A rotao essencialmente o mesmo que a alternao, exceto que o termo de
entrada ressaltado de alguma forma (por exemplo, grifado ou sublinhado), em
frica do Sul vez de ser deslocado para a posio mais esquerda:
Mineiros, frica do Sul
Mineiros, frica do Sul, Moambique ABCDE
Relaes Econmicas, frica do Sul ABC DE
Relaes Econmicas, frica do Sul, Mineiros ABCDE
Relaes Econmicas, frica do Sul, Mineiros, Moambique ABCDE
Relaes Econmicas, frica do Sul, fvlineiros, Moambique, Trabalhadores Migrantes
Relaes Econmicas, frica do Sul, Mineiros, Trabalhadores Migrantes ABCDE
Relaes Econmicas, frica do Sul, Moambique Tanto a alternao quanto a rotao proporcionam um certo 'contexto' para
Relaes Econmicas, frica do Sul, Trabalhadores Migrantes
um termo, mas as relaes entre alguns dos termos ainda permanecem obscuras
Relaes Econmicas, Trnbalhadores Migrantes, Moambique, frica do Sul,
Trabalhadores Migrantes, frica do Sul ou ambguas. Um ndice baseado no deslocamento emprega uma apresentao
Trabalhadores Migrantes, frica do Sul, Mineiros em duas linhas na tentativa de reduzir a ambigidade (isto , ser mais preciso ao
Trabalhadores Migrantes, frica do Sul, Mineiros, Moambique mostrar como um termo se relaciona com outro), como nos exemplos:
Trabalhadores Migrantes, frica do Sul, Moambique
A B.A
FIGURA 17 B.C.D C.D
Entradas de um ndice sue O principal exemplo disso, que o PRECIS, ser examinado mais adiante.*
Um mtodo simples para produzir um ndice impresso, baseado na ordem
O mtodo sue engenhoso, pois permite todas as justaposies teis de alfabtica e na 'alternao' sistemtica de termos para que ocupem a posio de
termos, pelo menos enquanto estes forem mantidos em ordem alfabtica. Ivlas entrada, conforme utilizado nas sries da Exce1pta Aledica, encontra-se exem-
tambm tem suas desvantagens: ainda gera um nmero bastante grande de entra- plificado na figura 18. Nfais uma vez, a primeira entrada resulta da colocao de
das; o consulente, para usar o !ldice com eficincia, deve reorganizar mental- todos os termos em ordem alfabtiCa. As entradas adicionais derivam da movi-
mente os termos de busca em ordem alfabtica (por exemplo, encontrar Traba- mentao de cada termo, sucessivamente, para a posio de entrada, sendo os
lhadores Migrantes, Moambique, mas no Moambique, Trabalhadores Mi- demais termos listados depois dele (sempre em ordem alfabtica) como uma
grantes); perde o contexto para os termos situados pe1to do in~io da ordem seqncia de modificadores. Ainda que isso no enseje todas as justaposies
alfabtica (por exemplo, quem procurasse todas as entradas sob Africa do Sul possveis de termos, na realidade oferece algumas vantagens evidentes em
no teria idia alguma sobre o assunto deste item). comparao com o sue: mais econmico (no h mais entradas do que a quan-
Outros ndices baseiam-se num conjunto de entradas que se obtm sistema-
ticamente mediante alternao [cycling], rotao ou deslocamento [shunting]. *A terminologia relativa a ndices pr-coordenados no se acha realmente padronizada. Por
Na alternao, cada termo numa seqncia movido para a posio mais exemplo, Craven (1986) parece que no faz distino entre alternao e rotao.
54 INDEXAO E RESUMOS: TEORIA E PRTICA 4. iNDICES PR~COORDENADOS 55

tidade de termos atribudos) e cada entrada conta com seu 'contexto' completo. no possuem contedo temtico. O ndice KWIC um mtodo barato de obter
Nesse tipo de ndice impresso possvel reconhecer dois tipos de termos: os que cet1o nvel de acesso temtico ao contedo de uma coleo. til na medida em
geram entradas de ndice e os que no as geram. Os termos que no iro gerar que os ttulos sejam bons indicadores de contedo (por isso, provvel que
entradas so marcados de alguma forma pelo indexador (ou so reconhecidos funcione melhor com cet1os assuntos ou tipos de materiais do que com outros),
automaticamente). Tais termos sero utilizados apenas como modificadores. embora, em princpio, no haja motivo para que os ndices KWIC no derivem de
Aparecem no final da seqncia de termos e so reconhecidos por estarem fora outro texto, como, por exemplo, frases de resumos ou at seqncias de cabe-
da ordem alfabtica e talvez impressos com diferente estilo de letra (ver o exem- alhos de assuntos. Muitos estudos foram feitos sobre a utilidade dos ttulos na
plo 'bibliografia' na figura 18). recuperao (ver Hodges, 1983, e Hjerland e Nielsen, 2001). Os ttulos podem
tambm ficar mais informativos com o acrscimo ou enriquecimento. Isto ,
liicadoSul, Mineiros, Morunbique, Relaes Econmicas, Trabalhadores Mignmtes, Bibliografia outras palavras so acrescentadas ao ttulo, normalmente entre parnteses, para
Mineiros, fiic~ do Sul, Morunbique, Relaes Econmicas, Trabalhadores Migmntes, Bibliografia explic~ lo ou torn-lo uma descrio mais completa do contedo do item.
Moambique, Afiica do Sul, Mineiros, Relaes Econmicas, Trabalhadores Migrantes, Bibliografia
Relaes Econmicas, fiica do Sul, Mineiros, Moambique, Trabalhadores Mignmtes, Bibliografia \( Httt"~E<Jt fO~ Hll HU~t Q,
ft<E llUtiCitl Q, CUSH\5. J SI~P
SUUCIU~Jl I~HVECJ101U I~ Ot!UH tllSULS,
Trabalhadores Migmntes, frica do Sul, Mineiros, Moambique, Relaes Econmicas, Bibliografia li~EU (<JIII~USUIUfJ OF FOV~tH>I HllV'l
ll'f li><EU Co...>IPRUSIUUH Qf THUTHI< li.HVUL
nHTlLS.
(lYHALS
THIISLUIOOI Cl!OII>!~ l>t COSUlS.
lwlii~E!) CUSHLS.
UliOI!\~ (~UP OF ltf SII<Glf UYHJLS,
FIGURA 18 OIH(t ~<lHUUIIEHU Of lll~ St!~fAtf U<U~Y QF (lllSUU.
Tnl ~WTJI UO OEfOIUilliG'f Of ltf "YSTAU,
Entradas de ndice baseado na alternao sistemtica (modelo da E;r:cerpta J\fedica) l(li~IHUr EUt~III.EioTS O~ lK( 'LI$TICI11' OI ltE
Pl()PJ.U 10'( OI tlUVlH Cl~(~$ IN
ClYHU1.
(li$UUo
llBVlTS OF t

lo 111 OISlOCUI!l"iS l>iO ~EC~J.JIICU PlOHUifS OF UlSULSo T~E OllfCT C~Hl'o'UIO"' O~ CUlOtHIO.'I Plf
ll GUIIoSo HTR()HUit l~O IHTUI.I.U $UIJ(;f!Jji.E, CRVSULS, TI<E HJSflt CO"SHNU Of \O(lS IN Hl"S O
OIHOCliiON$ U!O llfC>'l"'ICll ,J.Oiflfll$ OF tnuu, HUIGM,
Os ndices exemplificados nas figuras 17 e 18 pressupem o emprego de ter- OI StOCITlO!I$ IH
IHfSIUl l'llOPU.TIH OF
CliSJJlS. TUUCC(,
ClllSUt.S.TUUOO<.
SlllE>IGhl Of CRHTJlS.JHUOOt.IJ'I ~HNU,
mos de indexao e no de texto livre, embora, em princpio, possam ser produ- Pll$11CITY Of CR1'SUlS.TflUCC<.
III?VHCTIOIIS 1'1 1\fUlY HlfftT CJ.rStllS.JfJU~C<.
zidos por computador depois que, mediante programas, tenham sido extradas OI HOC lEIO" uo nHHC rtov tN cusuu.tnuoco.
do texto narrativo frases 'significativas'. Alguns mtodos ainda mais simples de l><"Hllll~ RHilYSTilliUTICfl 11< tllCIH (R,YJtAt$ l~O lJ;l(GtH$,
ltltS,HIOI"'l~, no- ()f ROo<. IC<tlll/":; (llY$UU JO.O lGC~E~UH. <I~~ U!'IOS. llll'IEUlSoPfHOFl
produo de ndices impressos foram criados para trabalhar com textos e, espe- l"t HHCT OF OJHEHTUIO'I Cfl SUBSB IH UHGU
fK~ HllUlE OI Cl'IITIU I"
(USUt$
CUHALS
J.Oi? Of H'<00)( OlHNUTIO"' ON HlE>iClH OF ~Otv
A~O lOC~$ Vl<l~ HUSUAto
ElPUIME'IfAl OHO.OON.lfll).l( OF WliUl IIIIHE CR1'SUlS lT H~lO ~e, CQ>tfliii"G llfSSYU ~~ H OEG,C.
cialmente, palavras que ocorrem nos ttulos dos documentos. Os mtodos mais "
.!~ lu~Sit.,,
OHOO;HUII)It OF
OSHil~ATIO.. Of OISl~AlUlNS 11<
(llY$HLS
t~l$UlS
U HIGK ~usut l~O IIIGH H~HUlt!lE.III CHil
U l"E ~Ht<OO 'lf SHtCTIVE EHHI~G.CO~H~{IICE
adotados so o KWIC (keylVord in context) [palavra-chave no contexto], KWOC OI! lloltY~IS 01 IIEHUEO OJ.I(HU.TIOII flF Ot!lllll ClllHHS IN l ll>iHHO OVUIUH, r~

(keylVord ou! of context) [palavra-chave fora do contexto] e suas variantes.


lU tRTHll$ !li !;t1CIHS t()I<Plll~O llllK QVlllTl
CT>il~!Cllll ><Ul~<O.H<IHO U~OSTO>HS,
-~ (;(OTI'UIIO><Ell!C (OioSIO~UfiOIIS 011 lHE OUUrl
ltf
tlllSTltS
tRTSlltS
CUS~Al$
111 t1CIU$ CO><,.UO ><ITH '"""ri
111 CTIIHICHlY ><U1110R,>ll,l$t0 SJOjOSTOI<Uo
CUSUl$ I"
ill ~HTOUU Of lHt lOS!! .o.. tvU. !li RVHl"il'l
HMOO IH STUVY OF SflTistiCS IN O~IENTlfiON Q1 (USULS 101 lOC~S lHO OlUo OlfiUtfiOH
O ndice KW!C (Luhn, 1959) um ndice rotado, derivado, em sua forma mais t,
I,
~UHJUO O~ltOIUTIOOI Of OliVIH'
CO><PlfHIO>IIl U\lf YHOtiTIES 1/f SJ>jGlf
C~HTUS
(IIT$Ul$
IH UOCTOllH OF TH~ lllt11T1J. HO\lloUIHSoQJ.U~
Of UOU "1(\0SPH .lT ,HSSVHS 10 lO ~ll"IU
EtlSTIC plOHRITtS Of SII<GU tUSTAU OF U<II!Oliff,
comum, dos tftulos de publicaes. Cada palavra-chave que aparece num tftulo c~ lk! l>ii<O~OHNEITT O~ Hllllt OH~HA110!1 IH
lK~ ()Ef()J.IIlTIO-~ (!F SlliGlf
CllSULS
C~HUU
OI l'l I&GlfGlH.
Of IClo(O~Jf~[~(f,
torna-se ponto de entrada, destacada de alguma forma, aparecendo, normal- II~(Hl.~ICH ,.OHUIU CF SIIIGL" tlYSTAl1
CUV OF SIIIGU C~YSUU
Of ICf
O ICE,
IJl O'! YHOCITr OF SnEU OHO\~lfiO~ Of SIIIGU tUSULS Of lct. ~HH1 Of HlO.~OstJTIC 'IH
mente, realada no centro da pgina como no exemplo da figura 19. As palavras H.UTIC 0Ef0l11Jfl011 01- SlliGlE ClYSULS Qf OU~~fl,

restantes do ttulo aparecem 'envolvendo' a palavra-chave. O ndice KWIC cons-


titui o mtodo mais simples de produo de ndices impressos por computador, FIGURA 19
no entanto, tem alguma eficincia, pois cada palavra-chave vista em seu 'con- Exemplo de entradas de um ndice KWIC
Reproduzido de KWIC /mk:rof Rr><.k Afed1<mln Lileroltrr~. com permisso do
texto'. Por exemplo (figura 19); possvel percorrer as entradas para 'c1ystals' American JnstitvteofMining. Metalltugical and Petro.leum Engineers,Jnc.
[cristais] em busca das que paream tratar das propriedades elsticas ou plsti-
cas dos cristais. Os ndices KWIC normalmente remetem apenas para alguma O ndice KWOC similar ao KWIC, exceto que as palavras-chave que setor-
forma de nmero de documento, sendo preciso reportar-se a esse nmero a fim nam pontos de acesso so repetidas fora do contexto> comumente destacadas na
de obter informaes bibliogrficas completas sobre o item representado. margem esquerda da pgina (figura 20) ou usadas como se fossem cabealhos de
Note-se que o programa de computador que gera o ndice identifica as pala- assuntos (figura 21). Faz~se s vezes uma diferena entre ndices KWOC e ndices
vras~chave mediante um processo 'reverso': reconhece as que no so palavras- KWAC (keyword and context [palavra-chave e contexto]). Quem adota essa dis-
chave (constantes de uma lista de palavras proibidas) e impede que sejam tino chama de ndices KWAC os ndices mostrados nas figuras 20 e 21. Um
adotadas como pontos de entrada. Os vocbulos dessa lista de palavras proibidas ndice KWOC seria ento aquele em que a palavra-chave usada como ponto de
tm funosinttica(artigos, preposies, conjunes, etc.), mas, em si mesmos, entrada no se repete no ttulo mas substituda por um asterisco (*) ou outro
56 INDEXAO E RESUMOS: TEORIA E PRTJCA 4. !NDICES PR-COORDENADOS 57
smbolo. difcil justificar essa prtica inslita (empregar um smbolo para
NONEQUILI8RJUH SCALE EffECTS fOR NONEQUILI&RIU~ CO~YECTIYE HE
substituir a palavra-chave), de modo que a distino entre KWOC e KWAC no AT TRANSFER WITH SIMULTANEOUS GAS PHASE ANO SU
RfACE HEMIC.Al REACTIONS. APPllCATlON TO HYPER
muito til. H diversas variantes de KWIC/Kwoc, inclusive o KWIC duplo (Petrar- SOHIC FLIGHT AT HIGH ALTITUOES
ca & Lay, 1969). Afins famlia KIVIC/KWOC so os ndices de 'termo permuta- A0-191 onoo u.6o ooH
NONLINEAR APPLICATION OF VARIATIONAL fQUATION Of MOT!ON
do', mais bem exemplificados pelo fndice Permutenn, relacionado aos ndices TO THE NOHLINEAR VI8RATION ANALYSIS OF HOMOGEN
EOUS ANO LAYEREO PlATES ANO SHELlS
de citaes produzidos pelo Institute for Scientific Information. No ndice Per- A0-289 8681KI $2,60 0661
NONLINEAil EXTENSIONS IN lHE SYNTHESIS OI' TIME OPliM.ll OR
muterm cada palavra-chave do ttulo ligada, uma por vez, com outra palavra- &AHG-BANG NONLINEAR CONTROL SYSTEHS, PART (,
lHE SYNTHESIS Of QUASI-STATIONAR'( OPTIMUH HOHl
chave nesse t[tulo, por exemplo: INEAR CONTROL SYSTEMS
PB 162 5~7IKJ ~~.60 2l5
CRISTAIS NONLIHEAR EXTENSJONS IN TllE SYNTHfSIS Of TIME OPTIH.ll OR
BANG-BANG NOHLIN.lR CONTROL SYSHMS, PART (,
ALUMNIO 20071 THE SYNTHESIS Of QUASI-STATIONARY OPTIMUH NONl
INEAR CONTROl SYSTEMS
ru'ILISE . 18024 PB 162 5~71Kl 5~.60 02l5
COBALTO 00409 NONLINEAR NONLINEAR FlEXURAl VIBRATIONS Of SAHOWICH PLAT
ES A0-289 8111KI 12.60 0669
CRESCIMENTO 20071 NONLIHEAR OPTJMUM NONliNEAR CONTROl FOR ARBITRARY OJSTUR
DESLOCAES 04778 BANCES NASA N62-l53901KI 12.60 0682
NONRECURRENT A TECHNIQUE FGR NARROW-BAHO TELEMETR'f DF HONRE
EQUILBRIO 17853 CURREkT PUlSES A0-290 6971KI 12.60 0511.
FERRITE 04778 NONUNlfOR~ ElECTROHAGNETJC. SC.ATTERING fROM A SPHERICAL NO
NUNifOA.H HEOllJH, PARI 11. THE RADAR CROSS SEC.l
HEXAGONAIS 30714 ION Of A fLARt A0-289 6l51KI 52.60 07,7
NONUNifORH ELECTR~AGNETIC SCATTERING fROM ASPHERICAl NON
Com esse tipo de ndice fcil associar palavras-chave durante a busca, ao UHlfORK HfO)UH, PART J, GENERAL THEORY
40289 6\,IKI S2.60 0748
percorrer, por exemplo, a coluna de 'cristais' para verificar se algum dos ttulos NORMAL PROBABILITY INTEGRALS Of HlJlllVARIATE NORMAL A
NO HULTIVARIATEl A0-290 7,6fKI 58,60 0760
pode tratar de cristais de cobalto. Note-se que todas as palavras-chave do ttulo NORMAl RESONANCE ABSORPTIOH OF GA~HA~RAYS IN NORHAL A
NO SUPERCONOUCTING TIN
aparecem reunidas em pares (por exemplo, o documento que tem em comum o A0-289 8HIK) 0.60 0826
NORMS NORHS fOR ARTifiCIAl LIGHTING
nmero 04778 indica que os termos 'cristais\ 'deslocaes' e 'ferrite' ocorrem A0-190 5551KI $1,10 07H
NORTH fAClORS lNFlUENCING VASCUlAR PLANT ZOHUION IN
no mesmo ttulo) e cada palavra-chave torna-se ponto de entrada no ndice: 'alu- HORTH CAROliNA SAtTHARSHES
.1.0~290 9)81KI $1,60 060)
mnio' ser ponto de entrada, e tambm 'anlise', 'equilfbrio' e assim por diante. NORTH SONAR STVOIES Of THf OEEP SCATTERING LAYER IN
THE NORTH PAClfiC P8 162 ,271KI $1,60 0587
De cetto modo afim ao grupo de ndices KWIC/KWOC/permutado tem-se o NORTH lHE OfVElOPHENT Of RESCUE ANO SURVIVAl TECHNIO
'ndice articulado de assuntos', exemplificado pelo ndice de assuntos do Che- UfS IH lHE NORlH AMERICAN ARCTIC
P8 162 HOII() Sl2.00 0085
mical Abstracts. Este tipo de ndice usa uma breve descrio narrativa do docu- NOSE lHE flORA OF HEAlTHY OGGS, J, BACTERIA ANO fUH
Gl of TtiE NOSE 1 THROAT, ANO LOWER INTESTINE
mento para gerar as entradas. Esta descrio pode ser um enunciado redigido NOZZlE
lf-21K) S2.60 0,58
FA8RJCATION Of PYROLYTIC GRAPHITE ROC.KET HOZZL
pelo indexador ou, em seu lugar, um ttulo ou frase extrada do texto. Certas pala- f COMPOHEHTS P8 162 )7\IKI $1.10 0)51
HOZZLE fA8RIC.ATION Of PYROLYTIC GRAPHITE ROCKET NOZZL
vras ou frases que aparecem nesse enunciado so selecionadas como pontos de E COMPONEJiTS P8 162 HOIKl $1.10 035l
NOZllE f.l8RICATION Of PYROlYTIC GRAPHITE ROCKET NOZll
entrada no ndice, mantendo-se o restante do enunciado como um modificador E C.OHPONEHTS P8 162 l721KI $2.60 0352
NOZZLE THIRO SYMPOSIUH ON AOVANCEO PROPULSIOH CONCEPT
que proporciona o contexto necessrio. S SPOHSOREO BY U"'ITfO STATES AIR fORCE Off!CE
Of SCIENTifiC. RESEARCH ANO lHE GENERAL ElECTRI
Armstrong e Keen ( 1982) descrevem o processo de elaborao de entradas C. C.OHPANY fLIGHT PROPULSIOH OIVISIO"' CIHtlNNAT
lo OHIO OCTOSER 2-,, 1962. PlASMA fLOW IN A HA
para um rndice atticulado da seguinte forma: GHO(C ARC NOZllE A0-2q0 08211C.) 12.60 0147
tiOZllES HEU TRAHSfER ANO PARTIClE TIUJECTORIES ltl SOL
Os termos de entrada so reordenados de tal modo que cada um deles se liga a seu 10-ROCKET HOZlLES A0-289 6811KI SS,60 OOlO
vizinho original por meio de uma palavra funcional ou pontuao especial, conser-
vando-se assim a estrutura similar de uma frase, ainda que muitas vezes disposta em FIGURA 20
ordem diferente (p.6). Amostra das entradas de um ndice KWOC
Reproduzida de C..l: Gmo:ru/11~111 l~dmh"U! R~JH>TI.~, Volume\, !963, com permisso do National Technicalln(orrnation Se....ice
Os seguintes exemplos, extrados de Annstrong e Keen, demonstram o principio:
Note-se que mantida a sintaxe do texto original de modo que o significado
Indexao de Peridicos de Quimica por Pesquisadores
do enunciado original no fica obscuro. Esses enunciados de indexao podem
Peridicos de Qumica, Indexao de, por pesquisadores
Qumica, Peridicos de, Indexao de, por pesquisadores ser preparados pelo indexador, obedecendo a um conjunto prescrito de regras,
ou podem ser desenvolvidos programas de computador que geram essas entra-
das (Armitage & Lynch, 1968; Lynch & Petrie, 1973).
58 INDEXAO E RESUMOS: TEORIA E PRTICA 4. NDICES PRCOORDENADOS 59

QL YC I DE Craven (1977). Em sua forma mais simples, o indexador emprega colchetes


angulares para indicar uma frase 'encaixada' numa frase maior e que ser usada
para gerar entradas de ndice. Por exemplo, a frase
Produtividade das Pesquisas de <Especialistas <lo Sono>
OLYCIJIE
gerar as duas entradas seguintes:
iN ilriSULIN ASSAT SASEO OH THf IHCOAPORAf!Oirl Of LASELLEO
QlfCINE INIO PROTEIH Of ISOLATED AAT OIAPHAAGM, o Produtividade das Pesquisas de Especialistas do Sono
~f~ ~:HCHEStEA, P J AANOLE, f G YOUHG J ENOOCA Yl9 P25t- 62,
Especialistas do Sono, Produtividade das Pesquisas de
MAIHIENANCE Of CilliOHYOAAIE STOP.ES OUAIHG srAeSS Of COLO ANO
fAJICUE IN AATS fi'RErEO OIETS CONIAINikG AOOED GUCJHE. Craven elabora este princpio simples com o acrscimo de outros smbolos e
W R IOOQ, H ALLEirl USAf ARCl!C AEAONEO LAB IECHN AEP Y57J4
1"116, JUHE 6G convenes a serem utilizados pelo indexador para criar entradas de ndice que
lilYCINE Ci4 sejam coerentes e inequvocas, alm de teis. O trabalho de Annstrong e Keen
RAlE Of ASSOCIATION Of $35 JHD C14 IN PLASMA PAOIE)Irl fiiACIIONS (1982) nos d uma idia das possibilidades deste mtodo de indexao relativa-
ifTER A~IHJSIAATIOH Of HA2Sl504, GLYCIHEC\4, 011 GLUCOSE Cl4, mente simples. Bastante semelhante ao NEPHIS o sistema PASJ (Pragmatic
o J E AICHNOJIO o J 810l CHEK V2J4 P271lb, OCT 59
Gl YCOGEH Approach to Subject Indexing [Mtodo Pragmtico de Indexao de Assuntos])
GlYCO!lEH Of lHE ADAEHAL COAIEX ANO K!:OULlA, JNrtUEifC~ Of .lGE descrito por Dutta e Sinha (1984).
ANO SEX, H PLAiriELo i CUILHEK o C A SDC 810L PiA Vt5J P844-t,
19S9 fR Vale a pena citar brevemente outro sistema de indexao. O SPINDEX (Selec-
EffECI Of DIEJ O~ lHE 8L00D SUGAR AHO LIYE~ GLYCDGEN LEYEL Of tive Permutationlndex [ndice de Permutao Seletiva]), criado para a indexa-
NORMAL AHO ADAEHllECTOMiiED MICE. 9 P 8LOCK, G S COl o
HAIUAE LOHD Vll~ SUPPl 10 P1212, 29 AUG ,9 o de fundos arquivsticos, Originalmente no passava de um ndice KWAC ou
LIVEA GLYCOGEH ANO 8L000 SUGAR LfVELS IN AOA~NALDEKEOULLAJEO KWOC (Burke, 1967). Em verses posteriores, sofreu alteraes para produzir
AkD AOAEHALECTOMilEO AAJS lfiEA A SIHGLf DOSE or GAOWIH
HOAHOH~. C l DE GROOI ACil PHYSIOL PHAAHACOL HfERL Y9 entradas de ndice de dois nveis, que consistiam em palavras-chave principais
P101ZO, MAl 60
e qualificadoras, como nos exemplos ARIZONA, Questes indgenas, e QUESTES
A MICAOHETHOO fOR SIKULIAHEOUS OEIEAMIHAIIOH Of GLUCOSE lHO
KEJOHE 9001ES IH &LODO ANO GLlCOGEN lHO KEIONE eODIES IH INDGENAS, Arizona (Cook, 1980). Lamentavelmente, a sigla SPINDEX, com o
LIVEA, O HlHSEK SClHO J CLIH Ll8 IHYESI Yi2 P112~. 1960
significado de Subject Profile lndex [ndice de Perfil de Assuntos], foi tambm
lH IHVEASE AELlTIOH 9fTMtfH lHE LIYEA GLfCOiEH lHO lHE ILOOO
GLUC0$E IH lHE All ADlPU:o 10 .1. f AI 0/fl, P l MAYES H&IU~f usada para um formato diferente por parte de produtores de vrios ndices im-
LO~O Yl81 P32S6 23 JULf 60
pressos, inclusive o American Bibliographical Center (que edita Historical
LIYEA GLUCOSYL OLIGOSlCCHAAIOES lHO GLfCOGEH C.I.ABOH-14
OJOKIOE EXPEAIMEHIS VI IH HYDAOCOHIISOHf, H G Slf, Abstracts e America: Hist01y and Life). Este mtodo, depois denominado ABC-
J ASHMORf, R MlHLEAo V H FISHHAH o H.I.TUHE LOHO Yll~ P1ll01o
31 OCI '!19 SPINDEX (American Bibliographical Center's Subject Profile Index) para dife-
STUOIES OH GlTCOGEN 810SIHTHESIS IH GUIHEA PIG COAHEA 8T ren-lo do SPINDEX, com o qual no tem relao, parece ser praticamente idnti
MEAHS Of GLUC0$f lA8ElEO VI IM Cl~. A PHAUS,
J 08EMIEAGE~, J VOTOCKOYA CESK rlSIOl Y9 P4,6o JlW ti Cl co aos ndices alternados utilizados pela Excerpta Medica (Falk & Base r, 1980).
GLYCOGEH CONTE~l ANO Cl~IOHlOAllf AEiliOLISM Of lHE LEUKOCYIES
IH DIAIUES KEll!TUS, Q M.I.EHit o lljf)l l IHH MEO 't~f P3Jt4o
SEPJ '!19 UA Classificao em ndices de assuntos
QllCOGEH ~IYEA, AM IAIRO,ENIC lCUif A8DOHINAl DISOAOEit IN
DIABETES "illiiUio A SCHOTIE, H K LANKlMP, M FltfNKEl
Todos os ndices at aqui examinados adotam mtodos que so 'alfabticos',
NED T IEMEESK Ylll P22,t-61, 1 NOV '!19 OU! mas no 'sistemticos'. Outros tipos de ndices exigem que as entradas sejam
ACUTE ilTCOIEN INfiL11tAJIOM Of IWE LIYEA IN OIAIEIES MELLIIUS.
lo lHE EFFECII Of llUCAGON IHEA.I.Pf, .1. SCHOIJ(, H ~ lANK4MP,
construdas segundo princpios 'lgicos'. Esses mtodos remontam a Cutter
" fRENKEl NED T IEHEESK Y114 Pl21t91. 2 ~ULT o QUI (1876), que estabeleceu regras para questes como entrada direta versus entrada
invertida (Histria da Antiguidade ou Antiguidade, Histria?). Kaiser (1911) in-
FIGURA 21
troduziu um enfoque mais elaborado, que reconhecia trs categorias de termos:
Formato alternativo de um indice KWOC usado no DiabetesRe!ated Literature Index,
suplemento de Diabetes, volume 12, 1960
concretos, processos e termos de localidade. 'Concretos' so termos relativos a
Copyrighl~ !960 by the American Diabetes Association. Reproduzido com pem1isso 'coisas'} reais ou imaginrias, e 'processos' abrangem atividades. Kaiser deter-
minava que os 'enunciados' de indexao apresentassem os termos em seqn-
Um exemplo de ndice articulado de assuntos, que , de fato, o mesmo cia sistemtica e no em ordem alfabtica. S eram permitidas trs seqncias:
descrito minuciosamente por Armstrong e Keen (1982), o NEPHIS (Nested
Phrase lndexing System [Sistema de Indexao de Frase Encaixada]), criado por
60 INDEXAO E RESUMOS: TEORIA E PRTICA 4. NDICES PR-COORDENADOS 61
I. Concreto-Processo (como em Tubos-Soldagem ou Tubos de Ao-Soldagem) nominado, um tanto equivoc.adamente, 'facetado'), Ranganathan chegou a cinco
2. Localidade-Processo (comO em Argentina-Comrcio) 'categorias fundamentais' e a uma frmula de reuni-las. As categorias Persona-
3. Concreto-Localidade-Processo (como em Caf-Brasil-Exp01tao) lidade, i'vfatria, Energia, Espao e Tempo, so combinadas nesta seq~incia e a
frmula s vezes denominada simplesmente 'PMEST' [onde oS corresponde
A fim de obedecer s regras de Kaiser, o indexador deveria evidenciar um termo letra inicial de 'space', espao em ingls].
concreto que se achasse implcito. Por exemplo, o termo dessalinizao tornar-
O modo mais fcil de descrever a Personalidade como 'a coisa em si'. Ma-
se-ia gua-Dessalinizao.
tr_ia o materi~l de que a coisa composta. Energia a ao realizada na ou pela
Atribui-se a Ranganathan o mais importante desenvolvimento que teve lugar
co1sa. Espao e onde a ao se verifica, e Tempo quando ela ocorre. A se-
depois disso. Embora seu nome esteja fundamentalmente ligado s teorias da
qncia AbCfHYqZh obedece ordem PMEST. Por conseguinte, a entrada num
classificao e a seu prprio esquema de classificao bibliogrfica, a Colon
ndice em cadeia de um item categorizado dessa forma ser o inverso dessa ordem.
C!assification [Classificao dos Dois Pontos], Ranganathan tambm prestou
A seqqcia 'lgica' das facetas estabelecida por Ranganathan para a cons-
importante contribuio prtica moderna da indexao alfabtica de assuntos.
truo de nmeros pode ser tambm adotada em catlogos e ndices alfabticos
Sua indexao em cadeia constitui uma tentativa de obter um processo de desen-
de assuntos. Poder-se-ia, assim, elaborar uma entrada de ndice lgica, de acor-
volvimento coerente do ndice alfabtico de assuntos do catlogo sistemtico
do com a frmula PMEST, da seguinte forma:
(em forma de fichas ou de livro). Os principias de seu esquema de classificao,
Roupas: Artigos de L: Confeco: Alemanha:
bem como suas teorias da classificao, fogem ao escopO deste livro. Bastaria
Sculo XIX
dizer que uma das principais caractersticas dos esquemas de classificao ela-
borados de conformidade com os principias de Ranganathan a 'sntese' ou Infelizmente, a frmula PMEST um pouco simplista. Ao indexar assuntos al-
'construo de nmeros'. Quer dizer, o nmero de classificao que representa tamente complexos, possvel que uma categoria ocorra mais de uma vez (por
um assunto complexo obtido pela reunio dos elementos notacionais que exemplo, a tenso exercida sobre uma estrutura pode levar ao rachamento dessa
representam assuntos mais simples. Por exemplo, o tpico 'confeco de roupas estrutura, o que implica duas ocorrncias diferentes da categoria 'energia');
de l na Alemanha no sculo XIX' representado pela notao AbCfHYqZh, na ~lg~unas ~as categorias precisam ser subdivididas mais ainda (por exemplo, para
qual Ab representa 'roupas', Cf' l', H'confeco', Yq 'Alemanha', e Zh 'sculo mdtcar dtferentes tipos de atividades); ademais, a frmula PMEST no trata
XIX\ sendo todos estes elementos notacionais retirados de diferentes partes do claramente de cet1os atributos que so importantes na indexao, tais como as
esquema de classificao e combinados numa seqncia ('ordem preferida' ou propriedades dos materiais.
'ordem de citao') especificada pelo compilador do esquema. As teorias de Ranganathan, no entanto, tiveram profundo efeito nas prticas
bvio que o ndice alfabtico de um catlogo sistemtico elaborado segun- modernas da indexao de assuntos. Isso se verifica, de modo patente, na obra
do esses princpios deve ser desenvolvido de forma coerente, seno resultar em de Coates (1960), que postula um catlogo ou indice despido da rigidez dos
algo catico e impossvel de usar. A soluo dada por Ranganathan a este pro- cabealhos de assuntos preestabelecidos. Uma entrada de assunto deveria ser
blema- a indexao em cadeia- implica que se indexe cada degrau da cadeia totalmente coextensiva com o contedo temtico estudado, como no exemplo
hierrquica, do mais especifico at o mais genrico. Assim, um item representa- Linhas de Transmisso de Eletricidade, Cabos Areos, Condutores,
do pela classificao AbCfHYqZh geraria as seguintes entradas no ndice: Rompimento, Preveno, Manuteno
Sculo XIX, Alemanha, Confeco, Artigos de L, Roupas AbCjHYqZb Coates utiliza uma 'frmula de importncia' para estabelecer a seqncia em
Alemanha, Confeco, Artigos de L, Roupas AbCJHYq
qu: os termos componentes _sero reunidos. A seqncia bsica que adota
Confeco, Artigos de L, Roupas AbCJH
Artigos de L, Roupas AbCj Cotsa, Pmte, Material, Ao, Propriedade, a qual, porm, pode ser modificada
Roupas Ab em determinadas circunstncias. O cabealho utilizado acima, por exemplo,
Evidentemente, o usurio dess~ tipo de ndice deve fazer a busca obedecendo adota a seqncia Coisa, Espcie, Pmie, Ao, Agente. Os processos desenvol-
tambm a uma seqUncia predefinida de termos. Por exemplo, se estivesse proM vidos porCoates foram adotados pelo British Technology Jndex (posteriormente
curando informaes sobre roupas na Alemanha no sculo XIX, de pouca valia denominado Current Technology lndex), do qual ele foi o primeiro editor. A
lhe seria esse ndice ao consultar o termo roupas. figura 22 mostra exemplos de entradas desse ndice. Observe-se que um item
Ao determinar a seqncia em que os nmeros de classificao so com- aparece uma nica vez no ndice. Proporcionam-se acessos adicionais por meio
binados num esquema de classificao 'analtico-sinttico' (fieqlientemente de- de remissivas.
INDEXAO E RESUMOS: TEORIA E PRTICA
4. NDICES PR-COORDENADOS 63
62
Infelizmente o processo no to simples quanto o que sugere este nico
Pode-se tambm ponderar que as teorias de Ranganathan exerceram influn-
exemplo. H muitos casos em que a seqtincia numa srie de termos no revela,
cia sobre o PRECIS (Preserved Context Index System [Sistema de Indexao de
por si mesma e de modo inequvoco, as dependncias. Na realidade, um indexa-
Contexto Preservado]), desenvolvido por Austin (Austin, 1984). No PRECIS,
dor que utilize o PRECIS dever empregar 'operadores' (cdigos afixados aos
programas de computador geram um conjunto com~leto de.entrad~s de ndi:e e
termos componentes), a fim de representar sem ambigUidade as relaes entre os
remissivas a partir de uma seqncia de termos e cdrgos de mstruao fornecrdos
termos. Para o exemplo mostrado antes a seqncia de entrada seria
pelo indexador para cada item. O contedo temtico de um documento descrito
por meio de uma srie de termos colocados numa seqncia 'dependente do (O) ndia
( l) indstria algodoeira
contexto'. Austin e Digger ( 1977) utilizam o seguinte exemplo:
(P) pessoal
ndia, Indstria algodoeira, Pessoal, Treinamento (2) treinamento
Alega-se que a lgica disso est em que cada termo essencialmen~e dependente onde (2) representa 'ao de transio', (P) 'objeto de ao, pmie do sistema-
do termo que o antecede imediatamente. Assim, 'treinamento' aplica-se somen- chave', (O) 'localizao', e(.!) 'sistema-chave' (objeto da ao transitiva). Estes
te ao contexto de 'pessoal', 'pessoal' aplica-se somente ao contexto da 'indstria operadores mostram a 'funo' que um termo desempenha em relao a outros
algodoeira', e esta se aplica somente ao contexto da ndia. termos (proporcionando uma espcie de sintaxe) e assim podem ser considera-
No PRECIS, as relaes entre os termos componentes de uma entrada do dos como 'indicadores de funo' ou 'operadores de funo'.
ndice so evidenciadas numa disposio em duas linhas: Austin e Digger apresentam uma lista de 26 operadores de-sse tipo. claro
PessoaL Indstria algodoeira. ndia que a utilizao desse esquema torna bastante complicada a operao de inde-
Treinamento xao e eleva seu custo, alm de exigir, para implant-lo, um extenso manual de
Isso justificado com o argumento de que proporciona uma forma prtica de instrues para a indexao.
mostrar, simultaneamente, a relao entre o termo empregado como ponto de De algum modo relacionado com o PRECIS h o sistema POPSI (Postulate-
entrada no ndice e os termos que so: a) de contexto mais amplo, e b) de based Permuted Subject Indexing [Indexao Permutada de Assunto com Base
contexto mais restrito. No exemplo acima, 'Pessoal' modificado por 'Indstria em Postulados)) (Bhattacharyya, 1981), inspirado nas teorias de Ranganathan
aloodoeira' e 'ndia' a fim de mostrar o contexto mais amplo, enquanto 'Treina- sobre classificao.
"' apresentado como um dependente de 'Pessoal'.
menta' O esquema de indexao de Farradane (1967, 1980), anterior ao PRECIS,
Como se v neste exemplo, uma entrada PRECIS contm trs componentes: guarda semelhana com este por tambm utilizar um esquema de indicadores de
funo. Enquanto o PRECIS emprega suas funes exclusivamente como meio de
I GUIA I ! Qualiftcador I gerar por computador enunciados de indexao coerentes, as funes so reser-
vadas no sistema de Farradane para indicar relaes precisas entre os termos.
Exposio
Estas relaes se baseiam nos trabalhos de psicologia experimental do racio-
cnio, de Piaget, Vinacke, Isaacs e outros autores, e corroboradas pelo trabalho
0 termo 'guia' o ponto de entrada no ndice, sendo imp:esso em negrito, o de Guilford sobre a 'estruttwa do intelecto'.
'qualificador' apresenta o contexto niais amplo, e a 'expost.o' m?stra os ter- No esquema de Farradane h nove relaes explcitas, cada uma representa-
mos de contexto mais restrito. Embora a posio de gma esteja evidentemente da por um 'operador'. O conjunto completo dos operadores encontra-se na figu-
sempre ocupada, as outras posies nem sempre precisam estar ocupadas. ra 23. O esquema representa estdios de desenvolvimento do raciocnio extra-
Entradas do tipo geral acima exemplificado podem ser geradas por com- dos da psicologia infantil, isto , os estdios pelos quais a criana se desenvolve
putador a partir de uma srie de tenn,os apresentados numa :eqiincia depel~ ao associare diferenar objetos. H dois conjuntos de gradao: em mecanismos
dente de contexto. Assim, a seqiincia India, Indstria algodoeira, Pessoal, Trei- associativos e em mecanismos discriminativos. O primeiro estdio associativo
namento geraria as seguintes entradas: a percepo simples sem referncia ao tempo; o segundo a associao tempo-
rria entre idias; e o terceiro a associao fixa (permanente) de idias. Os est-
ndia
Indstria algodoeira. Pessoal. Treinamento dios de discriminao so: coincidncia simples (conceitos difceis de discri-
Indstria algodoeira. ndia minar), no-distinto (conceitos que tm muito em comum) e conceituao dis-
Pessoal. Treinamento tinta (conceitos que podem ser completamente discriminados).
64 INDEXAO E RESUMOS: TEORIA E PRTICA 4. NDICES PRE-COORDENADOS
65
F'ABRtCS Vidroi(Oxignio/)Fior/-Substituio
Ralated Headings:
WEAVINO que representa a substituio do oxignio pelo flor no vidro. Utiliza-se uma
FABRICS, Collvloalo., Creue re.alstant :Orou llDllig: apresentao biditnensional, quando necessrio, como em:
Dlmelbylo\1,3-propylene wea
De!errod curing [ BP 1,107,796: Sun Chemtcal Corp., USA} Dyer, Beterrabas/-Annazenamento O armazenamento de beterrabas
Te:.:Uie Pdmer, Dleacher & Flnlshe.t, 141 (2 May 69) p.614~ f lavadas
FABRlCS, Cello.loslc, Crene reslatant : Flt!.hbllll Lavagem
Ctease-resiat and washand-.,ear (inlshlng, B.C.M. Dorset. Textile
Manu!actmer, 95 (Apr 69) p.l56-63
FABRIOS, Celluloslc, K.DIIIed,. Crea.se rulell.D.I : Fl.nlaMnr; {Sucrose} Ratos alimentados com
Permanent prcss processes for knitted fabrics. O. Ha.tgh. Hosiery Trade Rato!* {leo de coco}/-Aiimentao sucrose com leo de coco
J 76 (May 69) p,127+, ll.
FABRlCS; CeUuloslc-Nylon : Dyelng, Hlgb tempetatwe : Dyes, RucUve
"Hot-dyelngn reactive dyes on blends { Ddmarene X aod Drlma!on X:
Sandoz; PrOOucts Ltd, Hmsfonh, Leeds] {summary] P.F. BeU. Dyer,
Farradane ( 1977) comparou seu sistema de indexao relaciona! com o PRE-
Textile Print.er, Ble&cllet & Finlsher, 141 (2 May 69) p,622+ CIS, o NEPHIS e o POPSI, aos quais se refere de modo impreciso como capazes de
FABRlCS; CeUulosle-Polyester Rbr~ : Dyei.Ja&, Hllh ICBperltiUO :
Dyes, Reacllve produzir ndices permutados'. Alega ser possvel converter por computador
8
Ht-dyelng" reactive dyes on blends [ Drimatene X and Drima(on X: seus diagramas bidimensionais em entradas de ndices alfabticos permutados.
Sandoz Ptoducts Ltd, Hors!Ofth, Leeds) (summa.ry} P.F. Bell. Dyer,
Tex.tile Printer, &eacher & Flnlsher, 141 (2 May 69) p.622+
FABRJCS, Coated : Clothlng. See CLOTHINO : Fabrlcs, Coated Mecm1ismos associativos
FABRICS : Flnlshlng : Wen slfai&Jlleners : ConlroliJ)'stem, Phot<>l!ledric
Fabric sttaightening [ BP 1 ,107,822]H. Elcken. Dyer, Textile Associao Associao
Prlnter, Bleaduu & Finlsher, 141 (2 May 69) p.612+ Percepo temporria 11xa
FABRICS, Foamback : Lamluu.a1 Mecanismos Conceituao I /6 4 I' 7 f
Versat\Uty the key: dlrferent cl.ths call rOr dUferent technlques, P. discriminativos coincidente
Lennox.-Ken, Hostery Times, 42 (Apr 69) p,l07-9. U,
Coincidncia Auto.atividade Associao
FABRICS; Man made lllns., Pile : KntiUD& Conceituao 2 J~ 5 I+ 8 /(
Manu(acture and use-development of pile bbrlcs In Ou Pont fibras. no-distinta Equivalncia Dimensional Pertena
J. Rest & M.R.B. Addison, Hosiery Times, 42 (Apr 69) p,88+, U. Conceituao 3 I) 6 1- 9 /:
FABRICS; Mohair : Suitings. See SUlTINGS : Fabrics; Mohalr distinta
FABRICS : Tape. Soo TAPE : Fabrtcs
Distino Ao Dependncia
FABRlCS, Wa.rp knlt : DyeL1!.1, Hlgh tempertlllle : HeaUng : Hut funcional
lran!i!er oll (causao)
HT process heatlng In lhe modem yehouse {Kesln&-Skme-Vapor at
Nyla-Raywa~p, Long Eaton} Dyer, TextUe Printer, Bleacher &
Flntsher. 141 (18 Apr 69) p.642t FIGURA 23
FABRICS, Wa.rp knit : Knltwear. Se e KNI'IWEAR : Fabrica, Warp knit Sistema de relaes de Farradane
FABRJCS; Wool., K.n.ltted., Shrla.k res!Btl.!lt : Flll.l&hh~& : 8olve11.111 : Reproduzido de Farradane ( 1980) com gentil permisso de C.:SA
P erchloroelhylene : NJ.Chlnes
'Bentley Rapide' solvent tinishln.g machine for k.nltwear and plecegoods.
A.O. Btooks. Hosiery Times, 42 (Apr 69) p,45+, 11. Gardiner et ai. (I 995) reconhecem a influncia de Farradane em sua aborda-
Milllng machine Cor knitweat { BenUey Raplde} Hosiery Trade J., 76
(May 69) p.l30+. il. gem das buscas em bases de dados de textos. Isto , seus procedimentos de busca
procuram textos em que os termos desejados parecem relacionar-se entre si na
FIGURA22 forma exata exigida pelo enunciado de busca.
Exemplo de entradas do British Technology Index O Symbolic Shorthand System [Sistema Taquigrfico Simblico] (Selye,
R~ produzido com gentil pennissio de<.:~,\
1966; Selye e Ember, 1964) outro sistema de indexao que expressa relaes
entre termos mediante indicadores de funo. O indexador extrai os termos de
Constrem-se os enunciados de indexao mediante a reunio de termos um esquema de classificao, que compreende 20 classes principais, organizado
('isolados'), usando esses operadores. Um enunciado de indexao,_ formado predominantemente com base no sistema do corpo humano. Em todo o esquema
por termos relacionados entre si por meio de operadores, denommado um so empregados smbolos mnemnicos [vlidos para a lngua inglesa, N.T.] para
analeto'. Eis alguns exemplos simples: representar os assuntos. Por exemplo, Adr representa a glndula ad-renal, Hypt
Aves/* Migrao hipotlamo, BAIR a taxa de metabolismo basal, e assim por diante. O principal
Minrio de ferro /-Fundio indicador de funo de Selye uma flecha ( <-) que mostra a direo da ao,
e outro mais complexo: como em:
66 INDEXAO E RESUMOS: TEORIA E PRTICA 4. NDICES PR-COORDENADOS 67
Efeito do hormnio adrenocorticotrtlco sobre uma anlise mais completa das caractersticas dos ndices pr-coordenados em
Cer o!- ACTH
o crebro Keen ( 1977a) e Craven ( 1986). Keen (I 977b) tambm examina o tema da estra-
ou no exemplo mais complexo: tgia de busca aplicada a esSes ndices.
Adr c- Hypo!- ACTH+TX Efeito sobre a ad-renal da hipofisectomia em
associao com o hormnio adrenocorticotrfico ndices de final de livro
e a tiroxina
Ainda que muitos dos princpios examinados neste livro sejam vlidos para
Outros indicadores de funo mostram outras relaes. Por exemplo, o ndices de todos os tipos, sua ateno se concentra principalmente na indexao
smbolo < usado para indicar contedo ou componente (Glu < B repres.enta destinada a bases de dados de itens bibliogrficos- indexao ps-coordenada
acar no sangue) e os dois pontos(:) para a funo de comparao. C?nteu~os para bases de dados em formato eletrnico, e indexao pr-coordenada para
temticos bastante complexos podem ser representados de modo conc1so e me- aquelas em forma impressa. No se tentou apresentar instrues minuciosas
quvoco neste sistema, conforme mostram os seguintes exemplos: sobre a indexao de livros como peas isoladas. Este tpico encontra-se bem
R~ ('8/Rb ~ Rlouck')/Rat estudado em outras publicaes (por exemplo, Mulvany, 1994; Guide/inesfor
(Injeo de substncia renal do pato no sangue de coelho e injeo do soro indexes, 1997). Diodato (1994) apresenta resultados de estudo sobre prefe-
assim obtido em ratos, produzindo alteraes renais) rncias dos usurios em matria de ndices de livros; so comparadas as opinies
de bibliotecrios e pessoal docente.
Glu < 8 (:Ur) ~ CON Os estudos mais completos sobre ndices de livros parecem ser os relatados
(Efeito da cotiisona sobre o contedo de acar no sangue comparado com por Bishop et al. (1991) e Liddy et ai. (1991). Nesse par de estudos afins, o
o contedo de acar na urina) primeiro analisa as caractersticas de uma amostra de ndices (formato, arranjo
e questes similares), enquanto o segundo examina as polticas das editoras {por
Nvel de coordenao exemplo, quem elabora o nlice, exigncias formais); este m1igo tambm inclui
Estabeleceu-se uma distino entre sistemas pr-coordenados e ps-coor- algumas informaes sobre caracterfsticas dos ndices e concluses relativas ao
denados. Na realidade, porm, provvel que um sistema de recuperao da projeto como um todo. Liddy e Jorgensen (1993a) usaram estudantes como
informao moderno incorpore caractersticas de pr-coordenao, bem :omo voluntrios, a fim de verificar como realmente utilizavam o ndice de um livro.
recursos de ps-coordenao. Possivelmente haver certa p~-coordenaao no
vocabulrio utilizado na indexao. Por exemplo, o descntor CRESCIMENTO ndices pr-coordenados versus ndices ps-coordenados
POPULACIONAL, que se encontra em um tesauro, representa a p~-coordenao Os ndices impressos do tipo que foi examinado neste captulo podem ser
dos termos CRESCIMENTO e POPULAAO. Em alguns sistemas, o mdexador conta muito eficazes na localizao de um ou 'alguns' itens sobre um assunto de modo
com a possibilidade de utilizar certos termos como subcabealhos de outros. bem rpido. Alguns autores, porm, parecem exagerar ao louvar as vit1udes dos
Assim, ele pode criar: ndices pr-coordenados. Criticam a recuperao ps-coordenada com o argu-
CRESCIMENTO POPULACIONAL/ESTATSTICA mento de que seus resultados so medocres (ver Weinberg, 1995, por exemplo),
Finalmente, a pessoa que faz a busca pode combinar termos livremente em rela- como, por exemplo, excessiva irrelevncia, embora isso possa ocorrer com
es lgicas, como, por exemplO, 'recuperar itens indexados sob CRESCIMENTO todos os mtodos, e que muitos usurios tm dificuldade para compreender a
POPULACIONALiESTATiSTICA e tambm sob AMRICA DO SUL'. lgica das buscas. Essa ltima alegao ce11amente verdadeira, mas tambm
Ocorre ento uma certa coordenao (de conceitos ou termos que os repre- verdade que muitas pessoas enfrentam enorme dificuldade para entender e usar
sentam) n;s cara~tersticas do vocabulrio, e mais alguma coordenao talve; o mais simples dos ndices impressos (ver, por exemplo, Liddy e Jorgen-
ocorra no momento da indexao. Pode-se considerar isso como forrn~s de pre- sen,1993a,b). Diante da opo, os usurios das bibliotecas parecem preferir, de
coordenao, uma vez que a coordenao est incorporada no~ registros que modo esmagador, as buscas ps-coordenadas em bases de dados eletrnicas em
do entrada numa base de dados. O nvel fmal de coordenao e aquele que se comparao com o uso dos ndices impressos (ver, por exemplo, Massey-
realiza por meio da manipulao de termos quando da realizao de uma busca Burzio, 1990), embora, de fato, possam obter resultados muito inferiores em
suas buscas (ver p. 121-127 de Lancaster e Sandore, 1997).
(isto ps-coordenao).
En;bora este captulo tenha apresentado exemplos de vrios tipos de ndices
pr-coordenados, ce 11amente no esgotou todas as possibilidades. Encontra-se
5. COERNCIA DA INDEXAO 69
diversos termos para o contedo temtico do documento. A incoerncia na
CAPTULO 5 atribuio de termos de menor imp011ncia ser muito menos sio-nificativa do
b
que a mcoerncia na atribuio de termos de maior importncia e isso se
refletiria em qualquer mtodo de pontuao. '
Coerncia da indexao a b c d e
A A A A A
B B c B B

, c
D
E
F
D
F.
c
D
D
E

E mais do que evidente que a indexao um processo subjetivo e no obje-


tivo. Duas (ou mais) pessoas possivelmente divergiro a respeito do que tra-
ta uma publicao, quais aspectos merecem ser indexados, ou quais os termos
E F
G
H F
G

que melhor descrevem os temas selecionados. Ademais, uma mesma pessoa de- J

cidir de modo diferente quanto indexao em momentos diferentes. A coe-


rncia na indexao refere-se extenso com que h concordncia quanto aos FIGURA 24
termos a serem usados para indexar o documento. A coerncia interindexado- Termos (.-hl) atribudos ao mesmo documento por cinco indexadores diferentes (a-e)
res refere-se concordncia entre indexadores, enquanto a coerncia infra-in-
dexador refere-se extenso com que um indexador coerente consigo mesmo. Os dados da figura 24 poderiam tambm representar a coerncia intra-
J foram adotadas ou propostas vrias medidas diferentes para a coerncia, indexador: a situao em que uma pessoa indexao mesmo documento em cinco
e sobre as quais existe uma boa reviso bibliogrfica feita por Leonard (1975). ocasies diferentes.
Talvez a medida mais comum seja a simples relao A81(A+ 8), onde A representa Cooper (1969) considera a coerncia interindexadores de modo diferente:
os termos atribudos pelo indexador a, B representa os termos atribudos pelo no nvel do termo. Quer dizer, ele mede o grau com que um grupo de indexadores
indexador b, e AB representa os termos com os quais a e b concordam. Vejamos concorda com a atribuio de determinado termo a um documento. Com relao
a situao retratada na figura 24. Cinco pessoas indexaram o mesmo item, com a esse termo, a coerncia interindexadores definida como a proporo de inde-
o nmero de termos atribuldos variando de quatro (indexador b) a oito (inde- xadores que atribuem o termo menos a proporo daqueles que no o atribuem.
xador e). Podem-se comparar os termos atribudos por qualquer par de indexa- No exemplo da figum 24 h 100% de concordncia quanto ao termo A, enquanto
dores. Hooper( 1965) refere-se aos valores da coerncia de pares como pares de a concordncia quanto a 8 tem um valor de 60% (80o/o--20%), a concordncia
coerncia (Pcs). Para os indexadores a e b, o PC 3/6 ou 0,5 (existem seis termos quanto a c tem um valor de20 (60%-40%), e assim por diante.
exclusivos atribudos e trs deles foram atribudos por ambos). Cada par do . J foram realizados muitos estudos sobre coerncia interindexadores em-
grupo tratado da mesma forma. A partir dos dados apresentados so derivados bora hoje no sejam to comuns quanto no passado; eles costumam mostra'r que
os seguintes PCs: ab, (0,5); ac, 417 (0,57); ad, 416 (0,75); ae, 419 (0,44); bc, 317 muito difcil alcanar alto nvel de coerncia. Hooper(l965) fez um resumo de
(0,43); bd, 217 (0,29); be, 4/8 (0,5); cd, 3/8 (0,37); ce, 5/9 (0,56); de, 3/10 (0,30). 14 estudos diferentes e encontrou valores que variavam de 10% a 80o/o. Para os
Obtm-se uma medida da coerncia intergrupal por meio da determinao da seis estudos em que pde recalcular os valores a partir dos dados fornecidos
mdia dos resultados para cada par de indexadores. Para o grupo a~e a coern- (para ter cet1eza de que a coerncia seria calculada da mesma forma para cada
cia global de aproximadamente 0,47. um), os resultados variaram de 24% a 80%.
Se a seqncia de termos na figura 24 reflete prioridade na atribuio de ~raticamente todos os estudos sobre coerncia interindexadores at hoje
termos, verifica-se que existe concordncia razovel quanto aos termos mais realizados tratam cada termo como igual, embora, conforme sugerido antes, fos-
impm1antes. Todos os cinco indexadores atribuem o termo A, e quatro deles atri- se mais sensato atribuir um 'peso' maior coerncia na atribuio dos termos
buem tanto A quanto B. Verific'a-se muito menos concordncia quanto aos as- mais imp011antes. Outra complicao est no fato de que, com certos tipos de
pectos secundrios do documento ou quais os termos a serem atribudos a esses vocabulrios controlados e procedimentos de indexao, seria possvel a ocor-
aspectos. Observe-se tambm como a quantidade de termo_s atribudos influi no rncia de uma coincidncia parcial. Por exemplo, dois indexadores concorda-
escore da coerncia: quanto mais termos atribudos (pelo menos at certo pon- riam com o mesmo cabealho principal, mas no com o subcabealho. Vejamos
to), menor tender a ser a coerncia. Zunde e Dexter (1969b) e Rolling ( 1981) o exemplo a seguir em que as letras maisculas representam cabealhos e o aste-
sugerem que as medidas de coerncia deveriam levar em conta a impot1ncia de risco marca os cabealhos que o indexador considera mais impot1antes:
70 INDEXAO E RESUMOS: TEORIA E PRTICA 5. COERNCIA DA INDEXAO 71

Indexador 1 Indexador 2 Indexador 3 comear a cair gradualmente at o ponto onde tenham sido atribudos tantos
'Aib *Ale 'Aib termos que a concordncia voltar a aumentar. Isto exemplificado na figura 27.
*a/b/c *s/c Bic
e/f e/f *o/f 1. Quantidade de termos atribudos
o/f Dir F
2. Vocabulrio controlado versus indexao com termos livres
E F *H/q 3. Tamanho e especificdade do vocabulrio
G 4. Caracterlsticas do contedo temtico e sua terminologia
5. Fatores dependentes do indexador
Trata-se de uma situao realista. Por exemplo, ela se assemelha de perto 6. Instrumentos de auxlio com que conta o indexador
7. Extenso do item a ser indexado
prtica de indexao da National Library o f Medicine onde mais de um subca-
bealho pode ser atribudo a um termo e os descritores principais so dife-
FIGURA 25
renados dos menos impot1antes.
Possveis fatores que influem na coerncia da indexao
claro que esse tipo de indexao apresenta problemas importantes na reali-
zao de estudos de coerncia. Aqui deixa de ter significado o mtodo simples
Essa figura apresenta listas ordenadas segundo a importncia dos termos
do par de coerncia. Na indexao desse tipo, dever-se-ia dar mais <crdito' a
atribudos pelos indexadores a e b. Isto , a achaque A o termo mais importante,
uma perfeita concordncia entre dois indexadores. Por exemplo, os indexadores
B o que se segue em ordem de importncia, e assim por diante. Outra forma de
1 e 3 mereceriam grande crdito pelo fato de ambos concordarem com a combi-
examinar isso dizer que, se o indexador a pudesse atribuir somente um termo
nao Alb de cabealho principal/subcabealho e de que este seria um descritor
ao documento, esse termo seria A. Cada indexador finalmente atribui 16 termos.
principal. Embora seja possvel desenvolver um mtodo de pontuao numrica
Observe-se que, embora os indexadores concordem com os dois termos do alto
para expressar a coerncia (5 pontos para uma perfeita concordncia cabealho
da lista, eles no concordam com o primeiro desses termos. Isso no constitui
principal/subcabeall10, I O pontos para uma concordncia de cabealho princi-
surpresa. :Muitos documentos envolvem uma relao entre dois conceitos prin-
pal/subcabealho se ambos os indexadores o utilizarem como descritor mais
cipais. Talvez seja possvel estar de acordo sobre quais so esses conceitos, mas
importante, e assim por diante); difcil chegar a um acordo sobre qual ~eria o
no concordar com qual deles assumir precedncia. Por exemplo, num artigo
escore, e mais difcil ainda interpretar o que o escore realmente significa. E mais
sobre soldagem de titnio, . o metal ou o processo que deve assumir precedn-
provvel que esse tipo de pontuao seja aplicvel a estudos de qualidade de
cia? ( claro que decises como essa tm muito a ver com as caractersticas da
indexao, que objeto do prximo captulo.
base de dados. Numa que seja dedicada exclusivamente ao titnio, o termo tit-
nio tem pouco ou nenhum valor.) Isso se parece um pouco com apostar em ces
Fatores que influem na coerncia
(ou cavalos) de corrida: amide mais fcil adivinhar quais os dois animais que
Essa variabilidade nos escores da coerncia leva a se indagar 'quais so o~ terminaro nas primeiras duas posies do que adivinhar qual ser o primeiro.
fatores que tm maior efeito na determinao da coerncia na indexao?' Na Depois que todos os 16 termos foram atribudos alcanou-se uma perfeita
figura 25 procuram-se identificar possveis fatores. concordncia. Isto se deve a um efeito de 'saturao'. H somente um nmero
J se mencionou a quantidade de termos atribudos. Se se pedisse aos indexa- determinado de termos que se aplicariam de modo plausvel a qualquer item,
dores que atribussem tet:mos, em ordem de 'importncia' percebida, ao conte- pelo menos se esses termos forem extrados de um vocabulrio controlado. Se
do temtico do documento, provavelmente obter-se-ia razovel grau de concor- forem atribudos termos em nmero suficiente, acabar-se- por alcanar uma
dncia no que concerne aos termos do alto da lista. Na medida em que se descer elevada coerncia. Observe-se, contudo, que a coerncia baixa entre o nvel de
nessa lista essa concordncia cet1amente diminuir. Em outras palavras, certo dois termos e o nvel de dezesseis termos. Por exemplo, depois de cinco termos,
que haver mais concordncia quanto aos tpicos do documento considerados o PC 5/6 (0,83), depois de dez termos de 6114 (0,43), e assim sucessivamente.
principais do que quanto aos tpicos considerados de menor importncia que A relao apresentada na figura 26 parece, portanto, plausivel, embora no
meream ser includos. haja sido confirmada experimentalmente. Pelo menos a forma da curva plaus-
Isso, porm, talvez seja um pouco simplista. A figura 26 sugere uma relao vel, se se levam em considerao os resultados alcanados por muitos indexado-
possvel entre coerncia e quantidade de termos atribudos. Supondo que os ter- res. No caso de poucos indexadores, naturalmente, o declnio da coerncia seria
mos sejam atribudos em ordem de prioridade, levanta-se a hiptese de que a provavelmente menos suave (por exemplo, haveria maior coerncia com quatro
concordncia atingir o ponto mais alto no nvel de dois termos e em seguida termos do que com trs).
72 INDEXAO E RESUMOS: TEORIA E PRTICA 5. COERENCIA DA INDEXAO 73

a b
A B
B A
c D
o E
E K
F c
G G
H L

"
N
K o
L p

"
N
F
H
o
p

FIGURA27
Efeito da quantidade de termos atribuidos sobre a coerncia do indexador
(dois indexadores)

O segundo fator que influi sobre a coerncia (figura 25) o tipo de vocabu-
lrio utilizado na indexao. Uma das principais vantagens proclamadas para se
Nmero de termos atribudos adotar um vocabulrio controlado que ele melhorar a coerncia na represen-
tao do contedo temtico. Entretanto, a relao entre controle de vocabulrio
FIGURA 26 e coerncia do indexador no to imediata quanto pareceria primeira vista.
Relao entre coerncia e quantidade de termos atribudos Suponhamos que eu rena alguns artigos de medicina e pea a um grupo de estu-
dantes de nlvel mdio que os indexem. Primeiro, exijo que faam a indexao
Harris et ai. ( 1966) relatam resultados que diferem um pouco dos formula- extraindo palavras e frases dos prprios documentos. Eu pressuporia que have-
dos hipoteticamente na figura 26. A coerncia foi maior depois de 1Otermos do ria neste caso um razovel nvel de coerncia. Provavelmente, os estudantes se
que depois de cinco, mas declinou nos nveis de 20 e 30, voltando a aumentar comportaro mais ou menos da mesma forma que um computador se compor-
quando foram atribudos 40 termos. Afirmam que encontraram poucos indcios taria ao realizar essa tarefa: procuraro palavras ou frases que ocorrem freqUen-
de algum efeito de saturao, mas seus indexadores utilizavam palavras~chave temente e/ou aparecem no ttulo ou em outros lugares de destaque.
no-controladas e nO as selecionavam de um conjunto limitado de termos con- Numa segunda etapa desse exercfcio, peo aos estudantes que traduzam a
trolados. Fried e Prevel ( 1966) descobriram um declinio da coerncia com a indexao que fizeram com termos livres para termos selecionados no Afedical
quantidade de termos atribuidos, mas Leonard (1975) encontrou indicaes subject headings (MeSH) da National Library ofMedicine. Quase com cetieza
inconclusivas sobre este ponto- verdadeiro para uma base de dados, mas no haver uma queda da coerncia. Nesta situao, o vocabulrio controladO ter
para outra. um efeito contrrio. Isso se d porque as expresses textuais selecionadas nem
Num estudo sobre coerncia em bases de dados agrcolas, Reich e Biever sempre sero idnticas aos termos controlados. Os estudantes tero dificuldade
( 1991) encontraram prova do efeito da exaustividade sobre a coerncia: numa em selecionar os termos controlados apropriados porque carecem de conheci-
amostra de mtigos indexados com uma mdia de 8-9 termos de um tesauro, a mentos suficientes de medicina e de sua terminologia e porque alguns dos termos
coerncia foi de 24%; chegou a 45% numa amostra que possua uma mdia de controlados tero adquirido um 'significado, especial (indicado em nota expli-
5-6 termos do tesauro. cativa) atribuido pelos compiladores do vocabulrio. Um vocabulrio contro-
lado deve melhorar a coerncia da indexao a longo prazo, mas somente pode
74 INDEXAO E RESUMOS: TEORIA E PRTICA 5. COER:ENCIA DA INDEXAO 75

ser aplicado de modo coerente por indexadores experientes que dominem o con- de de ser especfico, e quanto maior for sua especificidade, mais diflcil ser utili-
tedo temtico e estejam totalmente familiarizados com os termos. z-lo de modo coerente (Tinker, 1966, 1968). Por exemplo, h mais probabili-
Outra coisa para a qual preciso atentar que um vocabulrio controlado dade de dois indexadores concordarem que um documento trata de corroso do
deve melhorar a coerncia da indexao em relao a um grupo de documentos, que de concordarem quanto ao tipo de corroso que estudado. Quanto mais
mas bem possvel que a diminua no nvel de um nico documento. Quer dizer, sutis forem os matizes de significado que um vocabulrio possa expressar, mais
a terminologia adotada num artigo reveste-se de uma coerncia interna - o difcil ser alcanar-se coerncia. Na minha avaliao do MEDLARS (Lancaster,
autor costuma no empregar tnna variedade de termos para descrever o mesmo 1968a), inclu um breve estudo sobre coerncia. Descobri que a coerncia na
tpico, pelo menos em a1iigos de natureza tcnica ou especializada. bastante atribuio de cabealhos de assuntos (MeSH) era de 46,1% quando os resultados
possvel, contudo, que haja divergncia entre dois indexadores a respeito de qual de trs indexadores eram divididos proporcionalmente entre um total de 16 atti-
o termo controlado a ser adotado para representar esse tpico. Por outro lado, gos. Quando eram tambm utilizados subcabealhos, a coerncia, no entanto,
autores diferentes empregam terminologias diferentes, e, desse modo, o vocabu- caa para 34,4%. Em estudo. anterior verificou-se que os indicadores de funo
lrio controlado, ao reduzir o leque de opes, exerce um efeito benfico sobre causavam efeito ainda mais drstico na reduo da coerncia da indexao (Lan-
a coerncia da indexao quando se trata de um grupo grande de documentos. caster, 1964), resultado esse que foi confirmado por Sinnett (1964) e Mullison
Se a coerncia interindexadores baixa quando duas pessoas indexam itens et a. ( 969).
que empregam o mesmo vocabulrio, ser natural, obviamente, que haja coern- Em seu estudo sobre coerncia da indexao em bases de dados agrcolas,
cia ainda menor quando os mesmos itens so indexados em diferentes bases de Reich e Biever ( 991) concluem que "A coerncia[ ... ] parece ser mais difcil de
dados porque variaes nos vocabulrios utilizados acrescentam outra dimen- alcanar medida que aumenta a especificidade do vocabulrio".
so ao problema. Qin (2000), por exemplo, reuniu um grupo de a11igos sobre Slamecka e Jacoby (1963) fazem uma distino entre vocabulrios 'prescri-
resistncia a antibiticos e comparou a indexao deles no MEDLINE com a inde- tivos' e 'sugestivos'. Estes oferecem ao indexador certa margem na escolha de
xao baseada em citaes feita no Science Citation Index (Key Words P/us). termos, enquanto os primeiros praticamente no lhe deixam qualquer opo.
NahH"almente, a similaridade foi baixa, mesmo quando a 'similaridade parcial' Com base em alguns experimentos com vocabulrios de diferentes tipos (cabe-
era o critrio adotado, embora as trs palavras-chave usadas como termos de alhos de assuntos, tesauro, esquema de classificao), concluram que:
indexao que ocorreram com mais freqncia fossem concetualmente equiva- A coerncia interindexadores melhora significativamente com a utilizao de instru-
lentes aos dois cabealhos de assuntos do MEDLINE de maior freqncia. mentos de indexao prescritivos que contenham um mfnimo de relaes semnticas
Convm salientar, de passagem, que no to simples quanto pareceria variveis entre os termos. O emprego de instrumentos de indexao que ampliem a
liberdade semntica do indexador, no que concerne escolha de termos, prejudicial
primeira vista fazer uma comparao entre indexao com termos livres e inde-
confiabilidade da indexao. A qualidade da indexao tem muito aganharcom vo-
xao com termos controlados. Um termo controlado ou no atribudo. Na
cabulrios que formalizem as relaes de modo a prescrever uniforme e invariavel-
indexao com termos livres, entretanto, defrontamo-nos com o problema de ter mente a escolha dos termos de indexao {p. 30).
que decidir se duas expresses so ou no so idnticas. Por exemplo, considera-
Assinale-se que eles parecem considerar coerncia e qualidade como mais ou
se 'corrente eltrica' como igual a 'corrente elctrica', ou como se avalia uma
menos equivalentes. Este aspecto ser estudado no captulo seguinte.
situao em que um indexador escolhe o termo 'literatura francesa medieval' e
natural que os vocabulrios prescritivos resultem em maior coerncia. De
um outro utiliza 'literatura medieval' e 'literatura fi:ancesa'? Isso, claro, nos
fato, parece provvel que se alcance o mximo de coerncia com a atribuio de
faz remontar distino entre anlise conceitual e traduo. Nlais adiante se
termos pr-impressos num formulrio de indexao (como o caso das 'etique-
mencionar o efeito dessas dtms etapas sobre a coerncia.
tas' da National Library ofMedicine) que lembrem ao indexador que devem ser
Fugmann ( 1985) levanta uma questo muito interessante relativa coern-
utilizados sempre que forem aplicveis. Leonard (1975) apresentou algumas
cia. Salienta que, enquanto os estudos sobre coerncia se concentram na seleo
indicaes que corroboram isso, do mesmo modo que Funk et a. (1983).
de termos para determinado documento, a pessoa que busca informao est
Leininger (2000), baseando-se em 60 itens acidentalmente indexados em
mais preocupada com a coerncia entre os documentos. Isso implica que talvez
duplicata na base de dados PsyciNFO, verificou 66% de coerncia na atribuio
seja til um tipo diferente de anlise de coerncia, que mensure a extenso com
de etiquetas, enquanto a coerncia total (considerados todos os termos) foi de
que o mesmo tpico indexado coerentemente numa base de dados.
apenas 55%. O resultado mais surpreendente foi que s houve 44% de coerncia
O terceiro fator identificado na figura 25 corresponde ao tamanho e especi-
na atribuio de cdigos genricos de classificao. Com s 22 classes e 135
ficidade do vocabulrio. Quanto maior o vocabulrio, maior ser a probabilida-
subclasses, e uma mdia de apenas 1,09 atribuies por registro (a maioria dos
76 INDEXAO E RESUMOS: TEORIA E PRTICA 5. COERENCJA DA INDEXAO 77
reo-istros classificada apenas numa nica classe e poucos num mximo de nal) no aumentava a coerncia. Korotkin e O li ver (1964), em experimento com
dt~s), seria natural que houvesse maior coerncia. A explicao mais provvel resumos de psicologia, no descobriram diferenas significativas na coerncia
que muitos artigos de psicologia parecem igualmente relevantes para duas ou entre dois grupos de indexadores, sendo que um deles dominava o contedo
mais categorias: embora indexadores diferentes concordem em qual de duas ou temtico e o outro no. Neste caso, porm, o estudo ocorreu sob vrias restries
trs categorias classificar um documento, haveria muito menor concordncia artificiais que iriam influir no resultado: no foi usado vocabulrio controlado,
quanto nica 'melhor' categoria. De novo as corridas de galgos e cavalos. foram empregados resumos e no artigos completos, e os indexadores foram
O quarto fator identificado na fi aura
~
25 corresponde natureza do
'
contedo instrufdos a atribuir exatamente trs termos (nem mais, nem menos) a cada item.
temtico do documento e, mais particularmente, sua terminologia. E de se supor Um estudo posterior, de Berirand e Cellier (1995), tambm examinou o efei-
que ocorra maior coerncia na indexao de tpicos mais concretos (por exem- to da experincia do indexador. Inclufa, porm, tantas variveis que se torna
plo, objetos tTsicos, pessoas designadas pelo nome), e que ela declinar medida diflcil interpretar seus resultados.
que se lidar cada vez mais com abstraes. Tibbo (1994) salienta que os autores Dados encontrados em Stubbs et aL (1999) ilustram o efeito que um inde-
da rea de humanidades tendem a ser imprecisos em sua terminologia, prefe- xador 'radical' (isto , atfpi~o) pode provocar nos escores de coerncia.
rindo textos '(jensos' ao invs de legveis. Entretanto, Zunde e Dexter (l969a) Outro fator apontado na figura 25 refere-se aos instrumentos auxiliares util i-
no verificaram aumento da coerncia com a 'facilidade de leitura do documen- zados pelo indexador. Se um grupo de indexadores compai1ilhar o mesmo con-
to'. Certos materiais podem suscitar problemas especiais no que tange coe- junto de ferramentas de indexao (dicionrios, glossrios, manuais), haver
rncia da indexao. No caso de obras de criao, como livros de fico, filmes uma tendncia de que estes instrumentos contribuam para melhorar a coerncia
de Ionga-metragem e alguns tipos de fotografias, provvel que haja um nvel no grupo. O mais importante seria algum tipo de vocabulrio de entradas, elabo-
excepcionalmente elevado de desacordo em relao quilo de que trata a obra e rado pelo prprio centro de informao, que servisse para correlacionar os ter-
como index-la. Diferentes grupos de pessoas tero interesses bem d.istintos por mos que ocorrem nos documentos com os termos controlados apropriados.
esses materiais. Por exemplo, estudiosos das artes e do cinema talvez queiram Finalmente, a extenso do item indexado influi n.a coerncia: quanto menor
uma indexao que seja bastante diferente daquela desejada pelo pblico em ge- o item, menor ser a quantidade de termos que a ele se aplicaro de modo plau-
raL Markey (1984) e Enser (1995) apresentam indicias que sugerem que a inde- sveL No causa espcie que Harris et aL (1966) hajam verificado que a coe-
xao de imagens pode produzir nveis de coerncia excepcionaln~ente baixos. rncia era maior na indexao de questes (breves enunciados textuais) do que
O quinto fator tem a ver com os indexadores como indivduos. E quase certo na indexao de artigos de peridicos. Rodgers (1961), Fried e Prevel (1966),
que dois indexadores com formao bastante similar (educao, experi_ncia, Leonard (1975), e Horcy (1983) tambm encontraram indcios de coerncia
interesses) tenham mais probabilidade de concordar com o que deve ser mde- declinante com a extenso do documento, enquanto Tell (1969) constatou que a
xado do que dois outros com formao muito diferente. Relacionados a isso es- coerncia quando se indexava a pm1ir do texto integral dos ai1igos era menor do
to a. tipo e a durao do treinamento. Se todos os indexadores. participam do que quando se indexava a partir dos tftulos ou dos resumos.
mesmo programa rigoroso de treinamento, isso contribui para reduzir a ~m
pmtncia da formao prvia como fator que influi na coer~cia. Tam~~n nn- Coerncia na anli~e conceitual versus coerncia na traduo
portante o conhecimento do contedo temtico com que se lida. Se do1s mdex~ O tipo de estudo de coerncia examinado neste captulo empana a distino,
dores tiverem quase o mesmo nvel de conhecimento especializado, sero ma1s que se faz na indexao, entre as etapas de anlise conceitual e de traduo. Pres-
coerentes entre si do que se um deles for muito entendido na matria e o outro chel (1972), porm, procurou separar essas duas etapas, a fim de determinar se
tiver apenas um conhecimento superficial do contedo temtico. Mais impor- era mais provvel os indexadores concordarem com sua anlise conceitual do
tante do que o conhecimento especializado em si mesmo seria, contudo, o conhe- que com a traduo em termos de indexao. Os resultados de sua pesquisa indi-
cimento minucioso das necessidades e interesses dos usurios a serem servidos. caram que era muito mais provvel que os indexadores concordassem com o que
Jacoby e Slamecka (1962) encontraram maior coerncia entre indexadores seria indexado (anlise conceitual) do que como os conceitos seriam descritos
experientes do que entre iniciantes que trabalhavam com patentes; os expenen- (traduo). importante, porm, reconhecer que, nesse estudo, os indexadores
tes tambm usavam menor quaniidade de termos. Leonard ( 197 5) constatou que no usaram um vocabulrio controlado, mas criaram seus prprios' rtulos ver-
a coerncia aumentava com a experincia dos indexadores, mas no achou cor- bais' para os tpicos. Resultados bem diferentes seriam alcanados se a influn-
relao positiva entre coerncia e formao educacional. Quer dizer, maior cia nonnalizadora de um vocabulrio controlado houvesse estado presente.
conhecimento do contedo temtico (presumido a partir da formao educacio- As figuras 2_8~31 mostram exemplos de conjuntos de termos de indexao
78 INDEXAO E RESUMOS: TEORIA E PR.>\TICA 5. COERNCIA DA INDEXAO
79
atribudos a artiaos
o
por dois indexadores diferentes. Em todos os casos o vaca-
.
Indexador A
Indexador B
bulrio adotado foi o Thesaurus ofERJC descriptors. Todos so exemplos rems Termos mais importantes Termos mais importantes
de enfoques alternativos na indexao. A indexao foi feita, como dever de Literatum infantil Literatura intntil
casa, por alunos da Graduate School of Library and Infonnation Science da Servio de extenso em bibliotecas Educao pr-escolar
University oflllinois. Os exemplos foram selecionados de um conjunto maior Educao de adultos Aspiraes paternas
Educao de pais Critica literria
reunido pelo autor ao longo de Unos. Os alunos tinham a liberdade de escolher Seleo de materiais de leitura
os m1igos que quisessem indexar, e era uma obra de puro acaso mais de m~ estu-
Termos menos bnportantes Termos menos importantes
dante escolher o mesmo atiigo. Eles so aqui transcritos porque exemplificam Relao pai-aluno Experincia anterior
alguns dos problemas que ocorrem na busca da coerncia entre indexadores. Leitura recreativa Educao da primeira infncia
Gosto pela leitura Materiais de leitura
Indexador A Indexador B Interesses de leitura Crianas pequenas
Fico
Termos mais importantes Atitudes diante da leitura
Termos mais importantes Fantasia Literatura
Vitimas de crimes Assistncia (comportamento social) Bibliotecas pblicas
Formao de impresses Responsabilidade paterna
Assistncia (comportamento social)
Apatia Participao FIGURA 29
Comportamento de quem busca ajuda Testemunhas
Dois enfoques diferentes na indexao de um artigo intitulado
Termos menos importantes Termos menos importantes "Um curso de literatura infantil para pais"
Crime Preveno de crimes
Cidadania Envolvimento Isso exemplifica os problemas inerentes ao uso de um vocabulrio controla-
Leis
Esquiva
Comportamento social d? que contm muitos termos bastante afins ou parcialmente coincidentes, prin-
Percepo social Cipalmente quando os indexadores no esto totalmente a par do alcance preten-
dido desses termos.
FIGURA 28 A figura 30 mostra maior coerncia, uma vez que dois dos termos mais im-
Dois enfoques diferentes na indexao de um artigo intitulado ~ortantes coincidem. Apesar disso, ocorrem algumas diferenas de traduo. O
"Quando os circunstantes apenas observam" mdexador A expressa 'cursos ps-graduados de educao' mediante o emprego
dos termos faculdades de educao e ensino superior, enquanto s seleciona
A fioura
b
28 um exemplo extremo: somente um termo em comum entre
16
. faculdades de educao e ensino de ps-graduao. De igual modo, quando B
atribudos. O artigo trata do fenmeno de pessoas que se recusam a mtervtr emprega atitudes dos docentes, A adota opinies, e quando B usare/ao profes-
quando testemunham um crime. Observe-se como os dois in.dexado~es enca~am sor---p/uno, A emprega relao interprofissional e orientadores pedaggicos.
0 artigo de diferentes perspectivas- B mais do ponto de v1sta soem! e legal, e E difcil acreditar nos resultados da indexao da figura 31. No existe termo
A mais do ponto de vista psicolgico. . . algum em comum entre os doze atribudos. Mais uma vez demonstram-se a cla-
O exemplo da figura 29 no muito melhor. Quanto aos termos mm~ Impor- ramente os problemas decorrentes do emprego de termos afins e/ou coinciden-
tantes os indexadores concordam apenas em relao a un1 deles. O arttgo trata tes: so usados cinco termos sobre 'leitura', mas todos diferem entre si. Neste
de um' programa, oferecido por biblioteca pblica, para instrui~ ~ais d.e crianas caso, porm, a indexao de A bastante medocre: no menciona o nvel educa-
em idade pr-escolar sobre literatura adequada a esse grupo etano. O mdexador cional e o item indexado de modo muito genrico sob ensino audiovisual quan-
s v isso como educao pr-escolar, embora sejam os pais e no os filhos que do, especificamente, trata de televiso. Quando o documento foi indexado ainda
recebam instruo, enquanto A (provavelmente de modo mais correto) acha que no havia no tesauro o termo televiso com legenda fechada.
educao de adultos pais. O indexador B, embora estudante de bibliotecono- _ Os oit? estudantes annimos, cujo trabalho comparado nas figuras 28-31,
mia, no indica que o programa acontece numa biblioteca. O mdexador A, por nao eram mdexadores altamente experientes, embora fossem inteligentes e inte-
outro lado, no indica que o at1igo refere-se a crianas muito pequenas. NoteM se ressados e estivessem motivados. bastante provvel que indexadores de maior
como os dois escolheram termos relacionados muito prximos: interesses de experincia, principalmente com maior traquejo na utilizao desse tesauro,
leitura versus atitudes diante da leitura, gosto pela literatura versus crtica houvessem alcan~ado resultados mais coerentes. De qualquer modo, os exem-
literria materiais de leitura versus seleo de materiais de leitura. plos servem para tlustrar alguns dos obstculos a uma indexao coerente.
'
80 INDEXAO E RESUMOS: TEORIA E PR TlCA 5. COERNCIA DA INDEXAO 81

Indexador A Indexador n
Indexador A Indexador B
Termos mais importantes Fico romntica- Romances sentimentais Mulheres como leitoras de fico
Termos mais importantes
Orientadores contempornea
Orientadores Fico romntica de mulheres
Faculdades de educao Romances sentimentais
Ensino superior
Ensino de ps-graduao Contlito entre homens e mulheres Herofnas
Opinies Relaes de amor macho/fmea
Atitudes dos docentes Fantasia feminina
Faculdades de educao Autopercepo feminina Masoquismo--estupro
Termos menos importantes Termos menos importantes Dominncia do macho sobre as mulheres Romances gticos
Desenvolvimento profissional Relao aluno-professor Romances romnticos como vMvula de Papis sexuais-estereotipagem
Orientadores pedaggicos Professores de ps-graduao escape do ressentimento feminino Psicoanlise
Orientao profissional Estudantes de ps-graduao Auto~imagem feminina
Relao interprofissional Narrativa
Esquizofrenia
FIGURA 30 Histeria
Dois enfoques diferentes na indexao de um artigo intitulado Papis sociais
"Orientao em cursos de ps-graduao em educao"
FIGURA32
Diferenas na anlise conceitual de um artigo intitulado
Indexador B "O ato em extino: um estudo dos romances sentimentais"
Indexador A
Termos mais importantes Termos mais importantes
Legendas
exclusivo da indexao. Saracevic et ai. (1988) constataram que os termos em-
Ensino audiovisual
Pesquisa sobre leitura Professores de televiso pregados para um mesmo pedido por diferentes especialistas em buscas reve-
Ensino elementar lavam uma coincidncia extraordinariamente reduzida.* Alm disso, itens recu-
Termos menos importantes Termos menos importantes perados por diferentes especialistas em buscas apresentavam pouca coinci-
Ensino no-tradicional Programas de remediao dncia e Cada especialista costumava encontrar alguns itens relevantes no en-
Estratgias de leitura Currculo de televiso contrados pelos outros.** Saracevic sugere a necessidade de buscas mltiplas,
Motivao do aluno Aptides de leitura
Ensino de leitura
feitas por diferentes pessoas, para o mesmo pedido, cujos resultados sejam
reunidos e postos numa ordem classificada: os itens recuperados pela maioria
dos especialistas ficaro no topo dessa classificao e aqueles recuperados ape-
FIGURA 31 nas por um especialista ficaro na parte inferior. Pela mesma razo, um mtodo
Dois enfoques diferentes na indexao de um artigo intit~Jiado . , ideal de indexao envolveria um trabalho de equipe, alcanando-se consenso
"Televiso com legenda fechada: uma nova ferramenta para o ensmo da leJtura sobre cada documento como resultado de discusses entre um gwpo de indexa-
dores. Ainda que este mtodo tenha sido possvel em alguns poucos locais alta-
A fioura 32 outra trapalhada. A dois estudantes registraram palavras e ex- mente especializados (como os sistemas especializados existentes dentro do u.s.
presse~ que representam sua anlise conceitual de um a~tig?, ante~ de tentarem Patent and Trademark Office), ele excessivamente dispendioso para a maioria
traduzi-la em termos controlados. A comparao mmto mstruttva. Exceto o das aplicaes. Brown et ai. (1996), entre outros, propuseram um mtodo
fato de ambos os conjuntos de termos se referirem a romances sentiment~is, pa- 'democrtico' de indexao de imagens, em que os usurios da base de dados de
recem ter pouco em comum. A interpretao de A 'tr~nqi.iil~' e r?mntlca, ~~ imagens contribuam com termos.
quanto 0 mnimo que se pode dizer de B que grossetra. A mcllll s~men~e tle.s
termos negativos (conflito, dominncia, ressentimento), enquanto B t~clut nnn- "' Fidel (l985) tambm veritkou que experientes especialistas em buscas mostravam pouca con~
tos termos radicais. 0 fato de serem possveis tais interpretaes radtcahnente cordncia na seleo de termos a serem empregados em buscas complexas. Anteriormente, Lilley
diferentes do significado de um artigo depe, tal:ez, a favor do emprego da (1954) e Bates (1977) mostraram que usurios de catlogos em fichas tambm costumam no
concordar muito quanto aos tennos a serem utilizados na consulta a esses catlogos.
indexao como instrumento auxiliar da psicoanhse. .
Embora duas ou mais pessoas possam no concordar ngorosamente.c?m ~s "'* Katzer et ai. {1982) constataram que representaes dithentes de documentos faziam com que
fossem recuperados diferentes conjuntos, os quais apresentavam pouca duplicidade mesmo quan-
termos que sero atribudos a t!m documento, este fenmeno no pnvtlgw do as representaes eram muito similares.
82 INDEXAO E RESUMOS: TEORIA E PRTICA

Bates (1986) sugere que a indexao "indeterminada e probabilstica" e


que isso mais ou menos inevitvel, estando "arraigado na natureza da mente CAPTULO 6
humana". Ao invs de lamentar o fato de que talvez jamais seja provvel alcan-
ar um elevado nvel de coerncia na indexao, pelo menos quando nela esto
envolvidos indexadores human.os, devemos concentrar ateno na compensa- Qualidade da indexao
o disso na etapa final do processo, ou seja, no momento da busca. A busca no
deve basear-se na coincidncia exata de termos, mas em mtodos que ordenem
os documentos segundo o grau com que coincidem com alguma forma de enun-
ciado de busca. A pessoa que executa as buscas deve dispor de diversos instru-
it~dexa~o n? co~stitui u~1 ~m em si. mesma~ Define-se ~e modo muito
mentos auxiliares que lhe permitam selecionar dentre uma variedade de mtodos
para gerao de associaes semnticas entre termos.
A p~ agmt1co a boa mdexaao como a mdexaao que permite que se recu-
perem Itens de uma base de dados durante buscas para as quais sejam respostas
Embora muitos estudos sobre coerncia hajam sido realizados ao longo dos
anos, muito poucas pesquisas foram feitas sobre por que diferentes indexadores teis, e que impede que sejam recuperados quando no sejam respostas teis.
Cooper ( 1978) vai um pouco alm:
selecionam diferentes termos, o que sabidamente um tipo mais difcil de inves-
tigao. Dois artigos correlatos, de David et ai. ( 1995) e Bertrand-Gastaldy et ai. Justifica-se a atribuio de um termo a um documento se a utilidade mdia associada
(1995), versam sobre este problema, mas chegam a concluses bastante nebu- a essa atribuio for positiva, e injustificada se for negativa (p. 11 O).
losas. Ele usa aqui a palavra 'utilidade' mais ou menos como sinnimo de 'benefcio'.
Indexao coerente no necessariamente o mesmo que indexao de alta Conforme as relaes esquematizadas na figura I do a entender diversos
qualidade. A qualidade da indexao ser examinada no prximo captulo, onde subsistemas interagem no controle do desempenho de um sistema de ;.ecupera-
tambm se faz uma comparao entre qualidade e coerncia. o da informao. Outro modo de examinar isso em termos de uma seqncia
de eventos que regem o desempenho da busca. Isso exemplificado na figura 33.
Na situao tipica de um centro de informao, uma necessidade de infor-
mao desponta na mente d~ um usurio desse centro e ele vai conversar sobre
ela com um especialista em informao. Podemos nos referir ao resultado desse
dilogo como um pedido (isto , o entendimento por pmte do especialista da-
quilo que o usurio realmente precisa). Com base nesse pedido, o especialista
em mformao prepara uma estratgia de busca, valendo-se para isso de termos
de indexao, palavras do texto ou uma combinao de ambos. A estratgia de
busca ento confiontada com a base de dados ( claro que, em muitos casos, a
estratgia de busca e o cotejo com a base de dados estaro entrelaados, pois a
estratgia ser desenvolvida interativamente em linha). Como resultado da bus-
ca certos itens so recuperados. Estes so peneirados pelo especialista em in-
formao, a fim de eliminar todo item que lhe parea evidentemente irrelevante,
sendo entregue ao usurio um conjunto final de documentos ou referncias.
O diagra~na, naturalmente, representa buscas 'delegadas', ou seja, aquelas
em que os clientes solicitam a um especialista em informao que localize para
eles certas informaes. Embora isso fosse a norma h uns vinte anos cada vez
mais deixa de ser assim, pois crescente o nmero de pessoas que real,izam suas
prprias buscas em bases de dados acessveis em linha, principalmente naquelas
fontes acessveis na Rede.
Com exce~ do primei~o e ltimo passos, porm, o diagrama ainda repre-
senta os fatores 1111pot1antes que afetam o desempenho de uma busca temtica
numa base de dados. No caso de buscas no-delegadas, a necessidade de infor-
r
6. QUALIDADE DA INDEXAO 85
84 INDEXAO E RESUMOS: TEORIA E PRTICA
manter o equilbrio entre revocao e preciso. O que se precisa comumente
mao diretamente convertida numa estratgia de busca num terminal sem pas-
obter o mximo de revocao, porm mantendo um nvel aceitvel de preciso.
sar pela etapa intermediria do 'pedido'.
Quando a estratgia de busca cotejada com a base de dados, a qualidade da
V-se claramente, no diagrama, que muitos fatores influem na qualidade da
prpria base torna~se, evidentemente, um dos fatores principais a influir no
busca, medida, por exemplo, pela revocao e preciso. Antes de mais nada, o
desempenho. neste ponto, obviamente, que a qualidade da indexao se torna
especialista em informao precisa entender o que que o usurio realmente pre-
fundamental. Os elementos do vocabulrio tambm influem na indexao, pois o
cisa. Se o pedido for uma representao imperfeita da necessidade de
indexador no pode lanar mo de termos que no existam no vocabulrio.
informao, passa a ser quase irrelevante que todos os demais elementos -
A eficcia de uma 'triagem' do resultado, caso se efetue esta operao, de-
vocabulrio, estratgia de busca, indexao, etc.- sejam satisfatrios.
pender fundamentalmente de dois fatores:
1. Em que medida o especialista que faz a busca entende aquilo de que o usurio
realmente precisa.
2. Em que medida as representaes de documentos armazenadas na base de
dados indicam de que tratam os documentos.
No convm fazer aqui uma anlise minuciosa de todos os fatores que influ-
em no desempenho de um sistema de recuperao, conforme esquematizado na
figura 33, mas apenas examinar os fatores atribuveis indexao. Uma 'falha'
de indexao pode ocorrer na fase de anlise conceitual ou na de traduo.
As falhas de anlise conceitual seriam de dois tipos:
1. Deixar de reconhecer um tpico que se revista de interesse potencial para o

l
Especialista
em grupo usurio atendido.

J
J intbrmao 2. Interpretar enoneamente de que trata realmente um aspecto do documento,
acarretando a atribuio de um termo (ou termos) inadequado.
As falhas de traduo tambm seriam de dois tipos:
Elementos do
vocabulno 1. Deixar de usar o termo mais especfico disponvel para representar um assunto.
2. Empregar um termo que seja inadequado para o contedo temtico devido

LG FIGURA33
falta de conhecimento especializado ou por causa de desateno.
Na prtica, naturalmente, o avaliador de um sistema de informao no pode tra-
ar algumas dessas distines. Por exemplo, se o termo X for atribudo a um item
quando no deveria s-lo, no h como saber se o indexador interpretou equivo-
cadamente qual seria o assunto do documento, se no entendeu realmente o sig-
nificado ou alcance de X, ou se simplesmente atribuiu esse termo por descuido.
Fatores que influem nos resultados de uma busca numa base de dados Se um indexador deixar de atribuir X quando este termo deveria ser atribudo,
bvio que ocorrero falhas na revocao. Se, por outro lado, for atribudo Y
Admitindo~se que o pedido se aproxime razoavelmente da necessidade de quando X que deveria s-lo, ocorrero falhas tanto na revocao quanto na
informao, o fator seguinte a influir no desempenho ser a qualidade da estra- preciso. Quer dizer, o item no ser recuperado quando de buscas de X, embora
tgia de busca. As principais influncias a este respeito so experincia, inteli- devesse s-lo, e ser recuperado em buscas de Y, quando no deveria s-lo.
gncia e criatividade do especialista que faz a busca. O vocabulrio da base de O descuido que leva omisso de um termo que deveria ser atribudo ao do-
dados, contudo, tambm essencial. Se for adotado um vocabulrio controlado, cumento pode ter profundo efeito nos resultados de uma busca, meSmo quando o
no se poder realizar uma busca que seja mais especffica do que o vocabulrio termo omitido aparentemente no impm1ante. A figura 34 apresenta um exem-
permite, embora se possa alcanar especificidade adicional com o emprego de plo simples disso, baseado num dos inmeros que foram revelados durante a
palavras do texto. Infelizmente, difcil imaginar todos os termos necessrios avaliao do MEDLARS (Lancaster, 1968a). O artigo trata do efeito sobre o de-
consecuo de uma busca completa. O problema em todas as buscas tentar
r
86 INDEXAO E RESUMOS: TEORIA E PRTICA 6. QU1\LIDADE DA INDEXAO 87
senvolvimento do crtex cerebral de nascimento ocorrido em situao de escu- 2. O indexador deixa de empregar os elementos do vocabulrio da forma como
rido e permanente privao da luz. O indexador contempla todos os aspectos devem ser utilizados (por exemplo> uma combinao incorreta de cabealho
principais, menos o relativo ao desenvolvimento. Esta simples omisso ser de princ ipal/subcabealho ).
grande importncia. Neste caso, o artigo considerado altamente relevante para 3. O indexador deixa de utilizar um termo no nvel correto de especificidade.
um pedido de informao sobre fatores que influem no desenvolvimento do sis- Na maioria dos casos isso significar que o termo selecionado no o mais
tema nervoso central. O especialista em buscas somente usaria o tenno 'desen- especfico existente.
volvimento' para ter acesso a este tpico, pois seria irreal supor que pudesse pre- 4. O inde?\ador emprega um termo obviamente incorreto, talvez porque no
ver que fatores seriam esses, e assim este mtigo importante no seria recuperado. possua conhecimento especializado (por exemplo, combustveis lquidos
No estudo sobre o MEDLARS, foram observados alguns exemplos de indexa- para foguetes quando o documento trata mesmo de combustveis gasosos).
dores que empregaram termos incorretos, porm um nmero bem maior de casos 5. O indexador omite um termo importante.
de omisso de termos importantes por parte dos indexadores. Esta provavel- Em primeiro lugar, o revisor comumente no despender, ao conferir a inde-
mente uma situao comum em outros servios de informao. xao de um item, tempo igual ao despendido pelo indexador. Talvez seja rela-
tivamente fcil reconhecer um termo incorreto, o qual provavelmente 'salta aos
Artigo Busca olhos' do indexador experiehte, porm seria bastante difcil perceber a omisso
Tpico Pedido
Efeito da privao da viso no desenvolvi- Fatores que intluem no desenvolvimento, de um termo importante, a menos que fosse muito bvio (por exemplo, quando o
mento do crtex visual em camundongos regenerao e degenerao do sistema termo aparece no tftulo).
nervoso centml possvel testar o trabalho dos indexadores de uma maneira mais rigorosa
do que simplesmente pasSando os olhos pelos termos atribudos> que o mximo
Indexao Estratgia
PRIVAO SENSORIAL SISTH.IA NERVOSO CENTRAL (hierarquia que se pode esperar de uma operao rotineira de checagem. O mtodo mais
ESCURIDO completa) evidente consiste em realizar uma simulao de uma avaliao real. Consegue-
CRTEX CEREBRAL e (DESENVOLV!i\IENTO 011 REGENERAO se isso da seguinte forma:
VISO 011 DEGENERAO)
CAMUNDO:-.JGOS
l. Selecione um grupo de documentos dentre os que compem o fluxo normal
de entrada, antes que cheguem s mos dos indexadores.
FIGURA34 2. Para cada documento elabore, digamos, trs questes para as quais o item
Exemplo da perda de um item importante por causa de mera omisso do indexador seja considerado uma resposta importante. Uma das questes se basearia no
tema central do documento enquanto as outras estariam centradas nos temas
Como reconhecer uma 'boa' indexao secundrios, mas ainda assim importantes.
A anlise feita at agora neste captulo implica que a qualidade da indexao 3. Faa com que experientes analistas de buscas elaborem estratgias de busca
somente pode ser aferida ex postfacto, isto , como resultado da experincia na para cada umn dessas questes. claro que esses analistas no devem ser as
operao de um sistema de recuperao e mais especificamente sua avaliao. mesmas pessoas cuja indexao estar sendo examinada.
Em grande pm1e isso verdadeiro. Um conjunto de termos de indexao atri- 4. Faa com que os itens sejam indexados da forma rotineira.
budos a um documento no pode ser julgado 'correto' ou 'incorreto' em sentido 5. Compare a indexao com as estratgias de busca, a fim de determinar se os
absoluto. Ou seja> no existe nenhum conjunto 'melhor' de termos. Alegar que itens relevantes so recuperveis ou no com os termos atribudos.
tal conjunto existe implica uma prescincia de todos os pedidos que sero feitos Como mtodo para avaliar o desempenho de um grupo de indexadores, esse
base de dados na qual o documento se acha representado. p1ocedimento funcionar bastante bem se a amostra de documentos for sufi-
Ocorrem, porm, realmente erros de indexao, e seria possvel ao indexa- cientemente grande e se forem utilizadas as melhores estratgias de busca
dor experiente (ou 'revisor') descobrir pelo menos alguns desses erros antes da possfveis. Todo o teste seria realizado ao longo de uma srie de semanas. Seria
incluso de um registro numa base de dados e assim impor cer1o controle de conveniente> naturalmente> que o mesmo conjunto de documentos fosse inde-
qualidade ao processo. Esse indexador identificaria os seguintes tipos de erros: xado vrias vezes, uma vez por cada indexador, de modo que o desempenho dos
l. O indexador infringe a poltica, especialmente a relativa exaustividade da indexadores fosse comparado sobre uma base comum. Isso, porm, nem sempre
indexao. possvel devido especializao de assuntos dentro do grupo.
88 INDEXAO E RESUMOS: TEORIA E PRTICA

Em grandes servios de informao, que dependem do trabalho de muitos


indexadores, especialmente quando a indexao descentralizada, provavel-
mente ser essencial implantar alguma forma de controle de qualidade. Se 0
r 6. QUALIDADE DA INDEXAO

Fatores ligados ao indexador


Conhecimento do assunto
Experincia
Fatores ligados ao documento
Contedo temtico
Complexidade
89

volume de documentos indexados for muito grande, talvez seja economicamen-


Concentrao Lngua e linguagem
te invivel verificar todos os registros antes que dem entrada na base de dados, Capacidade de leitura e compreenso Extenso
e assim seria necessria alguma forma de amostragem. Seria possvel, mas no Apresentao e sumarizao
suficiente, fazer uma amostragem completamente aleatria dos registros, princi-
Fatores ligados ao vocabulrio Fatores ligados ao "processo'
palmente se o ndice de erros for provavelmente baixo. Isso exige um processo
Especitlcidade/sintaxe Tipo de indexao
automtico de 'marcar' os registros para que sejam inspecionados por especia- Ambigidade ou impreciso Regras e instrues
listas, com base no fato de que tais registros parecem 'suspeitos'. Qualidade do vocabulrio de entradas Produtividade exigida
Todeschini desenvolveu um mtodo engenhoso para identificar esses regis- Qualidade da estrutura Exaustividade da indexao
tros suspeitos (Todeschini e Farrel, 1989); Todeschini e Tolstenkov, 1990). Disponibilidade de instrumentos auxiliares atlns
Fatores ambientais
Esse mtodo vem sendo empregado na Agncia Internacional de Energia Atmi- Calefao/refrigerao
ca, em Viena, para o controle de qualidade da base de dados INIS (Todeschini, Iluminao
1997), e se tornou possvel devido ao fato de os itens includos na base de dados Rui do
serem indexados com descritores extrados do tesauro INIS (uma mdia de apro-
ximadamente 11 termos po1 item em 1990), alm de serem classificados numa FlGUllA 35

dentre 237 categorias genricas de assuntos. Em essncia, o sistema capaz de Fatores que podem afetar a qualidade da indexao
O autordeclar.!-se reconheddo a Oliwret ai. { 1966) pela idia que in5pirou e na fi;.'llra
identificar registros em que os descritores a eles atribudos sejam atpicos dos
descritores fortemente relacionados com a categoria onde foi anteriormente Mai (2000) identifica cinco estdios no desenvolvimento de um indexador:
classificado. Se os descritores atribudos a determinado documento, que houver principiante, principiante adiantado, competente, proficiente e especialista. Ele
sido colocado na categoria x, forem atpicos do 'perfi I' do descritor anterior atri- sustenta que somente o especialista tem capacidade para "indexar o mesmo
budo a X, esse registro ser um bom candidato reviso de controle de quali- documento com o emprego de diferentes mtodos". Isso implicaria, por exem-
dade, pois a classificao ou a indexao pode estar errada. plo, que somente um especialista teria a capacidade de indexm o documento A
para a clientela X e index-lo de modo diferente para a clientela Y. Ainda que isso
Fatores que influem na qualidade da indexao soe aparentemente plausvel, deve-se tambm admitir que possvel programar
Lamentavelmente no foram muitas as pesquisas realizadas sobre os fatores um computador para indexar o mesmo texto de diferentes formas (isto , para
que apresentam maior probabilidade de influir na qualidade da indexao. Na diferentes clientelas) mediante a ligao de ocorrncias de palavras/frases com
figura 35 apresenta-se uma tentativa de identificar esses fatores, mas ela se diferentes conjuntos de termos de indexao.
baseia mais no senso comum ou na intuio do que em provas concretas. claro que um tipo particular de especialista o prprio autor do docu-
Os indexadores devem ter algum conhecimento do contedo temtico tra- mento. J foram realizados alguns estudos sobre o autor como indexador. Por
tado e entender sua terminologia, embora no precisem necessariamente ser exemplo, Diodato ( 1981) estudou a coerncia na seleo de termos entre trs
especialistas no assunto. Na realidade, algumas instituies tm enfi:entado pro- grupos: autores, indexadores e leitores de m1igos de matemtica. Ebinuma et ai.
blemas com indexadores que so 'especialistas' demais, pois sua tendncia ( 1983) traduziram as palavras-chave atribudas pelo autor para os termos de um
interpretar o texto de modo excessivo e talvez extrapolar aquilo que o autor afir- tesauro e os compararam com termos j atribudos por indexadores experientes.
ma (por exemplo, indexar uma aplicao possvel que no esteja identificada A indexao oriunda do autor pareceu produzir melhor preciso porm menor
especificamente no artigo) ou mesmo revelar preconceitos ao no indexar afir- revocao. Mulvany (1994) examina os prs e contras de os prprios autores
maes que relutam em aceitar (ver lntner, 1984, e Bell, 1991a, para comen- indexarem seus livros.
trios sobre vis e censura na indexao). A falta de conhecimento do assunto Rasheed ( 1989) levou a cabo estudo similar, comparando termos atribudos
pode, contudo, levar indexao excessiva. Incapaz de distinguir entre dois ter- por autores de artigos de medicina com termos atribudos por indexadores do
mos, o indexador talvez atribua ambos quando bastaria apenas um ou apenas um MEDLARS. Ele constatou que os indexadores atribuam muito mais termos e que
seria correto. Loukopoulos (1966) refere-se a isso como indeciso do indexador. os termos que eles empregavam eram mais especficos do que os empregados
90 INDEXAAO E RESUMOS: TEORIA E PRTICA 6. QUALIDADE DA INDEXAO 91
pelos autores. Outros estudos trataram da indexao de livros como unidades indexador at o termo mais .adequado para representar determinado tpico. As
independentes. Diodato e Gandt ( 1991) constataram que indexadores profissio- dimenses e a qualidade do vocabulrio de entradas* tambm sero impolian-
nais produziam ndices que eram mais completos do que os ndices feitos pelos tes, do mesmo modo que a disponibilidade de diversos instrumentos auxiliares
prprios autores, embora as diferenas (por exemplo, em nmero de entradas afins, como dicionrios ou glossrios especializados.
por pgina de texto) no fossem to grandes quanto seria de se esperar. Tambm Outros fatores que influem na qualidade tm a ver com o prprio processo de
se constatou que os autores apresentavam deficincias na redao de resumos de indexao. Alguns tipos de indexao, como a extrao de palavras ou expres-
seus prprios miigos, aspecto a ser focalizado em prximo captulo. ses do texto, no exigem muita concentrao, esforo intelectual ou experinM
O conhecimento dos interesses dos usurios da base de dados especial- c ia, enquanto outros tipos, principalmente os que exigem o estabelecimento de
mente importante porque a 'boa' indexao deve ser talhada s necessidades de relaes conceituais precisas (mediante indicadores de funo ou relacionais),
determinada comunidade, sempre que possvel. Anos de experincia como inde- encontram-se na extremidade oposta do leque de dificuldades. Em geral, quase
xador tambm so um ~1tor que influi sobre a qualidade, da mesma forma que certo que os indexadores tenham desempenho mais eficaz quando recebem re-
outras caractersticas, como a capacidade de a pessoa se concentrar, ler rapi- gras e instrues precisas do que quando trabalham em condies de completa
damente e compreender prontamente. Finalmente, e talvez o mais importante de liberdade. A produtividade exigida outro fator importante. Se for exigido do
tudo, um bom indexador deve gostar do que faz. improvvel que se consiga ob- indexador que d conta de certo nmero de itens por dia, ele poder sentir-se
ter uma boa indexao de algum que detesta o que est fazendo. pressionado e isso levar a erros por descuido, especialmente se a instituio
Tambm intervm nisso fatores ligados ao documento. Alguns assuntos so tiver uma expectativa excessiva de produo diria. Alm disso, a indexao
de mais difcil compreenso do que outros. Comumente, a teoria muito mais exaustiva demanda mais tempo do que a indexao seletiva.
difcil do que a prtica, como ocorre nas diferenas entre mecnica aplicada e Por fim, a indexao requer concentrao, e condies ambientais desfavo-
engenharia. Relacionado a isso, naturalmente, est o grau de 1 correspondncia' rveis tm um efeito negativo sobre a exatido dessa tarefa intelectual.
entre o contedo temtico do documento e o conhecimento ou os interesses do Outra maneira de analisar os fatores que influem na qualidade ela indexao
indexador. diz respeito s dificuldades que os indexadores defrontam. Oliver et ai. (1966),
'Lngua' pode ser interpretada de vrias formas. Evidentemente, o indexador em levantamento baseado em entrevistas, que abrangeu 61 indexadores, obser-
que no souber russo dificilmente poder indexar artigos em russo de modo varam que 11 tomar decises sobre como melhor descrever o contedo dos docu-
eficiente, a no ser que contenham resumos claros e completos na prpria lngua mentos" era (o que no surpreende) o problema mencionado com mais freqn-
do indeXador (o que no usual). Outro aspecto concerne clareza da linguagem cia. Infelizmente, este problema geral, difuso e refratrio a solues fceis.
do autor. Alguns autores expem suas idias ou descobertas de modo mais claro Outros problemas importantes mencionados foram 'entender material novo ou
do que outros, tornando menos difcil o trabalho do indexador. Finalmente, desconhecido' e falta de termos apropriados nos vocabulrios controlados. Chu
existem alguns fatores ligados apresentao que influiro sobre a maior ou e O'Brien (1993) estudaram a etapa de anlise conceitual da indexao, em
menor facilidade que o indexador ter para descobrir de que trata o documento: pesquisa da qual participaram mais de uma centena de indexadores principiantes
o ttulo preciso ou enganador, existe um resumo ou algum outro tipo de suma- (estudantes), mas sua pesquisa baseou-se em somente trs breves artigos, de
rizao que reflita integralmente o contedo do item? modo que difcil, a pmiir de seus dados, chegar a uma concluso slida.
natural que os fatores ligados ao vocabulrio tambm influam na qualidade
da indexao. Quanto mais especfico o vocabulrio, mais minuciosoS sero os A qualidade est relacionada coerncia?
matizes de significado que permite expressar; e quanto mais minuciosos os Qualidade e coerncia no so a mesma coisa: pode-se ser coerentemente
matizes de significado, mais difcil ser estabelecer diferenas entre termos ruim bem como coerentemente bom! Apesar disso, percebe-se intuitivamente
muito afins e empregar estes termos de modo coerente. Elementos sintticos que deve haver uma relao entre coerncia e qualidade. Por exemplo, se trs
adicionais, como subcabealhos ou indicadores de funo, aumentam a especifi- indexadores costumam concordar entre si, porm um quarto indexa de forma
cidade e complicam o trabalho de indexao. bastante diferente, a tendncia da gente acreditar no consenso.
Termos que sejam ambguos ou imprecisos (que caream de contexto ade-
quado ou notas explicativas) so difceis de interpretar e empregar corretamente,
alm do que o vocabulrio deve contar com uma estrutura suficientemente com- * Um vocabulrio de entmd<1s um<1 lista de tennos no-preferidos, que ocorrem na literatura, que
pleta (por exemplo, a estrutura.TG/TEITR do tesauro convencional) que guie o remetem pnra os termos preferidos apropriados mediante o emprego de remissivas do tipo ver ou
usar. A importncin disso exmninaa n!hmes (por exemplo, em Lancaster, 1986).
92 INDEXAO E RESUMOS: TEORIA E PRTICA

Cooper (1969), em attigo polmico, questiona o valor da coerncia como


indicador de qualidade. O aspecto por ele suscitado exemplificado com refew
rncia figura 36. Um centro de informao emprega quatro indexadoresA-D. B
e c so bastante coerentes entre si, porm A e D tm ambos suas idiossincrasias.
No entanto, por essa ou aquela razo, a viso de mundo de D est mais prxima
r 6. QUALIDADE DA INDEXAO

A comparao entre coerncia e eficcia de recuperao mostrou-se mais


difcil do que fora antecipado. Um problema importante se deve ao fato de que a
'eficcia' da indexao normalmente associada ao trabalho de um nico inde~
xador, enquanto a coerncia, por definio, uma medida que se refere ao traba-
93

lho de dois ou mais indexadores (Leonard mediu a coerncia do grupo bem como
da dos usurios do centro, e os termos que atribui refletem melhor os interesses a coerncia de par de indexadores). Leonard combinou os escores de 'eficcia'
deles. Presumewse que sua indexao seja a melhor, pelo menos para essa clien- para dois (ou mais) indexadores e em seguida comparou este escore com a
tela especfica. Neste caso, ento, os indexadores que so mais coerentes entre si medida de coerncia para estes indexadores. O escore de eficcia leva em conta
no produzem o melhor trabalho, embora no sejam to ruins quanto A cuja a quantidade de documentos relevantes recuperados c a de documentos irrcle~
indexao se distancia ainda mais dos interesses dos usurios. vantes recuperados, e estes escores podem ser combinados determinando~se a
mdia dos resultados para os dois indexadores ou agregando-os. Se se empregar
o mtodo de agregao, somente sero contados itens singulares, o que, com
efeito, considera os dois indexadores como se fossem um indivduo nico.
Leonard observou uma relao positiva 1 de moderada a forte' entre coern~
A------~
s _ 7
INTERESSES DOS
USUARIOS
cia e eficcia de recuperao, com uma 'relao positiva claramente definida'
entre coerncia e o coeficiente de revocao.
c
o-
A utilidade dos estudos de coerncia
A pesquisa realizada por Leonard ( 1975) sugere que de fato existe uma rela-
o positiva entre coerncia e qualidade da indexao, onde 'qualidade' refere-
FIGURA36
se eficcia de recuperao. Mesmo que nenhuma relao houvesse sido desco-
Coerncia do indexador relacionada aos interesses dos usurios
be!ia, os estudos de coerncia ainda teriam alguma utilidade. Hooper (1966)
sugeriu vrias aplicaes, inclusive:
Conquanto essa situao seja plausvel, talvez no seja assim to exagerada.
difcil compreender por que B e c seriam mais coerentes entre si, a menos que I. Na seleo ou treinamento de indexadores. A indexao feita por treinandos
isso refletisse o fato de serem os indexadores mais experientes. Se o so, a lgica comparada com algum padro preestabelecido.
sugere que so esses dois os que deveriam ter mais conhecimento acerca dos 2. No controle permanente da qualidade das atividades de indexao.*
usurios. So muito poucos os estudos que se relacionam de alguma forma com 3. Para descobrir problemas na utilizao de um vocabulrio controlado; por
os argumentos de Cooper. No entanto, Diodato (1981) verificou, de fato, que a exemplo, identificao de termos ou tipos de termos que sejam freqUentemen-
coerncia entre autores de artigos de matemtica e indexadores profissionais era te empregados de modo incoerente por causa de ambigidades ou coincidn-
maior do que a coerncia entre autores e leitores dos m1igos. cias de sentido.
Leonard ( 1975) empreendeu o nico esforo srio visando a estudar a rela- 4. Para descobrir quaisquer problemas que possam existir relativos s regras de
o entre qualidade e coerncia na indexao. 'Qualidade' foi definida em indexao.
termos de eficcia de recuperao- a capacidade de recuperar o que desejado 5. Para determinar se a coerncia ou no menor no tratamento de certas reas
e de evitar o que no desejado. Lconard trabalhou com duas colees separadas temticas ou tipos de documentos.
de dados, que eram subconjuntos de estudos de avaliao anteriores. Essas Neste captulo, aceitou-se que qualidade de indexao significa o mesmo
colees compreendiam documentos, pedidos, estratgias de busca e avaliaes que 'eficcia de recuperao' da indexao. Nem todos a definem desta forma.
de relevncia. Para cada pedido conheciam-se os itens que haviam sido julgados Rolling (1981 ), por exemplo, afirma que: "Pode-se definir qualidade de indexa-
relevantes e quais os que no haviam sido considerados relevantes. Os conjuntos o como o grau de concordncia entre os termos atribudos pelo indexador e um
de termos atribudos aos documentos pelos indexadores que participaram do
estudo podiam assim ser comparados com estratgias de busca construdas ante-
* Stubbs et ai. (1999) examinam como os estudos sobre coerncia interindexadores podem ser
riormente, pei'mitindo ao pesquisador identificar se determinado documento utilizados no monitoramento pemwnente da indexao numa instituio. Eles combinam clculos
seria ou no recuperado com determinada estratgia. de coerncia com o emprego de 'cartas-controle' adotadas em engenharia industrial.
INDEXAO E RESUMOS: TEORIA E PRTICA 6. QUALIDADE DA INDEXAO 95
94
grupo de termos 'ideais' ou 'timos'." Em seguida, ressalta que a melhor_ m~nei mais termos adicionais forem atribudos a cada membro, mais diferenas in-
ra de alcanar o ideal mediante alguma forma ele consenso entr~ e,spect~hstas; dividuais sero identificadas.
O trabalho do indexador comparado com o consenso, e ele sena penalizado Para examinar a qualidade dessa forma, deve-se primeiro estabelecer os
se no utilizasse termos sobre os quais os especialistas houvessem concordado, conjuntos de teste, recuperar registros para os membros de cada conjunto de uma
bem como se usasse termos sobre os quais no tivesse havido concordncia. base de dados, e estudar as caractersticas dos termos atribudos. \Vhite e Griffith
Rolling, que parece desconhecer o trabalho de Leonard, atil;na~q~,e ~ned~das de empregaram essa tcnica para comparar a indexao de seus conjuntos de teste
eficcia "no so praticveis11 , enquanto os estudos de coerencm na o sao con- em diferentes bases de dados. Comparar bases de dados dessa maneira confir-
fiveis11. Ele defende estudos de qualidade, baseados no mtodo do consenso, mar o pressuposto de que os itens do conjunto de teste so de fato similares em
empregando-se os estudos de coerncia apenas para pesquisar 'influncias e seu contedo. \Vhite e Griffith empregaram a co-citao como base para estabe-
tendncias'. fvlais no final deste capitulo encontra-se um exemplo da pontuao lecer seus conjuntos de teste, embora outros mtodos, inclusive o acoplamento
da indexao baseada nas sugestes de Rolling. bibliogrfico, tambm possam ser utilizados.
Vrios outros pesquisadores procuraram avaliar a indexao for.a do COI.ltex- A utilidade desse trabalho limitada pelo fato de que somente foram empre-
to do sistema de recuperao em que ela ocorre. Por exemplo, \Vh1te e Gnffith gados aglomerados muito pequenos (na faixa de trs a oito itens). Alm disso, a
( 1987) descrevem uma abordagem na qual so adotados mtodos externos ao validade do mtodo como teste da indexao feita por seres humanos depende
sistema de indexao que esteja sendo estudado, a fim de estabelecer um con- inteiramente de se estar disposto a aceitar um aglomerado de co-citaes como
junto de documentos considerados 'similares em contedo'. Empregando con- sendo um padro legtimo. Poder-se-ia apresentar um argumento convincente,
juntos desse tipo (eles os denominam aglomerados de docwnen!os que servem segundo o qual faria mais sentido empregar indexadores especialistas como
de critrio) como base para avaliao, examinam trs caractersticas dos termos padro para aferir a legitimidade do aglomerado de co-citaes.
de indexao atribudos a itens do conjunto em determinada base de dados: White e Griffith afirmam que o mtodo til para um produtor de bases de
1. A extenso com que os termos unem itens afins. A medida bvia disso a dados aferir a qualidade da indexao, e apresentam exemplos de termos que
quantidade de termos que foram aplicados a todos o.u maior i~ dos itens do talvez devessem ter sido utilizados pelos indexadores do MEDLINE ou acrescen-
conjunto. Os itens sero tidos como intimamente umdos se vnos termos de tados ao vocabulrio controlado. Essas aferies de 'qualidade' podem, entre-
assuntos houverem sido aplicados a todos eles. tanto, ser feitas de modo mais simples: conjuntos de itens definidos por um ter-
2. A extenso com que os termos discriminam entre esses conjuntos na base d_e mo ou termos determinados (por exemplo, 'supercondutores' ou 'superconduti-
dados. A medida mais bviadisso a freqncia com que termos que se apli- vidade', que ocorram como termos de indexao ou palavras do texto) so recu-
cam maioria dos documentos do conjunto ocorrem na base de dados como perados de diversas bases de dados e sua indexao comparada sem o empre-
um todo*. Termos muito comuns no so bons discriminadores. Por exem- go da co-citao como padro. Com efeito, este tipo de estudo tambm foi feito
plo, no MEDLINE, o termo humano pode aplicar-se a cada item num conjunto, pelo mesmo grupo de pesquisadores (McCain et ai., 1987). Para li pedidos for-
mas tem pouca utilidade para separar este conjunto de outros, uma vez que se mulados por especialistas nas cincias mdicas comportamentais, foram feitas
aplica a inmeros outros itens da base de dados. Por outro !~do: te_rmos que buscas comparadas nas bases l'viEDLINE, Excerpta Medica, Psyc!NFO, SCISEARCH e
ocorrem muito raramente na base de dados como um todo serao ute1s em bus- SOCIAL SCISEARCH. Nas trs primeiras as buscas foram feitas com: a) termos
cas altamente especficas, porm tero pouca serventia na identificao de controlados, e b) linguagem natural, e nas bases de citaes foram feitas: a) em-
conjuntos um pouco maiores. pregando a linguagem natural dos ttulos, e b) empregando citaes de itens rele-
3. A extenso com que os termos discrim inamminuciosamente entre documen- vantes conhecidos como pmitos de entrada. Embora o objetivo da pesquisa fosse
tos distintos. Aqui tambm a raridade uma medida aplicvel. Do mesmo ~studar a qualidade da indexao do 1\IEDLINE, pouco descobriu que se traduzis-
modo a exaustividade da indexao: um termo pode aplicar-se a todos os se em recomendaes National Library ofMedicine quanto prtica da inde-
itens de um conjunto, mas no pode discriminar entre seus membros; quanto xao, embora se fizessem recomendaes sobre o alcance da indexao.
As concluses mais importantes do estudo foram: I) a incorporao de mto-
~ Ajiferukc e Chu ( 1988) criticmn o ndice de discriminao adotado por ~Vhite e Gri~lth porque
dos de linguagem natural nas estratgias de busca resultou em melhoramentos
no leva em considerao 0 tamanho da base de dados; propem uma med1d1~ alternat1v~ ~u_e leve significativos da revocao em comparao com o emprego somente de termos
isso em conta. Em artigo relacionado a esse (Chu e Ajiluke, 1989), ~~hcam os cnt~nos de controlados. 2) a recuperao de citaes deve ser considerada um comple-
I. de IV\111:
avam,o "t/Gritllth , com seu prprio ndice de discriminao modJ!Jcado, na avaliao da mento importante para a recuperao baseada em termos porque podem ser
indexao em bases de dados de biblio.teconomia.
96 INDEXAO E RESUMOS: TEORIA E PRTICA 6. QUALIDADE DA INDEXAO
97
encontrados itens relevantes adicionais com o emprego do mtodo de citaes, e
3) nenhuma base de dados pode sozinha fornecer uma cobertura completa de INDEXADORA
uma hibliografia multidisciplinar complexa. Escore C a bealhos/su bcabenlhos
15 *Bao
A qualidade medida com o emprego de um padro -13 (-7,-1,-4,-1)
Coristomnlcomplicaes/'"radiogratla/radionucldeo
8 (6,-1,+3) Doena de Hodgkin/complicao/ciruraia
Em estudo realizado para a National Library offvledicine (Lancaster et ai., -4 (-3,-1) Eritrcitoslradionucldeo "'
1996), desenvolvi um mtodo para avaliar a qualidade da indexao para o -3 Espao retroperitoneal
MEDLINE, seguindo a orientao proposta por Rollii1g ( 1981 ), que consistia em 6 Esplencctomia
6 Hu111ano
comparar o trabalho dos indexadores com um 'padro', que seria um conjunto de 6 Masculino
termos estabelecido de comum acordo por indexadores altamente experientes. A 6 Meia-idade
figura 37 mostra o exemplo do padro para um artigo e a figura 38 mostra os ter- 6 Recidiva
mos selecionados por dois indexadores diferentes para este mesmo artigo. 6 Relato de caso
7(8,-1) Tecncio/uso diagnstico
8 Tomografia computadorizada por raios x
Escore Cabcalhos/subcabcalhos
10(15,-4,-1) Trombocitopenial*ctiologiafterapia
9 (6+3) Auto-anticorpos/anlise Total 64
26(15+5+3+3) Bao/*anonna!idades/radiogrntia/radionucldeo
6 Doena crnica
INDEXADORB
9 (6+3) Doena de Hodgkin/cirurgia
Escore Cabealhos/su bcabeal hos
6 Esplenectomia
15 *Bao
6 Humano
-15 (-7,-4,-4) Co ris toma/* rad iogratl a/* rad i onu cl deo
6 !VIascu\ino
6 Doena crnica
6 Meia-idade
5 (6,-1) Doena de Hodgkin/terapia
9 (6+3) Plaquetas/imunologia
-4 (-3,-1) Espao retroperitoneal/mdionuclideo
6 Recidiva
4 *Esplenectmnia
6 Relato de caso
6 Humano
20(15+5) Tecncio/*uso diagnstico
-4(-3,-1) lmunoglobulinas/uso teraputico
15 *Tomogratia computadorizada por raios X
23(15+5+3)
-3 Induo de remisso
Trombocitopenia/*imunologia/cirurgia
-3 Laparotomia
Total !53
6 Masculino
6 Meia-idade
FIGURA37
-4 (-3,-1) Prednisolonaluso teraputico
'Padro' de indexao para um artigo mdico, mostrando escores relativos 6 Relato de caso
atribuio de vrios tipos de termos 15 *Tomografia computadorizada por raios x
6 (15,-4,-4,-1) T rombo c itopen iaf* rad io grati ai* rad ion ucl deo/terap i a
O padro representa o consenso de um grupo de indexadores experientes Total 29
sobre qual seria a indexao 'ideal' para esse item. Eles chegaram a 14 termos.
Uns so cabealhos de assuntos) outros so etiquetas, e alguns dos cabealhos de FIGURA 38
Escores de dois indexadores em comparao com o padro da figura 37
assuntos recebem um ou mais de um subcabealho. Ademais) um cabealho de
assunto ou uma combinao cabealho de assunto/subcabealho pode ser sele-
cionado como 'mais impo11ante'. Isto , esses so os termos que os indexadores O escore reflete a impot1ncia dos diversos termos e combinaes de ter-
mos segundo o julgamento dos indexadores especialistas, a saber:
julgam mais imp011antes para o artigo e sob os quais o artigo aparecer na verso
impressa do Index lv!edicus. So identificados com um asterisco. Por exemplo, 6 pontos por ca.bealho de assunto atribudo corretamente sem asterisco
~pontos por et1queta ( qual no se aplicam asteriscos)
TOMOGRAFIA COMPUTADORIZADA POR RAlOS X foi se lecionado como um termo
.; pontos por subcabealho sem asterisco
mais impot1ante, do mesmo modo que a combinao BAO/ANORMALIDADES.
15 pontos por cabealho de assunto sem asterisco
Note-se que o asterisco aplicado a um subcabealho automaticamente trans-
5 pontos por subcabealho sem asterisco.
portado para o cabealho ao qual se acha ligado.
O escore mximo possvel para esse item 153 . Isto , na 1Hpo
, 'tese mmto
,
unpro-
98 JNDEXAO E RESUMOS: TEORIA E PRTICA 6. QUALIDADE DA INDEXAO
99
vvel de um indexador repetir exatamente o padro, ser-lhe-ia atribudo o esco- indexao bastante discriminativo. Isto , reflete claramente os desvios em
re completo. Qualquer desvio do padro- no atribuir um termo necessrio, relao ao padro. Embora,.nesse exemplo especfico, nem o indexador A nem
no usar o asterisco adequadamente, ou empregar um termo fora do padro - o indexador B tenham se sado muito bem, evidente que A ficou mais petto do
resulta na perda de pontos. Note-se como os termos e as combinaes de termos padro do que B, e os escores refletem isso. B perdeu por ter deixado de fora por
realmente importantes contribuem grandemente para o escore. O termo BAO completo um termo considerado 'impmtante' pelo padro e tambm porque in-
leva trs subcabealhos, um deles com asterisco. Bao faz 15 pontos porque troduziu vrios termos externos ao padro.
recebe um asterisco do subcabealho com asterisco A.>'IORMALIDADES, de modo Como foi antes salientado neste captulo, a qualidade da indexao mais
que o escore total para esta com.binao de 15 para o cabealho principal com bem avaliada no contexto de uma avaliao completa do sistema de recupera-
asterisco, cinco para o subcabealho com asterisco e trs cada um para os ou- o no qual so utilizados pedidos de usurios reais, como aconteceu no estudo
tros dois cabealhos, num total de 26. sobre o MEDLARS (Lancaster, l968a). No obstante, a utilizao do mtodo do
Esse item foi indexado duas vezes, uma pelo indexador A e uma pelo inde- 'padro-ouro' pode ser eficaz, especialmente na avaliao do progresso de
xador B (figura 38). Pontuar o trabalho dos indexadores um pouco mais com- indexadores em fase de treinamento e na comparao do trabalho de um orupo
plexo porque eles recebem uma pontuao positiva pela atribuio correta dos de indexadores com o de outro grupo. a
termos no padro e uma pontuao negativa pela atribuio de termos que no Esse nico exemplo ilustra tambm como a concordncia quanto ao uso de
sejam do padro. Quando o indexador ace11a exatamente o padro para um etiquetas muito mais fcil de alcanar do que a concordncia quanto a outros
termo, o escore para esse termo transferido para o escore do indexador. Qual- tet~m?s, e que quanto mais refinada for a indexao (mediante o emprego de
quer desvio resulta num escore reduzido ou, o que pior, num escore negativo. mult1plos subcabealhos e asteriscos) mais diffcil fica alcanar acordo total.
A pontuao completa a seguinte: Susanne Humphrey ( 1995), da National Librm-y o f Medicine, props um
Coincidncia exata com o padro: transportar o escore do padro mtodo de pontuao que usa escores de qualidade para medir a coerncia da
-7 para cabealho com asterisco fora do padro inde~ao. Nesse mtodo, depois que os indexadores hajam sido pontuados em
-4 para subcabealho com asterisco fora do padro coteJO com o padro, o trabalho pontuado que cada um executou num mtigo
-3 para cabealho sem asterisco fora do padro torna-se o padro em comparao com o qual cada um dos indexadores ser
-1 para subcabealho sem asterisco fora do padro avaliado, cada um por seu turno, no que tange coerncia. O emprego desse
4 para um cabealho com asterisco colocado pelo indexador, porm sem mtodo pode ser ilustrado por meio de um exemplo simples, como o seguinte:
asterisco no padro (ao contrrio do 6 se o asterisco no fosse atribudo Imlcxador .-\ Indexaf.101 B
Ala 6+3 Ala 6+3
pelo indexador)
s/c/d 6+3+3 c/*c 15+5
8 para um cabealho com asterisco no padro, mas no colocado pelo c/*c 15+5 D/d 6+3
indexador (ao contrrio de 15 se o asterisco fosse atribudo corretamente) E 6
- 1 para subcabealho com asterisco no padro, mas que o indexador Total 41 Total 44
no atribuiu. Se A for o padro, o indexador B faz 29 pontos (os escores para os termos em
:Muito embora isso parea bastante complexo, no bem assim porque, uma que B concorda com A), de modo que a coerncia expressa como 29/41, ou
vez definido o mtodo de pontuao, possvel escrever programas bem sim- 70,7. Se B foro padro, o escore de A de 29/44, ou 65,9. Quando as duas com-
ples (e alguns j foram escritos) tanto para pontuar o padro quanto para pontu- paraes (A com B, B com A) so combinadas, a mdia alcanada de 68,3.
ar o trabalho dos indexadores em comparao com o padro. Embom engenhoso, no fica totalmente claro qual o verdadeiro sionificado do
. o
A aplicao de escores indexao da National Library ofMedicine mais escore: Basicamente, embora os escores de 'qualidade' hajam sido preservados,
complexa do que o seria em muitas outras situaes, devido ao emprego de a quahdade no est sendo medida diretamente (pois o escore de nenhum dos
subcabealhos e distino entre descritores mais e menos impo11antes, de modo indexadores compamdo c~nn o padro). Trata-se simplesmente de uma medi-
que fica tambm mais difcil alcanar um acordo sobre quais devam ser os esco- da alternativa de coerncia que, conforme foi sugerido no captulo anterior, tem
res. Ainda que os escores numricos verdadeiros usados nesses exemplos (re- pelo menos o mrito de levar em conta a importncia relativa dos termos. Isto ,
ais) sejam considerados um tanto arbitrrios, eles de fato refletem a enormidade se um ~ndexador deixar de usar uma combinao de alta pontuao utilizada por
percebida de vrios tipos de erro indexado. outro Indexador, isso reduzir o escore de coerncia entre eles muito mais do
Se tiver havido acordo quanto aos escores, esse mtodo de avaliao da que o faria a falta de concordncia quanto a um termo de baixo escore.
CAPTULO 7
r 7. RESUiv!OS: TIPOS E FUNES

6. Custo. Resumos longos no ficam necessariamente mais caros do que resu-


!OI

mos curtos. De fato, talVez demore mais a redao de uma boa sntese de
200 palavras do que uma de 500. bvio, porm, que o custo de um servio
de resumos em formato impresso aumentaria de modo expressivo se a exten-
Resumos: tipos e funes so mdia dos resumos aumentasse 50%, por exemplo. Isso teria reflexo so-
bre todos os custos, desde a composio do texto, at o papel e correio.
7. Finalidade. Um resumo que se destine essencialmente a proporcionar acesso
a um documento com finalidade de recuperao precisa ser mais longo para
resumo uma representao sucinta, porm exata, ?o_contedo de ut~~ do- que possa oferecer suficientes pontos de acesso.
O cumento. Endres-Niggemeyer (1998) adota defin1ao semelhante: Um
texto, breve e coerente, que se destina a informar o usurio sobre os conhe-
Um resumo muito breve (por exemplo, que procure descrever um documento
com uma nica frase) s vezes denominado anotao, termo que, no entanto,
cimentos essenciais transmitidos por um documento". bastante impreciso.*
preciso distinguir entre as palavras resumo e extrato. Este uma verso Faz-se amide uma distino entre resumos indicativos (s vezes denomi-
abreviada de um documento, feita mediante a extrao de frases do prprio nados descritivos) e resumos informativos. Essa diferena exemplificada nas
documento. Por exemplo, duas ou trs frases da introduo seguidas de duas ou figuras 39 e 40 que mostram dois tipos diferentes de resumos preparados para o
trs frases das concluses ou resumo do autor podem dar uma boa indicao item inicialn.1ente apresentado na figura 3. O resumo indicativo simplesmente
daquilo de que trata um artigo de peridico. O verdadeiro resumo, ainda que in- descreve (indica) de que trata o documento, enquanto o resumo informativo
clua palavras que ocorram no documento, um texto criado pelo resumidor e procura sintetizar a substncia do documento, inclusive seus resultados.
no uma transcrio direta do texto do autor. O termo 'sumarizao' hoje mui~
to usado para designar qualquer processo que produza representaes conden- Foram feitas entrevistas telefnicas em 1985 com 655 norte-americanos selecionados por amos-
sadas de textos e, assim, aplica-se tanto redao de resumos quanto de extratos. tragem probabilstica. Expressam-se opinies sobre se: I) a fonnao de um Estado palestino
essencial para a paz na regio; 2) deve ser reduzida a ajuda norte-americana a Israel e ao Egito;
Os resumos podem ser caracterizados de inmeras formas, inclusive segundo
3) os EUA devem a) participar de uma conferncia de paz que inclua a OLP, b) no favorecer
sua extenso. Na figura 3, por exemplo, apresentam-se dois resumos diferentes, nem Israel nem as naes rabes, c) manter relaes amistosas com ambos. Os entrevistados
um mais extenso do que o outro. No h absolutamente razo alguma pela qual indicaram se estavam suficientemente infonnados sobre os vrios gmpos nacionais da regio.
todos os resumos tenham aproximadamente a mesma extenso. Entre os fatores
que influem na extenso de um resumo temos os seguintes: FIGURA39
Resumo indicativo
1. A extenso do item que est sendo resumido (Craven, 1990, no entanto, no
encontrou correlao entre a extenso do artigo e a extenso do resumo, po~ Isto , o resumo indicativo mencionaria quais os tipos de resultados alcana-
rm ele trabalhou com uma rea temtica muito limitada); dos no estudo, enquanto o infonnativo faria uma sntese dos prprios resultados.
2. A complexidade do contedo temtico; Cremmins (1996) explica que os resumos indicativos contm informaes sobre
3. A diversidade do contedo temtico. Por exemplo, um resumo preparado a finalidade, alcance ou metodologia, mas no sobre os resultados, concluses
para os anais de um evento talvez precise ser bastante longo se os trabalhos ou recomendaes. Por outro lado) o resumo informativo inclui informaes
apresentados abrangerem uma ampla gama de assuntos; . sobre objetivo, alcance e mtodos, mas tambm deve conter resultados, conclu-
4. A importncia do item para a instituio que elabora o resumo. Assim c01~o ses ou recomendaes. Para algumas finalidades, um bom resumo informativo
ocorre com a exaustividade da indexao, um centro de informao industnal serviria como um substituto razovel da leitura do documento.** improvvel
talvez precise redigir resum<?S mais longos dos relatrios da prpria empresa
do que de outros itens; *Alm de tudo, o campo da indeXao e recuperao de vdeo costuma empregar 'anotao' ao
5. A 'acessibilidade' do contedo temtico. Especialmente num servio de resu- invs de 'indexao', o que imperdoavelmente enganoso.
mos em forma de publicao, seria sensato fazer resumos mais completos ** Isso no est isento de perigos. Por exemplo, Haynes et ai. (1990) apresentam indcios que su-
de documentos menos acessveis fisicamente (como relatrios de circulao gerem que os mdicos s vezes tomam decises sobre o tratamento dos pacientes baseados em
leituras que no alcanam a totalidade do texto dos artigos mdicos. Esse risco agravado pelo
limitada ou trabalhos apresentados em eventos) ou intelectualmente (por
fato de estudos recentes mostrarem que os resumos nas revistas mdicas, mesmo as mais impor-
exemplo, redigidos em lnguas pouco conhecidas). tantes, tendem a ser muito deticientes (ver captulo 9).
102 INDEXAO E RESUMOS: TEORIA E PRTICA

que um resumo indicativo sirva como substituto dessa forma. Seu propsito
principal seria indicar ao leitor do resumo se seria provvel que viessem a querer
ler o original. Por razes bvias, os resumos informativos costumam ser mais
longos do que os indicativos. Tambm so mais difceis de redigir. Realmente,
r 7. RESUMOS: TIPOS E FUNES

Faz-se diferena entre servios orientados para uma disciplina e os orien-


tados para uma misso. Os primeiros buscam atender s necessidades de uma
103

disciplina (por exemplo, qumica, biologia, cincias sociais) enquanto os ltimos


procuram ir ao encontro das necessidades de determinada indstria ou grupo de
embora comumente seja possvel redigir um resumo informativo de um estudo indivduos (por exemplo, resumos para a indstria da borracha ou resumos para
experimental, talvez isso seja quase impossvel no caso de um estudo terico ou enfermeiros). A inclinao para um assunto mais relevante e vivel no caso de
um texto opinativo. Por isso, os resumos informativos acOITem com mais fieqn- servios orientados para uma misso do que para os que se orientam para uma
cia nas cincias exatas e tecnologia do que nas cincias sociais ou humanidades. disciplina, porque os interesses dos usurios dos primeiros costumam ser mais
homogneos e especializados do que os interesses dos usurios dos ltimos.
Entrevistas telefnicas realizadas em 1985 com 655 norte-americanos, selecionados por Pelo menos um estudo mostrou que bem pouca inclinao para um assunto ocOJTe
nmostragem probabilstica, produziram estes resultados: a maioria (54-56%) acha que deve em servios de resumos em formato impresso (Herner, 1959).
ser reduzida a ajuda norte-americana a Israel e ao Egito; a maioria (65%) favorvel parti- Outro tipo de resumo o resumo crtico. Trata-se, com efeito, de uma 're-
cipao norte-americana numa conferncia de paz que inclua a OLP; mais de 80% consideram
importante que os EUA mantenham relaes amistosas tanto com Israel quanto com os pases censo crtica condensada'. Aplicado a relatrios, artigos de peridicos e outros
rabes; 70% acreditam que os EUA no devem favorecer a nenhum dos lados; a maioria (55%) itens relativamente breves, o resumo crtico serve quase ao mesmo propsito de
acha que a criao de um Estado palestino essencial para a paz na regio. Os israelenses so uma recenso crtica de livro. O resumo crtico avaliador. O resumidor opina
o gmpo nacional mais conhecido e os srios o grupo menos conhecido. A situao rabe-israelense sobre a qualidade do trabalho do autor e pode at compar-lo com o de outros. Por
s superada pelo contlito na Amrica Central entre os problemas intemacionais mais srios
enfrentados pelos EUA.
exemplo, um resumo crtico do item mostrado na figura 3 mencionar as defi-
cincias da metodologia utiliZada- a maneira como se obteve a amostra da
FIGliRA 40 populao, o tamanho da amostra, a maneira com as questes foram formuladas
Resumo intbnnativo -ou comparar os resultados com os de pesquisas anteriores. Como os redatores
devem ser especialistas de fato, os resumos crticos so bastante raros.
Um mesmo resumo pode incorporar elementos indicativos e informativos Duas publicaes que anunciam a caracterstica de incluir resumos crticos
(Cremmins refere-se a esse tipo de resumo como indicativo-informativo), so JHathematica/ Reviews e Applied Alechanics Reviews (A1\1R). A figura 41
dependendo dos interesses dos leitores que se tm em mira. Por exemplo, supo- mostra um resumo crtico real reproduzido da ltima dessas publicaes. Note-
nhamos um relatrio sobre poluio atmosfrica resumido numa publicao se que o resumo assinado e combina elementos descritivos e crticos. Uma
destinada a qumicos. Grande parte do resumo, que hata dos aspectos ambientais, anlise da AMR revela, porm, que resumos verdadeiramente crticos sempre
meramente indicativa, mas uma pat1e dele ser realmente informativa (por foram muito mais a exceo do que a regra, e hoje em dia eles no aparecem
exemplo, apresentando resultados de anlises feitas em amostras da atmosfera). nessa revista, que somente se acha disponvel em formato eletrnico em linha.
Um mesmo servio de resumos em formato de publicao pode conter tanto Atualmente, os resumos aparecem fieqentemente em peridicos cientficos
resumos indicativos quanto informativos. Geralmente, contudo, os resumos junto com os m1igos a que se referem; so comumente redigidos pelos autores
indicativos so mais comuns. Fedosyuk (1978) descreve procedimentos minu- dos artigos. Em muitos casos esses resumos so reproduzidos pelos servios de
ciosos para se distinguir entre resumos indicativos e informativos, valendo-se ndices e resumos. Alguns peridicos incluem resumos em mais de uma lngua.
para isso de critrios lingsticos e at mesmo apresentando um algoritmo com Por exemplo, muitos peridicos russos e japoneses incluem resumos em ingls.
essa finalidade. Embora se trate de algo engenhoso, no se esclarece por que
algum precisaria de procedimentos formais para fazer essa distino. Finalidade dos resumos
A expresso inclinao para um assunto usada s vezes em relao aos
Poderamos mencionar muitas e diferentes finalidades dos resumos. A mais
resumos. Seu significado que o resumo deve estar 'inclinado' para os interesses
impmiante, talvez, que os resumos facilitam a seleo. Ou seja, ajudam o
dos usurios que se tm em mira. Ou seja, na redao de.resumos, bem como na
leitor a decidir se determinado item apresenta a possibilidade de satisfazer a seu
indexao, a pergunta nmteadora deve ser: "Por que nossos usurios provavel-
interesse. Desse modo, poupam tempo ao leitor, evitando, por exemplo, que ob
mente se interessaro por este item?" Os resumos preparados por uma instituio
tenha artigos que no teriam interesse para ele. Em alguns casos, tambm, um
para serem usados internamente estaro sempre inclinados para as necessidades
bom resumo informativo pode realmente substituir a leitura de um item que seja
e interesses locais. A situao um pouco mais complicada no caso de servios
de interesse para o usurio. Os resumos so particularmente teis para esclarecer
de resumos em forma de publicao.
104 INDEXAO E RESUMOS: TEORIA E PRTICA

1989. Pao, Y. C., Dept. of Eng. Mech., Uni~- of Ncbr., Lincoln,


Shy, D.S., et ai., On relatlonship between bulk modulus and rela-
tiva volume of lung durlng lnlla!lon-deflalfon maneuvers, p 136-
142, Joumal of Biomecllanica/ Ertginee611g, Transaclions oftlle
ASME v 104 n 2 (ll'lay 1982).
r 7. RESUMOS: TIPOS E FUNES

ou notificao corrente). Conforme foi mencionado anteriormente, os resumos


que acompanham artigos ou relatrios so teis para o indexador na medida em
que o ajudam a identificar, do modo mais rpido possvel, o contedo temtico
dominante do documento. Borko e Bernier (1975) sugerem que os resumos po-
105

The paper presents an equation relatng the bulk modu\us of the dem substituir o texto integral nas atividades de indexao, porm esta uma
lung to lhe relative volume during inflation and deflation. The avcr-
age bulk modulus of lhe Iung was obtained by injecting air via a
prtica nem sempre conveniente.
6-mm-i.d cannula in the ma in lo bar bronchus. ~Regionallobe" Finalmente, os resumos desempenham atualmente importante papel nos
volume changes were measurcd by roentgen-videographical!y deter-
mined placement of 25 metal markers implanted in lhe excised
sistemas de recuperao informatizados porque facilitam a identificao de itens
lower lobes of three dogs. Whole lobc volumes at various transpul- pertinentes e proporcionam acesso a itens armazenados (nos sistemas em que o
monary pressures were measured by water displacemenL Pressure
and volume measurements were used to calculate bulk modu\us
texto dos resumos annazenado em formato que se presta recuperao). Levan-
(K =ti V P/ll V). The ~most satisfactOI}' \east squares curve-ft~ of do em conta tanto a revocao quanto a preciso, foi demonstrado que os pro-
bulk modu\us {K} vs. relative volume ( VJ ~""-~ was obtained with
the equation K = CJ{I - V/ Vm"-"J". Substituting for bulk modulus
cessos automticos de recuperao baseados em resumos eram mais eficazes do
wiU1 Ute equation K = VdPJ dV, and integrating enabled computer- que aqueles baseados nos textos integrais dos documentos (Lam-Adesina e Jones,
generated pressure-volume plots. This equation provided a better
pressure-volume curve-fit than prcviously obtained, cspecially at
2001), embora ainda faltem mais evidncias acerca desse ponto.
low values of prcssurc and volume. A\so, as expccted, the bulk Hartley e Benjamin (1998) alegam que os resumos cresceram de importncia
modulus was smal!er at Jow volume, but Ute rate of change of
modulus was greater during deflation than during inllation.
ao longo dos anos na medida em que cresceu a literatura cientfica:
The authors assumed, without giving sufficientjustification, that Na realidade, a natureza dos resumos alterou-se ao longo dos anos, na medida em
the gregionallobe" (the arca bounded by the 25 markers) included
a higher density of airways than the rcst of the lobe. Using this que mais e mais artigos cientificos passaram a competir entre si para atrair a ateno
assumption, the auUtors claimcd that the modulus and rate of change dos leitores. Hoje os leitores precisam compulsar e pesquisar mais do que o faziam
of modulus were diffcrent for parenchyma tissue and the airways no passado, e o resumo evolui continuamente como um portal de acesso literatura
during both inflation and deflation. No mention, however, was madc
of paired t-tests or any other statistical tests. In fact, if they had cientfica (p. 451-452).
clone a paired t-test, they would have discovered that none of Utese
differences werc significant, even at thc 90 percent confidcnce levei. Na cincia, salientam eles, os resumos esto ficando mais extensos e mais
Other source of errors which \\'efe not addressed include: thc dif- orientados para os resultados.
ference in Ute properties o f exciscd lung and intact lung duc to
blood in the \essels, surrounding tissue,negative pressure, etc.; the Para certas finalidades, o resumo estruturado prefervel a um resumo em
effect of the markers on Ute pressure-volume relationship; the effect formato de texto narrativo. Um exemplo hipottico do 'gabarito' de um resumo
of strain ratc on the modulus oflung tissue, which is a viscoelastic
material; the time elapsed between regional volume measurement eshuturado mostrado na figura 42. O contedo temtico de que trata iJTigao.
and whole volume measurements (lliis is important for viscoelastic Neste caso, o resumidor solicitado a procurar especificamente os itens listados.
material); the difference betwcen the true regional U V; and llic
measured ti V; and the differenccs between thc mechanical proper- A elaborao do resumo consiste em colocar os 'valores' apropriados no gaba-
tics of dog and human lung tissue. rito. Quer dizer, indicam-se para cada artigo o tipo de irrigao, o tipo de solo,
Despite its limitations, the paper presents a step forward in the
understanding of mechanical properties of the \ung, and, thus, lung os produtos cultivados, as condies climticas e a localizao, sendo empre-
diseases. Therefore, it should be of benefit to researchers interestcd
in respiratory mechanics and physiology.
gados cdigos que representam os tipos de resultados obtidos. Este tipo de
D. S. Feldman, USA resumo til na compilao de manuais que sintetizam um grande nmero
de estudos realizados em determinado campo. No entanto, s daria ce110 numa
FIGURA 41
rea temtica em que os elementos essenciais permanecessem mais ou menos
Exemplo de um resumo crtico
Reprodurido de rlppli.:J,\kdu.Jml.:-' Rorious, 37, 1984. com penniss:lo da editora os mesmos entre os diferentes estudos. Zho1kova (1975) descreve como se
adotaria a anlise de facetas para criar um resumo estruturado, mas no chega
o contedo de documentos escritos em lnguas que o leitor desconhea. Janes
a convencer quanto utilidade desse mtodo.
( 1991) descobriu, o que no causou surpresa, que os resumos eram mais eficientes
Hart1ey et al. ( 1996) compararam resumos estruturados com resumos no-
do que ouhas partes do registro, como ttulos e termos de indexao, na avaliao
estruturados numa atividade de busca de informao. Observaram que os sttieitos
da relevncia de um item.
de seu experimento podiam usar os resumos estruturados de modo mais eficaz
A impresso e distribuio de resumos um meio eficaz para manter as
(isto , com maior rapidez e/ou menos erros) na localizao de respostas a con-
pessoas informadas a respeito da bibliografia recentemente publicada em seus
sultas ou na identificao de resumos que fossem pe11inentes a determinado
respectivos campos de interesse (isto , proporcionando-lhes um servio de alerta
106 INDEXAO E RESUMOS: TEORIA E PRTICA

tema. No entanto, a forma como usam o termo 'estruturado' muito diferente


r 7. RESUt-..ms: TIPOS E FUNES
107

da minha. Para eles, um resumo estruturado simplesmente o que traz entretftu-


los (histrico, objetivo, mtodos, resultados, concluses) para facilitar a rpida
visualizao do texto (e do modo como hoje usado em muitas revistas mdi-
cas), enquanto eu uso o termo para designar o resumo redigido em formato
no-narrativo. O tipo de resumo estruturado da figura 42 poderia concebivel-
mente ser produzido com o uso de um programa de computador projetado para
identificar e extrair do texto os valores apropriados (ver os comentrios sobre
o mtodo de preenchimento de padro para extrao e sumarizao de textos
nos captulos 14 e 15. Em alguns lugares, o tipo de resumo analisado por Hartley
et ai. foi simplesmente designado como 'resumo mais informativo' (Haynes et
ai., 1990; Haynes, 1993), e acredito ser esta uma melhor denominao. Este
tipo de resumo estrutmado ser visto com mais vagar no prximo captulo.

TIPO DE TIPO DE
IRRIGAO SOLO PRODUTOS
CONDIES
CLIMTICAS LUGAR RESULTADOS
.,

FIGURA 42
Gabarito para um resumo estruturado

Um tipo totalmente diferente de resumo estruturado, em formato de diagra-


ma, foi proposto por Broer ( 1971 ). Como mostra o exemplo inteiramente fict-
cio da figura 43, o resumo parece um diagrama em bloco, ou fluxograma, em
que blocos interconectados de palavras, com ttulos padronizados, so usados FIGURA 43
para expressar a essncia do artigo. Broer diz que essa forma de resumo mais Resumo em 'diagrama de bloco' de um artigo hipottico junto com
fcil de examinar e compreender, e mostra um resumo convencional para com- um resumo 'convencional' para comparao
Reproduzido com pennisso de J.W. Broer. "Abmacts io1 b!od: diagrnm form", n~1:. Ji""".I(Jt:/illll., ouEngincwing
parao (figura 43). uma proposta curiosa, mas nunca se popularizou. Uma JJ'rilil!g ''11<1.\i~.:d (@ ]971, lmtitute ofE!ecuical and Ele.:.trooucs Engmeers)
desvantagem, que o espao ocupado na pgina impressa, no existiria na
visualizao em linha, de modo que talvez a internet possa reacender o interesse Este tipo de sumarizao no um resumo no sentido convencional; no entanto,
por esse formato. as literaturas concisas ce11amente guardam uma relao com os resumos. Apre-
Bernier e Yerkey(l979) descreveram e exemplificaram o emprego de enun- sentam muitas aplicaes potenciais. Por exemplo, seria poss.vel produ~ir um
ciados altamente condensados, cada um sintetizando o 'ponto' mais importante manual que condensasse o que se conhece acerca de det~nmnado fenon~eno
de uma publicao. Referem-se a esses enunciados genericamente como 'litera- (por exemplo, uma doena) na forma de uma srie de em~ncr.ado.s u.ltra~oncrsos,
turas concisas' e sua forma mais condensada como 'literaturas ultraconcisas,. sendo cada um desses enunciados acoplado a uma referencm btbhografica que
Uma variedade a concluso ultraconcisa, um enunciado bastante sucinto so- identificaria a fonte de onde foi extrado.
bre concluso mais importante alcanada por uma pesquisa. Por exemplo:
A lingstica terica no teve qualquer impacto importante na cincia da informao
108
Resumos modulares
Em 1964, Herner and Company realizou um estudo para a National Science
Foundation sobre a viabilidade de 'anlises de contedo modulares' (Lancaster
INDEXAO E RESUMOS: TEORIA E PRTJCA
r 7. RESUMOS: TIPOS E FUNES

Pbyfica/ mui Mathematical SyJtemJ


Axisymmetrlc and Blunt Body Systems
Re-(!ntry Bc-dles
Thermodynama
CoupiHi Reactions
CarbonSitica Reaclioos
109

et al., 1965). Elas continham dois componentes: resumos modulares e entradas


de ndice modulares. Nas figuras 44-45 apresenta-se uma amostra disso.
Cita1Um Atmospheric Enliy Phenolics, Fibarglas Reinforeed
1<l"Rr.$Rii~. R L. 11\ ~Khtl, I( ~~1 for l~-! ab!ltic~ d f~r~u--tnfe<cd p~o~Pic min. knuic!~ t..sM,l! d krO<ilJ~tics Reentry Conditions
lfld Al!to.'\O<Jt:s hJINI. '<OI.l,KQ_ S. AuilJ:Itl%3. w. lllOHS09.
G!ass Fibers
Space Flight Rocket and Mlssife Materiais
Annolativn Ablat!on Materiais
A l~=licl1 mOO~I is dmlw.d. lo< 1 chmit>g H>d mll~l c~sit matu'al, co.,--::.;.,;,.l g!aut at>~Jty~ ar.d tht uur hJII Reinforced PJaslics
moi!<,, lhss ch!micllruct~ 1ffects Therma( (Re-enlry) Shie!ds
Jndii:aJilr
Mrm Tramfer Phenolic Resin

Tr-e miot>lu 111-0c'llo~ >rplh tr~ alih!>~n oi 1 1)-p>c.l ru:n-glus SJll<m ve uunir.1.t ~\.C ino:l.:lt oau <!til!~ 1M i>'lli:: Ablation, Analytical
~1rol)1is, no,. ;, Nlh lhe reodi~i ar.:! ,..,<HIKl~t ~1<11 elthe mil. mm k>n M~ hul all!e<~l~~ due to <~tmicol rt<~o:I9<\ Ab!a!fon, Charring
mn "i!cl;,;., e'f!(tl, >lld t~rnf t~t...n 11>! OliH~II ~fUiore aM lhe anoiMd th~<l re~tiert The mll~maticat dou!~ Ablatron, Melting
mut is tr:<ed ard u., wo'4-Iic<ls otililed are di=s~d. Plllrnelrie eank.tloor.sue rnoo:le.
Ab!ation oi Glasses
Meam and Metbodf
Itifonna/t' Chemical Reaction Effects Parametric Analysis
f"trQiym, l".tltiog, "" tl>!m.icd rntt;,.., re ~~~~~ nlo l<tO'.~I ~~ lhis ti'.(Cr/ ai tN: ~lt"n Ql ~ero!<:Aib~tgiJS.. 11 PJS!Lllates
Thermal Thlckness
ur t,i,,, isot~er/1\ll, scrl~e re~tfl~ tcr.t. 10hm lhe t~ar lar" (u<b.lr.J le<med doriJ,g the ~)loi)Sis oi tl>e os~ar.;c bi'>$!f Reaction Zone
rtoei! th!m;.:altl ,.;Ih lht ~ten s~.ic1. Otl!u s.s,.mptilr.s m cenrer.ti.;-r.!l Reaction Thickness
~!.:l.'f!l>ens for lyp'rtl tlteM r e e~tq eMditi.>ns sM10ed hlt!e I!/11?HiMI rQP irl ti>! ruct~ w.e, ~% rnuim.m u>:l usJIIJ Gasification RaUo
le11 t~ln 1%. Oe~lh oi 11\.e w.e ~~~ Ulr~e occlm Q! tr.3irit.~e ten thll\ \l'.e t~umal thic~r.us. Tt-t ""'!Kiirg ~ff irl 1~-t
mtlt IQM IMgrd lte>'ll 4Q-.ro;(. 31 ~ l~rw:IIM OI lhe pos!ble rt:et>J~ eotN'pf le>et 1!-o~!>!l, rr~re thta S'l% oi I~! m~teti.t
reK~_.r.g 11\e rudOc>~ lo~ 1011 allected At lhe U!*CI!d terr~eraturn oi U00-2(QJ C. tte IM('()' aw.,ed t~e reacro~
Si0,+3C-.S<C+2UI
hrtiu H~ti!N~I~ ~>4 )itlded tP>t ruthl~ line!ics_ Sigo;fieaol dfects, ~p to U% ir.::tUI!, 11n li>! :ottat;, 1ate ap>'!'3ad ef>l1
Autlxm Ajjiliatiom
UI~ 1~!1 l!;)t[>O~ratel C~.lnfol lhe readil~ ent!uTpy b11 llclcJ "' !ht~t th.!oged t~! lbht"n rale by !UI th 10,-,_ 1'11-.eo Rosensweig, R. E. Massachuselts lnstitute oi Techno!ogy
c~md "it~ 1 ~u~ re entrr I:Mic~ 1111. t~e ve ir.1n y this theQifl'tll upe.rted to te 33% i11 defect. Beecher, N. National Research Corpora!lon
Cn"ikal
Th;s theol')' ulellds tllt clm> 10or~ oi 8{1!;1 alld Mms tA...:~herett Ruwcl\ Lab, Res_ R!pt J3. Ncf. 1~58) 011 a~lali:m e! FIGURA 45
p<..re giU.:~!l_ n~1 il trurs lhe prOOiun u t~!ICer~Joi cut.ncaoh.-niful!d gilSI raiP>tr thM,"' is ll'Nf! u1~11. t chJr~IJ!I, In.
lhe crJJ t1)!l".plfi-IOI'I gr.en t:-tt~un t!\t t~ol')' lod eperime"tal ~liJ. nml<.g :la% ullderp!!6(l~n ty the I~!CI')', 1 tl>:rwilt Entradas de ndices modulares
mcr IOiiJiil 1011 r.ot ht1u6111. ~~;..g !Ali~. Q.Jltl~ Aog. 1$S!. W 2312141 a"<:l S.:lli (Goet.t fl!ctrO: Co. !\!SVOI. Rept
R~SS0-101. My.I~S. AAS J;;t, N~~t,l~l, ~- 917-9ll) ~ue loe!ted ,;,~, p-rolll!ms.

o com a meticulosidade de resumos preparados por especialistas. Seu formato


FIGURA 44 e tratamento padronizados tambm reduziriam o processamento repetitivo e
Resumos modulares acelerariam o fluxo de trabalho nos servios de resumos beneficirios.
As entradas de ndices modulares sugeriam termos descritivos, extrados de
Os resumos modulares destinavam-se a ser descries completas de conte- vocabulrios de indexao representativos, que poderiam ser utilizados com-
do de documentos correntes. Cada um possua cinco pmtes: citao, anotao, pletos, com aperfeioamentos ou acrscimos, para indexar o resumo oriundo do
resumo indicativo, resumo informativo e resumo crtico. O conjunto fora plane- pacote modular. Os vocabulrios de indexao representativos, utilizados como
jado de modo que um servio de resumos podia process-lo para adapt-lo a fontes para as entradas do ndice modular, seriam extrados dos ndices correntes
seus prprios requisitos com o mnimo de esforo: qualquer resumo seria utili- ou de listas autorizadas dos servios de resumos e indexao participantes, refle-
zado na ntegra, ou os mdulos teriam o texto reorganizado para formar, por tindo assim os estilos e polticas de indexao desses servios.
exemplo, um resumo parcialmente indicativo, parcialmente informativo, ou um Testou-se essa proposta no campo da transferncia de calor, pois, sendo este
resumo parcialmente informativo, parcialmente crtico. assunto altamente interdisciplinar, revestia-se de interesse potencial para inme-
A finalidade primordial dos resumos modulares era eliminar a duplicao e ros servios de resumos. Conjuntos de resumos/entradas de ndice foram prepa-
o desperdcio de esforo intelectual envolvidos na elaborao, de forma inde- rados e submetidos apreciao de diversos servios para que fossem processa-
pendente, de resumos dos mesmos documentos por vrios servios, sem qual- dos rotineiramente. Esses servios preencheram questionrios de avaliao da
quer inteno de impingir resumos 'padronizados' a servios cujas exigncias proposta. A concluso foi que era possvel produzir uma anlise de contedo,
variam notavelmente quanto forma e inclinao para um assunto. Tanto os em forma modular, que seria adotada como entrada por vrios servios de
resumos quanto as entradas de ndice eram preparados por especialistas no assun- resumos, mas que a maioria deles relutava em abrir mo de sua autonomia a fim
to, e a inteno era de que eles conciliariam os requisitos de rapidez de publica- de participar do tipo de centro referencial implcito no mtodo modular.
110 JNDEXAO E RESUMOS: TEORIA E PRTICA
7. RESUMOS: TIPOS E FUNES IIi

SUMMARY BA 32: 18857, 1958


1. A method is described for the determination of strontium and barium 18857. SOIVDEN, ELEANOR M., and B. R. STITCH. (Med. Res. Council
in human bane by radioactivation analysis. Radiobiol. Res.Unit, Atomic Energy Res.Establishment, Harwell, Didcot,
2. Results of analyses of 35 bane samples, from normal per sons of both Berks, Eng.) Trace elements in human tissue. 2. Estimation of the
sexes and different ages, are given. The concentrations of barium and concentrations of stable strontium and barium in human bone. Biochem.
strontium were found to be of the arder of 7 and 100 \lg.jg. of ashed Jour. 67(1): 104-109. 1957. -- Amethod is described forthe determination
tissue respectively. of strontium and barium in human bane by radioactivation analysis.
3. No relationship between sex or disease of individuais with strontium Results of analyses of 35 bone samples, from normal persons of both
and barium concentration was noted. The concentration of strontium in sexes and different ages, are given. The concentrations ofBa and Sr were
the age group 0-13 years \Vas significantly lower than that in the group ofthe order of7 and 100 ~g/g of ashed tis sue respectively. No relationship
19-74 years. between sex or disease o f individuals with Sr and Ba concentration was
4. No significant difference was found in the concentrations of strontium noted. The concentration of Sr in the age group 1-13 years was significantly
and barium in the various banes of those individuais examined. lower than that in the group 19-74 years. No significant difference was
5. Results obtained in this survey are discussed and compared with found in the concentrations o f Sr and Ba in the various banes of those
those of other workers. individuals exarnined. Results obtained in this survey are discussed and
compared with those of other workers.-Auth. summ.
/00193/
/METHODfDETERM/STRONTIUMfBONEfHUMANSfRADIOACTNATION CA 51: 18184, 1957
ANALYSIS/ li. Estimation of the concentrations of stable strontium and bmium in
/00193/ human bane. Eleanor M. Sowden and S. R. Stitch. lbid. 104-9.~A method
/NO RELAT BETW /STRONTIUM/HUMANS/ AND/SEX/OR/DISEASE/ based on the technique afHarrison and Raymond {C.A. 49, 12571g) has
/00193/ been used for the detn. of Sr and Ba in human bone by radioactivation
/NO RELAT BETW fBARIUMfHUMANS/ AND/SEX/OR/DISEASE/ analysis. Results of analyses of 35 bane samples, from normal persons of
/00193/ both sexcs and different ages, me given. The concns. of Ba and Sr were
/METHOD/DETERM/BARIUM/BONE/HUMANS/RADIOACTIVATION found to be of the arder of 7 and 100 )-lg/g of ashed tissue, resp. No
ANALYSIS/ relation between sex or disease of individuais age group 0-13 yrs, was
/00193/ significantly lower than in the group 19-74 yrs. No significant difference
/DETERM/STRONT!UM/BONE/HUMANS/RADIOACTNATION ANALYSIS/ was found in the concns. of Sr and Ba in the various bones of those
7 UG PER G ASHED TISSUE/ individuais examined. The results obtained in this survey me discussed
/00193/ and compared with those of other workers.
/DETERM/BARIUMfBONE/HUMANSfRADIOACTIVATION ANALYSIS/ 100 Roland F. Beers, Jr.
UG PER G ASHED TISSUE/
/00193/ FIGURA 46, PARTE 2
/INCR/STRONT!UM/HUMANS/ ADULTS/ AGE I 9~74/COMP W /CHILD~
REN/0~13/
IVIinirresumos
O termo 'minirresumo' bastante impreciso. Significaria simplesmente um
FIGURA 46, PARTE 1 resumo curto. Da forma como foi empregado por Lunin (1967), no entanto, o
Comparao de minirresumo, resumo de autor c resumos publicados em Chemical termo refere-se a um resumo altamente estruturado destinado essencialmente a
Abstracts e Biological Abstracts (ver a parte 2 da tigura) buscas feitas em computador. Trata-se, com efeito, de um tipo de cruzamento
Reproduzido de Lunin ( 1967) com pem1isso da Dre.~el Uni1er~ity. O resumo do HirH..ll,miwl.fmrrmrl reproduzido wm entre um resumo e uma entrada de ndice, e Lunin o define comoum "ndice-
penniss!o da Biochemical Soety, Portland Sciemit\c Prcss; o resumo do Hiofo;.:iwl Ahllll<l,-, co~1 a pemli~>o de IHml~: e o
resun10 do Ch~mi(:(J/ Ahtruu,, com permi>so do ChemicJl Abstr~cts Se~> ice_ Not<:Se {jUe um resumo segue muito de perto o resumo legvel por computador". Os termos utilizados no resumo so extrados
resumo de autor e o outro simplesm~nte uma abre1'i?.;to dele.
de um vocabulrio controlado e reunidos numa seqncia especificada. Por
Craven (1987) analisa um mtodo modular bastante diferente. Neste caso, exemplo, o enunciado "Existe um decrscimo da quantidade de zinco no sangue
um analista marca e codifica um texto para formar uma 'representao intermedi- de seres humanos com cirrose do fgado" seria escrito assim:
ria' que pode ento ser usada, de modo semi-automtico, para produzir resumos /DECR/ZINCO/SANGUE/HUMANOS/CIRROSE/FGADO
talhados s necessidades de diferentes pblicos. Observe-se que o resumidor procura ater-se a uma seqncia de termos to
prxima quanto possvel da estrutura normal dri frase. O contedo de um doeu-
112 INDEXAO E RESUMOS: TEORIA E PRTICA

menta pode ser descrito com algum detalhe por meio do emprego de uma srie
desses enunciados esquemticos. Embora tenham sido imaginados basicamente
CAPTULO 8
para facilitar as buscas por computador, os minirresumos de Lunin tambm
podem fazer sentido para o leitor inteligente. A figura 46, reproduzida do trabalho
de Lunin, compara os resultados da tcnica de minirresumos com resumos do A redao do resumo
Biological Abstracts e do Chemica/ Abstracts e com o resumo de autor.

Resumos te1egoficos
A denominao 'resumo telegrfico' tambm imprecisa. Ela implica uma
representao de documento que apresentada de modo muito lacnico: no
com fiases completas e semelhante a um telegrama. Na realidade, seria apenas
A ssim como acontece com a indexao, s se aprende a ser um bom resu-
nidor com a prtica. O mximo que se pode fazer num livro como este
oferecer algumas diretrizes gerais.
uma cadeia de termos desprovida de sintaxe. Os minirresumos de Lunin so de E tambm como acontece na indexao, o bom resumidor aprender a ler/
estilo telegrfico. A expresso 'resumo telegrfico' foi empregada para designar passar os olhos num documento para identificar rapidamente os pontos impor-
um componente essenciai do primitivo sistema de recuperao computadorizado tantes. Crenunins ( 1996) trata, com detalhes, de como ler um artigo para captar
desenvolvido na Western Reserve University (ver captulo 11). os pontos mais importantes do modo mais eficiente possvel e apresenta algu-
mas regras com esta finalidade. Em grande parte isso evidente por si mesmo e,
de qualquer modo, indivduos diferentes preferem tcnicas diferentes-para pe-
netrar no mago de um texto.
Em suma, as caractersticas de um bom resumo so brevidade, exatido e
clareza. O resumidor deve evitar redundncia. O resumo deve, principalmente,
ser estruturado a partir das informaes contidas no tftulo do item e no repeti-
las. Por exemplo, o ttulo do artigo usado como exemplo nas figuras 3, 39 e 40
"Pesquisa nacional de opinio pblica sobre as atitudes norte-americanas acer-
ca do Oriente Mdio". A primeira linha de um resumo publicado desse a11igo diz:
Os resultados de uma pesquisa realizada em fevereiro de 1985 sobre as atitudes pblicas nor-
te-americanas acerca do Oriente Mdio.
claro que isso pouco acrescenta ao ttulo, exceto a data. Note-se como os resu-
mos das ilustraes 3, 39 e 40 partem do ttulo sem repeti-lo.
O resumidor tambm deve omitir informaes que o leitor provavelmente j
conhea ou no lhe interessem diretamente. Isso inclui informaes sobre ante-
cedentes ou fatos de teor histrico, como, por exemplo, o motivo que levou
realizao do estudo ou dados sobre a experincia da empresa que o executa.
Borko e Bernier (1975) salientam que cabe ao resumidor indicar o que o autor
fez e no o que tentou fazer, mas no conseguiu ou o que pretende fazer no fltturo.
Quanto menor, melhor ser o resumo, desde que o sentido permanea claro
e no se sacrifique a exatido. Palavras desnecessrias como 'o autor' ou 'o arti-
go' so omitidas. Por exemplo, corta-se 'Este m1igo examina ... ' para 'Exami-
na ... '. Abreviaturas e siglas convencionais so usadas sempre que for provvel
que os leitores as conheam (por exemplo, OLP). Em outros casos, pode-se usar
uma abreviatura desde que seu significado seja explicitado. Por exemplo:
[ ... ]no quadro da Cooperao Poltica Europia (CPE). As realizaes[ ... ] por parte da CPE [ ... ]
Os resumos em alguns campos cientficos chegam a empregar muitas abrevia-
114 INDEXAO E RESUMOS: TEORIA E PR).T!CA S. A REDAAO DO RESUMO I 15
turas. Apesar de economizar espao, isso diminui a inteligibilidade e, real- ?
reduzido na figura 47. Em poucos breves e:m~1cia~os sintetiza as ~egras
mente, exige mais tempo do leitor. A despeito da necessidade de brevidade, pd das pelo centro sobre o que inclmr, o que nao mclmr, qual a extensao que
05 a ata
ve ter e qual o tipo de .termmologm a ser a data do. U ma expostao
-
resumos devem ser auto-suficientes; no se lograr um dos principais objetivos 0 resun10 de .
do resumo se o leitor tiver de consultar o original para entender o resumo! maJs completa mas tambm. conctsa ' encontra-se
. em relatrto de Payne et ai.
melhor evitar o jargo. As pala:vras de um jargo podem significar coisas (1962), e reproduzida no apndice I deste hvro.
diferentes para grupos diferentes de leitores e no ser compreendidas de ma-
neira alguma por certas pessoas. ESQUEMA
Alguns resumidores acham que devem mudar as palavras usadas pelo autor. Sucintamente:
Ainda que a parfl'ase seja freqUentemente necessria para se obter brevidade 1. Sempre um resumo informativo, se possvel
2. 200-250 palavrns
nada se tem a ganhar, na busca de originalidade, com a mudana das palavra~ 3. A mesma terminologia tcnica do documento
empregadas pelo autor. Na realidade, fcil distorcer o significado do original 4. Contedo
ao procurar, deliberadamente, por motivos estilsticos, encontrar expresses n. Objetivos ou tlnnlidade da pesquisa
sucedneas. Este aspecto vigorosamente enfatizado por Collison ( 1971): b. Mtodos da pesquisa
c. Resultados da pesquisa
importante que o resumidor empregue, tanto quanto possvel, o vocabulrio do d. Validade dos resultados
autor; a partlase perigosa e pode conduzir o leitor a linhas de raciocnio que no e. Concluses
eram aquelas pretendidas pelo autor (p. 11). f. Aplicaes
5. Aloarismos para nmeros, quando possvel
No entanto, Craven (1990) constatou que os resumos pouco empregam "se- 6. Fr:ses em lugar de oraes, pnlavras em lugar de frases, qunndo
qncias literais de palavras dos textos completos'', embora seu estudo fosse possvel
circunscrito a uma rea temtica muito restrita. O resumo algo utilitrio e no 7. Nenhum smbolo ou carter no-onvencional ou raro
precisa ser uma obra de arte, embora Cremmins ( 1982) acredite que os resumos 8. Nenhuma abreviatura incomum
9. Nenhuma equao, nota de rodap, preliminares
devam ter 'elegncia' alm de clareza e preciso.
1O. Nenhum dado de catalogao descritiva
A norma norte-americana sobre resumos (Guide/inesjr abstracts, 1997) 11. Classificao de-sigilo
especifica que os verbos devem ser usados na voz ativa (por exemplo, 'Os indi- 12. Controles de disseminao, se houver
cadores de funo diminuem a revocao' e no 'A revocao diminuda pe- 13. Revise-o.

los indicadores de funo') sempre que possvel, mas que a passiva pode ser
FIGURA 47
utilizada para 'enunciados indicativos e mesmo para enunciados informativos
Princpios para redao de resumos, do Defense Documentation Center ( 1968)
em que se deva destacar o receptor da ao'.* Esta restrio muito imprecisa e Reproduzidos com permisso do Defeme Tech~i~a! lnfom1iltio11 Center
melhor esquec-la: na maioria dos casos o tempo verbal preferido ser bvio
por razes de estilo. Borko e Chatman (1963) e Weil (1970) sugerem que se em- Contedo e formato
preguem os verbos no pretrito para a descrio de processos e condies
O que se deve incluir num resumo depende muito, claro, do tipo de publi-
experimentais e no presente para concluses resultantes das experincias. O
cao que se tem em mira. Um longo resumo indicativo de um ~ipo de relatr?
que lgico: as atividades relatadas por um autor so coisas do passado,
de pesquisa mencionaria os objetivos da pesquisa, os procedimentos experi-
enquanto os resultados e as concluses ainda pe11encem ao presente. Borko e
mentais e de outra natureza adotados, os tipos de resultados obtidos (um resumo
Bernier ( 1975) so mais explcitos ao recomendar a voz ativa e o pretrito para
informativo conteria os prprios resultados, pelo menos de forma condensada),
resumos informativos, e a voz passiva e o presente para resumos indicativos.
e as concluses do autor quanto importncia dos resultados. O tratamento a
At hoje foram elaborados muitos conjuntos de regras sobre redao de
ser dado a um artigo de histria, por outro lado, seria bem diferente. O resumo,
resumos. Talvez o conjunto mais conciso de princpios destinados elaborao
por exemplo, daria nfase tese ou concluses do autor, to~nando o cuid~do d;
de resumos seja o produzido pelo Defense Documentation Center (1968), re-
mencionar os perodos, localidades geogrficas e personalidades envolvidos.
Em reas temticas especializadas, o resumidor pode receber instrues
*A norma brasileira sobre resumos- NBR 6028, da Associao Brasileira de Normas Tcnicns
(ABNT)- tmnbm preceitua o emprego da voz ntiva, sem t~1zer meno ao uso da voz passiva * Tibbo (1992) mostrou que as normas publicadas relativas redao de resumos so muito
(N.T.) mais pertinentes s cincias do que s humnnidades.
116 INDEXAO E RESW.mS: TEORIA E PRTICA 8. A REDAO DO RESUMO 117
sobre certas coisas a serem procuradas nos artigos e destac-las com clareza nos conhecer os resultados em que se basearam. O desenvolvimento das informaes
resumos. Isso pode incluir itens to diversos quanto dosagem de um medica- vir em ltimo lugar. Verificou-se ser desnecessrio rotular cada parte do resumo,
mento, condies climticas, idade dos indivduos, tipos de solo, equaes em- como, por exemplo, concluses, resultados ou mtodos; normalmente os leitores
pregadas ou o elemento componente de uma liga. Os resumos costumam ser de sabem qual a parte que esto lendo. A ordenao das partes do corpo do resumo
feita com a mesma finalidade com que se organizam as partes de uma matria de
redao mais fcil quando o contedo temtico trata de objetos concretos, e so
jornal- para comunicar a. informao de modo mais rpido. . . . , .
de redao mais difcil quanto mais abstrato ou nebuloso for o assunto.
No convm abrir pargrafos. O resumo breve; deve expmmr um raCIOCIIliO
A maioria dos resumos apresentada no formato convencional de refern- homogneo e ser redigido como um nico pargrafo (p. 69).
cias bibliogrficas seguidas do texto do resumo. Em algumas publicaes, no
entanto, o resumo precede a referncia bibliogrfica, e sua primeira linha real- De fato, a tendncia recente tem sido no sentido de dividir os resumos em
ada de alguma forma, como no exemplo seguinte: pedaos menores mediante a abertura de pargrafos e at ~ne~mo o uso d.e
entrettulos. Isso tem sido verificado principalmente em pendtcos de medi-
A MIGRAO DE MO-DE-OBRA DE MOAMBIQUE PARA AS MINAS DA FRICA
DO SUL continua sendo um elemento importante nas relaes econmicas entre estes cina. Um exemplo, da prpria literatura de cincia da informao, e que estuda
pases .. esta mesma situao, mostrado na figura 48. Esse tipo de resumo passou a ser
Brockmann, G. Migrant labour a.nd foreign policy: the case of Mozambique. Jouma! of conhecido como 'resumo estruturado', embora a forma como esta expresso
Peace Research, 22, l985, 335-344. seja a empregada seja bastante diferente da forma como a utilizo.
Esta uma forma de apresentao mais atraente, muito parecida com o cabea- Curiosamente, desde 1988, provvel encontrar na literatura mdica um
lho de ti ma matria de jornal, e que pode captar a ateno do leitor sem grande nmero maior de artigos sobre 'resumos' do que na literatura de cincia da
esforo. \V e i! et ai. (1963) referem-se a isso como resumo 'orientado para o lei- informao. Resumos 'estruturados' de artigos mdicos foram publicados pela
tor', resumo 'de tpico flasal em primeiro lugar' ou resumo 'orientado para primeira vez na revista Annals of Internallvledicine, que solicitava aos autores
resultado' (embora o ttulo no tenha de ser necessariamente relacionado aos que preparassem os resumos conforme um formato que lhes era prescrito, tendo
resultados). Se for adequado, o ttulo do miigo poder transformar-se nesse sido definidas regras bastante apuradas para sua redao (ver, por exemplo,
cabealho, vindo em seguida um tpico frasal que o desenvolva. Haynes et ai., 1990). A figura 49 contm uma sntese do tipo de informao a
Considera-se um resumo completo como sendo composto de trs partes: a ser includa, mas as instrues aos autores so muito mais detalhadas.
referncia, que identifica o item resumido; o corpo do resumo (o texto); e a No foi sem polmica que os resumos estruturados foram introduzidos nos
assinatura. Este ltimo elemento a atribuio da origem do resumo: as iniciais peridicos de medicina. Haynes et ai. ( 1990) sugerem que a formatao muito
do resumidor ou a indicao de que o resumo foi elaborado pelo autor do item, rgida pode estimular alguns autores a reivindicar mais do que seria cabvel. Por
de que se trata de um resumo modificado de autor, ou deriva de uma fonte exemplo, se houver um entrettulo mtodo ou delineamento experimental, para
diversa, como, por exemplo, outro servio de resumos. prender a ateno do leitor, isso pode levar alguns a alardear um enfoque mais
Jvfuitos resumos parecem situar-se na faixa de 100-250 palavras, mas, como rigoroso do que o que seria realmente justificvel.
se disse antes, natural que a extenso varie de acordo com certos fatores, como Froom e Froom (1993a,b) mostraram que os resumos estruturados dos
o tamanho do prprio documento, o alcance de seu contedo temtico, a im- Annals oflnterna/ Aledicine nem semprecontinham todas as informaes exi-
portncia que lhe atribuda, s.ua disponibilidade fsica e acessibilidade inte- gidas nas instrues para os autores, mesmo quando as informaes solicitadas
lectual (por exemplo, itens de difcil localizao, como trabalhos apresentados estavam presentes no prprio artigo. Haynes ( 1993) critica esse estudo, mas sua
em eventos, ou em lnguas pouco conhecidas, seriam resumidos com mais crtica no convincente. Taddio et ai. (1994), baseando-se em estudo mais am-
detalhes do que outros itens). Borko e Bernier (1975) sugerem que os resumos plo, cobrindo 300 resumos extrados de trs peridicos, verificou que os resu-
da literatura cientfica deveriam ter comumente entre um dcimo e um vigsimo mos estruturados apresentavam maior probabilidade de conter informaes
da extenso do original, embora Resnikoff e Dolby ( 1972) indiquem que um mais completas de importncia para a pesquisa do que os resumos no-
triosimo talvez seja mais comum. estruturados. Os aspectos sobre avaliao sero tratados no prximo captulo.
"Borko e Bernier ( 1975) nos do um conselho til para a seqncia do contedo: Mesmo que os resumos estruturados desse tipo possam ter seus mritos,
muitas vezes suas pretenses so exageradas. Por exemplo, Haynes et al.
O corpo do resumo pode ser ordenado de modo a poupar o tempo do leitor. A colo-
( 1990) alegam que eles "podem facilitar a avaliao pelos pares antes da publi-
cao das concluses em primeiro lugar satisfz ao leitor e poder dispens-lo .de
continuar a leitura. Ele pode aceitar ou rejeitar as concluses sem que prec1se
cao, ajudar os leitores que exercem a clnica a encontrar artigos que sejam
tanto cientificamente corretos quanto aplicveis prtica profissional, alm de
INDEXAO E RESUMOS: TEORIA E PRTICA
8. A REDAO DO RESUMO 119
118
pennttlr buscas bibliogrficas informatizadas mais precisas", embora nem Artigos originais
todas essas alegaes sejam documentadas. I. Objetivo: a(s) questo(es) exata(s) abordada(s) pelo artigo
2. Delineamento experimental: o delineamento bsico do estudo
3. Ambiente: a localizao e o nvel da assistncia clnica
RESU~IO 4. Pacientes ou participantes: o modo de seleo e o nmero de pacientes ou partici-
ANTECEDENTES: Os resumos estruturados, que, conto este, contem v_rios entret- pantes que iniciaram c chegaram ao tim do estudo
tulos, substituram os resumos tradicionais na maioria dos peridicos m~dt_co_s. EslU_dos 5. Intervenes: o tratamento ou interveno exata, se houve algum
de avaliao mostraram que esses resumos normalmente oferecem ma~s mtorma?es, 6. Principais medidas de resultado: a medida fundamental de resultado do estudo pla-
so de melhor qualidade, facilitam a avaliao pelos pares e, em geral, sao bem-acet~os. nejada antes de iniciada a coleta de dados
OBJETIVO: O objetivo dos estudos aqui reportados foi investigar uma outra posSI\'~1 7. Resultados: os principais achados
vantngem dos resumos estruturados, a saber, se neles as buscas so ou no so ma1s 8. Concluses: as principais' concluses inclusive aplicaes clnicas diretas.
fceis de executar. Artigos de rcYisno
J\'ITODO: So relatados dois estudos. No estudo {,efetuado numa base de dad?~ ele- I. Finalidade: o objetivo fundamental do artigo de reviso
trnica solicitou-se a 52 leitores que encontrassem as respostas a duas perg.untas te itas a 2. Fontes de dados: um apanhado sucinto dns fontes dos dados
cada u;n de oito resumos em um formato (digamos, tradicional) segmdas de duas 3. Seleo dos estudos: o nmero de estudos selecionados pam a reviso e como foram
questes para cada um de oito resumos compostos no outro formato. Foram auto- selecionados
maticamente registrados os dados de tempo e erros. No estudo 2, efetuado numa base de 4. Extrao dos dados: regras para o resumo dos dados e como foram aplicadas
dados impressa, solicitou-se a 56 leitores que encontrassem cinco resumos que rela- 5. Resultados da sntese de dados: os mtodos de sntese de dados e princip<~is resultados
tassem determinado tipo de estudo (por exemplo, estudos com e~colares e testes de 6. Concluses: concluses principais, inclusive aplicaes potenciais e necessida-
leitura) e depois achassem n1ais cinco outros que relatassem outro tipO de estudo. Alm de de pesquisas adicionais
disso, a ordem e apresentao do formato !Oram compensadas. Os dados de tempo e erro
foram registrados manualmente. . . .
RESULTADOS: No estudo I, os participantes tiveram desempenho sigmflctlttvamente FIGURA 49
mais rpido e cometeram significativamente menos erros com os resumos estn~t~trados. Informaes essenciais de que necessitam os clnicos para avaliar a relevncia e a
Houve, contudo, alguns inexplicveis efeitos da prlica ..No .es.tudo 2, os parttctp~nt~s qualidade de artigos e, portanto, para sua incluso em resumos estruturados
novamente tiveram desempenho significativamente ma1s raptdo e cometeram siglll- Reproduzido de Haynes et ai. (1990) com pem1iss:!o d05 riml<li rif l!ilcrll<ll ,\f,:did!l~

ticativamente menos erros com os resumos estruturados. No estudo 2, cont~do,. houve


efeitos de transferncia assimtricos: participantes que responderm~1. pn~leiro ~os Uma das objees aos resumos estruturados, expressa por editores de peri-
resumos estruturados responderam mais rapidamente aos resumos tradJCionms se~u~n dicos, que ocupam mais espao. Essa questo foi estudada por Hartley (2002).
tes do que 0 tizcram os participantes que responderam primeiro aos resumos tradiCIO-
Ele concluiu que os resumos estruturados realmente ocupam mais espao (nor-
nais. 1
CONCLUSES: Em geral, os resultados, apesar de certas ressalvas, ap 6 wm a upotese mahnente seu tamanho 2lo/o (s vezes mais) maior do que os resumos tra-
de que mais fcil para os leitores t:1zer buscns em resumos estmturados do que em dicionais), porm isso somente afetaria aquelas revistas (relativamente raras)
resumos tradicionais. em que os artigos se sucedem um em seguida ao outro e no os peridicos em
que cada artigo abre uma nova pgina.
FIGURA 48
Os tipos de erros mais evidentes que ocorrem na indexao de assuntos
Exemplo de resumo altamente formatado . . ..
Reproduzido de Hart1ey et ai. { 1996) (0111 pem1iss.'io do ./rlllllltJI rif lnfnnmfllfl/1,\ct~rK-t
tambm ocorrem na redao de resumos: aspectos que deveriam ser includos
no o so, e outros que so includos ficariam melhor se fossem omitidos. Tam-
interessante que, quase na mesma poca em que a literatura '.11,dica desco- bm podem ocorrer erros de transcrio, principalmente quando se trata de fr-
bria esse tipo de resumo, Trawinski ( 1989) examinava mtodos smulares de re- mulas ou valores nmnricos. Sempre conferir e submeter reviso editorial por
dao de resumos em cincia da informao. Ele tambm comparou as carac- parte de algum mais experiente o trabalho de resumidores inexperientes. Bor-
tersticas dos resumos assim redigidos com resumos da base de dados INSPEC. ko e Bernier (1975) confirmam a utilidade de um bom editor de resumos:
A literatura sobre resumos estruturados continua a crescer. Hartley ( 1998) Os editores de resumos parecem desenvolver um sexto sentido que os faz saber
defende a mais ampla adoo desses resumos em peridicos cientficos. Ele quando est tltando uma parte importante do contedo. Eles procuram, e esperam
(Hartley, 200Gb) tambm argumenta que pre.ciso algum~ f?rma de resumo e:- encontrar, certas categorias de informao, como os mtodos e equipamentos
truturado junto s revises sistemticas da literatura medtca: Alega que t?1s utilizados, os dados coletados e as concluses (p. 12).
resumos devem ser mais fceis de ler do que os resumos de arttgos de pesqUisa Um servio de resumos provavelmente adotar algumas diretrizes sobre certos
mdica porque as revises sistemticas tm como alvo um pblico mais amplo. pontos, tais como ortografia, pontuao e uso de maisculas. Como isso cons-
120 INDEXAO E RESUMOS: TEORIA E PRTICA 8. A REDAO DO RESUl\-10 121
titui, em grande pat1e, uma que:sto de preferncia individual, parece despro~ mos de teses de doutorado focalizem os seguintes pontos: importncia atual do
positado apresentar exemplos. assunto, problema tratado e objetivo da pesquisa, novidade cientfica, metodo-
Para ajudar o resumidor em seu trabalho, principalmente num programa de logia, resultados e concluses (inclusive implementao dos resultados).
treinamento, convm preparar algum tipo de planilha que o oriente sobre aquilo Embora de modo um tanto confuso e, por isso, com trechos de difcil inter-
que deve procurar numa publcao. Uma planilha* como essa incluiria certos pretao, o Centro de Documentao sobre Refugiados do Alto Comissariado
aspectos, como, por exemplo: das Naes Unidas para os Refugiados (UNHCR) condensou os fundamentos da
Tipo e objetivo [Tipo de estudo, se experimental, terico, de reviso, pesquisa b:sica ou redao de resumos num nico diagrama (figura 50). So particularmente teis
aplicadn, desenvolvimento. Objetivo: uma proposio do problemn, uma definio do os critrios de avaliao esquerda do diagrama. Note-se que o resumo deve
que exatamente pesquisado.] ser avaliado com base em sua linguagem e contedo, sua .obedincia ao 1 estilo
Plano experimental ou modelo terico [Caractersticas importantes, novos enfoques,
hiptese a ser comprovada, resultados esperados qunndo o trabalho foi inicindo. O que
da casa' (extenso, estrutura, convenes ortogrficas e de pontuao) e, o que
torna este trabnlho diferente, tanto experimental quanto analiticamente, do trabalho de mais importante, o grau com que ele atende s necessidades do usurio.
outros pesquisadores?]
Condies estudadas [Parmetros variados, limites envolvidos, controles impostos.] m.o.t~oo u plllU
nr..-.r.,!u
Procedimentos [Tcnicns novas empregadas, transfonnnes utilizadns ou desenvolvi-
das, como os resultados foram obtidos.]
Pressupostos [Quais os pressupostos diretos e indiretos, e so eles convencionais?]
Concluses principais [Principais concluses do autor, outras concluses apoiadas nos
dados, resultados negativos importnntes.] ""'":~.:.. c.,,
l!i1711'-.....
Concluses secundrias [Pontos de menor importncia ou aqueles de reas perifricas
re~=<
da pesquisa podem ser relatados se forem julgados suficientemente teis. Podem ser "~
objoWco/
apresentadas interpretaes e inferncias c extrapo!aes razoveis. No so conve- m!<'"'..ok>glt
uod!tdoo/
(<:cl.!~
nientes associaes tericas imprecisas e questes conjeturais.} ESTRUTURA
<"".cl01U
lmportdncia ou utilidade [lmportnciae competncia do trabalho realizado. Aplicaes l<<='>'l
~t ..
potenciais.] ~""'
Limitaes e deficiencias [As hil!teses so indevidamente restritivas o'ulimitantes? O
modelo terico est muito distante de possvel aplicao prtica? H falhas tcnicas? O
enfoque do problema imps limitaes aos resultados? Que grau de complexidade foi
adotado? Hou\'e anlise suficiente dos dados, principalmente quanto a possYeis erros?}
Comentrios crticos [Eventual erro fundamental e magnitude dos erros. Eventual
publicao anterior desta informao. Existem pesquisas similares e qual n posio
que o presente trabalho ocupa na bibliografia? Quais as caractersticas que so pnr-
ticularmente meritrias? A interpretao dos resultados razovel?]

claro que nem todas essas categorias sero aplicveis a todo item a ser resu- FIGURA 50
mido e as trs ltimas somente a resumos crticos. Solov'ev (1971) estuda o Fundamentos da redao de resumos
uso, na redao de resumos, deste mtodo baseado em questionrio. R~produzido do UNIK:R Refugee Documentatiou Cemre { 1985), com petmisso do Centro de Documentao sobre Refugiado>
do Alto Comissariado das Naes Unidas parn o> Refugiado>
Hoje, naturalmente, provvel que alguma forma de auxlio ao processo de
redao do resumo, em linha e interativo, seja mais atraente do que a adoo Foram desenvolvidos 'modelos' mais formais do processo de redao de
desse tipo de enfoque estruturado, ainda que exibido em linha na tela. Craven
resumos (por exemplo, por Karasev, 1978). Embora tais modelos contribuam
( 1996) desenvolveu um prottipo de sistema destinado a assistir os resumi-
para nosso entendimento das etapas percorridas intuitivamente pelo resumidor,
dores e chegou a test-lo pelo menos em carter preliminar. O auxlio reda- parecem ser de pouco valor prtico para os resumidores.
o de resumos inclui um tesauro como um dos componentes (Craven, l993).
Mesmo que se reconheam alguns princpios gerais implcitos no trabalho
Alguns autores procuraram desenvolver diretrizes para redao de resumos
de resumir, claro que cada resumidor ter seu prprio modo de implement-
de ce11os tipos de documentos. Por exemplo, Solov'ev (1981) sugere que resu-
los. Com efeito, Endres-Niggemeyer ( 1994, 1998) admitiu ter identificado 453
estratgias diferentes, com base na gravao em fita dos protocolos que apenas
"-'Os titulas e descries da planilha aqui exemplif1cada baseiam-se nos utilizados no projeto de seis resmnidores pensavam em voz alta.
resumos modulares de Herner and Compnny (Lancaster et ai., 1965).
Os aspectos tericos dos resumos e sua redao so abordados mais amide
122 INDEXAO E RESUI\.JOS: TEOR!A E PRTrCA 8. A REDAAO DO RESUMO 123
por autores europeus, principalmente Endres-Niggemeyer ( 1998) e Pinto. Esta nadas e h fortes razes par~ que sejam reunidas. pequena a distncia entre a
autora apresenta, num livro em espanhol (Pinto, 200 I), um estudo completo so- etapa de anlise conceitual da indexao e a preparao de um resumo aceit-
bre redao de resumos em seu contexto lingstico mais amplo. Encontram-se vel. Alm disso, a disciplina adicional imposta pela redao do resumo ajuda na
verses parciais em Pinto ( 1995) e Pinto e Lancaster (1999). Ela tambm anali- deciso sobre o que deve ser includo e o que pode ser omitido na indexao. O
sou o papel da semitica, lgica e psicologia cognitiva na anlise de contedos fato de ambas as atividades envolverem uma combinao de leitura e passar de
textuais (Pinto, 1994). Pinto e Glvez( 1999) analisam a redao de resumos em olhos outro motivo pelo qual eficiente reuni-las, delas se incumbindo uma
termos de paradigmas comunicacionais, fsicos, cognitivos e sistmicos. mesma pessoa, sempre que isto for vivel.

Resumidores Qualidade e coerncia na redao de resumos


Os resumos podem ser preparados pelos prprios autores dos documentos, Jamais dois resumos do mesmo documento sero idnticos se forem redigi-
por outros especialistas dos rspectivos assuntos ou resumidores profissio- dos por pessoas diferentes ou pela mesma pessoa em momentos diferentes: o
nais. Muitos peridicos cientficos exigem que os autores preparem resumos contedo descrito ser o mesmo, mas a forma de descrev-lo ser diferente. A
que acompanhem seus artigos. crescente o aproveitamento destes resumos qualidade e a coerncia so um pouco mais vagas quando se aplicam a resumos
pelos servios de resumos impressos, que assim no precisam redigi-los de novo. do que quando se aplicam indexao. Aparentemente existem duas facetas
Igual ao que acontece na indexao, o resumidor precisa ter conhecimento principais concernentes qualidade:
do contedo temtico tratado no documento, embora no precise ser um espe- 1. Os 'argumentos' essenciais do documento so postos em relevo no resumo?
cialista. Requisito importante a capacidade de redigir e editorar textos, e um 2. Esses argumentos so descritos exata, sucinta e inequivocamente?
trunfo precioso para o resumidor a aptido de ler e compreender com rapidez. Em certa medida, portanto, a qualidade da redao de resumos aferida se-
Borko e Bernier (1975) adve1tem que os autores no necessariamente redi- gundo critrios que so muito similares aos adotados na avaliao da indexa-
gem os melhores resumos dos prprios artigos. Os autores comumente no o. A primeira etapa da redao de resumos corresponde, realmente, como na
possuem fonnao e experincia em redao de resumos, bem como carecem do indexao, anlise conceitual- quais os aspectos a realar?- e a segunda
conhecimento das regras adotadas nessa atividade. As publicaes de resumos etapa COITesponde traduo dessa anlise conceitual em frases (normalmente).
mais prestigiosas comumente conseguem recrutar como resumidores especia- A qualidade da anlise conceitual pode ser aferida, provavelmente, em
listas numa rea, que aceitam o encargo de redigir resumos em sua especiali- cotejo com as instrues relativas a contedo baixadas pela instituio para a
dade sem remunerao ou a troco de honorrios modestos. Borko e Bernier qual o resumo redigido. Por exemplo:
afirmam que: "Quem aprendeu a redigir resumos e tambm especialista num
campo do conhecimento redige os melhores resumos", afirmao contra a qual l. Foram includos o mbito e a finalidade do trabalho?
difcil argumentar. Como os e_specialistas comumente so voluntrios, talvez 2. Os resultados foram indicados ou resumidos?
seja difcil deles obter pontualidade na redao dos resumos. O resumidor pro- 3. As concluses do autor foram resumidas?
fissional custa caro, mas pontual e pode fazer um excelente trabalho quando e assim por diante.
lida com reas do conhecimento que no lhe sejam totalmente desconhecidas. Poder-se-, ento, avaliar a coerncia entre dois resumos, neste nvel concei-
Atualmente autores e editoras contam com poucos incentivos para 'enfeitar, tual, no que tange ao grau com que os resumidores estiveram de acordo quanto
os resumos de modo a tornar o trabalho que isso envolve mais atraente do que aos pontos a incluir.
de fato . Price (1983) argumentou que isso poderia tornar-se um perigo num A avaliao da qualidade da fase de 'traduo', no processo de elaborao
ambiente completamente eletrnico (ver captulo 16). As editoras gostariam de do resumo, um pouco mais complicada, porque exatido, ambigidade e bre-
estimular o uso dos resumos porque provavelmente seriam remuneradas com vidade so critrios um tanto subjetivos. Um resumidor experiente poder apli-
base nisso. Os autores gostariam de ampliar sua utilizao, se este fator setor- c-los, porm, ao julgar o trabalho de pessoas menos experientes. No deve haver
nasse, o que no seria impossvel, um critrio a ser adotado em decises rela- grande preocupao com a coerncia na fase de traduo do processo de elabo-
tivas promoo e estabilidade no emprego. O vocbulo spoofing ou spamm- rao do resumo: existe a possibilidade de tratar a mesma questo de vrias for-
ing foi usado para designar o enfeitamento de pginas da Rede de modo a au- mas diferentes, c a? a uma delas exata e inequvoca e, talvez, igualmente sucinta.
mentar sua recuperabilidade (captulo 16).
A redao de resumos e a indexao so atividades intimamente relacio-
124 !NDEXAAO E RESUMOS: TEORIA E PRTICA 8. A REDAO DO RESUMO 125
claro que os resumos so avaliados pelos editores e outras pessoas que traba-
Texto integral Resumos lham nos centros de informao ou nas editoras, provavelmente utilizando o
Nmero de itens julgados relevantes 12 15 mtodo intuitivo. provve"I que, quanto mais se utilizar a busca em texto livre
Nmero de itens julgados no-relevantes 38 35 em lugar da indexao feita por seres humanos, crescer a impmincia do mto~
Total 50 50 do de avaliao baseado na 'recuperabilidade'. Os critrios para aferir a 'recu-
perabilidade' de um resumo no so necessariamente os mesmos utilizados
FIGURA 51
para avali-lo com base na previsibilidade da relevncia (ver as consideraes
Resultados hipotticos de um teste de previsibilidade de relevncia
sobre 'Questes de compatibilidade').
Vinsonhaler (1966) prope mtodos comportamentais para avaliar a qua-
O teste definitivo de um bom resumo consiste simplesmente em perguntar:
lidade de resumos com base na 'validade de contedo' ou 'validade previsvel'.
'ser que ele permite ao leitor prever com exatido se um item resumido ou
Num estudo de validade de contedo, os sujeitos julgam o grau com que o docuM
no relevante para seus interesses atuais?' No que tange a um leitor especfico e
mento e o resumo so 'similares', empregando talvez uma escala de similari-
uma necessidade de informao especfica, possvel testar isso com base,
dade de sete pontos. Alternativamente, pode-se aplicar um teste para determi-
digamos, em 50 resumos copiados na impressora em resposta a uma busca em
nar em que medida um resumo discrimina documentos, especialmente quando seu
linha. Os resultados do estudo seriam os mostrados na figura 51: os resumos
contedo temtico bastante similar. Vinsonhaler prope, para medir a discri-
sugeriam que 15 itens seriam relevantes, mas apenas 12 se confirmaram como
minabilidade, um teste em que os sujeitos examinam um documento e em segui-
tal. Alm disso, se se constatar que nem todos os 12 considerados relevantes a
da procuram identificar o resumo correspondente num folheto que contm resu-
partir do texto foram tambm julgados relevantes a patiir dos resumos, estes
mos. Um teste de validade previsvel determina em que medida decises toma-
teriam falhado de ambos os modos: sugeriram que alguns itens eram relevantes
das sobre similaridade dos resumos coincidem com decises quanto similari-
quando no o eram, e que outros no eram relevantes quando o eram.
dade tomadas com base nos prprios documentos: se os resumos forem 'bons',
Esse tipo de estudo, naturalmente, um tanto difcil de fazer. Ademais, seus
grupos de resumos com baSe na similaridade devem coincidir com grupos de
resultados aplicam-se apenas a determinado usurio e determinada necessida-
documentos com base na similaridade. O segundo teste de validade previsvel
de de informao; mude-se o usurio ou a necessidade de informao e os resul-
mais convencional: determina-se a medida em que os resumos prevem correta-
tados mudaro. A maioria dos usurios de servios de resumos, ou bases de da-
mente a relevncia dos documentos. Vinsonhaler sugere um teste de cruzamen-
dos em linha, j ter passado pela situao, talvez com relativa freqncia,
to em que um grupo de pessoas avalia a relevncia de um conjunto de doeu~
quando um resumo desperta o apetite por um documento que acaba sendo t~lt~ito
mentos para um enunciado de pedido de busca e, em seguida, depois de um
diferente do que se esperava. Ento, os resumos frustraram esses usuanos,
intervalo de tempo adequado, faz o mesmo com os resumos dos documentos. O
embora talvez tivessem atendido de modo bastante adequado a outros usurios.
segundo grupo de pessoas procede em seqncia inversa, primeiro avaliando os
A utilidade dos resumos n~ previso da relevncia de documentos para
resumos e depois os documentos.
determinado usurio ser examinada com mais detalhes no captulo seguinte.
Mathis (1972) props que os resumos fossem avaliados com base num 'coe~
Embora tenham sido realizados vrios estudos de previsibilidade de relevncia,
ficiente de dados' (co). O co expresso pela frmula c!L, onde c um 'fator de
so muito poucas as pesquisas sobre as atividades dos resumidores. Com efeito,
conservao de dados' e L um 'fator de conservao de extenso'. c uma me-
j foram realizados mais estudos sobre avaliao de extratos do que de resu-
dida do grau com que todos os 'conceitos' (Mathis refere-se a eles como 'ele~
mos. Por exemplo, tanto Rath et ai. ( 1961 b) quanto Edmundson et ai. ( 1961)
mentes de dados') do documento so conservados no resumo. L simplesmen~
descobriram que as pessoas no eram muito coerentes (com os outros ou
te o nmero de palavras do resumo dividido pelo nmero de palavras do docu-
consigo mesmas) ao selecionar de um texto as frases que consideravam como os
mento. O CD um valor numrico, e, quanto maior o valor, melhor. Ele favo-
melhores indicadores de seu contedo.
rece a concentrao e a compresso: capacidade de conservar todos os elemen-
Edmundson et ai. (1961) sugerem vrios mtodos de avaliao de resumos:
tos essenciais do texto com o mnimo de palavras. Melhora-se o valor aumen-
I. Julgamento intuitivo, subjetivo; tando~se a quantidade de elementos de dados presentes ou reduzindo~se a
2. Comparao corn um resumo 'ideal'; quantidade de palavras no resumo. Mathis sugere que um valor de CD inferior
3. Determinao da medida em que perguntas de teste sobre um documento unidade indicaria um resumo de qualidade inaceitvel. Trata-se de mtodo cria-
podem ser respondidas pelo resumo; tivo, embora dependa totalmente da capacidade de identificar 'elementos de
4. Recuperabilidade do documento pelo resumo.
dados'. Mathis prope que sejam identificados mediante critrios sintticos.
126 INDEXAO E RESU/'vfOS: TEORIA E PRTICA S. A REDAAO DO RESUMO 127

Assim como qualquer outro tipo de texto, os resumos podem ser avaliados 3. A incluso de informaes importantes e a excluso de informaes sem
com base na 'legibilidade', empregando-se frmulas clssicas de legibilidade. importncia.
Dmnberger e Kowitz (1975) adotaram a frmula de tcilidade de leitura, de 4. Ausncia de erros.
Flesch, para comparar resumos de Research in Education com os relatrios 5. Coerncia de estilo e legibilidade.
correspondentes, e verificaram que os nveis de legibilidade eram significati- 6. Previsibilidade da relevncia.
vamente baixos, provavelmente porque careciam de redundncia. Tambm King 7. Capacidade de servir como substituto do original (resumos informativos).
(1976), adotando um critrio 'cloze', *observou que os resumos de Child Deve- S. Adequao como fonte de termos de indexao.
lopment Abslracts eram menos legveis do que os itens em que se baseavam.
Esta lista, evidentemente, representa vrios nveis de critrios. Por exemplo,
Hartley (1994) aplicou tanto os escores de legibilidade de Flesch** quanto
todos os critrios do terceiro ao quinto provavelmente seriam levados em conta
testes cloze (compreenso) na comparao de quatro verses diferentes dos
em qualquer classificao 'global'. Um mtodo de avaliao da medida em que
mesmos resumos. Sua concluso foi que os resumos poderiam ser melhorados
um resumo pode servir em lugar do original (critrio 7) consiste em comparar a
(isto , redigidos de modo mais claro) se fosse mudado o tamanho do tipo, se
capacidade de grupos de indivduos responderem a questes baseadas em: a)
fosse estruturado (em pargrafos com entrettulos) e se fossem reescritos.
nos resumos, e b) no texto integral. Payne et ai. (1962) relataram estudos desse tipo.
Posteriormente, Hartley e Sydes ( 1996) estudaram as preferncias do leitor
Com efeito, os estudos de Payne englobavam trs mtodos de avaliao
quanto disposio grfica dos resumos estruturados.
diferentes:
Hartley (2000) identifica trs fatores que influem na clareza dos resumos:
linguagem (legibilidade), a maneira como as informaes so apresentadas 1. Coerncia. Foram utilizados especialistas de assunto para comparar resu-
(seqencial ou estruturada) e o estilo grfico. Tambm descreve diferentes mos com base na similaridade da quantidade de informaes apresentadas.
solues grficas para a apresentao dos resumos estruturados. 2. A quautidade de reduo de texto obtida.
Salager-Meyer (1991) analisou, de uma perspectiva lingstica, uma amos- 3. Utilidade. Os estudantes responderam a questes tcnicas baseadas nos ar-
tra de resumos de artigos mdicos, tendo chegado concluso de que metade tigos de sua rea de especializao. Alguns deles liam os artigos, outros ape-
deles era 'mal-estruturada' (isto , possua deficincia de discurso). Uma vez nas os resumos. As respostas dos dois grupos eram comparadas. Este mto-
que 'deficincia de discurso' pode incluir coisas do tipo disperso conceitual do foi tambm usado por Hartley et ai. ( 1996) para comparar diferentes ti-
(por exemplo, resultados relatados em diferentes lugares do resumo) como pos de resumos: a concluso foi que os resumos estruturados (formatados
tambm omisso de um elemento importante (por exemplo, o objetivo da em diferentes pargrafos, cada um com seu entrettulo) podiam ser usados
pesquisa) do resumo, o autor sugere que os resumos que padeam desses de modo mais eficiente.
defeitos sero menos eficientes na transmisso de informaes. No programa TIPSTER (ver captulo 14), so empregados dois mtodos de
Borko e Bernier (1975) apresentaram aquela que talvez seja a lista mais avaliao de resumos: 1) utilizao do resumo para julgar a relevncia dos do-
abrangente de possveis critrios de avaliao de resumos, como se v a seguir: cumentos, e 2) utilizao do resumo como base para a classificao dos docu-
l. Uma classificao global de qualidade (atribuda por avaliadores humanos). mentos (isto , classificao baseada no resumo em comparao com a classi-
2. A medida em que a norma NISO (ANSI) ou outra norma respeitada (que ficao baseada nos textos completos).
tambm tida como um componente principal do mtodo de avaliao re- As avaliaes da qualidade dos resumos publicadas nos ltimos anos tm se
comendado. por Mathis ( 1972)*** concentrado, na maior parte, em resumos estruturados. Hartley e Benjamin
(1998) compararam resumos tradicionais e estruturados redigidos por autores
;;. Tcnica e teste de leitura em que, num texto, so on1itidas palavras propositalmente c segundo
de artigos submetidos a quatro peridicos britnicos de psicologia. Estudantes
um padro definido {por exemplo, toda quinta palavra). Os espaos em bronco deixados sero de psicologia participaram da avaliao. Os resumos estruturados foram julga-
preenchidos pelos sujeitos que estiverem sendo avaliados. {N.T.) dos significativamente mais legveis, significativamente mais longos e signifi-
H O escore de facilidade de leitura de Flesch [Fiesch Reuding E as e (R.E.)J considera a extenso cativamente mais informativos.
das frases e a extenso das palavras no texto. A frmula original R.E. = 206,835 - O,S46w - Poucos trabalhos foram realizados para avaliar resumos publicados em
I ,O 15s (onde w o nmero mdio de si! abas em I 00 palavras e s o nmero mdio de palavras comparao com os textos a que se referem. No entanto, um til estudo desse
por frase. Os escores normalmente situam-se na faixa 0-100 em que os valores menores refle-
tem maior dit1culdade (Hartley, 2000c).
tipo foi relatado por Pitkin et ai. (1999). Eles avaliaram, dessa forma, 88 resu-
mos publicados em seis importantes revistas mdicas. Os resumos eram consi-
H$ Ver tambnl, porm, os comentrios sobre normas no captulo 9.
128 INDEXAO E RESUMOS: TEORIA E PRrICA 8. A REDAO DO RESUMO 129
derados 'deficientes' quando incluarn dados diferentes dos dados constantes depois que os trabalhos foram aceitos para publicao, foi-lhes exigido que
do prprio mtigo ou deixavam de incluir dados por completo. Com base nesses apresentassem verses estruturadas. Hartley relata poucas inexatides em qual-
critrios, uma quantidade significativa de resumos foi considerada deficiente, quer um dos tipos de resumos, e que os estruturados no eram melhores nem
cerca de 18% na revista que COJTespondia ao melhor caso e 68% no pior caso. piores do que os outros. Esse ltimo resultado talvez no surpreenda muito,
Em decorrncia desse estudo o JA,\IA (Journal of the American lvfedical pois a maioria dos autores simplesmente converteu o resumo original para a
Association) introduziu um programa de melhoria de qualidade (\Vinkler, forma estruturada. Mais difcil de explicar esses resumos de psicologia pare-
1999). Foram adotados os seguintes critrios: cerem mais exatos do que os resumos de medicina dos estudos de Pitkin.
1. Os entrettulos do resumo so coerentes com o formato de resumo estru- O valor de previsibilidade dos resumos (isto , sua capacidade de indicar a
turado. relevncia do item de que deriva para os interesses de algum usurio) exami-
2. Os dados no resumo so coerentes com o texto, tabelas e figuras. nado no prximo captulo.
3. Os dados ou informaes do resumo esto presentes no texto, tabelas ou
figuras. Questes de compatibilidade
4. Fornece os anos de estudo e a durao do acompanhamento. H 50 anos, a nica razo existente para que fossem redigidos resumos era a
5. Os resultados das Principais Medidas de Resultados so apresentados de criar a representao de um documento que seria lida por seres humanos.
na seo de Resultados (evitar informaes seletivas). Entretanto, os resumos so hoje utilizados com uma segunda finalidade: pro-
6. Os resultados s'o quantificados com numeradores, denominadores, porcionar uma representao que sirva para buscas feitas por computador.
odds ratios [razes de chances, razes de diferenas] e intervalos de Infelizmente, essas duas finalidades no so inteiramente compatveis. Para os
confiana, onde isso for apropriado. objetivos da recuperao, a redundncia conveniente. Quer dizer. um tpico
7. Apresentam-se, sempre que possvel, diferenas absolutas e no diferen- estar mais bem representado se o for de vrias formas. Por exemplo, a incluso
as relativas (por exemplo, 'A mortalidade baixou de 6% para 3o/o' ao in- dos sinnimos 'asas de vo livre' e 'asas deltas' em alguns resumos aumenta a
vs de 'A mortalidade baixou 50%'. probabilidade de o item ser recuperado- um consulente usar 'vo livre' e o
8. No caso de ensaios randomizados, a anlise identificada como intent- outro poder pensar em 'asa delta'. Para o leitor humano, por outro lado, me-
to-treat ou anlise de paciente avalivel. lhor haver coerncia do que redundncia. Na realidade, o usurio se sentir
9. Para levantamentos, o ndice de respostas fornecido em Resultados muito confuso se as mesmas idias forem descritas de diferentes formas no resumo.
ou Delineamento. Para os objetivos da recuperao, quanto mais longo for o resumo melhor
1O. Para anlise multivariada, os fatores controlados no modelo so mencio- ser. Pelo menos, quanto mais longo for o resumo mais pontos de acesso pro-
nados de modo bem sucinto. porcionar, e quanto mais pontos de acesso houver maior ser o potencial de
ll. As concluses resultam de informaes contidas no resumo. alta revocao na recuperao. Ao mesmo tempo, temos de admitir que prova-
Esses critrios so agora adotados para rever e corrigir resumos. Winkler rela- velmente haver perda de preciso: quanto mais extenso for o resumo mais as-
tou uma melhoria impressionante da qualidade aps a implantao desse pro- pectos 'secundrios' do documento sero introduzidos e maior ser o potencial
grama, e Pitkin et ai. (2000), em pesquisa independente, tambm constataram de falsas associaes (veJ>captulos 6, 11 e 14). Para o leitor humano, a brevida-
notvel melhoria, embora no no nvel impressionante citado por \Vinkler. An- de certamente conveniente. Ela tambm convm para os assinantes de servi-
teriormente, Pitkin e Branagan ( 1998) relataram, como resultado de um ensaio os impressos, pois resumos mais longos geram publicaes mais caras.
randomizado controlado, que instrues especficas dadas aos autores que esta- Para o leitor humano, til a meno de aspectos negativos: por exemplo,
vam tevisando seus manuscritos no foram eficazes para diminuir as deficin- 'porm exclui consideraes sobre custos' informa ao leitor sobre o que no
cias dos resumos. Parece que enviar aos autores instrues sobre a qualidade deve esperar encontrar no documento. A incluso da palavra 'custos' no resu-
dos resumos no , em si, garantia de melhoria, embora tais instrues sejam mo far, evidentemente, com que ele seja recuperado em buscas nas quais o
eficazes quando usadas pelos editores de revistas na avaliao dos resumos. custo seja um aspecto importante -exatamente a situao na qual esse resumo
Hartley (2000a) comparou a exatido de resumos estruturados com a de no deveria ser recuperado.
resumos 'tradicionais' de um mesmo grupo de miigos submetidos para publica- Para os objetivos da recuperao, tambm relhorevitar certas palavras ou
o nas revistas da British Psychological Society. Isso foi possvel porque os expresses. A locuo comum 'lanar mo de' criar problemas em muitas ba-
autores haviam enviado resumos tradicionais ao submeter os originais, porm, ses de dados, pois levar recuperao de itens sobre a parte do corpo humano
130 INDEXAO E RESUl\'IOS: TEORIA E PRTICA 8. A REDAO DO RESUMO 131
- mo - , e a flexo verbal 'cobre', do verbo 'cobrir', far recuperar itens recuperao da informao. Eles parecem acreditar que esta idia se originou
sobre o metal cobre. P01tanto, para uma recuperao mais eficaz, os resumi- com eles, quando, de fato, . bastante antiga.
dores devem evitar termos que sabidamente causaro problemas desse tipo.
At mesmo as convenes relativas a pontuao e sintaxe, que tm sentido O boletim interno
para o leitor humano, podem criar problemas para o c01nputador. Suponhamos,
O fato de haver bases de dados bibliogrficos em praticamente todos os
por exemplo, uma frase que termine com a palavra 'precipitao' seguida ime-
campos do conhecimento e de em alguns deles haver vrias bases de dados
diatamente por outra que comece com a palavra 'cidos'. Em muitos sistemas
concorrentes no elimina inevitavelmente a necessidade de um boletim de
este tem ser recuperado durante uma pesquisa sobre 'precipitao de cidos',
resumos destinado clientela interna de uma instituio. O centro de informa-
embora nada tenha a ver com este assunto. es de uma empresa ou outro tipo de organizao em que haja um forte pro
Os minirresumos de Lunin ( 1967) (ver captulo anterior), ao contrrio do grama de pesquisas pode almejar produzir seu prprio boletim em virtude de:
resumo convencional, destinam~se basicamente a facilitar as buscas por com-
putador. Embora possam ser interpretados por usurios inteligentes, so defini- I. Os peridicos de resumos existentes no serem suficientemente atuais na
tivamente mais difceis de lere entender, e se ignora como um enunciado esque- cobertura de materiais fundamentais e do maior interesse para a instituio.
mtico como esse seria aceito pelos usurios de um sistema de recuperao. 2. Nenhuma base de dados, isoladamente, em formato impresso ou eletrnico,
Tudo isso aponta para o fato de que um resumo 'ideal' para o leitor pode no abranger, provavelmente, todos os materiais de interesse para a instituio.
ser ideal para as buscas informatizadas. Mas, at onde se pode prever, os resu- Na realidade, muitas bases de dados so relevantes para os interesses da ins-
mos continuaro a servir a ambas as finalidades. Mesmo que a importncia dos tituio quando se tem em conta a diversidade de contedo temtico e de
formas documentais.
servios impressos venha a declinar, os resumos ainda sero necessrios como
um produto intermedirio em buscas informatizadas. Uma das implicaes dis- 3. Nenhuma base de dados externa abranger certos materiais de importncia,
so que as editoras de servios secundrios tero de rever suas instrues, para e, de modo mais evidente, os relatrios internos da prpria instituio, li-
que os resumidores passem a criar resumos que, na medida do possvel, sejam teratura de fabricantes, 1i1aterial publicitrio dos concorrentes, etc.
sucedneos eficazes tanto para a realizao de buscas quanto para a leitura. Para otimizar os procedimentos empregados na produo do boletim inter-
Fidel (1986) prestou um grande servio ao analisar as instrues para reda- no, ser preciso identificar os materiais que sero resumidos diretamente. Estes
o de resumos de 36 produtores de bases de dados. A sintese que ela fez das certamente incluiro os relatrios internos da prpria empresa e materiais ex-
instrues que parecem ser relevantes para as caractersticas de recuperabili- ternos considerados de especial importncia. Por exemplo, algum perten-
dade dos resumos reproduzida na figura 52. I\1ais que tudo, sua sntese revela cente ao quadro de pessoal do centro poder examinar todas as patentes novas e
algumas divergncias de opini9: utilize a linguagem do autor, no utilize a lin- preparar resumos daquelas que se revistam de possvel interesse para a empresa
guagem do autor; utilize linguagem idntica linguagem dos termos de indexa~ -o que , em si mesmo, uma arte. Valendo-se dos mtodos a serem examinados
o atribudos, utilize linguagem que complemente os termos atribudos, e as- no captulo seguinte, ser identificada uma 'lista bsica' de peridicos que,
sim por diante. A regra mais sensata talvez seja a que especifica que o resumo quase com ce11eza, so extraordinariamente produtiVos no que concerne aos
deve incluir termos relevantes que faltem nos descritores e no ttulo. Nfuitas interesses da instituio. Esses peridicos tambm sero resumidos direta-
vezes, esses sero termos mais especficos do que os do vocabulrio controlado. mente.
Booth e O'Rourke (1997) estudaram resumos estruturados de medicina possvel que as fontes analisadas dessa forma regularmente produzam,
num contexto de recuperao da informao. Por meio da importao de regis- por hiptese, de 80 a 90% da bibliografia a ser includa no boletim interno. Para
tros do MEDLINE, conseguiram criar duas bases de dados em que podiam fazer elevar essa cobertura bem acima do nfvel de 90% ser preciso utilizar fontes
buscas, sendo uma de resumos completos e a outra de resumos segmentados em impressas de carter mais genrico. Os membros da equipe que analisa os
vrios componentes (objetivos, delineamento, concluses, e assim por diante) peridicos pertencentes lista bsica procura de artigos de interesse devem
da estrutura. As buscas feitas na base de dados segmentada, naturalmente, obti- tambm examinar os servi>s de indexao/resumos em formato impresso que
veram maior preciso, porm menor revocao. Os consulentes tambm forem apropriados. Isto revelar outros itens relevantes, como, por exemplo, os
tiveram dificuldade para decidir em quais segmentos fazer as buscas. que aparecem em fontes que no so adquiridas por assinatura diretamente.
Nomoto e Matsumoto (2001) defendem a avaliao da qualidade de resu- Uma fonte abrangente no campo cientfico, como o Chemica/ Abstracts, parti-
mos produzidos automaticamente (na realidade, extratos) em termos de quo cularmente til para a localizao de itens de interesse potencial.
satisfatria seria a possibilidade de substituir os textos integrais nas tarefas de
132 INDEXAO E RESUI\OS: TEORIA E PRTlCA 8. A REDAO DO RESUMO 133

O Contedo dos Resumos


sos de forma bastante abrangente numa estratgia de busca. Algumas organiza-
1::1111/ll.:iudox gerei/.\' . es, porm, tm tal diversidade de interesses heterogneos que se torna muito
EmprCJ:,'lte conceitos e tennos 'importantes' (p. ex., aqueles que melhoraro a recuperano em te:.:to ltvre;
aqueles sobre os quais o documento contm bastnnte infonnao: ou palan<ls-chave).
difcil localizar itens de interesse potencial, salvo mediante consulta a amplas
1i:rmo.\ de imlexa()o sees de fontes publicadas. Ademais, a serendipidade desempenha aqui im-
Coordene os conceitos usados nos resumos com os descritores atribudos. portante papel: um bom especialista em informao pode identificar itens
a) Inclua nos resumos conceitos que sej<1m idnticos aos descritores.
b) Inclua !lOS resumos conceitos que complementem os descritores (p. ex., tennos relevantes que fhltem relevantes para uma empresa que talvez estejam fora de seu perfil de interesse,
na indexao com descritores e nos ttulos, tennos mais especficos do que os descritores, ou detenni- como) por exemplo, uma no:ra aplicao potencial para um produto da empresa.
nado tipo de termo imp011ante para a rea de assunto, como nomes geogrficos).
c) Inclua nos resumos conceitos que compl ernentem ou sejam idnticos aos descritores. De qualquer modo, o boletim interno ser compilado mediante a anlise tan-
Conl! ibua pam melhorar a indexal'io independentemente da linguagem de indexal'io utilizada to de fontes primrias quanto secundrias, estas complementando a cobertura
das anteriores. Num grande centro de informao) a equipe responsvel pela
/.i.11!H de wnfr.:rl/d(J
Obedea a uma lista de elementos relncionados recuperao que serl'io includos nos resumos. anlise da literatura incluiria algumas pessoas que teriam como tarefa principal
Fonnas de listas de conferncia: o exame de materiais estrangeiros, a redao de resumos no vernculo e a reali-
a) Categorias que serao includas nos resumos (p. ex_, materiais, propriedades e processos) e as condi-
es que detenninan'io sua inclusl'io (p. ex., somente qunndo forem rmalisadas detidnmente, ou sem- zao de tradues integrais de itens julgados bastante importantes.
pre que forem mencionadas). Quanto redao mesma dos resumos, as pessoas incumbidas disso econo-
b) Diretdzes especificas e detetmilad<!S (p. ex., 'sempre que trntnr de um novo produto, mencione o
nome da empresa'}. mizaro muito tempo ao fazerem marcaes no texto do prprio documento) a
fim de que a entrada de dados seja feita diretamente da publicao. Em alguns
A Linguagem dos Resumos
casos ser possvel utilizar diretamente a's resumos de autor, ou necessitaro de
Emprego du lill!f.li(Jgem do au/or
Empregue a lingu<~gem do autor. alguma alterao, como cortes ou acrscimos. Em outros casos, pode-se elabo-
No empreb'l.le a linguagem do autor. rar um 'resumo' perfeitamente satisfatrio extraindo-se pores do texto, tal-
a) Empregue termos correntes e detenninados, especficos da rea tem<itica.
Empregue t<lnto a linguagem do autor quanto sinnimos. vez da parte correspondente s concluses ou resultados. Naturalmente, sem-
pre haver alguns itens que exigiro a redao de resumos originai~, seja porque
Rda~o wm a /ingiW!f.C/11 de indexa~o uli/i::adv
Coordene os tennos nos resumos com os descritores.
no exista um resumo satisttrio, seja porque o processo de elaborao do
Complemente os descritores com tennos nos resumos (p. ex., empregue sinnimos ou termos mais especfi- extrato inadequado) ou porque algum aspecto de grande interesse para a
cos). empresa, porm de interesse secundrio para o autor, precisa ser ressaltado.
Empregue termos especticos e de uso reconhecido pma categorias determinadas (tais como materi<lis, proces-
sos e produtos). Os resumos preparados para uso interno podem ser disseminados de vrios
modos. Destes, o mais comum um boletim duplicado mecanicamente e que
l'rlicas o c!'/(Jr
N<'io empreg:ue a negativa (p. ex., use doente no invs de que 1111 go::v .\(/lide). seja editado com regularidade. Tendo em vista que o mesmo pode ser con-
Ndo uxe lermos em jilf!IW de li.\" la IJIIC /enhaunw li/lima pahnnt em L'l/11111111 nmw .1e jilsse 111110 xrie (la i., siderado como um instrumento de informao da maior importncia para a
nJ/1/IJ 'pecjiiCIII!.,.. mdiO.\" e ~:randes [I(J.I-ex ~-
empresa, deveria, se possvel, ser editado semanalmente. Os resumos seriam
Formvs do1 pakwra.'i organizados em sees que permaneceriam mais ou menos constantes, ao longo
Adote as pffiticas linb,'l1sticas locais (p. ex., mude a ortobrafia nm1e-americana quando se t1atar de bases de
das semanas, de modo a facilitar a consulta. Seria includo um sumrio anal-
dados inglesas). . .
Expresse sempre ponncnorizadamente os t~nnos de certas categmias (p. ex., processos. mat~nms, produtos). tico, com indicao de sees e subsees. Um boletim desse tipo pode conter
Quando um tenllO e um descritor forem b'l.lais, registre o tenno na fonna adot:~da pe!o descntor_ de 80 a !50 resumos. A cada resumo atribudo um nmero exclusivo para fins
Expresse os tenllOS tanto em sun fonnn abreviada quanto em sua fom1a por extenso.
de identificao e ordenao. Deve haver um formulrio apenso ao boletim
para que seus destinatrios encaminhem pedidos dos documentos resumidos.
FIGURA 52
O boletim de resumos ser distribudo para os nomes constantes de uma lista
Regras, destinadas a resumidores, concernentes s caractersticas de
recuperabilidade dos resumos
de destinatrios. Para certos nomes-chave da organizao, o centro de informa-
Reproduzidas de Fide! ( 1986) com permi>s~o de Emerald o poder fazer algo mais, afixando um memorando capa do boletim, que
chamar a ateno de cada uma dessas pessoas para itens que talvez sejam espe-
Pode-se perguntar por que, em 2003, algum consultaria servios secund- cialmente relevantes. A forma convencional de expressar isso seria mais ou
rios impressos ao invs de regularmente fazer buscas em linha nas bases de menos a seguinte: 'Se seu tempo s for suficiente para examinar poucos itens,
dados apropriadas. Este seria o modo de atuao preferido de uma instituio provvel que os seguintes sejam de seu pmticular interesse.'
cujos interesses estivessem claramente delimitados e que pudessem ser expres-
134 INDEXAO E RESUMOS: TEORIA E PRTICA

Uma alternativa ao boletim como tal , evidentemente, disseminar os resu-


CAPTUL09
mos como itens separados. IssO requer que os disseminadores possuam uma
imagem ntida e abrangente dos interesses individuais, de modo que cada
pessoa receba somente itens que lhe sejam potencialmente pertinentes, ou que
algum programa d~ computador seja utilizado para cotejar caractersticas dos Aspectos da avaliao
resumos com perfis de interesses individuais.
Realmente no recomendvel a distribuio de resumos separados. Isso
exige muito mais trabalho de parte do centro de informao e elimina a possibi-
lidade de o usurio encontrar outras informaes percorrendo as pginas a tema da avaliao tratado em diversos captulos deste livro. O captulo I,
esmo. Um boletim bem-organizado um instrumento de disseminao mais efi-
caz. Chamar a ateno para itens selecionados do boletim, com o objetivo de
O por exemplo, refere-se aos critrios de avaliao dos resultados de buscas
realizadas numa base de dados, enquanto o captulo 6 focaliza a qualidade da
poupar tempo a pessoas-chave, um substituto eficaz da disseminao de indexao e os critrios segundo os quais essa qualidade pode ser aferida.
resumos separados. A indexao e a redao de resumos no so atividades que devam ser consi-
Ao criar um boletim interno, o centro de informao estar, evidentemente, deradas como fins em si mesmas. So os resultados dessas atividades que devem
formando uma base de dados. Alm disso, trata-se de uma base de dados que ser avaliados e isso somente pode ser feito no contexto de determinada base de
ser de grande utilidade potencial para a instituio. Dever ser acessvel em dados, seja ela em formato impresso ou eletrnico. Nesse contexto, a indexao
linha dentro da empresa, de uma forma que se preste a buscas eficazes. Cada avaliada como bem-sucedida quando permite a quem realiza as buscas locali-
resumo pode ser indexado (pela prpria pessoa que o redige), seu texto prestar- zar itens de que precisa sem ter de examinar muitos de que no precisa. Os resu-
se a buscas ou o sistema de recuperao adotar uma combinao de termos de mos so bem-sucedidos quando permitem prever corretamente quais os docu-
indexao com expresses do texto. mentos que sero teis a um consulente e quais no sero, ou se so teis como
claro que a intranet da prpria instituio pode ser usada para disseminar substitutos do documento em buscas textuais.
resumos eletronicamente para as pessoas e/ou tornar o boletim acessvel na Uma base de dados bibliogrficos no pode ser avaliada de forma isolada,
ntegra para consultas em linha. No obstante, ainda h muitos argumentos mas somente em funo de sua utilidade ao responder a vrias necessidades de
favorveis utilidade para consulta de um boletim distribudo em formato im- informaes. No que concerne a determinada necessidade de informao, ava-
presso. lia-se uma base de dados de acordo com quatro critrios principais:
Inclinao para um assunto I. Cobertura. Quantos documentos sobre um assunto, publicados durante de-
Nlencionou-se a inclinao para um assunto no captulo anterior. Quando terminado perodo, se acham includos na base de dados?
uma publicao de resumos projetada para ser utilizada por um grupo de 2. Recuperabilidade. Quantos documentos sobre o assunto, includos na base
pessoas que possuem interesses claramente definidos e especializados (como de dados, so encontrados com o emprego de estratgias de busca 'razoveis'?
seria o caso de um boletim interno), conveniente, sem dvida, que cada resu- 3. Previsibi/idade. Ao utilizar informaes da base de dados, com que efici-
mo seja moldado aos interesses precisos do grupo. Isso foi reconhecido no ncia o usurio pode aferir quais os itens que sero e os que no sero teis?
projeto de anlises de contedo modulares (Lancaster et al., 1965) descrito no 4. Atualidade. Os itens publicados recentemente so recuperveis, ou atrasos
captulo 7. Para que essas anlises tivessem o mximo de utilidade para um na indexao/redao de resumos provocam uma situao em que os itens re-
grupo diversificado de servios secundrios, props-se que incorporassem cuperados mostram resultados de pesquisas 'antigos' ao invs de 'novos'?
'mdulos temticos'. Uma anlise de contedo incluiria um resumo 'bsico'
mais pargrafos suplementares, cada um dos quais seria moldado aos interesses Cobertura
de determinado grupo. As entradas de ndice fornecidas tambm refletiriam A avaliao da cobertzwa de uma base de dados bastante semelhante
essa diversidade de interesses. O apndice 2 exemplificao mtodo: o resumo avaliao da completeza do acervo de uma biblioteca em relao a um assunto.
bsico sobre contato de chama complementado com pargrafos que rela- Na realidade, o acervo de livros de uma biblioteca em si mesmo uma base de
cionam o trabalho a interesses em fisiologia e medicina, indstria de plsticos, dados, do mesmo modo que o catlogo da biblioteca- um uma base de dados
indstria da borracha e s indstrias de roupas de proteo e aeronutica. de miefatos, e o outro, uma base de dados de representaes desses miefatos.
136 INDEXAO E RESUMOS: TEORIA E PRTICA 9. ASPECTOS DA AVALIAO 137
Uma forma de avaliar a cobertura do acervo de uma biblioteca sobre deter- amostras nos permitiriam estimar a cobertura de A (181/200 ou cerca de 90% no
minado assunto consiste em obter bibliografias confiveis sobre esse assunto e exemplo hipottico acima), a cobertura de B (168/200 ou cerca de 84%), o grau
cotej-las com o acervo. Esta tcnica tambm pode ser aplicada avaliao da de duplicidade entre os servios (149/200 ou cerca de 75%), e a exclusividade
cober1ura de servios de indexao/resumos. Martyn (1967) e Martyn e Slater (cerca de 16% dos itens includos por A, ou seja, 32/200, aparecem exclusiva-
( 1964) exemplificaram o emprego desse mtodo. Suponhamos, por exemplo, mente nesse servio enquanto a cifra comparvel para B est um pouco abaixo de
que se queira avaliar a cobe11ura do Index t\l!edicus sobre o assunto leucemia 10% (19/200)). O mesmo tipo de resultado seria alcanado, e sob certos aspec-
felina. Com smte, poder-se- encontrar uma bibliografia que parea ou afirme tos mais facilmente, se extrassemos uma amostra de uma terceira fonte, c, para
ser exaustiva a respeito desse assunto para determinado perodo. Neste caso, a estimar a cobertura, a duplicidade e a exclusividade de A e B.
tarefa fcil: cotejam-se as entradas da bibliografia com o ndice de autores do
Index Aledicus, a fim de determinar quais os itens que so e os que no so
includos. Como resultado disso conclui-se que o Index 1\1edicus cobre, diga-
mos, 84o/o mais ou menos da literatura sobre esse assunto. Evidentemente, pre-
ciso conhecer algo a respeito das diretrizes adotadas pela base de dados que est
sendo avaliada; por exemplo, que o Index Medicus se dedica quase exclusiva-
mente a at1igos de peridicos e ho inclui monografias. Nas consideraes acima, pressups-se a avaliao de uma base de dados em
Essa tcnica no est isenta de problemas. Em primeiro lugar, no fcil formato impresso. Os procedimentos no difeririam de modo significativo caso
encontrar bibliografias exaustivas. Alm disso, talvez se ignore totalmente como fossem aplicados a uma base de dados em fonnato eletrnico. maante, sem
uma bibliografia foi compilada. Se a bibliografia sobre leucemia felina tiver sido dvida, dar entrada a talvez centenas de nomes de autores, a fim de determinar a
compilada basicamente com a utilizao do Jndex lvfedicus (ou seu equivalente cober1ura de uma fonte em linha. A soluo deste problema est em realizar, ini-
eletrnico) sua utilidade ser muito limitada para a avaliao desta ferramenta. cialmente, uma ampla busca por assunto (de qualquer modo necessria, se se
O fato que, evidentemente, no precisamos realmente de uma bibliografia quiser determinar a recuperabilidade; ver comentrios adiante), e, em seguida,
exaustiva para avaliar a cobertura de uma base de dados sobre um assunto; basta fazer buscas complementares por autor. Adotando o mesmo exemplo, extrair-
uma amostra de itens que seja representativa. Uma forma de obter essa amostra se-ia uma amostra de itens indexados sob SUPERCONDUTORES ou SUPERCONDU-
usar uma base de dados como fonte de itens com os quais ser avaliada a cober- TIV!DADE da base de dados !NSPEC, a fim de avaliar a cober1ura deste assunto no
tura de outra base de dados. Suponhamos, por exemplo, que algum quisesse COMPENDEX. O primeiro passo seria fazer uma busca no COMPENDEX sob os
saber o grau de completeza da cobet1ura do Engineering Jndex em relao ao tennos relativos a supercondutores, a fim de verificar quantos dos itens da amos-
assunto supercondutores. Consultar-se-ia o Physics Abstracts, a fim de iden- tra teriam sido recuperados. O passo seguinte seria realizar buscas por autor, a
tificar, por hiptese, 200 itens que este servio tivesse indexado sob 'supercon- fim de determinar se os itens da outra amostra apareciam ou no no COMPENDEX
dutores' ou 'supercondutividade', e este conjunto seria utilizado para calcular a e, em caso positivo, descobrir como foram indexados.
cobertura do Engineering Jndex. Depois de cotej-lo com os ndices de autores Existe a possibilidade de ocorrer um problema quando se trata de extrair uma
do Engineering Jndex, verificar-se-ia que ali se encontram 142/200, o que nos d amostra de itens de uma base de dados para avaliar a cobertura de outra. Em
uma cobertura estimativa de 71%. O fato de os 200 itens no serem todos os itens alguns casos uma base de dados em formato impresso indexar os itens apenas
publicados sobre supercondutoies no impmtante; trata-se, em certo sentido, sob os termos considerados 'mais importantes'. Isso acontece com o lndex
de um conjunto 'representativo' de itens sobre supercondutores e constitui uma Nfedicus, por exemplo, de modo que itens indexados sob o termo FEUNE LEUKE-
amostra perfeitamente legtima para se usar na estimativa de cobertura. MIA VIRUS [vrus da leucemia felina] sero somente aqueles que tratam do
Seria possvel, obviamente, fazer o percurso inverso, empregando itens ex- assunto de modo predominante e no os que tratam do mesmo assunto de modo
trados do Engineering lndex para avaliar a cobertura do Physics Abstracts. perifrico. Ao utilizar uma amostra extrada do lndex J\tfedicus para avaliar outro
Dessa forma tambm se determina o grau de duplicidade e exclusividade de dois servio. temos, portanto, de admitir que a estimativa da cobe11ura desse servio
(ou mais) servios, como se acha representado no diagrama no final deste par- diz respeito apenas cobertura de artigos de peridicos que tratam 'predominan-
grafo. Obtm-se esses resultados extraindo~se de A uma amostra aleatria de temente' do assunto. No entanto, se extrairmos nossa amostra da base de dados
itens sobre supercondutores e cotejando~os com 8, e extraindo~se de 8 uma MEDLINE (fundamentalmente o equivalente eletrnico do Index Medicus), no
amostra aleatria de itens sobre supercondutores e cotejando~os com A. Essas teremos esse problema, pois um termo de indexao como FELINE LEUKEMIA
138 INDEXAO E RESUMOS: TEORIA E PRTICA 9. ASPECTOS DA AVALIAO 139

VIRUS ser ali empregado para se referir a este assunto quando abordado de depois simplesmente se faria uma checagem para verificar se esses peridicos
modo perifrico, bem como quando abordado de modo predominante. Tambm so regularmente abrangidos pelo lndex 1\t/edicus. Com toda a probabilidade
em certos ndices impressos no feita qualquer distino entre termos 'mais isso daria uma estimativa de cobertura razovel. Se se quisesse ser mais preciso,
importantes' e 'menos impotiantes'. Por exemplo, uma amostra de assunto po- entretanto, os itens da amostra (ou pelo menos um subconjunto extrado aleato-
deria ser extrada de um dos ndices da Exce1pta 1Vfedica com a expectativa riamente) seriam checados por nome de autor, devido ao fato de certos peridi-
razovel de que os itens escolhidos incluiriam alguns em que o assunto tratado cos serem indexados apenas seletivamente, e de alguns mtigos (e talvez fasc-
de maneira que no chega a ser predominante. culos completos de alguns peridicos) que deveriam ter sido indexados no o
Obviamente, ao extrair amostras de um servio de indexao/resumos para serem por algum motivo.* O atalho que passa pelos tftulos dos peridicos
avaliar outro, levam-se em conta as datas de publicao. Por exemplo, pode-se menos til para a avaliao da cobe11ura de uma base de dados que inclua itens
extrair uma amostra de itens includos na Excerpta 1'vfedica durante o ano de publicados de todos os tipos, e no tem utilidade alguma no caso de uma base de
1997. Se for utilizada para avaliar a cobertura do Index Medicus, provavelmente dados altamente especializada que procure incluir tudo sobre determinado as-
sero confrontados em primeiro lugar os ndices de autores correspondentes a sunto, de qualquer fonte, sem se restringir adetenninado conjunto de peridicos.
1997. Quaisquer itens que no forem a encontrados sero cotejados com os H vrias razes possveis que justificam uma avaliao de cobe1tura. Por
ndices de 1998 (e talvez at posteriores) ou 1996 (e mesmo, em alguns casos, exemplo, um centro de informao quer saber se determinada base de dados,
anteriores), tendo em vista que a National Library ofNiedicine no ter necessa- como a do Chemica/ Abstracts, cobre de forma exaustiva sua rea de especiali-
riamente indexado os documentos na mesma poca em que o fez a Excerpta zao ou se precisaria recorrer a vrias bases de dados para conseguir cobertura
lvledica Foundation. Ao agir assim, pode-se, evidentemente, ter alguma idia da mais completa. Tambm o produtor de uma base de dados pode estar interessado
atualidade relativa das duas ferramentas. Mais adiante, neste captulo, trata- em saber em que medida ela cobre satisfatoriamente determinada rea. Neste
reinos da questo da atualidade. caso, seria importante determinar quais os tipos de publicaes que oferecem
H outra fonte que pode ser utilizada para avaliar a cobe1iura de uma base de maior cobe1tura e os que oferecem menor cobertura. Para tanto, seria preciso
dados: as referncias bibliogrficas que aparecem nos artigos de peridicos. classificar os itens abrangidos e os no abrangidos, segundo certas caracte-
Voltando ao exemplo j citado, suponhamos que identificamos uma quantidade rsticas, como tipo de documento, lngua, lugar de publicao e ttulo do peridico.
de mtigos publicados recentemente em peridicos cientficos que tratam de leu- A partir desses dados poder-se-ia determinar como seria possvel melhorar a
cemia felina. As referncias bibliogrficas includas nesses artigos sero usadas cobertura de modo a proporcionar a melhor relao custo-eficcia. Ao estudar a
para compor uma bibliografia a ser aplicada na avaliao da cobertura do Index cobe11ura de bases de dados impmtante estar atento ao fenmeno da disperso.
lvfedicus ou de um dos ndices da EYceJpta }dedica. Este fenmeno prejudica as bases de dados altamente especializadas, bem como
H uma evidente diferena entre utilizar itens retirados de bibliografias a biblioteca ou centro de informao muito especializado, e favorece a base de
sobre leucemia felina (ou itens indexados sob esse termo em alguma ferramenta dados, biblioteca ou centro de teor mais geral. Vejamos, por exemplo, um centro
bibliogrfica) e utilizar referncias bibliogrficas de artigos de peridicos: os de informao sobre AIDS, cuja meta seja colecionar a bibliografia desse assunto
primeiros, provavelmente, sero itens que tratam de leucemia felina de per si de modo exaustivo e assim criar uma base de dados abrangente. As dimenses
enquanto os ltimos so as fontes de que necessitam os pesquisadores que atuam deste problema so exemplificadas nas figuras 53-59 que se baseiam em buscas
na rea da leucemia felina. provvel que estas ltimas fontes ultrapassem bas- feitas na base MEDLJNE em 1988. A figura 53 mostra que somente 24 mtigos de
tante o assunto especfico e, de fato, abranjam um amplo setor das cincias biol- peridicos sobre AIDS foram publicados at o final de 1982; no ano de 1987 esta
gicas e talvez at de outros campos. O avaliador pode optar por excluir quaisquer bibliografia alcanou 8 51 O itens. Em 1982, toda a bibliografia de AIDS se limi-
itens que lhe paream perifricos ao tpico da avaliao ou inclu-los, com a tava a trs idiomas, porm, em 1987, eram 25 as lnguas utilizadas e 54 os pases
justificativa de que uma ferramenta bibliogrfica, para que seja til para o pes- que contribuam para essa literatura (figuras 54 e 55). Mais eloqente a figura
quisador desse assunto, deve proporcionar acesso a todos os materiais afins 56, que mostra que toda a bibliografia de AIDS se achava em apenas 14 peridi-
necessrios fundamentao de sua pesquisa. cos em 1982, mas em 1987 a participao era de quase I 200 peridicos!
Na avaliao de uma base de dados que se restrinja quase exclusivamente a
miigos de peridicos (como o caso do Index Medicus), poder-se-ia tomar um * Por exemplo, Thorpe (1974), ao estudar a literatura de reumatologia, obteve uma estimativa de
atalho bvio para chegar a uma estimativa de cobertura. Tendo extrado uma cobertura para o lndex Aiedicus com base nos ttulos de peridicos que foi um tanto diferente
amostra de outra fonte, ou fontes, identificm-se-iam os artigos de peridicos e daquela baseada nos artigos dos peridicos. Brittain e Roberts (1980) tambm apresentam indica-
es sobre a necessidade de estudar a cobertura e a duplicidade no mbito dos artigos.
140 INDEXAO E RESUMOS: TEORIA E PRTtCA 9. ASPECTOS DA AVALIAO 141
Todos esses exemplos demonstram o fenmeno da disperso. medida que
cresce, a bibliOgrafia de um assunto torna-se cada vez mais dispersa(mais pases N." de N"de N." acu- N." acu- N." de N." de N." acu- N." acu-
peri- artigos mulado mulado peri- artigos mulado mulado
presentes, mais lnguas utilizadas, mais peridicos que publicam, maior varie-
dicos de peri- de arti- dicos de peri- de arti-
dade de documentos) e, porta~to, mais difcil de identificar, coletar e organizar. dicos gos dicos gos
550 I 550 2 29 42 3 954
Ntmero de itens Total acumulado de 351 2 901 3 28 45 4 038
Ano
publicados publicaes 307 3 I 208 5 27 50 4 173
1982 24 24 303 4 I 511 2 26 52 4 225
1983 641 665 289 5 I 800 7 25 59 4 400
217 6 2 017 3 24 62 4472
1984 I 158 I 823
200 7 2 217 3 23 65 4 541
1985 I 707 3 530 2 321 22
104 8 3 68 4 607
1986 2 117 5 647 98 9 2 419 2 21 70 4 649
1987 2 863 8 510 97 10 2 516 5 20 75 4 749
83 li 2 599 4 19 79 4 825
fiGURA 53 78 12 2677 7 18 86 4 951
Crescimento da literatura cientftlca sobre AIDS, 1982-1987 {Fonte: MEDLINE) 70 13 2 747 7 17 93 5 070
2 67 15 2 881 4 16 97 5 134
1982 1983 1984 1985 1986 1987 60 16 2 941 7 15 104 5 239
59 17 3 000 8 14 112 5 351
Nunero de idkmns 3 14 21 21 20 23 54 18 3 054 14 13 126 5 533
Nm1ero acumulado de Klionus 3 14 22 25 25 25 52 19 3 106 12 12 138 5 677
49 20 3 !55 13 li 151 5 820
FIGURA 54 48 21 3 203 li lO 162 5 930
Literatura sobre AIDS: cobertura por idioma, 1982-1987 (Fonte: MEDLINE) 2 47 23 3 297 15 9 177 6 065
2 46 25 3 389 14 8 194 6 !OI
1982 /983 /984 1985 1986 1987 2 40 27 3 469 40 7 234 6 481
I 39 28 3 508 42 6 276 6 733
Nlurero de pases produtores 5 30 38 43 39 42 36 29 3 514 50 5 326 6 983
Nln-ero aclm~ado de pases prodLtores 5 30 39 48 52 54 2 34 31 3 612 87 4 413 7 331
4 33 35 3 744 117 3 530 7 682
I 32 36 3 776 188 2 718 8 058
FIGUI!A 55
4 30 40 3 896 452 I I 170 8 510
Literatura sobre AIDS: cobertura por pais, 1982-1987 (Fonte: MEDLINE)
FIGURA 57
Nmero de Nmero acumulado Disperso da literatura de peridicos sobre AIDS em 1987 (Fonte: MEDLINE)
Ano
peridicos de peridicos
1982 14 14 O aspecto mais impressionante da disperso diz respeito separao de
1983 228 234 m1igos entre os ttulos de peridicos. Foi Bradford quem primeiro observou este
1984 257 464 fenmeno, em 1934, fenmeno ao qual nos referimos atualmente como Lei da
1985 492 719 Disperso de Bradford. Ela est demonstrada nitidamente na figura 57, que
1986 582 952 apresenta a disperso de artigos de peridicos sobre AIDS no perodo 1982-
1987 676 I 170 1987. O primeiro peridico da lista pmticipou com 550 trabalhos num perodo
de seis anos, o segundo com 351 trabalhos e o terceiro com 307 trabalhos.
FIGURA 56 Observe-se que dois peridicos contriburam com 67 trabalhos cada um,
Nmero de peridicos que publicaram artigos sobre AIDS, 1982-1987 (Fonte: MEDLINE) dois com47 cada um, e assim sucessivamente at o fim da lista, onde temos 452
142 INDEXAO E RESUMOS: TEORIA E PRTtCA 9. ASPECTOS DA AVALIAO 143
peridicos que pmticiparam com apenas um nico artigo cada um para a biblio-
grafia de AIDS durante seis anos. Bem mais de um tero da literatura acha-se
concentrado em apenas 15 peridicos. Para alcanar o tero seguinte, preciso,
no entanto, acrescentar mais 123 peridicos, enquanto o tero final acha-se
Cerca de um tero de artigos
disperso em mais de mil peridicos adicionais. Esta distribuio proporciona (2 833) de I 032 peridicos
uma demonstrao eloqente da lei dos rendimentos decrescentes. Isso reve- (aproximadamente 15 x 8,2 1)
lado de modo ainda mais nftido na figura 58, que representa graficamente a
percentagem de attigos em comparao com a percentagem de peridicos que Percentagem
conhiburam com a11igos. Note-se que, medida que se ascende na curva, a dis- cumulativa
perso de artigos entre os ttulos de peridicos cresce em proporo aproxima- de artigos Cerca de um tero de artigos (2 796) de
damente geomtrica: o primeiro tero dos mtigos em 15 peridicos, o segundo 123 peridicos (15 x 8,2)
em 123 peridicos (15 x 8,2), e o tero final em 1 008 peridicos (numa aproxi-
mao grosseira, 15 x 8,2 2 ). Esta uma distribuio tipicamente bradfordiana.
evidente que um centro cte informao que esteja formando uma base de
Cerca de um tero de artigos (2 88 I) de 15 peridicos
dados sobre o assunto AIDS no poder montar este servio apoiando-se na assi-
natura direta de todoS os peridicos que publicam artigos de interesse. Contudo,
a lista desses peridicos em ordem de nmero de artigos publicados (figura 57) Percentagem cumulativa de peridicos
pode ser utilizada para identificar uma lista bsica de peridicos que meream
ser adquiridos e examinados sistematicamente. A figura 59 mostra como seria o
topo dessa lista, com base em dados de 1982-1987. At que ponto dessa lista FIGURA 58
ordenada chegaria o centro de informao algo que dependeria em parte de Grfico d8 disperso da literatura sobre AIDS
seus recursos financeiros. Entretanto, mesmo dispondo de recursos ilimitados, o
centro no poderia adquirir todos os peridicos que publicam artigos sobre AIDS. N."deordem Ttulo Produo
Na medida em que se desce na lista ordenada, diminui a previsil?ilidade dos ttu- I Lancei 550
2 Journal ofthe American }vfedicai Association 351
los dos peridicos. Assim, os dez ttulos do topo em 1982-1987 talvez conti- 3 New England Joumal of Medicine 307
nuem ocupando essa posio durante os prximos cinco anos. Isso porm no 4 Annals oj Jntemal Medicine 303
garantido. No caso da AIDS, por exemplo, existem atualmente novos peridicos 5 Nature 289
6 Science 217
dedicados exclusivamente a este assunto e que provavelmente viro a aparecer 200
7 Brirish Medica/ Joumai
entre os dez do topo da lista durante o perodo de 1987 em diante, talvez at 8 MMW/1 104
ocupando o primeiro lugar. No entanto, bastante provvel que todos os periR 9 Americcm Jouma/ of Medicine 98
dicas da figura 59 continuaro entre os mais produtivos sobre AIDS ainda por lO Journal of Jnfeclious Diseases 97
algum tempo. Os peridicos na faixa intermediria da distribuio (isto , apro-
FIGURA 59
ximadamente os do ineio da tabela da figura 57) so muito menos previsveis- Peridicos cientficos que publicaram a maioria dos artigos sobre AIDS, 1982-1987
podero ou no continuar publicando artigos relacionados AIDS. Os tftulos que (Fonte: MEDLINE)
aparecem no p da tabela so bastante imprevisveis: um peridico que tenha
publicado somente um m1igo sobre AIDS em cinco ou seis anos talvez nunca mais Martyn (1967) e Mm1yn e Slater (1964) realizaram os estudos 'clssicos'
venha a publicar outro artigo sobre o mesmo assunto. sobre cobettura de servios de indexao/resumos, porm h, na bibliografia,
Ao procurar formar uma base de dados especializada em AIDS, portanto, o muitos outros trabalhos sobt:e cobertura ou duplicidade. Por exemplo, Goode et
centro de informao cobrir uma pmte dessa literatura por meio de assinatura ai. (1970) compararam a cobet1ura do Epi/epsy Abstracts, um produto da Ex-
direta- talvez uns 100 peridicos, mais ou menos- e identificar os outros cerpta Medica Foundation, com a do !ndex Medicus, enquanto Wilkinson e
itens que tratam de AIDS mediante buscas sistemticas em outras bases de dados Hollander ( 1973) compararam a cobertura do lndex Medi cus e do Drug Litera-
de mais amplo alcance: MEDLINE, BIOSIS, etc. ture lndex.
144 INDEXAO E RESUJ\.IOS: TEORIA E PRTICA 9. ASPECTOS DA AVALIAO 145
Dois estudos fizeram uma comparao entre Biological Abstracts, Chemica/ Estudos de cobetiura ou duplicidade no so necessariamente meros exerc-
Abstracts e Engineering Indexe seus equivalentes em formato eletrnico: \Vood cios intelectuais. Alguns so realizados visando a objetivos definidos, dos quais
et al. (1972) compararam a cobertura das trs fontes em termos de ttulos de 0 mais evidente como melhorar a cobertura de algum servio. Outra finalidade
peridicos, enquanto Wood et ai. (1973) as compararam em termos de artigos de desses estudos a identificao de uma 'lista bsica' de peridicos em detenni-
peridicos selecionados para cobet1ura. nado campo, identificados pelo fato de serem todos considerados merecedores
Talvez o maior estudo sobre duplicidade foi o relatado por Beai-man e Kun- de indexao por vrios servios diferentes. Um exemplo de um estudo desse
berger (1977), que analisaram 14 servios diferentes e quase 26 000 peridicos tipo relatado por Sekerak (1986), que conseguiu identificar uma lista bsica de
por eles indexados, tendo tratado da duplicidade e exclusividade de cobertura. 45 peridicos no campo da psicologia a pat1ir de um estudo sobre duplicidade
Embora o Index A.Jedicus tenha sido analisado mais vezes do que qualquer entre cinco servios da rea de psicologia/ateno sade.
outra fonte, a Bibliography af Agricu/ture foi tema do estudo mais intensivo
sobre cobertura. Em dois relatrios afins, Bourne (l969a,b) comparou a cober- Recuperabilidade
tura dessa fonte com a de 15 outros servios e calculou sua cobertura de tpicos Para quem estiver procurando informaes sobre determinado assunto, ser
especficos, empregando para isso as bibliografias que acompanham os captu- importante a cobetiura de uma base de dados sobre esse assunto, principalmente
los de anurios de reviso da literatura. se tiver de fazer uma busca exaustiva. 'Evidentemente, a recuperabilidade tam-
Montgomery ( 1973) estudou a cobe1tura da literatura de toxicologia em bm importante; considerando que uma base de dados inclui n itens sobre um
Chemica/ Abstracts, Biologica/ Abstracts, Index lvfedicus, Etcerpta Medica, assunto (o que se pode estabelecer por meio de um estudo de cobetiura), quantos
Chemical Biologica/ Activities e Science Citationlndex. Este foi um estudo inu- desses itens ser possvel recuperar ao fazer uma busca na base de dados?
sitado, pois coletou um conjunto de I 873 referncias da literatura de toxicolo-
gia (1960-1969) junto a 221 membros da Society ofToxicology e as utilizou Isso comprovado mediante um estudo que complementar a uma pesquisa
como base para comparao das diversas fontes. sobre cobet1ura. Suponhamos que queremos estudar a cobertura e a recuperabi-
O'Connor e Meadows (1968) estudaram a cobe1tura de astronomia no lidade de uma variedade de assuntos que se situam no mbito da base de dados
Physics Abstracts, Gilchrist ( 1966), a cobertura da literatura de documentao AGRICOLA. Para cada um de dez assuntos, temos um conjunto de itens bibliogr-
( especifica"mente itens sobre a avaliao de sistemas de informao) em seis ficos (estabelecido por um dos mtodos antes descritos) e, para cada conjunto,
servios, e Fridman e Popova ( 1972), a cobertura de primatologia experimental sabemos quais os itens que se acham e os que no se acham includos no AGRI-
no Referativnyi Jurnal. Brittain e Roberts (1980) tratam da duplicidade no COLA. Para cada assunto teramos uma busca realizada por um especialista em
campo da criminologia, e Robinson e Hu (1981) comparam a cobertura de bases informao conhecedor do AGRICOLA, e aferiramos a recuperabilidade com
de dados no campo da energia. Edwards (1976) incluiu a cobertura como um base na proporo de itens conhecidos que o especialista conseguir recuperar.
aspecto de seu estudo sobre ndices em biblioteconomia e cincia da informa- Por exemplo, na primeira busca, sobre insetos daninhos soja, sabemos que
o. La Borie et al. (1985) estudam a duplicidade em quatro servios secun- existem 80 itens sobre este tpico que se acham includos no AGRICOLA. O
drios em biblioteconomia/cincia da informao, baseandose em ttulos de especialista, contudo, somente conseguiu encontrar 60 desses itens, ou seja, uma
peridicos, e comparam os ttulos cobertos por esses servios com aqueles co- revocao (ver capftula I) de apenas 75%.
bertos por seis servios nas cincias, inclusive cincias sociais. Outros pes-
quisadores estudaram a cobertura de determinadas tipos de publicaes (por claro que este tipo de estudo testa no apenas a base de dados e sua inde-
exemplo, Hanson e Janes (1961) realizaram uma pesquisa sobre a cobertura, por xao, mas tambm a capacidade da pessoa que faz a busca. O efeito desta
parte de vrios servios, de trabalhos apresentados em eventos, e Oppenheim varivel pode ser atenuado fazendo-se com que a mesma busca seja feita de
(1974) examinou a cobertura de patentes pelo Chemica/ Abstracts), ou a cober- modo independente por vrios especialistas em informao, a fim de determinar
tura de um assunta altamente especfico (por exemplo, o estudo de Smalley que resultados em mdia podem ser esperados de uma busca sobre o assunto. Os
(1980) sobre a comparao de duas bases de dados do ponto de vista de sua resultados poderiam ser tambm considerados como probabilidades: por exem-
cobertura da bibliografia sobre condicionamento operante). plo, 50/80 foram encontrados por todos os trs especialistas (probabilidade de
Os estudos de cobertura so menos comuns hoje em dia, mas de vez em quan- recuperao 1,00), 6/80 por dois dos trs especialistas (probabilidade de recu-
do aparece algum na literatura. Brown et ai. (1999), por exemplo, comparam a perao 0,66), 4/80 por apenas um dos especialistas (probabilidade de recupe-
cobertura do Current Index toJournals in Education com o Education lndex. rao 0,33), e 20/80 por nenhum deles (probabilidade de recuperao zero).
146 INDEXAO E RESUMOS: TEORIA E PRTICA 9. ASPECTOS DA AVALIAO 147

Observe-se que a recuperabilidade (revocao) avaliada somente tendo em Termo Nmero de itens recuperveis
conta os itens conhecidos por antecipao como relevantes para o assunto da Supcrcondutores 38
busca e que se acham includos na base de dados. A busca sobre pragas de Supercondutividade I2
A 7
insetos que atacam a soja pode recuperar um total de 200 itens, dos quais,
B 5
digamos, 150 parecem relevantes. Se apenas 60 dos 80 itens 'conhecidos como
relevantes' forem recuperados, a estimativa de revocao de 0,75 o que im- c 3
D 3
plica que os !50 itens recuperados representam aproximadamente 75% do total
E 3
de itens relevantes presentes na base de dados.
F 2
O coeficiente de revocao, evidentemente, refere-se apenas a uma dimen-
G 2
so da busca. A fim de estabelecer um coeficiente de preciso (ver captulo I),
H 2
seria preciso que todos os itens recuperados fossem de algum modo avaliados
I 2
quanto sua relevncia (por exemplo, por um grupo de especialistas no assunto).
Uma alternativa seria medir a relao custo-eficcia, determinando-se o custo
TOTAL 80
por item relevante recuperado. Por exemplo, o custo total de uma busca em linha
(inclusive o tempo do especialista em buscas) seria de 75 dlares. Se forem recu-
perados 150 itens relevantes, o custo por item relevante ser de 50 centavos. FIGURA 60
Existe um modo alternativo de estudar a recuperabilidade de itens de uma Exemplo hipottico da distribuio de itens sobre 'supercondutores'
base de dados, o qual envolve uma espcie de simulao. Suponhamos que sabe- sob termos num indice impresso
mos existirem numa base de dados 80 itens relevantes sobre o assunto X e que
podemos recuperar e imprimir registros que mostrem como esses itens foram Nmero de itens Nrmero acumulado de
Termo* itens recuperveis
recuperveis
indexados. Podemos, ento, por assim dizer, simular uma busca registrando o
LYMPHOCYTES 23 23
nmero de itens recuperveis sob vrios termos ou combinaes de termos. Um
BLYMPHOCYTES 7 30
exemplo hipottico disso mostrado na figura 60. Nesse caso, 38/80 itens
THYMUS GLAND 6 36
conhecidos como relevantes para o assunto supercondutores aparecem sob o
CELL MEMBRANE 2 38
termo SUPERCONDUTORES, enquanto 12 outros so enconhados sob SUPERCON- 40
SIVINE 2
DUTIVIDADE. No se encontram itens adicionais sob esses dois termos, mas
ANTIGENS I 4I
somente sob os termos A-J. Conclui-se, a partir de uma anlise desse tipo, que 42
ANTIBODY FORMATION
50180 itens so facilmente recuperveis e que 62/80 seriam localizados por um 43
HISTOCOMPATIBILITY
especialista sagaz porque os termos A e B ou esto relacionados de perto com 44
GENES
'supercondutores', ou esto explicitamente ligados ao termo SUPERCONDUTORES 45
ANTILYJviPHOCYTE SERUM
por intermdio de remissivas na base de dados. Conclui-se ainda que 18/80
provavelmente no. seriam recuperados pol'que a. parecem somente sob termos
FIGURA 61
que no tm relao direta com 'supercondutores' (por exemplo, podem repre-
Distribuio de itens sobre imunologia celular no porco sob termos no lndex Aledicus
sentar aplicaes do princpio da supercondutividade). Apud Albriglu {1979) com pem1issodo autor
Albright (1979) realizou minucioso estudo desse tipo empregando o Index
lvfedicus. Buscas simuladas, feitas sobre dez assuntos diferentes, revelaram que, dade, somente um especialista em buscas que fosse muito inteligente e persis-
em mdia, teriam de ser consultados 44 termos diferentes para recuperar todos tente obteria alta revocao numa busca sobre esse tpico no Index JV!edicus.
os itens que se sabia serem relevantes para determinado assunto. Embora alguns Assim como os artigos esto dispersos pelos ttulos de peridicos, os itens
estivessem ligados, por meio da estrutura hierrquica ou de remissivas do sobre um assunto includos numa base de dados esto dispersos sob muitos ter-
vocabulrio do sistema, muitos no apresentavam essa ligao, e s"eria improR mos diferentes. o que mostra graficamente a figura 62. possvel que, para
vvel que mesmo um especialista em buscas, persistente e habilidoso, viesse a
consult-los. A figura 61 mostra um exemplo do trabalho de Albright. Na real i- *Para a traduo destes termos, ver Descritores em Cincias daSade(DeCS) em http:l/decs.bvs.br/
148 9. ASPECTOS DA AVALJAO 149
INDEXAO E RESUMOS: TEORIA E PR.TICA

determinado assunto, se encontre uma percentagem relativamente alta de itens centrou trabalhos sobre essa rea dispersos em 20 sees dessa ferramenta alm
relevantes sob um pequeno nmero de termos 'bvios' (por exemplo, SUPER- das que se referiam diretamente virologia. O'Connor e Meadows (1968) en-
CONDUTORES OU SUPERCONDUTIVIDADE numa busca sobre supercondutores). contraram disperso semelhante da literah1ra de astronomia no Physics Abstracts.
Acrescentando outros termos bastante afins, talvez ligados aos termos na estru- Davison e Matthews (1969) examinaram a recuperabilidade de itens sobre
tura do vocabulrio da base de dados, eleva-se a revocao para, digamos, 70- computadores em espectrometria de massa em ll servios, bem como a cober-
80%. A~n~a sobrariam, neste caso hipottico, uns20 a 30% de itens esquivos que tura desse assunto por parte desses servios. Thorpe (1974) calculou a revoca-
o especmilsta em buscas provavelmente no conseguiria encontrar. o e a preciso de buscas sobre reumatologia no Jndex Aledicus, e Virgo (1970)
utilizou o tema oftalmologia para comparar a recuperao da base de dados
MEDLARS com a de seu principal produto, o Index Aledicus. Jahoda e Stursa
( 1969) compararam as possibilidades de recuperao de um ndice de assuntos
de 'entrada nica' com um tldice baseado em palavras-chave dos ttulos, Yerkey
100 (1973) comparou as possibilidades de recuperao de um ndice KWIC com o
Itens improvveis de Engineering Indexe o Business Periodicals Jndex, e Farradane e Yates-Ivlercer
serem encontrados
(1973) avaliaram o Metais Abstracts lndex por meio de buscas simuladas.
Um mtodo de avaliao dos ndices impressos consiste em empregar sujei-
Percentagem tos humanos no desempenho de tarefas de localizao. ndices diferentes podem
cumulativa de itens ento ser comparados em termos de sucesso e eficincia (por exemplo, tempo de
recuperveis Outros itens que podem Ser encontrados busca) no desempenho da tarefa. Um estudo desse tipo relatado por van der
com persistncia ou' criatividade
Meij (2000), que compara diferentes formatos de apresentao de ndices im-
pressos do tipo includo no final dos livros.
Olason (2000) tambm trata da usabilidade dos ndices impressos, limilando
seu estudo aos ndices de livros. Seu estudo incluiu a cooperao de voluntrios
Itens encontrados sob um pequeno
nmero de tem10s 'bvios' a quem foram atribudas tarefas de localizao de informaes que exigiam o
100 emprego de determinados ndices. Foram registrados os tempos exigidos para
Percentagem cumulativa de tennos completar as tarefas, bem como os caminhos de acesso usados pelos partici-
pantes; foram tambm solicitados a fazer comentrios. Olason ocupa-se funda-
FIGURA62 mentalmente dos efeitos do formato do ndice na eficincia de uso.
Disperso de itens sob termos de indexao Os estudos mais completos sobre desempenho da recuperao em ndices
impressos foram relatados por Keen (1976), tendo como assunto a biblioteco-
Esta anlise sobre simulaes foi deliberadamente simplificada pelo fato de, nomia e a cincia da informao. As buscas foram feitas por estudantes e os
em grande pmte, ter suposto que uma busca teria apenas uma nica faceta ou resultados avaliados quanto a revocao, preciso e tempo de busca. Keen
pelo menos, seria uma busca feita 11~1111 ndice impresso onde s se pode consulta;. (1977b) tambm apresentou uma anlise de estratgias de busca aplicadas a
um termo de cada vez. A simulao de uma busca numa base de dados em linha, ndices impressos.
que comumente envolve mais de uma faceta, ser um pouco mais complicada. Conaway (1974) desenvolveu um valor quantitativo nico para expressar o
Por exemplo, numa busca sobre pragas de insetos que atacam a soja, temos de mrito de um ndice impresso, o Coeficiente de Usabilidade de ndices (CU!), o
admitir que s se recuperaria algum item se ele estivesse indexado sob um termo qual reflete quanto tempo leva um especialista em buscas para localizar as infor-
designativo de 'inseto' bem como sob um termo que indicasse 'soja'. maes bibliogrficas completas de determinado item. Uma busca temtica era
Albright ( 1979) realizou o estudo de recuperabilidade mais completo, utili- considerada bem-sucedida se o especialista conseguia encontrar um item que era
zando, porm, uma nica fonte, o lndex Medicus. Mm1yn (1967) e Mm1yn e de antemo conhecido como 'relevante' sobre um assunto dado. Se o item fosse
Slater (1964) examinaram a disperso de material relevante sob termos de inde- localizado, registrava-se o tempo despendido para encontrar os dados
xao em vrios servios impressos, e Bourne ( 1969a,b) tambm deu ateno bibliogrficos completos. Empregando-se os mtodos de Conaway, possvel
disperso em seus estudos sobre a Bibliography ofAgriculture. Carro li (1969) atribuir escores numricos a diferentes ndices extraindo-se a mdia dos resul-
estudou a disperso da literatura de virologia no Biologica/ Abstracts e en- tados obtidos sobre um nmero de assuntos por diversos especialistas em bus-
!50 151
INDEXAO E RESUMOS; TEORIA E PRTICA 9. ASPECTOS DA AVALIAO
cas. O CUI basicamente uma medida de custo-eficcia. No entanto uma Os resumos, naturalmente, so os melhores indicadores de contedo. O
medida muito medocre, pois a eficcia determinada exclusivamente c~m base principal critrio para aferir sua qualidade seu desempenho como preditores do
na :ecuperao ou no-recuperao de um nico item conhecido. Uma medida contedo dos documentos.
mm~o. melhm: de custo-eficcia o custo unitrio (em dinheiro ou em tempo do Para testar a utilidade de vrias formas de sucedneos de documentos como
usuano) por Item relevante recuperado. indicadores do contedo destes, preciso que se apresentem aos usurios de um
sistema de recuperao (ou pessoas que estejam no lugar desses usurios em
Previsibilidade condies experimentais) vrias representaes de documentos de extenso
A anlise aqui feita sobre avaliao da recuperabilidade adotou um pressu- crescente. Por exemplo, suponhamos que uma busca numa base de dados tenha
~osto Importante: o de que possvel reconhecer um item 'relevante' a pa1iir das recuperado 30 registros. As representaes desses itens seriam apresentadas ao
mformaes sobre esse item contidas na base de dados. Estas informaes com- solicitante da busca numa seqncia de registros de extenso crescente, com os
preendem: resultados mostrados no final deste pargrafo. Nessa situao hipottica, o soli-
I. O ttulo do item citante, ao examinar o texto integral dos artigos de peridicos, considera 14
2. O ttulo mais uma lista de termos de indexao como relevantes e 16 como no relevantes. Suas previses de relevncia melho-
3. O ttulo mais um resumo raram medida que crescia a extenso da representao do documento, embora
4. O ttulo mais os termos mais o resumo 0 acrscimo de termos de indexao ao resumo no tenha sido diferente do uso
do resumo sozinho. At mesmo o melhor sucedneo (titulo mais resumo) no foi
Em geral, quanto mais extensa for a representao mais pistas fornecer sobre se perfeito: sub-reptesentou os itens relevantes e super-representou os irrelevantes.
u~n item ser ou no de interesse para o usurio. A informao mnima propor-
Cionada por uma base de dados- seria o ttulo do item. O grau com que o tftulo
reflete s~tisfatoriamente o contedo temtico depende em grande medida do tipo Itens
considerados
Itens considerados
_de publicao. Em geral, os mtigos de peridicos cientficos costumam trazer Itens nitidamente relevantes ou
Registro apresentado apresentados irrelevantes possivelme111e
ttulos bastante descritivos, enquanto, no outro extremo, as matrias de jornais relevantes
apresentam ttulos atraentes e que prendem a ateno, mas no so muito
Ttulo do artigo 30 12 18
descritivos de seu contedo. As publicaes tcnicas ou comerciais tambm se
inclinam pelo ttulo atraente: o Journal of,Hetals apresenta tftulos muito descri- Ttulo do artigo mais ttulo do peridico 30 13 17
tivos, sendo menos provvel encontr-los numa revista como lron Age.
Ttulo do artigo (e do peridico) mais 30 15 15
Os ttulos, evidentemente, no so apresentados isoladamente. Num ndice lista de termos de indexao
impresso, por exemplo, o ttulo se situa no contexto do termo de indexao sob o Ttulo do artigo (e do peridico) mais 12
30 18
qual aparece. O ttulo 'Uma complicao rara da tuberculose' pouco nos diz a resumo
respeito do contedo de um artigo, mesmo que aparea sob o cabealho TUBER- Ttulo do artigo (e do peridico) mais 12
30 18
resumo e termos de indexail.o
CULOSE PULMONAR. Se o mesmo titulo aparecesse sob o cabealho AMILOIDOSE
Texto integral dos artigos 30 16 14
ter-se-ia, no entanto, uma idia muito melhor sobre seu contedo temtico. Em
alguns casos, tambm, o ttulo do peridico (ou do livro) onde aparece um artio-o
pode dar uma pista de seu contedo temtico. Assim, um at1igo intitulado 'Ef;i- Pesquisas sobre o efeito de sucedneos de documentos na previsibilidade da
tos sobre a apresentao de informaes' faz Pouco sentido visto isoladamente. relevncia foram feitas por diversos estudiosos, inclusive Rath et ai. (196la),
Dentro de um livro intitulado Editorao eletrnica, por outro lado, esse ttulo Resnick (1961), Kent et ai. (1967), Dym (1967), Shirey e Kurfeerst (1967),
torna seu contedo muito mais previsvel. Saracevic (1969), Marcus et ai. (1971) e Keen (1976). Marcus et ai. demons-
algo raro um ndice impresso incluir uma lista completa dos termos de traram claramente que a 'indicatividade' de um sucedneo de documento est
indexao associados a um item (embora os ndices da Exce1pta ,\ledica o diretamente relacionada sua extenso em nmero de palavras. Por outro lado,
faam), mas, comumente, possvel gerar uma lista dessas numa safda impressa bem provvel que haja uma extenso ideal que no seria econmico ultrap~ssar,
de uma base de dados em linha, cuja indexao tenha sido feita por seres huma- pelo menos para fins de previsibilidade. Hagerty ( 1967), por exemplo, venfcou
nos. A combinao de ttulo e termos de indexao bastante eficaz para indicar que, embora a extenso de um resumo melhorasse as previses de relevncia, o
de que trata uma publicao.
efeito do aumento da extenso do resumo era surpreendentemente discreto.
152 INDEXAO E RESUMOS: TEORIA E PRTICA 9. ASPECTOS DA AVALIAO 153
Pesquisas sobre a utilidade dos resumos na previso da relevncia dos docu- ce impresso conhecida e a data (ou pelo menos o ano) da primeira edio de
mentos pressupem, geralmente, que o resumo uma pea independente do cada item includo consta de sua referncia bibliogrfica. A atualidade menos
documento, que aparece num servio de resumos impressos ou na sada de uma aparente para usurios de sistemas em linha, mas ainda assim perceptvel.
operao de recuperao. Thompson ( 1973), no entanto, estudou a utilizao e a Essa visibilidade desastrosa porque comumente leva a concluses que no
utilidade dos resumos que acompanham os documentos (no incio de artious de so vlidas. Uma tendncia humana perceber casos excepcionais, e outra ten-
peridicos ou de relatrios tcnicos). Ele coletou dados sobre decises qu:nto s dncia dar s expectativas um peso indevido ao fazer um julgamento. O usurio
atitudes tomadas por engenheiros e cientistas de trs laboratrios militares em de um volume de resumos impressos tem a oportunidade de examinar inmeras
relao a documentos que passavam por suas mesas no curso das atividades roti- referncias ao mesmo tempO. Ao perceber que algumas correspondem a mate-
neiras durante um perodo de quatro semanas. No pde confirmar se as decises riais publicados h talvez dois ou trs anos, ele injustificadamente conclui que o
quanto s atitudes tomadas em relao aos documentos que continham resumos servio em geral muito lento na identificao e processamento de novos itens.
ocorriam mais rapidamente do que as decises em relao queles sem resumos. Existem muitos motivos pelos quais a incluso de uma referncia num arqui-
Alm disso, quando os sujeitos do experimento voltaram a receber cpias do vo sofre atrasos. O intervalo entre a impresso de um peridico e seu recebi-
documento, posteriormente, para um 'reexame ponderado', suas decises ante- mento pelo servio secundrio pode ser longo devido a razes de ordem geogr-
riOIes quanto relevncia de documentos que continham resumos no apresen- fica ou econmica; por exemplo, um servio norte-americano recebe os peri-
taram maior probabilidade de concordncia com as decises posteriores mais dicos dos EUA pelo correio poucos dias depois de sua impresso, porm os peri-
ponderadas do que fora constatado para os documentos sem resumos. Estes dicos estrangeiros podem levar de seis a sete semanas para chegar a esse pas.
resultados no lanam dvida sobre a utilidade dos resumos de per si ou mesmo Certos tipos de materiais, como os anais de eventos, so difceis de localizar e,
sobre a utilidade dos resumos que acompanham mtigos ou relatrios (uma vez uma vez localizados, so de aquisio trabalhosa. Documentos escritos em
que so freqentemente adotados ou modificados por servios secundrios), certas lnguas demandam mais do que o tempo mdio para serem processados)
mas realmente sugerem que os resumos podem ter um uso limitado nas decises devido escassez de 1radutores qualificados. Materiais 'perifricos', o que
de seleo inicial. Muitos dos indivduos a quem so enviadas publicaes comumente significa materiais aparecidos em peridicos e outras publicaes
preferem julgar a relevncia delas para seus interesses atuais passando os olhos que no sejam examinados rotineiramente pelo servio, tomam mais tempo para
no texto, examinando as tabelas ou figuras, ou mesmo checando as referncias serem localizados do que os materiais da lista bsica, uma vez que freqen-
bibliogrficas (por exemplo, para conferir se foram citados!). temente s so identificados quando da consulta a outros servios secundrios e,
A qualidade dos resumos como tais examinada no capftulo 8, enquanto o por isso, sofrem uma dupla srie de atrasos no processamento. Alguns servios
tpico relativo elaborao automtica de resumos tratado no captulo 15. contam com sistemas de proCessamento mais geis do que outros, e alguns atra-
Em estudo mais recente, Salton et ai. (1997) compara resumos de documen- sos so imputveis ineficincia do sistema. Quando um servio de indexao/
tos complexos elaborados automaticamente com base na extrao em pargrafos resumos utilizado para notificao corrente, a avaliao que dele faz o usurio
com processo similar, feito por seres humanos, de extrao em pargrafos. Eles influenciada pelo nmero de itens dos quais ele j tem conhecimento prvio e
justificam o mtodo automtico com o argumento de que um resumo elaborado que constam do fascculo mais recente. A presena de alguns itens j conhecidos
automaticamente to provvel que coincida com um resumo preparado por costuma estimular a confiana na eficincia do servio, mas a presena de um
seres humanos quanto um resumo preparado por uma pessoa coincida com um nmero excessivo desses itens abala a confiana em sua atualidade.
resumo preparado por outra pessoa. Do ponto de vista do avaliador, a atualidade muito atraente como critrio de
Processos semelhantes foram empregados na avaliao de tradues feitas eficcia. A atualidade relativamente fcil de medir, sendo incontestvel quan-
automaticamente ou por seres humanos. Brew e Thompson ( 1994), por exem- do medida, porque no depende de juizos subjetivos. A nica influncia que o
plo, argumentam que ~~as boas tradues tendero a ser mais similares entre si do avaliador exerce sobre a medida na escolha das datas que sero usadas. No
que as tradues ruins". caso de bases de dados impressas, a data de aparecimento da referncia nor-
malmente tida como a data de publicao do servio. No caso de um servio em
Atualidade linha, a data ser aquela em que a referncia foi includa na base de dados, mas
A atualidade ou 'presteza' uma medida da velocidade com que novas publi- esta data nem sempre pode ser confirmada retrospectivamente. Uma soluo
caes so includas num servio de indexao/resumos. Trata-se de um critrio possvel saber junto editora qual o intervalo entre a data de distribuio da
que os usurios percebem imediatamente, pois a data de publicao de um ndi- atualizao da base de dados eletrnica e a de seu equivalente em verso impres-
sa, e ajustar as medidas de c?nfonnidade com isso. Para a data de aparecimento
154 155
INDEXAO E RESUMOS: TEORIA E PRTICA 9. ASPECTOS DA AVALIAO

da publicao primria a que se refere o servio secundrio, o avaliador pode Normas


escolher entre a data efetiva de edio e a data em que a publicao se torna Em teoria, um mtodo bvio para fazer a avaliao de ndices e resumos .
disponvel. compar-los com as normas existentes. No mundo anglfono, as normas perti-
A data efetiva da edio apresenta alguns problemas, pois raramente ela nentes so:
fornecida com exatido nos servios secundrios. Recorre-se a um exemplar da ANSJ{NJSO z39.14-1997 Guidelinesjor abstracts (reeditada em 2002)
publicao e, na maioria dos casos, a data consignada refere-se somente ao ms ANSI/z39.4-l984 Basic ileriafor indexes .
mais prximo. O dia efetivo em que a publicao foi editada somente ser conhe- ISO 999: 1996 Guidelinesjor the contenl, organiza/on, mui presenlation ofJ.ndexes
cido se se fizer uma consulta editora. Infelizmente, a data na capa de um peri- ISO 5963-t 985 (E) Methodsfor examining documents, determining their sub;ects, an~l
se!ecling indexi11g terms
dico nem sempre confivel, pois alguns so publicados no ms anterior ao ms BS 3700: 1988 Preparing indexes to books, periodica!s, and other documen~s . .
nominal de edio, e a maioria aparece posteriormente data nominal de edio. as 6529: 1984 Examining docwnents, determining their subjects, and se!ectmg mdexmg
A data em que a publicao se torna disponvel , em alguns pases, uma al- terms
ternativa que no apresenta problemas. Embora essa data- data de disponi- Observe-se que essas normas tendem a enfocar o produto ao invs do proces-
bilidade - realmente no mea a atualidade de um servio, ela nos d uma so: os ndices e os resumos ao contrrio da indexao e da redao de resumos.
medida da atualidade efetiva do ponto de vista dos usurios do pas onde so Apenas a ISO 5963 e a ss 6529 focalizam o processo. Em viliude de estar v? Ita-
registradas as datas de disponibilidade. Nos EUA, as datas de disponibilidade de das para o aspecto mais diflcil da indexao- decJd11 qual realme?t~ a. ma-
peridicos seriam a data de seu recebimento pela Library ofCongress ou outra tria indexvel' de um documento- so, por vnos mot1vos, as mms uters de
das bibliotecas nacionais. Essas datas aparecem carimbadas nas capas dos peri- todas as normas que lidam com a anlise conceitual dos docume~tos.
dicos, ou provavelmente existam num registro de controle mantido pela biblio- Na realidade embora essas diferentes publicaes sejam edttadas por orga-
teca. Pode-se assim medir o intervalo de tempo entre a disponibilidade de um nizaes de nor~nalizao, difcil consider-las como verdade~ras. normas.
peridico nos Estados Unidos e a notificao de sua existncia por algum servi- Uma norma de verdade deve ser exata (por exemplo, a norma relativa a compo-
o secundrio. Estritamente falando, deve-se considerar a data de disponibili- sio de determinada liga) e de cumprimento obrigatrio (por e~e1;1pl.o, a norma
dade do servio secundrio ao invs da data de sua edio, porm raramente se que especifica que determinado tipo de ao deve ter um~ resJStencm tra~o
verifica uma grande diferena entre elas. A atualizao da base de dados eletr- igual ax). claro que a indexao e a redao de resumos sao attvtda~e__s que n~o
nica normalmente se d antes da atualizao do ndice impresso ao qual se rela- so nem exatas nem de cumprimento obrigatrio (exceto sob condto~s mmto
ciona. limitadas, como, por exemplo, os requisitos que sejam exigidos pelos edttores de
A coleta de dados implica a obteno de uma amostra aleatria de itens um peridico). A impreciso e a evidente subjetividade da indexao esto bem-
extrados do fascculo mais recente de um servio secundrio, anOtando-se a demonstradas no fato de a comisso de desenvolvimento de normas da NISO,
data de edio (ou atualizao) do servio, a isto acrescentando os dados origi- incumbida de rever a ANSI z39 .4, no ter chegado a acordo quanto a uma norma e
nais de edio ou disponibilidade, normalmente retirados de uma fonte dife- s ter conseguido produzir um relatrio que "servissse como um recurso atu~l
rente. Se se exigir, como convm freqUentemente, que seja feita uma anlise por sobre indexao" (Guidelinesfor indexes, 1997). Porconsegu~nte, e~se rel~tno
lnguas, pases de origem e formas de publicao (por exemplo, artigos de peri- simplesmente possui um nmero de relat~io e n~ uma destgn~ao o ficta! d~
dicos, teses e monografias), as dimenses da amostra devero ser maiores do que norma z39. difcil compreender tanta sutileza, pots, como se dtsse antes, ~m.
seriam se se desejasse apenas uma estimativa global da atualidade. mas de verdade no podem (e provavelmente no devem) s~r in~po~ta~ a ~ttvr~
A atualidade provavelmente a caracterstica de um servio secundrio mais dades intelectuais, e a maioria das <normas' tem outra denopmmao ( duetnzes
fcil de ser medida. Tambm provvel que seja a menos importante. As ou 'critrios'). Qualquer que seja a forma como sejam cham.adas, ess~s I~onnas
editoras talvez se interessem pela atualidade como medida da eficcia de suas no so suficientemente precisas para serem usadas na avaliao de mdtces ou
atividades, mas os usurios, embora freqentemente expressem a vontade de que resumos, ou na indexao e redao de resumos, exceto no nvelmais.su~er
o servio seja gil, talvez se impressionem menos com isso. Quando se leva em ficial. Ademais, as normas de indexao se concentram basicamente nos mdiCes
considerao o intervalo de tempo decorrido entre a concluso de uma pesquisa impressos em geral e nos ndices de final de livro, em particular.
e sua primeira publicao, a demora adicional acarretada pela utilizao de um
servio secundrio para localizar essa pesquisa relativamente pequena. Outros aspectos concernentes avaliao
Vrios outros mtodos foram empregados para analisar o desempenho e o
!56 INDEXAO E RESUMOS: TEORIA E PRTICA 9. ASPECTOS DA AVALIAO 157

uso de ndices impressos. Por exemplo, Torr et ai. (1966) descrevem quatro No entanto, quando estudamos a eficcia da recuperao, torna-se bastante dif-
mtodos que podem ser adotados para 'observar' os usurios de fndices: I) fazer cil isolar os efeitos da indexao/redao de resumos de outros fatores, tais
com que o usurio mantenha um registro escrito dos processos de raciocnio e da como o vocabulrio da base de dados, as es.tratgias de busca empregadas e a
estratgia que emprega ao fazer uma busca, 2) fazer com que o especialista em interao usurio/sistema. Isso foi mencionado de passagem no captulo 6. Foge
buscas utilize um gravador de fita com a mesma finalidade,* 3) fazer com que um aos propsitos deste livro descrever detalhadamente a metodologia da avaliao
observador acompanhe a busca, e 4) empregar a observao humana combinada (mensurao da preciso, clculo da revocao, anlise de diagnstico para
com uma cmara para estudar como os ndices so utilizados. Esses pesquisa- determinar as causas exatas das falhas de revocao e preciso), Este assunto
dores verificaram ser difcil conseguir a cooperao dos 'usurios reais' com tratado de modo completo em Lancaster e Warner (1993).
esses estudos, o que tambm foi a experincia de Hall (1972). As avaliaes de servios impressos de indexao/resumos, ou seus equiva-
Outros pesquisadores empregaram entrevistas ou questionrios para obter as lentes eletrnicos so menos comuns atualmente do que antes, em pmte porque
opinies de usurios relativas a vrios servios de indexao/resumos, inclusive agora se dedica ~~ais ateno aos estudos relacionados com a Rede (por e~em
Hall (1972a,b), Keen (1976), Drage (1969) e Cluley (1968). plo, avaliaes de mecanismos de buscas ou stios da Rede). No obstante, amda
Ao tratar da recuperabilidade, este captulo deteve-se mais nos servios se publicam algumas avaliaes. Exemplos disso so os trabalhos de Brown et
impressos de indexao e resumos do que na recuperao em bases de dados ai. ( 1999), que compararam a cobertura do Current Index to Journals in Educa-
eletrnicas. Isso reflete parcialmente o foco do presente livro: indexao e reda- tion com o Education Index, e os de Brettle (2001), que comparou diferentes
o de resumos ao invs de outros aspectos da recuperao da informao. bases de dados do ponto de vista da cobertura de infon11aes sobre a reabili-
Evidentemente, os mtodos adotados para estudar cobertura, previsibilidade e tao de po11adores de doena mental grave, e Green (2001), que incluiu a
atualidade so pe11inentes a todos os tipos de bases de dados, impressas ou cobertura Qunto com a atualidade) numa avaliao de bases de dados de peri-
eletrnicas. Os estudos de cobe11ura e de atualidade so completamente obje- dicos de msica. Ambos concluram que seriam necessrias mltiplas bases de
tivos, e os estudos de previsibilidade um tanto menos. Os estudos de recupe- dados para uma coberiura adequada desses assuntos.
rabilidade so inerentemente subjetivos, pois dependem de decises humanas a Azgaldov ( 1969) identificou alguns critrios que podem ser empregados
respeito de quais itens so relevantes (ou pertinentes)** e quais no so. Ao para avaliar a qualidade de ndices impressos. Tais critrios so: adequao
estudar a eficcia da recuperao, precisa-se utilizar uma medida que reflita a (que abrange toda uma gama de propriedades, que incluem cobertura, caracte-
proporo dos itens relevantes que so recuperados durante uma busca (coefi- rsticas do vocabulrio usado na indexao, bem como certos fatores depen-
ciente de revocao), bem como alguma medida do custo da recuperao dessa dentes da indexao, como a exaustividade e a coerncia), generalidade (que diz
parcela da literatura relevante. O coeficiente de preciso comumente empre- respeito essencialmente diversidade de buScas que podem ser feitas), ergono-
gado como uma medida indireta do custo, pois reflete o nmero de itens que o a
micidade (facilidade de uso), presteza (quo atualizada fonte), e custo. Ele
usurio de algum modo deve examinar a fim de identificar n itens que lhe sejam ressalta, muito corretamente, que:
teis. Outra medida indireta do custo a extenso esperada da busca, descrita O mais eficiente ndice impresso ser um fracasso para os usurios, se seu parmetro
por Cooper (1968). Naturalmente, pode-se medir o custo de uma maneira mais de convenincia [ergonomicidade e presteza] for baixo, e, vice-versa, um ndice que
direta levando-se em conta todos os custos da busca, inclusive o tempo do for simples e fcil de usar granjear ampla popularidade mesmo que seu desempenho
especialista em buscas e os custos de acesso base de dados (ver, por exemplo, na recuperao no seja muito alto (p. 281 ).
Elchesen, 1978). O custo da busca ser ento relacionado ao nmero de itens Esta citao serve como um bom intrito ao captulo 1O, que trata das caracte-
relevantes (ou pertinentes, ou teis ou 'novos') recuperados; o 'custo por refe- rsticas de vrios servios impressos de indexao e resumos.
rncia relevante recuperada' uma boa medida da relao custo-eficcia da busca.
As medidas de eficcia, como a revocao e a preciso (ou outras descritas,
por exemplo, por Robe11son, 1969), so aplicveis a estudos de recuperao em
qualquer tipo de base de dados, tanto em formato impresso quanto eletrnico.

* Keen (1977b) tambm utilizou esta tcnica.


**A questo da relevncia/pertinncia foi examinada por muitos autores. Ver, por exemplo, Wil-
son (1973), Swanson (1986), Lancaster e \Varner (1993), e Mizzaro (1998).
l. MTODOS ADOTADOS EM SERVIOS IMPRESSOS DE INDEXAO E RESUMOS 159
4. Dois tipos de remissivas aparecem no ndice impresso: see [ver] usada
CAPTULO 10 para ligar termos considerados sinnimos ou quase sinnimos e see related
[ver em relao a isto] para ligar termos intimamente relacionados. Para se
obter, contudo, um quadro completo da rede de associaes entre os termos
Mtodos adotados em seryios impressos utilizados, preciso consultar dois outros instrumentos: JV!edical subject
headings (MeSH) e MeSH tree structures. A figura 64 mostra um exemplo de
de indexao e resumos uma pgina do :vesH. .Observe-se como o MeSH apresenta a remissiva see (e
sua recproca X bem como as remissivas see related (recproca XR) empre-
gadas para ligar dois termos semanticamente relacionados, normalmente per-
tencentes a hierarquias diferentes. Talvez ainda mais importante, a cada

A finaiidade deste captulo expor vrios mtodos de implementao de ser-


vios de indexao e resumos em formato impresso. Em pm1icular, consi-
dera as bases de dados impressas em funo de suas propriedades como ferra-
cabealho do MeSH atribudo um ou mais nmeros de classificao para
indicar onde ele aparece nas estruturas hierrquicas em rvore (figura 65).
Assim, embora o vocabulrio utilizado pela National Library o f Medicine
mentas de recuperao da informao.* seja bastante rico em associaes, o /ndex kledicus no auto-suficiente,
Identificam-se, basicamente, dois mtodos principais de organizao dessas pois nele no aparecem as associaes. Portanto, uma fonte til em buscas
ferramentas. Num deles, as entradas aparecem sob cabealhos de assuntos ou relativamente especficas, mas difcil de usar em buscas de carter mais ge-
descritores relativamente especficos dispostos em ordem alfabtica. As entra- nrico que exijam a consulta a muitos cabealhos diferentes.
das podem repetir-se sob mais de um cabealho e/ou so empregadas remissi- A figura 66 mostra exemplos de entradas do ndice de autores do Cumulated
vas para ligar cabealhos relacionados entre si. Neste mtodo no h necessida- Index lv/edicus. Observe-se que se tem aqui uma estrutura totalmente auto-su-
de de ndice de assuntos, porm, sero necessrios outros tipos de ndices, prin- ficiente, pois no se trata de um ndice da seo de assuntos. Na realidade, para
cipalmente de autores. qualquer item encontrado no ndice de autores freqUentemente bastante difcil
No outro mtodo, utiliza-se uma forma de classificao: as entradas so dis- determinar quais so os cabealhos de assuntos sob os quais ele aparece. Note-se
postas sob nmeros de classificao altamente especificas ou agrupadas sob tambm que o ndice de autores, ao contrrio da seo de assuntos, arrola todos
categorias temticas relativamente genricas (possivelmente com subcategorias). os autores de cada artigo e traz o ttulo do mtigo na lngua original (pelo menos
Em qualquer um dos casos, h necessidade de ndices de assuntos que pennitam para lnguas escritas com alfabeto romano), no em traduo. O Cumulated
abordagens alternativas ou acesso mais especfico ao contedo temtico. Index J\1edicus no mais publicado, mas o Index 1Vfedicus mensal, sim.
Os vrios ndices impressos editados pela H.W. Wilson Co. (dos quais so
ndices alfabtico-especficos bons exemplos o Reader 's Guide to Periodical Literature e o Librmy Literature)
Um dos mell10res exemplos deste mtodo a edio mensal do Index Medicus so em muitos aspectos similares ao Index JV!edicus, pois utilizam cabealhos
e sua edio acumulada, o Cumu!ated lndex A!edicu.s (figura 63). Vrias carac- especficos com subcabealhos e incorporam remissivas do tipo see. Diferem
tersticas deste ndice merecem ateno: do Index JVIedicus por adotarem muito mais remissivas see also [ver tambm]
I. Note-se como so usados subcabeaihos que oferecem maior especificidade. para ligar termos semanticamente relacionados, tornando um tanto mais fcil a
2. Como no so includos resumos, torna-se vivel repetir a referncia biblio- realizao de buscas genricas que envolvam vrios cabealhos diferentes. Por
grfica sob mais de um cabealho. Por exemplo, a primeira entrada sob o exemplo (ver figura 67), o usurio que consulte o termo MAGNETOHYDRODY-
subcabealho administration & dos age (figura 63) provavelmente ser du- NAMICS (no Applied Science and Technology Index) informado de que deve
plicada sob OSTEOARTHR!TIS. procurar tambm sob PLASMA, PLASMA WAVES e SYNCHROTRON RADIATION.
3. A combinao de cabealho, subcabealho e ttulo do artigo normalmente O Engineering Index tambm organizava suas entradas sob cabealhos es-
proporciona uma imagem re.lativamente clara daquilo de que trata um item. pecficos e subcabeaihos e inclufa tanto remissivas do tipo see quanto do tipo
see also. Hoje, porm, as referncias so arranjadas sob descritores sem subcabe-
""Na realidade, estas ferramentas impressas so muito menos utilizadas hoje em dia do que o eram alhos (ver figura 68).
quando foram publicadas as edies anteriores deste livro. Muitas bibliotecas cancelaram as assi- A principal diferena entre este ndice e os que foram anteriormente exem-
naturas das verses impressas, dando preferncia ao acesso em linha e, em alguns casos, as edi- plificados , obviamente, o fato de incluir resumos. Cada resumo recebe um n-
es impressas, ou partes delas, foram interrompidas pelas respectivas editoras.
160 INOEXAAO E RESUMOS: TEORIA E PRTICA
l 0. lviETODOS ADOTADOS EM SERVIOS IMPRESSOS DE INDEXAO E RESUMOS 161
mero de identificao exclusivo. O ndice de autores, ento, um verdadeiro
ndice do arranjo por assuntos, remetendo do nome do autor para os nmeros Receptors, Cyclic AMP
D 12.776.543.750.720.700.150 D 12.776.543.750.810.150
dos resumos aos quais esse non1e est associado. Ademais, como muitas entra- 11
das acumular-se-o sob os cabealhos do volume anual, tambm existe um ndi- see related
Cyclic AMP-Dependent Protcin Kinases
Cyclic AMP Receptor Protein
CYCLONAMINE t ETHAMSYU.TE CHEMISTRY
X cAMP Reeptors
X Cyclic AMP Receptors
CYC>oXYGENASE )(C
PROSTAGUNDIN-ENDOPEROXIDE SYNTHASE "~~t~ir1~i~~ :;:~~~,~~~~.:d~-~~~r~~~~~~~le du~; XR Cyclic AMP
!.elcctin Slipolygena.se inbibiton. Knmer JB, d al.
Bloor11 M!d ~~~~ 199$ Apr;l(4):(()l-l0
CYCLOOXYGENASE INHIBITORS 1 Receptors, Cytoadhesin
";~;h!bf~J;~~ ~f~n/~h)JZ;,~t :':::d'~~:~:~;t:,!~i:'ke~~U
1
sce reiJtcd 012.776.543.750. 705.408.460+ 024.611.834.408.460+
inhibi!on Co tlle ycloolygen~..se ..:ti~e site of ovine
ANTI-INFLAMMATORY AGENTS,
1 90
NON-STEROIDAI.
f.i~~~.~~7.d~ ~?:.o~~4n~ J::'~6:~ir irf:~~:Nrna
AD~f!NISIRATION A OOSAGE A sinal< amlno 1eid ditl'ercnc(. b<:t..,ttn cycloo~ygeniUC-1 X Receptors, E~tracellular Malrix Glyoprotein
Mdoclltl in osttoarthrit~ a 6-rnonth, doublc-blind
(COX-1) and -1 (COX-2) reHI'$Ct thc .selccliyity of XR Extrace\lular Matrh Proteins
COX-2 spccific inhibitors. Okr.se JK. ct d.
compnis.:.n wirh di.:lofcn1c $0<1i~m. Ho<ic J, ct L J B!ol c.Mt!t 199& lu~ l:S;HI{26):1SSI0--4
Br I Rhn.utol 1996 Apr;JS Supp\ 1:39-H
Pcri-opcrolive ~minl.Wa11on of tectll diclofcnac 50diurn.
Thc !lructural bu!s o( a.spirin 1ctivity infetled (rom the
Cf)SUI structurc o( ina.ctivt< pr~Lagludin lU l)nlhiUC
Receptors, Cytokine
Thc cffecl on renal functon in p.ricl\ls undcrgoing rnioor I"'- commenul toU PJ, ct ai. Ntl Sin>ct Blol 191} Aug: 012.776.543.750.705.852+ 024.61 !.834.852+
nnt.opaMic surguy. IN-in MO, ~~ L 1(8).637-U. Commcnt in: Nu Struct Biol 1915
Eu J AnnttJo.Hiol 199' Jul;l~(4);l3-6 Aug;2(8).ro~-6.
94
Trol!s.d~rmd m<ific&tion of pl1telet (unction: an a.spirio X Cytokine Recep1ors
patch system fe$u[ts in mulr.W suppro!'Siion of platel~t
cyc[OO\)'gen.u.:. MeAdam B, <I al. IM~IUNOLOGY
J J>~unucol I:Ip Der 199& May;271{2).S59-M
{W~I\ d01oe o( .upirin sllould b<: prucrib.ed in p>tien!! \1-ilh
Oul .t..!pirin ar.d ibuprofen incrca.se cyt_okinc-induced
synth1is of IL-1 bel a~d o f tumour necront (octor-alptu.
Receptors, Cytoplasmic and Nuclear
~'Oron~ry dis=..e?J MontalC$CO\ O, et 11. e1 ~-i~o. Endres S, et ai. hnmunoloty 1996 Feb~&7(21:l&4-70 012.716.826+
AD.II Cudlol An~Jol (Puid 199} 0.:!;(3);4&9-72 (Eng.
Abl.tr.l 1rrd Mf.:TABOLISM 94
AD\'ERSE Eff'E.Crs
T"krabi!ity ,,f
imiduo!e ulycibte in a.spirin-.sensi!i--c
lndomerlucin es.;ulctin nd nordih)droguoiaretie ~id
ce!l. 11.
modify lr&~hldonote bios~nthesls in ut adren<X"nicat
de Omc' Dumm NT, et
''" related
Transcription Fators
w~tij,_~nnt OE. <I ai. Alluo Proc !99.S &p--Oct; Ad.- Pbplg.J Phrmcol Thu Utlmoam !99$;4$0);1$,-6-4 X Cy1oplasmic and Nuclear Receptors
Tyro1ir.e ilflllC lnhibitOII prucnt qt<:kine-indl!ced X Cy1osolic and Nuclear Receptors
nr:t~.~l'c~~~~~~.!fh~~~~~~ ~~ cprcuion o( iNOS and COX-2 by hU!>IIn 11lets. Cori>I:U X Nuclear and Cytoplasmic Receptors
E.\{1).15-8
lhe (trd ductus
meriosus. Tahh.uhi V, et a]. A1ll J Pulnatol [99& lln; S}nthuis and Ule
JA, d ai. AN J P)loJ 1996 Jun;2':0(6 Pt ..I).CH8J-7
of iodinoted nomterodol utnnflamRUtory
drvg utalos u cryltllloguphic pro~ ?f the Receptors, delta see Receptors, Opioid, delta
lm~ct o( prtuiSiing hulth oondiliO!Il on lhe outcome of
~~~~&~~~roc~~r;;~~~t::rr:mnm~e.lo!l
~~~~.rr:,~.~ ~~~k~~e:~~~~r~::~n:;.~,a:;~~~R':~~ ln vi\-o itlhlbition proflle of C)'tOCbrome P4SOTB (CYP2C9) Receptou. delta Oplold see Receptors, Opioid, della
NS. Rn Phumfoe'Oih.tr 199} Jui-Aug;~9(7-8):&l&-&0
11
A~~~t'~j~ 1 (y~i~~cfJ'~~.:',~~~i1~i~:i~;r tt'~~~tnuation
of
~tit'~~~i!&~~- ~S"~Ssc:;,:/2-7 Receplors, Diaupam see Receptors, GADA-A
Re:ac~ions of p10IIIJ1llnditl endopc10xide l)nlhl~ nd i1s
Blood Co.ogwl FJbrinoly!U 1996 Jan;7(l):00-4
EITc-:11 of frec radical l.Cinngers on indomethacin-ind!KM j~~~~~.! ~\ ~~~~ 2~:rm:iJa'-ksl.v'c M. u .~. Receplors, Dllodotyroslne see Receptors, Thyroid Honnone
ura~&tion of ga..urie ukcr In nu.. Nalto Y. et 1. EITccll or indomethacin and lnchidonic dd oa <istu
Oii Dit ~I 1995 Stp;40(9)::WI9-21 chlomltid u~hange ind~~C:tloo by llycne :ond
Efftct of htorolac lfomtthami.nc on bl<iing ud on st~rene-7,!-(lxlde. l.ce SH, ~~ oL hfwtll Ru l91S CI:
Receptou, Dio:dn s.ee Receplors, Aryl Hydrocarbon
requircmtnU for 1n1fgesia Oet total knce arthropluty Hi(1).93-9
{!tHer: comment) DodtnhoiT RM.
J Bo~t Joll1t s~"""' 1996 Jun;7!(6}:968. Cornmt"t on: PHARMACOXtNrnCS Receptors, Dopamlne
J Bonc Joint Surg Am 199$ Jul;17{7):998-1002.. D 12.176.543. 750.600.300.400+
EIT..:t of ketorolae tromettumine on bl~din.11 a~d on The phUm)cokiMtic and ph&nnacodynJmic inttfa>:ti<lns D 12.7 76.54 3. 750.720.300.300.400 +
requiremenli (or ual~e10!1 af'lu total knee auhropluty b<:twen ~he }-hP?~.gen.uc inhiblt?r lellton utd the 11
~:~~;s,6~;;.';'_;,'h~~;!~t. ~~, ~ ~: 1~:~: ~:~ ~
Jul; 17(7):99&- J 002.
mt ~~~-oWtC~ ~~-ht~.~r ~~.':~o~.~~i~~s~-i~u~~~~i
1:112*24
X Dopamine Reeptou
XR Dopamine
NSAIDs, Co~-2 inhibiton. ud the gut lt<Uer; commtnrj Phmnocokincticl lnd j,h.a'"!"acr:::<Jynamics of UpouHn fter

~'Uts912{Jj~~l ~~:~..:'; "!n~t t:~~~ '9fhF' A~~~ 1 t:i!J~m ~~~ ...~~ . j C,',:"~'=.c!f 1~9t;~!y;3~W~I~m~~ Receptors, Dopamine/agonists see Dopamine Agonists
Receplors, Dopamine/antagonists & inhibitors see Dopamine Antagonists
16;)4(,($974).521-2. Comment in: Lance! 1995 Dec
16;)46(!990): 1619. PHARMACOtOGY
NSAIDs. CoJ.-2 inhbitou, ond the gul ll<t!er; commeMj I)Sinc .OCCt)1~1icylte . (l-~SA) .Uenu~t~
Vane JR. l...ulttl 1991 Oct 21;J.t.6(S982).110!-6. Commen!
lnha/N
hisumlne-lndlletd brood1oconscro~uon on ,.,thmL Cnm Receptors, Dopamine Dl
on: Li.ncet 1991 Au! 26;)46{8974):!21-2. N, et ai. Alluo ~~~ !>hr;!l(3):1S7--6l D 12.776.54 3.7.50.600.300.400.400 D 12. 776. 54 3. 750.720. 300. 300.400.400
{Stnitivlty to acetylu icylic ocidl Elvtrhnd HK lnfluence of indomethldn on bone turnovu rclted to
Tld$akr Nor L.uttroru 19"% Ft& 28;116(6):7!4-6 {21 rd.) ortl>odontic tooth movcment in mini>ture pigl. Gi11nu D. 93; DOPAMINE-01 RECEPTOR was inde~ed under RECEPTORS,
{Eng. Abl.tr.) lNor) ct aL "'" J Ot-t~e-4 Dutof&<lll Ortl!oJI IW5 O..:t; DOPAMINE 1982-92
10&(4):361*6
CHEMICAL SYNTliESIS High-do.se tumot necros!s (a.:tnr lpha produea 10 X Dopamine Dl Recep\ors
Diuyhpiroj2.4Jhepttncs u oral!y ativt, highly .sete;;!lvc lmpiment of hJmttcr d1aphu~ _co~t~actllot)'.
cydoo~gtniUC-2 lnhibitors: synth01iJ and Attcn~tion with a prostlglandon onhb1t0r. Wdco~ 1'. et
ltruet\!rt-ICthity rdt!loMhipL HI1Ulg HC, U 1!.
Eff~t'::r ~u~t:f~' me.:~~~~~~ ~t<lt~~!e~~~~:, ~?l~i~;~dfn
3 Receptors, Dopamine D2
. J Mt<l Ow111. 1996 Jon $;l9(1)U3-6& D 12.776.54 3. 750. 600; 300.400.500 D 12.776.543.750.720.300.300.400.500
~ :!f,~. ~::t':CPtu~:'.t~ ~"'je~V!t'~:"1;}"'g~o;
De10isa, synth01is, lnd bioch~mlc.al ~fqttion o( 2 1

!':,~~~:~~~~ s~~:~=~~~ui:k~~bi'S, .~r 1f'o1hgbndin 56(12):160)-10 93; DOPAMINE-02 RECEPTOR was ndexed under RECEPTORS,
DOPAMJNE 1982-92
J ~hd Cbe111. 1!)96 Apr Jl;J9-(3):1692-70}
X Oopamine 02 Receptors

FIGURA 63 FIGURA 64
Exemplo de entradas do Cumulated Jndex Medicus ( 1996) Exemplo de entradas do lvfedica/ subject headings ( 1996)
162 JNDEXAO E RESUMOS: TEORIA E PRTICA
I . MTODOS ADOTADOS EM SERVIOS IMPRESSOS DE INDEXAO E RESUMOS 163
Uukemla
Ltubmla by lmmunologlc Muker (Non MeSH) Colquhouo J. Dental caries among children in New Zealand
Ltukemla, 8-Cell {lctter; commentJ Community Dent Oral Epidemiol 1995
Lcukem!a, 8-Cell, Chronlc Dec;23(6):381. Comment on: Community Dent Oral
Epidemia! 1994 Aug;22(4}:226-JO.
Leukemla, 8-Cell, Chron!c C4.557.Jl7,150,125.2511 cun.l.
Leuktm!a, Pre-8-Cell C4..557.337,150.125.650 Co!quhoun JP. Hearlsink revisited. Aust Fam Physician 1995
l~ukemia, Mixed-Cell C4.557.3l7.150.500
Oct;24( 10): 1964-5
Leukemia, Nuli-Cell C4,.557.337.150,.55(1 Co!quhoun JP. That was lhe week that was.
Ltukemia, T-Cell C4,.557.337.t50.800 Aust Fam Physician 1996 Aug;25(8):1333-4
Leukem!a, T-Cell, Acule C4.S57.337. t 50,300,100 CUJf.ln. Colquhoun JP. The index theory and the magic of medicine.
Leukenda-Lympbtlmll, T-0:11, Aculc, Aust Fam Physician 1996 Jun;25(6);97&-9 .
HTLV-J-AM<>Ciated C-1.557.337.150.800.100.300 Cl.11l..lll. CUH.llJ. Colquhoun K see Mahmood R
OO.tll.~.
Leukemla, T-Cell, Chroolc CU57.3J7.t50,800,l50 Colquhouo KO, Timms S, Frlcker CR, Detection of
Leukemia, T-ctll, HTLV-11-Auodil.l~ C4.557.337.150.W).350 <."l.nuu. cunm. Escherichia coli in potable water using direct impedance
CW.Ill.W.
Ltukemla, Experimental C4.557.JJ7.37l CU\'-5.11
technology. J Appl Bacteriol 1995 Dec;79(6}:635-9
Alian Leuko1ls C4.5.57.337.37Ul6 Cl.7UJU, Cl.ni.U~
Colquhoun MC, Waine C, Monaghan MJ, Struthers AD, Mllls
CUIJ.5JI.
cuu.no
CUUJ.
cn.nut PG, Jnvestigation in general practice of patients with
Leukunla LUtO CU.57.3J7.J72.5g.f CHlfJlL suspected heart failure. How should lhe essential
Ltukemla 1.5178 CU57.337.372.60l CUIJJ.ll. echocardiographic service be delivered? [edi!orial] {see
Ltukeml11 PJS8 C4,.557,337.37l. 782 CUJfJ)I, comments] Br Heart J 1995 Oct;74(4):335-6. Comment in:
Leukeml:~, 1-'ellne C4.557.337.38S U71UIJ. C:U.IIUN Heart 1996 Jim;75(6):642; discussion 643. Comment in:
l~ukcmla, Halry Cell C4 ..557,337,41.5 C\J.40t ..IJJ. ClOMUU, Heart 1996 Jun;75(6);642-3. Comment in: Heart 1996
Leukcmla, T-Cell, HTLV-Jl-As.rodated C4. .5.57.337.41.5.700 Cl.71UIJ. -'fl.ln,
Jun;75(6):64J. Comment in: Heart 1996 Jun;75(6}:643-4.
C10.1ll.4U.
l..tukemla, Lymphoqtic C4,.5.57,337,428 CIJ.60ol_l\$. Dt.uJJU. Co!quhoun MC, Walne C, Monagban MJ, Strulhers AD, Mills
l..tukcmia, LymphoxyUc, Acute C4,557.337.418.511 PG, lnvestigation in general practice of patients with
l.euktmla, B-Cell, Acule C4,557.337.428,511.100 CH!l.lll, suspected he_art failure: how should the essential
l..fukemla, CALLA-Poslthe C4.557.331.428.S11.l2S echocardiographic service be delivered? [editorial]
l..euk~mll, Lymphoxytlc, Acute, LI C4.S57,337,42.'1.51 1.400
l..tukemla, Lympho.;ytk, Acute, L2 C4,SS7.337.428,51 1.410 Br J Gen Pract 1995 Oct;45(399):517-9
Leuhmla, Mh:OO-Cell C4.SS7,337 ,428. .511.500 CUlUJ1.
Colquhoun S see Swa.nson C
Leukemla, Nuii-Cell C4.S57.33Ml8.Sl 1.550 CUJJ.lll. Co!quhoun SD. Hepatitis C. A clinicai update. Arch Surg
leukemit, T -Cdi, Acute CU57.337.428..5t 1.300 CU!l.lll, 1996 Jan;l31(1):18-23 (49 ref.)
Uuktmii-Lymphoma, T-C~II, Aeute, Colquhoun SD see Imagawa DK
HTLV-1-As.sotllted C4.557.l31.428..511.800.300 C1.11l.llS. CUf1.ln.
Co!quhoun-FJannery W, CarruJh JA. Diet-modHied se.\
CN.IJUIJ.
1-Eukemi~. Lympboqtlt, Cbronk C4.557.337.428. .550 hormone metabolism: is this the way forward in recurrent
L~uk~mla, DCcll, Chronlt C4.557,337 .428.550.250 CU!l.lll, respiratory papillomatosis and squamous carcinoma
Ltukemla, Prol)mphocytlc C4.SS7.337.428..550,675 prophyla:ds? J Laryngol Otol 1995 Sep;I09(9):87J-5
Ltukeml1, T -Cell, Chronlc C4.SS7 .337.428.550.800 CUH.lll.
leuktmla, Ma.st-Ctll C4,557,337.0 CUH.lll.
Co!qultl WL, Zeh MC, Killlan CD, Cultice JM, Effect of
Leukemi~, M)'elo[d C4.S.57.3J7.539 CJJ.l71.ii'O. C\J.IOUU. debt on U.S. medicai school graduates' prererences for
C:MIJ..f\J. family medicine, general internai medicine, and general
pediatrics. Acad Med 19'16 Apr;71(4):399-411
Cols Jlmnez M see Tuneu Valls L
Colson AM see Bras.seur G
FIGURA 65 Colson AM see Meunlet D
Exemplo de entradas da estrutura hierrquica (Tree structures) do Colson C see Hublel C
Colsoo KL see Zein N
Medicai subject headings ( 1996)
Co!son P, B11illy C, Houssler C, Electric linear dichroism
as a new tool to study sequence preference n drug binding
c e mais especfico de assuntos. A figura 69 mostra entradas d? indice .de assun- to DNA. Biophys Chem 1996 Jan l;58(1-2):125---40
Colson P, Damolseaux P, Brisbois J, Duvh'ler E, Levecque
tos de 1993, que emprega tanto descritores controlados (em ttpo negnto) quan- P, Roger JM, Boullllez DJ, McKenna P, Clement J.
Epidmie d hantavirose dans I Entre-Sambre-et-Meuse:
to termos de texto livre (em tipo normal). O ndice refere-se s entradas tanto n.o anne 1992-1993 Donnes cliniques et biologiques.
volume anual (nmeros que comeam com A) quanto nos fascfculos mensms Acta Clin Belg 1995;50(4):197-206 (Eng. Abstr.) (Frel

(nmeros que comeam com M). Observe-se como uma das e.ntradas da figura
69 relaciona-se com a entrada 073654 da figura 68, proporciOnando acesso a FIGURA 66
este item sob o ponto de acesso alternativo BEAM PLASMA INTERACTIONS. Exemplo de entradas do ndice de autores do Cumulated Index Aledicus
Muitos dos ndices impressos (mas de modo algum todos) basetam-se em
ndices classificados
alouma forma de vocabulrio controlado~ um tesauro ou uma lista de cabea-
lh~s de assuntos. O vocabulrio utilizado pelo Engineering Index o Engineering Existem basicamente dois tipos de ndices classificados. Num deles, as en-
. Index thesaurus. Tais vocabulrios controlados so de grande valia para quem tradas aparecem sob nmeros de classificao altamente especficos extrados
estiver consultando o ndice impresso, principalmente em casos onde o prprio de um esquema de classificao geral ou especializado. Este foi o mtodo ado-
ndice inclui pouca estrutura de remissivas, como acontece no lndex A1edicus. tado pelo Librmy and lnformation Science Abstracts (LISA) at 1993. No LISA
as entradas eram dispostas segundo um esquema de classificao facetada dedi-
cado ao campo especializado da biblioteconomia e cincia da informao. A
164 INDEXAO E RESUMOS: TEORIA E PRTICA l Q. MODOS ADOTADOS EM SERVIOS IMPRESSOS DE INDEXAO E RESUMOS 165
figura 70 mostra algumas entradas relativas a cederrom. Observe-se como a
notao relativa a bases de dados em formato de cederrom (Zjjc) subdividida 9apt.te Nsal ptanu. A ronsderable ltact.on <jltt.4
He ga1U O<l!.olla at <oom terr~c&M&, ;n.pli.r>g lha!
pa.n.meten al IO!:O,.s: th~ "''"' bum-outp"l e<'-etW
too-200 J {l. ~ 1.054 Jl.m) ltl :)-ns pulsa. 'lergen("e
:r.et arereta~vely mobole ons<l& \l'lll l&rt<:e. {},~tf>OI appro<. 2 x 10 rad, COM< as\ ta!JO ~wrox 10". POWII'
por meio de notaes de outras partes da classificao (Rn, Vtic), a fim de ofe- ~~wact) 32 Reis_ Er>gHh. de~"t)' at lhe target sullac. appro1- 10''-10" wrcm.
lhe <f.a9r,:..st:: t:--nm outpvt eMrrt 1020 J {lo.~ I.
recer maior especificidade, e como uma legenda textual empregada para ex- Cr>O<. w. (POI\ang lnU oi Senca a.-.::1 Technolog'f.
Pot>ar.g. SOUTH KOAEA.): Kim. C.; l<ar>g. H. Surf Sei
0$1 )lm) &nd SIO J {l: O S3 ~m) '"O 3ns pulse. de
ver~enet appro<. 101.10" W!cm>. Ou ~'m <n th's
, 21H n 3 feb 1 1993 p 323-335
plicar cada notao especfica. A figura 71 apresenta exemplos de entradas do e~r'.m~rot 1s tG siOOy tht d<~erent as.pK'ts oi the !C f
p,-oeusn i1l 1\41 Qe-Oflltll)'. Tn& ma'n I$S~H or oor
~13-651 Llghl !Kintfltlg 11 ptobto of ttatmOdy st~ch.s ara hyd<od)'N.mic npe-:!1. lr>cl\Jdf'IO ~ce!er
ndice alfabtico de assuntos, inclusive algumas relativas aos itens mostrados n~mk.; quanll!ln In 1 bln.uy mlrlun. Tne avth0/1 a!on elfQer>cy, h?"Hiocil)' lmpact In ca~dt tar-
1\l.ve Ylown recen~ how Rl~!(flBn:\QI,.nn Ggl'>! {le!$. hydtostabd,ty, and X-ray physlcs-conversicn et
na figura 70. Observe-se como os termos empregados como legendas textuais ~~af.-1"9 un be us!N to erlract cena>o ti'>efiT.OOy foclency. heat tri!JUfer. ~.-.::1 Xr~~y-tl"rien tatc;~ets_ Reis
Nn">C quar>toties oi a b<n.ory mxture on an awro~i El'>{flh. .
na figura 70 tornam-se pontos de entrada no ndice de assuntos. O princpio mate way. A.n awtoacll whrcll yie~ds "UiiCI nw.1s ls -
d<l~bed Mre. ~hough il re-Q<ies ).nawie<lge oi ad
Bo1ot:O. V.A. (Braneh oi l<yrth.J.tov },tom<: E'"'!rgy
d~l tl>em'<Od)"roamC data. Thrs intorm~t!On can be 11\11, Mo~ow, RYH;,); B~r:>Mlly, UI.; VelJ<o-oich.
adotado o da indexao em cadeia (ver captulo 4); cada nvel da cadeia hie- oora.ned e;lher l<om <j!},u e<!)atii'T\~It 01 ltom a }, L: Ga.rklv. V.V.; Gotw~. S M.: Goltsov. },_Vu;
~~rmodrN""'= model pre.:t>on- Since wa atB d.al- Zl'oulhu~a. E.V.; Z:a'rja!eu. s.v.: Kondras~o-J. vx;
rrquica indexado a partir do mais especfico at o mais genrico: "J .,..,Ih a mode! syslam 11\al eM bs deKrbed b:t a Kov.tl$ky, N.G; Perg.amerot, /.l_t; Koshevo~ MO.:
'"" dar Waals equat>On oi Mal~. thal IOOdal >I prO R.,PU()v, },A_; ShiU'>Q"I, AS_ L~S!f Part Bums V
le,e<.l 1">415. lho luulls fcrll"HI esmo~ (QlflpiH$il:l.li 11 n 1 1993 Ja~anUS Syrr.poslum on Phys<es of
MA&Mtobydrodynamk:! lf ICl a He Xe mi.-tvra Oblainod in 11\lS w~y trom 11->t 1-fg.'l POY141 lasu Matlll lnarocticn, Kyo!o, Jpn. p
ur.:SauPtacze~ r'!>O &tt ln 9QOd agreome~t w.rh cal 127-135.
See also (u'ai>OIIs (Edo!ed a~thof abslraCI) 27 Rls. E~91s.h.
Plasma (Physics) 013-&SS Hwvy4on-dfivtn ll19fl-t 101 omllcat..
~ },r,en {FOM. Nnstan:lam, llet~): Wegd~m. Ga
)>!asma waves nrd H_ Firpd f'hasll EQ<Jifib v 77 Sep 15 tsn p 235 !nutll conllr">tm-..1 lu&lon .xpHlmM\1. Two re-
Syncbrotron radiation gin-.u oi hydrc:.djnami evoMoen ar~ lwnd "' lhe
Alphalorque fortts. P. Graneau. bibl il dia.gs Eltctron
Wirel Wvdd 9S:SS6-9 Je '89; Discus.sion. 95:875-6
"'
013552 Rol of th bulfff g:n In lllt Mf luar
ana!'(3is oi tl>e perlo<mance oi smaO-scale h~a...,..;oo.
driv&ro tarets. On.o l6.1ds to hig/1 dansJf)' )r.:l hogh
tQrTIP<HS~ ,.;Ih ~ra!e t"'!)tr.tMO$ (3P910<t
e~tmkal vopoUr <Mp01!Uon of '!lk:on oJ.ldt.lnM
s '89 QaSU ara tommonlj uud il'l lli"ll f~m tl"!poS!IJOn
matolj 1 h V} for drivirg wer!)'u oi 100 loJ ror 0: I
mg de~te,;,.m!~: ... m II"Jel9.1g'lot.onun thM be lng-
Drop-on-d~mand operation of continuous j~ts using EHD no!hOdl; as a dluenl oi lhe ga muwrt IN" a a P\1'9
techniques. D. W. Hrdina and J. M. Crowley. bibl <"'} gas_ However. uvual woBers 1\ave d&lerrr,.....,d ~~~~~~{,a c~~r:e ~~~~ ~~~~~i~ct~n"!1S
IM rl1uence OI Ih$ l>u~er g.3US 0<"1 lhe Mm 9'0.,..th small as I% 's oblait'>e<l Tht l!<:O<>::t 1e9>mt lea~s lo
flow chart diags IEEE Trans lnd App/ 25:705-JO JIJAg ,-echJI\iim .....t'l!eh tl;u CO<'IUQ!Jei>CU ICl 1~8 Mm vel)' h'gh IO/l\IW3MU in ths cer.tr3ol P'-'1 oi lha luel.
'89 P'opett'U- In 1his pope. a stOO)' o! me lnf!ver.:e oi
I''P"' ~sed as lhe rue1o1 ~ow purg<r.g gn. on
wt-.1o tha rest of t11e lueiiiiN>!lS at~NJderlla ltrrer
atures (<I l<V). and !No de<"!Sif)' i.s ~'Y low_ e~ry
Hydrodynamics of double-<hargcd ions in a plane low r-.e so!.;on olide lo!m Q11JY1th and ptcpet!Jes os p<u -..h.ere_ Propagai&<.~ q>o~ion uMOt eur in this ca!.e
pru.sure discharge. D. .o\. Shapiro. bibl J Ph}'S D ffiled. FolmS ~re dtpes'le lrom sllana and r.trou_s ~cause of the sma.l optical Jh;c<ness oi t11e m
ede by "F-taseHndoeed chen-wea.t vapoo1 depos~ luet{<O.I <)'em>). {A.t,lhor abstcae1) 36 fieis.
22:1107-13 A& 14 '89 \(('0 ay p<H'}og the beam eNrance .,.;nOOw w.lh "'
pressed
E!lgtosl't
Iodine las.er creat~s plasma X-rays. B. Dance. Laser r<:! wlj s w'r>dow l>lm lorm~t.oo 01 po-....jH d!P()Sr
Focus World 25:26+ Je '89 t<n a~. bul atso led<.JChons ., ths H and OH M.trMtzVot. Jose M. (Madt<:l Poly!e-:hn'c Ul"liv. Ma
(01'-IMls and thus t>llner cpt.;al P":'!)ert'ei a<l dnd. Span): Pierl. M>~aia. F~Sialf r8tMOI v 23.., 2
Th~ magnetohydrodyn.amicaJ instability of a cum:nl sheel oclveve<l. (Aulh:lr absvact) 28 Reis. Engiish. '"'' 19;.3 p 2.1a-ns
cre.ated by plasma Oow. A. I. Podgomy. bibl diags G/IUI~l, P. (Urw oi V<90. 'ligo, $p3on); P<N. J;
Plasma Phys Conlrol Fwion 31:1271-9 JJ '89 07US6 Hlgh g1ln OT tus--1 lot hnvy Jon
F~rM"'l"el. O.; Garcia. E-; Seua. J_; loon. B.. Petl IMam fyaJon. In 3 paramet!le SMf:t oi reaetor so.ze
A persona1-computer-based p.acUg.e for interactive ass.ess- ~~. M. TtW1 Sod flmS V 2JO n 1 J\J! IS 199J. p OT larQets drNen ~ beams oi hu...,. oons I WJ.S
1>38. IC<.E.-.::1 tNl spai'k igncnon ar.:l high e~ergy g.a<ns can
ment of magnetohydrodynamic cqu.ilibrium and
poloidaJ field coil design in nisymmelric toroidal INERTIAl CONFINEMENT FUSION ~ ~~~~~-~~~~~: ~~:e~h~~ ~~te~~~~!~
geometr)'. W. P. Kdleher and D, Steiner. bibl diq W'.ll VI ir'ul eMI!If oi E~S MJ d!l<'>'e!e in I..SIO
Fusion Ted~no/ 15:1507-19 Jl '89 ~73UJ Analylll OI rbdltl!O<"I ayrr"llMtriutiO<"I In
~,ohlraum t11gtt. S)mma!li!atoon oi ollum<NI>)!'I
I"IS. ono-c.,.ens;onal enargy ga.--s oi G~400 ara pos
!.<b'e ., JP'>e opl""'-'m caseS- 11 o!. s~-own thn 10 obta<n
Why Extrap? B. Uhnert. bibl(p38-43) il diag.s Fusion I'Vt...,Morm;f)' b~ lherma\ rad;ation In s.pl\u1Cal hoN spar'< q-.t.on al\d Ngh tnergy .!1311'1. two ~~<ORS
Techno/ 16:7--43 Ag '89 ""'"" targets lus bun studie<l I)SWTI.l!ICaay IOl i~.do mu~ t>11 necassanly met' (I) a h?'> er-ovyh >mplos>O<I
rwly do..-e~ ioett>al eonl.,.,emMI lvson. Nu~ncal ~Wty. U,'l6.2~10' 11'"' D'T"'s. mvst be rud'lad,
Matbttaatb.l mode!. t~lcula6orls ha~e ~hown lha\ lhe ellect oi Xra~ rtt af\d {2)the luet CO<"f'Cenivn m~st b8 aecomp1Shed
lnduction eleoctrohydiodynamk pump. in a. vertical t-"T'<Ssi<ln on lhe ~k.lfr.itlllio<l u,..lot10\lly is quas,_r,ear ...,Ih a lo'N er.ough pusheril\lel mns tai>Q.
0n lhe NStS oi a !JlUI lhtOI)' 4 'S lour.:l lh.lt !1".e
configuration, J .. Seyed-Yq;oobi and others. bibl dia.gs ro.->-u,..lormty o1 each moda oi lhe Xtay soutce con- ~~~~-~!'~~~,s~tycl;'.s~t"~~~s~~~':~~r~;:~'d
J Heal TraiU/ 111:664--74 Ag '89 lo~nd aho !hat .,..Mn th! {p&l) ot
tar91=1 tere). !I wos
Mass lcanspor1 and the bootstrap cUJTent from Ohm's 1~'o~t.~e5=:;:ic~1e"J:.~:h:~~io~~~~ T~! ~ eo'd pa<"l o1 IM tGmJ)resud luel os 25 glo:m.
law in sleady-state tokamaks. J. s.
Kim and J. M. t""''!l'Jr3~0<"1 and lhe t~U...Oer of X-ray roms:ters
Tr.e secOI'd <.S ~~-e eHect oi $il'lgl! emss<OO. wt.ch de
lhe m:~.n po;bO<I oi IM !~el J$ '9"'~~d 0""'9 lO lhe
huW~g by 14 '-A~V nt~lrons emill~ rrom !1-.e- (eNral
Greene. bibl P/rum.a PhJs Contra/ Fusion 31 ~nds onl_y on lhe hQhlnum sffljcture (a.ru fil.M). hot reg,on. {AW41 abllla,t) :'l Rets. Eng\sh
no7:1069-94 Je '89 lr.e ltoord os !11e elfecl oi miJ~-.ple ce-emn-on. Ylh:ch
Bn\o, 1,1 M_ (MHPtlr<:k-lnst lur Ova~templlt. l.'u
>!. ~ill 10 IM rec1lfoca1 oi lha aerag-,1 C'C\IIatiQn
Reduction or therma.l expuuion in Z-pinches by elecuon '"""""""' o1 ra<Nti-J.o ;, a l">oNraum targal Tl>l!l paptl rh. G~J. Nud Fu~;.,r, v 32 n s Sep t9n p 1~15

beam usisted maanetic field seneration.J. A. Heikkinen QoU ptl.ct1Cal so!ut<Onl regardiflg lha re-qu'red num 15U.
t.!r oi conver!ars. N~. ir1 panJC>.Jar IOl haa...,. oon fv
and S. J. Karuunen. bibl Plasma Phys Centro/ Fwion s~ systems. !I !!i shown thal N~ 3 6 \~uahedron) >I 013&57 lo., ~<;UvltlO<"I ltruclurlll rN!tllt!t '"'
)I no7:1035--48 Je '89 1 ne.::ess.ary ard sutr>Oonl eond~ 10 ens.lfe t~era lCf tUdor~ dllft<"tn(fl -..11h lolCF tnvlroromtnll.
Mqn.e~ten b'~ syrr,metn("~! ,v~"'"'-1.1>0<11~12~' uru)_{A~t~ ai> MtivaMn ca'clht:.onl eoru.def'.ng 11\e nevton hui
l.!~'t) 19 fieis. EngUI\ and spewum ola ~rsl sln.1Ctutal vra~ (FSW) ~ at1 ,.,.
&.anner can deteoct brain dama.ae. iJ Engineu 269:49 ert-a! conl!nemetl\ fu.s~ /e;~.CIO/ {!CF) are petformed
!.l.rai<~mi. M. ttrul for la!.!< hchrlo!ogy. 0$a~~. 101 au slabla eremaills. UW'!J a re(ently ~-pgraud
"" 31-S 7 '89 v Jl n 10 Od 1992 p 11151124
.ipr>J l'.'ox;J Fus'Oi'! data base. s-~rlaee l doi& rale ard WJ.ste doSpOsal
O..lp Ja!.ngs {WORJ are emloye as <nd.:es to compue
Electronic balandng of mullichannel SQUID 013&54 bptllmtnlll ltotlng ollhh1lhtU Uobl~ lhe !"!rOl oi elcme<>IS ~1\d CC<'f<PIII& IM o:or.cei\lraloon
magnetometers. H. J. M. ter Brake a.nd olhen. bibl I<Uit<"IUO<"I fOI lCf IChlmU wilh dlrKI ond !ndi m-.4 COftUp<)<"<j""J k> N.r"ldH>" ptO.:tsS>OQ, rtl'l'><)!e
toe\ drht. n-.e piH~,,Jre'."iew is OI IM eop.or..,en!al ~cycM'} ar.:l !.ha:low land burial \SlB) ne pe~or
diags J Phys E 22:560-4 Aa '89 --..cslg.lt'XIS or> t~sep!a!.ma inteachon be!>g car mar.;e oi stH1s. vanalillm allo~s ar.:~ sJK:O" earbod!.
'~ O<ol., past years a\t},E. Eper:mants were cvn as tan.;j,d.J.It stnxtu,..t rl'tenal$ tus also lhle<> eo
~~te-d 0<"1 IJ',e -u,shen lao~ty. The raser s~tem o1 p!Oied. Tt\.11 rT'alenats w.\h !ess was.ellecf(l"'9 ~0<"1-
u,~en eons.sts oi lwo tl1arvto;IS w.th Ol.llpt;l bnm (trns are ~Mt,ed, ard tne ~t~fiuence thal ""P""'"~e!.

FIGURA 67 FIGURA 68
Exemplo de entradas do Applied Science and Technology Index, 1986 Exemplo de entradas do volume anual do Engineering Index ( 1993)
Copyright 19815 by the H. \V. \\~!son Co. Material reproduzido om pemli;s.!o da editora Copyri_sht t 199) by Engineering lntbmmion lne Reproduzido com permisso de Engir.eering {~formation Inc.
166 INDEXAO E RESUMOS: TEORIA E PRTICA 1. METODOS ADOTADOS EM SERVIOS IMPRESSOS DE INDEXAO E RESUMOS 167

Zii<"RaN'a.k-CD-IWML O.lt llouots. W~Do. .MT'ricft..


~ UfU U/5ll9
Tbc CD-ROM m.arhlpboe: produoer's pcnpc.;tivt'. Chrtoph~r
Poolty. Wllr- Lib,.vy Bulldilf. 62 (4) O 87, 2426.
Cofllributioo to a specid hu.1e devoted in part to CD-ROM. When
]&SU dis.e te<bnology w.u finl Jnuoduc;:l to liburiu, liburian' roeoanis.ed
1bc J.IUI pouibilities or tl'le medium, espc.;:il.lly iu vau nonJC csp.o.city.
Eu.millt$ tbe- maj dirrcrcnte:S bl;twccn prinl, online and CD-ROM vusions
of 1M= s.amc: dat.1 N5c .... hkh fali in J key aruJ: contcnt, urrcoy Of updatc
frcqucn<:y, and priein&. Di~ CQlllptlition in lhe mukuph.ec and tmvins-
iKS thu the future fo.r CD-ROM in libfuics is uce.llcnl with more producu,
mOre M'*' producu offcrina combinations o( dau bues, bocuer software and
netwo.rkina S)'$tetrU auilabk to ilirnultte the arowin& w.c of CD-ROM pr<>-
ducu. (A.O.)

ZJjcR.m-CD-ROM~o. O..u M-. r.t...-11.- Mn"lu:L


c_.~, .-IJJiL P,ycUT 11/S:WO
Ju..nifyina CD-ROM. Ralph Alberico. S111afl Co,.,purus I" Lihradu, 1
(2) feb 31, 1120.
C0n.1idcn dau bai-C$ on CD-ROM in tunU o( (:Ool\.1 a!>d bocncfiu, by
cuminina Pt.ycUT, .n ablxevi.ttcd CD-ROM vcnion of th.c PsyciNFO dau
l::..ue. Pt.ycLIT w.u one of thc flnt CD-ROM dat.a bai-C$ and is on~: of the
be:u and onc oltb.e moJI upcruO-e. Compuu the CD-ROM Y(nion to print
and on-line produrn and $\r=-- th..ot u tbc n11mber o( uJ.en yow f'OCS will
decn:uc. {P.B.)

Z~Vtk-CD-Amb. Utet..Stm- Wn-fU~~ 8-8/SJ.II


Entuin& unb..utcrcd tcrritory: p!JIIin& CD-ROM in pl.o.c<:. Nancy
Crane, Tlm.ara 0\lrfe-~~. Jt'ifJM librtuy Bufldilf. 62 {-4) Oc &7, 2830. iUilS.
Coauib..oton te> a sJ"l<'clll islue <kv61cd in put to CD-ROM. Oiocu..ues
oo~tioN tbn nd to be r:t.u.od bc(OR implcmenti111 cn-dllSCr CDROM

and offcn some p1opouls u to !"IOw :10lutioru may bc fQ.Und. Theu includc:
1$.$oe$SnJ the cn'Citonmcnt; h.oic.e of 1 CDROM 1y11cm: componcn\J nc.cd<
in scuin1 11p 1 wod.nation; vcr.ci<)r scrvC~; plaement; \IJ.Cf eon1111inu; tuin
inJ for $1Ching; 1\atiiliC$ an-d on&oinJ u.~oeJ.~ment; dfocu on st.df; and
dcsircd futures of CO-ROM J.Crvic.es. Thc ruiMllc for cnd-uut CD-ROM il
preuntcd. {A.O.)

FIGURA 70
Exemplo de entradas do Librmy and !nformation Science Abstracts (antes de 1993)
Reproduzido com permi>so do editor

Cost benefit analysis, Information services, Databases, CD~ROMs, Computcrized


information storage and retrieval
Information services, Databases, CDROMs, Computerized information storage
and retrieval
Databases, CD-ROMs, Computerized information storage and retrieval
Computerized information storage and retricval (esta entrada mais genrica no
aparece na figura 71)
PsycLIT (o nome de uma base de dados) na figura 70 no foi um termo de
indexao genuno no LISA e, por isso, no deu origem a uma entrada no ndice
de assuntos, embora tenha originado uma entrada no ndice de nomes prprios
que separado do de assuntos.
Enquanto o LISA empregava um esquema de classificao especializada, ou-
tros ndices impressos se baseavam em esquemas gerais, dos quais a Classifica-
FIGURA 69 o Decimal Universal (CDU) o mais comumente adotado.
Ex~mplo de ent~ad~s do fndice de assuntos do Engineering Index ( 1993) No outro mtodo classificado utilizado na organizao de uma base de da-
COp)mght O 1993 by Engmtenng lnformatiol lne_ Reproduzido com permis5!o de Engineering Jnfomlation Inc. dos impressa, as entradas so agrupadas sob categorias de assuntos relativa-
168
INDEXAO E RESUMOS: TEORIA E PRTICA 1. MTODOS ADOTADOS EM SERVIOS IMPRESSOS DE INDEXAO E RESUMOS 169
mente genricas, proporcionand.o-se acesso a assuntos mais especficos por meio O Chemical Abstracts assemelha-se ao LISA porque as entradas so organi-
de ndices. Um exemplo o LISA atual. A figura 72 mostra as categorias genri- zadas sob categorias e subcategorias temticas. O ndice de assuntos, no entan-
cas de assuntos sob as quais os resumos foram organizados a partir de 1997, e a
to, bastante diferente, estando baseado no princpio de articulao (ver captu-
figura 73 mostra exemplos de algumas entradas. O ndice de assuntos ainda se lo 4): cadeias de termos atribudos por indexadores humanos so manipuladas
baseia em processos de indexao em cadeia (ver figura 74) embora no mais
estejam atrelados a um esquema de classificao. 1-1 ~KlPAM>ll<"""-'lU"-~'<O<UJOOI .,,,, ..-aom
I t t~!<lJ<:'Tl<"""-'"IOIIATA!tA.'S., ~~- 'l!fVA>...,....;fJo<L'<'f
!11 !UlH"F'C' '>I~ ltn!FJtlln<'lCU>IJ<\1<.7.'
lll l.O.~>H11H., tO.O L'O'OU[~llO<'(WMliUNJC.o.TlOI'I
I li n.-sA~Ul

CI).IQMo
I to 'llt>~Uilfh~,,U,\S,tm '"' t'''''"'"nu"'""""
'" n -"-OAI. '<.lf."'-f.,.taN"-"' t~mu.uno~ '""~~
1.~ "-Qfl:!.$1fi'< l"U !IHIA"ffi>.,l~><)l.ot'll<>'<'>'K
Couipo~ttoed c:&Uiocliaa 311 li
ltl
lll!:A.'<!l.AT~I"'
,, .. ~, ... ,,_.,._,
'"li ><.IUI<.L \"EUtf<O:>UX;\_ WI>KI-'f I'<RMn<"H<'O'OU.;
f111\ tut IICidn&: On-line infornutior. t I< L'<IU~>IAT!O~.,-.l\')CF.,
C0f11901tcrittd iM<JnNtion 1tonac and rdricval lll fJ\llt;.\fll,.,. A~1> n~IM"'; '"11 >Ffll..,..I"''UI(
422- .. 1, 911-9'1),1j..40-Jj.U, rctOOal 4SO, 1038, 2&40, J7U, JlS0-375! IIJ UL.....Y A~ li INH11.,n<>I<>TAT> ll.t~n<lo::~
ltt!rl)' (&ci!itioea; OJ\1111<: iJI!OI'mltOII lU Hl'f.,11r>TAJ7 lt I Wl<l11~;1U11N
WU-2091, 1091,2612-2617, JIH-3165,
retricvd l7G4-310S J.-t ~,I.XfllDOO.la<;laxT'll.! ll lt MllXUl'lllf.'
1~9- M74, 4~22-026, 4699-UIO, J.l ..of-UIUIHAJ\t;< lU ~n<!CUlDO.OS
H19-H41, 6241-6260 Hypcrtut: On-!ine infonnation tetric>al 6417 j 11 /i>iOO><.O.l U!IO"AIJ~ A-'<!>,TATf Ul<U>!1.' Ut l'f.lHI!O.l'<~II>TII>I.
lnhu.uc 1)'1tenu; On-Hnc: informUion rctrinat j ll flkUI: UhUltl., t!tl t',UAUX>I'l"0.1.."111Mnl"~'
Comp!!luil.td iform.ation 11onte alld tciricvll: 6261 ) t) A),IIf... IC UUV..Jb U<<>T~l<>Ol. U[<fAlll" 11 u J.<x.>l'fl.Ann.u.Y>.!.l~'l'l'''-''~''U<""-...t>C rmmo.
Comp<Srl- lril} On!iDC Wonru.tion La"" opcK:al diK:Io: Comp.~tcrUecl infomutior.
Jlt t;(\YJ.lNJ.IJXJUIIUmll I! l_t t:.<TAIU:t1'>\; ll'l-1.1
j }I I.Jl ..... Jif.~OfOTllUOr.A."'ZAnO"' .V.l>fll\~U U!iU1!b lll> f~l<l!CJ<iUl'IIIC!l.....:llyflft'<
retricval I HO, 4702, .(1()4, SHI- 5322, ftot&IC ttl<l rctricvll 971,5318 _I!~ ,...r<;W.>'l~;[(:T troUI!I'll. lf>ol".l>(H uuv.1r;;; UI\ IU~I'Ali:ATALtx:;llf.>,
62-620 J 1l .'<>OA~ ~1-h<J$. f~NSf"-' UI!U'-"-' I! i~ <.<....M'ff~oUJ>CAtLt><a>f:'
1...utr optK:al di~a: Uu fw Periodicall: Subjcct
Compo.!teriwd infonn.ttion. 1tonrc al>d n:1ricvtl: itl<lui!IJ 2061
}
)IV
l~ Htti.I~Sffif.< ~nUUJlf.-.
~LNCE lTUI>I<>UX>\'.J.IflJIU"i[tJhl.'.l<Jf.'
111' IJNU."~V.TAt>::o<a'T.<
UM U>lt>I.IUTAU>G!<Ill
Comp4riM'! >riflt Oa-linc IDfOI'TII.Itio... tttricnl M11lu"ple di~ bue tun;l!u: On-!inc JJ ~I0<!\7., 1!\'1 "1>fXJNt
<IN/ Priatcd infomu.tion ~ 5323 i11fooru.tion rctticval 2643 Jlt NTIOI'I.-O.lAJ<\1<~)\lJ).).[JN'T Al~l!!YJ~ til IWlO~"l>J:<I~U

Comp.~lcri&cd >~lit enalotu" 5292 moo.r 460-479,


On-!ir.c lnformation
Jll
JlJ
h\NNT"'"Oll\7:'<
<.IWlOIMOtl\"1.,
ll!l 'l1~fJ.TI~1<fX~
!! !! >f.l.lOliNOl
Comp.~tcn 491 ~49~. 1052, 1591, 26H, IOJ9-JOJ6, ISSI-U&O, 2108-2121,2623, Jl< AKI-H'>"T-'Of (JrnUOOt.\"'lZ.O.f'ill"' A'll r)l\....ll AIOH'o'E.' UI! l"l>U: [.}.M_\tU.<Of.,o.NlJ "'T7"-'
J206~ )201, l16S, 4291, 4UI--U3l, 6434 2626-2633, 31U -3195, 3727- H i, Jll .'Ol!Nll/J<I>fii.J.I.UOliVJ>; l!!< >Jl<JII."JitfAtll-J.-<>ll-"'''
Compwtcn: Ubnry cqvipmu~l lOS, 1831, Jll> .'i'fCW..t'l\fl.cTAJOhvt~ tlf rnr.v.nJ
42~6-4279, 4766-4&09. H. B57-H70. 311 W\N:IJ>t< ll y, UA\.'If!CATIOr-1
1391 ~1)92, 3451- J4S1, 4-499, $067, 5199 6)21-6112 (t U..UYIAlA!<t>IAU.S llO LlA,'lli<:All<l".'Oif... /)1
l)c)o;vmut <kli~uy: On-liM iDform.niorJ 1 UI\Ullf:' """ >T.r.'IU.~,.,nn.or lt-J'-" ll !lo Wt.triT7.>. A\.'i<TTII!Sl>UING
< fi 1"0.' C.HJW)f.H A~UYOI<';{; l'fOi'V. 11.0 O)Wr\'fUJZZIJ~110N.ITOUGf..L'<OUTUEUL
rcui~al UH
c... '-d\4 _ , . .
"'-""'""""
O.t.e boa: CO-ROMt: ~- "''-"'
<11
IIJ
"-liOOlUi\1.\0!fl\
\t>U.,>OCW<,;lOl'l-'>-
\,<I fCON<-'1.1>.: A.~tl (OW!<f~CW. A."'f~
l_<u ~-n...n'"''
Onlinc iAfonNliol\ r.triC\'11--4704 11< 1\'L<.'OCCU'ATl<~~.<l<"l>l'>" l\U '<JTI..'Alf;
CO<npo.~tcrUod aquiaitioru 1963 tlt l<'*Jt>UVICI'.< li H AlrTf>'UTlCTT::<T .A"'-'l\":<1.'>. AIITU"-'nC /"i!>fXI"<i_ W.L1i!M.
O.La bu.e:s: CD-ROM1: Computeri.tcd
Computcriled infOf~ru;tion OJk 3025 I\~ \N.l nA!NlS<' T"L\I'N.lTION
lnfonnllion llortJC tnd rc1rWI'Il 421-0, tl)U~N !tU ,..,.llOt:t;
lnf~t.n Mnieel: Dm. boa: CD-R01.h: uc Acnvmr. 1_1 \\ t!0-~1<U)>L..c;
COII'IputuiMd iA!orm.um tiOOitt alld n0-913, IS-42, 20t9-Wt, 261l-2616, t W LIGIIU.rtlON> l_i)\ llATA!tA."ll'ijl<t.if.\.r.O.U
rdrienl 5)40 l!S7-316S. )612-)47), 4223-4226, <l U<Xlll<U<T!>Ill\UY ti !1 NONWI>I.IOCo..u-ltK IIATAI<A.""-f>~TA!!A.\.1<.~

Of Bwi- i11f~tka: lnform.uit tervka:


4703-4710, 5327-SJ-40, nw-nu, t ll H<fU-1.0."-"" """ fllUl'O<:Oi'Yl"" .'S....'JU)i IJ t< ll\l!l10CUI'I1K ll>.TAI<.l>I.<
tll 10-"" UH 1>1.1,(;( I<AT.o.l!A.'S.,
6241-6251
DI.~ ~: OR-Iinc nformat>on rwi""*-1 471 :H JoU.naull !.11 T\UlllTUATAI<A.'lll
Rcfet'CI' 'IO"(rfk 2471 f>ala bala: CD-ROMt "-"<i Vtdeoditc$: ~I OU>AMIU.OlW.TT.ll.<l' !:\li Wl'l.nltltn.<.
IH W.TTIV.I.< a"JI't'lllNliJt IJll Ol<l.lh~>Y)<TIK
ComputttUcd lnfonnatioa 1\00IIC and \ U IUITIIAl< UY l.l.._:tiACEIJ'oll<\lo;:).l~HICAI. AlU <31J O~'U"f-I<>.TAJIA"'
Dou._ rclt'icv.d Wl lU ntJOIOOCAl..>.AAUH'''-l'AI'f"" II/I \>N; >Tillfll>l-,.T7_....
Dtta bues: Comm.~ndltnJWaes: M111-m.tdinc: \lt <,;o(YUT'f_._.nru 1.'11 a ... ,.,,
Sn fl/so ComputeriJ.cd bibliQir&phie rtC-Ofds I li Olllf.O fllHTTI> IIO<..l<WHT' li? L1>>uWh.>.TA!<A'f>,
CO-R01>-h: Comp.~t~riJ.cd infQI"IIl.ltiOI"I uon&e intcrfaoe: O:n-lifiC illfonnuion tc1ri~d HIS \ !~ SON ~AIN'T !o<ATTI1Al' 1n umfxi>L.,.;~mm~'\-,.lTW

and relrind 421-<, 979-91), J5H, Dali buet: Conlp.>tcriud lnform.ation IIOUJC I tl AI~>!OI'<>liA.l ....llllt.<l>. ""' IITHU>TOUGf.M-.TT"""
IM fJ.(O.O'><.: 1<111!.1. UtJ \ll>fJTir.O
2039-2(191, 261l-l616, lUl-3165, and rctricnl 419, 2606 ll'l WK><>fO'-"' ILt COHIIU<IC.O.IlO!<S~DL~J<>Ut.I.TlOHTlCH"".>..IGY
J612-J6H, 4222--4226, 410)-4710, o-.u buet: Compl!tcrir.cd 1ubjt induin1 I I >lll<;fCTh I< I \.ll""''l'l I~!K ..Tl\"
H27- Sl4o, SJ- SHS. 6241-6259 SJIJ 111 ".Xllli<Jfn(.f..I~N~Th'I!.UTTI!ll< H 11 ktNOll<.'
Dau ~: froc tu\ J.Un:bi111: On-tinc
I U \JI!_.....,.ffif.< W.lTIJAL< u 11 u,...,.trrn::'''f.SO:
CO-ROMt: ComputcrUcd informuion llora&c I 1J ...:lfNC:f.. TTO.UIDLUiY, UfJJILI~f. 1-l-\l'fiiAL' li!J 00"11'TU'
and rctticval: Co'"Pfi~{JOif wit~ On-!inc iftformuion retricvd 2136 111 lllllU<lMf.TO!':.."i.'-OlNTO!o<1:Tl:l<.-'<. ~'<Kll.'llTloJC. \<li ~fl'<C\1[
!< 11 1"-'t:n<ITIOi"'XoGY
information rctricvl 1570, 4701. H04. O-na buet: Full tu,! J.CArehi111: Onlinc Olr!GAI<\.lATlOI'I
l i ! ' O'<II><f.>v.TJ..._<
~I COOI'UAT101<
SJ21-SJ22, 62-6HS illfomu.tlor. relriCYtl 480, 1038, 26-40, 3741, Ali M.>.l<AGI... I.'<TI<JnH.l THA.kl"f.L'OI'f.L!l.'."-"f..._r.N'TJ 1111 t>K~TIJHtl.,nTIJl'>
CD-ROM'$ al'!d VideodiJCS: Cornpo..tcriwl 31SO-J751 ~~~ 11"'-"'Ct H ~~ TfUCO!(Wl'1<KAf10"' A-\.11 ll>O.>.JICATh'IG TFDIHOto.Y
~ll n<I!UC UlAT>O)>.'< l<l~ Ul'<fl'fU~
informuion IIOJIJC and ruricval 2093 Dua bo.J.el: Ouew.a-y flcilitie,: On-lin( "" OlllD: W.H.o,Gf,..ml'HCQJJI'lf.Al<ll<.ll-f....rlO~' 1\.0~
Commuxl 11111111~: UJ.Cr-1)'1t<m i~tetf&oe: infotmllion tctricnl )lO-l-HOS 1.0 u-.o.IY MJUL>IIK.I 111 tmMt:'l"
On!inc informuion rctricva! !SU D1t..o bo.scs: Laser opti" I di ~a: Comfllltuiwl H U.WU""t.> Ut .. ..,....,
l.ll 11..0Jim>KlAI<tlt>f.'l<:NOfU!<1UWI'\fiUIC">4~ l~i U'JI'YJI<:t
ComputnUcd informuio<l ttorac and ruri~d infonn11i011 IIOfiJC tnd rudcval 917, .SJU ) li I> !;'e' A~ll H.N<WAIDI U~l.UY h!OUiiN>." l'lt n!.'<Tl>;t.)'\~'U\HI'f<.A~1JI!OOL'>ll! ...>
4!9, 2606 Dah b.ascs: LaJ<r optieal di~a: Uu f"' 1u n'l~>m"- l~ll flll><T\Ml
Conocpu: Computeriscd t11bjt indctinl SJIJ Pcriodiall: Subjt indctin& 2061 u \-'1l-tlCU'.' t' !I I'Jl'<TI~tlHhTOI\" A'<!l.t~Al.\TK.U lmiiJ()<;V.MlY
Lf l.v.&T 'OD<H()(.OGt tb !t 11qU.,ITNU A~ll l~J[)"'fUI~;
frcc tut s.url!nJ: On-lint inform.uion Du buu: Mvltipte dtu buc J.C-JI~bc:s: .._ t TIUCOM>llwtC:..TXl~ l~!l Almi<>l\H!P

tnricval 21J6 On-line infotrnatloo rctrihtl 2643 ~~~ ~~uu.~ .~,. 11-Kf:'l"l'll
O.ll (OW>IIIT-L\ I~ 11 ttrMIC..Ino;.'<
Dua bl.scs: Onlint lnfonn1tion rctrioal AJ;\ ...:>n'I>'AH. Ih l~ UfTJONK ~ntu,lt!"'->
4l-419, 1019-1036, ISS8 -1580, ~H OTI!U w.o\l!olf.< I~ I~ IXl"-n.llst;
210$-2121. 2626-263!, lll2-l19S, M fi.C.K!'O ICA U.D<'l<I-1 !lo lJ A\~>~1\'N<.>.t lo!AllitA.I.-.
~-1 l~IO'I.ll'\U'I(<II>Tl<ll. l~/1 llnlAliCA,-n.'J
)727- 31-i, 4H&- 4279, 4769- 4W9, Sl44, ti A0~'Nl>0)>." ll.t ~AI<DlLU.'<I"G
HS1-S)70, 6321-6382 Yll (OUflTI<l!<l!f;\7U"MIHT t'l l/>-T,O.)(il
YIJ 11Trl-UIJ.l'O'.Al' >1 11 ll~<C.lTIO'I
li
9!~
>"10<.""'""'"'
ru.trAnc>.'l
U.t ~ilAJUGt.llfXT
11,4 OT't<Ufi.L'OG:lll.-~

FIGURA 71
Exemplo de entradas do ndice de assuntos do Librmy and Information Science
FIGURA 72
Abstracts (antes de 1993)
Reproduzido com permisso do editor Categorias de assuntos usadas pelo Librmy and Information Science Abstracts ( l 997)
Reprodu-zido com pumis;!o do editor
170 1Q. MTODOS ADOTADOS EM SERVIOS IMPRESSOS DE INDEXAO E RESUMOS 171
INDEXAO E REStnvtOS: TEORIA E PRTICA

sob categorias genricas de assuntos. O ndice de assuntos, descrito como um


'ndice de palavras-chave modificado', indexa os resumos sob palavras-chave
ou expresses que aparecem no titulo ou no prprio resumo. Tambm so
indexados os nomes prprios. A figura 78 mostra exemplos de dois resumos, e
a figura 79 apresenta exemplo de entradas de ndice, inclusive algumas corres-
pondentes aos resumos da figura 78 (por exemplo, black dropouts [ev~so es-
colar entre negros], class cutting (cbula na escola], compulsory educatwn [en-
sino compulsrio]).

u"'W~a~~~69. ~"1"i'l""''.
Busln<So nmu
srt CompM!t< 1 "',j.
llusln<Sll!\fomutiM Un~HI"ity hi>M<s hPJ.= C=d"n
uultn>lil'-9~hJ\~~( m:.i<fl>l>
~~~~~swphi~. s<~~.~,., ~J A''l~'"'""''
Ard>iH.I N~wpp<" lb:rofl!~n~no:
CI}-R(IM>l>!>h>.>Cs. n.'7-1lJ& f"l<oc,..->!iQ~. l.>t>rory m:>.tw>h: 69H
CO-ROJ.k 7lJI C:lnl<!!&ll Cout>dl ot Auhhu:l>92fl
~':.~::':'7t;;_r7l~t"~ """" t._~u. CIU<!ho~~.~otlot.al BIM!otrapiiJ: l!JW
Cu>edhtl-
llfh /((hM!ogy CQrT{'U'<S ll)hnd Ju.,lw
:!;=;~~!~~~ t,:~~~
~u 72!14
s~M<np~;""''
Witlldrnr:W
lnWJ!th.l d,_.silkton !-.om<
Co~~~bo.rZc~J~ - '~;'!(nit~ hbune Re-K.-.c
11
("!,_..,r;,,..,O<> S<l>(mu-_ 109-4
o"h"" d>lob=~: 71W-7201. nu; c-olltioru lobt>t)" motenlli 66-1~
Onhn.: d>Uh>...a.. A"'-' CD-ROM >l>1>h1>c< C'atd cot.olot~~~= 7fl7.\
1H4 C>lm1"-ri1911'"''h C"nporcfU<"J ,-,t>l<>~<J<->
I!UIIn...,;lnfomu!IM
11<1'ro,.tr1UI'I
'"n
RcuospccliWCO!)><r><o<> Tu <"'~rpo!<ril.-..1
C,~"f"'IIHW inlclli~--.:....._--.: c~>ldf\1(>:707~
r"''"'"" 1r..X
811>ln~ lobruln: I>Hh
CardiruliiJ rc:.trk!h>ns
A111fid>l ir.tdlo~<"''"' 7.1~'1
U....-ln!cmdllusu>o..">>lll(n<IN11<.,
(",~~I'U!<nr..-.1 infonn.>Hn<\ W!>rl<. />\~~ Cnrholu
lnft>ml>l.,~ Olr~ l.>bt;uy m:ilrlj:Cn>:nt
Busi....,., hbrarks
1>114
'u"l'''
,~~I'""Y hl>T>IK'<
l<l'ol)' t>lf: MY!
BU>in"'< muu_lnnlnt: 7.~~~~ Cor r dn<lopmonl
Ct~l'lf"-l!<r'f'l'lK>It<W. 7."Hl41.~ S!>lf. Hu>in"'' rn.>n>i<'"'''' Currr""'
~nli<>~i<w: 7U2
S<Jf!..->"' Ctl'fll':~r 1W~nlry; ll.W
t<UI"I>t-''"'"'
V~!o<
U4~
..U.-..1 ,~,,._~1'1- Rn~>nh
'-'"':/l;;:~:""'f-L""'P"'-'--'
(."uibbcu
llwln<>-.< nnno_ten><nl
Jua/J,. ArrJ ~<ft Anocric. R<e~I<Jft>l<~"'f'=t>lt<>n
C~np.llllc"> Afl<l -l~~cm>licn>l '"''~"''"""',
Bll>loe-. pl<><'e:>< oppliuU""' fnf<.--.n>l<<>ll WPc\" f>'JX~
7.\l.7 C."l"'f'Lioull-lol>rosunWp 1>7~~
11"''""" !!""'~""""'". ("<>m!""~'
Th~ r~.r.uJ.tion ol,ondll<"flnl ~n- .~, f r. r dij/;i!:tl ft!nhi 11n
orrft..">.!h'll>'
CAIUS1l~W
'-"'-'
;;~~~:~-:~.:~ '-''H.bu foi! r , (",,,.,,,.,,, ulolrl1 ILm, ~ 121 1'1'17. Busl.....,pr<><:""n-~nl(.lnttrill.l CAIU.IJnC<>Hrl 71'!~
<U Hc-..""~'"'""nnt t.'orp.tl !unn<l>)r>dto!ft<
t"ABAnt~"-": 71'1~ o,.-,.,f'>!l"'->lkoll~-.n.Jot<-1) l"'"'-ryt>H
{"Ali l<11trnallonal: t>Y~l. 7J!II
("ohk ld<,i<IM:71M.]1h\ {~utlux<
M"Coll.,;o, W""ro,...ln
FIGURA 73 t"ahh.rllo.lu"U' t .. n~~"' ''"'"""'. AnJ. c..nq-..-..- t"t"''f""<t
Np.n-,. Uo"w"tyl!~r.tnn J,J> ->Ttl><1"'~ ,-.;MJ'I'>.. Mor~<n. S<hn~ ~r '''P'"'
hlnnc"> .["NV)' "'"''~--.;m-:~1 ~7rl,
Exemplo de entradas do Libraty and lnformation Science Abstracts lthll}I>U MW>
{'old(cal Mtdl.l'.'iA: 7~71 ('ort,;rph.J
Reproduzido com permisso do editor t'l.l"7 tnru,.,ity, Alll<<t "'"/'''
(":uu,J,- Untwnoty h~nn<> "''-~""'"'"'' ),bf't
Ao~- WtMu ..-;t. l>'liK {".t<tl>a.-.dn.o.""'in~
Cliroml A"'-' R~lc N._.._-,J,,"-"~tn& 1-\"'"""kl~-.. N..,.-J
de forma padronizada de modo a proporcionar um grupo de pontos de acesso Cl">k!-."b, .AnJ 11<"~ I.Wnry"Uf'' <)"'1<111' )_\+I
uurcrul M~~ t"hl<>.~:ln.l
coerentes para cada item (figura 75). Embora esse ndice articulado de assuntos ~. ..... 1.\~\
l)tf:>lllla!htn (",~o""-t~,J '""" l'hnn'"f
rr\';o!>l'FV'"I'
( "lllotln~ <>dn.
aparea somente nas acumulaes do Chemica! Abstracts, em cada fascculo ''""'""--h<'l 7H~
l-'uM"-"M"'""'" l'ul>h, \'"'" -lhlcrru.1 71-J~
,..r ( ";otol"~"'n~ ruk
1"11"~'
1-'u~l"-
Mv>n< -11:.-ta,o,b Tn< 1-'llt'IJon~
semanal publicado um ndice de palavras-chave (ver figura 76). O Chemical 1-~ury ""-""t<''"'"' 11'17
' " (";,i:>J,'I'"'"'
1"\d,~u"': 7uq
Abstracts tambm inclui um ndice de frmulas qumicas (ver figura 77).

FIGURA 74
Outros ndices
Exemplo de entradas do ndice de assuntos do Librmy and Information
A maioria dos outros servios de indexao/resumos em formato impresso Science Abstracts
so variaes dos tipos j exemplificados. O Socio/ogy ofEducation Abstracts, Reproduzido eom permisso do editor

diferentemente do Librwy and Information Science Abstracts e do Chemical As inmeras revistas de resumos publicadas na srie da E~:ce1pta 1Viedica
Abstracts, simplesmente lista os resumos em ordem numrica sem agrup-los (Elsevier Science Publishers) tambm agrupam os itens sob categorias genri-
172
INDEXAO E RESUMOS: TEORIA E PRTICA
lQ. tvlTODOS ADOTADOS EM SERVIOS IMPRESSOS DE INDEXAO E RESUMOS 173
cas de assuntos. Os ndices de assuntos so altamente especficos. Todos os
termos atribudos (extrados de um tesauro) por indexadores aparecem em cada
entrada do ndice. A maior parte desses termos tornam-se pontos de entrada 110
n9ice, sendo os outros termos mantidos como modificadores. Os modificadores
so ordenados alfhbeticamente em duas seqncias: termos que se tornaro pro-
Nuufuh Oflllfl .
&mir~o_acid! of, o( AwtrlliJ, 1~161
<OibJ~ ICJd o.nd dthydro.u.curbio actd deln. '" by
dtcMorophtnolil'l<!ophnoltitm. IU>d
OU<lrometry, U3&1p
unntd, llkktl of, of Guoany, 66J22p
uro.f o~~~jd vilul:lifl A &C1ivily of, of f'iniU~d,
1
CIHnt_ntne, ~Dipn. of, Weruhuu Honty OIU!.(e oil
In nl111on lo, 2303371
dHulfo..uin'"' 'f.'""-
<n\l., for hydr01cn autfidt
umov&l roro lw-H, P 1~2lu
u .n.un doddu rontrol on, .-ith lh"Phot-~.1.<! l8H~:k
fu-ti!iur Upl .. .-ith ,.jth ainc 2J061.Sy '
~ft;!il t~ir~i14 in, $0~11/ '
l'!''~ hm_onu:o dt\1\.. in, by HPLC, 211~4)'
nltllfit&II_O!\IR ha.~noum aoil undu. nitrocon
, ftrhl11tr fo1ro dftct on, 19170f.t:
S..t.lumt

o(, llnd r:t


&ntioai~uive activity and t:ophtroll in Otve<lo
eff~t on, 72661d
u<orbic ui 111d uc~ in p.otl of, in crowth ud
developrnent . 21 t99b
o.a~um . diH-Lit, rind r,t.
ntioaidative actirity
~~t;Jophuota o Otvedo in reluion w.
Sattuna
Uhylen~ fourullon by, dufint fruit dnelopmtnl,
cx~mdt mt!.tb . in uhtion w. 21201 ..
ftr~1 19:;;pL with, ..;Ih potuo.ium rattt,
1
Oavonoid ctrcotidK nd .donotine of Pla uf,
h)T<.l:Unllvt effoCI and otru<lure of, 69120ro<
fltvono1d clycotidt-t of ~I of, iloluion &nd
llf<!Ciun tnd hypotoNove efftct o(, 189.c03n
ti)'Cotldtt from lunt or, Clllotid"' A tnd B u
189387t .
juice, .ucorbic ttid &nd urn in PHI tnd, in
ttowth llld devdopment, 21199b
juice, f'OI.Uiium fcrti!iur.el(rct 1.1n yield and
compn. of, 38196w
nuinaintw of wa.sl.<! ai, uuted with br ....._n
)'tu!, 633Sz
Puucolliu,. digli<IIU,. inhibition on
lhitbtnd1..1olo tfl't<:t enht..nc-emen by
Ct!bohydr&lt htty &cid ttl.<!n in, 661&
pol:~~r~lity inductlon in. by ni!rOK>tthyluru.
l.<!r~Mid, 1nd lUf"ROid IIJICOolide-t from 5-H82!
vit.unin Bu detn. In, by AlftrornoncJ '
lhof<IJto,.tlhanolca bi,.......y, 17186.3-e
tJ.ntuine
1/o;>mJ, enuty food con~t.leucine nd iloO!euciM
llld Vtlint 1nd. P "211346v
unM~in dotn . in. hy ot<:ill01. po!uoc- titrn.,
juiC"t, cuounoid1 df!n. in con01- of, by HPLC,
500~~ juke dull.<!ruion in ttltion to,
juio, (llltot-t llld IU~IOM of, 2112~
Pf<t~MJ~ Utn. o(, with ~ o( mkro.,.avt, P
pr~on of, tlhyh~>t---dUOmPf. ~mpnt. in, P
FIGURA 76
purHp[{;:(~JW"""'in A t..troUnoido dttn. in by
Exemplo de entradas do ndice de palavras-chave do Chemical Abstracts
tiwM~lurt of, ew.!!ntid oi! mlllu(. ..-ith, p Reproduzido com pem1isso do Chemical Abstram Ser.ice
voi:~J; c~dt dttn. in, by dittn. ud tiun.,
81
...... 1.<! .... \t! '''!"" pra"'"' of. ltutmtnl or,
PtfiWf/ou,. jgflrhlnt/llun ud activalt<:l tludce priamente pontos de entrada precedem os termos que so apenas modificadores
PIOoe-N-t in. U290p
e no serviro como pontos de entrada. A figura 80 mostra um exemplo disso.
Observe-se como a cadeia de termos funciona como uma espcie de minirresumo,
FIGURA 75
oferecendo uma clara indicao (na maioria dos casos) daquilo de que trata
Exemplo de entradas do ndice de assuntos do Chemical Abstracts
Reproduzido com pem1isso do Chemkal Abstrats Servi ce
cada item. Os ndices de assuntos da Exce1pta 1Yiedica so examinados com
mais detalhes no capitulo 4.
174 INDEXAO E RESUMOS: TEORIA E PRTICA } . MTODOS ADOTADOS EM SERVIOS IMPRESSOS DE INDEXAO E RESUMOS 175
A maioria dos ndices alfabtico-especficos organiza as referncias bibli- Por exemplo, o antigo British Technology Index (BT!), conforme foi descrito no
ogrficas sob cabealhos de assuntos, s vezes com subcabealhos, e entradas captulo 4, utilizava entradas de indice formadas por uma cadeia de termos con-
repetidas sob dois ou mais cabealhos (como no Index i\tledicus), ou organizam trolados numa 'ordem sistemtica'. Veja-se exemplo disso na figura 22 (captu-
os resumos sob cabealhos de assuntos e adotam alguma forma de ndice que lo 4). Uma referncia bibliogrfica aparecia somente em um nico lugar do
proporciona possibilidades alternativas de acesso por assunto a itens isolados indice, o qual era determinado pela seqncia em que os termos eram combina-
(como no Engineering Index). H variaes deste mtodo alfabtico-especifico. dos. Outras possibilidades eram criadas mediante um mecanismo sistemtico
de remissivas baseado nos princpios da indexao em cadeia. Por exemplo,
CnHuNsOtPtTe
Tehm:!ium, {J ,3-bia(.C-melhylphenyl)-l-=
twnenato-Nl,Nl!dicarbonylbia= XXS/037 Compulsory educatlon and home schooHng: truancy or prophey?
Hriphenylph0$phine)- M. A. PITMAN. l:.'ducation and Urhan Societ.v. \9(3). 1987, pp 280~289.
COC-e-t4)- {99354-95-7}, 140S7b Staning from the prcmise- that Ame-rican schooling is e-xperie-ncing 3 crisis of me-aning,
CuHuN~o~,
Ph0$phonic add, (3,3',4,-'',6,6'-hnaphenyll6 6'-= the- aulhor looks ai lhe increascd incide-nce of in-school lruancy or dass cuuing. and
b i-6H- pyrrolo(l,2-b lpyr nole J- 2,2':..JiYI)bh- the- increase in homc schooling. Approximatcly 25 percent of lhe school population are
tetrarnethyl uter, (R,S)- {/00418-?8-8) cducated at home, though at !e-ast another 9 percent are- persistcnt truants, and up to
8867lu ' 20 pcrcent in-school truants. A variety of re-search is dted lhroughout the anic!e.
tetra,methyl eaU!r, (R,S)-, compd. with Home schoolers are-define-das falling into three main cate-gorics: religious; ~Crogre-~ive:
tnchloromethane {1:1), monohydra.te and academic. Religious concerns centre upon the poor qua!ity of public schooling, the
[100418-?9-9), 8867lu moral education of the children and 3 dcsire for dose-r parentchild relationShips. The
CuHuNtOZn
Zinc, (4;-(diethylaminol-N-(2-( 10,15,20-= aulhor has carricd oul a survey of a New Age or Progrcssive community in lhe
northeastecn United Stales. wjtere lhe emphasis is on Green polilics and alternative
lrJphenyi.-2IH,2JH-:-porp_!ljn-5-yJlphenyl)=
but.a.namdato(2-)-Nllpn,~.N'l4) \ifestyles 3nd approaches. For lhe-se people, home schooling makes scnse as it al!ows
ISP-.f.-2J- {10249?-59-6}, 224.76Jto for unorthodox views and treatment to be provided. The academic home-schoolers are
CuHuNt04 concerned about thc academic qua\ity (or lack of it} in publk schoo!s. Surveys do
2-N aphthalenecarboxa m ide, 4, 4'-({3,3' ,s,s- = show that homeschoo!ed children do perform on 3verage be-tter than public school
t.c! tram~ thylfl,l'- biphe nyl)-4,4' --diyl) biF educated childre-n, though the paren1s lhemselves tend to be more highly educated
(a.zo)Jbs{3-h'J.droxy-N-f4-methylphenyll- than lhe population at large. legally, the laws conceming schooling do not com~l
[8128?-27-6 p 196932p education: rather they compel allendance, so homeschoo!ers tend to receive a dispr()o
CuHuN10t
2-N a phtha lenecar bo:ramide, 4, 4'-1 (3,3' ,5,5'- = portionate amounl of school superintendent time and activity. In the history of
t.c! tram~ t hyl[ 1, I '-bi phenyl )-4, 4 -d iyll bis= socicty. the cmphasis on compulsory allendance is very recent, 3nd is occurring at the
lato)Jb&{3-hydroxy-N-C2-methoxyphenyll- precise time when parents are questioning the quality and nalure o( public education
{8J287-28-7j, p 196932p provided. ~NM
CuHuNt04
2-Nap~tha,leoecarboxamide, 4,4'-{1,4-piptruint=
d1yl b1s( 4,1-phenyh: nuzo) )bi s{3-hyd ro1y- :::: 88SI0)8 A compautln study of black dropouts and black high school graduales In
N-(4-methylphenvl)- [Inl7fJI-09-Ij p an urlnln public school s)stem. S. B. WtLUAMS. Education and Urban Sociel_v, 19(3).
196932p ' ' 1987. pp 311-319.
Cs!HuNAOt
2-N ap~thale neca rboumide, 4 ,4 '-11 ,4-pi pe:ruine = A samp!e- of 50 black male and fema!e dropouts from an urban southeast Texan school
d ylbis( 4,1-phtny lenu.to) ]bil :i- hydruxy- = district in 1985-86 is compared with 50 black- male and femele graduates from the
N-(3-methoxyphenyll-/10170!-10-4} p same school in the same year to 3scert3in significant differences between them. Data
196932p was collected from records, tests and home visits. Ali thc stude-nts lived in the
CuHuOJ.Bb, attendance zone for the school. which provided 3n homogeneous socioeconomic
Antimony, bislbenzeneactt.lto-OJ-,~~-= background, The researcher was a participant observe-r, having been a resident in lhe
oxohexaphenyldi-
tt.c!twitomu {99825-05-5}, 509261 community for 30 ye-ars. Church attendance was found to be a significant factor, with
CuHuPJRlli 72 percent ofthe graduates and 14 percent ofthe dropouts allending. Graduate status.
Rhodiu.mO.+I, Jfl,l'-binaphth.alene)-2,2'- = however, did not help the students in g3ining social sccurity assistance. Thcre was a
diylbll(dphenylph,oaphinei-P.Pif {1.1,5,6- = higher incidence of detentions and grade retentions (be-ing kept down a year) for lhe
lf)-1,5---cydooctadeltn!'J- dropouts than for the graduates, and a lower anendance at vocational educational
chlorid~, .terwi&omer {IOJ627-26.J}, 16862& programmcs. Thoug.h there was no significao! difference in the occupationallevels o f
- , \(1,1-bJnaph.tMientJ-2,2'-diylbia= parcnts, lhe parents of the graduates werc more highly educ3ted. Similar sibling
di ph!'nylp.hoe ph.i nt 1- P,P l/li ,2,5.6-1!1-1.5- = attainment, and lhe friendship of other graduates wete also significant factors in the
"Y"!OO<"l.1.diene J- background of the graduales. The graduates also had more positive vkws towards the
lletwltomer. ptrchloratt {8282245-5}, 16862&
CuH..CoN,O,S school than the dropouts, who felt alienatcd and on the periphcry of school and
Cobalt, (l-butanol)(ethyl mtrcaptoaL.tto-SijS,= community life. The dropout expcriences pervasivc feelings ofisolation, disconnccted
I 0,15~20---u t r apM~):J- 21 H .23H- pur ph i na to= ne-ss and re-jection. and these must be addrcssed ifthe dropoul isto be rehabilitate-d to
{2-)- f{ll ,.N7'l.Nl\ff1& ,_ schooling. ~N.\1
coc~-231- oooroJ-75-6/. 6-4759c

FIGURA 78
FIGURA 77 Exemplo de resumos de Sociology ofEducation Abstracts
Exemplo de entradas do ndice de frmulas do Cliemical Abstracts Reproduzido com permi!so de Taylor & Frands
Reproduzido om pem1h>O do ChemicJl Abslracts Service <http-J/1\ ww.tandf.co.uk>
176 INDEXAO E RESUMOS: TEORIA E PRTICA lQ. tv!TODOS ADOTADOS EM SERVIOS IMPRESSOS DE INDEXAO E RESUMOS 177
ability grouping, 109, best-evidence synthesis. classroom interations,
112, 127 109. li! 072 haloperldol, aminophylline, amphetamine, antkonvulsive agent, acecolin~,
ability grouping research, biology, 072 hicuculline, cocaine, convulsant agent, kindling, n methyl dcxtro aspar11c
111 classroom research, O14
black aduhs. 085 classroom teaching, 105 add, neurotransminer, tetracaine, mous, 989. .
Aboriginal schooling. 024 black. childrcn, 007. 081.
academic achievement. classrooms, 046, 055 . behavior disonler, carbamazepine, fluphenazme decanoate, phenytom,
083. 084 college opponunities, I 17
035,081, IOI black dropouts. 038
schizophrenia adult blood levei, drug therapy, 1110
academic markctplace, colltge quality, 077 cen.tral ncrvous sYstem, 'elcctroencephalogram, evoked visual rcsponse, lithium,
black males. 030 Commonwealth
113 black school politics. 007 myodonus, neuroleptic agent, neurotoxicity, side effect, 969 .
academic performance, Caribbean, 069
black students. 051. 120 community education. head injury, central ncrvous system, computcr assisted tomography, ep1dural
120 black youths. 086 hematoma, epilepsy, incidence, skull fracturc, subdural hematoma,
089
academk women, 148 Botswana, 035
achievement. 046, 084, community educators, complication, 1001 ,
Brazil, 062
108, 121 089 ctcctrocardiography, emergency medicine, glucose blood ~evel, hema~ocn!,
Brazilian education. 062 competency testing, 005
adolcscence. 060. 079 British universities. 075
migcaine, orthostatic hypotension, seizure, syncope, chtldhood, ep1dem1
adole.scents. 047 comprehensive schools.
building design, 145 060 ology, etiology, morbidity, 1086 .
adule claimants, I 39 busincss schools, 029 heart archythmla, asystole, electrocardiogram, electroencephalogram, eptlepsy,
adult education, 002, 003, compufsory education.
140 037 scizure, adult, etiology, pacemaker, 1108
Afro-Caribbean students.
computing, 018 heart graft, convulsion, qclosporin a, risk assessment, adult, drug thcrapy,
138 continuing education. 140 etiotogy, 994 .
Canada, 025.026, 027, corporal punishment, 115
Alabama, 042 028 heart infarctJon, addosis, blceding tendency, brain disease, coma, co~vulsJo~,
Alaska, 080 counse!ling, 017
Canadian census figures, creativity, 101
<..liarrhca, hemorrhagic shock, hypovolemic shock, syndrome, dJagnos1s,
amalgamation. 019 028 infant, kidney function, tiver function, pathog~ncsls, 1087. .
Cuba, 064
America. 080 career opponunities, 118 heart rate, amygdaloid nucleus, convulsion, eptleptog~nesl~, htppocampus,
cultural diversity, 044
American school PQiicy, careers advice, 141
144 cultural influenccs, 065 respiration control, single unit activity, adult, diagnos1s, CtJology, 1040
careers guidance, 018 cullure, OI! . blood pressure, convulsion, timolol, agcd, animal model, cat, drug therapy,
American society, 118 Caribbean, 033 curriculum, 057,057,
anti-social behaviour, 030 Caribbean homes. 043
appraisal. 145 070,075, 096, 105, 145 939
heat shock protein, brain rcgion, cpileptic state, k a I n1c . ac1"d , selZurC,
.
Catania, 090 curriculum changes, 116
appremiceships, 023 chemistry, 072 histochemistry, rat, 904
curriculum development,
Arab-lsraeli students, 125 childbinh. 133 hematocrlt, electrocardiography, cmergency med.icinc, glucose blood le~el, head
art. 044 OIS
church, 086 injury, migraine, orthostatic hypotcnsion, seizurc, syncope, chtldhood,
Asian students, 138 civic education, 067
assistant professors, I )3 clas.s cuuing, 037 epidemiology, ctiology, morbidHy, 1086 . .
Atlama. 007 dccision making, 042. hemlparesls, anosognosia, epilepsy, se1zure, transtent lschemlc atlack, adult, aged,
classroom advice, 142 094
Australia, 015,019. 105 classroom instruction, diagnosis, etiology, 1010 . , . .
design education. 044
Austria. 045 111 behavior disorder, brain abscess, mental dcflctency, ncurologtc disea:e, se1zure,
developing countries, 068
age, child, complication, electroencephalograpphy, follow up, tn.fant, sex
differcnce, surgery, 1084
FIGURA 79
Exemplo de entradas de ndice do Sociology ofEducation Abstracts
Reproduzido om penni~s!:o de Ta;lor & Frands <httpJ/wwv,o_tandfo.uk> FIGURA 80
Exemplo de entradas do ndice de assuntos do Epilepsy Abstracts
Reproduzido com penniss!o de Elsevier Sdeoe Publishers
usaram-se remissivas do tipo see [ver] para gerar pontos de acesso alternativos Este indice caracleristico dos indices de assuntos produzidos na srie Exn:rplu ,\{(in-'
para os itens sobre 'fabrics' [tecidos] exemplificados na figura 22 (a partir de
termos como 'finishing' [acabamento], 'dyeing' [tingimento], 'laminating' resumos exigiu uma grande mudana de formato, e a publicao agora se asseme-
[laminao], etc. Note-se tambm como este ndice liga entre si termos conside- lha muito com o formato atual do LibraJJ' and Information Science Abstracts.
rados semanticamente relacionados ('related headings' [cabealhos relaciona- Vrios ndices impressos adotaram o PRECIS (Preserved Context lndex Sys-
dos]). Embora os princpios em que se baseia a indexao tenham permanecido tem). Um exemplo foi o British Education Index. Na figura 82 encontram-se
os mesmos, uma verso posterior dessa publicao, denominada Current Tech- exemplos de entradas dessa publicao. Uma referncia bibliogrfica aparecia
nology Index (CTI), adotou um mtodo algo diferente de apresentao das refe- sob todos os termos 'importantes' que ocorressem num enunciado de assuntos,
rncias. Esta modificao foi adotada para economizar espao e evitar as pgi- cada um deles sendo 'desviado' [shunted] para a posio de entrada conforme
nas com uma composio muito sobrecarregada que eram caractersticas do descrito no captulo 4. Por exemplo, a segunda entrada para 'agresso' [aggresM
BTJ. As diferenas de leiaute entre o BTI e o CTI so exemplificadas na figura 81. sion], na fignra 82, repetida sob 'Pupils' [alunos] e sob 'Primai)' schools'
Este ndice encontra-se hoje em seu terceiro formato, que inclui resumos, e [escolas primrias]. Desde 1986, o PRECIS no mais utilizado como base da
o ttulo atual Abstracts in New Technologies and Engineering. A incluso de indexao do Brilish Education Index.
178
INDEXAO E RESUMOS: TEORIA E PRTICA
10. 1\fTODOS ADOTADOS EM SERVIOS IMPRESSOS DE INDEXAO E RESUMOS 179
DTI Headlng STEEL: Productlon : Fumaces, Are : Ladles
References l.ADLES . Are fuma ndices de citaes
See STEEL . Prod tl ces : Stcel product!on.
Are : ladlc~ uc on : Fumaces, O Institute for Scientific Infonnation (!SI) publica atualmente trs ndices
ARC FURNACES: Stcd productlon. See de citaes: o Science Citation Index, o Social Sciences Citation Indexe o Arts
STEEL: Productlon : Fumaces, Are
FliRNACFS, Are : Steel production. &e and Humanities Citation Index. Em vhiude de serem bastante diferentes dos
STEEL: Product!on : Fumaces, Are
outros ndices impressos descritos neste caph1lo, merecem ateno pmie.
cn Heading STEEL : Productlon ; Fumaces, Are : Ladles
Referenr:es l.ADUS A utilidade fundamental de um ndice de citaes encontrar para determi-
Se< nado item bibliogrfico, que seja do conhecimento de quem faz a busca, itens
Steel : Production : Fumaces Are . ~dJ.,
ARC flJRNACFS ' ' ......_ '" posteriores que o citaram. A figura 83 apresenta alguns exemplos de entradas
Se<
Fumaces, Ar do Social Sciences Citationlndex (os outros fndices de citaes obedecem aos
FURNACES, Are
See mesmos princfpios). Suponhamos que sabemos que um atiigo de W.E. Lambert,
Steel : Productlon : Fumaces, Are que comea na pgina 44 do Journal of Abnormal and Social Psychology, volu-
me 60, 1960, altamente relevante para um interesse de pesquisa atual. Buscan-
FIGURA 81 do no SSC/ sob o nome do autor (figura 83) localizamos esse a1iigo e encontra-
Diferen~s na apresentao de referncias entre o Britislz Teclmology lndex (BTJ) mos outros, posteriores a ele, que o citaram. Neste exemplo o miigo citado por
e o Cw rent Techno!ogy lndex (cn) de um item sobre cadinhos [!adies] para dois outros itens publicados em 1989 (por Hogg e por Spears).
fornos a arco eltrico [arcfimwces] na produo de ao [steel] A figura 83 foi extrafda da seo Citation Index [ndice de citaes] do
O UlOr agr.J~e~<: a Tom Edwards, e.x-editor do Cumml li:dmufvgy Inda, por e5te exemplo.
3

l bos os e;,:emp!os so reproduzidos com a g~11ti! pemtisso de C~h Social Sciences Citation Index. Observe-se que, sob o nome de cada autor, as
entradas aparecem em ordem de data de publicao. Para os itens citantes apre-
AGGRESSION
;., .00 sentam-se apenas sucintas informaes bibliogrficas. Para conseguir dados bi-
v"'-'
AG<l~ION, Children bliogrficos mais completos devemos nos dirigir a outra seo do SSCI, o Source
Cof>ins by &dulu
~ with ph.)'!iul vio~ lndex [ndice de fontes]. Por exemplo, o item citante da autoria de Spears foi
- MU. Tbci. Educ. Voll : ~ su"~tion~ I John hrnitsOn.
Bibbc>tn>l>y: P"'' no. utumn 1-4. - p39-4S publicado no European Joumal ofSocial Psychology, volume 19, 1989, e co-
"?2:~~~- 1\lpils.. Primary ~ehooh mea na pgina 101. Para obter informaes bibliogrficas mais completas (t-
l~titka&. o( .tUres.si~e bdu.rlour
tm<kn 1 ! tulo e nmeros de pginas completos) temos de procurar sob seu nome no Source
hklrcn : fint sUJe in study of aw~ ~, 0 J.un or ..~
AI.}.- Edvc. ReY. VoU7
8ibboJnt>h1, pU '
I. Feb&l
' no.
C. Odmcre ... [ti
- pH~l
Index.
Os ndices de fontes do Social Sciences Citation Indexe do Arts and Huma-
AGRic:tJLTVRAL COU.E<lES
Cumeu/um. IMOYttion _ A~atraluia _ Ca.se uudk$ nities Citation Index (porm no do Science Citation Index) fornecem, para
=.)~/ capabJ.e f)"1ltm! Jri<;ulturi$1 I Ridurd B&wdcn cada item includo, uma lista das referncias bibliogrficas que aparecem no
no.4 :_NoY S4. ~-p27J~- UHn. &!uc. Tccltool., Vo1.21,
E4\JQtk>f> fw Caf'lb.lity. - Bb!iovJphy, p 2M-lll final do artigo (ver, por exemplo, a figura 84).
AGRJCULruRAL COLLEGES Nos ndices de citaes, uma forma original de ndice de palavras-chave
M::_acmtnt {urriculum sub~t}. Cminet. Devcklpmtnt N'1 .
.... ul~t of m>nu - &Cn.&
Ni~rU 1 AJ:. st;;;;~~~l eollnet for th~rkulturc !oe!;tor in oferece uma abordagem temtica dos itens citantes (fontes). Denominado
V~UJ_. n'?.2: May U. _ p8~ l.am. IIC. Tcchnol.,
[l;uarun.ouo., lJ><f lXITuliM. _ B.l>liovJ..lly: pH
Permuterm Subject Index [ndice de assuntos Permuterm], baseia-se em
AGRicyLnJRA.L COUEGE'S palavras-chave que ocorrem nos ttulos dos itens citantes. A figura 85 mostra
Tuehtng aids_: M!c~puttr lytlerru- Cu.c studies
g>'-,..hn tn incultur&l eo;fii.Itiof\ 1 by Andfcw Todd
um exemplo de entrada sob termos que comeam com a raiz 'debt' [dvida],
wnpul. Ed11c., No.4S : Nov 84. _ pH -
conforme aparecem nos ttulos de diversos itens citantes. Note-se que so em-
AGRJCULTURAL LECTURERS
U.Ctuu notes. ln-dusion of MW mucril} _ Cue lludies pregadas algumas palavras compostas (por exemplo, 'debt-financed' [financia-
~u~ /J.'T~S~~' J;'~u'kM ~n lco:tures by lto:tllrtn in do pela dvida], bem como palavras simples. Cada entrada mostra, em ordem
Bbl"'VJphy; plW QC clt
P! 2: An lJli.Jysil of P<Jbli.lhed sour=s !U< alfabtica, outras palavras-chave que tenham ocorrido junto com ela nos ttulos
Voi.U. no.3' luo 84.- p289-299 . - Hgh. Educ.,
dos itens citantes. Assim, um item sob DEBTS (de autoria de Giguere) trata das
dvidas do Terceiro Mundo, outro (de autoria de Garfield) trata das dvidas
FIGURA82
intelectuais, e assim por diante. Observe-se que as entradas se repetiro sob
Exemplo de entradas PREC!S do British Education Index
Reproduzido com pennisso da British library cada palavra-chave impotiante do ttulo (por exemplo, uma entrada sob a pala-
180 INDEXAO E RESUMOS: TEORIA E PRTICA lO. MTODOS ADOTADOS EM SERVIOS IMPRESSOS DE INDEXAO E RESUMOS 181
vra-chave 'Third World' [Terceiro Mundo] ser modificada pelo termo 'debts'
LAMBERT RA [dividas]. evidente que a eficcia deste tipo de ndice de assuntos depende
inteiramente da qualidade descritiva dos ttulos usados na sua gerao e da ha-
bilidade de quem faz a busca, uma vez que no se adota nenhuma forma de
controle de vocabulrio.

DEBT 0
0(81 ICONTI
'i:U(VI.o(. ''"H"'IlG
M[M~'~t>l<'"""
..
S/ Mil.{
(
KI'VUI'JOII

""""'
KSIMT~l
0!0~\00
, U\~......oQ;
I<~C~EU
t<:<O(OI (~
l( ..
"""
ocsr.mwCftJ
[lllfC..tll(- 1-J UUII0\0

...
""' .. ,, ....
~~
U~HIIh
COI
. . . . OI UI!

1..1~\IPI:S . noetu
J1
~

ti.GII<I
~
'Hilt(I:S
U..Hl(IIPI
Of6f.fOR-fQU/lY
l.llUiiO -i(C0\{111111
Oltl ii"CIT U
o

SU~.Ii!nu 111;(11 11 f111Cl'S COU(II 11"'


"'"~ ... .. "~'("''o
WPJI-tl\/11 ilii'JO!o vi
~II'Ufl(O 0''"'"1 f!
SC(UlI'C4. .(.(IIIU(8\
[Q\I!fYfOf. COlO(!! "'"
{ot><J""
~""' .. loCIU <l,.
r~un"
!lti""IUnl)lo
eHti:S .
YUOO(. . . . . . r~;l tU'5rttflt .fK;(IIIl

.
STUJUUT 1(\0(11 ... UO:f.ll( .foto\U>
SIUH'' . 11111" ~. l[t[\1 ... U'tll U
STI\ICIVl.l.l . touos s ttvUT(olf'f
S~t-Wil.llt
~~ >4tl1 ..
~~~-"~ stCVIlllU
... tllv>l
FIGURA 83 ~~
n.ns
. . . . . ~10111"
. OIIHC!('O ;I
l[(~is luCfll <(
"''"
1~!10--0
11(;(1!11
>1

Exem~lo de entradas do Social Sciences Citationlnde:r: '"1~"1"(1'''


Tli0-'0(.I;l0 t{CC\ ~!lo
OfBTOR
~(0\!Ul "'u"'.us11
11\\U(I < Kl!tf
ReproduZJdo com pemtiss!o do Xr"'iul Srlellc<!.\' Cilui/IJ/1/II<kr. Copyrigt1t C 1989
by lhe lnstltute for Scientific !nformation@ Philadelphia, PA, USA '"'"'
.. u
(11 \1
Of8TORS
...... !. ~
""
'""
Tl..liiYli:S
lll:iJII~lO-l
1~"'"01
tO>UGUII~
. H\\!1' <li
s CIW1UIl ... , .. 10
COIOS\rliU
(l!~IH

l.J

JARADAT O ~niD--STI . (Ql Wll l\OM0</01.


..
. ""' ~llUIJ'IGil
~l~l
IHII,li\G
. "'OIU~ G """
orsrs
V.Wl"'
.... "''"f'~ OUIUI( l(
.l(~.,.,_(t((j4.U'Ifl0
111~11 ... ~1:\$0\
(
...
~UUIH ,JII,l\Y I ctf1Cf11 11~11~\ S
~~~~~~u11
l<l!LO~\ W
-..;uo
......
HIOitH
"'"" I~UO~S

-
IJO!lU(CIU "JIIHO [

-
S'IQG,
~
llf(~lllQ ..-uuv
'IOtOo-U.U V\,(f'lo';<:IJ lli.IIQOVC!l. '1111(<0 (
" SilO'
(\>J ..tQHO.
~=
KOC~.IIUil.
-t(;Ji~(l(
""lllO I
I!Oflo0-11(). t(fll\$0\ ...
,.IS!
. ......
1!0~(1 TllliQ.-0 GK.JH( ~
J.l0-'*(>(<0 . !11~ ,. m< '"'111.0 (

FIGURA85
Exemplo de entrada do ndice de assuntos Permuterm do
Socal Sciences Citation lndex
Reproduzido com permioso do Su<:iuf Scien<:e. ('ilalionln&x. Copyriyht C 1988
by tlJe \mtitute for Sdentitic lnfonnation 0 Phi!ade!phia. PA, USA

As vanas pmies que compem esses fndices de citaes fazem com que
sejam poderosas ferramentas de busca bibliogrfica. Eles ensejam diferentes
mtodos de busca. Pode-se iniciar uma busca com a referncia bibliogrfica de
um item sabidamente de interesse ou come-la com uma palavra-chave. As
.............. palavras-chave levam a outras palavras-chave possveis e os ttulos dos itens
_...
..-... ~
citantes tambm sugerem palavras-chave adicionais que seriam teis na busca.
Tomando-se um exemplo hipottico, uma busca por palavra..,chave no SSCI de
.... ,.,, .... 1996 levaria a um item altamente relevante que seria investigado visando
identificao de itens posteriores que o tivessem citado. Estes, por sua vez,
poderiam sugerir outras palavras-chave que levariam a outros documentos que
FIGURA 84
Exemplo de entrada do ndice de fontes do Social Sciences Citation Inde.x tambm seriam investigados em busca de citaes posteriores, e assim sucessi-
Reproduzido com pennis;:o do Suciul Senc,s Citulion/n&r. Copyright C: 1989 vamente numa srie de iteraes. Nos ndices de citaes em que o ndice de
by lhe lm\!tute ftlr Sdentific lnfom1ation Philadelphia, PA, USA
182
INDEXAO E RESUMOS: TEORIA E PRTICA 183
J0. r-.1ETODOS ADOTADOS EM SERVIOS IMPRESSOS DE INDEXAO E RESUMOS
fontes inclui as referncias bibliogrficas (ver figura 84), so possveis outras
formas de iterao. Por exemplo, uma busca sobre um item sabidamente de alta
relevncia pode levar a um item citante altamente relevante. Algumas das refe- Applied and
rncias no item citante sero ento investigadas para localizar outros itens que EnYironmental Mlcrobioloqy
ArllciM -.nd Abtl<~ In EI'\QI'iih
as citem, e assim sucessivamente.
VOL, 55 NO. 12 DECEMBER 1989 (L,A)
Os ndices de citaes impressos possuem bases de dados equivalentes em
GENETICS ANO MOLECULAR BIOLOGY
formato eletrnico. Estes e muitos outros ndices mencionados neste captulo,
Charll('{.trlutloQ oi PbAUd troto. lhe Rvm!MI 8-.dtriv~ Sr~Mff$6MI
so hoje acessfveis pela Rede. O principio da citao- um item bibliogrfico ~. 5(:ou A. Mutin ilnd Roacr O. Dun. ...... 3035-3038
Orp..alutbl oi~ Reqdnd l tJw ~oi Mti.h.t..lloof lo Fona.Vdct.)ck
que cita (referencia) um anterior- tambm pode ser adotado para ligar publi- la Tllrtt T)~ 11 Mttll)kl!:rophl. C. Bulien, S. Machlin. Y. Zhang, K.
DQna!d!.On, and R. S. Han1.0n ....... .. .. 3124-)130
caes por outros meios- mediante acoplamento bibliogrfico ou co-citao CloNq, anel E1~ oi Sc..\....,.....,_f'CU ti<k~ O.Am)IMt Gmt i11
(ver capitulo 15). 5."-"<J<u n.U;;.,. Tsuna Tnn w~n&. Long Liu Un. ind Wu
Hwci Usu .......................................................... . 3161-311~

Outro produto bastante conhecido do lnstitute for Scientific lnformation o ClocW>c l.lld Ch&ndniuUon oi Two Gtnti. l'rom BuiJJ~ ~JlfiiJ:n E~Pf"'III
PGI~ Acdrll) lA Erc/lurklll4 ceoU. L. Gondlez'.Canddn, M. C.
Current Contents, publicao semanal, editado em vrias sees que abrangem Artoy, J. Polaina. ~nd A. Flors ... ....... . 3173-3177
Two B-.<illtu fiMu~ Hnln& Difl'trt11\ COOH 'fcnninl A,rt Productd iA .
diferentes assuntos, que reproduz as pginas de sumrios de uma ampla gama EKiuridtW coli CU'T)'lAc pMAHS. Toshiro Akino. Chiak1 ~it.o . and Ko~~.
Honkosh1 ............ .... . l\7&-3183
de peridicos. A figura 86 mostra um exemplo. Cada fascculo do Current El~ ollM Jfdot('tid4al f'roin G-tftol fron~. B~~tiJJr lA11rilll,~IUS SUbsp . .

Contents inclui um ndice de palavras~chave bastante simples, como mostra a fJitAW'Ai 1.10 BIJCi,Jiw.t Jd.liJ ud In IM~~ BUilliU l~t.uvllu,_,AiU
by U.U.C tht o.Amyluc ~ Q( IH TMnnoph~. Ke1ko Nakamura .
and Tadayuki lmanW .......... ... ]2og...}2t)
figura 87; um dos termos desse exemplo (glucose) [glicose] tem relao com Dtv~t oi Eftt~rivm.Sp(lk ()Hpi!Kkollck Prob ~ ~ ~bt
um dos itens da figura 86. Observe~se que o ndice inclui algumas expresses e Surf-E 1 po~ot<~ R~ o1 O...tu Pth':'lbraM Pro(t\M, Gonn1e Sp1cnngs.
Harm Hobua. Joi Huis in't Vdd. W1d Hoekslra, and hn Tommas~oen.
nomes, be!'n como palavras~chave simples. Cada entrada leva a uma pgina do ENlYMOlOGY ANO PROTEIN ENGINEERING
Current Contents e a um nmero de pgina do peridico ali representado. Por lnd~ ud Purtkatloe oi El'klo-fi-NArtiJ}f,IU(O!Ur.ldut {rem ArtA~u~
~9nr<i41 Gruwn In Qya.\bu'llln. Kaoru Takegawa, M.uan~o Nakosh1,
exemplo, uma das entradas sob 'glucose' remete ao item que comea na pgina Shojiro lw~hna. Kenji Yamamolo, and Tauurokuro Toch1kura. 3107-3111
3214 do fascfculo de dezembro de 1989 de Applied and Environmental PHYSIOLOGY AND BIOTECHNOl.OOY

Microbiology (figura 86). Este fndice simples usado de duas formas. Eviden- Fr.cton Aftln& Ad~ oi F~r lltiM~tltll JubSp, liu:tUW,tMI SM
and Adk~Dtlcdht Miatetf to CdlllkoM'. Jianhua Go111 and
temente, pode-se simplesmente investigar todas as referncias a determinada Cedi W. Fonbera .......... . :
palavra~chave. No entanto, um especialista em buscas mais experiente, que es-
~0.0. ola..rlty Slr.lw, RJC'p'till ud All'...a Cri! Walls by_CklrtrWlut
'-tisJIlUU'' anel R 11 ..JIW>CtiU ..UII.f. V. H. Varei. A. J. R~hudson, and
c. s. Stew.ut ............. .. ..
tiver procurando informaes mais especficas, poder optar por combinar pala- Ftrmtnll.tloe. oi Cd!Wo.k Subltratellll au.cb ud ConliniiOOll Caltv~ by
CtollriJI...,1 duntetUut, Lc:c Rybedi:; Lynd, llan~ E. Grtth!em, Jnd
vras~chave. Por exemplo, se algum estivesse buscando artigos sobre glicose Richard H. Wo!kin .............. .. .. ;.;d )131-309
no contexto de leveduras, compararia os nmeros que aparecem sob o termo Ek1ldldal urro ot Nklld on fu~~ _.,~..\U. ~ Nltrotm-Um.l
twmot~ COIMHU<:Qs. Wi!frcdo L. Bal'TlqUIO and .Roger Knowlu 3191-3201
glucose [glicose] com os que aparecem sob yeast e yeasts [levedura, levedu- COI!Ipri.lt.loe. ! GIKOM bthr- tbt Yct<sts S.Ccw--.J(n Uf!nti.M llJiod
C~ l<lilil. Erik Poltma, Arthur Kuip.:r. W.. ~nno1s Tomuouw,
ras], para verificar se algum nmero ocorre sob ambos os termos. Em caso posi- W. Ak~ander Schelfen. and JohanM~ P. V~n Dijkcn. 3214-3220

tivo, talvez esse nmero se refira a itens que tratam precisamente do tpico da fOOD MICROBIOLOGY
Mtcl\&nlua o1 ProUtaaN Rdux rrom lMJCCrtu l.ocris wt...p. ur..otU Wcl.
busca, inclusive um dos mtigos que aparecem na figura 86. Isso corresponde, Harry Lun and Wi! N. Konin&S ... ... .. .. .. .. 3101-}106
basicamente, a uma variante do sistema Uniterm (ou pelo menos a implementao MYCOLOGY
desse sistema na prtica), conforme se mencionou no captulo 2. O sistema Pb1 ~ ....t E.nrl~t&l Studles ot SdHvtiiUII FDnMISoo a...:l M.ltuu
doe. In Itobtes oi.WN"t1uU. tNJJY.,t. 'Thomu J. Volk :~.nd Thomu J.
Uniterm foi uma das primeiras formas de sistema de recuperao ps~ coordenado. Lconard ..... . 3Q95-JIOO

CONl'IM.JEO
Concluso
Neste capitulo foram exemplificados diferentes mtodos de implementao
de um servio de indexao/resumos em formato impresso. Embora umas pes-
soas prefiram um mtodo e outras pessoas prefiram outro, nenhum mtodo , FIGURA 86
Exempl.o de pgina do Current Conte1ils
ipso facto, melhor do que o resto. Isso depende muito de como o servio ser
Reproduzido com pem1isso do Cum1:1 Ccml<!u~o;, Cop}:right 199(1
utilizado. by the \nstitme for Sdenlific !nforma11on <D Phi!ade!ph1a, PA. USA
184 INDEXAO E RESUMOS: TEORIA E PRTICA l Q. MTODOS ADOTADOS EM SERVIOS IMPRESSOS DE INDEXAO E RESUMOS 185
menta oferea ajuda positiva a quem faz a busca (por exemplo, por meio da
ligao entre si de termos semanticamente relacionados). Devido ao fato de os
ndices da Excerpla t\tfedica proporcionarem maior nmero de pontos de acesso
temtico por item do que o Jndex Aledicus, provavelmente propiciaro uma me-
lhor revocao. Por outro lado, como o Index JY!edicus indexa cada item somen-
te sob os termos 'mais impotiantes', bem provvel que oferea maior preci-
so.
Os servios impressos que incluem resumos so superiores aos que no os
incluem, em virtude de proporcionarem mais informaes que ajudam o usu-
rio a decidir se determinado item realmente lhe ser til. Isso especialmente
valioso no caso de itens que sejam difceis de encontrar ou de itens escritos em
lnguas desconhecidas por parte de quem faz a busca. No entanto, os resumos
nem sempre so essenciais. Por exemplo, a combinao do ttulo de um item
com o cabealho de assunto e o subcabealho sob os quais aparece, como no
exemplo do Index JV!edicus, freqentemente basta para indicar sua relevncia
potencial.
Finalmente, bvio que ndices baseados apenas nas palavras do ttulo pro-
porcionam um mtodo de recuperao bastante limitado. Contudo, mesmo es-
ses ndices tm suas vantagens. Por exemplo, uma busca altamente especfica
FIGURA87
que envolva, digamos, um nome prprio, realmente seria mais fcil de ser efetu-
Exemplo de entradas do ndice de palavras-chave do Current Contents
Reprodurido cont pemliss.l:o do ("urmrt Conf~lrl.>. Copyrightl) 1990 ada num ndice baseado em palavras do titulo do que num outro baseado num
by the lnstitute for Scientilic lnformation@ Philade!phia. PA. USA vocabulrio controlado de carter genrico. Alm disso, quando se recuperam
itens durante buscas baseadas em palavrasMchave dos ttulos, e desde que a
Para atender s finalidades da notificao corrente [servio de alerta], as palavra-chave seja altamente especfica, existe uma chance muito grande de
ferramentas que empregam alguma forma de mtodo classificado normalmente esses itens serem 'relevantes'.
sero superiores aos ndices alfubtico-especficos, pelo menos na medida em Em vtude de a maioria dos bibliotecrios e outros profissionais da infor-
qt~e o esquema de classificao corresponda aos interesses de um grupo de usu- mao ser de opinio que os ndices impressos so mais fceis de usar, muitas
nos. Por exemplo, algum interessado em se manter a par dos novos avanos vezes eles pressupem que essa seja uma verdade universal. De fato, inmeros
no cam~o da parasitologia em geral certamente achar o Bio!ogica/ Abstracts, estudos demonstraram que o pblico leigo pode enfrentar dificuldades ao usar
que dedtca uma seo a este tpico, mais til do que o Index lvfedicus, onde as ou mesmo compreender o 'mais simples' dos ndices, como os que vm no final
referncias ao assunto provavelmente estaro dispersas sob uma ampla variedaM dos livros (ver, por exemplo, Liddy e Jorgensen, 1993a,b).
de de cabealhos de assuntos. No entanto, para algum que tenha interesse em Durante a ltima dcada, mais ou menos, foi feito um esforo visando a
se manter noti~cado correntemente sobre assuntos altamente especficos, o tornar os servios de indexao e resumos mais 'simples', como se viu pelo
mtodo alfabt1coMespecfico seria, de fato, mais conveniente. Por exemplo, o abandono de um mtodo de classificao facetada no Librmy and Information
lndex At/edicus provavelmente seria um instrumento muito til para se manter Science Abstracts e do PRECIS no British Education Index. No entanto, tornar
atualizado a respeito da bibliografia sobre retinite pigmentosa, por exemplo. essas ferramentas mais amigveis para o usurio talvez no seja a salvao de-
Ao considerar esses diversos instrumentos como dispositivos de busca e las. O fato de muitas bibliotecas estarem cancelando as assinaturas das edies
recuperao, evidente que passam a ter influncia nisso todos os fatores de impressas, dando preferncia ao acesso s verses eletrnicas, sugere que fon-
desempenho analisados em outra parte deste livro. Quer dizer, a eficcia de um tes desse tipo em formato impresso talvez tenham hoje uma expectativa de vida
ndice impresso como ferramenta de busca depender do nmero de pontos de muito curta.
acesso que proporcionar, da especificidade do vocabulrio empregado na indexa-
o, da qualidade e coerncia da indexao e da extenso com que essa ferra-
ll. COMO MELHORAR A INDEXAO 187

CAPTULO 11 Assim, algum interessado em a1iigos que tratem diretamente do assunto 'lfde-
res do Oriente :Mdio, exig)a que ambos os termos, ORIENTE MDIO e LDERES
pOLTICOS, contivessem pelo menos um peso igual a quatro. Isso evitaria a recu-
perao do item exemplificado na figura 3, que trata de lfderes polticos de forma
Como melhorar a indexao bastante secundria, e provavelmente de muitos outros itens como esse.
Uma aplicao alternativa disso empregar os pesos para ordenar os itens
recuperados numa busca. Desse modo, numa busca que exigisse a co-ocorrncia
de ORIENTE MDIO e LDERES POLTICOS, os tens em que ambos os termos tives-
E m todo este livro deix
dexaao de li d'
,
!f
. ou-se exp Cito, em geral, que o resultado final da in-
m ocumento um 1 I'
nados de um vocabulrio controlad a sunp es Jst~ de termos, s vezes selecio-
sem um peso igual a cinco (peso total igual a dez) seriam impressos ou exibidos
em primeiro lugar, vindo em segundo lugar os itens com o escore nove, e assim
temtico analt"sado d o, que, em conjunto, descrevem o contedo por diante at os itens cujo escore fosse apenas dois.
no ocumento Co fi ... H muito que a atribuio de pesos numricos aos termos defendida por
so considerados etn p d . ld. d m. requencm, todos os termos dessa lista
alouns sa'o Ill . . e tgua a e (Isto ' o ind exa d or nao
especifica
que Maron (Maron & Kuhns, 1960; Maron etal., 1959; Maron, 1988), que se refere a
o ms unpmtantes do que out. ) esse tipo de indexao como 'probabilstico'. Apesar dessa defesa, desconheo
quaisquer relaes explcitas entr t lOS e, comumente, no se identificam
. . e os ermos. qualquer sistema convencional de recuperao (isto , baseado em indexao
A mdexao por .
podem ser atribu,dos p:o~ ~~~ ;e~~~:~:ats ~omplexa do ~ue isso: aos termos feita por seres humanos) que adote pesos numricos exatamente dessa forma,
impotincia, e/ou ser feito um fi . pet cepo que o Indexador tem de sua embora a ponderao de termos esteja implcita em certos sistemas de recupe-
'sintaxe' . es oto no sentido de acrescentar um pouco de rao automticos ou semi-automticos, como o Sl\-1ART (ver capitulo 15).
. aos teunos, de modo que suas inter-relaes se tornem mais claras. No entanto, algumas bases de dados realmente incorporam uma tcnica de
ponderao simples ao disti~lguir entre descritores 'mais imp01iantes' e 'menos
Indexao ponderada importantes', o que equivale adoo de uma escala numrica de dois valores.
um~:::~ ~~~~~Je~ai~~-~~~~:o as~untos
de implica uma simples deciso binria:
Esta prtica pode ser vinculada produo de um ndice impresso, onde os des-
critores mais impmiantes so aqueles sob os quais um item aparece no ndice
cesso de index - . ~a um ocmnento. Embora isso simplifique o pro-
base de dado~ aao, CJJ~, efetJ':'a~~ente, alguns problemas para o usurio de uma impresso, e os menos imp01iantes so encontrados somente na base de dados em
venha a difer~~ua~.r;~e:~~l~S~Ibilltado de arquitetar uma estratgia de busca que
formato eletrnico. o que fazem, por exemplo, a National Library ofMedicine
(Index Medicus e a base de dados MEDLINE), o National Technicallnformation
daq~eles;m qt~e o mesmo ass~~~t~~~j~:;~~:~~e;:~~r:~ ~~:::~~t:~~~C~Il~~s;;i~cial Service (NTIS) e o Educatonal Resources lnformation Center (ERIC). Mesmo
que re~~ltee~:;o o .P~;der~d.a, o. index~dOI: atribui a um termo um valor numr.ico esse mtodo simples de ponderao traz certa flexibilidade s buscas, antes
determinado do~~;;~e~tso te a nnpottancm desse termo para indicar de que trata
citada. Quem faz as buscas pode especificar que somente sejam recuperados os
mais detall d o. Comu~nente, quanto mais dominante for o assunto ou itens em que um termo (ou termos) aparea como descritor mais importante. Al-
leso ocumento contiver a respeito dele maior ser o peso V . ' ternativamente, obtm-se uma ordenao incipiente dos resultados, como em:
po~ exemplo, ~ma escala numrica de cinco ponto~. em que cinco se :a oejamos, M * l\1
~:a~~~~~0 P~~~~~~s~so~a ao item exemplificado na figura 3, os term~s 0 :1~1~~ M*m
peso 5 ESTADOS UNID~~ TELEF04NIE, ATITUDES e ORIENTE MDIO receberiam
m*m
. ' peso , SRAEL e EGITO peso 3 d" Isto , itens em que dois termos, usados por quem faz a busca numa relao e, e
Evidentemente, trata-se de aloo . . . ' ' .e asstm por !ante.
esos dl""e. t E' .';:I subjetivo, e mdexadores diferentes atribuho sendo ambos descritores mais importantes (M), viro em primeiro lugar, segui-
P ~~ I en es. quase certo por . . . . .
DIO ' m, que a maJOna atnbtuna a ORIENTE M dos daqueles em que apenas um dos dois seja um descritor mais importante, e
um p~so alto e a LDERES POLTICOS ou AJUDA EXTERNA um peso baixo - depois por aqueles em que ambos sejam somente descritores menos impmiantes (m).
Pemer:~: ~lapot"n~oetmde~ao potbldet ada pode ser adotado de duas formas na r~cu-
" maao numa ase de dado U
admitir que a pessoa que fa b
d I . .
s .. ma e as consiste simplesmente
Alguns servios de informao ultrapassaram uma escala de ponderao de
dois pontos. No BIOSIS, por exemplo, houve poca em que eram atribudos cabe-

~~~ t~:~~~ e:~~~~~iu:t;il~~~~~~n~:::r~i~~~~~~~~:


alhos conceituais [ Concept Headings] em qualquer um de trs 'nveis de nfa-
rados os itens indexados sob se': primrio (o item aparece sob este cabealho em ndices impressos), secun-
189
188 INDEXAO E RESUMOS: TEORIA E PR},T!CA ll. COMO MELHORAR A INDEXAO

drip (nfase comparativamente forte), e tercirio (nfase secundria) (VIeduts- mtodos que foram experimentados, inclusive o emprego de crit.rios posicio-
Stokolov, 1987). nais (por exemplo
, ' a gual distncia um do outro se encontram
. dois termos.num
-
Observe-se que a indexao ponderada, de fato, oferece a quem faz a busca a texto). Keen ( 1991) comparou diferentes mtodos e conclum gue a assocmao
capacidade de variar a exaustividadeda indexao. Voltando figura 3, poss- de mtodos combinados pro_vavelmente oferea melhores resultados.
vel que os primeiros cinco termos listados sejam considerados descritores mais
importantes, e os nove restantes sejam considerados menos importantes. Nesse Elos entre termos
caso, a estratgia de busca que especificasse apenas descritores mais impotian- Ao examinar de novo a figura 3, verificar~se- que o documento ali ~e~r~
tes equivaleria, com efeito, a fazer a busca em nvel de indexao menos exaustivo. sentado seria recuperado durante vrias buscas para as quais ele no cons.tltmna
importante reconhecer a diferena entre indexao ponderada, do tipo realmente uma resposta apropriada. Algumas dessas recuperaes podenam ser
aqui descrito, e busca com termos ponderados. Esta ltima nada tem a ver com a evitadas com 0 emprego da indexao ponderada ou com a reduo da ~xa.us
indexao ponderada. Ao contr~rio, refere~se elaborao de uma estratgia de tividade da indexao. Por exemplo, qualquer uma das duas solues ev1tana .a
busca cuja lgica orientada por pesos numricos e no por operadores boolea- recuperao desse documento numa busca de informaes sobre. lderes po_II~I
nos. Por exemplo, a estratgia de busca assumiria o seguinte formato: cos em geral, para a qual esse item somente teria uma utilidade mmto secu~da~ta.
Termo Peso
Outras recuperaes indesejveis seriam causadas por falsas assocwoes,
A lO casos em que os termos que fazem com que um item seja recupe~ado no ~m
8 lO realmente relao alguma entre si no documento. Um exemplo sena a combma-
c 2 Limiar =20 o ESTADOS UNIDOS e LDERES POLTICOS. bvio gue o documento no trata
D
E
2
I
de lderes pollticos dos Estados Unidos, embora provavelmente sep r~c.upe!ado
F I numa busca sobre este assunto. Como foi salientado antes, a probabihdad~ de
O menor peso aceitvel 20, o que significa que os termos A e B devem estar ocorrncia de falsas associaes desse tipo aumenta com a extenso do registro
ambos presentes num registro antes de ser recuperado. No entanto, um registro (isto , com 0 nmero de pontos de acesso ou com a exaustividade da indexao).
pode exceder o peso mnimo (limiar) de modo que, compreensivelmente, alguns Um meio de evitar falsas associaes estabelecer elos entre os term~s de
registros tero um escore de 26 (se todos os seis termos estiverem presentes), indexao. Quer dizer, o documento , em certo sentido, segmentado e~n dtver-
outros, 25, e assim por diante. Esses itens com escores elevados viriam em pri~ sos subdocumentos, cada um deles referindo~se a um assunto separado amda que
meiro lugar numa safda impressa. Tem-se assim uma sada ordenada por esco~ possivelmente os assuntos de cada um esteja~ intim~1~e~te relaci01~ados e~lh'~
si. 0 documento exemplificado na figura 3 sena subdiVIdidO da segumte fmma.
res, mesmo sem usar qualquer ponderao dos termos de indexao. Este mto~
do de busca em bases de dados foi muito comum em sistemas de processamento l Oriente Mdio, Naes rabes, Lderes Politkos, Israel, Egito, Organizao para a
em lotes, principalmente nos voltados para a Disseminao Seletiva de Infor-
maes (DSI). , porm, muito menos indicado para buscas no modo em linha.
I Libertao da Palestina . . ..
Opinio Pblica, Pesquisas por Telefone, Estados Unidos, Atitudes, Onente Med10
Estados Unidos, Ajuda Externa, Egito, Israel . _ .
O mtodo ideal de ponderao implicaria que uma equipe fizesse a indexa- Conferncias de Paz, Oriente Mdio, Organizao para a L1bertaao da Palestma
o (ver captulo 5) e os termos com gue concordassem todos os indexadores e assim por diante. . _ .
teriam peso maior, e os que fossem atribudos por um indexador teriam peso me- Observe-se que todos os termos de cada seqiincta guardam relaao dtreta
nor. Villarroel et ai. (2002) propem esse mtodo num ambiente de biblioteca entre si e que alguns aparecem em vrias dessas seqncias. Cada .um~ des;as
digital. Isso pressupe um registro de texto completo comum campo destinado a seqncias- ou elos~ identificada com um caractere alfam~mn~o mclm~o
termos atribudos pelos usurios. Os usurios do registro poriam em destaque na prpria base de dados. Num sistema de .rect~pera.o em l~nha tsso estaua
pm1es do texto digital que julgassem imp011antes e isso levaria reviso dos pe- associado ao nmero do documento no arqu1vo mverttdo. Assun, o docm~ento
sos relativos aos termos de indexao (ou, de fato, as prprias palavras do texto). 12024 pode ser segmentado em 12024/1, 12024/2, 12024/3, e as~im por diant?.
Nluitos sistemas 'automticos' incluem formas de ponderao que permitem Isso proporciona a quem faz a busca a oportumdade de especificar que do~s
a ordenao da sada segundo um critrio. Sistemas desse tipo so examinados termos co~ocorram no s no registro do documento mas tambm em de~er~11-
no captulo 15. Na maioria dos casos, os sistemas de processamento automtico nado elo dentro desse regist1:o, evitando, portanto, muitas das falsas assoctaoes
ponderam segundo critrios de freqncia: freqncia de ocorrncia de um ter- do tipo ESTADOS UNIDOS/LDERES POLTICOS.
mo num texto e/ou de ocorrncia numa base de dados como um todo; ou outros Um tipo especial de segmentao aplicado a documentos com texto com-
190 INDEXAO E RESUMOS: TEORIA E PRTICA 11. COMO l\1ELHORAR A INDEXAO 191
pleto, para reduzir a ocorrncia de relaes indesejveis e melhorar a recupera-
8
o. Williams (1998) refere-se a isso como 'indexao por trechos' [passage- O tpico fundamental em exame ; o aSsunto principal em estudo ; o assunto relatado ; o principal tpico em
level indexing]. Isso ser examinado no captulo 14. discusso ; encontra-se uma descrio de
I
Insumo; matriapdma; material de constmil.o; reagente; metal de base (para ligas); componentes a serem
Indicadores de funo combinados; constituintes a serem combinados; ingredientes a serem combinados; material a ser perfilado;
material a ser moldado; minrio a ser refinado; subcottiuntos a serem montados; insumo de energia (somente
Embora os elos sejam eficazes ao evitar certas recuperaes indesejveis, numa convers<'io de energia); dados e tipos de dados (somente quando insumos em processamentos
no resolvero todos os problemas. Alguns termos podem estar diretamente matemticos); um material que est sendo corrodo
relacionados entre si num documento, e assim aparecerem no mesmo elo, mas 2
Sada; produto, subproduto, co-produto; resultado. resullante; produtos intetmedirios; liga produzida;
no estarem relacionados da forma como quem faz a busca gostaria que estives- material resultante; mistura ou fommlail.o resultante; material fabricado; mistura fabricada; dispositivo
sem. A figura 3 nos mostra de novo excelente exemplo disso: o item em questo moldado ou fom1ado; metal ou substncia refinada; dispositivo, equipamento ou aparelho feito, montado,
construido, fabricado, arquitetado, criado; produ<'io de energia (somente numa converso de energia); dados
poderia muito bem ser recuperado numa busca sobre atitudes do Oriente IVIdio e tipos de dados (somente como resultados de processamento matemtico)
em relao aos Estados Unidos, apesar de tratar exatamente da relao oposta. 3
Componente indesejvel; residuo; escria; rejeites (dispositivos fabricados); contaminante; impureza;
Para evitar esse tipo de problema (uma relao incorreta entre termos) poluente, adultemnte ou txico em insumos, ambientes e materiais que passivamente recebem as aes;
preciso introduzir certa sintaxe na indexao, a fim de eliminar a ambigidade. material indesejvel presente; material desnecessrio presente; produto indesejvel, subproduto, co-produto
4 4
O mtodo 'tradicional' consiste em empregar indicadores defimo (ou indica- Usos ou aplicaes indicados, possveis, pretendidos, presentes ou posteriores. A utilidade ou aplicao que o
dores rei acionais)- cdigos que tornam explcitas as relaes entre os termos. tem1o teve, tem agora ou ter no futuro. Paro ser usado como, em, para ou com; para uso como, em, para ou
A fim de eliminar a ambigidade do caso Estados Unidos/Atitudes/Oriente NJ- com; usado como, em, para ou com; para uso futuro como, em, para ou com
5
dio,s se necessitaria de dois indicadores de funo, os quais seriam indicadores Ambiente; meio; atmosfera; solvente; pot1ador (material); apoio (num processo ou operao); veiculo
direcionais. Por exemplo, empregar-se-ia a letra A para designar a idia de 'desti- (material); hospedeiro; absorvente, adsorvente
6 6
natrio, alvo ou paciente', e B para representar 'emissor, doador, origem'. Neste Causa; varivel independente ou controlada; fator que influencia; 'X' como um fator que afeta ou influencia
caso, associar-se-ia a funo A a Oriente Aldio e B a Estados Unidos, uma vez 'y'; o 'X' em 'Y uma funo de x'
7
que o primeiro o alvo das atitudes enquanto o segundo a origem delas. Efeito; varivel dependente; fator influenciado; 'y' como wn fator afetado ou influenciado por 'X'; o 'y' em
Evidentemente, nem todos os problemas de ambigidade so solucionados y uma funo de x'
com o emprego de somente duas funes. Se esses problemas se mantiverem, no 9 9
Recebendo passivamente uma operao ou processo com nenhuma alterao de identidade, composio,
entanto, num nvel relativamente elementar, um nmero razoavelmente pequeno confi~:,'ltrao, estrutura molecular, estado fisico ou fom1a fisica; posse como quando precedida pelas
de indicadores de funo resolver a maioria deles. preposies de ou em siJ:,'llificando posse; localizao como quando precedida pelas preposies em, para ou
de SJ:,'llificando localizao; empregado com meses e anos quando loca!iz.run lnfonnao (no dados
Os elos e funes foram introduzidos em sistemas de recuperao, simul- bibliogrficos) num continuo de tempo
taneamente, no incio da dcada de 1960, quando os sistemas ps-coordenados 10 10
Meios de realizar o tpico de estudo principal ou outro objetivo
ainda eram relativamente novos e a recuperao informatizada engatinhava. Du- o o
rante cetto perodo, esteve muito em voga indexar com o emprego tanto de elos Dados bibliogrficos. nomes prprios de autores, autores e fontes coletivos. tipos de documentos. datas de
quanto funes, e_m grande parte devido influncia do Engineers Joint Council publicao, ttulos de peridicos e outras publicaes. outros dados identificadores de fontes, e adjelivos

(EJC), que introduziu um conjunto de indicadores de funo (ver figura 88) que FlGURA88
teve ampla aceitao. Esse tipo de indexao altamente estruturada no gozou
O sistema de indicadores de funo do EJC
de estima por muito tempo. No s era muito caro, porque os indexadores preci- Reprodurido com pennisso da American Association of Engineering Societies
savam de muito mais tempo para execut-lo, como tambm ficou evidente ser
extremamente difcil de aplicar, com coerncia, os indicadores de funo. Se j grupo pode alterar de algum modo as relaes, criando a necessidade de mu-
muito dificil (ver captulo 5) obter coerncia com mtodos de indexao relati- dana nos indicadores de funo ou, no mnimo, aumento do nmero de funes
vamente simples, essa dificuldade aumenta enormemente quanto mais explcito aplicveis a cada termo. No caso dos indicadores de funo do EJC, os problemas
o indexador tiver de ser ao expressar as relaes entre os termos. Os problemas se agravavam porque um deles, a funo 8, no era absolutamente um indicador
no so to grandes quando se raciocina somente com dois ou trs termos ao relaciona!, mas, ao contrrio, um meio de ponderar o termo mais importante. As
mesmo tempo. Amide, porm, muito difcil identificar todas as relaes apli- pessoas incumbidas das buscas defrontavam tantas dificuldades ao identificar as
cveis a um grupo maior de termos. Ademais o acrscimo de um termo a um funes que o indexador teria atribudo a um termo que acabavam, com freqn-
1
cia, por omitir totalmente as funes, o que equivale a exigir que um termo apa-
192 INDEXAO E RESUMOS: TEORIA E PRTICA ll. COMO MELHORAR A INDEXAO 193
rea em qualquer funo e nega por completo a utilidade do recurso. Os proble- M-CH representa Dispositivo
T -RN representa Transmisso
mas acarretados pelo emprego de elos e indicadores de funo em sistemas de
recuperao foram estudados minuciosamente em outros trabalhos (Lancaster e 001 o sufixo exclusivo que distingue o termo de outros (por exemplo, o tel-
1964; Sinnett, 1964; Montague, 1965; Van Oot etaL, 1966; Mullison et ai., 1969): grafo) que tenharn os mesmos fatores semnticos. Pode-se combinar at quatro
Ainda mais elaborado do que o mtodo de indexao do EJC, que emprega cdigos semnticos para formar o cdigo de um conceito especfico.
elos e funes, era o mtodo de 'cdigo semntico' na recuperao introduzido
pelo Center for Documentation and Communication Research da Western Res- I A um
erve University (Peny e Kent, 1958; Vickery, 1959). O cdigo semntico foi
aplicado a um sistema de recuperao informatizado, na rea de metais, proje-
tado e operado pela Western Reserve para a American Society for Metais.
II
I
E
I
o
Q
feito de
parte de
feito de vrios
faz uso de, produzido, por meio de
O sucedneo do documento era um 'resumo telegrfico'. Este era redigido U usado para, produz (amide usado [em ingls] para verbos terminados em ing)
segundo um formato padronizado, obedecendo a um conjunto de regras, para
eliminar variaes e complexidades da estrutura fraseolgica do ingls. Foram
I v
w
age sobre
causa, intlue1tciado por, sofre a ao de (frequentemente usado [na lngua inglesa]
para verbos que tenninam em ed)
feitos formulrios especiais para anlise de assuntos, para ajudar o indexador no X caracteriza-se pela ausncia de
registro de aspectos importantes do contedo temtico na forma de resumo tele- Y est ligado a, caracterizado por, caracteristicamente
grfico. Nele, os termos eram codificados mediante um 'dicionrio de cdigos z assemelha-se a, mas no
I P caracteriza-se por um aumento de
semnticos'. A base do cdigo semntico era um 'radical' semntico. Os radicais
(havia cerca de 250 no sistema) representavam conceitos relativamente genricos.
Cada radical recebia um cdigo de quatro dgitos formado por trs caracteres
I M caracteriza-se por uma reduo de

com um espao para interpolao de um quarto caractere, como nestes exemplos: FIGURA 89
In fixos semnticos do sistema da \Vestem Reserve University
C-TL Catalyst [Catalisador) Fonte: Aitchiso11 e Cleverdo11 (1963)
C-TR Container [Recipiente]
C-TI Cutting and drilling [Corte e perfurao] Os termos num resumo telegrfico so relacionados sintaticamente entre si por
D-00 Damage [Dano]
0-FL Detlection {Desvio] meio de indicadores de funo. Na figura 90 apresenta-se uma lista deles. Um
exemplo da aplicao de ftnies :
Os termos particulares eram formados pela insero do 'infixo' de uma letra no
radical semntico e talvez o acrscimo de um sufixo numrico. Por exemplo, KOV.KEJ cristal
,KOV.KEJ.KUJ. metal
DADO representava tanto '1vozmd' [leso] quanto' decay' [deteriorao], onde D- ,KOV.KEJ.KUJ. liga
DD o radical semntico de 'damage' [dano] e o infixo A simplesmente repre- ,KOV. KEJ .KUJ. berlio
senta' is a' [ um]. Em outras palavras, 'leso' um tipo de dano. Acrescenta-se ,Kwv hexagonal muito denso
um sufixo numrico apenas para distinguir termos que possuam radicais e estru- ,KWV elstico

tura de in fixos idnticos; o sufixo no tem em si mesmo importncia semntica. que indica que cristais de ligas metlicas, especificamente o berlio, esto de
Na figura 89 est a lista completa de in fixos. O uso deles com um radical per- algum modo sendo processados, e suas propriedades so 'hexagonais muito den-
mite expressar vrios matizes de significado. Por exemplo, 'bag' (saco) e 'barrei' sos' e 'elsticos'. Note-se o emprego, neste sistema, de 'funes companheiras'.
[barril] eram ambos representados por CATR, onde o infixo A indica que so tipos KOV e KWV so funes companheiras ou emparelhadas. Se uma atribuda a um
de recipientes. 'Side wa/1' [parede lateral] era representado por CITR, onde o in fi- termo, quase certo encontrarmos sua companheira atribuda a um segundo
xo I indica parte de recipiente. Um conceito complexo especfico formado a pattir termo, para lig-los e indicar a exata relao entre eles. Assim, indica-se que
de vrios 'fatores semnticos'. Por exemplo, o assunto 'telefone expresso por 'cristal', segundo a funo KOY, tem uma propriedade que lhe foi atribuda.
0\VCM.LQCT.MACH.TURN.OOI
Essas propriedades atribudas so 'elstico' e 'hexagonal muito denso', confor-
me indicado pela funo KWV.
onde
Alm dos indicadores de funo, o sistema adotava um mtodo altamente
D-CM representa lnfonnao elaborado de ligao dos termos (e funes) nos resumos telegrficos. Essa
L-CT representa Eletricidade
ligao era obtida por meio de vrios nveis de 'pontuao':
194 INDEXAO E RESUMOS: TEORIA E PRJJCA 11. COMO MELHORAR A INDEXAO 195
1. Sublocuo. Termo ao qual se anexava um ou mais indicadores de funo. como recurso de generalizao (por exemplo, usando o conceito geral D-DD para
2. Locuo. Conjunto de termos proximamente relacionados em determinada 'dano' sempre que ocorresse como componente num cdigo complexo).
relao. Admite-se um nmero finito de padres de locuo. Por exemplo: KOV.KEJ.CARS.009.,KOV,KEJ.CARS.006.,KUJ.KEJ.KOV.MATL.
4.0BQE.,- KAM. CUNG.MWTL.PASS.RQHT.003.,KAM.MAPR.
KAM (processo) 032.,KAH. DACT;OOl. ,KAH.LAMN.037.,KAH.DACT.OOl.,KAH.
KQJ (meio de processo) LAMN. 024., KAH.DYFL.6X.PAPR.002.,KAH.PAPR.PYSH.2X.
001.,-KUP.RAN0,009. ,KUP.RAPR.225,,KUP.DASM.006, ,KUP.
KAH (condio de processo)
3. Frase. composta de locues e tambm formada segundo esquemas padro- l P'f PR.004 ., KUP.DYFL. MATN.002. , KUP. PYPR.004., KUP .KAP.
PAPR.Ol7.,KUP, KAP. PAPR.OlO.,KAt..P.APR,004.,KAL.RANG,

nizados. Por exemplo, uma frase pode abranger um produto e sua fabricao I 009. , KAL. MAPR. 041.,KUP.PAPR.45X.PWSH.2X,TYRM.001.
, KUP. KAP. PAPR. 001. ,KUP.KAP.PAPR.PYSH.2X.001.,KUP.
KAL. MAPR .114.,KUP.KAL.MAPR.087.,KUP,KAL.MAPR.041,
ou um material testado e as propriedades determinadas para ele.
4. Pargrafo. Trata-se de um conjunto de frases e pode ser coextensivo com o
I ,KUP.KAL.RANG.Op9.,KUP.KAL.MAPR.04l.,KUP.KAP.MAPR.
032. , KUP. KA P. P APR. PYSH. 2X.001, ,KAL. DYFL. 6X. PAPR.002.
, KAL, PAPR.PYSH.2X.001.,KAL.RAN0.009.,KAL.PAPR,058.
prprio resumo. tambm usado pari! distinguir completamente tpicos dife-
rentes t~um nico resumo telegrfico. A figura 91 mostra um resumo telegr-
fico completo como seria registrado em meio eletrnico, apresentando pontua-
I , KAL.BYSS.3X.RAPR.002.

FIGURA 91
Resumo telegrfico armazenado em formato eletrnico
o, funes e fatores semnticos. Fonte: Perry e Kent (1958). TtH;/sji>r mud1i11.: fitaVI/Ir.: xvunhing. Cop)Tight C \958, John Wiley &
Sons. Inc. Reproduzido com permisso de John Wi!ey & Sons Jnc
Ao fazer uma busca nesse sistema, a formulao do pedido era convertida
numa estratgia composta de fatores semnticos e indicadores de funo. V rias Infelizmente, o sistema era excessivamente at1ificioso para a finalidade a que
'nveis', correspondentes pontuao dos resumos telegrficos, eram utilizados se destinava. Era de aplicao complicada, e tanto a indexao quanto a fonnu-
para limitar os critrios a termos que ocorressem em cet1as unidades. Por exem- lao da busca eram operaes demoradas e dispendiosas. A experincia poste-
plo, o nfvel de busca 4 solicita simplesmente que determinado termo esteja asso- rior nos ensinou que, na maioria das aplicaes visando recuperao da infor-
ciado a determinado indicador de funo. lsso cotTesponde sublocuo na mao, no se precisa do nvel de complexidade inerente ao sistema Western
ponh~ao do resumo telegrfico. Reserve. Era um sistema muito complexo e caro para que fosse economicamente
vivel, e acabou sendo posto de lado pela American Society for Metais em favor
KEJ material processado de um mtodo mais simples e com melhor relao custo-eficcia.
KUJ componente principal
KJJ componente secundrio
KOV propriedade atribuda a Subcabealhos
KWV propriedade atribuda O mtodo de indexao altamente estruturado, exemplificado pelo emprego
KAM processo
de elos e funes ou pelo cdigo semntico, predominou no incio da dcada de
KQJ meio de processo
KAH condio de processo 1960, quando os sistemas informatizados ainda se achavam num estdio de
KUP propriedade influenciada ou determinada por processo desenvolvimento muito preliminar. Considerava-se imprescindvel, ento, obter
KAP propriedade influenciada por KAL resultados muito precisos na recuperao, evitando-se a qualquer custo recu-
KAL fator que influencia KAP perar itens irrelevantes. O exemplo absurdo que se colocava com freqncia era
KWJ produto
o da necessidade de se disti_nguir entre Venetian blinds [janelas venezianas] e
FIGURA90
blind Venetians [venezianos cegos J! O absurdo do exemplo bvio: qual a
Indicadores de funo do sistema da \Vestem Reserve University probabilidade de miigos sobre ambos os assuntos aparecerem na mesma base de
utilizados na indexao da literatura de metalurgia dados e quanta bibliografia, seja qual for, existe a respeito de venezianos cegos?
Fonte: Aitchison e Cleverdon (!963) Hoje em dia, reconhece-se e se aceita o fato de que ocorrero recuperaes inde-
sejveis, devidas a associaes falsas ou esprias. No entanto, sua ocorrncia
O sistema \Vestem Reserve era bastante engenhoso e expressava matizes de comumente tida como se mantendo dentro de limites aceitveis. Na avaliao do
significado muito sutis. Possua grande flexibilidade. Podiam-se fazer buscas com MEDLARS (Lancaster, l968a), cerca de l8% de aproximadamente 3 000 falhas
grande preciso, usando pontuao, funes e fatores semnticos especficos. de preciso que ocorreram em 302 buscas foram causados por relaes amb-
Alternativamente, permitia buscas com relativa amplitude (para obter alta revo- guas entre termos. Admite-se, comumente, que melhor aceitar algumas falhas
cao) ao se ignorar esses dispositivos e usar a estrutura dos cdigos semnticos
-y
196 JNOEXAO E RESUMOS: TEORIA E PRTICA

desse tipo do que tentar evit-las com o emprego de mtodos de indexao mais
elaborados e custosos.
Y'
,
-s_
ll. COMO MELHORAR A INDEXAO

bealhos exatamente dessa forma. Em alguns casos, os subcabealhos se com-


plementam entre si. Assim, a. combinao .
197

Os problemas decorrentes das associaes falsas ou ambguas so atual- DISEASE x/CHEMICALLYINDUCED (Doena x/Induzida quimicamente)
mente menos graves do que o eram h 30 ou 40 anos porque existe, na maioria \ DRUG Y/ADVERSE EFFECTS (Droga Y/Efeitos adversos)
!
dos sistemas, um alto nvel de pr-coordenao. Tais problemas so mais co- '' implica que a doena x foi causada pelo medicamento Y, enquanto a combinao
muns em sistemas baseados na indexao com uma nica palavra (Uniterm) ou
em sistemas baseados na linguagem natural (ver captulo 14). Como os tesauros
incorporaram um nvel mais altO de pr-coordenao, diminui a probabilidade
I DISEASE x/DRUG THERAPY (Doena x/Quimioterapia)
DRUG YITHERAPEUTIC USE (Droga Y/Uso teraputico)
de associaes falsas ou ambguas. Tomemos um exemplo simples. Os termos
COMPUTADORES e PROJETO, aplicados a um documento, so ambguos: os com-
putadores esto sendo projetados ou esto sendo aplicados ao projeto de algo
ii
expressa uma relao completamente diferente entre X e Y.
Embora a principal justificativa para uso de subcabealhos dessa forma fosse
facilitar a utilizao do Index 1\ledicus impresso, comprovou-se que eles fora~n
eficazes ao reduzir as ambigidades tambm nas buscas na base ~e d.ad~s eletro-
diferente? Por outro lado, a combinao mais pr-coordenada
COMPUTADORES
I nica. Ainda que a indexao com combinaes de cabealhos prmctpats/subca-
bealhos seja indiscutivelmente menos coerente do que a indexao que empre-
PROJETO DE AERONAVES
oa somente cabealhos principais (Lancaster, !968a), os subcabealhos apre-
muito menos ambgua, e a combinao ;entam menos problemas do que os indicadores de funo, e, ao contrno destes,
PROJETO DE AERONAVES so de compreenso imediata por parte dos usurios.
PROJETO ASSISTIDO POR COMPUTADOR
parece totalmente inequvoca. Dispositivos da linguagem de indexao
Uma forma de obter alguma pr-coordenao, sem aumentar grandemente o Esses dispositivos- po.nderao, elos e indicadores de funo- so co~
tamanho do vocabulrio controlado, com o emprego de subcabealhos. Num siderados dispositivos de preciso porque possibilitam que se aumente a preci-
sistema ps-coordenado, aplicam-se os subcabealhos de forma muito parecida so durante uma busca numa base de dados. Outros dispositivos, como o co~
com o modo como so aplicados nos tradicionais catlogos de assuntos das trole de sinnimos, por outro lado, so denominados dispositivo~ de r~~oca~o
bibliotecas, Os melhores candidatos a subcabealhos so aqueles termos que porque tendem a melhorar a revocao. A srie completa desses dt.sposttlvos as
seriam potencialmente aplicveis a muitos dos outros termos do vocabulrio. vezes denominada dispositivos da linguagem de indexao (Rattt, 1980; Lan-
Assim, um vocabulrio de 5 ooo descritores, mais 20 subcabealhos, gera, teori- caster, 1986). Isso um pouco enganoso: alguns desses dispositivos, como os
camente, I 00 000 (5 000 x 20) termos exclusivos. Na prtica, porm, cada sub- subcabealhos e o controle de sinnimos, constituem, de fato, componentes
cabealho talvez seja aplicvel somente a determinada categoria de termo, por essenciais de uma linguagem de indexao, enquanto outros, corno os elos ot~ a
isso o nmero de combinaes possveis no seria to elevado. ponderao, so bastante independentes da linguagen: de indexao. Ou seja,
Voltando ao exemplo anterior, PROJETO seria um bom candidato a subcabe- so operaes que se aplicam aos termos quando da mde~ao e no cm~po
alho em ce11as bases de dados. Assim, COMPUTADORES/PROJETO bem menos nentes de um vocabulrio controlado. Poder-se-ia, com efetto, separar ?s dTsp~
ambguo do que a combinao PROJETO e COMPUTADORES. Evidentemente, sitivos da linguagem de indexao dos dispositivos de indexao, mas Isso se na
acrescentar um subcabealho a um cabealho principal (descritor) uma forma considerado uma bizantinice.
de ligao (elo) muito simples. Com efeito, porm, os subcabealhos funcionam Os dispositivos de indexao examinados neste captulo s? todos e;es
praticamente como elos e funes simples ao mesmo tempo. Vejamos a combinao: dispositivos de preciso, com exceo de certos componentes do cod1go seman-
AERONAVES/PROJETO tico. Fundamentalmente} um dispositivo de preciso aumenta o tamanho do
COMPUTADORES vocabulrio empregado na ~ndexao, enquanto um dispositivo d~ revocao
reduz seu tamanho. Por exemplo, uma escala de ponderao de cmco pontos
O termo PROJETO no s se acha ligado explicitamente a AERONAVES mas seu
praticamente aumenta o tamanho do vocabulrio por um fator de cinco. ::o il~vs
emprego corno subcabealho implica realmente a relao mais provvel entre o
de se ter um nico termo, LDERES POLTICOS, por exemplo, agora se tem cmco
termo AERONAVES e o termo COMPUTADORES (isto , que os computadores so
termos- LDERES POLTICOS 5, LDERES POLTICOS 4, e assim por diante. Os elos
empregados como ferramentas de trabalho no projeto de aeronaves).
A National Library ofMedicine foi muito bem-sucedida ao empregar subca- e os indicadores de funo causam efeito similar.
198 INDEXAO E RESUMOS: TEORIA E PRTICA

Outra maneira de examinar isso em termos do tamanho da classe: os dispo-


CAPTULO 12
sitivos de preciso criam um maior nmero de classes menores, enquanto os dis-
positivos de revocao criam um nmero menor de classes maiores (figura 92).

, ___ (') Da indexao e redao de resumos


de obras de fico
}::::::::::::0
~--0 Ponderao
'-
___
,
0

1----0
(')
(')

Indicadores de funo
A indexao de assuntos conta com uma histria muito longa, acumulou
uma vasta experincia e a bibliografia hoje existente sobre o tema res-
peitvel. Uma de suas aplicaes importantes, no entanto, tem sido bastante
8 negligenciada, pelo menos at muito recentemente: a indexao de trabalhos de
fico, como, por exemplo, 9bras literrias e filmes. O objetivo deste captulo
examinar em que medida a indexao e a redao de resumos de uma obra de fic-
o apresentam problemas similares queles implfcitos no tratamento de obras
'srias', tais como manuais, artigos de peridicos ou filmes documentrios.
Conforme vimos antes neste livro, a indexao de assuntos envolve duas eta-
Controle de sinnimos
pas- 'anlise conceitual' e 'traduo' -que so processos intelectuais bas-
tante distintos, ainda que aparentemente realizados como se fossem uma nica
operao. A etapa de anlise conceitual determina 'de que trata' um documento.
A questo relativa 'atinncia', no que concerne indexao, foi examinada
alhures, por exemplo, Maron ( 1977), Hutchins (1978) e Swift et ai. (!978), en-
FIGURA92 quanto Pejtersen (1979) e Beghtol (1994) abordaram especificamente a 'ati-
Os dispositivos de preciso criam classes menores; os dispositivos de revocao nncia' da fico. Vrios aspectos da atinncia de textos em geral so analisa-
criam classes maiores dos por Eco (!979) e Troitskii ( 1979, !98 I). . .
Esses autores levantam vrias questes tericas ou filosficas sobre o s!gm-
Parece provvel que a necessidade de uma abordagem altamente estruturada ficado da atinncia, as quais no procurarei repetir aqui. Para os objetivos do
da indexao, especialmente o emprego de alguma fonna de indicador relaciona!, momento, empregarei a expresso 'trata de' como equivalente a 'capaz de infor-
variar de um campo para outro. Isso realmente jamais chegou a ser estudado, mar sobre'. Ou seja, se ce1tas pessoas puderem aprender algo sobre agricultura
embora Green (1997) haja examinado a aplicabilidade de estruturas relacionais por intermdio da leitura de um livro ou assistindo a um filme, eu diria que o livro
indexao no campo das humanidades. (filme) 'trata de' agricultura,
Existem analogias no processamento informatizado de textos para recupe- A indexao de um filme documentrio que aborde alguma tcnica agrcola
rao (ver captulos !4 e !5), em que a anlise [parsing] do texto para eviden- no essencialmente diferente da indexao de um livro, m1igo de peridico ou
ciar as subordinaes sintticas equivale ao uso de indicadores de funo ou relatrio tcnico sobre agricultura. Segundo nossa definio, tudo pode ser con-
outros indicadores relacionais. Embora essa anlise sinttica seja provavelmen- siderado como se tratasse de agricultura. Pode, porm, um filme de fico que
te necessria aos sistemas que procuram responder perguntas a partir direta- por acaso tenha como locao uma fazenda ser considerado como se tratasse de
mente do texto, no existe comprovao real de que ela seja necessria no caso agricultura, principalmente se a agricultura for algo completamente ac~dental e1~1
dos requisitos menos rigorosos relativos recuperao de textos ou passagens relao ao enredo do filme? Pode um filme que, de passagem, focaliza a agn-
de textos. Ademais, a anlise sinttica por computador ainda est longe de per- cultura ser considerado como se tratasse de agricultura? Se, por acaso, o heri de
feita (McDonald, 1992) e esse nvel de processamento seria diffcil de justificar, um filme um agricultor, isto faz com que o filme trate de agricultura? Ser que
com argumentos de custo-eficcia, na maioria das aplicaes de recuperao. isso o faz ser um filme que trata de agricultores?
200 INDEXAO E RESUMOS: TEORIA E PRTICA DA INDEXAO E REDAO DE RESUMOS DE OBRAS DE FICO 201

A indexao de qualquer tipo de obra de fico- seja ela uma pea teatral Isso no deve ser encarado como se estivssemos a sugerir que filmes e
u~n romance ou um filme- apresenta problemas que so, realmente, um tant~ romances no tm substncia, no tm atinncia. O filme Patton- rebelde ou
dtferentes dos problemas que envolvem a indexao de obras no~ literrias. Os heri? trata evidentemente do general Patton. Continuaria tratando de Patton
dois tipos so criados com objetivos diferentes: o primeiro, fimdamentahnente mesmo que contivesse pouca exatido histrica. A maioria dos espectadores
para entreter ou suscitar emoes, o segundo, fundamentalmente, para veiculat: concordaria em que o filme mostra a ambio de Patton. Se isso faz com que o
informaes. O fato de o primeiro tipo transmitir alguma informao concreta filme trate de ambio ou justifique sua indexao sob o termo AMBIO uma
algo acidental em face do objetivo principal do veiculo de comunicao. O fato questo inteiramente diferente. O filme tambm mostra a guerra travada com
de o segundo tipo poder, de vez em quando, entreter igualmente algo fortuito tanques. Isso significa que ele trata de guerras com tanques? Ele trata de gene-
em relao ao objetivo principal do veiculo de comunicao. rais, de estratgia militar? Pode-se consider-lo como se tratasse da Inglaterra ou
Se atribuirmos o termo AGRICULTURA a um filme documentrio ou a um arti- da Frana s porque partes do filme se passam nesses dois pases?
go de peridico sobre este assunto, implicamos que estes itens veiculam certas De um ponto de vista prtico, evidentemente, o que estamos examinando ,
informaes sobre agricultura, e que os usurios de um ndice procuraro itens de fato, uma relao entre uma obra e os termos de indexao atribudos para
por int~rmdio deste termo poique querem aprender algo sobre este assunto representar essa obra. Quando atribumos um termo de indexao a um livro ou
especfico. artigo de peridico estamos admitindo, em quase todos os casos, que a obra
Por outro lado, se algum procura, sob o termo AGRICULTURA, num ndice de veicula alguma informaO sobre o tpico representado por esse termo. No caso
obras de fico, por exemplo, filmes, com ce1teza no o faz com o propsito de de uma obra de fico, por outro lado, pode-se atribuir-lhe um termo de indexa-
encontrar informaes sobre agricultura. Por que, ento, algum iria procurar o por outros motivos, principalmente para representar:
sob esse termo? Existem vrias possibilidades: 1. Seu tema central ou temas.
1. descobrir quais os filmes que tm locao numa fazenda, 2. O que ela pode exemplificar, talvez casualmente.
2. contar quantos desses filmes j foram realizados, a fim de estudar tendncias 3. O ambiente em que ela se situa.
da produo cinematogrfica durante certos perodos, ou Na realidade, os dois primeiros motivos acima no so, claro, significativa-
3. identificar o Htulo de um filme quando o mximo que a gente se lembra que mente diferentes. Pelo menos, a nica diferena diz respeito extenso com que
ele se passava numa fazenda ou numa comunidade de agricultores. o tema tratado.
A segunda dessas possibilidades sugere alguma aplicao para fins acadmi- O ambiente do filme pode ter dimenses espaciais, temporais e de 'persona-
cos. A primeira sugere uma forma de uso em 'produo' (por exemplo, produ- gens'. A dimenso espacial pode ser bastante precisa- Pigalle, Paris ou Frana
tores de cinema ou televiso que procuram descobrir como um acontecimento, - ou imprecisa - uma floresta, um rio, uma comunidade rural. A dimenso
lugar, pessoa, atividade ou profisso foi representado por outros). O terceiro tipo temporal, igualmente, pode ser precisa- por exemplo, a Revoluo Francesa
de questo representa um uso mais popular. Trata-se, no entanto, do tipo de con- -ou maldefinida (por exeniplo, o sculo XIX ou 'antes de Cristo'). A dimenso
sulta que quase certo aparecer no departamento de referncia de uma biblioteca de 'personagens' refere~ se ao ambiente criado pelos tipos de personagens repre-
pblica. Na medida em que surgem questes dess~ tipo, parece inteiramente sentados. O fato de o personagem principal de um filme ou romance ser uma en-
justificvel alguma forma de indexao temtica de filmes de fico, mesmo que fermeira no faz com que tratem necessariamente de enfermagem ou mesmo de
estes no sejam realmente considerados como se 'tratassem do' contedo tem- enfermeiras. No filme Doutor Jivago, Lara aparece em diferentes momentos
tico implcito nos termos de indexao. Exatamente o mesmo argumento pode como estudante universitria, enfermeira e bibliotecria. O filme, de fato, no
ser levantado em relao a alguma forma de 'abordagem temtica' da literatura trata de nenhum desses papis, pois dificilmente seria possvel v-lo como um
de fico. O romance 20 000 lguas submarinas pouco contribui, se que con- repositrio de informaes sobre eles. Por outro lado, em certo sentido, Nunca te
tribui, para nosso conhecimento sobre submarinos. improvvel que algum amei (The Browningversion) pode ser visto como uma obra que trata de mestres
considere sensatamente que esse romance 'trata de' submarinos. No entanto, a e ensino, pois as relaes entre professor e aluna so fundamentais no enredo. O
indexao temtica da literatura de fico tem sua utilidade. Algum pode ensino no simplesmente um 'ornamento' ou uma imposio do ambiente.
legitimamente querer saber 'quais os romances passados em submarinos?", De um ponto de vista pragmtico nada disso realmente importante. A
'quantos romances se passaram em submarinos?', 'qual foi o primeiro romance questo fundamental no se uma obra trata de enfermagem, utiliza a enferma-
que aconteceu num submarino?' ou 'qual foi aquela obra antiga famosa que gem como exemplo ou ambiente, mas se o termo de indexao ENFERMAGEM lhe
previu o desenvolvimento de submarinos?' deve ser aplicado.
203
202 INDEXAO E RESUMOS: TEORIA E PRTICA DA iNDEXAO E REDAAO DE RESUt\o\OS DE OBRAS DE FlCO

Uma das grandes diferenas entre a indexao de obras de fico e a indexa- Duas caractersticas de um ndice que tero impotiante impacto em seu
o de outros tipos de trabalhos que as primeiras provavelmente so mais desempenho so:
subjetivas e interpretativas do que as outras. Estudos sobre coerncia da indexa- 1. a exaustividade da indexao, e
o demonstraram que no provvel que diferentes indexadores concordem 2. a especificidade dos termos utilizados.
inteiramente sobre quais termos devam ser atribudos a determinado item, Conforme vimos antes neste livro, a exaustividade refere-se extenso com
mesmo quando o contedo temtico de que ele trata seja razoavelmente concre- que 0 contedo de uma obra cobetiO pelos termos utilizados na indexao. A
to. No caso de obras de fico, provavelmente muito menor a possibilidade de exaustividade diz respeito ao mbito de cobertura. Neste contexto, o oposto de
que venha a existir concordncia. Isso seria especialmente verdadeiro no caso 'exaustivo' 'seletivo'. Em geral, a exaustividade equivale ao nme~o de termos
em que a obra de fico trata fundamentalmente de alguma emoo ou qualidade de indexao utilizados. Se o filme Geronimo aparecesse, num .nd1ce, somente
~cime, ambio ou cobia, por exemplo. sob os termos GERONIMO e NDIOS APACHES, essa indexao sena b~stante s_ele-
As obras de fico possuem outra caracterstica impo11ante que complica a tiva. No ndice de assuntos da primeira edio do Americ~n Ftlm ln~lllute
indexao temtica: seu campo de ao essencialmente abe1io. Isto , no h Catalog, este filme, no entanto, foi indexado sob 17 termos dtferentes; h ata-se
limites de fato para aquilo que podem representar. Neste sentido, a indexao
de uma indexao bastante exaustiva. . . .
dessas obras tem algo em comum com a catalogao de assuntos numa grande H prs e contras na alta exaustividade. En~ teona, ~ mdexao _exausttva fa-
biblioteca geral ou a indexao de um jornal de contedo genrico. Pelo menos cilita achar as coisas: a posSibilidade de localizar um ttem cre~ce1~ quase com
tem mais em comum com isso do que com um ambiente de assuntos mais restrito, ceJieza medida que crescer o nmero de pontos de acesso (1sto e, e.ntradas).
como a indexao de uma coleo de itens em agricultura ou educao. O voca- Isso, porm, s verdade at certo ponto. Se a ind.exao for exce~stvmnente
bulrio usado na indexao deve tambm ser abetio, pois constantemente esto exaustiva causar uma diluio da eficcia do ndtce ~ o menos tmporiante
sendo feitos filmes e romances que tratam de personalidades, acontecimentos e ocultar 0 mais importante e dificultar sua localizao. Num exemplo extr~mo,
lugares que no foram anteriormente abordados por esses meios. ser muito difcil identificar filmes ou romances que tratem, com algum mte-
Duas impoliantes consideraes relativas indexao de assuntos so: resse, de ces, se 0 termo de indexao CES for atribudo a toda obra en~ que
1. quem deve fazer a indexao, e aparea um co, mesmo de passagem. A quest~o, evi_den~en:ente, que a ~nde
2. a quais diretrizes os indexadores devem obedecer. xao de assuntos comumente implica uma deciso bmna snnple~ (um term~
Na indexao de obras especializadas em uma rea de assunto delimitada, ou no aplicado) e no uma deciso ponderada (um termo se aphca c.om cet to
evidente que se torna necessrio algum nvel de conhecimento especializado. O peso). Por isso, em ce1ias aPlicaes do ndice, o j?io pode ocultar o tngo. . .
grau desse conhecimento especializado que ser necessrio depender, em gran- Enquanto a exaustividade diz respeito ao mbtto de c~bertura, a especifici-
de medida, do grau de hermetismo do contedo temtico e de sua terminologia. dade refere-se profundidade de tratamento do conteudo. Estabelece-se a
Percebe-se intuitivamente que a indexao em matemtica ou mecnica aplicada exaustividade como uma deciso da poltica de indexao, enquanto a especi-
talvez exija maior domnio do assunto do que a indexao, por exemplo, na rea ficidade uma propriedade do vocabulrio adotado na in~exao., Em ~era!,
de transportes, cuja terminologia apresenta maior probabilidade de ser conhe- constitui uma boa prtica de indexao empregar o termo mms espectfic~ dts~o
cida do pblico em geral. Um bom indexador no precisa necessariamente ser nvel para descrever algum aspecto presente no documento .. Este pnncf~10,
um especialista num assunto; inversamente, um especialista num assunto no faz entretanto, precisa ser temperado com o senso comum. ~o proje~ar u~ ndtce,
necessariamente um bom indexador. deve-se tentar chegar a um nvel de especificidade que seja apropnado as neces-
Uma vez que o contedo de obras de fico no limitado por sua temtica, sidades dos usurios desse fndice. Lassie presumivelmente uma cadela da raa
nessa situao o domnio de um assunto, no sentido convencional, irrelevante. cole. Seria tecnicamente correto indexar os filmes de Lassie :ob COLES. N,o
Ademais, pode-se considerar que aquilo que essas obras apresentam cai na cate- entanto, percebe-se intuitivamente ser improvvel que os u.sunos ?e um cata-
goria de 'conhecimentos gerais' e nada tem a ver diretamente com as tcnicas logo de filmes precisem, ou procurem, qualquer termo n~ats es~ectfico, do que
envolvidas na produo de obras de fico. No h motivo algum para supor, por CES. Por outro lado, seria preciso indexar de modo mmto mats ~spectfico do
exemplo, que a indexao de filmes deva ser feita por estudiosos de cinema (em- que CES numa enciclopdia sobre animais de estimao. Evidentemente,
bora essas pessoas possam ofer'ecer contribuies valiosas a respeito dos tipos quanto mais especficos forem os termos utilizados, menos entradas por termo
de termos que seriam teis, pelo menos para elas) ou mesmo que ela exija algum haver em mdia. Isso facilita a localizao de algo altamente especfico, mas
conhecimento especfico das tcnicas da cinematografia. torna mais difcil a realizao de buscas mais genricas.
205
DA INDEXAO E REDAO DE RESUMOS DE OBRAS DE FICO
204 INDEXAO E RESWv!OS: TEORIA E PRTICA
brade fico: contedo temtico, referencial (poca, luga~, m_eio social,_ ~rofis-
A fico em particular
0- ) inteno 011 atitude do autor, e acessibilidade. A partn disso, el~ CilOU um
Embora a maioria dos exemplos usados at agora estivesse relacionada a sao d. ~ cateoonas
esquema de indexao que envolvia as segumtes 1mensoes e o
filmes, os mesmos argumentos e princpios so aplicveis a romances e ouhas
obras de fico em formato impresso. Apesar de alguns autores, notadamente 1. Contedo temtico
Pejtersen (ver Pejtersen, 1979, 1984); Pejtersen e Austin, 1983, 1984) terem rea- a. ao e curso dos acontecimentos
lizado experimentos com a indexao de fico, ao longo de muitos anos, o inte- b. desenvolvimento e descrio psicolgica
resse pelo tema aumentou notavelmente na ltima dcada, a ponto de ter levado a c. relaes sociais
a
American Library Association publicar 'diretrizes' sobre a questo (Guide!i- 2. Referencial
a. poca: passado, presente, futuro
nes on subject access, 2000).
Pejtersen (1992), entre outros, chamou ateno para a anomalia relativa ao b. lugar: geogrfico, meio social, profisso
fato de que os bibliotecrios geralmente pouco fizeram para melhorar o acesso 3. Inteno do autor
s obras de fico, muito embora elas representem a metade do acervo das a. experincia emocional
bibliotecas pblicas e mais da metade das que so retiradas por emprstimo. b. cognio e informao
Sapp ( 1986) e Baker e Shepherd ( 1987) estudam a classificao de obras de 4. Acessibilidade
fico nas estantes das bibliotecas e as limitaes dos esquemas de classificao a. legibilidade
bibliogrfica ou das listas de cabealhos de assuntos existentes, que pouco con- b. caractersticas fsicas
templam o acesso temtico s obras de criao. Baker (! 988) descreve os resul- c. forma literria
tados de experincias com a classificao de obras de fico em bibliotecas 0 esquema foi adotado, na Dinamarca, na i~1dexa~o de ~rias bases. de
pblicas. Sapp (! 986) tambm examina os mtodos adotados em cet1as fontes dados em linha, e mais recentemente no catlogo mteratiVO ~m .lmha conhecido
impressas, como o Short St01y /ndex, o Cumu!ated Fiction Index e o Fiction como Book House. Permite fazer buscas a pat1ir de dados btbhogr~ficos, pala-
Catalog. Embora essas publicaes realmente indexem os emedos sob mais de vras-chave controladas, termos de classificao, e palavras/expressoes c?nstan-
um cabealho, padecem das desvantagens dos ndices impressos em geral- no tes de uma anotao em linguagem natural. A figura 93 (extrada de Pejtersen,
permitem ao usurio combinar cabealhos numa busca. Assim, seria possvel 1992) mostra uma entrada completa do Book H ouse. A fig~ra 94 um exemplo
identificar histrias policiais e histrias que se passam na China, mas seria muito anterior, com a indexao completa de um romance por meiO de palavras-chave.
mais difcil identificar histrias policiais que se passam num ambiente chins.
Olderr (1991) salientou porque a indexao de obras de fico importante Autor: Hal\er, Bent
Kaskelotternes sang, 1983, 137 pginas
para as bibliotecas: Ttulo:
Cv.pa: Azul, mar, baleias, icebergs
Nunca fcil respondera perguntas do tipo 'voc tem algum romance policial que se Nomes: Tangeje, Peter .
A vida no mar de um filhote de cachalote. Sua luta pela s?brevl
ConteMo temtico:
passe em Iowa?' ou 'existe algum romance atual sobre a morte? ou 'voc poderia me vncia apesar da poluio, da fome e da matana das bale~as pelo
sugerir um romance sobre o esforo de guerra em territrio ingls durante a Segunda homem. A unio dos cachalotes na luta contra os pengos do
Guerra Mundial?' (p. xii). mar.
Ambiente: Ambiente marinho.
Guard (1991) tambm analisa as formas de abordar a fico de que precisam os Dcada de !980. .
poca:
usurios tpicos de uma biblioteca, e Hayes (!992b) apresenta os resultados de Crtica poluio dos 01ares pelo homem e matana das baleJ<LS,
Cognio:
algumas experincias sobre 1 acesso melhorado ao catlogo' de obras de fic'io levando-as quase extino.
em bibliotecas, detendo-se principalmente no tempo destinado catalogao e Experincia emocional: Emocionante, triste.
Forma literria: Romance, histria de animais. .
nos tipos de cabealhos necessrios. Ranta (1991) apresenta uma perspectiva ti anos de idade, leitura elll voz alta para crianas a partir de 7
Legibilidade:
diferente, argumentando que o acesso temtico a obras de fico necessrio anos (fmal feliz).
para facilitar vrias modalidades de estudos literrios. Tipografia: Letras gradas.
Um mtodo avanado para indexao de literatura de fico foi descrito por
FIGURA93
Pejtersen (por exemplo, 1979, 1984) e Pejtersen e Austin (1983, 1984). Basean-
Exemplo de entrada da base de dados d_e fico Book H ouse
do-se numa anlise sobre como os usurios de bibliotecas pblicas caracterizam Reproduzido de Pejterseo { !992) com perm,ss~ de Emera!d
o contedo dos livros, Pejtersen identificou quatro 'dimenses' principais da
206 INDEXAO E RESUMOS: TEORIA E PRTICA DA INDEXAO E REDAO DE RESUMOS DE OBRAS DE FICO 207

BRANNER, H.C. Barnet leger ved stranden anterior (Walker, 1958), embora baseada na anlise detalhada de um nico ro-
Descrio psicolgica: Depois de um casamento fracassado, um homem se isola em mance, e propondo um esquema minucioso de sua p(pria autoria, que empre-
um chal de veraneio, vivendo uma profunda crise. Encontra duas pessoas, que so- vava um mtodo de classificao facetada.
bre ele exercem influncia. poca: dcada de 1930. Lugar: Dinamarca, um chal de " A publicao da American Libra1y Association sobre inde~ao de obras de
veraneio beira-mar. Ambiente social: Classes mdias. Cognio/informao: a rela-
o entre as experincias da infncia e os medos e fracassos matrimoniais da vida criao (Guidelines on subject access, 2000) menos uma sne de d1retnzes do
adulta. Perspectiva psicoanaltica_ Legibilidade: Dit1cil. Tipos usados na composio: que um vocabulrio, em formato de tesauro, porm baseado nos_ cabealhos _de
Grados. Forma: Dirio. Dados bibliogr.: Copenhague: Povl Branner, 1937.-379 p. assuntos da Libra!)' o f Congress, que pode ser empregado para mdexar ficao,
Pontos de acesso: 1930--1939 peas de teatro e outros gneros. O vocabulrio abrange ap~nas ~ipos de obr~s
Dirios
(por exemplo, poesia histrica, filmes de horror, rom~nces h1stncos); os usua-
Depresso
Medo rios so encaminhados a outras fontes, a fim de venficar a forma correta dos
Culpa nomes dos personagens, dos nomes de lugares e outros pontos de acesso.
Descries psicolgicos As diretrizes que realmente aparecem na publicao da ALA so bastante
Problemas de identidade imprecisas. Alm de termos para formas, as diretrizes contemplam a atribuio
Problemas pSicolgicos
Represso de termos para personagens, ambientes e ~tpicos'. O ambiente refere-se tanto a
lugares quanto a perodos, e devem ser adotados subcabealhos de forma (por
FIGURA 94 exemplo, Paris (Frana)- Poesia). As diretrizes especificam que os nomes de
Exemplo de um romance indexado com o emprego do mtodo de Pejtersen Personaoens fictcios e lendrios (ao contrrio de pessoas reais) somente devem
Reprodltzido de Pejtersefl e Austifl (1933) com permio de Emerald " ~~quando surgirem com destaque em trs ou ma1s
ser usados . obras". Em b ora um
indexador relativamente culto provavelmente saiba que Sherlock Holmes e
Uma das principais vantagens de um mtodo to estruturado quanto esse Narn-ia aparecem em muitas obras, como poderia algum saber que um detetive
para a indexao da literatura de fico que permite que sejam realizadas ou um lugar menos famosos se encontram em pelo menos trs obras, a menos .que
buscas adotando-se uma espcie de modo de 1 comparao de padres', que esse algum tivesse mo vrias dessas obras imediatamente. E, alm do ma1s, o
serve para muitos leitores que desejam livros 1 Similares' a um que tenham lido que h de to especial no nmero 1 trs'?
recentemente. Os critrios pelos quais as obras de fico so procuradas pelos As diretrizes da ALA sobre 1 acesso tpico' so ainda mais vagas:
usurios de bibliotecas so mais pessoais e idiossincrticos do que os critrios e
as caractersticas comumente associados s buscas por assuntos em bases de Atribua tantos cabealhos tpicos quantos foremjustificveis pelos assuntos da obra.
dados bibliogrficos que abranjam, por exemplo, m1igos de peridicos. Embora As sobrecapas dos livros e as recenses so uma boa fonte de informao para
identificar de que trata uma obra. Caso no existam, uma tcnica muitas vezes
isso apresente i_mpo11antes desafios para quem projeta sistemas de recuperao,
eficiente 'passar os olhos' no texto para identificar seu contedo tpico.
tambm sugere enfoques inovadores do problema da recuperao da informa- Os temas de obras de fico, identificados na crtica literria, podem ser ex-
o. Imagine-se uma base de dados de biblioteca pblica que armazenasse infor- pressos com cabealhos dos !.CSH representativos de qualidades ou conceitos. Uma
maes sobre as obras de fico_retiradas por emprstimo por cada cliente. Seri- vez, porm, que os I.CSH foram projetados para indexao de obras que no so fie
am, ento, desenvolvidos programas que identificariam grupos (talvez pares) de ci01iais, so comparativamente poucos os cabealhos que se prestam a tal fim (p. 47).
clientes que tivessem muitos livros em comum. Essa informao, em seguida,
De fato o folheto da ALA no serve a nenhum propsito til, pois as diretrizes
seria utilizada para gerar listas de sugestes de leitura para os usurios da biblio-
so muito ;aoas e h um tesauro mais completo e melhor (Oiderr, 1991).
teca. Por exemplo, se o Usurio A tomou emprestados os itens a, b, c, d, e, e o
Em nove;;bro de 1991, o OCLC e a Library o f Congress deram incio a uma
Usurio B tomou emprestados a, d, e e(, talvez A viesse a se interessar pela exis-
experincia de catalogao cooperativa de assuntos em ~extos d~ fic~~ ?rama-
tncia de {e B pela existncia de b e c. O sistema de Pejtersen permite, de fato,
furo-ia e outras obras de criao. Vrias bibliotecas pblicas e umversltanas par-
realizar buscas por 'livro-modelo', isto , localizar um romance 'similar' a outro
que foi considerado divertido. 'Similar' poderia ser em termos de cenrio, tema,
tici~aram do OCLCiLC Fiction Project contribuindo para a complementao de
registros MARC de um conjunto de itens selecionados. Foram a eles acrescen-
ponto de vista do autor, experincia emocional, e assim por diante.
tados termos relativos tanto a gnero quanto a assunto (cabealhos de assuntos
Beghtol (1994) um tanto crtico do esquema de indexao de Pejtersen,
LC). Mais de 15 000 registros LCMARC foram complementados pelo OCLC e as
revindicando melhores resultados para uma classificao alternativa e muito
bibliotecas participantes. Alem disso, foram tambm complementados registros
208 INDEXAO E RESUMOS: TEORIA E PRTICA DA INDEXAO E REDAO DE RESUMOS DE OBRAS DE FICO 209
bibliogrficos feitos por algumas das bibliotecas pmticipantes, e muitas propos- o, inclusive a de Pejtersen, concentram-se no qu trata o livro e pouca ateno
tas de c~beall~os de assuntos foram submetidas Libraty ofCongress, que apro- dedicam a como a histria contada. Ele menciona alguns elementos, como o
vou mais de mil dessas propostas, em sua -maioria cabealhos para personagens estilo, a narrativa, o modo discursivo e a composio, como alguns dos elemen-
de fico (Westberg, 1997). O projeto foi concludo em 1999.
tos do aspecto relativo ao como da fico.
Em 1997, a British National Bibliography passou a incluir entradas de obras Nielsen oferece maiores informaes sobre quais os tipos de coisas a serem
de fico com cabealhos de assuntos tpicos, bem como cabealhos de gnero e consideraCl.os na indexao do aspecto relativo ao como de um romance:
forn!a baseados nas diretrizes da ALA (MacEwan, 1997).
. E provvel que as obras de fico apresentem dificuldades maiores para 0 -Gnero, sub gnero, tipo literrio. (Qual o tipo de literatura?)
-Estrutura narrativa, enredo. (Por exemplo, trata-se de uma estrutura simples ou
mdexador do que outros tipos de publicaes. A coerncia provavelmente ser complexa? Uma estrutura linear, cronolgica, ou uma alternncia entre tempos diferentes?
at menor, a menos que seja adotado um vocabulrio controlado de termos Ou a estrutura fOrmada por variaes de fragmentos, colagem, no cronolgica mas
genricos, bem pequeno, principalmente se o indexador tiver de expressar 0
tematicamente orgmtizada? A narrativa estruturada como um quebra-cabea?)
-A maneira de contar do(s) narrador(es). (Por exemplo, como a narrativa apresen-
'ponto de vista' do autor. A indexao da literatura de fico (por exemplo)
tada? Quantos mmadores? O narrador fala na primeira ou na terceira pessoa? Narrador
parece merentemente mais subjetiva do que a indexao de peridicos ou livros distanciado ou comprometido? 'Mostra' ou 'conta'?)
especializados que tratam de fico. Outro problema que no absolutamente -Pontos de vista. (Por exemplo, a histria contada a partir de um ponto de vista
f~il, para os objetivos da indexao, fazer a leitura por alto de obras de fico, e especifico? Ou h uma alternncia entre diferentes pontos de vista?
-Estilo, maneira de contar, estrutura do discurso. (Por exemplo, estilo especfico:
o mdexador no conta com o auxflio dos titulas e entretftulos temticos, que
impressionista, surrealista, etc. Mais genrico: maneira didtica, cmica, irnica de
quase certamente encontra em muitos outros tipos de publicaes (Jonak, 1978). contar; discurso que usa a linguagem corrente, ou que usa trocadilhos, estrutura ilgica do
Olderr ( 199!) identifica os problemas com bastante clareza: discurso, ou alternao entre os discursos mais diferentes; intertextualidade.)
-Funo do ambiente. (A funo documentria? E a convencional para esse tipo
A catalogao de obras de fico exige imaginao. Uma obra de no-fico, mesmo espectlco de romance? Ou o ambiente empregado de fonna simblica ou alegrica?)
que n~o traga dados de Catalogao na Publicao (C!P) no verso da folha de rosto, -Padres de metforas, moli~os determinantes, simbolismo. (0 simbolismo dis-
possu1 um sumrio, um ndice, ttulos temticos dos captulos e outras caracteristicas creto ou dominante? Quais os tipos de smbolos utilizados? Qual o tipo de motivo deter-
que ajudaro o catalogador. At o ttulo normalmente reflete com preciso o conte- minante que pode ser encontrado? Quais os smbolos, motivos, alegorias ali encontrados?
do. Se o livro for sobre a inveja, assim haver de declarar; se for sobre cime, tambm Por exemplo, o motivo do duplo de algum, o motivo de Don Juan, o mito do Paraso) (p.
o dir. Uma obrade fico, por outro lado, pode tratar da inveja ou do cime ejamais 174-!75).
empregar no texto uma dessas palavras. E depois que o catalogador houver identiti- Embora a indexao desses aspectos revista-se de utilidade para os estudiosos
cado o tema, ainda haver o problema de lembrar qual a diferna entre inveja e da literatura, improvvel que venha a ter muito interesse para os leitores tpicos
cime. Isso, para comear, no algo que seja do pleno conhecimento de todos ... (p. xiv).
de obras de fico. Ademais, esse tipo de indexao exigiria uma anlise textual
DeZelar-Tiedman (1996) estudou a factibilidade de empregar informaes minuciosa que somente um especialista em literatura poderia proporcionar. Isso
fornecidas pela editora (por exemplo, as constantes da sobrecapa ou da capa) seria inutilmente dispendioso em qualquer aplicao que tivesse uma dimenso
como fonte de termos representativos de personagens, ambiente, gnero e significativa.
tpico. Em geral, ela considerou que isso era satisfatrio pam a maioria dos Trabalhos sobre indexao e resumos de obras de fico so tambm objeto
itens, porm a amostra em que se baseou era muito pequena. de uma srie de artigos de Saarti {1999, 2000a,b, 2002). Um estudo sobre coe-
Down (1995) examina ~lguns dos problemas com que ela se defiontou na rncia de indexao foi realizado em cinco bibliotecas pblicas finlandesas.
atribuio de cabealhos de assuntos a obras de fico. Sua experincia sugere Cinco romances iguais foram indexados por trs bibliotecrios e trs usurios de
ser improvvel que o exame superficial de um romance ou a confiana nas cada biblioteca. Os termos foram extrados de um tesauro finlands para inde-
informaes fornecidas pela editora possam esclarecer quais sejam realmente os xao de fico e os indexadores foram solicitados a redigir resumos dos roman-
temas que a obra ilustra. ces antes de index-los. Obviamente, a coerncia foi baixa e houve variaes
Beghtol (1994) oferece o levantamento mais completo dos problemas da . muito grandes de um indexador para outro quanto ao nmero de termos atribu-
indexao de obras de fico, inclusive a questo da 'atinncia', alm de apre- dos. Os indexadores bibliotecrios atriburam menos te'rmos do que os usurios
sentar seu prprio mtodo. e foram mais coerentes entre si. No entanto, o valor de sua coerncia foi de ape-
N ielsen ( 1997), recorrendo ao campo da crtica literria e dos estudos liter- nas 19,9% em comparao com 12,4% dos usurios. Os romances mais 'com-
rios, argumenta que a indexao e redao de resumos de fico constitui uma plexos' (por exemplo, os de Dostoievski) foram indexados com mais termos do
forma de interpretao literria. Afirma que as abordagens da indexao de fie- que os menos complexos (por exemplo, de Simenon). Os resumos variaram de
210 INDEXAO E RESUMOS: TEORIA E PRTICA DA INDEXAO E REDAO DE RESUMOS DE OBRAS DE FICO 211

tamanho de 23 a 186 palavras (mdia de 68). Cerca de 7 5% dos 3 206 diferentes


'elementos' dos resumos lidavam com contedo (como temas, ambientes e per- So muito poucas as diretrizes existentes sobre preparao de sinopses de
sonagens), 11,9%, com a estrutura do romance, 5,5%, com a experincia subje- literatura de fico. A editora de Masterplots (Magill, 1976) oferece alguma ori-
tiva da leitura, e 5,2%, com a crtica ou avaliao do romance. Os usurios foram entao, mas de uma forma muito geral:
mais avaliadores/crticos do que os bibliotecrios (Saat1i, 2000a,b). Saarti ( 1999) Projetado fundamentalmente para consulta, o formato de MASTERPLOTS estrutu-
hata de tesauros para a indexao de fico e, em particular, do tesauro finlands. rado e padronizado, a firn de oferecer o mximo de informao da forma mais rpida.
Este exame da questo patiiu da hiptese de que as obras ficcionais so inde- Cada uma das snteses precedida de dados de referncia cuidadosamente verifica-
dos e enunciados sucintamente, os quais intrmam num relance o tipo de obra,
xadas em alguma forma de base de dados. Bradley ( 1989) examina uma situao
autoria, tipo de enredo, poca do enredo, lugar e data da primeira edio. Em seguida
afim a essa: a necessidade de fndices nas prprias obras de fico. Embora seja encontra-se uma lista dos personagens principais e as relaes entre eles, o que
defensvel a incluso de ndices no final de cetias obras, como, por exemplo, muitas vezes uma caracteristica bastante til. Depois vem a Crtica, uma anlise
clssicos renomados, certos romances histricos e outros trabalhos ficcionais breve e incisiva do livro original. Finalmente segue-se o resumo do enredo, apre-
que possam ser objeto de pesquisas cientficas, o estudo de Bradley mostrou que sentado como urna histria completa e isenta de citaes da obra original (p. v).
foi pouco o interesse demonstrado por romancistas, crticos, leitores ou editoras. Em Masterplots 11 (ivlagill, 1986) foi adotado um formato um pouco diferente:
Bel! ( 1991 b) identifica os problemas especiais implcitos na elaborao de
[ ... ]junto com uma sntese do enredo, com freqncia se examinam os rcursos
ndices de romances. Ela salienta que dar a entender a 'sutileza e complexidade'
narrativos e se estuda a construo dos personagens de forma mais profunda do que
da inteno de um romancista muito mais difcil do que expressar de que trata antes - um aspecto que til para os l!studantes mais jovens. Alm disso,
uma obra de no-fico. identificam-se e se analisam os principais temas do romance em questo, e o xito em
geral dos esforos do autor comumente analisado num resumo interpretativo (p. vii-
Redao de resumos vi i i).
As obras de fico, tanto quanto outros tipos de publicaes, precisam ser A figura 96 apresenta um exemplo de i\t/asterplots !f.
resumidas (quando no seja, para facilitar sua indexao), porm as carac- A edio revista de Masterplots 11 (Kellman, 2000) adota uma abordagem
tersticas dos respectivos resumos ou sinopses so bastante diferentes das mais estruturada da sinopse do enredo (conceitualmente similar a um resumo es-
caractersticas dos resumos de publicaes cientficas examinados anteriormente truturado) com quatro componentes: Enredo, Personagens, Temas e Signifi-
neste livro. Um bom resumo deve conter os aspectos fundamentais do enredo ou cados, e Contexto Critico. Seu emprego descrito da seguinte forma:
ao, indicando o ambiente (geogrfico, cronolgico) e as emoes descritas, Esta anlise comea com um resumo dos principais elementos do enredo da obra e
quando isto for apropriado. A sinopse pode ser estruturada como no exemplo da continua com sees separadas que a examinam em profundidade. A seo 'Os
figura 93 ou adotar a forma de uma narrativa simples, como no exemplo da figura Personagens' examina as motivaes e o desenvolvimento das pessoas retratadas;
95. Embora as caractersticas da sinopse sejam bastante diferentes das caracte- 'Temas c Significados' examina as preocupaes maiores da obra; e 'Contexto
rsticas do resumo, sua finalidade principal semelhante- indicar para o leitor Crtico' avalia o lugar da obra na tradio literria norte-americana e sintetiza qual
se ele precisa ou no ler ou ver o item descrito. Alm disso, aplicam-se igual- foi sua recepo. Cada verbete termina com uma bibliografia comentada que orienta
mente sumarizao de obras de fico os mesmos princpios bsicos que orien- o leitor para outras fontes recentes de estudo (p. v).
tam a redao de resumos: exatido, brevidade, clareza. Pejtersen ( 1994) admite trs estruturas lingsticas bsicas para identificar e
expressar o contedo de obras ficcionais (ver figura 97). Esse esquema pode ser
Um coelho invade uma horta para comer as hortnlias. O hortelo descobre-o e pnssa empregado para orientar a redao de anotaes, como no exemplo apresentado,
a persegui-lo. O coelho foge. e essas anotaes so uma fonte bvia de termos de indexao teis. Ela adverte,
Pedro, o Coelho, imprudentemente, invade o canteiro de uma horta pma comer as no entanto, que "uma descrio completa do contedo temtico pode exfgir a
hortalias. O dono, Sr. McGregor, descobre-o e procura livrar sua horta desse animal combinao de vrias estruturas".
pernicioso. Depois de uma perseguio angustiante, Pedro consegue tligir e voltar para
casa.

FtGURA95
Duas sinopses possveis de As aventuras de Pedro, o Coelho, de Beatrix Potter
Apud Krieger(l98l), com modificaes, e com permisso do autor
212
INDEXAO E RESUMOS: TEORIA E PRTICA DA INDEXAO E REDAO DE RESUMOS DE OBRAS DE FtCO 213

A BLOODSMOOR ROMANCE cowboy, an outlaw, a deputy shcriff, and a gambler. During her masquer-
adc, she tums physically into a man as well, and when she returns to the
Author: Joyce Caro! Oates (1938- ) family home at Bloodsmoor, she poses as Philippe Fox, Constance's agent.
Type of p/ot: Historical romance fantasy Eventually, "he" apparently elopcs with a childhood girlfrend.
Tim< of plot: 18791900 The plot of the book unfolds by following the lives of the daughters as
Loca te: Bloodsmoor, a valley in Eastem Pennsylvania they grow up. In their adventurs, the reader meets severa! characters
First pub/ished: 1982 drawn from history. For example, Deirdre, the Zinns' -adopted daughter, is
kidnaped by a mysterious stranger in a black balloon who deposts her on
Principal characters: lhe lawn of a character named Madame Elena Blavatsky. This Madame
JoHN QUINCEY zu,m, a gentleman-inventor and the father of Blavatsky shar~s the quirks of lhe historical Madame Blavatsky, cofounder
a large family of lhe American Theosophical Society. Rccognizing Deirdre's talents,
PRUDENCE KIODEMASTER ZINN, his wife, mother o( the Zinn Oates's Blavatsky teaches Deirdre to become a medium, contacting spirits
daughters beyond the grave, and takes her on a world tour. The reader meets other
CoNSTANCE PHILIPPA, their oldest daughter who )ater fictional characters with real countcrparts as well: Mark 1\vain, for one.
becomes a son As may be inferred from the events recounted above. A Bloodsmoor Ro
MALVINIA, another daughter, late r a famous actress mance is an often hilariusly comic work, yet one that at the same time at-
<:TAVIA,another daughter, !ater a wife and mother tempts to capture some of thc boundless enthusiasm of the late nneteenth
SAMANTHA, another daughter who serves as her father's Jab- century, an enthusiasm that was oftcn as undiscriminaling as it was
oratory assistant energetic.
DEJRDRE, an adopted daughter and spiritualist

The Novtl FIGURA 96 (continuailo)


Joyce C_arol Oates's book A Bloodsmoor Romance is not a kind of fiction - Exemplo de uma entrada de Masterplots !I ( 1986)
l~at IS eas1ly n~med, although it is not hard to recognize. The work com- Reproduzido de !1/u.,fapfots 11: Am~IWII rhlillll Scri"s, volume I. P- IS6-lS7. Com pem1isso dl
editora. Salem Press lnc_ Copyrighl ID 1986, Salem Pr~>s lnc
bmes bot~ reahsm and fantasy in a display o f authorial skill: Oates uses sev-
era! techn1ques to achieve t~is e_ffect. First, she sets her romance in a past
t~at closely resembles the h1stoncal past; in that setting one finds both fic- Estrutura I:
honal ~~aracters and characters who bear the names o( figures from history.
Personagem (ns) princpal(is) como substantivo no genitivo - acontecimento central
In ad.dltJOn, lhe characters of lhe work are interested in many of the lhings
como substantivo- elementos de sujeitos remanescentes como oraes prepositivas.
that mlerested lhe real nin.eteenth century: spirituatism, the theater, the
westw~rd movement, expenmental science, abnormal psychology, female Exemplo: A carreira militt~r de um tenente ingls. Suas perigost~s expedies contra
sexu~Lity, and, the nature of marriage. contrabandistns e seu tmba\ho como capito de um navio corsrio.
1t IS Cates s second technjque that seis lhe work apart from historica) ro- Foco: Personagem principal.
manc~es per se: She freely manipulates lhe order of historical events and
even adds events that could not possibly occur. John Ouincey Zinn demon- Estrntuttl 2:
strates bo~h of the~ in_trusions of fantasy: He invents lhe ballpoint pen and Acontecimento(s) central(is) como substantivo- elementos sujeitos como oraes
solar _heatmg but dJsmJsses them as useless. He invents an operating time prepositivas.
~ac_hme, b~t ~e destroys it after he uses it to misplace one o( his pupils. Exemplo: Trt1co de drogas entre um agente da ClA em misso secreta e a embaixada
SJmtlarty~ Zinn s daughter Constance combines fantasy with history. Reared
chinesa.
for marnage, Constance spends her early tife accumulating household r .
ens, b,ut When the weddng night comes, she panics, and placing in ~;, Foco: Acontecimento central.
8'?0~ s bed lhe dress form used to fit her trousseau, she runs away. Eshutura 3:
DJsguJsing hersel( as a man, she heads west and tries her hand at being a
Personagens principais como substantivo- estrutura I - elementos de sujeitos rema-
nescentes como oraes prepositivas.
Exemplo: A priso de Hali. O cotidiano dos prisioneiros, seu vcio em drogas, suas
FIGURA% provocaes e revolta contra os funcionrios da penitenciria.
. Exemplo de uma entrada de 1\lasteJplots 11 (1986) Foco: Relaes entre personagens e acontecimentos principais.
Reproduvdo de Mm~(FJ!l"l' 11: Alllo!tiwu H~flimSr:rf(_,-. volume 1. p. !86-187. Com penniss!o da
edtora, Salem Press Inc. Copyright O 1986, Sa.Jem rresslnc.

FIGURA97
Estruturas lingsticas para orientar a anotao e indexao de fico
Reproduzido de Pejtersen ( 1994) com ~rmisso dl FJlDON.V~rlag Dr. H.-J. Oietrich
215
ES DE DADOS DE !tvlAGENS E SONS
BAS I .
Besser ( 1997) chamou a ateno para o problema da indexao re ativa a
CAPTULO 13 inmgens da seguinte fonna: . .
. ssuem muito poucas informaes textuats que on-
Como as colees de tmagens poos sistemas tradicionais de recuperao no se apli-
ginalmente as acompanhem, noss I t'vamente abrigam um dos maiores
Bases de dados de imagens e sons cam facilmente a elas[... ] Os n~useus, que: co e ~m anhaas de texto, muitas vezes
conjuntos de imagens ~ue efettvq:ll;~~~ s~~:b~~lut~mente teis para o leigo (p. 24).
atribuem termos a uma Imagem '
. . ~ de ima(Tens difere mais de petio da recuperao de textos
A tecupeta.ao o dem uerer pesquisar sobre uma ampla
m livro organizado por Feinberg (1983) examina vrias questes especiais porque os usunos de_b~ses de dad~~ ~~sde a~ muito exatas (nomes de ai1istas,
U da indexao, mas se limita quase que exclusivamente indexao de tex-
tos impressos em papel. Toda rea do conhecimento, bem como distintos for-
variedade de caractensttcas, ~ue ~a . (f; .
ttulos de pinturas) at as mmto Imprecisas ollna: cot, ,
. textura) Ao tratar de
. Mehrotra
matos impressos, como jornais e leis, suscita problemas de indexao algo dife- determinada abordagem, un:a base de da,do~ conl~i~:~:i: ~o:l~Ob~:~=~~~~ Os nveis
rentes. As diferenas de indexao presentes nessas variantes so, porm, de 1997) essas caractersticas como ntvets vat <
( v fi 98 que Mehrotra explica da segumte forma:
somenos. 1v1ais relevantes so as questes que surgem ao sairmos do texto im- principais so mostrados na tgura ,
presso para outros formatos. Este captulo examina a indexao de imagens e . . . . . ns de bases de dados ou imagens~exemplo.
Nos niveis mms mfenores esto Jmage s de suas pro-
sons gravados. So reas difceis, pois abarcam campos, como tecnologia da fala, No nvel seguinte de descrio, uma ima~en~ c~ractenz~~~~:i~~~~s histogramas
viso computacional, e compreenso de documentos, que ultrapassam em muito o riedades, como cores de !timoplano/pnmet_ro pano, cor d'e obietos- tais
P A d c io de 1magens em termos ...
escopo da maioria das aplicaes da indexao. e propriedades de textura. es r . . . relaes entre eles
. d . mentos de lumte e contO! !lOS- e
como regies a Imagem, seg _ S ivel de abstrao em que as imagens
Index.ao de imagens forma o nivel seguinte de abstraao. egue-se o n
A capacidade de armazenar, em formato digital, em bases de dados, qualquer
tipo de imagem, e especialmente de poder acessar milhes delas na Rede, causou Joo da Silva, Lassie, horizonte da
Exemplos de ObjetOs .do Mundh cidade de So Francisco, ...
impressionante ressurgimento do interesse por imagens em geral e, em particular, por
modos de index-las. Disse Jorgensen (2001) sobre essa revoluo:
Encontramo-nos, ao que parece, no ponto crtico de importante movimento histri- (
t
Objetos do i\Iundo Ge!Jrko)
homem, co, automvel, multido,
crepsculo, paisagenl, aperto, mos,
co de retorno ao que se poderia chamar o primado da imagem. Ao longo dos ltimos sorriso, ...
sculos, as palavras foram a forma privilegiada de comunicao e o meio preterido
de educao. Uma mudana, porm, se verificou nas ltimas dcadas, e as imagens
t
('---~O~bJ~c~to~s~-Irn~,a~g~e~n~----~~
retngulos, elipses, curvas,
vm reafirmando sua primazia como mensageiros instantneos e poderosos (p. 906).

Tudo que foi dito sobre indexao neste livro, at aqui, limitou-se a textos t histograma. segmentos de li01ite, textura,
escritos. claro que descrever imagens com palavras ainda impo1iante. Ima-
gens. digitais, porm, tambm podem ser indexadas (automaticamente) e recupe-
~'---A~tr~i~b~u~to~s~<;la~l~n~nsg_c,_n __-~
__ regies homogneas, ...

radas por atributos intrnsecos, corno cor, forma e textura. Os termos que distin- t
guem os dois mtodos no so de todo coerentes, mas a descrio de imagens,
com palavras, feita por seres humanos, denomina-se em geral indexao baseada
('-------~I~n~,a~g~e~n~s______~;> imagens originais/processadas,

em conceitos, e a indexao de imagens por seus atributos intrnsecos basea-


FIGURA 98
da em contedos (Rasmussen, 1997). Caractersticas como cor, forma e textura
so amide denominadas caractersticas de nivel baixo. As caractersticas de Principais niveis de abstrao na base de dados de.un~ mus~t~ de arte
Apud Mehrolra (199?) com permisso do conselho diretor da UnlverNy of\lhnots
nvel alto so descries da imagem baseadas em palavras.*

*Alguns autores, como Mostat (1994), distinguem entre indexao verbal (isto , representao
pontos de acesso, da prpri~
imagem), e isso parecd~ ~~:~~:;~:n~~~:r~~~~;~~~ clara, exceto,
naturalmente, que um nico sistema de recuperao po
textual de uma imagem) e indexao baseada em imagens (a extrao de caractersticas, e, portanto,
216 INDEXAO E RESUMOS; TEORIA E PRTICA
y
.
.
.

BASES DE DADOS DE llvlAGENS E SONS


217

H indicias de que isso seja verdade (Markey, 1984). l~so levot~ ~r~wn ~t ai.
so descritas em termos de objetos genricos, relaes e conceitos, como homem,
co, carro, multido, horizonte, crepsculo, nublado, colorido e sorriso. No nvel
(l996) a suoerir a possfvel utilidade de uma abordagem der~10crat1ca da mde-
mais elevado de abstrao, as imagens so descritas em termos de casos especficos xao em ;ue os usurios das imagens sugerem seus prpnos termos de mde-
de objetos do mundo genrico. Por exemplo, um homem pode ser descrito como ~ao, e a fazer experincias com esse mtodo. Vrios autores defendei~ a co~
Joo da Silva, uma cadela pode ser descrita como Lassie, uma imagem pode ser abor;o dos usurios na indexao de bases de dados de vdeos. Lm e Lr
descrita como o horizonte da cidade de So Francisco. As descries de imagens em (2002), por exemplo, propem um sistema em que o: termos que aparecem nas
qualquer um desses nveis de abstrao podem ser multinveis e ser derivadas das buscas dos usurios tornar-s~-iam termos de mdexaa_o relat1v~~ aos tl ech?s de
descries nos nveis inferioreS de abstrao, ou associadas a elas (p. 61 ). vdeo que recuperam (provavelmente apenas os ~onst~erados tel~vantesd~fi "l
As buscas numa base de dados de imagens nos nveis mdios de abstrao difcil chegar a um acordo sobre a indexaao de Imagens p01 que I tct
envolvem 'recuperao de imagens baseada em contedo'. Continua Nlehrotra
para caracterizar os requisitos da seguinte forma: Group 1
TYPE oi! painting
I. Consultas que no envolvam processamento/anlise de imagens -nestas consuJM ACCNO 2!.37p
tas, no h necessidade de processamento ou anlise de imagens da base de dados, e Thc Three Musicians

I
T!TLE
no so apresentadas imagens de consulta. Exemplos: l) recupere todas as imagens ART!ST Picasso, Pablo
que contenham pelo menos um automvel em frente de uma casa, 2) recupere fotoM VENDOR Gallerie Rosenberg
MADE !921
grafias que contenham um homem sorrindo. As descries simblicas (extradas The Musemn of Art, New York
LOC
automaticamente e/ou especificadas pelo usurio) relativas s imagens da base de 79 X 87 3/4"
S!ZE
dados so empregadas para selecionar as imagens desejadas. Essas consultas podem REf Our2
ser processadas por meio dos mtodos tradicionais. REf 70-164877
2. Consultas que envolvam processamento/anlise de imagens- estas consultas MEDIUM oi I
envolvem uma ou vrias imagens que so processadas para extrair delas as inforM MEDIU!\ I canvas
maes simblicas desejadas a elas relacionadas. A descrio extrada comparada Group 2
com a descrio de imagens da base de dados, a fim de selecionar imagens que satis- (5,1)
faam s exigncias especificadas. Exemplos: I) recupere todas as imagens que conM FIGURE musician
tenham um ou vrios objetos similares a determinada imagem de consulta em terM POSITION front
mos de cor da imagem e caractersticas textuais (p. 61-62). (5, I ,I)

QBJECT clarinet
bvio que os diferentes nveis de abstrao mostrados na figura 98 repreM C0M1v\ENT teft figure
sentam, de cima para baixo, problemas de indexao crescentemente comple-
(5,1,2)
xos e crescentemente incomuns.
As representaes exclusivamente textuais das imagens possuem evidentes OBJECT guitar
COMMENT center tlgure
limitaes. Heller (l974) mostra um exemplo muito radical do registro catalo-
grfico de uma pintura de Picasso (figura 99). O primeiro grupo de elementos (5,1,3)
do registro representa dados 'exatos, sobre a pintura, mas o segundo grupo, que OBJECT uccordion
se refere ao que ali se acha representado, e como representado, alm de ser OBJECT music score
uma questo de interpretao, oferece uma viso bastante imperfeita de como Cl\IMENT right figure
ela . Tambm no inclui outros atributos importantes, principalmente as cores. (5,2)
Schroeder (1999) descreve como trs diferentes 'camadas' de indexao dog
FIGURE
so aplicadas s imagens no General Motors Media Archives: objetos (aquilo POS!TION side
que representado- por exemplo, um caminho Chevrolet ano 1935), estilo
(por exemplo, uma fotografia 'imparcial' versus uma fotografia 'atraente' de um FIGURA99
veculo) e implicaes (por exemplo, ilustra a grande durabilidade do veculo). Exemplo do registro catalogrfico de uma pintura
Apud Helkr (1974) com pennissE:o do Strong Museum. Rochester. NY
provvel que a indexao de imagens por meio de descries verbais seja Esta figura foi reproduzida em Scott (1988)
ainda mais subjetiva e, portantq, mais incoerente do que a indexao de textos.
218
INDEXAO E RESUMOS: TEORIA E PRTICA BASES DE DADOS DE !!'viAGENS E SONS 219
~l~;e~)concordn~i~ quanto ao que uma imagem realmente mostra. Shatford casos, o computador (possivelmente com ajuda humana) extrai das imagens
.~ faz lll~a d1stmo entre de que uma imagem e do que ela trata. No pri- caractersticas teis de nvel baixo e recodifica esses dados numa forma simblica,
meno caso, hda-se com coisas concretas (por exemplo, a imagem mostra uma mais fcil de ser usada em operaes posteriores de indexao e recuperao.
m,e c~m os. filhos), enquanto no segundo caso lida-se mais com abstraes (por O sistema QBIC (Query by lmage Content), desenvolvido pela IBM, est sendo
~~emp o, a unagen.l mo~tra mis_ria, sofrimento, desespero). Em m1igo posterior empregado em carter experimental em diversas aplicaes (Fiickner et ai., 1995).
abyne, 199_4), ela identifica vnos tipos de 'atributos' na indexao de imaaellS
em ora suuua d' . r d'-C Holt e Hartwick (1994), que o utilizaram num contexto de histria da mie, des-
o ~ que I~Clp mas ilerentes podem querer utilizar atributos muito
b '
d'fc . crevem seus recursos da seguinte forma:
1
et ~~~te~ n~ mdexa~ao de um acervo de imagens. Ela acentua a imp01incia de
empleoat a I~ldexaao para fonnat grupos teis de imagens ao invs de pensar O QBIC oferece vrias formas de consultas de imagens. As duas mais gerais so
so.m~n.te em 1~11agens tra:adas de modo isolado. Krause (1988) trata com certa como 'consulta de objeto' ou 'consulta de imagem'. As consultas de objetos recupe-
~~m.uct~ do pwblema da mdexao de acervos de imagens. Ele concorda com a ram imagens que contm objetos que coincidem com especificaes de consulta, do
tipo 'localize formas vermelhas e circulares', enquanto as consultas de imagens bus
. ~s~mao en.tre de e ~o ?ue trata, mas adota nomes diferentes, a saber, aspectos cama coincidncia com caractersticas totais de imagens, do tipo 'encontre imagens
ugidos [hmd] ejlexlvels [soji] da imagem.
que possuam principalmente tonalidades de vermelho e azul'. Para efetuar consultas
et Svenoniu,s ~ 1994) ar~ument.a que, embora algumas imagens (por exemplo de objetos, estes devem ser identificados em cada cena, normalmente de modo ma
11
t~xtos medJ.cos) destmem-se a transmitir informaes, essa no de fato~ nua!, traando um esboo deles antes da consulta. O processo de esboar os objetos
finalidade de .pmturas e outras f,011nas
artJstlcas. Embora aloumas representem e em seguida processar atributos ou caractersticas de cada objeto e cada imagem
pessoa~ ou Obje~os que podem ser descritos verbalmente, out;as so 'linoOistica- como um todo denomina-se classificao de imagens. H ferramentas bsicas de
mente mdetennmadas'. 0
desenho, como retngulo, elipse, polfgono, pincel e uma ferramenta de contornos
Markey (1984), Shatford (1986), Svenonius (1994), van der Starre (1995) e ativos [snake tool), que traa o contorno das imagens selecionadas. Uma ferramenta
EnseJ (1995), entre outros, referem-se ao trabalho do historiado! da arte Pano f k de preenchimento [!ill tool] acelera o mascaramento de imagens de alto contraste ao
q~e sug~nu que uma imagem podia ser analisada do ponto de vista pr-ico~~~ traar automaticamente pixis de valor similar ao que foi selecionado (p. 8283).
gtfico, IConogrfico e iconolgico. Numa experincia de que pmiiciparam 18 O QBIC permite a realizao de buscas que envolvam cores, texturas e formas,
~essoas, de antecedentes . vari~d~s,
. Enser constatou que a mesma imagem seria bem como o assunto repres~ntado numa pintura. Tambm permite consulta por
mdex.ada em todos os tres ll!Vets. Por exemplo, uma cena da torre Eiffel re- exemplo ('encontre outras fotografias como esta'). Holt e Hartwick relatam que
c~berm -~ermos nos .nveis ~r~- iconogrfico (torre, rio, rvore), iconogrfico (torre buscas sobre formas em pinturas podem enfrentar enormes problemas.
Eiffel, tiO Set:a) e tconologrco (romantismo, frias, emoo). o orande nmero Diversos outros sistemas de recuperao baseados em contedo foram desen-
de termos a~nbudos a uma nica imagem ( 18 pessoas atriburm~ lO 1 termos volvidos, embora no se tenha clareza sobre quais so 'operacionais' e quais
cena ~e Pans), argumenta Enser, indica a necessidade de indexao exaustiva. so simplesmente experimentais. Um exemplo caracterstico o MUSE (iVIarques
. J bach ( 1990) um dentre vrios autores que acentuaram a necessidade de e Furht, 2002), um 'prottipo em funcionamento' destinado a supotiarpesquisas
mdex~r uma coleo de imagens do ponto de vista de determinado orupo de e consultas por exemplo. Um componente que integra o projeto do MUSE um
usunos. Em suas prprias palavras: o mecanismo de retroalimentao de relevncia.
As tcnicas de reconhecimento e coincidncia de formas ainda esto muito
A meta da anlise, temtica cp~u~ar a essncia de uma imagem ou grupo de ma
gen_s- seu conteudo e temas ~lmts Importantes- ao mesmo tempo que permanece aqum da perfeio. E, conforme Picard e Minka (1995) salientam, a anlise de
alei ta pa~a. e_lementos que sabidamente sejam de interesse especial para a clientela formas no resolve todos os problemas de consulta por exemplo - algumas
do reposJtono (p. 184). imagens procuradas (um campo, gua, multides, fogo) no possuem uma forma
bemdefmida, e devem, ao contrrio, ser cotejadas pela 'textura'. Eles examinam
~ara cetias exigncias, como, por exemplo, recuperao de uma imaoem abordagens de identificao de 'regies visualmente similares' numa fotografia,
que ilustre um~ emoo, a indexao de bases de dados de imagens tem alg:em
empregando caractersticas como' direcional idade, periodicidade, aleatoriedade,
comum com a mdexao de obras de fico, como vimos no caphilo p1ecedente. rusticidade, regularidade, aspereza, distribuio da cor, contraste e complexi
dade'. O sistema experimental que desenvolveram procura imitar o comporta-
Abordagens baseadas no contedo
mento humano no reconhecit:nento de cenas visualmente similares. Picard ( 1996)
_Vrios sistema~ foram desenvolvidos para permitir a busca de imaoens por trata ainda da textura da viso em recuperao de imagens, enquanto Mehrotra
me10 de caractersticas de nvel baixo, como forma, cor e textura. Na maioria dos e Gary (1995), Mehtre et ai. (1997) e Jagadish (1996) tratam do problema do
221
220 INDEXAO E kESUMOS: TEORIA E PRTICA BASES DE DADOS DE IMAGENS E SONS

reconhecimento de formas. Em Ogle e Stonebraker (1995) e Smith e Chano 2. Para consultar bases de dados de museus ou museus de arte, o usurio pode
(l997b) encontram-se exemplos de sistemas em que um dos principais compo- " esboar uma imagem (por exemplo, de uma paisagem ou pmte de uma paisagem1
nentes a pesquisa de cores. e 0 sistema pesquisar as pinturas que mais se paream com essa 1magem.
Mehrotra ( 1997) analisa alguns dos problemas presentes na representao e DiLoreto et ai. ( 1995) analisam trabalho que um tanto similar ao de Kurita
busca de formas de imagens, e Huang et ai. ( 1997) estudam a forma, cor e tex- Kato embora em ambiente totalmente diverso. Seu sistema experimental de
e . . d
tura como problemas de indexao e recuperao. O analisador de imagens por informao geogrfica, 'baseado apenas na representao ptctnca e uma con-
eles descrito consegue processar um histograma de cor para uma imagem, bem sulta', possibilita uma pesqtiisa que pode envolver a utilizao de atributos ge-
como uma medida de textura baseada em aspereza, contraste e direcionalidade. omtricos, relaes topolgicas e distncias. .
A segmentao de imagens obtida por meio de uma tcnica de agrupamento. A Nem todos os sistemas baseados em contedo esto centrados em tmagens
posio relativa desses agrupamentos permite buscas nas bases de dados que em sua totalidade. Continuam sendo realizadas pesquisas sobre mtodos para
envolvam cor, textura e caractersticas espaciais (por exemplo, 'uma regio ver- representao e buscas em regies separadas de uma imagem (ver, por exem-
melha acima e direita de uma grande regio azul'). Forsyth et ai. ( 1997) apresen- plo, Moghaddam et ai., 2001). Um livro de autoria de Wang (2001) descreve
tam um amplo e til panorama sobre o uso de caractersticas de cor, textura e com detalhes um mtodo 'baseado em regies' para .recuperao de tmagens
geometria na recuperao em giandes bases de dados de imagens. baseada em contedos. Esse mtodo assim descrito:
Nlehtre et ai. (1998) apresentam um mtodo para o agrupamento de imagens Uma imagem, ou parte dela, numa base de dados, representada por um conjunto de
que se baseia numa combinao de caractersticas de forma e cor. O grau de regies, que corresponde aproximadamente a objetos, que se caracteriz_mn por ~co~,
coincidncia entre qualquer par de imagens pode ser computado e expresso textura, forma e localizao. O sistema classifica as imagens em categonas semanti-
numericamente, permitindo, assim, consultas por exemplo (ou seja, possvel cas, como texturado-no-texturado, censurvel-benigno ou grfico-fotogr~fico. A
pesquisar imagens similares a outra j selecionada). Alegam um grande sucesso categorizao melhora a recuperao ao permitir mtodos de buscas semanti~a~en
em experincias de recuperao, mas trabalharam com bases de dados muito te adaptveis e o estreitamento da faixa de buscas numa base de dados (p. XI-Xll).
pequenas (por exemplo, uma delas possufa 500 imagens de logomarcas). o mtodo baseado em regies tem a vantagem de permitir critrios menos estri-
impDI1ante reconhecer, contudo, que a maioria dos usurios de bases de tos para o cotejo de imagens: uma nica regio numa imaget~ pode ser~com~a
dados de imagens provavelmente no far buscas sobre aspectos mais abstratos, rada com vrias regies em outra imagem. Mesmo que duas Imagens nao com-
como cor, forma e textura, embora possam empreg-los para limitar ainda mais cidam perfeitamente em sua totalidade, talvez coincidam razoavelmente bem
uma busca. Huang et ai. (1997) assim coloca a questo:
no nvel de regio.
Em muitas aplicaes de sistemas de recuperao de multimdia, os usurios raramente Jones e Roydhouse (1995) descrevem um curioso sistema, baseado em ca-
usam caractersticas de imagens de nvel baixo (isto , forma, cor, textura) diretamente sos, para indexao e recuperao de dados meteorolgicos. J?iante .de_ uma
para consultar a base de dados. Ao contrrio, o usurio interage com o sistema me- situao climtica atual, o meteorologista pode pesquisar condtes sunllares
diante conceitos de nvel superior (por exemplo, praia, floresta, flores amarelas, cre- em situaes passadas. Um mapa das condies atuais (ver figura I 00) pode ser
psculo) para especificar determinado contedo de imagem (p. 115). usado como uma consulta; o sistema ento colocar em ordem de suntlandade
Experincias realizadas por McDonald et al. (200 I) sugerem que a cor pode ser situaes anteriores (ver figura 101). Cada objeto grfico da consulta (figur~
um critrio de classificao e busca bastante til para o usurio que no tenha 100), como, por exemplo, a localizao do centro de presso e sua magmtude, e
em vista determinada imagem. convertido numa representao simblica que empregada nas buscas na base
Diversos sistemas oferecem a possibilidade de consulta por exemplo ou de dados onde casos anteriores tambm esto representados simbolicamente.
'recuperao de similaridade'. Kurita e Kato (I 993) descrevem vrias aplicaes Os autores descreve~n seu mtodo de indexao da seguinte maneira:
experimentais, por exemplo: Cada caso representa uma fatia de tempo para a qual se dispe de dados meteo-
1. Ao ser feito o pedido de registro de uma marca, ela pode ser escaneada por rolgicos. Esses dados disponveis para ns incluem imagens ~e satlite armazena-
um departamento de patentes e cotejada com uma base de dados de marcas das tanto em formato digital quanto em disco laser, um arqUIVO de documentos e
campos numricos [... ]Alguns exemplos de campos numricos incluem presso,
existentes.*

* A indexao/recuperao de marcas tambm tratada por Wu et ai. (1995) e Ravela e Luo * Benois-Pineau et ai. (1997) descrevem um mtodo similar no qual as imagens de edificios po-
(2000), entre outros. dem ser recuperadas pelO cotejo com um 'esboo sintetizado'.
222 INDEXAO E RESUMOS: TEORIA E PRTICA BASES DE DADOS DE IMAGENS E SONS 223
temperatura, umidade relativa, velocidade dos ventos e vorticidade relativa, tudo Corridoni et ai. ( 1998) descrevem um mtodo de recuperao de pinturas
disponvel em 14 nveis diferentes da atmosfera. [O sistema] hoje possui 3,5 anos de por meio da 'semntica das cores'. Em essncia, as pinturas so segmentadas
dados com intervalos de 12 horas, que constituem uma base com cerca de 2 500 em regies que possuam diferentes caractersticas cromticas. A base de dados
casos. Estamos concentrados atualmente numa regio que cobre cerca de uma oitava
pode ento ser consultada para localizar pinturas que apresentem determinadas
parte do globo, tendo como centro a Australsia. Prevemos que mais I O anos de
dados logo estaro disponiveis para ns, o que nos permitir expandir a base de
propriedades cromticas e caractersticas espaciais.
casos para cerca de tO 000 casos. Dentro de alguns anos, as reanlises de dados Experincias quanto ao emprego da textura na indexao e recuperao de
histricos [... ] devero produzir conjuntos de dados que abrangero um perodo fotografias areas so descritas por Ramsey et ai. (1999). O objetivo deles era
desde a Segunda Guerra Mundial at os dias atuais, o que permitir a construo de elaborar um 'tesauro' de texturas (e talvez outras caractersticas das fotografias)
uma base de dados com mais de 36 000 casos do passado. que os usurios pudessem Consultar em linha. Quando o usurio encontrasse
[O sistema] recupera casos por meio do cotejo de consultas feitas pelo usurio uma texh1ra que corresponderia ao elemento procurado (por exemplo, uma pista
com rtulos de ndice explicitamente representados. As consultas identificam carac~ de aeroporto), ele poderia utilizar o sistema para consultar imagens e encontrar
tersticas especficas de nvel alto da situao atual que paream ser meteorologi~ as que apresentassem texh1ras similares. Alternativamente, seria possvel em-
camente importantes: por exemplo, sistemas de baixa e alta presso. Os rtulos de pregar consultas por exemplo; isto , o usurio solicitaria ao sistema que procu-
ndice so representaes das caracterfsticas de nvel alto da situao do tempo em
rasse fotografias que apresentassem texturas similares s de outra que j tivesse
cada caso. Tanto quanto possvel, [o sistema] extrai essas caracterlstiqs automtica
ou semi~automaticamente dos dados brutos. Atualmente estamos nos concentrando
em mos. Ma e Manjunath ( 1998) estudam a segmentao e recuperao de
em cetias caractersticas, como as mnimas e mximas locais, que so fceis de extrair fotografias areas baseadas em texturas.
automaticamente[... ] (p. 51). Zlm e Chen (2000) chamam ateno para o fato de que um sistema ideal de
imagens precisa ter condies de fazer buscas sobre caractersticas de nvel bai~
xo (como cor, forma e textura) de uma imagem, mesmo que a consulta feita pelo
usurio esteja em nvel muito mais elevado (por exemplo, encontrar todas as
imagens que contenham pomares). Se o usurio selecionar alguma caracterstica
(por exemplo, pomar) numa fotografia area, o sistema experimental de Zhu e
Chen procurar outras imagens que paream conter caractersticas similares. O
sistema emprega apenas textura na comparao de imagens. Sua expectativa
de que resultados muito melhores seriam obtidos se a comparao se b~seasse
na forma e na cor, bem com~ na texhtra.
A indexao de imagens baseada em palavras e feita por seres humanos
cara, e por isso foram feitas vrias sugestes sobre como a indexao baseada
em conceitos seria efetuada automaticamente, ou, pelo menos, com ajuda do

I computador. Goodrum et ai. (200 1) sugerem como caractersticas de nvel baixo


das imagens seriam usadas para agrupar essas imagens de modo a possibilitar a

lr 'herana' de termos. Imaginemos uma coleo de imagens que haja sido indexada
com termos atribudos por seres humanos. A essa base de dados acrescenta~se
novo lote de imagens. As tcnicas de agrupamento comparam as imagens recm-
chegadas (por exemplo, pela forma) com as que j se encontram na base de
dados. Se a nova imagem X for muito parecida com a imagem antiga A, termos A
seriam atribudos a X tambm, ou, pelo menos, apresentados como sugestes
FIGURA 100 para indexao de X. Propem tambm que esse tipo de comparao seja adotado
Consulta formulada a uma base de dados meteorolgicos. A consulta pede um nas atividades de controle de qualidade. Isto , se a imagem X e a imagem Y
complexo sistema de baixa presso sobre a Nova Zelndia com sistemas <fossem parecidas', mas os seres humanos houvessem indexado ambas de modo
de alta presso a leste e oeste muito diferente, o sistema criaria um ale11a que faria com que fossem examinadas
Apud Jones & Roydhouse. "lnteifl.~;ent relrieval o f archived meteorological data~, mais cuidadosamente. Por fim, propem que os usurios de uma base de imagens
lilE Krp""rl, lO (6), 1995, 5057. O 1995. p.U.
224 INDEXAO E RESUI\.fOS: TEORIA E PRTICA BASES DE DADOS DE lt-.IAGENS E SONS 225
Para imagens presentes num contexto textual (por exemplo, num jornal),
talvez seja possvel extrair automaticamente partes do texto que expliquem a
imagem. Trabalhos nessa linha foram descritos por Srihari ( 1993, 1995a,b, 1997)
e Nakamura et ai. (1993), entre outros. Estes ltimos estudam a integrao de
informaes do texto com informaes da i!nagem (neste caso um diagrama
encontrado num manual ou -numa enciclopdia). Em seu trabalho, como no de
Rajagopalan (1994), o texto usado para explicar o diagrama. Por exemplo
(segundo Rajogopalan), a afirmao 'o disco est rolando caminho abaixo' pode
esclarecer muito o que estiver representado num diagrama que completamente
esttico. Vrios sistemas experimentais 'anotaro' (isto , indexaro) imagens
baseados em palavras-chave que ocorram no texto em volta da imagem. Ver,
por exemplo, Liberman et ai. (2001).
Srihari volta-se para problemas mais difceis e sua pesquisa muito mais
complexa, recorrendo ao campo do reconhecimento da fala bem como aos do
processamento da linguagem natural e compreenso da imagem. Uma aplicao
emprega o texto de legendas para identificar seres humanos retratados em foto-
grafias de jornais. Quando a legenda pode ser usada para identificar um indivduo,
o texto dela empregado para indexar a imagem automaticamente. No prottipo
do sistema denominado Show & Te li (Srihari, 1997), um analista humano v a
imagem de uma paisagem numa estao de habaU1o e a descreve (indexa) median-
te uma combinao de entrada de dados com o mo use (apontamento) e linguagem
falada. Um sistema de reconhecimento da fala transcreve a entrada e a sincroniza
com a entrada de dados feita pelo mo use. Esse tipo de 'videoanotao' foi expan-
dido para um sistema destinado anotao de quadros de vdeo com especial
referncia indexao e buscas em vdeos em aplicaes de inteligncia militar.
Carrick e Watters ( 1997) apresentam um mtodo para problema afim: o reco-
nhecimento automtico de associaes entre diferentes mdias, como no reco-
nhecimento de que determinada fotografia se relaciona com determinada notcia.
Parece provvel que alguns usos das bases de dados de imagens sero to
imprecisos que somente permitiro os mtodos de pesquisas aleatrias ou buscas
iterativas. Um exemplo bvio a busca de um rosto do qual se conhecem ou so
lembrados apenas os traos gerais* Jain (1997) examina este problema e o
mtodo de busca iterativa para resolv.;. lo (chama-o de 'consultas incrementais'):
O usurio que estiver procura de certas informaes, por exemplo, acerca de uma
FIGURA IOI pessoa de quem tem uma vaga lembrana, especifica coisas importantes que ele
Dois mapas meteorolgicos recuperados em resposta consulta da figura l 00 recorda sobre a pessoa (ver figura l 02]. Esta especificao talvez diga que ela tem
Apud Jones & Roydhouse, "lntelligent retrieval ofar<:hived meteoro!ogical data",
II:JX F:.rpat, lO (6), 1995, 50-57. O 1995. tur:.
olhos grandes, boca grande, cabelo longo e testa pequena. Com base nessas infor-
maes, recuperam-se fotografias de pessoas que nelas se enquadrem. O usurio

sejam solicitados a apresentar uma descrio do uso que pretendem dar a uma * Vrios mtodos de reconhecimento de tOtogratlas de rostos so analisados na literatura. Por
imagem (ou grupo) e que essas descries forneceriam termos que seriam teis exemplo, Rickmnn e Stonham (1991) propem um mtodo baseado em rede neural. O problema
pontos de acesso em futuras recuperaes. Patrick et ai. ( 1999) e Frost (200 1) tambm abordado por\Vu et ai. (1995}, Pentland (1997), Li et ai. (1997), Hafed e Levine (2001)
tambm propuseram formas de indexao por 'herana'. e Fleuret e Geman (2001).
226 INDEXAO E RESUMOS: TEORIA E PRTICA BASES DE DADOS DE !I\1AGENS E SONS 227
poder, _ento, s~leconar a que mais se aproxime de sua consulta e modificar a con~
de vfdeo a categorias baseadas nos termos que ocorrem em suas legendas. O
sulta .seJa esp:clficando caractersticas seja empregando na fotografia ferramentas
esquema de classificao adotado contm cerca de 2 000 categorias. Os vdeos
de e~1o grfica e de imagens. Isso refina a imagem de consulta, que ento enviada
ao SIStema para que trnea novos candidatos satisfao da consulta. Assim, a
que chegam podem ser cotejados com perfis de interesses dos usurios mediante
consulta fo~mulada _de modo gradativo, comeando com a idia vaga original. Esse este conjunto de categorias.
processo sera conc!UJdo quando o usurio considerm~se satisfeito (p. 71 ). Vailaya et ai. (200 I) desenvolveram procedimentos para colocao de
imagens em categorias baseadas em suas caractersticas de nvel baixo. Os
Pric: et ai. (1992) avaliam um mtodo de busca iterativa (retroalimentao
experimentos que descrevem empregam uma base de dados que contm quase
de r~levancm) p~ra a recuperao de imagens, mas baseado em descries textuais
7 000 fotografias de viagens de frias:
das I~nagens ao mvs de buscas de coincidncia de padres das prprias imagens.
?udtvada et ai. (1996) tratam da retroalimentao de relevncia em relao Especificamente, estudamos a classificao hierrquica de imagens de viagens de
ultuna sttuao. ~t?cca e Schettini ( 1999) apresentam um mtodo de modificao frias~ no nvel mais alto, elas so classificadas como intemas ou externas; as externas

de bt~sca automat1ca baseado nas caractersticas de nvel baixo das imagens so ainda classificadas como urbanas ou naturais; por fim, um subconjunto de imagens
naturais classificado nas classes de crepsculo, floresta e montanha {p. 117).
seleciOnadas pelo usurio como teis e das selecionadas como no-teis.
R~we e colegas da u.s. Naval Postgraduate School formam um grupo de A classificao baseia-se na distribuio da cor e caractersticas da forma.
pesqmsa que se concentrou na indexao de fotografias e outras imagens. Seu Vrios grupos de pesquisa vm estudando mtodos para indexao de cole-
m~odo emprega uma combinao de texto (legendas de figuras) e processamento es de pinturas e outros objetos de arte. Por exemplo, Ozaki et ai. (1996) des-
de I~nagem e~ nvel ?e
pixis. Um mtodo de rede neural usado para classifi- crevem uma abordagem que incorpora informaes sobre o que representado
ca~o de reg1~es aplicada a fotografias, e processos de anlise [parsing] auto- (por exemplo, orientao espacial) bem como sobre fatores estticos, como cor
mtica so aplicados s legendas. Seu trabalho, que se concentra em dados multi- e estilo.
mdias em si~temas de armamentos, inclui a indexao de fotografias que fazem Encontram-se na literatura trabalhos que lidam com problemas mais com-
patte de pgmas da Rede (Rowe e Guglielmo, 1993; Rowe, 1994, 1996; Rowe plexos da recuperao de imagens. Por exemplo, Cromp e Dorfinan ( 1992) exa-
e Frew, 1996, 1997; Guglielmo e Rowe, 1996). minam um mtodo para lidar com dados de Sensoriamento remoto obtidos por
satlites em rbita, e Gudivada e Raghavan ( 1995) identificam situaes comple-
Consultas Incrementais xas, em matria de recuperao, relativas a certos tipos de bases de imagens,
inclusive a representao e recuperao de imagens tridimensionais ('recuperao
por volume') e 'recuperao por movimento' (por exemplo, encontrar uma
imagem que mosha determinada ao).
Geisler et ai. (2001) descrevem trabalho em curso na University ofNot1h
Carolina visando ao desenvolvimento de uma coleo digital de vdeos (o Open
Video Project) que pode ser empregado como bancada de provas para inves-
tigaes sobre pesquisas, Tecuperao e uso de segmentos de vdeo digital.
Em livro de Wu et ai. (2000) encontra-se uma anlise exaustiva (mas
altamente tcnica) de vrios aspectos da recuperao baseada em contedos.
Embora alguns pesquisadores da rea da recuperao baseada em contedos.
Este processo continua at sejam bastante ousados em suas pretenses, outros so bem modestos. Por
o rosto certo ser localizado. exemplo, Wang (200 I), escrevendo sobre seu trabalho com recuperao de ima-
gens baseada em contedos, na Stanford University, na dcada de 1990, admite:
Na poca, a mim parecia razovel que haveria de descobrir a soluo para o problema
FIGURA 102
da recuperao de imagens no curso do projeto. A experincia mostrou, com certeza,
Consulta incrementai numa base de dados de imagens que ainda estamos longe de resolver esse problema bsico {p. xi).
Apud Jain (!997) com pemlisso do conselho dire!or d~ University oflllinois

Imagens na Rede Mundial


Gauch et ai. ( 1999) descrevem um sistema- VJSION- que atribuir trechos
natural que atualmente se esteja dando muita ateno a maneiras de me lho-
228 INDEXAO E RESUMOS: TEORIA E PRTICA BASES DE DADOS DE IMAGENS E SONS 229
rara recuperao de imagens na Rede ivlundial. A maioria dos mais impmtantes (como o demonstra o catlogo do American Film lnstitute), talvez seja melhor,
mecanismos de buscas realmente oferece recurso que restringe uma busca verbal em ce1tos cas.os, dispor de um resumo visual de cenas do prprio filme. Geisler
recuperao de imagens. No entanto, as pesquisas atuais tratam de processos et ai. (200 1) salientam que os resumos de vdeo podem ter o fonnato de imagens
mais complexos, como a identificao automtica de imagens. Um livro de Chang estticas ou em movimento. Assim se referem aos resumos de imagens estticas:
et ai. (2001) contm uma descrio mais atualizada dos mtodos de buscas de
Slide shows, stoJ)Iboards e tiras de filmes [(ilmstrips] so exemplos desse tipo[ ... ]
multimdia na Rede. Normalmente as pessoas extraem os quadros-chave [ke;jlames] de cada tomada
Iyengar (200 1) organizou uma srie de artigos sobre acesso a imagens na para represent-la e em seguida arranjam todos os quadros-chave ou um subconjunto
Rede. Chen et ai. (200 I) descrevem seu mtodo de extrao de informao tex- deles para formar o resumo. Os mtodos de seleo de quadros-chave e agrupamento
tual de imagens na Rede (a pmtir de Localizadores Universais de Recursos ou montagem deles variam_ em diferentes projetos (p. 68).
[URLS], ttulos, textos ao redor de uma imagem). Esses atributos semnticos de
E acrescentam:
nvel alto podem ento ser combinados com atributos de nfvel baixo. Liu et ai.
(200 I) descrevem mais detidamente a extrao de texto. Outro mtodo que Um resumo de imagens em movimento em si mesmo um v!deo cmto e pode oferecer
combina caractersticas de nfvel baixo e nvel alto descrito por Wu et ai. (200 l ). aos t1surios informaes ricas e animadas. O exemplo mais reconhecvel o trailer
Rowe e Frew (1998) descrevem mtodos desenvolvidos para identificao de filmes( ... ] O Movie ContentAnalysis Project [ ... ]seleciona alguns trechos de um
filme e em seguida os monta no resumo finaL Resumos de imagens em movimento
automtica de fotografias na Rede Mundial. As fotografias podem ser identi-
incorporam tanto informaes de udio quanto visuais de uma fonte mais longa e
ficadas mediante uma combinao de caractersticas, inclusive forma, dimenses,
podem ser considerados uma pr-visualizao curta de um vdeo longo (p. 68).
quantidade de cores e referncias do texto. A segunda etapa dessa pesquisa a
identificao automtica de legendas para essas fotografias. Essa no uma Geisler et ai. alegam que ainda preciso pesquisar bastante sobre como as pessoas
tarefa simples, porque, na pgina da Rede, as legendas podem estar separadas interagem com os videorresumos.
das fotografias, e s vezes inseridas em texto maior. A localizao de legendas Ding et al. ( 1999) compararam trs tipos de videorresumos- quadro-chave,
feita por meio do emprego de "chaves multimodais que incluem as palavras verbal (palavra-chave/frase) e uma combinao de ambos- com base na com-
especificas utilizadas, a sintaxe, o leiaute circundante da pgina da Rede, e a preenso verbal (a capacidade de a pessoa apreender a idia principal de um
aparncia geral da imagem associada". Os autores reivindicam "um surpreendente trecho de vdeo a partir do resumo) e 'a essncia visual' [visual g1Sting]. No lti-
grau de sucesso" de procedimentos que evitam o processamento da imagem mo, foram mostradas imagens aos sujeitos do teste, algumas extradas do vdeo
completa e processamento total da linguagem natural. de origem e outras no, tendo sido solicitado a eles que selecionassem as que
Vrios grupos de pesquisas vm trabalhando sobre reconhecimento de foto- pertenciam ao vdeo de origem. Trabalho relacionado a este foi relatado porTse
grafias de pessoas na Rede. Os mtodos podem basear-se no reconhecimento et ai. (1999), que estudaram os efeitos de diferentes visualizaes de quadros-
facial e ocorrncia do nome no texto, ou uma combinao de ambos (ver, por chave no desempenho do usurio em tarefas de localizao de informao. Os
exemplo, Aslandogan e Yu, 2000). usurios consideraram a visualizao esttica (stmyboard) mais fcil de utilizar
Agnew et ai. (1997) descrevem um mtodo experimental de consulta por do que a visualizao dinmica (slide show), embora no hajam sido encontradas
exemplo para busca de imagens na Rede Mundial. O sistema localizar as ima- diferenas no esempenho da tarefa.
gens, far sua indexao (por cor, tamanho e outros atributos) e armazenar os Goodrum (2001) comparou quatro tipos de sucedneos de vdeos (ttulo,
ndices num servidor. Smith e Chang (1997a) estudam outro mtodo de inde- palavras-chave, quadros estticos e quadros-chave) cotejando as decises de
xao de imagens na Rede, que emprega tanto atributos textuais quanto visuais. semelhana para cada sucedneo com as decises de semelhana para os vdeos
representados, na hiptese de que o melhor sucedneo aquele cujo 'mapa' de
Resumos de imagens semelhana mais se aproxima do mapa dos prprios vdeos. Houve maior concor-
dncia dos sucedneos baseados em imagens do que dos que se baseavam em
A preparao de um resumo, ou outro tipo de sucedneo, de uma imagem
textos. Goodrum, no entanto, conclui que h necessidade de ambos:
apresenta problemas especiais, principalmente no caso de imagens em movi-
mento, como os programas de televiso. Basicamente, so possveis dois tipos Parece claro que, apesar de os sucedneos baseados em imagens terem alcanado,
de resumos: uma descrio verbal do vdeo (um resumo bastante convencional) em geral, melhor desempenho, os sistemas de recuperao de video no devem excluir
ou um resurno que seja ele prprio uma imagem. Embora seja possvel elaborar as representaes textuais. Cada tipo de sucedneo tem uma contribuio exclusiva
resumos textuais que sintetizem as aes dos filmes ou transmisses de televiso a dar percepo, pelo usurio, do contedo informacional, e deve ser incluido
como parte de um sistema completo de recuperao de informaes visuais (p. 11 ).
230 INDEXAO E RESUMOS: TEORIA E PRTICA BASES DE DADOS DE JMAGENS E SONS 231
Lienhart et ai. ( 1997) descrevem, da seguinte maneira, seu mtodo de ela- e pessoas representadas, partes do corpo, roupas, cor e localizao) fossem
borao de resumos de vdeos: previsveis e coerentes com estudos anteriores, os termos que descreviam a
O algori~mo de resumo~ qu~ desenvolvemos pode ser subdividido em trs passos 'histria' na fotografia foram usados muito mais do que seria natural.
consecutivos [ ... ]No pnme1ro passo, segmentao e anlise do video, o vdeo de Heidorn ( 1999) estudou a descrio em linguagem natural de objetos (neste
ent~a~a ~segmentado em suas tomadas e cenas. Ao mesmo tempo, identificamse caso, fotografias de rvores floridas) criada por pessoas <~que tentavam descrever
se~e~c1as de q.uadros com eventos especiais, como um texto que aparece na se- objetos de forma suficientemente minuciosa para que o ouvinte reconhecesse o
qUencm de crditos, tomadas em c!ose-up dos atores principais, exploses e tiros. objeto num conjunto de objetos similares". Ele descobriu que os participantes
No segundo passo, seleo dos trechos, selecionam-se trechos do vdeo para inclu- faziam grande uso de analogias em suas descries (por exemplo, uma planta
s_o .no resumo. O terceiro, montagem dos trechos, monta~os em suas seqncias
que parecia uma borboleta).
hna1s e produz o leiaute de apresentao; este passo envolve a definio da ordem
Goodrum e Spink (1999) examinaram mais de um milho de consultas por
dos trechos do vdeo, o tipo de transio entre eles e outras decises de edio {p. 56).
imagens feitas por 211 000 usurios de um nico mecanismo de busca na Rede,
Foram desenvolvidos sistemas para selecionar automaticamente quadros- o EXCITE. Constataram que, em mdia, havia 3,74 termos por consulta e que a
chave de vdeos e incorpor-los numa interface de busca ou consulta em bases grande maioria de termos elnpregados eram exclusivos, com mais da metade
de dados de vdeos (ver, por exemplo, Girgensohn et ai., 2001). Isso equivale ocorrendo apenas uma vez.
ma1s ou menos a colocar resumos numa interface que facilite as buscas e a Frost (200 1) estudou usurios que faziam buscas numa base de imagens,
consulta de textos. quando estavam disponveis tanto as opes visuais quanto verbais. Os sujeitos
Vrios grupos de pesquisa esto trabalhando no desenvolvimento de resumos da pesquisa eram estudantes, funcionrios e membros do corpo docente de uma
de seqncias de vdeo que sejam eficazes e 'dinmicos'. Exemplo disso o universidade. A base de dados incluia imagens relativas Terra e s cincias
trabaU10 de Nam e Tewfik (2002), que critica os resumos de vdeos que dependem espaciais. Um dos principais objetivos da pesquisa era determinar se os usurios
de arranjos estticos de quadros-chave apresentados em tela nica. Tais resumos possuam uma imagem mental daquilo que estavam procurando e se a imagem
no 'preservam a natureza dinmica do passar do tempo' do contedo do vdeo. recuperada coincidia com a imagem mental. Com base em resultados prelimi-
Propem um mtodo de sumarizao* que produza um resumo dinmico do nares, ela concluiu que apenas a recuperao baseada em contedo no era
vde~. Iss? seria conseguido por meio de um processo de amostragem que suficientemente boa para os usurios generalistas, enquanto apenas a recu-
seleclQnana segmentos do filme com base na quantidade de 'atividade' repre- perao baseada em conceitos exigia mo-de-obra intensiva. Os custos de um
sentada. O resumo do vdeo 'apresenta o contedo essencial dos dados presentes sistema de recupeiao de imagens seriam reduzidos se somente parte da coleo
no vdeo por meio de uma rpida reproduo seqencial'. fosse indexada. Os usurios encontrariam uma imagem satisfatria nessa patie
e a utilizariam para uma busca visual na parte maior da coleo.
Atributos da imagem Burke (200 I) relata estudos sobre classificao de fotografias. Ela empregou
O grande aumento do interesse pela indexao e recuperao de imao-ens a 'teoria do construto pessoal' (uma tcnica importada do campo da psicoterapia)
susci~ou inmeros estudos sobre como as pessoas vem as imagens ou reag:m a em seus exerccios de classificao, e encontrou 11 Ulll alto nvel de coerncia
elas. Esses estudos destinam-se a descobrir quais os tipos de abordao-em que as entre os construtos pessoais que os participantes empregaram para distinguir as
. o
pessoas necessitaro na recuperao de imagens e quais os tipos de termos que fotografias umas das outras".
sero teis para descrever e indexar imagens. O'Counor et al. (1999) realizaram experincias em que estudantes eram
Jrgensen (1998) solicitou a 48 mestrandos que 'descrevessem tarefas', a solicitados a observar imagens selecionadas e registrar as reaes que sentiam
fim de identificar atributos de imagens que seriam teis na indexao e recu- diante dessas imagens. A hiptese subjacente era que essas reaes seriam uma
perao. Foram mostradas aos estudantes as mesmas seis imao-ens e lhes foi fonte til de descritores pam a organizao de uma coleo de imagensJ de
solicitado que redigissem uma 'descrio simples' de cada uma, bem como uma modo a facilitar a recuperao futura (isto , indexao centrada no usurio).
consulta para a qual a imagem seria uma 1esposta coincidente. Jrgensen relata Foi pedido aos estudantes que redigissem legendas e tambm anotassem palavras
que embora os atributos que ocorriam com mais freqncia (termos para objetos ou frases que descrevessem o que a imagem continha e o que sentiram diante
das imagens. Um resultado observado pe1iinente indexao de imagens foi a
ocOITncia, no incomum, de antonmia: uma frase empregada por um estudante
* No sentido dicionarizado de reswnh: Sumarizao, no sentido de elaborao automtica de
resumos, empregada por especialistas lustnos da rea da lingOistica computacional. (K.T.)
para descrever uma imagem era quase diametralmente oposta empregada por
232 JNDEXAAO E RESU1ms: TEORIA E PRTICA BASES DE DADOS DE IMAGENS E SONS 233

outro estudante_ (por exemplo, um pato 'que apenas nadava', na viso de um histria da arte. Chen faz questo de nos dizer que os estudantes "raramente
estudante, era VIsto por outro como se estivesse 'numa misso'). Embora 0 uso usaram os conceitos de cor, forma e textura em suas consultas", implicando,
de termos de 'reao' talvez seja til na indexao e recuperao de imacrens talvez, que essas caractersticas de nvel baixo seriam pouco pet1inentes recu-
pelo menos como suplemento a termos mais convencionais, descritivos ( ;om~ perao de im~gens em histria da arte. Porm os temas atribudos aos estudan-
'p~to' e 'lago'), claro que teriam de ser fornecidos por uma amostra represen. tes (por exemplo, o papel de Veneza na histria da arte) no eram do tipo que
tativa de observadores, a fim de captar diferentes interpretaes e pontos de vista. provavelmente exigiria, na recuperao, uma abordagem basea?a em conte~~
Com base em anlise de quais os tipos de termos que os usurios de uma Alm do mais, nenhum sistema de recuperao de imagens f01 realmente utili-
amostra empregariam ao observar imagens selecionadas, Greisdorfe O'Cormor zado no estudo, e as fontes de imagens disponveis para os estudantes (ferra~
(2002) concluem que "termos de consulta de base afetiva/emocional parecem mentas impressas e stios da Rede) no foram projetadas para permitir buscas
ser uma categoria descritiva importante na recuperao de imagens". difcil baseadas em contedo, de modo que ficamos a imaginar por que essa concluso
entender a lgica de tal afirmativa. Os termos afetivos/emocionais (entre-'os viria a merecer qualquer destaque.
exemplos citados esto 'bonito', 'sempre jovem', 'feliz', 'forte', 'melancolia') Turner (1995) comparou os termos que os usurios selecionaram para apli-
devem cettamente corresponder a reaes totalmente dependentes do momento car a imagens (neste caso tomadas de filmes cinematogrficos) com termos j
temporal. Isto , se a pessoa A julga que determinada imagem sugere a idia de associados com as imagens na indexao ou em descries escritas da tomada.
'fotte', haver alguma probabilidade de sua reao ser a mesma depois de um Ele encontrou alto nvel de concordncia. Keister (1994) contribuiu com uma
ano? Os autores no procuraram estudar a estabilidade desse tipo de reao ou proveitosa anlise dos tipos de consultas feitas a uma base de dados de imagens,
mesmo a coerncia da reao entre um grupo grande de pessoas, de modo que neste caso estampas e fotografias mdicas de interesse histrico, e Sutcliffe et
carecem por completo de base.que sustente sua concluso. Ademais muito ai. (1997) estudaram estratgias de busca de informaes adotadas por usurios
diffcil acreditar na probabilidade de usurios de uma base de imagen; fazerem de bases de dados de multimdia. Hastings (1995a,b,c) estudou os tipos de pon-
grande uso desses termos em buscas reais. 'Estou procura de uma fotoo-rafia de tos de acesso de que precisam os historiadores da mte. Depois de observar uma
rvores ~ue sugira a idia de' fotte" parece ser algo completamente implausvel. pequena coleo de imagens de pinturas, os historiadores formnentrevistados
Chot e Rasmussen (2002) recorreram a membros dos corpos docente e discen- com a finalidade de determinar, entre outras coisas, qual o tipo de ponto de
te de ps~graduao de depattamentos de histria de duas universidades em seu acesso que lhes seria til. Ornager ( 1997) estudou as necessidades de jornalis-
estudo sobre critrios para determinar a relevncia de uma imaoem para uma tas no uso de um arquivo de imagens de jornal.
necessidade de informao. As consultas situavam-se no campo daJ1istria norte- JOrgensen (1996) constatou que sujeitos solicitados a descrever imagens
americana. Naturalmente, a 'topicalidade' (isto , a imagem guarda relao com tinham maior probabilidade de selecionar atributos 'perptuos' (isto , caracte-
a tarefa do usurio) foi o critrio mais importante nos julgamentos de relevncia rfsticas bastante exatas, tais como objetos representados e sua cor) ao invs de
~mbora outros critrios, como qualidade e clareza da imagem, tambm fossen~ 'interpretativos' (por exemplo, estilo mtstico ou 'clima' de uma pintura) ou
Hnportantes. Como tambm foi notado em muitos estudos nessa rea, as con- atributos 'criativos' (isto , reao pessoal pintura, como julg-la feia ou pettur-
cluses a que chegaram os autores so relativamente triviais. Por exemplo, con~ badora). No entanto, quando instados por meio de um 'gabarito' que apresenta-
cluem que mais provvel que os usurios julguem a relevncia das imagens a va uma srie de atributos de todos os tipos, os sujeitos mostravam maior diver-
pattir das prprias imagens do que a partir das descries textuais dessas imagens: sidade dos atributos selecionados. Ela conclui, a partir disso, que a indexao
eficaz de imagens requer o emprego de uma ampla gama de atributos: perceptuais,
Em primeiro lugar, os sistemas de recuperao devem permitir aos usurios compulsar
e compa~ar UI~ con}unto de imagens recuperadas, pois a visualizao das imagens interpretativos e reativos.
torna ma1s fc1l os JUlgamentos de relevncia (p. 715).
Com base em conceitos ou em contedo?
Tambm concluem que a retroaliinentao de relevncia pode ser mais impmtante
Layne (2002) bastante crtico dos mtodos completamente automticos de
na recuperao de imagens do que na de textos. Embora isso possa ser verdadeiro
no foram coletados dados que fundamentem tal concluso. Conforme documen~ indexao de imagens:
tado a~tes neste captulo, vrios sistemas experimentais de fato incorporam a Quem ou o que faz a anlise do assunto numa obra de arte? H alguns anos sur~iu
retroalnnentao de relevncia. um forte interesse pela anlise informatizada de imagens, e foram encetadas vnas
Chen (2001a,b) estudou as consultas elaboradas por estudantes para locali- tentativas de aplicar tcnicas de reconhecimento de padres e mtodos iterativos
identificao e recuperao de imagens relevantes. At agora, nenhum desses esforos
zar imagens necessrias preparao de trabalhos finais de curso no campo da
234 235
INDEXAO E RESUMOS: TEORIA E PRTICA BASES DE DADOS DE lli.1AGENS E SONS

t~~e xito na recuperao de imagens de grupos heterogneos ou na identificao de No mesmo diapaso, Green e Klasn ( 1993) descrevem as experincias da
o ~~tos~ como ca_valos, que podem ser representados em diversas poses, a partir de Sveriges Television [Televiso Sueca] com a indexao de programas de televi-
mm~osdangulos dJ:ercntes e sob variadas condies de iluminao. Os sistemas in for
so, por meio, exclusivamente, de descries textuais. Todas as cenas com mais
mattza o~ so !~ais bem-sucedidos na anlise de conjuntos homogneos de imagens
e na se 1eao_de Jma~ens com b~s~ exclusivamente na cor, composio e textura. Tais
de dez segundos de extenso so descritas com anotaes em texto livre, como,
elementos_sao relativamente fceis de codificar e, portanto, de identificao relativa- por exemplo:
mente
.
fcil
.
pelo computadoI. FOI aparentemente com grande esforo que alg
Rua de feira, apinhada de gente. Barraca de feira, laranjas, mas, uvas, pssegos.
11
sistemas tiveram algum sucesso na identificao de tipos de imagens, como paisa ~ ~
5

Urna caixa de batatas cai no cho. Batatas rolam nas pedras do calamento. Moa
que tend~m a apresentar certas caractersticas comuns de cor e composio. rv~ leva as mos ao rosto.
seg~ro d1zer que a recuperao de imagens baseada em contedo- ou sei a in~~r
mattzada-, ainda est longe de v1r
' a ser ut1
' 1 , mesmo remotamente, para historiadores
' ' - Trant ( 1995) assevera que "a descrio textual permanece sendo a chaveda
e pesqUJ~ad~res de arte.[ ... ] Parece que, por ora, o ideal seria deixar o homem fazer recuperao de imagens", acentua a necessidade de uma norma sobre como
0
que sa_ e ~er e o computador fazer o que sabe fazer. Em outras palavras, que 0 descrever imagens em bases de dados de imagens e menciona trabalho realizado
l~omem Identifique os assuntos de uma imagem attstica e que 0 computador id . visando ao desenvolvimento dessa norma.
ti fique cor, for~a e composio. Por exemplo, se o indexador humano identifica~~ Mostafa e Dillon ( 1996) testaram uma interface de um sistema de recuperao
os ~ssuntos de Imagens de arte, o computador analisaria se necessrio um grande
de imagens que possua recursos tanto para buscas visuais quanto verbais.
conjunto recuperado de imagens do mesmo assunto (porex~mplo 'catedr;is' 'dana'
'sarcfago s ') em busca de semelhanas de forma, cor ou composio ' ' ' Concluram que era provvel que seus sujeitos (I 8 estudantes) utilizassem mais
(p. 14-15).
o mtodo verbal do que o visual, e sua sugesto era de que isso poderia ser
. A maio~ia dos autores parece concordar com que a recuperao eficaz de devido basicamente falta de familiaridade com o mtodo visual.
m:agens extge tanto mtodos baseados em conceitos quanto baseados em con- Ogle e Stonebraker (1995), ao analisar sua experincia com um grande siste-
teudo, aspecto esclarecido por Ornager (1994): ma de recuperao de imagens na University ofCalifomia, Berkeley, reconhecem
Embora a idia de dar entrada a uma imagem-consulta tenha muitos argumentos que que "o melhor resultado na recuperao obtido quando critrios de buscas
a recomendam, essas imagens-consulta nem sempre substituem a fora descritiva baseados em textos so combinados com critrios baseados em contedo".
das palavras, q~e podem ser melhores para alguns conceitos abstratos. difcil per- O texto ainda essencial mesmo para as mais avanadas aplicaes de
:eber como sena possfvel criar uma imagem-consulta que representasse por exemplo recuperao de multimdia. Por exemplo, Hauptmann e Witbrock(\997) utilizam
despovoamento de pequenas aldeias norueguesas' ou 'cime' (p. 214). ' transcries da pat1e de udio dos noticirios de televiso como um meio para
Cawkell (1993) focalizou o mesmo tpico: recuperao de segmentos de notcias, para atender a pedidos ( utilizada a tec-
nologia de reconhecimento da fala para criar as transcries e tambm para
As ima.gens-consulta substituiro as imagens descritas com palavras medida que possibilitar consultas faladas), e Mani et al. (1997), em pesquisa assemelhada,
as t.cn1cas forem sendo aperfeioadas, embora nem todos os conceitos possam ser
utilizam texto de legendas fechadas na recuperao de vdeo de noticirios. O
assun ~onsultados de modo melhor. Consultas do tipo 'Quais as pinturas que mostram
texto de legendas fechadas usado de forma similar por Takeshita et ai.(! 997).
seJ~hm.as portando medalhas?', ou 'H alguma pintura do sculo xvn onde apaream
anl~nals de estimao?' seriam bem-sucedidas. Mas conceitos abstratos talvez sej~m Ivlesmo o sistema experimental de recuperao em mte analisado por Kurita
ma1s bem expressos por meio de palavras usadas como descritores (p. 409). e Kato (1993) no depende inteiramente do exemplo visual para fins de busca.
Uma alternativa a 'consulta por descrio subjetiva', que envolve a indexao
T~rner ( 1990) salientou que, mesmo que se possa ter acesso muito rpido a das pinturas com adjetivos 'que representem 'impresses' do observador (por
uma~n~agem (neste caso quadros de filrnes cinematogrficos), isso no exclui a exemplo, 'quente', 'brilhante', 'japonizado'). Do mesmo modo, DiLoreto et al.
necessidade de acesso a uma descrio textual:
(1995) incorporam recursos de consulta tanto visuais quanto descritivos em seu
Alm do mais, muitas. vezes o. texto funciona como um guia da imagem. Em muitos sistema de recuperao geogrfica.
casos, co~st~lt.ar uma smopse aJuda o observador a interpretar a imagem; pOr exemplo, Cawkell (1994) foi um dos que focalizaram o problema da recuperao
talvez seJa uttl saber que o trem que a pessoa observa o Expresso do Oriente, ou baseada exclusivamente em contedo:
que a favela que aparece na tela fica bem na periferia de Quito. Em outras palav
o texto de 1 1 d ras, Quanto mais complexas as imagens mais dit1cil fica para o usurio produzir um
. . 1ma. smopse vts~a po e proporcionar informaes teis que no esto
d!sp~nfv~l~ na 1ma~em. Ass1m, embora seja certamente conveniente ter acesso ins- exemplo visual utilizvel, e mais difcil se torna efetuar o cotejo de padres. Talvez
tantaneo a Imagem, tsso no dispensaria a necessidade de uma sinopse textual (p. 7). seja preciso cotejar padres tridimensionais; isso aumenta as dificuldades. A ordem
236
INDEXAO E RESUMOS: TEORIA E PRTICA BASES DE DADOS DE lf\.1AGENS E SONS 237
de dificuldade cresce ainda mais se o usurio estiver interessado em recuperar ima
que contenham determinado objeto dentro de uma imagem. gens em contedo. O ideal um sistema hbrido - em que uma busca verbal seja
Por exemplo, se o usurio quiser recuperar 'todas as imagens onde houv usada para recuperar imagens relevantes e estas possam ento ser usadas para
automvel', r_Io seria.muito.dificil representar um carro com o auxilio dos prog::~: procurar imagens semelhantes com base em caractersticas de contedo.
atual~ente di.sponfveJs que mcorporam arquivos de cllp art (que contm uma grande Em concluso, o mtodo. ideal de recuperao de imagens talvez seja aquele
s~leao de O?Jetos d:senhados) e programas do tipo 'ferramenta de desenho'. Quand que combine acesso convencional por meio de texto (tennos de indexao ou
a consulta-Imagem submetida base de dados para efetuar a comparao dev ~ narrativa descritiva) com o cotejo de imagens. Assim, uma busca com palavras
~er possfvel re.cuperar um carro que esteja em qualquer imagem, indepe~den;eme~;: (batalha, ataque, luta) recuperaria uma imagem de determinado tipo de cena 'e
e como esteja representado e posicionado - tarefa que no impossvel esta, por sua vez, poderia ser usada como insumo para localizar outras iguais.
atualmente lenta q . , mas
, , ue ex1ge o l~so, mtens1vo e caro, de computadores (p. 129). Uma abordagem possvel um tesauro visual - um tesauro que armazene
E cla~o que h grande diversidade nas aplicaes de recuperao de imagens imagens representativas junto com rtulos verbais (Seloff, 1990) ou possivel-
e ~rovavel que nem todas tenham muito a ganhar com alguma forma de inde- mente sem os rtulos verbais. Para uma anlise das vantagens e caractersticas
~aao bas:ada em contedo. Um estudo sobre demanda de fotografias por jorna- dos tesauros visuais, nas buscas em bases de imagens, ver Hogan et ai. (1991).
h~a~, reahzado por Markkula e Sonnunen (2000), encontrou muito pouca neces- Chu (2001), com base em anlise bibliomtrica da literatura, conclui que
SI a e de ~m mtodo de recuperao baseado em contedo, embora os pesqui- no se verificou suficiente interao entre os que trabalham com a abordagem
s~do~es lmjam tenta?o inventm:alguns usos possveis. Osjomalistas, na realidade, baseada em contedo e os que trabalham com a baseada em conceito, embora a
extell1av~m n~cess1dades mUito simples (por exemplo, fotografias de objetos situao possa estar melhorando.
?u pesso.as CUJO n~m~ era conhecido), mas no est claro at onde isso teria sido
mf1uenc:ado por h~mta~.es conhecidas na in?exao do arquivo fotogrfico. Metadados e vocabulrios de indexao
Wan, (200 I) p10p01 Clona um resumo mmto til dos tipos de consultas com Um livro organizado por Baca (2002) trata de metadados e vocabulrios
que devem lidar os sistemas baseados em contedo: controlados na descrio de imagens de arte. As ferramentas mostradas incluem
Consulta tipo histograma: encontrar imagens com 50% de vermelho e 20% de Categories for the Description o f Works o f Art (Harpring, 2002) e ICONCLASS
amarelo ... (Hourihane, 2002), sendo este um esquema de classificao, com notao, para
Consulta tipo l~iaut~: encontrar imagens que tenham na parte superior um objeto a descrio de pessoas, objetos e atividades representados em obras de arte.
azul e na parte mfenor um objeto verde ... Esquemas de metadados aplicveis a imagens digitais so revistos por
Consu~ta tipo forma: encontrar imagens que tenham trs estrelas triangulares ama- Greenberg (200 I).
relas dispostas em anel ...
Con:ulta tipo esboo desen~ado mo: encontrar imagens que paream com de-
termmado desenho ... Bases de dados de sons
Consulta por exemplo: encontrar imagens que paream determinada imagen1 A recuperao de udio apresenta desafios que so ainda maiores do que os
~.1~ ... apresentados pela recuperao de imagens. O campo pode ser rigorosamente
dividido em recuperao de fala e recuperao de msica (embora outros tipos
No_e~tanto, ele salienta a seguir que a maioria dos usurios de imaoens estar
0 de sons possam tambm estar presentes em alguns casos). Lu (2001) oferece
mats mteressada em buscas em 'semntica de nvel alto':
um levantamento conciso e til desse campo, embora esteja agora um pouco
Objeto: contm uma leso desatualizado, pois os novos progressos ocorrem muito rapidamente.
Re~a.o do ~bjeto: contm uma leso perto do lquido cerebrospinal Em viitude de uma trilha sonora longa provavelmente apresentar vrios com-
C!tma: uma Imagem feliz
ponentes de udio- fala, msica e, possivelmente, outros sons (por exemplo,
Tempo/Lugar: noite em Yosemite
(p. 19-20) gritos de animais ou ondas lambendo a praia)- o primeiro passo consiste em
classificar os vrios componentes, e Lu descreve mtodos que podem ser usados
Ens~r (2000) argumenta que as buscas baseadas em conceitos continuaro a para se conseguir isso automaticamente.
predommar sobre as exigncias dos usurios em colees de arquivos de imaoens Os primitivos sistemas de reconhecimento de fala somente podiam funcionar
m~s ~u~ d~man~as menos tr~d~ci?nais por informaes visuais (por exet~plo: com vocabulrios limitadoS e um nmero limitado de falantes, porm, desde
c?mci~encm de Impresses d1g~tms e logomarcas, reconhecimento facial, clas- ento, deu-se um notvel avano. Os sistemas atuais so preparados mediante a
sificaao baseada em textura de Imagens geolgicas) exigem um mtodo baseado gravao de seqncias de falas de um grande nmero de falantes. Da fase de
238 INDEXAO E RESUMOS: TEORIA E PRTICA BASES DE DADOS DE IMAGENS E SONS
239

preparao [training] resultam vrios produtos, dos quais o mais importante e pesquisados sob fonemas, o que ~quivale aproximadamente ao dispositivo de
um dicionrio de palavras com suas pronncias possveis. Uma nova amostra recuperao de textos que segmenta palavras em bigramas ou trigramas com a
da fala gravada comparada com este dicionrio e a seqncia de palavras que finalidade de buscar eficincia. No entanto, os fonemas no so realmente partes
apresentar a melhor coincidncia ser emitida como texto gravado. Esta de palavras porque, na fala, as palavras freqUentemente fluem juntas, de modo
explicao est um tanto simplificada (em primeiro lugar, a unidade de fala que as unidades reconhecidas so seqncias de fonemas. Isto , o documento
usada para comparao est em nvel inferior ao da palavra- um fonema) mas falado hansfonnado em seqncias fonmicas, bem como a consulta empregada
serve como idia geral. Aplicam-se os sistemas de reconhecimento de tla para para interrogar a base de dados. O trabalho de Wechsler et ai. (2000) caracte-
conve11er a palavra falada em texto que pode ser processado do mesmo modo rstico das pesquisas atuais sobre recuperao de seqncias fonmicas.
que outro texto o para fins de recuperao. Quer dizer, possvel extrair pala- natural que os programas de processamento de fala tenham melhor desem-
vras/expresses que funcionaro como termos de indexao ou fazer buscas no penho no reconhecimento de palavras existentes(' in-vocabulary') num co1pus
texto inteiro com o emprego dos tipos de procedimento descritos no captulo 14. de preparao [training coipus] do que no reconhecimento de palavras no
O desempenho dos sistemas de reconhecimento de fala varia segundo alguns encontradas antes(' out-ofvocabulmy'). Srinavasan e Petkovic (2000) explicam:
fatores, tais como a matria falada (variando, por exemplo, de nmeros a notcias Um conhecido problema na recuperao de documentos falados o conceito de
gerais), seja a fala que resulta da leitura ou de uma conversa espontnea, e o termos presentes no vocabulrio (in-vocabulmy terms) e termos ausentes do voca-
tamanho do vocabulrio envolvido. Lu (2001) salienta que o reconhecimento bulrio (out-ofvocabulmy terms). Vocabulrio um conjunto de palavras que um
de algarismos pode ser superior a 99%, mas que o reconhecimento de uma con- mecanismo de reconhecimento de fala emprega para traduzir fala em texto. Como
versa telefnica comum pode cair para 50%. parte do processo de decodificao, esse mecanismo compara os sons da fala de
Os problemas da recuperao de documentos falados foram enunciados, de entrada com as palavras existentes no vocabul.rio. Portanto, somente as palavras
presentes no vocabulrio sero reconhecidas. E freqente uma palavra ausente do
modo muito sucinto, por Wechsler et ai. (2000), da seguinte forma:
vocabulrio ser reconhecida, erradamente, como uma palavra ali presente que foneti-
O principal problema quando se aplica o reconhecimento de fala recuperao de camente similar a uma palavra ausente do vocabulrio (p. 81).
documentos falados est na exatido do resultado do reconhecimento. O reco-
nhecimento automtico de fala uma tarefa dificil e, por conseguinte, seus resultados A decomposio de vocbulos em subvocbulos, isto , fonemas, normalmente
muitas vezes contm grande quantidade de erros de reconhecimento. A preciso do melhora o reconhecimento de palavras presentes no vocabulrio, embora no
reconhecimento depende principalmente da: I) quantidade e qualidade dos dados necessariamente o de palavras ausentes do vocabulrio. Os efeitos de palavras
acsticos de preparao [training data], 2) quantidade e gnero dos diferentes falan- ausentes do vocabulrio na recuperao de documentos falados foram estudados
tes, 3) quantidade de unidades a serem reconhecidas, e 4) do ambiente de gravao por Woodland et ai. (2000).
dos documentos falados. Ademais, no h pausas acsticas entre palavras na fala Brown et ai. (200 I) relata ndices de erros de palavras de 28% no caso de
contfnua, ao contrrio dos espaos em branco num texto. conversas telefnicas de um nico falante, e um ndice de cerca de 19% na fala
Os erros de reconhecimento normalmente degradam a eficcia de um sistema de preparada (ou seja, no espOntnea) de um locutor de notcias em estdio. Os
recuperao de documentos falados. So estratgias para superar tal problema: l)
autores informam que os erros de palavras variaram de 35 a 65o/o no caso de
melhorar a preciso do reconhecimento de fala, o que requer enorme quantidade de
dados de preparao e tempo, e/ou 2) desenvolver mtodos de recuperao que sejam 'dados de fala do mundo real', a depender de certos fatores, como rudo de
mais tolerantes a erros (p. 173-174). fqndo, acstica deficiente e participao ou no de falantes nativos. Embora a
redundncia compense alguns erros, provvel que a recuperao fique bastante
Um mtodo consiste em desenvolver um reconhecedor de fala que possua prejudicada no caso de 'udio do mundo real'. Brown et ai. relatam valores de
um grande vocabulrio. Este empregado para converter a fala em texto que revocao da ordem de 26% e valores de preciso por volta de 17% para esse
possa ento ser manipulado com mtodos.de recuperao convencionais. Isso tipo de aplicao, embora resultados muito melhores (por exemplo, preciso de
exige um investimento muito alto na preparao do dispositivo para reconhecer 60 a 70o/o) sejam alcanados em colees de teste menores com ndices de erros
palavras faladas por diferentes indivduos, o que implica sua limitao a um
de palavras na faixa de I O a 30%.
domnio ou aplicao restrita (por exemplo, pronturios mdicos de pacientes). Apesar dos notveis progressos alcanados no reconhecimento de fala, ainda
Uma abordagem alternativa passar para um nvel inferior ao da palavra e ocorrem erros de transcrio em proporo sria. Como salientam Moreno et
reconhecer e transcrever sons (fonemas). O reconhecimento de fonemas exige
ai. (2002):
menos preparo e, como so unidades mais bsicas do que as palavras, torna-se
possvel ter um vocabulrio ilimitado. Os documentos falados sero indexados Os sistemas de recuperao devem compensar os 20 a 30% de ndice de erros de
240 lNDEXAO E RESUMOS: TEOR(A E PRTICA 241
BASES DE DADOS DE IMAGENS E SONS

palavras que normalmen~e ocorrem quando reconhecedores de fala que trabalham participante ativo[ ... ] sempre que encontra informao que ide~ti~ca como alta-
cod1~1 ~ra.ndes vof:cab~lnos transcrevem udio sem restries como noticirios 1ente pertinente aos debates em curso". Por exemplo, a ocorrenc1a nos debates
ra !Otontcos ou ala mformal (p. 58-59). n ' fu ' '
do nome de um funcionrio pode disparar uma busca nos regtstros ncwnms, a
Allan (2002), no entanto, alega que mesmo altos ndices de erros de transcrio fim de recuperar e tornar disponveis informaes, como endere?, t:le~one,
podem ser aceitveis em aplicaes de recuperao: o-rupo onde esteja lotado, responsabilidades, experincia. Outras mstltmes
~ambm fizeram pesquisas sobre tecnologia de apoio a reunies. Brown et al.
Mesmo com um ndice de erros de reconhecimento de 40%, a eficcia de um sistema
comum de recuperao de documentos cai apenas I O% (p. 60). tambm descrevem pesquisas sobre a minerao de chamadas de televendas.
As pesquisas sobre recuperao de documentos falados so hoje facilitadas
E~e explica que iss? se deve a vrias razes: I) palavras no reconhecidas talvez pela existncia de uma base de dados de documentos falados no ambiente TREC
n~o sejam necessanmnente palavras importantes para a recuperao; 2) redundn- (Text Retrieval Conferences) (ver captulo seguinte). O corpus TREC 7 cons1stm
Cia(se uma palavra no for reconhecida num lugar, poder ser reconhecida em em cerca de 100 horas de noticirios radiofnicos, somando cerca de 3 000 not[-
outro); 3) sinnimos ou parassinnimos da palavra no reconhecida podem cias. Os grupos de pesquisas participantes trabalharam com transcries desse
ocorrer e ser reconhecidos.
corpus, de diferentes qualidades, inclusive uma preparada por seres humanos e
Moreno et ai. (2002) oferecem um bom apanhado sobre os atuais recursos considerada perfeita, uma preparada por um sistema de reconhecimento de fala
para o reconhecimento de fala:
com cerca de 35o/o de ndice de erros de palavras, e ouha com um [ndice de erros
Os sistemas de reconhecimento de tla baseados em palavras adotam vocabulrios por volta de 50%. Os grupos participantes testaram seus mtodos de recuperao
pre_estab~le~cidos que ~ncluem de 60 000 a 100 000 vocbulos. O sistema no pode, em 23 tpicos pr-selecionados de cada transcrio (Voorhees e Hannan, 1999).
po1 defimao, presumtr palavras fora desse vocabulrio. Embora um vocabulrio de As pesquisas sobre interfaces de fala em aplicaes de recuperao remontam
100 000 palavras inclua a maior parte das palavras faladas, todo documento inclui a vrios anos (ver, por exemplo, Smith et ai., 1989). Abordagens mais modernas
pequena porcentagem de palavras ausentes do vocabulrio que provavelmente so so exempliflcadas pelo trabalho de Federe Hobbs (1995). Ao analisar o emprego
portadoras de contedo, e sua no-incluso prejudicar o desempenho da recuperao. da fala humana para alimentao de dados em computador, Slmeidennan (2000)
Para contornar tal problema, o sistema pode adaptar o vocabulrio mediante 0
apresenta motivos pelos quais as limitaes do ser humano (por exemplo, fadiga,
exame de documentos relativo!? ao trabalho. Por exemplo, um reconhecedor de fala
usad? :m :e~ses de t~ibunais usaria documentos juridicos para aprender as palavras
impacincia, dificuldades de corrigir erros) seriam mais importantes do que as
d~ dtctonano aproprmdo. Embora esses vocabulrios especializados reduzam o limitaes tecnolgicas.
numero de palavras ausentes do vocabulrio, no garantem sua eliminao (p. 59). Ivltodos modernos para sintetizar e arquivar sons eletronicamente tornam
disponvel grande quantidade de sons (por exemplo, para msicos), mas a r~cu
E, em seguida, salientam que os sistemas baseados no reconhecimento de subvo-
perao de um som especifico desse arquivo constitui grande problema. Fetten
cbulos oferecem vantagens:
e Gnzel (1994) descrevem uma abordagem da indexao e recuperao de
Ao invs de reconhecer palavras faladas, esses mtodos reconhecem unidades subvo- sons por meio de redes neurais. O ndice de recuperao criado automat~ca
~abulares- n?rmalmente, fonemas ou slabas- com as quais todas as palavras so mente. A capacidade de reconhecer e rotular (isto , indexar) sons automatica-
formadas. O SIStema de recuperao de informao decompe os termos de busca mente tem muito em comum com o processamento necessrio para reconhecer
em suas seqncias de subvocbulos constituintes, e ento examina os termos reco- imagens automaticamente. Como salientam Picard e Minka (1995), tanto h uma
nhecidos para localizar seqilncias que correspondam unidade de busca (p. 59).
'textura de sons' quanto uma textura de imagens. Assim, seria possvel desen-
Singhal e Pereira (1999) fizeram experincias com a 'expanso de documen- volver tcnicas para identificar automaticamente certos sons (um sino a badalar,
~os' ~ara compensar erros de transcrio na recuperao da fala. O mtodo deles gua a correr, aplausos) mediante alguma forma de cotejo de padres (sonoros).
mc!UI"a e:cpanso de um texto transcrito mediante o acrscimo de palavras de alta A recuperao de sons analisada em trabalho de Blum et ai. (1997), que descre-
ft~eql~encta que ocorrem em textos 'relacionados', compensando, graas redun- vem um 1 naveo-ador de sons' desenvolvido para possibilitar buscas difusas em
dancla, palavras perdidas na transcrio. Parece ser um mtodo muito trabalhoso. bases de dado~ de udio. Os recursos incluem consulta por exemplo (isto ,
Brown et ai. (2001 ), cujo trabalho tambm traz uma til viso da tecnolocria 'encontre sons semelhantes a ... ').
de reconhecimento de fala, descreve pesquisas da IBM sobre aplicaes de 'mi~e
rao de fala'. Uma delas trata de um agente inteligente que captura os debates Recuperao de msica
travados ern reunio de negcios ou de pesquisa e ''periodicamente torna-se um O objetivo das abordagens modernas da recuperao de msica "responder
242 INDEXAO E RESUMOS: TEORIA E PRTICA BASES DE DADOS DE IMAGENS E SONS 243
consultas de msica formuladas musicalmente" (Downie e Nelson, 2000) _ de informao bibliogrfica, e tambm pressupunham algum conhecimento musical
isto , permitir que seja feita uma busca baseada numa entrada musical (por prvio ou a presena de um bibliotecrio. Grande parte das pesquisas a~mis sobre
exemplo, cantada ou cantarolada). recuperao automatizada de infOrmao musical baseia-se em c~rac~enza~s. da
prpria msica, ao invs de informaes sobre ela. Por exemplo, ao mves de sohc1tar
A histria da recuperao de informao musical remonta dcada de 1960
uma busca por ttulo da composio, o usurio entra com uma consulta no formato
mas a maioria dos progressos alcanados se deu a partir da dcada de 1990: de udio e recupera resultados similares a essa consulta. As implicaes para os
Encontra-se condensada nos anais de trs simpsios internacionais sobre a usurios comuns de sistemas de recuperao de msica baseados em contedo so
matria, realizados em2000, 200 I e 2002. Os n-abalhos de 2000 esto disponveis importantes, pois no preciso o conhecimento bibliogrfico prvio ~e uma CO~l~o
no stio <http://ciir.cs.umass.edu/music2000/papers.html> e os de 200 I em <http:l sio musical; ao contrrio, bastar, para fins de recuperao, um trechmho de mus1ca
lismu200 l.mdrana.edtpapers.html>. Um objetivo impmtante desses simpsios a fluir na mente do usurio (p. 137).
o desenvolvimento de uma coleo-padro de msica, consultas e avaliaes
Este traball10 uma tima sntese de vrios mtodos que vm sendo pesquisados.
que possam ser usadas para comparar diferentes mtodos, de modo muito
Liu e Tsai (200 1) salientam que:
parecido com a forma como funcionam as conferncias TREC.
A recuperao de msica mais complexa do que a de fala. Lu (200 I) divide A maneira mais direta de que um usurio leigo dispe para consultar as bases de
o campo em; l) msica estl1lturada ou sinttica, e 2) msica baseada em amoshas dados de msica cantarolar uma composio como uma consulta-exemplo para
[s~mple-basedJ. Na primeira, as notas musicais so gravadas como algoritmos recuperar objetos musicais similares (p. 506).
e lmguagens de controle, que torna o cotejo com as consultas (na forma de uma Um dos problemas, porm, a grande diferena de extens~ entre esse tip_o .de
seqUncia de notas) relativamente fcil, pelo menos no caso de coincidncia consulta-exemplo e uma composio musical: uma consulta fetta com uma mus1ca
exata. A deteco de passagens de mt'lsica 'semelhante' mais complicada. cantarolada normalmente dura alguns segundos, enquanto uma msica popular
Niuito mais complexa a recuperao de msica que no esteja gravada em comum dura cerca de cinco minutos. Os autores descrevem um mtodo experi-
formato estruturado. Lu (200 I) refere-se a essa msica corno 'baseada em amos- mental em que o cotejo se torna mais eficiente mediante o seqenciamento de
tras' porque ela implica o reconhecimento e extrao de samples [amostras] uma composio musical em 'fases' que tm aproximadamente a mesma extenso
musicais. Ele identifica duas abordagens de indexao/recuperao. A primeira de uma consulta feita com msica cantarolada.
ba.seia-se na extrao de 'caractersticas acsticas' (como audibilidade, tom, Na indexao e recuperao de msica, preciso distinguir entre msica
bnlho, largura de banda e harmonicidade) e que podem ser calculadas para cada monofnica (nenhuma nota comea at que a nota atual tenha terminado de
'quadro' da composio gravada. Uma composio musical, usada como consulta soar) e a msica polifnica (uma nota pode comear antes que a anterior ter-
(normalmente uma forma cantarolada), reduzida s mesmas caractersticas, o mine). A msica polifnica mais comum, porm mais complexa para as ope-
que permite busca com base numa comparao de padres. Na segunda abor- raes de indexao e recuperao. Pickens (2001) descreve os probler~as de
dagem, a indexao e a recuperao baseiam-se no tom. Para cada nota extrai-se seleo de caractersticas para indexao e recuperao de mstca poltfomca.
ou se calcula o tom. Cada tom pode ser representado como uma mudana (para Diversas ahordagens da i.ndexao e recuperao de msica polifnica foram
cima, para baixo ou similar) relativa ao precedente, e assim a composio musical apresentadas. Ver, por exemplo, Dovey (200 I) e Doraisamy e R~er (200! l:
(ou composio de consulta) representada por meio de uma seqncia de Downie e Nelson (2000) descrevem um mtodo de recuperaao de musrca
smbolos que representam essas alteraes de tom. Alternativamente, cada nota baseado no tom, especificamente a diferena entre dois tons, conhecida como
musical pode ser representada por um valor de tom selecionado de um conjunto 'intervalo'. As melodias de uma coleo de canes folclricas foram "conver-
de valores-'padro' de tom numa base de maior coincidncia. De novo, a tidas em representaes de um nico intervalo de melodias monofnicas". Estas
composio musical ser repr~sentada por uma seqncia de caracteres que foram ento fraomentadas em subSees designadas 'n-gramas', que so usadas
representam o valor do tom. "
para formar 'palavras musicais'. Isso permite uma abordagem da re~u?~raao -
Lippincott (2002) nos oferece uma descrio bem til e concisa daquilo que que se assemelha busca de palavras na recuperao de textos e possibilita que
as atuais abordagens da recuperao de msica esto procurando realizar: seja aplicado um sistema de processamento baseado em textos (o S?v1ART de
Antigamente, os usurios que procuravam informaes sobre msica voltavam-se salton) que permite recuperao em ordem de provvel relevncia.
para fontes impressas que continham metadados registrados mo e ordenados por possvel tambm usar entrada em formato de udio para buscas em base
ttulo, compositor e outras categorias. Obviamente, os mtodos de acesso refletiam de dados de partituras musicais. McNab et ai. (2000) descrevem um mtodo para
tcnicas de recuperao da poca, baseadas em material impresso para recuperao recuperar partituras de uma base de dados em resposta a 'poucas notas entoadas
244 INDEXAO E RESUMOS: TEORIA E PRTICA BASES DE DADOS DE IMAGENS E SONS 245
ou cantar~ladas 1~um microfone'. A interface adotada transcreve a entrada acstica A surnarizao uma representao estrutural do contedo em linguagem faladn que
em notaao musJcal comum que pode ser usada para cotejo seqencial e recu- muito poderosa e flexvel como ndice para gerenciamento de informaes baseadas
pera~o ~e ~nsica em ordem de provvel relevncia. Seu prottipo 'prova de em contedo. Este resumo, que produzido automaticamente pelo sistema, inclui
concerto f01 testado numa base de dados de canes folclricas. Conclurarnque: caractersticas extradas, como nomes de pessoas, lugares e organizaes mencionados
no transcrito, bem como as identidades e localizaes dos f..1lantes na gravao (p. 49).
No um~ empresa simples fazer buscas em grandes bases de dados de msica e
recup.erar 1t~ns. em que ocor~a um determinado tema ou seqncia de notas, tendo O fluxo contnuo de palavras automaticamente segmentado em 'passagens
em VISta, pnnc1palmente
. as Imprecises que ocorrem quando as pessoas entoa<!TI que so tematicamente coerentes' e cada passagem indexada mediante a atri-
me Io d ms, mas ISSO est com certeza ao alcance da tecnologia atual (p. 113). buio automtica de 'rtulos tpicos' extrados de um conjunto preestabelecido
Byrd e Crawford (2002) fizeram uma reviso do estado atual dos conheci- de mais de 5 000 desses rtulos. Estes so classificados em ordem de probabi-
mentos a respeito da indexao e recuperao de msica e concluram que 0 lidade de adequao e so atribudos a cada passagem os rtulos de classificao
progresso alcanado nessa rea foi muito limitado: _ mais alta.
Imp011ante projeto de indexao e recuperao de multimdia a Infonnedia
Apes~r de e~pressivo nmero de projetos de pesquisa haver se voltado para a recu. Digital Vide o Library da Camegie Mellon University. Wactlar et ai. (2000) assim
per~a? de mformao musical, nas ltimas trs dcadas, esse campo ainda est
descrevem seus recursos:
multo 1~na~ro: Poucos dizem respeito msica complexa (polifnica); os mtodos
de avah~ao mnda esto numa etapa de desenvolvimento muito primitiva; nenhum [... ] emprega exclusivamente fala, imagem e compreenso da linguagem natural
dos proJetos enfre~lta o problema de bases de dados que so, realisticamente, de integradas para processar transmisses de vfdeo. [ ... ]A fim de possibilitar este acesso
grande escala. MUitos dos problemas a serem enfrentados se devem natureza da ao vdeo, so geradas, por meio do sistema de reconhecimento de fala Sphinx, da
prpt~ia.msica. ~ntre eles esto as questes ligadas percepo humana e cognio Carnegie Mellon UniversitY, transcries rpidas, de alta preciso e automticas, de
da mus!ca, especialmente no que tange reconhecibilidade da frase musical[ ... ] e 0 noticirios de televiso, sendo incorporadas legendas fechadas onde estiverem dispo~
pressuposto comum de que buscas sobre o tom (ou contorno do tom) provavelmente nveis. O processamento da imagem determina limites de cenas, reconhece rostos e
bastanam p.ar.a atender a~ t~das as finalidades[ ... ] talvez seja verdadeiro para a maior permite comparaes de semelhana de imagens. O texto visvel na tela reconhecido
pa:h~ da nn~s~c~ monofom~a (de uma s voz), mas certamente inadequado para por meio de reconhecimento de caracteres pticos de vdeo e pode ser pesquisado.
musrca pohfomca (de nm1tas vozes). Mesmo no caso monofnico pode levar a Tudo indexado numa biblioteca digital de video pesquisvel, onde os usurios
re:u~tados equ~v~cados. O fato, h muito admitido em projetos que dizem respeito podem formular consultas e recuperar, como resultado, noticias relevantes[ ... ]
mus1ca monofomca, de que uma passagem reconhecivel normalmente no idntica O sistema Informeda pennite recuperao da informao tanto no domfnio da
ao padro de busca significa que quase sempre necessria uma coincidncia linguagem falada quanto no dominio do video ou imagem. As consultas em busca de
aproximada, mas tambm isso.se torna seriamente complicado pelas demandas da noticias relevantes podem ser feitas por meio de palavras, imagens ou mapas. Rostos
m~ica polifnica. Quase todos os mtodos de recuperao da informao de textos so detectados no vdeo e podem ser pesquisados. Resumos informativos podern ser
apmmse na identificao de unidades aproximadas de sentido, isto , palavras. exibidos com informaes variveis, tanto visual quanto textualmente. Os resumos
Um problema fundamental da recuperao da informao em msica est em que de textos so exibidos para cada notcia por meio de tpicos e ttulos. So oferecidos
extremamente dit1cil, talvez impossvel, localizar essas unidades (p. 249). resumos visuais por meio de imagens miniaturizadas [tlmmbnails ], tiras de filme
[!ilmstrips] e snteses [skims] dinmicas de vdeo {p. 42.43).
Sistemas multimdias
Wactlar et ai. afirmam ser possvel um fndice de erros inferior a 20% no reco-
At agora este captulo tratou da recuperao de imagens e da recuperao nhecimento de fala e que a transcrio de um noticirio pode aparecer na base
de sons. No entanto, tambm esto em curso pesquisas sobre problemas de de dados duas horas e meia depois de haver sido transmitido.
indexao e recuperao relativos a apresentaes verdadeiramente multimdias Brown et ai. (200 I) oferecem mais esclarecimentos:
como as transmisses de televiso. '
O projeto de pesquisa Informedia criou uma biblioteca digital de um milho de
Um sistema de indexao de multimdias descrito por Kubala et ai. (2000)
megabytes em que descritores obtidos automaticamente para video so utilizados na
processa a linguagem falada produzida por fontes de udio e vfdeo como os indexao, segmentao e acesso ao contedo da biblioteca. Combina reconheci
noticirios de televiso. O prottipo desse sistema possui recursos p'ara suma- mento de fala, processamento de imagens e tcnicas de compreenso da linguagem
rizao* e indexao. O autor descreve o primeiro deles da seguinte forma: natural para o processamento automtico de vdeo, a fim de produzir uma sfntese
* Os problemas implicados na criao automtica de resumos de dialogo falado so bem analisa [skim] visual, que diminui o tempo de visualizao sem perda de contedo. Oferece
dos por Zechner (2001). trs maneiras de visualizao dos resultados das buscas: quadrospster [poster
fiames], tiras de filme e snteses. A visualizao em quadros~pster apresenta os
246 INDEXAO E RESUMOS: TEORIA E PRTICA BASES DE DADOS DE HviAGENS E SONS 247

resultados da busca em formato de quadros-pster, em que cada quadro representa dcada, e algum avano se deu na indexao e recuperao de sons. Os inmeros
um 'pargrafo' de vdeo. A visualizao em tiras de filme reduz a necessidade de vi- estudos realizados sobre a reao do observador s imagens so, contudo, de
sualizar cada pargrafo de vfdeo em sua totalidade ao oferecer pginas de stmyboard qualidade varivel. Alguns so teis. Nlas outros, especialmente os realizados
para rpida visualizao. As subsees mais relevantes do pargrafo de vdeo so como pesquisa para redao de teses, deixam muito a desejar. Embora sejam
exibidas como cenas-chave e as palavras-chave so nitidamente marcadas. A recupe- apresentadas minuciosas anlises de dados, um nmero muito grande desses
rao combinada de palavras e fones tambm foi investigada no projeto Informedia,
estudos chega a concluses que no so nem mesmo abordadas pelos dados
onde se utilizou um ndice invertido para transcrio fontica, que inclui subseqn-
coletados, dando a impresso de que as concluses foram definidas antes da
cias fonticas de trs a seis fones. Na recuperao o indice de documentos com pala-
vras e a transcrio fontica so pesquisados em paralelo e os resultados so fundidos. realizao de qualquer estudo.
Experincias com um corpus de cerca de 500 notcias dos noticirios da ABC e da Os campos da recuperao de imagens e sons atraram muitos pesquisadores
CNN (Cable News Network), com o emprego de ndices combinados de palavras e que no possuam qualquer experincia anterior com a recuperao de textos.
fones, resultou numa preciso mdia de 0,67 com um desempenho global de 84,6% Disso resultou o surgimento de uma nova terminologia para idias muito antigas,
do de um sistema de recuperao de texto completo. No caso, porm, de udio do o que, na realidade, muito lamentvel. Um exemplo primoroso o uso da
mundo real com alto ndice de erros de palavras de 70--80%, registrou-se uma queda palavra 'anotao' para designar a atribuio de um rtulo verbal a uma imagem
drstica da preciso e revocao para O, 17 e 0,26, respectivamente (p. 989-990). -ou seja, sua indexao (ver, por exemplo, Picard e Minka, 1995).
Os recursos de buscas de imagens do sistema Informedia incluem deteco de Naturalmente, os futuros desenvolvimentos na recuperao do discurso tlado
cor (o usurio especifica cores e regies de interesse a serem procuradas entre dependem em muito dos progressos que ocorrerem no campo geral da tecnologia
as imagens). Ver Wactlar et ai. (1999). da fala. As revistas mais populares do ramo tendem a ser exageradamente otimis-
Patel e Sethi (1996) descrevem mtodos que desenvolveram para classificar tas quanto s futuras possibilidades. Por exemplo, a afirmativa de Flyrm (1993):
segmentos de filmes cinematogrficos mediante processamento de udio. De No final da dcada, os sistemas de reconhecimento de fala permitiro a voc falar
incio, o sistema somente podia identificar categorias genricas (como, por naturalmente, com um vocUbulrio virtualmente ilimitado (p. 29)
. exemplo, 'musical'), porm os autores sugerem que ele poderia ser mais aprimo-
era totalmente irreal da maneira como foi formulada.
rado de modo a identificar especificamente tipos de cenas (cena de ao, cena
Haas (1996), citando Rudnicky, levanta uma questo importante que perti-
de dana, cena romntica, e assim por diante). Posteriormente (Patel e Sethi,
1997) estenderam sua pesquisa identificao dos falantes (por exemplo, atores nente s perspectivas nessa rea:
em trechos em vdeo de filmes). H uma diferena entre reconhecimento de tla e compreenso de fala: o reconhe-
Adami et ai. (200 1) propem um sistema que oferece acesso a documentos cimento de fala requer que um sistema identifique as palavras numa expresso oral,
multirridias por meio de ferramentas anlogas s de um livro impresso: uma enquanto a compreenso de fala requer que um sistema tambm trate dos problemas
ligados compreenso da linguagem natura!, como anfora, elipse e outros fenmenos
descrio hierrquica do contedo do item (similar a uma pgina convencional
do discurso. O reconhecimento de fala til para tarefas estruturadas, como entrada
de sumrio) adequada para pesquisa, e um 'ndice analtico' baseado em palavras-
de dados e emisso de comandos simples, mas um dilogo, de qualquer tipo, exige
chave (anlogo ao ndice do final de um livro). Sua pesquisa tem por objetivo
compreenso de fala (p. 98).
produzir essas ferramentas de modo automtico, e mostram um exemplo baseado
na anlise de um jogo de futebol. A compreenso da fala humana pelo computador no uma perspectiva que
Gauvain et ai. (200 1) descrevem um sistema de partilhamento e transcrio esteja presente no horizonte imediato.
automticos de transmisses de televiso e rdio. Segmentos de no-fala das :Mesmo no seio da comunidade de pesquisadores desse campo, h uma ampla
transmisses so identificados e removidos (automaticamente) e os segmentos divergncia de opinies quanto ao que foi alcanado pela tecnologia de reconhe-
restantes so agrupados e rotulados de acordo com a largura de banda e o gnero. cimento de fala e o que poder suceder no curto prazo. Levinson (1995), por
Um 'reconhecedor de fala contnua, independente de falante e de vocabulrio exemplo, acredita que ainda se passar muito tempo antes que smjam sistemas
extenso' empregado para preparar as transcries. Afinna-se a ocorrncia de de real valor comercial:
uma mdia de erros de palavras de 20%. A opinio da maioria assegura que logo os melhoramentos tcnicos tornaro o
reconhecimento de fala baseado em grandes vocabulrios comercialmente vivel
Concluses para aplicaes especticas. Minha previso[ ... ] que os melhoramentos tcnicos
Houve muito progresso na indexao e recuperao de imagens na ltima surgiro de modo penosamente lento, mas que dentro de 40 a 50 anos o reconhe-
248 INDEXAO E RESUMOS: TEORIA E PRTICA

cimento de fala com nveis de desempenho dos seres humanos estar onipresente.
Isto , progressos tcnicos incrementais resultaro, em curto prazo, numa tecnologia CAPTULO 14
frgil de valor comercial relativamente modesto em mercados muitos especiais,
enquanto importantes avanos tecnolgicos resultantes de uma verdadeira mudana
de paradigma na cincia subjacente possibilitaro s mquinas mostrar niveis humanos
de competncia na comunicao por meio da linguagem falada. Isso, por sua vez, Buscas em textos
resultar num vasto mercado de incalculvel valor comercial (p. 9954).

No entanto, Srinavasan e Brown (2002) frisam que, embora a tecnologia da fala


estivesse lenta para encontrar aplicaes comerciais, parece que agora est pronta
para decolar comercialmente: A aplicao de computadores recuperao de informaes, que teve incio
J-\.na dcada de 1950, possibilitou a realizao de buscas em textos em formato
A conectividade da Rede, a tecnologia sem fio e os dispositivos portteis de mo- eletrnico, sem que houvesse a necessidade de aplicar qualquer modalidade de
combinados com o reconhecimento eficaz de fala baseado na gramtica[... ] -podem indexao a este texto: o programa utilizado na recuperao procura detenninadas
finalmente levar o reconhecimento de fala a ter a importncia de um mercado de palavras, ou combinaes de palavras, no prprio texto, onde as palavras
massa (p.38).
escolhidas por quem faz a busca so indicativas daquilo que o texto est exa-
Afirmativas exageradas tambm ocorrem no campo da recuperao de minando. As buscas feitas em textos pelo computador podem ser denominadas
imagens. Nluitos pesquisadores nesse terreno so completamente ingnuos em 'buscas em textos' ou 'buscas em linguagem natural'. O texto onde so feitas as
suas crenas e expectativas. Para citar somente um exemplo, Gupta e Jain (1997), buscas pode ser o contedo completo de uma publicao (miigo, relatrio, ou
num estudo panormico da recuperao de imagens, til por outros motivos, at um livro) ou parte dela: o resumo, extrato ou apenas o thllo. As buscas
estimula-nos da seguinte forma: feitas num texto integral so s vezes denominadas 'buscas em texto completo'.
Os usurios podem agora extrair, armazenar e recuperar contedo informacional A viabilidade de buscas em textos cresceu notavelmente ao longo dos anos,
'baseado em imagens'- metadados e atributos visuais -de mdia visual de modo na medida em que aumentou o potencial dos computadores, os custos de pro-
to fcil quanto a procura de documentos textuais (p. 71 ). cessamento e armazenamento diminuram, e um volume cada vez maior de tex-
tos tornou-se disponvel em formato eletrnico, em grande parte como subpro-
Aqueles que vimos trabalhando nessa rea h mais de 40 anos sabemos que a
duto de vrias formas de publicao. O desenvolvimento da Rede, que torna
recuperao de documentos texhmis est muito longe de ser fcil em bases de
acessvel enorme quantidade de textos a um imenso nmero de usurios, tornou
dados de p011e significativo.
rotineira, ao invs de excepcional, a busca em textos. Por causa disso, o interesse
importante admitir que as pesquisas sobre recuperao de imagens ou
por mtodos de buscas em textos aumentou notavelmente na ltima dcada,
sons dependem muito mais das tcnicas de indexao automtica do que da
tanto na comunidade de pesquisa quanto em setores governamentais e comerciais.
indexao feita por seres humanos. Por isso, as abordagens que sero objeto
Essa rea de buscas em textos vem avanando desde 1991, graas ao pro-
dos dois prximos captulos relacionam-se bem de perto com o contedo deste.
grama TJPSTER e a vrias outras atividades com ele relacionadas. O TIPSTER foi
uma iniciativa da Defense Advanced Research Projects Agency (DARPA), em
colaborao com o National 1nstitute o f Standards and Technology, outros r-
gos governamentais e vrias empresas comerciais. O programa teve vrios
componentes, dos quais o mais pertinente ao contedo deste captulo foram as
conferncias anuais intituladas Text Retrieval Conferences (TRECs), de que fo-
ram realizadas 11 at 2002. As atividades das TRECs impulsionam o estado de
desenvolvimento da rea, ao permitir que diferentes grupos de pesquisas testem
e comparem seus programas de recuperao em condies controladas (bases
de dados, consultas e avaliaes de relevncia mantidas constantes). Outros
componentes do TIPSTER sero focalizados no captulo seguinte.
Na realidade, este captulo e o prximo se inter-relacionam to de perto que
devero, de fato, ser lidos como uma unidade. s vezes, foi uma deciso um
250 INDEXAO E RESUMOS: TEORIA E PRTICA 14. BUSCAS Elvl TEXTOS 251
tanto arbitrria decidir quanto ao que incluir neste captulo e ao que passar para Padecia de todos os problemas para cuja soluo os vocabulrios controlados
o seguinte. foram criados. Contedos temticos que apresentavam relaes muito prximas
Os procedimentos modernos de processamento de textos alegam que apli- entre si apareciam sob diferentes unitermos, e uma busca exaustiva sobre um
cam tcnicas oriundas de pesquisas em inteligncia artificial, e a expresso 'pro- assunto exigia que se imaginassem todas as formas como esse assunto estaria
cessamento inteligente de textos' s vezes empregada para designar esse tipo representado no texto, o que nem sempre era uma tarefa fcil. Esses problemas
de processo (ver, por exemplo, Jacobs, 1992c). ll acarretaram um retorno aos .vocabulrios controlados e ao desenvolvimento do
Este capftulo passar em revista os mritos relativos das abordagens dare- tesauro para a recuperao da informao (Holm & Rasmussen, 1961).
cuperao da informao baseadas em textos (linguagem natural) e em vocabu- Alm dos problemas de ordem terminolgica, o sistema Unitenn tambm
lrios controlados, far ui11 levantamento do desenvolvimento das buscas em padecia de limitaes mecnicas. Quem fosse fazer uma busca somente poderia
textos desde a dcada de 1950 e terminar com consideraes sobre os atuais cotejar com facilidade duas fichas de cada vez. Assim, uma busca sobre A em
recursos nesta rea. relao as, onde A estivesse representado por quatro uni termos e B por dez, exi-
Considera-se a expresso linguagem natural como sinnimo de 'discurso giria que fossem feitas 4x 1Ocotejos de fichas separadamente. Embora isso fosse
comum', isto , a linguagem utilizada habitualmente na escrita e na fala, e que possvel, tratava-se de uma tarefa enfadonha e demorada. Alm disso, ainda que
o contrrio de 'vocabulrio controlado'. No contexto da recuperao da infor- a relao booleana e (que envolve a comparao de nmeros) seja fcil de fazer
mao, a expresso normalmente se refere s palavras que ocorrem em textos mediante a manipulao de fichas do sistema Uniterm (ou fichas peek-a-boo),
impressos e, por isso, considera-se como seu sinnimo a expresso 'texto livre'. fica muito difcil em sistemas manuais desse tipo realizar uma busca booleana
Um texto livre pode consistir em: usando ou (que envolve a filso de listas) e principalmente combinar(e) conjuntos
I. o ttulo, de termos numa relao ou. Tais manipulaes de termos so, naturalmente,
2. um resumo, comuns em sistemas informatizados. O computador, portanto, soluciona os
3. um extrato, ou problemas 'mecnicos' acarretados pela manipulao de inmeros termos no-
4. o texto integral de uma publicao. controlados, mas no resolve, por si mesmo, os problemas intelectuais criados
pela inexistncia de controle do vocabulrio.
Embora 'texto livre' se refira u~ualmente a uma parte integral de um texto, esta
Todavia, quando os computadores foram inicialmente aplicados recupera-
expresso tambm empregada para designar palavras ou expresses extradas
o da informao, em escala impmtante, em fins da dcada de 1950 e incio da
do texto por um indexador humano (ou por programa de computador) e includas
dcada de 1960, reconheceu-se que as buscas em textos, e mesmo buscas em
num registro bibliogrfico que representa o texto. Em alguns casos, os tem1os
textos integrais, haviam se tornado uma possibilidade sedutora. Ao se estudar a
assim extrados so acrescidos aos ttulos de itens indexados, formando ttulos
histria dos sistemas informatizados de recuperao da informao, reconhecem-
'expandidos' ou 'enriquecidos'.
se duas linhas principais de desenvolvimento. Uma delas tem sua origem nos
grandes sistemas, desenvolvidos por certas instituies como a National Library

l
Um pouco de histria
of Medicine (NLM), o Department of Defense (DOD) e a National Aeronautics
Os tiltodos 'modernos' que visam ao uso da linguagem natural na recupe- and Space Administration (NASA), que funcionavam com base em termos de
rao da informao remontam ao sistema Unitenn descrito porTaube em 1951.
Os princpios do sistema Uniterm despertaram atrao imediata: o contedo
temtico dos documentos podia ser representado adequadamente por meio de
palavras simples (unitermos) extradas do texto dos documentos por indexadores
+ indexao extrados de um vocabulrio controlado e atribudos aos documentos
por indexadores humanos. A outra linha de desenvolvimento teve seu incio no
campo do direito, e envolvia a colocao de textos completos (por exemplo,
leis) em formato eletrnico e a utilizao do computador para fazer buscas de
com um nvel de especializao relativamente baixo. Escritos mo ou datilogra- palavras ou combinaes de palavras nesses textos. Trabalhos dessa natureza
fados, os nmeros dos documentos eram 'lanados' em fichas projetadas para
esse fim, cada uma representando um nico termo, e as buscas eram feitas com-
parando-se os nmeros em duas ou mais fichas (de modo muito parecido com um
I antecederam, na realidade, o desenvolvimento de tesauros e o surgimento dos
grandes sistemas baseados na indexao feita por seres humanos. A recuperao
de textos jurdicos integrais remonta ao trabalho de H01ty e seus colaboradores
moderno sistema em linha que compara listas de nmeros associados a termos). no Health Law Center da University ofPittsburgh (Horty, 1960, 1962, Kehl et
Taube teve considervel influncia sobre o desenvolvimento de sistemas de ai., 1961). Foi no campo jurdico que as tcnicas modernas de buscas em texto
recuperao da informao na dcada de 1950. Infelizmente, todavia, o sistema livre tiveram seu desenvolvimento inicial, e o trabalho pioneiro em Pittsburgh
Unitenn veio a ser na prtica menos atraente do que parecera primeira vista. lanou os alicerces dos sistemas posteriores de recuperao de informao jur-
252 !NDEXAi\0 E RESUi\-fOS: TEORIA E PRTICA
' p'
J1
' 14. BUSCAS EM TEXTOS

Embora o mtodo 'caudaloso' no seja conceitualmente diferente do mtodo


253

dica exemplificados por LEXIS e WESTLAW. Myers (1973) apresentou uma til
reviso sobre o estado dos conhecimentos relativos busca em textos jurdicos de fndice invetiido, possui, de fato, algumas caracterfsticas melhoradas. Por
por computador. Embora antigo, continua sendo um bom relato acerca dos exemplo, muito mais fcil realizar buscas com 'fragmentos' de palavras, principal-
princpios bsic"s. Dabney (l986) serve como uma atualizao. mente seqncias de caracteres que ocorram no meio ou no fim de um vocbulo.
A distino entre os sistemas baseados essencialmente em vocabulrios Os mecanismos de busca que foram desenvolvidos na internet funcionam
controlados e registros de indexao criados por seres humanos (muitas vezes por intermdio da compilao de 'ndices' de textos presentes nos vrios stios
equivocadamente denominados sistemas 'bibliogrficos') e os sistemas basea- e no passam de arquivos irivetiidos convencionais.
dos em buscas no texto tem se tornado cada vez mais difusa com o passar dos
anos. Gradualmente, os sistemas 'bibliogrficos' foram permitindo a busca de Recursos auxiliares de busca
palavras que ocorriam nos ttulos e, depois, nos resumos, enquanto alguns dos Mesmo nos primrdios das buscas em textos, vrios recursos au~ilia~es_ j_
sistemas de texto integral acrescentavam termos de indexao atribudos por haviam sido desenvolvidos para ajudar quem realizava as buscas. O ma1s prunttl-
seres humanos a fim de melhorar o acesso, e algumas bases de dados (por vo deles a apresentao (ou sada impressa) em ordem alfabtica das palavras
exemplo, INSPEC) foram projetadas, desde o infcio, para incluir tanto termos 'sionificativas' que ocorrem na base de dados, com uma indicao da freqlincm
controlados quanto 'palavras-chave' no controladas. Na medida em que um co~ que cada uma delas ocorre. Tambm era comum algum tipo de indicador
nmero cada vez maior de textos tornou-se disponvel em formato eletrnico, de distncia entre as palavras (operador mtrico). A capacidade de especificar a
como subproduto de atividades de editorao ou disseminao, a busca em textos proximidade entre duas palavras particularmente til em buscas em ?ases de
de resumos passou a ser um lugar-comum, e a busca em textos completos ultra- dados de textos completos onde palavras que ocorrem em pargrafos dtferentes
passa hoje as fionteiras do direito: jornais, revistas de cunho popular, peridicos podem no estar de modo algum relacionadas diretamente entre si.
cientficos, enciclopdias e outras fontes encontram-se agora acessveis em for- Talvez o recurso auxiliar mais poderoso das buscas em linguagem natural
mato de texto completo. Os stios da Rede da internet consistem majoritariamente seja a capacidade de realiz-las em partes de palavras- quer dize~,_fazer seu
em texto, de modo que uma verdade indubitvel que as buscas em textos truncamento ou efetuar buscas com fragmentos de palavras. A uttlldade das
superam hoje grandemente as buscas que envolvem vocabulrios controlados. buscas com fragmentos de palavras foi analisada por Williams (1972). Os pro-
As buscas em textos so realizadas de dois modos. No primeiro mtodo, gramas de computador mais flexveis permitem que se faam buscas C?l"? ~ual
palavras que no sejam comuns so includas em arquivos 'invertidos', que quer fragmento: truncament> direita (por exemplo, todas as palavra~ lll!Ctadas
mostram, para cada palavra, qual o documento em que ela aparece (e fieqilen- com 'condens'), truncamento esquerda (todas as palavras que termmam co~n
temente sua posio exata nesse documento). A busca realizada nesses ndices 'micina'), truncamento com' inflxos' (especificam-se o comeo e o fim mas nao
(os quais, no trabalho originalmente desenvolvido em Pittsburgh, eram denOmi- 0 meio da palavra), ou qualquer combinao possvel desses recursos (por
nados 'concordncias') ao invs de ser realizada no prprio texto. A outra alterna- exemplo, todas as palavras que incluam a cadeia de caracteres 'magnet', mde-
tiva efetuar uma busca seqencial no texto, palavra por palavra, sem utilizar pendentemente de onde aparea). Embora sejam potencialmente teis em todos
qualquer ndice. Esta era a tcnica comumente empregada para prestar servios os campos do conhecimento, as buscas com fragmentos de palavras parec~m ter
de Disseminao Seletiva de Informaes (Dsl) a pm1ir de bases de dados, antes mais utilidade em cincia e tecnologia, onde a linguagem costuma ser ma1s pre-
de estarem amplamente difundidos os sistemas em linha. Quer dizer, os perfis visvel. Em certo sentido, esse recurso permite que se compense a ausncia de
de interesses de usurios, que se achavam armazenados, eram comparados com um vocabulrio controlado mediante a formao de classes teis de palavras
atualizaes peridicas da base de dados (palavras nos t!h1los ou resumos). Este numa estratgia. Assim, as buscas com o radical 'condens' provavelmente possibi-
mtodo 'caudaloso' de buscas em textos era mais atraente no caso de aplicaes litaro a recuperao de um grupo de documentos que tero algo a ver com
de DSI do que em buscas retrospectivas devido a que o volume de texto a ser condensadores e condensao; buscas com o sufixo 'micina' resultaro em docu-
examinado em qualquer momento muito menor na DSI. Mais tarde, contudo, mentos que tratam de antibiticos; e buscas com 'tri. .. cobaltato' (infixo no es-
foram desenvolvidos computadores especializados que podiam fazer buscas em pecificado) recuperaro uma famlia de compostos qumicos afins.
textos de modo to rpido que se tornaram bastante viveis as buscas 'caudalosas' As buscas com fragmentos de palavras oferecem alguns recursos do tesauro
at mesmo em bases de dados muito grandes. Por exemplo, o Fast Data Finder convencional,- mas o fazem quando da sada, ao invs do controle feito na etapa
(Yu et ai., I 987) alegava que realizava buscas em textos velocidade de 12,5 de entrada. Por exemplo, a possibilidade de buscas com os sufixos 'biticos ou
milhes de caracteres por segundo, o que equivale a cerca de 12,5 romances de ili na ou micina ou ciclina ou.mixina' quase equivale a uma entrada 'antibiticos'
500 pginas a cada segundo.
254
INDEXAO E RESUMOS: TEORIA E PRTiCA 14. BUSCAS Et\1 TEXTOS 255
num tesauro convencional que leva a uma lista de termos especficos relaf ttulos. Do mesmo modo, uma base de dados constituda de resumos 'expandidos'
"b". !Vos a
anti I ti<:_os. O tesauro convencional um vocabulrio pr~controlado, enquanto provavelmente possibilitar revocao mais alta do que uma outra baseada na
a form~ao de clas:es de palavras ou fragmentos de palavras numa estratgia de indexao seletiva ou mesmo, talvez, na indexao exaustiva. Isso, em si mesmo,
busca e uma espcie de processo de 'ps-controle'. nada tem a ver com a comparao entre linguagem natural versus vocabulrios
controlados na recuperao da infOrmao, mas diz respeito apenas extenso
Linguagem natural versus vocabulrio controlado: do registro no qual se podem realizar buscas.
algumas consideraes gerais Vrios pesquisadores, infelizmente, deixaram de atentar para a extenso do
Alguns fatores importantes que influem no desempenho dos sistemas de registro ao compararem a recuperao baseada em texto livre com a recupe-
recuperao da informao podem ser exemplificados reportando-nos mais uma rao baseada na indexao. No de estranhar que a indexao exaustiva resulte
vez figura 3. Nela, esquerda, se encontram trs representaes em texto livre em revocao mais alta do que os ttulos e isto no prova que a indexao feita
d~ u.m documento (~m tftulo e dois resumos de extenso varivel), enquanto por seres humanos seja superior ao texto livre. No de estranhar que um resumo
diretta aparecem do1s conjuntos de termos de indexao (cobertura seletiva e extenso resulte em revocao mais alta do que a indexao seletiva e isto no
exaustiva do_ contedo temtico). Os termos foram extrados do UNBIS thesaurus prova que o texto livre seja superior indexao feita por seres humanos.*
(Naes U1Hdas, Dag Hmm~arskjold Library, 1985). Um fator importante que Os resumos, todavia, freqentemente proporcionaro mais pontos de acesso
mflu1 no desempenho dos sistemas de recuperao da informao o nmero do que um conjunto de descritores atribudos pelo indexador, do mesmo modo,
de pontos de acesso providos. Evidentemente, o resumo expandido prov mais com certeza, que o texto integral do documento. admissvel, portanto, que as
pontos de acesso do que o resumo sucinto, o qual, por sua vez, prov mais do bases de dados de texto livre possibilitaro, em geral, maior revocao do que
que o ttulo. Do me:mo modo,~ indexao exaustiva prov um nmero de pontos aquelas que se apiam na indexao feita por seres humanos.
de acesso quase tres vezes rnawr do que o provido pela indexao seletiva. Outro fator importante que influi no desempenho de um sistema de recu-
Uma ~usca em t~xto que se restrinja apenas ao ttulo provavelmente permitir perao a especificidade Com que se pode descrever o contedo temtico do
que esse Item s SeJa recuperado numa busca sobre o contedo temtico domi- documento. Os tennos do UNB/S thesaurus so bastante especficos ao descrever
nante do documento. medida que se acrescenta mais texto, o item torna-se a maioria dos aspectos do contedo temtico do item apresentado na ilustrao
recupervel no curso de buscas sobre ouhns aspectos. O resumo sucinto pennitiria 3. O texto livre, no entanto, proporciona maior especificidade por possibilitar a
recuper~o em buscas sobre: ajuda norte-americana, a OLP, o Estado palestino, recuperao a partir dos nomes dos lderes do Oriente Mdio, enquanto a inde~
Israel, ~Juda nOite-americana a Israel e conferncias de paz, enquanto o resumo xao permite apenas que se faa uma busca no nvel de 'lderes polticos'.
e_xpandido ac.rescenta o_utros ?ontos de acesso, tais como esforos pela paz e Quanto mais pontos de acesso forem providos para a recuperao, mais alta
lidere: do Onente Nidw. Evidentemente, isso tambm ocorre na comparao ser a revocao possvel, porm, provavelmente, menor ser a preciso. Um
entre mdexao seletiva e indexao exaustiva. A indexao seletiva reflete dos motivos disso simplesmente o fato de que quanto mais pontos de acesso
apenas o ttulo do item e no prov pontos de acesso adicionais ao ttulo e a so providos, maior a probabilidade de que alguns digam respeito a aspectos
indexao exaustiva equivale mais ou menos em amplitude ao resumo expandido. bastante secundrios do documento. Assim, o consulente que recebesse o item
Ao se considerar a recuperabilidade do item apresentado, a extenso do da figura 3 numa busca relativa a Arafat julgaria que ele no teria qualquer
regis.tro que tem n~aior imp?rtncia, e no o tipo de vocabulrio. A indexao utilidade para si porque trata deArafat de uma forma muito sucinta e tangencial.
s~let1va, quanto a Isso, eqtuvale ao ttulo, enquanto a indexao exaustiva se Quanto mais pontos de acesso forem providos, maior tambm ser a possi-
Situa em algum ponto entre os dois resumos na medida em que abrano-e o contedo bilidade de que venham a ocorrer relaes esprias. Como vimos no captulo
temtico do item. Como o resumo sucinto prov mais pontos de a~esso do que li, essas relaes so de dois tipos: l) falsas associaes, 2) relaes incorretas
o ttulo ou a indexao seletiva, o item que representa ser mais recupervel. Do entre termos. Niuitas possibilidades so vislumbradas na figura 3. Por exemplo,
me~mo modo, a indexao exaustiva torna esse item mais recupervel do que 0 o resumo expandido causaria a recuperao desse item numa busca sobre entre-
sena numa busca no resumo sucinto, porm menos recupervel do que o seria vistas telefnicas com lderes do Oriente Mdio (ou qualquer dos lderes men-
numa busca no resumo expandido. cionados), e a indexao exaustiva causaria sua recuperao durante uma busca
Uma base de dados constituda de milhares de itens indexados exausti-
vamente, como no exemplo da figura 3, provavelmente possibilitar uma
revocao muito mais alta do que uma outra que proveja acesso apenas pelos * Lamentavelmente, os resultados desses estudos detCituosos continuam sendo divulgndos como
se tivessem validade (ver, por exemplo, 0\son e Boi!, 2001).
256 257
INDEXAO E RESUMOS: TEORIA E PRTICA 14. BUSCAS EM TEXTOS

sobre lderes polticos dos Estados Unidos. Trata-se de falsas associaes porque manticamente termos que tenham relao entre si, ajuda o usurio a identificar
os termos que causaram a recuperao no tm, essencialmente, relao entre si todos os termos que seriam necessrios para realizar uma busca completa .. _
n? documento (ENTREVISTAS TELEFNICAS no se relaciona diretamente com Outro fator a ser levado em conta a 'recentidade'. Novos termos surgnao
LIDERES nem ESTADOS UNIDOS se relaciona diretamente com LDERES POLiTJCOS). nos ttulos ou resumos muito antes de surgirem num vocabulrio controlado.
l!m ttpo mais sutil de relao espria acha-se exemplificado na indexao Para novos assuntos, pmianto, a linguagem natural provavelmente vence sem
~elettva ou mesmo no ttulo. Qualquer um dos dois causar a recuperao desse esforo. A preciso ser mell10r porque o vocabulrio controlado no possibilitar
Item durante uma busca sobre atitudes do Oriente Nldio em face dos Estados uma busca especfica. provvel tambm que a revocao seja melhor porque
Unidos. Neste caso, os termos RIENTE MDIO, ATITUDES e ESTADOS UNIDOS quem faz a busca no ter de adivinhar quais os termos a seren~ empregados.
tm relao direta entre si, mas a relao ambgua. Finalmente, o uso do vocabulrio controlado costuma ser prefendo pelo espe
Quanto mais extenso o registro, maior a chance de que venham a ocorrer cialista em informao, que domina inteiramente as diretrizes e .regras qt~e. o
relaes esprias. Estas, evidentemente, causam menor preciso. respaldam, enquanto a linguagem natural conta com a preferncia do usuar10
Outras lies.sobre diferenas entre vocabulrio controlado e linguagem naM especialista num assunto. Deschtelets ( 1986) um autor que chamou ateno
tural podem ser tiradas da figura I 03. Neste caso, o UNBJS thesaurus alcana um para a impotincia de se fazer com que a linguagem. cm~trolada se aproxime
resultado medocre na indexao do item. O resumo bem mais especfico do tanto quanto possvel da linguagem natural da respecttva area. . _
que os termos controlados: o tesauro no possui termo para 'alunos monitores' At ao ora identificamos diversas caractersticas do texto livre e da mdexaao
[peer tutoring] ou mesmo 'monitoria' [tutoring]. Esse exemplo tambm ilustra com tern~os controlados feita por seres humanos, tendo relacionado ambos com
o fato de a linguagem natural tender a ser mais redundante do que os termos
controlados de indexao. Por exemplo, o resumo contm o termo programmed
learning [ensino program~do] e programmed instruction [instruo programada], THE USE OF PEER TUTORINGAND
PROGRAl\11\IED RADIO INSTRUCTION;
de modo ~ue esse item seria recupe1:ado por qualquer um desses termos que a VIABLEALTERNATIVES IN EDUCATION
pessoa qmsesse eventualmente usar. E provvel que o texto integral de um docu- Hannum, W. H .. ; Morgan, R. 1\.t
1974, 38p. Educational radio*
mento proporcione notvel redundncia, aumentando as chances de vir a incluir Programmed instmction*
uma expresso empregada por quem faz a busca, assim melhorando a revocao. Florida State University Developing countries
College of Education Nonformal education
A indexao feita por seres humanos , naturalmente, um processo intelectual Center for Educational Technology Teachers
subjetivo, e os indexadores nem sempre incluem um assunto que deveria ser in- Tallahassee, Florida 32306
cludo, representam um assunto com o melhor termo possvel ou explicitam al- Educators in developing countries are likely to achieve more by
guma relao de interesse potencial para certos usurios. A completeza e redun- applying the principies rather than the things ofeducational
technology. The principies of program learning have been shown
dncia do texto completo evita esse tipo de problema. Horty ( 1962), o verdadeiro to be effective in promoting learning in a wide variety o f
pioneiro das buscas em texto completo, reconheceu isso h mais de 20 anos: circumstances. The most effective instructional materiais can be
developed through use oftfie principies ofprogrmm~ed .
Quando o texto completo dos documentos utilizado como base de um sistema de instruction and mastery learning. Radio, when combmed Wllh the
recuperao, as consultas no ficam amarradas maneira como os documentos foram use ofpeer tutors. can be an effective educational tool in
indexados. Quase inevitavelmente o indexador desconhece certos assuntos aos quais developing countries. The concepts ofprogrammed learning .and
a clusula jurdica aplicvel ou seria aplicvel no futuro. Todavia a pesquisa por mastery learning can be incorporated in lhe design of educatmnal
sua prpria natureza, determina que o pesquisador procure relaes inditas ;ntre radio programs. Such programs, accompanied by peer tutors, ~an
accomplish the total educational efl:brt within the resources of
vrios assuntos; relaes que podem no ter sido antecipadas pelo indexador. Ao many developing countries. This type of educational system is a
dispensar por completo o ndice e recorrer ao texto original em cada busca, essas viable alterna tive to traditional fonnal educational. Such a system
novas relaes podem ser encontradas (p. 59). should be tried in severa\ developing countries to explore its full
potential.
Por outro lado, naturalmente, esta prpria redundncia cria grandes problemas
quando os textos de muitos documentos so combinados para formar uma grande FIGURA 103
base de dados- h muitas formas pelas quais um assunto pode ser expresso Comparao entre resumo e indexao com vocabulrio controlado .
num texto completo e, em alguns casos, o assunto representado implcita e no o resumo foi r<:produo:ido deA././J. /(c_1 ~urch & /)..,wfupmml A h. Ira<!. com pe.rmisso do Center for Oe;e!opment lnformauon
and Evaluation. United States Agency for lntemallonal Oevelopment
explicitamente (O'Connor, 1965), dificultando uma revocao alta. Um voca- Os termos assinalados com astelisco so aqueles que o index~dor considerOU
como os mais importantes para este it<:m
bulrio controlado reduz a diversidade da terminologia. Alm disso, ao ligar seM
259
258 INDEXAO E RESUMOS: TEORIA E PRTICA 14. BUSCAS EM TEXTOS

seus provveis efeitos sobre a revocao e a preciso. Essas relaes so resu- Fatores que favorecem a revocat1o Efeito do tipo de representarto .
midas na figura I 04. Isso deixa evidente que a situao complexa, uma vez Extenso do registro (nlnnero de A maioria das representaes em texto hvre (com
exceo apenas dos ttulos) ser mais longa do que
que alguns fatores f.:1vorecem os termos controlados e outros favorecem o texto pontos de acesso)
um conjunto de termos de indexao atribudos.
livre. A especificidade das palavras do texto costuma melhorar a preciso, mas Isso costuma melhorar a revocao, mas reduz a
dificultar a obteno de revocao alta, pelo menos durante buscas 'conceituais' preciso (aumentam os casos de 'leve meno' e
genricas, enquanto a extenso do texto costuma melhorar a revocao, porm relaes esp(Jrias).
diminuir a preciso. A preferncia por um ou por outro numa situao determi- Redundncia Ser comumente maior enl texto livre, aumentando
nada ser bastante influenciada pelo tipo de busca a ser feita: uma busca concei- as chances de se encontrar um item especfico. No
entanto, a grande variedade de modos como um
tual genrica recomendar os termos controlados, uma busca altamente especfica assunto se acha representado numa grande base de
(principalmente uma que envolva nomes de pessoas, organizaes, etc.) reco- dados formada de textos dificulta a obteno de
mendar o texto livre, uma busca realmente exaustiva sobre um assunto (por revocao alta.
exemplo, toda referncia possvel a algum medicamento) recomendar o texto Muito mais provvel de ocorrer muna
Presena de tennos 'conceituais'
completo, enquanto uma busca altamente seletiva (somente os itens mais im- genricos
representao baseada em vocabulrio controlado.
portantes) provavelmente recomendar a indexao com termos controlados. Pode estar implfcita e no explicit3 no texto.
Em geral, outros autores chegaram a concluses semelhantes. Por exemplo, Ligao de termos semanticamente Favorece nitidamente o vocabulrio controlado
Fugmann (1985) salienta que as buscas em linguagem natural produzem bons relacionados bem-construido.
resultados no caso de 'conceitos pmticulares', mas no de 'conceitos genricos'; FMores que favorecem a precisl1o
Dubois (1987) afirma que umadas vantagens do texto livre que 'no ocorre Especit1cidade O texto livre comumente ser mais espectlco,
favorecendo a preciso. A diversidade dos modos
demora na incorporao de novos termos'; e Perez ( 1982) afirma que ''um voca-
como os conceitos so representados dificulta
bulrio controlado pode resultar em perda de preciso" enquanto o texto livre muito, no entanto, a obteno de uma revocao
"no perde a especificidade". Knapp (1982) menciona 'assuntos especficos', alta em buscas 'conceituais' genricas. Em buscas
'assuntos quentes' e 'nova terminologia' como exemplos de casos em que a deste tipo sero preferveis os termos controlados
relativamente mais genricos.
linguagem natural provavelmente ser mais til.
Os aspectos relativos aos custos devem, naturalmente, ser tambm levados Fatores que i11jl11em em ambos
As representaes em texto livre sero sempre
em conta numa comparao entre linguagem natural e vocabulrio controlado. Atualidade
mais atuais. Para encontrar um assunto novo em
O custo do processamento intelectual por seres humanos continua a subir rapida- folha num sistema baseado em vocabulrio
mente em relao ao custo do processamento por computador, e a indexao controlado, o usurio talvez tenha de experimentar
que utiliza vocabulrio controlado exige mo-de-obra intensiva e cara. A cons- com diversos termos (diminuindo a preciso), e
mesmo assim talvez no consiga encontrar tudo
truo e manuteno de um vocabulrio controlado podem tambm custar caro.
sobre o assunto (diminuindo a revocao).
Na medida em que aumenta a disponibilidade de textos, a baixo custo, em formato
Os especialistas em infom1ao totalmente
eletrnico, como subproduto de atividades editoriais ou de disseminao de Hbito
habituados com um vocabulrio controlado,
informaes, natural que os administradores de servios de informao analisem conseguiro utiliz-lo de maneira mais eficaz d~
cautelosamente a situao, a fim de decidir se as vantagens da indexao com que outros o fariam. O 'usurio final' pode sentir-
vocabulrio controlado realmente justificam os custos adicionais. se melhor com a linguagem natural que ocorre em
documentos de sua rea de conhecimento.
Do ponto de vista da relao custo-eficcia pode-se ver essa comparao
como uma negociao entre elitrada e sada. Ao abandonar a indexao feita
por seres humanos e os vocabulrios controlados, bem provvel que haja uma FIGURA 104
reduo dos custos na entrada. No entanto, alcana-se essa reduo s expensas Os prs e contras do texto livre versus vocabulrio controlado
de custos mais elevados na sada, pois se lana uma sobrecarga intelectual maior
sobre os ombros do usurio da base de dados. Entre os fatores que influem na Reviso de estudos afins: antes de 1980
deciso em torno dessa negociao entre entrada e sada esto a quantidade de Os primeiros trabalhos escritos sobre a experincia com buscas em ~extos
documentos e buscas envolvidas, os custos do indexador e da pessoa que faz as completos, no campo jurdico, estavam impregnados de um grande entustasmo
buscas, bem como o grau de impot1ncia atribuvel aos resultados de uma busca.
}4.
261
260 INDEXAO E RESUMOS: TEORIA E PRTICA BUSCAS El\'{ TEXTOS

em face desse novo recurso. Seus autores, no entanto, no realizaram experincia auao-em natural (com controle das formas dos vocbulos, com controle de
b b
alguma visando a comparar as buscas em texto completo com a indexao com sinnimos ou sem qualquer controle) superaram em desempenho todos os outros.
vocabulrio controlado. o estudo Cranfield gerou muita polmica e suscitou muitas crticas ao longo
Swanson ( 1960) formou uma pequena coleo de teste, contendo I 00 mtigos dos anos. Grande pmie dessas crticas, no entanto, teve origem numa falta de
sobre fsica nuclear, e determinou quais deles eram relevantes para cada uma de compreenso daquilo que o estudo realmente realizou. Por exemplo, Soergel
um total de 50 questes. A coleo foi tambm indexada com cabealhos de ( 1985) sugeriu que tanto a indexao quanto a linguagem de indexao eram de
assuntos 'criados especialmente para o campo da fsica nuclear'. As buscas em qualidade duvidosa. Como eu fui um dos indexadores, posso testemunhar os
textos completos, que contaram com a ajuda de uma 'coleo de grupos de grandes cuidados que cercaram a indexao- cuidados muito maiores do que
palavras e expresses, a modo de tesauro', apresentaram, segundo Swanson, os que provavelrnente ocorrem. num ambiente de produo habitual- e que os
resultados superiores queles logrados pelas buscas em cabealhos de assuntos. indexadores possuam experincia anterior bastante respeitvel. rvresmo hoje
_A pesquisa 'Cranfield' sobre as caractersticas e o desempenho de linguagens em dia ainda surgem crticas. Alguns autores procuraram desacreditar os resul-
de mdexao parece ter tido profunda influncia no convencimento de muitos tados de Cranfield com o argumento de que, como as questes se basea~am em
profissionais da informao quanto s vantagens da linguagem natural na recu- documentos reais, isso criaria um vis favorvel linguagem nahtral. E difcil
perao da informao. Segundo foi relatado por Cleverdon et ai. ( 1966), tratava- entender essa crtica, uma ve.z que os itens considerados relevantes pelos autores
se de um estudo experimental controlado. Uma coleo de teste contendo I 400 das questes no eram os itens nos quais haviam baseado as questes.
trabalhos de pesquisa, a maioria dos quais relacionada aerodinmica foi De qualquer modo, no minha inteno defender aqui os estudos Cranfield,
indexada de trs formas diferentes: 1) os conceitos estudados eram anot~dos mas meramente salientar que, defeituosos ou no, levaram muitas pessoas a
(por exemplo, 'perdas em cascata'), 2) os conceitos eram decompostos nas acreditar que, pelo menos em cet1as circunstncias, os sistemas baseados em
palavras que os constituam, no singular ('cascata', 'perda'), e 3) os conceitos lino-uao-em
b b
natural teriam um desempenho to bom ou melhor do que os baseados

afins eram reunidos para formar' ligaes' ou 'temas' (por exemplo, compressor em vocabulrios controlados. Em alguns dos trabalhos que escreveu depois da
de fluxo axial/perda em cascata). Os itens foram indexados exaustivamente: realizao dos testes de Cranfield, Cleverdon sugeriu que um sistema com base
no era raro haver de 30 a 50 'conceitos' por item. na linguagem natural, se implementado de forma apropriada, sempre teria
Compilou-se um grupo de 221 questes de teste. Essas questes foram ela- desempenho superior ao de um sistema baseado em controle de vocabulrio.
boradas por especialistas e se baseavam em trabalhos de pesquisa reais dos Pouco mais tarde, Klingbiel ( l970) valeu-se dos resultados de Cranfield, aliados
quais eles mesmos eram autores. A coleo de teste foi examinada minuciosa- sua prpria experincia no Defense Documentation Center, para afirmar que "vo-
mente por estudantes de ps-graduao do College o f Aeronautics (em Cranfield, cabulrios controlados altamente estruturados so obsoletos para a indexao e
Inglaterra), e os itens que apresentassem qualquer 'relevncia' imaginvel eram a recuperao" e que "a linguagem nahtral da prosa cientfica totalmente ade-
enviados pessoa que propusera a questo, a fim de que fossem avaliados de quada indexao e recuperao". Pouco depois, Bhattacharyya (1974) diria:
acordo com uma escala de cinco pontos (dos quais uma categoria correspondia Os resultados de vrios experimentos visando a testar e avaliar as linguagens de
a 'absolutamente no-relevantes'). Como resultado, ficava-se sabendo quais os indexao, realizados durante a ltima dcada, demonstraram, repetidas vezes, a fora
itens da coleo que eram relevantes para cada questo do teste (pelo menos aos da linguagem natural, com o mnimo ou sem nenhum controle, como a melhor lingua-
olhos do autor da quesfo) e quais no eram. gem de indexao (isto , levando em conta tanto a eficcia quanto a eficincia de
Todo o estudo foi realizado como uma espcie de simulao. Foram 'mon- recuperao) (p. 235).
tados' diferentes tipos de vocabulrios, variando do mais elementar (palavras Aps os estudos em Cranfield, e influenciados por eles, diversos pesquisa-
simples sem quaisquer controles, fuso de singular/plural, controle da forma dores chegaram a concluses semelhantes quanto aos mritos da linguagem
das palavras [busca em radicais de palavras], controle simples de sinnimos) ao natural na recuperao da informao. Por exemplo, Aitchison et ai. (1969-
mais complexo (agrupamento dos termos em hierarquias como apareceriam numa 1970) empreenderam alguns testes visando a obter elementos que ajudassem
verdadeira classificao hierrquica). Cada questo foi proposta 33 vezes nas decises acerca da indexao da base de dados INSPEC. Compararam-se os
coleo de teste, cada uma delas correspondendo ao teste de um vocabulrio resultados de buscas feitas em: I) titulo, 2) ttulos mais resumos, 3) termos de
diferente (33 ao todo), possibilitando uma comparao dos resultados alcanados indexao utilizados na publicao impressa Science Abstracts, 4) indexao
pelos vrios vocabulrios. Ao serem combinadas as medidas de revocao e feita por seres humanos com 'linguagem livre', e 5_) termos controlados extrados
preciso numa nica medida de desempenho (denominada 'revocao norma- de um rascunho de tesauro compilado pelo pessoal do INSPEC. O ambiente do
lizada'), os vocabulrios constitudos de termos de uma nica palavra da lin-
262 INDEXAO E RESUWfOS: TEORIA E PRTICA 14. BUSCAS EM TEXTOS 263

teste consistia em 542 artigos no campo da eletrnica e 97 questes formuladas unio de tennos afins no momento da indexao (isto , 'compartimentagem'),
por pesquisadores. Fizeram-se avaliaes no sentido de determinar quais artigos o emprego dos operadores relacionais e a proviso de 'contexto' no arquivo
eram relevantes para quais questes. Tomou-se o cuidado de estabelecer algum de buscas (quem realiza a busca num ndice de coincidncia ptica remetido,
nvel de 'equivalncia' entre as estratgias adotadas nas vrias modalidades de pelo nmero do documeilto, a um ~arquivo de contextos' onde uma entrada
busca. Verificou-se que a recuperao baseada no rascunho de tesauro pro- de !ndice alfabtico em cadeia representa o contedo temtico especifico
porcionou resultados melhores do que qualquer uma das outras modalidades de estudado no documento, o que equivale aproximadamente ao contexto pro-
busca. Todavia, recomendava-se que a atribuio pelos indexadores de termos vido num !ndice pr-coordenado).
da linguagem livre, que haviam ficado em segundo lugar quanto ao desempenho, As diferentes linguagens foram empregadas em diferentes comparaes (quer
deveria ser o mtodo adotado. A base de dados INSPEC incorporou posteriom1ente
dizer, nem todas as comparaes so relevantes para todas as linguagens), e se
tanto termos de tesauro quanto termos de texto livre.
utilizou em algumas dessas comparaes um subconjunto de 241 documentos e
Em importante estudo, Keen e Digger (1972) compararam o desempenho de
60 pedidos de buscas. Os resultados das diversas comparaes so apresentados,
vrios tipos de vocabulrios no campo da cincia da informao. As principais
em sua maioria, sob a forma de coeficientes de revocao e nmeros absolutos
caractersticas desse teste podem ser assim resumidas:
de itens no~relevantes recuperados.
1. Foram utilizadas cinco linguagens de indexao diferentes: UL, uma lingua- Talvez de maneira no muito imprevisvel, essa pesquisa produziu resultados
gem ps-coordenada, no-controlada, construda por indexadores mediante que tendem a corroborar os resultados de estudos anteriores:
a seleo de palavras dos prprios documentos; CT, uma linguagem ps-co-
As linguagens no~controladas testadas tiveram, em geral, um desempenho to bom
ordenada de 'termos comprimidos', contendo menos de 300 termos, com
quanto o das linguagens controladas, ao proporcionar uma eficcia de recuperao
estrutura de tesauro; Pre-HS, uma linguagern pr-coordenada, hierarquicamen- coerentemente boa e um desempenho de eficincia que jamais chegou a ser to ruim
te estruturada, na forma de um esquema de classificao facetada; HS, uma quanto o da pior linguagem controlada, nem to bom quanto as melhores, e em
linguagem hierarquicamente estruturada (o esquema de claSsificao modi- nenhum caso as diferenas tbram estatisticamente importantes (volume 1, p. 166-167).
ficado de modo a permitir que seja utilizado de maneira ps-coordenada);
Pre-RJ, uma linguagem pr-coordenada na qual os termos da classificao Os pesquisadores, alm disso, afirmam que:
hierrquica so combinados em locues de indexao ('analetos') com o o que se prescreve para a melhor linguagem de indexao , evidentemente, que
emprego dos operadores relacionais de Farradane. apresente a mais alta especificidade possivel sem ter de empregar dispositivos de
2. Uma coleo de teste de 800 documentos sobre biblioteconomia e cincia preciso que sejam mais complexos do que a simples coordenao (e com po~tca ou
da informao foi indexada pelos dois pesquisadores, que utilizaram cada nenhuma pr-coordenao de termos). E, realmente, parece que as palavras Simples
um dos cinco vocabulrios. da linguagem natural inglesa se aproximam da proviso desse nvel timo de espe-
3. Os ndices criados eram inteiramente manuais, sendo que o ndice ps-coor- cificidade (volume I, p. 169).
denado foi montado com fichas de coincidncia ptica. Keen e Diooer
oo cheoaram
o a sugerir
..... que agora
.... estava bem comprovado o ar-
4. Sessenta e trs pedidos de buscas, obtidos junto a bibliotecrios e outros es- a-umento coritra os vocabulrios controlados, ao ponto de afirmarem que "esta
pecialistas em informao, foram processados nesses ndices. "deve ser a ltima vez em que as tradicionais linguagens controladas de indexao
5. As buscas foram realizadas por 19 estudantes de biblioteconomia e cincia so humilhadas, por ter ficado demonstrado que no oferecem vantagem alguma"
da informao, que empregaram um plano experimental de quadrado latino. (volume I, p. 170).
6. Vinte auxiliares de ensino da rea elaboraram julgamentos de relevncia dos Lancaster et ai. (1972) realizaram um estudo sobre buscas em linha feitas
pedidos do teste em relao a cada documento da coleo. por pesquisadores da rea biomdica no Epilepsy Abstracts Retrieval System
7. Os testes foram realizados com diferentes 'verses' dos cinco ndices. Essas (EARS). Seu objetivo era determinar a eficincia com que esses pesquisadores
verses refletiam mudanas introduzidas na linguagem de indexao ou na podiam fazer buscas no texto de resumos no campo da epilepsia, tendo sido
poltica de indexao. As principais varveis assim examinadas foram o efetuadas algumas comparaes entre texto livre e termos controlados. Cons-
efeito da exaustividade da indexao (isto , o nmero de termos atribu!dos tatou-se que, em 47 buscas, o emprego dos termos de indexao atribudos pela
por documento), a especificidade do vocabulrio, diferentes mtodos de co- E-.:cerpta JY!edica proporcionou cerca de metade da revocao que fora obt~da
ordenao dos termos no momento da busca, o grau em que os termos so com as buscas feitas em resumos. Observe-se, contudo, que os resumos geral-
interligados (por remissivas ou estrutura hierrquica) num vocabulrio; mente ofereciam muito mais pontos de acesso, de modo que a comparao foi
264 INDEXAO E RESUMOS: TEORIA E PRTICA 14. BUSCAS EM TEXTOS 265
mais a respeito da extenso do registro do _que uma verdadeira comparao en- quanto a linguagem natural foram utilizados tiveram um desempenho bem infe-
tre buscas em texto livre versus buscas com termos controlados. Os pesquisadores rior, tanto quanto revocao quanto preciso, do que as buscas que envol-
concluram que a busca em texto resultou em melhor revocao devido a: a) viam apenas linguagem natural. Isso exatamente o oposto do que seria natural,
nmero de pontos de acesso, b) maior redundncia, c) maior coincidncia entre sendo difcil de explicar, principalmente porque essas buscas de 'modo conjtmto'
os termos empregados pelos usurios e as palavras do texto, d) erros e inco- recuperaram duas vezes mais itens do que as buscas em linguagem natural.
erncias na indexao feita por seres humanos, e e) termos de indexao coin- Cleverdon no apresenta explicao para essa anomalia. Outra anomalia que
cidentes entre si. Levantou-se a hiptese de que o desempenho melhoraria gran- as buscas em linguagem natural que contaram com a ajuda do 'arquivo de con-
1
demente se algum tipo de tesauro de busca' fosse acrescentado ao sistema. ceitos associados' tambm tiveram desempenho bem inferior ao das buscas
Utilizando documentos e questes reunidos por Lancaster na avaliao que realizadas com o emprego somente da linguagem natural. Isso tambm no
este efetuou sobre o sistema MEDLARS (Lancaster, l968a), Salton (1972) apre- explicado com clareza, ficando difcil para os leitores do relatrio de Cleverdon
sentou resultados que sugeriani que seu sistema SMART superaria em desem- chegar a suas prprias concluses, uma vez que o prprio 'arquivo de conceitos
penho as dispendiosas atividades de indexao e controle de vocabulrio asso- associados' no descrito completamente. Tudo que se pode conjeturar a partir
ciadas ao MEDLARS. Essa comparao difere um pouco da comparao conven- da descrio de Cleverdon que esse arquivo resultou da co-oconncia de termos
cional de buscas em bases de dados que empregam linguagem natural e que nos Htulos de documentos da coleo.
empregam vocabulrios controlados. O SMART no funciona com base na lgebra Trabalho posterior de Martin (!980) oferece alguns esclarecimentos, mas,
booleana, mas por meio de uma espcie de 'coincidncia de padres', em que por sua conta, aumenta ainda mais o mistrio. Ele esclarece que o componente
os textos dos resumos so cotejados com os textos dos pedidos feitos em lin- de linguagem natural da base de dados consistia em palavras simples extradas
guagem natural, e o usurio recebe um conjunto de opes de busca com variados por computador dos ttulos e resumos e posteriormente revistas por seres humanos
nveis de complexidade. Nos estudos de Salton, o SMART parecia superar o desem- a fim de eliminar 'palavras proibidas' e normalizar o vocabulrio com a excluso
penho do MEDLARS somente quando se aplicava uma retroalimentao propor- de grafias e formas lexicais variantes. O arquivo de conceitos associados era um
cionada pelo usurio. Ou seja, os usurios avaliavam os resultados preliminares arquivo das palavras-chave extradas apenas dos titulas e que mostrava, para
da busca e esta era repetida com base na retroalimentao fornecida pelo usurio cada um deles, as palavras-chave que ocorriam com maior freqncia nos ttulos.
a respeito da relevncia. Isso suscita a questo de saber qual seria o desempenho Martin resume os resultadoS assim:
do MEDLARS se adotasse a retroalimentao de relevncia. O Sl\-lART voltar a Revocao (%) Preciscio (%)
ser examinado no prximo captulo.
Termos controlados 56 74
Impot1ante estudo realizado nesse per!odo fieqentemente esquecido. Lingungem natuml 78 63
Cleverdon ( 1977) comparou buscas em linguagem natural e com termos conho- Linguagem natural mais termos controlados 71 45
lados num subconjunto da base de dados da NASA formado por 44 000 itens. E, ento, acrescenta que "para cada documento relevante recuperado pela lin-
Foram realizadas buscas em liriha em quatro centros em cada um dos quais se guagem controlada, a linguagem natural sozinha recuperou 1,4, a linguagem
faziam dez buscas. Cada busca era feita de um modo por uma pessoa e de um natural mais a linguagem controlada 1,6 [... ]",o que totalmente incompatvel
modo diferente por uma segunda pessoa. As duas pessoas que realizavam a com os valores de revocao/preciso apresentados. Nlartin tambm esclarece
busca sobre o mesmo assunto, cada uma de um modo diferente, primeiramente que as buscas em 'linguagem natural mais termo controlado' incluem algumas
analisavam a solicitao, a fim de chegar a um acordo sobre aquilo que o consu- que envolviam somente termos controlados (onde a pessoa que fazia a busca
lente desejava. Essas modalidades de busca eram: a) somente em termos no viu necessidade de adicionar a linguagem natural) e, portanto, "elas no
controlados, b) linguagem natural dos ttulos e resumos, c) termos controlados representavam todo o potencial de LC [linguagem controlada] mais LN [linguagem
combinados com linguagem natural, e d) linguagem natural com o auxlio de uma natural]". As incoerncias nos resultados e nas afirmaes sobre eles, bem como
lista de 'conceitos associados'. Constatou-se que as buscas em linguagem natural preocupaes acerca das instrues passadas s pessoas que faziam as buscas,
resultaram numa revocao acentuadamente mais alta e pouco diferiam, quanto lanam alguma dvida sobre a validade dessa comparao.
preciso, das buscas com termos controlados. A concluso de Cleverdon, corre- Somente um estudo realizado durante esse perfodo afirma ter encontrado
tamente, foi que a extenso do resumo fora a principal causa disso. resultados superiores para a indexao feita por seres humanos com o emprego
infelizmente, o estudo de Cleverdon prejudicado pelas deficincias formais de um vocabulrio controlado. Hersey et ai. ( 1971) utilizaram um subconjunto
com que foi descrito. Por exemplo, as buscas em que tanto os termos controlados da base de dados do Smithsonian Science Information Exchange (SIE, formada
266 INDEXAO E RESUMOS: TEORIA E PRTICA 14. BUSCAS EM TEXTOS 267
por 4 655 descries de projetos, na comparao que fizeram entre texto livre e rou os resultados quando as buscas foram realizadas nos ttulos, resumos e
'indexao por cientistas'. A indexao envolveu o emprego de cdigos de cabealhos de assuntos, alm de vrias combinaes destes elementos. Os resul-
assuntos, a_tribudos ?or especialistas, e extrados de um esquema de classificao tados de uma modalidade de busca foram comparados com os resultados
desenvolvido especJahnente para esse fim. Para 27 buscas realizadas no prprio combinados de todas as modalidades. Empregando este padro, os cabealhos
SIE, foram alcanados os seguintes resultados: de assuntos sozinhos recuperaram 21% dos itens, os resumos sozinhos 61%, os
ttulos mais os resumos 75%, e os ttulos mais os termos de assuntos 41%. No
Revocao ('A) Preciso (%)
de estranhar, pmianto, que, aparentemente, as representaes mais extensas
Texto de descries de projetos 66 SI
Indexao de assuntos 95 95 tenham resultado em muito melhor revocao. No entanto, no se fizeram avalia-
es reais de relevncia nesse estudo: tudo que foi recuperado foi considerado
Nlais uma vez as deficincias do relato dificultam para o leitor a compreenso
ipso facto como sendo uma resposta apropriada.
exata do que foi feito. As questes utilizadas foram umas que haviam sido 'ante-
riormente formuladas', mas no se esclarece se os resultados concernentes
Reviso de estudos afins: a partir de 1980
indexao de assuntos foram obtidos quando as buscas foram originalmente
feitas para os usurios, ou se foram obtidos mais tarde, no momento da realizao Em geral, as comparaes entre buscas em texto livre e com vocabulrio
das buscas em texto livre. Os seguintes pontos tambm so obscuros: de que controlado realizadas nas dcadas de 1960 e 1970 mostravam que o texto livre
modo foram feitas as avaliaes de relevncia (aparentemente foram feitas pelo funcionava to bem quanto os termos controlados, seno melhor. Tais estudos,
pessoal do SIE e no pelos solicitantes originais), de que forma o pedido foi porm, foram realizados em arquivos muito pequenos, e s vezes insignificante-
entregue a quem fazia a busca em texto livre, e se foram ou no impostos controles mente pequenos. Em sua maioria, tratava-se de estudos experimentais, ao invs
s pessoas que faziam as buscas, a fim de se conseguir cet1o nvel de equivalncia de envolver servios de informao reais funcionando em condies de trabalho
de mtodo entre busca em texto e busca em termos de indexao. concretas. A partir de 1980 alguns estudos foram realizados com bases de dados
Cada um desses fatores teria grande influncia nos resultados do estudo. Por de maior porte e/ou envolvendo servios verdadeiramente operacionais.
exemplo, se o pedido usado como base para a busca em texto livre no estives- Markey et ai. (1980) empreenderam uma anlise de enunciados de busca
se nas palavras originais do solicitante, mas houvesse sido 'negociado' mediante com vocabulrio controlado e texto livre em buscas em linha na base de dados
interao com o pessoal do SIE, os resultados da comparao poderiam muito ERIC. Tambm realizaram 'testes de buscas em linha', comparando vocabulrio
bem apresentar um vis para os cdigos de assuntos. O fato de os resultados livre e controlado, mas usando somente seis assuntos. Concluram que o texto
desse estudo relativos revocao/preciso terem sido bem mais altos do que livre resultou em revocao mais alta e os termos controlados resultaram em
os de outras pesquisas, e muito mais altos do que os obtidos durante o funciona- mais alta preciso. Igual a muitos outros estudos, o relato do teste lamentavel-
mento rotineiro de sistemas de recuperao (Lancaster, 1968a), aliado a um mente inadequado. No h informaes sobre como foram feitas as avaliaes
relato muito impreciso, suscita srias dvidas quanto validade dessa compara- de relevncia nem sobre como as buscas foram realizadas, de modo que o leitor
o. Os valores de preciso excepcionalmente altos explicam-se, porm, parcial- no sabe se foi feito algum eSforo para 'controlar' as estratgias de busca, a
mente, pelo fato de que o arquivo de teste de descries de projetos era realmente flm de evitar o favorecimento de uma das modalidades de busca. Os escores
uma fuso de quatro arquivos de teste separados sobre reas temticas com- insolitamente elevados (93% de revocao e 71% de preciso para texto livre, e
pletamente diferentes. 76% de revocao e 95% de preciso para termos controlados) lanam dvida
Um estudo suplementar nessa base de dados foi realizado pelo Biological sobre a validade desse estudo.
Sciences Communication Project, da George Washington University, utilizando Diversos estudos foram realizados no campo do direito. Coco ( 1984) utilizou
12 questes do SIE. As buscas nos cdigos de assuntos recuperaram 91 projetos, uma base de dados sobre casos em tribunais itinerantes (1960-1969) e 50
74 dos quais foram considerados relevantes (preciso de 81 %), enquanto as 'problemas de pesquisa' verdadeiros extrados de um estudo de 1977 do Federal
buscas em texto recuperaram 70, dos quais 43 foram considerados relevantes Judicial Center, a fim de comparar a recuperao nos sistemas WESTLAW e LEXIS.
(preciso de 61%). Combinando-se os resultados das buscas em texto livre e O LEXIS inclui somente o texto dos pareceres vinculados a esses casos, enquanto
com cdigos de assuntos, conclui-se que a revocao foi de cerca de 50% para o WESTLAW acrescenta 'componentes editoriais' ao texto dos pareceres, inclusive
texto e 90% para indexao de assuntos, porm alguns itens s foram recuperados vrias formas de sinopses. O objetivo declarado desse estudo era comparar os
por cada uma das modalidades de busca. resultados de buscas baseadas somente no texto com os alcanados com o texto
Byrne (1975) utilizou 50 perfis de DSI na base de dados COMPENDEX e compa- mais acrscimos editoriais. Como as buscas no WESTLAW foram executadas com
268 INDEXAO E RESUMOS: TEORIA E PRTICA ]4. BUSCAS EM TEXTOS 269

e sem os acrscimos editoriais, a comparao com o LEXIS tornou-se totalmente e indexao controlada foi empreendido por Tenopir (1984). Utilizando a Har-
desnecessria e s serviu para confundir o leitor. De qualquer modo, a compara- vard Business Review em linha, Tenopir obteve os seguintes resultados, divididos
o entre LEXIS e WESTLA w no poderia ser considerada inteiramente vlida proporcionalmente entre 31. buscas:
porque as bases de dados no eram exatamente comparveis. Como diz Coco, Texto Resumos Termos
"os sistemas continham aproximadamente [grifo meu] o mesmo nmero de casos completo controlados
para esse perodo". Alm disso, no houve qualquer esforo sistemtico para Nmero de documentos recuperados (mdia) 17,8 2,4 3, I
determinar se os casos recuperados eram ou no de alguma forma relevantes Documentos relevantes recuperados (mdia) 3,5 1,0 1,2
Revocao (relativa fuso de todos os mtodos) 73,9 19,3 28,0
para os problemas de pesquisa. Preciso 13,0 35,6 34,0
Se o nico exemplo apresentado por Coco for representativo de todos os Custo por busca (em us$) 20,57 4,95 5,32
itens da base de dados, o texto ampliado do WESTLAW quase duas vezes o Custo por item relevante recuperado (em USS) 7,86 3,89 3,54
tamanho do texto do parecer sozinho. No de estranhar, portanto, que tenha As cifras de Tenopir relativas a custos no podem ser levadas muito a srio, pois
recuperado mais casos (913 contra 728, embora no se saiba quantos mais eram ela incluiu os custos da aquisio de cpias completas dos documentos para a
'relevantes'). De fato, seria razovel supor que o dobro da extenso de texto realizao dos julgamentos de relevncia, enquanto na vida real isso raramente
causaria um aumento superior a 20% do nmero de casos recuperados. O fato aconteceria (isto , os usurios fariam seus julgamentos com base nos ttulos e/
de isso no ter ocorrido deve ser em parte atribufvel coincidncia de tennos ou resumos mostrados em linha). Talvez o resultado mais importante da pesquisa
entre o texto e os acrscimos editoriais. Os resultados do estudo eram totalmente de Tenopir seja ter verificado que as buscas em termos controlados recuperaram
previsveis desde o incio, e seria dispensvel esse tipo de pesquisa para nos alguns itens que no foram recuperados com texto completo, e vice-versa, de-
dizer que dobrando o tamanho do texto crescer o nmero de itens recuperados. monstrando a necessidade de ambos os mtodos.
Blair e Maron (1985) realizaram um estudo bastante extenso sobre uma Posteriormente, Ro (1988) realizou estudo dando seguimento pesquisa
base de dados jurdicos, que utilizava o sistema STAIRS (cerca de 350 000 pginas sobre a base de dados da Harvard Business Review, o qual produziu resultados
de texto, ou 40 000 documentos, e 40 pedidos de informao). Auxiliares advo- semelhantes aos alcanados por Tenopir.
catcios realizaram buscas exaustivas, iterativas, em linJ1a, e s as interromperam Sievert et ai. (1992) descobriu, o que no foi surpresa, que buscas numa
quando os advogados para quem trabalhavam se consideraram satisfeitos, pois base de dados que continha o texto integral de mtigos de revistas mdicas obti-
pelo menos 75% das referncias relevantes haviam sido recuperadas. Por nham melhor revocao do que buscas na base MEDLINE, embora as buscas em
amostragem, no entanto, os pesquisadores calcularam que se alcanara no mais texto completo resultassem em muito menor preciso. Em artigo anterior, contu-
de 20% de revocao. Concluem que os resultados de seu estudo lanam sria do, chamaram a ateno para os problemas das buscas em texto completo ao
dvida sobre a eficcia das buscas em texto completo e, com base em algumas analisar os motivos de no-recuperao, na base de dados de textos completos,
anlises de custos muito duvidosas, que as buscas em texto completo so muito de itens relevantes recuperados no MEDLINE (Sievert e lvlcKinin, 1989)
mais caras do que os mtodos alternativos. Esquecem por completo o fato de Os melhoramentos que a utilizao de termos do texto, alm dos termos
que grandes sistemas que empregam vocabulrio controlado talvez no alcancem controlados, introduz na revocao foram demonstrados por diversos pesquisa-
um desempenho melhor. Por exemplo, um estudo de 535 buscas no MEDLINE, dores, inclusive McCain et ai. ( 1987), que compararam os resultados de buscas
realizadas por 191 pessoas diferentes, mostrou que elas apresentaram uma em cinco bases de dados sobre 11 tpicos das cincias mdicas comporta mentais.
revocao mdia de apenas 23% e uma preciso de 67% (Wanger et ai., 1980). Vrios outros estudos relataram os resultados de buscas em texto completo
Dabney ( 1986a), embora tomando por base em grande parte os resultados de ou parcial, mas sem fazer comparaes com buscas com termos controlados.
Blair e Niaron, oferece um excelente estudo dos problemas da recuperao em Alguns desses estudos envolveram sistemas (semelhantes de algum modo ao
texto completo no campo jurdico. Respostas de McDennott ( 1986) e de Runde SMART) que adotam mtodos probabilsticos eloulingliisticos de ordenao dos
e Lindberg (1986) a Dabney, bem como um comentrio com aditamentos de documentos, ou pargrafos deles, com base em sua similaridade com enuncia-
Dabney (1986b), tambm merecem ser examinados. Salton (1986) produziu dos de pedidos ou estratgias de busca. Por exemplo, Bernstein e Williamson
uma minuciosa reviso do estudo de Blair e Maron. Ele discorda enfaticamente (1984) avaliam esses mtodos aplicados Hepatitis Knowledge Base [Base de
da concluso deles segundo a qual bases de dados indexadas por seres humanos Conhecimentos sobre Hepatite], e Tong et ai. (1985) avaliam tcnicas de
provavelmente tero melhor desempenho do que as buscas em textos. inteligncia artificial aplicadas recuperao em texto completo numa base de
Um dos melhores estudos em que se compara o texto completo com resumos dados de noticias.
270 INDEXAO E RESUMOS: TEORIA E PRTICA J4. BUSCAS EM TEXTOS
271.

. Fidel ( 1992) sugere quais os fatores que favorecero as buscas com vocabu]. obter alta revocao com nvel aceitvel de preciso. H, porm, indcios (Wanger
.
no controlado e os que favorecero as buscas em textos. Num estudo de 28I et ai., 1980) de que isso tambm verdadeiro no caso de. gr.andes srster~as
buscas reais efetuadas por 47 especialistas treinados, ela identificou vrios fatores baseados em vocabulrios controlados, no sendo uma pecuhandade exclusrva
que afetam a escolha de termos controlados versus palavras do texto feita por das buscas em texto livre.
quem faz a busca. Ela constatou que existe mais confiana no texto em algumas importante reconhecer a diferena entre as expresses texto livre e texto
reas temticas do que em outras (embora isso possa estar menos relacionado s completo. As concluses alcanadas como resultados de estudos sobre bases de
.
caractersticas do assunto ou sua linguagem do que qualidade dos vocabulrios dados de texto completo no se transferem automaticamente para bases de dados
controlados usados em vrias bases de dados~especialmente sua especificidade que contenham algo menor do que o texto comple,to (por exemplo, r~sumos).
- e qualidade da indexao com vocabulrio controlado). Nas bases de texto completo o problema de escala e agravado. Quer d1zer, com
Com a finalidade de meU10rar os resultados das buscas, alguns pesquisadores uma base de texto completo muito grande ser ainda mais difcil alcanar revo
estudaram os efeitos da segmentao de um texto em unidades menores, numa cao aceitvel com preciso tolervel. O texto completo proporcionar maior
tentativa de melhorar a preciso das buscas s~m srios prejuzos para a revocao. revocao, porm menor preciso do que uma base de dados que contenha algo
Williams ( 1998) distingue entre segmentao do discurso (baseado em ll"ases menor do que o texto completo. Isto foi claramente demonstrado porTenopir (1984).
pargrafos, sees) e segmentao em janelas (diviso do texto em pedaos d~ lamentvel que a maioria dos estudos que se propem a comparar o
tamanho arbitrrio). \Villiams testou a recuperao (coeficientes de revocao e desempenho na recuperao entre texto livre e um conjunto de termos de inde-
preciso) para pargrafos, pginas, trs diferentes janelas (250, 500 e l 000 xao selecionados de um vocabulrio controlado no cumpra isso.Ao con~rio,
palavras) e trs janelas superpostas de 250, 500 e l 000 palavras.A superposio eles comparam o desempenho na recuperao de registros de extenso vanvel.
arbitrria foi planejada para evitar a separao de textos afins que, do contrrio, Uma comparao vlida entre termos controlados versus texto livre de per si
ocorreria com a segmentao arbitrria. Williams constatou que a janela teria de manter constante a extenso dos registros (por exemplo, todos os tpicos
superposta de 500 palavras parecia oferecer o melhor resultado global quando mencionados num resumo teriam de ser traduzidos, at onde fosse possvel,
medido pela revocao e preciso. Ele conclui que esse tipo de segmentao para termos controlados equivalentes), bem como a estratgia de busca (isto ,
pode melhorar substancialmente a preciso com uma queda moderada da uma estratgia 'conceitual' teria de ser criada e em seguida traduzida exatamente
revocao. \Villiams refere-se a essa abordagem como 'indexao de passagem para: a] expresses do texto, e b] termos selecionados do vocabulrio controlado).
de nveP. No fica claro como essa abordagem representa melhoria em compara- Isso parece que nunca foi feito desde os estudos em Cranfield. Tenopir controlo_u
o com as buscas por proximidade de palavras, que era empregada em buscas suas estratgias de busca, mas, como estava utilizando uma base de dados J
em textos 40 anos antes. existente, no pde controlar a extenso do registro. Conseqentemente, suas
A reviso da literatura aqui ilwluda concentrou-se em estudos que comparam concluses dizem respeito muito mais extenso do registro do que controvrsia
o desempenho de bases de dados de texto livre com o de bases de dados em que sobre linouagem naturaVvocabulrio controlado.
se adota a indexao por meio de vocabulrios controlados e quando as buscas Tambbm lamentvel o fato de a bibliografia ainda trazer afirmativas dis-
so feitas com o emprego de combinaes booleanas de termos. Embora outros paratadas, baseadas em indcios casusticos, de defensores de ambos os camp?s,
tipos de estudo tenham sido mencionados, no se procurou fazer uma reviso de que se recusam a aceitar o fato de que a linguagem natural e os vocabulnos
toda a literatura sobre buscas em texto e que empregam mtodos no-booleanos. controlados tm ambos suas respectivas vantagens. Para um bom exemplo ver
Esta reviso deixa evidente que o imoderado entusiasmo inicial pelas buscas Fugmann ( 1987).
em linguagem natural sofreu um abrandamento com o passar dos anos medida Um exame ~1eticuloso da bibliografia includa nesta reviso no me outorga
que se identificavam com maior clareza os problemas que implicava. Alguns razo alguma para modificar minhas opinies originais sobre os prs e contras
dos primeiros estudos baseavam.se em bases de dados de cunho experimental dos dois mtodos, conforme se acham resumidas na figura 104. O fato que
que eram insignificantemente diminutas. Considerando que se pode tolerar uma cada um deles tem suas vantagens e desvantagens. Os registros em texto livre
preciso muito baixa quando se recupera apenas um punhado de itens, possvel costumam ser mais extensos e, por isso, proporcionam mais pontos de acesso;
conseguir um nvel aceitvel de revocao. Esta situao se altera substancial- freqUentemente incluiro alguns termos mais especficos ou mais atualizados
mente quando se passa para bases de dados que contm centenas de milhares de do que aqueles existentes em qualquer vocabulrio controlado e, comumente,
itens. Ento, por causa do nmero de itens recuperados ('sobrecarga de sada'), proporcionaro maior redundncia. O vocabulrio controlado, por outro lado,
j no so mais aceitveis baixos nveis de preciso, sendo analogamente difcil impe coerncia na representao do contedo temtico dos documentos, dispe
272 INDEXAO E RESUMOS: TEORIA E PRTICA 14. BUSCAS EM TEXTOS 273
dos termos 'conceituais' genricos que amide no se encontram no texto, e, arquitetura. Igualmente, a palavra-chave assalto, associada ao cdigo geogrfico
por meio de uma estrutura hierrquica e remissivas, oferece ao usurio uma aju~ relativo ao Iraque, indica uma operao de guerra; por outro lado, quando
da positiva na identificao de termos de busca que sejam apropriados. coordenada com o cdigo geogrfico relativo a uma metrpole onde a crimina-
lidade seja alta, mais provvel que signifique roubo. Alm disso, o emprego
Siste1~1as hbridos conjunto de cdigos de assuntos genricos, cdigos geogrficos e palavras-chave
Praticamente todos os autores que escreveram a respeito de buscas em texto extremamente eficaz para esclarecer relaes, mesmo quando essas relaes
livre, inclusive Henzler (1978), Perez ( 1982) e Muddamalle ( 1998), bem como no se acham especificadas explicitamente. Muitas das bases de dados atualmente
a maioria dos autores j citados, chegaram concluso, j esperada, de que 0 acessveis em linha podem ser consultadas com o emprego de combinaes de
sistema de recuperao ideal incluir uma pmie de termos controlados, bem termos controlados e palavras~chave ou expresses que ocorrem nos ttulos ou
como uma patie de texto livre. So bvias as vantagens desses sistemas hbridos, nos resumos, sendo que os ltimos permitem maior especificidade.
descritos e exemplificados h muitos anos por Holst (1966), Uhlmmm {1967 e
Lancaster (1972). A utilidade do mtodo hbrido apoiada pelo fato de que, na O vocabulrio ps-controlado
maioria dos estudos realizados, as buscas em texto livre recuperaram alguns Diversos autores salientaram que as buscas em linguagem natural melhoram
itens relevantes que no foram identificados por buscas com vocabulrio consideravelmente mediante a elaborao e utilizao de vrias formas de ins~
controlado, e vice~ versa.
trumentos auxiliares de busca. Piternick (1984) descreveu alguns desses ins-
O termo hbrido empregado para designar qualquer sistema que funcione trumentos auxiliares. Deles, o mais evidente seria um 'tesauro de buscas' ou
com uma combinao de termos controlados e linguagem natural, inclusive 'vocabulrio ps-controlado' imaginado por Lancaster (1972), Lancaster et ai.
aqueles em que ambos os conjuntos de termos so atribudos por indexadores (1972), e, mais detidamente, por Lancaster {1986).
humanos e aqueles em que uma base de dados pode ser consultada mediante O primeiro sistema desenvolvido para fazer buscas em grandes colees de
uma combinao de termos controlados atribufdos por seres humanos e palavras textos jurdicos (em Pittsburgh) utilizava uma espcie de tesauro para ajudar no
que ocorram nos ttulos, resumos ou texto completo. processo de buscas. Tratava-se, simplesmente, de uma compilao de palavras
Vejamos, por exemplo, um sistema baseado em trs componentes vocabulares com significados semelhantes, parecendo-se mais com o Roget's thesaurus do
independentes:
que com a estrutura de tesa mo comumente usado na recuperao da informao.
I. um pequeno vocabulrio de cdigos de assuntos genricos, com um total lvlesmo sem contar com uma 'eshutura' que se revestisse de alguma impm1ncia,
talvez de 300 cdigos; esse tesauro era um instrumento auxiliar extremamente til durante as buscas;
2. uma lista de cdigos que representem reas geogrficas; e como palavras de significado similar so potencialmente substituveis durante
3. palavras-chave ou expresses que ocorram nos ttulos ou textos dos documentos. uma busca, esse instrumento poupa a quem faz as buscas o esforo de imaginar
A indexao com esses elementos vocabulares representaria uma economia todas as palavras capazes de expressar determinada idia. O investimento na
importante em relao indexao que empregue um grande vocabulrio elaborao de um instrumento auxiliar como esse resulta em importante economia
meticulosamente controlado, por dois motivos: num sistema onde haja um grande nmero de buscas. Esse tipo simplificado de
I. Os cdigos de assuntos seriam suficientemente genricos para serem atribudos sem tesauro uma espcie de vocabulrio controlado, em que o controle feito na
muita dificuldade por um indexador que no dispusesse de um alto nvel de fonnao sada e no na entrada do sistema. um vocabulrio ps-controlado.
educacional ou especializao num assunto. Um exemplo esclarecer ainda mais sobre as propriedades do vOcabulrio
2. O nmero de cdigos (temticos e geogrficos) suficientemente reduzido para que ps~controlado. Imaginemos uma base de dados sobre negcios pblicos inde~
o indexador retenha a maioria deles na memria e dispense a consulta constante a xada com um tesauro que inclui o termo companhias de aviao, o que permite
uma lista de um vocabulrio.
fazer uma busca genrica sobre este assunto. No possvel, po1m, restringir
Embora qualquer um dos elementos do vocabulrio, isoladamente, seja relati- uma busca a determinada companhia de aviao, pois os nomes especficos das
vamente imperfeito, o emprego conjunto de uma palavra-chave (para obter espe- empresas no fazem pm1e do tesauro. Assim, seria impossvel restringir uma
cificidade) e um cdigo temtico ou geogrfico (para obter o contexto) constitui busca a um tema especfico como 'situao financeira da Varig'; o melhor que
dispositivo extremamente poderoso. Por exemplo, a palavra-chave plantas pode se pode fazer recuperar tudo sobre a situao financeira de companhias de
significar algo inteiramente diferente ao ser combinada com um cdigo temtico aviao. A busca genrica costuma ser fcil no caso de vocabulrio pr-
relativo agricultura ou ao ser combinada com um cdigo semntico relativo controlado, mas certas buscas altamente especficas so praticamente impossveis.
275
274 INDEXAO E RESUMOS: TEORIA E PRTICA 14. BUSCAS EM TEXTOS

necessrios realizao de buscas numa variedade de bases de dados das cincias


Em comparao, vejamos uma base de dados alternativa sobre negcios p-
sociais e comportamentais. Na figura 105 est um exemplo de uma dessas tabelas.
blicos que dispensa indexao, mas permite buscas nos ttulos e resumos. Nesta
a recuperao de itens sobre a Varig ou a Swissair provavelmente seria fcil:
Tl POVERTY AREAS
I'vfais difcil seria uma busca genrica sobre companhias de aviao. Para fazer ER POVERTYAREAS+/
uma busca exaustiva, seria preciso recorrer a algo mais do que o termo compa- ME POVERTY-AREAS*.
nhias de aviao, utilizando certos sinnimos, como empresas de transporte PS POVERTYAREAS. CONSIDER ALSO: GHETTOS.

areo e os nomes de empresas especficas. A estratgia de busca ficaria assim SO CONSIOER: SLUM. GHETTO. APPALACHIA.
EN SLUMS.
'companhias de aviao ou empresas de transporte areo ou Varig ou Swissair FT POVERTY AREAS. SKID ROW. 80\VERY. SLW\1. JNNER CJTY. POOR NEIGHBORHOOOS.
ou Lufthansa ou ... ' - talvez uma lista muito extensa. O que a pessoa que faz a i\l!LIEU OF POVERTY. DEPRESSED AREAS. SLUMS. GHETTOS. GHETTO. GHETTOES.
busca est fazendo criar parte de um tesauro ps-controlado. Lamentavelmente, APPALACHIA. LO\V JNCOI\IE AREAS. GHETTOIZATION. STREET CORNER DISTRICT. ETHNIC
NEJGHBORHOOD. BLACK NEIGHBORHOOD. BLACK COMMUNITY. SEGREGATED
nos servios de informao atuais, essas entradas de tesauro so raramente retidas
NEiGHBORHOOD. DISADVANTAGED AREA. BLACK SCHOOL DISTRICTS. l.._.UNORITY
e armazenadas depois de terem sido criadas e utilizadas. Numa grande rede, h NE!GHBORHOOD. REOLINED AREAS. REDLINJNG.
muita duplicao de esforos. Companhias de aviao pode aparecer como fa-
ceta de muitas buscas realizadas durante um ano, e o trabalho de elaborar estra- FIGURA 105
tgias de busca de diferentes graus de completeza ser repetido continuamente. Exemplo de entrada da base de dados TERtvt
Seria muito mais sensato armazenar isso em forma recupervel para uso futuro.
Um verdadeiro vocabulrio ps-controlado consiste em tabelas com nomes O titulo (TI) da tabela POVERTY AREAS [reas de pobreza]. Este termo
e nmeros de identificao que podem ser chamados e consultados pelos usurios utilizado para recuperar itens sobre este tpico no ERIC (ER), nas bases de dados
de bases de dados em linguagem natural que faam pat1e de alguma rede em indexadas com o Medicai subject headings (ME), e na base de dados PsyciNFO
linha. Assim, a pessoa que faz a busca recuperaria a entrada 'companhias de (PS), na qual um termo afim GHETTOS [guetos]. No Sociolog~cal Abstracts
aviao', a entrada 'questes financeiras', etc. As tabelas so mostradas em (so), possveis termos so SLUM [favela], GHETTO e APPALACHIA, enquanto um
linha e os termos selecionados a pat1ir delas. Altemativamente, a tabela inteira termo ERIC (EN) mais especfico SLUMS. Finalmente, apresenta-se uma hsta
pode ser incorporada numa estratgia de busca mediante seus nmeros de detalhada de termos afins em texto livre (FT), teis para uma busca sobre este
identificao. Essas tabelas no precisam se limitar a palavras, podendo incor- assunto e1nqualquer base de dados em lngua inglesa. Era possvel desenvolver
porar fragmentos de palavras. Assim, uma tabela de cirurgia teria o seguinte uma estratgia na base TERM, a qual seria salva e executada nas bases .de dad?s
aspecto: 'cirurg ... , opera ... , secion ... , ... seo, ... otomia, ... ectomia, ... plastia', bibliogrficos posteriormente. Esta base de dados, infelizmente, no exrst.e mats.
etc. Tambm possvel inserir no vocabulrio uma estrutura mnima por meio No entanto, seu desenvolvedor publicou uma verso impressa exaustiva das
de remissivas de tabelas afins. expresses em texto livre (no os termos controlados). Ela pode ser vista como
Um sistema baseado em vocabulrio ps-controlado oferece todas as um tesauro destinado a buscas em textos (Knapp, 1993).
vantagens da linguagem natural e muitos dos atributos do vocabulrio pr- Um vocabulrio ps-controlado em determinado campo de especializao
controlado. Um sistema como esse poder ter um desempenho melhor do que elaborado pelo esforo intelectual de sres humanos, exatamente da m~sm~ forma
outro baseado num vocabulrio pr-controlado. Voltando a um exemplo anterior, de um tesauro convencional. Essa tarefa pode ser extremamente stmphficada
seria possfvel realizar buscas, com facilidade, sobre companhias de aviao mediante o processamento por computador das palavras que ocorram em bases
especficas, ou utilizar a tabela de 'compan.hias de aviao' para formar a classe de dados relevantes, de modo a dar origem a vrios nveis de 'associao esta-
definida por 'companhias de aviao' no tesauro convencional. Uma das vanta- tstica'. Talvez, no entanto, fosse mais sensato recolher e organizar os' fragmentos
gens da linguagem natural ser independente da base de dados. Assim, uma de busca' efetivamente introduzidos pelos usurios de alguns sistemas em linha
tabela de 'companhias de aviao' seria aplicvel igualmente a todas as bases (um candidato a isso seria qualquer lista de termos alimentad?s nun~~ rela.o
de dados no vernculo. possvel imaginar um tesauro em linguagem natural do tipo ou), produzindo assim uma espcie do 'tesauro em crescunento nnagma-
aplicvel a vrias centenas de bases de dados. do por Reisner ( 1966), porm sendo-lhe imposto posteriormente algum controle
Um bom exemplo de vocablrio ps-controlado foi a base de dados TERM
implementada pelo Bibliographic Retrieval Services (BRS) e descrita por Knapp
(1983 ). TERM era uma base de dados formada por tabelas que representavam *Regio montanhosa pobre dos EUA, que tem como centro o estado da Virgfnia Ocidental. (l\.T.)
conceitos, incluindo tanto termos controlados quanto termos em texto livre
276 INDEXAO E RESUMOS: TEORIA E PRTICA
14. BUSCAS EM TEXTOS 277
editorial. iVIais recentemente, Besser (1997) analisou a importncia de tennos
atribudos pelos usurios em futuras aplicaes de recuperao. Paradoxalmente, a mera quantidade de textos disponveis para processamento
hoje em dia coloca desafios notveis, mas tambm oferece solues potenciais
Outra abordagem possvel consiste em construir um tesauro automaticamente
com base em relaes semnticas encontradas em dicionrios que existam em que no estavam disponveis h 30 anos para os pesquisadores. ~or ex~mplo,
lxicos de radicais ou de significados de palavras podem conter mmtos milhares
formato eletrnico (Fox et ai., 1988; Ahlswede et ai., 1988). Anderson e Rowley
de entradas ao invs de umas poucas centenas (Jacobs e Rau, 1994) e possvel
(1992) descrevem um mtodo de construo de 'tesamus do usurio final' a
pmtir de textos completos. utilizar associaes (co-ocorrncias) dy palavras em significativos corpos de
textos com a finalidade de reconhecer expresses importantes ou desambiguar
palavras, preliminarmente ao processamento lingUstico mais complexo de anlise
Abordagens atuais
sinttica (Wilks et ai., 1992; Haas, 1996). A fieqncia de palavras pode tambm
A dcada de 1960 assistiu ao comeo de uma quantidade incrvel de projetos ser usada para atribuir texto a vrias categorias (Jacobs, 1992b).
de pesquisa sobre a utilizao de computadores no tratamento de textos. Havia Ademais, pode-se empregar a 'filtragem estatstica', baseada na co-ocorrncia
vrias razes para essa exploso de atividades: as instituies de pesquisa (e os de determinadas palavras ou radicais, para selecionar aquelas frases que paream
pesquisadores) tinham em mos recursos instalados de computao que eram mais provveis de ser 'relevantes' para determinada exigncia e, assim, a melhor
caros e para eles buscavam utilidade, havia disponibilidade de financiamento candidata para uma anlise mais refinada (Wilks et ai., 1992).
generoso das pesquisas, procedente de muitas fontes governamentais, e o Charniak (1995) chamou ateno para a possibilidade de obter 90% de exati-
processamento de textos era amplamente considerado como uma tarefh bastante do ao atribuir uma 'etiqueta' morfolgica fpart-ofspeech 'tag '] a uma palavra
simples para computadores vistos como 'poderosos' (normalmente, o que era simplesmente com base no caso mais provvel (que ocorra com maior freqncia)
tido como maior obstculo era a obteno de uma quantidade significativa de e essa exatido aumentar em at 95-96% mediante simples verificaes de con-
texto em formato eletrnico).
texto (isto , procura em palavras adjacentes). Exemplo do mtodo da desam-
Embora a naduo mecnica fosse o principal objetivo de grande pm1e dessas biguao baseada no corpus encontra-se em Leacock et ai. (1993). Addison ( 1991)
pesquisas, tambm estavam sendo investigadas vrias abordagens para a esh1da o uso desambiguador do contexto num sistema de recuperao de textos.
recuperao da informao. Os projetos mais ambiciosos no campo da recupe- Stanfill e Waltz (1992) comparam abordagens atuais mais modernas (que,
rao da informao procuravam desenvolver sistemas de 'perguntas e respostas' segundo afirmam, incorporam tcnicas de inteligncia m1ificial (IA)) com as de
ou 'recuperao de fatos'~ isto , sistemas capazes de responder diretamente anos anteriores, como se segue:
uma consulta do usurio ao invs de recuperar um texto que poderia ou no
conter a resposta, ou, mais comumente, uma referncia desse texto. A IA da fonna como foi formulada no passado est agnica, se que ainda no mor-
reu; uma nova IA est tomando seu lugar. A antiga IA baseava-se em regras e lgica.
Naturalmente, os problemas resultaram muito maiores do que fora antecipado,
A nova lA baseia-se na estatstica, porm, no a estatstica como era formulada no
pm1iculannente na rea da traduo mecnica, e logo o interesse pelo processa-
passado. A prtica da prpria estatstica passa por substancial transformao (p. 215)
mento de textos comeou a minguar na comunidade de pesquisa, bem como nas
agncias de financiamento, embora alguns projetos melhores hajam resistido e, e Jacobs (1992a) salienta que as abordagens de hoje em dia extraem "mais fora
com os anos, revelado notvel avano e oferecido resultados promissores. da enorme quantidade de textos armazenados do que de regras artesanais".
A amplitude das pesquisas sobre processamento de textos hoje em dia lembra As abordagens atuais do processamento de texto podem ser consideradas
as atividades da dcada de 1960 (ver Jacobs (1992a) e Pereira e Grosz (1994) 'inteligentes' na medida em que os computadores possam vir a 'compreender' o
onde se encontram boas snteses dos trabalhos desenvolvidos na dcada de 1990). texto.* 'Compreender' significa aqui ser capaz de ,interpretar o significado de
Este aumento de interesse e atividade tem origem no fato de que agora se encon- uma frase, sem ambigidade. Normalmente, isso requer alguma forma de anli-
tram enormes quantidades de texto disponveis em formato eletrnico, de que a se sinttica. A anlise sinttica procura identificar o papel de uma palavra numa
capacidade de processamento muito maior e custa muito menos, e de que hoje frase (por exemplo, substantivo ou verbo), reconhecer os diferentes elementos
existem necessidades sentidas de aplicaes viveis de processamento de textos estruturais (orao substantiva, orao verbal, orao prepositiva, e assim por
nos setores pblico e privado (por exemplo, disseminao eficiente de infor- diante), e assim determinar as diversas funes dentro de uma frase (por exem-
maes na Rede e as exigncias de multilingUismo compulsrio da Comunidade plo, sujeito, predicativo do sujeito, objeto, predicativo do objeto).
Europia). As pesquisas atuais procuram desenvolver 'sistemas inteligentes
baseados em textos'. "' Embora a palavra 'inteligente' possa ser tambm atribuda ao processo, se ele realizar uma tarefa
para cuja execuo os seres humanos precisariam de inteligncia.
279
14. BUSCAS EM TEXTOS
278 INDEXAO E RESUMOS: TEORIA E PRTiCA
As buscas em textos baseiamse, em geral, em textos e1:1 formato ~letrn.ico
O processamento inteligente de textos vem sendo utilizado, experimental ou dos a partir do teclado de um computador ou convet1Jdos do founato m~
operacionalmente, em vrias aplicaes, inclusive categorizao de textos, ex- c~~~so p'or meio de leitoras de caracteres pticos (embora possam tan~bm d~rt
trao de textos, sumarizao e ampliao [augmentation], gerao de textos, e ~ar de entrada falada, como vimos no captulo 13). Algm~as pesqmsa~ fma~
recuperao otimizada da informao [enhanced information retrieva!], bem feitas sobre buscas e recuperao de documentos manuscntos (~er, P~l exen-
como traduo mecnica.* pio, Perrone et al., 2002), embora no haja clareza sobre quats senam suas
O propsito de aplicar mtodos mais complexos de processamento da lin-
aplicaes potenciais.
guagem natural (PLN] s buscas em texto completo foi explicado por Snzalkowski
et ai. ( !999) da seguinte forma: O que foi concretizado?
a principal motivao deste projeto foi demonstrar que um PLN robusto, ainda que Embora as revistas profissionais populares continuem ~ fazer afinnativas
relativamente superficial, pode <Uudar a extrair uma melhor representao de docu- bastante entusisticas os autores srios so muito mais reahstas acerca do ~ue
mentos textuais para fins de indexao e busca do que quaisquer mtodos baseados -~ f~i conquistado e1; matria de processamento automtico de textos. Kmght
em palavras simples ou seqncias de palavras comumente adotados em recupera. J(1999), por exemplo, nos d"IZ que:
o estatstica em texto completo. Isso se baseou na premissa de que o processamento
lingUstico pode descobrir certos aspectos semnticos do contedo dos documentos, As aplicaes de linguagem natural, como a traduo mecni~a, reconh_e:imet~to ~:
algo que a mera contagem de palavras no pode fazer, levando assim a uma repre fala, recuperao da informao e sumarizao, alcana~ hoJe um_a fatxa ma~~r
sentao mais precisa {p. 113114). usurios. Quem j usou esses produtos sabe quo imperfettos eles sao. Ape~ar . ISSO,
as pessoas os utilizam porque esto ansiosas em busca de solu.es pa:a_OJgan:~ar e
Importante abordagem para lidar com a recuperao de textos, utilizada por pesquisar a enorme quantidade de informaes colocadas sua dJspostao em 111 1a,
vrios grupos de pesquisas que atuam no mbito do TREC, a extrao de
em formato textual (p. 58).
sintagmas [phrase extraction] ~isto , reduzir o texto completo a um conjunto
de sintagmas que tenham significado. Um dos motivos para isso est simples Voorhees ( 1999), que participou dos traball1os das TRECs ~urante vrios anos,
mente no f:1to de que um sintagma pode ser 'significativo' mesmo que as pala afirmou que as abordagens mais complexas da recuperaao da mformao a
vras que o compem no o sejam. Assim 'joint venture' pode ser significativo pat1ir de textos produziram resultados desapontadores:
porque ocorre de modo relativamente in freqUente numa base de dados, embora Atualmente os mtodos de recuperao de uso geral mais bem~sucedidos so os
as palavras componentes ocorram com demasiada fieqUncia para que sejam mtodos es;atisticos que tratam 0 texto como se no passasse de um _saco de pa 1~v~;~
consideradas significativas (Strzalkowski et ai., 1999). Foram adotados muitos [ 1 as tentativas para melhorar o desempenho da recuperaao por met?
mtodos de extrao de sintagmas. Um deles, o mtodo' ncleo+ modificador' ~~~cessamento lingistico mais complexo foram em grande parte malst~ed!~07.
[' head + modifier'l emprega anlise sinttica e subseqente normalizao para, Na realidade, a menos que seja feito com cuidado, esse processamento po e re at-
por exemplo, reconhecer que 'weapon proliferation' e 'pro!iferation ofweapons' xar a eficcia da recuperao {p. 32).
[proliferao de armas] so equivalentes (Strzalkowski et ai., 1999). No entanto, ela de fato sugere que os nveis mais elaborados de process~~nen:o
Grande parte dos trabalhos em curso nesta rea procura reduzir um texto de textos podem ser teis em atividades de perguntas e respostas e summtzaao
completo a uma forma mais breve, mediante algum tipo de extrao ou sumariza. de documentos.
o, visando recuperao da informao. Essas abordagens so tratadas no Strzalkowski et ai. ( 1999) salientam que:
captulo seguinte, que tambm procura avaliar o que elas chegaram a concreti
at 0 emprego das mais rpidas ferramentas de anlise sinttica_est ~orando grave~
zar. Este captulo limitouse s buscas em textos de per si, ao invs dos mtodos mente os limites da praticabilidade de um sistema de recuperaao da mform)ao por
automticos de indexao ou sumarizao, embora essa distino nem sempre causa do aumento da demanda por potncia e armazenamento (p. 117 118
seja fcil de manter, e os captulos 14 e 15 esto intimamente relacionados.
Segundo eles, no passa de modesta a perspectiva de xito de mtodos mais
complexos de processamento de texto:
,;. Em algumas aplicaes de processamento de textos necessrio que o computador possa distin A principal observao a fazer que at agora no se comprovou que o proce~sameiJiltO
guir entre componentes lgicos do documento (por exemplo, titulo, resumo, texto principal, notas _ ehcaz
de linguagem natural fosse tao - quan to se es perava [ Jpara ::. me 1or
' conseomr
de rodap, tabelas, tiguras) e identit1cnr relaes entre eles (como a ordem de leitura). Isso foi dexao e melhores representaes com termos das consultas. O emprego de ter
denominado; de forma um tanto empoladn, 'compreenso do documento' {ver, por exemplo, 111
1
Semeraro et nl., 1994, e Proceedi11gs ofthe Third lntemalional Conference, 1995).
mos ' lingsticos, como expresses, pares de nuc eo---mo d'fi d r nomes ou mesmo
t tca o ,
280 INDEXAO E RESUMOS: TEORIA E PRTICA 14. BUSCAS EM TEXTOS 281
conceitos simples, ajuda de fato a melhorar a preciso da recuperao, mas os ga- termos simples, pode bastar para a desambiguao de sentido, pelo menos no caso
nhos permanecem muito modestos (p. 143). de bases de dados monolnges, embora continue em aberto a questo da necessida-
de de desambiguao explcita em buscas em vrias lfnguas em bases de dados mul-
Posteriormente, Carballo e Strzalkowski (2000) admitiam que:
tilnges. Mesmo quando a discriminao de sentido acrescenta algo ao desempe-
As tcnicas de processamento de linguagem natural (PLN) podem conter um tremen- nho [... ] isso pode ser obtido mais com mtodos estatsticos do que lingUsticos (p. 21 ).
do potencial para superar as impropriedades dos mtodos exclusivamente quantita-
Ao fazer uma reviso das atividades dos grupos TREC at a TREC-6 ( 1997),
tivos de recuperao de informao textual; no entanto, a prova emprica que sus-
tente essas previses foi at agora inadequada, e tm demorado a surgir avaliaes ela (Sparck Jorres, 2000) conclui que "mtodos baseados na estatstica tm desem-
em escala que sejam apropriadas (p. 155). penho to bom quanto quaisquer outros, e que a natureza e o tratamento dado ao
pedido do usurio so, de longe, o fator dominante no desempenho". Os mto-
Blair (2002) sustenta que as alegaes de que houve grande melhoria nos
dos estatsticos incluem ponderao de termos, expresses simples bem como
resultados das TRECs ao longo dos anos talvez sejam muito exageradas. Em palavras simples, expanso da consulta e retroalimentao de relevncia.
particular, ele critica os mtodos TREC para o clculo da revocao (uma abor- Smeaton ( 1999) sugere que o processamento lingUstico, embora necessrio
dagem que adota uma revocao relativa):
para aplicaes que sejam "exatas e precisas, como a traduo mecnica", cons-
O segundo efeito de estimativas de revocao que no so confiveis diz respeito ao titui ferramenta demasiadamente sutil para a recuperao da informao que ele
avano do campo da Recuperao da Informao como disciplina cientfica. Isto , considera "no uma aplicao exata, e a aproximao inerente a seu funcio-
para que avancem as pesquisas sobre recuperao de documentos, temos de conhe- namento devido aos inmeros graus de incetteza presente nos processos envolvidos".
cer, com total preciso, onde nos encontramos agora. Qualquer incerteza importante Alm disso, nveis complexos de processamento da linguagem ainda so
na comparao de tcnicas de recuperao solapa nossa percepo do que realmente caros. Em geral, o processamento automtico de texto requer a preparao bas-
funciona e do que no funciona, o que, por sua vez, nos deixa sem qualquer motivo
tante extensa de um programa de computador. Isto , o programa processa o
lgico para escolher uma tcnica e no outra. Atualmente, a maior parte das tcnicas
de recuperao automatizada usadas pelos pesquisadores associados s TRECs fun- texto para fazer o que lhe solicitado, e a sada vista e corrigida por pessoas>
ciona exatamente no mesmo nvel modesto de revocao e preciso. Um dos resul- o que leva a alteraes do programa. Esse processo iterativo de ensaio e erro
tados esperados de estimativas mais exatas de revocao seria o descobrimento de continua at o programa obter resultados 'satisfatrios'. Knight (1999) chamou
diferenas maiores no desempenho dos sistemas. Ento, deveramos realmente co- ateno para o volume de processamento exigido para preparar um programa
mear a construir sobre os sucessos de algumas tcnicas e evitar a perda de mais que execute uma tarefa que seres humanos inteligentes executam facilmente.
tempo com outras que so infrutiferas (p. 449). Por exemplo, retirados de um texto os m1igos definidos e indefinidos, seria pos-
Saracevic et ai. (2003) e Sparck Jones (2003) refutaram algumas crticas de svel escrever um programa capaz de substitu-los. No entanto, Knight afirma
Blair, afirmando (por exemplo)"que a avaliao feita sob condies cuidadosa- que para conseguir um desempenho apenas 'razoavelmente bom' seria preciso
mente controladas, baseada em colees de teste, essencial para fazer avanar o processamento de 20 milhes de palavras de texto em ingls. E acrescenta:
a compreenso dos fenmenos ligados recuperao; que os resultados desses A anlise sinttica de um texto sem limitaes tarefa excessivamente ditlcil, devi
experimentos podem ser transpostos para servios de recuperao reais; que do s ambigidades em partes da tla (substantivo, verbo, etc.) e da estrutura[ ... ]
no preciso uma medida de revocao absoluta para comparaes controladas Mas, apesar de haver algoritmos de aprendizagem promissores, ningum conseguiu
do desempenho de diferentes processos de busca; e que, no ambiente controla- ainda extrair de bases de textos sem tratamento elernentos [parses] sintticos que
do das pesquisas TREC, possvel documentar melhorias impmtantes no desem- tivessem alguma exatido (p. 5961 ).
penho da recuperao medida que se aperfeioam os processos de busca. Embora o processamento mais complexo da linguagem possa no ser neces-
Alhures, Sparck Jones afirmou coerentemente que os mtodos mais com-
srio na recuperao de textos, pode s-lo em aplicaes mais exigentes, como
plexos de processamento lingstico so difceis de justificar em aplicaes vol-
a de perguntas e respostas.
tadas para a recuperao. Depois de passar em revista o estado atual do proces-
samento lingstico de textos com a finalidade de rec.uperar informao (ela
Perguntas e respostas
chama iss de 'indexao lingisticamente motivada'), conclui (Sparck Jones,
1999) que no est provada sua superioridade em comparao com a abordagem Em setores muito limitados seria possvel desenvolver sistemas que real-
muito mais simples de combinar palavras do texto numa estratgia de busca: mente respondam perguntas feitas pelo usurio ao invs de simplesmente apon-
tar fontes potenciais onde seriam encontradas as respostas. Sistemas desse tipo
Parece que o efeito de coordenao, otimizado pela redundncia da indexao com seriam particularmente adequados para bases de conhecimento que fossem es-
14. BUSCAS EM TEXTOS
283
282 INDEXAO E RESUMOS: TEORIA E PRTICA

tticas ou que mudassem muito lentamente. Por exemplo, seria possvel desen- calizao de produtos comprados juntos com mais freq~ncia em, sup~n.n~rca
volver uma base de dados de peras, a fim de responder perguntas sobre enre- dos. Embora a minerao possa ser feita para testar uma luptese) e mats uttl de-
dos, cenrios, personagens, compositores, estrias, etc. Embora os estudos so- senvolver algoritmos de minerao que essencialmente sugerem as hipteses.
bre desenvolvimento de sistemas de perguntas e respostas em campos muito Nasukawa e Nagano (2001) definem a minerao de texto como o ~'e,n~on
restritos remontem a muito tempo (por exemplo, Green et ai., 1963), as tecno- tro, 110 texto, de padres e regras teis que indicam tendncias e ~aracter.Istlcas
logias modernas tornam-nos muito mais viveis. Por exemplo, Stock (l993) sionificativas sobre assuntoS especficos". Descrevem um prottipo de sistema
descreve um sistema de hipermdia, o ALFRESCO, com imagens de afiescos ita- p~a minerao de bases de dados textuais em centros de ajuda comerciais [help
lianos do sculo XIV, capaz de responder ampla variedade de perguntas, inclusi- centers] (centros de suporte a client~s), que, segundo afirmam, pode:
ve a identificao de personagens ou objetos presentes em certas pinh1ras. Ou- detectar automaticamente defeitos nos produtos; identificar casos que levar~m ao
tro exemplo encontrado no trabalho de Kupiec (1999). A abordagem ali des- rpido aumento do nmero de chamadas e as razes por trs disso; e .anahsar a
crita pode montar 'texto de resposta' a partir de vrios documentos diferentes. produtividade do centro de ajuda e mudanas no comportamento dos chentes que
Clarke et ai. (200 I) descrevem processos de resposta automtica de pergun- envolvam determinado produto, sem ler nenhum dos textos (p. 697).
tas do tipo fatual por meio da Rede. O mtodo envolve a localizao e extrao A minerao de texto tambm tratada por Knight (1999). . .
de textos que provavelmente contm a resposta, bem como a seleo da respos- Embora Etzioni (1996) afirmasse que a Rede no til em aplicaes de mi-
ta que ocorra com mais freqncia em todos os trechos extrados. nerao (em sua opinio ela demasiadamente 'dinmica e catica'), outros
Uma vertente de perguntas e respostas foi introduzida no grupo TREC em discordam. Pelo menos dois livros sobre minerao na Rede (Chang et ai., 200 I;
1999 (TREC-8). Este trabalho foi analisado por Voorhees (2001). No entanto, Chakrabarti, 2003) foram publicados. O ltimo mais terico do que prtico e
no exigido dos participantes do grupo TREC que extraiam respostas do texto, parece que Chakrabarti est interessado apenas em utilizar a Rede .para anlise
mas que re.cuperem pmtes do texto que provavelmente fornecero a resposta. de redes sociais. No est claro que isso seja 'minerao' no senttdo com que
este vocbulo comumente empregado.

I
Descoberta de conhecimento Em virtude de o descobrimento de conhecimento implicar a extrao de
Imp01tante campo de pesquisa surgido nos ltimos anos refere-se a mtodos informaes, h uma relao prxima entre ele e os processos de extrao de
de extrao, das bases de dados, de conhecimentos imprevistos. A terminologia textos que sero examinados no captulo seguinte.
da rea estranhamente confusa e incoerente. Uma denominao perfeitamente i
razovel e clara 'descoberta de conhecimento'. J 'minerao' amide usada Concluses
como sinnimo de descobe1ta de conhecimento ou, pelo menos, do elemento Sistemas que dispensam o controle convencional de vocabulrio e a indexao
central dessa descobe1ta. *Assim, 'minerao de dados' refere-se ao uso (com o feita por seres humanos podem funcionar, e isso foi comprovado ao longo de
objetivo de descobrir conhecimentos novos) de dados numricos/estatsticos, um perodo de mais de 40 anos. Todavia, apresentam, de fato, problemas quan-
'minerao de textos', ao uso de textos, 'minerajio da fala', ao uso da fala gra- do da realizao de buscas 'conceituais' genricas. Embora a linguagem natural
vada, e 'minerao da Rede', aO uso de recursos da Rede. Qualquer que seja a apresente vantagens explcitas, claro que aperfeioamentos ~~ropriados (uso
denominao, o processo de descobrir conhecimento envolve basicamente a limitado da indexao e/ou desenvolvimento de recursos auxJIJares de busca)
identificao de padres significativos nas fontes que estejam sendo utilizadas. provavelmente melhoraro a eficcia dos sistemas_ de linguagem nan.n~l. Ade-
A minerao de dados em geral revista por Benoit (2000) e a minerao de
textos por Trybula (I 999). O emprego de bases de dados bibliogrficos nades-
coberta de conhecimento tratado por Qin e Noiton (1999), e Munakata (1999)
II mais, uma vez que a internet fez crescer, em mtutas ordens de ma_gmtude, a
quantidade de textos acessveis para pesquisa, tornou-se cada vez mats necess-
rio implementar sistemas que classificaro os itens recuperados segundo uma
organizou uma srie de artigos sobre descoberta de conhecimento. i ordem de 'relevncia provvel' ao invs de simplesmente dividir os 'recupera-
Fayyad e Uthurusamy (2002) organizaram um nmero de peridico dedica- dos' pelos 'no-recuperados' (Maron, !988). No est claro que nveis comple-
do quase totalmente aos mtodos de minerao de dados. A minerao de dados xos de processamento de texto (por exemplo, que en~olvam anlis~ sinttica)
feita para encontrar padres interessantes nos dados. Exemplificam com a lo- sejam necessrios para aplicaes de recuperao da mformao, amda que~
sejam em servios verdadeiramente de perguntas e respostas e algumas das aph-
* Freitas (2002) v a minerao como um componente da descoberta de conhecimento.
Esta lti-
ma denominao inclui o pr-processamento de dados para facilitnr a minerao e o ps caes examinadas no captulo seguinte.
processamento do 'conhecimento descoberto', a fim de valid-lo e ret1n-!o.
}5. iNDEXAO AUTOlvlTlCA, REDAO AUTOr..iTlCA DE RESUMOS
285

arte das atividades de recuperao da informao envolve buscas em textos de


CAPTULO 15 ~tios da Rede, e as pessoas que precisam de informaes fazem elas prprias as
buscas ao invs de deleg-las a outrem.
Este diaorama
D
evidencia os problemas da recuperao da informao. Os .

Indexao automtica, redao automtica textos podem no ser representaes perfeitas das mensagens (et~b~ra.este seja,
definitivamente, um problema de comunicao, normalmente nao e v1sto como
de resumos e processos afins um problema de recuperao da informao) e, conforme vim?s desd~ os captu-
los iniciais, as representaes dos textos tambm podem ser Hnperfett_as. E, por
sinal, os pedidos raramente so representaes perfeitas das necessidades. de
informao e os enunciados de busca podem no ser representaes perfertas
dos pedidos. Alm disso, o referencial ('esquemas') de um solicitante po~e no
U m? imagem muito simplificada do problema da recuperao da informao
f01 apresentada na figura I. Agora, na figura 106, tem-se uma verso mais
complexa. Em essncia, o problema consiste em cotejar necessidades de infor-
coincidir com o referencial de um especialista em informao ou, na realidade,
o referencial dos autores. Considera-se, ento, que o problema d~ recuperao
mao com mensagens. Isso s pode ser feito de modo muito indireto. A maioria da informao consiste essencialmente em procurar cotejar aproximaes. de
das mensagens (aquilo que os autores desejam transmitir) aparece como textos necessidades de informao com aproximaes de mensagens. No de adtmrar
(alguns se apresentam em formato de imagem, de som ou outro formato no- que os resultados nem sempre sejam completamente sat~sfat.rios. _ .
textual), enquanto as necessidades de informao se apresentam como pedidos Como salientou Bates (1986), o problema da recuperaao da mfonnaao mats
formulados a um servio de informao. Este cria representaes dos textos, complexo do que aparenta ser; ela o trata como indeterminado' e :p~obabils
armazena-os numa base de dados e oferece um dispositivo que possibilita que tico'. Parece estar em voga concentrar-se mais no lado da sada da atividade (ne-
sejam feitas buscas nessas representaes. A base de dados pode ser armazenada cessidade de informao-pedido-representao) do que no lado da entrada
em papel, microimagem ou formato eletrnico, e o 'dispositivo' que possibilita (mensagem-texto-representao), e a hiptese a implcita seria que o lado da
que se f.1am as buscas pode ser to simples quanto o arranjo de entradas num sada mais 'complexo'. De fato, Belkin e Belkin et ai. (1980, 1982) referem-se
catlogo em fichas ou ndice impresso, ou to complexo quanto um computador ao cotejo do 'estado anmalo de conhecimento' de um .consulente ~om o estad?
e um conjunto de respectivos programas. O servio de informao tambm cria mais 'coerente' de conhecimento dos autores. Como fm apontado amda no capi-
representaes dos pedidos (enunciados de buscas de algum tipo) e os processa tulo 2, a funo do indexador- prever os tipos de consultas para as quais deter-
em cotejo com a base de dados, para recuperar as representaes de textos que minado documento provavelmente ser uma resposta til - no necessa-
coincidam ou mais se aproximem das representaes dos pedidos. riamente mais simples do que a de quem atua como intermedirio: compreender
As representaes de textos consistiro no prprio texto completo, pmtes quais os tipos de documentos que satisfazem a um solicitante em ?ado momento.
dele ou outra forma de representao construda por meios humanos ou auto- Seja como for, a figura 106 apresentada neste ponto ~re~1puamen~e para
mticos. As representaes de pedidos sero termos, termos apresentados em exemplificar o fato de que podem ser usados processos algontmtcos em diver~as
relaes lgicas, enunciados textuais ou 'itens' (por exemplo, um sistema per- atividades de recuperao da informao, em substituio ao processamento m-
mite ao usurio inserir informaes de um item cuja relevncia seja conhecida, telectual por seres humanos. Os computadores podem ser aplicados indexa-
e, em seguida, procurar outros que de algum modo lhe sejam assemelhados). o automtica e elaborao automtica de resumos, bem como a outras opera-
Temos nossa disposio vrios recursos de ajuda intelectual que assistem es que envolvam a formao de classes de documentos e de termos, ao ~es:n
na construo das representaes (de textos ou pedidos). O mais bvio deles volvimento de estratgias de buscas e estabelecimento de redes de assocmo~s
o vocabulrio controlado convencional, mas tambm se usam outros instrumen- entre termos. Corno o diagrama implica, o computador podem, em certa medi-
tos ~uxiliares, como o vocabulrio ps-controlado mencionado no captulo 14. da substituir os seres humanos em praticamente todas as atividades exemplifi-
E evidente que so possveis muitas variaes sobre o tema fundamental da cadas. Atualmente, eles no geram, de modo independente, mensagens ou ne-
figura I 06. Por exemplo, em muitas situaes o servio de informao que cria cessidades de informao, a menos que sejam especificamente programados
as representaes dos textos (isto , a formao da base de dados) ser diferente para esse fim por seres humanos, mas talvez chegue o dia e~n que tambm far~o
dos servios que realizaro as buscas em tal base. Ademais, quem procura infor- isso. Urna vez que a indexao e a redao de resumos constituem a preocupaao
maes poder no delegar a realizao da busca a um especialista em informa- principal deste livro, neste captulo dar-se- mais ateno aplicao de com-
o, mas, sim, assumi-la pessoalmente. Com o surgimento da internet, a maior putadores a essas tarefas.
~-

15. INDEXAO AUTOMTICA, REDAO AUTOMTICA DE RESUMOS 285


parte das atividades de recuperao da informao envolve buscas em textos de
CAPTULO 15
stios da Rede, e as pessoas que precisam de informaes fazem elas prprias as
buscas ao invs de deleg-las a outrem.
Este diagrama evidencia os problemas da recuperao da informao. Os
Indexao automtica, redao automtica textos podem no ser representaes perfeitas das mensagens (embora este seja,
definitivamente, um problema de comunicao, normalmente no visto como
de resumos e processos afins um problema de recuperao da informao) e, conforme vimos desde os captu-
los iniciais, as representaes dos textos tambm podem ser imperfeitas. E, por
sinal, os pedidos raramente so representaes perfeitas das necessidades de
informao e os enunciados de busca podem no ser representaes perfeitas

U ma imagem muito simplificada do problema da recuperao da informao


foi apresentada na figura 1. Agora, na figura 106, tem-se uma verso mais
complexa. Em essncia, o problema consiste em cotejar necessidades de infor-
dos pedidos. Alm disso, o referencial ('esquemas') de um solicitante pode no
coincidir com o referencial de um especialista em informao ou, na realidade,
o referencial dos autores. Considera-se, ento, que o problema da recuperao
mao com mensagens. Isso s pode ser feito de modo muito indireto. A maioria da informao consiste essencialmente em procurar cotejar aproximaes de
das mensagens (aquilo que os autores desejam transmitir) aparece como textos necessidades de informao com aproximaes de mensagens. No de admirar
(alguns se apresentam em formato de irnagem, de som ou outro formato no- que os resultados nem sempre sejam completamente satisfatrios.
textual), enquanto as necessidades de informao se apresentam como pedidos Como salientou Bates (1986), o problema da recuperao da informao mais
formulados a um servio de informao. Este cria representaes dos textos, complexo do que aparenta ser; ela o trata como 'indeterminado' e 'probabils-
armazena-os numa base de dados e oferece um dispositivo que possibilita que tico'. Parece estar em voga concentrar-se mais no lado da sada da atividade (ne-
sejam feitas buscas nessas representaes. A base de dados pode ser armazenada cessidade de informao-pedido-representao) do que no lado da entrada
em papel, microimagem ou formato eletrnico, e o 'dispositivo' que possibilita (mensagem-texto--representao), e a hiptese af irnplcita seria que o lado da
que se faam as buscas pode ser to simples quanto o arranjo de entradas num sada mais 'complexo'. De fato, Belkin e Belkin et ai. (1980, 1982) referem-se
catlogo em fichas ou ndice impresso, ou to complexo quanto um computador ao cotejo do 'estado anmalo de conhecimento' de um consulente com o estado
e um conjunto de respectivos programas. O servio de informao tambm cria mais 'coerente' de conhecimento dos autores. Como foi apontado ainda no cap-
representaes dos pedidos (enunciados de buscas de algum tipo) e os processa tulo 2, a funo do indexador-prever os tipos de consultas para as quais deter-
em cotejo com a base de dados, para recuperar as representaes de textos que minado documento provavelmente ser uma resposta til - no necessa-
coincidam ou mais se aproximem das representaes dos pedidos. riamente mais simples do que a de quem atua como intermedirio: compreender
As representaes de textos consistiro no prprio texto completo, partes quais os tipos de documentos que satisfazem a um solicitante em dado momento.
dele ou outra forma de representao construda por meios humanos ou auto- Seja como for, a figura I 06 apresentada neste ponto precipuamente para
mticos. As representaes de pedidos sero termos, termos apresentados em exemplificar o fato de que podem ser usados processos algortmicos em diversas
relaes lgicas, enunciados textuais ou 'itens' (por exemplo, um sistema per- atividades de recuperao da informao, em substituio ao processarnento in-
mite ao usurio inserir informaes de um item cttia relevncia seja conhecida, telectual por seres humanos. Os cornputadores podem ser aplicados indexa~
e, em seguida, procurar outros que de algum modo lhe sejam assemelhados). o automtica e elaborao automtica de resumos, bem como a outras opera-
Temos nossa disposio vrios recursos de ajuda intelectual que assistem es que envolvam a fonnao de classes de documentos e de termos, ao desen-
na construo das representaes (de textos ou pedidos). O mais bvio deles volvimento de estratgias de buscas e estabelecimento de redes de associaes
o vocabulrio controlado convencional, mas tambm se usam outros instnunen- entre termos. Como o diagrama implica, o computador podem, em ce1ia medi-
tos auxiliares, como o vocabulrio ps-controlado mencionado no captulo 14. da, substituir os seres humanos em praticamente todas as atividades exemplifi-
evidente que so posslveis muitas variaes sobre o tema fundamental da cadas. Atualmente, eles no geram, de modo independente, mensagens ou ne-
figura I 06. Por exemplo, em muitas situaes o servio de informao que cria cessidades de informao, a menos que sejam especificamente programados
as representaes dos textos (isto , a formao da base de dados) ser diferente para esse fim por seres humnos, mas talvez chegue o dia em que tambm faro
dos servios que realizaro as buscas em tal base. Ademais, quem procura infor- isso. Uma vez que a indexao e a redao de resumos constituem a preocupao
maes poder no delegar a realizao da busca a um especialista em informa- principal deste livro, neste capitulo dar-se- mais ateno aplicao de com-
o, mas, sim, assumi-la pessoalmente. Com o surgimento da internet, a maior putadores a essas tarefas.
INDEXAO E RESUMOS: TEORIA E PRTICA
l 15 INDEXAO AUTO M TI CA, REDAO AUTO M TI CA DE RESUMOS 287
286
vras, um nmero relacionado com a extenso do texto ou palavras que ocorram
F...specialist3.S
em informao
~
de computador
lReferenciall
Pessoas em busca de
informaco
I com freqncia acima de determinado limiar. Um programa pouco mais com-
p.lexo extrair expresses que ocorram com freqncia importante no texto. As-
1dt *- sim, um documento poder ser representado com uma combinao de palavras
e expresses, e o critrio de freqncia para a seleo das expresses ser menos
rigoroso do que o critrio pelo qual se selecionam as palavras importantes.
Ao invs de selecionar palavras e expresses, os programas podem ser
escritos para selecionar radicais. Assim, o radical calor seria escolhido e arma-
zenado em vez das variantes calor, caloria e ca/orimetria. Empregam-se pro-
g~amas para derivao automtica, a fim de eliminar apenas terminaes sele-
{Termos)
Cionada~ de. palavras (por exemplo, 'ado', 'ada', 'ando'). Evidentemente, pos-
Termos/lgica
Texto
sfvel ~tn~mr pesos a todas as palavras, expresses ou radicais, que reflitam a
Itens) freqUencm com que ocorrem no documento. Por exemplo, o radical calor pode
receber um peso numrico relativo ao fato de aparecer no texto, digamos, 12 vezes.
Os critrios de freqncia podem ser complementados com outros critrios.
Por exemplo, Baxendale (1958) props que somente a primeira e a ltima frase
FIGURA 106 de c~da ,rargrafo fossem processadas, pois um de seus estudos demonstrara que
Os problemas fundamentais da recuperao da informao a prune1ra era o 'tpico frasal' em 85% das vezes e a ltima o era em otros 7%
dos casos. Considerava-se 'tpico frasal' aquele que provia o mximo de infor-
Indexao por extrao automtica maes relativas ao contedo. Nos primrdios da indexao automtica foram
No comeo deste livro fez-se uma distino entre indexao por atribuio propostos ou testados vrios outros mtodos para identificar os seomentos do
< D
e indexao por extrao. A maior parte da indexao feita por seres humanos texto ncos emmformao'; programas de computador procurariam certos ele-
por atribuio, pois envolve a representao do contedo temtico por meio de mentos, como locues prepositivas, textos que viessem aps 'palavras suoes-
. ' - o
termos selecionados de algum tipo de vocabulrio controlado. Na indexao por t1vas , como conc/usoes e resumo do autor, e pattes do texto que inclussem as
extrao, palavras ou expresses que aparecem no texto so extradas e utiliza- ocorrncias primeiras de substantivos.
das para representar o contedo do texto como um todo. Os indexad.or~s huma- Uma evidente desvantagem do emprego da freqncia de palavras simples
nos procuraro selecionar expreSses do texto que paream. ser bons mdtcadores ou expresses para a seleo de termos est em que, mesmo depois de usar uma
daquilo de que trata um documento. Provavelmente sero influenciados pela fie- lista de palavras proibidas, algumas das palavras que ocorrem freqUentemente
qncia com que um termo aparece no documento e talvez onde aparece- no num documento podem no ser bons discriminantes- que sirvam para dferen-
thtlo, resumo do autor, legendas das ilustraes, etc. - e por seu contexto. ar este documento de outros na base de dados- porque tambm ocorrem com
Admitindo que o texto exista em formato eletrnico, bvio que o computa- fieqi.incia na base de dados como um todo. Tomando-se um exemplo bvio, as
dor pode ser programado para realizar a indexao por extrao, adotando esses palavras biblioteca e informao no seriam muito bons discriminantes de itens
mesmos critrios de freqncia, posio e contexto. A indexao automtica ba- numa coleo de biblioteconomia e cincia da informao. Assim, num docu-
seada na freqncia de palavras tem origem na dcada de 1950 e no trabalho de mento a palavra biblioteca ocorre 12 vezes, enquanto a palavra amianto s
Luhn (1957) e Baxendale (1958). possvel escrevei' programas simples para ocorre quatro vezes. No entanto, o ltimo termo muito melhor discriminante,
contar as palavras num texto, desde que este tenha sido cotejado com uma lista uma vez que se trata de um termo que raramente ocorre na literatura de bibliote-
de palavras proibidas, a fim de eliminar palavras no-significativas (artigos, pre- conomia. Seria um termo altamente importante numa coleo deste assunto,
posies, conjunes e assemelhados), e, em seguida, ordenar essas palavras mesmo que s ocorresse uma nica vez num documento.
ser-undo a freqncia de sua ocorrncia. As palavras do topo da lista sero, A ti'eBHncia com que uma palavra ocorre num documento no a nica
evidentemente, escolhidas para serem os 'termos de indexao' do documento. freqncia para a qual se deve atentar no processamento de textos por com-
A definio do ponto de corte (ou seja, o ponto em que a lista ser interrompida) putador. A freqllncia com que uma palavra ocorre na base de dados como um
obedecer a alguns de vrios critrios possveis: um nmero absoluto de pala- todo ainda mais importante. Quer dizer, as palavras que so os melhores dis-
criminantes so aquelas que so imprevisveis e raras numa coleo - por
288 INDEXAO E RESU!v!OS: TEORIA E PRTfCA }5. INDEXAO AUTOMTICA, REDAO AUTOMTICA DE RESUMOS 289
exemplo, amianto em biblioteconomia, biblioteca na base de dados de uma de palavras, as listas de palavras proibidas, claro, no sero necessrias: prepo-
fbrica de cimento~amianto. Na realidade, no preciso calcular a freqUncia sies, conjunes e artigos ocorrero com freqUncia nos itens especficos, mas
com que uma palavra ocorre em toda uma base de dados formada por textos, mas tambm em toda a base de dados, e sero assim rejeitadas, junto com palavms
apenas a freqncia com que ela ocorre no arquivo invertido utilizado para significativas mas de ocorrncia comum (como biblioteca em biblioteconomia).
executar a busca nos textos (isto , o nmero de ocorrncias de uma palavra em Os termos tambm podem ser extrados do texto quando coincidem com
relao ao nmero de ocorrncias de todas as palavras no arquivo). algum tipo de dicionrio armazenado de termos 'aceitveis'. Essa foi a base do
Emprega-se, ento, ao invs da freqncia absoluta com que uma palavra imp011ante trabalho sobre indexao com auxlio de computador realizado na
ocorre num documento, um mtodo de f1-eqtlncia relativa para a seleo de ter- dcada de 1970 pelo Defense Documentation Center (ver, por exemplo, Kling-
mos (Oswald et ai., 1959). Com este mtodo, selecionam-se palavras ou expres- biel, 1971 ). Essencialmente, as cadeias de palavras que ocorriam nos ttulos e
ses que ocorram num documento com mais freqncia do que sua taxa de ocor- resumos eram cotejadas com uma base de dados em linguagem natural [Natural
rncia na base de dados como um todo. Isso um pouco mais complicado do que Language Data Base (NLDB)]. As cadeias de palavras que coincidiam tornavam-
o mtodo de freqncia absoluta, pois exige que se mantenha uma contagem da se candidatas a tennos de indexao. Klingbiel e Rinker ( 1976) compararam os
freqUncia com que cada palavra ocorre na base de dados (relativa ao nmero resultados da indexao com auxlio de computador com os resultados da inde-
total de ocorrncias de palavras na base de dados), bem como uma comparao xao feita por seres humanos. Como resultado de trs estudos de casos, con-
dessa taxa de ocorrncia com a de uma palavra em determinado documento. cluram que a indexao com auxlio de computador e sem reviso posterior
Uma lista de palavras ou expresses extradas de um documento com base na alcana n[veis de revocao comparveis aos alcanados pela indexao feita
freqncia relativa ser diferente de uma lista criada com base na fieqncia por seres humanos, e que a preciso alcanada pela indexao com auxilio de
absoluta, mas no de forma radical. Muitos dos termos permanecero os mes- computador pelo menos to boa quanto a alcanada pela indexao feita por
mos. Os poucos termos novos sero os que ocorrem raramente no documento, seres humanos. A indexao por computador com reviso posterior logrou resul-
talvez apenas uma vez, mas ainda mais raramente na base de dados como um tados de revocao comparveis e melhor preciso do que a indexao feita por
todo- uma nica ocorrncia entre as 5 000 palavras de um m1igo de peridico seres humanos. Esta abordagem da indexao atualmente adotada no Center
altamente significativa se essa palavra tiver ocorrido at ento somente cinco for AeroSpace lnformation da NASA (Silvester et ai., 1993, 1994).
vezes numa base de dados de lO milhes de palavras! Os termos que desapa-
recero, evidentemente, sero os que, embora ocorram fieqUentemente num Indexao por atribuio automtica
documento, ocorrem fieqUentemente na base de dados como um todo. A extrao de palavras e/ou expresses dos documentos tarefa que os
Evidentemente, os termos selecionados com base na freqncia relativa no computadores executam de modo bastante satisfatrio. A extrao automtica
devem ser radicalmente diferentes dos selecionados com base na freqncia apresenta ntida vantagem em relao extrao feita por seres humanos:
absoluta. Para uma recuperao da informao eficaz precisa-se de termos que totalmente coerente. No entanto, a maior parte da indexao feita por seres
sejam bons discriminantes de documentos, e tambm de termos que formem humanos no constitui indexao por extrao, mas indexao por atribuio, e
classes eficazes de documentos; Se for til mirar exatamente no item raro- o a realizao desse trabalho por computador , em geral, mais difcil. A maneira
nico documento na base de dados que talvez examine os riscos para a sade do bvia de executar a indexao por atribuio com o emprego de computador
amianto empregado em forros de bibliotecas-, algum tambm pode querer desenvolver, para cada termo a ser atribudo, um 'perfil' de palavras ou expres-
recuperar grupos de documentos afins. Palavras como riscos ou perigos talvez ses que costumam ocorrer freqUentemente nos documentos aos quais um
no sejam to raras numa base de dados de biblioteconomia quanto amianto, indexador humano atribuiri. esse termo. Esse tipo de perfil, por exernplo, para
mas sero teis para recuperar uma ce11a classe de documentos que podero o termo chuva cida incluiria expresses como chuva cida, precipitao cida,
interessar a alguns usurios. Para uma recuperao eficaz da informao, reque- poluio atmosfrica, dixido de enxofre, etc.
rem-se, comumente, classes que consistam em mais de um nico item. Se a cada termo de um vocabulrio controlado correspondesse um perfil
Os critrios para extrair termos dos documentos incluem, portanto, freqn- desses, seria possvel utilizar programas de computador para cotejar as expres-
cia absoluta e freqncia relativa, ou uma combinao de ambas, alm de crit- ses importantes num documento (essencialmente aquelas que fossem extradas
rios posicionais ou sintticos.* Se se adotar um mtodo relativo para a seleo segundo os critrios de freqUncia antes mencionados) com essa coleo de
perfis, atribuindo um termo ao documento sempre que o perfil do documento
~ Para um exame completo dos vrios critrios adotados para a seleo de temtos com base na coincidisse com o perfil de termos acima de determinado limiar.
freqoncia de ocorrncia, ver Salton e McGi\1 (1983).
290 INDEXAO E RESUMOS: TEORIA E PIV..TICA 15.JNDEXAO AUTmviT!CA, REDAO AUTOMTICA DE RESUMOS 291
Isso parece relativamente fcil. Na prtica, porm, diferente. Em primeiro extrai dos de um 'tesauro' armazenado no computador. Embora os autores digam
luoar os critrios de coincidncia teriam de ser um tanto complexos. Se chuva que a indexao automtica deu resultados to bons quanto os obtidos pela inde-
cid~ ocorrer dez vezes num ar.tigo de peridico, quase certamente o termo de xao humana, tal concluso baseou-se nos resultados de apenas duas buscas.
indexao CHUVA CIDA ter de ser atribudo. Suponhamos, por outro lado, que Um dos programas mais complexos de indexao por atribuio automtica,
chuva cida ocorra apenas duas vezes no documento, porm atmosfera, dixido desenvolvido no BIOSIS, foi examinado por Vleduts-Stokolov (1987). As pala-
de enxofre e cido sulfrico ocorram com bastante freqncia. Atribui-se o ter- vras que apareciam nos ttulos de artigos de peridicos foram cotejadas com um
mo CHUVA CIDA? evidente que muitas combinaes diferentes de palavras ou Vocabulrio Semntico, formado por cerca de 15 000 termos de biologia, os
expresses sinalizam o fato de que determinado termo de indexao ser candi- quais, por sua vez, foram ligados a um vocabulrio de 600 Cabealhos Con-
dato atribuio. Alm do mais, a impmtncia de cada combinao, como pre~ ceituais (isto , cabealhos de assuntos relativamente genricos). Assim, os
ditor de que determinado termo ser atribuido, implicaria o emprego de dife- Cabealhos Conceituais podiam ser atribudos pelo computador com base em
rentes valores de co~ocorrncia. Por exemplo, se as palavras calor, lago e polui- palavras/expresses que ocorriam nos ttulos. Vleduts-Stokolov relatou que
o ocorressem poucas vezes num documento, isso seria o suficiente para levar cerca de 61% dos Cabealhos Conceituais atribudos por seres humanos pode-
atribuio dos termos POLUIO TRMICA e POLUIO DA GUA. Porm calor riam ser atribudos pelo computador com base apenas nos ttulos. Se se consi-
e lago, sem o aparecimento de poluio, teriam de ocorrer juntos num docu- derassem apenas as atribuies primrias e secundrias (o BIOSIS utilizava um
mento muitas vezes, antes de POLUIO TRMICA ter assegurada sua atribuio. esquema de ponderao de termos de trs nveis: primrio, secundrio e terci-
A expresso chuva cida apresenta grande probabilidade de ocorrer com rio), cerca de 75% das atribuies poderiam ser feitas automaticamente. Na rea-
fieqilncia num documento que trate do assunto, de modo que a atribuio corre- lidade, porm, os programas no alcanaram um nvel de desempenho to eleva-
ta do termo de indexao CHUVA CIDA talvez no seja to difcil quanto esta- do. Alcanaram de 80 a 90% de xito em atribuies primrias e secundrias
riam a sugerir as consideraes anteriores. O termo POLUIO TRMICA mais (isto , atribulam de 80 a 90%dos 75%que, teoricamente, seriam atribudos com
problemtico, pois menos pr<;>vvel que a maioria dos itens sobre 'poluio base nos titulas), e quase esse nvel de xito em todas as atribuies (ou seja, por
trmica' inclua ocorrncias freqUentes dessa expresso. Outros termos que um volta de 80%, ou um pouco mais, dos 61% de atribuies que ocorreriam com
indexador humano atribuiria com grande facilidade quase que resistem atribui- base apenas nos ttulos). Em outras palavras, ocorria subatribuio; quer dizer,
o por computador. O'Com10r (1965) analisou alguns problemas concernentes os programas deixavam de atribuir termos que deveriam ser e seriam atribudos
a isso. Um bom exemplo o termo TOXICIDADE. Um indexador pode, legitima- por seres humanos. Ao mesmo tempo, tambm se verificava superatribuio:
mente, atribui-lo ao defrontar com esta redao: 'Dois dias depois de a substn- atribuam-se termos que no deveriam ser atribudos. Isso estava na mesma faixa
cia haver sido ingerida surgiram diversos sintomas', mas bastante difcil incor- da subatribuio: entre 80 e 90% das atribuies de termos pelo computador
porar num programa de computador todos esses preditores (de que o termo TO Xl- eram corretas, no sentido de que indexadores humanos tambm as teriam feito.
CIDADE deva ser atribudo), mesmo que fossem identificados de antemo. Um mtodo algo similar, descrito por Trubkin ( 1979), foi adotado para inde-
Devido a esses problemas, as tentativas iniciais de atribuir termos automati- xar automaticamente os resumos de ABI/INFORM (uma base de dados na rea de
camente no tiveram xito, mesmo quando estavam envolvidos vocabulrios negcios) no perodo 1971-77. Construiu-se um 'vocabulrio-ponte' com cerca
muito pequenos de termos de indexao (por exemplo, Borko e Bernick, 1963). de 19 000 termos que remetiam das expresses dos textos para os termos de um
Nos ltimos 40 anos, porm, desenvolveram-se processos melhores, e agora vocabulrio controlado. Co1llo bastava uma nica ocorrncia de um termo num
possvel executar, com maior chance de xito, a indexao por atribuio. ttulo ou resumo para fazer com que fosse atribudo um termo controlado, os
A indexao automtica e processos afins tm, portanto, uma longa histria. processos de indexao automtica tendiam a atribuir mais termos a um item do
No resto do captulo sero vistos em primeiro lugar outros princpios e aborda~ que o faria a indexao humana (mdia de 16 por item em contraste com 8-12).
gens anteriores. Os enfoques mais atuais sero analisadas mais ao final do captulo. Tambm similares ao trabalho realizado no BIOSIS so os processos de inde~
xao com auxlio de computador implementados pelo American Petroleurn Ins-
Estudos m,teriores sobre indexao titute (Brenner et ai., 1984). Sua finalidade era desenvolver mtodos que penni~
Van der Meulen e Janssen (1977) relatam uma comparao entre indexao tissem ao computador atribuir os termos controlados do tesauro do API com base
por atribuio automtica e indexao manual. Neste caso, comparou-se a inde- nos textos dos resumos. Brenner et ai. relatam que uma verso anterior do siste~
xao humana adotada pelo INSPEC comum esquema de indexao automtica ma atribua somente cerca de 40% dos termos que os indexadores humanos atri-
que substitui expresses, que ocorrem nos resumos, por 'nmeros conceituais' buiriam, alm de atribuir muitos termos suprfluos. Com os ensinamentos adqui-
ridos nessa experincia, os autores, contudo, sentiam-se otimistas quanto
' ..

292 INDEXAO E RESUMOS: TEORIA E PRTICA 15. INDEXAO AUTOMTICA, REDAO AUTOMTICA DE RESUMOS 293
possibilidade de os processos infnnatizados atriburem cerca de 80% dos ter- putador no campo da qumica. Para cada entrada de ndice ('termo de expres-
mos que deveriam ser atribudos, e que a isso se seguiria uma reduo signifi- so') ela criou uma lista de expresses associadas ('termos de deteco'), e a
cativa das atribuies suprfluas. De fato, desde os primeiros testes, ocorreram ocorrncia de qualquer uma dessas expresses numa pgina de texto faria com
melhoramentos notveis. Martinez et ai. ( 1987) analisam esses melhoramentos que fosse selecionada uma das entradas de ndice para aquela pgina. At1andi
e tambm descrevem os problemas encontrados ao fazer a ligao entre expres- afinnava que um ndice assim produzido comparava-se em qualidade a um 1dice
ses dos textos e os termos do tesauro. Posteriormente, Hlava ( 1992) analisou feito por seres humanos, m~s custava bem mais caro. Grande parcela do custo
progressos na abordagem do API no que concerne ligao de termos de corr~spondia, porm, transcrio do texto para formato eletrnico. Como hoje
indexao em uma lngua com termos de indexao em outra (por exemplo, do praticamente toda impresso de textos feita a pmiir de registros eletrnicos, os
ingls com o alemo e vice-versa). fatores de custo no mais favoreceriam o esforo intelectual humano. Apesar
Um mtodo mais elaborado de ligar expresses de textos a descritores foi disso, os problemas inerentes produo automtica de ndices de livros so
desenvolvido na Technische Hochschule Darmstadt. Sua descrio mais com- ma!s difc~is do que sugere o trabalho de A1iandi. Mesmo num campo limitado
pleta, feita por Knorz ( 1983), precisa ser complementada com referncias poste- se na prec1so um vocabulrio muito grande de termos de expresso e, para cada
riores (por exemplo, Fuh r, 1989; Biebricher et ai., 1997). O mtodo de Darm- um deles, tambm seria muito grande o nmero de termos de deteco possveis.
stadt, que adota a tcnica da ponderao, calcula a probabilidade que um Ademais, ambos os vocabulrios precisariam ser mantidos atualizados para
descritor tem de vir a ser atribudo a um item, supondo-se que determinada abrigar os novos desenvolvimentos e as mudanas terminolgicas nesse campo.
expresso textual ocorra no ttulo ou no resumo. Como foi dito antes neste cap- Evidentemente, Atiandi procurava fazer a indexao por atribuio. Uma
tulo, uma das mais bem-sucedidas aplicaes da indexao por atribuio com proposta ma i~ fcil seria extrair expresses do texto do livro que fossem adequa-
auxlio de computador encontra-se atualmente em uso no Center for AeroSpace das para funciOnar como entradas de ndice. Earl ( 1970) descreve um mtodo de
Information (Silvester et ai., 1993, 1994), com base no trabalho de Klingbiel. elaborao de ndices de livros por computador que envolve a extrao de sin-
Apesar de a indexao por atribuio automtica ter melhorado considera- tagmas nominais. Ela afirma que: "Tudo indica ser possvel produzir automati-
velmente nos ltimos 40 anos (ver a seo final deste captulo), ainda no camente ndices de livros que sejam satisfatrios, com um trabalho posterior de
chegamos ao ponto onde termos de um vocabulrio extenso (digamos, lO 000 reviso para eliminar termos suprfluos." Mais tarde, Salton (1989) descreveu
descritores de um tesauro) possam ser atribudos de modo completamente auto- como possvel empregar processos de anlise sinttica para gerar expresses
mtico sem interveno humana. Um estudo feito por Hersh et ai. (1993), que que se prestam ao uso em n~ices de livros. Por outro lado, Korycinski e Newell
trabalhou com textos mdicos, afirma ter obtido melhores resultados com buscas ( 1990) examinam os motivos pelos quais a produo automtica de lndices de li-
em textos simples do que com a ligao de textos aos termos do vocabulrio con- vros muito mais diflcil do que a indexao automtica de a11igos de peridicos.
trolado (termos do Unified Medicai Language System). A maioria dos sistemas de indexao automtica no so realmente 'autom-
Na realidade, a indexao por atribuio automtica se reveste hoje em dia ticos', no sentido de que substituem o ser humano pelo computador, mas se desti-
de reduzido interesse, exceto para a produo de ndices impressos. H 30 anos, nam a auxiliar o indexador humano. Uma denominao que melhor se ajusta a
despertava interesse mais amplo. Como, ento, era muito dispendioso armaze- e~es ~ 'co1~1 auxlio de computador'. Em geral, identificam-se dois mtodos prin-
nar e processar grandes quantidades de texto em computador, justiftcava-se Cipais de mdexao com auxlio de computador:
qualquer mtodo que reduzisse o texto. Hoje em dia, evidentemente, no caso de l. Utiliza-se o computador para fornecer vrios tipos de apresentao e men-
existir o texto completo de um item em formato eletrnico, ou se existir um sagens em linha que ajudam o indexador. Erros cometidos pelo indexador
resumo adequado, faz pouco sentido pretender index-lo, a menos que venha a (por exemplo, emprego de termos fora do padro ou combinaes indevidas
ser gerada, a partir da base de dados, alguma forma de ndice impresso. No de cabealho principallsubcabealho) so reconhecidos em tempo real com
obstante, conforme ser visto mais adiante neste capitulo, existem realmente imediata notificao ao indexador.
aplicaes em que as formas de indexao por atribuio automtica ainda so
2. Utilizam-se programas de computador para ler o texto (talvez apenas ttulos
teis. Ademais, os mtodos de indexao por atribuio automtica so essen-
e/ou resumos) e selecionar termos de indexao mediante processos de ex-
cialmente os mesmos usados na categorizao (classificao) de textos ou tare-
trao ou atribuio. Os termos assim selecionados so checados por um in-
fas de encaminhamento de mensagens, a serem examinadas mais adiante.
dexador hun~ano, que acrescenta outros pontos de acesso que os programas
Uma forma especial de ndice impresso o que aparece no final dos livros.
no consegmram atribuir e/ou elimina termos atribudos erroneamente.
Os trabalhos visando produo desse tipo de ndice por computador tambm
remontam a mais de 40 anos. Artandi (1963) produziu ndices de livro por com- As abordagens atuais so eXaminadas na seo final deste captulo.

"r
294 INDEXAO E RESUMOS: TEORIA E PRTICA }5. INDEXAO AUTOi>.lT!CA, REDAO AUTOMTICA DE RESUMOS 295
Outras formas de classificao Os dados de co-ocorrncia so usados de duas formas: 1) desenvolve-se e
Como vimos no captulo 2, a indexao uma fonna de classificao: a atri- armazena-se uma rede de associaes entre termos, ou 2) identificam-se e arma-
buio de um termo a um item coloca-o numa classe junto com outros aos quais zenam-se classes separadas de termos com base em associaes extra[das da
o mesmo te1mo foi atribufdo. So possfveis outros tipos de classificao quando rede. No primeiro caso, os termos introduzidos por quem realiza as buscas, em
h vrios dados sobre itens bibliogrficos em formato eletrnico. possvel usar forma de lista ou dentro de um enunciado em forma de expresso ou frase,
processos automticos para criar classes de documentos ou classes de termos. podem ser processados automaticamente para produzir uma lista expandida de
Em sistemas 1 Convencionais' de recuperao, a realizao de uma busca tennos de busca. No mtodo desenvolvido por Stiles (Stiles, 1961; Salisbury &
auxiliada pelas associaes entre termos estabelecidas pela mente humana, com Stiles, 1969), os termos acrescentados a uma estratgia de busca so os rela-
a ajuda s vezes de relaes constantes de um tesauro ou outro vocabulrio con- cionados de perto com todos os termos da busca original com base na fre-
trolado. Num mtodo mais automtico de recuperao~ baseado, por exemplo, qncia de co-ocorrncia. Por exemplo, A, B e c ocorrem na estratgia original
no cotejo de consultas em linguagem natural com o texto completo de itens, resu- e X e }'so acrescentados porque tendem a co-ocorrer com todos os trs termos
mos, ou representaes de documentos criadas por computador- tambm con- iniciais. O processo poderia continuar de modo a introduzir, digamos, o termo P
vm incorporar processos automticos para desenvolvimento de relaes entre porque est associado a A, 8, C, X e Y. Os itens da base de dados podem receber
termos, a fim de melhorar a eficcia das buscas. Co-ocorrncia a relao bvia um peso numrico, que reflita o nmero de termos que coincidem entre item e
a ser explorada pelo computador. Quanto mais freqentemente dois tennos estratgia de busca e as foras de associao que existem entre esses termos
ocorrerem juntos (no texto de documentos ou em listas de termos atribudos aos (com base na co-ocorrncia), e os itens recuperados podem ser ordenados por
documentos), mais provvel ser que tratem de contedo temtico similar. Le- peso. possvel, assim, que alguns itens que aparecem no alto da ordenao
vando isso sua concluso lgica, se o termo A nunca ocorre sem 8 e o termo 8 [rankng] no contenham nenhum dos termos com os quais se iniciou a busca.
nunca ocorre sem A (o que seria uma situao muito rara), os dois termos so Na segunda aplicao, qualquer palavra que ocorra num enunciado de busca
totalmente interdependentes e seriam completamente intercambiveis nas buscas. pode ser substituda pela classe de palavras a que pertence. Isso automtico ou
Alm da associao direta (X ex tendem a ocorrer juntos), as associaes indi- pode ser feito sob controle de quem faz a busca. Os tipos de classes de palavras
retas entre tennos podem tambm ser derivadas com base nos dados de co-ocor- que podem ser derivadas dos dados de co-ocorrncia foram claramente identi-
rncia. Suponhamos que o termo D quase nunca ocorra sem w numa base de da- ficados por Salton e McGill (1983). Num deles, chamado faco, todas as pala-
dos e que Ttambm tenda a no ocorrer sem w, embora De r jamais co-ocorram vras do grupo so associadas com todas as outras palavras do grupo acima de um
nos documentos. Conclui-se que h uma relao entre D e r: so relacionados limiar escolhido. Num grupo de ligao nica, por outro lado, cada palavra pre-
entre si pelo fato de cada um co-ocorrer fortemente com IV. Muito provavel- cisa estar ligada apenas a uma outra palavra do grupo acima do limiar estabelecido.
mente, De r so exatamente sinnimos neste contexto: sinnimos costumam no As classes formadas mediante processos estatfsticos sero muito menos
ocorrer um com o outro, ainda que os termos com os quais co-ocorram sejam puras do que as de um tesauro convencional. Um grupo de palavras que co-
muito similares. No exemplo hipottico, D seria 'delta', r 'vo livre' e IV 'asa'. ocorram fortemente incluir relaes de gnero/espcie, parte/todo e outras,
Na realidade, no se calcula o grau de associao entre dois termos com base como no seguinte exemplo:
na freqncia simples de co-ocorrncia, mas na de co-ocorrncia relativa fre- ASA AERODINMICA
qncia de ocorrncia de cada termo. Por exemplo, se os termos A e 8 co-ocor- AEROFLIO FLUXO
rerem 20 vezes na base de dadOs, enquanto A ocorrer 1O 000 vezes, e 8 50 000 DELTA
vezes, o 'fator de associao' entre A e B ser fraco. Por outro lado, supondo que CAUDA
A ocorra 50 vezes, B ocorra 25 vezes, e ambos co-ocorram 20 vezes, o fator de VIBRAO
associao ser grande, pois muito improvvel que 8 ocorra sem A e quase a
A pureza da classe no a questo principal. O que importa se a classe poten-
metade das ocorrncias de A coincida com as ocorrncias de 8. Portanto, a
cialmente til na recuperao. Por exemplo, ser provvel que a classe hipo-
relacionatidade (R) de dois termos comumente definida pela equao simples
ttica de palavras identificadas acima, se se substitusse automaticamente cada
aeb um de seus membros, melhoraria os resultados da busca? Dependendo da busca,
R~-
a ou b parece provvel que esse tipo de substituio melhoraria a revocao. Ao mes-
Quando R excede algum limiar preestabelecido, os dois termos so aceitos como mo tempo, causaria um graVe declnio da preciso, principalmente se a classe
se fossem relacionados. (como no exemplo) fosse um conjunto muito heterogneo de termos.
296 INDEXAO E RESUMOS: TEORIA E PRTICA 15. INDEXAO AUTO!I.1TICA, REDAO AUTOMTICA DE RESUMOS 297
Salton e McGill (1983) apresentam exemplos de entradas de tesauro extra- Uma abordagem muito similar do agrupamento de itens relacionados, cha-
das autom~ticamente de uma cole~o de documentos de engenharia (figura 107). mada' indexao semntica latente', baseia-se em processo de classificao inti-
c.om esse trpo de tesauro, a consulta 'propriedades criognicas de x' seria expan- mamente relacionado com a anlise fatorial (ver, por exemplo, Dumais, 1995).
dida para 'x em relao ao conceito 415'. O resultado seriam itens recuperados Tambrn podem ser formadas classes de documentos com base em caracte-
sobre supercondutividade (isto , que contm o radical 'supercondut') de x. rsticas no-terminolgicas, especialmente vrias formas de ligao de citaes.
Estas consideraes giraram at agora apenas em torno de mtodos com os As possibilidades disso so exemplificadas na figura lOS. Aqui, X, Ye z so do-
quais se formam classes de termos com base nos documentos onde ocorrem. Os cumentos publicados recentemente que citam os itens anteriores A, B e C. Uma
dados que permitem tal classificao so extrados de uma matriz que mostra classe muito simples consistiria em um documento e os posteriores que o citam;
quais os termos que ocorrem em quais documentos (matriz termo/documento). por exemplo, A, x e Y. Como ambos xe Ycitam A, existe uma grande possibilidade
E claro que, com esses dados, tambm possvel fazer a operao inversa. Ou de que todos os trs tenham um contedo temtico em comum. Isso, evidente-
seja, formar classes de documentos com base nos termos que contm. Salton mente, a base da indexao de citaes. Ao entrar num ndice de citaes em
(1975) e Salton e McGill (1983) identificaram vrios tipos dessas classes: A, quem realiza a busca encontrar X e Y, itens estes que citam A. Se A for um item
I. A faco altamente relevante para os interesses presentes de quem faz a busca, X e Y
tambm sero relevantes. Se assim for, quem realiza a busca ter logrado xito
sem ter empregado a indexao de assuntos convencional.
Identificam-se outras classes nas relaes simples mostradas na figura 1OS.
Por exemplo, considere-se que X e Y formam uma classe porque ambos citam A
na qual todos os itens A-E tm uma forte ligao entre si. e B. Este o principio do acoplamento bibliogrfico (Kessler, 1962-1965).
Quanto mais referncias dois (ou mais) itens tiverem em comum, mais f01te ser
2. A estrela
seu acoplamento. X e Yesto fortemente acoplados porque ambos citam A, B e C.
z est menos f01temente acoplado a x e Y porque tem somente duas referncias
em comum com estes itens. Outra maneira de dize1 isso que X e Y formam uma
classe fo1te (de fora 3), enquanto xe z e Ye z so classes fracas (de fora 2).

'
/ evidente que quanto mais parecidas forem as listas de referncias includas em
duas publicaes mais provvel ser que tratem do mesmo assunto. Assim, se Q
na qual uma classe AQRST definida pelo fato de Q, R, se r estarem todos, cita F, G, H e 1 apenas, e o mtigo R tambm cita somente estes quatro itens, Q e R
de alguma forma, ligados de perto a A. quase com ce1teza tratam do mesmo assunto. Se os dois atiigos tiverem essas
3. A fileira quatro referncias em comum, porm se cada um incluir, digamos, dez refern-
A<_>B <_>C<_> D<_>E cias que o outro no inclui, haver menos chance de Q e R tratarem do mesmo
assunto, embora a relao entre Q e R ainda seja considerada muito prxima.
na qual B est ligado de petto a A, c a B, e assim por diante at E, o qual no Uma ltima relao, mostrada na figura 1OS, a de co-citao (Small, 1973).
est ligado de perto a qualquer outro item exceto o. Afirma-se que os itens A, B e c formam uma classe porque so citados juntos (co-

' 0<~'"""~/'j-- citados) por X e Y. Como acontece com o acoplamento bibliogrfico, a co-citao
pode ocorrer com fora varivel. Na figura lOS, os itens A, B e c tm uma relao
fraca entre si, pois apenas dois itens os citam juntos. Quanto mais itens os co-

\C-D
que pode ser formado com base em vrios critrios. Em geral, no entanto,
citarem, supe-se que mais fortemente relacionados eles estaro.
As classes formadas com base nas ligaes de citaes apresentam algumas
vantagens sobre as classes formadas por meio da indexao de assuntos con-
cada membro se associa aos outros membros do grupo ao alcanar um valor vencional. O que mais evidente em tudo isso que sero independentes de
acima de determinado limiar. lngua e de mudanas terminolgicas. O nome de uma doena pode mudar mais
de uma vez no decorrer do tempo, porm isto no impedir que se realize uma
Estrelas, fileiras e conglomerados so exemplos dos grupos de ligao nica
definidos acima. busca sobre essa doena num ndice de citaes, principalmente se o documento
inicial que a identifica for do conhecimento de quem faz a busca e se ainda for
298 INDEXAO E RESUMOS: TEORIA E PRTICA {5. INDEXAO AUTOMTICA, REDAO AUTOMTICA DE RESUMOS 299

408 DISLOCA TION A


413 CAPACITANCE
JUNCTION IMPEDANCE-MATCH!NG
h<UNORITY-CARRIER IMPEDANCE
N-P-N !NDUCTANCE
P-N-P l\'IUTUAL-TMPEDANCE
POINT-CONT ACT 1\.iUTUAL-INDUCTANCE
RECOMBINE MUTUAL
TRANSITION NEGATIVE-RESISTANCE
UNIJUNCTION POS!TIVE-GAP
REACTANCE
409 BLAST-COOLED RESIST
HEAT-FLOW SELF-!MPEDANCE
HEATTRANSFER SELF-INDUCTANCE
SELF
410 ANNEAL X y
STRAIN
414 ANTENNA
411 COERCIVE FIGURA 108
KLYSTRON
DEr..iAGNETIZE PULSES-PER-BEAM Ligaes de citaes/referncias
FLUX-LEAKAGE RECEIVER
HYSTERESIS SIGNAL-TO-RECEIVER Os estudos que compararam as classes formadas pela indexao conven~
INDUCT TRANSMITTER
INSENSITIVE WAVEGUIDE cional de assuntos com as formadas com base em ligaes de citaes remontam
MAGNETORESISTANCE a cerca de 40 anos (Kessler, 1965). Comparaes posteriores incluem. Pao
SQUARELOOP 415 CRYOGENIC
THRESHOLD CRYOTRON
(1988), Pao e Worthen (1989) e Shaw (1990b). Uma busca baseada em ligaes
PERSISTENT-CURRENT de citao (citao direta, acoplamento bibliogrfico ou cocitao) poder des~
SUPERCONDUCT cobrir itens teis no encontrados por meio de buscas temticas convencionais
412 LONGITUDINAL SUPER-CONDUCT
TRANSVERSE em ndices impressos ou bases de dados em linha, porm o mtodo convencional
416 RELAY tambm pode localizar itens que as ligaes de citaes no conseguem revelar.
Os dois mtodos so complementares e no concorrentes.
FIGURA 107 Kwok (1985a,b) menciona o fato de as ligaes de referncias/citaes po~
Exemplo de entradas de tesauro extradas por mtodos automticos derem ser utilizadas na recuperao de informao para formar uma 'coleo
Reprodulo de Salton e McGill,/l!fm<ht<lhm lo mutkm ilif<Jimuli<J!I n.'lricvl, 1983,
con1 penniss..~o de \lcGraw-Hil! i'ubli>hing Comp;my ampliada' de itens recuperados. Quer dizer, quando se aplica uma estratgia de
busca a uma base de dados da forma normal, empregando palavras do texto ou
citado com freqncia. O princpio do acoplamento bibliogrfico pode, natural- termos controlados, o conjunto de itens assim recuperados ser ampliado com os
mente, ser utilizado para ligar documento's escritos em lnguas completamente itens a eles ligados por meio de citaes bibliogrficas. Ele sugere que o con-
diferentes; por exemplo, identificar trabalhos em russo e chins que estejam junto de termos associados aos itens originalmente recuperados seja ampliado
fortemente acoplados a um trabalho em lngua inglesa. Igualmente, uma classe com o acrscimo de termos extrados dos itens que eles citam. Estes novos
de documentos co-citados incluiria itens em vrios idiomas. O que mais impor- termos podem ser termos de indexao atribudos aos itens citados, ou expres~
tante, evidentemente, que as classes formadas por co~ citao sofrem mudanas ses do texto extradas dos resumos ou dos th1ios. Ele sugere que a ampliao
com o passar do tempo, pois novas inter-relaes entre os resultados de pes- mediante a extrao de termos dos ttulos dos itens citados mais praticvel.
quisas so verificadas por pesquisadores posteriores. Voltando figura 108, os Salton e Zhang (1986) testaram a utilidade de ampliar o conjunto de termos asso
autores de X e Y vem alguma relao entre os itens A, B e c, mas esta relao ciados aos itens recuperados mediante o acrscimo de palavras do ttulo exhaf~
poderia ter passado despercebida durante muitos anos. A, B e c formam uma das de itens 'bibliograficamente relacionados'. As palavras do ttulo foram
classe de itens pela primeira vez em, digamos, 1989, porque foi em 1989 que extradas de: a) itens citados pelos itens recuperados, b) itens que citavam os
tanto X quanto Y foram publicados, porm A talvez tivesse sido publicado na itens recuperados, e c) itens co~citados. A concluso deles que, embora muitas
dcada de 1930, c na dcada de 1950 e B na dcada de 1970. palavras de contedo 'til' sejam extradas dessa forma, tambm sero extraidos
muitos termos de utilidade duvidosa, e que o processo no suficientemente
confivel para justificar sua incluso em sistemas de recuperao operacionais.
300 INDEXAO E RESUMOS: TEORIA E PRTICA 15. INDEXAO AUTOMTICA, REDAO AUTOMTICA DE RESUMOS 301
bvio que as ligaes explcitas ou implcitas entre os itens numa rede de De acordo com os procedimentos de Luhn, as frases que contenham os fato-
hipe11exto ou hipennfdia so muito similares s ligaes de citaes aqui exami- res de significncia mais altos so selecionadas e impressas, na seqncia em
nadas. As implicaes para a indexao das ligaes de hipertexto/hipennfdia que ocorrem no texto, a fim de formar o 'resumo'. possvel estabelecer um
so mencionadas no captulo 16. Um livro organizado por Agosti e Smeaton ponto de corte, para controlar a quantidade de frases selecionadas. Isso pode
(1996) uma boa fonte de pesquisas sobre a utilizao de vnculos de hipertexto basear-se num nmero fixo de frases ou no nmero de frases necessrias para
na recuperao de informaes. atingir certo percentual do texto total do documento. A figura l 09 um exemplo
de um 'auto-resumo' produzido de acordo com o mtodo de Luhn.
Redao automtica de resumos Ao lidar com documentos muito longos talvez seja conveniente fazer com
Se os computadores podem ser programados para selecionar termos dos que os programas selecionem e imprimam frases significativas para cada seo
documentos segundo critrios de freqncia, tambm podem ser programados da publicao. Uma vez que os resumos devem salientar a importncia espec-
para selecionar frases dos documentos. Esta a base do que se denomina comu- tica de um item para a instituio para a qual o resumo preparado, pode-se
mente 'redao automtica de resumos', embora fosse mais exato chamar isso incluir uma ponderao adicional numa certa categoria ou lista de palavras, de
'elaborao automtica de extratos'. Luhn (1958), criador desse mtodo, adotou modo a garantir que as frases que contenham uma ou mais ocorrncias dessas
os seguintes procedimentos: palavras sejam selecionadas para incluso no resumo.
1. Uma lista de palavras proibidas elimina do processamento ulterior todas as claro que um resumo montado dessa forma no ser muito parecido com
palavras no~significativas. um resumo preparado por um ser humano. Uma vez que algumas frases podem
2. Contam-se as ocorrncias de todas as palavras restantes, que so ordenadas vir do primeiro pargrafo, ajgumas do ltimo, e vrias outras talvez do meio do
segundo sua freqncia de ocorrncia (em vez de palavras, podem ser usadas trabalho, o extrato pode parecer bastante desconjuntado. Na realidade, isso no
razes (radicais)). chega a ser de grande impmtncia enquanto as fi:ases escolhidas oferecerem, em
3. Todas as palavras que ocorram mais de x vezes so definidas como palavras conjunto, um quadro exato daquilo de que trata o documento. Alguns pesquisa-
de 'alta fi"eqncia' ou 'significativas'. dores, no entanto, discordam disso e insistem para que os extratos obtidos por
4. Localizam-se as fiases que contenham concentraes dessas palavras de alta mtodos automticos apresentem melhor seqtincia lgica (Rush et ai., l97l,
freqncia. Consideram-se duas palavras relacionadas dentro de uma fiase Mathis et ai., 1973).
se no houver mais de quatro palavras intermedirias. Enquanto Luhn (l959) e Oswald et ai. ( 1959) utilizaram a freqncia de
5. Calcula-se um 'fator de significncia' para cada fi:ase, da seguinte maneira: palavras ou expresses para a seleo de frases, outros pesquisadores propu-
a) determina-se o nmero de 'aglomerados' na frase (aglomerado o grupo seram ou empregaram critrios alternativos. Edmundson (1969) identificou
de palavras mais extenso, demarcado por palavras significativas, no qual as quatro mtodos possveis:
palavras significativas no se acham separadas por mais de quatro palavras l. A1todo da chave. Similar ao critrio de freqncia de palavras adotado por
intermedirias); Luhn. Atribui-se s frases um peso correspondente soma dos pesos das pa~
b) determina-se o nmero de palavras significativas no aglomerado e se di- lavras que as compem.
vide o quadrado desse nmero pelo nmero total de palavras dentro do aglo- 2. 1Htodo da deixa. A presena de certas palavras numa frase sinaliza o fato de
merado; que provvel que ela seja um bom indicador de contedo. Um 'dicionrio
c) define-se o fator de significncia da frase como o valor do aglomerado de deixas' inclui uma lista de palavras que recebem peso positivo e uma lista
mais alto ou como a soma dos valores de todos os aglomerados na frase. de palavras com peso negativo. O valor da significncia de uma frase a
Isso soa mais complicado do que realmente na prtica, e sua explicao fica soma dos pesos das palavras que a compem.
mais fcil por meio de um exemplo. Vejamos a frase: 3. i\4todo do ttulo. A hiptese em que se baseia este mtodo que as palavras
que ocorrem nos ttulos e subttulos so bons indicadores de contedo. Atri~
A B C D* E F* G* H I J* K L M N 0 P Q R
bui-se um valor de significncia s frases baseado no nmero de palavras do
onde cada letra representa uma palavra, e as palavras seguidas de asterisco so
tftulo e subttulo que elas contm.
as consideradas 'significativas'. O aglomerado formado pelas palavras D-Jcon-
4. 1\rltodo da localizao. Neste mtodo atribuem-se pesos s frases, tomando
tm quatro palavras significativas, de modo que o fator de significncia do
por base a posio onde aparecem num documento. As frases que aparecem
aglomerado 41/7 ou 2,3. Este ~ tambm o fator de significncia da frase, urna
em certas sees (primeira e ltima frase dos pargrafos, primeiro e ltimo
vez que ela contm somente um aglomerado.
302 INDEXAO E RESUMOS: TEORIA E PRTICA 15, INDEXAO AUTOMTICA, REDAO AUTOMTICA DE RESUMOS 303

7]1.: ,\i:icutific Am<riwn, l'o/_ /'Hi, /l'o_ J. Xt.-'1-{ F.:hnrwy, f')jl


deixas negativas e positivas no WCL. Os mtodos de extrao desenvolvidos por
Swrrc.::
Rush et ai. ofereciam vrias vantagens em relao a processos anteriores, inclu-
sive a capacidade de modificar frases extratadas (por exemplo, pela eliminao
de expresses parentticas).
&Jitor :, S11h-l!wdmg: 71><: inl.:mal com1111111iwlioll rifl~ h<<dy I< JMJiul~d hy c&miwh us" dl "' hy ll.:lllii lmpuf,~.
St!i<ly uf thr illl.:w<li<m/JLL' d.;n:fupcd impUitulll f~uJ,- w tio: m~la.twxliug w!d tlll:r<>J')' <1 ll"'!llulilln<."- Outra caracterstica era a 'remisso interfrasal': quando uma frase era sele
cio nada para incluso num extrato era testada, a fim de determinar se seu signi-
Auto-Abstract ficado dependia das frases imediatamente precedentes (por exemplo, por incluir
/1 _1um.< r.u_l(</l<rhle lu u>.:dil llr~ _,;,.g{.:..,.dled "IXWI.\JJO.< ul.w H il/1 <1 -')-tem of du:micul u<ill!iWIIiwliml hy d1]inioll uf
;/imuf<IIII,<! .wb. tullt<.< thmugh til cdf, <ll!<llh~sc <"''"'JHHI /a 1/r~ ch.!mic<..d m~-~wuga..- (<'.![ -'""""'"~-} !I><JJ curry
expresses do tipo 'pmianto' ou 'por este motivo'). Se o significado fosse assim
.timullfmm cdlt" <e!f irtth< mor" <mllpfcxorguni"'' (7.0)f dependente, as frases precedentes, at um mximo de trs, eram inclufdas no
Finully, iuth.: \\'111!-hrul~ w1imuf> lhac an: 'fll:dul g!und< (.:.g., lhe Wr.:JI<lfs)jor pwdadugtb~miwl lilt-"eog<n, <111</ resumo, mesmo que no atendessem a outros critrios de aceitao. Esse mtodo
th~ tl<:ro't!i" undcft.miwl t'WIIIIllllliwlhm.l.ll~ll'-' ufl! ittl<ffHiii~: fvr itulwtu, rd.:m< oft~lrctJ<Jim h) t/h: odre nu!
gfwl<f ;,, _, 11 h;~ct '" ,-ulllmf 00/h h)' li"""' 111;/111/c-< ul!<f hycl~<:mhu-'- hnmghltr> !IN g!w~tf hy Ih~ hfu"d (f,_J) de extrao tem, portanto, o potencial de criar extratos que possuam melhor
Jl>< e.xperim.ml.< d ourlydoii> trEL\ImteJ lha/"' <ljhhn/in< (mkf ,-c(.,r~J >11h>lwtcc.<) u1td adt<'IJ<lfi!l (unJ }/_, n:lwhv.) crer/ seqncia lgica do que os obtidos mediante processos menos complexos. Na
"l'l"'->ing a<llort< !!-/ticllt!!ilintuill a h<ll<lll<ed 0:),7tl<lli"ll ofilt" /l'illhilli."iun <iftKtll! impuf.<c.<. (f,,J)
figura 11 Otem-se o exemplo de um extrato produzido segundo os procedimen
ft 1\'illOJI<lhl~ /IJ -"'l'{""~ tfl<lllll<fr<lllljlllli:ill)! dmg nmlll<tu,;(t/1.1 lnfllhilrl/)' 4f'<lnf-n'-~'i>;:adrc1!<1lill1!(
\CW/tJIJill (jf IIJIJ/,' rduta/lllflihilr,-{1/ lfl<! /ti!IIIW//Ni1>JIL\' -'.}'-t/C/11. (l.J) tos de Rush et aL (o sistema de elaborao automtica de resumos ADAM) .
s~nten<:e> selected b)' tne.>ns o f statistical analysis .1s havin):l a degre<: o f signiflcance of6 and oHr.
Mathis et ai. ( 1973) introduziram aperfeioamentos nos mtodos de extrao
tSiJ:,'lliflCJnce facto ris given at lhe end o f each sentence. descritos por Rush et ai. Tais aperfeioamentos referem-se fundamentalmente s
caractersticas de modificao fiasal e remisso interfrasal dos processos ante-
FIGURA 109 riores, e se destinam a produzir representaes que sejam mais 'legfveis'.
Exemplo de um auto-resumo de Luhn (Luhn 1958) Earl (1970) realizou experincias a fim de determinar se frases significativas
COp)Tiglll O !'>53 by lntemational Business Machines lncorporaled, reproduzido com penni:;;o
poderiam ou no ser identificadas por meio de anlise sinttica. A hiptese era
pargrafo, texto antecedido por entrettulos, como Introduo ou Concluses) que as frases que contivessem certas estruturas sintticas seriam mais indicativas
so aceitas como mais indicadoras de contedo do que outras. de contedo do que outras. Os resultados no foram promissores, devido princi-
Descobriu-se que os mtodos de deixa, ttulo e localizao apresentavam maior palmente ao grande nmero de tipos de frases que foram identificados. Um pro-
probabilidade de concordncia quanto s frases a serem selecionadas do que cesso mais promissor envolvia o uso de critrios tanto sintticos quanto estats-
qualquer combinao de mtodos que envolvessem o processo de chave, o que ticos: identificam-se sintagmas nominais no texto, identificam-se as palavras
levou Edmundson a concluir que este processo, baseado somente nos critrios significativas nos sintagmas, fazemse contagens de palavras, e as frases so
de freqncia, era inferior aos outros mtodos, selecionadas com base no nmero de palavras de alta freqncia que contm.
Rush et aL (1971) argumentam que qualquer mtodo til de extrao deve Paice ( 1981) descreveu processos de elaborao automtica de extratos ba-
incluir critrios tanto para rejeio como para seleo de frases, O mtodo deles seados na identificao de frases com probabilidade de serem bons indicadores
para avaliao de frases leva em conta a 'influncia contextual'- m~m palavra daquilo de que trata um documento (por exemplo, que contivessem expresses
ou seqncia de palavras, e seu contexto circunjacente, oferecem deixas para a como 'o principal objetivo' ou 'descreve-se um mtodo').
aceitao ou rejeio da frase, O mtodo de extrao que descrevem baseia-se F um et ai. ( 1982) descreveram um mtodo de elaborao automtica de resu-
no cotejo do texto com uma Lista de Controle de Palavras [Word Centro! List mos no qual, segundo afirmam, processos de anlise sinttica [parsing] e ponde-
(WCL)], que inclui uma lista de expresses que, se estivessem presentes numa rao identificam as informaes mais impo1iantes transmitidas num texto,
frase, causariam sua rejeio, e uma lista muito menor de expresses que a leva- eliminam elementos no-essenciais e reestruturam o restante num resumo con-
riam a ser selecionada. As expresses de rejeio incluem indicadores de que a densado e expressivo. Eles apresentam como exemplo a frase
fiase trata de material relativo a antecedentes e no aos objetivos, mtodos e A necessidade de gerar enomte quantidade adicional de energia eltrica e ao mesmo tempo
resultados do trabalho. As expresses de seleo so as (do tipo 'este artigo', proteger o meio ambiente um dos principais problemas sociais e tecnolgicos que nossa
sociedade ter de resolver em futuro prximo [sic]
'este estudo' ou o 'presente trabalho') que quase sempre significam que a fi_-ase
trata do tema principal do artigo. So tambm selecionadas frases que possuam que se reduz a
palavras significativas do ttulo do documento. Os critrios de freqilncia no A sociedade deve resolver no-futuro o problema da necessidade de gerar energia ao mesmo
so postos de lado, mas usados apenas para modificar os pesos associados s tempo que protege o meio ambiente,
304 INDEXAO E RESUMOS: TEORIA E PRTrCA 15. INDEXAO AUTOMTICA, REDAO AUTOl>.fTICA DE RESUMOS 305
tu lo. Embora os procedimentos correntes sejam capazes de fazer coisas mais
Tiffi CL\VICHORD ANO HOW TO PI.AY li MARGERY HAI.FORD, CLAVI.ER 9(2),
3641 ( 1970 ). " ESSENTIALLY. TilE CLAVICHORD IS A SHAUOW REC'V.NGUUR
complexas, como a combinao bem~sucedida de frases,* possvel que os
BOX WHOSE FRAGilE STRINGS, UNOER LIGHT TENSION, ARE STRUNG critrios relativamente simples introduzidos por Luhn e Baxendale sejam to
HORIZONliU.LY FROM A SINGI.E BRIDGE OVER A TIUN SOUNDBOARD. TIIE
KEYSARE SIMPlE llVERS WITII A BRASS BlADE CAll.ED A TANGENf MOUNTED bons ou melhores do que quaisquer outros para a seleo prtica de fiases com
VERTICAllY ON TifE PAR END. THE SOUND PRODUCED lS EXTRAORDINARILY probabilidade de serem indicativas do contedo do documento. Por exemplo,
RJCH IN OVERTONES. TiiE TONE OFTIIE CLWICHORD DOES NOT EXIST READY.
MADE AS IT DOES ON TilE PIANO AND HARPSICHORD; IT IS FORMED AND H ui e Goh ( 1996) compararam quatro critrios diferentes na preparao de resu~
SHAPED BY mE FINGER, AS ON A BOWED STRINGED INSTRU11EN1; WITii
THE RESUI.T BEING A GENUINE, DIRECI; IJVING "FEEL OF THB STRINGS''. AS mos de notcias: mtodo de localizao, processo indicativo, fl-eqncia de pala~
LONG AS HIS FINGER REMAJNS IN CONL\Cf Wlnt TiiE KEY, TIIE PLAYER vras-chave e palavra~chave ~o ttulo. O emprego de expresses indicativas (por
RETAINS CONTROL OF THE SOUND. THE CLAVICHORD 15 THE l.EAST
MECHANTZED ANO TIJB MOST RESPONSIVE OF A1L KEYBOARD INSTRUMENTS exemplo, 'em concluso', 'o objetivo era') para identificar frases significativas
IN THAT IT MEETS THE PLAYER HALFWAY IN ITS INSTANT ANO FAfn-IHJL
TRANSMISSION OF HIS SUGHTEST MUSICAL INfENTIONS. EMBELLISUMENTS deu os piores resultados. O critrio simples de fi:eqUncia de palavras~chave foi
CAN BE PU..YED CRISPLY AND BRll.IlANTIY. SHAKES, SNAPS, APPOGGlATURAS, melhor, mas os melhores resultados foram obtidos com mtodos que atribuam
TRII.lS, TURNS, MORDENTS, AND SLIDES-All SO CHARACTERJSTIC OF TifE
PERIOD WHEN lHE CLAVICHORD ENJOYED ITS GREATEST POPUURITY-ARE peso maior localizao (por exemplo, primeiras frases do pargrafo) ou sele~
IDEALLY SUlTED 10 TiiE INSTRUM.E...'ITS EXQtnSITE CURITY AND RICHNESS o de frases que continham maior concentrao de palavras que tambm
OF 'IONE. TIIE ACTION IS SHAllOW ANO VIRTUAl.lY WEIGHTLESS. IT IS A
PHENOMENON OFTifE DOUBLE-ENDED LEVER THATTifE 10NE PRODUCED ocorriam em ttulos, entrettulos, legendas ou bibliografias.
BY A STRIKING FORCE WIU. SOUND BETrER. SWEETER, AND RJCHER AT
MAXJMUM LEVER I.ENGTII. FOR TIUS REASON, TiiE KEYS OFTHE CLAVICHORD
ARE PLAYED AS NEAR 10 THE FRONT EDGES AS POSSIBLE. EXCEPT FOR lliE Operaes 'automticas, de recuperao
PLAYING OF OCTAVES, THE THmm 15 NEVER USED ON A RAISED KEY; DISPLW
PIECES OF A VIRTUOSO CHARACTER ARE GENERAUY UNSUITED lO TI-IE Uma vez que a indexao e a redao de resumos so os temas centrais
PERSONAL QUAllTIES OF THE CL\V1CHORD. CRAMER SAYS TiiAT TI-IE
ESPECIAllY REMARKABLE FEAlllRES OF CLAVICHORD MUSJC ARE FLUIDITY, examinados neste livro, a ateno deste captulo volta~se para a indexao e a
SUSTAINED MELODY DIFFUSED Wlllf EVER-VAR\'ING UGHT AND SHADOW, TI-IE elaborao automticas de resumos. Todavia, ce1ios mtodos automticos de
USE OF CERThiN MUSICAL SHADING ANO ALMOST COMPLETE ABSTINENCE
FROM PASSAGES W1TII ARPEGGlOS, LE.APS, ANO BROKEN CHOROS; recuperao da informao guardam com isso uma relao suficiente para
justificar que sejam objeto aqui de algumas consideraes, ainda que de forma
FIGURA 110 sucinta.
Exemplo de extrato produzido pelo sistema ADAM de reda~ aut_omti~a de re~un_10s Ao longo dos anos, um dos principais objetivos de inmeros pesquisadores
Reprodulido de Mathis {1972) com prmiss!o do Dep~rtm~rrt ofComputer d!ld lnformltJOn Scence. Oh"J State UruHI!ElY foi o desenvolvimento de processos que permitiriam que um pedido expresso em
texto em linguagem natural fosse cotejado com os textos dos documentos -
Embora isso seja esplndido como frase, eles no logram demonstrar que os pro~ texto completo, texto parcial ou alguma forma de representao. Considera~se
cesses que descrevem produziro uma condensao expressiva e til de urn isso como uma espcie de coincidncia de padres: atribui-se aos textos da base
artigo inteiro. . de dados um tipo de escore, que reflita o grau com que coincidem com o texto de
Hahn e Reimer ( 1984) descrevem trabalho voltado para o desenvolvimento um pedido, o que permite que sejam apresentados, a quem faz a busca, na forma
de um mtodo, inspirado no conceito de 'sistema especialista', para conden~ de uma sada ordenada por provvel relevncia.
sao de textos, em que foi adotada uma base de conhecimento de quadros So possveis vrios tipos e nveis de coincidncia. Examinemos, por ex em~
[/i-ame know/edge base] aplicada anlise sinttica [parsing] de textos. ~les pio, o pedido
preferem o termo condensao de textos a redao de resumos porque os 1~e!o~ Patologia, fisiologia, radiografia e tratamento de pneumonia causada por irradiao ou tlbrose
dos podem, em princpio, ser utilizados para criar condensaes com vanos pulmonar causada por irradiao
nveis de extenso e pormenores. e suponhamos que a base de dados consista em textos de resumos. O mtodo
Evidentemente, quanto mais formais e coerentes forem os textos dos doeu~ mais simples de pontuar uma coincidncia seria aquele que simplesmente levas-
mentos, mais bem-sucedidos provavelmente sero os processos de elabora.o se em conta quantas palavras do pedido ocorrem num resumo. Assim, um resu-
de extratos. Por exemplo, Borkowski e Martin ( 1-975) alegam ter alcanado mms mo receberia um escore elevado se contivesse as palavras 'patologia', 'fisio~
de 90% de xito na extrao automtica de ementas e prescries exaradas em logia', 'radiografia', 'irradiao' e 'tratamento' (isto , cinco das oito ocorrn~
processos, patiindo do texto de decises judiciais.
As abordagens atuais de extrao automtica, hoje em dia freqentemente
,;. Johnson et aL {1997) apresenlam um bom exemplo de estudo sobre a situao ntual da produo
chamada de 'smnarizao de textos', so mencionadas mais adiante neste cap~ de resumos mais inteligiveis por meio de concatenao de frases.
306 INDEXAO E RESUMOS: TEORIA E PRTICA 15. INDEXAO AUTOMT!CA, REDAO AUTOMT!CA DE RESUfv!OS 307
cias de palavras significativas do pedido), embora, evidentemente, seja impro- Fica evidente, com esta exposio, que podem ser usados diferentes critrios
vvel que possa ser relevante, uma vez que no contm nenhuma das palavras do na atribuio de um escore ao texto, a fim de refletir o grau em que ele coincide
pedido que so mais discriminantes. com o texto de um pedido, e que o escore atribudo pode basear-se em mais de
So possveis muitos refinamentos desse nvel rudimentar de estabelecimen- um dos critrios examinados (por exemplo, teria em conta o nmero de coinci-
to de coincidncia. Um deles consiste em atribuir a cada palavra um escore que dncias de palavras ou expresses, bem como o ndice de ocorrncia dessas
reflita o nmero de vezes em que ela aparece na base de dados como um todo. palavras ou expresses na base de dados como um todo). Teoricamente, portan-
Assim 'fibrose' e 'pneumonia' receberiam escores bastante altos, tendo em to, um sistema 'automtico' deve incorporar diversos critrios possveis para o
vista q~1e provavelmente so menos comuns numa base de dados de medicina do estabelecimento de coincidncia, e permitir ao usurio escolher um deles.
que as outras palavras, mais genricas, do pedido. Por conseguinte, um resumo O sistema mais elaborado desse tipo geral o SMART de Salton desenvol-
que contivesse essas duas palavras receberia um escore elevado, mesmo que no vido e aperfeioado ao longo de um perfodo de mais de 30 anos. xiste uma
contivesse nenhuma das outras palavras do pedido. vasta bibliografia acerca do.SMART, e se encontra uma boa sntese em Salton e
O nmero de ocorrncias de uma palavra num pedido e num resumo tambm McGill (1983). Embora os processos hajam sido aprimorados desde que esse
pode ser levado em conta na classificao dos documentos. Segundo este crit- livro foi publicado, ainda parece ser a melhor descrio dos princpios bsicos.
rio um resumo que contenha diversas vezes a palavra irradiao tem a proba- O SMART foi projetado de modo a atribuir pesos numricos aos itens, a refletir
bilidade de receber um escore elevado porque esta palavra a nica que ocorre a extenso com que coincidem com os enunciados de pedidos, e a apresentar
mais de uma vez no pedido. No caso de uma base de dados que contenha o texto esses itens ao usurio de acordo com uma ordenao por provvel relevncia,
in te oral dos documentos, preciso ter em conta a extenso destes. Do contrrio, onde aparecem em primeiro lugar aqueles com pesos maiores. O SMART incor-
doc~mentos muito extensos senipre tero uma probabilidade proporcionalmen- pora diferentes critrios para o estabelecimento de coincidncia inclusive a
te maior de serem recuperados. ponderao de termos, que visa a refletir seu fndice de ocorrncia ~uma base de
A coincidncia pode basear-se em radicais de palavras ao invs de palavras dados, coincidncia de expresses, e coincidncia baseada em razes de pala-
completas. Por este critrio, um resumo que inclua as palavras !rradiant~ e vras. Tambm possibilita a incorporao de um tesauro, o que obtido mediante
irradia, bem como irradiao, obteria um escore elevado em relaao ao pedtdo uma combinao de processamento por computador e por seres humanos. Outro
do exemplo. . , elemento essencial do SMART a 'retroalimentao de relevncia'. Se, numa
Se houvesse no sistema um tesauro criado por computador, sena poss1vel sada preliminar, o usurio puder indicar quais os itens que so relevantes e quais
substituir uma ou mais de uma das palavras do pedido pelo grupo existente no os irrelevantes, o sistema reca!cular o peso dos itens da base de dados. Con-
tesauro (ver figura 107) e ao qual pertencesse essa palavra. Se ocorresse a substi- segue-se isso com a reduo dos pesos relativos s caractersticas dos itens no-
tuio das palavras irradiao e pulmonar do pedido, os pesos dos resumos que relevantes e o aumento dos pesos das caractersticas relativas aos itens relevan-
contivessem as palavras pulmes e raios aumentariam notavelmente porque t~s. Salton (1989) descrevet~ como a anlise sinttica dos textos de captulos de
pulmes e pulmonar pertenceriam ao mesmo grupo do tesauro (junto, ta.lvez, livros, acompanhada de processos de gerao de expresses, pode ser aplicada
com o radical pneum), do mesmo modo que radiografia, irradiao ermos. produo de ndices de final de livros.
Evidentemente, a coincidncia ser mais precisa se se basear em expresses Os mtodos desenvolvidos por Salton determinam essencialmente a simila-
e no em palavras simples, pelo que qualquer sistema que coteje o texto d~ ~~1 ridade entre dois textos e expressam essa proximidade como um escore num-
pedido com os textos dos documentos precisa, definitivamente, ter a posstbt~I rico, uma 'medida de similaridade'. Nas operaes convencionais de recupera-
dade de realizar buscas em expresses. Os resumos que contenham a expressao o, mede-se a similaridade entre o texto de uma consulta e textos de docu-
'pneumortia por irradiao' re~ebero um escore alto em relao ao pedido mentos numa base de dados, e o escore numrico de similaridade ser usado para
hipottico, do mesmo modo que aqueles que contenham 'fibrose pulmonar por ordenar a sada. Outras utilizaes podero, porm, ser dadas a essa medida de
irradiao'. Os resumos onde houvesse a expresso 'fibrose pulmonar' tambm similaridade dos textos. Por exemplo, possvel medir a proximidade de textos
receberiam um escore alto, embora com menos probabilidade de ser relevantes, de documentos, o que permitir a formao de classes de textos similares. Ver,
a menos que o aspecto' irradiao' tambm estivesse presente. Em po~i~o inter- por exemplo, o 'mapa de relaes textuais' da figura 111, baseado em Salton et
mediria entre palavras simples e expresses est o emprego da proxumdade de ai. ( 1997). Embora os seis textos representados possam ser considerados seman-
palavras - neste caso a capacidade de atribuir pesos mai?res a pata:ras que ticamente relacionados, alguns so intimamente relacionados (por exemplo,
apaream perto uma da outra no texto, embora no necessanamente adJacentes. 17012 e 17016 so fortemente relacionados com um valor de 0,57), enquanto as
308 INDEXAO E RESUMOS: TEORIA E PRTICA 15. INDEXAO AUTOl\-IT!CA, REDAAO AUTO!v!TICA DE RESUMOS 309
ligaes entre outros pares so fracas (um valor de 0,09 entre 19199 e 22387 e de registros que possuam termos de indexao (como o MEDLINE) ou numa que
uma ligao completamente nO-significante entre 22387 e 8907). Salton et ai. envolva texto livre (por exemplo, resumos). O sistema pode remover automati-
propem que esses processos de medio de similaridade sejam usados para camente os sufixos das palavras (isto , reduzir as palavras a seus radicais), atri-
estabelecer vincules de hipertexto numa rede de informao. Como ser exa- buir automaticamente pesos aos termos da consulta (os pesos refletem a raridade
minado mais adiante neste captulo, podem tambm ser utilizados para medir a do termo: termos que ocorram raramente na base de dados obtm peso maior) e
similaridade entre pargrafos no mesmo texto ('similaridade intradocumental') apresentar termos possveis para que o usurio os aprove ou rejeite. Como no
e isso poder ento ser usado como base para a sumarizao do texto. SMART, os itens da base de dados recebem um escore numrico que reflete o grau
com que coincidem com o enunciado do pedido.
No CITE, os termos relacionados com aqueles empregados na consulta so
identificados somente quando a consulta houver sido processada na base de
dados. A matria-prima tra~aihada o conjunto de palavras (termos) relativas
aos documentos recuperados. Assim, nos itens recuperados sobre os termos A, B
e c, os termos R e Ttambm podem ocorrer freqUentemente e ser teis na expan-
so da busca. Os termos R e T no so considerados significativos, contudo, a
menos que ocorram no conjunto recuperado com maior freqncia do que o
esperado. Assim, tambm se leva em conta a freqncia de ocorrncia de um ter-
mo na base de dados como um todo. Por exemplo, uma base de dados de biblio-
teconomia apresenta 85 resumos en1 resposta a uma consulta simples, como
'avaliao de colees' (que interpretada como 'avaliao' e 'colees'). A
palavra 'biblioteca' ocorre em 59 desses resumos, mas no considerada signifi-
cativa, pois sua taxa de ocorrncia no conjunto recuperado (59/85) no excede
a taxa de ocorrncia na base de dados como um todo. Por outro lado, a palavra
'distribuio' seria considerada associada significativamente com 'colees' e
'avaliao': ainda que s ocorra em 8 dos 85 resumos, sua taxa de ocorrncia (8/
85) excede em muito sua taxa de ocorrncia na base de dados como um todo.
FIGURA 111 Uma das grandes vantagens do mtodo de Doszkocs no exigir um clculo
Mapa de relaes textuais baseado em Salton et aL ( 1997) a priori das associaes entre termos, uma proposta desanimadora no caso de
Reproduzido com p~m1is5o de E!se,iu Science lo. Q; valor e; numrico> a~pre;srun o gr.m de similaridade
enlre c2dA par nos seis teMOS uma base de dados muito grande. A possibilidade de obter associaes teis
entre termos a posteriori ( de:pois de a consulta haver sido processada na base de
Savoy (1995) lida com o estabelecimento de vnculos de hipe1iexto mediante dados), o que requer muito menos processamento do computador, viabiliza pro-
aplicao de mtodos probabilsticos. Tambm sugere que os vnculos de hiper- cessos de otimizao das buscas automticas em sistemas de informao opera-
texto sejam usados pat:a a obteno automtica de novos termos de busca. Por cionais de porte muito grande. Os sistemas baseados em buscas em linguagem
exemplo, se o item A for altamente relevante para uma consulta e A tiver fortes natural e na ordenao por relevncia de itens recuperados encontram-se hoje
vnculos de hipe1iexto com B, ento B poder tambm ser relevante. Alm disso, os disponveis comercialmente, como veremos mais adiante.
termos foJiemente associados com B podero ser teis para expandir mais a busca. Mtodo um pouco diferente adotado no sistema conhecido como Grateful
Outros sistemas tambm foram desenvolvidos para permitir ao usurio dar Med (Snow et ai, 1986; Bonham & Nelson, 1988). Uma tela formatada em linha
entrada a um pedido na forma de enunciado textual. Um exemplo notvel foi o convida o usurio a formular sua estratgia de busca. O sistema tambm sugere
sistema CITE desenvolvido por Doszkocs (1983), que tambm incorpora retro- ao usurio termos de busca adicionais (extrados de itens relevantes j recu-
alimentao de relevncia. O CITE (Computerized Information Transfer in English perados); uma tela de ajuda oferece sugestes para modificao de uma estra-
(Transferncia Computadorizada de Informaes em Ingls]) tem sido emprega- tgia de busca quando esta no tiver levado recuperao de qualquer item.
do como interface em linguagem natural com as bases de dados MEDLINE e A maioria dos sistemas examinados at agora so sistemas de recuperao
CATLINE da National Library ofMedicine. O CITE funciona numa base de dados bastante convencionais no sentido de que lidam com a busca de registros biblio
grficos (ou textos bibliogrficos), embora os mtodos adotados possam no ser
310 JNDEXAO E RESUMOS: TEORIA E PRT!CA 15. INDEXAO AUTOMTICA, REDAO AUTOMTICA DE RESUMOS 311
convencionais. Outros sistemas foram desenvolvidos para buscas de outros tipos cada a livros, artigos e outras publicaes remontam a mais de 30 anos (ver, por
de dados. Um exemplo uma interface em linguagem natural, pouco comum, exemplo, Bennett, 1969 e Bennett et ai., 1972). O auxlio em linha assume vrias
descrita por Clemencin (1988), que permite a um assinante consultar as 'pginas formas: sugesto de termos aos indexadores (por exemplo, com base no titulo,
amarelas' da lista telefnica em -linha da Frana por meio de enunciados de pro~ resumo ou outro texto trabalhado pelo computador a pmtir de termos j inseridos
blemas do tipo 'Gostaria de mandar consertar uma cmara fotogrfica antiga', pelo indexador), adve1tncia para certos erros do indexador (por exemplo, ter
'Preciso contratar um motorista particular', 'Os limpadores de pra-brisas do mos que ainda no se acham no vocabulrio do sistema ou combinaes
meu carro esto quebrados', ou 'Torci o tornozelo'. Em resposta, a interface indevidas de termos), substituio de termos inaceitveis por termos aceitveis,
recuperar da lista informaes sobre servios ou profissionais relevantes. e interface com a base de dados para permitir ao indexador verificar como ce1tos
termos foram usados anteriormente ou como certos itens foram antes indexados.
Abordagens atuais Os sistemas de indexao em linha em ambientes operacionais atuais ofere-
Como foi acima sugerido, a internet provocou tremendo aumento do inte- cem vrios graus de ajuda e complexidade. Por exemplo, o sistema em uso na
resse pelas tcnicas de recuperao em geral e pelos mtodos automticos em National Librmy of Medicine, o DCMS (Data Creation and Maintenance Sys-
pmticular. Alguns sistemas e processos considerados como meramente experi- tem), mostra vrias mensagens ao indexador, como foi mencionado no captulo 3.
mentais h alguns anos so hoje em dia aplicados comercialmente. Sistemas de indexao com auxlio de computador mais complexos superam
Mencionou-se no captulo anterior que o projeto TIPSTER em muito con- esses recursos e chegam ao ponto, por exemplo, de indexar parcialmente um
tribuiu para o progresso alcanado na ltima dcada em vrias atividades de pro- item ou, pelo menos, sugerir termos ao indexador. Um deles, o CAIN, foi desen
cessamento automtico de texto. Este programa, bem como esforos correlatos, volvido para ser usado no AGREP, a base de dados da Comunidade Europia
incluram vrias conferncias sobre recuperao de textos [Text Retrieval Con- sobre projetos de pesquisa agrcola em curso. As descries dos projetos inclu-
ferences (TRECs))- a undcima delas realizada em 2002- bem como confe- em tftulos, resumos e termos no-controlados que indicam o campo de ao do
rncias sobre compreenso de mensagens [Message Understanding Conferen- projeto. O CAIN compara esse texto com dois vocabulrios controlados (AGRO-
ces (MUCs) e, mais recenteme!lte, duas conferncias sobre compreenso de voe e o CAB Thesaurus) e sugere termos candidatos extrados dessas fontes
documentos [Document Understanding Conferences (oucs), em 2001 e 2002 (Friis, 1992). Outros sistemas operacionais possuem recursos similares. No caso
(ver http://www-nlpir.nist.gov/projects/duc/). As DUCs tratam da sumarizao de sistemas que funcionam com textos curtos (por exemplo, telegramas) e/ou
de textos e so um componente do TIDES (programa Translingual lnforrnation vocabulrios controlados relativamente pequenos, sistemas desse tipo so
Detection, Extraction, and Summarization da DARPA. Tambm houve uma im- capazes de fazer corretamente grande parte da indexao antes de o indexador
pmtante conferncia sobre avaliao de mtodos de sumarizao (Manietai., 1998), humano fazer a reviso para corrigir ou acrescentar o que for preciso.
Embora o patrocnio formal do governo ao TIPSTER haja expirado em outu- No Center for AeroSpace Information (CASI) da NASA existe um sistema
bro de 1998 (Gee, 1999), permanece a cooperao nessas reas, inclusive com totalmente operacional, em grande escala, de indexao com auxlio do com-
a continuao das atividades TREC. O trabalho do TISPTER e as contribuies das putador, que foi descrito por Silvester et ai. ( 1994) e Silves ter ( 1998). Uma base
TRECs em especial foram totalmente estudados na literatura (ver, por exemplo, de conhecimento constituda de expresses que podem ocorrer na literah1ra
Harman, 1997, Sparck Jones, 1995, e Voorhees e Hannan, 1999, 2000). A ver- aeroespacial (128 000 entradas em 1998) empregada para o estabelecimento
tente do TRACK que trata de recuperao interativa foi revista por O ver (200 l). de ligaes com os termos do tesauro da NASA. Isto , a ocorrncia dessas
Contriburam tambm de forma importante para as pesquisas nessa rea as expresses em texto de entrada (normalmente tftulos e resumos) leva o sistema
conferncias sobre processamento de linguagem nah1ral aplicada [Conferences a produzir uma lista de descritores candidatos que sero revistos pelo indexador.
on Applied Natural Language Processing] e as conferncias internacionais sobre No CASI, trabalhos relacionados com esse desenvolveram procedimentos para
anlise e reconhecimento de documentos [Intemational Conferences on Document ligao com os termos do tesauro da NASA dos termos atribudos a registros por
Analysis and Recognition]. outras agncias e com o emprego de outros vocabulrios (Silvester et aL, 1993).
As atividades de processamento automtico de textos relativas ao assunto Ainda perdura um grande interesse pela indexao automtica destinada a
deste livro incluem indexao c9111 auxHo de computador, indexao completa- pequenas aplicaes especializadas, paiticulannente no campo biomdico. Em
mente automtica, encaminhamento de mensagens (categorizao de textos), um exemplo (Borst et ai., 1992), o texto de resumos de alta de pacientes anali-
sumarizao e extrao de textos, e ampliao e gerao de textos. sado, a fim de atribuir automaticamente os descritores clnicos relevantes. De
As pesquisas sobre indexao com auxlio de computador, em linha, apli- ce1ta forma parecido com esse sistema o descrito por Oliver e Altman (1994),
~T
312 fNDEXAO E RESUMOS: TEORIA E PRTICA 15. INDEXAO AUTOMTICA, REDAO AUTOMTICA DE RESUMOS 313
que analisar pronturios mdicos e a eles atribuir termos da SNOMED (Syste-
matized Nomenclature ofHuman and Veterinary Medicine).
I Alguns sistemas ou programas descritos na literatura so citados como
'mtificialmente inteligentes'. Encontram-se exemplos em Driscoll et ai. ( 1991) e
Embora se reivindique um nvel razovel de desempenho para esse tipo de Jones e Bel! (1992). Os dois ltimos autores descrevem um sistema projetado
indexao por atribuio em reas especializadas, esses processos automticos para extrair palavras ou expresses de textos, a fim de formar entradas de fndices.
geralmente no conseguem alcanar o nvel de desempenho obtido por indexa- Seu funcionamento, em grande pm1e, baseia-se em listas armazenadas: de pala-
dores humanos (ver, por exemplo, Chute e Yang, 1993). No obstante, esse tipo vras a serem ignoradas, palavras/expresses/nomes de reconhecido interesse, e
de indexao automtica poder reduzir a carga de trabalho dos indexadores listas auxiliares para desambiguao de homgrafos, para fundir formas do sin-
humanos ao fazer uma atribuio preliminar. Rindflesch e Aronson ( 1994) anali- gular/plural e para permitir uma anlise simples (lista de terminaes de voc-
sam alguns dos problemas de ambigOidade presentes na ligao do texto com bulos). As listas so combinadas para formar um dicionrio, que tambm inclui
vocabulrios mdicos (neste caso, o Unified Medicai Language System) e apre- informaes que permitem outros recursos, como, de modo limitado, indexao
sentam vrias regras de desambiguao. tanto com os termos especficos quanto com os mais genricos [generic posting].
Est longe de se materializar a indexao por atribuio completamente O sistema descrito por Drisco 11 et ai. tambm se destina a encontrar no texto
automtica (isto , sem qualquer interveno humana) de textos que tenham a termos de indexao teis. O texto processado em cotejo com uma lista de mais
extenso de artigos e que tratem de assuntos complexos (por exemplo, em de 3 000 expresses. A ocorrncia de uma delas no texto aciona o uso de regras
medicina, qumica ou flsica), especialmente quando o vocabulrio controlado de insero e eliminao. As regras de eliminao simplesmente evitam novo
utilizado for muito grande, e por isso foram empreendidas pesquisas para obter processamento de palavras ou expresses que sejam ambfguas, enquanto as
sistemas especialistas mais cmplexos para ajudar o indexador. Um exemplo regras de insero podem gerar, por implicao, um conjunto limitado de termos
marcante foi o MedindEx, que a National Librmy ofMedicine desenvolveu du- procurados (para completar um 'padro'). Por exemplo, as palavras 'time',
rante muitos anos (Humphrey, 1992). Trata-se de uma abordagem convencional 'over' e 'target' [tempo, sobre, alvo] geraro AIR \V ARFARE [guerra area], se
de um sistema especialista baseado em quadros [/i'ame-based]. O usurio, que aparecerem distncia de x palavras uma da outra. Malone et ai. (1991) apre-
no precisa ser um indexador experiente, mas deve pelo menos ter alguma noo sentam um modelo estatstico para previso do desempenho deste sistema.
da Uteratura mdica e sua terminologia, guiado para vrios quadros relevantes Sistemas como os do tipo descrito por Driscoll et ai. e por Jones e Bell so
(por exemplo, tipo de doena, tipo de tratamento) e solicitado a preench-los. O engenhosos. So capazes de realizar indexao por extrao, ou extrao com
sistema pode instar o indexador a atribuir determinado termo e tambm corrigi- atribuio limitada, em nvel comparvel ao alcanado por indexadores huma-
lo quando o termo for empregado de modo inapropriado. Por exemplo, o indexa- nos e por um custo menor. No mnimo, so teis para apresentar termos candi-
dor que atribuir um termo em que aparea a palavra neop/asia (cncer) com datos que sero revistos por seres humanos. Todavia, no se pode realmente
indicao da localizao da doena (por exemplo, neoplasia ssea) pode ser concordar que apresentem inteligncia verdadeira. O mesmo se pode dizer dos
lembrado a atribuir um termo associado que representa o tipo histolgico da programas que desenvolve1i1 'tesauros' e outros recursos auxiliares de busca
neoplasia (por exemplo, adenocarcinoma). Ou o indexador que atribuir uma com base na co-ocorrncia de termos (por exemplo, Chen et al. 1995).
combinao imprpria, como (emur e neoplasias sseas, poder ser informado Continuam a aparecer na literatura pesquisas destinadas a identificar melho-
do termo correto, neste caso neoplasiasfemorais. O MedlndEx foi abandonado res critrios de associao estatfstica para a atribuio de termos de vocabulrios
em favor de pesquisas sobre mtodos mais totalmente automticos. controlados, com base nas ocorrncias de palavras no texto. Plaunt e Norgard
Outros sistemas especialistas foram desenvolvidos para auxiliar no treina- (1998), por exemplo, descrevem experincias com a atribuio de termos do
mento de indexadores ao invs de ajudar no processo de indexao de forma tesauro INSPEC com base numa tcnica de 'colocao lexica\'.
rotineira; um sistema desse tipo :_CAIT (Computer-Assisted Indexing Tutor)- A National Library o f Medicine (NLM) investe atualmente expressivos re-
foi desenvolvido na National Agricultura! Library (Irving, 1997). cursos no desenvolvimento de processos para atribuir automaticamente a m1igos
Qualquer sistema informatizado que auxilie no trabalho de indexao tem- de peridicos os cabealhos do !vfedical Subject Headings (.HeSH). Isso est se
tica pode ser visto como um sistema especialista, pelo menos no sentido mais tornando uma necessidade crtica, devido ao volume de processamento: cerca de
lato do termo, principalmente se ajudar uma pessoa menos experiente a se apro- 400 000 artigos por ano de cerca de 4 300 peridicos biomdicos, com mais de
ximar do trabalho de um indexador especializado. E sistemas que sugerem ter- 19 000 termos nos vocabulrios MeSH. O problema abordado pela NLM
mos aos indexadores ou corrigem certos erros deles podem ser vistos como Indexing Initiative. Aron-son et ai. (2000) assim a justifica:
sistemas que tm pelo menos um tantinho de 'inteligncia'.
medida que um nmero cada vez maior de documentos torna-se disponvel em
314 INDEXAO E RESUMOS: TEORIA E PRTICA 15. INDEXAO AUTOtvtTICA, REDAO AUTOMTlCA DE RESU/vtOS 315
formato eletrnico e mais organizaes desenvolvem 'bibliotecas digitais' para seus ve para dar uma idia dos grndes problemas envolvidos na tentativa de automa-
acervos, passam a ser necessrias tcnicas automatizadas para acessar as intrma- tizar totalmente a indexao por atribuio no ambiente de uma base de dados real.
es. No possvel indexar manualmente cada documento, e novos mtodos devem Bradshaw e Hammond ( 1999) descrevem um sistema em que as citaes que
ser desenvolvidos. Essas consideraes levaram a promover na biblioteca a Indexing uma publicao faz de outra podem levar extrao de texto que seria uma des-
Initiative. Mtodos automatizados desenvolvidos e implementados nesse projeto crio til para recuperao. Isto , se a publicao A cita a publicao B, A talvez
tero um impacto importante na capacidade de a NLM continuar oferecendo servios
inclua texto que indica do que trata B ou, pelo menos, do que acha que B trata. Por
de alta qualidade a seu pblico (p. 17).
exemplo, um trabalho de Harpring (2002) cita um livro de Panofsky e afirma:
Trs mtodos principais de indexao automtica esto sendo pesquisados Panofsky identit1cou trs niveis principais de signiticado na arte: descritio priconogrtica,
na NLM. Cada um deles pode gerar uma lista de candidatos a cabealhos de identificao iconogrilca, e interpretao iconogrl1ca ou 'iconologia'.
assuntos ordenada por relevncia provvel; alternativamente, a ordenao pode claro que este texto oferece alguns 'termos de indexao' teis para Panofsky:
ser obtida pela combinao de dois mtodos ou, efetivamente, todos trs. Dois significado, arte, iconografia, iconologia e assim por diante. O mtodo cmioso,
desses mtodos envolvem a ligao com os tennos do MeSH de expresses mas dificil perceber nele alguma aplicao prtica, exceto, talvez, para uma
presentes nos ttulos dos a1iigos e nos resumos. O Unified Medicai Language base de dados de textos em rea temtica altamente especializada. Os exemplos
System utilizado como ferramenta para o estabelecimento dessas ligaes (ver de buscas bem-sucedidas usados por Bradshaw e Hammond (em consultas sobre
tambm Wright et ai., 1999, e Aronson, 2001 ). O terceiro mtodo obtm os ter- 'Java' e common Lisp') so bastante comuns, principalmente porque resultados
mos candidatos mediante o cotejo das palavras, do titulo e do resumo, de um iguais teriam sido obtidos com buscas de palavras-chave nos ttulos.
artigo (novo' com as palavras que ocorrem no ttulo e no resumo de artigos j \Voodruff e Plaunt (1994) descrevem um sistema singular para indexao
indexados. Os termos atribufdos aos artigos coincidentes tornam-se candidatos geogrfica automtica. Dest.ina-se a:
para atribuio ao novo artigo.
[ ... ]extrair de documentos nomes de lugares e tambm indicadores geogrficos mais
Humpluey ( 1999) estudou a relao entre as palavras do texto em ttulos e
genricos, e utilizar a interseo desses referentes para gerar estimativas da rea
resumos de artigos mdicos e a categoria de assunto do peridico onde apare-
qual se refere um documento (p. 648).
ciam. Por exemplo, se certo grupo de palavras-chave estiver fortemente asso-
ciado categoria cardiologia', porque ocorrem freqUentemente em peridicos Nomes de lugares identificados no texto podem ser cotejados com uma base de
de cardiologia, o termo CARDIOLOGIA ser automaticamente atribudo a qual- dados que fornecer coordenadas de latitude/longitude e tambm 'caractersti-
quer texto onde oco1Ta esse grupo de palavras-chave. Embora essa categoriza- cas' correlatas, como 'floresta', 'reserva', 'porto' e 'pntano'.
o genrica no seja adequada para muitas finalidades, poder ter aplicaes Parece provvel que, pelo menos na maior parte das aplicaes, sempre
prticas. Por exemplo, poderia ser adotada para categorizar automaticamente haver itens que no podem ser indexados automaticamente. Ribeiro-Neto et ai.
stios biomdicos existentes na Rede (Humphrey, 2000; Humphrey et al., 2003). (200 I), por exemplo, descrevem processos para atribuio automtica de cate~
Outros grupos de pesquisadores, sem afiliao com a National Librmy of gorias da Classificao Internacional de Doenas (CID) a pronturios mdicos.
Medicine, desenvolveram mtodos de indexao automtica por atribuio em O texto dos pronturios cotejado com termos relativos a cada uma das catego-
biomedicina. Roberts e Souter (2000) descrevem tcnicas para atribuio de rias e subcategorias da CID (extradas de seu ndice, junto com dicionrios de
descritores baseadas em seqncias de palavras de ttulos de miigos e ocorrn- sinnimos e siglas). Com base na indexao de mais de 20 000 pronturios, os
cias de palavras em resumos ( preciso que uma palavravchave ocorra pelo autores afirmam que obtiveram resultados excelentes'. Embora muito poucos
menos trs vezes para ser considerada impmiante). Depois de haver processado dos cdigos atribudos fossem julgados errados', mais de 3 000 registros no
100 registros, a atribuio automtica de descritores foi comparada com descri- receberam o cdigo 'ideal'. Desses, 918 no receberam cdigo algum (isto , o
tores atribudos por seres humanos. Os mtodos automticos omitiram muitos algoritmo no conseguiu index-los), que, na grande maioria, asseveram os
descritores que as pessoas atriburam corretamente e acrescentaram muitos que autores, "representam casosque somente podem ser inteiramente categorizados
no deviam ter sido atribudos, embora tambm hajam acrescentado uma mdia com auxlio humano (porque, por exemplo, exigem o conhecimento especfico
levemente superior a um descritor por registro que os seres humanos deveriam de determinada patologia)".
ter atribudo mas no o fizeram. Dos 5,5 descritores por registro atribudos auto- Continuam as pesquisas na rea de 'indexao semntica latente'. Anderson
maticamente, apenas 3,5 foram julgados corretos. As condies em que traba- e Prez~Carballo (2001) descrevem o mtodo da seguinte forma:
lharam eram muito simples em comparao com as do MEDLINE (por exemplo, A indexao semntica latente (ISL) um dos mais elaborados esforos atuais visan-
um vocabulrio muito menor e muito menos termos atribudos por item) o que ser-
~--

316 INDEXAAO E RESUMOS: TEORIA E PRTICA 15. fNDEXAO AUTOMTICA, REDAO AUTOMTICA DE RESUMOS 317
do a uma indexao automtica de alta qualidade. Fundamenta-se em agrupamentos Goodby (200 I) comparou a extrao de expresses por meio de processos
de termos baseados em co-ocorrncia e identitkao de documentos relativos a tais lingsticos (anlise sinttica para identificar sintagmas nominais com extrao
agrupamentos. Ao se apoiar em dados de co-ocorrncia a ISL tambm consegue lidar baseada em estatstica de freqUncia, e chegou concluso de que o mtodo mais
com o problema da variedade de termos que expressam idias semelhantes.[... ] simples de freqncia apresenta resultados to bons quanto os do mtodo de
Como exemplo da capacidade de a ISL lidar com terminologia divergente, imagi-
anlise sinttica. O mtodo estatstico pode identificar pares de palavras que
nemos documentos sobre conserto e manuteno de automveis. Documentos dife-
rentes usaro vrios termos diferentes como 'automvel', 'carro', 'veiculo automo- ocorrem freqUentemente num cOJpus, sua freqncia num documento e sua
tor', 'sed', alm dos nomes de marcas e modelos~ 'Buick', 'Piymouth', 'Chero- ocOJTncia no documento em expresses mais longas (Goodby e Reighmt, 200 I).
kee'. O programa ISL, mui provavelmente, relacionar esses termos entre si devido ao Os processos de indexao automtica relacionam-se muito de pe1to com os
alto nvel de co-ocorrncia com termos como 'leo', 'gasolina', combustvel', 'car- processos de categorizao de textos (ou melhor, classificao de textos).* Em
burador', 'pneus', 'ar-condicionado', etc. O programa cria agrupamentos de termos essncia, vrias caractersticas de um texto, especialmente a ocorrncia de diver-
altamente relacionados (por meio daca-ocorrncia), de modo que, quando um nme- sas palavras ou expresses, so empregadas pelo computador para colocar esse
ro suficiente deles ocorre num iocumento, este pode ser ligado ao agrupamento res- texto numa ou vrias categorias preestabelecidas. A origem conceitual disso est
pectivo. Assim, possvel fazer buscas sobre cuidado e manuteno de carburado- nos programas que foram desenvolvidos para a disseminao seletiva de infor-
res de automveis a gasolina sem nos preocuparmos com as palavras especificas
maes (os!). Nesta, as caractersticas de itens publicados recentemente so
usadas para automvel. Todas as palavras que significam mais ou menos o mesmo
que automvel sero ligadas ao mesmo agrupamento, medida que um nmero sufi- cotejadas com os 'perfis de interesse' de pessoas ou grupos. Ao ocorrer uma
ciente de outros tennos co-ocorrentes coincidir com os tem1osdo agrupamento (p. 266). coincidncia de determinado valor, o item selecionado ser levado ao conheci-
mento da pessoa ou grupo. Esse tipo de servio de notificao corrente remonta,
Na realidade, a indexao semntica latente no de fato um mtodo de inde- de fato, a 1959.
xao, mas uma maneira de desenvolver automaticamente uma estratgia de Esse cotejo de documentos recebidos com os perfis de interesses armazena-
busca para produzir termos semanticamente relacionados. Por exemplo, o termo dos no sistema designado 'filtragem e encaminhamento' no ambiente TREC.
A estar um tanto relacionado com o termo y se ambos ocorrerem freqUente- Robertson (2002) faz uma reviso desse componente das pesquisas TREC.
mente com o termo Q. Com esse mtodo, poder-se- recuperar documentos pos- Uma aplicao importante do encaminhamento a categorizao de notcias
sivelmente relevantes cujos termos de indexao diferem dos termos da consulta recebidas. O sistema CONSTRUE, desenvolvido para a Reuters Ltd., classifica
mas esto estatisticamente relacionados a ele. Segundo Gordon e Dumais ( 1998): uma seqncia de notfcias com o emprego de um esquema de at 674 categorias
Na prtica, isso significa que dois documentos que usam vocabulrios com alto grau (Hayes e Weinstein, 1991; Hayes, 1992a). Chen et al. (1994) descrevem proces-
de duplicidade podem ser ambos recuperados mesmo que a consulta somente empre- sos para identificao de conceitos que ocorrem no texto de reunies eletr~
gue os termos que indexam um deles. Igualmente, termos sero considerados 'prxi- nicas; neste caso, os conceitos so identificados pelos procedimentos ao invs de
mos' uns dos outros se ocorrerem em conjuntos de documentos coincidentes (p. 677). serem preestabelecidos. Yang (1999) comparou o desempenho de vrios mto-
Analisam o emprego desse mtodo como uma maneira de identificar literahtras dos de categorizao de texto, valendo-se de diferentes critrios de avaliao,
'desconexas' (ver, por exemplo, Swanson, 1990): a literatura A estar relacio- em diversas colees de telegramas de notcias da Reuters.
nada com a literatura Y se os termos de indexao de A forem similares aos de Q A categorizao automtica de texto est incorporada a muitos sistemas ope~
e os de Y forem tambm semelhantes aos de Q, embora os termos conectivos em racionais de publicao. Encontra-se um bom exemplo no trabalho de AI-Kofahi
cada caso sejam diferentes. Notem-se as semelhanas entre a indexao semnti- et ai. (200 l ). A aplicao inclui a atribuio de ementas de casos jurdicos a um
ca latente e a recuperao associativa descrita muito antes por Stiles (1961). esquema de classificao baseado em rnais de 13 000 conceitos legais. A cada
Um importante elemento no processamento automtico de texto o reconhe- semana so produzidas cerca de 12 000 ementas. A categorizao baseia-se fun-
cimento e extrao de expresses que provavelmente sejam bons indicadores de damentalmente nos substantivos e pares de substantivo-substantivo, substan-
contedo. As expresses extradas podem ser empregadas como termos de inde- tivo-verbo e substantivo-adjetivo que ocorrem no texto da ementa, cotejados
xao, ser listadas para formar um tipo de resumo, ou usadas para ligar os termos com os substantivos/pares de substantivos relativos a cada categoria. A atribui-
de um vocabulrio controlado. Foram investigados muitos mtodos. o no completamente automtica~ os processos resultam em sugestes de
Kim e Wilbur (200 l) estudaram trs diferentes mtodos estatsticos para a categorizao que so examinadas por uma equipe editorial. Afirma-se que os
seleo de expresses portadoras de contedo no texto, comparou-as e avaliou
seu emprego conjunto na extrao de expresses. * VerGuthrie et a\. (1999) para umn nnlise dos critrios de freqncia na categorizao de textos.
i
3l8 INDEXAO E RESUMOS: TEORIA E PRTICA 15. INDEXAO AUTOMTICA, REDAO AUTOMT!CA DE RESUMOS 319
processos automticos se comparam favoravelmente com os procedimentos ma- cao Decimal de Dewey valendo-se do esquema da MiS como interface ser
nuais, que substituem, em termos da quantidade de ementas processadas por se- ce1iamente til". Esse tipo de aplicao, porm, parece de utilidade muito limitada.
mana. Para um ingresso semanal de 12 000 ementas a categorizao automtica faz De interesse mais amplo seria um sistema interativo que ajudasse na atri-
cerca de 1 600 sugestes, 900 das quais so aceitas, 170 recusadas e 530 no so buio real de nmeros de classificao. Alguns trabalhos nessa linha j foram
adotadas por razes editoriais (a preciso estimada em 89%- 1430/1600). realizados, mas no em escala muito grande. Por exemplo, Gowtham e Kamat
H atualmente programas de computador que realizam algum nvel de classi- (l995) desenvolveram um prottipo de sistema de classificao no campo da
ficao automtica de recursos da Rede (Trippe, 200l; Reamy, 2002). Reamy, metalurgia com o emprego da Classificao Decimal Universal (cou). Embora
que trata o processo como 'autocategorizao', resume algumas das abordagens: muito menos ambicioso e complexo do que o sistema MedrndEx antes descrito,
A primeira e melhor coisa que um programa de autocategorizao pode fuzer exa- o pro.ttipo qu~ descrevem fimciona de maneira semelhante, pois sugere ao
minar cOm muita rapidez cada palavra do doct1mento e analisar as freqUncias de usuno constnur um nmero de classificao que contenha todas as facetas
padres de palavras e, com base numa comparao com a ta\:onomia existente, atri- necessrias (tipo de metal, propriedade, tipo de processo adotado, e assim por
buir o documento a determinada categoria dessa taxonomia. diante). Cosgrove e Weimann (l992) tambm examinam uma abordagem de
Outras coisas que esto sendo feitas com esse programa so 'agrupamento' ou siste~na especialista na utilizao da classificao pela c ou, porm de uma pers-
'construo de ta\:onomia' em que o programa simplesmente apontado para uma pectiva terica. No existe qualquer indicio de que algum sistema, mesmo em
coleo de documentos, por exemplo de lO 000 a 100 000, e ele pesquisa em todas carter experimental, haja sido implementado.
us combinaes de palanas em busca de aglomerados ou agrupamentos de docu-
mentos que paream ser da mesma classe (p. 18). Importantes trabalhos sobre classificao automtica foram realizados no
OCLC. O projeto Scorpion, no OCLC, efetuou experincias com a classificao
Trippe menciona diversos produtos desse tipo, inclusive um da empresa Eprise automtica de pginas da Rede com o emprego da Classificao Decimal de
que assim descrito: Dewey (Thompson etal., 1997). A atribuio baseava-se no cotejo de texto da
De acordo com Hank Barnes, vice-presidente de estratgia da Eprise, 'Um aspecto Rede com as definies t~xtuais dos nmeros de classificao da CDD, mediante
importante para tornar os contedos mais eficazes so as metaetiquetas de classi- o uso de algoritmos desenvolvidos para utilizao no sistema SMART de Salton.
ficao. Elas permitem aos usurios de contedos encontrar mais facilmente infor- Antes, Larson ( 1992) testou, em pequena escala, a atribuio automtica de
maes relevantes e obter informaes mais profundas sobre assuntos especficos'. nmeros de classificao da Library ofCongress. Seu objetivo era diferente: a
Barnes observa que a Eprise utiliza esses tipos de etiquetas para localizar informa- atribuio automtica de um nico nmero a um livro com base nos ttulos e
es de modo dinmico em resposta a aes dos usurios, como seguir determinado cabealhos de assuntos presentes nos registros MARC. Assim como no estudo
caminho num sftio da Rede. Acrescenta Barnes, 'Com freqUncia, esse mtodo de feito pelo OCLC, seu algoritmo ordenava os nmeros de classificao em ordem
fornecimento de contedos que se baseia em classificao muito mais eficaz do que
de probabilidade de 'correo'. Larson concluiu que talvez no fosse possvel
buscas em texto completo ou de utilidade geral' (p. 46).
uma classificao totalmente automtica, mas uma classificao semi-autom-
Kwon e Lee (2003) tambm tratam da classificao de stios da Rede, enquanto tica. Isto , o programa produziria uma lista de nmeros candidatos (os de mais
Lawrence et ai. ( 1999) descrevem procedimentos para citao automtica de alta pontuao) da qual o classificador selecionaria o que fosse mais apropriado.
literatura cientfica na Rede. Pesquisas sobre classificao automtica tambm so feitas em campos
Os processos de categorizao de textos at agora descritos representam for- completamente diversos. Por exemplo, Bailin et ai. ( 1993) examinaram trabaM
mas de classificao autmtica, isto , a atribuio de itens a classes ou cate- lhos sobre classificao de componentes de programas de computador (para um
gorias preestabelecidas. Ao longo dos anos, foram feitos estudos sobre a auto repositrio de programas reutilizveis); afirmam que houve caractersticas de
mao do tipo de classificao com o qual os bibliotecrios esto mais familiari- aprendizado de mquina. Savi (1995) lida com as possibilidades de classifi-
zados, a saber, a atribuio de nmeros de classit1cao a livros, mas disso no cao automtica de correspondncia administrativa.
resultaram sistemas totalmente operacionais. Iyer e Giguere ( 1995) fizeram es- Em vrios centros de pesquisa, fora do campo da biblioteconomia/cincia da
tudo sobre o desenvolvimento de um sistema especialista que estabelecesse liga- informao, tm prosseguimento trabalhos sobre a construo automtica de
o entre um sistema de classificao e outro, no caso especfico do esquema de tesauros. As ferramentas assim construdas, embora, de fato, possivelmente
matemtica da American Mathematical Society para a classe de matemtica da revelem relaes teis entre termos, so muito menos estruturadas do que os
Classificao Decimal de Dewey. Afirmam que "Uma intetface que permita aos tesauros criados por seres humanos. Encontram-se exemplos em Gao et ai.
rnatemticos ter acesso aos acervos de bibliotecas organizados pela Classifi- (I 995), Chen et ai. (I 995) e Lu et ai. ( l995).

Il
320 INDEXAO E RESUMOS: TEORIA E PR}.,T!CA {5. INDEXAO AUTO}...fTICA, REDAO AUTOMTICA DE RESUMOS 32l
Embora a indexao assistida por computador possua uma longa histria, a Peso da frase = peso da localizao + peso da expresso-deixa +
redao de resumos assistida por computador (ao contrrio dos mtodos total- peso da ocorrncia no texto + peso da ocorrncia na base de dados
mente automticos) tem recebido muito pouca ateno. Craven (2000, 200 l ), no Naturalmente, o ltimo componente um peso negativo: palavras ou expresses
entanto, descreveu um sistema que gerar automaticamente palavras-chave ou obtm escores mais elevados quanto menos frequentemente ocorrerem alhures
expresses a pm1ir de texto completo e as exibir em janelas para ajudar quem na base de dados. Hahn e Mani tambm sugerem o emprego de um peso adicio-
estiver preparando um resumo para esse texto. As expresses so escolhidas nal para palavras/expresses baseado na ocorrncia alhures no texto (por ex-em-
com base num escore numrico que reflete o nmero de palavras-chave 'fre- plo, peso maior se tambm ocorrer no ttulo) ou mesmo ocorrncia numa lista de
qUentes' na expresso, o tamanho da expresso e o nmero de vezes em que ela termos que representam interesses atuais.
ocorre. Os sujeitos de sua experincia julgaram que as expresses extradas no Saltou et ai. ( 1997) descreveram um mtodo de produo automtica de
eram mais teis do que as palavras-chave na redao dos resumos. resumos de textos completos. Os mtodos empregados para medir a semelhana
A denominao 'redao automtica de resumos' cedeu lugar denomi- entre pares de documentos (ver figura 111) podem ser tambm empregados para
nao 'sumarizao de textos'. Na realidade, nenhum grupo de pesquisa conse- medir a semelhana enhe pares de pargrafos no mesmo documento. Assim,
guiu produzir automaticamente o tipo de resumo que uma pessoa consegue podem ser formados agrupamentos de textos, em que um agrupamento consiste
redigir. A sumarizao automtica ainda uma questo de seleo de frases e o em pargrafos, possivelmente extrados de partes completamente diferentes do
objetivo das pesquisas nesta rea consiste em otimizar essa seleo (no sentido texto, que parecem tratar do mesmo tema. Afirmam que isso permite a formao
de escolher as frases que melhor representem o contedo do texto presente) e de resumos de textos, inteligveis, por meio da extrao de pargrafos. Observe-
organizar as fraseS selecionadas (possivelmente modificando-as mediante algu- se que o trabalho deles um tanto diferente da maioria dos trabalhos que tratam
ma forma de fuso) para melhorar a clareza e utilidade do extrato .. de redao automtica de resurnos, que se baseiam na frase como unidade, e no
A sumarizao pode envolver vrias transformaes do texto para condens- no pargrafo. Os procedimentos empregados por Salton et ai. produzem resu-
lo ainda mais. Por exemplo, possvel agregar enunciados por meio de anlise mos de textos mais longos do que as abordagens mais convencionais.
sinttica e semntica. Mani (2001) apresenta o exemplo muito simples de 'Joo Resumos de textos produzidos por essa extrao de pargrafos foram com-
e Maria jantaram juntos' e 'Ento Joo lhe props casamento' que se agregam parados com resumos produzidos pela extrao feita por seres humanos de
para formar' Joo props casamento a Maria depois do jantar'. . pargrafos 'importantes'. Os pesquisadores consideram aceitveis os processos
As limitaes dos mtodos atuais de sumarizao foram bem explicadas por automticos porque o resumo da resultante tem tanta probabilidade de coincidir
Hahn e Mani (2000): com um resumo extratado por uma pessoa quanto dois resumos extratados por
[... ]sua aplicao limita-se extrao- selecionar passagens originais do d~ocu pessoas tm de estar de acordo um com o outro, embora os processos autom-
mento-fonte e concaten-las de modo que produzam um texto menor. A redaao de ticos saiam muito mais baratos.
resumos, em compensao, pamfraseia em temtos mais gerais aquilo de que tratao texto. McKeown et ai. (l995) e Maybwy (l995) descrevem atividades altamente
O mtodo de concatenao para fazer a extrao em pouco contribui para garantir especializadas de sumarizao. Os primeiros geram resumos narrativos de
a coerncia do resumo, o que pode diticultar a leitura do texto. Alm do que, nem dados armazenados (e no de texto narrativo) relativos a jogos de basquetebol e
sempre a fonte possui texto- por exemplo, um evento esportivo em videoteipe ou atividade de planejamento de redes telefnicas, enquanto o sistema de Maybury
tabelas que mostram dados econmicos- e as ferramentas atuais no podem resu- gera resumos textuais de mensagens militares altamente condensadas e estru-
mir mdia no-textual. Finalmente, essas ferramentas atualmente no trabalham com turadas (dados de batalha).
fontes mltiplas. Por exemplo, se houvesse muitas notcias na Rede sobre um evento,
Nomoto e Matsumoto (200 I) descrevem um mtodo de criao de resumos
seria til se o resumidor pudesse capturar informaes comuns e novas (p. 29).
em que a 'diversidade' levada em conta na formao do extrato. Isto , so
As duas ltimas limitaes mencionadas realmente no so mais vlidas porque identificados os vrios tpicos abrangidos pelo texto e selecionada a frase mais
agora existem diversos mtodos para resumir material em vdeo (ver captulo representativa para cada tpico.
13) e multidocumentos. Saggion e Lapahne (2000) descrevem um mtodo de sumarizao baseado
Hahn e Mani (2000) salientam que os mtodos atuais de extrao utilizam em 'anlise seletiva'. O mtodo possui duas etapas. Na primeira, um resumo
um modelo de ponderao linear com vrios componentes, tais como localiza- indicativo apresentado ao usurio (na realidade, apenas uma lista de termos-
o no texto, nmero de ocorrncias na base de dados com.o um todo e o apare- chave extrados); se o usurio quiser mais, sero recuperadas e apresentadas a
cimento de expresses-deixa [cu e phrases ]. Assim, uma umdade de texto (geral- ele passagens importantes do texto.
mente uma frase) seria selecionada com base num modelo do seguinte tipo:
322 INDEXAO E RESUMOS: TEORIA E PRTICA !5. rNDEXAO AUTOMTtCA, tEDAO AUT01v1TICA DE RESUMOS 323
O mtodo usado por Lehmam ( 1999) baseiaRse na seleo de frases que con~ Gong e Liu (200 1) referem-se a resumos que se relacionam com determinado
tenham a maior concentrao de palavras 'indicadoras de contedo' ou expresR assunto como 'relevantes para a consulta'.
ses como 'nesta pesquisa', 'o mtodo' e ' examinado'. Mani (200 1) faz uma reviso de trabalhos sobre vrias formas de sumariza-
Ainda existe um forte interesse pela preparao automtica de extratos. Por o aplicada a apresentaes de multimdia, que inclui tanto sumarizao de
exemplo, Moens e Dumortier (2000) descrevem procedimentos para produo udio quanto de vfdeo. Tambm possvel usar a sumarizao automtica junto
de extratos de a1tigos de revistas de interesse geral. A finalidade desses 'resumos com outros processos automticos, como o emprego dos resumos produzidos
em realce' [high-light abstracts] despetiar suficiente interesse dos leitores como entrada para categorizao de texto (ver, por exemplo, Kolcz et ai., 200 1).
que, navegando em linha nos resumos, sentiriam vontade de ler o artigo !lteiro. medida que os mtodos de sumarizao foram se tornando cada vez mais
Eles descrevem as caractersticas almejadas da seguinte forma: aprimorados, surgiam aplicaes mais especializadas. Elas incluem sumariza-
O resumo em realce indicativo do contedo do texto original. Sugere os principais
o de multidocumentos e miniaturizao de textos.
tpicos do artigo sem entrar em muitos detalhes, o que tornaria suprtlua a leitura do A sumarzao de textos no precisa restringir-se a um nico texto. Na suma-
texto completo. O resumo em realce possui uma dimenso adicional. Deve no ape- rizao automtica de multidocumentos (Mani, 200 I), frases de muitas fontes
nas ser factual e sugerir de que trata o artigo, mas tambm estimular a aquisio do independentes podem ser fundidas para formar um resumo. Por exemplo, todas
artigo completo. O resumo consiste em recortes de texto, isto , frases e enunciados as referncias a determinada pessoa ou evento podem ser localizadas numa base
extrados do texto. De preferncia contm frases curtas e facilmente inteliglveis, que de dados de textos, e essas referncias comparadas para eliminar redundncia e
no dependam do contexto do artigo circundante para permitir uma interpretao fundir o que restar em algumas fiases proeminentes.
correta. importante incluir linguagem conversacional no resumo (por exemplo, fra- Schiffinan et al. (200 1) descrevem um sistema para criar um dossi biogrfi-
ses em discurso direto, perguntas), porque isso o torna interessante (p. 521 ).
co de uma pessoa mencionada com destaque nos noticirios mediante a extrao
Seu processo de sumarizao utiliza os padres de discurso caractersticos dos de aluses presentes numa variedade de textos. "Selecionar e fundir descri-
relatos de notcias, a fim de desenvolver uma 'gramtica do texto' que empre- es de pessoas, extradas de uma coleo de documentos, eliminando descri-
gada na anlise sinttica do texto. A 'sinalizao de deixas lingllsticas' identi- es redundantes." Efetua-se um alto nvel de fuso e sumarizao. Eis um
fica frases relevantes para incluso no resumo. exemplo (o texto sublinhado foi extrado diretamente das fontes; os conectivos,
Moens et ai. (1999) sustenta que o conhecimento da estrutura do discurso de no sublinhados, so fornecidos pelo sistema):
vrios tipos de textos til no projeto de sistemas para gerao de texto ou Henry Hytle is cr Remtblican clwirmafl ofHo11se Jmlician Commillee mui a prosecutor in
extrao de texto. Esses autores trabalham especialmente com textos jurdicos. Senate lnmeacltment fria/. He willleml the Judiciarv Commiffee's impeachment review.
Hoje em dia, so comuns os programas para extrao automtica de frases- Hl'tle unred llis col/eagues to l!eed tlteir conscieuces. "lhe voice tlwt wMsoers iu ottr ear.
'dutl. tfttlp, tlutv'. >~<
chave de textos. Vrios produtos encontram-se disponveis para preparao
desses extratos para textos acessveis na Rede. Diversos produtos, gratuitos ou Este resumo foi criado a partir de uma coleo de l 300 itens de uma agncia de
de baixo preo, foram examinados por Jacs (2002). notcias (707 000 palavras) que continham 503 fiases que mencionavam Hyde.
Allan et ai. (2001) descrevem mtodos para produo de 'resumos tempo- Outra aplicao da sumarizao a multidocumentos, descrita por Elhadad e
rais' de notcias. A situao a de uma corrente de notcias sobre determinado McKeown (200 l ), refere-se a pronturios mdicos. Os procedimentos quedes-
tpico em que as noticias mudam rapidamente e seria diflcil acompanhar as mu- crevem destinam-se a examinar as sees de resultados publicadas em attigos de
danas por meio da leitura de todos os itens. Os procedimentos visam a produzir peridicos recuperados numa busca, localizar o texto dos artigos que paream
um resumo revisto a intervalos regulares (por exemplo, de hora em hora ou no estar diretamente relacionados com as informaes constantes do pronturio de
incio de cada dia). Cada resumo visa a mostrar apenas o que mudou desde o um paciente e produzir um resumo relacionado a esse paciente.
resumo precedente. Com a sumarizao temporal, a 'novidade' torna-se um cri- O problema da sumarizao de multidocumentos, bem como vrias poss-
trio til na seleo de frases. Isto , uma frase nova, que seja bem diferente das veis abordagens, examinado por Goldstein et ai. (2000) e por Mani (200 1).
frases que ocorreram no passado, um candidato promissor para seleo. A Atualmente muita ateno vem sendo dedicada sumarizao de textos (por
seleo de frases que aparecero nos resurnos baseia-se numa combinao de
novidade e 'utilidade' (probabilidade de relevncia para o assunto). Esse tipo de * Henry Hyde presidente republicrmo da Comisso de Justia da Cmara dos Deputados e
rastreamento automtico do desenvolvimento de uma notcia ao longo do tempo promotor no processo de impeachment no Senado. Ele dirigir a reviso do impeachment na
foi denominado 'rastreamento de eventos'. Ver, por exemplo, Yang et ai. (2000). Comisso de Justia. Hyde conclamou seus colegas a ouvir suas conscincias, "a voz que sussurra
em seu ouvido, 'dever, dever, dever'." (N.T.)
324 INDEXAO E RESUMOS: TEORIA E PRTICA 15. INDEXAO AUTOI\-1TICA, REDAO AUTOMTICA DE RESUMOS 325
exemplo, de mensagens de correio eletrnico) destinados a telas muito peque. Os mtodos extrnsecos reconhecidos por Mani incluem I) avaliar o resumo em
nas, como as de telefones celulares ou assistentes pessoais digitais. Corston- termos de sua capacidade de prever corretamente a relevncia do texto com-
Oiiver (2001) descreve um desses mtodos ao qual denomina compactao de pleto, 2) avaliar sua capacidade de permitir a um analista humano classificar
texto. As tcnicas de compactao incluem seleo de fiases, eliminao de corretamente o texto completo, e 3) avaliao da compreenso da leitura. Mani
caracteres e pontuao, e a substituio por abreviaturas de palavras por extenso tambm reconhece o 'sistema avanado de avaliao', que envolve a avaliao
ou expresses. Assim, uma frase como esta: de resumos no contexto de um sistema totalmente operacional (por exemplo, em
The problem of mtlomatic sumnwri::alion poses a variei) of lough challenges in both NL termos de satisfao do usurio).
understanding and generation. A sumarizao de textos implica normalmente a extrao de frases, embora
ser compactada assim: sejam possveis outros tipos de extrao, como a de determinados termos ou ti-
PrblmOfAutmtcSmmezinPssl'rf)DjTghChllngs/nBtiiNL Undrstndng&G11ri11.
pos de termos, e talvez a colocao de termos extrados em algum tipo de gaba-
rito. Tomando um exemplo totalmente hipottico, um sistema poderia monitorar
Buyukkokten et ai. (2001) descrevem mtodos para sumarizao de pginas
o movimento de executivos de empresas por meio da anlise de notcias, e a frase
da Rede para navegao com dispositivos portteis de mo. Os procedimentos
"Joo F. Cruzado, Vice-Presidente de Vendas da AOC durante os ltimos cinco anos, foi
que desenvolveram incluem parcelamento de pginas da Rede em 'unidades tex~ nomeado Vice-Presidente Executivo da XYZ" seria reduzida seguinte estrutma:
tuais semnticas', que podem ser visualizadas completa ou parcialmente (por Executivo: Joo F. Cruzado
exemplo, somente a primeira ou as trs primeiras linhas). O programa desen~ Cargo anterior: Vice-Presidente de Vendas
volvido pode, alternativamente, identificar e exibir a) as palavras-chave mais Empregador anterior: ABC
Novo cargo: Vice-Presidente Executivo
importantes extradas da unidade, b) a frase mais significativa, ou c) tanto as Novo empregador: X\'Z
palavras-chave quanto a frase significativa. A seleo de palavra-chave baseia- Data: 5 de novembro de 1996 (data da notfcia)
se em nmero de ocorrncias na unidade de texto e estimativas de ocorrncia na Cowie e Lehnett ( 1996) traam um til panorama sobre a extrao de texto,
Rede como um todo (com base na amostragem de 20 milhes de pginas). A e Grishman ( 1994) examina Os problemas envolvidos na avaliao de resultados
seleo de frases usa verso modificada do mtodo de Luhn para reconheci- de trabalhos de extrao. Shuldberg et ai. ( 1993) oferecem a descrio minuciosa
mento de frases significativas, j descrito neste captulo. O desempenho relativo de uma abordagem. Onyshkevych (1994) e Hobbs e Israel (1994), entre outros,
dos vrios resumos foi avaliado com a participao de sujeitos humanos em tecem consideraes sobre o projeto de gabarito. Lawson et ai. ( 1996) conside-
tarefas de busca de informao. A combinao de palavra-chave e frase~chave ram este tipo de extrao de dados/preenchimento de gabarito como uma forma
foi a mais eficaz na concluso da tarefa. Boguraev et ai. (200 l) tambm trataram de 'minerao de dados'. Esta denominao, no entanto, aplicada com mais
da sumarizao miniaturizada de notfcias para dispositivos pmiteis de mo. fieqncia a procedimentos e programas que procuram descobrir nos dados (por
O recente incremento de atividades em torno da sumarizao de textos tam- exemplo, registros de vendas ou pronturios mdicos) padres e correlaes
bm acarretou um interesse renovado pelos mtodos de avaliao (ver tambm significativas, sem instrues sobre o que procurar (ver captulo anterior).
o capitulo 9). Mani (2001) divide a avaliao de resumos preparados automati- H muitas aplicaes potenciais para esse tipo de extrao de texto e preen-
camente em mtodos intrnsecos e extrnsecos. Os mtodos intrfnsecos incluem: chimento de gabarito (quadro), das quais a mais bvia talvez seja a produo de
a. utilizar um grupo de rbitros para decidir quais as frases que merecem ser resumos de notcias atuais. Haug e Beesley ( 1992) examinam outra aplicao em
selecionadas e as que no merecem (concordncia) que os dados de pronturios de pacientes podem ser reconhecidos automatica-
b. avaliar a legibilidade do resumo em termos de cettos critrios, como exten- mente, extrados e colocados sob um nmero limitado de cabealhos (por exem-
so da palavra e da frase e qualidade gramatical; para esse fim podem ser usa- plo, 'queixas de', 'paciente nega') para ajudar os radiologistas na interpretao
dos rbitros humanos ou corretores gramaticais e de estilo (qualidade) de radiografias. Paice e Jones (1993) examinam o emprego de uma abordagem
c. comparar um resumo preparado automaticamente com um resumo 'ideal' de preenchimento de quadros na construo de resumos automticos. Outra
preparado por seres humanos (informatividade) aplicao especializada do mtodo de gabarito a extrao de citaes biblio-
d. avaliar um resumo em termos de se capaz de responder um determinado grficas do texto de paterltes (Lawson et al., 1996). Humphreys et al. (2000)
conjunto de questes; o resumo pode ser comparado com o texto completo descrevem o modo como processos de preenchimento de gabarito podem ser
para esta avaliao (mtodo baseado em contedo) aplicados extrao de determinados dados de peridicos cientficos.
e. avaliar quanto da informao no texto completo preservado no resumo ((i- Os processos modernos de extrao podem identificar textos candidatos
de/idade fonte). (isto , aqueles cujas palavras~chave indicam alta probabilidade de que o texto
326 INDEXAO E RESUMOS: TEORfA E PRTICA 15. rNDEXAO AUTOM TrCA, REDAO AUTOMTICA DE RESUMOS 327
conter o tipo de dado a ser extrado) e pores do texto que sejam bons candida~ aprende com um conjunto de textos de treinamento nos quais as expresses-
tos para os processos de extrao, baseados numa combinao de anlise sin~ chave j foram atribudas (por exemplo, por seus autores). Com base em ava
ttica e semntica. Jacobs e Rau (1990) descrevem um desses sistemas aplicado liao feita por seres humanos, Jones e Paynter concluem que as expresses
extrao de informao sobre fuses de empresas. A extrao de informao extradas segundo seus procedimentos "no eram piores, estatisticamente, do
em geral objeto de um livro organizado por Pazienza ( 1999). que as apresentadas pelos autores". Anteriormente, H ui e Goh (1996) fizeram
Em algumas situaes de recuperao, um conjunto limitado de caracters~ experincias com a gerao automtica de resumos de artigos de jornais como
ticas do texto pode ser da maior importncia. Por exemplo, datas e nomes (de parte de uma interface de recuperao e filtragem da Rede.
lugares, pessoas, organizaes) so especialmente teis em buscas de notcias. Hoje em dia encontram-se disponveis comercialmente programas para
Watters e \Vang (2000) descrevem um sistema capaz de extrair das notcias ex~ extrao de vrias formas de dados de stios da Rede. Por exemplo, Ojala (2002)
presses substantivas prprias[' name phrases'] e categoriz~ las (como local do refere~se a um produto que poder fazer buscas de mudanas na direo de em
evento, data do evento, nome pessoal, nome de instituio). O uso de iniciais presas, compra e venda de empresas, resultados de reestruturao de empresas
maisculas a deixa para identificao das expresses substantivas prprias. O e outros indcios de mudana nessas organizaes (entre outras aplicaes).
sistema destina-se recuperao interativa, em tempo real, baseada num algorit- As aplicaes correlatas ao processamento de texto incluem vinculao de
mo de comparao: o usurio com acesso em linha que encontra uma notcia de texto, aumento de texto e gerao de texto.
interesse pode pedir ao sistema que localize outras noticias que sejam semelhan~ A vinculao de texto emprega anlises estatfsticas e/ou sintticas para iden-
tesa essa. O sistema experimental pretende ser aplicado na Rede "usando como tificar semelhanas entre diferentes passagens do texto, em geral de doeu~
interface os navegadores comuns da Rede". mentes completamente difeientes, e assim vincul-los (Salton e Buckley, 1992;
Vrios processos foram desenvolvidos na National Library ofMedi'?ine (NLM) Ivfaarek, 1992; Salton et ai., 1997). Em essncia, o mtodo pode ser adotado para
para identificao/extrao em textos mdicos. Bodenreider e Zweigenbaum produzir automaticamente vnculos de hipertexto.*
(2000) lidam com a identificao de nomes prprios, Wilbur et ai. ( 1999) com A ampliao de texto pode ser considerada uma extenso da vinculao de
nomes qumicos, Rindflesch et. ai. ( 1999) com terminologia de ligao molecu texto. Os sistemas projetados para tal fim tentam integrar partes de textos de
lar, Rindflesch et ai. (2000a) com terminologia de medicamentos e genes, e Snei diversas fontes numa narrativa coerente- por exemplo, acompanhando not-
derman et ai. ( 1998) com termos anatmicos. Em muitos casos, os termos identi- cias sobre um evento, como uma fuso de empresas ou um desastre natural, em
ficados ou extrados so ainda processados (por exemplo, para fazer a ligao jornais (e assim aplicvel a tarefas de preenchimento de gabarito ou smnarizao
com o Unified Medicai Language System (UMLS). Outros projetos de pesquisa de multidocmnentos). Variao disso a pesquisa para desenvolver ferramentas
na NLM visam ao desenvolvimento de ferramentas lingUsticas para auxlio nes- que integrem entradas de textos e imagens- por exemplo, relacionar uma pas-
ses tipos de processamento. Por exemplo, Weeber etal. (2001) lidam com o pro- sagem descritiva nmn manual com elementos num diagrama e extrair texto que
blema de desambiguao do sentido das palavras, e McCray et ai. (200 I) com o elucide o prprio diagrama (Rajagopalan, 1994). Chen (1993) descreve um compu-
uso do sistema unificado de linguagem mdica (UMLS) na identificao de ex~ tador 'modelo' para integrao de textos afins oriundos de diferentes fontes.
presses do texto que meream processamento adicional de linguagem natural. Gerao de texto refere-se a ferramentas de gerao automtica de tipos li~
Naturalmente, a sumarizao extrativa no funciona bem com certos tipos de mitados de texto e a sistemas especialistas que ajudam as pessoas a redigir v-
texto, inclusive pginas da Rede, que Berger e Mittal (2000) descrevem como rios tipos de relatrios. H sistemas deste tipo, por exemplo, que auxiliam na ge~
"uma mixrdia catica de expresses, vnculos, elementos grficos e comandos rao de documentao de produtos industriais, oferecendo acesso em linha a
de formatao". Descrevem seu trabalho no sentido de desenvolver 'snteses textos e elementos grficos aplicveis, de modo repetitivo, na criao de vrios
essenciais' de pginas da Rede que no sejam extratos de texto (isto , fiases ou tipos de relatrios (ver Smith, 1991, por exemplo). Exemplo de sistemas mais ela
pargrafos), mas, sim, concatenaes de palavras, como (um exemplo real) "the borados a 'bancada do editor', descrita por Bateman e Teich ( 1995), que poder ex-
music business and industry artists raise awareness rock and jazz'' [os artistas trair texto e estmtur-lo em resposta a necessidades editoriais. 'Assistentes in te
comrcio e indstria msica elevam conscincia rock e jazz]. ligentes de redao' nwdernos sero mais do que corretores ortogrficos: orien-
Jones e Paynter (2002) descrevem processos para extrao automtica de taro na escolha de palavras, correo gramatical e uso do idioma (Oakman, 1994).
palavraschave ou expresses~chave do texto dos documentos, com o objetivo
de produzir sucedneos que possam ser usados para pesquisar em extensas tare
fas de recuperao de texto na Rede. A extrao de 'expresses~chave' feita * Pozzi e Celentnno {1993) analisam uma aplicao prtica de vinculao, que inclui corres
por meio de processos de aprendizado de mquina. O algoritmo de extrao pondncia e outros documentos administrativos.
"".Tf''

328 INDEXAO E RESUMOS: TEORIA E PRTICA 15. INDEXAO AUT01\.1TJCA, REDAO AUTOMTICA DE RESUMOS 329
Stock (1993) e Stock et ai. (1997) descrevem um interessante sistema de mas anteriormente encontrados e suas possveis solues. O servio de atendi-
hipermfdia (ALFRESCO) para recuperao de imagens de afrescos italianos do mento a clientes pode ser considerado um verdadeiro sistema especialista: o
sculo XIV e informaes a eles pe1iinentes. Entre outras caractersticas, o siste- pessoal de suporte que recebe as chamadas no formado por especialistas, pelo
ma incorpora uma interface de busca de linguagem natural e a capacidade de menos no dominam todos os aspectos da situao, mas o sistema lhes oferece
gerar respostas coerentes a partir de 'textos enlatados' relativos a diferentes conhecimento para resoluo de problemas. Estes servios economizam no
imagens de afrescos armazenadas numa rede de hipenndia. Stock oferece um quantitativo de pessoal necessrio para lidar com perguntas dos consumidores e
exemplo da pergunta 'Voc poderia me mostrar e descrever um afiesco de reduzem a qualificao do pessoal designado para o servio. Tornaram-se par~
Ambrogio Lorenzetti em Siena?' que geraria a seguinte resposta: ticulannente teis porque muitos dos problemas ocorrem de modo repetitivo.
Os Efeitos do Bom Goyerno um afresco de Ambrogio Lorcnzetti no Palazzo Publico. Os Um bom exemplo de um servio de atendimento a clientes, instalado na
Efeitos do Bom Governo foi pintado em 1338. Um afresco do mesmo pedodo S. Sih'estre Compaq Computer Corporation, descrito por Acorn e \Valden ( 1992), emprega
c os Reis Magos, de i\Iaso di Banco, pintado em 1330-1340. Outra obra de Ambrogio uma verso do sistema de recuperao SMART desenvolvido por Salton. A utili~
Lorenzctti num monumento de Si e na a Anunciailo, de 1344, na Pinacoteca.
zao do sistema exemplificada nas figuras 112 a 115. Os casos que foram tra-
Os vrios componentes desta resposta foram extrados de textos enlatados que tados no passado (isto , problemas e solues) so armazenados na forma de
aparecem em diferentes pmies da rede de hipenndia. descries textuais, embora redigidos de modo sucinto e padronizado. O aten-
Denmsco e McCoy ( 1992) descreveram uma aplicao especializada de ge- dente que recebe a chamada de um cliente insere um enunciado textual do pro-
rao de texto. Seu trabalho visa a desenvolver uma interfhce que ajude pessoas blema atual (figura 112). O sistema ento procura casos semelhantes mediante
que padeam de graves deficincias motoras a compor textos. Um 'teclado vir- busca em texto e apresenta I) uma lista de casos de maior coincidncia e 2)
tual' permite ao usurio selecionar, em telas de letras, palavras ou expresses, e perguntas a serem feitas ao cliente, a fim de concentrar a busca e assim recuperar
em seguida usado um analisador [parser] semntico para gerar uma 'frase o caso e a soluo correta. As respostas s questes afunilam o alcance da busca
bem-construda'. Usam a denominao 'companso de frase' [sentence com- embora o consulente possa pesquisar informaes sobre os casos armazenados
pansion*] para esse processo que poderia, por exemplo, tomar as palavras sele- (ver figura 113) para complementar as perguntas. Como resultado desse proces-
cionadas 'Joo', 'estudo', 'meteorologia', 'grande' e 'universidade' e formar so interativo, aos casos na base de dados so atribudos escores numricos que
uma frase como 'Joo estuda meteorologia numa grande universidade'. permitem que sejam ordenados por relevncia provvel. Um escore igual ou
Kerpedjiev ( 1992) lida com Outra situao especializada de gerao de texto. superior a 70 indica um caso que tem alta probabilidade de ser relevante.
Nela, so usados dados meteorolgicos para gerar boletins meteorolgicos A figura 114 mostra o exemplo de uma consulta, com perguntas geradas pelo
'multimodais'; os boletins podem ser em formato de texto narrativo, mapas, sistema respondidas pelo cliente e os resultados apresentados como casos em
tabelas ou uma combinao das trs formas, segundo as necessidades do usurio. ordem de relevncia provvel, e a figura 115 mostra o registro final do processo:
As tecnologias de recuperao da informao esto se difundindo numa am- o problema, as perguntas, o caso recuperado e a ao reco1nendada ao cliente. Os
pla variedade de aplicaes, onde antes eram pouco usadas, especialmente no casos que no so resolvidos so analisados posteriormente por especialistas o
mundo dos negcios. Com efeito, alguns dos mtodos mais complexos de recu- que leva a novas adies base de dados.
perao da informao foram mais bem aceitos por empresas comerciais do que Os servios de atendime11to a clientes normalmente baseiam-se em interao
pela indstria de servios de informao. Uma importante aplicao na rea de que envolve o cliente, o representante do cliente e a base de dados. As perguntas
atendimento a clientes [help desk].
ao-eradas pelo sistema so necessrias
. para concentrar a busca .com maior preci-
Um servio de atendimento a clientes um servio telefnico que lida com so. Em alguns casos, a resposta a uma pergunta genrica ('E um refrigerador
dvidas e problemas dos clientes. Inicialmente, a denominao referia-se ao frost-free?') pode restringir as aes seguintes a determinado segmento da base
servio mantido pela indstria de informtica, a fim de lidar com problemas sur- de dados (Danilewitz e Freiheit, 1991; Hart e Graham, 1997).
gidos nas redes de computador. Embora os servios de atendimento a clientes Os servios de atendimento a clientes do tipo acima mencionado funcionam
continuem muito ligados indstria de informtica, servios similares existem por meio de raciocnio baseado em casos. Embora o recurso de classificar em
hoje numa ampla variedade de empresas fabricantes de bens de consumo. ordem de relevncia provvel no seja novidade, esses sistemas so inditos
O corao de um tpico servio de atendimento a clientes um 'componente pelo fato de que se concentram na soluo mais provvel mediante a gerao de
de resoluo de problemas', on.de so armazenadas informaes sobre proble- perguntas para o usurio extradas dos prprios casos (por exemplo, A impres~
sora foi instalada recentemente? J tentou mudar o X? J tentou limpar o Y?). Os
*Palavra fonnada a partir dos vocbulos compression e expansion. (N.T.)
330 INDEXAO E RESUMOS: TEORIA E PRTICA l5. INDEXAO AUTOMTICA, REDAO AUTO/>.'iT!CA DE RESUMOS 331

iF~t~::_'2i:;:;:~~~;~:~~,t~~i?~i\tfi;v:F-;;z{s;f.1;::~;-mi.;rf:7)~~~--~:~~ flT:}~-:~~~:~~:~:~Z~I:tJ:}

~~If:j~~f~~~~~~1I~~~.~~~l~~~~~~~~~;#,t~~~~r;r.~.?.~~~~.~.Fi:.;.;J
.~llH:rnd ll[Hllf"lY hl<J(r h,J:fi; <:"oat~n!(.,n. : d

l!1,;?;:~;~ :;r:1~\~'Di;E; :; ,a 2ifl:'>;'"' c.'"' ;,


:' ;:uocr,, ,~.,,,,.,n: /lot .~"-''""r,,J

).{,,;-,: :>Ff'.: -li lHO t\n!li, I'; -H>~ ~;t'tlklldor: i!lH'Jit;;; lu, t\o:lJkv>: :011 !~I~:PF.C'f >I 'ln: uuit
r.:',,....l.,..;,.,'.,

hdn~ 1nlinHIIJ lu v:diof.ll~- lbi;


c:H:
l 1J

f''~';';,y~,;I;J:~:~;',;.";;;,~;(,n.s~;,~;~,~::;'f!,;,~o~Ji.,f:~;;:,;:~O.:: "''"~-" 2t~ll:I


~ .:% [!_!I>JJI!~~ _U_e_h_::.w: :lfH~/ZB~;. rllr,nl h<"'!J~l. tth:n t!tuj.Hl_t,i !_;\N Suppml ( -1
.. ltl_l!5Ql~.n~~~!' :: Sy~~J!l{HIW!_Inol!fipJ;";"-;;:,Vf.f Jl;mi(::"& !ol.-llp-]i- { d
_-DJ!!!.ll_~l_l~'-'~'wn :ltlfi, h:_t '" ;pudHJ:J-11_\t}_, lfl irnn:~ - - -~-~-~~

1 ,~:!i~~~;~~jg~~~?r~:,~(f:fi~g~~5m~~ti~~~;,c=";~:::~d,~~,L~t~cj:
FIGURA 112 FIGURA 113
Busca inicial numa base de dados de um servio de atendimento a clientes Pesquisa por mais informao em base de dados de servio de atendimento a clientes
ApudT.L. Ac<lm e S H- Waldert In Scou. AC.; KWu-, P., ed. bmumlin:uppliw/iiJIH<ifwrifhiul intdligm'~ 4, P- 313. Apud T.L Acom e S H. Wlden (n Sr:oll, A C.: Klahr. (>_, ed_fmlomliW<J[>pliwliouJforlijhial ll/.:1/igmc~ --1, p J.(S
Cambridge. MA, Mlf Pre;!o, 19\>2 Cambridge, ~!A, M!r Pr~_;s, 1992

casos neste tipo de base de dados podem ser construdos por 'autores de bases de suporte a clientes vm procurando desenvolver servios que os prprios clien-
casos' e existem no comrcio programas que ajudam nessa tarefa. tes possam usar para si, especialmente servios que sejam implementados na
Alguns servios de atendimento a clientes incorporam mtodos complexos Rede Mundial. Hoje em dia j existem programas, disponveis comercialmente,
de processamento de linguagem natural. Por exemplo, Anick (1993) descreve que ajudam na implementao de servios, baseados na Rede, de atendimento a
um desses sistemas, que tambm inclui uma forma de tesauro para ajudar os clientes (Varney, 1996; Rapoza, 1996), que, inclusive, permitem aos clientes
usurios a identificar termos de busca alternativos, e Uthurusamy et al. (1993) reportar problemas a um servio de atendimento a partir de navegadores em suas
descrevem um sistema de diagnstico que inclui processos altamente desenvol- estaes de trabalho (Walsh, 1996).
vidos para tornar mais inteligveis descries ambguas ou malformuladas (re- Em livro de Moens (2000) encontra-se uma descrio bem completa dos
gistros de conserto de automveis), graas correo de erros ortogrficos, processos examinados neste captulo (e, em menor extenso, no anterior).
desambiguao de abreviaes e correo gramatical.
Os programas disponiveis no comrcio para servios de atendimento a clien-
tes podem incorporar recursos de hipermfdia, com texto, elementos grficos, Concluses
udio e arquivos de vdeo acessiveis para ajudar no processo de diagnstico. A A recuperao da informao est implcita em todas as atividades de pro-
integrao de tecnologias de hipermidia e sistemas especialistas revista por cessamento de texto j mencionadas. Em termos de complexidade, a recupera-
Ragus a e Turban ( 1994). Th (1996) oferece um til levantamento sobre progra- o de frases ou pargrafos situa-se a meio caminho entre a recuperao de
mas para servios de atendimento a clientes, disponveis comercialmente no referncias bibliogrficas (tpica da maioria das buscas em linha feitas em
inicio de 1996. bibliotecas) e a recuperao de respostas reais a perguntas reais. Croft e Turtle
Cada vez mais, as empresas que esto muito envolvidas em atividades de ( 1992) asseguram que melhoramentos importantes na recuperao exigiro
332 INDEXAO E RESUMOS: TEORIA E PRTICA 15. INDEXAO AUTOMTICA, REDAO AUTOMTICA DE RESUMOS 333
tcnicas que 'compreendam' o contedo de documentos e consultas e possam
assim inferir se um item ser til.*.

- :-:c; ~--id: i
>:,-c;,~:-:!'~~L- -!! ~~ ~ !!.:!.:__'._';

FIGURA 115
Resumo de caso com a ao recomendada ao cliente
Apud T.L_ AcQrn e S H. Walden. ln Sco11. A. C; Khhr, P., ed hiii<J\\1/in: <rf'J>Iiw!l<>!<ro[urlifial in!dllg~mc -t. p ).[S.
C~mbridge, Mh, MIT Pre;S, !992
FIGURA 114
Casos com ordenao mais alta selecionados com base em consulta crtica e respostas No obstante, mesmo os mtodos atuais mais complexos esto longe do ideal
dos clientes s perguntas em termos de resultados alcanados, tempo e custos de processamento. Ade~
Apud T L Acome S.H. Walden. (n Scott. AC; Kl.ilir. P., ed./mw>vliWuJ>J!Iiculio"'ujuTiiji<iul illl.:lligmc~ -.!, p.l-18.
Cambridjl~, MA, MIT PR>>. ]\}92 mais, ainda so relativamente poucos os sistemas verdadeiramente 'operacio-
nais' no sentido de que fornecem um servio real de forma rotineira.
Os mtodos hoje empregadOs em grande parte do processamento de texto Jacobs (1992a) assim encara a situao:
no so particularmente novos. A maioria foi usada, talvez de modo mais rudiM
Embora hajam ocorrido alguns progressos visveis na direo dos sistemas inteli~
mentar, h 30 anos, ou mais, por Luhn, Baxendale, Edmundson, Borko, Maron,
gentes baseados em textos, no chegamos muito perto de um estado aceitvel de
Simmons Salton e muitos outros pesquisadores (ver o captulo 9 de Lancaster desenvolvimento da tecnologia (p. 5}.
( 1968b) ~ara uma viso geral dessa rea na dcada de I960). Como_ foi su?eri~o,
atualmente possvel alcanar melhores resultados porque h mmto mmor diS- Hobbs et ai. (1992) afirmam que o objetivo final desenvolver um sistema que:
ponibilidade de conjuntos de textos eletrnicos e a potncia -~os _computadores [... ]recuperar todas as informaes que estejam, implcita ou explicitamente, pre-
possibilita o processamento desses textos com razovel eHciCncm. sentes no texto, e concretizar isso sem cometer erros. Este modelo ainda est muito
alm do estado atual da tecnologia. Trata~se de uma meta incrivelmente alta para
seres humanos, quanto mais para mquinas (p. 13-14).
') Em algumas aplicaes de processamento de texto o computador d~ve _distinguir entre con:- McDonald (1992) ressalta que, em geral, os melhores analisadores [parsers)
ponentes lgkos do documento {por exemplo, ttulo, resumo, texto pnnctpal, not_as de rodap_e: modernos somente lidam com frases relativamente curtas e simples. Com frases
tabelas, tiguras) e identificar relaes entre eles (como, por exemplo, a ordem de lettura). Isso !01
designado, um tanto pomposamente, 'compreensO.o do documento' (v:r, por exemplo, Semeraroet mais longas e complexas, o mximo que conseguem identificar fragmentos
ai., 1994, e Proceedings oftlte Third lntenwtiona/ Conference, 199)). componentes (por exemplo, um sintagma nominal); esto longe de produzir uma
334 INDEXAO E RESUMOS: TEORIA E PRTICA l5.JNDEXAO AUTOMT!CA, REDAO AUTOI\1TICA DE RESUMOS 335
anlise completa e sem ambigidade. No caso de uma frase de matria jornals~ A tarefa de encaminhamento na TREC-6 (1997) conseguiu, quando muito,
tica, de tamanho comum, com 20 a 25 palavras, os analisadores atuais provavel- apenas 42% de preciso (Voorhees e Harman, 2000) com somente 47 assuntos.
mente chegariam a centenas de anlises possveis. Segundo McDonald, "nenhum Em geral, mesmo os mais complexos dos atuais processos de indexao
analisador chega petto de compreender tudo num texto real, como uma reportagem". automtica saem perdendo na comparao com a indexao feita por seres
Mesmo com c01pora relativamente pequenos (cerca de I 500 mensagens) de humanos qualificados. Por exemplo, Chute e Yang (1993), trabalhando com
textos curtos (normalmente por volta de 14 frases), o melhor dos mtodos atuais relatos de casos cirrgicos, constataram que os cdigos de procedimento atribu-
est longe de produzir resultados perfeitos- por exemplo, num exerccio de dos por seres humanos produziam melhores resultados do que vrios processos
extrao de texto, nem todas as fiases relevantes so selecionadas e nem todas automticos, inclusive a indexao semntica latente. Anteriormente, Hersh e
as frases selecionadas so relevantes. Em condies controladas de avaliao, Hickam ( 1991) relataram que buscas em palavras do texto (somente ttulos e
muitos sistemas modernos funcionam somente perto da marca de 50/50 (Jacobs resumos) davam melhores resultados do que buscas em registros indexados por
e Rau, 1994; Sundheim, 1995) ~por exemplo, produzem cerca de metade dos pessoas (MEDLINE) ou processados automaticamente em ambiente mdico. Mais
gabaritos (representaes estruturadas baseadas em texto extrado das mensa- tarde (Hersh e Hickam, 1995a) relataram 'nenhuma diferena significativa' em
gens) que deveriam produzir e cerca de metade dos produzidos so esperados buscas num manual mdico com dois mtodos de processamento automtico
(isto , coincidem com. o modelo preestabelecido).* Embora alguns sistemas de (um baseado em palavras e outro 'baseado em conceitos') e uma abordagem
processamento de texto reportem resultados muito melhores, isso ocorre com booleana de buscas em texto. Hersh e Hickam ( l995b) fazem um apanhado dos
tarefas muito mais simples. Por exemplo, Hayes ( 1992a) relata 94% de revoca- estudos de avaliao que realizaram durante um perodo de quatro anos.
o e 84% de preciso para o CONSTRUE, mas a tarefa executada ~ colocar Moens e Dmnortier (2000) descrevem um mtodo de atribuio de catego-
notfcias em at 200 categorias ~ mais simples do que os trabalhos de extrao rias a miigos de revistas de interesse geral. O ndice de xito relatado muito mo-
de texto e preenchimento de gabarito. desto. Com apenas 14 categorias genricas para atribuir, o mximo que seus pro-
Yang ( 1999) afirma que o CONSTRUE consegue alcanar to bons resultados cedimentos conseguem alcanar no passa de 74% de revocao e 64% de preci-
graas ao emprego de "regras, desenvolvidas manualmente, especficas de uma so. Isto , esse mtodo atribua 74% das categorias que deviam ser atribudas
rea ou especficas de uma aplicao" e que essa abordagem muito cara para enquanto 64% das atribuies realmente feitas foram consideradas corretas.
a maioria das aplicaes. Para F ide! ( 1994) a indexao automtica se orienta para os documentos ao
Em condies controladas, possvel obter escores muito melhores em tare- invs de centrar-se nos usurios. Embora isso seja, em geral, verdadeiro, poss-
fas de extrao mais simples (por exemplo, encontrar entidades nomeadas no vel fazer mtodos mais centrados nos usurios, como, por exemplo, o uso de
texto) ou tarefas mais simples de preenchimento de gabarito ~ envolvendo listas de termos a serem procurados especificamente num texto. Como a prpria
extrao de texto relativo a entidades nomeadas (Sundheim, 1995). Fidel tambm reala, um sistema totalmente automatizado pode ser mais centra-
O nvel de desempenho de 50/50 na extrao de frase/concluso de gabarito do nos usurios no lado da salda, ao permitir consultas em linguagem natura"l,
tambm precisa ser contextualizado. So resultados obtidos em reas muito retroalimentao de relevncia e sada em ordem de provvel relevncia.
limitadas (por exemplo, atividade terrorista na Amrica Latina). Para fazer a Ademais, muitos dos sistemas automticos utilizam uma forma de ponde-
seleo de frases preciso criar um dicionrio especfico da rea. Mesmo numa rao para produzir uma salda ern ordem de provvel relevncia. Embora alguns
rea rnuito limitada, isso pode ser um trabalho que requer mo-de-obra intensiva estudos (por exemplo, Salton, 1972) hajam reivindicado xito na ordenao por
(1 500 pessoas/hora foram mencionadas para um caso), embora hajam sido relevncia provvel, outros no o fizeram. Num estudo de recuperao de infor-
desenvolvidas ferramentas para construo desses dicionrios automaticamente mao, Marchionini et ai. (1994) obtiveram resultados muito inferiores na orde-
ou semi-automaticamente (ver Riloffe Lehnert, 1993, para um exemplo).** nao por relevncia provvel. Isso tambm aconteceu em aplicaes completa-
mente diferentes. Por exemplo, sistemas de diagnstico automtico em medicina
* Vale a pena observar que os pesquisadores modernos da .rea de processamento de texto raramente colocam o diagnstico 'correto' no alto da ordenao e com freqn-
empregam as mesmas medidas~ revocao e preciso- que foram descritas pela primeira \'ez na cia ele aparece bem l embaixo (Berner et ai., 1994; Kassirer, 1994).
literntura de recuperao da infomtao na dcada de 1950. Abordagens mais modernas para produzir resumos 'inteligentes' (resumos
"'*Uma fhramenta desse tipo 'aprende' com um corpus de texto de treinamento. Por exemplo, automticos) de documentos no chegam a impressionar. O sistema desenvol-
dado um conjunto representativo de extratos de textos que sabidamente tmtam do tpico x, ela vido e avaliado por Brandow et ai. ( 1995) produziu resumos que foram julgados
conslruir um dicionrio capaz de selecionar, a partir de um novo corpus de textos, frases sobre o significativamente menos aceitveis do que o' lide do texto'. O que isso significa
tpico x.
que analistas humanos, em mdia,julgan1 as primeiras 250 palavras (suponha-
336 INDEXAO E RESUMOS: TEORIA E PRTICA 15. INDEXAO AUTO !\olTICA, REDAO AUTOMTICA DE RESU1{QS 337

mos) de um texto como um indicador de contedo melhor do que um resumo de gem mdia da Reuters, com 151 palavras, e1n menos de cinco segundos). A essa
250 palavras formado com frases selecionadas do texto automaticamente. velocidade, ele aletta, "um gigabyte de texto tomaria quase dois meses de tempo
Moens (2000), que trabalhou durante algum tempo na rea de sumarizao de CPU para categorizar". Isso se refere mera colocao de notfcias em cerca de
automtica, concorda que um resumo gerado automaticamente apenas "uma 200 categorias. claro que a extrao e manipulao de texto, que so mais com-
aproximao de um resumo ide~!". plexas, tomariam mais tempo de processamento. Hayes, em tom dramtico, sa-
Gaizauskas e \Vilks ( 1998), depois de uma excelente reviso do campo da lienta que o CONSTRUE ocuparia 20 anos ou mais de tempo de CPU para processar
extrao de texto (referem-se a ela como extrao de informao (E0), concluem uma base de dados de I 00 gigabytes do tamanho de NEXIS. Embora vlido, h um
ser improvvel que os nveis de desempenho caractersticos dos sistemas de equvoco nisso. Um sistema como o CONSTRUE foi projetado para corpora
recuperao de informao se prestem maioria dos propsitos: relativamente pequenos, um de cada vez- por exemplo, todas as mensagens
recebidas num nico dia - e no para anlise de gigantescas bases de dados
Os escores combinados de preciso e revocao para os sistemas de recuperao da
informao [RI] mantiveram-se na faixa intermediria dos 50% durante muitos anos,
retrospectivas. Isso lembra a distino entre buscas retrospectivas em grandes
e nessa faixa que hoje se encontram os sistemas de E!. Embora os usurios desiste- bases de dados bibliogrficos na dcada de 1960, mediante processamento em
mas de RI tenham se adaptado a esses nveis de desempenho, no est claro que sejam lotes, e o uso de atualizaes das mesmas bases para notificao corrente (DSI).
aceitveis para as aplicaes de E!. claro que o tolervel variar de uma aplicao Esta era economicamente atraente; as buscas retrospectivas certamente no.
para outra. Mas quando as aplicaes de EI envolvem a construo de bases de dados O desenvolvimento dos atuais sistemas de uso limitado tambm muito caro.
que cobrem longos perodos de tempo, que subseqentemente tbrmam a entmda pam CONSTRUE, por exemplo, exigiu 9,5 pessoa/anos de esforo (Hayes e \Veinstein, 1991 ).
anlise ulterior, o rudo nos dados comprometer seriamente sua utilidade (p. 97). interessante observar que o tipo de resultados 50/50 reportado por alguns
O interesse grandemente renovado por processos automticos aplicados a sistemas modernos de processamento de textos est muito petto do n[vel de
vrios aspectos da recuperao da informao atraiu muitos grupos de pesquisa desempenho relatado para grandes sistemas de recuperao bibliogrfica (por
para este campo pela primeira vez. Carentes de perspectiva histrica, provvel exemplo, MEDLARS) na dcada de 1960 (Lancaster, 1968a). Embora, na super-
que dupliquem trabalhos feitos no passado ou, no mnimo, deixem de se funda- fiei e, a comparao parea injusta, posto que as tarefas de extrao de texto e
mentar em pesquisas anteriores. S um exemplo: Fowler et ai. (1996) e Zizi preenchimento de gabaritos so claramente mais complexas do que o trabalho de
(1996) descrevem trabalho sobre visualizao grfica de conceitos em linha que recuperao de referncias, deve-se tambm reconhecer que os c01pora usados
muito parecido com o trabalho de Doyle (1961) realizado 40 anos antes. nas tarefas mais complexas so bastante pequenos em comparao com o tama-
No captulo anterior, foi mostrado que muitas pesquisas que comparam a nho das bases de dados bibliogrficos, mesmo as de 30 anos atrs.*
recuperao de texto com a recuperao de bases de dados indexadas padecem O fato que os mtodos booleanos de busca, relativamente toscos, mais
de srias falhas. Infelizmente, o mesmo se pode dizer sobre comparaes entre comumente usados para pesquisar em grandes bases de dados bibliogrficos
processos de indexao automtica e indexao por seres humanos. H um hoje em dia, apesar de seus inmeros crticos, apresentam resultados notavel-
exemplo em Hmeidi et ai. ( 1997). Com base em resultados de recuperao numa mente bons, considerando o tamanho dos c01pora com que lidam, um ponto
pequena base de resumos em rabe no campo da cincia da computao, os levantado de modo muito convincente por Stanfill e \Valtz (l992):
autores concluem que a "indexao automtica pelo menos to eficaz quanto O que surpreende (do ponto de vista da IA) que a abordagem estatstica, que no
a indexao manual e mais eficaz em alguns casos". Na realidade, no houve utiliza absolutamente qualquer conhecimento especfico de uma rea, funciona. E
indexao manual: a comparao foi entre um processo de indexao automti- funciona com quantidades de informao (gigabytes) que so incrivelmente grandes
ca baseado no trabalho de Salton e busca em texto aplicada aos resumos. Uma pelos padres da IA (p. 217).
vez que os procedimentos la Salton destinam-se a melhorar tanto a revocao Note-se que estavam se referindo aos simples mtodos booleanos de busca usa-
quanto a preciso (por exemplo, com a eliminao de palavras de maior e menor dos em bases de dados indexadas (por exemplo, MEDLINE) ou de texto completo
fl'eqtincia), natural que tenham alcanado melhores resultados d~ que se nada (por exemplo, NEXIS) e no s abordagens mais complexas de sadas ordenadas
fizessem com o texto alm talvez de reduzi-lo forma de tema/rmz. por relevncia provvel.
Apesar de os custos de computao continuarem caindo, o processamento
atual de textos no necessariamente uma proposta barata. Hayes ( 1992a) colo-
ca isso em perspectiva, com o exemplo do CONSTRUE. Em 1992, o sistema pro- "'Em exercicios mais convencionais de recuperao, os mtodos modernos de buscas em texto nem
mesmo alcanam o nivel 50/50 de desempenho quando esto envolvidas bases de dados muito
cessava texto velocidade de cerca de 1 800 palavras por 1ninuto (uma mensa- maiores (centenas de milhares de itens) {Harman, 1997; Sparck Jones, 1995).
338 INDEXAO E RESUMOS: TEORIA E PRTrCA

Jacobs ( 1992a) identificou vrios desafios que se colocam hoje para os pes~
CAPTULO 16
quisadores na rea de processamento de texto: tornar os sistemas mais robustos
(maior exatido, mais rpidos, mais baratos na anlise lingUfstica), recursos de
refinamento (por exemplo, passar de recuperao de documento para recupe-
rao de trechos para recuperao de resposta), e fazer sadas com melhor rela- A indexao e a internet
o custo--eficcia ou atraentes para o usurio (mediante realamento, extrao
de texto ou sumarizao).
Embora algum progresso haja cetiamente ocorrido na aplicao do compu-
tador a vrias tarefas relativas recuperao de informao, existem reduzidos Rede Mundial_ tmn~u-~e to.imensa, ~es~eitada e ~omplexa nos l~imos
indcios de que os processos automticos possam ainda vir a superar os seres
humanos em tarefas to intelectuais como indexao, redao de resumos, cons-
A anos que se d1stancmna mu1to do objetiVO deste livro tentar explicar a
mriade de componentes que formam seu aparato: navegadores, mecanismos de
truo de tesauros e criao de estratgias de busca. busca, mecanismos de metabusca, agentes de busca, crawlers, etc. O panorama
Kuhlen (1984) sugere que ainda no conhecemos o suficiente sobre os pro- descrito por Schwarz (1998) ainda conceitualmente til, embora muitas de
cessos intelectuais envolvidos na redao de resumos (e, por analogia, na inde- suas informaes estejam desatualizadas. Encontra-se em Arasu et a L (200 l)
xao e procedimentos afins) para desenvolver programas com os quais essas uma excelente descrio tcnica sobre como realmente funcionam os crawlers
atividades seriam simuladas pelo computador: e mecanismos de busca da Rede. Em Liddy (2002) encontra-se uma abordagem
Resumir [... J uma arte intelectual e, como tal, no transfervel diretamente para pro- mais legvel (isto , mais simples). As mudanas ocorrem agora to rapidamente
cessos automticos. A psicologia cognitiva e a inteligncia artificial ainda no nos que qualquer relato, mal publicado j est, pelo menos em parte, obsoleto. Para
propiciaram conhecimento suficiente sobre os processos que se passam de fato nas se manter a par das mudanas, preciso usar um servio como
mentes dos resumidores quando compreendem textos e os condensam. Assim, a imi- <http://extremesearcher.com/news.htm>
tao direta de um processo intelectual, como o ato de resumir, parece in alcanvel e
(p. 98).'
<http://searchenginewatch.com>
Apesar da pesquisa e desenvolvimento verificados mais ou menos na ltima encontrados na prpria Rede. Este captulo limitar-se- a questes da Rede que
dcada, as palavras de Kuhlen parecem at hoje pertinentes. sejam mais petiinetites aos temas da indexao e redao de resumos.
Da perspectiva da recuperao, os recursos infonnacionais acessveis na
Rede so muitssimo diferentes dos registros bibliogrficos do sistema <conven-
cional' da figura I no comeo do livro. Entretanto, h certas semelhanas. Os si-
tios da Rede tm diferentes elementos pesquisveis: URL, nome do stio, quais-
quer metadados includos no stio, pginas de contedo (onde os termos que ali
ocorrem podem ser considerados um tanto anlogos aos termos de indexao de
registros bibliogrficos convencionais) e todo o texto encontrado no sitio.
Esses elementos pesquisveis apresentam de fato algumas semelhanas com
os diferentes elementos pesquisveis em registros presentes numa base de dados
bibliogrficos: ttulo, nmeros de classificao (s vezes), termos de indexao,
texto de resumo (embora a quantidade de texto no stio da Rede possa ser consi-
deravelmente maior). Os stios da Rede diferem da maioria dos registros biblio-
grficos pelo fato de que podem tambm conter apontadores (vnculos de hiper-
texto) para outros stios, onde os termos dos vnculos so tambm pesquisveis.
Neste sentido, um stio no uma unidade independente (como um registro
bibliogrfico comum), mas um n de uma rede.
"* Alguns autores ometem o erro de afim1ar que os tipos de processamento automtko de texto
analisados neste captulo (por exemplo, atividades de extrao) constituem 'compreenso auto- Lynch (2001) chamou ateno para uma diferena importante enhe uma
mtica' de texto (ver, por exemplo, Moens et ai. (1999). Nada estaria to longe da verdade. base de dados bibliogrficoS, como o MEDLINE, e o conjunto de stios que for-
mam a Rede Mundial. As organizaes produtoras de bases de dados bibliogr-
~r-r
''!'

340 INDEXAO E RESUMOS: TEORIA E PRTICA 16. A INDEXAO E A INTERNET 341


ficos so 'neutras' em face dos registros que processam. Os sucedneos que A maioria dos mecanismos de busca afirma que indexa 'todas' as palavras de toda
desenvolvem- resumos e termos de indexao- destinam-se a representar de pgina. O logro est no que os mecanismos escolhem para considerar palavra'. AI
modo exato e imparcial os documentos. Por outro lado, muitos stios foram cria- guns trabalham com uma lista de 'palavras proibidas' [... Jque no so indexadas (p. 8).
dos por empresas que almejam .que sua pgina seja recuperada e no a produ- Todos os principais mecanismos indexam os campos de 'alto valor', como ttulo e
zida pelo concorrente. H dois modos de fazer isso: o 'index spamming' [satu- URL Comumente, mas nem sempre, indexam-se as metnetiquetas [metatags ], que
rao de ndice] e o 'pagejacking' [seqUestro de pgina] (ver adiante). so palavras, expresses ou frases colocadas numa parte especial do cdigo HTivlL
(Hypertext Markup Language) como formo de descrever o contedo da pgina. As
metaetiquetas no nparecem ao se visualizar uma pginn, embora se possa v-las,
Servios de busca na Rede caso se queira, pedindo ao navegador para mostrar a 'pgina-fonte'. [... ] Alguns me
Hock (200 1) nos d uma clara viso global da Rede como um sistema de canismos, porm, propositnlmente, nlio indexam algumas metaetiquetas porque eles
recuperao de informao: so a porte da pgina que mais suscetvel de violao pelosspammers. Esta cautela
adotada em detrimento da indexao de informaes extremamente teis (p. 8-9)
Para o que nos interessa, um mecanismo de busca um servio otCrecido por inter-
mdio da Rede Mundial que permite ao usurio dar entrada a uma consulta e fazer Schwarz ( 1998) abordol! a variabilidade da indexao nos vrios servios:
buscas numa base de dados que abmnge uma poro bastante substancial do con-
Alguns servios indexam todas as pnlavras de uma pgina [... } Informaes posi-
tedo da Rede. Para ser um pouco mais especfico, um mecanismo de busca permite
cionais e informaes de etiquetas de marcao podem ser armazenndas com texto
ao usurio ingressar com um ou mais termos, e qualificadores opcionais, a fim de
indexado para melhomr a recuperao e a eficcia da ordenao. Outros somente
localizar pginas de interesse na Rede. O termo qunse intercambivel com 'servios
indexam palavms que ocorram freqentemente, ou apenas palnvras que ocorram
de busca na Rede', que[... ] normalmente se refere mais no stio como um todo, e que
dentro de certas etiquetas de marcao, ou s as primeims n palavras ou linhas[ ... ]
por sua vez pode fornecer o mecanismo de busca como uma de mltiplas opes. O
Podero ou no ser adotadas listas de palavras proibidas, e, se forem adotadas,
mecanismo de busca pode at ser apenas uma oferta num conjunto de ofertas que jun-
podero incluir palavras que ocorrem com tieqlincia muito alta[ ... ) (p. 975).
tas visam a oferecer no usurio um lugar geral de pa~tidaou um 'portal' da Rede (p. xxii).
Pode~se visualizar o prprio mecanismo de busca como se fosse composto de O estudo de Hert et ai. (2000) um dos poucos que analisam um stio da Rede
cinco pa11es principais funcionais: I) os 'crawlers' do mecnnismo, que saem em bus- de uma perspectiva de indexao. Os pesquisadores desenvolveram trs aborda-
ca de stios e pginas da Rede; 2)a base de dados de informaes reunidas sobre essas gens alternativas para a indexao realmente utilizada num sftio existente e as
e outras pginas que hajam sido reunidas a partir de outras fontes; 3) o programa de
compararam por meio de buscas feitas por 20 estudantes universitrios. As
indexao, que indexao contedo da base de dados; 4) o 'mecanismo de recupera
comparaes foram feitas com base tanto na eficcia da recuperao quanto das
o', o algoritmo e programao respectiva, dispositivos, etc., que, a pedido, recu-
perem material do ndice/base de dados; 5) a interface grfica (HTlvtL), que rene preferncias dos usurios.
dados da consulta do usurio para alimentar o mecanismo de recuperao (p. 6). Embora vrios mecanismos de busca aleguem possuir atualmente bases de
Crawlers ou spiders so programas que percorrem a Rede para I) identificar novos dados com mais de 200 milhes de registros, nenhum desses mecanismos canse
stios que sero acrescentados ao mecanismo de busca e 2) identificar stios j cober- gue abarcar todos os stios da Rede. Lawrence e Giles (1999) estimaram que a
tos, mas que tenham sofrido mudilllas. Os crawlers coletam infonnaes sobre o cobertura no passava de 16% no caso do mecanismo mais exaustivo, e muitos
contedo das pginas de stios e alimentaJn a base de dados do mecanismo de busca com cobriam apenas I0% ou menos. Alm disso, relataram que a cobetiura parecia
essas informaes (p. 6). estar diminuindo com o passar dos anos. Quer dizer, a Rede estava crescendo
O conjunto total de informaes armazenadas sobre todas as pginas da Rede cons numa velocidade mais rpida do que os mecanismos de busca podiam suportar.
ti tu i a base de dados do mecnnismo de busca. Esse conjunto inclui pginas identit1-
cadas por crawlers, mas, cada vez mais, inclui tambm pginas identificadas por Recursos de recuperao
outras fontes ou tcnicas. Um nmero muito grande de stios acrescentados aos
Embora o usurio comum da internet provavelmente faa suas buscas inse-
mecanismos de busca tem origem em solicitaes feitas diretamente pelos editores de
pginas da Rede (p. 7). rindo uma seqllncia simples de termos (que diferentes mecanismos de busca
trataro de modo diferente)- alguns colocando os termos numa relao ou,
Em termos de quais pginas sero realmente recuperadas por uma consulta, a inde-
xao pode at ser mais crtica do que o processo dos crawlers. O programa de outros numa relao E), esses mecanismos podem na realidade oferecer vrias
indexao examina as informaes armazenadas na bnse de dados e cria as entradas opes rnais avanadas- como o emprego de:
apropriadas no ndice. Quando se submete uma consulta, esse fndice que usado I. Lgica booleana, inclusive recursos de encaixamento [nesting]
a fim de identiticar registros coincidentes. 2. Truncamento
342 INDEXAO E RESUMOS: TEORIA E PRTICA 16. A INDEXAO E A INTERNET 343
3. Buscas com expresses Hock (200 l ), no entanto, assegura que as buscas na Rede ainda so muito
4. Proximidade de palavras rudimentares se comparadas com o uso de uma base de dados cuidadosamente
5. Buscas em campos (isto , poder limitar a busca a um campo especificado no indexada, como o MEDLINE, por pm1e de um consulente experiente. Reconhece,
registro, como tftulo ou URL) porm, que os recursos de busca na Rede vm melhorando com o tempo:
6. Vnculos de hipertexto (isto , buscar pginas vinculadas a detenninado URL)
O hiato entre as expectativas da recuperao tradicional e as expectativas das buscas
7. Busca de imagens (capacidade de procurar apenas pginas que contenham na Rede diminui ainda mais quando se levam em conta dois outros fatores. O reco
imagens) nhecimento de ambos os fatores importante para o consulente que queira tirar o
8. Consulta por exemplo (capacidade de encontrar registros semelhantes a um mximo de proveito de qualquer um desses tipos de servio de busca.
registro j conhecido como interessante). Primeiro, os mecanismos de busca na Rede lidam com dados muito desestru-
Naturalmente, nem todos os mecanismos de busca possuem todos esses recursos. turados, ou pelo menos dados com uma estrutura muito pouco coerente. De fato,
Os registros recuperados numa busca na Rede so ordenados corn base num existe uma estrutura definida para a HTML por trs das pginas da Rede, mas, no que
diz respeito ao real contedo intelectual, a quase nica estrutura 'intelectual' encon-
escore numrico e apresentados ao usurio nessa ordem. Vrios fatores podem
trase nos ttulos e metaetiquetas. O corpo das pginas tem pouca estrutura coerente
ser levados em conta nessa pontuao, inclusive:
que o servio de busca na Rede possa usar em buscas estruturadas [...]
l. Freqncia de ocorrncia de termos de busca no registro. Pode ser usada a Segundo, o simples volume de dados atualmente na Rede- associado ao volu
freqUncia relativa (o nmero de ocorrncias relacionado com a extenso me que aumenta todos os dias- acrescenta um grau de respeito ao que os mecanis-
do registro, de modo que, por exemplo, um termo de busca que ocorra cinco mos de busca na Rede conseguiram realizarem perodo de tempo muito curto. O fato
vezes num registro de I 00 palavras ter peso maior do que outro termo que de existir pelo menos um nlvel elementar de acesso s centenas de milhes de pginas
de material um feito que deve inspirar mais admirao do que frustrao (p. 2021 ).
ocorra cinco vezes num registro de 1 000 palavras). provvel haver um Ji.
mite para o nmero de ocorrncias levadas em considerao na pontuao Outros autores so mais crticos acerca dos recursos de busca na Rede.
devido ao index spamming. Wheatley e Armstrong ( 1997), por exemplo, expem assim a situao:
2. Nmero de coincidncias cte termos. Registros que coincidem com todos os
No corpo de uma pgina da Rede, no h a possibilidade de dados em campos det1
trs termos numa consulta (por exemplo) alcanam pontuao maior do que nidos, e por isso impossvel[ ... ) lin1itar as buscas a[ ... ) pmies da pgina. Portanto,
os que coincidem com apenas dois. uma busca descobrir o(s) termo(s) de busca com igual facilidade no ltimo par
3. Localizao do termo. Termos que ocorrem no ttulo podem obter mais peso grafo, em nota de rodap explicativa ou em material existente perto do alto da pgi
do que aqueles que ocorrem em outros lugares. na. Com o advento dos metadados, tornase [... } [possvel] uma abordagem leve
4. Raridade. Termos muito incomuns-os que ocorrem muito poucas vezes na mente diferente[ ... ) Mas, como os metadados no so exibidos e em geral inexiste
base de dados- tm probabilidade de alcanar escore mais elevado. editora ou autoridade que imponha limites, fcil ocorrer abuso de palavras-chave e
5. Proximidade. Se os termos de busca ocorrerem muito prximos no texto, isso pares de termos descritivos e recheados de termos destinados a darlhes alta rele
pode valer mais do que se estivessem muito distantes um do outro. vncia aparente ou localizao freqente[ ... ] Inexiste, at hoje, norma para atribui-
o de rtulos a recursos em rede, e, embora continuem os estudos sobre metadados,
6. Ordem dos termos. Um termo que haja sido inserido em primeiro lugar pelo
seu uso efetivo na rea superior de pginas da Rede ainda raro e incoerente (p. 206).
consulente pode receber um peso maior do que os subseqllentes.
7. Data. Os registros mais recentes obtm peso maior. Enhetanto, desde que isso a em cima foi escrito, em certa medida as coisas mew
8. Popularidade da fonte baseada ou no nmero de vezes que foi acessada ou no lhoraram, tanto na questo dos campos quanto dos metadados.
nmero de outras fontes a ela vinculadas. Naturalrnente, diferentes mecanismos de buscas produziro resultados dife-
Alguns mecanismos de busca tambm permitem formatos de sada alternativos rentes para a mesma consulta por causa de diferenas de cobet1ura, de algo-
~essencialmente opes de visualizao sucintas versus extensas. ritmos de busca e critrios de ordenao. Muitas comparaes de desempenho
Eastman (2002) descobriu que itens que apareciam no topo da classificao surgiram na literatura nos ltimos anos, remontando a 1995, mas so de valor
no curso de buscas relativamente simples (uma seqncia de termos de busca) limitado devido situao de constante mudana da prpria Rede.
possufam maior relevncia (preciso) do que aqueles que apareciam no topo da Comparaes avaliatrias cotejam resultados de buscas somente com base
classificao quando se empregavam buscas booleanas mais complexas para os na duplicao/unicidade ou tentam estabelecer a relevncia dos itens recupera
mesmos assuntos. Ela conclui que os processos de classificao do mecanismo dos. Leighton e Srivastava (2000) e Sue Chen (1999) so exemplos do ltimo
de busca devem funcionar muito bem. caso. Jansen e Pooch (200 I) fazem uma reviso de estudos anteriores. Outras
P,f r!)'".
i'
.!:

344 INDEXAO E RESUMOS: TEORIA E PRTICA 16. A tNDEXAO E A INTERNE~ 345


avaliaes foram feitas com objetivos especiais. Thelwall (200 1) compara os bases de dados bibliogrficos tradicionais. Naturalmente, muitas dessas bases
mecanismos de busca em relao a seu emprego potencial em aplicaes de de dados esto disponveis na Rede. Embora uma base de dados como o
minerao de dados, que ele parece definir como "a agregao de informaes MEDUNE possa ser localizada e nela serem feitas buscas, seu contedo no
oriundas de grande nmero de pginas da Rede, para criar conhecimento novo". includo nos resultados apresentados por nenhum dos mecanismos de busca,
Oppenheim et ai. (2000) fazem excelente reviso de avaliaes de mecanis- aspecto que foi explicitado por Zich (1998):
mos de busca feitas anteriormente. Recomendam o desenvolvimento de um A busca de informaes na Rede padece de duas deficincias debilitantes- o pro-
conjunto normalizado de procedimentos para essas avaliaes, de modo que cesso de buscas superticial e limitado. superficial porque os mecanismos de
"sejam feitas comparaes de n1ecanismos de busca de modo mais eficaz, e que busca chegam somente at ao que chamo de documentos de primeiro nivel- isto ,
sejam rastreadas as variaes de desempenho de qualquer mecanismo de busca documentos que residem em servidores em HTML. H um mundo de informaes adi
ao longo do tempo". cionais alm desse ponto. Retiro-me a informaes em catlogos de bibliotecas e ou-
Em cetia medida, possvel compensar os recursos entre os mecanismos de tros arquivos de dados a que a Rede oferece acesso. O catlogo da Library ofCon-
busca por meio do emprego de mecanismos de metabusca, servios que fazem gress, por exemplo, nunca pesquisado por nenhum dos mecanismos de buscas. JVti-
buscas em vrios mecanismos de busca, e em seguida agrupam os resultados. lhes de informaes, meticulosamente organizadas e rigorosamente autenticadas,
que ali jazem e esto disponveis continuam inexplorados por esses mecanismos. As
Segundo Hock (200 I), existem hoje mais de I 00 mecanismos de meta busca em
descries dos materiais em formato digital do programa A.merican Memory, da
uso. Hock claro quanto s suas limitaes: Library ofCongress, e os prprios materiais digitalizados-centenas de milhares de
Em particular, se houver mais de um punhado de stios relevantes para encontrar nos fotografius, sons e documentos textuais baseados em imagem- no aparecem nos
mecanismos de busca, os mecanismos de metabusca freqentemente no encontra- resultados das buscas feitas por tais mecanismos, e tampouco materiais e arquivos
ro a maioria deles. Isso causado por vrios fatores, inclusive os limites impostos semelhantes de uma mriade de outras instituies. Os atuais mecanismos de buscas
pelo servio ao nmero de registros recuperados em cada mecanismo, limites de tem. arranham a supertlcie do contedo da Rede (p. I 07).
po quando o servio de metubusca simplesmente interrompe a busca num mecanismo
Esse ponto tambm foi suscitado por Han e Chang (2002):
se demorar muito, incapacidade de traduzir adequadamente a consulta para a sintaxe
especifica exigida pelo mecanismo-alvo, e outros fatores. Felizmente, alguns mecaw Em julho de 2000, os analistas estimavam que chegava a pelo menos 100 000 o n-
nismos de metabusca realmente conseguem captar todos os registros que ali existam mero de bases de dados pesquisveis na Rede. Essas bases de dados oferecem intr-
(mas tm outros inconvenientes). maes de alta qualidade, com boa manuteno, mas no so facilmente acessiveis.
Os trs principais pontos fracos dos mecanismos de metabusca so: I) muitas Como os atuais crawlers da Rede no podem consultar essas bases, os dados que
vezes limitum estritamente o nmero de registros que recuperaro de cada mecanis contm permanecem invisveis para os mecanismos de busca tradicionais (p. 64).
mo (s vezes no mais de dez);2) muitas vezes no repassam aos mecanismos con
sultas que tenham um mnimo de complexidade; e 3) na maioria dos casos, s lzem i\'Ietadados
buscas emdois ou trs dos maiores mecanismos de busca[... ]
Na maioria, os mecanismos de metabusca diferem entre si nos seguintes aspectos:
O termo 'metadados' possui vrias definies possveis. Cleveland e C leve~
Os mecanismos de busca especficos que abrangem land (2001) lidam assim com essa questo:
O nmero de mecanismos de busca que podem ser pesquisados por vez Repetidamente, definem-se metadados como dados sobre dados. Ainda que necess-
A capacidade de repussar consultas mais complexas- como as que incluem ria, no uma definio suficiente. Metadados quer dizer dados sobre dados que so
expresses, enunciados booleanos, etc:- para ~s mecanismos de busca 'alvos' estruturados para descrever um objeto ou recurso de informao. Caracterizam dados
Limites quanto ao nmero de registros que podem recuperar de cada meca- de fontes e descrevem suas relaes. Autores de recursos, editoras, bibljotecrios e
nismo (que pode chegar a ser no mximo lO) outros profissionais da intnnao podem criar metadados. Podem estar incorpo-
O tempo que esto dispostos a gastar na busca em cada mecanismo (antes de rados ao recurso ou mantid_os em repositrios separados de metadados (p. 223).
interromper a sesso por decurso de tempo)
Como a sada apresentada, inclusive se eliminaram ou no registros certos Hock (2001) prefere o termo 'rnetaetiquetas' que define como:
encontrados em duplicata nos vrios mecanismos (p. 186-187). A poro (campo) da coditicao HT/I."IL de uma pgina da Rede que pennite a quem
a cria inserir texto que descreva o contedo da pgina. O contedo das metaetiquetas
Hock salienta que os mecanismos de metabusca so mais teis quando se
no aparece na pgina quando esta visualizada na janela de um navegador (p. 220).
procura algo obscuro, isto , assuntos sobre os quais provavelmente h muito
poucos stios que tenham algo a oferecer. O chamado Dublin Core um conjunto de itens de n1etadados (metaetique-
No incio do captulo, fezse uma distino entre os recursos da Rede e as tas) para descrever recursos disponveis em rede. Tornou-se uma norma de facto
f
~Tt'
\ ' ~

346 ]6. A INDEXAO E A INTERNET 347

l
INDEXAO E RESUMOS: TEORIA E PRt\TiCA

para descrio de recursos da Rede. Cleveland e Cleveland (200 1) ressaltam que 'educao' como palavra-chave, ou um provedor da internet usaria 'Rede' como
palavra-chave. A lltilizao de palavras-chave dessa maneira sugere que a finalidade
o Dublin Core:
[ ... ] proporciona informaes de iodexao para fontes documentais, inclusive indi-
cadores para Htulo, criador, assunto, descrio, editora, colaboradores, data, tipo,
I dos metadados aumentnr ao mximo as possibilidades de a relevncia do stio ser
percebidn nas consultas feitas pelos mecanismos de buscas, ao invs de ajudar no
descobrimento do stio por si mesmo ou como membro de um conjunto rela-
formato, identificador de recurso, lngua, relao com recursos afins e gerenciamen- tivamente pequeno de resultados de consultas de busca. Naturalmente, a generalida-
to de direitos autorais.[... ] de de algumas dessas palavms-chave pode ser atenuada pela combinao de duas ou
O conceito de core [ncleo] refere-se a um consenso alcanado por profissionais mais de duas numa coOsu!ta de busca. Alm disso, no necessariamente o caso de
da informao e especialistas de assuntos sobre quais os elementos que so eSsen- terem sido escolhidas palavras-chave no-especltlcas para aumentur a probabilidade
ciais ou fundamentais para manter representaes de informao, principalmente em de recuperao no sitio. provvel que, em alguns casos, o uso de termos extrema-
formatos eletrnicos. [ ... ] mente gerais seja simplesmente o resultado de uma prtica de indexao ruim (p. 366).
Uma das finalidades do desenvolvimento do Dublin Core era criar um esquema
alternativo para as complexas tcnicas de catalogao e tOsse utilizvel por cataloga- Dempsey e Heery ( 1998) chamaram ateno para a crescente importncia
dores, no-catalogadores e especialistas em buscas de informao. Os criadores de dos metadados:
bases de dados eletrnicas disporiam, em certo sentido, de catalogao do tipo 'faa Os metadados difundir-se-o nos ambientes viveis de informao digital a tal ponto
voc mesmo', mediante o preenchimento de espaos em branco. Os consulentes que [ ... }ser dit1cil fnlar gehericmnente sobre eles. As anlises sensatas cingir-se-o
poderiam us-la para navegar nas disciplinas e atravs delns, em ambiente interna- ao uso dos metadados para fins especficos ou em comunidades especficas (p. 168).
cional, na Rede (p. 224).
A importncia dos metadados para arquivos digitais de vdeo foi analisada por
Hearst(1999) distingue entre 'metadados externos' e 'metadados de conte-
Wactlar e Christel (2002).
do'. Definem-se os primeiros como os dados 'relativos produo e utilizao Drott (2002) estudou a extenso com que os stios de grandes empresas na
do documento', como autor, lugar de publicao e data de publicao. 'Metada-
Rede incluem 'recursos auxiliares de indexao' (isto , auxlios no texto para
dos de contedo', naturalmente, so os dados relativos ao contedo (assunto) do
orientar os robs sobre o que procurar para fins de indexao). Ele examinou
documento. claro que este livro diz mais respeito aos metadados de contedo.
tanto os auxilies positivos (metaetiquetas incorporadas que identificam 'pala-
Outra distino foi feita por O'Neill etal. (2001). Os tipos de metadados que vras-chave' ou 'descrio' no texto) e negativos (uso de um arquivo robots.txt
estes autores reconhecem so: "aquilo que explicitamente fornecido pelo autor
que pode impedir que um rob indexe uma patte de um stio da Rede). Entre
do documento da Rede, e aquilo que proporcionado automaticamente pelo 2000 e 2002 ele detectou um aumento no emprego de metaetiquetas.
editor de HTML com que o documento criado". Com base numa amostra de
Alguns autores tm chamado ateno para o fato de que os metadados tanto
registros da Rede, colhida em junho de 1998, concluem:
podem ter desvantagens quanto vantagens. DeRuiter (2002) um deles:
Os resultados [ ... ] sugerem que a utilizao de metadados bastante comum em
Para orientar mecanismos de busca sem confundir as pessoas, certas informaes
documentos da Rede. No entanto, vrias ressalvas devem ser feitas a essa concluso.
fOram colocndas em metaetiquetas que no so imediatamente visveis na apresen-
Primeiro, evidente que grande parte do uso atual dos metadados pode ser atribuido
tao de uma tela na Rede. ComprovotHe que isso era uma vantagem discutveL Por
gerao automtica de metaetiquetas pelos editores de HTML. No est claro que um Indo, um mecanismo de busca pode encontrar a informao com eficincia, mas,
essa espcie de metadado seja particularmente til para facilitar a descoberta e a
por outro lado, muitas vez.es no fica claro para os usurios por que uma pgina
descrio de recursos. Segundo, com freqUncia os metadados so usados para des-
apareceu na busca (p. 205).
crever apenas o prprio stio, ou, no m.'Ximo, um pequeno subconjunto dos docu-
mentos do stio. Os atuais padres de uso dos metadados esto muito distantes da Craven (200 la) examinou a estabilidade dos metadados na Rede. Ele asssim
descrio exaustiva do documento em nvel de pgina. Finalmente, a maior parte da resumiu os resultados que obteve:
utilizao dos metadados ainda cnsustica; com poucas excees, a maior parte dos
stios no obedece a um conjunto bem-definido de elementos de metadados (p. 374). Quntro conjuntos de pginas da Rede anteriormente visitadas no vero de 2000
foram revisitadas um ano depois. De 707 pginas que, no ano de 2000, continham
Constatou-se que cerca de 17% da amostra dos stios continham 'palavras~ descries de metaetiquetas, 586 permaneciam com essas descries em2001, e, de
chave'. Porm, no eram necessariamente termos muito teis para recuperao: I 230 pginas que careciam de descries em 2000, I OI possuam descries em
200 I. Nas pginas de abertura [home pages J pnreciu que tanto havia perdas quanto
A caracterstica mais notvel foi que as palavras-chave, embora normalmente perti
mudanas das descries, mais do que nas outrns pginas, com cerca de 19% das
nentes, de algum modo, ao contedo do stio, eram, no obstante, muitas vezes
descries modificadas nos dois conjuntos em que as pginas de abertura predomi-
extremamente genricas. Por exemplo, o stio de uma universidade na Rede teria
navam versus cerca de 12% nos outros dois conjuntos (p. l ).
""'F"1"T I''

" T!
348 INDEXAO E RESUMOS: TEORIA E PRTICA 16. A INDEXAO E A INTERNET 349
Em estudo relacionado a esse (Craven, 2001 b), ele examinou a ap&rncia das Naturalmente, h muito que a profisso de bibliotecrio lida com metadados
'descries' (essencialmente um tipo de resumo) em metadados da Rede. - na forma de entradas descritivas em catlogos em fichas, impressos e em
assim que ele descreve os resultados alcanados: linha. No obstante, os metadados exigidos por recursos da Rede so, de algum
Amostras aleatrias de I 872 pginas da Rede registradas no Yahoo! e 1 638 pginas modo, diferentes dos metadados tradicionalmente utilizados para descrever
localizveis a partir de pginas registradas no Yahoo! foram analisadas quanto ao uso livros e outros materiais impressos, inclusive porque tm de descrever colees
de metaetiquetas, especialmente as que continham descries. Setecentas c vinte e inteiras de registros ao invs de itens individuais (Hill et ai., 1999) e que podem
sete (38,8%) das pginas registradas no Yahoo! e 442 (27,0%) das outras pginas referir-se a objetos (por exemplo, peas de museus) ao contrrio de texto (ver,
incluam descries em metaetiquetas. Algumas das descries excediam grande- por exemplo, Zeng, 1999). Ademais, talvez sejam necessrios diferentes nveis
mente as diretrizes usuais relativas extenso de !50 ou 200 caracteres. Um nmero de metadados para os mesmos materiais, a fim de atender s necessidades de di-
relativamente pequeno ( 10% das pginas registradas e 7% das demais) duplicavam ferentes pblicos que podem at incluir crianas (ver, por exemplo, Sutton, 1999).
exatamente a redao encontrada no texto visivel; a maioria repetia algumas pala-
Encontra-se em Guenther e McCallum (2003) uma anlise de desenvolvi~
vras e expresses. Ao contrrio das orientaes documentadas dadas aos redatores de
pginas da Rede, era menos provvel que as pginas com menos texto visivel tives-
mentos recentes sobre os metadados, inclusive o MODS (Metadata Object and
sem descries. Era mais provvel que as palavras-chave aparecessem mais perto do Description Schema) e l\lETS (Metadata Encoding and Transmission Standard).
comeo de uma descrio do que mais perto do tlm. Eram mais comuns sintagmas
nominais do que frases completas, especialmente em pginas no-registradas (p. I). Resumos na Rede
Uma importante iniciativa para aplicao de metadados a recursos da Rede Os metadados includos num stio da Rede podem conter texto que um tanto
foi estabelecida com a denominao de CORC (Cooperative Online Resource aparentado com um resumo- pelo menos uma anotao ou nota de contedo.
Catalog), um programa conjunto do OCLC e um grande grupo de bibliotecas par- Se no houver nada dessa espcie, alguns mecanismos de busca usaro as pri-
ticipantes. Em 2002 foi rebatizado para 'Connexion'. Compreende uma base de meiras linhas do prprio texto como uma espcie de resumo.
dados de descries de recursos da Rede e uma base de dados de 'desbrava- Alguns dos servios de busca constroem primeiro 'resumos' para os recursos
dores' [pathjinders] que oferece acesso navegvel aos recursos por meio da que encontram e, em seguida, tornam pesquisveis as palavras do resumo ou
Classificao Decimal de Dewey (coo) (Vizine~Goetz, 2001; Hickey e Vizne- extraem palavras do resumo e no do texto completo. No entanto, as empresas
Goetz, 200 l ). possvel atribuir automaticamente, por meio do programa Scor- nisso envolvidas costumam no ser muito informativas sobre como realmente
pion, nmeros da coo aos recmsos selecionados pelas bibliotecas pa1iicipantes funcionam seus processos automticos de elaborao de resumos.
para incluso na base de dados (Shafer, 2001 ). O Scorpion funciona procurando \Vheatley e Armstrong (l997) salientaram que os recursos acessveis na
as melhores coincidncias entre expresses-chave no texto e o texto associado Rede podem exigir urna abordagem algo diferente da elaborao de resumos, em
aos nmeros da coo. As atribuies feitas pelo Scorpion podem ser considera- especial porque provavelme'!lte se refiram a colees de textos (ou, com efeito,
das sugestes a serem submetidas reviso de pessoas. Embora freqUentemente imagens) e no itens individuais:
sejam 'corretas' (isto , estejam de acordo com a classificao feita por pessoas), Um <resumo da internet' ideal incluiria, por exemplo, orientao ao usurio, avalia-
nem sempre sero. Goodby e Reighart (2001a) descrevem sua pesquisa sobre o da autoridade, anlise de atributos t1sicos (o design do stio ou a facilidade de na
aplicao de indexao automtica (o sistema wordsmith) a registros CORC. O vegao), juzos de qualidade, ou apontadores para fontes alternativas (p. 212).
Wordsmith pode selecionar expresses candidatas em documentos da Rede para Eles comparam resumos ou extratos extrados da internet com resumos de
que sirvam como possveis terni.os de indexao, apresentando~os como suges- bases de dados bibliogrficos convencionais e resumos ou descries de gate-
tes ao catalogador que estiver criando um registro CORC. At outubro de 2002, ways da internet. Foram feitas comparaes sobre legibilidade, contedo e estilo.
umas 500 Instituies haviam contribudo com cerca de 700 000 registros. Alguns itens da Rede incluem palavras-chave ou expresses atribudas pelos
Outra iniciativa relacionada a filtros de qualidade na Rede o Open Directory autores, as quais podem funcionar como sucedneos para o objetivo de fazer
Project (<http://dmoz.org>), que pretende ser um cadastro de recursos da Rede, buscas. No entanto, a grande maioria no o faz, o que estimulou a realizao de
selecionados por serem de boa qualidade, numa ampla variedade de reas tem- pesquisas visando a extrair automaticamente tais expresses de textos da Rede,
ticas. mantido graas aos esforos de voluntrios que se dedicam a selecionar conforme foi visto no captulo anterior (ver, por exemplo, Jones e Paynter, 2002).
stios em suas reas de conhecimento. Em 18 de janeiro de 2003 o projeto decla Para uma anlise das caracterfsticas de 'descries' (um tipo de resumo) de
rava incluir mais de 3,8 milhes de stios selecionados por mais de 54 000 cola- pginas da Rede, ver Craven (200 1b). Ele verificou, por exemplo, que muitas
boradores e organizado em mais de 460 000 categorias. tendem a empregar sintagmas nominais ao invs de frases completas.
INDEXAO E RESUMOS: TEORIA E PRTICA 16. A INDEXAO E A INTERNET 351
350
sem uma consulta nos mecanismos de busca da Rede perguntando por Y, sua vontade
Spammiug de ndice e outras trapaas
seria que o mecanismo de busca, ao contrrio, respondesse com o envio de sua pgina
Um problema potencialmente grave na Rede causado pelo fato de qu_e os com o anncio de X. Voc leva uma cpia da pgina para Ye fornece isso ao servio
desenvolvedores de stios querem que eles sejam encontrados, o que amda de indexao da Rede, mas quando um usurio (ao contrrio do servio de indexao,
mais verdadeiro quando h interesse de lucro. Alguns anos antes de a internet clica no URL, voc envia a pgina de seu produto X ao invs da pgina copiada para
surgir, Price ( 1983) adve1iia que o acesso em rede a recursos elet_rnicos poderia Y. A concorrncia no o nico motivo; por exemplo, talvez voc quisesse garantir

tentar os autores, pessoais e coletivos, a tornar seus trabalhos ma1s atraentes para que as pginas de uma organizao de que voc no gosta fossem devolvidas em
os leitores ou mais recuperveis. Isso o que ocorre atualmente na internet num resposta a pedidos de material de sexo explcito. O seqUestro de pginas definido,
geralmente, como o fornecimento arbitrrio de documentos com entradas de ndice
fenmeno que tem sido chamado de spoofing, ou spamming de ndice. " . arbitrrias e independentes. claro que constitui um problema enorme a construo
Lynch (200 l) tratou, com detalhes, do assunto da confiana e da procedencm de sistemas de recuperao _de informao capazes de fazer tce a esse ambiente, e os
na internet. Ele observa que: crawlers da Rede esto comeando a integrar uma grande variedade de controles de
Os documentos digitais em ambiente distribudo talvez no se comportem de modo validade (como examinar redes de vinculas entre pginas e sitias) na tentativa de
coerente; como so mostrados tanto para pessoas que desejam v-los quanto para identificar e filtrar tentativas provveis de seqestro de pginas (p. 13-14).
sistemas de software que desejam index-los por meio de programas de computador, Drott (2002) tambm se debruou sobre o problema do spamming:
eles podem ser alterados, talvez de forma radical, para cada apresentao, que pode
ser moldada para um receptor especfico. Ademais, a informao que uma pessoa Importante companhia de seguros imaginou a artimanha de repetir vrias vezes a
retira da apresentao de um documento por meio de program_as, como um n~ve~ mesma palavra. Isto , sua entrada de 'palavras-chave' repetia cada palavra seis vezes
gado r da Rede, pode ser muito diferente da que um programa de mdexa~o ext~at ate (por exemplo, prmios prmios prmios prmios prmios prmios). Esta espcie de
do mesmo documento-fonte, a no ser que o programa de indexao seja projetado tentativa de garantir melhor posio na indexao com freqncia encontrada no
para levar em conta o impacto do documento na percepo dos seres hun~anos. [-~-] texto de sitios pornogrficos onde as palavras so ocultadas com o estratagema de
Os stios interessados em manipular os resultados do processo de mdexaao usar uma mesma cor no texto e no fundo da pgina. Ressalva seja feita, a seu favor,
comearam rapidamente a explorar a diferena entre o documento como v~sto pelo que a companhia de seguros no implantou esse questionvel dispositivo. A maioria
usurio e o documento como analisado pelo crawler de indexao por mem de um dos servios de busca desconta as repeties de modo que a repetio de palavras-
conjunto de tcnicas genericamente denominadas' spamming de ndice'. Po_r 7xem- chave intil. E, indo ao que interessa, ditlcil imaginar uma razo comercial leg-
plo, um documento pode ser abarrotado com milhares de palavras qu_e o us~a~m no tima para uma companhia de reputao querer envolver-se em tal prtica (p. 214-215).
veria, porque se confundem com o fundo da pgina, numa fonte de tlpo_s dimmut_os,
Introna e Nissembaum (2000) asseguram que, em termos de acesso, a Rede
porm que seriam encontradas pelo craw!erde indexao. O resultado ?~sso tem Sido
uma corrida armamentista entre indexadores e desenvolvedores de Sit!OS da Rede, favorece os ricos, os inescrupulosos e os tecnologicamente proficientes. Os dois
com os servios de indexao acrescentando maior complexidade extrao d~ pala- ltimos podem promover o acesso a stios da Rede por rneio de spamming e
vras, anlise estatstica, processamento da linguagem natural e outras tecnol~gws. Os outras vigarices. Os ricos podem pagar aos mecanismos de buscas para alcanar
servios de indexao tambm complementam a indexao dire_ta do c~nteudo com 'proeminncia' no ranking dos resultados.
informa,es contextuuis, como, por exemplo, quantos outro~ slt10s se vmculam com Nlowshowitz e Kawaguchi (2002) alertaram para a existncia de vis na Rede.
uma pgina, como uma forma de tentar identificar pginas tm??rtantes. . Isto , os mecanismos de busca podem criar vis na seleo de stios a que pro-
importante compreender que, quando um c~awler reqmstt~ m~1a_ pgm_a para porcionam acesso. Exemplificam esse vis com buscas sobre produtos (uma
indexar, no se truta simplesmente de ler um arqmvo em alguma e~pecte de ststema busca sobre refrigeradores mostra vis para certos fabricantes em alguns meca-
de arquivo de rede; ele est requisitando uma pgina para um servidor da R_ede por
nismos de buscas) e sobre eutansia. Embora no procurem explicar por que
meio do protocolo http. A requisio inclui identificao da fonte do pedt_d? (em
ocorre o vis, a ele se referem como "um problema socialmente importante".
vrios nveis- o programa que est pedindo e a mquina para a qual a requtst~~
enviada), e o servidor da Rede pode ser programado para ~esponder_de modo dite- Floridi ( 1996) talvez haja sido o primeiro a apontar os perigos da internet
rente a solicitaes idnticas de diferentes origens. Os motivos p_ara ISSO pode?\ ser como fonte de desinformao. Desde ento o tema foi tratado com detalhes em
bastante generosos; por exemplo, alguns servidores oferecem pgmas que so UJU~t.a livro organizado por Mintz (2002), que a ele se refere como malinformao
das, para indexar eficientemente, com os algoritmos de indexao usa?os _por dlfe- [misinformationJ, que definida corno informao "intencionalmente errada ou
rent.;s crawlers. Outros motivos para reaes sensveis fonte so mats ativamente equivocada". Exemplos incluem informaes mdicas e comerciais que care-
maldosos, como a prtica do seqUestro de pgina [pagejacking]. Um exemplo torna- cem de credibilidade, scams para arrecadao de dinheiro para fins pseudocari-
r mais fcil a visualizao do que se trata. Suponhamos que se tem um produto Xque tativos, trapaas por correio eletrnico, e orientao jurdica perigosa.
concorre com 0 produto y fabricado por outra empresa. Quando as pessoas colocas-
Embora os problemas abordados nesta seo no sejam, de per si, questes
352 INDEXAO E RESU?\IOS: TEORIA E PRTICA 16. A INDEXAO E A INTERNET
353
de indexao, ilustram com clareza a necessidade de filtros de qualidade e o fato primeiro seja ~recisa (nm.ero. de vnculos por nmero de palavras num docu-
de um pedao substancial da Rede no merecer o mfnimo de ateno em matria ment~), a med1da de especlfictdade muito mais dificil de aplicar cOm xito.
de indexao. _ Sru~avasan et ai. (1996) focalizam os problemas da indexao e recupera-
ao ~e Itens n~ Rede. ~eu trabalho sugere que tcnicas que funcionam bem em
Vinculao de hipertexto/hipermdia a~nbJet~tes ma~s estveis (por exemplo, fi:eqUncia inversa de termos para a clas-
bvio que, na estrutura da Rede, acha-se implcita uma forma de indexa- Sific~:? dos 1te~1s~re~u~~rados) podem ser menos eficazes em "contexto [to]
o. O fato de duas fontes, A e B, estarem vinculadas na Rede implica que ambas heteJO~ene_o e dmamtco . Alguns problemas relativos ao uso de uma base de
pertencem, em algum sentido, mesma classe, e que os termos relativos a A dados de l~1p~rtexto em atividades de recuperao de informao so examina-
tambm podem ser teis na recuperao de B, e vice-versa (Savoy, 1995). dos por DI~llltroff e Wolfram ( 1993). Mais tarde, Wolfiam (1996), usando trs
natural, p01tanto, que os problemas de indexao relativos a fontes em model~s dife~entes, pesquisou os vnculos entre registros de hipertexto.
hipettexto e hipermdia hajam recebido grande ateno. Alguns trabalhos (por Bla.n e Kun~augh (2002) exaltam as vh1udes de 'documentos exemplares'
exemplo, Salton e Buckley, 1992; Savoy, 1995; Salton et ai., 1997) analisam no projet~ de ststem~s de recuperao. Documentos exemplares so aqueles
processos para estabelecimento automtico de vinculas de hipe11exto. Isso tam- ~com~ alttgos de .revJso, manua~s clssicos e normas jurdicas) que melhor
bm tema de livro organizado por Agosti e Smeaton ( 1996). Agosti et ai. ( 1995) d~.SC! evem ou e~1b:m a estt:utura mtelectual de determinado campo". Sugerem
descrevem mtodos para estabelecimento automtico de vnculos de hipermi- VJJOS us.os po~sJVeJs (um uma fonte de terminologia representativa para o
dia, com o uso de critrios de associao estatstica, em tempo real, pesquisando campo), mclustv~ su~ utilidade possvel para o usurio da Rede. Se quem faz a
interao com a Rede. Referem-se a isso como 'autoria automtica' de hipermf- ?use~ recupera pr1111e1ro um documento exemplar, os vnculos de hipe1iexto nele
dia. Embora no proponham explicitamente isso, os vnculos de hipertexto msendos p~dem ser usados para estender uma busca em vrias direes.
estabelecidos pelo consulente, se forem registrados, sero teis para consulentes Mel;tcct ( 1999) ~vali ou a eficcia da recuperao de vnculos de hipertexto
posteriores. A idia conceitual~nente similar de um 'tesauro em crescimento'. c~nstnudos automaticamente, e Blustein e Staveley (200 I) oferecem uma revi-
Arents e Bogaerts (1996) fazem reviso da literatura sobre recuperao de sao de trabalhos sobre gerao e avaliao de hipe11exto.
hipenndia. Embora mencionem amide a' indexao', muitos dos mtodos (na Um tanto relacionada com o hipertexto est a possibilidade para usurios dos
maioria experimentais) que estudam envolvem pesquisas ou 'navegao' em re~.ursos da Rede de nele. fazer anotaes, exatamente da mesma maneira que
hiperredes, seguindo vnculos preestabelecidos ou formados no prprio proces- fm mm a~ota~es nas pgmas de um livro didtico. Essa possibilidade exami-
so de busca. Os 'navegadores' grficos ou 'mapas' destinados a fornecer ao nada mais detidamente por Marshall (2000).
usurio um panorama visual dos vinculas na rede (ver Zizi, 1996, por exemplo)
lembram os 'mapas semnticos' propostos por Doyle (1961) h mais de 40 anos. Classificao na internet
Como foi indicado neste livro, o hipertexto e as redes de hipennidia criam _ Vrios mecanismos de buscas incluem alguma modalidade de cateooriza-
fontes de informao que no possuem fronteiras claramente definidas. Chiara- ao dos recursos a que proporcionam acesso. Esses 'cadastros' ['direct~ries']
mella e Kheirbek (1996) tratam dessa questo. Salientam que "os documentos empre~am alguma forma de classificao hierrquica. Em alguns casos, vrios
no so mais unidades atmicas" o que faz com que mudem nossas concepes mecamsmos ?e buscas c~mpartilham o uso de um cadastro produzido alhures. O
sobre o que constitui no apenas 'documento' mas 'cmpus' e tambm 'ndice'. Yahoo! cons1dera~se basicamente um cadastro da Rede, embora seja, essencial-
Tessier ( 1992), Ellis et ai. ( 1994, 1996) e Chu ( 1997) so alguns autores que mente, uma combmao de cadastro/mecanismo de busca
abordaram as relaes indexao/hipe1texto. Tessier examinou as semelhanas .Ai~u diss~, algumas insti!uies vm trabalhando co1~ vista organizao
entre vinculao de hipertexto e indexao convencional. Ela sustenta que os de 1ecmsos da mternet por meto de alguma modalidade de classificao. O ocLc
autores de hipertexto vinculam o texto de forma muito parecida com a forma por ~~emplo, co~lta com vri.as iniciativas relacionadas com isso. Uma delas:
como seriam vinculados na indexao convencional. Ellis et ai. constataram que Sc01 ~ton, um SJ~tema expenmental para atribuio automtica de nmeros da
seres humanos, solicitados a inserir vinculas de hipertexto numa coleo de Cl.as~Jfica~o.Decunal de Dewey a recursos da Rede (Vizine-Goetz, 1998, 2001;
textos, como indexadores convencionais, no revelam grande coerncia nessa H1ck~y e Y!Zine-Goetz, 200l ). A b~se de dados NetFirst do OCLC Q desativada)
tarefa. Em artigo posterior (EIIis et al., 1996), testam o efeito dessa coerncia da tam~em usava a estrutura luerrqt11ca da classificao de Dewey, a fim de pro-
vinculao na eficcia da recuperao. Chu ( 1997) tentou aplicar os princpios porcionar acesso a recursos selecionados da Rede
da exaustividade e especificidade a vnculos de hipertexto. Embora a medida do Zins (2002) examinou os tipos de classifica~ usados em imp 011antes por-
354 INDEXAO E RESUMOS: TEORIA E PRTICA 16. A INDEXAO E A INTERNET 355
tais e cadastros classificados da Rede. Identificou oito princpios de classifica- E passa a descrever vrios produtos comerciais que se destinam a realizar auto-
o adotados nesses recursos, e considerou cinco deles 'relativos a contedo': maticamente vrias atividades de categorizao em fontes da Rede.
assuntos, objetos (por exemplo, pessoas e organizaes), aplicaes (por exem-
plo, compras), usurios (para quem se destina um recurso) e localizaes (lugar), Portais
e os outros trs princpios relativos a formato: mdia (por exemplo, imagens), Embora bases de dados bibliogrficos, como as da National Library ofMedi
'referncia' (por exemplo, dicionrios, mapas), e lnguas. Zins sugere a necessi- cine, estejam acessiveis na internet, a grande maioria dos recursos da Rede no
dade de integrar esses princpios numa classificao facetada para aplicao na est' indexada' no sentido com que a palavra empregada neste livro, isto , pela
internet. Embora tal integrao seja teoricamente atraente, Zins parece subesti- atribuio de tennos, feita por seres humanos ou computador, talvez extrados
mar o fato de que a classifica_o dos recursos da Rede essencialmente prag de um vocabulrio controlado. No obstante, bibliotecas especializadas e cen-
mtica e prtica, e que os esquemas unidimensionais hoje empregados talvez tros de informao podem oferecer um servio impmtante com a identificao
sejam tudo de que os usurios precisam para utilizao bemsucedida da Rede. dos recursos da Rede de maior relevncia e utilidade para seus usurios, inde
Algumas bibliotecas comeam a atribuir nrneros de classificao aos recm xando de alguma forma esses recursos, e desenvolvendo um gateway que pro
sos da Rede a que proporcionam acesso. Elrod (2000) resumiu um debate em porcione acesso a eles por meio dos elementos de metadados. Vrios desses
linha sobre essa questo. Um dos colaboradores apresentou uma justificativa gateways ou 'portais' so descritos e exemplificados em Wells et ai. ( 1999), que
boa e precisa dessa prtica: a eles se referem como 'bibliotecas virtuais'.
Ao atribuir nmeros de classificao a materiais acessveis por intermdio de seu Um gateway ou po1ial tipico dessa categoria o EEVL, que constitui um
catlogo em linha, mas que no se encontram fisicamente alojados em suas estantes empreendimento conjunto de vrias universidades do Reino Unido. Segundo
(recursos da internet), e seu catlogo em linha de acesso pblico permite pesquisa por Breaks e Guyon (1999), trata-se de:
nmero de chamada, ento o cliente pode 'pesquisar' no apenas o material que voc
tem em seu acervo, mas tambm aqueles recursos da internet sobre o mesmo assunto [... ]um gateway para si tios da internet, de qualidade, sobre engenharia [... ] (que] tem
ou assuntos prximos. Uma vez que o mesmo cliente pode acessar o recurso da por objetivo permitir que professores, pesquisadores e estudantes de engenharia no
internet por intermdio do vfnculo fornecido no registro bibliogrfico, ter esse Reino Unido utilizem melhor os recursos disponiveis na internet graas melhoria
registro destacado numa busca de nmeros de chamada constitui mtodo pelo qual do acesso a tais recursos. Alcanamos isso por um processo de identificao, fil.
podemos oferecer maior acesso informao (Eirod, p. 23). tragem, descrio, classificao e indexao de si tios de qualidade antes que sejam
acrescentados a uma base de dados livremente disponvel na Rede Mundial (p. 76).
Enquanto os mecanismos de busca da Rede proporcionatTI acesso em nvel
de pgina, os cadastros e portais geralmente fornecem acesso em nvel de stio A base de dados contm descries pesquisveis e vnculos com stios da
da Rede. Casey ( 1999) examino_u a necessidade de um ndice analitico da Rede, internet que tenham interesse. Os recursos so categorizados com um esquema
ou seja, que empregue alguma forma de classificao ou outro vocabulrio con de classificao especialmente desenvolvido para tal fim. A sigla EEVL (<http:/
trolado para indexar recursos abaixo do nvel de sitio. Ela reconhece "a impossi /www.eevl.ac.uk/>) originalmente significava Edinburgh Engineering Virtual
bilidade de um fndice analtico exaustivo da internet", mas acredita que a "cria- Library. Posteriormente foi renomeada Enhanced and Evaluated Virtual Library
o de pequenos ndices focais pode ser a melhor soluo para acessar tipos quando seu campo de ao foi ampliado para incluir matemtica e informtica.
especficos de informao digital". Isso precisamente o que os portais exami- Em 21/9/2002, a EEVL proporcionava acesso a mais de 9 000 stios.
nados na seo seguinte objetivam fazer. Um portal parecido o Agriculture Network Information Center (AgNIC),
Muitos autores enfatizaram a necessidade de mais classificao dos recursos mantido pela National Agricultura! Library e vrias outras instituies. O AgNIC
da Rede. Trippe (200 I) assim se expressou: (<http://www.agnic.org/>) proporciona acesso a recursos da Rede em 15 cate
gorias gerais, todas relativas agricultura em seu sentido mais amplo.
Segundo alguns, o caminho que leva a uma melhoria da recuperao da informao INFOMINE (<http://infomine.ucr.edu/>) descrevese assim:
na Rede est em ta:-.onomias aplicadas de forma inteligente. Segundo tal opinio,
preciso identificar com mais preciso o contedo, mediante o uso de categorias, de [... ]uma biblioteca virtual de recursos da internet, relevantes para os corpos docente
modo que os mecanismos de busca e outros auxlios navegao possam ser mais e discente e pesquisadores da universidade. Contm recursos teis da internet, tais
bem sintonizados para ajudar o usurio. Como, cada vez mais, os contedos cami como bases de dados, peridicos eletrnicos, livros eletrnicos, quadros de avisos,
nham rumo Rede, essas fontes de dados precisam beneficiarse das tecnologias e listas de endereos, catlogos de bibliotecas[ ...] em linha, artigos, cadastros de pes.
tcnicas que permitem s pessoas visualizar, navegar e procurar dados por meio de quisadores e muitos outros tipos de informao.
categorias que sejam amplamente compreendidas (p. 44). O INFOMINE foi feito por bibliotecrios. Protissionais de universidades e facu[.
356 INDEXAO E RESUMOS: TEORIA E PRATICA 16. A INDEXAO E A INTERNET 357
dades, como University ofCalifornin, \Vake Forest University, California State Uni- recurso exato de que precisa e evitar ficar vasculhando os resultados dos mecanismos
versity, The University ofDetroit- Mercy, colaboraram na construo do INFOMfNE. de buscas que freqUentemente consistem em pginas de vnculos irrelevantes. As
caracteristicas tpicas do CORC, como controle de autoridade para acesso a nomes,
Em 2l/9/2002, anunciava que proporcionava acesso a mais de 23 000 recursos. ajudam na localizao dos recursos (p. 112).
Os sftios includos so comentados e recebem cabealhos de assuntos (Library
ofCongress) para melhorar o acesso (Mitchell e Mooney, 1999). Um centro de informao industrial pode desenvolver um portal que aponte
Outros portais destinam-se a facilitar o acesso a recursos da Rede que sejam para recursos de maior interesse e utilidade para a empresa e integrar isso com
de interesse potencial para usurios de bibliotecas pblicas. O Librarians' Index a prpria intranet da empresa, adotando o mesmo modo de acesso temtico (por
to the Internet (<http://lii.org/>) assim descrito por Hinman eLeita, 1999: exemplo, esquema de classificao). Ver, por exemplo, Ctandall (2000). Bannan
(2002) trata do tema dos pmtais de empresas, mas, em sua opinio, eles propor-
um cadastro temtico, pesquisvel e comentado, de[ ...] recursos da internet, selecio- cionam acesso a informaes internas, e possivelmente permitem a pessoas de
nados e avaliados quanto sua utilidade para as necessidades de informao do
fora o acesso a recursos selecionados da empresa, ao invs de gateways para
usurio de bibliotecas pblicas. Os recursos so selecionados e indexados por uma
informaes teis (para a empresa) alhures na Rede.
equipe de bibliotecrios treinados, voluntrios, de bibliotecas da Califrnia (p. 144).
Campbell (2000) descreveu sua viso de um 'pmtal de cientistas' destinado a:
So abrangidos mais de I O000 recursos da internet, organizados em categorias
promover o desenvolvimento e proporcionar acesso a contedos da mais alta quali-
e subcategorias. So empregados cabealhos de assuntos da Library o f Con-
dade na Rede. Facilitaria o acrscimo de material de alta qualidade ao promover pa-
gress, com modificaes. dres, tzer buscas em bases de dados, e oferecer uma variedade de ferramentas de
O Getty Infonnation Institute outra instituio atuante nesse tipo de esfor- apoio. Com isso, bibliotecas, empresas e muitas outras organizaes estariam capa-
o. Busch (1998) descreveu como os vocabulrios controlados do Getty podem citadas a contribuir para uma biblioteca digital acessvel e distribuda (p. 3)
ser usados para proporcionar melhor acesso a recursos em mte.
Embora Campbell no trate diretamente das questes relativas indexao, elas
Pmtais desse tipo so importantes como filtros dos recursos em rede. O com-
esto implcitas no reconhecimento de que o portal "tambm ofereceria exce-
ponente de 'valor agregado' ou 'filtro de qualidade' -de seleo, anotao,
lentes tesauros eletrnicos que orientariam, com preciso, os pesquisadores para
indexao- de suma impmtncia. Esse ponto enfatizado na EEVL:
reas de interesse". A Association ofResearch Libraries vem atuando no desen-
As buscas na EEVL recuperaro recursos de alta qualidade, mas, em virtude de os volvimento dessa idia por intermdio do Scholar's Portal Project ( <http://
recursos constantes da EEVL serem colhidos mo, aqui voc no encontrar tantos www.arl.org/access/scholarspOital/>). Ver Jackson (2002) para os avanos
recursos quantos encontraria em alguns servios, porm sero os melhores! nessa rea at meados de 2002.
Os pmtais mencionados neste captulos destinam-se a serem acessados por Em Awre e \Vise (2002) encontra-se uma breve reviso de desenvolvimentos
uma grande variedade de usurios potenciais. No entanto, so possveis pmtais recentes relativos a portais no Reino Unido.
mais restritos e especializados. As bibliotecas podem criar seus prprios pmiais Place ( 1999) faz uma previso do futuro dos gateways temticos:
para recursos da Rede. Hurt e Potter (200 1) do um exemplo: Os Usurios j podem aproveitar os gateways temticos, que, juntos, descrevem
No campus da Georgia State University, os bibliotecrios de ligao (que tambm dezenas de milhares de recursos de alta qualidade na internet. No futuro, os usurios
so bibliotecrios de referncia e desenvolvimento de colees) dedicam-se ativa- vero os atuais gateways temticos crescer notavelmente de tamanho, medida que
mente identificao e criao de si tios na Rede, particularmente em suas especiali- mais bibliotecrios e profissionais da informao contribulrem para eles e medida
dades, e desenvolvem sitias sobre vrios temas, que incorporam outros stios bem- que solues automatizadas e humanas para descobrimento de recursos forem inte-
conceituados. Outro grupo importante de bibliotecrios muito envolvidos com a gradas. Vero tambm o surgimento de novos gateways e podero fazer buscas
Rede so docentes bibliotecrios de colees especiais e arquivos, muitos dos quais cruzadas simultanea e inconsutilmente em diferentes gateways.
criam arquivos digitais para ampliar o contedo da biblioteca virtual na Rede (p. 23). Tambm no futuro, ser possvel usar perfis de usurios para habilitar os gate-
ways temticos a fornecer um servio de intrmao personalizado. Os usurios
Medeiros et ai. (2001) descrevem a abordagem de uma biblioteca univer- sero solicitados a inserir numa base de dados suas preferncias em matria de
sitria de medicina em relao a um p011al, que utiliza como base o Cooperative intnnao, de modo que osgateways possam notific-los sobre novos recursos que
Online Resource Catalog (CORC). Assim se referem s vantagens disso: surjam no catlogo (p. 243~244).
A biblioteca pode usar o CORC para selecionar stios que ofeream contedo de O futuro da indexao e da redao de resumos examinado, mais detida-
qualidade. O cliente da biblioteca atendido ao poder dirigir-se, sem esforo, ao mente, no captulo seguinte, e ltimo, deste livro.

nn
17. O FUTURO DA INDEXAO E REDAO DE RESUMOS 359
palmente ao escolher os peridicos, sries de relatrios ou outras publicaes
CAPTULO 17 que sero analisados regularmente. Por fim, as bibliotecas, particularmente as
que servem s comunidades de ensino e pesquisa, colocam os filtros mais pe1to
dos usurios reais quando compram materiais considerados de maior utilidade
O futuro da indexao e redao de resumos para esses usurios e quando organizam as colees segundo nveis de acessibi-
lidade, para que fiquem mais prximos (fisicamente e talvez tambm intelectu-
alm~nte) os materiais que mais provavelmente os usurios venham a precisar.
E claro que a imensa vastido de recursos mal-organizados que esto aces-
screvendo h quase 50 anos, Fairthorne (19.58) afirn~ou ~ue "~ indexao sveis, pelo menos em sentido terico, na internet, faz com que a construo de
E o problema fundamental bem como o obstaculo mais dispendiOso da recu-
perao da informao". E a indexao continua sendo o problema principal do
filtros eficazes seja uma proposta intimidadora, tanto para pessoas quanto para
instituies. Ademais, do-nos a certeza de que a situao haver de ficar muito
acesso informao, e a mente de Fairthorne por certo teria ficado atnita diante pior (Weld et ai., 1995).
da imensido dos problemas de acesso informao suscitados pela Rede Embora muitos documentos da Rede sejam de baixa utilidade, outros podem
Mundial. simplesmente desaparecer, conforme salientou Missingham. Spinellis (2003)
Missingham ( 1996) oferece uma clara explanao desses problemas: constatou que cerca de 28%.dos URLS referenciados em dois impmtantes peri-
dicos de cincia da computao, entre 1995 e 1999, no estavam mais acessfveis
No se pode considerar a internet como se fosse apenas mais um passo na histria da em2000, nmero esse que aumentou para 41% em 2002. O fndice de desapare-
indexao. Ela suscita enormes desafws e exige uma abordagem muito diferente da
cimento de documentos da Rede pode, grosso modo, equivaler ao ndice de
indexao para alcanar uma recuperao eficiente da informao.(... } A indexao
da internet oferece muitos desafios: ela contm milhes de documentos ou arquivos; obsolescncia da literatura de cincia da computao (isto , declfnio de uso com
a localizao desses documentos/arquivos muda freqUentemente; no h nenhum a idade). No obstante, o fhto de itens desaparecerem ou talvez reaparecerem em
controle de qualidade da informao na internet, nenhuma coerncia no uso da ternli outro formato sem referncia ao original no estimula investimento numa inde-
nologia, ou mesmo no emprego de ttulos; muito dificil manterse a par das novas xao dispendiosa.
fontes; os lndices so complicados porque muitos dependem de informaes comu- Hoje em dia, no parece provvel que a situao catica causada pelo fen-
nicadas pelos prprios editores (algo parecido com o atual processo de catalogao meno do 'cada urn ser seu prprio editor' seja reversivel. Em outras palavras,
na publicao). [... ]No h normas que exijam que sejam usados os autores ou os difcil visualizar a possibilidade de que algum poderia impor ou imporia nor-
ttulos, nem a exigncia de que a informao principal inclua o ttulo ou o subttulo. mas de qualidade total publicao ou distribuio atravs de redes. Por con-
A indexao da internet , portanto, muito diferente da indexao de um artigo de
seguinte, a viabilidade de uma vasta rede como recurso de informao depen-
peridico, onde essas informaes identiticadoras normalmente so claras (p. 35).
der da imposio de filtros de qualidade similares aos do mundo da impresso
E ela acrescenta que o maior de todos os problemas talvez seja: em papel.
[... }a natureza voltil da rede onde indexar um recurso realmente como se se es- No h dvida que a funo de filtro to imp011ante no ambiente elehnico
tivesse a enxugar gelo, pois hoje ela pode estar ali e amanh j ter desaparecido ou quanto o era num ambiente editorial dominado pela impresso em papel. Como
mudado completamente. No s o nome, o contedo e a localizao do recurso indexao e resumos, numa ou noutra forma, so elementos essenciais na filtra-
podem alterar-se regularmente, mas tambm sua acessibilidade e formato mudar gem da informao, conclui~se que tero fuh1ro. As perguntas que permanecem
tcilmente (p. 36). sem resposta, ento, so as seguintes:
O grande defeito da internet como fonte de informao, fora seu tamanho, 1. Qual a forma que tero essas atividades, e
est no fato de que ela carece de qualquer forma de controle de qualidade. O fato 2. A quem caber ou caberia realiz-las?
de os servios de informao funcionar com razovel eficincia no mundo do
interessante observar que Odlyzko, que h alguns anos previu que tanto as
papel impresso deve-se a que vrias instituies existem para desempenhar a
funo de filtro de qualidade. As editoras de livros e peridicos cientficos ado- bibliotecas quanto os peridicos cientficos tornar-se-iam obsoletos, pelo menos
em seu formato tradicional (ver, por exemplo, Odlyzko, 1995), bastante posi-
tam processos de reviso/avaliao que so, pelo menos em ce1ta medida, efica-
zes para eliminar a maior parte do que imprestvel. Os servios que editam tivo no que tange ao futuro dos servios de indexao e resumos. Ele afirma
(Odlyzko, 1999) que esses servios sobrevivero porque sua contribuio inte-
ndices e resumos proporcionam o nvel seguinte de filtro de qualidade, princi-
lectual substancial e porque, por isso, so comparativamente baratos.
*:'Tf jt r.

360 INDEXAO E RESUMOS: TEORIA E PRTICA 17. O FUTURO DA INDEXAO E REDAO DE RESUMOS 361
autores que defenderam a in~exao profissional numa base seletiva. Weinberg
Jacs (2002) discorda um pouco em relao aos servios, mas continua recomendou especificamente uma indexao no estilo dos ndices de final de
sendo um firme adepto da necessidade de resumos na Rede: livro, e essa espcie de indexao poderia certamente ser aplicada a stios espe-
cficos da Rede. Na realidade, j foi aplicada dessa forma, e Browne (200 1) ana-
A crescente disponibilidade de bases de dados de texto completo fez diminuir a
importncia de bases de dados de resumos e fndices nos ltimos I O a 15 anos, mas lisou e exemplificou os respectivos processos. Casey (1999) admite que o sonho
no a necessidade de resumos. As bases de texto completo precisam de resumos para que ela alimentava de um 'fndice analtico' completo da Rede (isto , que inde-
que seu uso seja eficiente. A razo bvia disso est em que passar os olhos nas listas xasse abaixo do nvel de stio) era utpico e que "fndices pequenos, focais, talvez
com os resultados de buscas que contenham breves resumos ajuda tremendamente a sejam a melhor soluo".
selecionar os documentos~fonte mais promissores, mesmo quando os resumos Ellis et al. ( 1998) sugerem que um grande problema de qualquer abordagem
deixam muito a desejar. relacionada com a indexao da Rede o fato de que o indexador sempre estar
muito longe do usurio:
E acrescenta:
A razo menos bvia para a existncia de resumos nessas bases de dados est em que [... ]na Rede Mundial[ ... ] no h proximidade alguma entre projetista ou criador(que
se a busca se limitar ao campo do resumo numa base de dados de textos completos poderia ser qualquer um) e usurio potencial {que poderia ser qualquer um ou todos).
haver garantia de que ela ser mais precisa do que se for feita em centenas de Isso agravado pela falta de uma noo clara por parte da maioria dos consulentes
milhares de documentos de texto completo (p. 22). sobre o que que os diversos mecanismos de buscas na realidade fazem quando
realizam uma busca. De modo que a origem real dos problemas que ocorrem nas
claro que Jacs no est se referindo necessariamente a resumos preparados buscas feitas em fontes distribudas em linha ou na internet no est nos problemas
por seres humanos, mas a resumos ou extratos preparados automaticamente. De tcnicos de indexao, mas na f.1cilidade de acesso proporcionado por servios em
fato, seu artigo passa em revista programas disponveis comercialmente destina- linha e a Rede Mundial a informaes selecionadas, estruturadas e indexadas para
dos 'sumarizao de documentos', um grupo de usurios (que possuem um conjunto de caracterfsticas e necessidades de
informao) por espcies de usurios totalmente diferentes com caractersticas e
Mani (200 l) outro autor que acentuou a importncia da sumarizao:
necessidades totalmente diferentes.
A exploso da Rede Mundial trouxe consigo um estoque imenso de informaes, em natural que isso venha a exacerbar problemas existentes em relao coinci-
sua maior parte relativamente no~estruturadas. Isso fez surgir a demanda por novas dncia de conceitos entre indexador e usurio, pois os usurios encontram muitos
maneiras de gerenciar esse corpo bastante sobrecarregado de informaes dinamica- arquivos ou stios diferentes, com caractersticas, prticas de indexao e vocabul~
mente cambiantes. Em tal ambiente, parece indispensvel alguma forma de sumari- rios diferentes, nenhum dos quais, com certeza, poder satisfazer a todas ou mesmo
zao automtica. Usurios da Rede, fontes de informao em linha e novos dispo~ algumas das necessidades de um usurio ou grupo de usurios potenciais. Essa uma
sitivos mveis, alm da necessidade da gesto do conhecimento pelas empresas, vm questo importante, pois os usurios mais distantes so, no que concerne a caracte-
exercendo presso crescente em prol de avanos da tecnologia na questo da sumari- rsticas e necessidades de informao, dentre os tipos de usurios imaginados e leva-
zao. Empresas comerciais passam cada vez mais a oferecer recursos de sumari- dos em conta pelos que criam ou indexam uma base de dados, os que mais provavel-
zao de textos, muitas vezes integrados com ferramentas de recuperao da infor- mente tero problemas em acessar informaes relevantes dessa base de dados. O
mao (p. 529). problema a indexao para o usurio desconhecido (p. 44).

As propostas referentes indexao de recursos da Rede abrangem um leque Pode~se considerar os documentos da Rede como 'dinmicos', e no estti-
extremamente variado, inclusive afirmativas de que isso no possvel de modo cos, no sentido de que podem ser modificados pelo seu criador, ou mesmo por
algum. Por exemplo, Wellisch ( 1994) sustentou que " improvvel que os peri- outros. Bishop (1999) examinou como os pesquisadores podem manipular arti-
dicos eletrnicos sejam indexados, devido instabilidade de seus textos". Tendo gos de peridicos eletrnicos (por exemplo) para criar novos documentos. Ela se
em vista que a maioria das fontes na internet so muito menos estveis do que os refere a isso como desagregao (o desmembramento do artigo) e reagregao
peridicos, ele provavelmente acha que todo o esforo- ou seja, a indexao (reunir todos os pedaos do a11igo, ou parte deles, numa organizao diferente).
de textos que esto sujeitos a freqentes mudanas- seja uma causa perdida. Ademais, alguns documents da Rede so 'vh1uais'- documentos 11que care-
evidente que a indexao profissional, feita por seres humanos, de toda a cem de um estado de pennanncia" (so criados a caminho do usurio) (\Vatters,
Rede totalmente invivel. Mesmo que o fosse, grande parte do que aparece na 1999). Gi01dano (2000) salienta que:
Rede de valor muito passageiro ou de qualidade excessivamente baixa para
(... ] a prpria estrutura do documento problemtica porque, num ambiente que se
chegar a merecer tais cuidados com a indexao. J uma indexao seletiva, baseia na Rede, um documento que aparea na estao de trabalho de um usurio
profissional, , naturalmente, vivel. Owen (1994) e Weinberg (1996) so dois
~r-1
-;'l: 1

362 INDEXAO E RESUMOS: TEORIA E PRTICA }7. O FUTURO DA INDEXAO E REDAO DE RESUMOS 363
como um nico objeto poder de fato ser uma montagem de documentos vinculados, Anderson e Perez-Carballo (200 I) argumentam que o tremendo aumento na
mas independentes, residentes em bases de dados distribudas (p. 243). quantidade de texto indexvel, especialmente na Rede, torna essencial uma
abordagem seletiva da indexao por seres humanos:
Essa situao fluida gera confuso em pessoas habituadas ao ambiente bas-
tante slido e permanente da impresso em papel, porm nem sempre apresen- O que no podemos nos permitir continuar tratando todos os documentos que
tar problemas de indexao e redao de resumos. As mudanas que o autor ingressam em nossos acervos e bases de dados de recuperao da informao como
fizer num texto 'autorizado' exigiro, naturalmente, algumas alteraes num se fossem igualmente importantes e merecedores por igual do nosso trabalho espe-
resumo ou termos de indexao relativos a esse texto (por exemplo, em portais cializado de anlise e indexao. Simplesmente, eles no so, e a continuar assim
estaremos desperdiando nossos preciosos recursos (p. 274).
que apontem para ele). O documento 'virtual' (descrito por \Vatters) somente
estaria qualificado para ser indexado ou resumido se fosse capturado e armaze~ E fazem sugestes sobre como identificar esses itens de escol.
nado numa base de dados como um item novo. Do mesmo modo, o documento
reagregado (descrito por Bishop) provavelmente seria um documento infonnal, Abordagens alternativas
que no mereceria os cuidados da indexao e resumo. A impennanncia dos
Drott (2002) prope uma soluo completamente diferente. Ele chamou
documentos eletrnicos tem mais probabilidade de constituir um problema nas
ateno para o problema da indexao na Rede da seguinte forma:
intranets de empresas, onde os documentos podem desaparecer por completo,
ser radicalmente alterados ou agregados/desagregados sem qualquer controle. Localizar informaes sobre temas especficos na Rede dificil e fica cada vez mais
difcil. Os recentes avanos em buscas automticas na Rede e indexao algortmica
Abordagens profissionais foram grandemente superados pelo enorme crescimento da quantidade de material
disponvel. As estimativas de cobertura pelos mecanismos de buscas da Rede, feitas
Duas importantes abordagens que oferecem acesso intelectual aos recursos por Lawrence e Giles (1999), sugerem a impossibilidade de empregar robs para
mais importantes da Rede j esto disponveis e foram focalizadas no captulo in~exar toda a Rede, e, evidentemente, quanto maior for o tempo de anlise que um
anterior: a iniciativa CORC (Cooperative Online Resource Catalog) (renomeada rob dedicar extrao de termos de indexao para uma nica pgina, menor ser
'Connexion' em 2002) e vrios p011ais especializados. Embora a maioria dos a quantidade do material disponvel que poder ser indexada. Alm disso, embora
portais hajam sido desenvolvidos em reas 'acadmicas', a importncia deste grandes progressos estejruil sendo feitos para melhorar a exatido da indexao
tipo de atividade para a biblioteca pblica foi assim realada por Holt (1995): automtica, ainda verdade que atribuir termos de indexao a uma base de dados
to diversa quanto a Rede continua sendo um problema para o qual h poucas
[... ]o pessoal de biblioteca pblica pode poupar o tempo de seus clientes ao orga~ solues promissoras (p. 209~21 0).
nizar a massa de informaes eletrnicas disponveis em servidores locais, nacionais
e internacionais[... ] [e] pode desenvolver guias eletrnicos que ajudem os consulen~ E sugere, no entanto, que embora o emprego de indexadores profissionais no
tes em meio aos metadados e megaarquivos, em linha, com que lidaro (p. 555-556). seja uma proposta economicamente atraente, os responsveis pela criao de
pginas na Rede deveriam ter condies de eles mesmos fazerem um trabalho
Ele menciona, especificamente, a importncia de proporcionar anotaes aos
aceitvel de indexao:
usurios, e encara a biblioteca pblica como uma central de informaes provida
de 'agentes de informao'. Seria bom estimular os criadores de stios na Rede a atribuir seus prprios termos de
Todas essas atividades dizem respeito filtragem de recursos da Rede e indexao? O atual modelo de indexao, como o que se encontra nos principais ser~
vios de indexao de peridicos, baseiase no emprego de indexadores capacitados
todas implicam alguma forma de proviso de acesso por assuntos por meio de
e que receberam extenso treinamento. Encontra~se, contudo, uma pesquisa encoraja~
indexao ou classificao, e talvez alguma forma de resumo. Trippe (200 l) res-
dora de Coombs ( 1998) sobre a indexao de pginas do governo do estado de
salta a necessidade de mais classificao dos recursos da Rede, e Elrod (2000) Washington na Rede. Coombs valeu-se, como indexadores, das pessoas que criaram
resume um debate em linha sobre a convenincia de as bibliotecas atriburem e trabalharam com os documentos. Os resultados desse estudo mostraram que,
nmeros de classificao aos recursos da Rede aos quais elas proporcionam quando os indexadores leigos compartilham o mesmo entendimento quanto ao con-
acesso (algumas j o fazem). tedo e usos de seus documentos, as palavras~chave que produzem so um auxlio
Vrios autores (ver, por exemplo, MacDougall, 2000, e Studwell, 2000) razovel na localizao por assuntos (p. 218).
insistem no uso de vocabulrios controlados na indexao de recursos da Rede, E, finalmente:
porm se mantm vagos quanto aplicao ou parecem subestimar grandemente
os problemas da aplicao. Nosso modelo de indexao da Rede bem que poderia tornar-se um desses modelos
de 'caos global, ordem local' em que a indexao de campos especficos feita pelo
364 INDEXAO E RESUMOS: TEORIA E PRTICA 17. O FUTURO DA INDEXAO E REDAO DE RESUMOS 365
autor adequada dentro de campos limitados, mas ruim para integrar-se em qualquer Abordagens automticns
esquema global de conhecimento. Este conceito sugere um sistema de indexao de
Encontram~se disponveis programas que fazem automaticamente a inde-
duas camadas em que o processamento distribudo de metaetiquetas por um grande
nmero de computadores que rodem programas bastante simples suportado no xao ou resumos de recursos da Rede. Jacs (2002) avalia alguns programas de
nvel seguinte por robs de indexao mais complexa. Esses robs sero projetados sumarizao disponveis no comrcio, e Reamy (2002) refere-se a programas de
no para extrair de cada pgina descries de contedo espect1cas, mas para se con- 'autocategorizao' (iSto , que colocam automaticamente os recursos em cate-
centrar na colocao de grupos de pginas ou stios inteiros em categorias de assun- gorias) e prev importantes avanos nessa rea no futuro. A situao do desen-
tos especficos e deixando as informaes de contedo para os criadores das etique- volvimento de mtodos automticos foi examinada no captulo 15.
tas (p. 218).
Outra possibilidade promover a indexao de recursos da Rede por seus Concluso
usurios. Besser ( 1997) analisou a necessidade disso. Embora lidasse especifi~ Depois de tudo isso, pode-se concluir que as atividades de indexao e resu-
camente com imagens na Rede, o mtodo aplicvel a quaisquer recursos: mos vm aumentando ao invs de diminuir de importncia, e que os profissionais
Se pudermos desenvolver sistemas para terminologia atribuda pelo usurio, os dessas reas podem dar uma contribuio substancial seja no nvel de um sitio da
gerentes de acervos podero apoiar-se nos usurios para que atribuam termos ou Rede ou em nveis mais amplos, como o projeto e implementao de um poria!.
palavras-chave a cada imagem. Nesse sistema, quando o usurio encontrasse uma Podero tambm desempenhar importantes papis na operao de intranets
imagem, o sistema lhe perguntaria quais as palavras que teria usado para buscar essa de empresas. De fato, Reamy (2002), especialista na rea de gesto do conheci-
imagem. Essas palavras seriam ento inseridas no sistema de recuperao, e usurios mento, embora preveja o crescimento da 'autocategorizao', oferece enftica
subseqentes que fizessem buscas com essas palavras encontrariam a imagem. defesa da necessidade de profissionais em atividades de acesso intelectual:
medida que crescer a quantidade de pessoas que usarem esse sistenm, tambm cres-
cer a quantidade de pontos de acesso para muitas imagens. As empresas no querem pagar aos bibliotecrios para categorizar seu contedo por-
essencial que esses sistemas permitam a realizao de buscas em termos atri- que acham que sai muito caro. Esto erradas, pelo menos quando se computa o tempo
bufdos de tbrma oficial, tanto independentemente dos termos contribu!dos pelos que os funcionrios desperdiam ao tentar em vo encontrar aquele documento de
usurios quanto junto com eles. Podemos ter dois tipos de buscas: uma que somente que precisam para responder aquela pergunta do cliente, sem o que o cliente ir
examina termos atribufdos por cata\ogadores, e a outra que examina tanto os termos embora em busca de um concorrente que, ao contrrio, tem a resposta. Apesar disso,
atribudos pelos catalogadores quanto os termos atribufdos pelos usurios. Sistemas muitas empresas ainda no pagaro para que seres humanos categorizem seu
desse tipo tambm podero servir como auxilio aos catalogadores. Pode-se imaginar contedo, e mais provvel que estejam dispostas a pagar entre 250K a 750K por um
um sistema em que, de tempos em tempos, termos contribui dos pelos usurios sejam programa de computador que amide executa um trabalho menos eficaz (p. 18).
'promovidos' condio de termos oficialmente atribufdos pelo catalogador (e sero E acrescenta:
ento recuperveis por ambos os mtodos).
medida que sistemas como esse crescem, os usurios futuros podero querer Em primeirfssimo lugar, a autocategorizao no pode substituir por completo um
limitar suas buscas a termos atribudos por pessoas em quem confiam (talvez porque bibliotecrio ou arquiteto de informao, embora possa torn-los mais produtivos,
provenham do mesmo campo ou porque atribuam termos de modo mais confivel). poupar seu tempo e produzir um melhor produto final. O prprio programa, sem uma
Portanto, provavelmente esses sistemas desenvolvero tanto uma caracterstica pes- categorizao baseada em regras feitas por seres humanos, no pode atualmente
quisvel de 'propriedade' para cada termo atribudo e um 'nvel de confiana' que o chegar a n1ais de uns 90%de exatido-o que soa muito bem at se perceber que um
usurio pode definir e que se aPlica a um grupo de proprietrios. O projeto desiste- de cada dez documentos listados nos resultados de uma busca ou interface de pes-
mas como este ter tambm de ser sensvel privacidade de quem contribui com quisa estar errado. E, o que mais importante, estar errado por razes inexplicveis
termos. Os usurios que definem nveis de confiana para os atribuidores de termos -razes que levaro os usurios a perder confiana no sistema.
podem localizar essas pessoas por meio de perfis bsicos de sua especialidade e cargo Embora seja muito mais rpida do que um categorizador humano e no exija
(mas sem identificao), ou podem localiz-los ao encontrar correlaes entre outros frias nem plano de sade, a autocategorizao simplesmente ainda no to boa
atribuidores de termos e como o prprio usurio atribui termos a outras imagens[... ] qtJanto un1 categorizadorhumano. No pode compreender as sutilezas de significado
(p. 24-25). nem sumarizar como um ser humano porque no comprende coisas como o signii-
cado implcito num documento e porque no leva para a tarefa de categorizao os
A indexao de documentos da Rede feita pelos usurios tambm foi defendida cootextos signiticativos que as pessoas levam. Uma coisa que os trabalhos iniciais da
por Villarroel et ai. (2002). TA nos ensinaram que embora a velocidade seja importante, a velocidade sozinha
no pode compensar a falt~ de compreenso do significado (p. 21 ).
366 INDEXAO E RESUMOS: TEORIA E PRTICA

E finalmente:
Pa1te 2
Ao invs de um risco para os profissionais da informao, a autocategorizao pode,
de fato, no s aprimorar sua capacidade de solucionar problemas de informao do
usurio, mas at elevar seu status para algo prximo do nvel em que deveria estar. Prtica
No apenas os bibliotecrios e arquitetos da informao produziro mais e com mais
economia, mas tero software caro relativo a essa tarefa e, como todos sabemos, nas
empresas de hoje, a menos que haja programas caros envolvidos, ningum pensar
que voc tiL
Bem, est ce110, talvez haja um pouco de exagero nisso, mas o programa de
autocategorizao tem o potencial de realar o que j devia estar claro- que o pro
fissional da informao est empenhado numa atividade fundamental de infra-estru-
tura. Os profissionais da informao esto ou deveriam estar envolvidos na criao
e manuteno da infra-estrutura intelectual de sua instituio. Embora a tecnologia
e as infra-estruturas organizacionais hajam merecido mais ateno e recursos, parte
do desequilbrio poderia ser corrigido com a utilizao e integrao inteligentes de
novos programas, novos mtodos de trabalho tanto com os provedores de contedo
quanto com os consumidores de contedo, e novas formas de apresentar a infor-
mao.
Portanto, como concluso, acho ser provvel que aautocategorizao, em ltima
anlise, melhorar tanto o poder quanto o prest[gio do profissional da informao (p.
22).
Parece claro que o crescimento continuado dos recursos de informao aces-
sveis em rede far com que as atividades de anlise temtica venham a ter uma
importncia maior do que jamais tiveram. Alm disso, provvel que mais e
mais indivduos estaro envolvidos nessas funes. Com certeza, os mtodos
para elaborao automtica de fndices e resumos continuaro a melhorar. No
entanto, como Lancaster e \Varner (200 I) salientam na reviso que escreveram
sobre esta rea, provavelmente ainda decorrer muito tempo at que as mquinas
sejam suficientemente inteligentes para substituir por completo os seres
humanos nessas impmiantes atividades, se que de fato um dia o faro.
T CAPTULO 18

I
Exerccios de indexao

F azendo que se aprende, seja na indexao e redao de resumos seja em


outras atividades. Os dois ltimos captulos deste livro contm alguns exer-
ccios de indexao e redao de resumos. Evidentemente, os poucos exerccios
que podem ser includos num livro deste tipo esto longe do que seria suficiente
para formar indexadores e resumidores consumados. Apesar disso, apresentamo-
los na esperana de que pelo menos proporcionaro alguns exemplos concretos
dos principais pontos mencionados nos captulos precedentes.
Nas poucas pginas a seguir encontram-se vrios resumos de relatrios ou
mtigos de peridicos. Alguns so resumos verdadeiros de publicaes existentes.
Outros so de attigos 'hipotticos', embora se baseiem em publicaes existentes.
Voc dever indexar cada um desses itens empregando termos do UNBIS the-
saurus (New York, United Nations, Dag Hammarskjld Librmy, 1995).* Se
assim lhe aprouver, voc poder primeiro escrever as palavras ou expresses
que representem sua anlise conceitual de cada item e, em seguida, procurar
traduzir cada um desses enunciados para um termo ou termos do tesauro. De
qualquer modo, separe seus descritores em descritores principais e secundrios,
sendo os primeiros os termos que voc considera mais impot1antes para repre-
sentar o contedo temtico.
Depois dos resumos voc encontrar nossas sugestes de indexao para
cada item, o que lhe permitir comparar sua indexao com a minha. Lembre-
se, contudo, que a indexao um processo algo subjetivo. Embora acredite na
minha indexao, no posso garantir que ela seja 'correta' em sentido absoluto.
Incluem-se explicaes sobre por que a indexao foi feita de determinada forma.
Os itens 6-13 foram publicados originalmente no nmero de janeiro de 1977
de A.!. O. Research and Development Abstracts e so aqui reproduzidos com
permisso do Center for Development lnformation and Evaluation, United States
Agency for International Development.

Itens a serem indexados


1. O lcool combustvel hoje [Alcohol fuel today] (Baseado em attigo publicado
em Smithsonian, March 1981, p. 44-53)

"' Um substituto parcial deste tesauro, em portugus, o Tesauro SPINES (Braslia: JBICT; Lisboa:
JNICT,1988), onde se encontram m~is de 70% dos descritores das respostas dadas pelo autor. (K.T.)
1"1"1

370 INDEXAO E RESUMOS: TEORIA E PRTICA !8. EXERCIC!OS DE INDEXAO 371


Descreve as vrias fontes das quais se pode destilar etano!, abrangendo di- Este folheto, de texto simples, complementado com desenhos de inmeros
versos tipos de produtos e resduos agrcolas, alm de resduos urbanos e lama cmtazes, destina-se a agentes comunitrios e outras pessoas que lidam com a
industrial. Compara os custos de produo do etano! com os da gasolina, e alimentao de crianas nos pases em desenvolvimento, ajudando-os a trans-
analisa os problemas inerentes converso da produo de etano! da fase de mitir a mes e filhos ensinamentos sobre os alimentos de que as crianas preci-
usina-piloto produo comercial em larga escala. Examina as vantagens e des- sam durante o crescimento e para manter a sade, e como utilizar alimentos
vantagens do gasool, uma mistura de gasolina e lcool combustvel, e estuda os locais na melhoria de sua dieta. Os captulos abrangem: A dupla finalidade dos
problemas que devem ser resolvidos para que os carros a lcool se tornem viveis. programas de alimentao infantil; O que voc deve saber sobre os alimentos;
Fixando metas que se ajustem a sua comunidade; Algumas regras gerais para o
2. A eroso e o agricultor.
ensino; Trabalhando com mes de pr~escolares; e Ensinando s crianas em
Descreve como o vento, a chuva e a neve derretida podem erodir valiosas
programas de alimentao escolar. Percebe-se que a educao nutricional mi-
terras de cultivo, e avalia o volume das perdas agricolas devidas a essas causas
nistrada por pessoas da prpria comunidade tem efeito mais duradouro e contri~
na Europa setentrional. Examina possveis solues, a saber, a rotao da cultura
bui para a preveno da desnutrio tanto quanto os alimentos doados, por mais
de gros com a de gramneas protetoras do solo e o emprego de rvores e tenaos
impmtantes que estes sejam para a sade das mes e crianas que os recebem.
como quebra-ventos.
7. 1\lelhoramento da qualidade nutritiva e da produtividade da cevada para
3. A fotografia area e o que ela pode fazer [Aerial photography and what it can
regies semi-ridas; relatrio anual, 197511976. [lmprovement ofthe nu-
do] (Baseado em mtigo publi.cado em Smithsonian, March 1984, p. 150-155.)
tritive quality and productivity ofbarley for semi-arid regions; annual repOit,
Faz uma reviso dos vrios usos possveis da fotografia area, que abrangem
1975/1976] (Montana State University, College of Agriculture 1976, 70p.)
a fotografia por satlite, a vigilncia militar, o controle do desarmamento, o
Este o segUndo relatrio anual de um projeto hienal destinado a melhorar
estudo de stios arqueolgicos, aplicaes em censos (por exemplo, contagem
o valor nutritivo de cevada consumida em pases menos desenvolvidos, e au-
de domiclios), previso do tempo e inundaes, e cartografia (fotogrametria).
mentar a produtividade e diminuir as perdas causadas por doenas da cevada.
4. Ofim do bordo sacarina? [The end ofthe sugar maple?] (Baseado em a1tigos Durante o primeiro ano de trabalho, foram visitados vrios pases menos desen~
publicados em Blair & Ketchum S Country Journal, March 1986, p. 46-49 e volvidos, a fim de estabelecer contatos e coletar amostras de organismos causa-
American Forests, November-December 1987, p. 26-34.) dores das principais doenas. O estudo sobre as doenas evoluiu ao ponto de
Uma grande quantidade de rvores de bordo sacarina, no Canad e norte permitir o incio de um impmtante programa de extenso. Quanto ao estudo
dos Estados Unidos, ou esto morrendo, ou j morreram, causando uma grave sobre valor nutritivo, aperfeioou-se a tcnica de prova microbiolgica para
reduo na produo de acar. Suspeita-se que a principal causa disso seja a determinao de lisina at se obter um instrumento de seleo confivel. No se
chuva cida que provoca o desfolhamento. verificaram diferenas significativas no valor nutritivo de pares isognicos Cam-
pana, glutinosos e normais," devidas ao tipo de amido ou de composio em
5. Poder um avio voar eternamente? [Cana plane fly forever?] (Baseado
aminocidos da protena. Os resultados preliminares indicam que os povos que
em artigo publicado em Newsweek, September 28, 1987, p. 42, 47.)
Ser testado no Canad o prottipo de uma aeronave movida a eletricidade, consomem basicamente arroz dariam preferncia e provavelmente consumiri-
que no precisa de qualquer combustvel convencional. A eletricidade trans- am mais uma cevada de endospenna glutinoso do que a cevada de endosperma
normal. A variedade High Amylose Glacier apresentou um valor energtico !e~
mitida do solo sob a forma de energia de microondas, sendo reconvertida em
vemente menor do que a Glacier normal, mas a primeira contm uma protena
eletricidade por meio de 'reten.as' instaladas no avio. Teoricamente, o avio
de melhor qualidade, devido a um aumento na protena de vrios aminocidos.
poderia permanecer no ar durante meses sem piloto. Entre suas aplicaes
Os dados de desempenho animal (Crescimento, DES e VB) confirmam as anli-
incluem-se pesquisa cientfica, vigilncia (militar, policial ou civil), previso
ses qumicas da composio em protena e aminocidos das cevadas Hyproly e
do tempo e transpmte de passageiros. As microondas tambm podem acionar
Normal Hyproly. Verificou-se que o contedo de li sina da protena era influen-
espaonaves. Os possveis riscos das microondas para a sade seriam um
ciado pelo meio ambiente de modo diferencial, dependendo do gene presente, e
obstculo a sua ampla aplicao.
se refletia no desempenho animal. O desempenho animal tem alta correlao
6. Educao nutricional em programas de alimentao infantil nos pases em com o contedo de aminocidos essenciais das cevadas. Comumente a lisina
desenvolvimento. [Nuhition education in child feeding programs in the deve- responde por mais de 50% da variao animal em crescimento e PER, e 60% da
loping countries] (Agency for lnternational Development 1974, 44p.) variao em valor biolgico. Identificou-se uma translocao dupla que ser
"f!TI

372 INDEXAO E RESUMOS: TEORIA E PRTICA

eficaz na transferncia do gene Hiproly para uma populao, bem como genes
l 18. EXERciCJOS DE INDEXAO 373
nacional formalmente enuncada, as diversas instituies voltadas para a cincia
ali criadas e os recursos financeiros alocados para a pesquisa e a educao em
resistentes a doenas (cochonilha, ferrugem, nanismo da cevada amarela) no
cromossomo 3. Foram desenvolvidas linhagens ftteis, cheias e com alto teor
de Jisina, a patiir de hbridos Hiproly, para servirem como matrizes em outros
I cincia constituem uma importante poltica nacional implcita. A administrao
desse grande e complexo conjunto de instituies uma tarefa formidvel, e
devem ser encetados todos os esforos para garantir sua eficcia e eficincia. A
trabalhos de desenvolvimento de variedade com esse gene.
administrao da pesquisa nas universidades um problema muito diferente da
8. lvfulheres ajNcanas no desenvolvimento agrcola, um estudo de caso em Ser- administrao de institutos de pesquisa aplicada, e deve ser resolvido to rapi-
ra Leoa. [African women in.agricultural development, a case study in Sierra damente quanto possvel. Ainda que o programa de pesquisa aplicada do Egito
Leone] (Spencer, D.S.C., 1976, 41 p. Department o f Agricultura! Economics, seja um empreendimento de vulto, sua execuo provavelmente esteja a necessitar
Michigan State University.) de uma ampla reestruturao e redirecionamento, para ser totalmente eficaz. A
Estudo sobre as conseqncias na mo-de-obra, entre famlias de agricultores, transferncia de tecnologia indstria egpcia por outras naes foi e continuar
de um emprstimo para projeto da A.I.D. destinado ao desenvolvimento de terras sendo um elemento fundamental no desenvolvimento industrial do Egito. Visando
alagadas no interior para produo de arroz. O estudo correspondia a uma pe a assegurar uma transferncia eficaz de tecnologia e a reduzir seus custos, deveria
quena parte de uma pesquisa nacional sobre problemas de emprego rural em haver revises apropriadas da legislao e das prticas nacionais.
Serra Leoa. Uma aldeia, Benduma, numa das trs reas operacionais do projeto
da A.I.D., foi selecionada para o estudo intensivo do trabalho dirio realizado 10. Utilizao para o consumo humano de espcies marinhas subutilizadas.
por homens, mulheres e crianas, em 23 domiclios selecionados. De maio de [Utilization ofunderutilized marine species for human consumption] (Cons
1974 a junho de 1975, foram feitas entrevistas duas vezes por semana em tantinides, S.M.; Figueroa, Jose; Kaplan, Harvey, 1974, llp. lnternational
domicilies selecionados, aplicandose um questionrio de insumo-produto para Center for Marine Resource Development, University ofRhode Island.)
manter registros dirios de horas trabalhadas por membro da famlia e produto Numa poca em que os preos do pescado esto em alta e a desnutrio pro-
noagrfcola, vendas agrcolas e no-agricolas, emprstimos concedidos e rece tica prevalece em muitos pases em desenvolvimento, os pescadores, em todo
h idos, e presentes dados e recebidos. A paiiir desses dados calcularamse a re- o mundo, devolvem ao mar, para morrer, milhes de toneladas de peixes ricos
ceita domiciliar por fonte e sua distribuio, utilizao da mo de-obra, rendi- em protena. Esses peixes so devolvidos ao mar porque so considerados 'lixo'
mentos da mode-obra, e perfis sazonais de empresas agrcolas e no-agrcolas. ou 'refugo', ou so espcies pouco conhecidas sem qualquer valor econmico.
O autor conclui que as mulheres envolvidas no projeto de desenvolvimento Nos Estados Unidos, os pescadores devolvem at 70% dos peixes apanhados
trabalharam com um pouco mais de afinco do que as mulheres que dele no par- nas redes durante a pesca de outras espcies de valor econmico, como linguados
ticiparam, mas que o aumento da carga de trabalho foi muito menor do que o e camares. O homem no pode mais se permitir ignorar as espcies marinhas
aumento da carga de trabalho de homens adultos e crianas. As mulheres desem- ricas em protena. preciso criar mercados para as espcies subutilizadas, expan-
penham papel substancial no cultivo de um produto de 'desenvolvimento' (arroz dindo-os como solues alternativas em face da queda no abastecimento de
irrigado) que emprega tecnologia aperfeioada. Todavia, os resultados do estudo espcies comercialmente consolidadas, ampliando desse modo a indstria, esti~
negam a hiptese de que esses projetos de desenvolvimento agrcola impem mulando a preservao dos recursos e revitalizando as espcies conhecidas e h
uma carga de habalho desigual para as mulheres em comparao com os homens. muito exploradas. Pode-se lanar mo de solues convencionais e no-con-
vencionais, a fim de utilizar essas espcies consideradas refugo. A utilizao
9. Poltica de cincia e tecnologia, administrao e planejamento da pesquisa delas pode ser desenvolvida conforme as seguintes atividades principais: carne
na Repblica rabe do Egito 1976, I 03 p. [Science and technology policy, moda (espcies mistas ou uma nica), pastas e produtos secos. A produo de
research management and planning in theArab Republic ofEgypt] (National carne moda a pmtir de inmeros peixes de tamanho pequeno e mdio torna~se
Academy ofSciences, National Research Council, Washington, D.C. 20418.) vivel com o emprego de separadores que produzem carne sem espinhas. A
Relatrio de simpsio sobre planejamento de polftica cientfica e oficina carne lavada e depois congelada em blocos. Uma combinao de peixes gordu-
sobre administrao e planejamento da pesquisa. A conferncia girou em torno rosos e no-gordurosos resulta num produto final apetecvel ao consumidor.
de planejamento e politica de cincia e tecnologia, e administrao da pesquisa. Pastas de peixe, de camaro e de caranguejo so preparadas segundo vrios
Escolheu-se o formato de 'oficina' como o melhor mtodo para reunir um grupo mtodos. Acrescentam~se carne moda lavada sal, amido e polifosfatos, a fim
representativo de cientistas da rea das cincias fsicas, naturais e sociais, eco de produzir uma pasta com a qual podem ser preparados embutidos e outros
nomistas, engenheiros e planejadores de desenvolvimento egfpcios e norte- produtos. Podem tambm ser elaborados outros produtos como peixe misturado
americanos. Constatou-se que, embora o Egito carea de uma poltica cientfica
374 INDEXAO E RESUMOS: TEORIA E PRTICA

com batata, pasta para espalhar sobre po, molhos para salgadinhos, e sopas ou
vrios tipos de carne moda misturados entre si ou com outros ingredientes para
1I
'
}8. EXERCCIOS DE INDEXAO

13. Desenvolvimento de coberturas de casas de baixo custo a partir de materi-


375

ais locais em naiJes em desenvolvimento; relatrio anual, 1974//975 [Deve-


obter novos sabores apetitosos. Espcies que at hoje no foram utilizadas pelo lopment oflow-cost roofing fiam indigenous materiais in developing nations;
homem sero utilizadas no fuh1ro, e as chamadas espcies sem valor sero aceitas annual report, 1974/1975] (Monsanto Research Corporation, Dayton, Ohio,
como espcies comestveis apropriadas ao consumo humano direto. 1975, 335 p.)
11. A utilizao de alunos monitores e instruo programada pelo rdio: alterna-
tivas viveis na educao. [The use ofpeer tutoring and programmed radio
I Este relatrio examina a segunda fase (maio de 1974 a setembro de 1975)
de uma pesquisa de trs fases, com trs anos e meio de durao, visando ob~
teno de melhores coberturas de casas para pases em desenvolvimento, medi-
instruction: viable alternatives in education] (Hannum, \V. H.; Morgan, R.M.
ante a combinao de fibras e enchimentos locais com aglutinantes de baixo
1974, 38p. Florida State University, College ofEducation.)
custo. A meta final do programa tornar disponfvel em pelo menos trs pases,
Os educadores de pases em desenvolvimento provavelmente obtero me-
cada um deles na Amrica Latina, sia e frica, mn sistema de coberhtra de
lhores resultados ao aplicar os princpios e no os equipamentos da tecnologia
casas que seja econmica e tecnicamente aceitvel e que dependa menos de
educacional. J foi demonstrado que os principias do ensino programado so
divisas estrangeiras do que as alternativas ora existentes. O objetivo do progra-
eficazes na promoo da aprendizagem em circunstncias muito variadas. Os
ma ser demonstrado, em cada um dos pases participantes, com a construo
materiais instrucionais mais eficazes podem ser desenvolvidos com a aplicao
de pelo menos quatro prottipos de cobet1uras e a transferncia da tecnologia
dos princpios da instruo programada e do aprendizado com proficincia. O
necessria a instihlies qualificadas. Os pases colaboradores atuais so Jamaica,
rdio, quando combinado com alunos monitores, pode ser um instrumento edu-
Filipinas e Gana. A prioridade do projeto durante a fase 111 consistiu no desen-
cacional eficaz em pafses em desenvolvimento. Os conceitos de ensino progra-
volvimento de materiais de cobet1ura e estabelecimento do mecanisnl.O de trans~
mado e aprendizado com proficincia podem ser incorporados ao projeto de
ferncia de tecnologia. Os objetivos predominantes do desenvolvimento de ma
programas educacionais pelo rdio. Estes, acompanhados por alunos monitores,
teriais incluam o estabelecimento de um conjunto generalizado de critrios
aperfeioam o esforo educacional global de modo compatvel com os recursos
para coberturas; definio dos componentes do material composto; determina-
de muitos pases em desenvolvimento. Este tipo de sistema educacional uma
o dos conjuntos mais promissores de materiais, processos e produtos; e an-
alternativa vivel educao formal tradicional. Deveria ser testado em vrios
lises de custos e viabilidade dos sistemas propostos. Foram definidos quatro
pases em desenvolvimento visando explorao de todo seu potencial.
sistemas propostos de material composto para coberturas que empregam de 70
12. Fatores culturais e sociais que influem na participao de pequenos agri- a 100% de materiais locais. Excepcional como enchimento o bagao, que o
cultores em programas formais de crdito [Cultural and social factors affec- resduo da canade-acar. Os principais aglutinantes propostos incluem. borra-
ting small farmer participation in formal credit programs] (Gillette, Cynthia; cha natural, resinas fenlicas e termoplsticas comerciais. A cura acelerada e ao
Uphoff, Nonnan 1973, 40p. Rural Development Committee, Center for Inter- ar livre demonstra a viabilidade dos sistemas propostos. Os objetivos dos as-
national Studies, Cornell Ut~iversity.) pectos relativos transferncia de tecnologia incluram a definio de institui-
Este trabalho contm trs pressupostos bsicos que, com uma exceo, cons- es colaboradoras potenciais e pessoas flsicas na Jamaica, Filipinas e Gana; a
tituem seu tema principal. A exceo a questo da 'racionalidade econmica', formao de comisses de trabalho, assessoras e tcnicas, em cada um desses
conhecida de todos os que se interessam pelo desenvolvimento do Terceiro pases que pat1icipariam do programa de desenvolvimento de cobet1mas de ca~
Mundo, mas que vista como justificativa de uma breve anlise na introduo. sas; e a identificao de instituies qualificadas interessadas na futura produ~
A parte 11 trata do contexto cultural de pequenos agricultores como tomadores o comercial dessas coberturas. Essas instituies, comisses e grupos de tra
de emprstimo, isto , diversos fatores que influem sobre a demanda de crdito. balho foram definidos nos trs pases e esto funcionando, em vrios graus,
Em seguida, a partem trata do contexto cultural dos programas creditcios como com a Jamaica frente. Foram identificadas indstrias do setor privado que
emprestadores, isto , fatores que condicionam o fornecimento de crdito dis- podero tornar-se futuros fabricantes de coberturas em cada um dos trs pases.
ponvel em termos funcionais aos pequenos agricultores. A parte IV mostl'a v- Durante a fase m, de outubro de 1975 a dezembro de 1976, o programa ser
rias implicaes das pa11es 11 e 111: o que acontece quando esses dois sistemas conclufdo com a otimizao de materiais, projeto, fabricao, testes e avaliao
culturais interagem e quais os provveis pontos de dificuldade. A parte v con- dos prottipos de coberturas; e fabricao em campo, instalao e avaliao das
clui fazendo uma comparao das diferenas gerais entre fontes de crdito for- cobet1uras em escala integral.
mais e informais.
376 INDEXAO E RESillvfOS: TEORIA E PRTICA 18. EXERCiCIOS DE INDEXAO 377
Indexao e explicaes do autor ser waste utilization [utilizao de resduos]. Rejltse derivedfuels [combustveis
(Os descritores principais so identificados com um asterisco *) derivados do lixo] , com certeza, um termo apropriado.
Considerando que se comparam os custos do etano! e da gasolina, o termo
1. O lcool combustvel hoje gasoline deveria ser includo na indexao exaustiva. Production costs [custos
Alcohol fuels* (lcoois combustveis] de produo] certamente sim.
Gasohol* [gasool] Os termos do UNBIS no permitem que se expresse com preciso a idia de
Production costs [custos de produo] <ampliar' a produo da escala de usinapiloto para a escala comercial. O termo
Gasoline [gasolina] mais pertinente parece ser pilo! projects [projetospiloto].
Crops [produtos agrcolas] Tambm impossvel exprimir a idia de 'vantagens/desvantagens' ou 'pro
Agricultura! wastes [resfduos agrfcolas] blemas' (relativos a carros movidos a gasool ou lcool). A maioria dos vocabu
Refuse derived fuels (combustveis derivados do lixo] !rias controlados no chega a contemplar esse tipo de idias mais nebulosas.
Domestic wastes [resduos domsticos]
2. A eroso e o agricultor
Industrial wastes [resduos industriais]
Soil erosion* [eroso do solo]
Pilo! projects [projetos-piloto]
Rain [chuva]
Waste utilization [utilizao de resduos]
Soil conservation* [conservao do solo]
No se enconha no UNBIS o termo ethanol [etano!] do qual se faz remissiva
Snow [neve]
para alcoholfuels [lcoois combustveis]. que parece ser o tenn_o mais petiinente
Crop rotation [rotao de culturas]
para este item. Se o termo ethanol existisse no tesauro, ele seria usado, e no
Windbreaks [quebra-ventos]
alcoholfuels, apesar do ttulo, pois o resumo indica que o artigo trata exclusiva-
Crop yields [produo agrcola]
mente de etano I. No confie em demasia nos ttulos; eles s vezes so enganosos.
Europe (Europa]
O resumo sugere que o artigo d bastante ateno ao gasool, e por isso este
Aqui, o termo fundamental sai/ erosion [eroso do solo]. Soil conserva-
termo tambm empregado na indexao seletiva. O tesauro no contempla a
tion [conservao do solo] o tenno que, isoladamente, melhor abrange 'pos-
possibilidade de se expressar a idia de 'carros a lcool', No entanto, isso se
sveis solues'. Deficincias do tesauro UNBIS dificultam a indexao exaustiva.
acha implcito com muita nitidez em gasohol [gasool], de modo que o emprego
Rain [chuva], snow [neve] e wind [vento] so termos apropriados e necessrios,
do termo automobiles [automveis], embora no seja errado, parece desne-
caso algum precise fazer uma busca de artigos especificamente sobre eroso
cessrio. Se utilizssemos o termo motor jl1els [combustveis para motores]
do solo provocada por chuva, neve ou vento. Quanto s solues especficas
estaramos cometendo um Srio engano, porque o atiigo trata exclusivamente
analisadas, crop rotation [rotao de culturas] e windbreaks [quebra-ventos]
de gasool, que um tipo de combustvel para motores, e motor}ltels, no UNBIS, so apropriados
um termo genrico (TG) de uma ordem superior a gasohol.
No UNBIS no se pode expressar a idia de 'perdas agrcolas', porm crop
Na indexao mais exaustiva seria preciso abarcar as outras idias conden-
yields [produo agrcola] suficientemente aproximado para merecer ser
sadas no resumo. As fontes do etano! podem ser satisfatoriamente abrangidas
atribudo (isto , o efeito da eroso sobre a produo). O termo Northern Europe
por intermdio do termo crops [produtos agrcolas] junto com diversos termos
(Europa setentrional] no existe no UNBIS (embora exista Southern Europe!
especficos de 'waste' [resduos]. Uma vez que se mencionam tipos especficos
[Europa meridional]), por isso o termo Europe deve ser atribudo. Isso exem-
de resduos, melhor empregar os termos especficos e no o mais genrico
plifica um aspecto importante: se o termo exato de que se necessita no existe
wastes. Para exemplificar, suponhamos que algum estivesse procura de
no tesauro, utiliza-se o termo mais especfico que o tesauro permite.
informaes sobre possveis aplicaes de resduos agrcolas. Este parece ser
um item bastante relevante, porm no seria encontrado se estivesse indexado 3. A fotografia area e o que ela pode fazer
sob o termo mais genrico. Aerial photography* [fotografia area]
O termo municipal wastes [resduos urbanos] no existe no UNBIS, mas como Aerial photogrammetry [aerofotogrametria]
resduos urbanos so, em geral, resduos domsticos (ver nota explicativa em Image analysis [anlise de imagens]
domestic wastes no UNBIS), devese, por isso, empregar resduos domsticos. Aerial surveys* [levantamentos areos]
Se o miigo der muita ateno ao aspecto 'resduos', um termo adequado parece Hydrographic surveys (levantamentos hidrogrficos]
378 INDEXAAO E RESUl\IOS: TEORIA E PRTICA 18. EXERCCrOS DE INDEXAO 379

Flood contrai [controle de inundaes] contra inundaes, de modo que se deve usar {lood contra/ [controle de
Military reconnaissance [reconhecimento militar] inundaes]. Como o movimento de gua ou gelo se acha implfcito, hydrographic
Satellite monitoring [monitoramento por satlite] surveyS [levantamentos hidrogrficos] tambm seria um bom termo.
Geodetic satellites* [satlites geodsicos] A cartografia est bem abrangida por aeria/ photogrammet1y [aerofotogra-
Archaeology [arqueologia} metria]. Finalmente, como todas as diversas aplicaes envolvem extensamente
Censuses [censos] a interpretao de fotografias, image analysis [anlise de imagens] parece ser
Weather prediction [previso do tempo] inteiramente adequado.
Weather maps [cartas meteorolgicas] 4. O fim do bordo sacarina?
Este artigo parece tratar do emprego de aeronaves e satlites na realizao Sugar growing* [culturas aucareiras]
de diversos tipos de levantamentos fotogrficos. Aerial photography [fotogratla Sugar industry [indstria aucareira]
area] e aerial surveys [levantamentos areos] so termos impmtantes. O termo Trees* [rvores]
satel/ite photography [fotografia por satlite] no existe no UNBIS. A idia poderia Defoliation [desfolhamento]
ser expressa, contudo, combinando-se aerial photography com um termo de Acid rain* [chuva cida]
'satlite'. O termo mais apropriado parece ser geodetic satellites [satlites Canada [Canad]
geodsicos], especialmente porque o UNBIS liga (por meio de TR) o termo aerial United States [Estados Unidos]
photogramme!Jy [aerofotogrametria] com geodetic satelfites. Plant diseases [doenas das plantas]
Quanto s aplicaes, o UNB!S abrange satisfatoriamente umas, e outras no O tesa mo UNBJS s reconhece como plantas produtoras de acar a cana-de-
to satisfatoriamente. Verification [verificao] um te1mo do tesauro aparen- acar e a beterraba sacarina, por isso, preciso empregar aqui. sugar cr~ps
temente apropriado para este artigo at se descobrir que satellite monitoring [culturas aucareiras ]. Como nesse tesauro h poucos termos para t1po,s especifi-
[monitoramento por satlite] um termo mais especfico do que verification. cas de rvores, preciso empregar o termo genrico trees [rvores]. E provvel
Emprega-se satellite monitoring porque o tipo de verificao analisado no docu- que a poluio seja a causa do desfolhamento, mas desn~cessrio. usar air
mento (verificao de desarmamento) s pode ser realizado por meio de fotogra- pollution [poluio atmosfrica] porque acid rain [chuva c1da] ma1s exato.
fias tiradas por satlite. Lembre-se: empregue sempre o termo mais especfjlco
existente no tesauro, ainda que um outro termo possa 'soar' mais apropriado. 5. Poder um m>io voar eternamente?
Isso exemplifica outro aspecto impmiante: o 'contexto' de um termo num tesauro Aircraft* [aeronave1
revela o significado desse termo, mesmo que no seja acompanhado de uma Electric vehicles* [veculos eltricos]
nota explicativa. O contexto de satellite monitoring no UNBIS deixa claro que o Microwaves* [microondas]
objetivo o uso de satlites na verificao, e no o monitoramento de satlites.* Scientiflc research [pesquisa cientfica]
O estudo de stios arqueolgicos provavelmente fica mais bem abrangido Prototypes [prottipos]
por archaeology [arqueologia] do que por archaeofogical excavations [escava- Spacecraft [espaonave]
es arqueolgicas]. Como 'contagem de domiclios' usado simplesmente como Radiation sickness [doena provocada por radiao]
exemplo de uma aplicao em censos, o termo genrico censuses [censos] Military surveillance [vigilncia militar]
mais seguro do que housing censuses [censos domiciliares]. Alm disso, o ltimo Canada [Canad]
termo um tanto ambguo, pois pode referir-se aos ocupantes de prdios e no A idia de uma aeronave movida a eletricidade, que utilize microondas, acha-
ao nmero de residncias. se bem abrangida pelos trs termos com asterisco. O m1igo concede mais ateno
No UNBIS, o prognstico sobre o tempo se traduz como weather predictiotl s possveis aplicaes cientficas e militares, pelo que se fez um esforo para
[previso do tempo]. Como isso implica a elaborao de cartas meteorolgicas, englobar esses aspectos. Lamentavelmente, a idia da vigilncia em geral est
este termo tambm seria aplicado, ainda que seja um tanto perifrico. No h ausente do UNBIS, mas existe militmy surveillance [vigilncia militar]. As outras
como abranger a previso de inundaes como tal. O objetivo a preveno possveis aplicaes mencionadas no a11igo, como, por exemplo, a ~reviso do
tempo, o so de modo to superficial que parecem no merecer sua 1~cluso na
indexao. Como o risco para a sade mencionado a radiao de nucroondas,
* Esta advertncia do autor justitka-se por causa da ambigHidade da expresso em ingls, que
tanto pode significar 'monitoramento de satlite' quanto 'monitoramento por satlite'. {:u.) o termo radiation sickness (doena provocada por radiao] parece apropriado.
380 INDEXAO E RESUMOS: TEORIA E PRTICA 18. EXERCiCJOS DE INDEXAO 381
6. Educao nutricional em programas de alimentao infantil homens/mulheres no trabali10, no entanto, a nota explicativa no tesauro traz
Child feeding* [alimentao infantil] uma indicao muito inadequada sobre como e quando usar este termo.
Nutrition education* [educao nutricional]
Child nutrition* [nutrio infantil] 9. Poltica de cincia e tecnologia
Developing countries [pases em desenvolvimento] Egypt* [Egito]
Infant nutrition [nutrio do lactente] Science and technology policy* [poltica de cincia e tecnologia]
School meals [merendas escolares] Science and technology planning* [planejamento de cincia e tecnologia
O assunto desse relatrio est perfeitamente abarcado pelos termos existentes Research and development* [pesquisa e desenvolvimento]
no tesauro. Technology transfer [transferncia de tecnologia]
Scientific research [pesquisa cientfica]
7. Jv/elhoramento da qualidade nutritiva e da produtividade da cevada Public administration [administrao pblica]
Barley* [cevada] Management [administrao]
Arid zones* [zonas ridas] Science and technology financing [financiamento de cincia e tecnologia]
Nutrition* [nutrio] So necessrios vrios termos para abranger esse relatrio de modo adequado.
Crop yields [produo agrcola] Note-se que research and development [pesquisa e desenvolvimento] e manage-
Developing countries [pases em desenvolvimento] ment [administrao] so ambos necessrios para refletir a idia de 'adminis-
Plant breeding [ni.elhoramento gentico de plantas] trao da pesquisa'. Egypt [Egito] considerado um termo principal porque
Plant genetics [gentica vegetal] todo o relatrio trata da situao egpcia. O que muito diferente do artigo
Plant diseases [doenas das plantas] sobre 'mulheres africanas', no qual a localizao (Serra Leoa) quase acidental
Plant protection [proteo das plantas] para a finalidade do estudo.
Proteins [protenas]
Arid zones [zonas ridas] , no UNBIS, o mais prximo que se pode chegar I O. Utilizao para o consumo humano de espcies marinhas subutilizadas
de 'regies semi-ridas'. Food consumption* [consumo de alimentos]
Fish* [peixes]
8. A1ulheres africanas no desenvolvimento agrfcola Fish processing [processamento de peixes]
Rice [arroz] Fishery products [produtos da pesca]
Sierra Leone [Serra Leoa] Fishery conservation* [preservao da pesca]
Women in agriculh1re* [mulheres na agricultura] Este um exemplo de um m1igo que no pode ser indexado adequadamente
Women workers* [mulheres trabalhadoras] porque o tesauro no expressa a idia de 'espcies de peixes subaproveitadas '.
Women in development [mulheres no desenvolvimento] Os termos aqui empregados no oferecem uma imagem satisfatria daquilo de
Women's rights [direitos das mulheres] que trata o item, mas so os melhores existentes.
Hours o f work* [horas de trabalho]
Working time arrangement [organizao do tempo de tr3balho] 11. A utilizao de alunos monitores e instruo programada pelo rdio
Labour productivity [produtividade do trabalho] Educational radio* [ensino pelo rdio]
Division o f labour [diviso do trabalho] Programmed instructon* [instruo programada]
No se deixe enganar pelo ttulo. Este documento sobre mulheres em Serra Developing countries [pases em desenvolvimento)
Leoa, no sobre mulheres africanas em geral. O atiigo estuda principalmente as Nonformal education [educao no-formal]
condies de emprego das mulheres, no a cultura do arroz. Embora r ice [arroz] Teaching personnel [pessoal de ensino]
seja um termo petiinente, os mais importantes so women workers [mulheres Mais uma vez um item que no foi abrangido satisfatoriamente porque o
trabalhadoras] e hours ofwork [horas de trabalho]. Arroz no um termo princi- tesauro carece de termos que expressem a idia de 'alunos monitores'ou mesmo
pal, pois quem estiver procura de itens sobre a cultura do arroz poder no se de 'monitoria'.
interessar por esse tipo de estudo social. O termo division oflabour [diviso do 12. Fatores culturais e sociais que influem sobre a participao de pequenos
trabalho] provavelmente petiinente, uma vez que o documento analisa a relao agricultures em programas formais de crdito
382 INDEXAO E RESUMOS: TEORIA E PRTICA

Credit policy* [poltica de crdito) CAPTULO 19


Fanners* [agricultores]
Small farms* [pequenas propriedades agrcolas]
Developing countries [palses em desenvolvimento]
Aoricultural credit* [crdito agrcola] Exerccios de redao de resumos
C~ltural values [valores culturais]
Social values [valores sociais] ,
Este um excelente exemplo de um relatrio relativamente longo q~e _e
satisfatoriamente abrangido com um pequeno nmero de termos. Para_ expnnur PARTE I
a idia de 'pequenos agricultores' preciso usar tanto {an~zer~ [agncultor~s]
quanto sma/1 farms [pequenas propriedades agrcol~s]. Atnbm-se developmg
countries [pases em desenvolvimento] porque bviO que este o contexto no
P ara fazer este exercfcio preciso primeiro reunir os artigos de peridicos que
so mencionados na lista abaixo. A maioria deles facilmente encontrada
qual se analisa o crdito agrcola. em bibliotecas dos Estados Unid.os. Para cada artigo prepare um resumo ou
resumos (ver nota adiante) e compare o que voc escreveu com os resumos que
J3. Desenvolvimento de coberturas de casas de baixo custo sugeri e com meus comentrios. De que modo esses resumos diferem dos seus?
Roofs* [coberturas de casas] Quais os melhores? Por qu?
Traditional technology [tecnologia tradicional]
Artigos a serem resumidos:
Bagasse [bagao de cana]
Fibres [fibras] I. Cana plane fly forever? (Newsweek, September28, 1987, p. 42, 47).
.'' Buildina materiais* [materiais de construo] 2. Pluto: limits on its atmosphere, ice on its moon (Science News, September
Teclmofogy transfer [transferncia de tecnologia] 26, 1987, p. 207).
Rubber [borracha] 3. Plastic shocks and visible sparks (Science News, September 5, 1987, p. 152).
Plastic products [produtos plsticos) 4. Moscow's chemical candor (Newsweek, October 19, 1987, p. 56).
Jamaica 5. Stereotypes: the Arab's imuge (Wor!d Press Review, June 1986, p. 39).
Ghana [Gana] 6. Ads require sensitivity to Arab culture, religion (lvfarketing News, April25,
Philippines [Filipinas) . 1986, p. 3).
Developing countries [pases em desenvolvunento] _ . . 7. F rance, racism and the Left (The Nation, September 28, 1985, p. 279-281).
Esta indexao no totalmente satisfatria porque o tesauro nao nos petmite S. Compassion for animais (National Forum, Winter 1986, p. 2-3).
expressar' indigenous materiais' ['materiais locais']. No entanto, podem:se con
siderar os materiais locais como relacionados de perto com_ a. tecnolo~1a !~cal, Nota: Para o item I, redija resumos indicativos. Para os itens 2, 5 e 7, redija
de modo que 0 termo tradtonaltechnology [tecnologia tradiCional] se JUStifica, resumos informativos. Para os de nllmero 3 e 4, redija resumos indicativos e
informativos. Para os itens 6 e 8, faa da forma que lhe parecer mais adequada.
ainda que no seja exatamente o ideaL

Resumos deste autor


1. Cana plane fly forever? [Poder um avio voar eternamente?] (Newsweek,
September 28, 1987, p. 42, 47).
Resumo {indicativo)
Ser testado no Canad o prottipo de uma aeronave movida a eletricidade,
que no requer combustvel convencional. A eletricidade transmitida do solo
sob a forma de energia de microondas e reconvertida em eletricidade por 'rete-
nas' no avio. Teoricamente, o avio pode permanecer no ar durante meses sem
piloto. Suas aplicaes incluem pesquisa cientfica, vigilncia (militar, policial
ou civil), previso do tempo e transporte de passageiros. As microondas podem
~I
:i)l!!
i ',
'
T
'
384
I
JNDEXAO E RESUMOS: TEORIA E PRTICA 19. EXERCiCJOS DE REDAO DE RESUMOS
385
tambm acionar espaonaves. Possveis riscos das microondas para a sade desenvolvidos recentemente que podem ser empregados para monitorar ope-
podem impedir aplicao mais generalizada. raes de manuseio de materiais.
Comentrrio Resumo (informativo)
A clareza tem precedncia sobre a brevidade. A expresso 'que no requer Ao encher ou esvaziar recipientes, a eletricidade esttica pode produzir fas-
combustvel convencional' necessria para esclarecer que o aparelho inteira- cas que causam incndios ou exploses. Vasilhames plsticos que contenham
mente movido a eletricidade. O resumo no deve extrapolar o que o artigo afir- lquidos inflamveis podem receber uma carga vinda de um saco plstico ou do
ma. Assim, 'ser testado' est bem, mesmo que o resumidor saiba que os testes j bolso _de um casaco que esteja perto, produzindo uma fasca quando o lquido
foram realizados. Procure evitar o emprego de palavras irrelevantes. Por exem- despeJado. As cargas ocorrem tambm quando do transporte de ps qumicos,
plo, 'As microondas podem tambm acionar espaonaves' mais conciso do quando tambores de metal revestidos de plstico so enchidos com lquidos
que 'As microondas podem tambm ser aplicadas com a finalidade de acionar condutores ou recebem trapos embebidos com solventes condutores, ou quando
espaonaves', sem que com isso se perca em clareza. Como no se apresentam revestimentos semicondutores que tenham solventes como base so aplicados
resultados concretos, seria difcil escrever um resumo verdadeiramente infonna- sup~rfcie de uma pelfcula no-condutora. O prprio corpo humano pode prok
tivo desse item. duz1r fascas que causam ignio de vapores inflamveis. Novos instrumentos
permitem o monitoramento das operaes de encher e esvaziar vasilhames com
2. Pluto: limits on its atmosphere, ice on its moon [Pluto: limites de sua at- ps ou lquidos. Empregando intensificao eletrnica de imao-ens ou a medio
mosfera, gelo em sua lua] (Science News, September 26, 1987, p. 207). da polaridade de carga e sua magnitude, registram o f.1iscam:nto e identificam
Resumo (iufomwtivo) as condies mais provveis de causar a ignio. Os lquidos mais perigosos
Clculos recentes indicam. que o dimetro de Pluto talvez no supere 2 290 possuem baixa condutividade, tm carga negativa, so altamente inflamveis e
km, com sua lua, Carente, cujo dimetro no deve ser superior a l 284 km. O es- se evaporam facilmente formando uma mistura de vapor-ar que sustenta a
ignio.
pectro infi:avermelho de Pluto parece ser radicalmente diferente do de Carente.
Pluto possui uma superffcie rica em metano, mas Carente, com relativamente Comentfrio
pouco metano, parece ter uma predominncia de gelo de gua. A refletividade de Eis um bom exemplo da diferena entre resumo indicativo e informativo. O
Caronte em-responde somente metade da de Pluto, sugerindo que Pluto pos- primeiro simplesmente menciona de que trata o artigo, enquanto o segundo
sui urna temperatura superficial mais baixa: talvez 50 kelvin em Pluto e 58 em P_locura ser uma sntese verdadeira- quais os tipos de operaes, qual o tipo de
Carente. A presso de vapor em Pluto pode ser de apenas 3,5 microbars com- nsco, qual o tipo de instrumento e assim por diante. Muitas vezes consegue-se
parada com 59 em Caronte. Parece que Pluto possui calotas polares no-estti- ser conciso, sem sacrificar a clareza, ao se omitir atiigos ou conjunes. Por
cas de gelo de metano cuja cobettura do planeta varia com o tempo. exemplo, "Ao encher ou esvaziar recipientes ... " mais conciso e to claro
quanto 'Ao encher ou esvaz.iar os recipientes ... '.
Comentrio
Este um resumo realmente informativo, que procura condensar todos os
principais dados descritos no artigo. Procure evitar redundncia. Por exemplo, 4. 1\'Ioscow's chemical candor [A sinceridade qumica de Moscou] (News-
week, October 19, 1987, p. 56).
exato, mas no necessrio, dizer 'Medidas do espectro infravermelho sugerem
que o espectro infravermelho de Pluto parece ser radicalmente diferente do de Resumo (iuformatbo)
Caronte' porque a referncia a 'espectro infravermelho' por si mesma indica que A Unio Sovitica admite abettamente a estocagem de armas qumicas, mas
foram tomadas medidas do espectro infravermelho. afirma que no as produz mais. Foi dada permisso a observadores ocidentais
para visitar a base de Shikhani, antes secreta, mas especialistas ocidentais acham
3. Plastic shocks and visible sparks [Choques plsticos e faiscas visveis] que as armas expostas so antigas- os soviticos teriam armas mais modernas
(Science News, September 5, 1987, voL 132, no. 10, p. 152). que no admitem possuir. Os EUA afirmam que interromperam a produo de
Resumo (intlicativo) armas q~timicas em 1969, mas os servios secretos ocidentais acreditam que os
Descreve as condies sob as quais a eletricidade esttica pode causar incn- soviticos ainda as produzem, tendo armazenadas at 300 000 toneladas. Os EUA
dios ou exploses, ao se manusear ps ou lquidos, e menciona dois instrumentos forneceram minucioso relatrio sobre as dimenses e a localizao dos estoques
norte-americanos, mas os soviticos se recusam a retribuir isso enquanto no for
INDEXAO E RESUMOS: TEORIA E PRTICA 19. EXERCiCIOS DE REDAO DE RESUMOS 387
386
assinado um tratado. A proposta norte~americana de eliminao das armas qu~ Comentrio
micas no foi aceita pelos soviticos em 1984, mas agora afirmam desejar um . Apesar de n~uito sucinto, este menos um resumo indicativo do que uma ten-
tratado e a verificao no local. Os soviticos afirmam que a deciso norte~ tativa de resum~r? que o autor diz, em vez de descrever aquilo de que trata o aJti-
americana de produzir armas 'binrias' obstruir a assinatura de um tratado, mas go. Somente a ultuna frase realmente indicativa. Isso mostra como os resumos
os EUA acham que essa nova gerao de annas na realidade forar os soviticos podem ser redigidos de modo a combinar elementos informativos e indicativos.
a negociar.
7. France: racism and the Left [Frana: o racismo e a esquerda] (The Nation
Resumo (indicativo) September28, 1985, p. 279-281). '
Descreve medidas adotadas recentemente pela Unio Sovitica para apoiar
um tratado de proscrio do emprego de armas qum.icas. Menciona a nova Resumo (informativo)
gerao de armas 'binrias' atualmente produzidas pelos EUA e o possfvel efeito O partido.ult:adireitista, Frente Nacional, promove ativamente o dio racial
disso na assinatura de um tratado. I~a Frana, prn~clpall.nente contra os norte-africanos, mas os comunistas e socia-
listas pouco. tem fe1to para lutar contra o preconceito racial. As campanhas
Comentrio ~entra o rac1smo so organizadas por grupos nooficiais, principalmente de
Mais um bom exemplo da diferena entre resumo indicativo e resumo infor- JOVens.
mativo. O primeiro procura resumir a essncia do mtigo enquanto o segundo
Couwutdl'io
simplesmente indica de que ele trata.
. Como no exemplo anterior, este resumo mais informativo do que indica-
5. Stereotypes: theArabs' image [Esteretipos: a imagem dos rabes] (JVorld tlv~. tJ_ma. com?a.rao dos .resumos 5-7 com os resumos 1--4 mostrar que
Press Review, June 1986, p. 39). mats d1fictl red1g1r resumos verdadeiramente informativos em cincias sociais
do que nas cincias exatas. Os artigos em cincias sociais tendem a ser mais
Resumo (informativo) abstratos e conter menos dados concretos.
A mdia nOlie-americana, principalmente a televiso, promove uma imagem
negativa dos rabes e dos pa[ses rabes. A hostilidade aos rabes, exacerbada
8. C~mpassion for animais [Compaixo pelos animais] (National Forum
pelo conflito rabe-israelense e a crise do petrleo da dcada de 1970, estende- Wmter 1986, p. 2-3). '
se a mais de um milho de rabes que vivem nos Estados Unidos. Os interesses
da verdade, da paz e da fraternidade exigem que sejam adotadas medidas para Resumo
mudar essa imagem. O estreit? vinculo entre homens e animais, que costumava existir em pocas
passadas, for corrofd~ pelo ?esenvolvimento urbano e a industrializao, provo-
Comeutdl'io cando desc~so pela vrda ammal em muitas partes. No entanto, um fo1te vnculo
O resumidor deve decidir sobre o que e o que no importante. A essncia hon~em-annnal fundamental para a sade do indivduo, da comunidade e da
desse breve attigo parece bem abrangida por essas trs frases. dispensvel
s~~Jedade. Sugere maneiras pelas quais a sociedade poderia melhorar sua sensi-
resmnir os detalhes sobre os esteretipos, que ocupam cerca de metade do artigo. bilidade e compaixo pelos animais.
A incluso dos nomes de instituies mencionadas no mtigo tornaria o resumo
Comentrio
muito minucioso.
. Mais uma vez, parece bastante apropriado um resumo combinado indicativo/
6. Ads require sensitivity to Arab culture, religion [A publicidade exige sen- mformativo. As primeiras duas frases, ao tentar condensar a mensao-em dos
sibilidade cultura e religio rabes] (lv!arketing News, April25, 1986, p. 3). ~ut?res.' so realmente inf01:mativas, enquanto a ltima fi:ase evide~emente
mdJcattva. O resumo ficaria totalmente informativo se fossem resumidos todos
Resumo os .mtodos destinados a despertar compaixo, mencionados na pgina 3 do
Devido queda dos preos do petrleo, preciso que uma publicidade eficaz
mt1go, mas eles so to variados que seria preciso um resumo bastante extenso
estimule os pases rabes a consumir. Os publicitrios devem compreender os
o que aparentemente no se justifica em face da brevidade do prprio attigo. '
costumes religiosos, sociais e culturais que presidem a vida rabe. Apresentam-
se alguns exemplos de coisas a serem evitadas.
INDEXAO E RESUt>.IOS: TEORIA E PRATICA 19. EXERCCIOS DE REDAO DE RESUMOS 389
388
PARTE 2 4. Gisser, M.; Pohotyles, S. \V ater shortage in Israel: long-run policy for the
farm sector (Eng) (Escassez de gua em Israel: poltica de longo prazo para
Reproduzemse a seguir oito resumos publicados em lrdcab. (~bril_ de 1_980, o setor agrcola] Water Resources, Dec 1977, 13(6):865-872, 1 fig. 10 tab, 4 ref
volume 5, nmero 2), uma publicao de resumos no campo da uT~gaao edttada (University ofNew Mexico, Dept ofEconomics,Aibuquerque, NM 87131, USA)
pelo International Irrigation Information Center [Centro InternaciOnal de Infor-
Israel defronta uma situao de limitado volume de proviso de gua e demandas
mao sobre Irrigao]. Voc encontra algo de errado nesses resumos? Como crescentes. Como a agricultura utiliza uma grande parcela da gua disponvel, uma
melhor-los? Veja, aps cada um deles, os comentrios deste autor. poltica potencial reduzir as destinaes de gua para a agricultura, a tlm de permitir
o aumento de uso em outros setores. Fazem-se estimativas da perda total em rendi-
Resumos mentos na agricultura caus.lda pela reduo das cotas atuais, empregando um modelo
de programao linear.
[Os resumos so aqui reproduzidos com a gentil permisso do lnternational
Irrigation Information Center, Bet Dagan, Israel, e Pergamon Pre~s Inc. A sele- 5. Debrivna, I.Ye. (Sulfate reducing bacteria ofrice irrigation systems in the
o destes resumos nessa fonte foi determinada apenas por raz~es de ~onve Southern Ukrainian SSR) (Ukr, smnmmy Eng) [Bactrias redutoras de sulfa-
nincia e no implica de forma alguma que os resumos de lrn:rca~ seJam de to em sistemas de irrigao de arroz na RSS da Ucrnia Meridional] lv!ikro-
qualidade inferior. Com efeito, em geral, so muito bons, sendo dtflcil encontrar bio/ogii Jurna/, 1977, 39(5): 627-629,2 tab, 9 ref(Academy ofSciences of
algum que necessite de grandes melhorias.] the Ukrainian SSR, Institute ofMicrobiology and Virology, Kiev, USSR)
1. Anon. (Clarification of highly turbid waters by means of acol~stic fl!~ers) Os estudos relatados mostraram um desenvolvimento muito intenso de bactrias
redutoras de sulfato no subsolo dos sistemas de irrigao de arroz caracterizados por
(Rus) [Clarificao de guas excessivamente barrentas medtante ft tros
um lenol fretico alto. Sugere-se que isso seria responsvel pelas quedas da produ-
acsticos] Gidrotekh Melior, 1977, (9): 98-99
. ,: . Descreve-se sucintamente o desenvolvimento de um mtodo de clarificao da ~gua
o de arroz nessas condies.

com tJitros acsticos. Estudaram-se as caractersticas hidrulicas de vrios cnvos 6. Koo, J.\V.; Ryu, H.Y. (A study on the determination method ofpumping rates
com e sem vibrao, e se determinou o coeficiente de resistncia de vrios ~ri.vos. in tubewells for irrigation) (Kor, summmy Eng) [Um estudo sobre o mtodo de
Propese 0 mtodo para claritlcao da gua sem o emprego de reagentes quumcos. determinao de coeficientes de bombeamento em poos tubulares para irri-
gao] Journal ofKorean Society ofAgricultura/ Engineers, Dec 1976, 18(4):
2. Vaneyan, s.S.; Makoveev, V.P. (Volzhanka si de rol\ sprinkler for irri?a~ion
1-9, 8 fig, 4 tab, 20 ref(Seoul Nationa( University, Suweon, Republic ofKorea)
ofvegetable crops) (Rus) [Aspersor Volzhanka de rotao lateral para lrnga-
o de culturas de hortalias] Gidrotekh Me/ior, Mar 1979, (3): 67-68, I Realizaram-se ensaios de bombeamento em 12 poos tubulares com a finalidade de
photo, 2 tab. (All-Union Research Institute for Vegetable Growmg, USSR) encontrar um mtodo para Calcular o coeficiente de bombeamento em poos tubu\a-
res para irrigao. Uma bomba centrfuga de 3'\ um motor de 5 hp e um entalhe em
Relatam-se experincias com a irrigao de culturas de vrias hortalias empregan- v foram empregados no ensaio, sendo medidas as profundidades, os nveis de gua
do 0 asperso r Volzhanka. O artigo contm uma equa~ para ca~c~\ar a dura~o da esttica, os nveis de bombeamento e as vazes dos poos tubulares. Observouse
irrigao e 0 nmero de unidades de aspersores necessnos para liTigar detenmnada uma correlao negativa entre coeficiente de bombeamento e rebaixamento, e uma
rea. Apresenta dados sobre danos causados aos plantios pelas rodas dos aspersores. correlao positiva entre coeficiente de bombeamento e coetlciente de transmissibi
3. Rhoades, J.D. Determining soil salinity and detecting saline seep~ usi~g adn \idade. Verificou-se que uma frmula derivada da teoria de Thiem era satisfatria
para calcular os coeficientes de bombeamento de poos tubulares.
inductive electromaonetic soil conductivity senso r (Eng) [Determmaao a
satinidade do solo e identificao de nascentes salinas por meio de um sensor 7. Shanmugarajah, K.; Atukorale, S. C. \V ater management at Rajangana scheme
indutivo eletromagntico de condutividade do solo] In: Agro~omy Abstracts: ~ lessons fi:om cu!tivation- Yala 1976 (Eng) (Manejo hdrico no projeto Rajan-
1978 Annual Meeting of the Sai! Science Society of Amerrca: 183 (USDA, gana -lies do plantio- Yala 1976] Jalavrudhi (Sri Lanka), Dec 1976, 1
SEA, Riverside, CA, USA) (2): 60-65, 5 tab (\V ater Management Division, lrrigation Dept. Sri Lanka)
Desenvolveu-se um novo instrumento para determinar a ~a~inidade d~ solo e a desco Esta uma descrio de como foi comprovado que os plantadores de arroz de uma
bertade nascentes salinas a partir de medies daconduhvtdade el~ncado solo, s.et~l certa rea sempre desperdiaram gua. Durante uma seca foram convocados especia-
sondas ou contato de terra, mediante uma tcnica indutiva magn~t~ca. A c~ndutiVI listas em hidrologia, em virtude do temor de perda da safra, e, graas melhoria da
dade lida diretamente no instrumento e as medies podem ser te1tas canunhando- etlcincia na utilizao da gua, o consumo foi reduzido drasticamente, sem que hou-
se sobre 0 solo. Tecem-se consideraes sobre o equipament? e os result~dos. Exa- vesse reduo na produo a~rcola.
minam-se as vantagens e limitaes do novo mtodo e de metodos antenores.
"i
390 INDEXAO E RESUMOS: TEORIA E PRTICA 19. EXERCCIOS DE REDAO DE RESUMOS 391
8. Arbarb, M.; Manbeck, D.M. Influence oflateral depth and spacing on com 5. Este pode ser reduzido em quase 50%:
yield and water use in subsurface irrigation system (Eng) [Influncia da pro- Um desenvolvimento muito intenso das bactrias no subsolo de sistemas de irrigao
fundidade lateral e do espaamento na produo de milho e utilizao da de aqilfero alto pode ser responsvel pelas quedas na produo de arroz.
gua em sistema de irrigao subsuperficial] Annual Aieeting, ASAE, Nonh
6. Pode ser abreviado ainda mais:
CarolinaState University, Raleigh, NC, USA, Jun 26-29, 1977, Paper No. 77-
2021, 21 p. 8 fig., 1 tab, 9 ref. Avai1ab1e fiom ASAE, POB 41 O, St. Joseph, Ml Empregaram-se uma bomba centrfuga de 3", um motor de 5 hp e um entalhe em v
de 90 graus para medir as profundidades, nveis de gua esttica, nfveis de bombea-
49085, USA (University ofNebraska, Agricultura! Engineering Dept, NB, USA)
mento e vazes de 12 poos tubulares. O coeficiente de bombeamento correi aciona-
Os objetivos desse experimento foram estudar a influncia de diferentes profundida- se positivamente com o coeficiente de transmissibilidade, e negativamente com ore-
des laterais e espaamentos na produo de milho e utilizao de gua, e estudar a baixamento. Pode-se utilizar uma frmula derivada da teoria de Thiem para calcular
utilizao prtica de um sistema de irrigao subsuperficial e o padro de distribui- os coeficientes de bombeamento.
o da gua.
7. Um resumo muito prolixo. Pode-se abarcar a essncia do texto assim:
Comentrios deste autor Especialistas em hidrologia, convocados durante uma seca, demonstraram que a efi-
1. A primeira fiase nada acrescenta ao tftulo. O resumo poderia ser ainda mais cincia de utilizao da gua podia melhorar grandemente, causando uma reduo
drstica do consumo sem reduzir a produo de arroz.
condensado, sem perda de sentido, como segue:
(NB. Vrias partes do resumo original so suprfluas. A primeira fiase acha-
Prope um mtodo que no requer agentes qumicos. Estudaram-se as caractersticas se implcita na ltima "mediante melhoria da eficincia na utilizao da gua".
hidrulicas de vrios crivos, com e sem vibrao, e se determinaram seus coeficientes
"Devido ao receio de perda da safra" evidente por si mesmo e nada acres-
de resistncia.
; .-:' centa ao resumo. Por outro lado, como o ttulo inespecfico, dever-se-ia es-
2. Novamente ocorre repetiO do titulo. Poderia ficar mais compacto assim: pecificar a cultura (arroz) e no 'safra' em geral. Evidentemente, no se po-
Relatam-se experimentos com vrias culturas de hortalias. Apresenta uma equao deria hocar 'safra' por 'arroz' sem ver o artigo original.)
para cale~ lar, em determinada rea, o nmero necessrio de unidades de aspersores
e a durao da irrigao. Apresenta dados sobre danos ao plantio causados pelas ro- 8. Raro exemplo de um resumo muito ruim do Irricab. No acrescenta pratica-
das dos aspersores. mente nada informao do ttulo. No seria possvel melhor-lo sem exa-
(NB. Seria muito melhor identificar as culturas, por exemplo, 'Relatam-se ex- minar o mtigo originaL
perimentos com repolho, beterraba e cenoura'.)
3. Pode-se evitar repetio desnecessria e o resumo se tornaria mais conciso:
O novo instrumento descrito funciona por meio da medio da condutividade eltrica
do solo, sem sondas ou contato com a terra. Pode-se ler diretamente a condutividade
e as medies teitas caminhando-se sobre o solo. Comparam-se o instrumento e seus
resultados com mtodos anteriores.
4. Desnecessariamente prolixo. Poderia ser reduzido a:
Uma das formas de atenuar a escassez de gua seria reduzir as cotas atribudas agri-
cultura (um grande consumidor), a fim de permitir o aumento do uso em outros seto-
res. Emprega-se um modelo de programao linear para calcular a renda agrcola que
se perderia no caso de reduo das cotas atuais.
(NB. Como o ttulo informa sobre o contexto- escassez de gua em Israel
-no preciso repeti-lo no resumo. O ttulo e o resumo se complementam;
este no deve existir separado do ttulo. Este resumo muito prolixo: 'limi-
tado volume de proviso de gua e demandas crescentes' um circunlquio
para dizer 'escassez de gua', o que j est implcito no ttulo.)
.,_.
l

APEND!CE l. PRINciP!OS DE REDAO DE RESUMOS 393


declarada explicitamente, caso no esteja evidente nos tpicos de abertura.
; ':
APNDICE 1 4. Os mtodos de pesquisa adotados devem ser identificados. Se forem empre-
gados tcnicas ou procedimentos convencionais, no preciso descrev-los.
Se os procedimentos forem novos ou contiverem caractersticas originais
Sntese de princpios de redao de resumos* aplicadas a processos conhecidos, estes aspectos sero claramente descritos.
Devem ser mencionados os princpios bsicos de mtodos ou tecnologias
novas, suas aplicaes e qualidades, faixas de operao e graus de exatido.
Princfpios gemis 5. Descrever minuciosamente os mtodos de coleta de dados e medidas, rota-
l. No se deve impor restrio extenso absoluta do resumo. Deve ter a ex- o de variveis, mtodo de isolamento dos dados, identificao de ndices,
tenso que for necessria para que seja o enunciado mais direto, conciso e tcnicas de condensao de dados, etc. O resumidor depende do mtodo de co-
homogneo possvel, que inclua todas as informaes positivas constantes leta de dados, junto com o de pesquisa, para avaliar a qualidade do tra-
do a1tigo e nenhuma informao nula. Infonnao nula quer dizer: 1) os ele- balho do autor e a confiabilidade e validade de resultados e concluses.
mentos que se consideram sem qualquer probabilidade razovel de, direta ou 6. Os dados, sejam eles uma coleo de resultados experimentais ou argumen-
indiretamente, apoiar uma deciso de trabalho; 2) os elementos que dupli- tos tericos, sero apresentados na medida em que, e somente na medida em
cam outros elementos j includos; e 3) os elementos que constituem conhe- que, representem integralmente todos os aspectos importantes do artigo, e
cimento de domnio comum dos especialistas do setor. sejam suficientes para conduzir logicamente s concluses do autor. Os da-
2. Exigem-se frases curtas, bem redigidas e completas para fcil acesso infonnao. dos de natureza absoluta sero apresentados com detalhes suficientes que
3. O resumo pode usar palavras diferentes das do artigo original [parfrase] ou atendam ao uso que previsivelmente tero em atividades cientficas futuras.
adotar, seletiva e cuidadosamente, as mesmas palavras do artigo. Quanto Os dados podem ser apresentados de qualquer forma, com base no se-
mais bem organizado e redigido o attigo original, maior ser a dependncia guinte critrio: adote a apresentao mais econmica possvel, porm a mais
em relao ao ltimo mtodo, que uma forma de elaborao de 'extratos'. lcida. Podem-se incluir tabelas, diagramas, grficos, desde que identifica-
4. Palavras e expresses tcnicas devem ser as correntes na cincia em causa. dos exatamente, mas os dados assim apresentados devem se bastar, isto ,
5. Novos termos ou denominaes devem ser apresentados com suas definies. ser compreensveis sem necessidade de recorrer ao texto do resumo.
6. Somente devem ser empregados as abreviaturas e smbolos convencionais 7. Devem ser indicados os mtodos qualitativos e/ou quantitativos adotados no
mais comuns, a fim de evitar confbso e contribuir para a legibilidade. tratamento dos dados. No preciso descrever tcnicas convencionais e co-
nhecidas. Variaes ou aplicaes especiais de tcnicas conhecidas sero
Princfpios relathos fto contedo apresentadas se forem necessrias para representar por completo os aspectos
1. O tpico introdutrio deve oferecer uma indicao exata do assunto tratado impmtantes do estudo e fundamentar inteiramente as concluses alcanadas.
e dos mtodos empregados, caso isso no esteja evidente no ttulo. Esse t- 8. Devem ser apresentadas as concluses lgicas. Hipteses e teorias sero re-
pico, no entanto, ser uma redundncia perdulria, se o ttulo tiver represen- examinadas se foram comprovadas ou invalidadas, aceitas ou refutadas. Neste
tado satisfatoriamente o contedo temtico e o mtodo de pesquisa. ponto, cabe ao resumidor discriminar entre concluses comprovadas e no-
2. Se no estiver evidente no ttulo e/ou no tpico introdutrio, o tpico se- comprovadas e concluses reais versus inferncias. Acima de tudo, no deve
guinte dever indicar o mbito do a1tigo e a finalidade e objetivos do autor. apresentar concluses que no possam ser confirmadas pelas partes ante-
Se o leitor do resumo estiver buscando uma informao especfica, esses dois riores do resumo. No deve incluir proposies errneas contidas no arti-
tpicos devero indicar-lhe a probabilidade de achar a informao que lhe serve. go, a no ser que sejam acompanhadas de uma adve11ncia que de modo claro
De fato, esses tpicos de abertura devem ser um resumo descritivo con- chame ateno para o erro e, se possvel, para sua correo.
ciso que se usa na maioria dos casos para ajudar o leitor a decidir se deve 9. possvel incluir interpretaes vlidas e importantes que o autor faa sobre
se reportar ao artigo original, mas neste caso para indicar-lhe se as informa- resultados e/ou concluses apresentados, caso representem um avano dos
es contidas so as que busca ou se so adequadas a seu trabalho. conhecimentos ao revelar novas relaes ou reafirmar relaes antigas.
3. Se o artigo for de carter experimental ou terico, a hiptese do autor ser lO. Em todo o resumo, o resumidordeve exercer seu direito de esclarecer e sim-
plificar elementos contidos no miigo.
~Sntese de princpios de redao de resumos proposta por Payne et ai. (1962). Reproduzida com
pennisso de Americnn lnstitutes for Research.
APE:NOICE 2. ANLISE DE CONTEDO MODULAR 395

APNDICE 2 il'fdulos temtlicos especlalizados


(pargrafos suplementar~s ao resumo bsico)
Fisiologia e medicina
Descreve-se um aparelho e se desenvolvem expresses matemticas que per-
Anlise de contedo modular mitem uma anlise de dano tissular, devido a exposio a chama, a partir do
com mdulos temticos conhecimento das propriedades e da histria de temperatura~tempo de uma
camada de revestimento de produto txtil. Isso constitui um meio relativamente
simples de estudar as propriedades trmicas (inclusive difusividade e condutivi~
Citatlo dade) de tecido vivo intacto sem alterao do prprio tecido.
STOLL, A.M.; CHIANTA, M.A.;. MUNROE, L. R. Flame-contact studies. Transac- Indstria de plsticos
tions ofthe ASME, Series (.~ Joumaf of Heat Transfer, vol. 86, No. 3, August 1964,
HT -1, uma fibra txtil experimental de poliam ido resistente ao calor, foi ex-
p. 449-456.
posta a contato de chama num maarico de Meker com uma temperatura na
Resumo chama de I 200 C. A temperatura de destruio dos tecidos de 3, 4, 5 e 6 onas/
Descrevem-se aparelho e mtodos de aquecimento por contato de chama, jarda quadrada foi de 4273 C, medida radiometricamente. A queima total
aplicados com xito na determinao das temperaturas de destruio e caracte- ocorreu em 3~6 segundos, dependendo do peso.
rsticas trmicas de materiais fibrosos e plsticos. Apresentam-se resultados de
bulrstritt dtt bormcha
ensaios que confirmam a anlise. Informam-se os resultados concernentes a uma
Mediu-se, por rneio de um calorfmetro de contato de chama, o fluxo de calor
fibra de poliamida, e ao efeito de isolamento de espaos de ar entre camadas de
'' tecido.
transitrio atravs de uma montagem de duas camadas de RTV-20, uma borra-
cha de silicone fabricada pela General Electric, reforadas com pele simulada.
Modelos de chapa composta foram injetados na chama de um maarico de
!v[ediu-se, no interior da camada de reforo, a elevao de temperatura em trs
Meker, e se determinaram, opticamente ou mediante pares trmicos, as tempera-
segundos em camadas de borracha de 0,95, 0,55 e 0,52 nun, o que concordou de
turas da parede posterior. O fluxo de calor para a superflcie foi determinado
modo excelente com os valores tericos.
opticamente. No lado da chama da chapa composta, avaliou-se um tecido de
poliam ido (du Pont HT-1) de pesos variveis por unidade de rea superficial (3 Im/strias de roupas de protet1o e ueromutica
onas-5 onas/jarda quadrada). O lado posterior, ou material de referncia, da Os experimentos descritos, sobre as ternperaturas de destruio e carac-
parede consistia num composto resinoso (pele simulada) de propriedades trmi- tersticas trrnicas de tecidos submetidos ao calor por contato de chama, so da
cas e pticas conhecidas. As temperaturas de destruio do tecido HT-I foram de maior importncia para o projeto de roupas de proteo contra queimaduras. Em
4273 C mediante determinao ptica e de 42327 C determinada pormensu- particular, ajudam a explicar por que, em experincias com macaces de vo,
raes com pares trmicos. A temperatura da chama era de l 200 C. A queima obtm-se significativo aumento da proteo contra queimaduras com roupas de
completa ocorreu em 3--6 segundos dependendo do peso. Ao pesquisar a utili- camadas duplas em comparao com vesturio de uma nica camada.
zao de espaos de ar como camadas isolantes entre camadas do tecido inter-
valos de 4 mm pareceram ser o ideal para o material de 3 onas/jarda qu;drada. Entradas de fndice
Concluiu-se que para aplicaes de curta durao a altas temperaturas, materiais Sistemas fslcos e matenuticos
isolantes desse tipo seriam o ideal para proteo pessoal. Nos ensaios de valida- CHAPAS COMPOSTAS
o da anlise matemtica foram utilizadas amostras de borracha de silicone CHAPAS DE CMtADA NICA
RTV-20 muito finas (0,050-0, 100 em). Obteve-se excelente concordncia entre Tl'ansferncia de calol'
as temperaturas de parede calculadas e as medidas (diferena percentual de 0,5 CONDUO TRANSIENTE.ANALTlCA
por cento); a anlise adotada foi a de Griffith e Horton. CONDUO TRANSIENTE (GRIFFITHHORTON)
Analisa-se o emprego dessas tcnicas analticas e experimentais em relao CONDUO UNIDIMENSIONAL
determinao da difusividade e condutividade trmicas de ensaios do tipo de 1Heios e mtodos
contato de chama. Conclui-se que as tcnicas proporcionaram um meio sensvel APARELHO EXPERIMENTAL
e exato para determinar propriedades trmicas. CALORMETROS DE CONTATO DE CHAMA
396 INDEXAO E RESUMOS: TEORIA E PRATICA

Outms etiquetas de assuntos REFERNCIAS


ROUPAS DE PROTEO
ROUPAS DE VO
QUEIMADURAS
Acorn, T.L.; Walden, S.H. SMART: supp011 management automated reasoning technology
Ambiente for Compaq customer service.ln: fnnovative app/ications o/artificial inte/ligence 4;
TEtviPERATURA: 0-1000 F ed. by A.C. Scott; P. Klahr, p. 3- I 8. Cambridge, 11.1A, M!T Press, 1992.
MAARICO DE MEKER Acton, P. Indexing is not classifying- and vice versa. Records Management Quarter/y,
CONTATO DE CHAMA 20 (3), 1986, 10-15. .
Adami, N. et ai. The ToCAI description scheme for indexing and retrieval ofmultimedia
1lfateriais e propriedades documents. Multimedia Too/s and Appfications, 14, 200 I, 153-173.
TECIDOS Addison, E. R. Large scale fui! text retrieval by concept indexing. In: Proceedings oflhe
HT-l Tivelfth National Online Meeting, p. 5-15. Medford, NJ, Learned Information, 1991.
POLIAMIDOS Agnew, B. et ai. Multi-media indexing o ver the Web. In: Storage and retrievalfor image
RTV-20 and video dalabases V; ed. by I.K. Sethi; R.C. Jain, p. 72-83. Bellingham, WA,
BORRACHA DE SILICONE International Society for Optical Engineering, 1997.
PELE Agosti, M.; Smeaton,A.F., ed. /nformation retrievaf and hypertext. Boston, Kluwer, 1996.
PROPRIEDADES ISOLANTES Agosti, M. et ai. Automatic authoring and construction o f hypermedia for information
retrieval.li.Jultimedia Systems, 3, 1995, 15-24.
CONDUTIVIDADE TRMICA
Ahlswede, T. et ai. Automatic construction o f a phrasal thesaurus for an information
DIFUSIVIDADE TERMICA
retrieval system from a machine readable dictionary. RIAO 88 ContCrence Proceedings,
PROTEO CONTRA QUEIMADURAS v. I, p. 597-608. Paris, C.I.D., !988.
Aitchison, J.; Cleverdon, C. \V. A report on a test oft/Je index ofmetallurgicalliterature
Autores
ofJI'estern Reserve University. Cranfield, UK, College ofAeronautics, 1963.
STOLL, A.M.
Aitchison, T.M. et ai. Comparative evaluation ofindex languages. London, Institution
CHIANTA, M.A.
o f Electrical Engineers, 1969-1970. 2 v.
MUNROE, L.R.S Ajiferuke, L; Chu, C.M. Qua!ity ofindexing in online databases: n alternative measure
for a term discriminating index. biformation Processing & Manageme111, 24, 1988,
Afiliaes 599-60 I. .
Aviation Medicai Acceleration LaboratOiy, U.S. Naval Air Development AI-Kofahi, K. et ai. Combining multiple classifiers for text categorization. In: Proceedings
Center, Johnsville, Pennsylvania oft/le Tentllfnternational Conference on hiformation and Knowledge Management,
p. 97-103. New York, Association for Computing Machinery, 2001.
Albright, J.B. Some limits to subject retrievalfiom a large published index. Doctoral thesis.
Urbana-Champaign, University ofillinois, Graduate School ofLibrary Science, 1979.
Aliao, J. Knowledge management rmd speech recognition. Compu ler, 35( 4), 2002, 60-61.
Allan, J. et ai. Temporal summaries o f news topics. Proceedings of the 24th Annual
lntemational ACM S!GIH Conference on Research and Development in lnformation
Retrieva/, p. 10-18. New York, Association tbr Computing Machinery, 200 I.
Alto Comissariado das Naes Unidas para os Refugiados. Refugee Documentation
Centre. A guide for abstractors. Geneva, United Nations High Commissioner for
Refugees, 1985.
Anderson, J.D. lndexing systems: extensions of the mind's organizing power. In:
biformation and behaviOJ: V. I; ed. by B.D. Ruben, p. 287~323. New Brunswick,
N.J., Transaction Books, 1985.
Anderson, J.D.; Prez-Carballo, J. The nature ofindcxing; how humans and machines
anulyze messages and texts for retrieval. lnformation Processing & Management,
37, 200!, 231-277.
398 INDEXAO E RESUMOS: TEORIA E PRTICA

Anderson, J.D.; Rowley, F.A. Building end-user thesauri from fuH-text. Advances in
1
I
REFERNCIAS
399
Bates, M.J. Subject access in online catalogs: a design model. Joumal ofthe American
Classification Research, 2, 1992, 1-13. Society for biformation Science, 37, 1986, 357-376.
Anderson, M.D. Book indexing. Cmnbridge, UK, Cambridge University Press, 1971. Bates, M.J. System meets user: problems in matching subject search terms. biformation
(Reimpresso com correes em 1979.) . . . Processingand Management, 13, 1977,367-375.
Anick, P.G. Integrating natural language processing and informatlon retneval m a Baxenda!e, P.B. Machine-made index for technical literature - an experiment. IBM
troubleshooting help desk. IEEE Expert, 8 (6), 1993,9-17. Joumal ofResearch and Deve/opment, 2, 1958,354-361.
Arasu,A. et ai. Searchingthe Web. ACAfnansactions on Internet Teclmo/ogy, 1, 2001, 2-4~. Bearman, T.C.; Kunberger, \V.A. A study ofcoverage overlap amongfourteen major
Arents, H. C.; Bogaerts, \V. F. L. Cncept-based indexing and retrieval of hypennedm science and leclmology abstracting and indexing services. Philadelphia, National
information. In: Encyclopedia oflibrmy and information science, v. 58, suppl. 21, P Federation o f Abstracting and Indexing Services, 1977.
l-29. NewYork, Mareei Dekker, 1996. . Beghtol, C. Bibliographic classification theory and text linguistics: aboutness ana\ysis,
Armitage, J.E.; Lynch, M.F. Some structural characteristics ofarticulated subject mdexes. intertextua\ity and the cognitive act o f classifying documents. Journal of Document-
!nformation Storage and Retrieval, 4, 1968, 101-111. .. . afion, 42, 1986, 84-J 13.
Armstrong, C.J.; Keen, E.M. Workbookfor NHIWIS and KIVAC. Boston Spa, Bnttsh Ltbrmy, Beghtol, C. The classificalion officlion. Metuchen, NJ, Scarecrow Press, 1994.
1982. British Library Research and Development Reports Number 5710. (Microcom- Belkin, N.J. Anomalous states ofknowledge as a basis for information retrieval. Canadian
puter Printed Subject Indexes Teaching Package, volume 1) Journa! of!nformation Science, 5, 1980, 133-143.
Aronson, A.R. Effective mapping of biomedical text to the UMLS Metathesaurus: the Be!kin, N.J. et ai. ASK for information retrieval. Journal of Documentation, 38, 1982,
rvletaMap program. Proceedings ofthe 2001 Ammaf Symposium ofthe America11 61-71, 145-164.
Medica/ Jnformatics Association, p. 17-21. Philadelphia, Hanley and Belfus, 2001. Bell, H.K. Bias in indexing and Joaded Janguage. The lndexer, 17, 199la, \73-177.
Aronson, A.R. et ai. The NLM Indexing Iniciutive. Proceedings ofthe 20?0 Annu~l Sympo- Bel!, H.K. lndexing fiction: a story ofcomplexity. The Indexer, 17, l991b, 251-256.
sium oftlze American Aledical InformaticsAssociation, p. 17-21. P\uladelphta, Hanley Bennett, J.L. On-line access to information: NSF as an aid to tbe indexer/cataloger.
,;'
and Be1fus, 2000. . American Documentation, 20, 1969,213-220.
Artnndi, S. Book indexing by computer. Doctoral thesis. New Brunswtck, NJ, Rutgers,
',': Bennett, J.L. et ai. Observing and evaluating an interactive process: a pilo! experiment
the State University, 1963. . . in indexing. San Jose, CA, IBM Research Laboratory, 1972.
Aslandogan, Y.A.; Yu, C.T. Multiple ~vidence combination in image retneva\: _D10gen~s Benois-Pineau, J. et ai. Query by synthesized sketch in architectural database. In: Slmage
searches for people on the \Veb. Proceedings ofthe 23rd Anmwllnternatwnal AC ~~ and retrievalfor image and video data bases V; ed. by I.K. Sethi; R. C. Jain, p. 361-
SIGIR Conference on Research and Development inlnformation Retrieval, p. 88-9). 367. Bellingham, Wa, International Society for Optical Engineering, 1997.
New York, Association for Computing Machinery, 2000. Benoit, G Data mining. Annua/ Review of Information Science and Tec/mology, 36,
Austin, D. PRECIS: a manual ofcmicept analysis and subject indexing. 2nd ed. London, 2002, 265-310.
British Library, 1984. . Berger, A. L.; Mittal, V. O. OCELOT: a system for summarizing web pages. Proceedings of
Austin, D.; Digger, J.A. PRECIS: the Preserved Context Index System. LrbrOJy Resources the 23th Amwallnternational AC.'vt SIGIR Conference on Research and Deve/opment
& Teclmical Services, 21, 1977, 1330. in Information Retrieval, p. 144-151. New York, Association for Computing Machi-
Awre, C.; \Vise, A. Portal progress. Update, 1(6), 2002, 46-47. . . . nery, 2000.
Azgaldov, E.G A framework for description and classification ofprmted subject mdexes. Berner, E. S. et ai. Performance offourcomputer-based diagnostic systems. New England
Libri, 19, 1969,275-291. . Journal oflvfedicine, 330, 1994, 1792-1796.
Baca, M., ed. fntroduction to ort image access. LosAngeles,_Ge~ty Res:ar:h l~st1tute, 2002. Bernier, C.L.; Yerkey, A.N. Cogent communicafion: overcoming reading overload.
Bailin, S. et ai. Application ofmachine \eamingto the orgamzat10n oftnst!tut!Onal software \Vestport, CT, Greenwood Press, 1979.
repositories. Telematics and Informatics, 10, 1993,283-299. Bernstein, L.M.; Williamson, R. E. Testing of a natural language retrieval system for a
Baker, S. L. \ViH fiction classification schemes increase use? IIQ, 2'!, ~988, 36~-376. fu\1 text knowledge base. Journal ofthe American Society for Information Science,
Baker, s.L.; Shepherd, Q \V. Fiction classit1cation schemes: the prmctples behmd them 35, 1984,235-247.
and their success. RQ, 27, 1987, 245-251. Bertrand, A.; Cellier, J.-M. Psychological approach to indexing: effetcs ofthe operator's
Bakewell, K.GB. Reference books for indexers. The b1dexer, 15, 1987, 131-140. expettise upon indexing behaviour. Journa! oflnformation Science, 2\, 1995, 459-472.
Bannan, K.J. Personalization and pmials. EContent, 25(10), 2002, 16-21. . . Bertrand-Gastaldy, S. et ai. Convergent theories: using a multidisciplinary approacb to
Bateman, J.; Teich, E. Se\ective information presentation in an inte~rated pubh~atton explain indexing results. ProCeedings ofthe AmericanSocietyfor lnformation Science,
system: an application o f genre-driven text generation. lnformatton Processmg & 32, 1995, 56-60.
Monagement, 31, 1995, 753-767. Besser, H. Image databuses: the first decade, the present, and the future. In: Digital
Bates, M.J. Indexing and access for digital libraries and th~ Internet. Jmunal of the image access & retrieval; ed. by P.B. Heidorn; B. Sandore, p. 11-28. Urbana-Cham-
America 11 Society for Jnformali?n Science, 49, 1998, 118)-1205. paign, University ofi\Iinois, Graduate School ofLibrary and Infonnation Science, 1997.
!
,:,
T
400 INDEXAO E RESUMOS: TEORIA E PRTICA REFERNCIAS 401
Bhattachmyya, G The effectiveness ofnaturallanguage in science indexing and retrieval. using text analysis. In: Fijieenth Annual Symposium on Computer Applications in
}ou mal of Documentation, 30, t 974, 235-254. jl,/edical Care, p. 63-67. New York, McGraw Hill, 1992.
Bhattacharyya, G Elements of POPSI. In: Indexing systen.ts: concef!l~, mo~e/s a~td Bourne, C.P. Characteristics of coverage by the Bibliography o f Agriculture of the
techniques; ed. by T.N. Rajan, p. 73-102. Calcutta, Indmn Assocmtton o Spectal literature relating to agricultura/ research and deve/opment. Paio Alto, CA,
Libraries and Information Centres, 1981. Information General Corporation, 1969a. PB 185 425.
Biebricher, P. et ai. The automatic indexing system AIRiPHYS~from resear~h to Bourne, C.P. Overlapping coverage ofthe Bibliography o f Agriculture by jlfieen other
application. In: Readings in information retrieval; ed. by K. Sparck Jones; P. Wtl!ett, secondmy sources. Paio Alto, CA, lnfonnation General Corporation, 1969b. PB 185 069.
p. 513-517. San Francisco, Morgan Kaufmann, 1997. . . Boyce, B.R.; McLain, J.P. Entry point depth and online search using a controlled voca-
Bishop, A.P. Document structure and digital libraries: how researchers ~obiltze bulary. Joumal ofthe American Society for lnformation Science, 40, 1989, 273-276.
infonnation in journal articles. Information Processing & Management, 3), 1999, Bradley, P. Indexes to works offiction: the views ofproducers and users on the need for
255-279. them. The lndexer, 16. 1989,239-248.
Bishop, A.P. et ai. Index quality study, part 1: quantitative description ~f back-~f-the Bradshaw, S.; Hammond, K. Constructing indices from citations in collections ofresearch
book indexes. In: fndexing tradition and imwvation, p. 15-51. Amencan Soctety o f papers. Proceedings ofthe American Society for lnformalion Science, 36, 1999, 741 750.
Indexers, 1990. Brandow, R. et ai. Automatic condensation of electronic publications by sentence
Blair, D.C. Some thoughts on the reported results ofTREC. lnformalion Processing & selection. lnformation Processing & Management, 31, 1995, 675-685.
Management, 38, 2002, 445-451. . . . . . Breaks, M.; Guyon, A. Edinburgh Engineering Virtual Library (EEVL). In: The amazing
Blair, D.C.; Kimbrough, S. O. Exemplal)' documents: a toundauon for mtormatton Internet challenge; ed. by A.T. \Vclls et ai., p. 76-96. Chicago, American Library
retrieval design. Information Processing & Aianagement, 38,2002, 363-379. Association, 1999.
B\air, D.C.; Maron, M.E. An evatuation ofretrieval eftectiveness for a fuHtext document- Brenner, C. \V.; Mooers, C.N. A case history ofa Zatocoding information retrieval system.
retrieval system. Communications ofthe ACM, 28, 1985, 289299.. . . In: Punched cards: their applications to science and industly. 2nd ed., ed. by R. S.
Blum, T. et ai. Audio databases with content-based retrieval. In: Inte1hgent ml!ltimedm Casey et ai., p. 340356. New York, Reinhold, 1958.
information retrieval; ed. by NLT. Maybury, p. 113-135. Menlo Park, CA, AAAI Press, Brenner, E. H. et ai. Amcrican Petroleum 1nstitute's machine-aided indexing and searching
1997b. project. Science and Techno/ogy Libraries, 5( I), 1984, 4962.
B1ustein, J.; Staveley, M.S. Methods of generating and evatuating hypertext. Annual Breton, E.J. Indexing for invention. Journa/ ofthe American Society for !nformation
Review of Information Science and Teclmology, 35, 2001, 299-~35. . Science, 42, 1991, 173-177.
Bodenreider, O.; Zweigenbaum, P. 1dentifying proper names 111 parallel medtcal Breton, E.J. \Vhy engineers don't use databases. Bulletin ofthe American Society for
terminologies. Studies in heaith teclmology and informatics, 77, 2000, 443447. Information Science, 7(6), 1981,20-23.
Boguraev, B. et ai. Summarisation miniaturisation: delivery of news t~ ha~d-helds. Brettle, A.J. et ai. Comparison of bibliographic databases for information on the
Proceedings of the NrlAC/, 2001 Workslwp on Automatic Summanwtwn. New rehabilitation o f people with severe mental illness. Bulletin of the Medica! Library
Brunswick NJ Association for Computational Linguistics, 200 I. Association, 89,2001, 353-362.
Bonham, M..; Netson, L. L. An eva1uation of four enduser systems for searching Brew, C.; Thompson, H. S. Automatic evaluation o f computer generated text: a progress
MEDLINE. Bulletin ofthe Medicai Librwy Association, 76, 1988, 22-31. report on the TextEval project. In: Proceedings ofthe Human Language Teclmology
Booth, A.; O'Rourke, A.J. The value of structured abstracts in information retrieval Workshop, March 811, 1994, p. 108-113. San Francisco, Morgan Kaufmann, 1994.
from MEDLINE. Health Libraries Review, 14, 1997, 157166. Brittain, J.M.; Roberts, S.A. Rationalization of secondary services: measurement of
Borko, H. Toward a theory of indexing. Information Processing & Management, 13, coverage o f primai)' journals and overlap between services. Journal ofthe American
1977,355-365. . . Society for Information Science, 31, I980, 131-142.
Borko, H.; Bernick, tvL Automatic document classitlcation. Journal ofthe Assocwtwn Broer, J. \V. Abstracts in block diagram form. !I:'I:E Transactions on Engineering Writing
{orComputingMachine1y, 10,1963,151-162. . andSpeech, 14, 1971,64-67.
Borko, H.; Bernicr, C. L. Abstracling concepts and metlwds. New York, Academtc Press, Brown, E. \V. et ai. Toward speech as a knowledge resource. IBM Systems Journa!, 40,
1975. 200 I, 985-100 I.
Borko, H.; Chatman, S. Criteria for acceptable abstracts: a survey of abstractors' Brown, M.S. et ai. A new comparison ofthe Current lndex toJoumals in Education and
instructions. American Documntalion, 14, 1963, 149-160. the Educalion Index: a deep analysis ofindexing. Journal ofAcademic Librarianship,
Borkowski, C.; Martin, J.S. Structure, effectiveness and benefits of LEXtra~tor, an 25. 1999, 216-222.
operational computer program for automatic extracti.on of c~se summanes a.nd Brown, P. et ai. The democratic indexing o f images. New Review of Hypermedia _and
dispositions from court decisions. Journal ofthe Amertcan Soc1ety for Informatwn Multimedia, 2, 1996, 107-120.
Science, 26, 1975, 941 02. . . Browne, GM. 1ndexing Web sites: a practical guide./nternet ReferenceSeiVices Quarterly,
Borst, F. et ai. TEXTINFO: a tool for automatic determination o f patient chmcal pro files 5(3), 2001,27-41.
402 INDEXAO E RESUMOS: TEORIA E PRTICA REFERENCIAS 403
Bruza, P.D. et ai. Aboutness from a commonsense perspective. Journaf ofthe American Chen, H.-1. An analysis ofimage queries in the field ofmt history. Joumal oftheAmerican
Society for biformation Science, 51, 2000, I 09011 05. Society for biformation Science and Technology, 52, 200 I a, 260273.
Burgin, R. The effect of indexing exhaustivity on retrieval performance. Information Chen, H.-1. An analysis o f image retrieval tasks in the field o f art history. biformation
Processing & Management, 27 I 991, 623-628.
y Processing & J.fanagement, 37, 200 I b, 701 ~ 720.
Burgin, R. The retrieval effectiveness of five clustering algorithrns as a function of Chen, Z. Let documents talk to each other: a computer model for connection o f short
indexing exhaustivity. Journal ofthe American Society for Information Science, 46, documents. Journal of Documentation, 49, 1993, 44-54.
1995, 562-572. Chen, Z. et ai. Web mining for Web image retrieval. Journal ofthe American Society for
BOrk, K. et ai. INIS: manual for subject analysis. Vienna, lnternational Atomic Eoergy Information Science and Teclmology, 52, 2001, 831-839.
Agency, 1996. IAEAINIS-12 (Rev. 3) Chiaramella, Y.; Kileirbek, A. An integrated model for hypermedia and information
Burke, F.G. The application of automated techniques in the management and control of retrieval. In: biformation retrieva/ and hypertext; ed. by M. Agosti; A. F. Smeaton, p.
source materiais. American Archivist, 30, 1967, 255~278. 139-178. Boston, Kluwer, 1996.
Burke, M. The use ofrepertory grids to develop a user-driven classification o f a col!ection Chien, L.-F. et ai. A spoken-access approach for Chinese text and speech information
ofdigitized photographs. Proceedings ofthe American Society for InformationScience retrieval. Journal ofthe American Society for Information Science, 51, 2000, 313-323.
and Teclmology, 38,2001, 76-92. Choi, Y.; Rasmussen, E.M. Users' relevance criteria in image retrieval inA.merican history.
Burnett, K. et ai. A comparison o f the two traditions ofmetadata development. Journal lnformation Processing & Management, 38, 2002, 695-726.
o/lhe American Society for I11[ormation Science, 50, 1999, 1209-1217. Chu, C.M.; Ajiferuke, I. Qualityofindexing in library and infonnation science data bases.
Busch, J.A. Building and accessing vocabulmy resources for networked discovery and Online Review, l3, 1989, I i-35.
navigation. In: Visualizing subject accessfor 21st century information resources; ed. Chu, C.M.; O'Brien, A. Subject analysis: the criticai first stage in indexing. Journa/ of
by P.A. Cochrane; E. H. Johnson, p. 93-105. Urbana-Champaign, Universityoflllinois, lnformation Science, 19, 1993,439-454.
Graduate School o f Library and Information Science, 1998. Chu, H. Hyperlinks: how well do they represent the intellectual content ofdigital collec~
Buyukkokten, O. et ai. Seeing the whole in parts: text summarization for web browsing tions? Proceedings ofthe American Society for lnformation Science, 34, 1997, 361-368.
on handheld devices. Proceedings ofthe Tenth lntemationa! Conference 011 the JVorld Chute, C.G; Yang, Y. An evaluation ofconcept based latentsemantic indexing for clinicai
Wide Web, 200 l. (http://www.db.stanford.edu/-orkut/papers/www I Ob/index.html) information retrieval. Sixteenth Annual Symposium on Computer Applications in
Byrd, D.; Crawford, T. Problems.of music information retrieval in the real world. Medica! Care, p. 639~643. New York, McGraw Hill, 1993.
Information Processing & Management, 38, 2002, 249-272. Ciocca, a.; Schettini, R. A relevance feedback mechanism for content-based image
Byrne, J.R. Relative effectiveness oftitles, abstracts, and subject headings for machine retrieval. lnformation Processing & Management, 35, 1999, 605-632.
retrieval from the COMPENDEX services. Journal of the American Society for Clarke, C.L.A. Exploiting redundancy in question answering. Proceedings ofthe 24th
/nformation Science, 26, 1975, 223-229. Allnuallnternational ACM smm Conference on Research and Development in bifor-
Campbell, J.D. The case for creating a scholars porta( to the Web. ARL, 211, August 2000, 1-4. mation Retrieval, p. 358-365. New York,Association for Computing Machinery, 2001.
Carrick, C.; Watters, C. Automatic association ofnews items.lnformation Processing & Clemencin, G Querying the French Yellow Pages: naturallanguage access to the directory.
Mmwgement, 33, 1997,615-632. lnformation Processing & Management, 24, 1988, 633-649.
Carro li, K.H. An analytical survey ofvirology literature reported in two announcement Cleveland, D.B.; Cleveland, A.D. Introduction to indexing and abstracting. 3rd ed.
journals. American Documentation, 20, 1969,234-237. Englewood, co, Librarics Unlimited, 2001.
Casey, K.H. An analytical index to the Internet: dreams ofUtopia. College & Research Cleverdon, C. \V. A comparative eva!uation of searching by controlled !anguage and
Libraries, 60, 1999, 586-595. natural language in an experimental NASA data base. Frascati, European Space
Cawkell, A.E. A guide to image processing and picture management. Brookfield, VT, Agency, Space Documentation Service, 1977.
Gower, 1994. Cleverdon, C. \V. et ai. Facto~s determining the peJformance ofindex !anguages.
Cawkell, A. E. Picturequeries and picture databases. Journal of Informatfon Science, Crantleld, UK, College o f Aeronautics, 1966. 3 v.
19, 1993, 409-423. Cluley, H.J. Analytical Abstracts: user reaction study. Proceedings of the Society for
Chakrabarti, S. Mining the H-b: dlscovering know/edgefi-om hypertext data. San Francis~ Analytical Chemistry, 5, 1968, 217-221.
co, Morgan Kaufmann, 2003. Coates, E.J. Subjectcatalogues: hemlings andstructure.london, Librruy Association, 1960.
Chang, G et ai. Mining the Wor!d Wide Web. Boston, Kluwer, 2001. Coco, A. Full-text versus ful!-text plus editorial additions. Legal Re/erence Services
Charniak, E. Naturallanguage Jearning. AC.H Computing Surveys, 27, 1995, 317-319. Qum-ter/y, 4 (2), 1984,27-37.
Chen, H. et ai. Automatic concept classification of text from electronic meetings. Collison, R.L. Abstracts and abstracting services. Santa Barbara, CA, ABCCLIO, 1971.
Conummications ofthe ACM, 37(10), 1994, 56-73. Col!isori, R. L. Indexes and indexing. 4th ed. New York, deGmaf, 1972. [Edio em
Chen, H. et ai. Automatic thesaurus generation for an electronic community system. portugus, baseada na segunda edio inglesa: ndices e indexao. Trad. de Anto-
Journal ofthe American Society for lnformation Science, 46, 1995, 175-193. nio Agenor Briquet de Lemos. So Paulo, PoHgono, 1971]
!i
404 INDEXAO E RESUMOS: TEORIA E PRTICA REFERNCIAS 405
Conaway, C. \V. An experimental invesligation o/the injluence o/severa! indexvariables Croft, \V.B.; Turtle, H.R. Text retrieval and inference. In: Text-based intelligent systems;
on index usability anda preliminmy study toward a coefficient of index usabi!ity. ed. by P.S. Jacobs, p. 127-155. Hillsdale, NJ, Lawrence Erlbaum, 1992.
Doctoral thesis. New Brunswick, NJ, Rutgers University, Graduate School ofLibrary Cromp, R.F.; Dorfman, E. A spatial data handling system for retrieval of images by
Service, 1974. unrestricted regions o f use r in teres!. Telematics and lnformatics, 9, 1992, 221-241.
Connolly, D.; Landeen, C. Toward a standard mensure ofindex density. KEYIVORDS, 9(2), Crowe, J.D. Stttdy ofthefeasibility ofindexing a workS subjective viewpoint. Doctoral
200 I, 52-56. thesis. Berke!ey, Univcrsity o f California, 1986.
Cook, M. Archives and the compu ter. London, Butterworths, 1980. Cutter, C. A. Rufes for a dictionmycatafog. Washington, oc, Govemment Printing Oft1ce,
Cooper, \V. S. Expected search length: a single measure ofretrieval eftt::ctiveness based on 1876.
the weak ordering action ofretrieval systems. American Documentation, 19, 1968, 30-41. Dabney, D.P. The curse o f Thamus: an analysis of full-tex.t legal document retrieval.
Cooper, \V. S. Indexing documents by gedanken experimentation. Journal oftheAmerican Law Librmy Journal, 78, 1986a, 5-40.
Society for !nformation Science, 29, 1978, t07-119. Dabney, D.P. A reply to \Vest Publishing Company and Mead Data Central on The curse
Cooper, \V.S. ls inter-indexer consistency a hobgoblin? American Documentation, 20, ofThamus. Law LibrwyJoumal, 78, 1986b, 349~350.
1969, 268-278. Dahlberg, L On the theory ofthe concept. In: Order!i1g syslemsfor global information
Corridoni, J.M. et ai. Image retrieval by colar semantics with incomplete knowledge. nehvorks; ed. by A. Neelameghan, p. 54-63. Bangalore, International Federation for
,, Journai ofthe American Society for lnjrmation Science, 49, 1998, 267-282. Documentation, 1979.
;. '. Corston-Oiiver, S. Text compaction for display on vcry smaH screens. Proceedings o[ Danilewitz, D.B.; Freiheit, F.E., IV. A knowledge-bas~d system witbin a cooperative
the NAAC/. 200! ll'orkshop on Automatic Summari;:ation, 2001. (http://research. processing environment. In; fnnovative applications ofartificial inteiligence 4; ed.
microsoft.com/nlp/pub!ications/NAACL200 I) by A.C. Scott; P. Klahr, p. 19-36. Cambridge, MA, MIT Press, 1992.
Cosgrove, S.J.; Weimann, J.M. Expert system technology applied to item classification. David, C. et ai. Indexing as problcm solving: a cognitive approach to consistency.
Librury Hi Tech, !O (1/2), 1992,33-40. Proceedings ofthe American Society for /nformation Science, 32, 1995, 49-55.
Cowie, J.; Lehnert, \V. Infonnation extraction. Communications ofthe AcM, 39( I), 1996, Davison, P.S.; Matthews, D.AR. Assessmcnt ofinfom1ation services. Aslib Proceedings,
80-91. 21, 1969, 280-284.
Crandall, M. Microsoft. In: Linkage Jnc S best praclices in knowledge management and Defense Documentation Center. Abstractillg ofteclmical reports. 1968. AD 667 000.
organizationaf learning handbook, p. 89-123. Lexington, !viA, Linkage Inc., 2000. Demasco, P. W.; McCoy, K.F. Generating tex.t from compressed input: an intelligent
Craven, T.C. Abstracts produced using computer assistance. Journal of the American interface for people with severe motor impairments. Communications ofthe ACM,
Society for Jnformation Science, 51, 2000, 745w 756. 35(5), 1992,68-78.
Craven, T.C. Changes in metatag descriptions over time. First Monday, 6(10), 200\a Dempsey, L.; Heery, R. Metadata: a current view o f practice and issues. Joumal of
( http :// firstmonday. org/issues/i ssue6~I 0/c rave n/index. htm I) Documentation, 54, 1998. 145~ 172.
Craven, T.C. A coding scheme as a basis for the production of customized abstracts. De Rui ter, J. Aspects ofdealing with digital information: "mature" novices on the Internet.
Journal of !nformation Science, 13, 1987, 51-58. Library Trends, 51, 2002, 199-209.
Craven, T.C. DESCRIPTION meta tags in public home and linked pages. li/JRJ::S: Librmy Deschtelets, G The three languages theory in information retrieval. !ntemationai
and Jnformation Science Research Electronic Journal, 11(2), 2001 b (http://libres, Classificalion, 13, 1986, 126-132.
curtin.edu.au/UBRE li N2/craven.htm) DcZelar-Tiedman, C. Subject access to flction: an npplitation ofthe Guideiines. Librmy
Craven, T.C. An experiment in the use of too!s for computer-assisted abstracting. Resources & Teclmical Services, 40, 1996,203-210.
Proceedings oftlle American Society for in/ormation Science, 33, 1996, 203-208. Di Lo reto, F. et ai. A visual object-oriented query language for geographic information
Craven, T.C. NEPHIS: a nested-phrase indexing system. Journal ofthe American Society systems. In: Database and expert systems applications; ed. by N. Revell and A.r..L
for Jnformation Science, 28, 1977, 107-114. Tjoa,p. 103-113. Berlin, Springer-Verlag, 1995. (Lecture Notes in Computer Science,
Craven, T.C. Presentation o f repeated phrases in a computer-assisted abstracting to oi Number 978).
kit.lnformation Processing & Management, 37, 200\c, 221-230. Dimitrotl A.; Wolfram, D. Design issues in a hypertext-based information system for
Craven, T.C. String indexing. Orlando, FL, Academic Press, 1986. bibliographic rctrievaL Proceedings oft!teAmerican Society for lnformalion Science,
Craven, T.C. A thesaurus for use in a computer-aided abstracting toa! kit. Proceedings of 30, 1993, 191-198.
tlle American Society for lnformation Science, 30, 1993, 178-184. Ding, \V. et ai. Performance ofvisual, verbal, and combined video surrogates. Proceedings
Craven, T.C. Use ofwords and phrases from fuH text in abstracts. Journaf of!nformation ofthe American Society for InformatioiJ Science, 36, 1999, 651-664.
Scieuce, 16, 1990, 351-358. Diodato, V.P. Author indexing in mathematics. Doctoral thesis. Urbana-Champaign,
Cremmins, E.T. The ar! of abstracling. 2nd ed. Ar!ington, VA, Information Resources University ofiiiinois, Graduatc School ofLibrmy and Information Science, 1981.
Press, 1996. Diodato, V.P. User preferences for features in back of book indexes. Journal of the
American Society for lnformation Science, 45, 1994, 529-536.
mrrrr 1i
nn:'
<!:
406 INDEXAO E RESUMOS: TEORIA E PRTICA ! REFERNCIAS 407
Diodato, V.P.; Gandt, G. Back of book indexes and the characteristics o f author and Edmundson, H.P. New methods in automatic extracting. Joumal ofthe Associationfor
Compuling Machine1y, 16, 1969, 264~289.
nonauthor indexing: report ofan exploratory study. Journal ofthe American Society
Edmundson, H.P. et ai. Final repor! on the study for automatic abstracting. Canoga
for Information Science, 41, 1991, 341350.
Doraisamy, S.; Rtiger, S.tvL An approach towards a polyphonic music retrieval system. Park, CA, Tbompson Ramo Wooldridge, 1961. PB 166 532.
Paper presented atthe SecondAnnuallntemational Symposium on Music Infonnation Edwards, T. A comparative analysis ofthe major abstracting and indexing services for
Retrieval, 200 I. (http://ismir200 l.indiana.edu/papers.html) library and information scicnce. Unesco Bu!letinfor Libraries, 30, 1976, 18-25.
Doszkocs, T.E. CITE NLM: naturallanguage searching in an online catalog. lnformation Elchesen, D.R. Cost eftectiveness comparison of manual and on-line retrospective
Teclmology and Libraries, 2, 1983, 364380. bibliographic searching. Journal of the American Society for Informalion Science,
Dovey, lvLJ. A technique for 'regular expression' style searching in polyphonic music. 29, 1978, 56-66.
Paper presented at the SecondAnnual International Symposium on Music Information Elhadad, N.; McKeown, K. Towards generating patient specit1c summaries ofmedical
articles. Presentation at the NAACL 200 I \Vorkshop on Automatic Summarization.
Retrieval, 200 I. (http:l/ismir200 I. indiana.edu/papers.html)
Down, N. Subject access to individual works o f fiction: participating in the OCLC/Lc Ellis, D. et ai. In search o f lhe unknown user: indexing, hypertext and the World \Vide
fiction project. Cataloging & C/assification Quarterly, 20 (2), 1995, 61-69. \Veb. Journa! of Documentation, 54, 1998, 28-47.
Downie, S.; Nelson, M. Evaluation ofasimple and effective music information retrieval Ellis, D. et ai. On the creation ofhypertext links in full-text documents: measurement o f
method. Proceedings of the 23rd Ammal International ACM SIG!R Conference on inter-linker consistency. Journal ofDocumentation, 50, 1994,67-98.
Research and Development inlnformation Retrieval, p. 73~80. New York,Association Ellis, D. et ai. On the creation ofhypertext links in full-text documents: measurement o f
retrieval etlectiveness. Jouma/ ofthe American Society for biformation Science, 47,
for Computing Machinery, 2000.
Doyle, L.B. Semantic road mnps for literature searchers. Journal ofthe Associationfor 1996, 287-300.
Computing Machinery, 8, 1961,553-578. Elrod, J.M. Classification o f Internet resomces: an AUTOCAT discussion. Cata!oging &
Drage, J.F. User preferences in technical indexes. The Indexer, 6, 1969, 151-155. C!assification Quarter/y, 29(4), 2000, 19-38.
Driscoll, J.R. et ai. The operation and perfonnance ofan artificially intelligent keywording Endres-Niggemeyer, B. A naturalistic model ofabstracting. In: Advances in Know/edge
Organization, 4, 1994, 181-187.
system. lnformation Processing & Management, 21, 1991, 43-54.
Endres~Niggemeyer, B. Summarizing information. Berlin, Springer- Verlag, 1998.
Dronberger, GB.; Kowitz, GT. Abstract readability as a factor in information systems.
Journa! of the American Society for lnformation Science, 26, 1975, 108-lll. Enser, P.GB. Pictorial infmmation retrieval. Journa! of Documentation, 51, 1995, 126-170.
Drott, M.C. Indexing aids at corporate websites: the use o f robots.txt and META tags. Enser, P.GB. Visual infornmtion retrieval: seeking the alliance of concept-based and
lnformation Processing & Management, 38,2002,209-210. content-based pnradigms. Jouma! of/Jiformation Science, 26,2000, 199-210.
Dubois, C.P.R. Free text vs. controlled vocabulary: a reassessment Online Review, 11, /:'JUC processing manual. Section 7: indexing. Washington, oc, u.s. Department of
Education, Educational Resources lnfonnation Center, 1980.
1987,243-253.
Dumais, S.T. Latent semantic indexing (LS!): TREC-3 report. In: Overview ofthe Third Etzioni, O. Thc World-Wide Web: quagmire or gold mine? Communications ofthe AO!,
Text Retrieval Conference (TREC-3); ed. by D.K. Hunnan, p. 219-230. Gaithersburg, MD, 39( li), 1996, 65-68.
National Institute ofStnndards andTechnology, 1995. NIST Special Publication 500~225. Fairthorne, R.A. Automatic retrieval o f recorded information. Computer Journal, I( I),
1958, 36-41.
Dutta, S.; Sinha, P.K. Pragmatic approach to subject indexing: a new concept. Jouma!
of the American Society for lnformation Science, 35, 1984, 325-331. Falk, J.D.; Baser, K.H. ABC-Spindex: a subject pro file, rotated string indexing system.
Dym, E.D. Relevance predictability: 1. Investigation, buckground and procedures. In: Proceedings ofthe American Society for lnfomwtion Science, 17, 1980, 152-154.
Electronic hand/ing ofinformation: testing and evaluation; ed. by A. Kent et ai.. p. Farradane, J. A comparison o f some computer-produced permuted alphabetical subject
indexes.lnternationa/ Classification, 4, 1977,94-101.
175-185. Washington, oc, Tbompson Book Co., 1967.
Em!, L. L. Experiments in automatic extracting and indexing. lnformation Storage and Farradane, J. Concept organization for information retrieval. lnformation StOJage and
Retrieva/, 3, 1967,297-314.
Retrieval, 6, 1970, 3\3-334.
Eastman, C.M. 30,000 hits may be better than 300: precision anomalies in Internet Farradane, J. Rdational indexing. Jouma! of/nformation Science, I, 1979, 267-276; 1, 1980,
313-324.
searches. Journal ofthe American Society for Information Science and Teclmology,
Farradane, J.; Yates~i\.terce,r, P.A. Retrieval characteristics ofthe index to Metais Abstracrs.
53,2002,879-882.
Ebinuma, Y. et ai. Promotion ofkeyword assgnment to scientitic literature by contributors. Journa/ ofDocumentation, 29, 1973, 295~314.
lntemational Fomm on Jnformation and Documentation, 8(3), 1983, 16-20. Fayyad, U.; Uthurusamy, R. Evo!ving data mining into solutions for insights.
Eco, U. The role of tl!e reader: explorations in the semiotics of texts. Bloomington, Communications ofthe .-H .11, 45(8), 2002, 28-31.
Indiana University Press, 1979. [Antologia de ensaios selecionados dos livros Obra Feder, .I.D.; Hobbs, E.T. Speech recognition and full-text retrieval: interface anel inte-
aberta, Apocalpticos e i11tegrados, Asformas do contedo, Lector infabula, O super~ gration. Proceedings ofthe Sixteenth National On/ine Meeting, p. 97-104. Medford,
NJ, Leamed lnformation, 1995.
homem de massa.]
408 INDEXAO E RESUMOS: TEORIA E PRTICA
1 REFERENCIAS 409

I
Fedosyuk, M. Yu. Linguistic criteria fordifferentiating infommtive and indicative abstracts. Frost, C. The role o f mental mo deis in a multimodal image search. Proceedings of the
Automatic Documentation and Mathematical Linguistics, 12(3), 1978, 98110. [Tradu- American Society for lnformation Science and Technology, 38, 200 I, 52-57.
o em ingls de Nauc/mo--Teklmicheskaia lnformatsiia, Seriia 2, 12 (9), 1978, p. 11-17.] Fugmann, R. The five-axiom thcory o f indexing and information supply. Journa/ ofthe
Feinberg, H., ed. lndexing specialized formais and subjects. Metuchen, NJ, Scarecrow American Society for Jnformation Science, 36, 1985, 116-129.
Press, 1983. Fugmann, R. Review o f second edition o f Vocabula1y contrai for information retrieval
Feiten, B.; Giinzel, S. Automatic indexing o f a sound database using self-organizing by F. \V. Lancaster.lnternationaf C/assification, 14, 1987, 164-166.
neural nets. Compu ter Music Joumal, 18(3), 1994, 53-65. Fugmann, R. Toward a theory of information supply and indexing. Internationa!
F ide!, R. Individual variability in online search behavior. Proceedings ofthe American Classiftcation, 6, 1979,3-15.
Society for hiformation Science, 22. 1985, 69-72. Fuhr, N. Models fOr retrieval with probabilistic indexing. lnformation Processing &
F ide!, R. User-centered indexing. Journal of the American Society for Information Management, 25, 1989, 55-72.
Science, 45, 1994, 572-576. Fum, D. et ai. Forward and backward reasoning in automatic abstracting. In: COUNG 82,
Fide!, R. Who needs controlled vocabulary? Special Libraries, 83, 1992, 1-9. Proceedings of the Ninth Intemational Conference on Computational Linguistics;
F ide!, R. Writing abstracts for free-text searching. Journa! of Documentation, 42, 1986, ed. by J. Horecky, p. 83-88. Amsterdam, Nortb Holland Publishing, 1982.
11-21. Funk, M.E. et ai. Indexing consistency in MEDLINE. Bul!etin of the Medica/ Librmy
Fleuret, F.; Geman, D. Coarse-to-fine tce detection. fnternational Journal ofComputer Association, 71, 1983, 176-183.
Vision, 41,2001,85-107. Gaizauskas, R.; Wilks, Y. Information extraction: beyond document retrieval. Journal of
Flickner, M. et a!. Query by image and video content: the QBIC system. Compu ter, 28(9), Documentation, 54, 1998, 70-105.
1995, 23-32. Gao, Y.J. et ai. Fuzzy multilinkage thesaurus builder in multi media information systems.
Flordi, L. Brave.Net. \Vorld: the Internet as a disinformation superhighway? Efectronic In: Proceedings ofThird lnternalional Conference on Document Anafysis mui Recog-
Librmy, 14, 1996,509-514. nition. Volume 1, p. 142-145. Los Alamitos, CA, IEEE Compute r Society Prcss, 1995.
Flynn, M.K. Take a letter, computer: speech recognition is coming o f age. PC Magazine, Gardiner, D. et ai. TREC-3: experience with conceptual relations in information retrieval.
12(13), 1993,29. In: Overview ofthe Third Text Retrieval Conference (TREC-3); ed. by D.K. Harman,
Forrester, M.A Hypermedia and indexing: identil)ing appropriate models fiom user p. 333-352. Gaithersburg, MD, Nationallnstitute ofStandards and Technology, 1995.
studies. In: Online lnformation 93, p. 313-324. Medford, NJ, Learned Information, N!ST Special Publication 500-225.
1993. Gauch, J.M. et ai. Real time video scene detection and classification. Informarion
Forsyth, D.A et ai. Finding pictures ofobjects in !urge collections ofimages.ln: Digital Processing & Management, 35, 1999,381-400.
image access & retrieval; ed. by P.B. Heidorn and 8. Sandore, p. 118-139. Urbana- Gauvain, J.-L. et ai. Audio partitioning and transcription for broadcast data indexation.
Champaign, University of Illinois, Graduate School of LibrUJ)' and Information Multi media Tools and Applications, 14, 200 I, 187-200.
Science, 1997. Gee, F. R. TIPSTER Phase 111 accomplishments. In: Proceedings ofthe 71PSJEU Text Program,
Fowler, R.H. et ai. Visualizing and browsing www semantic content. In: Proceedings of Phase 11/, p. 7-13. San Francisco, Morgan Kaufmann, 1999.
the First Ammal Confence on Emerging Teclmologies and Applications in Geisler, G Interface concepts for the Open Video Project. Proceedings ofthe American
Communications, p. li 0-113. LosA!nmitos, CA, IEEE Compu ter Society Press, 1996. Society for Information Science and Teclmology, 38, 2001, 58-75.
Fox, E.A. et ai. Building a large thesaurus for information retrieval. Proceedings ofthe Gilchrist, A. Documentation o f documentation: a survey ofleading abstracts services in
Second Conference on Applied Natural Language Processing, p. I O1-108. documentation and an identification ofkey joumals. Aslib Proceedings, 18, 1966, 62-80.
Morristown, NJ, Association for Computational Linguistics, 1988. Girgensohn, A. et ai. Keyframe-based use r interfaces for digital video. Computer, 34(9),
Freitas,A.A Data mining and lalolvledge discove1y1vith evolutionmya/gorithms. Berlin, 2001,61-67.
Springer, 2002. Godby, C.J. Two techniques tbr the identification of phrases in full text. Journa/ of
Fridman, E.P.; Popova, V.N. Otrajenie mirovoi literaturi po eksperimental'noi primatologii Librmy Administration, 34, 200 I, 57-65.
v Referativnikh Jumalakh SSSR. Nauclmo- Teklmicheskaia lnformatsiia, Seriia I, No. Godby, C.J.; Reighart, R. Terminology identitication in a collection of\Veb resources.
2, 1972, 34-36. In: ('0/(('; new too/s and possibilitiesfor cooperative e/ectronic resource description;
Fried, C.; Prevel, J.J. Ejfects of indexing aids on indexing pe1jormance. Bethesda, 1'-.lD, ed. by K. Calhoun and J.J. Riemer, p. 49-65. Binghampton, NY, Haworth Press,
General Electric Co., 1966. RADC-TR-66-525. 2001a.
Friis, T. Assisted !Ndexing (CAIN). IAAI.O Quarterly Bul/etin, 37, 1992, 35-37. Godby, C.J.; Reighart, R. The WordSmith indexing system. Joumaf of Librmy
Froom, P.; Froom, J. Deficiencies in structured medicai abstracts. Journal ofC/inical Administration, 34, 2001b, 375-384.
Epidemiology, 46, I 993a, 591-594. Goldstein, J. et ai. Multi-document summarization by sentence extraction. Proceedings
Froom, P.; Froom, J. Response to commentary by R.B. Haynes on 'Deficiencies in ofthe ANI.I' 2000 Workshop on Automatic Summarization, p. '-10-48. New Brunswick,
structured medicai abstracts'.Journal o[ Clinicai Epidemiology, 46, I993b, 599. NJ, Association for Computationa! Linguistics, 2000.
l
410 INDEXAO E RESUMOS: TEORIA E PRTICA

Gong, Y.; Liu, X. Generic text summarization using relevance measure ond latcnt semantic
I REFERNCIAS

image database applications. In: Multimedia database systems; ed. by V.S.


411

analysis. Proceedings of the 24th Amwal lnternational AC.'v! SIGIR Conference on Subrahmanian and S. Jajodia, p. 37-78. Berlin, Springer-Verlag, 1996.
Research and Development in Informal on Retrieval, p. 19-25. New York, Associaton Guenther, R.; McCallum, S. New mctadata standards for digital resources: 1-.mos and
for Computing Machinery, 200 I. METS. Bulletin of the American Society for lnformation Science and Teclmology,
Goode, D.J. et ai. Comparative analysis of Epilepsy Abstracts and a MEDLARS 29(2), 2003, 16-19.
bibliography. Bul!etin ofthe Medica/ Librmy Association, 58, 1970, 44-50. Guglielmo, E.J.; Rowe, N.C. Natura!Mlanguage retrieval ofimages based on descriptive
Goodrum, AA. iviultidimensional scaling ofvideo surrogates. Journal ofthe American captions. ACM Transactions on Information Systems, 14, 1996, 237M267.
Society for Information Science and Tec!mology, 52, 200 I, 174-182. Guidelines for abstracts. Bethesda, MD, National Information Standards Organization,
Goodrum, A. A.; Spink, A. Visual information seeking: a study o f image queries on the , 1997. ANS!/NJSO z39.14-1997. Reeditada em 2002.
\Vorld \Vide \Veb. Proceeedi11gs ofthe American Society for lnformation Science, Guidelinesfor indexes and related information retrieval devices (by James D. Anderson).
36, 1999,665-674. Bethesda, MD, National Information Standards Organization, 1997. NISO TR02-l997.
Goodrum, A.A. et ai. An open source agenda for research linking tcxt and image content Guidelines on subject access to individualworks offiction, drama, etc. 2nd ed. Chica-
tl!atures. Joumal of the American Society for Jnformation Science and Tec!mology, go, American Library Association, 2000.
52, 200 I, 948-953. Gupta, A.; Jain, R. Visual information retrieval. Communications of lhe AC'M, 40(5),
Gordon, M.D.; Ou mais, S. Using !atent scmantic indcxing for literature based discovery. 1997, 71-79.
Jmmwl ofthe American Society for lnformation Science, 49, 1998, 674-685. Guthrie, L. et ai. Docmnent c!assitication and routing: a probabilistic approach. In: Na-
Gowtham, M.S.; Kamat, S.K. An expert system as a tool to classitlcation. LibraiJ'Science turallanguage information retrieval; ed. by T. Strzalkowski, p. 289-310. Boston,
wilh a Slant to Documentation and lnformation Studies, 32(2), 1995, 57-63. Kluwer, 1999.
Green,A Keeping up with the times: evaluating currency ofindexing, Janguage coverage Haas, S. \V. Natural language processing: toward largeMscale, robust systems. Ammal
and subject area coverage in three music periodical index databases. Music Reference Review oflnformation Science and Teclmology, 31, 1996, 83-119.
Services Quarterly, 8( I), 200 I, 53-68. Hafed, Z.M.; Levine, M.D. Face recognition using the discrete cosine transform.
Green, B.F. et ai. BASEBALL: an automatic question-answerer. In: Computers and thought; lnternational Joumal o/Computer ,Vision, 43, 200 l, 167M 188.
ed. by E. Feigenbaum and J. Feldman, p. 207-216. New York, tvlcGraw Hill, 1963. Hagerty, K. Abstracts as a basisfor relevance judgement. Chicago, University ofChicaM
Green, E.-L.; Klasn, L. Indexing and information rctrieval ofmoving images- cxpe- go, Graduate Library School, 1967. Working paper no. 380-5.
riences from a large te!evision lnformation database. In: Online ln}Ormation 93, p. Hahn, U.; Mani, L The challenges ofautomatic summarization. Computer, 33( 11 ), 2000,
129-136. Medford, NJ, Learned Information, 1993. 29-36.
Green, R. The role o f relational structures in indexing for the humanities. Knowledge Halm, U.; Reimer, U. Heuristic text parsing in 'TOPIC': methodological issues in a
Organization, 24, 1997, 72-83. knowledge-based text condensation system. In: Representation and exchange of
Greenberg, J. lvfetadata generation. Bulletin of the American Society .fOr lnformation /mow!edge as a basis ofinformation processes; ed. by H.J. Dietschmann, p. 143-
Science and Teclmology, 29(2), 2003, 16-19. 163. Amsterdam, Nortb-Holland, 1984.
Grl!enberg, J. Aquantitative categorical analysis ofmetadata elemcnts in image-applicab!e Hall, AM. Case studies of the use ofsubject indexes. London, lnstitution of Electrical
metadata schemas. Jouma! of the tl.metican Society jr lnformation Science and Engineers, 1972a.
Tecllllology. 52, 200 I, 917-924. Hall, A.M. User preferences in printed indexes. London, Institution of Elctrical
Greisdort: 1-1.; O'Connor, B.C. Modelling what users see when they !ook at images: a Engineers, 1972b.
cognitive viewpoint. Journal ofDocwnentation, 58, 2002, 6-29. Han, J.; Chang, K.C.-C. Data mining for\Veb inte!ligence. Computer, 35(11), 2002,64-70.
Grimson, W.E.L.: 1VIllndy, J.L. Compu ter vision applications. Communicat;ons of tlw Hanson, C. \V.; Janes, tvL Coverage by abstractingjournals ofconference papers. Jounwl
ACAI, 37(3), 1994.45-51. ofDocumentation, 11, 1961, 143-149.
Grishman, R. \Vhither written !anguage evaluation? In: Proceedings of the Hwnan Harman, D. The TREC conferences. In: Readings in information retrieval; ed. by K.
Language Teclmology Workslwp, Uarch S-11, /99./, p. 120-125. San Francisco, Sparck Jones and P. Willett, p. 247-256. San Francisco, Morgan Kaufmann, 1997.
/Vlorgan Kaut!nann, 1994. Harpring, P. The language ofimages: enhancing access to images by applying metadata
Guard, A. An antidote for browsing: subject headings for tlction. Teclmica/ities, li( 12), schemas and structured vocabularies. In: fntroduction to art image access; ed. by M.
1991, 10-14. Baca, p. 20-39. Los Angeles, Getty Research lnstitute, 2002.
Gudivada. V.N.; Raghavan, V. V. Content-based image retrieval systems. Compute r, 28(9), Harris, D. et ai. The testing ofinter-indexer consistencyat various indexing deptl1s. Chi-
1995, I H-22. cago, University ofChicago, Graduate Library School, 1966. Working paper no. 380-2.
Gudivada, V.N.; Raghavan, V. V. lvlodeling and retrieving images by content. lnformation Hart, P.E.; Graham, J. Query-fh~e information retrieval./1:'1:'1:' &,per!, 12(5), 1997,32-37.
Processing & ,\/anugement, 33, 1997, 427-452. Harter, S.P. Psychological relevance and information science. Journa/ o[tl1e American
Gudivada, V.N. et o.!. A unitied approach to data modeling and retrieval tr a class o f Society for hiformation Science, 43, 1992, 602-615.
412 INDEXAAO E RESUMOS: TEORIA E PRTICA REFERENCIAS 413
Hartley, J. Are structured abstracts more ar Jess accurate than traditional ones? Journal Heidorn, P.B. The identification ofindex terms in naturallanguage object descriptions.
of!nformation Science, 26, 2000a, 273-277. Proceedings ofthe AmeriCafl Society for Information Science, 36, 1999, 472-481.
Hartley, J. Clarifying the abstracts ofsystematic literature reviews. Butletin ofthe J\4edica{ Heller, J. On logical data organization, card catalogs, and the GIUPHOS management
LibrQ/y Association, 88, 2000b, 332-337. information system. Rochester, NY, Margaret Woodbury Strong Museum, 1974.
Hart!ey, J. Do structured abstracts takc more space? And does it matter? Journal of Museum Data Bank Research Repor! Number 3.
lnformation Science, 28, 2002, 417-422. Henzler, R.G Free or controlled vocabularies: some statistical user-oriented evaluations
Hm11ey, ]. Is it appropriate to use structured abstracts in non-medical science journals? ofbiomedical information systems.lnternational Classification, 5, 1978,21-26.
Journal of lnformation Science, 24, 1998, 359-364. Herner, S. Subject slanting in scientific abstracting publications. In: Internationa!
Hartley, J. Three ways to improve the clarity ofjournal abstracts. British Journal of conference on scientific information, Washington, JJC, Proceedings. Volume 1, p.
Educational Psychofogy, 64, 1994, 331-343. 407-427. Washington, DC, National Academy o f Sciences, 1959.
Hartley, J. Typographic settings for structured abstracts. Journal ofTeclmical Writing Hersey, D.F. et ai. Free text word retrieval and scientist indexing: performance pro files
and Communication, 30, 2000c, 355-365. and costs. Joumal ofDocumentation, 27, 1971, 167-I83.
Hart!ey, J.; Benjamin, M. An eva!uation ofstructured abstracts injournals published by Hersh, \V. R.; Hickam, D.H. A comparative analysis ofretrieval effectiveness for three
the British Psychological Society. British Joumal of Educational Psychology, 68, methods of indexing A!DS-related abstracts. Proceedings ofthe American Society for
1998, 443-456. lnformation Science, 28, 1991,21 1225.
Hartley, J.; Sydes, M. \Vhich layout do you prefer? An analysis ofreaders' preferences Hersh, \V. R.; Hickam, D.H. An evaluation o f interactive Boolean and natural language
for ditlerent typographic layouts of structured abstracts. Journal of Information searching with an online medicai textbook. Journal o f the American Society for
Science, 22, 1996,27-37. lnformation Science, 46, 1995a, 478-489.
Hartley, J. et ai. Obtaining information accurately and quickly: are structured abstracts Hersh, W.R.; Hickam, D.H. lnformation retrieval in medicine: the SAPHIRE experience.
more cfficient? Journal of Information Science, 22, 1996, 349-356. Joumal ofthe Amel'ican Sociely for lnformation Science, 46, 1995b, 743w 747.
Hastings, S.K. An exploratory study of intellectual access to digitized mt images. Hersh, W.R. et ai. Words, concepts, or both? Optimal indexing units for automated
'I~
Proceedings of the Sixteenth National Online Meeting, p. 177-185. Medford, NJ, information retrieval. Sixteenth Ammal Symposium on Computer App/ications in
Learned Infonnation, 1995a. Medica/ Care, p. 644-648. New York, NY, McGraw Hill, 1993.
Hastings, S.K. lndex access points in a study ofintellectual access to digitized art images. Hett, C.A. et ai. A usability assessment o f online indexing structures in the networked
In: Mu!timedia computing and musewns; ed. by D. Bearman, p. 299-309. Pittsbmgh, environment. Journal of the American Society for lnformation Science, 51, 2000,
PA, Archives and Museum lnformatics, l995b. 971-988.
Hastings, S.K. Query categories in a study o f intellectual access to digitized art images. Hickey, T.B.; Vizine-Goetz, D. The role o f classification in CORC. Joumal of Libr01y
Proceedings ofthe American Society for Information Science, 32, l995c, 3-8. Administration, 34, 200 I, 421-430.
Haug, P.; Beesley, D. Automated selection of clinicai data to support radiographic Hidderley, R.; Rafferty, P. Democratic indexing: an approach to the retrieval offiction.
interpretation. In: Fifteenth Amwal Symposium on Compu ter App/ications in Medicai lnformation Services & Use, 17, 1997, 101-109.
Care, p. 593597. New York, t\.kGraw Hill, 1992. Hill, L. L. Collection ofmetadata solutions for digitallibrary applications. Journal ofthe
Hayes, P.J. Intelligent high-volume text processing using shallow, domain-specific American Society for lnformation Science, 50, 1999, 1169-1181.
techniques. In: Text-based intelligent systems; ed. by P.S. Jacobs, p. 227-241. Hillsdale, Hinman, H.; Leita, C. Librarians Index to the Internet (LH). In: The amazing Internet
NJ, Lawrence Erlbaum, I 992a. challenge; ed. by A.T. \Vells et ai., p. 144-160. Chicago, !L, American Library
Hayes, P.J.; \Veinstein, S.P. Construe-TIS: a system for contentbased indexing of a Association, 1999.
database o f news stories. In: lnnovatiw: applications o f artificial intelligence 2; ed. Hjorland, B. Relevance research. Joumal ofthe American Society for lnformation Science
by A. Rappaport and R. Smith, p. 51-64. Cambridge, MA, MIT Press, 1991. and Teclmology, 51, 2000, 209211.
Hayes, S. Enhanced catalog access to fiction: a preliminary study. Librmy Resources & Hjorland, B. Toward a theory of aboutness, subject, topicality, theme, domain, field,
Technical Services, 36, 1992b, 441-459. content... and relevance. Journal of the American Society for Information Science
Haynes, R.B. More informative abstracts: current status and evaluation. Journal of and Teclmology, 52, 200 I, 774-778.
Clinicai Epidemiology, 46, 1993, 595-597. Hjorland, B.; Nielsen, L.K. Subject access points in electronic retrieval. Annual Review
Haynes, R.B. et ai. More informative abstracts revisited. Annals of Interna! Medicine, of lnformation Science and.Teclmology, 35, 200 l, 249-298.
113, 1990,69-76. H lava, M.M.K. Machine-aided indexing (twAI) in a multilingual environment. In: Online
Haynes, R.B. et ai. Online access to MEDL!NE in clinicai settings: a study o f use and lnformation 92, p. 297-300. Medford, NJ, Learned Information, 1992.
usefulness. Annals o[ Internai Medicine, 112, 1990, 7884. Hmeidi, I. et ai. Design and implementation ofautomatic indexing for infonnation retrieval
Hearst, M.A. The use o f categories and clusters for organizing retrieval results. In: Na- with Arabic documents. Journal of the American Society for lnformation Science,
llwal language information retrieval; ed. by T. Strzalkowski, p. 333-374. Boston, 48, 1997, 867-88!.
MA, Kluwer, 1999.
414 REFERENCIAS
INDEXAO E RESUMOS: TEORIA E PRTICA 415
Hobbs, J.R.; Israel, O. Principies oftcmplate design. In: Proceedings oftlze Hwnan Hui, S.C.; Goh, A. 1ncorporating abstract generation into an online retrieval interface
Language Techno/ogy Workshop, March8-ll, /994, p. 177-181. San Francisco, CA, for a library newspaper cutting system. As/ih Proceedings, 48, 1996, 259-265.
Morgan Kaufmann, 1994. Humphrey, S.M. Automated indexing. Bulletin ofthe American Society oflndexers, 8,
Hobbs, J.R. et ai. Robust processing ofreal-world natural-language texts. In: Text-based 2000, 157-159.
inteftigent systems; ed. by P.S. Jacobs, p. 13-33. Hillsdale, NJ, Lawrence Erlbat1m, 1992. Humphrey, S.M. Automatic indexing ofdocuments fromjoumal descriptors: a preliminmy
Hock, R.E. The extreme searcher S guide to web search engines. 2nd ed. Medford, NJ, investigation. Joumal of tl!e American Society forlnformation Science, 50, 1999,
Information Today, 2001. 661-674.
Hock, R. E. Sizing up HotBot: evaluating one Web search engine's capabilities. On!ine, Humphrey, SJvL Interactive knowledge-based systems for improved subject analysis
21(6), 1997,24-33. and retrieval. In: Artijicial inte/ligence and expert systems: wi/1 they change the
Hodges, P.R. Keyword in title indexes: effectiveness ofretrieval in computer searches. library?; ed. by F. \V. Lancaster and L. C. Smith, p. 81-117. Urbana-Champaign, Uni-
Specia/ Libraries, 14, 1983,56-60. versity o f Illinois, Graduate School of Library and Information Science, 1992.
Hogan, M. et ai. The visual thesaurus in a hypermedia environment. In: Hypermedia & Humphrey, S.M. Comunicao pessoal por correio eletrnico, 20 de novembro de 1995.
interactivity in museums; ed. by D. Beannan, p. 202-221. Pittsburgh, PA, Archives Humphrey, S.M. et ai. Automatic indexing by discipline and high-level categories. A ser
and Museum Informatics, 199L publicado em Advances in Classification Research, 11, 2003 (no prelo).
Holm, B.E.; Rasmussen, L. E. Development o f a technicalthesaurus. American Docum- Humphreys, K. et ai. Bioinformatics applications ofinformation extraction from scientific
entarion, 12, 1961, 184-190. journal articles. Journal oflnfOrmation Science, 26,2000,75-85.
Holmes, N. The KWIC and the dead: a Jesson in computing history. Computer, 34(1}, Hmt, C.; Potter, W.G CORe and the future oflibraries. In: CVRC new tools andpossibi/ites
2001, 142-144. for coopera tive electronic resource description; ed. by K. Calhoun and J.J. Riemer,
Holst, \V. Problemer ved strukturering og bruk a v den polytekniske tesaurus. Tidskl'ift p. 17-27. Binghampton, NY, Haworth Press, 2001.
for Dokumentation, 22, 1966, 69-74. Hutchins, W.J. The concept of'aboutness' in subject indexing. As/ib Proceedings, 30,
Holt, B.; Hartwick, L. 'Quick, who painted fish?': searching a picture database with the 1978, 172-181.
! QBIC project at UC Davis.InfOrmation Services & Use, 14, 1994,79-90. Intner, S.S. Censorship in indexing. The lndexer, 14, 1984, 105-108.
Holt, B. et ai. The QBIC project in the Department o f Art and Art History at UC Da vis. lntrona, L.; Nisse11baum, H. Defining the Web: the politics ofsearch engines. Compu ter,
Proceedings ofthe Amel'ica/1 Society for Information Science, 34, 1997, 189-195. 33(1), 2000, 54-62.
Ho!t, GE. On becoming essential: an agenda for quality in twenty-first century public lrving, H.B. Computer-assisted indexing training and electronic text conversion at NAL.
libraries. Librmy Trends, 44, 1995, 545-571. Knowledge Qrgani:;ation, 24, 1997,4-7.
Hooper, R. S. Evaluation and analysis o f indexing systems. In: The Secomllnstitute on lycngar, S.S. Visual based retrieval systems and Web mining. Journal ofthe American
Teclmical Literature Jndexing, Session I. Washington, DC, American University, Society for Information Science and Teclmo!ogy, 52, 200 I, 828-875.
Center for Technology and Administration, 1966. lyer, H.; Giguere, rvi. Towards designing an expert system to map mathematics
Hooper, R. S. Indexe r consistency tests- origin, measurements, results and utilization. classit1catory structures. Knowledge Organization, 22, 1995, 141-147.
Bethesda, MD, IBM, 1965. Jackson, M.E. The advent ofportals. LibraryJoumal, 127(15), 2002,36-39.
Hork), J. Shoda mezi zpracovateli pri vyberu klicovych slov z odbornych textu. [Con- Jacobs, P.S. lntroduction: text power and intelligent systems. ln: Text-based intelligent
cordncia na seleo de prtlavrns-chave de textos especializados.] Ceskoslovensk systems; ed. by P.S. Jacobs, p. 1-3, Hillsdale. NJ, Lawrence Erlbaum, !992a.
lnformatika, 25, 1983, 275278. Jacobs, P.S. Joining statistics with NLP for text categorization. In: Proceedings of the
Horty, J.F. Experience with the application o f electronic data processing systems in ge- Third Conference on Applied Natural Language Processing, p. 173-185. San Fran-
nerallaw. Modem Uses ofLogic in Law, 60D, 1960, 158168. cisco, ~Aorgan Kaufmann, f992b.
Horty, J.F. Legal research using electronic techniques. In: Literal!we of the law - Jacobs, P.S., ed. Text-based intelligent :.Jstems: current research and practice in infr-
techniques ofaccess, p. 56-68. South Hackensack, NJ, F.B. Rothman & Co., 1962. mation extraction and retrieval. Hillsdale, NJ, Lawrence Erlbaum, 1992c.
Hourihane, C.lt begins with the cataloger: subject access to images and the cataloguer's Jacobs, P.S.; Rau, L. F. lnnovations in text intcrprctation. In: Natul'a/ language processing;
perspective. In: Jntroduction to art image access; ed. by M. Baca, p. 40-66. Los ed. by. F.C.N. Pereira and B.J. Grosz, p. 143-191. Cambridge, MA, lvi!T Press, 1994.
Angeles, Getty Research lnstitute, 2002. Jacobs, P.S.; Rau, L. F. SClSOR: extracting intrmation from online news. Conummications
Hovy, E. Using an ontology to simplify data access. Communications ofthe ACM, 46( I), q(the AC.\1, 33( 11 ), 1990. 88-97.
2003. 47-49. Jacoby, J.; Slamecka, V. l11dexer consistency under minimal contlitions. Bethesda, MO,
1-!uang. T. et ai. l'vtu!timedia Analysis and Retrieval System (MARS) projet. In: Digital Documentation Inc., 1962. RADCTDR-62-426.
image access & retrieval; ed. by P.B. Heidorn and B. Sandore, p. l00-117. Urbana- Jacs, P. Document-summarization software. /nformation Today, 19(2), 2002,22-23.
Champaign, University of Il!inois, Graduate School of Library and Infonnation Jagadish. H. V. lndexing for retrievai by similarity. In: Multimedia data base systems; ed.
Se iene..:, 1997. by V.S. Subrahrnanian and S. Jajodia, p. 165-184. Berlin, Springer-Verlag, 1996.
-.;r'
~~,!!!,'I'
d .,
;!li)
I
' 416 INDEXAO E RESUMOS: TEORIA E PRTICA REFERENCIAS 417

Jahoda, G; Stursa, M.L. Acomparison ofa kewyord from title index with a single access Keen, E.M.; Digger, J.A. Repor! ofan information science index language test. Aberys-
point per document a\phabetic subject index. American Documentation, 20, 1969, twyth, College o f Librarianship \Vales, 1972. 2 volumes.
377-380. Kehl, W.B. et ai. An information retrievallanguage for legal studies. Communications of
Jain, R. Visual information retrieval in digital libruries. In: Digital image access & the ACII, 4, 196!, 380-389.
retrieval; ed. by P.B. Heidorn ald B. Sandore, p. 6885. Urbana-Champaign, Keister, L.H. Use r types and queries: impact on image access systems. In: Chaltenges in
University o f lllinois, Graduate School ofLibrary and Infonnation Science, 1997. indexing electronic text and images; ed. by R. Fidel et ai., p. 7-22. Medford, NJ,
Janes, J.W. Relevance judgments and the incrementai presentation of documeot Learned Information, 1994.
representations./nfarmation Processing & Management, 27, 1991, 629-646. Kellman, S.G, ed. Maste1plots I/: American fiction series. 6 volumes. Pasadena, CA,
Jansen, B.J.; Pooch, U. A review of\Veb searching studies anda framework for future Salem Prcss, 2000.
research. Journal of the American Society for lnformation Science and Teclmology, Kent, A et ai. Relevance predictability in information retrieval systems. Methods of
52, 200 I, 235-246. lnformation in Medicine, 6, 1967, 45-51.
Johnson, F.C. et ai. The application of linguistic processing to automatic abstract Kerpedjiev, S.M. Automatic generation of multi moda! weather reports from datasets.
generation. In: Readings in information retrieval; ed. by K. Sparck Jones and P. ln:Proceedings of the Third C01![erence on Applied Natural Language Processing,
Willett, p. 538-551. San Francisco, CA, Morgan Kaufmann, 1997. p. 48-55. San Francisco, Morgan Kaufmann, 1992.
Jonak, Z. Problemy informacni analyzy pri Popisu Beletristckeho Dila. {Problemas de Kessler, t\.Uvl. Bibliographic coupling between scientit1c papers. America11 Document
anlise da informao na descrio de uma obra de fico.] Kniznice a Vedecke ation, 14, 1963, 10-25.
Informacie, 10(1), 1978, 16-21. Kessler, M.M. Bibliogmphic coupling extended in time. Cambridge, 1\.-IA, Massachusetts,
Jones, E.K.; Roydhouse, A. lntelligent retrieval o f archived meteoro!ogical data. IEEE Institute ofTechnology, 1962.
Expert, 10(6), 1995, 50-57. Kessler, M.M. Comparison o f results o f bibliographic coupling and analytic subject
Jones, K.P. Towards a themy ofindexing. Journal of Documentation, 32, 1976, 118-125. indexing. American Documentation, 16, 1965,223-233.
Jones, K.P.; Bell, C.L.tvl. Artificial intelligence progrum for indexing automatically (AIPIA). Kim, \V.; \Vi!bur, W.J. Corpus-based statistical screening for content-bearing terms.
In: Online Information92, p. 187-196. Medford, NJ, Learned lnformaton, 1992. Journal ofthe American Society for Information Science and Teclmology, 52, 200 I,
Jones, S.; Paynter, G \V. Automatic extraction o f document keyphrases for use in digital 247-259.
libraries. Journal ofthe American Society for lnformation Science and Teclmology, King, R. Acomparison ofthe readability ofabstracts with their sm1rce documents. Jouma!
53, 2002, 653-677. of the American Society for biformation Science, 27, 1976, 118-121.
Jonker, F. Indexing theory, indexing methods and search devices. New York, NY, Scar- Klement, S. Open-system versus closed-system indexing. The Indexer, 23, 2002, 23-31.
crow Press, 1964. Klingbiel, P.H. The future ofindexing and retrievalvocabularies. Alexandria, VA, Defense
Jrgensen, C. Indexing images: testing an image description templatc. Proceedings of Documentation Center, 1970. AD 716 200.
the American Society for Information Science, 33, 1996, 209-213. Klingbiel, P.H. Machine-aided indexing. Technical progress report for period July 1969-
Jrgensen, C. lntroduction and overview. Joumal oftl!e American Society for lnformation June 1970. Alexandria, VA, Defense Documentation Center, 1971. AD 721 875.
Science and Teclmology, 52, 2001, 906-91 O. Klingbiel, P.H. & Rinker, C.C. Evaluation of machine-aided indexing. Information
Kaiser, J.O. Systematic indexing. London, Pitman, 1911. Processing and Management, 12, 1976, 35!-366.
Karasev, S.A. Abstracting scientific and technical literature: elements of a theory. Knapp, S.D. BRSffERM: database for searchers. Online '83 Conference Proceedings,
Automatic Documental on and Mathematical Linguistics, 12(4), 1978, 1-7. [Traduw p. 162-166. Weston, CT, Onlinc Inc., 1983.
o em ingls de Nauclmo-Teklmicheskaia Informatsiia, Seriia 2, 12(1 0), 1978, p. 1-4.] Knapp, S.D. The contemporary thesaurus ofsocial science terms and synonyms: a guide
Kassirer, J.P. A report card on computer-assisted diagnosis- the grade: C. New England (or naturallanguage computer searching. Phoenix, AZ, Oryx Press, 1993.
Journal ofMedicine, 330, 1994, 1824-1825. Knapp, S.D. Free-text searching o f online databases. Reference Librarian, 5/6, 1982,
Katzer, J. et a\. A study o f the overlap among document representations. lnformation 143-153.
Technology: Research and Devlopment, I, 1982,261-274. Knight, K. Mining online text. Communications ofthe ACM, 42(11 ), 1999, 58-61.
Keen, E.M. On the generation and searching ofentries in printed subject indexes. Journal Knorz, G Automafisches lndexieren ais Erke1men abstrakter Objekte. Ttibingen, Ma-.:
o/ Documentatioll, 33, 1977a, 1545. . Niemeyer Verlag, 1983.
Keen, E.M. On the processing ofprinted subject index entries during searchmg. Journal Kolcz, A. Summarization as feature selection for text categorization. In: Proceedings of
of Documentation, 33, 1977b, 266-276. ' the Tentlllnternational Conference on biformation and Knowledge Alanagement, p.
Keen, E.lvl. Query term weighting schemes for efiective ranked output retrieva\. Online 365-370. New York, Association tbr Computing Machinery, 200 I.
biformation 91, p. 135-142. Medford, NJ, Learned lnformation, 1991. Korotkin, A. L.; O li ver, L. H. The ej}ct of subject matterfamiliarity and the use of an
Keen, E.M. A retrieval comparison o f six published indexes in the t1eld o f library and indexingaid upon inter-indexer consistency. Bethesda, MD, General Electric Compuny,
information sciehce. Unesco Bulletinfor Libraries, 30, 1976,26-36. lntbrmation Systems Operation, 1964 .

...
418 INDEXAO E RESUMOS: TEORIA E PRTICA REFERNCIAS 419
Korycinski, C.; Newell, A. F. NaturaHanguage processing and automatic indexing. The Lancastcr, F. W.; Warner, A.J. lntelligent teclmologies in !ibrary and information service
!ndexer, 11, 1990,21-29. applicalions. Medford, NJ, Information Today, 2001.
Krause, M.G Intellectual problems ofndexng picture collections. Audiovisa! Librarian, Lancaster, F. \V. et ai. Evaluating the effectiveness ofan on-line, naturaiianguage retrieval
14, 1988, 73-81. system. lnformation Storage and Retrieval, 8, 1972, 223-245.
Krieger, T. fnstructor influences versus text injluences in !he se{ection of sub!ect Lancaster, F. \V. et ai. Evaluation ofinteractive knowledge-based systems: overview and
descriptors by undergraduate students. Doctoral thes1s. Urbana-Champmgn, design for empirical testing. Joumal ofthe American Society for lnformation Science,
University of Illinois, Graduate School o f Library Science, 1981. . . 47, 1996, 57-69.
Kubala, F. et ai. Integrated technologies for indexing spoken language. Commwucatwns Lancaster, F. \V. et ai. Identifying barriers to effective subject access in library catalogs.
ofthe AC,\1, 43(2), 2000, 48-56. . Library Resources & Teclmical Services, 35, 1991, 377-391.
Kuhlen, R. Some similarities and ditTerences between intellectual and machme text Lancaster, F. \V. et ai. Modular content analyses. Final report to the National Science
understanding for the purpose of abstracting. In: Representation and exchange of Foundation. Washington, DC, Herner and Company, 1965.
knowledge as a basis ofinformation processes; ed. by H.J. Dietschmann, P 87-109. Larson, R. R. Experiments in automatic Library of Congress classification. Jouma! o[
Amsterdam, North-Holland, 1984. the American Society for lnformation Science, 43, 1992, 130-148.
Kupiec, J.M. Murax: finding and organizing answers from tcxt search. In: Natural Lawrence, S.; Giles, C.L. Accessibility o f information on the Web. Nature, 400, 1999,
fanguage fn[ormation retrieval; ed. by T.S. Strzalkowski, p. 311-332. Boston, Kluwer, 107-109.
1999. Lawrence, S. et ai. Digitallibraries and autonomous citation indexing. Computer, 32(6),
Kudta, T.; Kato, T. Learning ofpersonal visual impression for image database sy~tems. 1999, 67-71.
In: Proceedings ofthe Second !nternational Conference on Doc:onent Ana!ysrs and Lawson, M. et ai. Automatic extracion o f citations from the text of English-language
Recognition, p. 547-552. Los AJamitos, CA, IEEE Computer Soctety Press, !993: patents- an example oftemplate mining. Jouma! o[lnformation Science, 22, 1996,
Kwok, K.L. A probabilistic theory ofindexing and similarily meast~re.based. on ctted 423-436.
and citing documents. Journal ofthe American Society for Informatton Sc/e!lce, 36, Layne, S.S. Some issues in lhe indexing ofimages. Journal ofthe American Society for
1985a, 342-351. . , lnformation Science, 45, 1994, 583-588.
Kwok, K.L. A probabilistic theory o f indexing using author-provided relevm~ce !ntor- Layne, S.S. Subject acccss to art images. In: Introduction to art image access; ed. by M.
mation. Proceedings oftlEe.AmericartSocietyfor bl[ormation Science, 22, 198)b, )9-63 Baca, p. 1-19. Los Angeles, Getty Research fnstitute, 2002.
Kwon, O- \V.; Lee, J.-H. Text categorization based on k-nearest neighbor appro~ch for Leacock, C. et ai. Corpus-based statistical sense resolution. In: Human language
Web si te c!assification. /nformation Processing & Management, 39, 2003, 2)44. teclmology: proceedings o[ a workshop held at Plainsboro, New Jersey, A.farch 21-
LaBorie, T. et ai. Library and infonnation science abstracting and indexing serv!ccs: cov:- 24, 1993, p. 260-263. San Francisco, Morgan Kaufmann, 1993.
?)
rage, overlap, and context. Libra1yand fn[ormati01~ Sc1:ence Rese_arc/J, 7, 198), 183-1 Lehrnam,A Text structuration leading to an automatic summary system: RAFI.Information
Lam-Adesina, A.M.; Jones, GJ.F. Applying summanzaHon techmques for term select10n Processing & Management, 35, 1999, 181-191.
in relevance feedback. Proceedings o[ the 24th Aw111al Internalional ACM SIGJR Leighton, H. V.; Srivastava, J. Fifst 20 precision runong World \Vide Web Search Services
Conference 011 Research and Development in !nformation Retrieva/, p. 19. New (SearchEngines). Journal oftheAmerican Societyfor Jnformation Science, 50, 1999,
York, Association for Computing Machinery, 200 I. . 870-881.
Lancaster, F.W. Evaluation ofthe ,\/UJURS dema11d search ser-vice. Bethesda, MD, National Leininger, K. Interindexer consistency in PS)'CINFO. Journa! of Librarianship and
Library o f ivtedicine, t 968. . biformation Science, 32( I), 2000, 4-8.
Lancaster, F. \V. Jnformation retrieval systems: characterislics, testing and evaluattoll. Leonard, L.E. lnter-indexer consistency mui retrieval ejfectiveness: measurement o[
New York, Wiley, !968b. . . . re/ationships. Doctoral thesis. Urbana-Champaign, University oflllinois, Graduate
Lancaster, F. W. Some observations on thc performance o f EJC role mdtcators 111 a School ofLibrary Science, 1975.
mechanized retrieval system. Special Libraries, 55, 1964,696-701. . Levinson, S.E. Speech recognition technology: a critique. Proceedings ofthe National
Lancaster, F. \V. Vocabulmy contra! for information retrieva!. 2nd ed. Ar!mgton, VA, Academy ofSciences, 92, 1995, 9953-9955.
lnformation Resomces Press, 1986. , . Li, Y. et ai. Semantic image retrieval through human subject segmentation and charac-
Lancaster, F. \V. Vocabu!mycontro/for information retrieval. Washington, DC, Intom1at1on terization. In: Storage and retrieval for image and video databases V; ed. by I.K.
Resources Press, 1972. Sethi and R.C. Jain, p. 340-351. Bellingham, WA, International Society for Optical
Lancaster, F. \V.; Sandore, B. Techno!ogy mui mmwgement i11 !ibrory and _in.(ormation Engineering, 1997.
services. Urbana-Champaign, University ofHiinois, Graduate School ot Ltbrary and Liddy, E.D. How a search engine works. In: Web ofdeception: misiliformotion onthe
lnformation Science, 199.7. lntemet; ed. by AP. Mintz, p. 197-208. Medford, NJ, Information Today, 2002.
Lancaster, F. \V.; Warner, A.J. /n[ormatio11 retrieva! today. Arlington, VA, lnfbrmation Liddy, E.D.; Jrgensen, C. Modeling information seeking behaviors in index use.
Resources Press, 1983. Proceedings ofthe American Society for lnformation Science, 30, 1993a, 185-190.
l
!
420 INDEXAO E RESUMOS: TEORIA E PRTICA REFERNCIAS 421
Liddy, E.D.; Jrgensen, C. Realily check! Book index charactcristics that facilitate MacEwan, A. \Vhere do you keep the dystopias? Library Associalion Record, 99, 1997,
information access. In: /ndexing, providing access to informalion; ed. by N.C. Mul- 40-41.
vany, p. 125-138. Port Aransas, TX, American Society o f Indexers, l993b. Magi\1, F.N., ed. Masterplots: 2,01 Oplot stories & essay reviews fi"om the world's j/ne
Liddy, E.D. et ai. Index qualitystudy, part li: publishers' survey and qualitative assessment. literature. Revised edition. Englewood ClitTs, NJ, Salem Press, 1976.
In: Indexing tradition and i11novation, p. 53-79. American Society oflndexers, 1990. Magill, F.N., ed. Masterplots /1: Americanfiction series. Volume L Englewood CliftS,
Lieberman, H. et ai. Aria: an agent for annotating and retrieving images. Computer, NJ, Salem Press, 1986.
34(7), 2001, 57-62. Mai, J.E. Deconstructing the indexing process. Advances in Librarianship, 23, 2000,
Lienhart, R. et ai. Video abstracting. Communications ofthe ACM, 40( 12), 1997, 55-62. 269-298.
Lippincott, A. Issues in content-based music infommtion retrieval. Journaf oflnformation Ma i, J.-E. Senliotics and indexing: an analysis ofthe subject indexing process. Joumal
Science, 28,2002, 137142. of Documentation, 57, 200 I, 591-622.
Liu, C.-C.; Tsai, P.-J. Content-based retrieval off\tP3 music objects. In: Proceedings of Malone, L. C. et ai. Modeling the performance of an automated keywording system.
the Tenth lnternational Conference onlnformation and Knowledge Management, p. lnformation Processing & Management, 27, 1991, 145-151.
506-511. New York, Association for Computing rvtachinery, 2001. tvfani, L Automatic summarization. Philadelphia, John Benjamins Publishing, 200 I a.
Liu, \V. et ai. A media agent for automatically building a personalized semantic index of Mnni, L Recent deve1opments in text summarization. In: Proceedings of the Tenth
\Veb media objects. Journal of the American Society for lnformation Science and lnternational Conference onlnformation and Know!edge Management, p. 529531.
Teclmology, 52, 2001, 853-855. New York, Association for Computing Macbinery, 200 I b.
Liu, Y.; Li, F. Semantic extraction and semantics-based annotation and retrieval for Mani, L et ai. TIPSTER SUMA!AC text summarization evaluation. Final repor/. MTR
video databases. Multimedia Tools and Applications, 17, 2002, 5-20. 98\VOOOO 138. McLean, VA, MlTRE Corporation, 1998.
Loukopoulos, L. Indexing problems and some oftheir solutions. American Document- Mani, L et ai. Towards content-based browsing ofbroadcast news video. In: lntelligent
ation, 17, 1966, 1725. 1mtltimedia information retrieval; ed. by M.T. tvlaybury, p. 241-258. Menlo Park,
Lu, C. et a\. TheSys - a comprehensive thesaurus system for intelligent document CA, AAAI Press, 1997.
;i
analysis and text retrieval. In: Proceedings of Third International Conference on Marchionini, G et ai. Extending retrieval strategies to networked environments: old
Document Analysis and Recognition. Volume 2, p. 11691173. Los Alamitos, CA, ways, new ways, and a criticai look at \VAIS. Joumal of the American Society for
IEEE Compu ter Societ)' Press, 1995. lnformation Science, 45, 1994, 561-564.
Lu, G. rndexing and retrieval o f audio: a survey. Multimedia tools and applications, 15, Marcus, R. S. et ai. The user interface for the Intrex retrieval system. In: lnteractive
2001,269-290. bibliographic searcfl. the userlcomputer inteJface; ed. by D.E. Walker, p. 159-20 I.
Luhn, H.P. The automatic creation of literature abstracts. IBM Joumal of Research mui Montva1e, NJ, AFIPS Press, I971.
Development, 2, 1958, 159165. Markey, K. et ai. An analysis o f controlled vocabulary and free-text search statements in
Luhn, H.P. Keyword-in-context index for teclmica! literature (KIV!C inde.\). Yorktown online searches. On/ine Review, 4, 1980,225-236.
Heights,NY, IBM Advanced Systems Development Division, 1959. Markey, K. lnterindexer consistency tests: a literature review and repot1 of a test of
Luhn, H.P. A stntistical npproach to mechanized encoding and searching of literary consistency in indexing visual materiais. Librmy and lnformation Science Research,
information. !HM Journal of Research and Development, I, 1957, 309-317. 6, 1984, 155-177.
Lunin, L. The development of a machinesearchable index-abstract and its application Ivlarkkula, tvi.; Sonnunen, E. End-user searching challenges indexing practices in the
to biomedica1 literature. In: Three Drexel information science research studies; ed. digitalnewspaper photo arc.hive. lnfonnation Retrievaf, 1, 2000, 259285.
by B. Flood, p. 47134. Philadelphia, Drexet Press, 1967. Maron, M.E. Depth ofindexing. Journal ofthe American Society for lnformation Science,
Lynch, C.A. When documents deceive: trust and provenance as new factors for 30, 1979, 224-228.
information retrieval in a tangled web. Journal ofthe American Society for lnformation lvlaron, M.E. On indexing, retrieval and the meaning ofabout. Journaf ofthe Americm1
Science and Teclmology, 52, 200 I, 1217. Society for Jnformation Science, 28, 1977, 38-43.
Lynch, M.F.; Petrie, J.H. Aprogram suite for the production ofarticulated subject indexes. Maron, t\f.E. Probabilistic design principies for conventional and full-text retrieval
ComputerJoumal, 16, 1973,46-51. systems. lnformation Processing and Management, 24, 1988, 249-250.
Ma, \V. Y.; Manjunath, B.S. A texture thesaurus for browsing large aerial photographs. Maron, !VI.E.; Kuhns, J.C. On rdevance, probabilistic indexing and information retrieval.
Joumal ofthe American Society for lnformation Science, 49, 1998, 633-648. Journal of the Associationfor Complt/ing Macliinely, 7, 1960, 216-244.
Maarek, Y.S. Automatically constructing simple help systems from natural language Maron, M.E. et ai. Probabilistic inde.xing- a statistical techniquefor document identifi-
documentation. In: Text-based intelligent systems; ed. by P.S. Jacobs, p. 243-256. calion and retrieval. Los Angeles, Thompson Ramo Wooldridge, 1959.
Hillsdale, NJ, Lawrence Erlbaum, 1992. Marques, 0.; Furht, B. MUSE: a content-based image search and retrieval system using
MacDougall, S. Signposts on the information superhighway: indexes and access. Journal relevance feedback. Multimedia Tools and Applications, I?, 2002,21-50.
oflnternet Catafoging, 2(3/4), 2000, 6179.
422 INDEXAO E RESUMOS: TEORIA E PRTICA REFERNCIAS 423
Marshall, C. C. The future of annotation in a digital (paper) world. In: Successf1S & Mehrotra, R.; Gary, J.E. Similar~shape retrieval in shape data management. Computer,
(ailures of digital libraries; ed. by S. Harum and M. Twidale, p. 97-117. Urbana- 28(9), 1995, 57-62.
Champaign, University of lllinois, Graduate School of Library and lnformation Mehtre, B.M. et ai. Content-based image retrievalusingacomposite color-shape approach.
Science, 2000. /nformation Processing & Management, 34, 1998, 109-120.
Martin, W.A. Toward an integral multi-file on-line bibliographic database. Journal of Mehtre, B.M. et ai. Shape measures fOr content based image retrieval: a comparison.
lnformation Science, 2, I 980, 2.41-253. . /nformation Processing & Management, 33, 1997, 319-337.
Martinez, C. et ai. An expert system for machine-aided indexing. Joumal ofChenucal tvtelucci, M. An evaluation of automatically constructed hypet1exts for information
Information and Computer Science, 27, 1987, 158-162. retrieval. !nformation Retrieva/, 1, 1999,91-114.
Martyn, J. Tests on abstractsjournals: coverage, overlap, and indexing. Journaf ofDocu- Meng, \V. et ai. Concept hierarchy-based text database categorization. Knowfedge and
mentation, 23, 1967,45-70. lnformation Systems, 4, 2002, 132-150.
Martyn, J.; Slater, M. Tests on abstractsjournals. Journal ofDocwnentation, 20, 1964, Methods for examining documents, determining their subjects, and selecting indexing
212-235. terms. Geneva_. Intemational Organization tr Standardization, 1985. ISO 59631985 (E).
Massey-Burzio, V. The MultiPiatter experience at Brandeis University. CD-ROM Milstead, J.L. Subject access systems: altenwtives in design. Orlando, Academic Press,
Professiona/, 3(3), 1990, 22-26. 1984.
Mathis, B.A. Teclmiques for the eva{uation and improvement of computer-produced Milstead, J.L.; Feldman, S. i\,fetadata: cataloging by any other name ... Online, 26(1),
abstracts. Columbus, Ohio State University, Computer and Information Science 1999, 66-74.
Research Center, 1972. OSU-CISRCTR-72-15. PB 214 675. ~vlintz, A.P., ed. Web of deception: misinformation on the Internet. Medford, NJ,
Mathis, B.A. et ai. lmprovement ofautomatic abstracts by the use ofstructural analysis. lnformation Today, 2002.
Journal o/lhe American Society for Information Science, 24, 1973, lO 1-109. Missingham, R. Indexing the fnternet: pinningjelly to the wall? LASIE, 27(3), 1996,
1\'faybury, tvLT. Generating summaries from event data. Information Processing & 32-42.
Management, 31, 1995, 735-75l. Mitchell, S.; Mooney, M. INFOMINE. In: The amazing Internet chailenge; ed. by A.T.
McCain, K. \V. et ai. Comparing retrieval performance in on!ine data bases. Information \Vells et ai., p. 97-120. Chicago, American Library Association, 1999.
Processing& Management, 23, 1987,539-553. l\Iizzaro, S. Relevance: the whole history. In: Historical studies in information science;
McCray, AT. et ai. Evaluating UMLS strings for naturallaoguage processing. Proceedings ed. by T.B. Hahn and M. Buckland, p. 221-244. Medford, NJ, Information Today, 1998.
ofthe 2001 Ammal Symposium ofthe American Medicallnformatics Association, p. Moens, M.~F. Automatic indexing and abstracting of document texts. Boston, Kluwer,
448-452. Philadelphia, Hanley {X Be!fus, 200 I. 2000.
McDermott, J. Another analysis offull-text legal document retrieval. Law Librmylournal, Moens, M.-F.; Dumortier, 1. Text categorization: the assignment ofsubject descriptors
78, 1986, 339-343. to magazine articles. /nformation Processing & Management, 36, 2000a, 841-861.
McDonald, D.D. Robust partial-parsing through incrementai, multi-algorithm processing. Moens, M.-F.; Dumortier, J. Use o f a text grammar for generating highlight abstracts o f
In: Text-based intelligent systems; ed. by P.S. Jacobs, p. 83-99. Hillsdale, NJ, Lawrence magazine articles. Journal o/ Documentation, 56, 2000b, 520-539.
Erlbaum, 1992. Moens, M.~F. et ai. Infonnation extraction from legal texts: the potential o f discourse
McDonald, S. et a\. Evaluatng a content based image retrieval system. Proceedings of ana!ysis. lnternalional Journa/ of Human-Computer Studies, 51, 1999, 1155-1171.
the 24th Ammal lnternationa!.-ICM SIGIR Conference on Research and Development Moghaddam, B. et ai. Regions-of.. interest and spatial !ayout for content-based image
in lnformation Retrieval, p. 232-240. New York, Association for Computing retrieval. Mttltimedia Tools and App/ications, 14, 2001, 201-21 O.
tviachinery, 2001. Montague, B.A. Testing, comparison and evaluation o f recai!, relevance and cost o f
McKeown, K. et ai. Generating concise natural language summaries. Information coordinate indexing with links and roles. American Documentation 16, 1965, 201-208.
Processing & Management, 31, 1995,703-733. Montgomery, R. R. An indexing coverage study of toxicologicalliterature. Journal of
McNab, R.J. et ai. Tune retrieval in the multimedia library. Aiultimedia Tools and Chemical Documentation, 13, 1973, 4 t-44.
Applications, 10,2000, ll3-132. Moreno, P.J. et ai. From muimedia retrieval to knowledge management. Compll!er,
Medeiros, N. et ai. Utilizing CORC to develop and maintain access to biomedical Web 35(4), 2002, 58-59, 62-66.
' sites. In: couc: new too!s and possibilities for cooperative electronic resource Mostafa, 1. Digital image representation and access. Amwal Review of Jnformation Science
description; ed. by K. Calhoun and J.J. Riemer, p. 111-121. Binghampton, NY, Haworth and Teclmology, 29, 1994, 91~135.
Press, 2001. Mostafa, J.; Dillon, A. Design and evaluation of a user interface supporting multiple
Mehrotra, R. Contentbased image modeling and retrieval. In: Digital image access & image query models. Proceedings ofthe American Society for lnformation Science,
retrieval; ed. by P.B. Heidorn and B. Sandore, p. 57-67. Urbana-Champaign, 33, 1996, 52-57.
University oflllinois, Graduate.School ofLibrary and Information Science, 1997. Mowshowitz, A.; Kawaguchi, A. Bias on the \Veb. Communications ofthe ACM, 45(9),
2002, 56-60.
424 . INDEXAO E RESUMOS: TEORIA E PRTICA REFERNCIAS 425
Muddamalle, M.R. Natural language versus controlled vocabulary in information 0\derr, S. 0/derr Sfiction subject headings: a supp!emenl andguide to the LC Thesaurus.
retrieva!: a case study in soil mechanics. Journa! ofthe American Society for lnfor- Chicago, American Library Association, 1991.
mation Science, 49, 1998,881-887. Oi iver, D.E.; Altman, R.B. Extraction of SNOMED concepts from medicai record texts.
Mullison, \V. R. et ai. Comparing indexing ef1ciency, effectiveness, and consistency with In: Efghteenth Ammal Symposium on Compu ter Applications in J\Iedical Care, p.
or without the use o f roles. Proceedings of the American Society fOr lnformation 179-183. Philadelphia, Hanley & Belfus, 1994.
Science, 6, 1969,301-311. O li ver, L. H. et ai. An invesligalion ofthe basic processes involved in the manual indexing
Mulvany, N.C. lndexlng books. Chicago, University ofChicago Press, 1994. ofscientific documents. Bethesda, MD, General Electric Co., Informaton Systems
Munakata, T., ed. Knowledge discove1y. Communications oft/Je ACAI, 42{11), 1999,26-67. Operaton, 1966. PB 169 415.
Myers, J.iv1. Computers and the searching oflaw texts in England and North America: a 0\son, H.A.; Boll, J.J. Subject analysis in onfine catafogs. 2nd ed. Eng\ewood, co,
review ofthe state ofthe art. Jou/'1/a/ ofDocumentalion, 29, 1973, 212~228. Libraries Unlimited, 200 I.
Nakamura, Y. et ai. Diagram understanding utilizing naturallanguage text. In: Proceedings O'Neil\, E.T.;Aiuri, R. Library ofCongress subject heading patterns in OCLC monographic
ofthe Second lnternationa{ Conference on Document Analysis and Recognition, p. records. Librmy Resowces & Technical Services, 25, 1981,63-80.
614-618. Los Alamitos, CA, IEEE Computer Society Press, 1993. O'Neill, E.T. et ai. Web characterization project: an analysis ofmetadata usage on thc
Nam, J.; Tewfik, A. H. Event-driven video extraction and visualizaton. Multimedia Tools Web. Joumaf ofLibrmy Adninistration, 34, 2001, 359~374. Este artigo foi original-
and Applications, 16, 2002, 55-77. mente publicado na Awmal Review ofOCLC Research 1998, e o texto integral encon-
Nasukawa, T.; Nagano, T. Text analysis and knowledge mining system. IBM Systems tra-se disponlve\ em linha em <http://www.oclc.org/research/publications/arr/>
Journal, 40,2001, 967-984. Onyshkevych, B. Jssues and methodology for template design for information extraction.
Nielsen, H.J. The nature o f tiction -and its signiticance for clq.ssification and indexing. In: Proceedings ofthe Human Language Teclmology ll'orkshop, March 8-11, /994,
lnformationServices& Use, 17,1997,171-181. p. 171-176. San Francisco, Morgan Kaufmann, 1994.
Nomoto, T.; Matsumoto, Y. A new approach to unsupervised text summarization. In: Oppenheim, C. The patents coverage o f Chemicaf Abstracts. lnformation Scientist, 8,
Proceedings of lhe 24th Ammallnternational ACM S/Ci!R Conftrence on Research 1974, 133-138.
and Development in Jnformation Retrieva/, p. 26-34. New York, Association for Oppenheim, C. et al. The evaluation ofwww senrch engines. Journaf ofDocumentation,
Computing Machinery, 200 I. 56, 2000, 190-211.
Oakman, R. L. The evolution ofintelligent writing assistants: trends and future prospects. Orbach, B. So that others may see: tools for cataloging stil! images. Cataloging &
In: Proceedings (of the) Sixth lntemationaf Conference on Tools with Artificial C/assification Quarter/y, 11(3/4), 1990, 163-191.
lnte/ligence, p. 233-234. Los A!amitos, CA, IEEE Compu ter Society Press, 1994. Ornager, S. The image database: a need for innovative indexing and retrieval. Advances
O'Connor, B.C. Explorations in indexing and abstracting: pointing, virtue, and polVer. in Knowledge Organization, 4, 1994, 208-216.
Englewood, co, Libraries Unlimited, 1996. Ornager, S.lmage retrieval: theoretical analysis and emprica\ user studies on accessing
O'Connor, B.C. et ai. User reactions as access mechanism: an exploration based on information in images. Proceedings ofthe American Societyfor lnformation Science,
captions for imuges. Joumaf of the American Society for lnformation Science, 50, 34, 1997, 202-211.
1999, 681-697. Oswald, V.A., Jr. et ai. Automatic indexing and abstracting ofthe contents ofdocuments.
O'Connor, J. Automatic subject recognition in scientific papers: an emprica! study. Los Angeles, Planning Research Corporation, I 959. RADCTR-59-208.
Journaf ofthe Associationfor Computiug Machine1y, 12, 1965, 490-515. Over, P. TheTREC interactive track: an annotated bibliography. lnfonnation Processing
O'Connor, J.G; Meadows, A.J. Physics Abstracts as a source ofabstracts in astronomy. & Management, 37,2001, :369-381.
Joumal o[Documentation, 2, 1968, 107-112. Owen, P. Structured for success: the continuing role of qua\ity indexing in intelligent
Odlyzko, A.M. Abstracting and reviewing in the digital era. NFA!S Newsletter, 41 (6), information retrieval systems. In: Online lnformation 94, p. 227-23 I. Medford, NJ,
1999, 85, 90-92. Learned lnformation, 1994.
Odlyzko, AM. Tragic loss or good riddance? The impending demise oftraditional scho- Ozaki, K. et ai. Semantic retrieval on art museum databnse system. In: (Proceedings o f
larly journals. lnternaliona! Joumal ofHuman-ComputerStudies, 42, 1995, 71-122. the) 1996/h'l:'t;' Jntemational Conference on Systems, Man and c_.,bemetics, p. 2108-
Ogle, V. E.; Stonebraker, M. Chabot: retrieval from a relational database of images. 2112. Piscataway, NJ, lnstitute o f Electrical and Electronics Engineers, 1996.
Computer, 28(9), 1995,40-48. Paice, C.D. The automatic generation of literature abstracts: an approach based on the
Oh, S.Q Document representation and retrieval using emprica! tcts. Journaf of the identification o f self-indicating phrases. In: lnformation retrieval research; ed. by
American Society for lnformation Science, 49, 1998, 920-931. R.N. Oddy et ai., p. 172~ 191. London, Butterworths, 1981.
Ojala, M. Web content extraction. I:'Content, 25(4), 2002, 39-41. Paice, C.D.; Jones, P.A. The identification o f important concepts in highly structured
0\afsen, T.; Vokac, L. Authors' reply to R. Moss. Joumal ofthe American Society for technica\ papers. In: S!G\R-93: Proceedings of the Sixteenth Annua/ lntemational
lnformation Science, 34, 1983,294. A( 'M SIGIR Conference on Research and Devefopment in lnformation Retrieva/, p.
Olason, S. C. Let's get usable: usability studies for indexes. The lndexer, 22, 2000, 91-95. 69-78. New York, Association for Computing Machinery, 1993.
426 INDEXAAO E RESUMOS: TEORIA E PRTICA REFERENC!AS 427

Pao, !Vl.L. Term and citaton searching: a preliminmy report. Proceedings ofthe American Pinto, M. Documentary abstracting: toward a methodological model. Journal of the
Society for lnformation Science, 25, 1988, 177-180. American Society for lnformation Science, 46, 1995, 225-234.
Pao, M.L.; Worthen, D.B. Retrieval eftctiveness by semantic and citation searching. Pinto, M. lnterdisciplinary approaches to the concept and practice of written text
Journal of the American Society for biformation Science, 40, 1989, 226-235. documentruy content analysis (\VfDCA). Joumal ofDocumentation, 50, 1994, 111-133.
Patel, N.V.; Sethi, I.K. Audio characterization for vdeo indexing. In: Storage and retrieval Pinto, M. Elresumen documental. 2.ed. Madrid, Fundacin Germn Snchez Ruiprez,
for still image andvideo databases IV; ed. by I.K. Sethi and R. C. Jain, p. 373-384. 2001.
Bellingham, WA, International ~ociety for Optical Engineering, 1996. Pinto, M.; Glvez, C. Paradigms for abstracting systcms. Journal oflnformation Science,
Patel, N. V.; Sethi, I.K. Video classification using speaker dentification. In: Storage and 25, 1999,365-380.
retrieval for image and video data bases v; ed. by I.K. Sethi and R. C. Jain, p. 218- Pinto, M.; Lancaster, F. \V. Abstracts and abstructing in knowledge discovcry. Library
225. Bellingham, WA, International Society for Optical Engineering, 1997. Trends, 48, 1999,234-248.
Patrick, T.B. et ai. Text indexingofimages based on graphical image content. Proceedings Piternick,A. Searching vocabularies: adeve!oping category ofonline search tools. Online
ofthe American Society forlnformation Science, 36, 1999, 675-680. Review, 8, l 984, 441-449.
Payne, D. et ai. A textual abstracting teclmique: apreliminmydevelopment and evaluation Pitkin, R.M.; Branagan, M.A Can thc accuracy ofabstracts be improved by providing
support. Pittsburgh, PA, American Institutes for Research, 1962. 2 volumes. AD specific instructions? Journal ofthe American Medica{ Association (!AMA), 280, 1998,
285081-285082. 267-269.
Pazienza, M.T., ed. lnformation extraction. New York, Springer-Verlag, 1999. Pitkin, R.M. et ai. Accuracy o f data in abstracts ofpublished research articles. Journal of
Pejtersen, A.M. Design of a computer-aided user-system dialogue based on an analysis the American Medica/ Association (lAMA), 281, 1999, 1110-1111.
ofusers' search behaviour. Social Science biformalion Studies, 4, 1984, 167-183. Pitkin, R.M. et ai. Effectiveness ofjoumal intervention to improve abstract quality. Journal
Pejtersen, A.M. A framework for indexing and representation o f information based on ofthe American Medica/ Association (JAMA), 283,2000,481.
work domain analysis: a fiction c!assification example. Advances in Knowledge Place, E. Social Science Information Gateway (SOS!G). In: The amazing Internet challenge;
Organization, 4, 1994, 251-263. ed. by A.T. \Vells et ai., p. 223-244. Chicago, American Library Association, 1999.
Pejtersen, AM. The meaning of'about' in tiction indexing and retrieval. Aslib Proceed- Plaunt, C.; Norgard, B.A. An association-based method for automatic indexing with a
ings, 31, 1979, 251-257. controlled vocabulal)' Joumal ofthe American Society for iliformation Science, 49,
Pejtersen, AM. New model for multimedia interfaces to online public access catalo- 1998, 888-902.
gues. Electronic Library, 1O, 1992, 359-366. Pozzi, C.; Celentano, A Knowledge-based document filing. tEI!E Expert, 8(5), 1993,
Pejtersen, A.M.; Austin, J. Fiction retrieval: experimental design and evaluation of a 34-45.
search system based on users' value criteria. Journaf of Documentation, 39, 1983, Prabha, C. The large retrieval phenomenon. Advances in Library Automation and
230-246; 40, 1984, 25-35. Networking, 4, 1991,55-92.
Pentland, A Machine understanding of human behavior in video. In: Intelligent Preschel, B.M. Funk & IVagna!ls new encyclopedia indexing manual. New York, Funk
multimeda nformation retrieval; ed. by M.T. Maybury, p. 175-188. Menlo Park, CA, & Wagnall, 1981. (Indito.)
AAAI Press, 1997. Preschel, B.M.Indexerconsistency inperception ofconcepts and in choice oftermino/ogy.
Pereira, F.C.N.; Grosz, B.J. Natural !anguage processing. Carnbridge, h1A, M!T Press, 1994. New York, Columbia University, School of Library Service, 1972.
Perez, E. Text enhancement: controlled vocabulaJ)' vs. free text. Special Libraries, 73, Price, D.S. Possible impact ofelectronic publishing on abstracting and indexing. Journal
1982, 183-192. ofthe American Society for biformation Science, 34, 1983, 288.
Perrone, M.P. Machine learning in a multimedia document retrieval framework. IBM Price, R. et ai. Applying relevance feedback to a photo archival system. Joumal of
Systems Joumal, 41, 2002, 494-503. lnformation Science, 18, 1992,203-215.
Perry, J.\V.; Kent, A Tools for machine literature searching. New York, Interscience Proceedings of the Third lnternationaf Conference on Document Analysis and
Publishers Inc., 1958. Recognition. LosAiamitos, CA, IEEE Computer Socicty Press, 1995.2 v.
Petrarca, A.E.; Lay, W.M. The double-KWfC coordinate index: a new approach for Qin, J. Semantic similarities between a keyword database anda controlled vocabulary
preparation ofhigh-quality printed indexes by automatic indexing techniques. Journal database. Joumal ofthe American Society for InformationScience, 51,2000, 166-180.
o[Chemica! Documentation, 9, 1969,256-261. Qin, J.; No110n, M., ed. Knowledge discovery in bibliographic databases. Librmy Trends,
Picard, R. \V. Asociety ofmodels for vdeo and image libraries./HA/ Systems Journa!, 35, 48(1), 1999 (todo o fascculo).
1996,296-312. Ragusa, Uvt.; Turban, E. Integrating expert systems and multimedia: a review o f the
Picard, R \V.; Minka, T.P. Vision texture for annotation. Multimedia Systems, 3, 1995, 3-14. liternture. lnternational Joumal of Applied Expert Systems, 2( I), 1994, 54-71.
Pickens, J. Featme selection for polyphonic music retrieval. Proceedings of the 24th Raitt, D. Recall and precision devices in interactive bibliographic search and retrieval
Annuallnternationaf ACM swm Conference on Research and Development in iliform- systems. Aslib Proceedings, 32, 1980, 281-30 I.
ation Retreval, p. 428-429. New York, Association for Computing Machinery, 200 I.
l
428 INDEXAO E RESUMOS: TEORIA E PIV!CA

Rajagopalan, R. The Figure Understander: a toa! for the integration oftext aod graphical
II REFERENCIAS

Rindtlesch, T.C. et ai. Mining molecular binding terminology fi-om biomedical text.
429

input to a knowledge base. In: Proceedings (ofthe) Sixth lnternational Conference Proceedings ofthe /999 Awwal Symposium ofthe American Medicallnformatics
011 Toofs with Artificial Intelligence, p. 8087. Los Alamitos, CA, IEEE Computer
Society Press, 1994. I' Association, p. 127-131. Philade1phia, Hanley & Belfus, 1999.
Ro, J.S. An evaluation of the applicability of ranking algorithms to improve the
Ramsey, M.C. et ai. A collection o f visual thesauri tr browsing large collections of effectiveness offull~text retrieval. I. On the effectiveness offull-text retrieval. Journaf
geographic images. Journal of the American Society for Information Science, 50, ofthe American SocietyjOr lnformation Science, 39, 1988, 73~78.
1999, 826-834.
Ranta, J.A. The new Jiterary scholarship anda basis for increased subject catalog access
I Roberts, D.; Sou ter, C. The automation of controlled vocabulary subject indexing o f
medicai journal articles. Aslib Proceedings, 52, 2000, 384~400.
to imaginative literature. Cataloging & Classification Quarterly, 14( I), 1991, 326. Robertson, S. E. lntroduction to the special issue: overview of the TREC routing and
Rapoza, J. A smat1 way to put help on the \Veb. PC 1Veek, 13(39), 1996, 93.
Rasheed, M.A. Comparative index tenns.lntemalional Libra1-y Review, 21, 1989, 289~300. I fltering tasks./nformation Retrieval, 5, 2002, 127~137.
Robet1son, S.E. The parametric description ofretrieval tests. Journal ofDocumentation,
Rasmussen, E.tvf. Indexing images. Awwal Review of lnformation Science and
Teclmofogy,32, 1997, 169~196.
Rath, QJ. et a!. Comparison of four types of lexical indicators of content. American
I 25, 1969, 1-27,93-107.
Robinson, J.; Hu, M. DOE's Energy Database {EDB) versus other energy related databases:
a comparative analysis. Database, 4(4), 1981, 10-27.
Docwnentation, 12, 1961 a, 126-130.
Rath, GJ. et ai. The formation of abstracts by the selection of sentences. American I Rodgers, D.J. A study ofinler-indexer consistency. Washington, oc, General Electric
Co., 1961.
Documentation, 12, 1961 b, 139-143. Rolling, L. lndexing consistellCy, quality and efficiency. lnformation Processing &
Ravela, S.; Luo, C. Appearance-based global similarity retrieval ofimages. In: Advances Management, 17, 1981,69-76.
in information retrieval; ed. by \V.B. Croft, p. 267~303. Boston, Kluwer, 2000.
Reamy, T. Auto-categorization - coming to a library or intranet near you! EContent,
I Rowe, N.C. Inferring depictions in natural~language captions for efticient access to picture
data.lnformation Processing & Management, 30, 1994, 379~388.
25(11), 2002, 16-22. Rowe, N.C. Precise and ejjlcient access to captioned picture libraries: the MAR!Eproject.
Reich, P.; Biever, E.J. Indexing consistency: the input/output function ofthesauri. College lvlonterrey, CA, Naval Postgraduate School, Compute r Science Departtnent, 1996.
& Research Libraries, 52, 1991,336-342.
Reisner, P. Evafuation of a 'growiilg' thesaurus. Yorktown Heights, NY, IBM, Thomas
Watson Research Center, 1966. Research paper RD~ 1662.
Resnick, A. Relative dTectiveness of document titles and abstracts for determining
I Rowe, N.C.; Frew, B. Automatic caption Jocalization for photogrriphs on Wor!d \Vide
\Veb pages. Information Processing & Management, 34, 1998, 95~107.
Rowe, N.C.; Frew, B. Automatic classification of objects in captioned depictive
photographs for retrieval. In: Intelligent mullimedia informationretrievaf; ed. by M.
relevance of documents. Science, 134, 1961, I 004~ 1006. ~Iaybury, p. 65~ 79. Paio Alto, CA, AAAI Press, 1997.
Resnikoft: H.L.; Dolby, J.L. Access: a study of information storage and retrievalwith Rowe, N.C.; Guglielmo, E.J. Exploiting captions in retrieval of multimedia data.
emphasis on /irmy information systems. 1972. ERJC Document ED 060 921. /nformation Processing & Management, 29, 1993, 453-461.
Ribeiro-Neto, B. et ai. An experimental study in automatically categorizing medicai Runde, C. E.; Lindberg, \V. H. The curse ofThamus: a response. Law Librwy Jotwna/,
documents. Joumal ofthe American Society for lnformation Science andTeclmology, 78, 1986,345-347.
52, 200 I, 391-40 I. Rush, J.E. et ai. Automatic abstracting and indexing. II. Production ofindicative abstracts
Rickman, R.M.; Stonham, T.J. Image retrieval from large databases using a neural network by application o f contextual inference and syntactic coherence cri teria. Journal of
coding scheme. In: The structuring ofinformation: informa fies 11; ed. by K.P. Jones, the American Society for lnformation Science, 22, 1971, 260-274.
p. 147~159. London, Aslib, 1991. Saarti, J. Consistency o f ~ubject indexing of noveis by public library professionals and
Rilon: E.; Lehnert, \V. Automated dictionary construction for infOrmation extraction patrons. Journal of Documentation, 58, 2002, 49-65.
from text. In: Proceedings (of tlze) Ninth Conforence on Artificial Intelligence for Saarti, J. Fiction indexing a;1d the development of fiction thesauri. Joumaf of
Applications, p. 93-99. Los Alam itos, CA, IEEE Compu ter Society Press, 1993. Librarianship and lnformation Science, 31, 1999, 85~92.
Rindflesch, T.C.; Aronson, A.R. Ambiguity resolution while mapping free text to the Saarti, J. Fictior1 indexing by library professionals and users. Scandinaviml Public Librmy
Ulvl.LS metathesaurus. In: Eighteenth Annual Symposium on Compute r App/ications Quarterly, 33(4), 2000a, 6-9.
in Medica! C are, p. 240~244. Philadelphia, PA, Hanley & Belfus, 1994. Saarti, J. Ta'\onomy o f novel abstracts based on empirical tindings. Know!edge Organi-
Rindflesch, T.C. et ai. EDGAR: extraction ofdrugs, genes and relations from the biomedical mtion, 27, 2000b, 213-220.
literature. Pacifrc Symposium on Biocomputing, 5, 2000a, 514-525. Saggion, H.; Lapalme, G Selective analysis for the automatic generation o f smnmaries.
Rindflesch, T.C. et ai. Extracting nlolecular binding relationships from biomedical text. In: Dynamism and stabi/ity in knowledge organi=atio11; ed. by C. Beghtol ct ai., p.
Proceedings of the Sixth Conference on App/ied Natural Language Processing, p. 176~ I 8 I. \VUrzburg, ERGON Verlag, 2000.
188~ 195. San Francisco, CA, 'vlorgan Kaufmann, 2000b.
Salager-Meyer, F. Medicai English abstracts: how wel! are they structured? Joumal of
t!te American Society for lnformation Science, 42, 1991. 528~531.
INDEXAO E RESUMOS: TEORIA E PRTICA
TI
430 REFERENC!AS 431
Salisbury, B.A., Jr.; Stiles, H.E. The use o f the s-coefficient in information retrieval. Selye, H. Symbolic shorthand system. New Bnmswick, NJ, Rutgers State University,
Proceedings ofthe American Society for lnformation Science, 6. 19~9, 265-268., Graduate School ofLibrary Service, 1966.
Salton, G. Another look at automatic text-retrieval systems. Commumcattons ofthe A(}.1, Se!ye, H.; Ember, G Symbolic shorthand systemfor physiology and medicine. 4th ed.
29, 1986, 648-656. . . Montreal, Universit de Montreal, 1964.
Salton, Q Dynamic information and /ibrwy processing. Englewood Cilffs, NJ, Prentlce- Semeraro, G eta!. Leaming contextua\ mies fOr document understanding. In: Proceedings
Hall, 1975. . (ofthe) Tenth Confrence on Artificial lntelligence for Applications, p. I 08-115. Los
Salton, G. A new comparison between conventional indexing (MEDLARS) an~ auto~at1c Alam i tos, CA, !EEE Compu ter Society Press, 1994.
text processing (SMART). Journal ofthe American Society for lnformatwn Sctence, Shafer, K.E. Evaluating Scorpion results. Journal ofLibrmyAdministration, 34,2001,
23, 1972, 75-84. u. . 237-244.
Salton, G A syntactic approach to automatic book indexing. Ithaca, NY, Comell mvers1ty, Shafh, K.E. Scorpion helps catalog the \Veb. Bulletin of the American Society for
Department ofComputer Science, 1989. Technical ~eport TR 89-979. . . lnformation Science, 24( I); 1997, 28-29.
Salton, G; Buckley, C. Automatic t~xt structuring expenments. In: Text-based mtelhgent Sha.rp, J.R. The sue index. American Documentation, 17, 1966, 41-44.
systems; ed. by P.S. Jacobs, p. 199-21 O. Hillsdale, ~J, Law~ence Erlbam~1, 1992. Shatford, S. Analyzing the subject of a picture: a theoretical approach. Catafoging &
Satton, G; McGi\1, M.J.Introduction to modem informal/O!/ retneval. New Ym k, McGraw C/assification Quarterly, 6(3), 1986,39-62.
~~tm Shaw, \V.M., Jr. An investigation o f document partitions. biformation Processing &
Salton, G.; Zhang, Y. Enhancement oftext representations using related document ttt 1es. Management, 22, 1986, 19~28.
!riformation Processing & Management, 22, 1986, ~85:394. . . . Shaw, \V.M., Jr. An investigation o f document structures. lnformation Processing &
Salton, G et ai. Autonmtic text structuring and summanzatlon. lnformatwn P1 ocesswg Management, 26, 1990a, 339-348.
& Mmzagement, 33, 1997, 193-207. _ Shaw, \V.M., Jr. Subject indexing and citation indexing. /nformation Processing &
Santini, S. Using language more responsibly. Computer, 3)(12), 2002, 126-128. Management, 26, 1990b, 693-718.
Sapp, G. The leveis ofaccess: subject approaches to n:tion./1{}, 25, 1986. ~88-497. Shirey, D.L.; Kurfeerst, M. Relevance predictability: 11. Data reduction. In: Electronic
Saracevic, T. Comparative effects oftitles, abstracts and fu!l texts on rdevancejudgements. handling of information: tesling and evaluation; ed. by A. Kent et ai., p. 187-198.
Proceedings ofthe American Society for lliformation Scie1:ce, 6, 1969, 293-299. - Washington, DC, Thompson Book Co., 1967.
Saracevic, T. et ai. Letter to the editor. Information Processmg & Management, 39, Sbneiderman, B. The limits o f speech recognition. Communications of the ACM, 43(9),
2003, 153-156. A 2000, 63-65.
Saracevic, T. et ai. Astudy ofinformation sceking and retrieving. Journa/ ofthe mencan Shuldberg, H.K. et ai. Distilling information from text: the EDS TemplateFiller system.
Society for ltiformation Science, 39, 1988, 161216. Journal ofthe American Society for lnformation Science, 44, 1993, 493507.
Sauperl, A. Subject determination during the cata/oging process. Lanham, MD, Scarecrow Sievert, tvf.; McKinin, E.J. \Vhy full-text misses some relevant documents: an analysis
Press, 2002. . . ofdocuments not retrieved by CCML or MEDI S. Proceedings ofthe American Society
Savi, o. Automatic classification of office documents: revu!~V ofavmlab1e methods and for /Jiformation Science, 26, 1989,34-39.
techniques. Records Management Quarter/y, 29(4), 199), ~6, 8-18. . Sievert, M. et ai. Retrieval from full-text medica11iterature: the dream & the reality. In:
Savoy, J. A new probabilistic scheme for information retrieval m hypertext. New Revtew Fifteenth Annual Symposium on Computer Applications in Medica! Care, p. 348-
ofHypermedia and Mu/timedia, I, 1995, 107~ 1~4. . 352. New York, McGraw H i!I, 1992.
Schiftlnan B. et ai. Producing biographical summanes. Proceedmgs ofthe 391~ Amwa/ Silvester. J.P. Compu ter supported indexing. In: Encyc/opedia of/ibrmy and information
Meeting ' of the Association for Computatwn~ 1 1 P 450-4)7 New
.t~zg.wsttcs, science. Volume 61, Supplement 24, p. 76-90. New York, Mareei Dekker, 1998.
Brunswick NJ Association for Computational Lmgmst1cs, 2001. Silvester, J.P. ct ai. Machine~aided indexing at NASA. lnformation Processing &
Schreiber, A.T'h. e; ai. Onto\ogy-based photo annotation. IF:I:E fnte!!igent Systems, 16(3), Management, 30, 1994, 631-645.
2001,66-74. Silvester, J.P. et ai. Machine aided indexing from natural1anguage text. Status repor!.
Schroeder, K.A. Layered indexing o f images. The !ndexer, ~I, 1998, ll-\4._ . Linthicum Hcights, MD, RMS Associates, 1993. NASA-CR-4512.
c.
Schwarz, \Veb search engines. Jouma/ oftheAmerican Soctety for Informa/lon Sc1ence, Singhal, A.; Pereira, F. Document expansion for speech retrieval. Proceedings ofthe
49, 1998, 973-982. . - 41 22nd lntemationa/ Conference on Research and Deve/opment in lnformation
Scott O. \V. Museum Data Bank research report. L1br(lly Trends, 37, 1988, 130 I Retrieva/, p. 34-41. New York, Association fOr Computing Machinery, 1999.
Seke;ak, R.J. A comparison o f journal coverage in Psychol.ogical. Abstrac!s. ~nd the Sinnett, J.D. An evaluation of/inks and roles used in information retrieva/. Dayton, Ai r
primm)' hea!th sciences indexes: implications for cooperatlve senals acqmsltlon and Force Materiais Laboratory, Wright Patterson Air Force Base, 1964. AD 432 198.
retention. Bulletin oftlze Medica! Librmy Association, 74, 1986, 231 ~233. S1amecka, V.; Jacoby, J. Effect of indexing aids on the re/iabi/ity of indexers. Final
Selo fi~ GA. Automated access to the NASA-JSC image archives. Librmy Trends, 38, 1990, technical note. Bethesda, MD, Documentation Inc., 1963. RADC-TDR-63-116.
682-696.
.,
1
432 INDEXAO E RESUMOS: TEORIA E PRTICA REFERNCIAS 433
Small, H. Co-citation in the scientit1c literature: anew measure ofthe relationship between Srihari, R.K. Automntic indexing and content-bnsed retrieval o f captioned photogmphs.
two documents. Journal oft!Je American Society for Information Science, 24, 1973, In: Proceedings ofThird International Conference on Document Analysis and Recog-
265-269. nition. Volume 2, p. 1165-1167. LosAlamitos, CA, IEEE Compu ter Society Press, 1995b.
Smalley, T.N. Comparing Psychological Abstracts and Index Medicus for coverage of Srihari, R.K. Intelligent document understanding: understanding photographs with cap-
thejournalliterature in a subject area in psychology. Journal ofthe American Society tions. In: Proceedings oftlte Second lntemational Conference on Document Analysis
for lnformation Science, 31, 1980, 143-146. and Recognition, p. 664~667. Los Alamitos, CA, IEEE Compute r Society Press, 1993.
Smeaton, A. F. Using NLP or NLP resources for information retrieval tasks. In: Natural Srihari, R.K. Using speech input for image interpretntion, nnnotation, and retrieval. In:
language informalion retrieval; ed. byT. Strzalkowski, p. 99-111. Bastao, Kluwer, 1999. Digital image access & retrie~al; ed. by P.B. Heidorn and B. Sandore, p. 140-156.
Smith, F.J. et ai. Voice access to BLAISE. In: Online lnformalion89, p. 1-12. Medford, Urbana-Champaign, Univcrsity o f Illinois, Graduate Sebo oi o f Library and lnfor-
NJ, Learned Information, 1989. mation Science, !997.
Smith, GL. Generation o f eletronic product documentation. In: Innovative applications Srinavnsan, P. et ai. An investigation o f indexing on the www. Proceedings of tfte
ofartificial intelligence 2; ed. by A. Rappaport and R. Smith, p. 189-200. Cambridge, American Society for lnformation Science, 33, 1996, 79-83.
MA, MIT Press, 1991. Srinavasan, S.; Brown, E. \V. ls speech recognition becoming mainstream? Computer,
Smith, J.R.; Chang, S.-F. An image and video search engine for the World-\Vide Web. 35(4), 2002, 38-41.
In: St01age and retrievalfor image andvideo databases V; ed. by I.K. Sethi and R. C. Srinavnsan, S.; Petkovic, D. Phonetic confusion mntrix-based spoken document retrievnl.
Jain, p. 84-95. Bellingham, \VA, lnternational Society for Optical Engineering, 1997a. Proceedings of the 23rd Amwallnternationa/ A( 'AI SIG!Il Conference on Researc!t
Smith, J.R.; Chang, S.-F. Querying by calor regions using the Visua[SEEK content-based and Development in lnfomration Retrieva/, p. 8187. New York, Association for
visual query system. In: lntelligent multimedia infomwtion retrieval; ed. by M.T. Computing Machinery, 200 I.
tvfaybury, p. 23-41. Menlo Park, CA, At\AI Press 1997b. Stnntill, C.; Waltz, D.L. Statistical methods, artificial intelligence, and information
Sneiderman, C.A. et ai. ldentification of anatomical terminology in medicai text. retrievnl. In: Text-based intelligent systems; ed. P.S. Jacobs, p. 215-225. Hillsdnle,
:( l
Proceedings oftlte 1998 Annual Symposium oft!te American Medicallnformatics NJ, Lawrence Erlbaum, 1992.
< I Association, p. 428-432. Philadelphia, Hanley & Belfus, 1998. Stiles, H.E. Machinc retrieval using the association f..1ctor. In: Machine indexing: progress
Snow, B. et ai. Grateful MED: NLM's front end software. Database, 9(6), 1986, 94-99. and problems, p. 192-206. Washington, qc, American University, 1961.
Soergel, O. lndexing languages and thesauri: construction and maintenance. LosAnge- Stock, O. ALFRESCO: enjoying the combination o f nntural Janguage processing and
les, CA, Melville, 1974. hypermedia for information exploration. In: lntelligent multimedia inte!faces; ed. by
Soergel, D. Organizing information: principies ofdata base and retrieval systems. Orlan- M.T. Maybury, p. 197-224. Cambridge, MA, MtT Press, 1993.
do, Academic Press, !985. Stock, O. et ai. Explorntions. in an environment for natural-language multimodal
Soergel, O. The ri se o f ontologies or the reinveotion o f classification. Journal of the information access. In: lntelligent Multimedia lnformation Retrieval; ed. by M.T.
American Society fOr ln/ormation Science, 50, 1999, 1119-1120. Maybury, p. 38!-398. Menlo Park, CA, AAAI Press, 1997.
Solov'ev, V. I. The aspective method of abstracting. Automatic Documentation and Strzalkowski, T. et ai. Evaluating natural language processing techoiques in information
Matltematical Linguislics, 5(1 ), 1971, 30-35. (Traduo em ingls de Nattclmo-Teklt- retrieval. In: Natural language information retrieval; ed. byT. Strzalkowski, p. 113-
niclzeskaia lnformatsiia, Seriia 2, nmero 2, 1971, p. 1417.) 145. Boston, Kluwer, 1999.
Solov'ev, V. L Functional chnracteristics ofthe author's nbstract ofa dissertation and the Stubbs, E.A. et ai. Internai quality audit ofindexing: a new application ofinterindexer
specifics ofwriting it. Scientiftc and Teclmical Information Processing, 3, 1981, 80- consistency. Cataloging and Classification Quarterly, 28(4), 1999, 5369.
88. (Traduo em ingls de Nauclmo-Teklmicheskaia lnformatsiia, Seriia 1, n mero Studwell, \V. E. USE, the Universal Subject Environment: a new subject access approach
6, 1981, p. 20-24.) in the time ofthe Internet. Journal of lntemet Cataloging, 2(3/4), 1998, 197-209.
Sparck Jones, K. Does indexing eXImustivity matter? Journal of the American Society Su, L.T.; Chen, H.-I. Evahmtion of\Veb semch engines by undergraduate students. Pro-
for Information Science, 24, 1973, 313316. ceedings ofthe American Society for lnformation Science, 36, 1999, 98114.
Sparck Jones, K. Letter to the editor. lnformation Processing & Management, 39, 2003, Sundheim, B.i'vt. Ovcrview o f resnlts o f the 1\.!UC-6 evaluation. In: Proceedings of the
156-159. Sixth Message Understmtding Conference (All>'('6), p. 13-31. San Francisco, Morgan
Sparck Jones, K. Retlections on TREC.Information Processing & Management, 31(3), Knufmann, 1995.
1995,291-314. Sutcliffe, A. et ai. Empirical studies in multimedia information retrieval. In: lntelligent
Sparck Jones, K. \Vhat is the role ofNLP in text retrieval? In: Natural language information multimedia information retrieval; ed. by M.T. Maybury, p. 449-471. Menlo Park,
retrieval; ed. by T. Strzalkowski, p. 1-24. Boston, Kluwer, 1999. CA. At\AI Press, 1997. -
Spinellis, O. The decay and failun:s o f \Veb references. Compu ter, 46( I), 2003, 71-77. Sutton, S.A. Conceptual de sigo and deployment ofa metadata framework for educational
Srihari, R.K. Automatic indexing and contentbased retrieval of captioned images. resources on the Internet. Journa{ oftlte American Society for Information Science,
Computer, 28(9), 1995a, 49-56. 50,1999,1182-1192.

tr
I '. li , '
l,l!'!fl'il,
I I
' 'I

434 INDEXAO E RESUMOS: TEORIA E PRTICA REFERi':NCIAS 435


Svenonius, E. Access to nonbook materiais: the limits ofsubject indexing for visual and Todeschini, C. Comunicao pessoal, li de novembro de 1997.
aurallanguages. Jouma! o/lhe American Societyfor lnformation Science, 45, 1994, Todeschini, C.; Farrel, M.P. An expert system for quality control in bibliographic
600-606. databases. Journal ofthe American Society for Jnfonnation Science, 40, 1989, 1-11.
Swanson, D.R. tvfedical literature as a potential source o f new knowledge. Bulletin of Todeschini, C.; To!stenkov, A. Expert system for quality contrai in the INIS database.
the }vfedical Librmy Association, 78, 1990, 29-37. Paper presented at the International Symposium on the Future ofScientific, Techno-
Swanson, D.R. Searching naturallanguage text by computer. Science, 132, 3434, 1960, logical and Industriallntbrmation Services, Leningrad, May 1990. JAEASM-317/58.
1099-1104. Tong, R.lvL et ai.IWBIUC: an environmentfOrfull text information retrieval. Mountain
Swanson, D.R. Subjectve versus objective relevance in bibliographic retrieval systems. View, CA, Advanced Information and Decision Systems, 1985.
Librmy Quarterly, 56, 1986, 389-398. Torr, D. V. et aL Program of studies on tlte use of published indexes. Bethesda, r..-ID,
Switl, D.F. et ai. 'Aboutoess' as a strategy for retrieval in the social sciences. Aslib General Electric Co., lnformation Systems Operation, 1966.
Proceedings, 30, 1978, 182-187. Trant, J. Framing the picture: standards for imaging systems. In: Multimedia compuling
Taddio, A. et a!. Quality ofnonstructured and structured abstracts oforiginal research and museums; ed. by D. Bearman, p. 347-367. Pittsburgh, Archives & Museum
articles in the British Medica! Journa/, the Canadian Medicai Association Joumal Informatics, 1995.
and the Joumal ofthe American Medica! Association. Canadian 1Vfedical Association Trawinski, B. A methodology for writing problem structured abstracts. lnformation
Journal, 150, 1994, 1611-1615. Processing & Management, 25, 1989, 693-702.
Takeshita, A. et ai. Topic-based multimedia structuring. In: lnte/ligent nmltimedia infor- Trippe, B. Ta"onomies and topic maps: categorization steps forward. EContent, 24(6),
mation retrieval; ed. by M.T. Maybul)'; p. 259-277. Menlo Park, CA, AMI Press, 1997. 200 I, 44-49.
Tancredi, S.A.; Nichols, 0.0. Air po!lution technical information processing - the Troitskii, V.P. An extrapolation approach to the concept of information. Automatic
microthesaurus approach. American Documentation, 19, 1968,66-70. Documentation and Mathematical Linguistics, 13(6), 1979, 49-60. (Traduo em
Te!!, B. V. Document representation and indexer consistency. Proceedings oftheAmerican ingls de Nauclmo-Tekhnicheskaia lnformatsiia, Seriia 2, 13(12), 1979, 1-7.)
Society for lnformation Science, 6, 1969, 285-292. Troitskii, V.P. Text, intbrmation and epistemology. Automatic Documentation and
'I Tenopir, C. Retrieval performance in afulltextjournal article data base. Doctoral thesis. Mathematical Linguistics, 15( I), 1981, 20-27. (Traduo em ingls de Nauc/mo-
Urbana-Champaign, University oflllinois, Graduate School ofLibrary and lnforma- Teklmicheskaia !nformatsiia, Se ri ia 2, 15(2), 1981, 1-5.)
tion Science, 1984. (Verses condensadas apareceram como: Tenopir, C. Full text Trubkin. L. Auto-indexing ofthe 1971-77 AB!I!NFORM database. Database, 2(2), 1979,
database retrieval performance. Online Review, 9, 1985, 149-164 e Tenopir, C. 56-61.
Searching Harvard Business Review. Online, 9(2), 1985, 1-8.) Trybula, \V.J. Text mining. Ammal Review oflnformation Science and Tec/mo!ogy, 34,
Tessier, J.A. Hypertext linking as a mo dei ofexpert indexing. Advances in Classification 1999, 385-419.
Research, 2, 1992, 171-178. Tse, T. et a!. An exploratory study ofvideo browsing user interface designs and research
Th, L. Morph your help desk in to customer support. Datamation, 42, January 15, 1996, methodologies. Proceedings of the American Society for lnformation Science, 36,
52-54. 1999, 681-692.
Thelwall, M. A survey o f search engine capabilities use fui in data mining. Proceedings Turner, J.M. Comparing user-assigned terms with indexer-assigned terms for storage
ofthe American Society for Jnformation Science and Teclmo/ogy, 38, 200 I, 24-29. and retrieval ofmoving images: research results. Proceedings ofthe American Society
Thompson, C. W.N. The functions o f abstracts in the initial screening o f technical for lnformation Science, 32; 1995, 912.
documents by the user. Jouma! ofthe American Society for Jnformation Science, 24, Turner, J.ivl. Representing and assessing information in the stockshot database at the
1973,270-276. National Film Board o f Canada. Canadian Journal o f lnformation Scknce, 15(4),
Thompson, R. et ai. Evaluating Dewey concepts as a knowledge base for automatic 1990, 1-19.
subject assignment. http://orc.rsch.oclc.org:6l 09/eval_c.html February 12, 1997. Uhlmann, \V. A thesaurus Nuclear Science and Teclmo/ogy: principies o f design. Teknisk-
Thorpe, P. An evaluation o f fndex Medicus in rheumatology: coverage, currency, and Vetenskaplig Forskning (TVF), 38, 1967,46-52.
eftlciency. A.fetlwds of lnformation in Medicine, 13, 1974, 44-47. Uthurusamy, R. et ai. Extracting knowledge from diagnostic databases. IEEE bpert,
Tibbo, H. R. Abstracting across the disciplines: a content analysis o f abstracts from the 8(6), 1993,27-38.
natural sciences, the social sciences, and the humanities with implications for Vailaya, A. et a!. Image classification for content-based indexing. lt:l:.'E Transactions on
abstracting standards and online information retrieval. Library and lnformation lmage Processing, 10,2001, 117-130.
Science Research, 14, 1992, 31-56. van der Meij, H. Styling the index: is it time tbr a change? Joumal of Jnformation
Tibbo, H.R. lndexing for the humanities. Journa! ofthe American Society for lnformation Science, 28, 2002, 243-251.
Science, 45, 1994, 607-619. Van der Meulen, \V. A.; Janssen, P.J.F.C. Automatic versus manual indexing. Information
Tinker, J.F. Imprecision in indexing. American Documentation, 17, 1966, 93-102; 19, Processing & Management, 13, 1977, 13-21.
1968, 322-330.
436 INDEXAO E RESUMOS: TEORIA E PRTICA REFERENCIAS 437
vem der Starre, J.H.E. Ceci n'est pas une pipe: indexing of images. In: Multimedia Wanger, J. et ai. Evaluation ofthe on-line process. Santa Monica, CA, CuadraAssociates,
computing mui museums; ed. by D. Bearman, p. 267 277. Pittsburgh, Archives &
4
1980. PB81-132565.
Museum IntOrmatics, 1995. Watters, C. 1nformation retrieval and lhe virtual document. Journal of the American
Van Oot, J.G et ai. Links and roles in coordinate indexing and searching: an economic Society for Jnformation Science, 50, 1999, 1028-1029.
study oftheir use, and an evaluation oftheir etfect on relevance and recall. Journal Watters, C.; Wang, H. Rating news documents for similarity. Journa! ofthe American
ofChemical Docwnentation, 6,.1966, 95-IO I. Society for Jnformation Science, 51, 2000, 793-804.
Varney, S. Link your help desk to the \Veb. Datamation, 42( I O), 1996, 64-67. \Veehsler, M. et ai. New approaches to spoken document retrieval. lnformation Retrieval,
Vickery, B.C. The structure ofsemantic coding: a review. American Documentation, 1O, 3, 2000, 173-188.
1959, 234-241. Weeber, M. et ai. Developing a test collection for biomedica( word sense disambiguation.
Villarroel, M. et ai. Obtaining feedback for indexing from highlighted text. The Electronic Proceedings ofthe 2001 Annual Symposium ofthe Americanlvledical Jnformatics
Libra1y, 20,2002,306-313. Association, p. 746-750. Philadelphia, Hanley & Belfus, 2001.
Vinsonhaler, J.F. Some behavioral indices of the validity of document abstracts. Weil, B.H. et ai. Tedmical-abstracting fundamentais. Jouma{ ofChemical Documentation,
lnformation Storage and Retrieval, 3, 1966, 1-11. 3, 1963, 86-89, 125-136.
Yirgo, J.A. An evaluation oflndex Medicus and MEDLARS in the tield ofophthalmology. Weinberg, B.H. Complexity in indexing systems -abandonment and failure: implications
Journal ofthe American Society for /nformation Science, 21, 1970, 254-263. for organizing the Internet. Proceedings of the American Society for !nformation
'.'i Vizine Goetz, D. Dewey in CORe: classitication in metadata and pathfinders. In: CORC:
4
Science, 33, 1996,84-90.
ne1v too/s and possibilitiesfor cooperative electronicTesource descripfion; ed. by K. \Veinberg, B.H. A theory ofrelativity for catalogers. In: Cataloging heresy: challenging
Calhoun and J.J. Riemer, p. 67-80. Binghampton, NY, Haworth Press, 2001. the standwd bibliographic product; ed. by B.H. \Veinberg, p. 7-11. Medford, NJ,
Vizine-Goetz, D. OCLC investigates using classitication tools to organize Internet data. Learned Information, 1992.
In: Visualiing subject access for 21st centwy information resources; ed. by P.A. Weinberg, B.H. Why indexing fails the researcher. The lndexer, 16, 1988, 3-6.
Cochrane and E. H. Johnson, p. 93-105. Urbana-Champaign, University o f Illinois, Wdnberg, B.H. \Vhy postcoordination fails the searcher. The !ndexer, 19, 1995, 155-159.
Graduate School ofLibrary and Information Science, 1998. Weld, D.S. et ai., ed. The role of intelligent systems in the National Information
Vleduts-Stokolov, N. Concept recognition in an automatic text-processing system for the Infrastructure. AI Magazine, 16(3), 1995,45-64.
life sciences. Jownaf ofthe American Society for Jnformation Science, 38, 1987, \Ve!lisch, H. H. Book nnd periodicnl indexing. Journal of the Ame1ican Society for
269-287. Jnformation Science, 45, 1994,620-627.
Voorbij, H.J. Title keywords and subject descriptors: a comparison of subject search \Vells, AT. et ai. The amazing Internet chal!enge. Chicago, American Library Association,
entries o f books in the humanities and social sciences. Journal of Documentation, 1999.
54, 1998,466-476. Westberg, S. Comunicao transmitida por fa."X, em 9 de outubro de 1997.
Voorhees, E.M. Naturallanguage proeessing and intrmation retrieval. In: lnformation Wheatley,A.; Am1strong, C.J. 1\letadata, recai!, and abstracts: can abstracts ever be reliable
extraction; ed. by M.T. Pazienza, p. 32-48. New York, Springer-Verlag, 1999. indicators ofdocmnent value? Aslib Proceedings, 49(8), 1997,206-213.
Voorhces, E.M. Question answering in TREC. In: Proceedings ofthe Tenth Imemationa't \Vhite, H.D.; Griffith, B.C. Quality of indexing in online data bases. Information
Conference on lnformation and Knowledge Management, p. 535-537. New York, Processing & Management, 23, 1987,211-224.
Association for Computing Machinery, 200 I. Wi!bur, \V.J. et ai. Analysis ofbiomedical text tr chemical names.Proceedings ofthe
Voorhees, E.M.; Harman, D. The Text Retrieval Conferences (TRECs). In: Proceedings of /999 Anmwl Symposium ofthe American Medicai Informa fies Association, p. 176-
the 71/Wll:'U Te.tt Program, Phase /li, p. 241-267. San Fmncisco, Morgan Kmrfinann, 1999. 180. Philadelphia, Hnnle)' & Beltus, 1999.
Wactlar, H.D.; Christel, M.G Digital video nrchivcs: managing through metadata. In: Wilkinson, D.; Hollander, S. A comparison o f drug literature coverage by /ndex ivlediws
Building a national strategyfor digital preservation: issues in digital media archiving, and Drug Literature lndex. sul/etin of the -Medica/ Librwy Association, 61, 1973,
p. 80-95. Washington, DC, Council on Library and lnformation Resources, 2002. 431-432.
\Vactlar, H.D. et ai. Complementar)' video and audio analysis tr broadcast news archives. Wilks, Y. ct ai. Combining weak methods in large-scale text processing. In: Text-based
Commzmications ofthe AO!, 43(2), 2000,42-47. intel/igent jystems; ed. by P.S. Jacobs, p. 35-58. Hillsda!c, NJ, Lawrence Erlbaum, 1992.
Wactlar, H.D. et ai. Lessons learned from building a terabyte digital video library. Willams, M. An evaluation o f passage-level indexing strategies for a technical repor!
Compu ter, 32(2), 1999, 66 73.
4
archive. I.IHRI:'S: Library and 1nformation Science Electronic Journal, v. 8, issue 1,
Walker, R. S. Problem child: some observations on fiction, with a sketch ofa new system lvtareh 31, 1998 (www.infomotions.com/serials/libres/libres-v8no 1-williams-
ofclassitication. Librarian and Book World, 47(2), 1958,21-28. evaluation.txt)
Walsh, J. Intel LANDesk lets users cry for help from \Veb browsers. JnfoWor/d, 18(39), Williams, M.E. Experiences of!IT Research Institute in operating acomputerized retrieval
1996, 12. system fOr searching a variety o f data bases. lnformation Storage and Retrieva/, 8,
\Vang, J.Z. /ntegrated region-based image retrieva!. Boston, MA, Kluwer, 200 L 1972. 57-75.
li
l
m:rl''!
nr.'.l
i .i
439
':! 438 INDEXAO E RESUMOS: TEORIA E PRTICA REFERENCIAS

Wilson, P. Situational relevance. lnformation Storage and Retrieva/, 9, 1973, 457-471. Zechner, K. Automatic generation of concise summaries of spoken dialogues in
Wilson, P. Two kinds ofpower: an essay on bibliographical contra/. Berkeley, University unrestrictcd domains. Proceedings of tf1e 24th Annual lnternational ACM SIGIR
o f Ca!ifornia Press, 1968. Conference on Research and Development in Information Retrieval, p. 199-207.
Winkler, M.A. The need for concrete improvement in abstract quality. Journal of the New York, Association for Computing Machinery, 200 I.
American Medica/ Association (M.U-4), 281, \999, 1129-1130. Zeng, M.L. Metadata elements for object description and representation: a case report
\Vitbrock, M.J.; Hauptnmnn, A.G Speech recognition for a digital video library. Journal from a digitized historical fashion collection project. Joumal ofthe American Society
ofthe American Society for lnformation Science, 49, 1998, 619-632. for biformation Science, 50, 1999, 1193-1208.
\Volfram, O. Inter-record linkage structure in a hypertext bibliographic retrieval system. Zholkova, A. L Applying face! analysis methods in abstracting. Scientific and Teclmical
Journal ofthe Americcm Society for !nformation Science, 47, 1996, 765-774. lnformation Processing, 2, 1975, 70-74. (Traduo em ingls de Nauclwo
\Volfram, D.; Zhang, J. An investigation ofthe influence ofindexing exhaustivity and Teklmicheskaia biformatsiia, Seriia 1, nmero 6, p. 26-28.)
term distributions on a document space. Journal of the American Society for Zhu, B.; Chen, H. Validating a geographical image retrieval system. Journal of the
lnformation Science mui Teclmology, 53, 2002, 943-952. American Society for lnformation Science, 51, 2000, 625-634.
Wong, K.-F. et ai. Application ofaboutness to functional benchmarking in information Zich, B. Yisua1izing digital libraries. In: Visualizing subject access for 21st centmy
retrieva!. ACM Transactions onlnformation Systems, 19,2001,337-370. iliformation resources; ed. by P.A. Cochrane andE. H. Johnson, p. 106-109. Urbana-
Wood, J.L. et a!. Overlap among the journal articles selected for coverage by BIOS!S, CAS, Champaign, University of Illinois, Graduate School of Library nnd Information
and Ei. Jouma/ of the American Society for lnformation Science, 24, 1973, 25-28. Science, 1998.
Wood, J.L. et ai. Overlap in lhe lists ofjournals monitored by BIOSIS, CAS, andE i. Journal Zins, C. Models for classit)'ing Intemet resources. Knowfedge Organization, 29,2002,20-28.
ofthe American Society for lnformation Science, 23, 1972, 36-38. Zizi, M. Interactive dynamic maps for visualisation and retrieval from hypertext systems.
Woodland, P.C. et ai. Effects ofout ofvocabulary words in spoken document retrieval. In: biformation retrieval and hypertext; ed. by M. Agosti andA. F. Smeaton, p. 203-
Proceedings of the 23rd Annua/ lnternationa/ ACM S!GIR Conference on Research 224. Boston, Kluwer, 1996:
and Development in Information Retrieva!, p. 372-374. New York, Association for Zunde, P.; Dexter, M.E. Pactors affecting indexing performance. Proceedings of the
Computing 1\lachinery, 2000 American Societyfor biformation Science, 6, 1969a, 313-322.
Woodruft: A.G; Plaunt, C. GIPSY: automated geographic indexing o f text documents. Zunde, P.; Dexter, M.E. Indexing consistency and quality. American Documentation,
Jounwl ofthe American Societyfor lnformation Science, 45, 1994,645-655. 20, 1969b, 259-267.
Wooster, H. Optimalutilization ofindexing personnel. Research Review (u.s. A ir Force,
Olllce of Aerospace Research), 3(4), 1964,22-23.
Wright, L. \V. et ai. Hierarchical concept indexing of full-text documents in the Unified
Medicai Language System Information Sources Map.Journal oftheAmericanSociety
for Information Science, 50, 1999, 514~523.
\Vu, J.K. et ai. CORE: a content-based retrieval engine formultimedia information systems.
i\fuftimedio Systems, 3, 1995, 25-41.
\Vu, J.K. et ai. Perspectives on content~basedmultimedia systems. Boston, Kluwer, 2000.
Wu, Q. Web imagc rctrieval using se!f-organizing feature map. Journal ofthe American
' Society for In}Ormatiou Science and Teclmology, 52, 200 I, 868-875.
Xu, H.; Lancaster, F. \V. Redundancy and uniqueness o f subject access points in online
catalogs. Librmy Resources & Teclmical Services, 42, 1998, 61-66.
Yang, Y. An evaluation of statistical approaches to text categorization. lnformation
Retrieva/, I, 1999,69-90.
Yang, Y. lmproving text categorization methods for event tracking. Proceedings ofthe
23rd Ammaf Internationaf AC\1 su;m Conference on Research and Development in
lnformation Retrieval, p. 65 72. New York, A~sociation for Computing Machinery,
2000.
Yerkey,A.N. Models ofindex searching and retrieval effectiveness ofkeyword-incontext
indexes. Joumal ofthe American Society for Information Science, 24, 1973, 282-
286.
Yu, K.L et ai. Pipelined for speed: the Fast Data Finder system. Quest, Winter 1986-
1987,5-19.
I'

iND!CE 441
Bennett, J.L. 311, 399 Bradshaw, S. 315,401 tennos 30-3 I
NDICE Benois-Pineau, J. 221, 399 Branagnn, M.A. 128, 427 caracterlsticas: de nvel alto
Benoit, G. 282, 399 Brundow, R. 335, 401 214; de nvel baixo214, 223
Berger, A. L. 326, 399 Breaks, M. 355,401 Carnegie Mellon University
Berner, E.S. 335, 399 Brenner, C. \V. 42,401 245
ABCSPlNDE.'X 59 American Petroleum lnStitute 18; em imagens 13-14; em Bemick, M. 290, 400 Brcnner, E.H. 291,401 Carrick, C. 225, 402
AB!IIKFORM 291 291 obrns de fico 199-202 Bemier, c.L. 105, 106-107, Breton, E.J. 16-17,401 Carro\!, K.H. 148,402
aboutness ver atinncia Americnn Society for Metais atributos da imagem 230-233 113-114,116-117,119,122, Brettle, A.J. 157,401 Casey, C. 354,361,402
abreviaturas e siglas 113-114 192-195 atuulidade da informao 126-127,399,400 brevidade dos resumos 113-115 cntalogao: analtica 20; de
acessibilidade dos documen- mnostragem: na avalino de 152-154 Bemstein, L.M. 269, 399 Brcw, C. 152,401 ussuntos 20-22
tos 100 cobertura de bnses de dados Austin, D. 62-63, 398 Bertrand, A. 77, 399 Brilisfl Educalionlndex 171, catlogo: alfabtico de assun
acoplamento bibliogrt1co 136~ 139; no controle da Austin, J. 204, 206, 426 Bertrand-Gastaldy, S. 82, 399 178 tos 20; dicionrio 20; em
297-298 qualidade da indexno 88 autores corno indexadores 89- Besser, H. 215,364,399 British Nalional Bibliograplty fichas 50-51
Acom, T.L. 329-333, 397 ampliao do texto 278, 327 90 Bhattacharyya, G. 261, 400 208 cutegorias fUndamentais 61
acrscimo dos ttulos 55 analetos 64 nutorresumos 300302 Bibliographic Retrieval Servi British Standards lnstitution categorizat'l.o de textos 317-
Acton, P. 21,397 anlise conceitua19-18; coe- avaliao: dn indexno 87-88; ces 274 155 318
ADAM sistema de resumos r~ncia 77-82; t1has 85: em de bases de dados 135-157; Bibliography of Agricu/ture Brilish Teclmology lndex 61, CATLINE 308-309
automticos 303-304 resumos 123 de mecanismos de busca 144, 148-149 64, 175-178 Cawkell, A. E. 234, 235-236,
Adami, N. 246, 397 anlise de facetas xi, 106 343-344; de resumos 123- bibliotecas pblicas, portais Brittain, J.M. 139, 144,401 402
Addison, E.R. 277,397 anlise sinttica 198,277, 129, 324-325 de 356, 362 Broer, J.W. 106-107,401 Celentano,A. 327,427
Agncia Internacional de 281,333-334 Awrc, C. 357,398 bibliotecns virtuais 355-357, Brown, E. \V. 239,240-241, Cellier, J.M. 77, 399
Energia Atmica 23, 88 Anderson, J.D. 6, 276, 315 axiomas da indexao 36 362 245-246,248,401,433 censura e vis na indexao
Agnew, B. 228, 397 316,363,397-398 Azgaldov, E.G 157,398 Biebricher, P. 292, 400 Brown, M.S. 144, 157,401 32-33
Agosti, l'vl. x, 300, 397 Anderson, lvi.D. 24,398 Biever, E.J. 72, 75, 428 Brown, P. 11, 81,217,401 Center for AeroSpace lntOr-
AGREP)IJ Anick, P.G 330, 398 Boca, M. 237, 398 Biological Abstracts li!; wr Browne, GM. 25,361,401 mntion 289,292,311
Agriculture Network lnforma- anotao IOI Bnilin, S. 319,398 tambm BIOS!S Bruza, P.D. 14-15,402 Clmkrabarti, S. 283, 402
tion Center 355 ANSI 154 Baker, S. L. 204, 398 Biological Sciences Commu- Buckley, C. 327,352,430 Chang, O. 228, 283, 402
AGRO\'OC 311 upontnmento como tlnalidade Bakewell, K.G.B. 49, 398 nicntion Project 266 Burgin, R. 33, 402 Chang, K.C.C. 345, 411
A11lswede, T. 276, 397 da indexno 6 bancada do editor 327 B!OS!S 187-188, 291; vertam- Bork, K. 23, 402 Chang, S.F. 220, 228, 432
Air Poltution Technical lntbr- Applied Mechanics RevieH's Bannnn, K.J. 357, 398 bm Biological Abslrac/s Burke, F.G 59, 402 Charniak, E. 277, 402
mation Center 43-45 103, 104 Bast: de Conhecimentos sobre Bishop, A.P. 67,361,400 busca 328-333; em bnses de Chatman, S. 114, 400
Aitchison, J. 193-194,397 Applied Science and Teclmo- Hepatite 269 Blair, D.C. 268, 280, 353, 400 dados de imagens 225-227; Chemical Abstracts 56, 110
Aitchison, T.M. 261-262,397 logy lndex 159, 164 Baser, K.H. 59, 407 Blum, T. 241,400 em bnses de dados de sons 111,169,172-174
Ajiferuke, L 94,397,403 Arasu, A. 339, 398 bases de dados: cobertura Btustein, J. 353, 400 241; em fragmentos de pala- Chcn, H. 223, 313,317-, 319,
A!bright, J.B. 146-148,397 ArentS, H.C. 352, 398 135-145; crescimento31, boa indexao, identificao vens 253, 274; em texto 402
A LFRESCO 282, 328 Armitage, J.E. 57,398 270; de imagens 214-237; da 83-84, 86-88 completo ver texto; iterativa Chcn, H.-1. 232-233, 343, 403,
Al-Kofahi, K. 317,397 Armstrong, C.J. 56-59, 343, de sons 237-248; orienta Bodenreider, O. 326, 400 226; seqoencial em texto 433
Alhm, J. 240, 322-323, 397 349,398,437 para disciplina 103; orien Bogaerts, W.F.L. 352, 398 252 Chen, Z. 228,327,403
Altman, RB. 312, 425 Aronson, A.R. 312,313-314, tadas para misso 103 Boguraev, B. 324, 400 Busch, J.A. 356, 402 Chiarametla, Y. 352, 403
Aluri, R. 31, 425 398,428 Bateman, J. 327,398 boletim de resumos 131-134 Bush, V. xi Choi, Y. 232, 403
ambigidade dos tem10s 90-91 arquivo: de lanamentos J9; Bates, M.J. 1011, 81-82,285, Boll, J.J. 255, 425 Buyukkokten, O. 324, 402 Cluistel, M.G. 347,436
mbito de abrangncia na in invertido 39; mdico ver 398-399 Sonham, M.D. 309,400 Byrd, O. 244, 402 Chu, C.M. 25, 91, 94,397,403
dexao 29 pronturio mdico Baxendale, P.B. 24,286, 287, Book House, base de dados Byrne, J.R. 266-267,402 Chu, H. 352-353, 403
Americnn Bibliographical Artandi, S. 292-293, 398 305, 332, 399 205 Chute, C.G 312,335,403
Center 59 artigos de revistas de interesse Beamwn, T.C. 144, 399 Booth, A. \30,400 CAB Thesaurus 311 Ciocca, G 226, 403
American Film Jnsfifute gernl 322 Beesley, D. 325,412 Borko, H. 36, 105, 113-114, Cabelhos Conceituais 187- Clmke, C.L.A. 282, 403
C(lfa/og 203, 229 rlrls t.111d Humanities Citalion Beghtol, C. 13, 199,206-207, 116-117,119,122,126-127, 188,291 clnssitlcao: analtico-sint
American Library Association lndex 179 208, 399 290,332,400 cabealhos: de assuntos 19 tica60, 163-164, 167-170;
204,207 Aslnndogan. Y.A. 228, 398 Belkin, N.J. 17,399 Borkowski, C. 304, 400 23; nos resumos 116 automtica 294-298, 317
American Mathcmnticnl assocines falsas 28, 189,255 Bel!, C.L.M. 313,399,416 Borst, F. 311-312,400-401 CAIN 311 319; bibliogrfltka 19-22; de
Society 318 Association ofResearch Bel!, H.K. 33, 88,210, 399 Boume, C.P. 144, 148-149,401 CAIT 312 obras de tico 204; de ima-
American Nationnl Standards Libmries 357 Benjamin, M. 105, 127-128, Boyce, B.R. 28,401 Cnmpbell, J.D. 357, 402 gens 22 7, 23 I; de recursos
lnstitute 155 atinncia 13-18; em hipertexto 412 Bradley, P. 21 0, 40 I cnpacidnde discriminativa dos da Rede 318; de segmentos
....,

442 INDEXAO E RESUMOS: TEORIA E PRTICA iNDICE 443


de tifmes 246; de textos 317; Conaway, C.W. 149-150,404 I !3-1 14,404 tes e menos importantes Dronberger, GB. 126, 406 218,236-237,407
Dedmal de Dewey 20-23, concatenao de frases 302-305 crescimento da literatura 139- 187-188 Drott, M.C. 347, 351, 363-364, entradas modulares de indice
318-319, 348, 353; Decimal conceito, detinio 15 143 tlesinfonnao 351 406 109, 394-396
Universal20, J67,319;.de conciso dos resumos 1!3-114 critrios: de frequncia 286- deslocamento de tennos 53 Dublin Core 345-346 EpilepsyAbslracls 177
tinio 20-22; dos Dois Pon- concorddncias 252 288, 317; de rejeio 302; Dexter, M.E. 68-69, 76, 439 Dubois, C.P. R. 258, 406 Epilepsy Abstracts Retrieval
tos 60;em lndices impressos conglomerado 296 estatsticos 286-288 DeZelar-Tiedman, C. 208,405 ouc310 System 263-264
59-66; facetada ver classiti- conhecimento do assunto: na Crot1, W.B. 331-332, 405 diagnstico mdico com nju- Dumais, S.T. 297,316,406, Eprise 318
cao analtico-sinttica; indexao 76-77,89-90, 202; Cromp, R.F. 227,405 da de computador 335 410 ergonomicidade 157
indexao como 20-22; In- na redao de resumos 122 Crowe, J.D. 16,405 dicionrio na construo de Dumortier, J. 322, 335, 423 ERIC 37, 187,267, 407; ver
ternacional de Doenas Connolly, O. 31, 404 Cumulated lndex A!edictts ver tesauro 276 Dutta, S. 59, 406 tambm Tltesaums of HUJC
(CID) 315; nas estantes 204 onsenso na indexao 94, 96 lndex Medicus Diggcr, J.A. 62-63, 262-263, Dym,E.D.I51,406 descriptors
Clemencin, G. 310,403 const~uo de nmeros 22-23, Current Contents 182-184 398,417 erros: na indexao 85-88; na
Cleveland, A. O. 345, 403 60 Current Teclmology lndex 61, Dillon, A. 235, 423 Earl, L. L. 293,303,406 redao de resumos 119-120;
Cleveland, 0.8. 345, 403 CONSTRUE 317,334,336-337 172-176, 178 Diloreto, F. 221.405 Eastman, C.M. 342, 406 no reconhecimento da fala
Cleverdon, C. \V. 193-194, consulta: incrementai ver bus- custo-eticcia: em operaes dimenses do documento para Ebinumn, Y. 89, 406 239-241
260,264-265,397,403 a iterativo; na recuperao de recuperao 156-157, indexao 28-30 Eco, U. 199,406 especialistas: como indexado-
c\oze, critrio 126 baseada em contedo 236; 258; na obertura de bases Dimitron: A. 353, 405 editorao de resumos 119 res 89-91, 202; como resu-
,~;:
Clu1ey, H.J. 156, 403 na recuperao de fko de dados 139-143; na inde- Ding, \V. 229, 405 Edmundson, H.P. 124-125, midores 122
Contes, E.J. 61, 403 206; na recuperao de ima- xao 32; na redao de Diodato, V.P. 67, 90, 92,405- 301-302,332,407 especificidade do vocabulrio
co-citao 297-298 gem 219220, 223, 228; na resumos 10 I 406 Educationnl Resources lnfor- 22-23, 202-203; efeito na
Coco, A. 268, 403 recuperao de som 241; Cutter, C.A. 34, 59, 405 direito, recuperao da infor- mationCenter37, 187,267, coerncia da indexao 74-
;: cdigo semntico 192-195 75
por exemplo em buscas na mao em 251-252, 267-268 407
coet1ciente: de dados 125; de Rede 342 Dabney, D.P. 9, 252, 268, 405 diretrizes aplkadas: a obras Edwards, T. 144,407 especiticidade na indexao
preciso e revocao 4, 28, contedo: dos resumos 115- dados: de satlite 227; de sen- de criao 207; indexao EEVL 355-356 29-30, 34-37
ti,, I 145-150, 156157, 254-259; 122; temtico, efeitos do 76, soriamento remoto 227; me- 27-38; a resumos 113-134, efCito da saturao na indexa- estado nnntalo de conheci-
I~ de Usabilidade do ndice 100 teorolgicos 221-223, 224, 392-393 o 71-72 menta 17,285
!~ ; 149- [50 controle de qunlidade: na in- 328 disperso da literatura: em et1ccia da recuperao 1-5, estratgia de busca 33; coe-
coerncia: intergmpos 68-69; dexai'io 88, 93-94; na reda- Dahlberg, I. 15,405 publicaes 139-143; em 83-35 rncin na 81-82; em lndices
na indexao 68-82; na o de resumos 119, 127-128 Danilewitz, D.B. 329, 404 tennos de indexao 147-149 Elchesen, D.R. 156,407 de citaes 179-182; em
indexao de obras de nc- controle de vocabulrio \'e r DARPA 249 dispositivos dn linguagem de Elhadad, N. 323, 407 lndices pr-coordenados 67;
o 208; na redao de resu- vocabulrios controlados Datn Crcation and Mainte- indexao 197-198 Ellis, O. 352-353,361,407 interao om a exaustividn-
mos 123-129; relacionada Cook, M. 59, 404 nance System 45-46, 311 dispositivos portteis de mo elos entre termos 189-190 de da indexao 33; qual i-
qualidade 91-93 Cooper, W.S. 9, 69, 83, 92, David, C. 82, 405 324 Elrod, J.M. 354, 362, 407 dade da 84
coincidncia de padres: em 156,404 Davison, P.S. 149,405 disseminao: de resumos Ember, G 65-66, 431 estratgias usadas por resumi-
recuperao de informao Cooperative Online Resoure OCI\1S 45-46, 311 133-134; seletiva de infor- encaminhnmento de mensn- dores 120-122
305-306; em recupera;:to Catalog (CORe) 348,356- decises de diretrizes de inde- maes 252, 317, 337 gens ver categorizao de estrela, tbn1mo em 296
de msica 242-244 357,362 xao 27-33 distncia entre palnvras 253 textos estmtura hierrquica 162
Collison, R. L. 114,403 cor, indexao de 220, 223 de-ncia versus atinncia 13- ditado na indexao 43 enciclopdias, indexao de etapas da indexao 8-13
combinaes de temlOS 23, CORC 348,356-357,362 14,218 Oocument Understanding 17-18 etiquetas 26, 40-41, 45-46, 75
34-35, 5 I orrespondncia, clnssiticafio Defense Advanced Research Confi!rences 310 Endres-Niggemeyer, B. xiv, Etzioni, O. 283, 407
compactao de texto 324 de319 Projects Agency 249 documentos exemplares 353; 100, 121-122,407 exame do documento 24-26
Compaq Compu ter Corpora- Corridoni, J.M. 223, 404 Defcnse Documentrttion Center manuscritos 279; virtuais361 'enfeitar' os resumos 122 exatido: na indexao 27; nos
tion 329-333 Corston-Oiiver, S. 324, 404 114-115,261,289,405 Oo1by, J.L. 116,428 engenharia, indexao em 16- resumos 127-129
compatibilidade de propsitos Cosgrove, S.J. 319, 404 detinibilidade na indexao 36 Doraisamy, S. 243, 406 17 exaustividade da indexao 7-
dos resumos 129-131 Cowie, J. 325, 404 De masco, P.W. 323,405 Dorfman, E. 227,405 Engineering fndex 159, 162, 8, 27-34, 202-203; efeito na
COMPENDEX 266-267; ver Crandall, M. 357, 404 Dempsey, L. 347,405 Doszkocs, TE. 308-309,406 165-166; ver tambm coerncia 70-73; efeito na
tambm Engineering Inde.-.: Crantield, estudos de 261~262 DeRuiter, J. 347,405 dossis biogrMicos 323 CmlPENOEX qualidnde 91-92; em ndices
complementaridade de Crnven, T.C. 51, 53, 58-59, 67, desambiguao 277,326 Dovey, M.J. 243, 406 Engineers Joint Counci1 190- impressos 170-171; intera-
indexao e resumo 7 110, 114, 120,320,347-343, Deschte1ets, G 257,405 Down, N. 208,406 191 o com n estrntgia de bus-
Computer-Assisted lndexing 404 descoberta de conhecimento Downie, S. 242, 243, 406 Enhanced and Evnluated ca 33; nh'el ideal 31-32
Tutor 312 Crawtbrd, T. 244, 402 xiii, 282-283;em texto fala- Doy!e, L.B. xi, 336,352,406 Virtual Library 355-356 Excerp/a Medica 53-54, 171-
Computerized lnfonnation crawlers 339, 340 do 240-241; na Rede 283 Drage, J.f. 156,406 enriquecimento de ttulos 55 173, 177,263-264
Transth in English 308-309 Cremmins, E.T. 101-102, descritores 1; mais importan- Drisco\1, J.R. 313,406 Enser, P.G.B. li, 32-33,76, exerdcios: de indexao 369-
'<
i
,,
:!' 444 INDEXAO E RESUI\.JOS: TEORIA E PRTICA iNDICE 445
382; de redao de resumos cessiva 31 gabaritos 325, 334 Gupta, A. 243, 411 Hobbs, J.R. 325,333,414 81-82, 183,216, 363-364;
'
lj.
383391 ferramentas de auxilio inde- Gaizauskas, R. 336, 409 Guthrie, L. 317, 411 Hock, R.E. 340-341,414 com ajuda de computador
exibies de voc<~bulrios hie- xao 39-47; efeito na coe- Glvez, C. 122, 427 Guyon,A 355,401 Hodges, P.R. 55,414 289,292-293, 310-311;
rrquicos 162 rncia, 77; efeito na quali- Gandt, G 90, 406 Hogan,M.237,414 comparada com resumos 6-
expanso de documentos 240 dade 91-92 Gno, Y.J.319,409 Haas, S.W. 247, 277, 4 I I Hollander, S. 143,414 7; de formas 219; de ima-
experincia dos indexadores: ficiio:dassilicao 204; in- Gardiner, D. 65, 409 Hafed, Z.M. 225, 411 Holm, B.E. 251,414 gens 214- 237; de imagens
efeito na coerncia da inde- dexao 204-210; resumos Gruy, J,E, 219-220,423 Hagerty, K. 151, 411 Holmes, N. xi, 414 baseada enl conceitos 214-
xao 76-77; efeito 11<1 qua- 210-213 gateways 355-357,362 Hahn, U. 304,320-321,411 Holst, \V. 272,414 218; de imagens baseada
!idade da indexao 91-92 fidel, R. 10, 81, 130, 132,270, Gauch, J.M. 226-227,409 Hall,A.M.I56,411 Holt. 8. 219-220, 414 em contedo 233-237; de
extenso: do registro 7-8; do 335,408 Gauvain, J.-L. 246, 409 Hammond, K. 315,401 Holt. GE. 362,414 imagens baseada em pala-
texto que afeta a coerncia fidelidade na indexao 36 Gee, F. R. 31 O, 409 Han, J. 345,411 ~ooper, R.S. 69, 93,414 vms 214, 216-218; de mar-
da indexao 77; dos rcgis- tilmes: indexao 199-203; re- Geisler, G. 229, 409 Hanson, C. W. 144, 411 Hork)', J. 77,414 cas 220; de pinturas 227; de
tros bibliogrticos 7-8, 253- sumos 21 0-213; ver tambm Geman, D. 225, 408 Harman, D. 241,310,335, Horty, J.F. 251,256,414 sistema aberto ou !Cchado
255; dos resumos 100-101, bases de dados de inla gens General Motors Media Archi- 337,411,436 Hourihane, C. 237,414 37-38; detlnio 6-7; deri-
116, 125-126: esperada da filtro: de qualidade 358359; ves 37,216 Harpring, P. 237, 315, 411 Hovy, E. xiii-xiv, 414 vada 18-19, 286-289; dire-
busca 156 estatlstico 277 George Washington Universi- Harris, D. 72, 77,411 Hu, M. 144, 429 trizes 27-34; em cadeia 60,
extrao: de tfases 278, 293, fleuret, F 225, 408 ty266 Hart, P.E. 329, 411 Huang, T. 220,414 164, 167-168; em cama-
316-317, 348; de nomes 326; flickner, M. 219, 408 Georgia State University 356 Harter, S.P. 14,411 Hui, S.C. 305,327,415 das 37, 216; em humnnida-

de pnrgralbs 321; indexa- f1oridi, L. 351,408 gerao de texto 327 Hartley,J.I05-106, IIS-119, i-lumphrey, S.M. 99, 312, 314, des 76, 198; em linha 43,
o por 18,286-289 flynn, M.K. 247,408 Getty Jnfonnation Jnstitute 356 126-129,412 415 45-47;exerdcios de 369-382;
extratailo ver resumos auto- tblhear documentos 24-26, 113 Giguere, M. 318,415 Hartwick, L. 219-220,414 Humphreys, K. 325, 415 idiossincrtica 77, 91-92;
m:iticos tbnemas: reconhecimento Gilchrist, A. 144,409 Harvard Business Review 269 Hurt,C.356,4!5 modelo 96-99; omisses 85-
238-239 Giles, C.L. 341,363,419 Hastings, S.K. 233,412 Hutchins, WJ. 13, 199,415 86; orientada para consulta
faces 295-296 fnnula: de importncia 61; Girgensohn, A. 230, 409 Haug, P. 325,412 9-13, 90; orientada para o
;~i
facilidade de uso 157, I 84-185 de facilidade de leitura 126; Godby, C.J. 317, 348, 409 Hauptmaoo, A.G 235 !CONCLASS 237 documento 335; orientada
I Fairthome, R.A. 18,358,407
fala: intertces 241; minerao
PMEST 61
tbmtulrios impressos para
Goh, A. 305, 327, 415
Goldstein, J. 323, 409
Hayes, P.J. 317,334,336-337, iconogratin 218
412 imagens: atributos 230-233;
para problemas 16; padrilo
96-99; pelos usurios 11-12,
wr descoberta de conhecimen- indexao 39-45 Gong, Y. 323,410 Hayes, S. 204,412 clnssitlcao 226-227,230- SI, 217, 363-364; pondera-
to; reconhecimento 237-241; Forrester, M.A. 408 Goode, D.J. 143,410 Hnynes, R.B. 101, 117-119,412 232; coerncia na indexao da 34, 186-189, 291; por
sumarizao 244-245 Forsyth, D.A. 220, 408 Goodmm, A.A. 223, 229-231, Health Law Center 251 76, 216-218; indexao 11- atribuio 18-23, 289-290;
falhas da indexao 16-17, tbtogmtlas ver imagens 410 Hearst, M.A. 346,412 12, 32-33, 214-228;na Rede, prtica da 24-30; princpios
85-86 fotografias areas 223 Gordon, M.D. 316, 4(0 Heery, R. 344, 405 identiticao 227-228; resu- da 6-23; probabilstica 13,
Fa!k, J.D. 59, 407 Fowler, R. H. xi, 336, 408 Gowtham, M.S. 319,410 Heidorn, P.B. 231, 413 mos 228-230; tridimensio- 82, 187,281, 285; seletiva
falsas associaes 28, 189,255 Fox, E.A. 276, 408 Graham, J. 329, 411 Heller, J. 216-217,413 nais 227 7-9; semntica latente 297,
Farradane, J. 63-65, 149,407 freiheit, F. E. 329, 405 Grateful Med 309 Henzler, R.G. 272,413 implicaes feitas pelo autor 314; viso pblica na 12
Farrel, M.P. 88, 435 Freitas, A.A. 282, 408 gravao da indexao 43 Hepatitis Knowledge Base 269 36-37 indexadores: atpicos 77;
fast Data finder 252 tfeqilncia: absoluta 286-288; Green,A. 157,410 Hemer and Company 108-109, inclinao para um assunto como resumidores 122-123
.!", fator de conservao de dados relativa 288 Green, B.F. 282,410 120 102-103, 134 indicatividade dos registros
125-126 Frew, 8. 226-228, 429 Green, E.-L. 235,410 Hemer, S. 103,413 indeciso na indexao 88 7-8, !51
fatores: ambientais 91; da fridman, E.P. 144,408 Green, R. 198,410 Hersey, O. f. 265-266,413 /ndex Afedicus 158-163, 197 indicndores de contedo 6
linguagem que afetam a Fried, C. 72, 77,408 Greenberg, J. xii, 237,410 Hersh, W.R. 292,335,413 ver tambm Medica! Sub- indicadores de fUno 63,
qualidade da indexao 90; Friis, T. 311, 408 Greisdort: H. 232,410 Hert, C.A. 341,413 ject Hwdings; ~IEOLARS; 190-195; efeito na coern-
de associao 294-297, 312- froom,J. 117,408 Griffith, B.C. 94-95, 437 Hickam, D.H. 335,413 MEDLINE; National Library c ia da indexao 75; efeito
313, 316; do documento froom, P. 117. 408 Grishman, R. 325, 410 Hickey, T.B. 348, 353, 413 ofMedicine na qualidade da indexao
que atetam a qualidade da frost, C. 224, 231, 409 Grosz, BJ. 276, 426 Hidderley, R. 12,413 indexao: automtica 286- 190-192
indexao 90 Fugmann, R. 36-37,74,258, grupos: de tem1os 295-297; Hill, L.L. 349,413 290; automtica por herana indicadores re1acionais ver
fayyad, U. 282-283, 407 271,409 de ligao nica 295 Hinman, H. 356,413 223-224; baseada em casos indicadores de funo
Feder, J.D. 241, 407 Fuhr, N. 292, 409 Guard, A. 204, 410 historiadores da arte, necessi- 221-223; baseada em ima ndice: Pennutenn 56, 179-
fedosyuk, M.Yu. 102,408 Fum, D. 303, 409 Gudivada, V.N. 226,227,410- dades 218-220,232-233 gens 214, 216-218; baseadn 182; sue 52
Feinberg, H. 214,408 Funk, M.E. 41, 75,409 411 Hjorland,B.IO, 15,27,55,413 em regies 221; como elas- ndices: alfabtico-especficos
feiten, B. 241,408 Furht, 8. 219, 421 Guenther, R. 349,411 Hlava, M.l\.l.K. 292,413 siticao 20-22; compuls- 158-162; nrticulados de
feldmnn, S. xii, 423 tl1turo da indexao e resu- Guglielmo, E.J. 226,411,429 Hmeidi, I. 336, 413 ria 36; centrada no usurio assuntos 56-59, 169, 172;
fenmeno da recuperao ex- mos 358-366 Gunzc!, S. 241,408 Hobbs, E.T. 241, 407 9-13, 90; colaborntiva 11-12, classit1cados 163-178; de
...,
1

''li 446 INDEXAO E RESUMOS: TEORIA E PRTICA NDICE 447


!I autor 163; de citaes 179- Jonak,Z.208,416 Kurita, T. 220-221,235,418 Li!ley, O.L. 8 I Maron, M.E. 13, 32, 187, 199, dicus; Medica/ Subject Hea-
lt 182, 318; de tinnl de livros Jones, E.K. 221-222,416 KWIC duplo 56 Lindberg, W.H. 268, 429 268, 283, 332,400,421 dings; MEDLARS; National
::< 67, 292-293; de fmlUias Jones, GJ.F. 105,418 Kwok, K.L. 299, 418 linguagem natural: buscas em Margues, O. 219,421 Libnuy of Medicine
qumicas 174; de palavras- Jones, K.P. 24,313,416 Kwon, 0-W. 318,418 249-283; efeito na coerncia Marshall, C. C. 353, 422 Mehrotra, R. 215-216,220,
chave 54-57, 173; de tennos Jones, P.A 325, 425 da indexao 73-74; versus Martin, J.S. 304, 400 422-423
pemltltados 54-57, 179, 181; Jones,S. 326,349,416 LaBorie, T. 144,418 vocabulrio controlado 73- Martin, W.A. 265, 422 Mehtre, B.M. 219-220,423
impressos gerados por com- Jonker, F. 36,416 Lam-Adesina, A.M. 105,418 74, 254-259; \"er tambm Martinez, C. 292, 422 melhoramento da indexao
putador 52-59; KWAC 55-56; Jrgensen, C. 67, 185,214, Lancaster, F. \V. 3, 20, 31, 41, texto Martyn, J. 136, 143, 148,422 186-199
KW!C 54-58; KWOC 55-58; 230:231' 233, 416, 419 46, 67, 75,85-86,91,96, 99, linguagens de indexao ver Massey-Burzio, V. 67,422 Melucci, M. 353, 423
ps-coordenados versus pr- 108-111, 120, 134, 156-157, vocabulrios controlados matria indexvell5, 17-18, Meng, W. xiv, 423
_i( coordenados 38-39, 67 Kaiser, J.O. 59-60,416 192, 195, 197,263-264,266, lingustica: do texto 13; e re- 26 mensagens ao indexador 45-46
infixos 192-193 Kamat, S.K. 319, 410 272-273, 332, 337, 366, dao de resumos 122 Mathis, B.A 125-127,301, .\le.w ver Medicai Subjecr
INFQ;\!JNE 355-356 Karasev, S.A. 121,416 418-419,427,438 Lippincott, A. 242-243, 420 303-304,422 Headings
lntbmtedia Digital Video Kassirer, J.P. 335,416 Landeen, C. 31,404 literaturas: concisas 106-107; Matsumoto, Y. 130-131,321, Message Understanding Con-
Library 245-246 Kat9, T. 220-221,235,418 Larson, R.R. 319,419 desconexas 316; ultraconci- 424 ferences 31 O
INIS 23, 88 Katzer, J. 81, 416 Lawrence, S. 318, 341. 363, 419 sas 106-107 Matthews, D.A.R. 149,405 metabuscas 344-345
lNSPEC 251,261, 290; tesauro Kawaguchi, A. 351, 423 Lawson, M. 325,419 Liu, C.-C. 243,420 Maybury, M.T. 321,422 metadados xi-xii; para ima-
313 Keen, E.M. 56-59,67, 149, Lay, W.M. 56, 426 Liu, W. 228, 420 McCain, K.W. 95,269,422 gens 237; na Rede 345-349
lnstitute for Scientilic fntOr- 151, 156, 189, 262-263, 398, Layne, S.S. 13-14,218,233- Liu, X. 323, 410 McCaHum, S. 349,411 mtodo: Dannstadt 292; de
mation 56, 179-184 416-417 234,419 Liu, Y. xii-xiii, 217,420 McCoy, K.F. 328, 405 equipe na indexao 11-12,
instmmentos auxiliares: de Kehl, W.B. 251, 417 Leacock, C. 277,419 Louk;opoulos, L. 88, 420 McCray, A.T. 326,422 81-82, 188,217,364;de
busca 253-254; de indexa- Keister, LH. 233, 417 Lee, J.-H. 318,418 Lu, C. 319,420 McDermott, J. 268, 422 frequncia relativa 288; de
o 39-49 Kellman, S.G 211,417 legendns: techadns 235; na Lu, Q 237-238,243,420 McDonald, D.D. 198,333-334, ler e passar os olhos 24-26;
integrao de texto 327 Kent,A.151,192,195,417, indexao de imagens 228 Luhn, H.P. xi, 54, 286, 300- .422 democrtico de indexao
inteligncia artiticial 312-313 426 legibilidade dos resumos 126 302,305,332,420 McDonald, S. 220, 422 11-12,81-82,217, 364;ge-
interesses dos usurios 9-13, 36 Kerpedjiev, S.M. 328, 417 Lehmam, A. 322, 419 Lunin, L. 110-112, 130,420 McGill, M.J. 288, 295-298, danken de indexao 9
intemet 339-366; wr tambm Kessler, M.M. 297,299,417 Lehnert, W. 325, 334,404, 428 Luo, C. 220, 428 307,430 ~lETS 349
Rede Keyword and Context 55-56 lei de Bradtbrd 141-143 Lynch, C.A 339-340,350-351, McKeown, K. 321,323,407, Milstead, J.L. xii, 26, 423
lntner, S.S. 33, 88, 415 Keyword in Context 54-58 Leighton, H.V 343,419 420 422 minerao de dados verdes-
intnmet 134 Keyword out ofContext 55-58 Leininger, K. 75*76, 419 Lynch, M.F. 57,398,420 MeKinin, E.J. 269, 431 coberta de conhecimento
Introna, L. 351,415 Kheirbek, A. 352, 403 Leita, C. 356, 413 McLain, J.P. 28,401 minerao de texto ver desce-
invenes: indexao em Kim, \V. 316,417 leitura do documento 24-26, 113 Ma, W.-Y. 223,420 McNab, R.J. 243-244, 422 berta de conhecimento
apoio a 17 Kimbrough, S. O. 353, 400 Leonard, L.E. 68, 72, 75-77, Mnnrek, Y.S. 327,420 Masterplots 211-213 miniaturizao de textos 323-
Irving, H.B. 312, 415 King, R. 126,417 92-93,419 MaeDougall, S. 362, 420 Marhematical Reviews 103 324
', isolados 64 Klnsn, L. 235,410 Levinc, M.D. 225,411 MacEwon, A. 208,421 Meadows,AJ. 144,149,424 minirresumos I 10-l 12, 130
.: Israel, O. 325, 415 Klement, S. 37,417 Levinson, S.E. 247-248,419 Mngill, F.N. 211,421 mecnnismos: de buscas 339- Minka, T.P. 219,241,247,426
lyengar, S.S. 228,415 Klingbiel, P.H. 261,289,292, LEXIS 252,267-268 ~...tai,J.-E.II, 13,89,421 345; de metabuscas 344-345 Mintz, AP. 351-352. 423
'i. lyer, H. 318,415 417 Li, F. :di, 217, 419, 420 mnlinformail.o 351
!\fnlone, L. C. 313, 421
Medeiros, N. 356-357,422
Medica! Subject Headings 46-
Missingham, R. 358-359, 423
Knapp, S.D. 258, 274-275, 417 Li, Y. 225,419 Mitchell, S. 356, 423
Jackson, M.E. 357,415 Knight, K. 279,281,283,417 Librarian's lndex to the Inter- Mani,J. 235,310,320-321, 49, 159, 161-162, 313; ver Mittal, V.O. 326, 399
Jacobs, P.S. 250,276-277, Knorz, G 292, 417 net 356 323-325, 360, 411, 421 tambm lndex Afedicus; Mizzaro, S. 14, 156,423
326,333,338,415 Kolcz, A. 323, 417 Library and lnformaliOII Sei- Manjunath, B.S. 223, 420 MEDLARS; MEDUNE; Natio- modelos de resumos 121
Jacoby, J. 75, 76, 415, 431 Korotkin,A.L. 77,414 ence Abstrac/s 163-!64, mapas: de terminologia xi, na! Librnry of Medicine MODS 349
Jacs, P. 322, 360, 365, 415 Korycinski, C. 293, 418 167-169, 170, 171 336; meteorolgicos 221- medicina clnica, necessida- Moens, M.-E. 13,322,331,
Jagadish, H. V. 219,415 Kowitz, GT. 126,406 Library ofCongress: Classi- 222, 224; semnticos xi, desde resumos 119 335, 338, 423
Jahoda, G. 149,416 Krause, M.G. 218,418 fication 20, 319; Subject 336; visuais xi /.Jed!ndEx 312 Moghaddam, V. 221,423
Jain, R. 225-226,248,411,416 Krieger, T. 21 O, 418 Headings 23 marcao de termos em doeu- ~IEDL-\RS 75, 85, 99, 195, 264; Montngue, B.A. 192, 423
Janes,J.W.I04,416 Kubala, F. 244-245,418 Liddy, E.D. 67, 185, 339, mentos 40 ver tambm lndex Medicus; Montgomery, R.R 144,423
Janes, M. 144,411 Kuhlen, R. 338, 418 419-420 Mnrchionini, G 335, 421 Medicai Subject Headings; Mooers, C.N. 42-43, 40 I
Jansen, B.J. 341,416 Kuhns, J.C. 187,421 Liebermnn, H. 225, 420 Marcus, R.S. 151,421 MEDUNE; National Library Mooney, M. 356, 423
Janssen, P.J.F.C. 290-291,435 Kunberger, WA. 144,399 Lienhnrt, R. 230, 420 Markey, K. 76,217,218,267, ofMedicine Moreno, P.J. 239-240, 423
jargo nos resumos 114 Kupiec, J.M. 282,418 ligao de citaes 297-298, 421 /IIEDUNE 5, 269, 308-309, 335, Mostafa, J. 214-215,235,423
Johnson, F. C. 305,416 Kurfe!!rSt, M.l51, 431 315 Markkula, M. 236, 421 337; ver tambm lndex Me- Mowshowitz, A. 351, 423
448 INDEXAO E RESUMOS: TEORIA E PRATICA iNDICE 449
1-!CC 310 31-32 Ornager, S. 233-234, 425 PMEST 61 navegadores xi, 336;portais
Muddarnalle, M.R. 272, 424 Nomoto, T. 130-131, 321, 424 O'Rourke, A.J. 130,400 pontos de acesso 6-9, 254-256; Rafterty, P. 12,413 355-357, 362; resumos 324,
Mullison, W.R. 75, 192,424 Norgard, B.A. 313,427 Oswald, V.A, Jr. 288, 301, 425 duplicao 31; ver tambm Raghavan, V. V. 227,410 326-327,349, 359-360;
multidimensionalidade do nonnas: para indexao 24-25; Over, P. 3l0, 425 exaustividade da indexao Ragusa, J.M. 330, 427 spiders 340; transitoriedade
contedo 38 pnra resumos I 14; utilidade Owen, P. 360-361,425 pontuao: em estudos de co- Raiu, D. 197,427 de recursos 359; vis na 351
Mulvany, N.C. 67, 89,424 na avaliao 154-155 Ozaki, K. 227, 425 erncia 68-70; em estudos razes de pAlAvras ver trunca- redescoberta da rodA x-xiv
Munakata, T. 282, 424 Norton, M. 282, 427 de quAlidade 96-99; no sis- mento redundncia: de pontos de
MUSE 219 notcias 317 padro na avaliao da qual i- tema de cdigo sem<lntico Rajagopalan, R. 225,327,428 acesso 31; em resumos 129;
MUSEUM (base de dados) 215- notiticao corrente 184-185 dade da indexao 96-99 193-194 Ramsey, M.C. 223, 428 em textos 256; na indexao
216 nmero de tennos atribudos Paice, C.D. 303, 325, 425 Pooch, U. 343,416 Ranganathan, S.R. 60-62 34
msica: polifnica 243-244; ver exaustividade da inde- Palavra-Chave e Contexto 55- Popova, VN. 144,408 RantA, J.A. 204,428 remisso interfrasal 303
recuperao 241-244 xao 56 portais 355-357; de bibliote- Rapoza, J. 331,428 referncias negativas em resu-
Myers, J.M. 252,424 Palavra-Chave no Contexto cas pUblicas 356, 362 Rnsheed, MA 89-90, 428 mos 129
,,, Nagano, T. 283, 424
Oaknum, RL 327,424
obras de lico: coerncia na
54-57
Palavra-Chave tbra do Con-
pscombinao wr ndices
ps-coordenados
Rasmussen, EJ,I. 214,232,
403,428
registro dos tem1os de indexa-
o 39-46
'
Nakamma, Y. 225, 424 indxaiio 208; indexaiio texto 54-57 Postulate-based Permuted Rasmussen, L.E. 251,414 Reich, P. 72, 75, 428
~i Nam, J. 230, 424 199-213; resumos 210-213 palavras ausentes do vocabu- Subject lndexing 63, 65 rastreamento de eventos 322- Reighart, R. 317,348,409
Nasukawo, T. 283, 424 obras de referncia na indexa- lrio 239 Potter, W.G 356, 415 323 Reimer, U. 304, 411
National Aeronautics and iio49 Panofsky, E. 218 Pozzi, C. 327,427 Rath, G.J. 124, 151,428 Reisner, P. 275-276, 428
Space Administration 264- O'Brien, A. 25, 91,403 Pao, M.L. 299, 426 Prabha, C. 31,427 Rau, L.F. 277,326,334,415 reivindicaes do autor 37
265; ver lambm Center tOr observao de usurios de in pargrafos em resumos 117 Pragmatic Approach to Ravela, S. 220, 428 relaes: associativas 19; es-
AeroSpace lntbnnation dices 156 pares de coerncia 68 Subject lndexing 59 Reamy, T 318,365-366,428 prins ver associaes fa!-
Nationallnstitute ofStandards OCLC 207,319,348,353 parsing ver :mlise sinttica prtica da indexao 24-49 recentidade dos termos 257 sas; relaes incorretas entre

i fi and Technology 249


National Library of Medicine
26,40-41,45-49, 70,95-99,
OCLC/LC Fiction Project 207
O'Connor, B.C. 231,410,424
O'Connor, J. 256-257,290, 424
PAtel, N. V 246, 426
Patent and Trademark Oftice
43-44
PRECIS 53, 62-63, 177-178
Preschel, BJvt. 15, 18, 26, 77,
427
recuperabilidade: dos regis-
tros 7-9, 145-150; dos resu-
mos 129-131
tem1os 190-197,255-256
relevncia 3, 14-15, !56; pre-
visibilidade da 124;
'!,
187,312,313, 326; ver O'Connor, J.G. 144, 149,424 Patrick, T.R 224, 426 Preserved Context lndex Sys- recuperaiio: de udio 237- rendimentos decrescentes na
tambm lndex Medicus; Odlyzko, A.M. 359, 424 Payne, D. 115, 127,392-393, tem 53,62-63,65, 177-178 248; de documentos falados cobertura de bases de dados
Medica/ Subjecl ffeadings; Ogle, VE. 220,235,424 426 Prevel, J.J. 72, 77, 408 237-241; de msica 241- 140-143; na indexao 32
MEDLARS; MEDUNE Oh,S.G.17,424 Paynter, G.W. 326,349,416 previsibilidade: da relevncia 244; pela melhor coincidn- representao matricial de sis-
National Technical lnfom1n Ojala, M. 327,424 Pazienza, M.T. 326, 426 124-125, 151-152; na inde- cia 305-310 tema de recuperao 39-40
tion Service 187 Olafsen, T. 17-18,424 Pejtersen, AM. 199,204-206, xao 36 recuperao da intbnnao: representaes I, 284-286;
natureza indetenninada da Olason, S.C. 149,424 211,213,426 Price, D.S. 33, 122,427 eticti.cia 1-5, 83-85; funes textuais de imagens 215,
indexao 82, 285 Olderr, S. 204, 207-208, 425 Pentland, A. 225, 426 Price, R. 226, 427 dos resumos 7-8, 129-131; 216-218
Navol Postgraduate Schoo1226 Oliver, D.E. 312,425 Pereira, E 240, 426 princpios: da indexao 623; problemas J-5, 284-285 Resnick,A 151,428
navegadores da Rede xi, 345 Oliver, LH. 25, 77, 89, 91, Pereira, F.C.N. 276, 426 da redao de resumos 113 recursos auxiliares: de busca Resnikon: H.L. 116,428
necessidades dos jornalistas 417,425 Perez, E. 258, 272, 426 134,392-393 253-254; de indexao 39-49 resultados negativos 37
233, 236 Olson, H.A. 255, 425 Perez-Carballo, J. 315, 363, 397 profundidade da indexao redao de resumos 113-134; resumidores 122-123; como
Nelson, L. L 309, 400 omisses na indexao 85-86 pennutaiio de tennos 51 28-29 em linha 119120 indexadores 123
Nelson, M. 242, 243, 406 O'Neill, E.T 31, 346, 425 Permne, rvt.P. 279, 426 programas de conlputador Rede (\Veb) 221-226,339- resumos 100-134; auton}ti-
NEPHIS 58-59, 65 Onyshkevych, B. 325, 425 Perry, J.W 192, 195,426 para classiticao 318-319 366; bases de dados biblio- cos 300-305, 320-328; com
Nested Phrase Jndexing Sys- Opcn Directory Project 348 Petkovic, D. 239, 433 projeto Scorpion 319, 348, 353 grficos na 344-345; classi- inclinao para um assunto
tem 58-59, 65 Opcn Video Project 227 Petrarca, A. E. 56, 426 pronturio mdico 312, 323, ticao aplicada 318, 353- 102-103, 134; como base
Newell, A.F. 293, 418 operaes automticas de re- Petrie, J.H. 57,420 325, 335 355; crawlers na 340; des- para indexao 25; crticos
NEX!S 337 cuperao 305-310 Picnrd, R.W 219,241,247,426 coberta de conhecimento na 103; de autor 103; de qua-
Nichols, O.D. 43-45, 434 operadores 63-65; mtricos Pickens, J. 243,426 Qin, J. 74, 282, 427 282; extrao na 325-326; dro-chave 229; descritivos
Nielsen, HJ. 208-209,424 253 Pinto, M. 122,427 qualidade: da indexaiio 83- ttores de qualidade 358- ver resumos indicativos;
Nielsen, L.K. 55,413 Oppenheim, C. 144,344,425 pinturas, indexao 227 99;dos recursos da Rede 359; imagens na 226,227- diagramticos 106; dinmi-
Nissembaum, H. 351,415 Orbach, 8. 218,425 Piternick, A. 273, 427 356-357; dos resumos I 13- 228, 231; indexao da 25 cos de vdeo 229-230; e in-
niveis: de abstrao na inde- ordem: de citao 60-65; pre- Pitkin, R.!v-1. 127-128,427 134; dos t!tulos 54-55; em 26, 318, 341, 360-361; me- dices, comparao 6-7; em
xao de imagens 215-216; thida 60-65 Pince, E. 357,427 relaiio com a coerncia 91- canismos de busca 339-345; diagrama de bloco 106; em
de coordenao 66-67 Organizao Internacional de planilhas para resumidores 120 93; liltro de 356 mecanismos de mctabuscas realce 322; estruturados
nvel ideal de exaustividade Nommlizai'io 24-26, 155 Plaunt, C. 3 13, 427, 438 Query by lmage Content 219 344-345; metldados 345-349; 10;-107, 117-119, 126, 130;
Jll i11
f!1 i .. 450 451
INDEXAO E RESUMOS: TEORIA E PRTICA iNDICE
' ,
,:-- exerccios 383-391; fnali- Sa!ton, G xi, !S, 152,264, Silvcster, J.P. 239,292,3 I 1, sobrecmga dn salda 31, 270 65-66 The, L 330, 434
43[ ThelwnH, M. 344, 434
1' dade 103-104; fonnatoll5-
122; indicativos 101-102;
268, 288, 293, 29;-296, 299,
307,321,327,332,335,
Social Sciences Citafion /ndex Systematized Nomenclature
ofHumnn and Veterinary Thesaurus of ERIC descrip-
!": informativos 101-102; !egi- 352, 430
similaridade interdocumentos
327
179-ISI
Medicine 312 tors 78-81
Sociology of Education Abs-
bilidade 116; 'mais infor- Sandore, B. 67.418 Simmons, R.F. 332 tracls 170-171, 175-176 Thompson, C.W.N. 152, 434
mativos' 104-107,117-119, Santini, S. xiii, 430 simpliticao dos ndices, Soergel, D. xiv, 46,261,432 Taddio,A. 117,434 Thompson, H.S. 152,401
126, 130; modulares lOS- Sapp, G 204, 430 tendncia de 184-185 Solov'ev, V.!. 120-121,432 Takeshita, A 235, 434 Thompson, R. 319,434
til, l20, 134, 394-396; Saracevic, T. 81, 151, 280, 430 simulaes de recuperabilida- Sormunen, E. 236, 421 Tancredi, S.A. 43-45, 434 Thorpe, P. 139, 149,434
orientados para o leitor 116; saturao, efeito de 71-72 de 146-149 Souter, C. 314-315,429 Taube, M. 250-251 Tibbo, H. R. 76, 115, 434
orientados para resultados Sauperl, A 25, 430 Singhal, A. 240, 43 I spamming 33, 122, 340, 350- Technische Hochschule T!DES 310
116; redao com ajuda de SaviC, D. 319,430 Sinha, P.K. 59, 406 351 Darmstadt292 Tinker, J.F. 15,74-75,434
computador 320; telegrt1- Savoy, J. 18, 352, 430 Sinnett, J.D. 75, 192,431 Sparck Jones, K. 33,280-281, teclado virtual 328 TIPSTER 127,249, 3[
cos 112, 192-195; utilidade Schettini, R. 226, 403 sintaxe na indexao 63, 190- 3l0, 337,432 Teich, E. 327, 398 ttulos no acesso temiltico 54-
127; validade de contedo Schiftlnan, B. 323, 430 195 SPINDEX 59 Tell, B.V. 77,434 55
125 Scholars Portal 357 slntese na c!assit1cao 22-23, Spine!lis, D. 359, 432 tempo verbal nos resumos 114 Todeschini, C. 88, 435
retroalimentao de relevn- Schreiber, ATh. xi, 430 60 Spink,A.231,410 Tenopir, C. 268-269,271,434 Tolstenkov, A. 88, 435
cia 226, 232 Schroeder, K.A. 37,216,430 Sistema Internacional de In- spoofing 33, 122,340, 350- teorias da indexao 35-37 tom na recuperao de msica
]"
reunio de indexao e rcsu Schwarz, C. 339,341,430 fomtao Nuclear 23, 88 351 TERM {base de dados) 274-275 242
mo 123; finalidade 103-105 Scieni:e Cilafion !ndex 119 sistema: CITE 308-309; de in- Srihnri, R.K. 225, 432-433 tenninologia: do autor: 113- Tong, R.M. 269, 435
reunies eletrnicas 317 scoring ver pontuao dexao de frase encai.xada Srinavasan, P. 353, 433 114; explanao sobre x-xiv; Torr, D.V 156,435
Reuters Ltd. 317 Scorpion, projeto 319, 348, 353 58-59, 65; PASI 59; POPSI Srinavasan, S. 239, 248, 433 termos: atribudos pelos usu- traduo da an!ise conceitual
revisor na indexao 86-87 Scott, O. \V. 217,430 63, 65; QBIC 219; Show & Srivastava, J. 343, 419 rios 11-12,82,217,363-364; 18-23; coerncia na 77-82;
RibeiroNeto, 8. 315,428 segmentao 189-190,270 Tetl225; S!'>"IART 243, 264, Stanfi\1, C. 277, 337,433 combinao de 23, 34-35, 51; falhas na 85-86
Rickman, R.M. 225, 428 Sekerak, R.J. 145,430 307-308, 3!9; STAIRS 268; Stantbrd University 227 de indexao \'e r descritores; transitoriedade na Rede 359
-.;; Riloft: E. 334, 428 seleo de fi-ases 300-305, Uniterm 19, 196, 250-251; pr-impressos 40-43; recen- Tnmt, J. 235, 435
Staveley. M.S. 353, 400
' Rindllesch, T.C. 312, 326, 320-328 VISION 226-227 Stiles, H.E. 295, 316, 430, 433 tidade 257 Trawinski, B. 118,435
428-429 Selective Listing in Combina sistemas: de informao geo- Stock, O. 282, 328, 433 tesauro 19-23: automtico 275, TREC 241,249,278-282,310,
Rinker, C. C. 289, 417 tion 52 grt1ca 221-222, 224, 315; Stonebraker, M. 220, 235, 424 296,298, 319; de busca ver 317,335
Ro, J.S. 269, 429 Se!ective Pennutation lndex de infOrmao juridica 251- Stonham, T.J. 225, 428 vocabulrios ps-controla- triagem da sada 85
Roberts, O. 314-315,429 59 252, 267-268; de perguntas s!OI)'boards 229 dos; desenvolvimento 251; Trippe, B. 316,354-355,362,
Roberts, S.A. 139, 144,401 Selon: GA. 237,430 e respostas 281-282; de Strza!kowski, T. 278-280, 433 do usurio final 276; em 435
Robertson, S. E. 156,429 Selye, H. 65-66, 431 diagnsticos mdicos 335; Stubbs, E.A. 77, 93, 433 crescimento 275-276, 352; Troitskii, V.P. 199,435
Robinson, J. 144,429 Semeraro, G. 278, 332, 431 hibridos 272-273; nltlltimi Studwell, \V. E. 362, 433 para indexao de tico Trubkin, L. 291, 435
roda: redescoberta da x-xiv semiticn I 3 dias 244-246 Stursa, M.L. 149,416 209; visual237 truncamento'253-254
Rodgers, D.J. 77,429 seqenciamento de resumos sistemas especialistas: na Su, L.T. 343, 433 teses, resumo de 121 Trybula, W.J. 282,435
Ro!ling, L 68-69, 93-95, 96, 116117 c!nssit1cao 3 18-319; na subcabealhos 50-51, 66, 70, Tessier, J.A. 352-353,434 Tsai, P. J. 243,420
4

4l9 seqUestro de pginas 340, indexao 3 12; na redao 196-197; efeito na coerncia Tewtlk, A. H. 230-231, 424 Tse, T. 229,435
romances ver tico 350-351 de resumos 320; no treina- da indexao 75; efeito na Text Retrievnl Conferences 241, Tumor key 47-49
rostos: imagens 225-226, 228 servios: de atendimento aos mento 312 qualidade da indexao 90 249, 278-282. 310, 317, 335 Turban, E. 330, 427
rotao de temws 52-54 clientes 283, 328-333; im- Slamecka, V. 7576, 415,431 subatribuio 291 texto: ampliao 327; buscas Turner, J.M. 233, 234, 435
rtulos que identificam elas- pressas de indexao e resu- Slnter, M. 136, 143, !43, 422 Subject Prot1!e lndex 59 em 249-283; categorizailo Turtle, H.R. 331 332,405
4

ses 21 mos 50-67, 158~185 Small, H. 297,432 sumarizao: da fala 244 245;
4
3 17 3 I 8; condensao 304;
4

Rowe, N.C. 226-229,411,429 Sethi, I.K. 246, 426 Smal!ey, T.N. 144,432 de multidocumentos 323; custos de processamento Uhlmann, \V. 272, 435
Rowley, F. A. 276, 398 Shath, K.E. 348, 431 Smeaton, A. F. 281, 300, 352, do texto 320-328 334, 336-337; extrao 225, UMLS 292,312,314,326
Roydhouse, A 221-222, 416 Sharp, J.R. 52, 431 397,432 Sundheim, B.M. 334, 433 228, 315, 326327; gerao UNHIS tltesaurus 254-256
Rger, S.M. 243, 406 Shatfbrd, S. 11.218,431 Smith, F.J. 241,432 Sutclitl'e. A. 233, 433 327; mapas de relaes 307- unitermos 19, 196,250-251
i
Runde, C.E. 268, 429 Shaw, W.M., Jr. 33, 299, 431 Smith, GL. 327,432 Sutton, S.A. 349, 433 308; miniaturizao 324; Unit1ed Medicai Language
I Rush, J.E. 301,302-303,429 Shepherd, G.W. 204,398 Smith, J.R. 220, 228, 432 Svcnonius, E. 2 I 8, 434 sumarizaii.o 320-327; vin
4
System 292,312,314,326
Shirey, D.L. 151. 431 Smithsonian Science lntOm\a- Swanson, D.R. 156,260,316, culailo 327 University ofNorth Carolina
Saarti, J. 209-210,429 Shneidemwn, B. 241,431 tion Exchange 265266 434 texto livre ver linguagem 227
Saggion, H. 321, 429 Shuldberg, H.K. 325,431 Sneiderman, C. A. 326, 432 Switt, D.F. 13, 16, 199,433 natuml University o f Pittsburgh 251
Salager-Meyer, F. 126, 429 Sievert, M. 269, 43 I SNOMED 312 Sydes, M. 126,412 textura: de sons 241; em ba- usabilidnde dos ndices 149
Salisbury, B.A., Jr. 295, 430 siglas e abreviaturas 113-114 Snow, B. 309, 432 Symbolic Shorthand System ses de dados de imagens 223 usurios: de ndices !56; inte-
452 INDEXAO E RESU!v!OS: TEORIA E PRTICA
'i resses9-13,36 Voorbij, H.J. 31,436 Williamson, R.E. 269, 399
Utltumsamy, R. 282,330,407, Voorhees. E.M. 241,279, 282, Wilson, H. \V., Co. 159, 164
435 310,335,436 Wilson, P. l3, 156,438
voz ativa ou passiva em resu- Winkler, M.A. 128, 438
Vailaya,A. 227,435 mos 114 \Vise, A 357,398
validade: de contedo e Witbrock, M.J. 235, 438
preditiva dos resumos 125; Wactlnr, H.D. 245-246,347, Wolfram, D. 30, 353, 405, 438
van der Meij, H. 149,435 436 Wong, K.-F. 15,438
Van der Meulen, W.A. 290- Walden, S.H. 329-333,397 Wood, J.L 144,438
291,435 Walker, R.S. 207,436 \Voodland, P.C. 239, 438
vp.n der Starre, J.H.E. 218,436 Walsh,J. 331,436 Woodrun: A.G 315, 438
Van Oot, J.G 192, 436 Waltz, D.L. 277,337,433 Wooster, H. 15.438
Varney, S. 331,436 Wang, H. 326, 437 wordsmith 348
Vickery, B.C. 192,436 Wang, J.Z. 221,227,236,436 World \Vide Web ver Rede
:~ vdeos: anotao 225; resu- Wanger, J. 268,271,437 Worthen, D.B. 299, 426
mos de 228-230
. :j l;. vis e censura: na indexao
\Vamer, A.J. 3, 156-157,366,
418'419
\Vright, L. \V. 314,438
Wu, J.K. 220,225,227,438
''
' 33; na Rede 351 Watters, C. 225,326, 361- Wu, Q. 228, 438
Villarroel, M. 12, 188,364, 436 362,402,437
vinculao de texto 327 Web ver Rede Xu, H. 31,438
vnculos de hipertexto 18,299, Wechsler, M. 238-239, 437
308,327,352-353 Weeber, M. 326, 437 Yang, Y. 312,317,322,334-
Vinsonhaler, J.F. 125, 436 Weil, B.H. 116,437 335, 403, 438
I i' I Virgo, J.A. 149,436 \Veimonn, J.M. 319,404 Yates-Mercer, P.A 149, 407
L Vizine-Goetz, D. 348, 353,
413,436
Weinberg, B.H. 12-13, 16,
360-361,437
Yerkey,A.N. 106, 149,399,
438
Vleduts-Stokolov, N. 188,291, Weinstein, S.P. 317, 337, 412 Yu, C.T. 228, 398
436 Weld, D.S. 359, 437 Yu, K.-1. 252, 438
vocabulrio: contraindo 1-2, Wellisch, H.H. 360, 437
19-23, 74, 253-259; de en- Wells, A.T. 355, 437 Zechner, K. 244, 439
trada 46-49; definio Westberg, S. 208, 437 Zeng, M.L. 349, 439
90;efeito na coerncia da Western Reserve University Zhang, J. 30, 438
indexao 73-76, 77; efeito 112, 192-195 Zhnng, Y. 299, 430
na qualidade da indexao WESTLAW 251-252,267 Zholkova, A. I. 105, 439
90; hierrquico, exibio Wheat!ey, A. 343, 349, 437 Zltu, 8. 223, 439
162; para imagens 237; White, H.D. 94-95, 437 Zich, B. 345, 439
ponte 291; ps-controlado Wilbur, \V.J. 316, 326, 417, 437 Zins, C. 353-354,439
254, 273-276; prescritivo Wi!kinson, D. 143,437 Zizi, M. xi, 336, 352, 439
75; sugestivo 75; ver Iam- \Vilks, Y. 277,336,409, 437 Zunde, P. 68-69, 76, 439
bm tesauro Williams. M. 190,270,437
Williams, r..!. E. 253, 437 Zweigenbaum, P. 326, 400
Vokac, L. 17-18, 424

Vous aimerez peut-être aussi