Vous êtes sur la page 1sur 23

1

UNIVERSIDADE FEDERAL DE MINAS GERAIS


BIBLIOTECA UNIVERSITRIA

CURSO DE INDEXAO
Princpios e tcnicas de indexao, com vistas
recuperao da informao

Belo Horizonte
2004

Sumrio
1 A RECUPERAO DA INFORMAO E SISTEMAS DE
RECUPERAO DA INFORMAO............................................................2
2 O INDEXADOR.............................................................................................3
3 O PROCESSO DE INDEXAO..................................................................3
3.1 Anlise de assunto........................................................................................5
3.1.1 A leitura do texto pelo indexador..............................................................5
3.1.2 Extrao de conceitos................................................................................6
3.1.3 Determinao da atinncia........................................................................9
3.2 Traduo da frase de indexao para linguagens de indexao...................9
3.3 Linguagens de indexao...........................................................................10
3.3.1Objetivos..................................................................................................11
3.3.2 Funes...................................................................................................11
3.3.3 Construo de linguagens de indexao.................................................11
3.3.4 Componentes da linguagem de indexao..............................................12
3.3.4.1 Vocabulrio..........................................................................................12
3.3.4.2 Sintaxe..................................................................................................13
3.3.5 Linguagens verbais..................................................................................14
3.3.6 Linguagens simblicas............................................................................14
3.3.6.1 Sistemas de classificao.....................................................................14
3.3.6.2 Como classificar...................................................................................15
3.3.7 Linguagens pr-coordenadas...................................................................15
3.3.7.1 Caractersticas da pr-coordenao......................................................16
3.3.7.2 Vantagens.............................................................................................16
3.3.7.3 Desvantagens........................................................................................16
3.3.7.4 Ordem de citao..................................................................................17
3.3.8 Linguagens ps-coordenadas................................................................. 18
3.3.8.1 Caractersticas da ps-coordenao.....................................................18
3.3.8.2 Vantagens............................................................................................19
3.3.8.3 Desvantagens.......................................................................................19
3.3.9 Avaliao das linguagens de indexao.................................................19
3.4 Consistncia da indexao.........................................................................20
3.5 Indexao automtica versus automatizada...............................................21
Referncias......................................................................................................22

PRINCPIOS E TCNICAS DE INDEXAO, COM VISTAS


RECUPERAO DA INFORMAO
Profa. Madalena Martins Lopes Naves
madalena@eci.ufmg.br
1 A RECUPERAO DA INFORMAO E OS SISTEMAS DE RECUPERAO DA
INFORMAO SRI
A recuperao da informao consiste numa multiplicidade de operaes consecutivas,
executadas para localizar uma informao necessria ou documentos que a contenham, com
a recuperao subseqente desses documentos.
A recuperao da informao afeta o bibliotecrio, como profissional que pretende
satisfazer a necessidade social do homem: ter acesso a diversos tipos de informao. O
problema da recuperao da informao pode ser visto,

por um lado, como uma

acumulao constante de um volume sempre crescente da informao e, por outro lado, o


crescimento e a complexidade , cada vez maior, das necessidades de informao.
A RI efetuada por meio de Sistemas de Recuperao da Informao, e um SRI uma
organizao para armazenar e tornar disponvel a informao, podendo ser um catlogo,
uma base dados, etc., e deve ter os seguintes componentes:
-

Seleo e Aquisio O incio de um SRI se d pela formao de um conjunto de


documentos previamente selecionados e adquiridos dentro dos critrios estabelecidos
pela instituio que o mantm e de acordo com os objetivos a que ele se prope atingir.
No estabelecimento de uma poltica de seleo das informaes que alimentaro o
sistema, fundamental que o usurio possa se manifestar e seja ouvido.

Indexao - considerada a parte mais importante para a eficcia de um SRI

Em qualquer SRI, os documentos podem ser analisados de duas maneiras:


a) bibliogrfica ou objetivamente trata-se do tratamento descritivo dos documentos, em
que so identificados dados fsicos do documento, como autor, ttulo, edio, local de
publicao, editora, data da publicao. So dados objetivos, pois esto explcitos,
geralmente, na capa e folha de rosto. Existem regras para este tipo de anlise.

b) intelectual ou subjetivamente trata-se do tratamento temtico dos documentos, em que


so definidos os termos do seu contedo, ocorrendo a o processo de indexao de
assuntos. Para este tipo de anlise, no existem regras fixas que a padronizem.
Esta apostila trata, exclusivamente, da segunda anlise citada acima, e se aprofunda no
processo de indexao de assuntos, com vistas recuperao da informao. importante,
se conhecer, inicialmente, um pouco das caractersticas do profissional que executa a
indexao, o indexador.
2 O INDEXADOR
O profissional da informao que desenvolve a atividade de indexar assuntos de
documentos chamado de indexador, catalogador de assuntos ou classificador. A maioria
desses profissionais graduado em Biblioteconomia, e deve conhecer os fundamentos
tericos e tcnicos do tratamento temtico da informao.
Um dos fatores que interferem no trabalho do indexador a subjetividade, inerente ao ser
humano e difcil de ser controlada. Vrios outros fatores so verificados, ainda, como
interferentes no processo de indexar, como o conhecimento prvio (conhecimento de
mundo, conhecimento tcito) adquirido ao longo da vida, a sua formao e a experincia no
trabalho de indexao. No entanto, o conhecimento da rea de atuao um fator
importante a ser considerado, j que o domnio da terminologia e o conhecimento da
taxonomia das classes de assuntos da rea em que est atuando, auxiliam muito o trabalho
de se extrair o contedo de documentos.
Observa-se, ainda, a interferncia de fatores lingsticos, (como o conhecimento da lngua,
do vocabulrio e da sintaxe, alm da identificao de tipos de estruturas textuais), fatores
cognitivos (capacidade de abstrao, percepo e interpretao de informaes contidas nos
textos analisados) e fatores lgicos (elementos de deduo, induo, inferncia, silogismo e
outros), o que torna o estudo do processo de indexao altamente interdisciplinar.
3 O PROCESSO DE INDEXAO
No campo do tratamento da informao, o termo indexao apresenta dois sentidos: um
mais amplo, quando se refere atividade de criar ndices, seja de autor, de ttulo, de
assunto, tanto de publicaes (livros, peridicos), quanto de catlogos ou de banco de

dados, em bibliotecas ou centros de informao. O outro sentido, mais restrito, refere-se


indexao, classificao ou catalogao de assuntos das informaes contidas em
documentos.
Os ndices podem ser encabeados e ordenados por autores, ttulos, lugares de publicaes,
etc. mas, freqentemente, a idia de RI est ligada recuperao de documentos pelos
assuntos que tratam.
ndice tem sido descrito como a chave para o acesso ao contedo dos documentos, ou como
uma ponte ou elo entre o contedo de um arquivo e seus usurios.
Um ndice o instrumento mais importante num SRI. Indexar o ato de incluir o registro
de um documento num arquivo de informaes.
Na literatura feita essa distino: a indexao back-of-book (primeiro sentido citado)
permite ao leitor localizar informao sobre um tpico dentro do livro, sendo a tarefa do
indexador ler o texto, distinguir entre informao relevante e perifrica e empregar os tipos
de processamento de informao presentes na leitura. Por sua vez, a indexao acadmica
(segundo sentido citado) fornece um termo til estabelecido pela indexao praticada em
bases de dados de resumos e em catlogos de bibliotecas.
Esta apostila concentra-se nos aspectos da indexao acadmica, que compreende duas
etapas distintas: a anlise de assunto, quando ocorre a extrao de conceitos que possam
representar o contedo de um documento, expresso em linguagem natural, e a traduo
desses conceitos para termos de instrumentos de indexao, que so as chamadas
linguagens de indexao, linguagens artificiais ou linguagens documentrias.
Indexao o processo de discernir a essncia de um documento e representar essa essncia
num modo de expresso em linguagem de indexao. Alguns autores denominam esse
processo de anlise documentria, que definida como um conjunto de procedimentos
efetuados com o fim de expressar o contedo de documentos, sob formas destinadas a
facilitar a recuperao da informao. Essa passagem de um texto original para um tipo de
representao uma operao semntica, mesmo que no obedea a nenhuma regra precisa
e varie em funo de cada organismo e do analista, que seleciona as palavras-chave,
normalmente de forma intuitiva, em funo de sua ocorrncia e do seu interesse para a
instituio.

3.1 Anlise de assunto


Esta a primeira etapa da indexao, considerada por muitos como a etapa intelectual do
trabalho do indexador. O processo de ler um documento para extrair conceitos que
traduzam a sua essncia conhecido como anlise de assunto para alguns, anlise temtica
para outros, ou, ainda, anlise documentria, anlise conceitual ou, mesmo, anlise de
contedo. Como se pode ver, trata-se de um processo em que h uma certa confuso
conceitual e para o qual aparecem diferentes concepes.
A anlise de assunto feita pelo indexador humano se d em dois momentos: quando ele vai
analisar um documento para inseri-lo num SRI, e quando recebe um pedido de informao
do usurio.
O processo de anlise de assunto compreende trs fases:
3.1.1

A leitura do texto pelo indexador

O texto o ponto de partida para operaes analtico-documentrias, sendo constante a


presena dos elementos contedo e forma, como partes essenciais do mesmo. Para ter uma
competncia textual preciso que, alm de conhecer o texto que tem em mos para anlise
sob todos os aspectos, o indexador faa dele uma leitura adequada, e sabe-se que um texto
pode gerar muitas leituras, interessando mais, neste estudo, a leitura para fins
documentrios.
Para que os contedos dos textos sejam assimilados e compreendidos, preciso que as
informaes sejam processadas na mente do leitor e, atualmente, parece ser consenso entre
os especialistas em leitura que o processamento do ato de ler se d interativamente,
dependendo dessa interao a no compreenso ou a compreenso de um texto. Durante a
compreenso do texto pelo indexador, ocorrem dois tipos de processamento mental da
informao: o top-down e o bottom-up, que parecem ocorrer simultaneamente na mente
humana ao fazer a leitura de um texto. So inversos e complementares, e chamados por
alguns autores de modelos de leitura: o tipo ascendente, guiado por dados, indutivo,
bottom-up, no qual a leitura linear, das partes para o todo textual, e o tipo descendente,
dedutivo, top-down, no qual se move na forma inversa, obtendo vantagem da base de
conhecimento do leitor. Trata-se de uma dupla ao: percepo e compreenso.
A interferncia de vrios fatores subjetivos/cognitivos torna a leitura um ato subjetivo e
individual, posto que o sentido dado ao texto lido sempre vai variar de leitor para leitor.

Diante disso, o que poderia ser afirmado com relao leitura para fins documentrios?
Existe algum modelo a ser seguido? E com relao ao leitor/indexador?
Um documento, inserido num SRI, antes de ser lido pelo leitor, usurio final do sistema,
lido por um leitor tcnico, o indexador, aquele que faz a leitura para fins documentrios.
Esse tipo de leitura, conhecido como leitura documentria ou leitura tcnica, tem certas
caractersticas, no sendo realizada para lazer ou aprendizagem, nem prazerosa, muito
pelo contrrio. O alto grau de incerteza , ansiedade e responsabilidade contido na atividade
j mostra que a mesma traz pouca satisfao. um tipo de leitura bem racional e rpido,
em que o leitor tcnico no tem chances de aproveitar a leitura, j que seu propsito o de
extrair o contedo informativo do texto, tendo em vista a sua posterior recuperao por um
leitor interessado.
Outro aspecto que merece ser ressaltado que o autor do texto, ao escrev-lo, tem em
mente um determinado leitor alvo para o qual direciona suas idias; suas intenes no so
dirigidas para o leitor/indexador e no lhe interessa se esse vai ter capacidade para
interpretar as informaes que aquele texto est veiculando.
So vrias as tentativas de se estabelecerem alguns critrios e de sistematizar o processo de
leitura do indexador, mas no h um consenso quanto forma mais adequada de se fazer
essa leitura, visando extrao e ao posterior tratamento das informaes contidas no texto.
3.1.2

Extrao de conceitos

Para definir em termos adequados o assunto de um texto, necessrio que primeiro se


extraiam os conceitos que nele esto contidos. Se, para fazer uma anlise conceitual,
devem-se extrair conceitos, pergunta-se: o que um conceito?
Conceitos so unidades do conhecimento identificadas atravs de enunciados verdadeiros
sobre um item de referncia, representados por um termo ou palavra. uma idia, uma
representao mental que nos permite categorizar objetos. Existem tipos de conceitos,
como os individuais (representados por nomes de coisas individuais, em linguagem
simples) os gerais (representados por nomes de classes de coisas e podem ser expressos em
uma multiplicidade de expresses lexicais e no lexicais) os cientficos (podem ser
aprendidos na vida acadmica, e, depois, so estabelecidas conexes entre eles e os eventos
da vida diria) os cotidianos (so objetos usados normalmente, como roupas, carros).

A formao de conceitos um processo que envolve discriminao e agrupamento. Os


fatores que afetam o processo so experincia prvia, tempo, fatores sociais, etc.
Conceitos, palavras e significados: No h uma correspondncia exata entre palavras e
conceitos; h pelo menos dois conceitos que se apresentam quando vemos a palavra
volume. No somente as palavras estimulam diferentes conceitos para indivduos
diferentes, como, para o mesmo indivduo, de acordo com as circunstncias. Uma das
razes para os diferentes significados que diferentes palavras tm, para diferentes pessoas,
que h duas espcies de significado: denotao e conotao. Denotao de uma palavra a
coisa que ela representa ou a que se refere. Apontando para um gato, eu posso dizer: Isto
um gato. J a conotao de uma palavra altamente individual e pessoal. Se eu gosto de
gatos, minha conotao de gato inclui a noo de amizade, calor, etc. Se no, inclui mau
cheiro e grito noite.
Tipos de relaes entre conceitos (estabelece a sintaxe, abordada no item 3.3.4.2)
a) Relao de eqivalncia

Sinnimos: Meio ambiente X Ecologia

Quase sinnimos: Datiloscopia X Impresso Digital

Grafias diferentes: Contato X Contacto

Abreviaturas e Acrnimos: ONU X Organizao das Naes Unidas

Tradues: Recall X Revocao

b) Relao hierrquica

Gnero/espcie
Quase genrica: (Gato X Animal de estimao)
Verdadeiramente genrica: (Gato X Mamfero)

Todo/parte (Sistema respiratrio X Pulmo)

c) Relao associativa (afinidade ou de coordenao)

Coordenao: Terra X Marte

Gentica: Pais X Filhos

Instrumental: Escrita X Lpis

Concorrente: Ensino X Aprendizagem

Material: Livro X Papel

Similaridade de processo: Catalogao X Classificao

Duas variveis interferem na escolha de conceitos: a exaustividade e a especificidade.


Ambas dependem da poltica de indexao adotada no SRI, que deve seguir critrios prestabelecidos, tendo em vista os objetivos do sistema, os recursos disponveis e o tipo de
usurio.
A exaustividade relaciona-se capacidade do sistema de indexar o documento em
profundidade, ou seja, alm do assunto principal, so indexados tambm os assuntos
secundrios.
A especificidade a capacidade do sistema de nos permitir ser precisos ao especificarmos o
assunto de um documento.
Os s fatores de especificidade e exaustividade tm influncia em todo o processo de
recuperao da informao, havendo ligao desses com as medidas de revocao e
preciso. (conceitos abordados no item 2.2.2)
A anlise conceitual tem, como produto, um assunto, que representa o contedo
informacional de um texto. A noo de assunto de um texto indeterminada, pois h casos
em que impossvel, em princpio, decidir qual de duas diferentes e igualmente precisas
descries, a descrio do assunto, ou se o texto tem dois assuntos ao invs de um.
Tipos de assuntos: So identificados trs tipos de assuntos: assunto simples (formado por
um nico conceito). Ex: Indexao; assunto composto (formado por mais de um conceito
pertencentes a uma mesma rea do conhecimento) Ex: Indexao de materiais especiais
(so dois conceitos da Biblioteconomia); e assunto complexo (formado por conceitos de
reas diferentes) Ex: A arte como terapia para idosos (conceitos da Arte e da Psicologia).
A atividade de identificar a(s) idia(s) principal(ais) do texto exige a capacidade de
compreenso de seu contedo, o que est ligado a processos cognitivos.
Na determinao do assunto, preciso que se verifique o contexto no qual o documento
produzido e para o qual ele existe, em determinado momento.
Conceito, assunto e contexto so aspectos interdependentes que ocorrem durante todo o
processo de anlise de assunto, at o momento de se afirmar sobre o que trata o documento,
prxima fase.

10

3.1.3

Determinao da atinncia

Terminada a fase de extrao de conceitos, necessrio que se faa uma seleo daqueles
que realmente sintetizem o assunto do texto, partindo-se, assim, para a terceira fase do
processo de anlise de assunto, que a determinao da chamada atinncia, termo
traduzido do ingls aboutness.(outras tradues: concernncia, sobrecidade, temacidade)
Nesta fase da determinao da atinncia para representar os conceitos extrados do texto,
inicia-se um processo lingstico e o problema de descrever documentos para recuperao
, principalmente, o problema de como a linguagem usada. H uma forte relao entre a
atinncia do documento e seu(s) significado(s) identificado(s) pelos indivduos. Um texto
tem uma atinncia relativamente permanente, mas um nmero variado de significados.
O produto final da atinncia uma frase de indexao, elaborada pelo indexador em
linguagem natural. Aps todo o processo intelectual de leitura do texto, de extrao e
seleo de conceitos, o momento em que ele afirma: Este documento trata de..........
Das etapas de indexao, a anlise de assunto a que sofre mais influncia da subjetividade
do indexador, sendo, por isso, considerada muito complexa. Por todos os aspectos
considerados neste item, pode-se concluir que essa no uma atividade possvel de ser
ensinada, no havendo uma receita, ou uma rotina a ser seguida no desenvolvimento da
mesma.
Tentativas de automatizar a anlise de assunto j vm sendo implementadas em pesquisas
de cursos de ps-graduao, mas pode-se verificar que, por enquanto, o limite da mquina
ainda a capacidade humana de percepo e abstrao.
3.2 Traduo da frase de indexao para linguagens de indexao
Quando termina a primeira etapa da indexao, com o(s) assunto(s) j definidos em
linguagem natural, chega o momento de inseri-lo(s) no SRI. Para isso, feita a traduo da
frase de indexao para os termos da linguagem de indexao, o que significa transformar
os conceitos selecionados em termos ou smbolos autorizados para represent-los no
sistema.

11

Quando indexamos um documento por assunto, ns o colocamos em uma ou mais classes, e


cada classe deve ter um nmero ou rtulo, que so chamados termos indexadores. O
conjunto desses forma a linguagem de indexao.
H dois mtodos fundamentais de indexar o assunto de documentos:
a) Indexao por palavras utiliza termos empregados pelo autor na apresentao das suas
idias, isto , as palavras encontradas nos ttulos ou nos textos dos documentos
Ex: A palavra mandioca traduz uma determinada idia, um dado conceito, que tambm
pode ser expresso pelas palavras aipim, macaxera.
Uma indexao por palavras registrar os documentos pelos termos utilizados pelos
autores, ou seja, na linguagem natural. O sistema indexar um documento sobre mandioca
e outro sobre aipim ( linguagem natural). Um exemplo tpico de indexao por palavra o
ndice KWIC (Key Word in the Context), que utiliza ttulos dos documentos. O que
acontece na recuperao de um documento cujo ttulo Feijo, angu e couve? A
recuperao s pode ser feita atravs dessas palavras, mas o assunto do documento
Costumes mineiros. O que acontecer com a recuperao deste documento?
b) Indexao por conceitos a indexao por conceitos pressupe a anlise de assunto do
documento, a deciso sobre conceitos presentes no texto e a traduo destes em
linguagem apropriada. Na indexao por conceitos, determinam-se os cabealhos a
empregar, distinguem-se homnimos, controlam-se sinnimos, prevem-se relaes de
eqivalncia, hierrquica e associativa.
importante ressaltar que o indexador deve estar familiarizado com a linguagem utilizada
no SRI, embora esta linguagem no deva influenciar a anlise de assunto dos documentos.
3.3 Linguagens de indexao
A linguagem de indexao aquela cujo objetivo representar o contudo temtico dos
documentos. Alguns sistemas utilizam a linguagem natural (escrita e falada, pouco usada
por apresentar grande inconsistncia) como linguagem de indexao e, nesses casos,
adotam como termos indexadores os termos na forma como aparecem nos documentos, sem
modificaes. Isso traz alguns problemas, como diferentes autores usando palavras diversas
para expressarem o mesmo conceito (disperso terminolgica) ou o caso do uso de
diferentes estruturas para expressarem a mesma idia (disperso sinttica).

12

No entanto, comumente, so utilizadas

linguagens artificiais. Essas refletiro um

vocabulrio controlado, para o qual foram tomadas decises cuidadosas sobre os termos a
serem usados, o significado de cada um, e os relacionamentos que apresentam.
Uma linguagem de indexao deve procurar indicar os relacionamentos entre os termos no
seu vocabulrio. Por exemplo, se um sistema inclui os termos ENSINO MDIO e
ESCOLAS PROFISSIONALIZANTES, pode-se indicar a relao entre esses dois termos,
pois um usurio, procurando informao sobre ensino mdio, poder encontrar documentos
relevantes sob o termo escolas profissionalizantes que, usualmente, se ocupam tambm do
ensino mdio. Uma linguagem de indexao que tem um vocabulrio controlado e que tenta
indicar as relaes entre os termos no seu vocabulrio chamada estruturada.
3.3.1 Objetivos:
-

possibilitar que o indexador represente os assuntos dos documentos de forma


consistente;

compatibilizar o vocabulrio usado pelo usurio com o vocabulrio usado pelo


indexador;

permitir ao usurio moldar a estratgia de busca de forma a obter alta revocao ou alta
preciso, conforme o exigirem as circunstncias.

3.3.2 Funes das linguagens de indexao:


-

substituir a grande variedade de expresses da linguagem natural por uma linguagem


formal;

estabelecer um ponto comum entre linguagem do autor, linguagem do indexador e


linguagem do usurio;

estabelecer um vocabulrio que mostre as relaes entre termos e conceitos: relaes


semnticas (equivalncia, hierarquia e associativa) e relaes sintticas (coordenao de
dois ou mais elementos para formar assuntos compostos)

economizar espao de arquivo;

ajudar na recuperao de conceitos especficos.

3.3.3 Construo de linguagens de indexao

13

A gerao de um vocabulrio controlado no uma tarefa simples, e tm-se verificado


vrias iniciativas nesse sentido, pela necessidade de se tratarem, cada vez mais, de assuntos
complexos que exigem uma anlise mais aprofundada e com alto grau de especificidade.
Alguns aspectos so levantados para a criao das linguagens controladas, como: gerar um
vocabulrio com base nos termos de indexao de um conjunto de documentos; modificar
um vocabulrio j existente ou extrair o vocabulrio de outro j existente; reunir termos de
diferentes fontes: especialistas da rea, dicionrios, glossrios, ndices, etc.
Um vocabulrio controlado deve ser capaz de representar conceitos que realmente ocorrem
na literatura do assunto. Este o princpio da garantia literria. importante ressaltar,
ainda, dois pontos que no podem ser ignorados na construo de uma linguagem, como
as questes formuladas pelos usurios, que devem ser levadas em considerao na
definio dos termos da linguagem, pois refletem suas necessidades de informao, e a
consulta a especialistas da rea especializada da linguagem.
Depois do levantamento dos termos, parte-se para o estabelecimento das relaes entre os
conceitos, podendo-se utilizar, para isso, a anlise facetada, que consiste na diviso do
assunto em facetas (categorias de assuntos). Passa-se a optar pelo melhor termo para
representar um conceito (geral ou especfico), e estabelecer as hierarquias necessrias.
3.3.4 Componentes da linguagem de indexao:
As linguagens de indexao so formadas por dois componentes bsicos: vocabulrio e
sintaxe.
3.3.4.1 Vocabulrio o conjunto de termos de indexao utilizveis para representar o
contedo temtico dos documentos, que podem ser cabealhos de assuntos (listas de
cabealhos de assunto), descritores (tesauros) ou smbolos de classificao (sistemas de
classificao bibliogrfica). O vocabulrio sempre menor do que os vocabulrios dos
usurios, dos documentos indexados e do prprio indexador, por causa do controle do
vocabulrio. Diante disso, necessrio fornecer, alm do vocabulrio de indexao (termos
usados no ndice), um vocabulrio de abordagem, que consiste de termos que no so
usados no sistema para representar os conceitos, mas que podem ser usados pelos autores

14

dos textos, pelos indexadores, e pelos usurios ao consultar o ndice. Por exemplo, o
vocabulrio do sistema usa o termo TESTE DE INTELIGNCIA.
Porm, o assunto pode ser procurado por:
TESTES MENTAIS termo sinnimo
TESTES PSICOLGICOS termo mais geral (abrangente)
TESDE DE APTIDO termo mais especifico
DESENVOLVIMENTO MENTAL termo relacionado
Estes termos constituem o vocabulrio de abordagem.
3.3.4.2 Sintaxe o conjunto de artifcios empregados para revelar as relaes entre os
conceitos e as regras para estabelecer os descritores e determinar a ordem em que devem
ser citados. Ocorrem da necessidade de se poder recuperar a interseo entre duas ou mais
classes de conceitos, e o reconhecimento das relaes entre os conceitos (item 3.1.2)
produto de uma anlise de assunto cuidadosa, que bsica para todas as linguagens de
indexao estruturadas.
So evidenciadas, as relaes semnticas (ou de significado) e as relaes sintticas que
existem entre os termos indexadores.
As relaes semnticas devem ser controladas ou mostradas nas linguagens de indexao
com o objetivo de se indicarem os termos alternativos ou substitutivos de indexao e
busca. As relaes semnticas podem ser de 3 tipos : equivalncia, hierrquicas e
associativas. Dependendo da estrutura da linguagem de indexao (verbal ou simblica), o
estabelecimento das relaes semnticas pode ser mais complexo ou mais simples,
utilizadas em tesauros e listas de cabealhos de assuntos)

Relaes de equivalncia (ver, see, use, x) UP (usado para = Used For - UF)

Relaes hierrquicas - TG (Termo Geral = Broader Term - BT), TE(Termo Especfico


= Narrowed Term - NT).

Relaes associativas (ver tambm, see also, xx) TR (Termo Relacionado = Related
Term - RT)

As relaes sintticas entre os termos de uma linguagem de indexao originam-se da


necessidade de se poder recuperar a interseo entre duas ou mais classes de conceitos
distintos. Ex. pode existir interesse pelo assunto fundio do alumnio e no por

15

fundio e alumnio. Essas relaes constituem-se da associao de termos para


representar assuntos compostos. So temporrias, ao contrrio das relaes semnticas, que
so permanentes.
As linguagens controladas so mais eficientes no SRI, embora apresentem maior
dificuldade para o usurio. Quanto maior a diferena entre a linguagem natural e a
linguagem controlada, maiores as dificuldades dos usurios no momento da busca.
O vocabulrio de uma linguagem de indexao pode ser verbal ou simblico (codificado),
que constituem as linguagens verbais e as linguagens simblicas.
3.3.5 Linguagens verbais
Nas linguagens verbais, os assuntos so representados por palavras, como por exemplo, um
documento que trate da Histria da Frana, ser representado por FRANA Histria.
So linguagens verbais as listas de cabealhos de assunto, os tesauros.
As LCA so arranjadas em ordem alfabtica de cabealhos de assunto, e tm abrangncia
geral de todas as reas do conhecimento. Apresentam pouca flexibilidade, pois so prcoordenadas (ver item 3.3.7), havendo o estabelecimento de uma ordem de citao entre os
termos.
Os tesauros, por sua vez, so especializados numa determinada rea do conhecimento, e
mais flexveis, apresentando uma ordem alfabtica e sistemtica entre os termos de
assuntos, chamados descritores. Utiliza termos simples, no havendo ordem de citao
entre os termos, constituindo uma linguagem ps-coordenada. (ver item 3.3.8)
3.3.6 Linguagens simblicas
Nas linguagens simblicas, os assuntos so representados por cdigos ou smbolos, na
forma da notao de um sistema de classificao bibliogrfica. Assim, o exemplo de
Histria da Frana, o assunto ser representado por 944 (CDD)
Uma das linguagens simblicas mais usadas em bibliotecas a classificao bibliogrfica.
Um mapa completo de qualquer rea do conhecimento, mostrando todos os seus conceitos e
suas relaes chamado de tabela, esquema ou sistema de classificao.
3.3.6.1 Sistemas de classificao

16

Se dividem em:
a) de acordo com a apresentao dos assuntos: enumerativos - procuram indicar todos os
assuntos e todas as combinaes possveis entre eles e apresentar os smbolos que os
representam prontos para ser usados. Ex: .Classificao Decimal de Dewey (CDD); e os
analtico-sintticos ou facetados - apresentam listas de assuntos facetas
acompanhados de smbolos e deixam ao classificador a tarefa de combinar os smbolos
para apresentar os assuntos compostos. Ex: Colon Classification (Classificao de Dois
Pontos) e Bliss Classification.
b) de acordo com a abrangncia: gerais todas as classes do conhecimento. Ex:
Dewey, CDU, Colon, LC; e especiais - classes especiais de assunto Ex: Coates (Msica)
Elementos de um sistema de classificao:
1) Apresentao ou introduo Origem e evoluo do sistema. Atualizao. Ordem de
citao. Ordem de arquivamento. Instrues para a construo de nmeros de
classificao.
2) Tabelas
Auxiliares, classe geral, assuntos
3) Notao
4) ndice alfabtico
3.3.6.2 Como classificar
Ranganathan enfatizou que h trs estgios diferentes na indexao, e denominou-os de
Plano Idia (anlise de assunto em nossas prprias palavras; deciso sobre a classe
principal apropriada; deciso sobre a ordem de citao para a classe; re-arranjo da anlise
de assunto na ordem apropriada), Plano Verbal (exame do ndice e das tabelas do esquema
para encontrar os conceitos necessrios) e Plano Notacional (construo da notao para os
conceitos, de acordo com as regras estabelecidas).
Em todo SRI, necessrio o controle de terminologia para assegurar a coincidncia das
perguntas e respostas, fazendo com que determinado assunto pesquisado seja recuperado.

17

Este controle pode ser feito atravs de coordenao de conceitos no ato da indexao ou no
momento da recuperao. So as chamadas linguagens pr e ps coordenadas.
3.3.7 Linguagens pr-coordenadas
Os sistemas pr-coordenados estabelecem a coordenao dos vrios tpicos referentes a um
assunto composto no momento da indexao, e, com grande subjetividade, determinam
uma prioridade na citao desses elementos. Essa ordem determinada a partir da
importncia que os conceitos representam para os usurios.
3.3.7.1 Caractersticas da pr-coordenao:
-

subjetividade (conceitos compostos);

entradas mltiplas (remissivas + referncias);

autonomia do indexador;

fceis de serem usadas.

3.3.7.2 Vantagens:
-

um nico lugar para um assunto composto: prover apenas um lugar inequvoco para
qualquer assunto composto;

personalizao da busca: fazer com que os usurios possam familiarizar-se com o


sistema e, com o tempo, passem a formular questes de acordo com a linguagem do
sistema;

limitao do tamanho: a entrada nica ajuda a evitar o crescimento desmesurado do


catlogo, tornando mais simples o seu uso e menos dispendiosa a sua manuteno;

flexibilidade na estratgia de busca: podem ocorrer mudanas na estratgia da pesquisa,


podendo seguir um assunto mais restrito, mais genrico ou correlato, sem ter que se
comear pela estaca zero;

busca seqencial manual rpida: as linguagens pr-coordenadas funcionam melhor


nesses sistemas tradicionais de registro de documentos. Elas geram arquivos maiores,
mas a busca manual, quando realizada seqencialmente, mais rpida.

evita falsas associaes e relaes incorretas;

mais precisa.

18

3.3.7.3 Desvantagens:
-

dificuldade na representao dos diferentes sentidos do termo, e das relaes entre os


termos;

ordem fixa: os termos somente podem ser listados numa determinada seqncia;

pouca flexibilidade na busca: quase impossvel fazer a combinao entre os termos no


momento da busca;

tamanho e custo: o uso da entrada mltipla encarece o sistema e aumenta o tamanho


do ndice

Exemplos de linguagens pr-coordenadas: listas de cabealhos de assunto (Library of


Congress, Rovira, Wanda Ferraz), os ndices permutados, os ndices em cadeia e as
classificaes bibliogrficas. (Classificao Decimal de Dewey, Classificao Decimal
Universal).
3.3.7.4 Ordem de citao
O problema das linguagens pr-coordenadas a necessidade de se estabelecer uma ordem
de prioridade para os diversos conceitos. a chamada ordem de citao, a ser determinada
a partir da importncia que os conceitos tm para os usurios e, nesse caso, somente o
primeiro elemento citado recuperado, ficando os outros ocultos. Existem algumas regras
bsicas tentando estabelecer a ordem de citao dos assuntos complexos, como:
-

o assunto antes da forma bibliogrfica : Geologia Enciclopdia

o assunto antes do lugar (com a preposio em): A fome no Brasil, Fome-Brasil

o assunto depois do lugar (com a preposio de): Montanhas do Brasil, seria BrasilMontanhas

todo-parte: ndices de Peridicos, seria Peridicos - ndices

Opes de ordem de citao so dadas por tericos da rea, como Kaiser (1911) o
concreto, depois o processo Indexao de livros, seria Livros - Indexao; por Coates
(1960) Coisa Parte Material Ao. Uma das opes, a utilizao das Cinco

19

Categorias Fundamentais, estabelecidas por Ranganathan: PMEST - Personalidade (ncleo


do assunto), Matria, Energia (processo), Espao e Tempo)
Ex: Plantao de soja no Paran em 2003
A ordem dos termos ser: SOJA-Plantao-Paran-2003
Como se pode verificar, apenas o termo soja poder ser recuperado na ordem alfabtica.
Uma soluo para isso, a adoo de entradas mltiplas, ou a utilizao de uma rede
sindtica (uso de remissivas e referncias) bem elaborada.
3.3.8 Linguagens ps-coordenadas
Os sistemas ps-coordenados adotam conceitos simples usados na indexao, que so
combinados pelo usurio no momento da busca. Os termos so combinados de qualquer
maneira, conforme a necessidade mais geral ou mais especfica do usurio.
Os sistemas mais modernos de recuperao da informao, principalmente os sistemas
automatizados, passaram a usar as linguagens ps-coordenadas. Neste tipo de sistema, no
existe a preocupao com a importncia dos elementos de um assunto composto, e,
consequentemente, com a ordem de citao desses elementos (ordem de prioridade definida
nas linguagens pr-coordenadas).
Uma linguagem ps-coordenada consiste de entradas que normalmente so conceitos
nicos, podendo-se dar a entrada de todos os termos no sistema, sem a necessidade de
decises a respeito da prioridade dos itens. Cria-se uma entrada nica para cada assunto
considerado relevante. Como recurso que auxilia a busca em sistemas ps-coordenados e
automatizados, utilizada a lgica booleana, com os elementos and, or, nor.
3.3.8.1 Caractersticas da ps-coordenao:
-

conceitos nicos: so indexados os conceitos simples;

comparao das entradas de assunto: permite determinar coincidncias que revelam


documentos pertinentes ao assunto pesquisado;

objetividade: d-se a entrada a todos os termos relevantes, sem a necessidade de


decises a respeito dos itens;

flexibilidade na busca: os termos podem ser combinados entre si, de qualquer forma, no
momento da busca;

20

pesos iguais para os termos: todo termo atribudo a um documento tem peso igual,
nenhum sendo mais importante que o outro.

3.3.8.2 Vantagens:
-

independncia da ordem de citao;

permisso de uma maior revocao;

mais eficincia, melhorando a qualidade e diminuindo o custo nas buscas


automatizadas.

3.3.8.3 Desvantagens:
-

eficincia ligada automao: as linguagens de indexao ps-coordenadas so


consideradas mais eficientes apenas quando usadas em sistemas automatizados;

combinao dos termos somente na sada, podendo-se obter associaes falsas e


incorretas;

oferecimento de baixa preciso.

Exemplos de linguagens ps-coordenadas: Tesauros (descritores), o Sistema Unitermo


3.3.9 Avaliao das linguagens de indexao
A escolha de uma determinada linguagem de indexao para um SRI uma tarefa
complexa e que exige muito conhecimento da rea do conhecimento em que o sistema est
inserido, os objetivos da instituio qual est subordinado e, principalmente, os interesses
dos usurios da informao.
Alguns aspectos gerais devem ser observados para avaliao das LI pelo indexador:
-

qualquer LI deve estar permanentemente sendo avaliada (em comparao com a


evoluo da rea e a conseqente mutao do vocabulrio, tanto dos autores como dos
leitores) e atualizada (eliminao de termos obsoletos e introduo de termos novos).

A criao de uma linguagem de indexao nova um processo lento, caro e que exige
recursos humanos qualitativa e quantitativamente preparados e disponveis para isso, , e
a adaptao de uma linguagem j existente pode ser racional, eficiente e mais barata;

Se a biblioteca ou centro de informao participar de uma rede ou de um sistema


cooperativo, as decises devem ser comuns, e apresentadas ao sistema para que possam
ser incorporadas por todos os membros participantes.

21

Se a instituio isolada, a possibilidade de solues individuais que melhor se


adaptem ao SRI so maiores, devendo-se considerar as caractersticas da biblioteca.

Caso sejam detectadas falhas na recuperao da informao, deve-se pesquisar as


causas: Problemas na anlise de assunto? Inadequaes do vocabulrio controlado?
Falta de treinamento do usurio? Falta de remissivas e referncias?

Qual a providncia tomar no caso de no existirem, na LI adotada no sistema, conceitos


que no esto representados? Em alguns sistemas, a admisso de novos termos aceita
mas, em outros casos, o indexador dever usar descritores mais genricos.

Nesse contexto, surgem dois conceitos que possibilitam tambm a avaliao de uma LI: a
revocao e a preciso. Revocao o coeficiente entre o nmero de documentos inseridos
no sistema versus o nmero de documentos relevantes recuperados pelo usurio, e a
preciso o coeficiente entre o nmero de documentos inseridos no sistema e a preciso da
busca. Ex. Para a busca de documentos sobre Escultura, se o termo de busca for Artes,
haver alta revocao e baixa preciso, pois sero recuperados documentos que falam de
escultura, mas no s sobre este assunto. Ao passo que, se a busca for feita pelo prprio
termo Escultura, a revocao ser baixa e haver uma alta preciso, pois s sero
recuperados documentos sobre Escultura.
Pesquisas mostram que um maior grau de especificidade eleva a taxa de preciso e baixa a
de revocao; ao contrrio, um aumento de exaustividade, eleva a taxa de revocao,
baixando a de preciso.
3.4 Consistncia da indexao
Um aspecto importante a ser considerado a consistncia da indexao, que tambm ser
muito afetada pela qualidade da linguagem adotada. O estabelecimento da linguagem de
indexao dever ser feito tendo em vista a sua adequao ao sistema a que ir servir. Um
fator importante a qualidade de atualizao dessas linguagens, com a incluso dos novos
termos que surgem nos diversos campos das cincias, adequando-se as linguagens
controladas s terminologias dessas reas.
A consistncia da indexao est ligada a dois elementos bsicos: ao desempenho do
indexador e qualidade dos instrumentos de indexao. importante que essa consistncia

22

seja regular, considerando-se o fator tempo na operao de um determinado sistema, sendo


necessrio ao indexador um alto grau de imparcialidade e uma submisso s diretrizes da
indexao adotadas pelo sistema. Deve-se procurar controlar a subjetividade, inerente a
qualquer trabalho humano, e presente na atividade de indexao. A consistncia difcil de
ser obtida quando grande o grupo de indexadores, ou quando trabalham em diferentes
locais. Nesses casos, aconselhvel que se estabelea um grupo de controle centralizado
para a verificao das indexaes feitas.
Para se obter consistncia na indexao preciso, ainda, que se tenha bem estabelecida uma
poltica de indexao, que siga critrios como n de termos indexadores para cada
documento (exaustividade), uso de singular ou plural, uso de siglas, termos em ingls e
rede sindtica.
3.5 Indexao automtica versus automatizada
Para a eficcia do controle e da organizao das informaes contidas em documentos, na
atualidade, torna-se imprescindvel a automao de vrias atividades desenvolvidas em
bibliotecas e centros de informao, e a adoo de tecnologias da informao j uma
realidade na maioria desses. A indexao de documentos uma das atividades em que se
tem investido muitos recursos, visando aumentar a rapidez e a preciso na recuperao de
informaes relevantes para os usurios.
H uma controvrsia quanto ao uso das terminologias indexao automtica e
automatizada, podendo-se sintetizar que, na primeira, o trabalho desenvolvido para indexar
assuntos totalmente feito pelo computador, como indexao por palavras (KWIC), pela
freqncia com que as palavras aparecem no texto, entre outros. J na indexao
automatizada, a primeira etapa de extrair o contedo do documento (anlise de assunto)
feita por um indexador humano, que aps seu trabalho intelectual, insere os termos numa
base de dados automatizada. No entanto, no h um consenso quanto a essa diferena
apresentada, podendo-se verificar os dois termos usados, tambm, como sinnimos.
Para finalizar, levanta-se uma questo para reflexo dos bibliotecrios: at que ponto podese delegar mquina a tarefa de indexao? Onde poderia se apontar um limite para as
atividades desenvolvidas pela mquina? Seria, essa, j programada para exercer atividades

23

mentais como abstrair, interpretar, compreender e perceber, caractersticas inerentes ao ser


humano?

REFERNCIAS
BEGHTOL, Clare. Bibliographic classification theory and text linguistics: aboutness,
intertextuality and the cognitive act of classifying documents. Journal of Documentatin,
v.42, n.2, p.84-113, Jun.1986.
CESARINO, Maria Augusta N., PINTO, Maria Cristina M.F. Anlise de assunto. Revista
de Biblioteconomia de Braslia, v.8, n.11, p.33-43, 1980.
DAHLBERG, Ingetraut. Teoria do conceito. Cincia da Informao, v.7, n.2, p.101-107,
1978.
FOSKETT, A C. The subject approach to information. 5.ed. London: C.Bingley, 1996.
FROHMANN, B. Rules of indexing: a critique of mentalism in information retrieval
theory. Journal of Documentation, v.46, n.2, p.81-101, Jun.1990.
LANCASTER, F.W. Indexao e resumos: teoria e prtica. Braslia: Briquet de
Lemos/Livros, 1993
NAVES, Madalena M. L. Fatores interferentes no processo de anlise de assunto: estudo
de caso de indexadores. Belo Horizonte: ECI/UFMG, 2000. (Tese, doutorado em Cincia
da Informao)
PINTO MOLINA, Maria. Interdisciplinarly approaches to the concept and practice of
Written Documentary Content Analysis (WTDCA). Journal of Documentation, v.50, n.2,
p.111-1333, Jun.1994.
RAMSDEN, M.J.An introduction to index language construction: a programmed text.
London: C.Bingley, 1974. (Trad. e adap. de Maria Cristina M.F.Pinto)