Vous êtes sur la page 1sur 39

SISTEMAS DE RECUPERAO

DE INFORMAO - SRI

Profa. Odete Myra Mesquita

Origem
Desde seu incio, eles tm estado fortemente
relacionados ao desenvolvimento tecnolgico,
tanto no que concerne as telecomunicaes
bem como com a apario dos primeiros
computadores.
Utilizados para gerenciar a exploso da
informao na literatura cientfica e para
facilitar a vida do usurio para que o
mesmo pudesse encontrar no emaranhado
de informaes aquelas que atendessem as
suas necessidades informacionais.

Definies
As definies de SRI buscam abranger as
necessidades de informao e as vrias
metodologias e tecnologias que, atravs dos
tempos, foram geradas para atender a essas
necessidades, desde as atividades de
organizao de colees de documentos em
acervos bibliogrficos, at os modernos
sistemas informatizados que lidam com
documentos em formato digital
(SOUZA, 2006).

MOOERS (1951):
engloba os aspectos intelectuais da
descrio
de
informaes
e
suas
especificidades para a busca, alm de
quaisquer sistemas, tcnicas ou mquinas
empregadas para o desempenho da
operao.
Desde Mooers, a Recuperao de Informao
(RI) tem sido desenvolvida e aperfeioada,
transformando-se em uma atividade multi e
interdisciplinar, podendo ser considerada
como vertente tecnolgica da CI
(SARACEVIC, 1999).

Embora a proposta de Mooers parea inovadora, na


realidade, o sentido de seu conceito j vinha sendo
utilizado na prtica dos antigos bibliotecrios.
Afinal, na preocupao do campo da
Biblioteconomia os aspectos de tratamento e
recuperao de informao sempre estiveram
presentes. Apesar das importantes mudanas
produzidas, nestes pouco mais de 50 anos, nos
suportes e mtodos empregados bem como no tipo
e formatos de informao, a essncia do significado
do termo Recuperao de Informao permanece
invarivel.

Cendn (2005, p. 62),


consiste na busca de uma coleo de documentos
para identificar aqueles que satisfazem uma
determinada necessidade de informao e os SRI so
aqueles sistemas criados para facilitar essa busca.
Ortega (2006, p. 1)
afirma que um (SRI) pode ser definido como um
conjunto de dados padronizados, armazenados em
meio eletrnico, utilizados para identificar informao
e fornecer sua localizao.
Robredo (2005)
a descreve como parte integrante do processo global
de gesto da informao e do conhecimento. Para
tanto, no deve ser dissociada da necessidade de
estruturao de dados e informao na descrio, na
organizao e na armazenagem

Se acompanharmos a evoluo tecnolgica


e, consequentemente os SRI, nos daremos
conta de que eles se desenvolveram de
forma muito rpida, comparativamente s
dcadas anteriores. Ao longo de mais de
cinquenta anos de seu aparecimento,
diversas situaes sociais, polticas e
econmicas estimularam o desenvolvimento
desses sistemas.

Misso fundamental
Sempre esteve pautada em responder s
necessidades dos usurios e suprimir as
dificuldades que se colocavam na busca de
informao.
Dito de outro modo, permitir que um usurio
recupere documentos atravs de certas
caractersticas especficas (por autor, ttulo
conhecido, assunto ou qualquer combinao
desses elementos).

Processo de RI e seus Componentes

Pode-se dizer que a RI um processo no qual se


realizam uma srie de atividades orientadas a
procurar e encontrar informao relevante que
ajude a satisfazer as necessidades informacionais
dos usurios.
Como diz Edberto Ferneda (2012, p. 13) o usurio
de um SRI geralmente est interessado em
recuperar informao sobre um determinado
assunto e no em recuperar dados que
satisfaam somente sua expresso de busca.
Essa caracterstica o que diferencia os
Sistemas de Recuperao de Informao dos
Sistemas de Bancos de Dados.

Os Sistemas de Banco de Dados tm por objetivo a


recuperao de todos os itens que satisfazem s
condies formuladas atravs de uma expresso de
busca. J em um SRI, essa preciso no to estrita.
A principal razo para esta diferena est na natureza
dos objetos tratados por estes dois tipos de sistema.
o Os SRI lidam com textos e herdam todos os problemas
intrnsecos ao tratamento da linguagem natural,
portanto, so afetados pela subjetividade do ser
humano.
o O Sistema de Banco de Dados organiza itens de dados,
que tm uma estrutura e uma semntica bem definidas
(FERNEDA, 2003).

Segundo Cendn (2003), normalmente os SRI lidam


com documentos que contm texto e esse o grande
problema, pelo fato de se defrontar com a
ambiguidade da palavra na recuperao

SRIs podem ser estudados como um


conjunto de operaes consecutivas,
executadas para localizar uma
informao necessria ou documentos
que a contenham, com a recuperao
subsequente desses documentos.
(CESARINO, 1985, p. 158)

Modelo de Recuperao de
Informao
Representao dos documentos:
Busca descrever ou identificar cada documento do atravs de seu
contedo. Sendo, a melhor forma de realizar essa representao
por meio da indexao.

Representao da expresso de busca:


Refere-se traduo da expresso de busca formulada pelo
usurio para a linguagem utilizada pelo sistema;

Funo de busca:
Compara
as
representaes
dos
documentos
com
a
representao da expresso de busca do usurio e recupera os
itens que supostamente fornecem a informao que o usurio
procura (FERNEDA, 2012, p. 19).

Usabilidade
Usurio:
A partir de sua necessidade de informao ir interagir com
um SRI a fim de buscar documentos que atendam tal
necessidade;

Expresso de busca:
Trata-se do meio que o usurio aplica para comunicar a sua
necessidade de informao para o sistema. Esses termos so
geralmente especificados em linguagem natural ou por meio
de uma linguagem artificial, dependendo dos recursos
oferecidos pelo sistema (FERNEDA, 2012);

Resultados da busca:
So expressos por meio de uma lista de referncias de
documentos que supostamente so relevantes para suprir a
necessidade de informao do usurio (BANHOS, 2008).

O ponto essencial que precisa ser considerado ao se


buscar resolver problemas de RI e que no se
encontra no domnio de mquinas e sistemas o
elemento usurio, responsvel no apenas por
formular representaes de informao ou de
busca, mas por designar o carter subjetivo de
importncia aos resultados apresentados em uma
busca. Como o prprio ser humano que define
qualidade para resultados de consultas, nada mais
natural que caractersticas cognitivas, como
comportamento e contextualizao, sejam alvo de
modelagem especfica para recuperar informaes
RIJSBERGEN, 1979).

De acordo com Gonzlez de Gmez (2003, p. 56) a RI


tem sido estudada, na rea da CI, atravs de duas
grandes vertentes:
o a primeira na perspectiva dos sistemas de informao
(information searching), constituindo um cenrio de buscas
formalizadas;
o e a segunda na perspectiva de um cenrio de buscas no
formalizadas de informao (information seeking), que se
assenta nos princpios de que necessrio [...] conhecer o
modo como as pessoas definem, criam e buscam a informao
e as condies que facilitam ou inibem seu acesso nos
cotidianos de gerao e uso de informao.

Desse modo, observamos que, ao longo de seu


desenvolvimento, o campo da RI tem sido
influenciados por dois paradigmas ou tendncias em
suas prticas, concepes e investigaes, os
denominados: enfoque centrado nos sistemas e o
enfoque centrado nos usurios.

Viso centrada no sistema


O problema consiste principalmente em construir
ndices eficientes, processar consultas de usurios
com o melhor desempenho possvel, e desenvolver
algoritmos de ordenao que possam trazer
qualidade resposta do usurio (CARDOSO, 2003).
Desta forma, a RI se reduz a uma atividade muito
simples, em que se observam situaes, como
quando a solicitao de informao do usurio no
corresponde com a listagem de documentos, nesses
casos, se realiza uma anlise pelo prprio sistema.
Neste sentido, ambas as entidades, usurio e
sistema, so vistas como unidades independentes

Recuperao da informao no enfoque centrado no


sistema

Fonte: Milans e Velsquez (2006).

Viso centrada no usurio


O problema principalmente consiste no estudo da
conduta do usurio, no entendimento de suas
principais necessidades, e em como este
entendimento afeta a organizao e as operaes
do SRI (CARDOSO, 2003, p.5). Este enfoque inclui o
usurio como um elemento a mais do SRI e ao
incluir a este, incorpora tambm ao meio do
mesmo.

Recuperao da informao no enfoque centrado no usurio

Fonte: Milans e Velsquez (2006).

Estratgias de Busca

Definies
ROWLEY (1994):

Conjunto
de
decises
tomadas
e
procedimentos adotados durante uma
busca

LOPES (2002):

Tcnica ou conjunto de regras para tornar


possvel o encontro entre uma pergunta
formulada e a informao armazenada em
uma base de dados.

CENDN (2005):

Um plano que serve para encontrar a


informao desejada em que vrias
expresses de busca podem ser utilizadas.

Modelos de Estratgias de Busca

Booleano
Vetorial
Probabilstico
Processamento de Linguagem Natural
Fuzzy
Redes Neurais

Modelo Booleano
Modelo baseado na teoria de conjuntos e na lgebra de
George Boole.
A lgebra booleana um sistema binrio no qual
existem somente dois valores possveis para qualquer
smbolo algbrico: 1 ou 0, verdadeiro ou falso.
As consultas se expressam como expresses booleanas
com uma semntica clara e concreta:

Operadores booleanos
AND (E ou +)
NOT (NO ou -)
OR (OU)

Principais problemas

Ausncia de ordem na resposta;


Respostas podem ser nulas ou muito grandes.

Exemplo

biblioteconomia AND bibliotecrio AND OUR profissional da informao


poderia ser representada pela seguinte operao entre conjuntos:
Conjunto resposta
Coleo
completa

Conj. de docs. que


contm
biblioteconomia

Conj. de docs. que


contm
bibliotecrio

Conj. de docs. que


contm profissional
da informao

Operadores de Proximidade
Surgimento dos sistemas de texto completo .
ADJ Permite pesquisar duas palavras adjacente no texto
de um documento, na ordem especificada na expresso
de busca. Pronto ADJ Socorro/ Pronto Socorro
NEAR (n de proximidade) Permite pesquisar uma
palavra prxima da outra, definindo o nmero de palavras
de distncia. Recuperao NEAR/10 Informao
WITH Permite recuperar documentos cujos termos
apaream no mesmo pargrafo. Recuperao WITH
Informao
SAME Permite recuperar documentos cujos termos
apaream na mesma sentena Recuperao SAME
Informao
Frase Exata Recuperao de Informao
Composio de Operadores
Recuperao de ADJ
(informao OR documentos)

Modelo Vetorial
O modelo vetorial, ou tambm chamado de modelo
espao vetorial, prope um ambiente no qual possvel
obter documentos que respondem parcialmente a
uma expresso de busca.
Isto feito associando-se pesos tanto aos termos de
indexao dos documentos como aos termos utilizados
na expresso de busca.
Esses pesos so utilizados para calcular o grau de
similaridade entre a expresso de busca e cada um
dos documentos do corpus.
Como resultado, obtm-se um conjunto de documentos
ordenado pelo grau de similaridade de cada documento
em relao expresso de busca.

O Sistema SMART
O projeto SMART (System for the Manipulation and Retrieval of
Text) teve incio em 1961 na Universidade de Harvard e
mudou-se para a Universidade de Cornell aps 1965.
O sistema SMART o resultado da vida de pesquisa de Gerard
Salton e teve um papel significativo no desenvolvimento de
toda a rea da Recuperao de Informao.
O SMART uma implementao do modelo vetorial, proposto
pelo prprio Salton nos anos 60.
O sistema SMART fornece um mtodo automtico para o
clculo dos pesos no s dos vetores que representam os
documentos, mas tambm para os vetores das expresses de
busca.

Modelo Probabilstico
Na matemtica, a teoria das probabilidades
estuda os experimentos aleatrios que, repetidos
em condies idnticas, podem apresentar
resultados diferentes e imprevisveis.
Isso ocorre, por exemplo, quando se observa a
face superior de um dado aps o seu lanamento
ou quando se verifica o naipe de uma carta
retirada de um baralho.
Por apresentarem resultados imprevisveis,
possvel apenas estimar a possibilidade ou a
chance de um determinado evento ocorrer.

Tenta representar o processo de recuperao de


informao sob um ponto de vista probabilstico.
Dada uma expresso de busca, pode-se dividir o
corpus (com N documentos) em quatro subconjuntos
distintos:
Rel: conjunto dos documentos relevantes;
Rec: conjunto dos documentos recuperados;
RR: conjunto dos documentos relevantes
recuperados;
No recuperados e no relevantes

que

foram

O conjunto dos documentos relevantes e recuperados


RR resultante da interseo dos conjuntos Rel e Rec.

Processamento da Linguagem Natural


Surge como uma possvel abordagem dos
problemas relacionados recuperao de
informao pela simples observao de que os
documentos e as expresses de busca formuladas
pelos usurios so objetos lingusticos.
O PLN um conjunto de tcnicas computacionais
para a anlise de textos em um ou mais nveis
lingusticos, com o propsito de simular o
processamento humano da lngua.

O desenvolvimento de sistemas de recuperao de


informao que podem entender os documentos
exige
tcnicas
computacionais
de
grande
complexidade. Por esta razo, na maioria das vezes
as tcnicas de PLN so utilizadas apenas na
melhoria do desempenho de algumas tarefas da
recuperao de informao tradicional, como a
indexao automtica (FALOUTSOS; OARD, 1995).
Atravs do PLN a Cincia da Informao se aproxima
do arsenal metodolgico da Inteligncia Artificial e
viabiliza solues para alguns de seus problemas;

Modelo Fuzzy
Na concepo tradicional um elemento pertence ou
no a um determinado conjunto, da mesma forma
como no modelo booleano um documento ou no
relevante para uma determinada expresso de busca.
Porm, em um sistema de recuperao de informao
esse limite claro e preciso no existe. Entre um
documento relevante e um no-relevante podem
existem gradaes (relevncia parcial) com as quais o
modelo booleano no consegue lidar.
A grande maioria dos experimentos realizados com
este modelo considera apenas pequenos corpora, que
no comprovam sua efetiva superioridade em relao
a outros modelos de recuperao de informao.

Redes Neurais
Mozer (1984) foi o pioneiro na utilizao de tcnicas
de RNA na recuperao de informao.
Ele utilizou uma arquitetura bastante simples que no
empregava uma das principais caractersticas das
redes neurais, que a capacidade de aprender.
A figura mostra um exemplo apresentado por Ford
(1991, p. 108), que utiliza a arquitetura de RNA
idealizada por Mozer.

Referncias
CARDOSO, Olinda Nogueira Paes. Recuperao de Informao.
Lavras: UFLA, 2003.
CESARINO, Maria Augusta da Nbrega. Sistemas de Recuperao
da Informao. Revista da Escola de Biblioteconomia da
UFMG, Belo Horizonte, v.14, n.2, set., 1985.
FERNEDA, Edberto. Recuperao de Informao: anlise sobre
a contribuio da Cincia da Computao para a Cincia da
Informao. 2003. 147 f. Tese (Doutorado em Cincia da
Comunicao) - Escola de Comunicao e Artes, Universidade de
So Paulo, So Paulo, 2003.
LOPES, Ilza Leite. Estratgica de busca na recuperao da
informao: reviso de literatura. Revista Cincia da
Informao, Braslia, v.31, n.2, p.60-71, maio/ago, 2002.
Disponvel
em:
<http://www.scielo.br/scielo.php?
script=sci_arttext&pid=S0100-19652002000200007>.
Acesso
em: 03 out. 2006.

Vous aimerez peut-être aussi