Vous êtes sur la page 1sur 23

www.haztefuncionario.com Material registrado. Prohibida su reproduccin.

Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968

B3G2T09 - DOCUMTICA.

1. INTRODUCCIN.............................................................................................................................................................. 2

2. ARCHIVO ELECTRNICO DE DOCUMENTOS........................................................................................................ 3


2.1. INDIZACIN............................................................................................................................................................... 3
2.1.1. ETAPAS DE LA INDIZACIN............................................................................................................................. 3
2.1.2. SISTEMAS DE INDIZACIN............................................................................................................................... 5
2.2. RECUPERACIN DE LA INFORMACIN .............................................................................................................. 6
2.2.1. MTRICAS DE EFICIENCIA ............................................................................................................................. 7
2.2.2. EL PROCESO DE RECUPERACIN DE LA INFORMACIN .......................................................................... 7
3. ORGANIZACIN FUNCIONAL DE LOS SISTEMAS DOCUMTICOS ................................................................ 8

4. OPTIMIZACIN DE CONSULTAS Y RECUPERACIN DE LA INFORMACIN ............................................ 11


4.1. LENGUAJES DE INTERROGACIN Y OPERADORES ....................................................................................... 11
4.1.1. OPERADORES LGICOS O BOOLEANOS...................................................................................................... 12
4.1.4. OPERADORES DE TRUNCAMIENTO.............................................................................................................. 13
4.2. ESTRATEGIA DE LA INTERROGACIN.............................................................................................................. 14
4.2.1. TIPOS DE ESTRATEGIA. .................................................................................................................................. 14
4.3. LA EXPLORACIN COMO MECANISMO DE RECUPERACIN....................................................................... 15
4.4. REVISIN Y ANLISIS DE RESULTADOS .......................................................................................................... 15
5. LOS SISTEMAS DE RECUPERACIN DE LA INFORMACIN EN INTERNET ............................................... 16
5.1. ROBOTS .................................................................................................................................................................... 16
5.2. MOTORES DE BSQUEDA .................................................................................................................................... 16
6. CONCLUSIN ................................................................................................................................................................. 17

7. BIBLIOGRAFA .............................................................................................................................................................. 17

8. ESQUEMA RESUMEN ................................................................................................................................................ 18

TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 1 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.

Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968

1. INTRODUCCIN
En una organizacin, la informacin susceptible de almacenamiento crece a un ritmo exponencial. Dicho
crecimiento hace necesario solucionar el problema de su adecuada gestin, ya que a partir de un cierto volumen
se hace imprescindible un sistema organizativo que posibilite la localizacin de la informacin que se precise en
cualquier momento.

Podemos clasificar la informacin que es necesario manejar de la siguiente manera:

Informacin estructurada: se trata de informacin que se puede subdividir en campos. Nos estamos
refiriendo por ejemplo a los registros de las tablas de las bases de datos relacionales.
Informacin no estructurada: es informacin en la que no se puede encontrar una estructura interna.
Hablamos por ejemplo de fotos, archivos de texto, archivos de vdeo, pginas web, etc. Incluimos en este
apartado los documentos en cualquier tipo de formato.

El mbito de este tema se circunscribe al segundo tipo de informacin.

El desarrollo de los sistemas automatizados de recuperacin de informacin se inici con el objetivo de facilitar el
manejo de la enorme cantidad de literatura cientfica surgida desde los aos 40; posteriormente esta disciplina se
extendi a otros mbitos fuera de los cientficos.

Otlet es considerado el precursor de la gestin de documentacin automtica (documtica) con su obra Trait de
Documentation, publicada en 1934, en la que expone los principios y relaciones de la Tecnologa documental.
Otlet identifica los componentes fundamentales del moderno concepto de Documentacin Automtica (o
Automatizada), distinguiendo estas tres premisas principales:

Establece una teora sobre la organizacin, las herramientas y los soportes tecnolgicos para sustentar
esta nueva disciplina
Aplicacin prctica del proceso documental: la Documentacin ocupa un lugar preponderante en la
organizacin
Objetivo: satisfacer las necesidades informativas del usuario

Posteriormente en los aos 50, los especialistas se centran en el problema de la bsqueda y recuperacin de
informacin, acundose el trmino Information Retrieval (recuperacin de informacin). La recuperacin de
informacin es el conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de
informacin que son pertinentes para la resolucin del problema planteado. En un sistema documtico, el proceso
de recuperacin de la informacin sigue en general el esquema siguiente:

El usuario formula una necesidad de conocimiento


Se interroga al sistema gestor documental (SGD)
El SGD devuelve una lista de referencias
Si lo que buscamos no est en la lista se realiza una segunda bsqueda y empieza el proceso de nuevo.

A finales de los aos 60 se da un nuevo paso en la evolucin de la documtica, con la introduccin de la


Information Science (Ciencia de la Informacin) como ciencia integradora de la teora, proceso y prctica
documental con otras ciencias complementarias, como la ciberntica, la informtica, la teora de la informacin y
la comunicacin, etc.

El desarrollo de nuevas teoras ha trado, de la mano de la Ciencia de la Informacin, la aparicin de la disciplina


Information Management (Gestin de la Informacin y la Documentacin en las Organizaciones), en la que
desempean un papel fundamental las telecomunicaciones y la informtica, ntimamente relacionadas con los
sistemas de informacin, en el marco de redes complejas de informacin.

TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 2 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.

Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968

2. ARCHIVO ELECTRNICO DE DOCUMENTOS


Como ya hemos visto, el archivo electrnico de documentos o documentacin automtica consiste en la gestin
de grandes volmenes de informacin no estructurada (texto, imgenes, grficos, sonidos, etc).

Adicionalmente, ser necesario gestionar cierta informacin que permita localizar el documento cuando sea
necesario; as, los documentos han de ser sometidos a un proceso de indizacin.

El otro gran proceso involucrado en un sistema de gestin documental es la recuperacin de la informacin.


Abarca el conjunto de tareas mediante las que un usuario recupera la informacin relevante en respuesta de una
necesidad cognitiva.

2.1. INDIZACIN

Consiste en extraer los conceptos clave del texto de un documento. Su objetivo es definir el contenido de un
documento mediante un conjunto de conceptos que especifican el tema o temas de que trata.

La indizacin conlleva dos procesos fundamentales:


1. Extraer los conceptos informativos de cada documento
2. Traducirlos a un lenguaje documental.

El lenguaje documental es el que se usa para la interrogacin del SGD. En funcin del lenguaje documental que
utilice, podemos clasificar los SGD en dos grandes grupos:

Sistemas de lenguaje libre o free-text. Permiten hacer bsquedas en lenguaje natural. Un ejemplo es el
buscador de Internet Google.
Sistemas basados en lenguajes controlados. En este caso, los trminos que contiene un lenguaje
documental son de dos clases:
Trminos preferentes o descriptores (descriptors, key words): son aquellos que deben utilizarse en la
indizacin y en la recuperacin. Representan trminos precisos y unvocos.
Trminos no preferentes (no-descriptors): no pueden asignarse a los documentos en la indizacin, ni
realizar consultas utilizndolos.

En cuanto a la indizacin, hay que tener en cuenta que la cantidad de trminos que representen a un documento
no indica la calidad de la indizacin; no por muchos trminos es ms precisa: cuantos ms trminos representan
a un documento aumenta la exhaustividad (mayor probabilidad de que se seleccione ese documento) y
disminuye la precisin (conceptos que realmente identifican al documento).

Si se cae en excesiva exhaustividad o precisin, se pueden producir dos fallos a la hora de realizar una bsqueda
documental:

Ruido: documentos que el sistema ha seleccionado y que en realidad no responden a la pregunta. Esto
es consecuencia de indicar los documentos con ms trminos de los que se debiera
Silencio: documentos que al hacer la bsqueda no han sido seleccionados y sin embargo responden a la
pregunta formulada. Es consecuencia de la falta de precisin, es decir, no indizar los trminos correctos.

2.1.1. ETAPAS DE LA INDIZACIN

Hablamos de sistema indizador como el encargado de realizar el proceso de indizacin. Existen aplicaciones en
que este proceso es manual, realizado por un operador, pero en otras el operador es ayudado por un sistema
informtico, o ser un proceso totalmente automtico.

TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 3 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.

Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968

Las distintas fases de las que consta el proceso de indizacin son las siguientes:

1. Examen del documento. El examen ser ms o menos extenso segn el tipo de documento y su forma
fsica; en general, el sistema indizador tendr que asegurarse de leer toda la informacin y no olvidar
ninguna parte. En el caso de un documento de texto, stas son las partes del texto que habr de tener en
cuenta por orden de importancia:

ttulo
resumen
introduccin, captulos y conclusiones
ilustraciones y grficos
palabras subrayadas o impresas en otra tipografa

2. Identificacin del documento. El sistema indizador aplicar una serie de criterios para identificar los
conceptos esenciales para la descripcin del tema, eligiendo los ms acordes con las necesidades del
centro o servicio en que se est indizando.

En la seleccin de los conceptos se persiguen dos objetivos principales:

Exhaustividad: no dejar de indizar nada que pueda ser importante


Pertinencia: la informacin ha de ser representativa del documento

Para la identificacin de los conceptos esenciales se pueden emplear los siguientes mtodos:

Sistema full-text: consiste en extraer todas las palabras clave, a excepcin de aquellas que se
encuentren en una lista de palabras vacas (aquellas que no aportan informacin, como los
determinantes, preposiciones, etc). Es el sistema que se utiliza habitualmente para los sistemas
documentales free-text
Indizacin mediante lenguajes controlados: el universo de las palabras a indizar est restringido,
utilizndose una lista de descriptores.
El mtodo estadstico: seleccionar los conceptos ms significativos mediante el anlisis de las
frecuencias de los trminos del documento.
El mtodo sintctico: utiliza tcnicas de anlisis morfolgico y semntico para captar la estructura del
texto. Utilizado sobre todo en la investigacin sobre el procesamiento de lenguaje natural.

3. Traduccin de los trminos. Consiste en la traduccin de los conceptos extrados del documento al
lenguaje documental utilizado, es decir, a trminos de indizacin:

Si utilizamos un lenguaje documental controlado, habrn de traducirse a los convenientes


descriptores
Si utilizamos texto libre, habr que comprobar que los conceptos extrados estn aceptados en las
distintas fuentes de referencia:
diccionarios y enciclopedias
libros de texto y manuales,
tesauros,
etc

TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 4 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.

Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968

Los tesauros

Los tesauros que se acaban de citar son diccionarios que muestran la equivalencia entre los trminos o
expresiones del lenguaje natural y los trminos normalizados del lenguaje documental, as como las relaciones
semnticas que existen entre ellos.

Los tesauros en Espaa estn definidos en la norma UNE 50-106-90, la cual no es de obligado cumplimiento,
pero proporciona un marco para la comunicacin entre centros y para facilitar el trabajo en equipo.

Los elementos principales de un tesauro son los siguientes:

Unidades lexicales. A su vez de subdividen en varios tipos:


descriptores
trminos equivalentes o sinnimos. Son aquellos cuya presencia es til en el tesauro, pero que no se
pueden utilizar en la indizacin, pues remiten o envan a un descriptor. Pueden ser de dos clases:
sinnimos lingsticos: se traducen directamente por un descriptor y tienen exactamente el mismo
significado que el descriptor elegido
sinnimos documentales o cuasi-sinnimos: agrupan en un solo descriptor varios trminos que
tienen un significado prximo, aunque no es exactamente el mismo
infraconceptos: trminos que no tienen sentido por s solos y que se aaden a los descriptores para
formar nuevos descriptores: Ejemplo: infra, multi, super,
palabras herramienta o instrumento: descriptores que no tienen significado exacto si van solos. Son
trminos como: comparacin, evaluacin, mtodo
Relaciones entre unidades lexicales. Existen las siguientes clases de relaciones:
Relaciones de equivalencia o sustitucin: son aquellas que relacionan un sinnimo con un descriptor.
relaciones de jerarqua: expresan relaciones de superioridad y subordinacin entre descriptores. A su
vez pueden ser:
relaciones genricas: en las que existe un trmino genrico que representa un concepto en el que
estn contenidos los trminos especficos
relaciones partitivas o relaciones todo-parte: en las que se expresa que un trmino se compone
de otros.
relaciones asociativas o de vecindad: indican las analogas que pueden existir entre dos descriptores
relaciones de definicin: que relacionan un descriptor con su uso o aplicacin

Los tesauros se utilizan para eliminar ambigedades y facilitar la indizacin, pero tambin son utilizados en el
proceso de recuperacin de la informacin que se ver posteriormente.

2.1.2. SISTEMAS DE INDIZACIN

En funcin de cul es el resultado de la indizacin, es decir, cmo se organiza la informacin resultado de la


indizacin de los documentos, podemos establecer las siguientes categoras:

Ficheros planos: la informacin referente a la indizacin de uno o ms documentos son almacenados en


un fichero (generalmente en formato de texto ASCII). Las bsquedas sobre estos ficheros planos se
llevan a cabo generalmente por medio de la localizacin de patrones de texto.
Ficheros inversos: son un tipo de fichero ndice donde la estructura de cada tem (o entrada) del fichero
es, generalmente: descriptor, identificador de documento, identificador de campo, donde el identificador
de documento es nico para cada documento y el identificador de campo es un trmino que nos indica
dentro de qu campo del documento aparece el descriptor. Algunos sistemas incluyen tambin
informacin acerca de la localizacin en el documento del prrafo y frase de los trminos utilizados para

TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 5 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.

Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968

proceder a interrogar la base de datos. La bsqueda se realiza, corrientemente, por medio de la


localizacin de los trminos solicitados en el fichero inverso.

Los ficheros de patrones de bits contienen hileras de dgitos binarios, patrones de bits que representan a
los documentos. Existen varias formas de construir estos patrones de bits. Un mtodo comn consiste en
la divisin de los documentos en bloques lgicos, e identificar los trminos de indizacin que contiene
cada bloque. Cada palabra es desglosada para traducirse en una hilera de bits (es decir, un patrn de bits
con algunos de los bits "puesto a 1"). Los patrones de bits de cada palabra en un bloque son agrupados
para crear un bloque de patrones. Los bloques de signaturas se concatenan posteriormente para producir
el patrn de bits del documento. La bsqueda se lleva a cabo por medio de la comparacin entre los
patrones de bits de las interrogaciones con los patrones de bits de los documentos de la base de datos
Los grafos (o "redes") son colecciones ordenadas de nodos conectados por arcos y se usan para
representar documentos de diversas formas y maneras. Un ejemplo es el grafo denominado red
semntica, que representa las relaciones semnticas que se establecen en el texto, relaciones que se
pierden a menudo en otros sistemas de indizacin. Aunque constituyen un campo interesante para el
estudio, resultan bastante difciles de llevar a la prctica y requieren excesivo esfuerzo manual para el
proceso de la representacin de las colecciones de documentos.

2.2. RECUPERACIN DE LA INFORMACIN

La recuperacin de la informacin es el conjunto de tareas mediante las cuales un usuario recupera la


informacin relevante, para dar respuesta a su necesidad cognitiva. Es decir, un documento ser relevante, si
satisface la necesidad de conocimiento del usuario. Esto supone una gran diferencia con los sistemas gestores de
bases de datos, en los que el criterio de xito de una interrogacin a la base de datos es la exactitud y correccin
de los datos, en ningn caso depende de la subjetividad del usuario.

Uno de los problemas con los que se nos encontramos, al interrogar un SGD, es que el usuario concibe su
necesidad de conocimiento en lenguaje natural, el cual ha de ser traducido al lenguaje documental que entiende
el sistema. Por lo tanto, puede producirse una prdida de eficiencia en la traduccin. Por ello se dice que el tipo
de recuperacin que se puede producir en la interrogacin a un SGD es aproximada o probabilstica, es decir,
ante una misma necesidad de conocimiento se pueden obtener mltiples respuestas dependiendo de la habilidad
del usuario para traducirla al lenguaje documental que entiende el sistema. Hay que hacer notar que esto supone
otra diferencia relevante con los sistemas gestores de bases de datos tradicionales, en los que la informacin que

TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 6 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.

Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968

devuelve el sistema es determinista, ya que ante una misma necesidad de informacin siempre devolver el
mismo resultado.

2.2.1. MTRICAS DE EFICIENCIA

Al igual que ocurra en el proceso de indizacin, a la hora de la recuperacin de la informacin no se puede ser
exhaustivo y preciso al mismo tiempo, ya que si uno de los parmetros aumenta el otro disminuye, como
podemos representar grficamente de la siguiente manera:

Por ello, para medir la eficiencia de un sistema de recuperacin de la informacin se establecen una serie de
parmetros, que enunciaremos a continuacin basndonos en la tabla siguiente:

Relevantes No Relevantes
Extrados A B
No extrados C D

La tabla pretende reflejar, para una consulta a un SGD:

A: documentos relevantes que han sido devueltos por el SGD


B: documentos no relevantes que han sido devueltos por el SGD, lo que hemos definido anteriormente
como ruido
C: documentos relevantes que no han sido devueltos y que deberan haber sido extrados, lo que hemos
llamado silencio
D: documentos no relevantes y que no han sido extrados

Definimos entonces las siguientes mtricas:

Indice de pertinencia o precisin: mide cuantos documentos devueltos son los considerados relevantes
por el usuario: A / (A + B). Es en definitiva una medida de la calidad de la informacin obtenida.
Indice de exhaustividad o de respuesta: mide el porcentaje de documentos que han sido devueltos sobre
el total de la base documental: A / (A + C). Es una medida de la cantidad de la informacin obtenida.
Tasa de ruido: mide el porcentaje de documentos que carecen de inters y han sido devueltos por el
sistema: B / (A + B)

2.2.2. EL PROCESO DE RECUPERACIN DE LA INFORMACIN

Un proceso de recuperacin, al que podramos considerar "genrico", seguira las siguientes fases:

1. Definicin de las necesidades informativas del usuario.


2. Seleccin y ordenacin de las fuentes a utilizar.

TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 7 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.

Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968

3. Traslacin de las necesidades del usuario al lenguaje documental propio de la fuente a utilizar en cada caso.
Es posible, adems, encontrar fuentes en las que no se utilice ningn tipo de vocabulario controlado, en cuyo
caso resultar necesario afinar el trabajo terminolgico.
4. Traduccin de la expresin de lenguaje documental al lenguaje de interrogacin propio de cada sistema.
5. Ejecucin de las expresiones del lenguaje de interrogacin obtenidas.
6. Consulta de las respuestas obtenidas, para analizar su pertinencia o no a la cuestin planteada.
7. Replanteamiento, si procede, de las expresiones utilizadas, si los resultados obtenidos no son pertinentes.
8. Seleccin y obtencin de los documentos que respondan a las necesidades manifestadas por el usuario.
9. Transmisin del resultado, preparado adecuadamente, al usuario.

Este proceso se puede plasmar grficamente como aparece en la figura:

3. ORGANIZACIN FUNCIONAL DE LOS SISTEMAS DOCUMTICOS


En los sistemas de gestin documental se pueden identificar una serie de subsistemas funcionales. Un SGD
puede incorporar todos ellos o slo algunos. Adems, hay SGDs que permiten integrar subsistemas de otros
fabricantes:

Sistemas de gestin de bases de datos documentales (SGBDD): son sistemas que incorporan todas
las caractersticas de los SGBD tradicionales, incluyendo la creacin y mantenimiento de bases de datos
documentales (adecuadas para informacin no estructurada), usuarios, controles de seguridad, e incluso
lenguajes propios de programacin. Estos sistemas estn basados en sistemas de archivo y ficheros
inversos, los cuales son una modalidad de organizacin de los datos especialmente apropiada para la
informacin documental. Los rasgos ms caractersticos de un SGBDD son:
capacidad para almacenar informacin textual de longitud grande y variable
capacidad para recuperar con rapidez registros que responden a un criterio de bsqueda
capacidad para realizar bsquedas multicriterio sobre ficheros inversos utilizando lgica booleana

TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 8 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.

Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968

capacidad para administrar tesauros y diccionarios terminolgicos.

Como ejemplos de sistemas de gestin de bases de datos ms representativos, podemos citar


BRS/Search de BRS Information Technologies (uno de los ms completos), Inmagic, CDS-Isis y su
interfaz WinIsis, Texto...

Sistemas de indizacin: anteriormente hemos visto el proceso de indizacin documental. Estos sistemas
por lo tanto son aquellos encargados de realizar dicho proceso.
Sistemas de exploracin o escneres: se trata de aplicaciones que son capaces de acceder a ficheros
con diferentes formatos y buscar dentro de los mismos las cadenas de caracteres que respondan a lo
expresado en la ecuacin de bsqueda. Pueden encontrarse aplicaciones que combinen la exploracin
con la indexacin, como dtSearch.
Sistemas de gestin bibliogrfica: sistema especializado para la gestin y mantenimiento de
bibliografas especializadas. Es una aplicacin especfica de los sistemas de gestin de bases
documentales que permite, no slo el almacenamiento y la recuperacin de referencias bibliogrficas,
sino tambin la exportacin de estas referencias en diferentes formatos de cita bibliogrfica a diferentes
procesadores de textos, sistemas de gestin de bases de datos, etc.
Sistemas de recuperacin de informacin (SRI): son aplicaciones que se encargan exclusivamente de
recuperar informacin de bases de datos documentales no modificables. Ponen a disposicin del usuario
potentes herramientas de bsqueda y de apoyo a la bsqueda, pero su funcionalidad queda reducida a la
consulta y exportacin de documentos.

Los SRI incorporan un gestor de interrogacin o motor de bsqueda, el cual realiza bsquedas dentro
de una base de datos de documentos. El motor de bsqueda recibe la interrogacin del usuario (query),
que consiste en una o varias palabras, realiza la bsqueda en la base de datos y extrae una lista
ordenada de documentos que cumplen entera o parcialmente con la interrogacin. El orden depende de
una puntuacin (score) que asocia el programa a cada documento cuando realiza la bsqueda y en cada
caso vara. Un criterio para puntuar los resultados que usualmente se aplica es que cuanto ms prximos
en el documento aparecen los trminos de bsqueda, mayor es la puntuacin del documento.

Un SRI debe permitir la recuperacin de la informacin contenida en los documentos de la base de datos
a la que accede, a travs de cualquier trmino existente en ella, mediante la formulacin de ecuaciones
de bsqueda que permitan combinar los trminos segn diferentes criterios. Existen sistemas que ofrecen
la posibilidad de ejecutar las consultas sobre una o varias bases de datos simultneamente. Los
documentos resultantes se agrupan en sets o conjuntos, susceptibles de combinacin posterior.

El SRI ha de poseer algn tipo de mecanismo para la salida de la informacin, generalmente mediante
edicin en pantalla, impresin y redireccin a ficheros de los documentos de inters para el usuario. Las
rdenes de salida de informacin deben ofrecer la posibilidad de enviar sta a diferentes destinos, as
como los formatos de presentacin de los datos a utilizar (tamao, campos...). Deben incluirse aqu las
capacidades para ordenar, segn diferentes criterios, los documentos resultantes. Otra funcin a
considerar es la posibilidad de crear nuevas bases de datos, tomando como base los documentos
recuperados en una bsqueda previa.

Es interesante que el SRI incluya tambin herramientas que permitan analizar y procesar la respuesta
obtenida, utilizando herramientas de anlisis de frecuencias de los trminos (es decir, cuntas veces
aparece el trmino buscado en los documentos recuperados) o de coocurrencias (frecuencia con la que
aparecen dos o ms trminos de bsqueda en los documentos recuperados).

Otro posible subsistema de un SRI es aquel que permita definir los perfiles de bsqueda de los usuarios,
as como realizar un seguimiento de las ecuaciones que ejecuten. Por ejemplo, la posibilidad de
almacenar las ecuaciones de bsqueda que usualmente ejecutan, de manera que puedan ejecutarse en
cualquier momento, se les llama normalmente "macros". Estas macros son ficheros susceptibles de
edicin y modificacin, lo que facilita la recuperacin de informacin con un mnimo esfuerzo de tiempo y
coste.

TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 9 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.

Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968

Un elemento fundamental de un SRI es que incluya algn mecanismo de control terminolgico, tanto para
la entrada de datos como para su recuperacin. Puede tratarse de un tesauro, de un glosario o de un
diccionario terminolgico.

Adems se puede incluir una ayuda al usuario en todo momento, a travs de mensajes y lneas de
estado, especialmente durante el proceso de interrogacin (interrogacin asistida). En sistemas de
recuperacin en lnea (teledocumentacin), el sistema informa al usuario del tiempo de conexin, tareas
ejecutadas, coste de la sesin, etc. Los mecanismos de ayuda al usuario, especialmente aquellos
referidos a la evaluacin y refinamiento de las bsquedas, son una de las principales reas de
investigacin.

Por ltimo, dependiendo de la configuracin del sistema, ste puede ofrecer opciones de acceso
multiusuario, niveles de seguridad, reorganizacin y recuperacin de ficheros, etc.

Sistemas hipertextuales: en su origen, los hipertextos e hipermedias eran una forma de organizar,
acceder y explorar documentos de diferentes tipos, que posteriormente se han popularizado como motor
y parte de tutoriales y presentaciones. Actualmente estos sistemas estn volviendo a ser considerados
como una forma vlida y muy avanzada de gestionar documentacin. Para que sea posible una
existencia real de los conceptos de hipertexto e hipermedia, deben utilizarse aplicaciones que sean
capaces de crear los vnculos y asociaciones entre los documentos. Las aplicaciones ofrecen unos
elementos particulares que facilitan la creacin y navegacin por las estructuras hipertextuales:
Un conjunto de ficheros que contienen los documentos relacionados.
Ventanas de presentacin de los documentos, las cuales son modificables en tamao y posicin.

TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 10 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.

Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968

Punteros o enlaces, que generalmente utilizan una representacin grfica distinta a la del resto del
material informativo, en forma de color, iconos, botones... As como dispositivos sealadores, que
facilitan la seleccin y el acceso a los documentos mostrados en las ventanas.
Herramientas de creacin de enlaces y anotacin de la navegacin, lo que da al usuario la posibilidad
de crear sus propias asociaciones y documentos.

Estas funcionalidades se integran en una herramienta que en el entorno hipertextual es conocida como
"browser", navegador o visualizador. El visualizador acta como una interfaz, que muestra al usuario el
contenido informativo de los documentos que selecciona, mediante la seleccin de enlaces. Suele
completarse con la posibilidad de ejecutar bsquedas en el texto completo que contienen los documentos
y/o bsquedas ms rgidas utilizando lenguajes clsicos de interrogacin. La interrogacin, sea de texto,
imgenes o sonidos, suele realizarse a travs de la ejecucin de patrones, que representan una
necesidad dada de informacin por parte del usuario. Adems, una completa aplicacin para este mbito
debera ser capaz de generar mapas grficos de la estructura hipertextual y utilizar estas
representaciones para acceder directamente a los documentos deseados.

La visin que obtiene el usuario mediante el visualizador es una visin transparente, integrada, en la que
no resulta complicado navegar de un documento a otro. Esta aparente facilidad no debe ocultar que los
documentos pueden encontrarse en diferentes ficheros informticos, e incluso en diferentes ordenadores,
formando lo que se llama repositorio de informacin, que ser tratado con ms detalle en el prximo
captulo, por su relacin con las bases de datos multimedia.

Los sistemas y estructuras de hipermedia pueden adems incorporar inteligencia embebida, es decir, ser
capaces de ejecutar otras aplicaciones o de tomar decisiones acordes con la actividad desarrollada por el
usuario, tanto en la utilizacin de los enlaces como en el acceso a los contenedores.

Sistemas de Gestin Documental o de Gestin Electrnica de Documentos (GED): se trata de


sistemas que pretenden ofrecer una solucin integral para la documentacin, especialmente
administrativa y de gestin, que se utiliza en una organizacin dada (PRAX, 1994; LASSOURY, 1994).
Incorporan funciones clsicas de gestin de bases de datos y utilizan esquemas de obtencin de una
copia del documento original mediante escner, almacenamiento ptico o magneto-ptico y un nivel
bsico de descripcin textual del documento y de su contenido.
Sistemas Gestores de informacin personal (Personal Information Systems/Managers): son
aquellos que integran, en un nico entorno, todos los documentos, ficheros y relaciones entre ellos que
son de inters para el trabajo de un usuario. Numerosos sistemas integrados de informatizacin ofrecen a
sus usuarios un acceso homogneo a los diferentes tipos de documentos y ficheros que manejan en su
trabajo diario.
Sistemas compuestos: se denomina as a aquellos que dan soporte a todas las tareas que se realizan
en una unidad informativa, sea sta un archivo, biblioteca o centro de documentacin. Esto significa que
cubren tanto la cadena documental como la gestin administrativa. Sirvan como ejemplo las aplicaciones
de automatizacin de bibliotecas, como Absys o Libertas, o las aplicaciones de automatizacin de
archivos, como la desarrollada para el Archivo de Indias de Sevilla. Normalmente, integran un motor
documental, encargado de gestionar las bases de datos documentales que cubren los catlogos, y un
motor relacional, que cubre las tareas administrativas.

4. OPTIMIZACIN DE CONSULTAS Y RECUPERACIN DE LA INFORMACIN

4.1. LENGUAJES DE INTERROGACIN Y OPERADORES

Un lenguaje de interrogacin puede definirse como un conjunto de rdenes, operadores y estructuras que,
organizados conforme a unas normas lgicas, permiten la consulta de fuentes y recursos de informacin
electrnica.

TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 11 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.

Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968

El resultado de la combinacin de estos elementos, siguiendo las normas establecidas, es una expresin a la que
se conoce con el nombre "ecuacin", capaz de interrogar el contenido de la fuente de informacin. La definicin
mnima de un lenguaje de interrogacin y de sus componentes puede encontrarse en el borrador de norma ISO
8777-1988.

Las normas lgicas que rigen un lenguaje de interrogacin responden a cuestiones relacionadas con la
coordinacin de los elementos, es decir, con la formulacin de ecuaciones. Estas normas funcionan como la
sintaxis del lenguaje, es decir, especificarn el orden de los elementos, la disposicin de las estructuras, sus
posibilidades combinatorias, las prioridades en la ejecucin y todo tipo de posibles funciones. Las rdenes sern
aquellas palabras o abreviaturas que le indicarn al sistema las acciones a ejecutar (buscar la expresin, mostrar
los documentos o registros resultantes, consultar el tesauro o los ficheros inversos, ejecutar un perfil de
usuario...). Sin embargo, no todos los lenguajes de interrogacin utilizan las mismas palabras como rdenes,
aunque las rdenes ejecuten las mismas funciones. Existen intentos para homogeneizar la interrogacin de las
bases de datos, como el lenguaje CCL (Common Command Language) promovido por la Unin Europea, que an
no han alcanzado el objetivo para el que fueron desarrollados. A este panorama se une la proliferacin de
interfaces grficos de usuario, que sustituyen a las rdenes y la sintaxis tradicional, dejando al usuario (si ste lo
desea) slo la labor de introducir los trminos y los operadores que expresan las relaciones existentes entre ellos.

En un lenguaje de interrogacin, los operadores son los encargados de expresar las relaciones que mantienen
entre s los trminos que definen (ms adecuado sera decir que pueden definir) las necesidades informativas del
usuario.

Pueden distinguirse diferentes tipos de operadores que se analizan a continuacin.

4.1.1. OPERADORES LGICOS O BOOLEANOS

Los operadores lgicos, tambin llamados booleanos en honor a George Boole, precursor de la lgica simblica y
del lgebra de conjuntos, son los ms utilizados en numerosos sistemas. El principio que rige la utilizacin de este
tipo de operadores es que las relaciones entre conceptos pueden expresarse como relaciones entre conjuntos.
Las ecuaciones de bsqueda pueden transformarse en ecuaciones matemticas, que ejecutan operaciones sobre
los conjuntos, lo que da como resultado otro conjunto. Los tres operadores bsicos son el operador suma/unin
(generalmente identificado como O/OR), el operador producto/interseccin (identificado como Y/AND) y el
operador resta/negacin (identificado como NO/NOT). A su vez, estos operadores pueden combinarse entre si
generando operaciones ms complejas, como el O exclusivo (elimina la interseccin), etc.

No deben obviarse los problemas que plantean los operadores booleanos, independientemente de su potencia.
En primer lugar, siempre se plantean en trminos absolutos (es decir, selecciona el documento en funcin de si
las palabras de bsqueda estn o no est presenten, sin considerar el peso especfico de cada trmino en el
contexto). Por esa misma razn, es necesario un alto valor de precisin en los trminos de bsqueda utilizados.
En segundo lugar, requieren claridad en la composicin de las expresiones a buscar.

TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 12 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.

Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968

Los tres operadores booleanos bsicos.

4.1.2. OPERADORES POSICIONALES

La utilizacin de operadores posicionales pretende superar algunas de las limitaciones anteriormente citadas que
ofrecen los operadores booleanos. Toman como punto de partida la consideracin del valor de cada trmino
dentro del contexto, es decir, de su relacin con el resto. En definitiva lo que quiere decir es que la posicin de los
trminos de bsqueda dentro del documento es significativa para valorar su utilidad. Los operadores posicionales
pueden dividirse en dos tipos:

Posicionales absolutos: Son aquellos que permiten buscar un trmino en un lugar dado del documento
o registro. Por regla general, son operadores de campo, es decir, permiten al usuario fijar en que campo o
campos presentes en la estructura de base de datos debe aparecer el trmino buscado. La presencia del
trmino en un campo dado (por ejemplo, en el campo ttulo) puede ser una garanta de la adecuacin del
documento a los objetivos, en la mayor parte de las situaciones.
Posicionales relativos. Tambin llamados de proximidad, se trata de operadores que permiten
establecer la posicin de un trmino respecto a otro dado. Se considera que la cercana entre los dos
trminos puede reflejar una ntima relacin entre los conceptos reflejados por los mismos. Estos
operadores permiten definir el nivel de proximidad entre los trminos (mismo campo, lnea, frase, nmero
de trminos significativos que los separa...).

4.1.3. OPERADORES DE COMPARACIN.

Especifican el rango de bsqueda, fijando unos lmites para la misma. Estos lmites pueden ser tanto numricos
como alfabticos, correspondiendo los operadores a formas del tipo "mayor que", "menor o igual que". Se utilizan
principalmente en documentos que pueden contener datos numricos.

4.1.4. OPERADORES DE TRUNCAMIENTO.

Pueden darse situaciones en las cuales sea necesario utilizar no un trmino simple, sino tambin sus derivados,
determinados por prefijacin o sufijacin, mnimas variantes lxicas, etc. Para facilitar este tipo de bsqueda se
han introducido operadores de truncamiento, a los que tambin se llama mscaras. Se trata de operadores
(normalmente se emplean smbolos como *, $) cuya presencia puede sustituir a un carcter o a un conjunto de
caracteres, situados a la izquierda, dentro o a la derecha del trmino en cuestin.

TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 13 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.

Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968

En los actuales sistemas de recuperacin de informacin es posible encontrar todos estos tipos de operadores,
que pueden combinarse entre s, permitiendo crear ecuaciones complejas que reflejan con bastante precisin los
conceptos y sus relaciones. La combinacin de los operadores debe respetar un conjunto de reglas bsicas en
todos los sistemas, que establecen las prioridades y formas de ejecucin de ecuaciones complejas, cuando stas
combinan ms de dos conceptos. En primer lugar, los sistemas tienden a resolver, o ejecutar en primer lugar,
aquellas expresiones que se relacionan utilizando el operador ms restrictivo o prioritario. Por ejemplo, un
operador posicional absoluto posee un nivel de restriccin (una prioridad) mayor que un operador booleano, lo
que significa que el sistema ejecutar antes la expresin cuyo operador es el posicional absoluto, combinando
posteriormente el resultado con el operador booleano y su trmino relacionado.

Sin embargo, pueden darse expresiones en las cuales sea necesario variar estas prioridades y ordenar al sistema
que ejecute en primer lugar expresiones con operadores de menor nivel de restriccin, relacionando luego su
resultado con trminos a travs de operadores ms restrictivos. Para estas situaciones, se utilizan parntesis, los
cuales engloban a las expresiones que deben ejecutarse en primer lugar, independientemente de las prioridades
fijadas por el sistema. La utilizacin de expresiones entre parntesis hace posible, por ejemplo, que el resultado
de una expresin con un operador booleano pueda ser combinada con un operador posicional absoluto. Adems,
los parntesis pueden anidarse, resolvindose las ecuaciones planteadas desde dentro hacia fuera, de la misma
forma que las igualdades y polinomios matemticos.

4.2. ESTRATEGIA DE LA INTERROGACIN

Los lenguajes, sus rdenes y operadores son utilizados dentro del proceso de recuperacin de informacin, la
cual se encuentra almacenada en un repositorio, que suele ofrecer la forma de base de datos. La base de datos
es consultada mediante la ejecucin de bsquedas, expresiones que renen los elementos citados con
anterioridad, y cuya resolucin da como resultado aquellos elementos que responden a la lgica expresada en la
bsqueda.

Con el concepto "estrategia de la interrogacin" nos referimos a los posibles enfoques que se le puede dar a la
planificacin del proceso de recuperacin de la informacin, tanto de la visin general de cmo se va a afrontar la
bsqueda hasta la formulacin de la ecuacin concreta.

La estrategia debe ser un plan ideal de interrogacin de la base de datos que incluya el objetivo de la bsqueda,
el plan general y el plan especfico de operacin. El objetivo de la bsqueda se obtiene identificando qu tipo de
informacin se necesita y sus caractersticas. Una vez definido el objetivo, debe establecerse un plan general de
operacin, que incluya una seleccin de la base o bases de datos a consultar, las primeras aproximaciones a los
trminos a utilizar en las ecuaciones, as como las posibles relaciones lgicas. El plan especfico de operacin se
pone en marcha una vez obtenidos los resultados del anterior y debe formular ecuaciones y utilizar trminos con
el mayor grado de precisin, establecer una secuencia lgica con todo ello y redefinirlo si es preciso.
Independientemente de ambos planes, resulta necesario conocer con anterioridad la respuesta a varias
cuestiones que afectan a la interrogacin de la base de datos, tales como el contenido y alcance de la base de
datos, coste de consulta, lenguaje y operadores a utilizar durante las consultas, lmites preestablecidos (por el
usuario o el sistema)... Todas ellas afectan y modifican el enfoque del interrogador.

4.2.1. TIPOS DE ESTRATEGIA.

En el momento actual, parece ms adecuado utilizar el trmino para identificar el plan general de bsqueda. No
existe una nica ni perfecta aproximacin a las estrategias de interrogacin de bases de datos. En la mayor parte
de las ocasiones depende de la experiencia del usuario y de la calidad del contenido de los registros existentes
en la base de datos, especialmente en lo que corresponde a su control terminolgico. La estrategia depende, en
gran manera, de la formacin, intuicin y experiencia del usuario. Tomando en consideracin la intencin del
interrogador, la bibliografa seala que pueden existir varios tipos principales de bsqueda, que pueden
clasificarse en dos grandes grupos, sin perjuicio de que puedan darse situaciones en las que se combinen:

Categorizacin por objetivo:

TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 14 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.

Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968

Bsqueda de elemento conocido: se trata de bsquedas en las cuales el interrogador sabe cul ser
la respuesta. Por ejemplo, en una biblioteca en la que estamos buscando un libro concreto
(documento respuesta conocido) y realizamos la bsqueda por su ISBN.
Bsqueda de informacin especfica: el interrogador busca una informacin especfica dada,
generalmente sobre un tema concreto y limitado, como trabajos publicados en un ao o por un autor.
Bsqueda de informacin general: intenta buscar la informacin sobre una materia o asunto, de
forma general, que obtenga una visin global del estado de la misma.
Exploracin de la base de datos: se trata de conocer qu tipos de informacin y/o documentos se
encuentran almacenados en la base de datos, a qu pueden responder y cmo pueden utilizarse.
Categorizacin por plan de operacin:
Bsqueda directa: se trata de una aproximacin expeditiva, en la que se intenta resolver el problema
con la formulacin de una nica consulta. Como puede deducirse, resulta difcil obtener buenos
resultados con la misma.
Bsqueda "breve": es una evolucin de la anterior, en la que se trata de recuperar unos tems
significativos entre un gran nmero obtenido tras una sola ecuacin.
Ampliacin: comienza con ecuaciones muy restrictivas, que ofrezcan documentos pertinentes. Tras
analizar la respuesta, el usuario puede ampliar o expandir las ecuaciones de bsqueda hasta
recuperar toda la informacin existente. Puede ofrecer problemas si la ecuacin inicial no es
adecuada.
Restriccin: opuesta a la anterior, formula ecuaciones que ofrecen resultados muy amplios, para
posteriormente utilizar ecuaciones ms restrictivas, hasta delimitar los documentos pertinentes.
Construccin de bloques: intenta establecer bloques de informacin que se correspondan con el
objetivo de la bsqueda, para combinarlos entre s de manera que se responda a la necesidad
planteada de manera ptima.

4.3. LA EXPLORACIN COMO MECANISMO DE RECUPERACIN

Las limitaciones inherentes al proceso de recuperacin mediante ecuaciones han conducido a experimentar otras
aproximaciones. Una de las ms utilizadas es aquella que emplea la exploracin, es decir, el acceso a los
documentos mediante tcnicas de visualizacin de parte de su contenido que puede ser relevante, y la posterior
asociacin con otros documentos de perfil similar. El usuario accede a un listado o enumeracin de elementos
descriptivos y, mediante un proceso de seleccin de elementos, va centrando el objetivo de su bsqueda. Los
criterios utilizados por el usuario se basan en la deduccin y la asociacin de conceptos (aproximacin sta
similar a la que utiliza un sistema hipertextual -ver infra el captulo pertinente-) frente a la lgica de conjuntos que
se plantea en un sistema de ecuaciones. Este tipo de representacin es ms adecuada para reflejar la
polirepresentacin que un concepto puede tener para un usuario individual. En cambio, la utilizacin de la
exploracin suele realizarse en entornos en los cuales el usuario no posee una idea clara de cul debera ser la
mejor tctica para aproximarse a la informacin que precisa. Por lo tanto, la cuestin clave a considerar en un
sistema de exploracin es combinar las ideas y esquemas del usuario con el esquema de organizacin de la
informacin que ofrece el sistema. sta es la aproximacin que pretenden desarrollar los enfoques cognitivos,
poniendo su nfasis en el intermediario que debe existir entre el modelo del usuario y el modelo del sistema.

4.4. REVISIN Y ANLISIS DE RESULTADOS

El resultado de la ejecucin de una ecuacin de bsqueda es un conjunto de documentos que cumplen las
condiciones expresadas en la ecuacin. Se trata, a su vez, de un subconjunto del conjunto total de documentos
existentes en el recurso o fuente de informacin consultado. Sin embargo, puede darse el caso de que la
respuesta sea un nmero excesivamente elevado de documentos, o un nmero mnimo. Por otra parte, los
documentos resultantes responden a la lgica y a las condiciones expresadas en la ecuacin de bsqueda, lo
cual no supone, como ya se ha sealado, que sean pertinentes a las necesidades del usuario. En realidad, es

TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 15 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.

Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968

posible ejecutar ecuaciones perfectas, desde un punto de vista funcional (operadores, trminos...), sin que los
documentos resultantes renan las caractersticas que los haran deseables para el usuario.

Para superar esta posible distorsin en los resultados es necesario valorar y evaluar la respuesta a las
ecuaciones planteadas. La primera modificacin a realizar en la formulacin de las ecuaciones afecta al nmero
de respuestas obtenidas. En el caso de un excesivo nmero, se utilizan tcnicas de restriccin mediante la
introduccin de trminos ms especficos, se desechan trminos generalistas o se limitan los truncamientos. En el
caso de un nmero muy reducido, las acciones a tomar son las contrarias, es decir, utilizacin de trminos ms
generales, incluyendo derivados y relacionados, limitacin de los operadores ms restrictivos, introduccin de
truncamientos, etc. Si se da la situacin de ecuaciones correctas funcionalmente, pero sin respuesta adecuada,
sera necesario replantear el proceso de recuperacin, especialmente en la utilizacin de los lenguajes
documentales y en la seleccin de fuentes.

5. LOS SISTEMAS DE RECUPERACIN DE LA INFORMACIN EN INTERNET


Anteriormente hemos visto que un motor de bsqueda es un sistema que realiza bsquedas en una base de
datos documental. En el caso de Internet, la base de datos est constituida por recursos web que han sido
previamente indizados. El proceso de indizacin se puede realizar manualmente, pero en el mundo de Internet se
utilizan los robots, que es una herramienta que naci para medir el tamao de la Red, pero que rpidamente se
descubri su utilidad para indizar documentos.

5.1. ROBOTS

Un robot, tambin conocido como spider o wanderer, es capaz de navegar a travs de documentos web
relacionados por enlaces. El funcionamiento de un robot a grandes rasgos es el siguiente. Parte de una lista de
servidores inicial a partir de la cual va visitando los enlaces correspondientes, siguiendo un determinado criterio
propio del robot. Cuando el robot llega a un servidor que no estaba en la lista inicial, busca un fichero llamado
robots.txt en el que se indican los directorios permitidos para ser explorados y los que no. En caso de que el
fichero no exista, se consideran todos permitidos. A continuacin, el robot indexa las pginas que han de ser
incorporadas a la base de datos. Dicho proceso se puede llevar a cabo de varias maneras. Una de las ms
habituales es indexar el contenido de las etiquetas <META>, el cual est oculto para el usuario y permite
introducir palabras clave para los robots de bsqueda. Tambin hay robots que indexan los ttulos de las pginas
HTML, o incluso el contenido entero del documento.

5.2. MOTORES DE BSQUEDA

Los motores de bsqueda realizan bsquedas dentro de una base de datos de documentos, que puede haber
sido recopilada por un robot como acabamos de ver, o bien manualmente.

Existen dos grandes tipos de motores de bsqueda. Unos de ellos disponen la informacin en forma de
directorios organizados temticamente que ayuden a los usuarios a visualizar los recursos clasificados por
categoras. Un ejemplo de este tipo de buscadores es Yahoo! Son muy prcticos cuando se quiere buscar
informacin de un tema en concreto. Uno de los principales inconvenientes que tienen es que estos catlogos se
suelen compilar y organizar de forma casi manual, por lo que a menudo estn desactualizados.

Otro enfoque distinto son los que utilizan palabras clave para recuperar informacin. Son muy tiles, aunque
tienden a recuperar grandes cantidades de informacin irrelevante, por lo que el usuario no debe limitarse
pasivamente a recibir una respuesta a su requerimiento, sino que debe trabajar activamente con esa respuesta,
separar lo pertinente del ruido y utilizar la respuesta como un punto de partida. Entre este tipo de buscadores
podramos citar a Google, uno de los ms famosos.

En cualquiera de los dos casos, la respuesta del motor consistir en una pgina web que incorpora una breve
descripcin de las pginas que ms se ajustan a la expresin de bsqueda y, lo que es ms importante, un
enlace directo a las mismas, mediante el cual el usuario puede acceder al documento original en ese mismo
instante.

TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 16 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.

Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968

Como hemos visto, el proceso de bsqueda y recuperacin de la informacin en Internet se asemeja mucho al de
los sistemas documentales vistos anteriormente. Adems, los primeros motores de bsqueda en Internet se
basaban en los que se utilizaban en los SRI (apartado 3 de este tema). Esto origin que surgieran problemas que
no se planteaban en el mundo de los SRI debido a que el entorno de trabajo y las caractersticas de la
informacin almacenaba eran considerablemente distintos. Alguno de ellos es por ejemplo el "spamming", que
consiste en la introduccin en la descripcin de pginas web de trminos que no tienen nada que ver con su
contenido, de manera que el usuario recupere esas pginas cuando en realidad pretenden realizar otra bsqueda.

En cuanto al motor de bsqueda Google, desarrollado en la Universidad de Standford (California), es interesante


resear el algoritmo de ranking (para ordenar los documentos recuperados) que utiliza. Se llama "PageRank" y
calcula el grado de calidad de las pginas en funcin de la conectividad de las mismas con otras pginas, de dos
maneras:

Por un lado, el algoritmo tiene en consideracin el nmero de enlaces que una pgina proporciona como
una medida de calidad de la misma.
De igual manera pasa con el nmero de pginas que apuntan a ella: es una medida de su calidad;
cuantas ms referencias a esta pgina haya en otras webs, se considera que mayor es su calidad.

En resumen, se basa en que aquellas pginas muy citadas son pginas que vale la pena consultar. Como
inconveniente a este mtodo, podemos citar que las novedades no aparecen en los resultados, ya que para ser
consideradas releventes han de ser citadas en otras webs.

6. CONCLUSIN
El archivo electrnico de documentos, que naci con la finalidad de almacenar la literatura cientfica, ha sido
ampliamente adoptado en el mbito de las organizaciones bajo diversas formas de acuerdo con la funcionalidad
requerida: desde sistemas de gestin de bases de datos documentales hasta sistemas compuestos. A grandes
rasgos, cualquier sistema de archivo electrnico de documentos ha de contemplar dos grandes procesos, la
manipulacin de los documentos (introduccin de nuevos documentos, eliminacin de los existentes) y la
recuperacin de los mismos para su presentacin al usuario.

En la actualidad, la convergencia entre Internet y los sistemas de recuperacin de la informacin tradicionales ha


dado lugar a que la WWW pueda ser considerada como una gigantesca estructura documental con caractersticas
propias de los sistemas hipertexto e hipermedia. Los buscadores de Internet tienen una propiedad muy
caracterstica y es que exigen del usuario un papel ms activo que en los SRI tradicionales, una combinacin de
acciones de bsqueda y navegacin a travs de los documentos recuperados, ya que stos se pueden constituir
en nuevos puntos de partida para nuevas bsquedas.

7. BIBLIOGRAFA
FRAKES, W.B. Introduction to Information Storage and Retrieval Systems. Ed. Prentice Hall

TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 17 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.

Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968

8. ESQUEMA RESUMEN

INTRODUCCIN

Crecimiento informacin: ritmo exponencial. Necesario solucionar el problema de su gestin.


Tipos de informacin:
Estructurada
No estructurada
Otlet es el precursor de la gestin de la documentacin automtica (Trait de Documentation, 1934),
estableciendo:
Organizacin, herramientas y soportes tecnolgicos de la documtica.
Aplicacin prctica del proceso documental.
Objetivo: satisfacer las necesidades informativas del usuario.
Information Retrieval (aos 50): conjunto de tareas mediante las cuales se localizan y acceden los
recursos de informacin necesarios.
Esquema del proceso de recuperacin de la informacin:
El usuario formula una necesidad de conocimiento
Se interroga al sistema gestor documental (SGD)
El SGD devuelve una lista de referencias
Si lo que buscamos no est en la lista se realiza una segunda bsqueda y empieza el proceso de
nuevo.
Ciencia de la Informacin (finales aos 60): integra la teora, proceso y prctica documental, con otras
ciencias (ciberntica, informtica, teora de la informacin y la comunicacin, etc).
Information Management (Gestin de Informacin y la Documentacin en las Organizaciones): papel
fundamental las telecomunicaciones y la informtica, en el marco de redes de informacin.

ARCHIVO ELECTRNICO DE DOCUMENTOS

INDIZACIN: extraer los conceptos clave del texto de un documento.

La indizacin conlleva dos procesos fundamentales:


Extraer los conceptos informativos de cada documento.
Traducirlos a un lenguaje documental.
Segn el lenguaje documental utilizado, los SGD se clasifican en:
sistemas de lenguaje libre o free-text. Ejemplo: Google.
sistemas basados en lenguajes controlados. Los trminos que contiene un lenguaje documental:
Descriptores: los que deben utilizarse en la indizacin y en la recuperacin.
Trminos no preferentes.
Compromiso entre la exhaustividad y la precisin.
Fallos en los que se puede caer:
Ruido: documentos que el sistema ha seleccionado y que en realidad no responden a la pregunta.
Silencio: documentos que no han sido seleccionados y sin embargo responden a la pregunta.

TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 18 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.

Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968

Etapas de la indizacin
Examen del documento
Identificacin del documento
Traduccin de los trminos

LOS TESAUROS

Diccionarios que muestran la equivalencia entre los trminos o expresiones del lenguaje natural y los
trminos normalizados del lenguaje documental, as como las relaciones semnticas que existen entre
ellas.
Norma UNE 50-106-90
Los elementos principales de un tesauro:
Unidades lexicales. A su vez de subdividen en varios tipos:
descriptores
trminos equivalentes o sinnimos:
- sinnimos lingsticos
- sinnimos documentales o cuasi-sinnimos: infraconceptos y palabras herramienta o
instrumento
Relaciones entre unidades lexicales. Existen las siguientes clases de relaciones:
Relaciones de equivalencia o sustitucin.
relaciones de jerarqua:
- relaciones genricas
- relaciones partitivas o relaciones todo-parte.
relaciones asociativas o de vecindad
relaciones de definicin
Sistemas de indizacin
Ficheros planos
Ficheros inversos
Ficheros de patrones de bits
Grafos

MTRICAS DE EFICIENCIA

Relevantes No Relevantes
Extrados A B
No extrados C D

Indice de pertinencia o precisin: mide cuantos documentos devueltos son los considerados relevantes
por el usuario: A / (A + B). Calidad
Indice de exhaustividad o de respuesta: mide el porcentaje de documentos que han sido devueltos sobre
el total de la base documental: A / (A + C). Cantidad
Tasa de ruido: mide el porcentaje de documentos que carecen de inters y han sido devueltos por el
sistema: B / (A + B)

TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 19 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.

Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968

EL PROCESO DE RECUPERACIN DE LA INFORMACIN

1. Definicin de las necesidades informativas del usuario.


2. Seleccin y ordenacin de las fuentes a utilizar.
3. Traslacin de las necesidades del usuario al lenguaje documental
4. Traduccin de la expresin de lenguaje documental al lenguaje de interrogacin propio de cada sistema.
5. Ejecucin de las expresiones del lenguaje de interrogacin obtenidas.
6. Consulta de las respuestas obtenidas, para analizar su pertinencia o no a la cuestin planteada.
7. Replanteamiento si los resultados obtenidos no son pertinentes.
8. Seleccin y obtencin de los documentos que respondan a las necesidades manifestadas por el usuario.
9. Transmisin del resultado al usuario.

ORGANIZACIN FUNCIONAL DE LOS SISTEMAS DOCUMTICOS

Sistemas de gestin de bases de datos documentales (SGBDD)

Funcionalidad: creacin y mantenimiento de bases de datos documentales, usuarios, controles de


seguridad, lenguajes propios de programacin.
Basados en sistemas de archivo y ficheros inversos.
Caractersticas:
capacidad para almacenar informacin textual de longitud grande y variable
capacidad para realizar bsquedas multicriterio sobre ficheros inversos utilizando lgica booleana
capacidad para administrar tesauros y diccionarios terminolgicos.

Sistemas de indizacin: Sistemas que realizan el procesa de la indizacin documental

Sistemas de exploracin o escneres aplicaciones capaces de ejecutar ecuaciones de bsqueda sobre ficheros
con diferentes formatos

Sistemas de gestin bibliogrfica: sistema especializado en la gestin y mantenimiento de bibliografas


especializadas

Sistemas de recuperacin de informacin (SRI)

sistemas que recuperan informacin de bases de datos documentales.


El gestor de interrogacin o motor de bsqueda:
Realiza bsquedas dentro de una base de datos de documentos
Partiendo de la interrogacin del usuario o query
Devuelve una lista ordenada de documentos segn una puntuacin (score)
Pueden incluir:
herramientas de anlisis y proceso de la respuesta
subsistema de definicin de perfiles de bsqueda: macros
Tesauros o diccionarios

TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 20 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.

Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968

Ayuda al usuario, interrogacin asistida

Sistemas hipertextuales

Los documentos se relacionan a travs de vnculos


Herramienta fundamental de interface con el usuario: browser, navegador o visualizador
Interrogacin a travs de la ejecucin de patrones

Sistemas de Gestin Documental o de Gestin Electrnica de Documentos (GED)

Ofrecen una solucin integral para la documentacin administrativa y de gestin


Incorporan sistemas para la obtencin de copias de documentos mediante escner, almacenamiento
ptico o magneto-ptico.

Sistemas Gestores de informacin personal (Personal Information Systems/Managers): Integran en un nico


entorno todos los documentos, ficheros y relaciones de inters para un usuario, para ofrecer un acceso
homogneo a los mismos.

Sistemas compuestos: dan soporte a todas las tareas que se realizan en una unidad informativa.

OPTIMIZACIN DE CONSULTAS Y RECUPERACIN DE LA INFORMACIN

Lenguajes de interrogacin y operadores

Lenguaje de interrogacin: conjunto de rdenes, operadores y estructuras que, organizados segn unas
normas lgicas, permiten la consulta de fuentes y recursos de informacin electrnica.
Ecuacin: combinacin de estos elementos.

Operadores: expresan relaciones entre los trminos. Tipos:


Operadores lgicos (o booleanos). Tipos bsicos:
Operador suma/unin O/OR
Operador producto/interseccin Y/AND
Operador resta/negacin NO/NOT
Otros: OR exclusivo (XOR)
Operadores posicionales
Toman en consideracin la posicin de los trminos en relacin con el resto
Tipos:
- Absolutos: permiten fijar en qu campo debe aparecer un trmino
- Relativos o de proximidad: permiten establecer la posicin de un trmino respecto a otro.
Operadores de comparacin
Sirven para especificar el rango de bsqueda
"mayor que", "menor o igual que", "distinto de"...
Operadores de truncamiento o mscaras: Smbolos *, $,... sustituyen a caracteres o conjuntos de
caracteres

TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 21 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.

Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968

Los operadores se pueden combinar entre s para crear las ecuaciones, respetando una serie de reglas
basadas en las prioridades entre operadores. Uso de parntesis.

Estrategia de la interrogacin

Estrategia: planificacin de la interrogacin de la base de datos que tenga en cuenta:


el plan general de bsqueda : qu informacin se necesita
el plan general de operacin: qu fuentes de datos hay que consultar
el plan especfico de operacin: qu ecuaciones y querys hay que lanzar

Tipos de estrategia. Pueden clasificarse en dos grandes grupos:


Categorizacin por objetivo:
Bsqueda de elemento conocido: bsquedas en las que el usuario conoce la respuesta
(verificaciones)
Bsqueda de informacin especfica: el usuario busca una informacin especfica sobre un tema
concreto (ejemplo: trabajos publicados en un ao)
Bsqueda de informacin general: bsqueda de informacin sobre una materia (visin global )
Exploracin de la base de datos: conocer qu tipo de informacin existe en la base de datos.
Categorizacin por plan de operacin:
Bsqueda directa: en una nica consulta. Difcil obtener buenos resultados.
Bsqueda "breve": evolucin de la anterior, en la que se trata de recuperar unos tems
significativos entre un gran nmero obtenido tras una sola ecuacin.
Ampliacin: empezando con ecuaciones muy restrictivas, se analiza la respuesta y el usuario
puede ampliar las ecuaciones de bsqueda. Problema: si la ecuacin inicial no es adecuada.
Restriccin: inversa a la anterior.
Construccin de bloques: establece bloques de informacin para combinarlos con el fin de que
alguna combinacin ofrezca la solucin deseada

La exploracin como mecanismo de recuperacin

Exploracin: visualizacin de parte del contenido relevante de los documentos, para categorizarlos segn
perfiles
Se usa en entornos en los que el usuario no tiene una idea clara de la mejor tctica de bsqueda para su
problema.

Revisin y anlisis de resultados

Objetivo: verificar que el conjunto de documentos respuesta obtenido no es excesivamente grande o


pequeo, as como que sean pertinentes a la bsqueda realizada
Resultado de la revisin:
Nmero excesivo de documentos: aplicar tcnicas de restriccin
Nmero reducido: aplicar tcnicas de generalizacin
Respuesta no pertinente: replantear el procese de recuperacin

TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 22 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.

Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968

LOS SISTEMAS DE RECUPERACIN DE INFORMACIN EN INTERNET

Robots: indizacin documentos web


Motores de bsqueda
Temticos (Yahoo!)
Por palabras clave (Google)
Google: algoritmo "PageRank"

TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 23 de 23

Vous aimerez peut-être aussi