Vous êtes sur la page 1sur 7

Concepto y características de las bd

documentales

o ¿Qué son las bases de datos documentales?


o Representación de la información contenida en los documentos
o La generación de índices: los ficheros inversos
o Comportamiento ante la búsqueda
o La función de comparación
o Relevancia de los documentos
o Bibliografía

¿Que son las bases de datos documentales?

• Las bases de datos documentales están concebidas para el procesamiento,


captura, almacenamiento, distribución y recuperación de información vinculada
con la representación del conocimiento registrado en los documentos.
• Se construyen con información no estructurada, tipo texto (documentos)
• Gestionan tipos de datos muy complejos (documentos científicos y técnicos,
entre otros) y actividades muy simples como la entrada y salida de documentos
(Codina, 1994)
• Poseen un potente sistema de recuperación de información.

Ejemplos de bases de datos documentales son las bases de datos bibliográficas, bases de
datos de prensa, bases de datos de informes de una empresa, científicos, etc.

A los sistemas que gestionan este tipo de bases de datos se les denomina Sistemas de
Gestión de Bases de Datos Documentales (SGBDD) o Sistemas de Recuperación de
Información (SRI) y son sistemas de información probabilistas.

Ejemplos de sistemas de gestión de bases de datos documentales son Knosys, Inmagic,


ISIS, BRS, entre otros

Pese a que las bases de datos relacionales y los sistemas que las gestionan (SGBDR) son
los más utilizados y por tanto los más populares, las bases de datos documentales han
experimentado un fuerte auge durante estos dos últimos años, impulsado sobre todo por
la popularización de Internet y la consiguiente saturación de información textual que ha
traido la World Wide Web, así como por el reciente interés de las grandes empresas por
gestionar el conocimiento almacenado en documentos.
Representación de la información contenida en los documentos

La unidad básica de una base de datos es el registro. Cada registro en una base de datos
contiene toda la información sobre un artículo o asunto (item). Por ejemplo, cada
registro en una base de datos de patentes contiene toda la información sobre una patente
concreta. En una base de datos de artículos de una revista, por ejemplo, la Revista
Española de Documentación Científica, cada registro contiene la información sobre un
artículo concreto de esta revista. Los registros de las bases de datos contienen diferentes
conjuntos de datos que dependen del tipo de información que se almacene en ellas.

Los registros están divididos en campos, y cada campo contiene un elemento de


información dentro de cada registro. Por ejemplo, en una base de datos de empresas, el
nombre de la compañía, la dirección, los directivos y los productos constituirían los
diferentes campos en los que se almacenaría la información. En una base de datos de
artículos de revistas, el autor o autores, el título, la fuente, el volumen, número de la
publicación, páginas, año, descriptores, resumen (y el texto, en caso de ser una base de
datos a texto completo) constituirían los campos en los que se almacenarían los distintos
artículos de las revistas.

¿Cómo se representa la información en las bases de datos documentales?

Se realiza a través de una serie de operaciones que se conocen con el nombre de cadena
documental (selección, análisis, búsqueda y difusión documental). A través del análisis
documental (descripción bibliográfica, indización, clasificación y resumen) se extrae de
los documentos una representación condensada de los mismos.

Como resultado de las operaciones de la cadena documental se obtienen dos productos


distintos:

1. Las representaciones formales de los documentos, también llamados documentos


secundarios, que están formadas por la descripción documental y por un conjunto de
términos de indización.

Sin embargo, en la actualidad muchas bases de datos nos ofrecen la información a texto
completo, por lo que además de la representación formal de los documentos disponemos
del documento en si mismo. También podríamos decir que muchas páginas web
incorporan representaciones formales de los documentos a través de sus etiquetas meta.
Esta etiquetas nos dan información sobre su autor, título del documento, descripción del
contenido (resumen) palabras claves asociadas (indización) y clasificación del
contenido, lo cual facilita las tareas de recuperación de información de los motores de
búsqueda.

2. Las representaciones de las necesidades de información, las preguntas o ecuaciones


de búsqueda. Estas ecuaciones de búsqueda suelen estar formadas por términos de
indización, y puede ir combinadas por operadores boleanos, de proximidad, adyacencia,
etc. Los términos de indización se extraen de un lenguaje controlado (tesauro) o bien del
lenguaje natural.
La generación de índices: los ficheros inversos

Ficheros indexados o ficheros inversos son ficheros que se crean para facilitar el acceso
aleatorio mediante claves secundarias elegidas por el usuario.

Cada registro contiene:

a) el valor del campo por el cual se desea realizar la búsqueda directa y


b) un puntero, un registro de dirección que permite el acceso directo a dicho registro.

Imaginemos que estamos introduciendo registros en una base de datos de artículos de


revistas. El registro que vamos a introducir es el número 3, que corresponde a un
artículo de David Willey titulado "La biblioteca virtual" y que ha sido publicado por la
Revista Española de Documentación Científica.

Visualización de un registro preparado para imprimir

Registro nº 1.....
Registro nº 2.....

Registro nº 3
Willey, David
La biblioteca virtual
Revista Española de Documentación Científica 6, 3,
1999, pp 110-122

Descriptores: biblioteca virtual, OPAC,


automatización de bibliotecas, tecnologías de la
información

Se estudian las tecnologías aplicadas a la gestión de


todas las actividades de la biblioteca en la era de
Internet
Visualización de un registro estructurado en campos

reg: 3

aut: Willey, David

tit: La biblioteca virtual

fue: Revista Española de Documentación Científica

vol: 6

núm: 3

pág: 110-122

año: 1999

des: biblioteca virtual, OPAC, automatización de


bibliotecas, tecnologías de la información

res: Se estudian las tecnologías aplicadas a la


gestión de todas las actividades de la biblioteca en
la era de Internet

Índice de términos generado por un registro

3 (reg)
1999 (año)
actividades (res)
aplicadas (res)
automatización de bibliotecas (des)
biblioteca (tit, res)
biblioteca virtual (des)
era (res)
estudian (res)
gestión (res)
Internet (res)
OPAC (des)
Revista Española de Documentación Científica
(fue)
tecnologías (res)
tecnologías de la información (des)
todas (res)
Willey, David (aut)
Estructura de fichero invertido: fichero índice

Nº Posiciones Registro de
TÉRMINOS
(puntero) dirección
...................
acciones 10 1345
actividades 4 1200
anuario 6 2620
aplicadas 14 1800
artistas 26 3600
biblioteca 35 2450
bibliotecario 2 2100
carpeta 23 4500
era 8 1220
estudian 7 2300
gasto 8 3400
gestión 12 3900
groupware 21 3320

Estructura de fichero invertido: fichero posiciones

Direcciones Números de registros

1200 1, 3, 10, 20
1220 3, 5, 22, 32, 44, 56, 58, 76,
1345 2, 8, 12, 13, 43, 80, 88, 90, 97, 99
1800 3, 9, 15, 17, 39, 44
2100 45, 56
2300 3, 36, 40, 89, 99, 160, 188
2450 3, 5, 6, 13, 21, 34, 46, 50
2620 34, 46, 47, 65, 120, 166
3320 2, 9, 11, 14, 18
3400 1, 4, 13, 220, 221, 278, 456, 800
3600 8, 15,67
3900 3, 7, 17, 29, 37, 51, 59
4500 54, 66, 77
Comportamiento ante la búsqueda de información

Las bases de datos documentales tienen como objetivo la recuperación de la


información textual y deben permitir la
localización de la mayor cantidad de información relevante existente sobre un tema
determinado. La recuperación de información está vinculada con la representación del
conocimiento registrado en documentos, con la representación de las necesidades de
información de los usuarios del SGBDD y con el desarrollo de una función capaz de
comparar ambas y seleccionar los documentos más relevantes para seleccionar la
necesidad de información.

Cuando un usuario realiza una consulta en una base de datos documental, el sistema
presenta como resultado, no una respuesta exacta, sino documentos útiles para satisfacer
la pregunta del usuario. Las bases de datos documentales, a través de sus sistemas de
recuperación de información, lo que hacen es comparar necesidades de información y
documentos y seleccionar aquellos que son más relevantes para satisfacer esa necesidad
de información.

Una base de datos de prensa, por ejemplo, tiene como objetivo no sólo la localización
de una noticia concreta, sino además todas las noticias relacionadas con el tema que
busca un usuario, de acuerdo a la formulación de búsqueda que éste plantee.
De tal manera que cuando buscamos una noticia publicada por el diario El País, el día
20 de enero de 2001, titulada: "El Plan Hidrológico Nacional no tiene el apoyo de todas
las Comunidades Autónomas" la base de datos puede mostrarnos la noticia exacta
(siempre que esté incluida en la base de datos) si el usuario cumplimenta, en el
formulario de búsqueda, los campos Fuente, Fecha y Título de la noticia. En este caso lo
que el usuario quiere encontrar es una noticia concreta, por lo que el sistema buscará
una noticia que cumpla las tres condiciones expresadas por el usuario (Fuente, Fecha y
Título de la noticia)

En cambio, si lo que buscamos son noticias sobre el reciente Plan Hidrológico Nacional,
el usuario podrá formular su expresión de búsqueda sin especificar campo alguno, y la
base de datos buscará todos los documentos que contengan "Plan Hidrológico Nacional"
en cualquier parte de la base de datos. Al final, mostrará como resultado una lista de
documentos que pueden ser útiles para satisfacer la necesidad de información del
usuario. El orden en el que aparecen los resultados responde, en muchos sistemas
documentales, al empleo de criterios de relevancia de los documentos.

La función de comparación

Ante una consulta, el sistema realiza una función de comparación que consiste en
revisar los documentos de la base de datos y comprobar si hay semejanzas con la
pregunta formulada. Realizará cálculos del tipo: ¿cuántos términos tienen en común los
documentos de la base de datos con la pregunta formulada? el sistema seleccionará
aquellos documentos que cumplan las condiciones de la búsqueda y presentará los
resultados al usuario, el cual podrá reformular la pregunta acotando la búsqueda por
determinados campos.
Relevancia de los documentos

Como señala Codina (1994) la relevancia es la capacidad de un documento para


satisfacer una necesidad de información dada. Un documento puede tener un grado de
relevancia igual a 0 (nada relevante) igual a 1 (muy relevante) o cualquier valor
intermedio. La relevancia de un documento se obtiene de la fusión entra las
características del documento y las características subjetivas planteadas por el usuario.
Es una cualidad del documento, pero es dinámica y diferente para cada usuario.

No obstante, a diferencia de los sistemas de bases de datos relacionales, dada una


necesidad de información, es imposible saber de antemano qué documentos aparecerán
como relevantes.

Un sistema de información documental eficaz tendría que ser capaz de sugerir a los
usuarios representaciones adecuadas de sus necesidades de información a través de la
ayuda, formularios de búsqueda etc.

Bibliografía

CODINA, Luís. Modelo conceptual de un sistema de información documental. Revista


Española de Documentación Científica. 17, 4, 1994, pp.440-449

CODINA, Luís. La naturaleza de la recuperación de información: implicaciones para


el diseño de sistemas de
información documentales. IV Jornadas Españolas de Documentación Automatizada.
Gijón, 1994. pp. 433-441

LARGE, Andrew. Information seeking in the online age: principles and practice.
Andrew Large, Lucy A. Tedd y R. J. Hartley. London: Bowker-Saur, 1998

ROWLEY, Jennifer. The electronic library. Fourth edition of computers for libraries.
London: Library Association Publishing, 1998

http://www.eubd.ucm.es/html/personales/enred/mantonia/docauto/tema9/tema9.html

Vous aimerez peut-être aussi