Recuperación de Información

Ernest Abadal, Llus Codina Bases de Datos Documentales: Caractersticas, funciones y mtodo. Captulo 2. p. 29-92.
Madrid: Sntesis, 2005 (84-9756-263-1) 2. Recuperacin de Informacin 2.1. Definicin y contexto Recuperar significa volver a tener. Recuperar informacin significa volver a tener una informacin que alguna vez, hace unos minutos o hace unos aos, ha sido producida por alguien, bien por nosotros mismos o bien por terceras personas. La Recuperacin de Informacin (RI, a partir de ahora) es la disciplina que estudia la representacin, la organizacin y el acceso eficiente a la informacin que se encuentra registrada en documentos. De las operaciones propias de la RI, sin duda la ms caracterstica consiste en la seleccin de documentos, bien a partir de las caractersticas de su contenido, (los temas tratados), bien a partir de caractersticas de su contexto (p.e. la fecha de publicacin,) bien a partir de alguna combinacin de ambas cosas (p.e: "documentos sobre desarrollo humano publicados por UNESCO entre 2003 y 2005"). Ahora bien, para que la RI tenga sentido se presupone un entorno en el cual no es trivial, precisamente, el hecho de acceder a los documentos por su contenido. Este contexto lo genera, tpicamente, cualquier fondo documental a partir del momento que contenga unos centenares o unos miles de documentos. Empresas pequeas, medianas o grandes, con ejecutivos, abogados, qumicos o ingenieros que necesitan encontrar una informacin en fondos internos o externos es un ejemplo. Universitarios e investigadores que necesitan consultar bases de datos bibliogrficas para asegurarse de que no reinventan la rueda es otro. Finalmente, la Web, que en realidad es un enorme sistema de informacin documental con varios miles de millones de documentos es el ejemplo extremo de contexto caracterstico de RI. Los sistemas de RI no son los nicos sistemas de informacin que existen. En tal sentido, en relacin a otros mtodos de procesamiento de la informacin, la RI presenta algunos rasgos bien definidos que presentamos a continuacin: - Primero, aunque tambin utiliza ordenadores, como casi cualquier otro sistema de informacin actual, la intervencin de los mismos vara mucho, yendo desde sistemas de RI mediante ordenador a sistemas de RI asistidos por ordenador. - Segundo, gestiona informacin de cualquier tipo, desde textos hasta videos, pasando por reproducciones de arte o fotografas, pero siempre mediante el uso informacin textual. - Tercero, tiene lugar en lo que aqu llamaremos un contexto de descubrimiento. El significado detallado de los tres rasgos precedentes es el siguiente: 1. Uso de ordenadores (automatizacin). La RI se caracteriza por el uso de ordenadores y, por tanto, por el uso de bases de datos u otros sistemas automticos o semi automticos de procesamiento de la informacin, tales como hipertextos. Aunque es lgicamente posible desarrollar sistemas de RI exclusivamente manuales, la teora (y la prctica) de la RI naci de hecho con las primeras bases de datos y la mayora de sus procedimientos o algoritmos slo tienen sentido en un medio automatizado.
Recuperacin de Informacin
2. Uso de informacin textual. La RI gestiona informacin textual de tipo narrativo o discursivo, en lugar de, por ejemplo, datos nmericos o alfanumricos muy estructurados, como hacen otros sistemas de informacin, por ejemplo, los sistemas administrativos (Salton; McGill, 1983: viii). Cuando la RI gestiona documentos u objetos no textuales, como imgenes, fotografas, video, etc., lo hace tambin a travs de descripciones textuales (p.e., descripciones de las imgenes) y/o de conjuntos de palabras que expresan el contenido y el contexto de las imgenes. 3. Contexto de descubrimiento. La RI se caracteriza por tener lugar en un contexto en el cual los usuarios del sistema de informacin tienen la necesidad de descubrir qu entidades cumplen una o ms condiciones, , por ejemplo, qu documentos contienen informacin relevante para interpretar, desde el punto de vista x, el tema y. En otros sistemas de informacin, en cambio, los usuarios, partiendo de una entidad previamente conocida, quieren saber algo ms de ella. La diferencia entre descubrir cosas y ampliar datos es esencial para entender la naturaleza de la RI. Algunos desarrollos en sistemas de informacin son ineficaces porque sus diseadores no entendieron esa diferencia. Por ejemplo, un sistema de informacin documental automatizado mediante el uso de una base de datos relacional probablemente no podr satisfacer la necesidad de descubrir, aunque solucione muy bien la necesidad de ampliar. En concreto, como sistema documental su utilidad probablemente ser parcial, porque las preguntas de descubrimiento, las que tienen la siguiente forma: qu documentos contienen informacin relevante sobre los temas x e y (p.e.: "documentos sobre museos y turismo") no podr contestarlas de manera eficiente. Slo dar un buen rendimiento ante preguntas de ampliacin de datos, de la forma: cules es el valor del parmetros a en el registro X (por ejemplo: "cul es el telfono del Museo del Prado"). Naturalmente, de un buen sistema de RI se espera que pueda satisfacer preguntas de ampliacin de datos como la anterior pero, sobre todo, se espera que pueda responder a preguntas de descubrimiento. Para ampliar un poco ms esta idea, cabe sealar que la RI est relacionada con la gestin de documentos que contienen informaciones culturales, cientficas y tcnicas y, ms concretamente, con el problema de cmo explotar el conocimiento que contienen esta clase de publicaciones. Entendemos por informacin cientfica el resultado de aplicar el mtodo cientfico, que es hipottico-deductivo, a un problema de conocimiento, y su expresin en forma de proposiciones contrastables, argumentos, explicaciones, etc. La tcnica es ciencia aplicada, y entendemos por informacin tcnica el resultado de aplicar alguna rama de la ciencia a un rango de problemas concretos. Por otro lado, el concepto de informacin cultural es mucho ms amplio. Un artculo de opinin puede contener conocimientos muy valiosos, y formar parte, por tanto, de la alta cultura, pero no es ni cientfico ni tcnico. Algo parecido podra decirse de un buen ensayo, un reportaje periodstico, etc. Para referirnos a esta triple clase de documentos (cientficos, tcnicos, culturales), y siguiendo a Van Slype (1988: 1-3), utilizaremos, en adelante, el trmino informacin cognitiva en lugar de la expresin habitual de informacin cientfica y tcnica. Adems de ser un trmino ms econmico, hace ms justicia a la clase de informacin que constituye el objeto de estudio y de tratamiento de la Documentacin. As pues, el trmino cognitivo subsume no slo a la informacin de tipo cientfico y tcnico, sino, en general, a toda forma de produccin cultural.
Muchos documentos cognitivos son, en s mismos, narraciones textuales, aunque tambin contienen partes no textuales, tales como grficos e ilustraciones, como es comn en la informacin que publica la prensa escrita y muchas revistas cientficas. Por otro lado, los sistemas de RI utilizan descripciones textuales para gestionar tambin documentos no textuales, tales como fotografas o filmaciones audio-visuales. De esta forma, la manipulacin de informacin textual es tpica de la RI. A los documentos cognitivos se oponen los administrativos. Para advertir la diferencia esencial entre las dos clases de documentos, basta con practicar un sencillo experimento mental: piense el lector en una enciclopedia. Esto es informacin cognitiva. Piense ahora en una factura. Esto es informacin administrativa. Son dos casos extremos, pero nos ayudan a visualizar las diferencias. La informacin cognitiva es til, por ejemplo, para aumentar nuestros conocimientos sobre algn aspecto de la naturaleza o, simplemente, para que la humanidad no se vea obligada a reinventar la rueda en cada generacin. La informacin administrativa, en cambio, es necesaria para la gestin de cualquier institucin y para administrar de forma eficiente sus recursos propios y poder realizar de forma adecuada sus actividades de explotacin. Como es obvio, ambas clases de informacin son absolutamente necesarias y es evidente que no existe jerarqua entre ellas (p.e., la informacin cognitiva no es ms importante que la administrativa, etc.), pero su naturaleza, ciclo de vida, forma de consumo y propiedades semnticas son distintos y, por tanto, su tratamiento debe serlo tambin. Muchos sistemas de informacin fracasan por no advertir esa diferencia: el error ms comn consiste en gestionar la informacin cognitiva como si fuera administrativa (aunque tambin se da el error contrario). En realidad, los tpicos errores mencionados consisten en no observar que la informacin cognitiva es de carcter probabilstico, y la informacin administrativa, determinista. En efecto, nunca podremos saber de entrada cules de los atributos de contenido o los atributos de contexto de un documento cognitivo que har de ste una respuesta adecuada a un futuro problema de informacin. Para peor, no existe ningn algoritmo que sea eficiente al cien por cien para determinar cules son, de hecho, los atributos semnticos relevantes de un documento cognitivo (Blair, 1990: 1-23; Blair, 2001:) Naturalmente, el objetivo de las operaciones de RI, como ya hemos sealado, consiste en intentar solucionar los problemas de informacin que requieren informacin cognitiva. Esta clase de necesidades de informacin la experimentan, en realidad, todos los seres humanos, puesto que todos los seres humanos, al menos en alguna etapa de su vida, necesitan descubrir, estudiar, aprender o investigar. Ahora bien, para mucho esta necesidad pasa desapercibida o se vuelve transparente: una buena biblioteca, la orientacin de un buen experto, etc., contribuyen a esa transparencia. Acceden a los documentos crticos sin observar que, en las bambalinas, est funcionando alguna clase de sistema de RI. Sin embargo, para otras personas esta necesidad es una cuestin crtica. Tales personas pueden ser profesionales embarcados en un proyecto de I+D; periodistas realizando un reportaje de investigacin; alumnos de doctorado preparando su tesis; ejecutivos de empresa buscando nuevas oportunidades de mercado; mdicos de un hospital obteniendo informacin sobre nuevas terapias; investigadores de un laboratorio que persiguen una nueva patente; profesores de universidad ampliando las fronteras de sus disciplinas, etc. En todos los casos sealados, la satisfaccin de la necesidad de informacin pasar necesariamente por el uso de alguna clase de sistema que contenga informacin cognitiva. La informacin textual es central en casi todos los procesos de RI, an en el caso de que el fondo documental est compuesto por objetos no textuales, como fotografas (tal como ya
3
hemos sealado). La razn es que las operaciones bsicas de la RI en fondos icnicos (como fototecas o videotecas), a saber, la descripcin y la recuperacin, se realizan en base a textos que, o bien describen las caractersticas de las imgenes o bien describen la necesidad de informacin. Es por ese motivo que, aunque los documentos icnicos (grficos, ilustraciones, fotografas, imagen animada, etc.) tambin forman parte del contexto propio de la RI, no alteran el carcter predominantemente textual de la RI. Hemos insistido ya que la seleccin de documentos a partir de su contenido como un aspecto muy significativo de la RI. Ahora bien, para poder seleccionar documentos por su contenido, es necesario antes (1) identificar y (2) representar ese contenido. Esta doble operacin se denomina indizacin. La indizacin puede realizarse, bien de forma intelectual ("a mano") o bien de forma automtica (mediante ordenadores). En este sentido, hay dos interpretaciones distintas, en general de tipo implcito, sobre la naturaleza de la RI. Segn la primera, se entiende de manera implcita, como decimos, que los sistemas de RI son exclusivamente automticos, es decir, realizan los procesos anteriores sin ningn tipo de intervencin humana significativa. Esta visin de la RI es la que suele encontrarse en la bibliografa cientfica de orientacin informtica. Es habitual referirse a esta orientacin como RI algortmica, puesto que se centra en los programas o algoritmos que pueden automatizar los procesos de RI: tpicamente, la indizacin y la presentacin de la informacin. En cambio, segn una segunda interpretacin, los sistemas de RI abarcan en realidad diversos grados de utilizacin de ordenadores y, por tanto, diversos grados de combinacin de operaciones intelectuales y automticas en un mismo sistema. Podemos hablar entonces de indizacin automtica versus indizacin asistida por ordenador. Para esta segunda interpretacin, los sistemas exclusivamente automticos son solamente un caso particular dentro de la gran variedad existente de sistemas de RI. Esta visin de la RI es la que suele predominar en la bibliografa cientfica de las ciencias de la documentacin. En esta visin se acepta que los procesos de anlisis e indizacin intelectual y la creacin y el uso de los lenguajes documentales asociados a estos procesos, como los tesauros y las clasificaciones, forman parte de la RI, siempre que tales procesos involucren el uso de ordenadores. Es habitual referirse a este enfoque como RI cognitiva, puesto que sita el nfasis no tanto en los algoritmos concretos, sino en los aspectos propios o cercanos a las ciencias cognitivas: lenguaje, semntica documental, psicologa, interaccin persona-ordenador, percepcin, etc. Si obviamos el hecho anecdtico que la RI algortmica suele ignorar la existencia de sistemas con participacin intelectual, ambas corrientes de la RI en realidad son igualmente necesarias dado que son perfectamente complementarias. La razn es que, para automatizar un proceso, primero es necesario comprenderlo y modelarlo de manera conceptual. Los trabajos de la RI cognitiva aportan los materiales para ese modelado. Por tanto, la RI algortmica en realidad presupone a la RI cognitiva. Por otro lado, no se ha conseguido automatizar todos los procesos propios de la gestin documental. Hasta que no se consiga (si es que se consigue alguna vez), la RI cognitiva es lo nico que tenemos en esos terrenos. De hecho, mientras la RI algortmica no suele incluir a la cognitiva, lo contrario no es cierto, ya que la RI cognitiva incluye a la algortmica, aunque sea, como suele decirse en forma de visin a mil metros de altura Es por eso que, en esta obra, nosotros optamos preferentemente por el enfoque cognitivo, ya que es el que, de facto, coincide con la situacin real de los sistemas de gestin documental, donde encontramos una mezcla de procesos de tipo algortmico (donde el profesional de la documentacin no suele intervenir) con operaciones de tipo cognitivo (donde el profesional de la documentacin debe orientar la mayor parte de sus decisiones). A partir de ahora, por tanto, siempre que nos refiramos a la RI lo haremos en el contexto de la RI cognitiva.
4
En este sentido, si desplegamos las diversas posibilidades de combinacin de procedimientos intelectuales y automticos en un eje de coordenadas de dos dimensiones, con el componente intelectual a la izquierda y el automtico a la derecha, obtendremos el diagrama que nos muestra la figura siguiente donde podemos ver que existen cuatro grandes posibilidades lgicas de combinacin: Figura 2.1: Sistemas de RI
I n t e n s iv o
P r o c e s o I n t e l e c t u
a l
4
M n i m o I n t e n s iv o
r o
c e
s o
t o
t i c o
L o s c u a t r o t i p o s b s i c o s d e s i s t e m a s d e R I
De este modo, en el diagrama anterior vemos representadas los siguientes tipos de sistemas de RI: 1 (arriba y en el centro): sistemas que son intensivos en procedimientos intelectuales y semi intensivos en procedimientos automticos; 2 (arriba y a la derecha): sistemas que son intensivos tanto en procedimientos intelectuales como automticos; 3 (en el centro): sistemas semi intensivos tanto en procedimientos automticos como intelectuales; 4 (abajo y a la derecha): sistemas que son intensivos en procedimiento automticos y que no utilizan procedimientos intelectuales. Obviamente, la clasificacin anterior es de grano grueso: existen muchas otras posibilidades que no mostramos en el diagrama. La razn, adems de la deseable claridad, es que o bien no tienen mayor inters por tratarse de simples variaciones de uno de los cuatro casos bsicos, o bien tales variaciones sencillamente no se dan en la realidad. Por tanto, el rango de sistemas significativos que incluye la RI desde el punto de vista de la combinacin de procedimientos intelectuales y automticos puede reducirse de modo conveniente a los cuatro mostrados, segn recoge tambin la tabla 1, donde aportamos una presentacin ms detallada:
Tabla 2.1: Tipos bsicos de sistemas de RI

Sistema Tipo 1 Procesos Intelectuales Intensivos Procesos Automticos Semi intensivos Explicacin y ejemplos Bases de datos referenciales con uso de herramientas complejas de indizacin intelectual y sin indizacin de texto completo (Ej: LISA, ERIC) Bases de datos con indizacin de texto completo y con uso de herramientas complejas de indizacin intelectual (Ej.: Sosig) Bases de datos referenciales con uso de herramientas simples de indizacin (p.e. listas de descriptores) Como ejemplo, se puede decir que es un caso tpico de muchas bases de datos de uso corporativo Motores de bsqueda (Google), programas de indizacin de texto completo (ZyLab), bases de datos con indizacin exclusivamente automtica (FindArticles)
Tipo 2
Intensivos
Intensivos
Tipo 3
Semi-intensivos
Semi-intensivos
Tipo 4
Ninguno
Intensivos
Como puede verse, en los actuales sistemas de RI pueden existir casos en los que no haya intervencin intelectual (tipo 4), pero no existen casos en los que no intervengan ordenadores. Cabe sealar tambin que en la explicacin del tipo 3 no hemos indicado ningn ejemplo de base de datos que pueda consultarse de forma externa. La razn es que se trata del tipo de sistema de RI que es frecuente en el uso privado (personal o corporativo) de bases de datos. 2.2. Disciplina 2.2.1. Inicios y desarrollo Como campo de estudio, la RI recibe el nombre de Teora de Recuperacin de informacin (Teora de RI, a partir de ahora). Se trata de un mbito (relativamente) interdisciplinar al que contribuyen especialistas procedentes de disciplinas diversas, pero sobre todo de la Informtica y de las Ciencias de la Documentacin. Obtiene aportaciones valiosas y frecuentes de la Lingstica y la Terminologa, as como (aunque en menor medida) de la Psicologa y las Matemticas. El antecedente ms remoto de la Teora de la RI se sita entre los aos 30 y 40 del pasado siglo y consisten en los trabajos del estudioso del lenguaje George Kingsley Zipf (1902-1950), descubridor de una ley que lleva su nombre (tambin llamada "distribucin de Zipf") segn la cual la frecuencia de las palabras de un corpus representativo de una lengua obedece a la siguiente relacin: Frecuencia x Rango = Constante
Frecuencia es el nmero de veces que aparece una palabra y Rango es el nmero de orden de la palabra listadas en orden decreciente de frecuencias, de manera que la primera palabra es la ms frecuente y la ltima es la menos frecuente.
Por tanto, la ley de Zipf indica, entre otras cosas, que si tomamos una muestra suficientemente grande de textos de una lengua, observaremos que habr miles de palabras que tendrn valores de ocurrencias muy bajos, por ejemplo entre 1 y 10 veces, en cambio habr unos centenares de palabras que tendrn valores de ocurrencias muy altos, por ejemplo entre 10.000 y 100.000 veces. De este modo, en una distribucin de Zipf ideal, el nmero total de palabras distintas es igual al nmero de veces que aparece la palabra ms frecuente. Si la coleccin documental tiene un total de 100.000 palabra distintas, la palabra ms frecuente suceder 100.000 veces y la ltima palabra en orden decreciente de frecuencia, o sea la palabra nmero 100.000, ocurrir 1 vez. En colecciones reales de documentos, la distribucin obtenida no tiene por qu ser idntica a la distribucin de Zipf, pero se ha comprobado que se aproximan de manera suficiente al ideal como para poder realizar predicciones tiles. En sntesis, los trabajos de Zipf demostraron que era posible detectar regularidades de tipo estadstico en grandes masas de informaciones textuales y que tales regularidades, debido a su carcter estructural, eran susceptibles de ser usadas con fines de planificacin de procesos de anlisis y de indizacin de documentos. En los aos 50, un investigador de la empresa IBM, Hans Peter Luhn (1896-1964), postul la creacin automtica de ndices utilizando tales regularidades. Entre otras cosas, propuso el concepto de "poder de resolucin" de un trmino. El poder de resolucin es la capacidad que posee una palabra para identificar de manera no ambigua el tema de un documento. Este poder de resolucin est relacionado con la frecuencia del trmino en un conjunto de documentos. La idea es extremadamente simple: para seleccionar de manera automtica las palabras que deben formar parte de un ndice deben evitarse las palabras que son muy frecuentes en el conjunto de los documentos, de lo contrario el ndice sera muy poco til ya que casi todos los documentos tendern a poseer esas palabras. Por tanto, se dice de tales trminos muy frecuentes que tienen escaso poder de resolucin, o poca "capacidad de discriminacin". Visto de otro modo: si se indizan documentos utilizando trminos de baja capacidad de discriminacin, todos los documentos tienden a parecerse, sin que sea posible crear grupos separados. En ese contexto, seleccionar un documento entre otros en base a su contenido es imposible. En cambio, los trminos con baja y mediana frecuencia en el conjunto de los documentos son los que poseen mayor capacidad de discriminacin a la hora de construir ndices. Si se indizan los documentos con tales palabras, se crean grupos temticos bien definidos, muy separados entre ellos. Encontrar as documentos en base a su perfil temtico es mucho ms fcil. La teora de RI evolucion de manera progresiva hasta que dio un salto cualitativo muy importante con autores como Gerard Salton (1927-1995), y C. J. van Rijsbergen. Salton sistematiz los principios de la teora de RI de tipo algortmico en un importante trabajo de 1983 (escrito en colaboracin con M. J. McGill) que sigue siendo uno de los mejores sobre el campo. Continu desarrollando su trabajo en su libro de 1989 (esta vez en solitario) y en numerosos artculos que fue publicando hasta bien entrados los aos 90. En los dos libros indicados (1983, 1989), Salton proporcion una visin slida y unificada de la disciplina y present los procedimientos y conceptos ms importantes, sobre todo de la RI algortmica.
Rijsbergen enriqueci la Teora de RI con estudios de tipo lgico y estadstico. Posteriormente,

numerosos autores han contribuido a la disciplina desde enfoques diversos. Para los interesados en profundizar en la RI, posiblemente, los autores actuales ms interesantes para quien desee profundizar en este campo sean (por orden de "antigedad"): W. F. Lancaster, Edward A. Fox,
7
Gary Marchionini, David C. Blair, Ricardo Baeza-Yates, Richard K. Belew y Gobinda

Chowdhury. En nuestro pas, numerosos estudiosos han hecho avanzar tambin el campo, tanto desde la especialidad de la RI algortmica, como la RI cognitiva. Por mencionar a algunos de los ms destacados en los ltimos aos podemos sealar los siguientes autores (dada la proximidad, aqu corremos el riesgo de ser altamente subjetivos por lo cual aunque "sean todos los que estn", seguro que "no estn todos los que son"): Oscar Cordn, Isidoro Gil, Vicente Guerrero, Vctor Herrero, Eva Mndez, Flix de Moya, Felisa Verdejo, entre otros muchos. 2.2.2. Operaciones de RI Como ya hemos sealado, el objetivo final de la RI es el estudio y desarrollo de los mtodos, bien algortmicos (preferentemente) o bien intelectuales (cuando no es posible su automatizacin), que faciliten al mximo el siguiente grupo de operaciones:
1. Indizacin. Esta operacin, en particular cuando se realiza en modo intelectual, se divide en

realidad en otras dos: 1.1. Anlisis: identificacin de los temas o conceptos ms relevantes del documento. 1.2. Normalizacin: transformacin de los conceptos que expresan el contenido del documento en los trminos de indizacin (descriptores) ms adecuados. A veces, esta segunda fase recibe tambin el nombre de indizacin, obviando o dando por supuesto a la primera. La indizacin puede aplicarse tambin a la necesidad de informacin. Podemos hablar, por tanto, de indizacin de documentos y de indizacin de la pregunta. En ambos casos, el resultado es un conjunto de descriptores. En el caso de la necesidad de informacin, los descriptores de la pregunta pueden estar relacionados con operadores lgicos (operadores booleanos).
2. Seleccin: identificacin del conjunto de documentos ms relevante para una necesidad de

informacin dada. Tambin se denomina recuperacin (en este caso, debido a que es la parte ms significativa del proceso, a menudo sirve para dar nombre al todo).
3. Ordenacin: determinacin del orden ms adecuado de presentacin al usuario de los

documentos seleccionados o recuperados (en caso que sean ms de uno, claro). La idea es ofrecer la lista de los documentos en orden decreciente (el ms relevante primero) de probabilidad de satisfacer la necesidad de informacin. Tambin se denomina ranking.
4. Interconexin: establecimiento de relaciones hipertextuales, caminos y, en general,

estructuras de navegacin entre secciones del mismo documento o entre distintos. documentos
5. Categorizacin: asignacin de cada documento a un grupo, clase o subclase de un cuadro

de clasificacin, taxonoma u ontologa.
6. Abstraccin: produccin de resmenes de documentos que, en algunas circunstancias,

puedan sustituir la lectura del documento completo.
7. Visualizacin: representacin en forma grfica de informaciones no necesariamente

icnicas, as como de conceptos o procesos.
De los siete procesos anteriores, todos estn automatizados en algn grado, pero ninguno lo est en modo ptimo. Ante ello, nos podemos hacer esta pregunta: podrn algn da automatizarse al completo tales tareas? Ignoramos la respuesta, pero s podemos indicar algunas cosas al respecto: las tareas indicadas estn relacionadas con las habilidades ms complejas de la condicin humana, aquellas que se vinculan con la cognicin y el lenguaje. Si, en algn momento del futuro, pudieran automatizarse tales tareas de manera completa y satisfactoria, seguramente esto significara que las mquinas pueden pensar, en el sentido ms profundo y completo del trmino. En estos momentos, en tal sentido, lo cierto es que las posturas entre los investigadores estn divididas: la mayor parte de la comunidad de ingenieros informticos afirma, en la ms pura tradicin de Alan Turing (1912-1954), el gran pionero de la inteligencia artificial, que la inteligencia es una cuestin de conducta observable: si un sistema se comporta como si fuera inteligente, entonces es inteligente. En cambio, otros investigadores procedentes de la lingstica y las ciencias cognitivas, como por ejemplo, John Searle o de la fsica, por ejemplo, Roger Penrose, niegan la posibilidad de que algn da las mquinas puedan pensar, al menos en el sentido del trmino pensar que atribuimos a la especie humana. A las Ciencias de la Documentacin como actividad profesional y como campo de investigacin le conviene apurar los lmites e intentar aprovechar al mximo las posibilidades de la RI algortmica. Adems de razones de ndole social que ya justifican por s solas esta meta, tales como el poner de forma ms eficiente el conocimiento al alcance de la sociedad, existe un motivo egosta: en la Documentacin se cumple tambin el principio segn el cual, cada vez que la informtica automatiza una determinada tarea, lo que hace en realidad es liberar a los profesionales de la Documentacin de una tarea repetitiva y tediosa y les proporciona recursos (es decir, tiempo, entre otras cosas) para ocuparse de aspectos mucho ms creativos de su profesin. Por consiguiente, a los profesionales y acadmicos de la Documentacin, nos conviene no solamente seguir muy de cerca, sino promover y contribuir a los avances de la RI. 2.3. Modelos bsicos en RI Un modelo en RI es una representacin simplificada que sirve para alcanzar una comprensin global de un sistema, sin necesidad de descender a los detalles concretos. La simplificacin puede realizarse por abstraccin o por generalizacin. La abstraccin prescinde de detalles accidentales y selecciona solamente los aspectos fundamentales de la cosa modelada. La generalizacin elige representar slo los aspectos comunes a las diversas cosas modeladas. Por ejemplo, un diagrama de flujo de datos es una representacin por abstraccin de alguna actividad o funcin. Muchos modelos se generan por medio de ambos mecanismos combinados: la abstraccin y la generalizacin. Por ejemplo, una base de datos documental es un modelo de una parte de la realidad que combina abstraccin (slo algunos atributos de las entidades reales se representan en la base de datos) y generalizacin (todas las entidades similares se generalizan en un nico modelo de registro). En general, la funcin de un modelo es la de facilitar la comprensin global de una cosa o de un fenmeno complejo, as como la de facilitar el intercambio de ideas entre los componentes de un equipo de personas que trabajan con un objetivo comn y que, de este modo, puede estar seguros de que todos utilizan un lenguaje y un aparato conceptual comn. Manejar un modelo es ms fcil que manejar la realidad, de este modo, un modelo cumple una tercera funcin sumamente valiosa: ayudar a crear y a desarrollar cosas.
Un modelo conceptual de un sistema de RI describe la estructura general, las funciones bsicas y los aspectos lgicos de una determinada forma de representar la informacin y de seleccionar documentos relevantes. Estos modelos conceptuales se encarnan en tecnologas concretas o en programas concretos, cada uno de los cuales puede presentar pequeas o grandes variaciones de implementacin del modelo general. En RI se suelen utilizar diversos modelos sobre los cuales se pueden realizar despus desarrollos concretos. Autores como Belkin Risjbergen y Salton (entre otros) contribuyeron a generar lo que nosotros denominamos Modelo Universal de un Sistema de RI y que vamos a exponer a continuacin. Decimos que es universal porque, en principio, todos y cualquier sistema de RI se ajusta a este modelo. Es universal tambin, porque como puede suponerse, es de un gran nivel de abstraccin. En la prctica, por tanto, cada sistema concreto de RI lo desarrolla de una forma distinta. Ahora bien, gracias a este modelo podemos comprender y estudiar mejor la naturaleza de los sistemas de RI. Una forma muy abstracta (pero muy comprensiva) de presentar este modelo es la que recoge el siguiente diagrama: Figura 2.2. Modelo Universal de un SRI
NI -> Anlisis -> RNI -> Comparacin <- RTEXTO <- Anlisis <- TEXTO
NI: necesidad de informacin (la pregunta del usuario) Anlisis: totalmente automtico, totalmente intelectual, o una combinacin de ambos RNI: representacin de la necesidad de informacin (representacin de la pregunta) Comparacin: funcin que genera los resultados mediante la comparacin de la representacin de la pregunta con la representacin del texto, RTexto: representacin del texto (representacin del documento) TEXTO: documento Observacin: en redonda, las entidades; en cursiva, los procesos
Fuente: Adaptado de Belkin y Croft
En los siguientes apartados, tendremos ocasin de discutir con detalle los componentes que hemos presentado aqu de forma tan abstracta y concisa. Los sistemas que desarrollan el sistema bsico anterior se denominan Sistemas de Recuperacin de Informacin (SRI a partir de ahora). Estos sistemas pueden consistir en programas informticos o conjuntos de rutinas aislados o bien pueden estar integrados en el seno de un Sistema de Gestin de Bases de Datos Documentales (el caso que consideramos en los prximos captulos). En cualquier caso, los componentes principales de un SRI son los siguientes (ver la figura 2.2.):
La entidad necesidad de informacin (1), tambin llamada pregunta. La entidad texto o documento (2) que, a su vez, forma parte de un fondo documental (3) ms amplio. Representaciones, tanto de los documentos (4a) como de las necesidades de informacin (4b).
10
Una funcin de comparacin (5) entre la representacin de la necesidad de informacin y la representacin de los documentos del fondo documental, con tal de determinar cules son los documentos ms relevantes (6) para cada necesidad de informacin.
Finalmente, los documentos se muestran en uno o ms formatos de visualizacin (7) y el proceso tiene lugar en lo que hemos denominado con anterioridad como un contexto de descubrimiento (8). Examinaremos a partir de ahora con ms detalle los ocho tems sealados como caractersticos de un SRI. 2.3.1. Necesidades de informacin Una necesidad de informacin es, por definicin, una entidad inobservable, ya que consiste en un estado mental. Se supone que este estado mental o psicolgico es el autntico disparador de todo el proceso de RI, ya que, a partir del mismo, el individuo puede comenzar una conducta de bsqueda de informacin que, a su vez, puede tener su punto de inicio en la seleccin de la fuente de informacin que considere ms adecuada. Si la fuente de informacin consiste en un fondo documental de gran volumen, el individuo deber desplegar alguna estrategia de examen del fondo que sea rentable, sobre todo, en trminos de tiempo y que pueda conducirle, eventualmente, a encontrar informacin susceptible de solucionar su necesidad de informacin. 2.3.2. Documentos Un documento es una informacin que est registrada, es decir, una informacin que est escrita, impresa, grabada, etc. en un soporte material. En el contexto de la RI se presupone que se trata de documentos de los denominados cognitivos, es decir, documentos que contienen obras culturales, tcnicas, cientficas, etc. Dicho de otra forma, los SRI no suelen aplicarse, porque tendra muy poco sentido, a la gestin de datos e informaciones administrativas, como los que intervienen en el sistema de contabilidad o de facturacin de una empresa. Por el contrario, en el contexto de la RI se da por supuesto que el problema a tratar tiene que ver con obras de creacin sobre algn aspecto de la ciencia, la tcnica, la cultura, etc. Es decir, la clase de documentos con un contenido mnimamente complejo que justifica la aplicacin de procesos de RI. 2.3.3. Fondo documental Los procesos de RI solamente tienen sentido en el contexto de un fondo documental no trivial. Buscar informacin en el seno de una coleccin compuesta por unas decenas de documentos no requiere un sistema de RI, ya que se puede explorar todo el fondo con una exploracin secuencial. La RI comienza a tener sentido cuando deben gestionarse colecciones de, al menos, varios cientos de documentos. En el lmite, uno o varios sistema cooperativos de RI deberan poder aplicarse al conjunto de toda la informacin producida por la humanidad; perspectiva no tan fantstica como podra parecer a primera vista si reflexionamos sobre las posibilidades futuras de la World Wide Web. 2.3.4. Representaciones de documentos y representaciones de necesidades de informacin
11
En un sistema de RI no podemos (o no resulta conveniente) intentar comparar directamente documentos y necesidades de informacin. Lo que se compara, en su lugar, son representaciones de cada una de las dos entidades mencionadas. La razn es que no es eficiente comparar dos elementos de naturaleza heterognea: una necesidad de informacin es un estado mental, inobservable por definicin, y los documentos son conjuntos de informaciones de morfologa variable registrados en un soporte material. Para que sea posible comparar cosas tan dispares en su naturaleza, es necesario convertir ambas a una representacin formada por elementos homogneos. La representacin del documento puede consistir en un tpico registro bibliogrfico articulado en zonas como las que prescribe la norma ISBD ms una descripcin del contenido del documento formada por descriptores. Ahora bien, desde el momento que un documento textual o icnico se representa de este modo, entonces, desde el punto de vista de un ordenador (de una base de datos, en este caso) este este registro es un conjunto de palabras o, ms exactamente, un conjunto de trminos de indizacin. Si formalizamos esta idea, por tanto, en un sistema de RI un documento es un conjunto, D, los elementos del cual son trminos de indizacin segn este modelo general: D = {t1, t2, ... tn} Por tanto, en el modelo anterior, t1, t2,... tn son, o bien palabras simples (p.e., "economa", "Barcelona") o bien compuestas (p.e., "economa poltica", "Ciudad Condal") que expresan las propiedades semnticas del documento Di. Por ejemplo, supongamos, para simplificar, que el documento Di trata sobre 5 diferentes temas que identificamos de manera abstracta como tema 1 (o t1), tema 2 (o t2), etc. Entonces, la representacin de Di en un sistema de RI seria la siguiente: Di = {t1, t2, t3, t4, t5} Supongamos que el documento en cuestin trata de "legislacin sobre economa y trabajo en Espaa y Europa", entonces t1, t2, t3, t4, t5 corresponderan respectivamente a: Economa (t1) Espaa (t2) Europa (t3) Legislacin (t4) Trabajo (t5) Por tanto, el documento se podra representar as: Di = {Economa, Espaa, Europa, Legislacin, Trabajo} La cuestin interesante aqu es que las necesidades de informacin se pueden representar tambin, como ya sabemos, por trminos de indizacin, segn el mismo modelo general: Pj = {t1, t2, ... tn} donde Pj es una necesidad de informacin, o pregunta, y t1, t2, etc. son cada uno de los trminos de indizacin que representan esta necesidad de informacin. En concreto,
12
supongamos que Pj representa la siguiente necesidad de informacin: "legislacin sobre mujer y trabajo en Espaa". La representacin de la pregunta Pj en base a palabras o trminos de indizacin sera la siguiente: Pj = {Espaa, Legislacin, Mujer, Trabajo} De este modo, conseguimos que dos cosas muy diferentes en su estado natural, necesidades de informacin y documentos, adquieran una naturaleza homognea a travs de un modo de representacin similar: Di = {Economa, Espaa, Europa, Legislacin, Trabajo} Pj = {Espaa, Legislacin, Mujer, Trabajo} Se observa, a simple vista, que ahora ya resulta posible comparar ambas cosas y, dado un grupo de documentos, determinar cul de ellos se parece ms a una necesidad de informacin. Discutiremos este proceso de comparacin en el siguiente punto. 2.3.5. Proceso de comparacin Como ya sabemos, uno de los dogmas centrales de la RI es que, dado un grupo de documentos, el que ms se asemeje a la necesidad de informacin, ser el documento ms relevante. Tal como hemos visto, a partir de la forma que adquieren D i y Pj en el punto anterior, podemos concluir que tales conjuntos poseen tres elementos en comn. Supongamos que en el fondo documental hay otros dos documentos con elementos comunes a la necesidad de informacin que estamos considerando (Pj). Por ejemplo, sean los documentos Dh y Dg. Supongamos que Dh tiene dos elementos en comn (es decir, dos trminos de indizacin en comn) y que Dg tiene, en cambio, cuatro elementos en comn (es decir, cuatro trminos de indizacin en comn) con el conjunto de la necesidad de informacin Pj. A partir de aqu, el subsistema de comparacin del sistema de RI podra presentar los documentos por orden decreciente de semejanza con la necesidad de informacin, de este modo: 1: Documento Dg 2: Documento Di 3: Documento Dh La anterior es una ordenacin de los documentos en base al grado de probabilidad que presenta cada uno de ellos de satisfacer la necesidad de informacin. Esto es, tenemos una forma de medir la relevancia de cada documento y de ordenarlos de acuerdo a la misma. Vemos que, en este caso, la relevancia ha sido estimada en funcin del nmero de elementos en comn entre cada uno de los documentos y la necesidad de informacin. Es un modelo muy simple, pero est en la base de la mayor parte de los sistemas de RI que podemos encontrar en el mercado, si bien es cierto que la mayora tambin presentan importantes modificaciones. 2.3.6. Relevancia
13
La relevancia es una de las propiedades ms interesantes de los documentos y, al mismo tiempo, una de las ms difciles de definir. Intuitivamente, podemos afirmar que un documento es tanto ms relevante cuanto mejor pueda solucionar una necesidad de informacin. Ara bien, definida de esta forma, se ve que la relevancia no es una propiedad exclusiva de los documentos, sino, en realidad una coproduccin triangular entre las caractersticas del documento, las caractersticas de la necesidad de informacin y las caractersticas de la persona que hace la pregunta. Por otro lado, la relevancia tiene grados, ya que un documento no se limita a ser relevante o a no serlo, sino que la relevancia de un documento (como hemos visto en el ejemplo anterior) puede situarse en cualquier punto de un continuo de entre, por ejemplo, 0 y 1, en el cual el 0 representa la ausencia total de relevancia y el 1 la relevancia absoluta. Entre esos puntos, un documento muy semejante respecto a la pregunta podra tener una relevancia del 0.8, mientras que otro menos similar podra tener un relevancia del 0.5, etc. Naturalmente nada impide utilizar escalas de 0 a 10 en lugar de 0 a 1 o de tantos por ciento para representar el grado de relevancia de cara al usuario. El punto importante aqu es que, si diferentes documentos tienen un grado de relevancia diferente respecto a una pregunta, entonces no tiene mucho sentido entregar los documentos de una forma aleatoria o bajo un orden tan poco eficiente como el ttulo o la fecha de entrada en el fondo documental. Sin embargo, mientras este principio est muy asumido en los motores de bsqueda de Internet, todava es ignorado en algunos sistemas corporativos de gestin documental. En contraste, una vez aceptado el principio terico de la relevancia, lo que hacen los mejores sistemas de RI es intentar determinarla de la forma ms eficiente posible. De hecho, en grandes fondos documentales la eficiencia del mtodo de determinacin de relevancia es un factor crtico que puede condicionar la calidad total del sistema. Si la respuesta a una pregunta incluye una lista de mil documentos y los documentos relevantes estn distribuidos de manera aleatoria entre estos mil, el usuario no sabr cuando debe detener su bsqueda ya que la informacin ms til podra estar, precisamente el ltimo documento de la lista. En teora, en lugar de limitarse a examinar los primeros diez o veinte documentos, debera examinar mil pero tal cosa distara de ser eficiente. Los usuarios lo considerarn un sistema inviable. En otras palabras: dejarn de usarlo. 2.3.7. Descubrimiento Ya hemos sealado anteriormente, que resulta difcil apreciar correctamente la naturaleza de la RI sin entender la siguiente cuestin: la RI no sirve exclusivamente para saber ms cosas de una entidad previamente conocida, sino para descubrir qu entidades cumplen una condicin o una serie de condiciones. Sin entender esta diferencia no se puede entender cual es, entonces, la aportacin especfica de un programa documental comparado con un programa ofimtico estndar. En concreto, es imposible distinguir entre un sistema de gestin de bases de datos documental y un sistema de gestin de bases de datos relacional. Otra forma de enfocar esto mismo consiste en sealar que el entorno de trabajo tpico de los programas ofimticos es de tipo determinista, es decir, se sabe siempre lo que se quiere y se sabe que tales acciones producirn siempre tales resultados. En cambio, en el entorno tpico de la RI no siempre se sabe lo que se quiere, ni tan slo se sabe si habr entidades que puedan satisfacer las condiciones indicadas en la peticin de informacin. La peticin de informacin tpica de un entorno ofimtico sigue este tipo de modelo general: qu valor asume la variable V de la entidad E, previamente conocida?, Por ejemplo, cul
14
es el importe total de las ventas del mes de abril de la delegacin de Pars?. El valor que se quiere saber es el importe total; la variable de la que se quiere saber este valor es las ventas del mes de abril, y la entidad, previamente conocida, es la delegacin de Pars. Aqu tenemos un entorno determinista: ante esta clase de pregunta, tiene que haber siempre una respuesta y tan slo una nica respuesta. La peticin de informacin tpica de un entorno de RI sigue, en cambio, este otro modelo general: qu entidades, desconocidas por definicin, son susceptibles de satisfacer la condicin C o el complejo de condiciones C1, C2... Cn?. Por ejemplo, qu documentos son ms tiles para satisfacer una necesidad de informacin sobre la relacin entre psicologa y cine?. Las entidades desconocidas por definicin son los hipotticos documentos relevantes, y el complejo de condiciones que han de satisfacer los documentos para ser considerados relevantes son, en este caso, tres: tratar de psicologa (1), tratar de cine (2) y que la relacin lgica entre (1) y (2) sea la que se expresa con un AND booleano (3). Aqu tenemos un tpico entorno probabilstico: puede o puede no haber una respuesta, y en caso de haber una respuesta no tan slo no tiene porque ser nica sino que lo ms habitual es que haya una coleccin de documentos (respuestas) diferentes, cada uno de ellos con un grado de relevancia diferente. Finalmente, aunque el sistema sea capaz de suministrar documentos relevantes, esto puede significar que, en vez de solucionar de manera definitiva la necesidad de informacin, se le abran al usuario nuevos interrogantes, por tanto, nuevos estados anmalos de conocimientos, la necesidad de hacer nuevas operaciones de RI, etc. 2.3.8. Ordenacin y visualizacin de la informacin Una vez seleccionados los documentos, cabe decidir su forma de ordenacin de cara a su presentacin al usuario. En sistemas de RI simples, la ordenacin no es significativa: se presentarn por orden de nmero de registro, por ejemplo. En sistemas de RI avanzados, se presentarn por orden de relevancia, de modo que los documentos juzgados ms tiles estarn situados en primer lugar. En algunos sistemas, es posible elegir el tipo de relevancia, o conmutar entre distintos tipos de ordenacin: relevancia, fecha de publicacin, orden alfabtico, etc. Una vez ordenados los documentos por su grado de relevancia o por cualquier otro procedimiento, el sistema de RI puede tener uno o ms formatos de presentaciones de los documentos individuales o de los grupos de documentos, denominadas habitualmente vistas. Cada vista puede representar los intereses o las necesidades de diversos grupos de usuarios, o diversos estilos de visualizacin. Por ejemplo, en el primer sentido, es habitual que haya una vista para los administradores del sistema, otra para usuarios finales, etc. Algunos motores de bsqueda de Internet, como por ejemplo HotBot (http://www.hotbot.com) permiten escoger entre respuestas resumidas o detalladas. En bases de datos como Special Collections de NL Search (http://www.nlsearch.com), se presentan tres vistas diferentes de los documentos, segn la fase de la bsqueda, siendo ms detallada cada vez hasta llegar al documento completo en la ltima fase. (En el apartado 4.3 se profundiza en estas cuestiones). Algunos bancos de imgenes tambin permiten escoger el formato de visualizacin de las imgenes recuperadas, ni que sea para poder seleccionar entre las dimensiones y el nmero de imgenes que tiene que presentar el sistema de manera simultnea (vase, por ejemplo, Corbis, http://www.corbis.com).
15
Por su parte, las tcnicas de visualizacin de la informacin consisten en mostrar de forma grfica informaciones que no necesariamente icnicas. Por ejemplo, la empresa Cartia (www.cartia.com) ha desarrollado un sistema para representar en forma de mapa espacial los temas de cualquier grupo de documentos y lo han aplicado a diversos mbitos, uno de los cuales es la informacin de prensa (http://www.newsmaps). La empresa Inxight (www.inxight.com) ha producido una interfaz de visualizacin, denominada Hiperbolic, que se puede aplicar a fondos documentales. Se puede ver una demostracin aplicada a la base de datos de fuentes de informacin de Lexis-Nexis (www.lexisnexis.com/lncc/hyperbolic/). Una vez discutidas algunas de las caractersticas generales ms importantes de todos (o casi todos) los sistemas de RI, pasaremos a describir tres modelos muy habituales y que, por tanto, estn presentes, de una forma u otra, en un gran nmero de sistemas de gestin de bases de datos y de motores de bsqueda de la Web: el modelo booleano, el modelo vectorial y un modelo que combina aspectos de ambos. 2.3.9. Modelo booleano puro En un sistema de RI booleano, una vez indizados los documentos, y ante la pregunta de un usuario, existen dos objetos, la entidad documento que se representa mediante un conjunto de trminos de indizacin {t1, t2, ... tn} que expresan los diversos temas contenidos en el documento (tema a, tema b, ... etc.) y el objeto pregunta, que se representa tambin por otro conjunto de trminos de indizacin {t1, t2... tn}, pero en este caso combinados estos trminos entre s mediante operadores booleanos (AND, OR, NOT). La representacin de la pregunta, en un sistema booleano, tiene esta forma general:
T1 [Operador] T2
T1 y T2 pueden ser palabras simples o compuestas (p.e. "Economa", "Gestin cultural"), y [Operador] puede ser cualquier operador booleano (tpicamente, AND, OR, NOT). Por ejemplo:
Economa AND Gestin cultural
Toda expresin de la forma general, T1 [Operador] T2, se denomina ecuacin de bsqueda. Se supone que el otro extremo de la ecuacin contiene el conjunto de los documentos verdaderos, DV, o documentos que satisfacen la ecuacin, segn este modelo:
T1 [Operador] T2 = {dv}
{dv} : Conjunto de los documentos que satisfacen la ecuacin
16
Naturalmente, pueden darse ecuaciones booleanas con ms de dos trminos y ms de un operador, si conviene con el uso de parntesis para debilitar el alcance de cada operador, por ejemplo:
(Economa OR Financiacin) AND (Gestin cultural OR Museos)
El resultado de una ecuacin de bsqueda booleana es un conjunto que contiene los documentos relevantes (este conjunto puede ser el conjunto vacio). stos se seleccionan, naturalmente, siguiendo la lgica booleana, segn la cual un documento es verdadero (es decir, satisface la ecuacin) cuando contiene uno o ms de los trminos de la pregunta (en el caso del operador OR); cuando contiene todos los trminos de la pregunta (en el caso del operador AND) o cuando no contiene alguno de los trminos de la pregunta (en el caso del operador NOT), respectivamente. Ahora bien, segn la lgica booleana, las variables solo pueden ser verdaderas o falsas, con lo cual los sistemas RI booleanos nicamente pueden crear conjuntos de documentos relevantes o no relevantes, pero sin establecer grados de relevancia entre los documentos relevantes. En concreto, si una operacin de recuperacin obtiene n documentos, digamos 100 documentos, para el sistema booleanos tan relevante es el documento primero como el nmero cien. Sin embargo, la simple experiencia demuestra que, para el usuario, tal cosa no responde a la realidad, ya que unos documentos le sern ms tiles (ms relevantes) que otros, adems con grandes diferencias entre ellos. Sin embargo, al entregarse los documentos al usuario de forma aleatoria, casi nunca los ms relevantes estarn en los primeros lugares de la lista de documentos recuperados. La consecuencia es una lastimosa prdida de tiempo, pues los n documentos examinados hasta llegar al documento realmente relevante representan un tiempo intil. Esto ha generado con frecuencias muchas crticas a tal modelo y aqu es donde intervienen los sistemas vectoriales y los sistemas booleanos/vectoriales, que son capaces de ordenar los documentos por grado de relevancia. Otra crtica habitual a los sistemas booleanos es que resultan anti intuitivos. En particular, los usuarios no habituados a la lgica booleana con objetivos de recuperacin suelen confundir el OR booleano que siempre es inclusivo en RI, con la conjuncin O del lenguaje que, a veces es inclusiva y a veces es exclusiva. Por ejemplo, cuando alguien dice "ir esta noche al cine o al teatro", obviamente usa un O exclusivo: o bien ir al teatro o bien ir al cine, pero no a ambos a la vez, al menos no aquella noche. En cambio, una bsqueda mediante la ecuacin Teatro OR Cine, seleccionar documentos que o bien tengan la palabra Teatro, o bien tengan la palabra Cine o bien tengan ambas palabras, y el sistema considerar vlidas a las tres clases de documentos por igual. Otras veces, usamos en el lenguaje la conjuncin Y con el sentido que en lgica booleana usaramos un AND. Por ejemplo, alguien puede decir, "necesito informacin sobre congresos y festivales de cine y televisin". Para representar la anterior necesidad de informacin, muchos usuarios estarn tentados en transformar cada uno de los Y anteriores en AND booleanos; sin embargo si lo hace as seguramente no encontrar nada, ya que la ecuacin correcta sera: (Congresos OR Festivales) AND (Cine OR Televisin) 2.3.10. Modelo vectorial puro Dados n nicos trminos de indizacin, tanto los documentos como las preguntas pueden concebirse como vectores formados por uno de los dos valores posibles que puede adquirir cada
17
uno de los trminos: 1 si est presente en el documento o en la pregunta, y 0 si no lo est (Salton y McGill, 1983). Como recordar el lector, en un vector la posicin de cada elemento es significativa, y su nmero de elementos es fijo. De esta forma, si en un sistema de RI se utilizaran slo seis nicos trminos de indizacin: t1, t2, t3, t4, t5, y t6, un documento D1 que poseyera los trminos t1, t3, t4, t5, se representara con el siguiente vector: (1,0,1,1,1,0), mientras que un documento D2 que poseyera los trminos t2 y t6 se representara como: (0,1,0,0,0,1). Por su parte, una pregunta P1 que se supone representada con los trminos t1, t4, t5, se representara como (1,0,0,1,1,0). La funcin de comparacin, entonces, se realiza situando los documentos en un espacio vectorial de n dimensiones, en nuestro ejemplo, en un espacio vectorial de 6 dimensiones. La situacin de cada vector en el espacio vendr determinada por sus respectivos valores respecto a cada uno de los seis ejes del espacio, y as los documentos ms parecidos entre ellos tendern a situarse prximos en dicho espacio vectorial. Cuando se representa como un vector, la pregunta "caer" en algn lugar del espacio vectorial. Cuanto mayor sea la proximidad de un documento respecto al lugar donde ha cado la pregunta, ms relevante ser el documento. Como los documentos similares tienden a formar grupos (clusters), todos los documentos que formen parte de un cluster prximo a la pregunta tendern a ser relevantes. As, se puede establecer un umbral de semejanza por debajo del cual un documento se considerar no relevante. Todos los documentos que superen el umbral sern relevantes, pero no en el mismo grado, de manera que gracias a las propiedades diferentes de cada vector de cada documento podrn entregarse al usuario ordenados por su capacidad de satisfacer la pregunta del usuario. El umbral de relevancia har innecesario, en principio, el uso de operadores booleanos aunque la pregunta contenga dos o ms trminos. Bastar con colocar en la pregunta todos los trminos de la necesidad de informacin. Como solamente se entregarn al usuario los ms relevantes, de hecho, quedarn excluidos los documentos que, por ejemplo, traten de uno solo de los trminos de la pregunta en caso de haber documentos que traten de todos los trminos de la pregunta. Por otro lado, en teora se evitan los problemas de la validez o no validez de tipo "todo o nada" (binaria) propia de los sistemas booleanos. En un sistema vectorial, podemos situar el umbral en un nivel muy bajo de modo que, si usamos cinco trminos en la pregunta, la lista de respuesta contenga primero los documentos con los cinco trminos, pero no por ello excluya los que tienen cuatro o tres de los trminos, etc. El modelo vectorial puro goza de un estatus existencial parecido al de los algoritmos de indizacin automtica. Vase lo que se dir ms adelante sobre ellos, ya que puede serle enteramente aplicado. Los interesados en los modelos tericos vectoriales pueden seguir la excelente obra de Salton y Baeza-Yates. 2.3.11. Modelo booleano/vectorial El modelo precedente, pese a su impecable base lgica, apoyada en espacios vectoriales y teoras de clusters, resulta poco implementado en la prctica, seguramente por el uso intensivo de recursos de cmputo que requiere y los problemas de reclculo del espacio vectorial cada vez que se aaden nuevos documentos. Pensemos que, en una base de datos con n trminos distintos, se requerira un espacio vectorial de n dimensiones. Una base de datos de unos pocos miles de documentos puede fcilmente generar 100.000 trminos distintos; por ello, se necesitara un espacio vectorial de 100.000 dimensiones. El modelo vectorial, al menos, ha servido para inspirar otras formas en las cuales podran funcionar los sistemas de RI, as como ha sido una fecunda fuente de ideas para mejorar el
18
funcionamiento de los sistemas booleanos; gracias a estas ideas muchos sistemas de RI aunque tienen un sistema de filtro o de seleccin de tipo booleano, ordenan despus los documentos por relevancia en lugar de considerar que la relevancia es una propiedad binaria. En cualquier caso, el modelo mixto acta de la siguiente forma, los documentos y las preguntas se representan como vectores, pero en vez de calcular su similitud en base a clusters y espacios vectoriales, se calculan estimando cuntos elementos en comn presentan los vectores respectivos de preguntas y documentos (Frakes y Baeza-Yates, 1992). Por ejemplo, dada la pregunta P1, puede calcularse que el documento D1 exhibe un mayor grado de semejanza que D2 si, por ejemplo, el vector P1 (vector de la pregunta) tiene la siguiente composicin (1, 1, 1, 1, 1, 1, 1); el vector D1 (documento 1) tiene la siguiente: (1, 1, 1, 1, 0, 1) y el vector D2 (documento 2) la siguiente: (1, 0, 1, 1, 0, 1). Es fcil ver que D1 tiene cinco elementos en comn (todos menos el quinto), mientras que D2 tiene solo cuatro. El aspecto booleano de este sistema radica en que la seleccin de documentos se realiza de acuerdo con el lgebra de Boole, pero una vez creado el subconjunto de documentos, stos se ordenan mediante el mtodo anterior. Otras formas de ordenacin pueden incluir ponderacin de cada elemento del vector, de manera que cada vector puede multiplicarse por el peso del trmino en cada documento. Por ejemplo, supongamos que un usuario desea obtener documentos sobre el siguiente tema: ordenadores aplicados a la gestin de documentacin periodstica. La pregunta se podra representar mediante los conceptos: ordenadores, documentacin, periodismo. Combinados tales conceptos con un OR booleano, el sistema podra recuperar n documentos, cada uno de los cuales tendra uno o ms de loa trminos de la pregunta. Supongamos que el documento D1 posee los tres trminos y el documento D2 posee slo dos de ellos. En el sistema no ponderado, el documento D1 es el ms relevante, pero en un sistema ponderado podra no ser as. Veamos: supongamos que el documento D1 presenta el siguiente vector (2, 1, 1), que se debe leer as: el trmino primero aparece dos veces en el documento (2*1=2), el trmino segundo y tercero aparece una vez (1*1=1). La suma total de los valores del vector del documento D1 es igual a 4 (2+1+1+1). Supongamos que el vector del documento D2 tiene la siguiente composicin (0, 3, 2), lo cual significa que el trmino 1 no aparece (el trmino ordenadores), pero en cambio el trmino segundo (documentacin) aparece tres veces, y el trmino cuarto (peridismo), dos veces. El sumatorio da un valor de 5, por lo tanto, superior al valor del documentos D1. En la prctica puede suceder que, pese a todo, el documento D1 sea ms relevante, ya que el usuario puede estar ms interesado en documentacin automatizada aplicada al periodismo, que no en documentacin periodstica a secas, y el segundo documento, que solo trata de documentacin y periodismo, puede no hacer ninguna mencin a sistemas automatizados. De ser as (y es as muchas veces) ello demostrara que los sistemas de comparacin vectoriales basados en propiedades estadsticas no proporcionan un 100% de aciertos. Ante ello, la respuesta es la siguiente: en primer lugar, una ordenacin parcialmente eficaz es mejor que ausencia de ordenacin. Los sistemas que realizan ordenaciones nunca sitan al final de todo los documentos ms relevantes, sino que siempre quedan situados en los primeros lugares, as que no es tan importante si el primer lugar del ranking debera ocuparlo el documento 2 o el documento 3, en lugar del documento 1. En cambio, en un sistema sin clculo de relevancia, es perfectamente frecuente que el documento ms relevantes est situado en los ltimos lugares de la lista recuperada. En segundo lugar, el ranking puede efectuarse tambin en base a los documentos recuperados despus de una operacin booleana con el uso del operador AND, con lo cual el usuario se
19
asegura que todos los documentos recuperados independientemente de su situacin en el ranking "tocan" los tres temas de su inters. Finalmente, el usuario puede ponderar tambin el vector de la pregunta, e indicar as que, para l, la presencia del primer trmino debe tener el 60 por ciento del peso, y los otros dos el 20 y el 20 por ciento respectivamente, con lo cual el documento D1, por seguir con nuestro ejemplo hubiera obtenido el siguiente vector: (1.2, 0.2, 0.2), ya que 2*0.6=1.2 y 1*0.2=0.2; por tanto, 1.2+0.2+0.2=1,6; mientras que el segundo vector obtendra un valor de 1.0, ya que, 0+0.6+0.4=1.0. 2.4. Representacin de la informacin 2.4.1. Clasificar Hasta que se utilizaron ordenadores en los centros de documentacin y bibliotecas, la idea de ordenar un fondo documental de cara a su posterior recuperacin se limit con frecuencia a la asignacin a cada documento de una categora o clase de una clasificacin en aplicacin del viejo ideal de "un lugar para cada cosa y cada cosa en su lugar". La idea de que es posible construir clasificaciones que sean perfectas desde el punto de vista lgico posee una fuerza enorme, por tanto no es extrao que siga apareciendo espontneamente en la cabeza de las personas que se ocupan de estas tareas por primera vez. Sin embargo, cualquiera que haya acometido la tarea de desarrollar un cuadro de clasificacin para acomodar de manera unvoca objetos de una mnima complejidad, como artculos de revistas cientficas, por ejemplo, habr comprobado la imposibilidad prctica de aplicar el anterior principio, porque cada cosa puede estar en ms de un lugar, y no siempre los lugares prefijados sirven para acomodar a todas las cosas. De hecho, si la analizamos con atencin, la gestin documental basada en clasificaciones presenta estas caractersticas: 1. Limitacin de puntos de acceso: el nmero de categoras a las que puede ser asignado un documento es, a veces por razones pragmticas y a veces por razones intrnsecas y, ms frecuentemente, por ambas razones, extremadamente limitado. De hecho, el nmero de categoras a las que se asigna un documento suele oscilar entre 1 y 3. 2. Limitacin ontolgica: toda clasificacin implica una concepcin del mundo. Sin embargo, las formas de ver el mundo, los puntos de vista, los intereses, etc., de los autores de los documentos no tienen porqu coincidir con la forma de entender el mundo, los intereses, etc., de los autores de los cuadros de clasificacin. Igual sucede con los usuarios: su punto de vista no tiene porqu coincidir ni con el de los autores ni con el de los documentalistas. Por tanto, si el autor trata sobre un aspecto de la realidad que no estaba contemplado cuando se concibi la clasificacin, o lo aborda de un punto de vista ajeno a la concepcin de la clasificacin, ni el aspecto ni el punto de vista podr ser representado. Por su parte, si el usuario no "piensa" en trminos del sistema, no podr encontrar la informacin. 3. La limitacin sintctica: en el argot de los lenguajes documentales se dice que las clasificaciones son lenguajes precoordinados. La razn es la siguiente, si una clasificacin, por ejemplo, contempla el tema de la maquinara para usos de minera, encontraremos una entrada como sta (el ejemplo est tomado de la CDU): Herramientas. Mquinas Minera En este caso, se dice que se trata de un lenguaje precoordinado porque la relacin entre los trminos Herramientas, Mquinas, Minera, se ha establecido a priori, antes, e independientemente, de las consultas de los usuarios.
20
Otra forma de contemplar la precoordinacin es la siguiente: en las clasificaciones, se parte de mbitos muy generales que constituyen las categoras o clases principales y se va descendiendo a subclases o subcategoras ms especficas. Por ejemplo, si deseamos acceder a informacin sobre "lmparas elctricas", debemos empezar en la clase 6 Ciencias Aplicadas, descender a la subclase 62 Ingeniera, seguir bajando por el rbol lgico de la CDU a la subclase 621 Ingeniera mecnica en general, seguir bajando hasta 621.3 Ingeniera elctrica hasta llegar, finalmente, a la seccin 621.32 Lmparas elctricas. De este modo, vemos que el concepto Lmparas elctricas est precoordinado con el concepto de Ciencias Aplicadas en una relacin, en este caso, de tipo jerrquico. 2.4.2. Indizar Se produjo un gran avance en la gestin documental cuando se aplic un principio totalmente distinto, y muy caracterstico de la RI: en lugar de intentar encajar cada documento en una nica categora a priori, lo que se hace es lo siguiente: primero, se determinan cul es el conjunto de caractersticas semnticas especficas y representativas de cada documento; segundo, se representa cada documento en base a todas y cada una de esas caractersticas, sin necesidad de precoordinarlas de forma alguna. En general, el conjunto de caractersticas adopta la forma de un conjunto de trminos, incluso en el caso de documentos no textuales. La operacin anterior, como ya sabemos, se denomina indizacin. La razn de este trmino es la siguiente: cada una de las palabras que se utilizan para indicar sobre qu trata un documento es una entrada de un ndice que facilita la consulta y la recuperacin de los documentos. Observemos que la base lgica de esta operacin es la misma tanto si se realiza de modo automtico como intelectual. En ambos casos se trata de generar un conjunto de palabras que representan de qu trata un documento. Imaginemos, por ejemplo, un documento, al que denominaremos Documento DI, con un texto como el siguiente: Texto Documento DI Una nutricin sana y el ejercicio habitual, en particular comer fruta y realizar actividades deportivas, bien sea en algn recinto o al aire libre, es muy importante tanto en la infancia como en la adolescencia. De este modo, adems, se previenen una de las causas de retraso en el rendimiento escolar: la falta de salud y vigor fsico. En la aproximacin clsica, basada en la idea de las clasificaciones, el Documento DI hubiera debido ser colocado en una categora a priori de un cuadro de clasificacin. En la operacin de clasificar el documento, cualquier solucin hubiera comportado, al mismo tiempo una creacin y una destruccin de orden. Por ejemplo, si se hubiera colocado en Alimentos, el documento no aparecera por cualquiera de los otros temas para los cuales es relevante, a saber: Infancia, Educacin fsica, Rendimiento escolar, etc. Tenemos aqu una muestra de las limitaciones propias de las clasificaciones que ya hemos discutido. Sin embargo, con el mtodo de indizacin, desaparecen tales limitaciones (aunque aparecen otras). En concreto, desaparece: 1. La limitacin de los puntos de acceso. Mediante indizacin automtica, por simple eliminacin de las palabras ms frecuentes, un algoritmo de ordenador derivara los siguientes trminos como candidatos para representar el contenido del documento (mostrados en orden alfabtico): actividad, adolescencia, aire, comer, deportivo, ejercicio,
21
escolar, fsico, fruta, habitual, infancia, libre, nutricin, previenen, recinto, rendimiento, retraso, salud, sana, vigor. Mediante una clasificacin es virtualmente imposible que podamos hacer lo mismo. En primer lugar. con toda probabilidad no dispondremos de todos los trminos o clases equivalentes en la clasificacin. En segundo lugar, aunque dispusiramos de tales entradas, por razones pragmticas solamente se podr asignar un pequeo nmero de categoras y necesariamente algunas sern demasiado genricas. 2. La limitacin sintctica. El mtodo de indizacin no requiere precoordinar los trminos entre ellos, de modo que cualquier combinacin de los 20 trminos anteriores, dos a dos, por ejemplo: {infancia, nutricin}, {fruta, rendimiento}; tres a tres, por ejemplo: {infancia, nutricin, rendimiento}, etc., seran otros tantos puntos de acceso vlidos. Igual con cualquier combinacin cuatro a cuatro, etc. Es cierto que algunos lenguajes documentales de indizacin, como las listas de encabezamiento, contienen entradas precoordinadas, pero ello es debido sobre todo a su origen histrico. Las primeras listas de encabezamiento se utilizaron en sistemas manuales, de forma que no podan multiplicarse fcilmente las entradas. Esto indujo a preferir un sistema mixto en el cual se utilizaran entradas precoordinadas. Posteriormente, se comprob que las listas de encabezamiento son una buena forma de proporcionar un sistema de exploracin (o browsing) en sistemas informticos. La limitacin ontolgica. No hay un marco a priori que marque un lmite o un modo de concebir los temas que pueden representarse mediante indizacin en un sistema documental. Si un aspecto de la realidad o un tema est presente en el documento, ese tema o ese aspecto de la realidad quedarn representados en el ndice de la base de datos a travs de las palabras correspondientes del autor del documento.
3.
En total, el mtodo de indizacin mediante trminos que no estn precoordinados entre s proporciona hasta n2 puntos tericos de acceso al documento, siendo n el nmero total de palabras o trminos de indizacin asignados a cada documento (la razn es que cada una de las palabras sera un punto de acceso, pero cada combinacin de palabras, dos a dos, tres a tres, etc. son otros tanto puntos tericos de acceso. En total, la frmula aritmtica que nos dice cuntas combinaciones distintas de n trminos son posibles es: n2). En nuestro ejemplo, la frmula anterior nos proporciona 400 maneras tericas distintas de acceder al documento, contra las tres o cuatro formas de acceso que proporciona el sistema clsico basado en clasificaciones a priori. Es evidente que esas 400 formas de acceso incluyen combinaciones imposibles de prever por ninguna clasificacin a priori. Comparado con la clasificacin, sin embargo, la indizacin tambin presenta limitaciones, en particular la indizacin automtica del tipo que hemos simulado aqu. En primer lugar, los documentos carecen de un contexto que ayude a tomar decisiones a un usuario que an no sabe exactamente lo que quiere. En segundo lugar, este tipo de indizacin no reconoce conceptos, sino cadenas de caracteres ante lo cual, aunque el documento anterior trata de educacin, el ndice generado de forma automtica no incluye esa palabra. Estas limitaciones pueden paliarse en parte o totalmente, pero para ello se requieren otros mtodos de indizacin y sistemas adicionales de visualizacin y representacin de informacin que no estn exentos de costes y, por tanto, no siempre son viables. Por supuesto, otra forma de superar estas limitaciones es combinando la indizacin automtica (como la que hemos visto o an ms sofisticada) con la indizacin intelectual. Sin embargo, en este apartado, examinaremos nicamente el procedimiento de indizacin automtica. En sntesis, este tipo de indizacin automtica se basa en estas tres ideas:
22
1. La representacin de la informacin contenida en los documentos puede ser realizada de forma eficiente mediante conjuntos de palabras (trminos de indizacin del documento), y no necesariamente por la asignacin de cada documento a una clase o subclase predefinida de un cuadro de clasificacin. 2. Las necesidades de informacin de los usuarios tambin se pueden representar mediante conjuntos de palabras (trminos de indizacin de la pregunta). 3. Los documentos ms relevantes son los que tienen los conjuntos de palabras ms parecidos al conjunto de palabras de la necesidad de informacin. 2.5. Evaluacin de sistemas de RI Antes de entrar en consideraciones sobre la indizacin automtica es necesario que dediquemos un tiempo a considerar como se evala el rendimiento de los sistemas de RI. Las dos medidas ms utilizadas acostumbran a ser el ndice de exhaustividad (recall) y el ndice de precisin (precision). Las frmulas para estos dos ndices son las siguientes:
Exhaustividad = Nmero de documentos relevantes recuperados _________________________________________ X 100 Nmero total de documentos relevantes presentes en el fondo documental
Precisin =
Nmero de documentos relevantes recuperados ______________________________________ X 100 Nmero total de documentos recuperados
Ejemplo para el ndice de exhaustividad Supongamos que en una coleccin hay 10 documentos relevantes sobre el tema X, y que, como consecuencia de una operacin de recuperacin de informacin sobre el tema X se obtienen tan slo 6 documentos. Entonces, la frmula anterior nos dice que el ndice de exhaustividad de esa bsqueda ha sido del 60%. Ejemplo para el ndice de precisin Supongamos que, en respuesta a una operacin de recuperacin de informacin, se han obtenido 10 documentos, pero que 5 de ellos no corresponden en realidad al tema solicitado, o sea, no son relevantes. Entonces, el ndice de precisin para ese resultado ha sido del 50%. Mientras el ndice de exhaustividad proporciona una medida de la habilidad del sistema para recuperar documentos relevantes, el ndice de precisin proporciona una medida de la habilidad del sistema para evitar el ruido. Naturalmente, el objetivo consiste en disear sistemas que proporcionen al mismo tiempo un 100% de exhaustividad y un 100% de precisin, es decir, sistemas que recuperen todos los documentos relevantes y tan slo los documentos relevantes, pero, en la prctica, estos dos
23
indicadores se comportan de manera antagnica, ya que las medidas para incrementar la exhaustividad tienden a disminuir la precisin y al revs. La razn es la siguiente, si queremos asegurar la precisin del sistema adoptaremos medidas tendentes a aumentar la especificidad de la indizacin. Por ejemplo, si un documento trata sobre "gladiolos" entonces, disearemos un sistema de indizacin que tienda a indizar el documento con el descriptor "gladiolos", y no con el descriptor "flores" y mucho menos con el descriptor "plantas" o "jardines", etc. De esta manera tendremos un sistema muy preciso aunque, sin duda, cuando alguien solicite documentos sobre "flores" dejar de recuperar documentos relevantes sobre el tema general "flores". En general, podemos observar que algunos motores de bsqueda generalistas que funcionen en Internet, como Google o AltaVista, proporcionan buenas tasas de exhaustividad, es decir, tienden a recuperar muchos de los documentos relevantes del fondo (en esta caso, el fondo es la Web) pero, como es fcil comprobar, el ndice de precisin es bajo, ya que slo una pequea parte de los documentos recuperados son relevantes. Esta falta de precisin pasa desapercibida en algunas bsquedas debido a la calidad actual de los procedimientos de ordenacin de estos motores. Por ejemplo, en Google, si limitamos el anlisis a los diez o veinte primeros documentos recuperados, es posible que el ndice de relevancia parezca muy alto. El problema, en este caso, es que puede haber otros documentos relevantes (incluso ms que los primeros) en posiciones muy alejadas del principio y que nunca examinaremos por motivos prcticos. En cambio, los sistemas muy especializados, como las agencias de seleccin y evaluacin de recursos digitales tales como BUBL (www.bubl.ac.uk), ADAM (www.adam.ac.uk) o Cercador (www.cercador.com) que suelen combinar procedimientos de indizacin automticos e intelectuales, ofrecen mayor precisin a costa de la exhaustividad. A cada peticin de informacin proporcionan menos recursos y, probablemente, por tanto, ndices de exhaustividad ms bajos, pero la tasa de precisin se aproxima al 100%. Tambin resulta til, para discutir los problemas de evaluacin de los sistemas de RI, utilizar los conceptos, adoptados de la teora estadstica, de los falsos positivos y de los falsos negativos. Un documento es un falso positivo cuando se recupera, pero no es relevante, es decir, se ha recuperado de facto, pero no tendra que haberse recuperado, ya que no es realmente relevante. Un documento es un falso negativo cuando, aunque es relevante, no se recupera. Es decir, no ha sido entregado al usuario a pesar de ser un documento relevante. Los motivos de los rendimientos inadecuados en los ndices de exhaustividad y de precisin, y por tanto, el fenmeno de los falsos positivos y de los falsos negativos son diversos, pero se pueden sealar cuatro factores, los tres primeros propios de entornos donde se realiza una indizacin de tipo intelectual o mixta y el cuarto, de entornos de indizacin automtica pura. Son los siguientes: a) Deficiente indizacin del documento Por ejemplo, el documento trataba del asunto X pero, en cambio, por error, no se ha asignado este descriptor. El documento no se recuperar cuando se solicite informacin sobre X. El caso contrario: un documento en realidad no trata del tema Y, pero le ha sido asignado el descriptor Y, por tanto, proporcionar ruido cuando alguien solicite informacin sobre Y. b) Deficiente indizacin de la necesidad de informacin La indizacin de las necesidades de informacin presenta el mismo problema. Tal vez el usuario desconoce que el tema por el cual est buscando informacin se representa con el descriptor X, por lo cual utiliza un descriptor menos adecuado, por ejemplo, ms general, esto le proporcionar un ndice muy bajo tanto de precisin como de exhaustividad, etc.
24
c) Grado insuficiente de especificidad del lenguaje documental El lenguaje documental utilizado en la representacin de los documentos puede ser inadecuado. Por ejemplo, podran existir diversos documentos en el fondo documental sobre "gladiolos", "rosas", "amapolas", etc., en cambio, el lenguaje documental tan slo contempla el descriptor "flores", o peor an, "plantas", con lo cual los documentos no quedan representados en su adecuado nivel de especificidad. d) Deficiente algoritmo de relevancia Cuando el sistema debe entregar muchos documentos como respuesta a la pregunta, entonces, el rendimiento final de la calidad del sistema vendr determinada por el acierto en el clculo de relevancia. En general, casi siempre que el sistema entregue varias decenas de documentos la relevancia adquirir un factor esencial. La razn es que, en promedio, casi ningn usuario examina con atencin ms de all de los veinte o treinta primeros documentos Ejemplo: supongamos que se han utilizado los trminos X, Y, para indizar la pregunta, y supongamos que el clculo de la relevancia otorga un gran peso, es decir, un valor positivo, a los documentos en los que aparecen muchas veces cualquiera de los dos trminos, sin discriminar si solamente aparece uno o ambos trminos. El documento ms relevante para el usuario podra tener pocas ocurrencias de X y pocas ocurrencias de Y, por ejemplo, debido a la creatividad del autor que, tal vez, posee un rico vocabulario. Como resultado, el sistema podra desplazar el documento ms relevante para el usuario a las ltimas posiciones de la lista y privilegiar a documentos en los que tan slo X (pero no Y), aparece muchas veces. Este, por ejemplo, es uno de los sndromes habituales de algunos motores de bsqueda de Internet, aunque cada vez sucede menos. En particular, tanto Google como AltaVista, por ejemplo, otorgan mayor valor a los documentos que poseen todos los trminos de la pregunta. De hecho, suelen utilizar un primer filtro en el cual nicamente seleccionan los documentos que responden a un AND booleano con todos los trminos de la pregunta (del estilo Trmino1 AND Trmino2). 2.6. Algoritmos bsicos de RI Como es sabido, los sistemas informticos ni entienden ni pueden interpretar el significado de los textos y, a pesar de esto, los sistemas informticos de RI desarrollan tareas que simulan inteligencia o, al menos, algn grado de comprensin del significado de la informacin textual. Esto es posible porque, en general, la capacidad de los ordenadores para resolver cualquier tarea o cualquier problema, desde lo ms simple hasta lo ms complejo, est basada en lo mismo: la determinacin de un procedimiento que permita descomponer los pasos necesarios para la resolucin de la tarea en un nmero finito de suboperaciones, cada una de las cuales no requiere inteligencia ni, por tanto, ninguna capacidad de comprensin o de interpretacin de nada, ni de la informacin textual ni de la informacin de cualquier otra clase. A partir de aqu, la inteligencia aparente es un comportamiento que emerge de la totalidad del sistema. Obviamente, donde s hay inteligencia, y mucha, es en la persona o en el equipo de personas que han sabido descomponer la resolucin de un problema en este nmero finito de pasos al que nos referimos y que, en matemticas y en ciencias de la computacin, tiene un nombre concreto, como es sabido: algoritmo (de aqu, por supuesto, la idea de una RI algortmica). Por tanto, podemos definir un algoritmo como un mtodo de resolucin de problemas que consta de un nmero finito de pasos bien enunciados. En matemticas, el procedimiento para resolver una suma, una raz cuadrada o una divisin, son ejemplos de algoritmos.
25
En informtica, todo programa de ordenador consiste en uno o ms algoritmos, codificados en un lenguaje de programacin que pueda ser ledo por un ordenador. Por tanto, antes que un programador pueda escribir un programa, hace falta que alguien, este mismo programador u otro, haya encontrado el algoritmo para resolver el problema que el programa informtico tratar de solucionar. En RI existen un buen nmero de algoritmos que se han ido descubriendo y refinando desde hace aos. Estos algoritmos suelen presentarse bajo su forma lgica ms abstracta, es decir, en forma independiente de su implementacin en lenguajes de programacin concretos, y as es como los presentaremos aqu tambin. Ms adelante, examinaremos algoritmos para la indizacin automtica de documentos y para el clculo de relevancia. Ahora bien, el lector ha de entender que tal y como se presentarn estos algoritmos, no se podran implementar en ningn ordenador, sino que, antes de esto hara falta traducirlos a alguno de los lenguajes de programacin existentes, ya sea C, Visual Basic, Java, etc. 2.6.1. Indizacin automtica El objetivo de los procedimientos de indizacin automtica es imitar lo mejor posible la capacidad de la indizacin intelectual (indizacin humana) de operar con conceptos, pero sin los errores e inconsistencias propios de la subjetividad humana y sin los altos costes econmicos derivados de un trabajo que es, al mismo tiempo, intensivo en tiempo y muy especializado. Sin embargo, mientras la indizacin intelectual se caracteriza por permitir el trabajo con los conceptos, la indizacin automtica trabaja, en principio, nicamente con cadenas de caracteres. Para un indizador humano, las expresiones (1), "aumento de precios en un periodo determinado", (2) "ndice de caresta", (3) "incremento peridico de precios" significan lo mismo, al menos desde el punto de vista de la indizacin documental y, por tanto, un indizador humano no tiene ningn problema para establecer una equivalencia entre los tres trminos anteriores ((1), (2), (3)) y el trmino (4) "inflacin". Por tanto, para un indizador humano, la relacin entre los trminos anteriores es una cadena de igualdades del tipo: (1) = (2) = (3) = (4) En virtud de la cual, cualquiera de los trminos, el trmino (4), por ejemplo, puede ser declarado trmino preferente y, por tanto, descriptor autorizado para representar este concepto. A partir de este momento, la aparicin de las expresiones (1), (2), (3), u otras semnticamente equivalentes, en un documento, permite al indizador humano realizar la inferencia vlida de que el documento tiene que indizarse con el descriptor (4) "inflacin", aunque esta palabra "inflacin" (es decir, esta cadena de caracteres, desde la lgica del ordenador) no aparezca en el documento. En cambio, para un ordenador, lo que es significativo son las cadenas de caracteres, por tanto, la relacin entre (1), (2), (3), (4) es la de una desigualdad simtrica entre todos ellos.
Partiremos de un documento-ejemplo sencillo, que llamaremos Doc1 y de un ejemplo de indizacin intelectual de este documento, para discutir el posible rendimiento de los diversos procedimientos de indizacin automtica ms habituales actualmente.
26
Figura 2: Documento ejemplo Doc1
La informacin como propiedad

La informacin no es una sustancia ni un objeto, sino una propiedad de los mensajes bien formados, a saber, la propiedad de dar a conocer algn aspecto de la realidad. En este sentido, estamos de acuerdo con la teora de la informacin de Alfred Dretske, segn la cual, en realidad, una informacin falsa no es una informacin, en el mismo sentido que un pato de madera no es un pato. Es por este motivo que podemos decir tambin que, en el contexto de la teora de los smbolos, los mensajes son una clase de sistemas de informacin. Estadsticas del documento - Nmero total de palabras: 101 - Nmero total palabras distintas: 51 (trminos nicos)
A partir de un hipottico documento como ste, una indizacin intelectual tpica para representar el documento sera como la que recoge la figura 2: Figura 3: Descriptores asignado al documento Doc1 con indizacin intelectual 1. 2. 3. 4. 5. 6. Informacin Mensajes Teora de la informacin Semitica Sistemas de informacin Alfred Dretske
Para un indizador humano, o al menos, para un indizador entrenado, es trivial identificar tanto los descriptores simples como los compuestos ("informacin" versus "sistemas de informacin"), as como asignar un descriptor por inferencia, y no por mera trascripcin de palabras ("semitica", como resultado de la expresin "teora de los smbolos"); finalmente, el indizador humano no se deja engaar y no asigna el descriptor "patos", aunque el trmino aparece dos veces en el texto del documento. En conclusin, un indizador humano (en el caso ideal), de manera rutinaria: a) detecta tanto descriptores simples como compuestos; b) asigna descriptores, aunque la palabra no est presente en el documento; c) no asigna descriptores, aunque la palabra est presente en el documento. En cambio, para un ordenador, conseguir a), b) y c) es una autntica proeza. A pesar de todo, veremos ms adelante como los ordenadores pueden aproximarse bastante a esto.
27
La indizacin que realizara una mquina podra ser de tres tipos bsicos, cada una de ellos segn algoritmos sucesivamente ms sofisticados. Los veremos a continuacin. En este punto examinaremos lo denominaremos algoritmo simple, que queda representado en el siguiente cuadro: Algoritmo n. 1: Modelo de indizacin simple 1. Identificar las cadenas de caracteres del documento. 2. Agrupar las cadenas nicas. 3. Considerar cada una de las cadenas nicas del documento como un trmino de indizacin del documento. Cabe aclarar que cada una de las palabras diferentes de un documento o de una base de datos recibe el nombre de palabras nicas o trminos nicos. En este caso, hablamos de cadenas de caracteres nicas. El algoritmo precedente es de una gran simplicidad conceptual, pero su implementacin no es tan simple como puede parecer. En primer lugar, hemos obviado algunas cuestiones, rutinarias en programacin, como son prever como se iniciar y cmo finalizar el proceso, indicar cul ser la entrada de la informacin y cules sern las salidas, etc. En segundo lugar, habr que especificar en el programa informtico qu se considerar qu es una cadena de caracteres y lo que se considerar que no es una cadena de caracteres, por ejemplo: a) La expresin "sistema de informacin" es una, son dos o son tres cadenas de caracteres?
b) Los espacios en blanco y los signos de puntuacin son siempre separadores de cadenas de
caracteres? Por ejemplo, el punto (.), la barra (/), el guin (-), son siempre separadores de cadenas de caracteres? Si es as, expresiones como "E.U." sern dos cadenas de caracteres; y que pasar con fechas expresadas como en "01-10-2004", o con expresiones como "importacin/exportacin"? etc. c) Habr que especificar qu es una cadena nica de caracteres. En el caso ms simple son cadenas o trminos nicos las cadenas idnticas. "Informacin", por ejemplo, aparece diversas veces en el texto; se trata de una misma cadena y, por tanto, es un trmino nico, pero, qu pasara con "informacin" e "informaciones"? son uno o dos trminos nicos? Por tanto, aunque no sea evidente a primera vista, incluso un algoritmo conceptualmente tan simple como el Algoritmo n 1 requiere de un cierto anlisis, debido a que, como ya hemos indicado antes, se trata de que una mquina que no puede interpretar las palabras sea capaz, en cambio, de identificarlas en un texto en base a instrucciones simples. En cualquier caso, la indizacin que producira un algoritmo simple de indizacin coincidira con el resultado de la figura 4, es decir, los trminos de indizacin asignados coincidiran con la lista de palabras nicas del documento, tal como recoge la siguiente figura: Figura 3: Resultado de la indizacin del documento Doc 1 con un algoritmo simple (trminos nicos del documento) a es por
28
acuerdo Alfred algn aspecto bien clase como con conocer contexto cual dar de decir Dretske el en
estamos este falsa formados informacin la los madera mensajes mismo motivo ni no objeto pato podemos
propiedad que realidad saber segn sentido smbolos sino sistemas son sustancia tambin teora un una
Podemos observar diversas cosas de esta clase de indizacin: En primer lugar, se ha multiplicado el nmero de trminos de indizacin asignados al documento. Hemos pasado de los 7 trminos de la indizacin intelectual, a 51 con indizacin automtica simple. En segundo lugar, y como consecuencia directa del anterior, este documento tendr muchas ms posibilidades de ser recuperado, pero en muchas de estas posibilidades, este documento ser un falso positivo, es decir, proporcionar ruido. El caso ms evidente, ser si alguna vez este documento es recuperado a partir de una pregunta sobre patos. En tercer lugar, y en contraste con el anterior, este documento ser un falso negativo cada vez que algn usuario solicite documentos sobre "semitica", ya que este trmino no aparece en el texto y, por tanto, el sistema automtico de indizacin no ha podido identificar este concepto. En cuarto lugar, debido al algoritmo utilizado, se ha perdido mucha informacin, ya que este algoritmo tan slo es capaz de identificar palabras simples, como "informacin", pero no cadenas como "sistema de informacin" o como "Alfred Dretske". Aunque, como decamos, este algoritmo parezca muy simple e, incluso, de resultados muy limitados, es uno de los ms utilizados todava actualmente. Es el que usan algunos motores de bsqueda en la Web, as como el que an est presente en buena parte de los sistemas de gestin documental de las empresas. Tambin hay que sealar que, a menudo, este algoritmo de indizacin automtica se complementa con una indizacin intelectual, con lo que el resultado final es, en realidad, una combinacin de los trminos de indizacin de la Figura 2 y de la Figura 3. A pesar de todo, esta no es la prctica mayoritaria en las empresas, sino ms bien en el seno de centros de documentacin y bibliotecas. Por tanto, en muchas empresas, el rendimiento mximo de sus sistemas de RI es el que ofrece el algoritmo que hemos discutido aqu. Dos programas muy representativos de este algoritmo son los sistemas de gestin de bases de datos File Maker (www.filemaker.com), Idealist (www.bekon.com), o Knosys (www.micronet.es) (v. apartado 3.3.6), muy populares como solucin departamental, tambin en pequeas y medianas empresas y en algunos centros de documentacin.
29
En algunos casos, Idealist, por ejemplo, se pueden filtrar las palabras consideradas vacas (como los artculos y preposiciones) de modo que el sistema de indizacin las descarte de entrada como candidatos a trminos de indizacin. En el caso de programas de gestin documental ms avanzados, como Inmagic DB/Text (www.inmagic.com) o Winisis (www.unesco.org/), es posible configurar el programa para que sea capaz de identificar cadenas compuestas como "Alfred Dretske" o "sistema de Informacin". El algoritmo que discutiremos a continuacin presenta una importante mejora en relacin al anterior, y en la figura siguiente indicamos sus caractersticas (seguimos, sobretodo, el modelo de Gerard Salton). Algoritmo n 2: Modelo de indizacin avanzada 1. Identificacin de las cadenas de caracteres, para determinar la primera lista de candidatos a trminos de indizacin. 2. Eliminacin de las palabras vacas de esta lista, es decir, de los trminos muy frecuentes. 3. Creacin de races con las cadenas de caracteres. 4. Combinacin de trminos sinnimos. 5. Clculo de frecuencias absolutas. 6. Clculo del peso o importancia de los trminos en cada documento. 7. Eliminacin, como candidatos a descriptores, de los trminos con un ndice de discriminacin que quede por debajo de un umbral determinado. 8. Asignacin de los descriptores ponderados a cada documento. En este algoritmo, el primer paso es idntico al anterior y los problemas a resolver en su implementacin son exactamente los mismos, a saber, habr que especificar algn procedimiento eficiente para determinar de manera correcta qu es y qu no es una cadena de caracteres vlida, etc. En el segundo paso, en cambio, ya encontramos una operacin nueva: la eliminacin de las denominadas palabras vacas (stopwords) por un mtodo automtico. Las palabras vacas son palabras con una frecuencia tan alta que no tienen ninguna capacidad para discriminar documentos y, por tanto, es mejor retirarlas de entrada de la lista de candidatos a descriptores. Determinar qu son las palabras vacas en cada caso se puede hacer de dos formas diferentes: a priori, a posteriori y, cmo no, con una combinacin de los dos mtodos. En el mtodo a priori, un operador humano introduce en el sistema una lista, denominada a veces diccionario de palabras vacas, que contiene todas aquellas partes de una lengua que tienen una funcin gramatical, pero un pobre significado semntico independiente, por ejemplo, pronombres, artculos, adverbios, etc. Para muchas lenguas, incluyendo el cataln, el castellano y el ingls, acostumbran a salir al menos unas 300 palabras de este tipo. Con el mtodo a posteriori, las palabras vacas se determinan por clculo de frecuencia. De esta manera, se retiran de la lista de candidatos todas aquellas palabras que aparecen, por ejemplo, en ms del 80% de los documentos. De esta manera se detectan palabras vacas que, de otra forma pasan desapercibidas. Por ejemplo, en un fondo documental sobre economa, el trmino "economa" probablemente convendr considerarlo una palabra vaca. Segn Salton, de esta manera la lista inicial de trminos candidatos queda reducida tpicamente en un 40% o un 50%. En nuestro caso, de 51 palabras pasamos a 30, es decir, efectivamente se ha producido una reduccin de un poco ms del 40%, como podemos ver en la Figura 4.
30
Figura 4: Primer grupo de candidatos a descriptores: resultado de la eliminacin de las palabras vacas de la lista inicial del Documento Doc1 acuerdo Alfred aspecto bien clase conocer contexto dar decir Dretske estamos falsa formados informacin madera mensajes mismo motivo objeto pato podemos propiedad realidad saber sentido smbolos sistemas sustancia tambin teora
El tercer paso consiste en fusionar los trminos que tienen las mismas races. De esta manera si, por ejemplo, en el documento hubiera palabras como "informacin" e "informaciones", quedaran reducidas a una sola forma: "informacion*" (donde el asterisco indica un truncamiento). El cuarto paso consiste en detectar posibles sinnimos. Por ejemplo, si en el documento tuviramos dos palabras como "ordenador" y "computadora", en este paso quedaran fusionadas en una nica palabra a efectos del clculo de frecuencia del que hablaremos seguidamente. Es decir, se considerara que, en vez de dos palabras, habra un mismo trmino con dos ocurrencias. Este paso se debera resolver con el uso de un tesauro o con una lista previa de sinnimos. En la prctica, muchos de los sistemas de indizacin automticos actuales obvian este paso dadas sus dificultades de realizacin prctica. En el quinto paso, se realiza el clculo de las frecuencias absolutas de cada uno de los trminos de la lista resultante. Este es un paso previo al clculo del peso o ndice discriminatorio de cada trmino. Segn este ndice, los diversos trminos de un documento pueden tener una capacidad discriminatoria diferente, que indica la posible utilidad de cada trmino como descriptor. Un trmino es tanto mejor descriptor cuanto mejor sirve para discriminar grupos de documentos. Por ejemplo, un trmino como "sistema" probablemente es un mal descriptor en casi cualquier contexto, ya que debe estar presente en un gran nmero de documentos y, por tanto, tiene un ndice de discriminacin muy bajo. En cambio, probablemente, el trmino "teora de sistemas" tiene un ndice de discriminacin ms alto. En el sexto paso, se calcula, por tanto, el ndice de discriminacin o peso de cada trmino de la lista de descriptores. El clculo que propone Salton, y que siguen bastantes sistemas de indizacin automtica, es el siguiente: FT X FID = ndice de discriminacin del trmino FT FID = = Frecuencia absoluta del trmino en el documento Frecuencia inversa del documento
La frecuencia absoluta (FT) es el nmero de veces que aparece el trmino en el documento. Por ejemplo, en nuestro caso, la lista de frecuencias absolutas es la siguiente:
31
Figura 5: Frecuencias absolutas de los trminos candidatos a descriptores del Documento Doc1 acuerdo 1 Alfred 1 aspecto 1 bien 1 clase 1 conocer 1 contexto 1 dar 1 decir 1 Dretske 1 estamos 1 falsa 1 formados 1 informacin 6 madera 1 mensajes 2 mismo 1 motivo 1 objeto 1 pato 2 podemos 1 propiedad 3 realidad 2 saber 1 sentido 2 smbolos 1 sistemas 1 sustancia 1 tambin 1 teora 2
Tan slo con esta lista, ya se puede ver que los trminos ms frecuentes corresponden bastante bien al tema del documento y, por tanto, si adoptsemos como descriptores todos los trminos de frecuencia superior a 1, por ejemplo, no nos quedara una mala representacin del documento como se puede ver (indicamos la frecuencia a la izquierda) con la salvedad del candidato a descriptor "pato" que no sera un buen descriptor para este documento: 6 informacin 3 propiedad 2 pato 2 mensajes 2 realidad 2 sentido 2 teora Ahora bien, el sexto paso no se limita a adoptar la frecuencia absoluta como indicador de la bondad de un trmino como descriptor, sino que, como hemos visto por la frmula anterior, relaciona esta frecuencia con la denominada Frecuencia inversa del documento (FID). Esta se calcula as: nmero total de documentos en el fondo documental _____________________________________________ nmero total de documentos que contienen el trmino j
FIDj=
donde, FIDj significa que la frecuencia inversa del documento para el trmino j (por ejemplo, "economa") se obtiene dividiendo el nmero total de documentos de la base de datos, por el nmero de documentos que tienen el trmino j. La FID de un trmino sirve para indicar su peso relativo, ya que relaciona su frecuencia en todo el fondo documental con el nmero total de documentos. Multiplicando el factor FID de cada trmino (que es una medida global) con la frecuencia absoluta (FT) en el documento (que es una medida local) se pretende lo siguiente: otorgar ms peso a los trminos que tienen una alta presencia local y una baja presencia global. Por ejemplo, si el trmino "informacin" tiene una presencia muy alta en el documento, pero tambin tiene una frecuencia muy alta en todo el
32
fondo documental, podra obtener un peso relativo ms bajo que el trmino "propiedad", el trmino "mensajes", el trmino "Dretske" o (en este caso, por desgracia) el trmino "pato". En el paso nmero 7, los candidatos a descriptor con un ndice de discriminacin por debajo de un determinado umbral, quedaran eliminados. Este ndice tiene que establecerse de manera emprica segn las caractersticas de cada fondo. Podemos suponer que, de la lista de los 29 descriptores, probablemente, una tercera parte de ellos quedaran excluidos como candidatos a descriptores. A partir de aqu (paso n 8) es imposible saber de modo anticipado como quedara esta lista, ya que el clculo depender en cada momento de las caractersticas concretas del fondo del que formase parte, pero, podemos especular con que, en un momento determinado, podra parecerse a algo como esto: Figura 6: Lista (hipottica) de descriptores del Documento Doc1, con el algoritmo n. 2 informacin propiedad pato mensajes realidad sentido teora Finalmente, adems, cada descriptor quedara asignado al documento con un ndice numrico de su peso o capacidad discriminatoria como tal y esto se podra utilizar despus en el clculo de la relevancia del documento. Este ndice, resultado del clculo del paso n 6, podra ser un nmero entre 0 y 1, de manera que, por ejemplo, el descriptor "informacin" podra tener un ndice de 0,4 mientras que el descriptor "mensaje" podra tener un ndice de 0,5, etc. Se trata, por tanto, de un resultado bastante mejor que el que daba el modelo simple de indizacin automtica, pero no es mejor an que la indizacin intelectual (suponiendo, por otro lado, un indizador humano ideal). Persisten problemas similares: este procedimiento no reconoce unidades superiores a la palabra (no reconoce "teora de la informacin") y, probablemente, el trmino "pato" se asignara como descriptor a este documento que, por supuesto, no trata en absoluto de patos. Numerosos motores de bsqueda de Internet parecen aplicar un algoritmo como este, o muy parecido, en su procedimiento de anlisis e indizacin automtica, aunque nunca es posible estar del todo seguros desde el momento que las empresas que administran estos motores no proporcionen los detalles exactos de sus algoritmos. Ahora bien, existe la posibilidad de aadir an algunos pasos ms en el algoritmo n 2 que estamos examinando ahora y que an podra mejorar el resultado. En concreto, en algunas ocasiones, Salton y otros autores han presentado un modelo de indizacin automtica que incorpora los pasos sealado aqu como 5a y 6a y que destacamos en cursiva): Algoritmo n 2a: Modelo de indizacin avanzada. Segunda variacin 1. Identificacin de las cadenas de caracteres para determinar la primera lista de candidatos a trminos de indizacin. 2. Eliminacin de las palabras vacas de esta lista, es decir, de los trminos muy frecuentes.
33
3. Creacin de races con las cadenas de caracteres para crear los trminos de indizacin. 4. Combinacin de trminos sinnimos. 5. Clculo de frecuencias absolutas. 5a. Eliminacin de trminos muy poco frecuentes en la coleccin. 6. Clculo del peso o importancia de los trminos en cada documento. 6a. Formacin de frases (descriptores compuestos) con trminos muy frecuentes, mediante clculo de co-ocurrencias de trminos en las diferentes oraciones del documento. 7. Eliminacin, como candidatos a descriptores, de los trminos con un ndice de discriminacin que quede por debajo de un umbral determinado. 8. Asignacin de los descriptores ponderados a cada documento. Se supone que, gracias al paso 5a, se eliminaran de los candidatos a descriptores un trmino como "patos". Ahora bien, esto sera cierto siempre que nos moviramos en un fondo documental especializado y en el cual, por tanto, trminos ajenos a la especialidad del fondo no aparecieran con frecuencia. Si suponemos que estamos hablando de un fondo especializado en informacin y comunicacin, entonces es plausible suponer que el trmino "pato" sera muy infrecuente y quedara, por tanto, eliminado. Ahora bien, esto tan slo es una hiptesis que, en todo caso, en un fondo indiscriminado como el que existe en la Web non funcionara bien. Por otro lado, gracias al paso 6a, se supone que, tambin en condiciones ideales, saldran descriptores compuestos como "sistemas de informacin". Ahora bien, igual que en el caso anterior, esto tan slo es una hiptesis que, a veces se cumple, segn las caractersticas del fondo, y otras veces no, y en todo caso no siempre se cumple al 100%. Sea como sea, en el caso ms favorable, ahora el resultado que tendramos, si aplicsemos el algoritmo n 2a, podra ser el siguiente: Figura 7: Lista hipottica de descriptores del Documento Doc1, con el algoritmo n 2a informacin propiedad mensajes realidad sistemas de informacin teora de la informacin Las observaciones que podemos hacer a este resultado son las siguientes: en primer lugar, se aprecia una mejora en el sentido que se han eliminado algunos trminos inadecuados, como el famoso "pato" (pero, recordemos que esto tan slo es una hiptesis). En segundo lugar, se han aadido dos trminos compuestos, como "sistemas de informacin" y "teora de la informacin" que, sin duda, mejoran la indizacin. Ahora bien, por los mismos principios segn los cuales han desaparecido algunos descriptores inadecuados, tambin podran desaparecer los descriptores "Alfred" y "Dretske". Finalmente, no es plausible, al menos sin el concurso de un tesauro externo, que el descriptor "semitica" quedase asignado al documento.
Para que la indizacin automtica consiga un mejor rendimiento, faltara incluir, al procedimiento avanzado, algunas operaciones y perfeccionamientos que pudiesen conducir a una indizacin no ya avanzada, sino inteligente.
34
Ahora bien, todo lo que se dir a partir de ahora existe tan slo o bien en sistemas propietarios que, por alguna razn, no han llegado al mercado como soluciones estandarizadas, o bien en productos de tipo experimental. La mejora de los procedimientos de anlisis e indizacin documental parece que tendra que provenir de combinar dos instrumentos ms en este tipo de procesos: 1. Instrumentos de anlisis lingstico 2. Sistemas expertos 3. Tesauros Los instrumentos de anlisis lingstico permitiran detectar candidatos a descriptores con ms fundamento que los simples datos estadsticos de los trminos, aunque stos continuaran siendo tiles. Por ejemplo, con tcnicas de lingstica computacional y terminologa, se podran detectar candidatos a descriptores formados no tan slo por palabras simples, como "informacin", sino tambin por palabras compuestas, como "sistemas de informacin", a partir de la determinacin de las caractersticas sintcticas, semnticas y morfolgicas de los textos y de reglas de formacin de expresiones gramaticalmente vlidas, y no tan slo en base a propiedades estadsticas de los textos. Por su parte, un sistema experto podra aplicar reglas de produccin, del estilo "si... entonces...", para asignar descriptores de un tesauro o identificar sinnimos con la ayuda tambin de un tesauro. Por ejemplo, una regla de produccin del sistema experto podra servir para deducir que: si <el trmino "diafragma" aparece en un contexto prximo al trmino "ptica">, entonces, <el documento se puede indizar con el trmino "diafragmas pticos">. En caso necesario, el uso de un tesauro como parte integrante del sistema experto ayudara a formar clases de sinonimia y a escoger, en cada caso, el trmino preferido como descriptor, as como ayudara a escoger el trmino ms adecuado segn el nivel de especificidad, etc. O bien, reglas que determinasen que "Alfred Dretske" es un nombre propio que identifica a un autor y que este autor es suficientemente relevante para ser utilizado como descriptor. Por ejemplo, una regla segn la cual: si <dos cadenas conexas comienzan con mayscula> y si <van precedidas de la expresin "segn">, entonces, <se trata de un nombre propio y el documento se puede indizar con este nombre propio>. 2.7. Conclusiones En relacin a la indizacin automtica de documentos, Internet ha demostrado que, en los algoritmos, llammosles "clsicos", como los que hemos examinado aqu, haba una gran cantidad de ideas preconcebidas. Por ejemplo, nunca se haba pensado en un entorno tan heterogneo como pueda ser el WWW. En este entorno, el bajo rendimiento habitual de los motores de bsqueda convencional demuestra el papel importantsimo, de momento insustituible, de la seleccin y filtraje de calidad previa que tradicionalmente han llevado a cabo las bibliotecas y los centros de documentacin. En estos entornos tan controlados previamente, gracias a la intervencin humana de seleccin y filtraje previo, algunos de estos algoritmos pueden llegar a funcionar de manera razonablemente buena, pero no funcionan, en cambio, nada bien en el entorno heterogneo y sin ningn tipo de filtro, como el WWW.
35
En el futuro, los sistemas "inteligentes" de indizacin tan slo podrn incrementar su eficiencia, es decir, tan slo sern verdaderamente inteligentes en base a: primero, considerar tambin las propiedades lingsticas de los textos, y no tan slo las estadstica; segundo, incorporar el uso de instrumentos de control terminolgico como los tesauros. Esta ltima sera una relacin muy adecuada de esfuerzo intelectual (o sea, hecho por personas) y de automatismo (o sea, de operaciones hechas por mquinas). Parece que es por aqu por donde ir el futuro de la RI. Con esfuerzo intelectual se construyeron los tesauros pero, una vez construidos, se podran clonar tantas veces como hiciera falta, y su uso pasara a ser automtico en vez de manual, ya que los tesauros seran consultados y aplicados como resultado de reglas de produccin de sistemas expertos. En cualquier caso, y como ya hemos sealado en otra parte, la RI es un campo de trabajo y de estudios interdisciplinarios, la importancia del cual no dejar de aumentar mientras la Web vaya estando cada vez ms presente en la vida de los ciudadanos, profesionales e investigadores. 2.8. Bibliografia ABADAL, E. Sistemas y servicios de informacin digital. Gijn: Trea, 2001, 147 p. BLAIR, D.C. Language and representation in information retrieval. Amsterdam: Elsevier, 1990. 335 p. BUCKLAND, M. Information and information systems. Westport: Greenwood Pres, 1991, 225 p. BELEW CHORAFAS, D. N. Intelligent multimedia databases: from object orientation and fuzzy engineering to intentional database structures. Englewood Cliffs, New Jersey: Prentice Hall, 1994, 360 p. CHOWDHURY, G.G. Introduction to modern information retrieval. London: Library Asociation, 1999, 451 p. CODINA, L. "Sistemas automticos de recuperacin de informacin textual". En: GOMEZ GUINOVART, J. Aplicaciones lingsticas de la informticoa. Santiago de Compostela: Trculo Edicins, 1994, p. 63-86 CODINA, L. "Recuperacin de informacin e hipertextos: sus bases lgicas y su aplicacin a la documentacin periodstica". En: FUENTES, M. Eullia (ed.). Manual de Documentacin periodstica. Marid: Sntesis, 1995, p. 213-230 CODINA, L. "Teora de recuperacin de informacin: modelos fundamentales y aplicacin a la gestin documental". Information world en espaol, n. 38, octubre 1995, p. 18-22 ELLIS, D. New horizons in information retrieval. London: The Library Asociation, 1990, 138 p. FOX
36
FRAKES, W. B.; BAEZA-YATES, R. (eds). Information retrieval: data structures & algorithms. Englewod Cliffs: Prentice Hall, 1992, 504 p. GILLMAN, Peter (ed.). Text retrieval: the state of the art. London: Taylor Graham, 1990, 208 p. KOWALSKI, G. Information retrieval systems: theory and implementation. Boston: Kluwer, 1997, 282 p. LANCASTER, F. W. Indexing and abstracting in theory and practice. Champaing (IL): University of Illinois, 1998, 412 p. LOSEE Jr., R.M. The science of information. San Diego: Academic Pres, 1990, 293 p. PENROSE, R. RIJSBERGEN, van SALTON, G.; MCGILL, M. J. Introduction to modern information retrieval. New York: McGraw-Hill , 1983 , 448 p. SALTON, G. Automatic text procesing: the transformation, analysis, and retrieval of information by computer. Reading (MA): Addison-Wesley, 1989 , 530 p. Searle, SOERGEL, D. Organizing information: principles of data base and retrieval systems. Orlando: Academic Pres, 1985, 450 p. Sitios Web Visualization Bookmars http://research.cis.drexel.edu/clases/ynsis300/visualization.html Sics: Intelligent Software Agents http://www.sics.se/isl/abc/survey.html Search Engine Watch http://www.searchenginewatch.como Cataloguing and Indexing http://www.desire.org/results/discovery Center for Networked Information Discovery and Retrieval http://www.cnidr.org
Forma recomendada de citacin: <E. Abadal, L. Codina. Recuperacin de informacin. En: Bases de datos documentales: Caractersticas, funciones y mtodo. Captulo 2. Madrid: Sntesis, 2005, p. 29-92>
37

Recuperación de Información

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Recuperación de Información

Transféré par

Droits d'auteur :

Formats disponibles

Ernest Abadal, Llus Codina Bases de Datos Documentales: Caractersticas, funciones y mtodo. Captulo 2. p. 29-92.

Tabla 2.1: Tipos bsicos de sistemas de RI

Rijsbergen enriqueci la Teora de RI con estudios de tipo lgico y estadstico. Posteriormente,

Gary Marchionini, David C. Blair, Ricardo Baeza-Yates, Richard K. Belew y Gobinda

1. Indizacin. Esta operacin, en particular cuando se realiza en modo intelectual, se divide en

2. Seleccin: identificacin del conjunto de documentos ms relevante para una necesidad de

3. Ordenacin: determinacin del orden ms adecuado de presentacin al usuario de los

4. Interconexin: establecimiento de relaciones hipertextuales, caminos y, en general,

5. Categorizacin: asignacin de cada documento a un grupo, clase o subclase de un cuadro

6. Abstraccin: produccin de resmenes de documentos que, en algunas circunstancias,

7. Visualizacin: representacin en forma grfica de informaciones no necesariamente

Fuente: Adaptado de Belkin y Croft

Economa AND Gestin cultural

{dv} : Conjunto de los documentos que satisfacen la ecuacin

(Economa OR Financiacin) AND (Gestin cultural OR Museos)

Figura 2: Documento ejemplo Doc1

La informacin como propiedad

Vous aimerez peut-être aussi