Vous êtes sur la page 1sur 15

CONCEPTO DE TAXONOMA

Tabla de contenido 1. Concepto de taxonoma 1. 2. Construccin de la taxonoma 2. 2.1. Automatizacin de los procesos de construccin de la taxonoma 3. 3. Categorizacin de recursos 4. 4. Aplicacin de la taxonoma en el desarrollo de sistemas de bsqueda de informacin

En el momento en que se publique este artculo, se habr producido un hecho que ha de marcar un antes y un despus en la evolucin de las taxonomas como sistemas de organizacin de contenidos: la aparicin del borrador final de la revisin de la norma ANSI/NISO Z39.19-1993, Guidelines for the construction, format, and management of monolingual thesauri [1] . Esta revisin ha sido llevada a cabo entre 2002 y 2004 por el Thesaurus Advisory Group (desde ahora, TAG), creado en el seno de la National Information Standards Organization, y que persigue la introduccin de un lenguaje ms amigable en la norma, la actualizacin de su contenido al entorno actual de la informacin digital, y la ampliacin de su alcance a la variada gama de organizaciones productoras y de contenidos. No disponemos de un borrador de la norma revisada pero s de un sumario de su contenido y de las notas de las reuniones llevadas a cabo por el TAG. A partir de estos documentos, se puede observar como una de las modificaciones globales que se han propuesto es cambiar el ttulo de la norma " Guidelines for the construction, format, and management of monolingual thesauri " por el de Construction, format and management of monolingual controlled vocabularies . Los vocabularios controlados incluyen cuatro tipos principales: las listas, los anillos de sinnimos, las taxonomas y los tesauros. La revisin de la norma ANSI/NISO Z39.19 se propone definir "normativamente" los cuatro tipos, y establecer los elementos fundamentales de construccin y gestin de todos ellos. Concretamente, en la "TAG Conference Call, June 30, 2003" (2003), se incluye las definiciones provisionales que reproducimos a continuacin: *Lista: "A set of words or phrases displayed in an organized series." *Anillo de sinnimos: "A set of words or phrases that are consireded to be equivalent for the purposes of retrieval. Synonym rings are not used during input." *Taxonoma: "An organized set of words or phrases used for organizing information and primarily intended for browsing." *Tesauro: "A controlled vocabulary that indicates preferred terms, variant terms, and term relationship. Usually considered to be the most complex of controlled vocabularies." A partir de las modificaciones propuestas por el TAG, la definicin definitiva es la siguiente: "A set of words or phrases with equivalent terms explicitly identified and with ambiguous words or phrases (e.g. homographs) made unique. This set of terms also may include broader-narrower or other relationships." De acuerdo con esta definicin, la taxonoma no exige que sus componentes estn conectados mediante un tipo especfico de relaciones; simplemente requiere que sus componentes estn

organizados. Las caractersticas definitorias son su finalidad "prioriza la exploracin ("browsing")" y, por lo tanto, su entorno de aplicacin "el entorno digital". En cambio, en algunos documentos relativos al proceso de revisin de la norma ANSI/NISO Z39.19 la diferencia entre los cuatro tipos de vocabularios controlados est determinada por la menor o mayor complejidad estructural que presentan. En un extremo, las listas y los anillos de sinnimos se limitan a incorporar la relacin de equivalencia; en el otro extremo, los tesaurus incorporan las relaciones de equivalencia, jerarqua y asociativa. En una posicin central, las taxonomas incorporan las relaciones de equivalencia y de jerarqua. En espera de que los trabajos del TAG aporte una definicin normativa del concepto de taxonoma, debemos destacar que, en la actualidad, no disponemos de un concepto universalmente aceptado de dicho trmino. Etimolgicamente hablando, taxonoma procede de los trminos griegos "taxis" , ordenacin, y "nomos", norma. Aristteles fue uno de los primeros en utilizar este trmino, en el 300 antes de Cristo, para designar e squemas jerrquicos orientados a la clasificacin de objetos cientficos. El botnico Carlos Linneo (1707-1778) design con el trmino taxonoma a la clasificacin de los seres vivos en agrupaciones jerrquicamente ordenadas de ms genricas a ms especficas (reino, clase, orden, gnero, y especies). A partir de esta concepcin clsica, se desarroll la taxonoma como un subcampo de la biologa dedicado a la clasificacin de organismos de acuerdo con sus diferencias y similitudes. De acuerdo con Grove (2003, p. 2774), los principios que proporcionaban una gua rigurosa para la construccin de taxonomas eran la base lgica, la observacin emprica, la estructura jerrquica basada en la herencia de propiedades, la historia evolutiva, y la utilidad pragmtica. Las fuentes terminolgicas de la lengua general todava recogen el significado especialmente orientado al entorno de las ciencias experimentales, como demuestra el artculo que incorpora la ltima edicin en papel del Diccionario de la lengua espaola (2001): "1. f. Ciencia que trata de los principios, mtodos y fines de la clasificacin. Se aplica en particular, dentro de la biologa, para la ordenacin jerarquizada y sistemtica, con sus nombres, de los grupos de animales y de vegetales. 2. f. clasificacin ( accin y efecto de clasificar)." En su concepcin clsica, vinculada a las ciencias experimentales, la taxonoma aplica un criterio monojerrquico en el establecimiento de los sistemas de clasificacin; es decir: cada una de las agrupaciones o clases que lo componen slo puede ocupar un lugar, y slo uno, en la estructura jerrquica. A principios de los aos 90 del siglo XX, el concepto de taxonoma se incorpora a otros mbitos del conocimiento, como la psicologa, las ciencias sociales y la informtica, para designar casi todos los sistemas de acceso a la informacin que intentan establecer coincidencias entre la terminologa del usuario y del sistema. Los primeros especialistas que desarrollaron sistemas de organizacin de contenidos para la Web formaban parte del rea de consultora en gestin del conocimiento, y procedan de mbitos prximos a la informtica y la ingeniera (gestin de contenidos y arquitectura de la informacin); no conociendo la tradicin de los lenguaje documentales del mbito de la Documentacin, asignaron el trmino taxonoma para los sistemas que desarrollaban. Este trmino se mantiene en uso actualmente para designar los sistemas de organizacin de contenidos en el contexto de Internet, aunque la teora y la prctica de los lenguajes documentales se ha venido aplicando de forma intensiva en este contexto.

Antes de proponer una definicin del trmino taxonoma, acorde con los mbitos de desarrollo actuales, hemos realizado un trabajo de identificacin y confrontacin de los rasgos semnticos con que se define. Para ello, hemos realizado una amplia bsqueda de definiciones en todos los mbitos de estudio, desarrollo y/o aplicacin del trmino taxonoma. A priori, no hemos impuesto limitacin alguna al origen de las definiciones; nicamente hemos descartado aqullas elaboradas a partir de una concepcin clsica del trmino. El resultado ha sido la localizacin de 36 definiciones publicadas en el perodo comprendido entre 2000 y 2005 en diferentes tipos de fuentes [2] : *Diccionarios y enciclopedias especializadas. *Artculos de consultores en gestin de contenidos y arquitectura de la informacin. *Artculos de especialistas vinculados al mbito acadmico. *Documentos tcnicos y comerciales de aplicaciones informticas para el desarrollo de taxonomas. El anlisis de las definiciones muestra que stas inciden sobre cuatro variables: el lugar que ocupa la taxonoma en el mbito de los sistemas de organizacin del conocimiento (en adelante, SOC); el contexto informativo en que se aplican la taxonoma; las finalidades que persigue la taxonoma; y el modelo estructural con que se interrelacionan los elementos que componen la taxonoma. Entre las definiciones que hacen referencia al lugar que ocupa la taxonoma en el marco de los SOC (13 de 36), la opinin mayoritariamente aceptada es considerarla como un tipo de vocabulario controlado (5 de 13) o, incluso, un tipo especfico de tesauro o esquema de clasificacin (3 de 13). No faltan, sin embargo las opiniones que la consideran como una categora amplia que incorpora modalidades especficas como los tesauros (4 de 13). En este caso, la taxonoma puede ser definida como el proceso general de organizacin o clasificacin de contenidos: "In the 1990s, taxonomy was redefined as any semantically significant, systematic organization of content or as the process of developing such an organization." (Grove 2003, p. 2.770) o incluso puede ser elevada al rango de ciencia: "The science of categorization, or classification, of things based on a predetermined system. In reference to Web sites and portals, a site'ss taxonomy is the way it organizes its data into categories and subcategories, sometimes displayed in a site map." (Webopedia) Ms de la mitad de las definiciones (21 de 36) restringen el mbito de aplicacin de las taxonomas; 14 de ellas, a entornos digitales y, ms especficamente, al desarrollo de sitios web; 11 a entornos corporativos y, ms especficamente, de empresas [3] . En cuatro casos convergen ambos criterios de restriccin del significado de taxonoma; una buena muestra de esta corriente, es la definicin propuesta por Gilchrist, Kibby y Mahon (2000, p. 6), que ha alcanzado un importante factor de impacto en la bibliografa especializada: "- a correlation of the different functional languages used by the enterprise

- to support a mechanism for navigating, and gaining access to the intellectual capital of the enterprise - by providing such tools as portal navigation aids, authority for tagging documents and other information objects, support for search engines, and knowledge maps - and possibly, a knowledge base in its own right." El resto de las definiciones (15 de 36) no imponen restricciones al mbito de aplicacin de la taxonoma, es decir; abarcan todos los soportes documentales, todas las reas de conocimiento y profesionales, etc.; y tanto los entornos analgicos como digitales. Las definiciones que vinculan las taxonomas al entorno digital destacan, como finalidades prioritarias, la mejora de la navegacin y el desarrollo de sistemas de bsqueda basados en la exploracin ("browsing") y en la recuperacin ("searching"). Las definiciones que vinculan las taxonomas al entorno corporativo destacan el valor estratgico de las taxonomas en reas como la gestin del capital intelectual y, en general, del conocimiento. Una muestra de una definicin que otorga a la taxonoma una posicin estratgica en el desarrollo de sitios web corporativos es Taxonomy strategies: "Overall scheme for organizing content to solve a business problem such as improving search, browsing for content on an enterprise-wide portal, enabling business users to syndicate content, and otherwise providing the basis for content re-use." Desde el punto de vista estructural, 23 de las 36 definiciones consideran que las taxonomas se caracterizan por la aplicacin de la relacin jerrquica entre los elementos que organiza. En los casos en que la definicin de taxonoma se orienta a su posicin en el marco de los vocabularios controlados (Fast, Leise y Steckel, 2003 y NISO/ANSI Z39.19) las definiciones asignan a la taxonoma una posicin central determinada por la aplicacin de las relaciones de equivalencia y de jerarqua. Las listas y anillos de sinnimos constituyen vocabularios controlados ms simples desde el punto de vista estructural, ya que nicamente aplican la relacin de equivalencia; en el otro extremo, los tesauros constituyen el mximo nivel de complejidad estructural, ya que a las relaciones de equivalencia y jerarqua incorporan la asociativa. Slo una incorpora la relacin asociativa en la definicin del concepto: "The basic idea behind taxonomy is to provide a controlled vocabulary for metadata attributes, and to specify relationships between terms in the controlled vocabulary. The simplest relationships are broader, narrower, and related, but relationships can be much more specific and complex." Entre las 23 definiciones que privilegian la relacin jerrquica en el concepto de taxonoma, seis incluyen alguna consideracin sobre la monojerarqua o la polijerarqua en relacin al concepto de taxonoma: dos declaran explcitamente que la monojerarqua es la relacin ptima, y mantienen, por lo tanto, la perspectiva clsica de las ciencias naturales; dos admiten los dos tipos de jerarqua como posibles; y dos manifiestan la preferencia por la polijerarqua. A partir de la documentacin elaborada por el TAG de la NISO, y a la luz de las propiedades mayoritariamente aceptadas en la definiciones formuladas en los mbitos de estudio, desarrollo y/o aplicacin, proponemos la siguiente definicin:

Una taxonoma es un tipo de vocabulario controlado en que todos los trminos estn conectados mediante algn modelo estructural (jerrquico, arbreo, facetado...) y especialmente orientado a los sistemas de navegacin, organizacin y bsqueda de contenidos de los sitios web. Es preciso realizar tres puntualizaciones sobre el contenido de esta definicin: *Los trminos (o categoras) representan algn aspecto del contenido, contexto o estructura de los recursos de informacin, y no nicamente del contenido. *Los modelos estructurales no suelen presentarse de forma pura; es posible (y, en el mundo real, habitual) que una misma taxonoma presente estructuras resultantes de la mezcla de modelos. *Los documentos que reflejan las discusiones en el seno del TAG revelan una falta de consenso en relacin a las aplicaciones y usos preferentes de las taxonomas. Algunas notas de las reuniones de dicho grupo (por ejemplo, "TAG Conference Call, may 19, 2003" (2003)), reflejan cmo inicialmente la concepcin de la taxonoma se orient a la exploracin ("browsing") y a la navegacin en perjuicio de la recuperacin ("searching"); en la versin final de la definicin de taxonoma su aplicacin abarca tambin este ltimo mecanismo. *Una vez establecida una definicin de taxonoma, vamos a realizar un breve recorrido por los procesos de construccin de taxonomas y su aplicacin en la categorizacin de recursos y el desarrollo de sistemas de bsqueda de informacin de los sitios web. Ambos procesos deben estar precedidos por una planificacin estratgica que determine qu caractersticas debe presentar la taxonoma a partir del anlisis del contexto "que identificar las prioridades de la corporacin en la organizacin y presentacin de la informacin en el sitio web", de la audiencia "que identificar las necesidades y comportamientos de bsqueda y uso de la informacin por parte de los diferentes segmentos de usuarios" y del contenido "que identificar patrones de contenidos". por: || George||

Tabla de contenido 1. Concepto de taxonoma 1. 2. Construccin de la taxonoma 2. 2.1. Automatizacin de los procesos de construccin de la taxonoma 3. 3. Categorizacin de recursos 4. 4. Aplicacin de la taxonoma en el desarrollo de sistemas de bsqueda de informacin

2. Construccin de la taxonoma
La construccin de las taxonomas corporativas supone la realizacin de cuatro procesos: 1. Delimitacin de la realidad (entidad, rea de conocimiento, sector industrial, etc.) que ser representada por la taxonoma. 2. Extraccin del conjunto de trminos o categoras que representan dicha realidad.

Para llevar a cabo este proceso es necesario establecer, en primer lugar, cules son las fuentes prioritarias y los mecanismos de extraccin idneos para cada una de ellas. Existen tres tipos: las fuentes personales, integradas por usuarios del web y especialistas en el dominio del web; fuentes documentales, integradas por documentos representativos de los tipos de contenidos identificados en la fase de planificacin estratgica; y las taxonomas o instrumentos de representacin del conocimiento ya existentes (desde nomenclaturas de las unidades y recursos existentes en una entidad a los cuadros de clasificacin de la documentacin administrativa). Es necesario identificar los mecanismos de extraccin para cada una de las fuentes; as, en el caso de las fuentes personales, resultan especialmente tiles las entrevistas con representantes de los usuarios del sitio web, y el anlisis de los registros de transacciones de bsquedas y consultas. El resultado de este proceso es un registro de trminos o categoras representativas. 3. Control terminolgico de los trminos o categoras. Este proceso supone la realizacin de dos tareas. En primer lugar, se identifican los diferentes trminos que designan un mismo concepto; en caso de que sean dos o ms es necesario determinar cul se considera preferente y cules se consideran no preferentes. En segundo lugar, es necesario dar una forma correcta y consistente a todos los trminos de la taxonoma, independientemente de si son preferentes o no preferentes. El resultado de este proceso es el establecimiento de la relacin de equivalencia entre todos los trminos de la taxonoma. 4. Establecimiento del esquema y la estructura de organizacin de los trminos o categoras El esquema de organizacin incluye el criterio o criterios utilizados para dividir y agrupar las categoras . A priori, los criterios son ilimitados y su idoneidad depende del objeto que deba representarse mediante la taxonoma. Ejemplos de los criterios ms utilizados son: los temas, las materias y/o disciplinas; las personas; las entidades; los destinatarios; los procesos, tareas y/o funciones; los tipos de documentos; etc. El modelo estructural define el tipo de relacin que se establece entre las agrupaciones de categoras derivadas del esquema de organizacin. La tendencia general ha sido aplicar los modelos jerrquico (basado en la relacin "tipo de") y arbreo (basado en la relacin "parte de") y, de hecho, las normas internacionales y nacionales de construccin de tesauros que se han aplicado a las taxonomas corporativas encumbran estos dos modelos estructurales. Un tercer modelo, el facetado, constituye una buena alternativa para el entorno hipertextual, en que resulta clave la descomposicin de las diferentes perspectivas desde las que se puede observar un mismo concepto o tem. De hecho, este modelo se est utilizando cada vez ms para determinados tipos de sitio web No obstante, la documentacin de que disponemos sobre la revisin de la Norma ANSI/NISO Z39.19 no parece que vaya a incorporar esta alternativa. Tradicionalmente, se han distinguido dos tcnicas para el desarrollo de la estructura de la taxonoma: la tcnica de arriba a abajo ("up to down") y la tcnica de abajo a arriba ("down to up"). *La aplicacin de la tcnica de arriba a abajo supone la identificacin inicial de un nmero limitado de categoras superiores, y la agrupacin del resto de categoras en niveles sucesivos de

subordinacin hasta alcanzar los niveles de categoras ms especficas. Esta tcnica puede orientarse tanto a la aplicacin de un modelo estructural jerrquico (y/o arbreo) como facetado. La posibilidad de ejercer un control previo sobre las categoras principales hace que esta tcnica se aplique a la construccin de taxonomas que tienen, como finalidad exclusiva o prioritaria, el desarrollo de sistemas de exploracin ("browsing") y/o navegacin. *La aplicacin de la tcnica de abajo a arriba se basa en la identificacin inicial de las categoras ms especficas, que van agrupndose en niveles sucesivos de superordinacin hasta alcanzar el nivel de categoras superiores. Generalmente, esta tcnica se ha orientado, fundamentalmente, a la aplicacin de un modelo estructural jerrquico (y/o arbreo), aunque, como en el caso anterior, puede facilitar el anlisis para la toma de una decisin sobre el modelo estructural que resulta idneo aplicar. En cualquier caso, es la tcnica que se ha aplicado al desarrollo de mtodos de intervencin de representantes de los usuarios reales y potenciales en el establecimiento de la estructura de las taxonomas (por ejemplo, el mtodo de la ordenacin de fichas o "card sorting"). por: || George||

Tabla de contenido 1. Concepto de taxonoma 1. 2. Construccin de la taxonoma 2. 2.1. Automatizacin de los procesos de construccin de la taxonoma 3. 3. Categorizacin de recursos 4. 4. Aplicacin de la taxonoma en el desarrollo de sistemas de bsqueda de informacin

2.1. Automatizacin de los procesos de construccin de la taxonoma


Un factor crtico en la construccin de la taxonoma es el grado de automatizacin que se aplica a los procesos anteriormente indicados. El grado de automatizacin puede contemplarse como un continuum : en un extremo se sitan los sistemas manuales (o intelectuales), y, en el otro, los automticos. En un punto central, se sitan los sistemas semiautomticos. Cabe destacar que en el momento actual difcilmente se aplican sistemas completamente manuales para la creacin de taxonomas. En el nivel mnimo de automatizacin encontramos dos tipos de soluciones: las taxonomas preelaboradas ("taxonomy templates"), especializadas en un sector industrial determinado, que deben ser adaptadas a las condiciones especficas de una organizacin determinada [4] , y las herramientas de edicin de taxonomas. Este segundo tipo de soluciones ofrecen a los administradores de la taxonoma un depsito para la gestin de trminos, un entorno amigable para el establecimiento de relaciones entre los trminos, y diferentes modalidades de presentacin y visualizacin de los resultados. Muchas de estas aplicaciones ya existan como administradores de tesauros, y no han incorporado excesivas innovaciones para su nuevo cometido en el contexto de las taxonomas. Como ejemplos de estas modalidades podemos citar los productos Multites 2005 ( http://www.multites.com ) o Term Tree ( http://www.termtree.com.au ).

En el nivel mximo de automatizacin, encontramos programas que analizan el corpus de recursos digitales de un sitio web, y extraen categoras mejor dicho, agrupaciones de recursos ("clusters") mediante la aplicacin de anlisis estadstico y/o procesamiento lingstico. Generalmente, el proceso de construccin de la taxonoma y de categorizacin de los recursos es simultneo; incluso en algunos casos, el resultado es directamente editable como sistema de exploracin ("browsing"). Una opcin extrema de esta modalidad de automatizacin es la que da lugar a las denominadas taxonomas dinmicas: agrupaciones de recursos resultantes de una consulta a un buscador que suele responder ms a anlisis estadstico de frecuencias que al procesamiento lingstico. En los sistemas automticos, las posibilidades de establecer relaciones de equivalencia y de jerarqua entre las categoras son bastante limitadas; el resultado suele ser una taxonoma plana, ms prxima a un sistema de agrupacin de recursos ("clustering") que de clasificacin propiamente dicho. Un ejemplo de este tipo de soluciones es el mdulo Automatic Taxonomy Generation de IDOL Server ( http://www.autonomy.com/content/Products/IDOL ). Las soluciones completamente automticas no han ofrecido, hasta el momento actual, resultados satisfactorios en lo que respecta a la construccin de taxonomas. En consecuencia, se estn desarrollando alternativas semiautomticas que, como Ultraseek Topic Advisor ( http://www.verity.com/products/ultraseek/index.html ) asiste con el proceso de creacin y mantenimiento de la taxonoma a la vez que proporciona una interfaz para la revisin y aprobacin de categoras. Dichos sistemas incluyen un algoritmo de base estadstica que analiza un corpus de recursos y sugiere trminos y relaciones entre trminos al administrador del sistema para que ste los acepte o deniegue. Todo ello en un entorno amigable de trabajo. por: || George||

Tabla de contenido 1. Concepto de taxonoma 1. 2. Construccin de la taxonoma 2. 2.1. Automatizacin de los procesos de construccin de la taxonoma 3. 3. Categorizacin de recursos 4. 4. Aplicacin de la taxonoma en el desarrollo de sistemas de bsqueda de informacin

3. Categorizacin de recursos
La categorizacin puede ser definida como el proceso de representacin del contenido, contexto y/o estructura de recursos de informacin mediante la asignacin de trminos procedentes de un lenguaje documental -categorizacin por asignacin- o mediante la extraccin de trminos de los propios recursos -categorizacin por extraccin-. El modelo de categorizacin ms eficaz que existe en la actualidad es el que se basa en los metadatos. Siguiendo a Mndez y Senso (2004), podemos definir los metadatos como: " toda aquella informacin descriptiva sobre el contexto, calidad, condicin o caractersticas de un recurso, dato u objeto que tiene la finalidad de facilitar su recuperacin, autentificacin, evaluacin, preservacin y/o interoperabilidad ". Existen diferentes modelos de metadatos. Los elementos que permiten establecer diferencias entre estos modelos son, bsicamente, dos:

Qu aspectos de los recursos que representan (los elementos).

Cmo se representan dichos elementos (la sintaxis). Por ejemplo, Dublin Core, uno de los modelos ms utilizados para la descripcin de todos los tipos de recursos de informacin, incluye, en su formato ms sencillo ("nivel simple"), quince elementos [5] : Ttulo, Autor o Creador, Claves, Descripcin, Editor, Otros colaboradores, Fecha, Tipo de recurso, Formato, Identificador del recurso, Fuente, Lengua, Relacin, Cobertura y Derechos. La sintaxis de cada elemento suele incorporar tres componentes:

La identificacin del elemento. Por ejemplo, en Dublin Core, el elemento Palabras clave se identifica mediante la metaetiqueta DC.Subject.

Un o ms calificadores que especifican algn atributo especfico del elemento. Por ejemplo, un calificador de la metaetiqueta DC.Subject puede ser SCHEME, que identifica el nombre del vocabulario controlado aplicado para la categorizacin del elemento.

El valor o valores del elemento asignados al recurso que se describe. Por ejemplo, los trminos extrados del lenguaje controlado utilizado para la categorizacin del elemento. En una pgina web codificada mediante el metalenguaje HTML, la sintaxis del elemento Claves presentara el siguiente aspecto: <META NAME="DC.Subject" SCHEME="TAGS" CONTENT="Herencia cultural; Acontecimientos culturales; Exposiciones; Gestin de documentacin administrativa; Internet; Archivos; Gestin de la informacin"> En el modelo de categorizacin basado en metadatos, la taxonoma constituye un tipo de vocabulario controlado muy til para la extraccin de los valores -los trminos- que se asignarn a los elementos que describen los recursos de informacin. Tal y como hemos indicado anteriormente, la aplicacin de taxonomas no tiene que limitarse a los elementos que expresan el contenido de los recursos, y, ms exactamente, a la materia, tema o disciplina. Los elementos relativos al contexto y a la estructura de los recursos tambin pueden ser expresados mediante categoras extradas de una taxonoma. La utilizacin de taxonomas en la categorizacin de recursos de informacin ofrece los puntos fuertes generales de los lenguajes controlados, como son: el tratamiento de los aspectos semnticos y sintcticos del lenguaje; la representacin de conceptos implcitos; la creacin de una visin global de los dominios que son objeto de representacin; la exhaustividad en la

indizacin; y la solucin de los problemas que conllevan los contextos multilinges. Desde el punto de vista de la gestin de sitios web, la utilizacin de taxonomas en la categorizacin de los recursos ofrece dos importantes beneficios adicionales:

Por un lado, rentabiliza los esfuerzos de construccin y mantenimiento de la taxonoma y de categorizacin de recursos; ya que una misma herramienta puede ser reutilizada en el desarrollo de diferentes aplicaciones de bsqueda, navegacin, personalizacin, etc.

Por otro lado, permite mantener la consistencia conceptual y designativa en la representacin de los elementos de un mismo dominio, lo cual crea en los usuarios una imagen de consistencia en el conjunto del sitio web, y en la entidad que lo crea y lo mantiene. El modelo de categorizacin aplicado por una organizacin determinada debe dar respuesta a cuatro cuestiones fundamentales: qu recursos de informacin sern categorizados?, con qu finalidad?, quin los categorizar?, cmo lo har? La dos ltimas cuestiones estn profundamente relacionadas con el grado de automatizacin aplicado a la asignacin de valores a los metadatos. Desde este punto de vista, los sistemas de categorizacin se pueden concebir como un continuum , en uno de cuyos extremos se encuentran los sistemas totalmente manuales (mejor dicho, intelectuales) y, en el otro, los sistemas completamente automticos. En el primer caso, un experto analiza el contenido, el contexto, y/o la estructura de un recurso y le asigna las categoras oportunas a partir de un lenguaje controlado (categorizacin por asignacin) o a partir del texto del propio recurso (categorizacin por extraccin). La categorizacin intelectual ofrece, como puntos fuertes, un alto nivel de exactitud en la descripcin de los recursos y la capacidad de incorporar el significado contextual en la descripcin. Adems, facilita la categorizacin de documentos no textuales (imgenes, aplicaciones, etc.); los puntos dbiles son la limitada escalabilidad, el elevado coste en recursos humanos, y la falta de consistencia y exhaustividad. Bennett (2002) presenta los siguientes datos relativos a los costes de la categorizacin manual de recursos en sitios web: Yahoo!

Dispone de una plantilla de 200 personas (aproximadamente) para la categorizacin de recursos.

Utiliza una jerarqua de unas 500.000 categoras.

MEDLINE (National Library of Medicine)

Invierte unos 2 millones de dlares al ao en la indizacin manual de artculos de revista.

Utiliza MEdical Subject Headings (18.000 categoras).

Mayo Clinic

Invierte 1's4 millones de dlares anuales para la codificacin de acontecimientos mdicos.

Utiliza la International Classification of Diseases (ICD).

US Census Bureau decennial census

Debera invertir 15 millones de dlares para elaborar las respuestas de forma completamente manual.

232 categoras relativas a la industria y 504 categoras relativas a ocupacin laboral. La categorizacin automtica se fundamenta en algoritmos que analizan estadsticamente las secuencias de palabras de los documentos, identifican patrones de comportamiento de las palabras a partir de variables como la colocacin, orden, proximidad, frecuencia, etc., y agrupan los documentos que presentan similitud en dicho comportamiento. El resultado son agrupaciones ("clusters") de recursos que muestran patrones de comportamiento similares, etiquetadas mediante la secuencia de palabras extradas de los propios recursos que mejor representan la similitud. Un sistema de agrupacin ha de ser capaz de realizar las siguientes tareas: analizar estadsticamente las secuencias de palabras de un recurso; computar el valor que representa numricamente el contenido del documento; y comparar los valores de dos (sub)documentos y determinar su grado de similitud.

En el momento actual, los algoritmos diseados para el anlisis de frecuencias, utilizan algunos de los siguientes mtodos de anlisis, o una combinacin de varios: mtodos probabilsticos (mtodo bayesiano, mtodo de Rocchio...); mtodos vectoriales (mtodo K-Nearest Neighbor, Support Vector Machines...); y rboles y listas de decisin. Como ejemplos de sistemas de categorizacin automtica, pueden citarse el mdulo Automatic Categorization de IDOL Server ( http://www.autonomy.com/content/Products/IDOL ), que se basa en el mtodo probabilstico bayesiano, y Lotus Discovery Server ( http://www.lotus.com ), que se basa en el mtodo vectorial [6] . Los puntos fuertes de la categorizacin automtica son la eficacia y rapidez de procesamiento, el alto nivel de escalabilidad y el alto nivel de consistencia; su gran punto dbil es el bajo nivel de exactitud que suele ofrecer, lo que motiva que a menudo estos sistemas sean utilizados como base para la toma de decisiones por parte de categorizadores humanos. Los sistemas de categorizacin semiautomtica o hbrida combinan la inteligencia humana, que puede identificar los diferentes niveles de significado existentes en los documentos, y la eficiencia de los automatismos. Se pueden identificar cuatro familias de sistemas semiautomticos de categorizacin.

Sistemas que analizan estadsticamente los recursos y presentan a los expertos humanos trminos recomendados de categorizacin para que stos los revisen y aprueben. Un ejemplo de este tipo de sistemas es Ultraseek Advanced Classifier ( http://www.verity.com/products/ultraseek/index.html ).

Sistemas de categorizacin basada en reglas de bsqueda. Permite vincular a cada una de las categoras de una taxonoma una ecuacin de bsqueda diseada por especialistas mediante opciones avanzadas (regla de bsqueda). Mediante un algoritmo, el sistema analiza los documentos y determina cul o cules son las ecuaciones con las que manifiesta mayor coincidencia. A continuacin, asigna el documento a la categora o categoras que tienen vinculadas dichas reglas de bsqueda. Son ejemplos de este tipo de sistemas K2 Enterprise [7] ( http://www.verity.com/products/k2_enterprise/index.html ) y Ultraseek Content Classification Engine ( http://www.verity.com/products/ultraseek/cce.html ), ambos de Verity.

Sistemas de categorizacin basada en conjuntos de documentos de entrenamiento o ejemplares. Permite vincular a cada una de las categoras de una taxonoma un nmero limitado de documentos seleccionados por especialistas que son considerados los ms relevantes. Mediante un algoritmo, el sistema analiza los nuevos documentos que deben ser categorizados y determina a qu documentos ejemplares se aproxima ms. A continuacin, asigna el documento a la categora o categoras de los ms relevantes. Un ejemplo de este tipo de sistemas es Mohomine Classifier ( http://www.kofax.com/products/mohomine/classifier.asp ), de Mohomine.

Sistemas de categorizacin basada en el anlisis lingstico. Un ejemplo de este tipo de sistemas es Smart Discovery [8] de InXight. Los puntos fuertes de los sistemas de categorizacin semiautomticos son un buen equilibrio entre eficiencia y exactitud; el hecho de que el proceso est guiado por el razonamiento humano; y la capacidad de acumular y generar aprendizaje. Entre los puntos dbiles, cabe destacar la exigencia de conocimientos, habilidades y esfuerzos de gestin y mantenimiento. En una encuesta realizada por Delphi Research [9] , los directivos de 300 grandes empresas de todo el mundo (el 60%, norteamericanas) dieron las siguientes respuestas a la pregunta sobre el tipo de estrategia de implementacin de la taxonoma: el 36%, hbrida; el 26%, automtica; el 23%, manual; el resto, o bien otras opciones o no dieron respuesta alguna. Tabla de contenido 1. Concepto de taxonoma 1. 2. Construccin de la taxonoma 2. 2.1. Automatizacin de los procesos de construccin de la taxonoma 3. 3. Categorizacin de recursos 4. 4. Aplicacin de la taxonoma en el desarrollo de sistemas de bsqueda de informacin

4. Aplicacin de la taxonoma en el desarrollo de sistemas de bsqueda de informacin


Como ya se ha indicado anteriormente, la diferenciacin de los procesos de creacin de la taxonoma, de categorizacin de recursos mediante las categoras de la taxonoma y de aplicacin de la taxonoma ofrece mltiples beneficios. El objetivo de la construccin de sta es representar una realidad (un rea de conocimiento, el mbito de actividad de una organizacin, etc.) de la forma ms adecuada a los propsitos e intereses de la entidad que debe explotar dicha representacin. Adems, debe constituir expresin de la imagen e intereses corporativos de la propia entidad. Las aplicaciones de la taxonoma en el contexto de los sitios web pueden ser diversas; si nos centramos al mbito de la arquitectura de la informacin, una misma taxonoma puede constituir una herramienta bsica o auxiliar para los diferentes sistemas de navegacin, de organizacin y bsqueda de contenidos, de etiquetado, y de personalizacin. La reutilizacin de una misma taxonoma para diferentes herramientas de arquitectura de informacin ofrece diferentes beneficios:

En primer lugar, permite la rentabilizacin del esfuerzo inicial de creacin de la taxonoma y de los esfuerzos subsiguientes de mantenimiento.

En segundo lugar, facilita la gestin de las funcionalidades que aplica la taxonoma: una modificacin en las categoras o en las relaciones entre categoras de la taxonoma puede trasladarse uniforme y consistentemente a todas las funcionalidades.

En tercer lugar, mejora el uso del sitio web en su conjunto ya que reduce considerablemente las exigencia de carga cognitiva, de memoria y de aprendizaje.

En cuarto lugar, facilita la interaccin con el sitio web y la creacin de una imagen consistente de la organizacin que crea y aplica la taxonoma. Existen diferentes opciones de presentacin de la taxonoma.

Presentacin ntegra de la taxonoma, con todas sus categoras y las relaciones que las interconectan (relacin de equivalencia, modelo estructural jerrquico o facetado, etc.).

Presentacin parcial de la taxonoma original, para destacar contenidos a partir de criterios temporales o de uso.

Reduccin de la taxonoma a la relacin de equivalencia, de forma que la taxonoma adopta la forma de anillo de sinnimos.

Reduccin de la taxonoma a la relacin jerrquica, para su utilizacin como sistema de exploracin de categoras. En este caso, suele comportar la reduccin de los niveles de amplitud y de profundidad para ajustar la taxonoma a las recomendaciones derivadas de las limitaciones de capacidad cognitiva, visual y de memoria del usuario estndar.

Presentaciones alternativas, como pueden ser la ordenacin alfabtica de las categoras, o las presentaciones arbrea, grfica y metafrica. La seleccin de una opcin depende de diversos factores; la funcionalidad para la que se aplica, los usuarios a los que se dirige, etc. Generalmente, la combinacin de diferentes presentaciones en una misma funcionalidad ofrece buenos resultados.

Una de las funcionalidades de los sitios web en los que la taxonoma juega un papel protagonista es la bsqueda de informacin. Los sistemas que permiten buscar contenidos en el entorno web pueden clasificarse en tres grandes tipos: de exploracin ("browsing"), de recuperacin ("searching") y de filtraje ("filtering"). Los sistemas de bsqueda por exploracin ofrecen a los usuarios una estructura organizada de categoras donde se incorporan los recursos de informacin, y un mecanismo de navegacin por dichas categoras para localizar los recursos relevantes para sus necesidades de informacin. Estos sistemas de exploracin son especialmente convenientes para situaciones de bsqueda en que los usuarios no pueden concretar excesivamente la necesidad de informacin (bsqueda exploratoria). El mecanismo de navegacin puede ser:

La estructura jerrquica o facetada original de la taxonoma, completa o reducida.

Una de las presentaciones alternativas que hemos indicado anteriormente: alfabtica, arbrea, grfica o metafrica.

La combinacin de dos o ms de estas presentaciones de forma que el usuario pueda seleccionar la que ms convenga a las condiciones de su necesidad de informacin. Los sistemas de recuperacin de informacin ofrecen a los usuarios la posibilidad de crear una ecuacin de bsqueda a partir de una palabra o una combinacin de palabras. Estos sistemas de exploracin son especialmente convenientes para situaciones de bsqueda en que los usuarios pueden concretar con suficiente detalle la necesidad de informacin (bsqueda de tem conocido). La taxonoma se incorpora al sistema de recuperacin para auxiliar al usuario en la identificacin de trminos relevantes para la creacin de la ecuacin de bsqueda, y tambin para mejorar los procesos de presentacin de resultados y reformulacin de la consulta. Los sistemas de exploracin y de recuperacin suponen la interaccin a tiempo real entre el usuario y el mecanismo de bsqueda. La tercera modalidad, los sistemas de filtraje, ofrece la posibilidad al usuario de crear y declarar una necesidad de informacin (perfil de usuario), y recibir una respuesta automtica cuando se cumple un plazo determinado o cuando el sistema identifica recursos relevantes para dicha necesidad. En este caso, la taxonoma permite al usuario seleccionar trminos relevantes para la concrecin de su perfil.

Vous aimerez peut-être aussi