Vous êtes sur la page 1sur 8

Taxonomas para la categorizacin y la organizacin de la informacin en sitios web

Miquel Centelles


1. Concepto de taxonoma
En el momento en que se publique este artculo, se habr producido un hecho que ha de marcar un antes y un despus en
la evolucin de las taxonomas como sistemas de organizacin de contenidos: la aparicin del borrador final de la
revisin de la norma ANSI/NISO Z39.19-1993, Guidelines for the construction, format, and management of
monolingual thesauri [1] . Esta revisin ha sido llevada a cabo entre 2002 y 2004 por el Thesaurus Advisory Group
(desde ahora, TAG), creado en el seno de la National Information Standards Organization, y que persigue la
introduccin de un lenguaje ms amigable en la norma, la actualizacin de su contenido al entorno actual de la
informacin digital, y la ampliacin de su alcance a la variada gama de organizaciones productoras y de contenidos.

No disponemos de un borrador de la norma revisada pero s de un sumario de su contenido y de las notas de las
reuniones llevadas a cabo por el TAG. A partir de estos documentos, se puede observar como una de las modificaciones
globales que se han propuesto es cambiar el ttulo de la norma " Guidelines for the construction, format, and
management of monolingual thesauri " por el de Construction, format and management of monolingual controlled
vocabularies . Los vocabularios controlados incluyen cuatro tipos principales: las listas, los anillos de sinnimos, las
taxonomas y los tesauros. La revisin de la norma ANSI/NISO Z39.19 se propone definir "normativamente" los cuatro
tipos, y establecer los elementos fundamentales de construccin y gestin de todos ellos. Concretamente, en la "TAG
Conference Call, June 30, 2003" (2003), se incluye las definiciones provisionales que reproducimos a continuacin:

- Lista: "A set of words or phrases displayed in an organized series."

- Anillo de sinnimos: "A set of words or phrases that are consireded to be equivalent for the purposes of
retrieval. Synonym rings are not used during input."

- Taxonoma: "An organized set of words or phrases used for organizing information and primarily intended for
browsing."

- Tesauro: "A controlled vocabulary that indicates preferred terms, variant terms, and term relationship. Usually
considered to be the most complex of controlled vocabularies." A partir de las modificaciones propuestas por el
TAG, la definicin definitiva es la siguiente: "A set of words or phrases with equivalent terms explicitly
identified and with ambiguous words or phrases (e.g. homographs) made unique. This set of terms also may
include broader-narrower or other relationships."

De acuerdo con esta definicin, la taxonoma no exige que sus componentes estn conectados mediante un tipo
especfico de relaciones; simplemente requiere que sus componentes estn organizados. Las caractersticas definitorias
son su finalidad "prioriza la exploracin ("browsing")" y, por lo tanto, su entorno de aplicacin "el entorno digital".

En cambio, en algunos documentos relativos al proceso de revisin de la norma ANSI/NISO Z39.19 la diferencia entre
los cuatro tipos de vocabularios controlados est determinada por la menor o mayor complejidad estructural que
presentan. En un extremo, las listas y los anillos de sinnimos se limitan a incorporar la relacin de equivalencia; en el
otro extremo, los tesaurus incorporan las relaciones de equivalencia, jerarqua y asociativa. En una posicin central, las
taxonomas incorporan las relaciones de equivalencia y de jerarqua.

En espera de que los trabajos del TAG aporte una definicin normativa del concepto de taxonoma, debemos destacar
que, en la actualidad, no disponemos de un concepto universalmente aceptado de dicho trmino.

Etimolgicamente hablando, taxonoma procede de los trminos griegos "taxis" , ordenacin, y "nomos", norma.
Aristteles fue uno de los primeros en utilizar este trmino, en el 300 antes de Cristo, para designar e squemas
jerrquicos orientados a la clasificacin de objetos cientficos. El botnico Carlos Linneo (1707-1778) design con el
trmino taxonoma a la clasificacin de los seres vivos en agrupaciones jerrquicamente ordenadas de ms genricas a
ms especficas (reino, clase, orden, gnero, y especies). A partir de esta concepcin clsica, se desarroll la taxonoma
como un subcampo de la biologa dedicado a la clasificacin de organismos de acuerdo con sus diferencias y
similitudes. De acuerdo con Grove (2003, p. 2774), los principios que proporcionaban una gua rigurosa para la
construccin de taxonomas eran la base lgica, la observacin emprica, la estructura jerrquica basada en la herencia
de propiedades, la historia evolutiva, y la utilidad pragmtica. Las fuentes terminolgicas de la lengua general todava
recogen el significado especialmente orientado al entorno de las ciencias experimentales, como demuestra el artculo
que incorpora la ltima edicin en papel del Diccionario de la lengua espaola (2001):

"1. f. Ciencia que trata de los principios, mtodos y fines de la clasificacin. Se aplica en particular, dentro de la
biologa, para la ordenacin jerarquizada y sistemtica, con sus nombres, de los grupos de animales y de vegetales.

2. f. clasificacin ( accin y efecto de clasificar)."

En su concepcin clsica, vinculada a las ciencias experimentales, la taxonoma aplica un criterio monojerrquico en el
establecimiento de los sistemas de clasificacin; es decir: cada una de las agrupaciones o clases que lo componen slo
puede ocupar un lugar, y slo uno, en la estructura jerrquica.

A principios de los aos 90 del siglo XX, el concepto de taxonoma se incorpora a otros mbitos del conocimiento,
como la psicologa, las ciencias sociales y la informtica, para designar casi todos los sistemas de acceso a la
informacin que intentan establecer coincidencias entre la terminologa del usuario y del sistema. Los primeros
especialistas que desarrollaron sistemas de organizacin de contenidos para la Web formaban parte del rea de
consultora en gestin del conocimiento, y procedan de mbitos prximos a la informtica y la ingeniera (gestin de
contenidos y arquitectura de la informacin); no conociendo la tradicin de los lenguaje documentales del mbito de la
Documentacin, asignaron el trmino taxonoma para los sistemas que desarrollaban. Este trmino se mantiene en uso
actualmente para designar los sistemas de organizacin de contenidos en el contexto de Internet, aunque la teora y la
prctica de los lenguajes documentales se ha venido aplicando de forma intensiva en este contexto.

Antes de proponer una definicin del trmino taxonoma, acorde con los mbitos de desarrollo actuales, hemos
realizado un trabajo de identificacin y confrontacin de los rasgos semnticos con que se define. Para ello, hemos
realizado una amplia bsqueda de definiciones en todos los mbitos de estudio, desarrollo y/o aplicacin del trmino
taxonoma. A priori, no hemos impuesto limitacin alguna al origen de las definiciones; nicamente hemos descartado
aqullas elaboradas a partir de una concepcin clsica del trmino. El resultado ha sido la localizacin de 36
definiciones publicadas en el perodo comprendido entre 2000 y 2005 en diferentes tipos de fuentes [2] :

- Diccionarios y enciclopedias especializadas.

- Artculos de consultores en gestin de contenidos y arquitectura de la informacin.

- Artculos de especialistas vinculados al mbito acadmico.

- Documentos tcnicos y comerciales de aplicaciones informticas para el desarrollo de taxonomas.

El anlisis de las definiciones muestra que stas inciden sobre cuatro variables: el lugar que ocupa la taxonoma en el
mbito de los sistemas de organizacin del conocimiento (en adelante, SOC); el contexto informativo en que se aplican
la taxonoma; las finalidades que persigue la taxonoma; y el modelo estructural con que se interrelacionan los
elementos que componen la taxonoma.

Entre las definiciones que hacen referencia al lugar que ocupa la taxonoma en el marco de los SOC (13 de 36), la
opinin mayoritariamente aceptada es considerarla como un tipo de vocabulario controlado (5 de 13) o, incluso, un tipo
especfico de tesauro o esquema de clasificacin (3 de 13). No faltan, sin embargo las opiniones que la consideran como
una categora amplia que incorpora modalidades especficas como los tesauros (4 de 13). En este caso, la taxonoma
puede ser definida como el proceso general de organizacin o clasificacin de contenidos:

"In the 1990s, taxonomy was redefined as any semantically significant, systematic organization of content or as the
process of developing such an organization." (Grove 2003, p. 2.770)

o incluso puede ser elevada al rango de ciencia:

"The science of categorization, or classification, of things based on a predetermined system. In reference to Web sites
and portals, a site'ss taxonomy is the way it organizes its data into categories and subcategories, sometimes displayed in
a site map." (Webopedia)

Ms de la mitad de las definiciones (21 de 36) restringen el mbito de aplicacin de las taxonomas; 14 de ellas, a
entornos digitales y, ms especficamente, al desarrollo de sitios web; 11 a entornos corporativos y, ms
especficamente, de empresas [3] . En cuatro casos convergen ambos criterios de restriccin del significado de
taxonoma; una buena muestra de esta corriente, es la definicin propuesta por Gilchrist, Kibby y Mahon (2000, p. 6),
que ha alcanzado un importante factor de impacto en la bibliografa especializada:

"- a correlation of the different functional languages used by the enterprise

- to support a mechanism for navigating, and gaining access to the intellectual capital of the enterprise
- by providing such tools as portal navigation aids, authority for tagging documents and other information objects,
support for search engines, and knowledge maps

- and possibly, a knowledge base in its own right."

El resto de las definiciones (15 de 36) no imponen restricciones al mbito de aplicacin de la taxonoma, es decir;
abarcan todos los soportes documentales, todas las reas de conocimiento y profesionales, etc.; y tanto los entornos
analgicos como digitales.

Las definiciones que vinculan las taxonomas al entorno digital destacan, como finalidades prioritarias, la mejora de la
navegacin y el desarrollo de sistemas de bsqueda basados en la exploracin ("browsing") y en la recuperacin
("searching"). Las definiciones que vinculan las taxonomas al entorno corporativo destacan el valor estratgico de las
taxonomas en reas como la gestin del capital intelectual y, en general, del conocimiento. Una muestra de una
definicin que otorga a la taxonoma una posicin estratgica en el desarrollo de sitios web corporativos es Taxonomy
strategies:

"Overall scheme for organizing content to solve a business problem such as improving search, browsing for content on
an enterprise-wide portal, enabling business users to syndicate content, and otherwise providing the basis for content re-
use."

Desde el punto de vista estructural, 23 de las 36 definiciones consideran que las taxonomas se caracterizan por la
aplicacin de la relacin jerrquica entre los elementos que organiza. En los casos en que la definicin de taxonoma se
orienta a su posicin en el marco de los vocabularios controlados (Fast, Leise y Steckel, 2003 y NISO/ANSI Z39.19) las
definiciones asignan a la taxonoma una posicin central determinada por la aplicacin de las relaciones de equivalencia
y de jerarqua. Las listas y anillos de sinnimos constituyen vocabularios controlados ms simples desde el punto de
vista estructural, ya que nicamente aplican la relacin de equivalencia; en el otro extremo, los tesauros constituyen el
mximo nivel de complejidad estructural, ya que a las relaciones de equivalencia y jerarqua incorporan la asociativa.
Slo una incorpora la relacin asociativa en la definicin del concepto:

"The basic idea behind taxonomy is to provide a controlled vocabulary for metadata attributes, and to specify
relationships between terms in the controlled vocabulary. The simplest relationships are broader, narrower, and related,
but relationships can be much more specific and complex."

Entre las 23 definiciones que privilegian la relacin jerrquica en el concepto de taxonoma, seis incluyen alguna
consideracin sobre la monojerarqua o la polijerarqua en relacin al concepto de taxonoma: dos declaran
explcitamente que la monojerarqua es la relacin ptima, y mantienen, por lo tanto, la perspectiva clsica de las
ciencias naturales; dos admiten los dos tipos de jerarqua como posibles; y dos manifiestan la preferencia por la
polijerarqua.

A partir de la documentacin elaborada por el TAG de la NISO, y a la luz de las propiedades mayoritariamente
aceptadas en la definiciones formuladas en los mbitos de estudio, desarrollo y/o aplicacin, proponemos la siguiente
definicin:

Una taxonoma es un tipo de vocabulario controlado en que todos los trminos estn conectados mediante algn modelo
estructural (jerrquico, arbreo, facetado...) y especialmente orientado a los sistemas de navegacin, organizacin y
bsqueda de contenidos de los sitios web.

Es preciso realizar tres puntualizaciones sobre el contenido de esta definicin:

- Los trminos (o categoras) representan algn aspecto del contenido, contexto o estructura de los recursos de
informacin, y no nicamente del contenido.

- Los modelos estructurales no suelen presentarse de forma pura; es posible (y, en el mundo real, habitual) que
una misma taxonoma presente estructuras resultantes de la mezcla de modelos.

- Los documentos que reflejan las discusiones en el seno del TAG revelan una falta de consenso en relacin a
las aplicaciones y usos preferentes de las taxonomas. Algunas notas de las reuniones de dicho grupo (por
ejemplo, "TAG Conference Call, may 19, 2003" (2003)), reflejan cmo inicialmente la concepcin de la
taxonoma se orient a la exploracin ("browsing") y a la navegacin en perjuicio de la recuperacin
("searching"); en la versin final de la definicin de taxonoma su aplicacin abarca tambin este ltimo
mecanismo.

- Excluimos del concepto de taxonoma las folksonomas o clasificaciones distribuidas (Mathes, 2004).

Una vez establecida una definicin de taxonoma, vamos a realizar un breve recorrido por los procesos de construccin
de taxonomas y su aplicacin en la categorizacin de recursos y el desarrollo de sistemas de bsqueda de informacin
de los sitios web. Ambos procesos deben estar precedidos por una planificacin estratgica que determine qu
caractersticas debe presentar la taxonoma a partir del anlisis del contexto "que identificar las prioridades de la
corporacin en la organizacin y presentacin de la informacin en el sitio web", de la audiencia "que identificar las
necesidades y comportamientos de bsqueda y uso de la informacin por parte de los diferentes segmentos de usuarios"
y del contenido "que identificar patrones de contenidos".
2. Construccin de la taxonoma
La construccin de las taxonomas corporativas supone la realizacin de cuatro procesos:

1. Delimitacin de la realidad (entidad, rea de conocimiento, sector industrial, etc.) que ser representada por la
taxonoma.

2. Extraccin del conjunto de trminos o categoras que representan dicha realidad.

Para llevar a cabo este proceso es necesario establecer, en primer lugar, cules son las fuentes prioritarias y los
mecanismos de extraccin idneos para cada una de ellas. Existen tres tipos: las fuentes personales, integradas por
usuarios del web y especialistas en el dominio del web; fuentes documentales, integradas por documentos
representativos de los tipos de contenidos identificados en la fase de planificacin estratgica; y las taxonomas o
instrumentos de representacin del conocimiento ya existentes (desde nomenclaturas de las unidades y recursos
existentes en una entidad a los cuadros de clasificacin de la documentacin administrativa).

Es necesario identificar los mecanismos de extraccin para cada una de las fuentes; as, en el caso de las fuentes
personales, resultan especialmente tiles las entrevistas con representantes de los usuarios del sitio web, y el anlisis de
los registros de transacciones de bsquedas y consultas.

El resultado de este proceso es un registro de trminos o categoras representativas.

3. Control terminolgico de los trminos o categoras.

Este proceso supone la realizacin de dos tareas. En primer lugar, se identifican los diferentes trminos que designan un
mismo concepto; en caso de que sean dos o ms es necesario determinar cul se considera preferente y cules se
consideran no preferentes. En segundo lugar, es necesario dar una forma correcta y consistente a todos los trminos de
la taxonoma, independientemente de si son preferentes o no preferentes.

El resultado de este proceso es el establecimiento de la relacin de equivalencia entre todos los trminos de la
taxonoma.

4. Establecimiento del esquema y la estructura de organizacin de los trminos o categoras

El esquema de organizacin incluye el criterio o criterios utilizados para dividir y agrupar las categoras . A priori, los
criterios son ilimitados y su idoneidad depende del objeto que deba representarse mediante la taxonoma. Ejemplos de
los criterios ms utilizados son: los temas, las materias y/o disciplinas; las personas; las entidades; los destinatarios; los
procesos, tareas y/o funciones; los tipos de documentos; etc.

El modelo estructural define el tipo de relacin que se establece entre las agrupaciones de categoras derivadas del
esquema de organizacin. La tendencia general ha sido aplicar los modelos jerrquico (basado en la relacin "tipo de")
y arbreo (basado en la relacin "parte de") y, de hecho, las normas internacionales y nacionales de construccin de
tesauros que se han aplicado a las taxonomas corporativas encumbran estos dos modelos estructurales. Un tercer
modelo, el facetado, constituye una buena alternativa para el entorno hipertextual, en que resulta clave la
descomposicin de las diferentes perspectivas desde las que se puede observar un mismo concepto o tem. De hecho,
este modelo se est utilizando cada vez ms para determinados tipos de sitio web No obstante, la documentacin de que
disponemos sobre la revisin de la Norma ANSI/NISO Z39.19 no parece que vaya a incorporar esta alternativa.

Tradicionalmente, se han distinguido dos tcnicas para el desarrollo de la estructura de la taxonoma: la tcnica de arriba
a abajo ("up to down") y la tcnica de abajo a arriba ("down to up").

- La aplicacin de la tcnica de arriba a abajo supone la identificacin inicial de un nmero limitado de
categoras superiores, y la agrupacin del resto de categoras en niveles sucesivos de subordinacin hasta
alcanzar los niveles de categoras ms especficas. Esta tcnica puede orientarse tanto a la aplicacin de un
modelo estructural jerrquico (y/o arbreo) como facetado. La posibilidad de ejercer un control previo sobre
las categoras principales hace que esta tcnica se aplique a la construccin de taxonomas que tienen, como
finalidad exclusiva o prioritaria, el desarrollo de sistemas de exploracin ("browsing") y/o navegacin.

- La aplicacin de la tcnica de abajo a arriba se basa en la identificacin inicial de las categoras ms
especficas, que van agrupndose en niveles sucesivos de superordinacin hasta alcanzar el nivel de categoras
superiores. Generalmente, esta tcnica se ha orientado, fundamentalmente, a la aplicacin de un modelo
estructural jerrquico (y/o arbreo), aunque, como en el caso anterior, puede facilitar el anlisis para la toma de
una decisin sobre el modelo estructural que resulta idneo aplicar. En cualquier caso, es la tcnica que se ha
aplicado al desarrollo de mtodos de intervencin de representantes de los usuarios reales y potenciales en el
establecimiento de la estructura de las taxonomas (por ejemplo, el mtodo de la ordenacin de fichas o "card
sorting").
2.1. Automatizacin de los procesos de construccin de la taxonoma
Un factor crtico en la construccin de la taxonoma es el grado de automatizacin que se aplica a los procesos
anteriormente indicados. El grado de automatizacin puede contemplarse como un continuum : en un extremo se sitan
los sistemas manuales (o intelectuales), y, en el otro, los automticos. En un punto central, se sitan los sistemas
semiautomticos.

Cabe destacar que en el momento actual difcilmente se aplican sistemas completamente manuales para la creacin de
taxonomas.

En el nivel mnimo de automatizacin encontramos dos tipos de soluciones: las taxonomas preelaboradas ("taxonomy
templates"), especializadas en un sector industrial determinado, que deben ser adaptadas a las condiciones especficas de
una organizacin determinada [4] , y las herramientas de edicin de taxonomas. Este segundo tipo de soluciones
ofrecen a los administradores de la taxonoma un depsito para la gestin de trminos, un entorno amigable para el
establecimiento de relaciones entre los trminos, y diferentes modalidades de presentacin y visualizacin de los
resultados. Muchas de estas aplicaciones ya existan como administradores de tesauros, y no han incorporado excesivas
innovaciones para su nuevo cometido en el contexto de las taxonomas. Como ejemplos de estas modalidades podemos
citar los productos Multites 2005 ( http://www.multites.com ) o Term Tree ( http://www.termtree.com.au ).

En el nivel mximo de automatizacin, encontramos programas que analizan el corpus de recursos digitales de un sitio
web, y extraen categoras mejor dicho, agrupaciones de recursos ("clusters") mediante la aplicacin de anlisis
estadstico y/o procesamiento lingstico. Generalmente, el proceso de construccin de la taxonoma y de categorizacin
de los recursos es simultneo; incluso en algunos casos, el resultado es directamente editable como sistema de
exploracin ("browsing"). Una opcin extrema de esta modalidad de automatizacin es la que da lugar a las
denominadas taxonomas dinmicas: agrupaciones de recursos resultantes de una consulta a un buscador que suele
responder ms a anlisis estadstico de frecuencias que al procesamiento lingstico. En los sistemas automticos, las
posibilidades de establecer relaciones de equivalencia y de jerarqua entre las categoras son bastante limitadas; el
resultado suele ser una taxonoma plana, ms prxima a un sistema de agrupacin de recursos ("clustering") que de
clasificacin propiamente dicho. Un ejemplo de este tipo de soluciones es el mdulo Automatic Taxonomy Generation
de IDOL Server ( http://www.autonomy.com/content/Products/IDOL ).

Las soluciones completamente automticas no han ofrecido, hasta el momento actual, resultados satisfactorios en lo que
respecta a la construccin de taxonomas. En consecuencia, se estn desarrollando alternativas semiautomticas que,
como Ultraseek Topic Advisor ( http://www.verity.com/products/ultraseek/index.html ) asiste con el proceso de
creacin y mantenimiento de la taxonoma a la vez que proporciona una interfaz para la revisin y aprobacin de
categoras. Dichos sistemas incluyen un algoritmo de base estadstica que analiza un corpus de recursos y sugiere
trminos y relaciones entre trminos al administrador del sistema para que ste los acepte o deniegue. Todo ello en un
entorno amigable de trabajo.



3. Categorizacin de recursos
La categorizacin puede ser definida como el proceso de representacin del contenido, contexto y/o estructura de
recursos de informacin mediante la asignacin de trminos procedentes de un lenguaje documental -categorizacin por
asignacin- o mediante la extraccin de trminos de los propios recursos -categorizacin por extraccin-.

El modelo de categorizacin ms eficaz que existe en la actualidad es el que se basa en los metadatos. Siguiendo a
Mndez y Senso (2004), podemos definir los metadatos como:

" toda aquella informacin descriptiva sobre el contexto, calidad, condicin o caractersticas de un recurso, dato u
objeto que tiene la finalidad de facilitar su recuperacin, autentificacin, evaluacin, preservacin y/o interoperabilidad
".

Existen diferentes modelos de metadatos. Los elementos que permiten establecer diferencias entre estos modelos son,
bsicamente, dos:

- Qu aspectos de los recursos que representan (los elementos).

- Cmo se representan dichos elementos (la sintaxis).

Por ejemplo, Dublin Core, uno de los modelos ms utilizados para la descripcin de todos los tipos de recursos de
informacin, incluye, en su formato ms sencillo ("nivel simple"), quince elementos [5] : Ttulo, Autor o Creador,
Claves, Descripcin, Editor, Otros colaboradores, Fecha, Tipo de recurso, Formato, Identificador del recurso, Fuente,
Lengua, Relacin, Cobertura y Derechos. La sintaxis de cada elemento suele incorporar tres componentes:

- La identificacin del elemento. Por ejemplo, en Dublin Core, el elemento Palabras clave se identifica
mediante la metaetiqueta DC.Subject.

- Un o ms calificadores que especifican algn atributo especfico del elemento. Por ejemplo, un calificador de
la metaetiqueta DC.Subject puede ser SCHEME, que identifica el nombre del vocabulario controlado aplicado
para la categorizacin del elemento.

- El valor o valores del elemento asignados al recurso que se describe. Por ejemplo, los trminos extrados del
lenguaje controlado utilizado para la categorizacin del elemento.

En una pgina web codificada mediante el metalenguaje HTML, la sintaxis del elemento Claves presentara el siguiente
aspecto:

<META NAME="DC.Subject" SCHEME="TAGS" CONTENT="Herencia cultural; Acontecimientos culturales;
Exposiciones; Gestin de documentacin administrativa; Internet; Archivos; Gestin de la informacin">

En el modelo de categorizacin basado en metadatos, la taxonoma constituye un tipo de vocabulario controlado muy
til para la extraccin de los valores -los trminos- que se asignarn a los elementos que describen los recursos de
informacin. Tal y como hemos indicado anteriormente, la aplicacin de taxonomas no tiene que limitarse a los
elementos que expresan el contenido de los recursos, y, ms exactamente, a la materia, tema o disciplina. Los elementos
relativos al contexto y a la estructura de los recursos tambin pueden ser expresados mediante categoras extradas de
una taxonoma.

La utilizacin de taxonomas en la categorizacin de recursos de informacin ofrece los puntos fuertes generales de los
lenguajes controlados, como son: el tratamiento de los aspectos semnticos y sintcticos del lenguaje; la representacin
de conceptos implcitos; la creacin de una visin global de los dominios que son objeto de representacin; la
exhaustividad en la indizacin; y la solucin de los problemas que conllevan los contextos multilinges. Desde el punto
de vista de la gestin de sitios web, la utilizacin de taxonomas en la categorizacin de los recursos ofrece dos
importantes beneficios adicionales:

- Por un lado, rentabiliza los esfuerzos de construccin y mantenimiento de la taxonoma y de categorizacin de
recursos; ya que una misma herramienta puede ser reutilizada en el desarrollo de diferentes aplicaciones de
bsqueda, navegacin, personalizacin, etc.

- Por otro lado, permite mantener la consistencia conceptual y designativa en la representacin de los elementos
de un mismo dominio, lo cual crea en los usuarios una imagen de consistencia en el conjunto del sitio web, y en
la entidad que lo crea y lo mantiene.

El modelo de categorizacin aplicado por una organizacin determinada debe dar respuesta a cuatro cuestiones
fundamentales: qu recursos de informacin sern categorizados?, con qu finalidad?, quin los categorizar?,
cmo lo har?

La dos ltimas cuestiones estn profundamente relacionadas con el grado de automatizacin aplicado a la asignacin de
valores a los metadatos. Desde este punto de vista, los sistemas de categorizacin se pueden concebir como un
continuum , en uno de cuyos extremos se encuentran los sistemas totalmente manuales (mejor dicho, intelectuales) y, en
el otro, los sistemas completamente automticos.

En el primer caso, un experto analiza el contenido, el contexto, y/o la estructura de un recurso y le asigna las categoras
oportunas a partir de un lenguaje controlado (categorizacin por asignacin) o a partir del texto del propio recurso
(categorizacin por extraccin). La categorizacin intelectual ofrece, como puntos fuertes, un alto nivel de exactitud en
la descripcin de los recursos y la capacidad de incorporar el significado contextual en la descripcin. Adems, facilita
la categorizacin de documentos no textuales (imgenes, aplicaciones, etc.); los puntos dbiles son la limitada
escalabilidad, el elevado coste en recursos humanos, y la falta de consistencia y exhaustividad.
Bennett (2002) presenta los siguientes datos relativos a los costes de la categorizacin manual de recursos en sitios web:
Yahoo!
- Dispone de una plantilla de 200 personas (aproximadamente) para la categorizacin de recursos.

- Utiliza una jerarqua de unas 500.000 categoras.

MEDLINE (National Library of Medicine)

- Invierte unos 2 millones de dlares al ao en la indizacin manual de artculos de revista.

- Utiliza MEdical Subject Headings (18.000 categoras).

- Mayo Clinic

- Invierte 1's4 millones de dlares anuales para la codificacin de acontecimientos mdicos.

- Utiliza la International Classification of Diseases (ICD).

- US Census Bureau decennial census

- Debera invertir 15 millones de dlares para elaborar las respuestas de forma completamente manual.

- 232 categoras relativas a la industria y 504 categoras relativas a ocupacin laboral.
La categorizacin automtica se fundamenta en algoritmos que analizan estadsticamente las secuencias de palabras de
los documentos, identifican patrones de comportamiento de las palabras a partir de variables como la colocacin, orden,
proximidad, frecuencia, etc., y agrupan los documentos que presentan similitud en dicho comportamiento. El resultado
son agrupaciones ("clusters") de recursos que muestran patrones de comportamiento similares, etiquetadas mediante la
secuencia de palabras extradas de los propios recursos que mejor representan la similitud.

Un sistema de agrupacin ha de ser capaz de realizar las siguientes tareas: analizar estadsticamente las secuencias de
palabras de un recurso; computar el valor que representa numricamente el contenido del documento; y comparar los
valores de dos (sub)documentos y determinar su grado de similitud.

En el momento actual, los algoritmos diseados para el anlisis de frecuencias, utilizan algunos de los siguientes
mtodos de anlisis, o una combinacin de varios: mtodos probabilsticos (mtodo bayesiano, mtodo de Rocchio...);
mtodos vectoriales (mtodo K-Nearest Neighbor, Support Vector Machines...); y rboles y listas de decisin.

Como ejemplos de sistemas de categorizacin automtica, pueden citarse el mdulo Automatic Categorization de IDOL
Server ( http://www.autonomy.com/content/Products/IDOL ), que se basa en el mtodo probabilstico bayesiano, y
Lotus Discovery Server ( http://www.lotus.com ), que se basa en el mtodo vectorial [6] .

Los puntos fuertes de la categorizacin automtica son la eficacia y rapidez de procesamiento, el alto nivel de
escalabilidad y el alto nivel de consistencia; su gran punto dbil es el bajo nivel de exactitud que suele ofrecer, lo que
motiva que a menudo estos sistemas sean utilizados como base para la toma de decisiones por parte de categorizadores
humanos.

Los sistemas de categorizacin semiautomtica o hbrida combinan la inteligencia humana, que puede identificar los
diferentes niveles de significado existentes en los documentos, y la eficiencia de los automatismos. Se pueden identificar
cuatro familias de sistemas semiautomticos de categorizacin.

- Sistemas que analizan estadsticamente los recursos y presentan a los expertos humanos trminos
recomendados de categorizacin para que stos los revisen y aprueben. Un ejemplo de este tipo de sistemas es
Ultraseek Advanced Classifier ( http://www.verity.com/products/ultraseek/index.html ).

- Sistemas de categorizacin basada en reglas de bsqueda. Permite vincular a cada una de las categoras de
una taxonoma una ecuacin de bsqueda diseada por especialistas mediante opciones avanzadas (regla de
bsqueda). Mediante un algoritmo, el sistema analiza los documentos y determina cul o cules son las
ecuaciones con las que manifiesta mayor coincidencia. A continuacin, asigna el documento a la categora o
categoras que tienen vinculadas dichas reglas de bsqueda. Son ejemplos de este tipo de sistemas K2
Enterprise [7] ( http://www.verity.com/products/k2_enterprise/index.html ) y Ultraseek Content Classification
Engine ( http://www.verity.com/products/ultraseek/cce.html ), ambos de Verity.

- Sistemas de categorizacin basada en conjuntos de documentos de entrenamiento o ejemplares. Permite
vincular a cada una de las categoras de una taxonoma un nmero limitado de documentos seleccionados por
especialistas que son considerados los ms relevantes. Mediante un algoritmo, el sistema analiza los nuevos
documentos que deben ser categorizados y determina a qu documentos ejemplares se aproxima ms. A
continuacin, asigna el documento a la categora o categoras de los ms relevantes. Un ejemplo de este tipo de
sistemas es Mohomine Classifier ( http://www.kofax.com/products/mohomine/classifier.asp ), de Mohomine.

- Sistemas de categorizacin basada en el anlisis lingstico. Un ejemplo de este tipo de sistemas es Smart
Discovery [8] de InXight.

Los puntos fuertes de los sistemas de categorizacin semiautomticos son un buen equilibrio entre eficiencia y
exactitud; el hecho de que el proceso est guiado por el razonamiento humano; y la capacidad de acumular y generar
aprendizaje. Entre los puntos dbiles, cabe destacar la exigencia de conocimientos, habilidades y esfuerzos de gestin y
mantenimiento.

En una encuesta realizada por Delphi Research [9] , los directivos de 300 grandes empresas de todo el mundo (el 60%,
norteamericanas) dieron las siguientes respuestas a la pregunta sobre el tipo de estrategia de implementacin de la
taxonoma: el 36%, hbrida; el 26%, automtica; el 23%, manual; el resto, o bien otras opciones o no dieron respuesta
alguna.



4. Aplicacin de la taxonoma en el desarrollo de sistemas de bsqueda de
informacin
Como ya se ha indicado anteriormente, la diferenciacin de los procesos de creacin de la taxonoma, de categorizacin
de recursos mediante las categoras de la taxonoma y de aplicacin de la taxonoma ofrece mltiples beneficios. El
objetivo de la construccin de sta es representar una realidad (un rea de conocimiento, el mbito de actividad de una
organizacin, etc.) de la forma ms adecuada a los propsitos e intereses de la entidad que debe explotar dicha
representacin. Adems, debe constituir expresin de la imagen e intereses corporativos de la propia entidad.
Las aplicaciones de la taxonoma en el contexto de los sitios web pueden ser diversas; si nos centramos al mbito
de la arquitectura de la informacin, una misma taxonoma puede constituir una herramienta bsica o auxiliar para
los diferentes sistemas de navegacin, de organizacin y bsqueda de contenidos, de etiquetado, y de
personalizacin. La reutilizacin de una misma taxonoma para diferentes herramientas de arquitectura de
informacin ofrece diferentes beneficios:

- En primer lugar, permite la rentabilizacin del esfuerzo inicial de creacin de la taxonoma y de los
esfuerzos subsiguientes de mantenimiento.

- En segundo lugar, facilita la gestin de las funcionalidades que aplica la taxonoma: una modificacin
en las categoras o en las relaciones entre categoras de la taxonoma puede trasladarse uniforme y
consistentemente a todas las funcionalidades.

- En tercer lugar, mejora el uso del sitio web en su conjunto ya que reduce considerablemente las
exigencia de carga cognitiva, de memoria y de aprendizaje.

- En cuarto lugar, facilita la interaccin con el sitio web y la creacin de una imagen consistente de la
organizacin que crea y aplica la taxonoma.

Existen diferentes opciones de presentacin de la
taxonoma.

- Presentacin ntegra de la taxonoma, con todas sus categoras y las relaciones que las interconectan
(relacin de equivalencia, modelo estructural jerrquico o facetado, etc.).

- Presentacin parcial de la taxonoma original, para destacar contenidos a partir de criterios
temporales o de uso.

- Reduccin de la taxonoma a la relacin de equivalencia, de forma que la taxonoma adopta la forma de
anillo de sinnimos.

- Reduccin de la taxonoma a la relacin jerrquica, para su utilizacin como sistema de exploracin de
categoras. En este caso, suele comportar la reduccin de los niveles de amplitud y de profundidad para
ajustar la taxonoma a las recomendaciones derivadas de las limitaciones de capacidad cognitiva, visual
y de memoria del usuario estndar.

- Presentaciones alternativas, como pueden ser la ordenacin alfabtica de las categoras, o las
presentaciones arbrea, grfica y metafrica.

La seleccin de una opcin depende de diversos factores; la funcionalidad para la que se aplica, los usuarios a los
que se dirige, etc. Generalmente, la combinacin de diferentes presentaciones en una misma funcionalidad ofrece
buenos resultados.

Una de las funcionalidades de los sitios web en los que la taxonoma juega un papel protagonista es la bsqueda
de informacin. Los sistemas que permiten buscar contenidos en el entorno web pueden clasificarse en tres
grandes tipos: de exploracin ("browsing"), de recuperacin ("searching") y de filtraje ("filtering").

Los sistemas de bsqueda por exploracin ofrecen a los usuarios una estructura organizada de categoras donde se
incorporan los recursos de informacin, y un mecanismo de navegacin por dichas categoras para localizar los
recursos relevantes para sus necesidades de informacin. Estos sistemas de exploracin son especialmente
convenientes para situaciones de bsqueda en que los usuarios no pueden concretar excesivamente la necesidad
de informacin (bsqueda exploratoria). El mecanismo de navegacin puede ser:

- La estructura jerrquica o facetada original de la taxonoma, completa o
reducida.

- Una de las presentaciones alternativas que hemos indicado anteriormente: alfabtica, arbrea,
grfica o metafrica.

- La combinacin de dos o ms de estas presentaciones de forma que el usuario pueda seleccionar la
que ms convenga a las condiciones de su necesidad de informacin.

Los sistemas de recuperacin de informacin ofrecen a los usuarios la posibilidad de crear una ecuacin de
bsqueda a partir de una palabra o una combinacin de palabras. Estos sistemas de exploracin son
especialmente convenientes para situaciones de bsqueda en que los usuarios pueden concretar con suficiente
detalle la necesidad de informacin (bsqueda de tem conocido). La taxonoma se incorpora al sistema de
recuperacin para auxiliar al usuario en la identificacin de trminos relevantes para la creacin de la ecuacin
de bsqueda, y tambin para mejorar los procesos de presentacin de resultados y reformulacin de la consulta.
Los sistemas de exploracin y de recuperacin suponen la interaccin a tiempo real entre el usuario y el
mecanismo de bsqueda.

La tercera modalidad, los sistemas de filtraje, ofrece la posibilidad al usuario de crear y declarar una necesidad
de informacin (perfil de usuario), y recibir una respuesta automtica cuando se cumple un plazo determinado o
cuando el sistema identifica recursos relevantes para dicha necesidad. En este caso, la taxonoma permite al
usuario seleccionar trminos relevantes para la concrecin de su perfil.

Vous aimerez peut-être aussi