Vous êtes sur la page 1sur 7

THESAURUS. CONCEPTO.

ELABORACIN

1. Concepto
La palabra thesaurus proviene del latn tesoro y aparece ya en el Shoter Oxford
Dictionary, en 1736, significando un tesoro, o almacn de conocimientos, por ejemplo, un
diccionario, un enciclopedia y otras obras semejantes. Aunque, como lista de palabras
clasificadas no la encontramos hasta que sale a la luz, en 1852, la obra de P.M. Roget,
Rogets Thesaurus. Es en los aos cincuenta y sesenta del pasado siglo XX, cuando se
desarrolla como instrumento de indizacin. Hoy, un thesaurus es un elemento fundamental
en la cadena documental, que asegura la comunicacin entre usuaria/o y documento.
Segn Chaumier, podemos definir thesaurus como un diccionario de palabras o
expresiones del lenguaje natural que han sido normalizadas. Est organizado de forma
conceptual y sus trminos se presentan agrupados por afinidades semnticas,
completndose con indicadores de relacin. En l figuran tanto los trminos aceptados
-descriptores- como los nos aceptados.
Atendiendo a la Norma ISO 2788-1986, recogida en los Principies directeurs pour l
establisement et le developpemt de thesaurus monolinges, un tesauro puede definirse
segn su funcin y segn su estructura:
- Desde el punto de vista de su funcin, un tesauro es un instrumento de control de
la terminologa, utilizado para pasar a un lenguaje ms estricto y sin ambigedad
los trminos del lenguaje natural empleados en los documentos, y por los
indicadores y usuaria/os. Es decir, para normalizar
- Desde el punto de vista de su estructura, el tesauro es un vocabulario controlado y
dinmico de trminos, que tienen entre s relaciones semnticas y genricas y que
se aplican a un dominio particular del conocimiento. Es decir, para representar los
conceptos de todos los documentos de una base documental.
2. Elementos de un thesaurus
Siendo el tesauro un diccionario de trminos unidos por sus relaciones, podemos ver
cmo dentro de l hay una serie de elementos que se pueden dividir en dos grupos: por un
lado las unidades lxicas, y por otro las relaciones semnticas entre esas unidades.
Unidades lxicas
Los elementos morfolgicos llamados unidades lxicas o entradas del tesauro
pueden agruparse de la siguiente forma: descriptores, trminos equivalentes -no
descriptores-, infraconceptos, y palabras herramienta.
a) Los descriptores. Tambin llamados a veces palabras-clave, son trminos carentes de
ambigedad, que estn autorizados con exclusin de cualquier otro para la indizacin de los

1
Ignacio C. Soriano Jimnez, 2004
documentos y de las demandas al sistema documental, y sirven para expresar los conceptos
o nociones de unos y otros. Un descriptor puede estar formado por una sola palabra o por
una expresin -sintagma-, pero un concepto est siempre designado por un solo descriptor.
De este modo la polisemia y sinonimia quedan descartadas.
En el segundo caso, cuando est formado por una expresin, la divisin del
descriptor en varios trminos puede ser morfolgica o semntica. Morfolgica sera el
caso, por ejemplo, de rentabilidad de las inversiones y esto estara representado por los
descriptores rentabilidad + inversin. O puede tratarse de un concepto de divisin
semntica, como puede ser el concepto desalinizacin, que le corresponde como
descripcin eliminacin + sal.
Los descriptores son trminos normalizados, y las reglas para describirlos son:
- forma sustantiva
- gnero masculino cuando son posibles o admitidos los dos gneros
- nmero singular salvo en dos casos: cuando es un trmino que, comnmente, se
utilice en plural, o cuando no signifique lo mismo el plural que el singular. Por
ejemplo: vspera (da anterior) y vsperas (oracin de la tarde)
- utilizar la forma desarrollada, aunque se puede utilizar las siglas que forman ya
trminos conocidos, por ejemplo radar
- se utilizar la secuencia normal de los trminos de una expresin, por ejemplo:
tasa de ocupacin del suelo, y no suelo, tasa de ocupacin
- se utilizar la grafa ms frecuente, y la palabra o expresin ms frecuentemente
utilizada, por ejemplo: ordenador, y no calculador electrnico
Un problema importante que se plantea a nivel de lxico en los tesauros es el de la
polisemia. Frecuentemente, el trmino puede designar varios conceptos. En este caso,
conviene eliminar la ambigedad adoptando dos descriptores. La polisemia se puede
eliminar:
- adjuntando un calificador, tambin denominado notas de alcance, que pueden
ser explicativas, aplicativas, histricas. Por ejemplo: resistencia (elctrica)
- por el contexto. Por ejemplo: seno TR coseno, tangente. La relacin entre los
trminos se expresa mediante TR (trmino relacionado)
- por la transformacin del trmino en sintagma. Por ejemplo: resistencia
elctrica, en lugar de resistencia (electricidad)
- empleando un sinnimo que reemplace al trmino polismico.
El segundo problema que se plantea, adems de la polisemia, es la sinonimia, que se
soluciona a travs de las relaciones de equivalencia.
b) Trminos equivalentes. Los trminos equivalentes o sinnimos (remiten siempre a un
descriptor) son aquellos cuya presencia se utiliza en el tesauro para ampliar las
posibilidades de informacin, pero que no pueden utilizarse cuando se procede a la
indizacin. Por ejemplo: Cartas u.p. epistolarios; en Epistolarios pone v. Cartas. Los
trminos equivalentes siempre remiten a un descriptor y pueden ser de dos tipos: sinnimos
lingsticos o sinnimos documentales.

2
Ignacio C. Soriano Jimnez, 2004
Los sinnimos lingsticos son trminos que tienen una traduccin directa mediante
un descriptor, y que expresan exactamente la misma nocin que el descriptor elegido. As
pues, dos o ms trminos que expresen un mismo concepto son traducidos por un nico
descriptor. Por ejemplo: avenida, bulevar, el descriptor ser: avenida u.p. bulevar, en
bulevar: use Avenida.
Adems de los sinnimos lingsticos, tambin son trminos equivalentes los
sinnimos documentales. La nocin de sinonimia se soluciona en otro sentido, reagrupando
bajo un nico descriptor varios trminos considerados como vecinos o prximos, aunque de
significacin semntica distinta. Son trminos considerados equivalentes en la indizacin,
cuyo significado es diferente en el uso comn. Se denominan tambin cuasisinnimos. Por
ejemplo: pual, espada, sable, que tienen una significacin similar se agrupan bajo
un nico descriptor como arma blanca.
c) Infraconceptos. Adems de descriptores y trminos equivalentes, tambin son
entradas del tesauro los infraconceptos. Son elementos lxicos que no tienen ningn sentido
propio y que se pueden adherir a ciertos descriptores para constituir descriptores nuevos.
Por ejemplo: infra, multi, mini... Los infraconceptos han sido utilizados en ciertos
tesauros para reducir el volumen del vocabulario, acrecentando las posibilidades de
postcoordinacin. Por ejemplo: alta tensin sera el equivalente a maxi + tensin o
hiper + tensin. No obstante sus posibilidades, normalmente se desaconseja el empleo de
los infraconceptos porque complica enormemente el manejo del tesauro.
d) Palabras herramienta. La ltima entrada de un tesauro son las palabras herramienta.
Son descriptores que no tienen significado exacto si se emplean solos. Son trminos no
discriminantes que deben ser utilizados al menos con un descriptor. Por ejemplo: mtodo
o evolucin.
Relaciones del tesauro
Por principio, una de las funciones principales de un tesauro es representar
las relaciones entre los conceptos. Todas ellas son recprocas, es decir, cuando dos o ms
descriptores se relacionan entre s, la relacin se da en todos y cada uno de ellos. Dentro de
las relaciones se pueden distinguir varias categoras: de equivalencia, jerrquicas,
asociativas y de definicin.
a) Relaciones de equivalencia. Tambin llamadas relaciones de sustitucin, remiten
sinnimos o cuasisinnimos al descriptor. Estas relaciones pueden ofrecer varias
posibilidades, por un lado traducir trminos equivalentes a descriptores, o tambin pueden
dar posibilidad de conocer el conjunto semntico que puede abarcar un determinado
descriptor. Se trata de relaciones de preferencia en el caso del trmino no elegido al elegido,
con el vocablo use, y del trmino preferido al no preferido, con use por.
b) Relaciones jerrquicas. Expresan la condicin de superioridad o subordinacin entre
los conceptos. Se basan en niveles de superioridad o subordinacin donde el trmino
superior constituye una clase o un todo, y los subordinados se refieren a sus miembros o
partes. La reciprocidad se expresa mediante los siguientes operadores:
- TG trmino genrico, en ingls BT
- TE trmino especfico, en ingls NT

3
Ignacio C. Soriano Jimnez, 2004
AENOR dice que se trata de una relacin entre dos descriptores y slo entre
descriptores (no entre sinnimos y cuasisinnimos), por lo cual no se subordina a otro.
Estas relaciones de jerarqua segn la norma ISO 2788 pueden ser, a su vez, genricas,
partitivas, de ejemplo o polijerrquicas:
- las relaciones genricas, llamadas tambin de gnero o especie son las que
permiten organizar alrededor de un descriptor la clase de la cual ste forma
parte. Esta organizacin se hace a travs de trminos genricos y trminos
especficos. As, por ejemplo: el concepto asiento le corresponde un TG
mueble, y un TE que puede ser silln.
- las relaciones partitivas, tambin llamadas todo-parte, son menos utilizadas que
las anteriores y, a menudo, confundidas dentro de ellas. Se utilizan para dividir
una entidad o concepto en sus partes y los indicadores que se usan son: TGP,
trmino genrico partitivo, en ingls BTP; y TEP trmino especfico partitivo, en
ingls NTP. Se usan, por ejemplo, en casos de geografa de Espaa y provincias.
- las relaciones de ejemplo hacen una aclaracin al lado del concepto.
- las relaciones polijerrquicas remiten al descriptor superior y a los inferiores.
c) Relaciones asociativas. Son aquellas que sirven para indicar las analogas que
pueden existir entre dos descriptores o trminos asociados. As podemos tener relaciones
del tipo:
- TR trmino relacionado, en ingls RT
- TA trmino asociado.
d) Relaciones de definicin. Son las que introducen la nota de uso o nota de aplicacin.
Las siglas son: NA (nota de aplicacin), en ingls SN (scape note). Estas relaciones se
usan para limitar el empleo de un descriptor, para explicar una abreviatura o para excluir el
sentido posible de un trmino ambiguo. Por ejemplo: fichero (slo se utiliza para los
ficheros de soporte magntico).
Elaboracin del tesauro
La normativa vigente en Espaa, nos ofrece dos normas bsicas: ISO 2788-1986
establece las Directrices para el establecimiento y desarrollo de tesauros monolinges; y su
versin espaola en UNE 50-106, de 1990. Como expresa el ttulo, son indicaciones y no
instrucciones de obligado cumplimiento.
La elaboracin de un tesauro consiste, en primer lugar, en comprobar la existencia
de otros tesauros especializados en el mismo campo. De no ser as, se comenzara por
delimitar el campo temtico estableciendo los lmites y prescindiendo de ramificaciones. En
principio, se trata de un trabajo en equipo relacionado con una actividad intelectual en la
que el ordenador slo aporta ayuda en la manipulacin del vocabulario. El volumen del
tesauro depender del nmero de campos a cubrir, del nmero de documentos que hay que
analizar, y de la profundidad de la indizacin.
Una vez definido el campo a cubrir y determinado el volumen, las fases de
elaboracin del tesauro son: compilacin del vocabulario, normalizacin, reduccin,
pruebas, estructuracin de los trminos y edicin.

4
Ignacio C. Soriano Jimnez, 2004
a) La compilacin del vocabulario en lenguaje natural dentro de los dominios que
cubrir el tesauro. Es decir, registras las palabras o frases significativas de la(s)
disciplina(s), utilizando otros tesauros o clasificaciones, listas de palabras clave,
especialistas en documentacin, etc. Nos encontramos con dos tcnicas bsicas para
elaborar las listas de trminos: la que lo hace a medida que se va realizando la indizacin de
los documentos; la que lo realiza con anterioridad.
El conjunto de dominios a cubrir se subdivide en una serie de microdisciplinas, en la
que suelen situarse a razn de unos 50 descriptores de los recopilados.
b) Una vez recopilados los trminos que constituirn el tesauro, se procede a la
normalizacin del vocabulario, en la que se lleva a cabo una actualizacin y aclaracin de
los trminos registrados y se realiza la codificacin de los mismos. La normalizacin del
vocabulario afecta a:
- la forma de escritura de los trminos
- la forma sustantiva: gnero masculino
nmero singular
secuencia normal en los trminos de la expresin
eleccin de la grafa ms frecuente
- trmino normalizado.
c) Una vez normalizado se procede a la reduccin para adecuarlo a los lmites de volumen
previstos. Para reducir se puede proceder a:
- eliminacin de trminos no significativos.
- eliminacin de trminos ajenos a los campos considerados.
- rechazar los trminos no discriminantes hacia la lista de palabras-herramienta.
- habr que ordenar los trminos diciendo cuales son descriptores y cuales
trminos equivalentes (sinnimos)
- en el curso de esta fase se procede tambin a la reduccin de las polisemias, la
asignacin de cuasisinnimos o de aclaraciones.
Al final de esta fase se dispondr de un lxico documental que abarca los
descriptores utilizados en la indizacin y en las consultas, sus trminos equivalentes y las
relaciones entre ellos. Se ha producido, as, una transformacin progresiva del vocabulario
libre en un lenguaje controlado, en el que se han establecido las relaciones de pertenencia,
equivalencia semntica, jerarqua (no puede haberla entre descriptores y no descriptores, ni
entre no descriptores), y se han redactado las notas explicativas.
d) Enriquecimiento del tesauro por medio de relaciones asociativas entre descriptores de
distintas cadenas jerrquicas. Las relaciones asociativas son simtricas (si A se asocia a B,
B se asocia a A). No puede haberlas entre descriptores y no descriptores, ni entre
descriptores de la misma cadena jerrquica
e) Una vez creado y dinamizado el tesauro, se realiza la edicin n 0, experimental.
f) Se procede a la formacin de la/os indizadora/es, explicndoles el tesauro, procediendo
seguidamente a que indicen los mismos documentos, para ver la tasa de coherencia. A
continuacin, se le practica un test al tesauro, por parte de indizadore/as y documentalistas,

5
Ignacio C. Soriano Jimnez, 2004
realizando consultas sobre l. Estos procesos son realizados por personas diferentes a
quienes han participado en la elaboracin del tesauro.
g) Cuando el tesauro ha tomado forma definitiva, se puede proceder a una primera edicin
del mismo. Se redactar el prefacio (autora de la obra, ejemplos, instrucciones de
indizacin y consulta, mantenimiento, et.), se publicar, y se notificar a la UNESCO
(Varsovia) y a la Comunidad Europea (Frankfort). Esta edicin se har segn una o varias
presentaciones:
- en forma de diccionario conceptual
- en forma de lista
- en forma de esquema de flechas
Hoy, sobre todo, resulta conveniente que se edite en CDRom o en forma consultable
por ordenador, lo cual puede asegurar el control del tesauro, el control de las relaciones y el
control de su actualizacin.
Presentacin de los Tesauros
Las secciones que deben contener como mnimo son: la introduccin, la lista
alfabtica de trminos, la seccin sistemtica (o en su defecto la grfica) y, por ltimo, el
ndice permutado.
1. La introduccin, la cual contiene, al menos, la justificacin del trabajo y la
metodologa empleada, donde se explica, por ejemplo, si se ha utilizado un mtodo
inductivo o deductivo en la fase de seleccin de trminos. Tambin aparecen aclaraciones
sobre las abreviaturas y la tipografa utilizadas. Suele incluirse, igualmente, la bibliografa
que ha servido de apoyo en el diseo del tesauro.
2. Lista alfabtica de trminos. Esta lista forma, junto con la seccin sistemtica, el
corpus del tesauro. La lista muestra en orden alfabtico todas las posibles entradas,
descriptores y no descriptores (suelen representarse con distinta tipografa: los descriptores
en negrita), junto con las abreviaturas que indican el tipo de relacin que se da entre ellas.
Cada entrada puede incluir alguno de los siguientes elementos:
- indicacin del campo semntico al que pertenece el descriptor: TC
- notas aclaratorias o de aplicacin: NA
- equivalencia semntica: UP
- los descriptores genricos: TG
- los descriptores especficos: TE
- los descriptores asociados: TR
3. La seccin sistemtica presenta ordenados los descriptores, de acuerdo con sus
relaciones jerrquicas, para sealar los niveles en que se estructura un tesauro. De esta
forma, podemos descubrir los principales campos semnticos que incorpora, junto con los
descriptores asociados a cada campo.
4. La seccin grfica. Las tres formas ms habituales de representacin grfica son:
- Diagramas arborescentes. Es la forma de representacin grfica ms simple. La
estructura jerrquica slo aparece en los diagramas, el listado alfabtico se limita
a darnos el trmino ms amplio, que incluye los ms especficos

6
Ignacio C. Soriano Jimnez, 2004
- Diagramas de flechas. Dentro de un rectngulo aparecen los descriptores ms
genricos en la parte central, y los ms especficos al borde del rectngulo. Los
descriptores se conectan con flechas que indican relaciones y las distancias
existentes entre los trminos
- Terminogramas. Renen los descriptores en grupos, cada uno de los cuales se
corresponde con una disciplina
5. Los ndices auxiliares, los cuales deben incluir, al menos, la permutacin de todas
las entradas empleadas en las secciones principales del tesauro. El ndice permutado tiene
que remitir a la parte sistemtica mediante un cdigo. Entre otros posibles ndices
auxiliares, se encuentran los ndices de equivalencias entre diferentes idiomas, que facilitan
la consulta de este lenguaje cuando se indizan documentos en una lengua diferente de la
utilizada en el tesauro (el de la UNESCO lo presenta en espaol, ingls y francs).
Caractersticas de un tesauro
1. Dominios a cubrir. Por lo general, es sinttica. Incluye de cinco a cincuenta temas
fundamentales sobre los que versar el sistema documental
2. Compatibilidad con un tesauro ya existente. No es normal que puedan ser
recuperados los documentos de uno u otro, con los mismos descriptores
3. Tamao. Es conveniente delimitar a priori los descriptores a utilizar, cuyo nmero
depender del volumen documental, de la profundidad de indizacin, y consulta...
4. Lenguas. Segn lo/as usuario/as que vaya a tener
5. Tipos de relaciones que se usarn (nota, equivalencia, jerarqua, asociativa)
6. Caractersticas formales. De forma: lo nominal antes que la verbal o adjetiva;
nmero singular antes que plural; secuencia normal de los trminos (recogida de
algodn, no algodn, recogida). La longitud mxima de descriptores y no-
descriptores puede ser de 50 caracteres. Riqueza tipogrfica (letras minsculas,
signos diacrticos, etc.)
7. Caractersticas cualitativas:
- significacin de los descriptores: hay que evitar los descriptores auxiliares
(postcoordinados, para que puedan ser utilizados por usuaria/os)
- ratio de precoordinacin: nmero de palabras que constituyen los descriptores
- tasa de equivalencia: ratio entre el nmero de descriptores y el de no
descriptores (puede estar entre 0,5-2)
- tasa de enriquecimiento: ratio entre el nmero de relaciones jerrquicas y
asociativas, y el nmero de descriptores (una aceptable es entre 1-3)
- flexibilidad, para que los trminos estn en descriptores compuestos y en
descriptores simples

7
Ignacio C. Soriano Jimnez, 2004

Vous aimerez peut-être aussi