Vous êtes sur la page 1sur 11

En palabras de Raquel Pastor, de la Universidad de Alicante, "el lenguaje documental es un conjunto de signos con morfologa, semntica y sintaxis propias"

(Lenguajes documentales, 2008, pg. 4). El lenguaje documental sirve para describir el contenido de los documentos, para almacenar y recuperar la informacin que contienen. "Los lenguajes documentales se presentan en forma de lista y en forma de ndice de diccionario" (Lenguajes documentales, 2008, pg. 6). Este tipo de lenguaje se caracteriza por ser lenguajes artificiales y representar el contenido de los documentos. Adems "responden al tratamiento intelectual de los documentos" (pg. 8). El objetivo fundamental del LD es facilitar la recuperacin de la informacin y de los documentos, reduciendo el esfuerzo y el tiempo del usuario en la bsqueda. La cadena documental se compone de: 1. Seleccin y adquisicin 2. Anlisis de los documentos: externo (catalogacin) e interno (clasificacin) 3. Recuperacin de los documentos 4. Difusin Dos funciones de los lenguajes documentales son la normalizacin (unificar trminos) y la induccin (alternativas en la recuperacin de los documentos). En cuanto a sus caractersticas, los lenguales documentales son precisos, unvocos, controlados y normalizados. Estos tipos de lenguajes establecen relaciones jerrquicas, polijerrquicas, de sinonimia, de antonimia, de polisemia y de asociacin o vecindad. En comparacin con el lenguaje natural, el lenguaje documental es aqul que es controlado, mientras en el lenguaje natural intervienen aspectos subjetivos. "En el lenguaje documental se deben tener en cuenta las relaciones, los distintos valores y que es necesario eliminar las ambigedades" (pg. 15). Existen distintos tipos de lenguajes documentales, a saber:

Segn el criterio de control: Libres y controlados Segn el criterio de coordinacin: Precoordinados y Postcoordinados Segn el criterio estructural: Jerrquica, combinatoria, sintctica. Jacques Chaumier establece la siguiente tipologa: Lenguajes Documentales de estructura jerrquica Lenguajes Documentales de estructura asociativa o combinatoria

Los LD de estructura jerrquica se basan en una jerarqua sistemtica lineal de los conceptos concebida a priori (LD precoordinados), estn ordenados de forma lgica y tienen rotacin (establecen relaciones). Las divisiones de los LD de estructura jerrquica son: 1. Clasificaciones enciclopdicas 2. Clasificaciones por facetas 3. Clasificaciones especializadas Las clasificaciones enciclopdicas se definen porque los documentos se agrupan por reas de conocimiento (contenido intelectual), existe una organizacin sistemtica de los conceptos mediante notacin y un ndice alfabtico. Se caracterizan por ser de utilidad en bibliotecas generales, por su voluminosidad, por su incomodidad de manejo para campos especializados, por permitir clasificar todos los documentos y por permitir establecer la signatura de los documentos de libre acceso. Entre las clasificaciones enciclopdicas destacan la Clasificacin Decimal Universal (CDU), la Clasificacin Decimal Dewey (CDD) y la Clasificacin de Bliss (BC). En cuanto a las clasificaciones por facetas, parten de una tabla de materias que pueden ser analizadas desde diversos puntos de vista. Todas derivan de la Clasificacin Colonada de Ranganathan.

Las clasificaciones especializadas pueden desarrollarse a partir de expandir reas concretas de clasificaciones generales, a partir de principios de facetas o desde bases de datos que construyen su propia clasificacin. Los LD de estructura asociativa o combinatoria se caracterizan porque se permite la libre combinacin de trminos, segn las necesidades de indizacin. Las ventajas de esta tipologa de LD son: - Multiplicidad de nociones - Facilidad de incluir nuevos trminos y modificaciones - Aplicacin a distintas disciplinas - Buena representacin de conceptos pluridisciplinares En cuanto a la tipologa de LD de estructura asociativa o combinatoria encontramos los siguientes: 1. Encabezamientos de materias para bibliotecas 2. Uniterms o palabras clave 3. Descriptores 4. Thesaurus de descriptores Los encabezamientos de materias para bibliotecas son listas alfabticas de palabras o expresiones capaces de representar el contenido de los documentos de forma normalizada. Se componen de encabezamientos (simples y compuestos) y de subencabezamientos (materia, topogrficos, cronolgicos y de forma). Los uniterms o palabras clave son voces que expresan ideas simples y tienen el mismo rango jerrquico. Las palabras clave se extraen del lenguaje natural de los documentos y se emplean sin modificar. Los uniterms resultan de una seleccin y de un tratamiento del lenguaje que sigue a la extraccin. Los uniterms presentan diversos inconvenientes: generan combinaciones falsas, incluyen palabras vacas en los documentos, no especifican las relaciones entre las palabras, son poco elaborados y presentan un bajo nivel de control. Los descriptores son palabras, trminos o expresiones caractersticas escogidos entre un conjunto de equivalentes para representar los conceptos contenidos en un

documento. Existen distintos tipos de descriptores: listas de descriptores (se indizan conceptos a travs de palabras o expresiones) y listas de autoridades (se indizan conceptos a travs de palabras o expresiones pero forman colecciones cerradas, no reflejan relaciones entre ellas). El thesaurus de descriptores es un vocabulario controlado y estructurado al que se llega mediante la seleccin de trminos del lenguaje natural. Sus funciones son normalizar el vocabulario (para controlar la sinonimia y la polisemia) e indicar las alternativas de recuperacin. Ver http://www.bibliopos.es/temario/t-documentacion.htm

Facultad de Ciencias de la Informacin

Profesor: Flix del Valle Gastaminza

fvalle@ccinf.ucm.es

Anlisis y lenguajes documentales El anlisis documental es una tcnica de representacin del contenido de los documentos en un sistema documental realizado, principalmente, para que puedan ser recuperados cuando sean necesitados. Como toda representacin, el anlisis documental exige un cdigo que deber aplicarse por parte del analistadocumentalista a cada uno de los documentos y por el usuario del sistema a sus necesidades de informacin. Este cdigo recibe el nombre de Lenguaje documental y se trata de un dispositivo lxico que correlaciona los mensajes contenidos en los documentos y las necesidades de los potenciales usuarios. Aunque alguno de los lenguajes documentales histricamente ms extendidos est basado en cdigos alfanumricos abstractos, notoriamente las clasificaciones ms utilizadas en Bibliotecas (CDU, Clasificacin de Dewey, etc.), actualmente se trabaja con lenguajes integrados por palabras provenientes del lenguaje natural que acten individualmente o combinadas como ndice para la localizacin de los documentos. Estos lenguajes, denominados "tesauros", controlan el vocabulario de un determinado campo de actividad eliminando los problemas de sinonimia, polisemia y ambiguedad propios del lenguaje natural y estructuran los trminos, denominados descriptores, mediante relaciones jerrquicas, asociativas, preferenciales y aclaratorias. El AD es, segn Lpez Yepes, la operacin intelectual que crea las representaciones de los documentos primarios haciendo posible su trascendencia y su posterior aprovechamiento. Para Garca Gutirrez el AD es el "conjunto de procedimientos destinados a captar, segmentar y representar el significado de los documentos con el objetivo de su recuperacin total o parcial. Se emplea, por tanto, como sinnimo de operaciones que afectan al plano del contenido y la estructura de la significacin, exclusivamente". Es decir, que el anlisis formal quedara expresamente excludo de su definicin y la denominada "descripcin externa", sea bibliogrfica, hemerogrfica, etc. sera objeto de otro tipo de operaciones. El AD se descompone, en su concepcin clsica, en dos tipos de procesos diferentes, los que actan sobre los aspectos formales del documento y los que afectan al contenido del documento.

1. Anlisis formal El anlisis formal es un proceso que se realiza para controlar e identificar los documentos que forman parte de una coleccin. Se realiza en dos operaciones complementarias, que tienden a confundirse, la catalogacin y la descripcin documental. La catalogacin pretende establecer la lista de documentos que componen una coleccin, es decir, el catlogo, considerado ste como instrumento de comunicacin entre la coleccin y los usuarios, por lo que la catalogacin se ocupa de disear las formas de acceso o puntos de entrada que los documentos tengan en el catlogo con el objeto de que puedan ser recuperados; esto en la prctica implica tambin operaciones propias del anlisis de contenido.. La descripcin documental es la operacin por la cual se describe el documento en funcin de sus caractersticas formales y externas, como el autor, el ttulo, el lugar de edicin, el editor, el ao de publicacin, las caractersticas fsicas, etc. Se trata de una operacin que debe estar sujeta a normas estrictas de la ms amplia extensin posible con el objeto de que los registros resultantes puedan ser intercambiables y comprensibles a todos los niveles. Las normas de descripcin documental ms extendidas a nivel mundial son las normas ISBD (International Standard Bibliographic Description), en las que se basa las normas que rigen en Espaa para las bibliotecas pblicas, y las Normas de Catalogacin AngloAmericanas (AACR2).

2. Anlisis de contenido. Conjunto de operaciones mediante las cuales se describe aquello de lo que trata un documento y los productos resultantes: clasificacin, indizacin, resumen analtico. Un mismo documento podr ser objeto de varias descripciones, todas ellas interdependientes en su proceso aunque diferentes en sus resultados. Las funciones del AD de contenido son:

Control documental: Controlar e identificar el documento. Gestin del documento por medio de representaciones. Informacin: Sobre el contenido del documento, su objeto, mtodo, punto de vista, resultados, conclusiones,
desarrollo, etc...

Recuperacin pertinente: Localizacin del documento en funcin de lo que trata. Almacenamiento: Colocacin sistemtica del documento en funcin de su temtica.
El AD de contenido, en cualquiera de sus operaciones, implica las fases siguientes: Conocimiento del documento: Lectura del mismo, atendiento a los elementos caractersticos del texto, como temas, perspectiva de tratamiento, metodologa, lugar, poca o, tambin, objetivo, destinatarios y forma. Habr que leer atentamente el documento, fijndose especialmente en aquellas partes que suelen incluir informacin sobre el propio documento, como prlogo, introduccin, ndice, solapas o contracubierta. La lectura debe incluir la toma de notas que permita despus abordar el anlisis. Anlisis. Lectura emprica del texto, desectructurndolo de acuerdo con unas reglas lgicas de interrogacin presestablecidas. Sntesis. Condensacin del texto en virtud de la pertinencia y relevancia de sus contenidos y la priorizacin de los temas fundamentales detectados. Representacin. Codificacin de los resultados de acuerdo con las normas correspondientes para cada operacin. Recuperacin. Utilizacin de los cdigos adecuados y de reglas de combinacin para, a partir de las necesidades de informacin del usuario, encontrar las respuestas oportunas.

2.1. La Clasificacin. Una clasificacin es un conjunto ordenado de conceptos que se presentan distribuidos sistemticamente en clases conformando una estructura. "Clasificar, en trminos generales, es el acto de organizar el universo del conocimiento en algn orden sistemtico. Ha sido considerada la actividad fundamental de la mente humana. El acto de clasificar consiste en el proceso dicotmico de distinguir cosas que poseen cierta caracterstica de aquellas que no la poseen y agrupar en una clase las cosas que poseen la propiedad o caracterstica en comn" (L.M.Chan, 1981) La organizacin sistemtica de los libros y de cualquier tipo de documento en los estantes o en los ndices y catlogos ha sido una de las formas ms tiles para los lectores que buscan una informacin definida. de tal forma que se ha mantenido en Internet apareciendo en los portales que, efectivamente, clasifican sitios web en sus directorios. Las clasificaciones ms utilizadas son la CDU (Clasificacin Decimal Universal), la CDD (Clasificacin Decimal de Dewey) y la LCC (Clasificacin de la Biblioteca del Congreso de Washington).

2.2. La indizacin. Indizacin es el procedimiento que produce entradas en un ndice. Indizacin es el proceso de anlisis del contenido informativo de registros de conocimiento (documentos) y la expresin de ese contenido en el lenguaje del sistema correspondiente.

Indizacin es la operacin que tiene como propsito representar los resultados del anlisis documental de un documento por medio de trminos extraidos de un lenguaje documental. Se pueden apreciar dos ideas bsicas:

El objetivo de la indizacin es representar (expresar, describir o indicar) el contenido (temas, caractersticas) de un


documento. El proceso de indizacin tiene dos componentes: (a) anlisis de contenido para seleccionar los conceptos que representarn los documentos; y (b) traduccin o expresin de los conceptos seleccionados en el lenguaje utilizado por el sistema.

Por lo tanto hay que estudiar primero de qu trata el documento para extraer los conceptos y aplicar una estrategia de indizacin que permita traducir los conceptos. Esta estrategia debe tener en cuenta los puntos siguientes:

Fuentes de procedencia de los trminos: Tesauro, vocabularios, lenguaje natural. Especificidad: Cun especfico debe ser un indizador al traducir un concepto a un trmino ndice? Debe el trmino
seleccionado ser tan especfico como el concepto? o debera utilizarse uno ms amplio? Por ejemplo: Un documento trata sobre los perros de raza Cocker Spanniel, pero se puede pensar que este trmino es demasiado especfico para el sistema y entra en el ndice con el trmino Perro, ms amplio. Evidentemente esto depende del sistema documental, porque si se tratara de una base de datos sobre perros el trmino de entrada adecuado sera el primero. Ponderacin: Se puede expresar de alguna manera la importancia relativa de un concepto en un documento? Precisin: Qu grado de precisin debe tener la traduccin? Qu hacer cuando no hay un trmino adecuado? Grado de coordinacin: Deben utilizarse trminos simples o trminos compuestos? Por ejemplo, el trmino Educacin Infantil puede ser equivalente a la combinacin de trminos Educacin e Infancia, cada uno de ellos por separado y combinables en la bsqueda. Exhaustividad: Todo debe ser indizado?.

Objetivos y funciones de un ndice.

1. 2. 3. 4.

Identificar y localizar informacin potencialmente relevante en el documento o la coleccin indizada. Discriminar entre informacin sobre un tema y simples menciones al tema. Excluir menciones al tema que no aporten nada significativo a un usuario potencial. Analizar los conceptos tratados en el documento para proponer encabezamientos (entradas) adecuados basados en su propia terminologa. 5. Indicar relaciones entre temas. 6. Agrupar o reunir materiales separados en la coleccin. 7. Organizar encabezamientos y subencabezamientos y modificadores en entradas del ndice. 8. Dirigir al usuario hacia trminos vlidos por medio de reenvos del tipo USE o Vase. 9. Sugerir al usuario de un tema que vea tambin otros por medio de reenvos como Vase tambin. 10.Organizar las entradas en un orden sistemtico que ayude al usuario.

La operacin de Indizacin. La indizacin comporta las operaciones siguientes:

Planteamiento de objetivos: Contexto de trabajo. Conocimiento del contenido del documento. Eleccin de conceptos a representar: Selectividad (Retener aquellos conceptos sobre los cuales el documento
aporta informacin susceptible de utilizar al usuario) Exhaustividad (Todos los conceptos tiles deben ser extraidos). El criterio principal de seleccin es el valor potencial del concepto escogido como elemento de expresin del tema del documento de cara a su recuperacin.

Fenmeno: electricidad, lluvia cida Objeto: avin, trenes de cercanas Documento legal: ley, sentencia Materia: anlisis documental, agricultura, Qu? estudio de..., clculo de... Arquitectnica: La Alhambra Materia Cmo? Obra Literaria: La Odisea Pictrica: La rendicin de Breda Proceso: Envejecimiento de la poblacin Cualidad: esfuerzo, optimismo Propiedad: Flexibilidad, endurecimiento Materiales: Cuero, polietileno

Poltico: Napolen Personaje Quin? Personalidad Artstico: Jorge Luis Borges Ficticio: el Capitn Haddock Entidad: el Atltico de Madrid; Zara

Da: 14 de abril de 1912 Cundo? Tiempo Ao: 1789 Siglo: XVI Perodo: Holoceno, Aos 60, 1936-1939

Continente: Asia

Conjunto de pases: Mercosur Pas: Mxico Estado o provincia: Baviera Dnde? Lugar Ciudad: Siena Barrio: Prosperidad Calle: Corredera Alta de San Pablo Ro: Bidasoa Cadena montaosa: Sierra Madre Comarca: El Maresme Mar: Mediterrneo

Verificacin de la pertinencia de los conceptos extraidos. Traduccin de los conceptos escogidos al lenguaje documental del sistema. Los conceptos debern traducirse por
entradas del mismo nivel de especificidad o superior. Si el concepto es compuesto y existe la opcin deber traducirse por una entrada compuesta. Verificacin de la pertinencia de los trminos obtenidos plantendolos como trminos posibles de interrogacin y valorando si el documento es pertinente. Formalizacin de la descripcin si el sistema prev algn tipo de regla.

Tipologa de ndices: nndices libres basados en palabras del texto: Son ndices cuyas entradas estn conformadas por palabras derivadas del texto mediante mtodos extractivos. La tarea principal del analista es identificar las palabras candidatas a formar parte del ndice.

nndices de documentos individuales nndices de colecciones de documentos nndices esquemticos nndices de palabras y nombres (concordancias) nndices permutados KWIC, KWOC, KWAC nndices de unitrminos (Taube) nndices de citas

nndices controlados basados en conceptos. Proceso intelectual de anlisis comprensin de contenidos y traduccin a lenguaje documental. Requieren el uso de un tesauro u otro lenguaje documental.

Indizacin mediante descriptores. El mtodo de indizacin por descriptores se basa en la suposicin de que los contenidos semnticos (las materias o temas)

de un documento pueden expresarse con suficiente precisin por una palabra o conjunto de palabras que cumplen una funcin nominativa. Estas palabras-clave o descriptores actan de forma independiente y pueden combinarse entre s utilizando los operadores lgicos booleanos. Generalmente se ofrecen en sistemas poscoordinados y suelen utilizar un tesauro. Operadores lgicos:

Interseccin: la interseccin de dos conjuntos da como resultado un nuevo conjunto integrado por elementos que
cumplen la condicin de pertenecer a ambos conjuntos. Si tenemos el conjunto A, integrado por todos los documentos que tienen el descriptor CINE y el conjunto B, integrado por todos los documentos que contienen el descriptor LEGISLACION. La interseccin entre ambos estar integrada por documentos que contienen ambos luego tratarn sobre Legislacin cinematogrfica. La interseccin se suele expresar con los operadores siguientes: CINE AND LEGISLACION CINE Y LEGISLACION

Unin: La unin de dos conjuntos da como resultado un nuevo conjunto integrado por elementos que cumplen la
condicin de pertenecer a uno, otro o a los dos. Si tenemos un conjunto A, integrado por todos los documentos que tienen el descriptor CINE y el conjunto B, integrado por todos los documentos que contienen el descriptor TEATRO, el resultado ser un conjunto integrado por todos los documentos de Cine y todos los de Teatro. La unin se suele expresar con los operadores siguientes: CINE OR TEATRO CINE O TEATRO

Diferencia: La diferencia entre dos conjuntos da como resultado un nuevo conjunto integrado por elementos que
cumplen la condicin de pertenecer al primero pero no al segundo. Si tenemos un conjunto A, integrado por todos los documentos que tienen el descriptor CINE y el conjunto B, integrado por todos los documentos que contienen el descriptor ESPAA el resultado ser un conjunto integrado por todos los documentos de Cine, menos los de Cine espaol. La diferencia se suele expresar con los operadores siguientes: CINE NOT ESPAA CINE NO ESPAA Los descriptores son palabras o grupos de palabras incluidas en un lenguaje documental y escogidas de entre un conjunto de trminos equivalentes para representar sin ambigedad una nocin contenida en un documento o en una peticin de bsqueda documental. (Vase tambin el tema de los Tesauros) Descriptor unitrmino o simple: Descriptor que representa un concepto mediante una sola palabra: CINE, OCIO, HIERRO, AUTOMOVIL Descriptor sintagmtico o compuesto: Descriptor que representa un concepto utilizando ms de una palabra (un sintagma nominal o preposicional): COMUNICACION SOCIAL, PARTIDOS POLITICOS, MEDIOS DE TRANSPORTE, EMPRESA PRIVADA. Descriptor primario: Trmino o conjunto de trminos que representan un concepto de manera unvoca. Es significativo, relevante y no hay posibilidad de ambigedad en su sentido, pudiendo aparecer aislado sin necesidad de aclaracin. Cualquiera de los citados en las categoras anteriores es as. Descriptor secundario: Descriptor que necesita ir acompaado de otros descriptores para expresar un significado preciso: ANALISIS, EVALUACION, CONCEPTO, TEORIA.

Descriptor temtico: Representa cualquier contenido disciplinar. Descriptor geogrfico: Representa todo tipo de conceptos vinculados con lugares y sitios. Descriptor onomstico: Representa un nombre de persona o de institucin. Descriptor cronolgico: Representa perodos de tiempo o fechas.
Flix del Valle Gastaminza

fvalle@ccinf.ucm.es Despacho 208. Tel. 913942206. Pgina Web de Flix del Valle Home Page

Vous aimerez peut-être aussi