Vous êtes sur la page 1sur 39

Chapitre 1

Dr. Naïla Amrous


amrousnaila@yahoo.fr
Chapitre 1 : Présentation générale de l’indexation

◦ Définitions et finalités de l’indexation


◦ Enjeux et évolutions de l'indexation
◦ Principes de l’indexation
Indexation : Définitions et finalités

 L’indexation est une opération de traitement de


l’information. Elle produit une information secondaire,
décrivant et représentant une information primaire. C’est une
opération au cœur des activités documentaires, du traitement
des documents et au fondement de la recherche de
l’information.

Place traditionnelle de l’indexation dans les opérations


documentaires ?
Dans les opérations documentaires, quand fait-on de
l'indexation ?
Rappel sur la chaîne documentaire:

 Trois grandes phases :


- la collecte de l’information, des documents
- le traitement (matériel et intellectuel)
- la diffusion de l’information
> voir cours la Démarche documentaire

>> Indexation se situe dans la phase du traitement


documentaire : traitement intellectuel des documents, appelé
parfois Analyse documentaire, ou Description de contenu.
 Analyse documentaire/ Description de contenu ?

L’ensemble des opérations par lesquelles on décrit le contenu de


l’Unité Documentaire. Regroupe toutes les opérations et produits
permettant de traduire ou de résumer le contenu d’une Unité
Documentaire : résumé, analyse, indexation, analyse de citations,
extraction...

Analyse documentaire : Opération intellectuelle préliminaire à


toute indexation consistant à :

 repérer, sélectionner les concepts, thèmes ou données


caractéristiques du contenu d’un document
 les extraire et les exprimer sous forme de mots-clés
Que produit-on à partir de l'analyse documentaire ?

✓ Cotation : opération du traitement documentaire consistant à


attribuer une cote à un document, en fonction du mode de
classement retenu (par auteurs, par sujets, par numéros...).
Cote : ensemble des symboles inscrits sur un document et servant
au classement et à la recherche de ce document sur les rayons du
SID. La cote localise le document et a une signification purement
topographique. Une cote peut être numérique, alphabétique ou
alphanumérique, selon le mode de classement retenu.
✓ Résumé : opération de condensation, en langage naturel, du
contenu d'une UD. Présentation plus ou moins abrégée du contenu
d’un document, en langage naturel

✓ Indexation : c’est une étape de la description de contenu, consistant


à traduire les mots-clés, issus de l’analyse, dans un langage
documentaire (indice, vedettes-matières, descripteurs...)
L'indexation, processus ou résultat ?
Le terme d'indexation qualifie à la fois le processus et son
résultat/Finalité.

Définitions de l’indexation en termes de processus

« L’indexation est l’opération qui consiste à décrire et à caractériser


un document à l’aide de représentations des concepts contenus dans
ce document, c’est-à-dire à transcrire en langage documentaire les
concepts après les avoir extraits du document par une analyse. »
(AFNOR- 1993)

« Processus destiné à représenter, au moyen des termes ou indices


d’un langage documentaire ou au moyen des éléments d’un langage
libre, les notions caractéristiques du contenu d’un document
(ressource, collection) ou d’une question, en vue d’en faciliter la
recherche, après les avoir identifiées par l’analyse. » (ADBS)
Indexation = Représentation de l’information

la réduction du volume des données d’un document par le biais


d’une représentation de ce document par des mots clés.

>> l'indexation est une opération de traduction

Elle consiste à identifier, pour un document, plusieurs éléments


significatifs (tels que le titre de l'ouvrage, le nom de l'auteur, la
date de publication et les sujets traités) afin de pouvoir retrouver
ce document dans une base de données.

Elle peut se faire à l’aide d’un langage documentaire


(thésaurus, liste d’autorité, classification) ou en langage naturel
(indexation collective libre). Elle peut être humaine (indexation
documentaire et/ou libre) ou bien confiée aux outils
informatiques (indexation automatisée).
Définitions en termes de finalité

 L’indexation a pour but de faciliter l’accès au contenu d’un


document ou d’un ensemble de documents à partir d’un sujet
ou d’une combinaison de sujets (ou de tout autre type
d’entrée utile à la recherche). Pomart et Sutter 1997
 Description du contenu du document à l'aide de mots clés(ou
indices de classification) pour faciliter la mémorisation du
contenu de ce document pour une recherche ultérieure.
Chaumier2000
 Identification et enregistrement des unités d’information
minimales pertinentes pour apporter des réponses aux
requêtes présentées au système d’information. Menon1988
A quoi sert l'indexation ?

Quatre finalités principales de l’indexation :

 Recherche documentaire
 Recherche d’informations
 Analyse et cartographie de l’information
 Normalisation (normaliser le processus et l’accès en cas
d’usage de langage documentaire)
La « recherche documentaire » consiste en un
« Ensemble des méthodes, procédures et techniques
ayant pour objet de retrouver des références de
documents pertinents (répondant à une demande
d’information) et les documents eux-mêmes ». La
définition inclut désormais recherche de documents
primaires et/ou secondaires et tertiaires.
( QU'EST-CE QUE RECHERCHER DE L'INFORMATION ? Nicole Boubée, André Tricot 
La définition de la « Recherche d’information » fait référence
à tout type d’environnements documentaires et aux phases du
processus de recherche : « Ensemble des méthodes,
procédures et techniques permettant, en fonction de critères
de recherche propres à l’usager, de sélectionner l’information
dans un ou plusieurs fonds de documents plus ou moins
structurés ». Toute recherche d’information suppose trois
phases successives :

➢ une recherche bibliographique des références de documents pertinents ;


➢ une recherche documentaire, c’est-à-dire une bibliographique complétée par
la recherche (l’acquisition) des documents eux-mêmes ;
➢ et enfin le repérage de l’information dans les documents sélectionnés
(recherche de l’information).
Analyse et cartographie de l’information

Avec les logiciels de TALN (Traitement Automatique du


Langage Naturel) et les nouveaux outils linguistiques,
l'indexation sert à :

- analyser des textes et des corpus de textes (méthodes


d’analyse linguistique et statistique par ex.)
- dresser des "cartographies informationnelles" :
représentation, sous forme de réseau, des principaux
concepts dans un texte ou un site web
- la veille stratégique et l'intelligence économique
Normalisation (normaliser le processus et l’accès en cas
d’usage de langage documentaire)

 Normalisation (normaliser le processus et l’accès en


cas d’usage de langage documentaire) : l’indexation
consiste à normaliser la codification du contenu des
documents (sujet). Le recours aux langages documentaires,
contrôlés permet aux professionnels de l’information et
plus précisément, aux indexeurs d’objectiver leurs
pratiques d’indexation.

La normalisation du vocabulaire est indispensable à la 


cohérence de l’indexation.
L'indexation vise également à :

 Rendre compte sous une forme concise des informations


stockées dans un fonds documentaire
 Permettre de faire le lien entre une offre d’informations (le
fonds documentaire) et une demande d’informations (les
questions des utilisateurs).
 Conduire à élaborer des outils de recherche documentaire :
index, bulletins bibliographiques, catalogues, fichiers
manuels ou automatisés qui seront ensuite consultés et qui
permettront la sélection de documents répondant à une
question (produits documentaires secondaires).
 Etc.
Les types d’indexation :

✓ Indexation analytique / matière:

 Analyse et description du contenu


 Choix des mots-clés : (Indexation libre ou Indexation
contrôlée : choix du mot-clé dans une liste, ou thesaurus)

L'indexation Rameau est une indexation analytique.


les thésauri également.
✓ Indexation systématique : Il s’agit du niveau le plus général
de l’analyse documentaire, qui sera précisé ensuite par les
mots clés. Elle correspond à l'attribution d'un indice à un
document de manière à le situer dans un ensemble de la
connaissance.
Bref, dans l’indexation systématique :
 détermination d’un indice (code numérique, alphanumérique
etc.)
 tiré d’une classification (CDD, CDU, etc.)
 classification : système d’organisation et classement des
connaissances en un système ordonné de classes et sous-
classes, représentées par des indices.
L’indexation peut être :

 Manuelle (expert en indexation)


 Automatique (ordinateur)
 Semi-automatique (combinaison des deux)

Elle peut être basée sur :


 Un langage contrôlé (lexique/thesaurus/ontologie/)
 Un langage libre (éléments pris directement des documents :
langage naturel, Tag, folksonomies (indexation « populaire »)
Enjeux et évolutions de l'indexation
Rappels sur la notion d'indexation documentaire
Tabula 
 Evolution des outils d’indexation documentaire (fin du 19e
siècle-fin du 20e siècle)

Langage documentaire, langage d’indexation, langage contrôlé,


langage artificiel… de quoi parle–t-on ?

Procédé conventionnel de représentation des informations d’un


document sous une forme condensée et normalisée. Langage
artificiel, constitué de représentations de notions et de relations
entre ces notions et destiné, dans un système documentaire, à
formaliser les données contenues dans les documents et les
demandes des utilisateurs. (AFNOR)
Trois points importants :
- langages artificiels
- ensembles de termes, liés entre eux par des relations
analytiques ou syntaxiques, permettant de rendre
compte des concepts contenus dans le document.
- instruments d’analyse conçus spécialement pour le
traitement de l’information
Fonctions des langages documentaires :

La définition suivante résume bien les fonctions des langages


documentaires :

« Les langages documentaires sont des codes sémantiques de


représentation des sujets, permettant à un système
documentaire de repérer les documents par une formulation
rigoureuse de leur contenu, et aux utilisateurs d’ajuster leurs
interrogations à ces formulations » [Maniez p° 207] . On distingue:

1- Fonction de normalisation et de désambiguïsation du langage


naturel (Normaliser la représentation des sujets des documents)
2- Fonction d’organisation des connaissances (les classifications et
le thésaurus)
3-Fonction de structuration des documents (le plan de classement )
On distingue en pratique trois grandes "familles" de langages
documentaires :

◦ les classifications décimales


◦ les listes d'autorité, ou listes de vedettes-matières
◦ les thésaurus

Qu'est-ce qui les distingue ?

Deux critères de typologie, donnant lieu à deux sortes de regroupement des


familles de langages :

la structure du langage :
 les langages à structure hiérarchique : les classifications (Dewey, CDU)
 les langages à structure combinatoire : listes de vedettes-matières (RAMEAU),
thésaurus (MOTBIS)

la coordination des concepts : Distinction entre :


 les langages pré-coordonnés : classifications, listes de vedettes-matières
 les langages post-coordonnés : thésaurus
Les classifications décimales

 fondées sur une organisation des connaissances en classes. Ces


langages organisent les connaissances en un système ordonné de
classes et de sous classes hiérarchisées. A chaque branche du savoir
correspond une classe et des sous classes qui sont elles-mêmes
subdivisées pour prendre en compte tous les sujets.
 organisation hiérarchique du savoir qui permet à la fois le
regroupement intellectuel par sujet, et le classement physique des
documents puisque à chaque sujet correspond un code, un indice de
classement.
 Langages codés à structure arborescente

Exemple : Dans la CDD


· 600 est la classe Techniques
· 610 sa division Médecine
· 613 sa subdivision Hygiène
· 613.2 son extension Diététique
· 613.25 " Régimes alimentaires
Les listes d’autorités de matières

➢ Langages à structure analytique (langage à structure


combinatoire, utilisés pour analyser le contenu des dcts de
façon cohérente et précise. )
➢ langages les plus proches du langage naturel
➢ les descripteurs (termes normalisés) sont structurés en
catégories et reliés entre eux par des relations sémantiques :
la relation hiérarchique et la relation associative.
➢ Liste d’autorité : liste normalisée de termes, appelées
vedettes-matières, destinées à définir la ou les notions
exprimées dans un document
> caractère obligatoire, imposé, de la liste d’autorité.
Impossibilité de créer soi-même des vedettes matières.
Vedettes classées par ordre alphabétique.
➢ syntaxe compliquée : usage réservé aux professionnels
Exemple d’indexation analytique :

Exemple : RAMEAU (Répertoire d'Autorités Matières


Encyclopédique Alphabétique et Unifié)

pour un ouvrage donnant la liste des oeuvres littéraires


développant le thème de l’amitié et publiés en France au XVII e
siècle :

Amitié – Littérature– France-- 17 ème siècle-- bibliographie


Les thésaurus

 Vocabulaire contrôlé et dynamique de termes (descripteurs et


non-descripteurs), obéissant à des règles terminologiques
propres et reliés entre eux par des relations sémantiques
(relations d’équivalence, relations hiérarchiques, relations
associatives).

 Un thésaurus est un langage documentaire postcoordonné, à


structure combinatoire, et sert à indexer les documents et à
contrôler les recherches sur les descripteurs.

 Variété des thésaurus : spécialisés par domaines


Avec les thésaurus, l’indexation s’effectue au niveau de chaque
concept élémentaire, chacun de ces concepts étant représentés
par un terme, appelé descripteur.

 Exemple :
Document sur la démographie en France entre 1914 et 1939 :
France
démographie
1914-1939
> pas d'ordre de classement des descripteurs

> Fonction primordiale d’un thésaurus : représenter relations


entre concepts, ou entre descripteurs
LANGAGES AVANTAGES INCONVENIENTS UTILISATIONS

Classifications - système universel - manque de souplesse - classement des


encyclopédiques - regroupement des - difficulté d’introduction bibliothèques et centres
notions sous un indice de nouveaux indices documentaires
précis - volume important encyclopédiques
Dewey, CDU... - classement des - complexité des indices
ouvrages cohérent avec - peu adaptés à des
les fichiers manuels domaines précis
- informatisation
impossible

Tableau comparatif des


principaux langages
Lexique de mots - grande souplesse - fichier matière - fichiers manuels
documentaires - indexation fine encombrant grandes ou
(mots-clés,
- mise à jour facile - manque de informatisés
vedettes-
- informatisation hiérarchisation - grandes
(Alexandre Serre) matières) - recherches difficiles bibliothèques, centres
- pas de classement documentaires
RAMEAU... possible
> langages
« précoordonnés »

Thésaurus - grande souplesse - pas de fichiers manuels - outil de recherche


- indexation en - pas de classement informatisée
profondeur possible - centres
MOTBIS...
- hiérarchisation documentaires
- universalité dans son
domaine > langages
- informatisation « postcoordonnés»
Nouveaux enjeux documentaires : nouveaux modes d’indexation

❑ Définition élargie de l’indexation:

✓ La numérisation des ressources documentaires, alliée au


développement des outils de gestion et de traitement de
l’information, conduit en effet à revisiter la notion d’indexation;

✓ On ne parle plus seulement d’indexation, mais également


d’enrichissement, d’annotation et de marquage, et de
métadonnées;
❑ incidence sur l’activité des professionnels de l’information-
documentation

➢ Leurs activités sont plus orientées vers la gestion des collections et des
services info-documentaires;
➢ Avec les systèmes fondés sur les techniques d’Internet, il est évident
aussi que les contacts directs avec les usagers se raréfient. La position du
professionnel de l’info-doc se modifie donc, et s’oriente principalement
vers des interactions avec le dispositif technique du système
d’information qu’ils sont amenés à gérer;
➢ la création et la maintenance des systèmes d’organisation des
connaissances (langages documentaires, terminologies, etc.) occupent
dans certains cas une place importante dans les attributions des
professionnels;
➢ les relations avec les fournisseurs d’information ou la réalisation
«proactive » de produits d’information à haute valeur ajoutée.
De nouvelles compétences exigées en ce qui concerne les savoir-
faire des professionnels I-D:

 Sur le plan technique, les outils informatiques de plus en plus présents


requièrent, à côté des techniques documentaires traditionnelles, la
maîtrise des bases de données, des moteurs de recherche, des logiciels
de gestion de contenu, et des technologies Internet, tant dans leur
définition que dans leur fonctionnement au jour le jour.
 Sur le plan conceptuel, on passe de l’appréciation du besoin immédiat
et de l’analyse unitaire des documents à la nécessité d’une vision
globale et structurée des besoins et des ressources de l’organisation.
 Sur le plan relationnel enfin, à la capacité de manager une équipe et
d’accompagner la démarche d’un utilisateur s’ajoutent les
compétences nécessaires à la gestion des relations avec les fournisseurs
de contenus et de technologies.
Principes de l’indexation

L'indexation repose traditionnellement sur deux étapes


clairement distinguées :

 une étape d'analyse conceptuelle

 une étape de reformulation documentaire


Etape 1- Analyse conceptuelle :

 le contenu est analysé et interprété pour définir les principaux


concepts permettant de le caractériser ; de cette analyse résulte
la sélection de termes significatifs/représentatifs du contenu.
 A ce niveau-là se mettre à la place du chercheur. A quelles
questions ce document doit répondre ?

 Quoi ?...................thèmes, sujets


 Où ?......................lieux et/ou toponymes
 Quand ?............ .....chronologie relative ou absolue
 Qui ?.....................anthroponymes ou peuples
 Comment ? ……...…méthodologie, œuvres, sources
utilisation conseillée d’une grille de questions, assez classique : les
3QOCP
Etape 2 Reformulation documentaire :

L'analyse conceptuelle permet par la suite de reformuler le


contenu dans une forme permettant sa manipulation. On ne peut
pas utiliser comme vocabulaire d’indexation les mots mêmes
qu’on trouve dans un texte : le langage naturel a trop de formes et
d’ambiguïtés pour pouvoir servir à une interrogation.

 L’indexeur choisit ces mots clés dans une liste de vocabulaire


contrôlé formé par le lexique ou le thesaurus, ce qui permet de
garantir l’uniformité de la représentation du document
Comment assurer une certaine cohérence de l'indexation ?

utilisation d'outils, de normes, de méthodes communes

Cela nécessite de choisir le vocabulaire et la méthode


d'indexation:

✓ Quel langage documentaire choisir ? (connaissance des


outils primordiaux)
✓ Quel niveau d’indexation ? (connaissance des besoins des
utilisateurs et leur niveau)
✓ Indexation libre ou contrôlée ou mixte ? (voir selon les
orientations du SID, les moyens mis à sa disposition, etc.)

Vous aimerez peut-être aussi