Vous êtes sur la page 1sur 10

organiser sa gestion documentaire

http://www.clever-age.com

organiser sa gestion documentaire (première partie)


Selon un sondage 2002 organisé par le Delphi Group, la plupart des entreprises
manquent considérablement d’organisation pour leur gestion documentaire.
Les résultats de ce sondage annoncent que près de 70% des utilisateurs
n’arrivent pas à (re)trouver sur le réseau les informations dont ils ont besoin.
Etant dans la nécessité d’exploiter des dossiers, des articles, des documents
capitalisés sur leur intranet ou sur le Web, les employés passent près de deux
heures par jour à chercher ces informations ; soit environ cinq jours pas mois, et
soixante par ans ! Cette perte de temps doit être prise en compte par
l’entreprise.

Si les documents sont réutilisés, améliorés chaque jour, les dernières mises à jour
disponibles posent souvent un problème de coordination entre les intéressés. De plus, la
quantité d’information produite par chaque employé double en moyenne tous les deux
ans. La gestion du cycle de vie des documents (archives, versions) crée une quantité de
données grandissant de manière exponentielle, ce qui devient vite ingérable si une
solution n’est pas mise en place.

En étudiant le travail des documentalistes, on peut retrouver ces méthodes. Les


opérations de tri manuel ne sont pas de bonnes solutions pour les grandes entreprises en
phase d’expansion. On peut donc se demander quels sont les cheminements à suivre pour
aboutir à un système ordonné : comment adapter sa démarche pour trouver un système
de classement automatique et de recherche performant, capable de s’adapter à l’activité
de l’entreprise ?

Nous verrons qu’il s’agit de réunir l’ensemble des sources de données à étudier, puis de
les décrire chacune de manière détaillée. Ces descriptions pourront suivre plusieurs types
d’analyse différents, ce qui, selon le métier étudié, permettra une classification
intelligente et bien représentative de l’activité de l’entreprise. Il ne restera plus qu’à
choisir les interfaces de recherche que l’on souhaite implémenter.

LES SOURCES DE DONNÉES

Avant de s’intéresser aux types de solutions existantes, on doit pouvoir être capable de
définir l’univers documentaire que l’on veut exploiter. L’information étant la plupart du
temps disséminée sur des disques physiques, dans des bases de données, sur le web
(intranet, extranet...), il est nécessaire d’avoir accès à tous ces supports de stockage pour
pouvoir prendre en compte la totalité de l’univers. Cette collecte d’information peut poser
des soucis, notamment pour la lecture de certains fichiers comme les formulaires html, les
documents multilingues ou dotés de caractères spécifiques (UTF-8, ISO-8859-15...).

Un utilisateur doit, dans sa démarche, établir la liste de tous les formats documentaires à
traiter (pdf, excel, xml...), mesurer l’espace disque que représente son patrimoine,
différencier les types de contenus (journalistique, scientifique, biologique...), établir les
permissions qui leurs sont accordées (on parle deworkflow documentaire), recenser le
nombre de langues différentes (française, anglaise, espagnole...) et les jeux de caractères
utilisés (ISO, UTF...).

Fort de cette inventaire, on peut mieux définir les bases d’une indexation, et chercher un
outil qui répond aux contraintes techniques existantes.

1
organiser sa gestion documentaire
http://www.clever-age.com

L’INDEXATION ET LE CLASSEMENT
Définition

L’indexation d’un texte consiste à repérer et extraire certains mots ou expressions


particulièrement significatifs (appelés « termes ») dans un contexte donné, et à créer un
lien entre ces termes et le texte original. L’outil de choix sera capable d’attribuer à chaque
document des marques distinctives, renseignant avec pertinence sur le contenu, en vue
de le classer.

L’indexation distingue généralement les informations sur la structure du document (ou si


l’on préfère les « méta données » ; on parle de l’intention du document) des informations
de contenu propre à chaque document (l’extension du document). Toutes ces
informations constituent ce qu’on appelle unetaxinomie : une chaîne composée de valeurs
nécessaires et suffisamment significatives pour identifier le document parmi toute une
diversité [1].

Voici typiquement un problème de content management system (système de gestion de


contenu) : comment définir la taxinomie de ses documents ? Il faut en premier lieu définir
un objet « document » qui porte en lui toutes les caractéristiques des documents du
patrimoine :

Une taxinomie des documents pourrait donc être organisée selon ces quatre couches
descriptives, chacune définissant les propriétés vitales du document. On pourra par la
suite lancer des recherches sur tous les attributs de description qui ont servi à l’indexation
(recherche par date, propriétaire, langue, titre, plein texte, typographie...).

Le stockage de l’information
On utilise des structures de stockage pour conserver ces informations de classification.
Les solutions techniques les plus fréquemment utilisées sont des tables de hachage ou
des arbres AVL qui assurent la gestion des données de masse.

2
organiser sa gestion documentaire
http://www.clever-age.com

Si la structure d’indexation ne s’équilibre pas, ses catégories seront délocalisées ou


noyées dans la masse d’information ; si l’analyse appliquée n’est pas spécialement
adaptée aux types de contenus à traiter, des anomalies de sens dans le classement
entraineront forcément des surplus d’incohérence ; si les documents sont trop
volumineux, les tables d’indexation risquent de devenir presque aussi grandes que le
capital lui même.

On emploie donc de nombreuses techniques de compression, qui réduisent ces bases


volumineuses, les rendants plus concises et mieux exploitables :
• stop words : interdire les traitements des mots redondants (la, le, un...) ;
stemming : réduction des mots par découpage ;
• case folding : rassemblement des mots semblables mais écrits légèrement
différemment ; le but est d’éviter les doublons de valeurs identiques (ex : de gaulle,
degaulle, DeGaulle, DEGAULLE...).
De plus, les techniques de logique floue permettent aujourd’hui de conceptualiser un
contenu, en « arrondissant » chaque phrase à sa valeur utile. Toujours dans le but
d’éviter les erreurs de sens, laphonétisation permet de mener une analyse secondaire
uniquement basée sur la sonorité des mots, ce qui réduit les possibilités de sens erroné.
La catégorisation documentaire
L’ensemble étant proprement indexé, il faut alors choisir une méthode pour classer les
documents futurs ! Chaque document entrant devra suivre le processus
de catégorisation et trouver une place unique dans le classement. On parlera de
catégorisation :
• Manuelle : c’est une solution difficile à mettre en œuvre. Pour un petit patrimoine, cela
reste toujours une solution mais la démarche n’est pas complète.
• Par moteur de règles : typique du modèle efficace mais vite complexe.
L’ordonnancement des règles doit suivre une logique de traitement préétablie, c’est à
dire un traitement séquentiel afin d’éviter qu’un document ne suive une règle avant une
autre. On se retrouve alors face à des soucis de maintenance (ordonnancement) et de
modification de ces règles (effet de bord), d’où le besoin de prendre des précautions
exemplaires de manipulation, voire de se faire seconder d’une ressource compétente.
• Par apprentissage supervisé : le système nécessite un entraînement. Celui-ci se fait
en donnant à l’agent (l’élève) une entrée ainsi que le résultat qui devrait théoriquement
être obtenu. L’agent cherchera à minimiser l’erreur en comparant chaque document
entrant avec les exemples de référence ; il tentera de se rapprocher de la solution la plus
adéquate. Pour affiner le calcul, l’emploi des exemples négatifs permet d’ajouter un
concept d’exception.

3
organiser sa gestion documentaire
http://www.clever-age.com

• Par apprentissage automatique : les résultats sont assez encourageants dans le


domaine de la construction automatique d’ ontologies [2] par analyse de corpus de
textes propres à un domaine. Dans ce cas, le système construit une liste des principaux
termes récurrents et tente de les relier en utilisant un dictionnaire ou un glossaire ainsi
qu’une base de règles grammaticales (voir par exemplealtavista 2.0).
L’étude du contenu se fait par exploitation du texte (text minnig). L’état de l’art
aujourd’hui consiste à coupler une analyse linguistique à des algorithmes éprouvés de
reconnaissance de forme (SPSS/Lexiquest, SAS/inxight). Pour assurer la compatibilité, les
moteurs d’indexation et de recherche sont souvent couplés (ex : Tropes/Zoom/index
d’Acetic) ; ils peuvent la plupart du temps se greffer sur des applications de gestion
répandues (Lotus/IBM, SharePoint/Microsoft). On trouve une grande diversité de choix et
la concurrence se fait rude. La lutte se tient entre l’intéropérabilité de logiciels variés qui
dialoguent ensemble, ou le choix d’un progiciel de gestion unique.

CONCLUSION

Dénombrer, rassembler et différencier son univers documentaire permet une indexation


globale de ses documents.

Mais cette indexation ne prend pas en compte la valeur sémantique des documents : une
phase d’analyse linguistique supplémentaire est nécessaire pour permettre des recherches
plus élaborées sur les contenus.

Cette seconde phase fera l’objet de notre prochaine chronique : Organiser sa gestion
documentaire (deuxième partie) : Analyse linguistique et recherche.
[1] le terme taxinomie est généralement utilisé dans le contexte de la biologie pour la classification
des espèces ; voir par exemple cette taxinomie des animaux
[2] voir à ce sujet une étude sur les ontologies et l’intéropérabilité

4
organiser sa gestion documentaire
http://www.clever-age.com

Dans notre dernière chronique : « comment organiser sa gestion


documentaire ? », nous avons présenté les techniques d’indexation de
documents. Si celles-ci autorisent des recherches lexicalesou sur des bases de
« mots-clés », elles ne permettent pas d’effectuer des
recherches sémantiques(prenant en compte le sens des mots). Pour ce faire, une
suite d’analyses linguistiques est nécessaire.

LES ANALYSES DOCUMENTAIRES

Le but est de parvenir à dégager le sens des mots et des phrases constituant le contenu,
ce afin d’affiner les rapports contextuels entre les documents et répondre ainsi plus
précisément à des besoins métiers. Avant de pouvoir opérer l’analyse sémantique, il faut
au préalable passer par plusieurs étapes d’analyse : l’analyse morphologique et l’analyse
syntaxique.

Outre ces trois types d’analyse, un dernier type sera présenté ; il est utilisé pour la
restitution des résultats d’une recherche : l’analyse statistique. Nous aurons ainsi fait le
tour des différents types d’analyse documentaire possibles.

L’analyse morphologique
Ce type d’analyse, mis en place par F. Zwicky lors de la seconde guerre mondiale, explore
les futurs possibles d’un objet en le décomposant et en étudiant toutes ses combinaisons
natives. En clair, il s’agit de développer chaque mot d’un texte dans toutes les formes
qu’il peut avoir (ce travail rappelle les analyses que font les enfants dans les classes
primaires pour assurer leur compréhension globale de la phrase).

Dans un premier temps, cette analyse développe les termes, ce qui permet de connaître
leur racine propre ; dans un deuxième temps, elle va chercher à découvrir la nature et la
fonction de chaque terme dans la phrase. Elle pourra alors détecter sa signification réelle
et supprimer de nombreux litiges. Exemple : ’un as de pique’ ne fait pas référence au
verbe avoir du présent à la deuxième personne du singulier.

5
organiser sa gestion documentaire
http://www.clever-age.com

L’analyse syntaxique
Il s’agit de regrouper les unités lexicales en structures grammaticales, afin de comprendre
la structure d’un texte. Elle peut extraire une qualification affinée des documents soumis,
et organiser une structure imbriquée du document (un exemple d’analyseur syntaxique).

A ce stade il est donc possible de rassembler des corpus de textes, en basant la recherche
sur :

• des verbes, des adjectifs qualificatifs, des noms Propres...


• un champ lexical (les mots d’une même phrase)
• des grammaires spécifiques (par exemple, les paragraphes contenant les mots X et Y
dans une même phrase)
• ect.

L’analyse syntaxique donne accès à une hiérarchisation très ségmentée du texte, et est
donc très utile pour résumer des contenus.

L’analyse sémantique

L’analyse sémantique a pour but de faire ressortir le sens profond du document en


cherchant à répondre aux questions de contexte : Qui ? Quoi ? Où ?... La réponse à ces
questions se fait grâce à des algorithmes de gestion de Thesaurus métier qui trouvent les
chemins d’un terme jusqu’à tous ses concepts voisins, parents, dérivés, etc.

Les thésaurus les plus communs harmonisent la communication et le traitement de


l’information en reliant :

• Les termes génériques


• Les termes spécifiques
• Les termes équivalents
• Les termes associés

6
organiser sa gestion documentaire
http://www.clever-age.com

Il existe de nombreuses possibilités sur les types de liaisons qui rattachent deux terme, et
le système pourra prendre en compte :

• l’appartenance (un "lexème" appartient à un "lexique")


• l’attribut ("passé" et "futur" sont des attributs de "temps")
• la causalité ("L’anthrax a tué un américain")
• l’hypéronymie / l’hyponimie (voir une définition de ces termes)
• les liens connexes ("souris" et "clavier" sont des concepts proches)
• les métonymies / synecdotes
• la production ("Lotus" produit par "IBM")
• la substance (la "baignoire" est en "fonte")
• la succession
• la synonymie/ l’antonymie
• etc.
Les thesaurus les plus répandus concernent généralement un domaine précis (le calcul
mathématique, la médecine, la recherche en aérodynamique, etc.). Il n’existe pas encore
de solution standardisée par domaine dans une structure universelle ; les recherche
en RDF/XML annonceront peut être un jour la sortie d’une ontologie homogène pour tous.

Face à ce manque de standardisation, les systèmes d’aujourd’hui exécutent leurs analyses


en partant depuis un thesaurus vide et exploitent les processus de catégorisation
automatique, créant ainsi un dictionnaire adapté à leur entreprise.

Cette étude au niveau du sens offre bien souvent la possibilité de faire des recherches
en langage naturel [1]. Cela signifie que l’utilisateur pose sa question à la machine
comme à un interlocuteur normal, et que le moteur est capable d’interpréter et de
traduire cette demande en une équation spécifique.

Pour en savoir plus :

• Analyse sémantique par Semantis

7
organiser sa gestion documentaire
http://www.clever-age.com

L’analyse statistique

Dans le cadre d’une recherche, après une requête utilisateur, les résultats sont trop
désordonnés pour être exploitables ; ils ont tous un lien direct avec la question de
l’utilisateur mais ils ne sont pas classés. L’analyse statistique capitalise la pertinence des
réponses et les présente selon l’ordre le plus adéquat à la demande. Des calculs de
probabilité permettent de mieux comprendre les utilisateurs et de fixer progressivement
leurs intérêts propres, en gardant en mémoire ses recherches précalculées.

Le système mis en place doit être capable de prendre en compte la position hiérarchique
de chaque utilisateur : d’une part, celui-ci doit être guidé vers les documents qui sont le
plus en rapport avec son activité ; d’autre part, le système doit assurer la sécurité et la
confidentialité des résultats, selon unworkflow documentaire configurable et éprouvé.

L’analyse statistique est aussi capable de fournir aux utilisateurs une assistance visuelle
de recherche offrant tous les éléments d’aide à la prise de décision. Il peut s’agir de
plusieurs choses différentes et non incompatibles :

• des arbres de recherche classés par sujet, concept, auteur, date, type de documents,
etc. ;
• une adéquation entre l’utilisateur et le système (question/réponse pour éviter les
dialogues de sourds, en interrogeant l’utilisateur face à certains litiges, et en lui
suggérant des solutions de réponses cadrées dans son métier) ;
• des réseaux d’alertes automatiques et paramétrables afin de se tenir au courant des
évolutions de ses centres d’intérêt, sur tout un patrimoine documentaire et sur internet
(veille concurrentielle).

LES INTERFACES DE RECHERCHE

Chaque moteur de recherche met en place un dialogue entre l’utilisateur et le système. Il


y a deux phases distinctes : la formulation de la question et la présentation des résultats.

Avant de parcourir la classification documentaire, le sytème doit étudier la question elle


même. Celle-ci peut en effet contenir des fautes, des termes dérivés par rapport à un
contexte souhaité, des syntaxes approchées, etc. On peut rechercher quelque chose de
simple en formulant une grande quantité de termes, ce qui peut aussi controverser ou
embrouiller la demande ; le système doit alors réduire la question à sa valeur utile. Le
moteur passe par des traitements (semblables aux analyses documentaires) qui
traduisent la demande de l’utilisateur en équation appropriée au système et peuvent
retourner beaucoup d’informations contextuelles avoisinant la recherche (voir par
exemple l’interface d’exalead).

8
organiser sa gestion documentaire
http://www.clever-age.com

En ce qui concerne la présentation, le résultat final se solde par une liste d’éléments
renvoyés, à laquelle s’adjoignent de multiples services. L’interface la plus classique :

• affiche le nombre de résultats trouvés et la pertinence associée à chaque réponse ;


• associe chaque résultat à une une icone (type de document) ;
• donne un descriptif (résumé) du passage pertinent.

Pour permettre une plus grande souplesse de visualisation des objets trouvés, l’interface
doit :

• offrir une pagination d’affichage modulable (nombre de résultats par page) ;


• rappeller la requête formulée par l’utilisateur et suggérer des requêtes avoisinnantes ;
• permettre le tri des résultats selon les caractéristiques de chaque document (par date,
par pertinence, par auteur, par thèmes voisins, etc.) ;
• etc.

Si une réponse est sélectionnée, le système doit fournir des outils pour consulter la partie
intéressante du document dans un format natif (xls, doc, pdf...) avec une mise en
évidence visuelle des éléments caractéristiques. Des raccourcis permettent d’exploiter
facilement l’information intéressante (impression, copier/coller, envoyer à quelqu’un,

9
organiser sa gestion documentaire
http://www.clever-age.com

etc.). L’ergonomie simple et soignée sera le reflet d’une meilleur prise en main du
système, pour toutes les cibles utilisatrices (accessibilité, simplicité, flexibilité).

Pour en savoir plus, voici quelques moteurs de recherche spécifiques à un métier :

• moteur cartographié de kartoo


• moteur juridique francophone
• moteur d’Ariane, qui peut associer 1100 résultats de moteurs de recherche
• un annuaire de moteur de recherche
• les relations entre les moteurs de recherche

Se munir d’un tel système au sein de son système d’information n’implique pas forcément
une remise en question de tous ses outils. Ce sont généralement des briques relativement
indépendantes et interchangeables ; et qui plus est quasiment transparentes pour les
usagers : tout au plus, une légère modification des interfaces peut se révéler nécessaire
afin d’incorporer les nouvelles fonctionnalités du moteur de recherche.

L’amélioration de la puissance du moteur de recherche contribuera à augmenter la


productivité des employés et par là la performance de l’entreprise.

CONCLUSION

D’un patrimoine désordonné, on peut construire un ensemble organisé, hiérarchisé,


cartographié, qui simplifie efficacement la réutilisation des documents. Le cheminement à
suivre pour ordonner son système se fait par la collecte des sources de données,
l’indexation concise de son univers (concept, segment, sous-segment...), l’exécution
d’analyses documentaires en plein texte et le choix d’interfaces de recherche à
implémenter. A chacune de ces phases, on choisira en option les services secondaires que
l’on souhaite ajouter afin de rendre le système plus ergonomique.

Ces systèmes de recherche et d’indexation se révèlent même aujourd’hui être


indispensables pour certains métiers spécifiques (la médecine, le français médiéval, etc.).
A chaque entreprise d’établir son mode de fonctionnement pour connaître ses besoins
réels. De nombreuses sociétés sont spécialisées dans le domaine et proposent du conseil
pour choisir le meilleur produit, inventorier les services secondaires à ajouter ou encore
effectuer l’installation totale du système d’indexation et de recherche (voir ce panorama
d’outils).
[1] Langage naturel par Spirit

10