Académique Documents
Professionnel Documents
Culture Documents
Stéphane Chaudiron
La reproduction ou représentation de cet article, notamment par photocopie, n'est autorisée que dans les
limites des conditions générales d'utilisation du site ou, le cas échéant, des conditions générales de la
© A.D.B.S. | Téléchargé le 05/12/2021 sur www.cairn.info (IP: 194.126.31.24)
Technologies linguistiques
et modes de représentation
de l’information textuelle
1
en rendant explicites les relations l’information électronique
Trois approches sémantiques qui peuvent exister professionnelle. Un des ses terrains
entre les différentes unités infor- de recherche actuels concerne
de la représentation mationnelles que contiennent les l’évaluation des logiciels de veille.
documents ou collections de stephane.chaudiron@univ-lille3.fr
du contenu documents. C’est dans cette voie
que s’inscrivent le défi du « web sémantique » et
• Historiquement, la première approche date l’utilisation des métadonnées (RDF, Dublin Core,
du début du XXe siècle avec ce qu’il est convenu OWL, etc.) qui reposent en grande partie sur le
d’appeler l’explosion documentaire et consiste en langage XML et ses variantes. La question du web
la conception des langages documentaires. Dans sémantique peut être resituée dans la continuité
les années 1950-60, l’irruption du numérique dans des efforts concernant la structuration des docu-
les systèmes documentaires a nécessité le dévelop- ments déployés dans le cadre de SGML, puis de
pement de méthodes et d’outils permettant d’au- XML. Ils ont maintenant abouti à une formalisa-
tomatiser l’indexation contrôlée des premières tion plus fine de la structure des documents, que ce
banques de données bibliographiques informati- soit avec les DTD (document type definitions) ou les
sées. L’indexation contrôlée est donc un processus schémas XML recommandés par le W3C. Tout l’en-
qui consiste à construire une représentation d’un jeu du web sémantique consiste donc à représen-
document en choisissant ses descripteurs dans un ter le contenu informationnel des documents en
langage documentaire préalablement défini (liste amont de la phase de recherche d’information.
© A.D.B.S. | Téléchargé le 05/12/2021 sur www.cairn.info (IP: 194.126.31.24)
2
logiciels de TAL. Certains groupent les niveaux 2, 3
Les technologies et 4 en une seule étape du traitement, alors que
d’autres ne prennent pas en compte certaines des
linguistiques étapes mentionnées (par exemple, le niveau prag-
matique est rarement pris en compte en tant que
La manipulation des documents textuels pour tel mais des connaissances de nature pragmatique
l’extraction de connaissances, pour l’indexation peuvent être intégrées dans les dictionnaires de réfé-
automatique ou pour le résumé est une pratique rence, en particulier les connaissances métiers).
dont l’importance est reconnue depuis longtemps. Enfin, les algorithmes utilisés pour les différents
Ces systèmes de traitement automatique prennent niveaux d’analyse ne procèdent pas tous de la même
en entrée des textes ou ensembles de textes qu’ils manière (analyse descendante ou montante, avec
transforment pour obtenir en sortie une ou plu- ou sans retour arrière, etc.).
sieurs représentations du sens. La tâche essentielle Dans la section qui suit, nous présentons le fonc-
de l’opération de transformation consiste à traduire tionnement des quatre premiers niveaux qui cor-
des documents potentiellement ambigus en repré- respondent actuellement à l’état de l’art des sys-
sentations non ambiguës (à l’exception des ambi- tèmes commerciaux les plus avancés fondés sur les
guïtés structurelles initiales). technologies linguistiques.
La question de la « compréhension » d’un docu-
ment textuel1, qui est au cœur de toute tâche du La segmentation en mots et en phrases
traitement automatique de la langue (TAL), renvoie La première tâche du système consiste à identi-
donc à deux problèmes majeurs : le premier fier les mots puis les phrases constitutifs du texte.
concerne la représentation du sens du texte et le La phrase est en effet, dans la très grande majorité
second la prise en compte du monde de connais- des cas, l’unité linguistique de référence pour l’ana-
sance de référence. Un système de TAL peut donc lyse. Cela n’est pas sans poser de problème dans la
commencer l’analyse au niveau du mot pour en mesure où un texte n’est pas une suite d’énoncés
déterminer la nature et la structure morphologique, isolés les uns des autres mais une suite d’énoncés
continuer au niveau de la phrase pour déterminer co-référencés, c’est-à-dire qui s’articulent et « font
l’ordre des mots, la structure syntaxique et le sens sens » les uns par rapport aux autres. De ce point
de la phrase entière, avant de s’intéresser enfin au de vue, la résolution des problèmes posés par les
contexte et à l’environnement ou au domaine de relations anaphoriques (par exemple, entre un nom
référence. Un mot ou une phrase peut avoir un sens de personne et le pronom qui le désigne dans les
spécifique ou une connotation particulière en fonc- phrases suivantes) est loin d’être évidente.
© A.D.B.S. | Téléchargé le 05/12/2021 sur www.cairn.info (IP: 194.126.31.24)
Inversement, l’énoncé Que mange-t-il ? est consti- taxiques (on parle également de partie du discours,
tué de trois mots et non de quatre. ou de part of speech en anglais) est un problème
Pour éviter ce genre de problème, il convient de extrêmement délicat. Même s’il existe un accord de
distinguer les contextes dans lesquels un caractère fait concernant l’emploi des catégories principales
jour le rôle de séparateur. On obtient une liste de (comme nom, verbe, adjectif, etc.), il n’existe néan-
séparateurs sans condition (virgule, point-virgule, moins pas de norme ni de standard concernant le
points d’exclamation et d’interrogation, etc.) et une nombre, la nature ou l’intitulé de ces catégories. De
liste de caractères dont le rôle varie en fonction du plus, la finesse des catégories dépend des objectifs
contexte (apostrophe, point, tiret, etc.). Une autre poursuivis. Ainsi, dans certains cas, il sera néces-
solution consiste également à fournir la liste des saire de différencier les types de pronoms au sein de
formes pour lesquelles le caractère ne joue pas le la catégorie générale des pronoms personnels alors
rôle de séparateur (comme dans aujourd’hui). que, dans d’autres cas, ce ne sera pas utile. Une autre
La segmentation en phrases obéit au même prin- question concerne la nécessité ou non de segmen-
cipe mais en considérant comme séparateurs les ter en composants élémentaires certaines expres-
ponctuations dites « fortes », à savoir le point, les sions (par exemple, faire marche arrière ou machine
points d’exclamation et d’interrogation et de sus- à vapeur). Dans certaines situations (l’indexation
pension. Comme pour la segmentation en mots, le d’un texte, par exemple), il peut même être utile de
rôle du point est ambigu puisqu’il peut être utilisé considérer comme expression figée ou semi-figée
dans les abréviations : ainsi S.N.C.F. ne correspond un multi-terme (par exemple, crise économique ou
pas à quatre phrases mais bien au sigle correspon- encéphalopathie spongiforme bovine).
dant du transporteur ferroviaire national. Par ailleurs, le français, comme d’autres langues,
La sortie du module de segmentation est un texte possède également une morphologie dérivation-
segmenté en phrases, elles-mêmes segmentées en nelle. Celle-ci définit les règles permettant d’associer
unités qui sont appelées formes de surface (tokens un affixe (suffixe ou préfixe) à une forme de base.
en anglais). Par exemple, le préfixe re peut être utilisé avec de
nombreux verbes comme refaire ou rejouer ; le pré-
L’analyse morphologique fixe in est quant à lui utilisé pour les adjectifs,
L’analyse morphologique consiste à reconnaître comme dans injuste ou insatisfait. De même, un
la structure des formes de surface telles qu’elles ont grand nombre de suffixes existent en français,
été segmentées précédemment puis à leur affecter comme isme, ité ou iste. Les règles de morphologie
une catégorie grammaticale. dérivationnelle sont alors utilisées pour retrouver
La première tâche de l’analyseur morphologique une forme de base et son lemme à partir d’une
est donc de procéder à la lemmatisation des formes forme de surface correspondant, par exemple, à un
de surface appelées « formes fléchies » en référence néologisme rencontré dans un texte, et pour aider
aux flexions qui sont utilisées pour conjuguer les ainsi à son analyse (attribution d’une catégorie syn-
verbes et accorder les adjectifs en genre et en taxique, par exemple).
nombre. Une forme fléchie (par exemple chantais) D’un point de vue logiciel, les analyseurs mor-
correspond à la concaténation de sa forme de base phologiques peuvent relever de deux grands types
(chant-) et de la flexion indiquant la première per- de méthodes. Le premier type concerne les
sonne du singulier à l’indicatif imparfait (-ais). La méthodes à base de règles linguistiques qui utili-
© A.D.B.S. | Téléchargé le 05/12/2021 sur www.cairn.info (IP: 194.126.31.24)
donc la place du lemme dans le réseau qui déter- les sèmes indiquant qu’il s’agit d’œufs d’esturgeon
mine son sens et non pas une description séman- salés est insuffisant et il conviendrait, comme l’in-
tique fine de chacun des lemmes. Un exemple bien dique François Rastier [6, page 63], d’ajouter le
connu est celui du thésaurus, utilisé depuis long- sème luxueux. Mais, avec cet exemple, on voit bien
temps dans le monde documentaire, et qui décrit que les sèmes sont dépendants du type de repré-
les relations existant entre les termes (relations de sentation que l’on donne du monde de référence
synonymie, d’hyponymie, d’hyperonymie, etc.). et du contexte d’usage de l’application qui va mani-
Une extension de cette approche à la langue puler ces connaissances. On retrouve donc d’une
générale a été mise en œuvre dans le projet Word- certaine manière les objections adressées à l’ap-
net réalisé par l’Université de Princeton pour l’an- proche par relations sémantiques pour la question
glais. Une version de ce réseau sémantique est de l’universalité des sèmes. Enfin, se posent égale-
consultable en ligne2 et permet de se rendre compte ment la question de l’adaptation du système de
des relations sémantiques (les synsets) qui sont uti- traits à des domaines de spécialités nouveaux ainsi
lisées. Le tableau ci-dessous donne l’exemple des que celle de la maintenance du dictionnaire com-
relations sémantiques pour le lemme car (voiture portant la description sémantique des termes.
en anglais).
Autant cette approche est très efficace pour • La troisième approche consiste à adopter
décrire des mondes conceptuels fermés (domaines une représentation conceptuelle pivot. Elle est le
de spécialités), autant sa généralisation à la langue plus souvent utilisée dans des applications multi-
générale pose de nombreux et sérieux problèmes. lingues comme les systèmes de traduction auto-
On peut tout d’abord observer que la polysémie de matique ou les systèmes de recherche d’informa-
la plupart des termes, les glissements de sens, les tion interlingue, Cette approche repose sur
nouvelles acceptions rendent difficilement « main- l’hypothèse que le sens d’une phrase peut être
tenable » un réseau de cette taille, sauf à simplifier représenté au moyen d’un langage non spécifique
les relations. Mais, surtout, se pose la question de entièrement indépendant des langues. Ce forma-
l’universalité de la représentation du monde qui lisme peut être composé de symboles, de codes ou,
est sous-jacente au réseau, aussi bien dans le choix fréquemment, de termes empruntés à l’une des
et la nature des relations que dans la place des langues considérées. Ainsi, chaque terme d’une
lemmes les uns par rapport aux autres. langue est associé à un concept pivot qui permet de
générer les termes équivalents dans d’autres
• La deuxième approche consiste à décrire les langues. Par exemple, le terme neige en français
lemmes au moyen de traits sémantiques (ou réfère au concept de /neige/ (peu importe le label
sèmes) qui correspondent à des étiquettes. De qui code le concept) et permet de générer
même que le lemme est décrit, sur le plan syn- le terme snow en anglais, neve en italien, Schnee en
taxique, par sa catégorie morphologique et le allemand, etc.
modèle flexionnel qui lui est associé, il est décrit, Si la mise en œuvre de ce type de système pivot
sur le plan sémantique, par les sèmes qui le carac- est relativement simple, elle pose néanmoins un
térisent. Ainsi, le terme avocat sera affecté des traits sérieux problème linguistique car il n’y a pas de
sémantiques indiquant qu’il peut s’agir d’un fruit ou rapport bi-univoque entre une langue source et une
d’un homme de loi. Si, dans la même phrase, on ren- langue cible (par exemple, le mot neige en français
© A.D.B.S. | Téléchargé le 05/12/2021 sur www.cairn.info (IP: 194.126.31.24)
3
et avoir), soit parce qu’ils sont considérés comme
Les modes de n’étant pas porteurs de sens (les articles, les
adverbes, etc.), soit parce qu’ils relèvent d’un
représentation registre de langue argotique ou trop familier. La
liste de ces mots varie suivant les systèmes d’in-
L’indexation et le résumé sont des techniques dexation et les moteurs de recherche (voir comme
anciennes qui permettent d’organiser le contenu exemple la liste des mots vides utilisée par le
de documents textuels non structurés. Ces deux moteur de recherche du CERIG3).
processus créent une courte description du texte La liste des « mots vides » est donc constituée
original considérée comme une représentation de d’une liste générique dépendante de la langue et
ce texte. L’indexation vise à extraire ou à assigner d’une liste spécifique au domaine de spécialité
à un document un ensemble de termes ou syn- concerné ; cette dernière sera construite à partir des
tagmes qui fonctionnent comme des entrées d’in- mots les plus fréquents et donc les moins discri-
dex. Le résumé vise à produire un petit texte cohé- minants.
rent qui structure l’information contenue dans le
texte source. Des méthodes automatiques simples • La phase de lemmatisation a été traitée page
fondées sur les fréquences d’occurrences permet- 33. Elle permet de diminuer le nombre de candi-
tent d’extraire les mots jugés pertinents pour dats-descripteurs potentiels en ramenant les formes
décrire un document (cas de l’indexation) ou d’ex- fléchies à leur forme canonique, le lemme. Cela a
traire les phrases jugées les plus significatives d’un pour effet d’améliorer le taux de rappel.
document (cas du résumé).
Ce type d’approche statistique intègre de plus • L’étape suivante concerne l’identification des
en plus un module d’analyse morphologique afin syntagmes, et notamment des syntagmes nomi-
© A.D.B.S. | Téléchargé le 05/12/2021 sur www.cairn.info (IP: 194.126.31.24)
• La dernière étape du processus d’indexation concepts issus d’un texte ou d’un flux d’informa-
consiste à affecter un indice d’importance aux tion. Cette approche ascendante ou bottom up de
termes et syntagmes pressentis pour indexer le l’organisation et de la représentation des connais-
document. Le poids affecté à chaque entrée de l’in- sances correspond à une tradition épistémologique
dex dépend de leur importance relative pour fondée sur une approche inductive. Elle réfute en
décrire le document. L’hypothèse initiale est que effet l’hypothèse qu’il est possible d’organiser
l’importance d’un sujet traité dans un texte est rationnellement les objets de connaissance a priori.
reflétée par la fréquence des termes ou syntagmes Dans le domaine de l’analyse textuelle, elle organise
exprimant le sujet en question. Cet indice corres- les documents en fonction des occurrences lexi-
pond à la mesure tf (term frequency). Néanmoins, cales qui sont contenues dans ces mêmes docu-
la seule prise en compte de la fréquence d’occur- ments et non en fonction d’un plan de classement
rences des termes ne suffit pas car, dans certains préexistant.
documents, la fréquence d’un terme peut être si La construction automatique d’agrégats donne
élevée que celui-ci n’est plus discriminant pour lieu à des représentations diverses. Une représen-
représenter le document. Par exemple, le terme lin- tation fréquente des clusters se fait en particulier
guistique n’est pas pertinent pour caractériser un sous forme d’une visualisation de l’information,
article de linguistique. Donc, au-delà d’un certain parfois sous forme de cartes, dont l’objectif est d’ai-
seuil, plus un terme est fréquent, moins il est per- der à appréhender rapidement un important
tinent pour décrire le document dans lequel il volume d’informations textuelles. Différents logi-
figure. ciels de veille proposent ainsi de cartographier
Un deuxième facteur intervient alors, qui va cal- automatiquement des documents textuels à partir
culer le nombre d’occurrences du terme dans l’en- de la construction d’agrégats afin d’en faciliter l’ana-
semble du fonds documentaire auquel appartient le lyse. Cette approche est connue sous le nom de
document concerné. Cet indice est fourni par la cartographie décisionnelle.
mesure idf (inverse document factor). C’est donc le Cette technique de représentation est également
rapport entre la fréquence du terme dans le docu- utilisée pour visualiser les résultats d’une recherche
ment et sa fréquence dans l’ensemble de la collec- d’informations en ligne. Ainsi, plusieurs moteurs
tion qui fournit son poids. Cette mesure de pon- graphiques sont actuellement disponibles sur Inter-
dération très fréquente est donnée par la formule net afin de faciliter le processus de recherche d’in-
tf*idf. Elle exprime le fait qu’un bon candidat-des- formation.
cripteur est un terme qui apparaît souvent dans le
document en cours d’indexation mais rarement La catégorisation de documents
dans les documents de la collection. À l’inverse de la classification, la catégorisation
À partir de cette formule de base, d’autres fonc- consiste à classer des textes en fonction d’un
tions ont ensuite été proposées, qui intègrent dif- ensemble préexistant de catégories structurées,
férents paramètres tels que la longueur des docu- organisées et éventuellement hiérarchisées.
ments, le pouvoir discriminant des termes, la Ce traitement, principalement fondé sur une
probabilité d’apparition des termes dans les docu- identification des termes du document, vise à assi-
ments pertinents et non pertinents, etc. gner automatiquement un document ou un flux
entrant d’informations textuelles dans le plan de
© A.D.B.S. | Téléchargé le 05/12/2021 sur www.cairn.info (IP: 194.126.31.24)