Docsi 441 0030

Etude
TECHNOLOGIES LINGUISTIQUES ET MODES DE REPRÉSENTATION DE

L'INFORMATION TEXTUELLE
Stéphane Chaudiron
A.D.B.S. | « Documentaliste-Sciences de l'Information »
2007/1 Vol. 44 | pages 30 à 39

ISSN 0012-4508
DOI 10.3917/docsi.441.0030
Article disponible en ligne à l'adresse :
--------------------------------------------------------------------------------------------------------------------
https://www.cairn.info/revue-documentaliste-sciences-de-l-
information-2007-1-page-30.htm
--------------------------------------------------------------------------------------------------------------------
Distribution électronique Cairn.info pour A.D.B.S..

© A.D.B.S.. Tous droits réservés pour tous pays.
La reproduction ou représentation de cet article, notamment par photocopie, n'est autorisée que dans les
limites des conditions générales d'utilisation du site ou, le cas échéant, des conditions générales de la
© A.D.B.S. | Téléchargé le 05/12/2021 sur www.cairn.info (IP: 194.126.31.24)

licence souscrite par votre établissement. Toute autre reproduction ou représentation, en tout ou partie,
sous quelque forme et de quelque manière que ce soit, est interdite sauf accord préalable et écrit de
l'éditeur, en dehors des cas prévus par la législation en vigueur en France. Il est précisé que son stockage
dans une base de données est également interdit.
Powered by TCPDF (www.tcpdf.org)

ÉTUDE
Qu’apportent les technologies linguistiques à la représentation du par STÉPHANE CHAUDIRON

contenu de documents textuels ? Stéphane Chaudiron brosse d’abord un panorama des
outils de traitement automatique de la langue (TAL) et présente le fonctionnement
classique de tels logiciels, en insistant sur les principales étapes du traitement. Puis il
se penche sur les différents modes de représentation automatique d’un document
textuel – autant de tâches professionnelles que les technologies du TAL peuvent assister :
indexation, classification, catégorisation et résumé. Il s’interroge enfin sur la nature
exacte de ces technologies linguistiques et sur les critères qui permettraient d’évaluer
leur apport au regard de celui d’autres technologies.
Technologies linguistiques
et modes de représentation
de l’information textuelle
IDENTIFIER L’INFORMATION PERTINENTE et

y accéder sont des tâches de plus en plus com-
plexes, compte tenu d’une part du volume croissant
d’informations électroniques disponibles, tant sur

Internet que sur les intranets d’entreprises, et
d’autre part de l’extrême hétérogénéité des gise-
ments d’information (sources structurées ou non,
granularité documentaire variable, multiplicité des
formats d’enregistrement et de codage, multilin-
guisme, etc.).
Ainsi, face à cette surinformation et à la déso-
rientation cognitive qu’elle engendre chez les uti-
lisateurs, l’information est d’abord un processus
d’élimination de l’information. Elle réduit le
désordre d’un trop grand nombre de messages exté-
rieurs en discriminant entre les choix possibles
d’interprétation et d’action et en faisant apparaître
une sorte de « nouvel ordre » où l’éventail des pos-
sibilités est réduit à une seule. Accéder à l’infor-
mation qui correspond au besoin informationnel
du moment consiste donc à rendre « saillante »
une information par rapport aux autres.
Internet est le lieu emblématique de ce désordre
30 • Documentaliste - Sciences de l’information 2007, vol. 44, n° 1

La représentation
des contenus
informationnel. La croissance de la quantité d’in- niques statistiques permettant un calcul de fré-

formation dans ses multiples sphères (sites web, quence, cette approche identifie des chaînes de
bases de données, forums, blogs, wikis, etc.) caractères (tokens) et non des unités sémantiques
engendre un sentiment d’incertitude qui est devenu (concepts), excluant de fait tout
l’état cognitif « normal » de tout usager, mais plus traitement linguistique. Ainsi, les
encore du documentaliste ou du « veilleur » qui phénomènes d’homonymie, de Stéphane Chaudiron
craint de « passer à côté » de l’information straté- polysémie ou de synonymie ne est professeur en sciences de
gique. Pour tenter de créer du sens à partir de ce sont généralement pas traités. l’information et de la communication
désordre informationnel et aider l’usager, profes- Pour pallier ces limites, les tech- à l’Université Charles de Gaulle Lille-
sionnel ou non, à s’orienter, le défi majeur est celui nologies linguistiques proposent 3, et membre du laboratoire GERIICO
de la représentation de l’information. des solutions qui s’attachent à (Groupe d’études et de recherche
Cette question n’est évidemment pas nouvelle « traiter » le contenu informa- interdisciplinaire en information et
mais se pose de manière renouvelée compte tenu tionnel des documents en prenant communication). Ses travaux de
du volume croissant d’information électronique en compte les niveaux morpholo- recherche portent sur l’analyse du
disponible et de son hétérogénéité. Trois voies sont gique, syntaxique et sémantique rôle et de la place des technologies
explorées pour représenter, chacune de manière de la langue. numériques dans la construction du
différente, le contenu informationnel d’un docu- savoir. Il s’intéresse en particulier à
ment ou d’une collection de documents. • La troisième voie consiste à la question de l’usage des dispositifs
structurer les sources d’informa- techniques dans la production, le
tions, notamment celles du Web, traitement et la diffusion de
1
en rendant explicites les relations l’information électronique
Trois approches sémantiques qui peuvent exister professionnelle. Un des ses terrains
entre les différentes unités infor- de recherche actuels concerne
de la représentation mationnelles que contiennent les l’évaluation des logiciels de veille.
documents ou collections de stephane.chaudiron@univ-lille3.fr
du contenu documents. C’est dans cette voie
que s’inscrivent le défi du « web sémantique » et
• Historiquement, la première approche date l’utilisation des métadonnées (RDF, Dublin Core,
du début du XXe siècle avec ce qu’il est convenu OWL, etc.) qui reposent en grande partie sur le
d’appeler l’explosion documentaire et consiste en langage XML et ses variantes. La question du web
la conception des langages documentaires. Dans sémantique peut être resituée dans la continuité
les années 1950-60, l’irruption du numérique dans des efforts concernant la structuration des docu-
les systèmes documentaires a nécessité le dévelop- ments déployés dans le cadre de SGML, puis de
pement de méthodes et d’outils permettant d’au- XML. Ils ont maintenant abouti à une formalisa-
tomatiser l’indexation contrôlée des premières tion plus fine de la structure des documents, que ce
banques de données bibliographiques informati- soit avec les DTD (document type definitions) ou les
sées. L’indexation contrôlée est donc un processus schémas XML recommandés par le W3C. Tout l’en-
qui consiste à construire une représentation d’un jeu du web sémantique consiste donc à représen-
document en choisissant ses descripteurs dans un ter le contenu informationnel des documents en
langage documentaire préalablement défini (liste amont de la phase de recherche d’information.

de descripteurs, thésaurus, etc.). Cette indexation
évite l’utilisation de descripteurs non autorisés et Ces trois approches de la représentation du
assure ainsi une représentation homogène des contenu concourent à faciliter la recherche d’in-
documents. En théorie, elle réduit le silence lors formation et peuvent être utilisées de manière com-
de l’interrogation de la base documentaire bien que plémentaire. Lors de la production des documents,
diverses expérimentations aient néanmoins montré des métadonnées peuvent leur être assignées, qui
qu’il existe une réelle variabilité dans le choix des contribueront ensuite à leur indexation. De même,
descripteurs par les professionnels. une interface en langage naturel peut faciliter l’in-
terrogation d’un index, que celui-ci soit construit
• Largement popularisée par les moteurs de dans le cadre d’un processus d’indexation contrô-
recherche sur le Web, la deuxième voie consiste à lée ou d’indexation libre reposant sur des techno-
représenter les documents repérés par le crawler logies statistiques. Enfin, de plus en plus de sys-
d’un moteur par les mots contenus dans ces docu- tèmes statistiques de recherche d’information
ments. Cette indexation libre consiste à extraire intègrent des modules linguistiques.
automatiquement du document des unités qui sont Dans cet article, nous nous concentrerons sur
considérées comme des candidats-descripteurs. l’apport des technologies linguistiques à la repré-
Parmi ceux-ci, le système d’indexation choisit sentation des documents textuels. Dans la
ensuite les plus significatifs comme descripteurs première partie, nous présenterons le fonctionne-
du document. Fondée essentiellement sur des tech- ment classique d’un logiciel de traitement auto-
Documentaliste - Sciences de l’information 2007, vol. 44, n° 1 • 31

ÉTUDE TECHNOLOGIES LINGUISTIQUES ET MODES DE REPRÉSENTATION DE L’INFORMATION TEXTUELLE
matique de la langue, en insistant en particulier sur ture discursive et argumentative du document ;

les principales étapes du traitement. Puis, dans la - le niveau pragmatique qui traite du monde de
seconde partie, nous présenterons différents modes connaissance de référence, c’est-à-dire qui prend en
de représentation automatique d’un document tex- compte les informations extra-linguistiques qui
tuel : l’indexation, la classification, la catégorisa- peuvent contribuer à la compréhension du texte.
tion et le résumé. Cette décomposition en six niveaux est bien sûr
toute théorique. Elle ne correspond pas nécessaire-
ment au mode de fonctionnement réel de tous les
2
logiciels de TAL. Certains groupent les niveaux 2, 3
Les technologies et 4 en une seule étape du traitement, alors que
d’autres ne prennent pas en compte certaines des
linguistiques étapes mentionnées (par exemple, le niveau prag-
matique est rarement pris en compte en tant que
La manipulation des documents textuels pour tel mais des connaissances de nature pragmatique
l’extraction de connaissances, pour l’indexation peuvent être intégrées dans les dictionnaires de réfé-
automatique ou pour le résumé est une pratique rence, en particulier les connaissances métiers).
dont l’importance est reconnue depuis longtemps. Enfin, les algorithmes utilisés pour les différents
Ces systèmes de traitement automatique prennent niveaux d’analyse ne procèdent pas tous de la même
en entrée des textes ou ensembles de textes qu’ils manière (analyse descendante ou montante, avec
transforment pour obtenir en sortie une ou plu- ou sans retour arrière, etc.).
sieurs représentations du sens. La tâche essentielle Dans la section qui suit, nous présentons le fonc-
de l’opération de transformation consiste à traduire tionnement des quatre premiers niveaux qui cor-
des documents potentiellement ambigus en repré- respondent actuellement à l’état de l’art des sys-
sentations non ambiguës (à l’exception des ambi- tèmes commerciaux les plus avancés fondés sur les
guïtés structurelles initiales). technologies linguistiques.
La question de la « compréhension » d’un docu-
ment textuel1, qui est au cœur de toute tâche du La segmentation en mots et en phrases
traitement automatique de la langue (TAL), renvoie La première tâche du système consiste à identi-
donc à deux problèmes majeurs : le premier fier les mots puis les phrases constitutifs du texte.
concerne la représentation du sens du texte et le La phrase est en effet, dans la très grande majorité
second la prise en compte du monde de connais- des cas, l’unité linguistique de référence pour l’ana-
sance de référence. Un système de TAL peut donc lyse. Cela n’est pas sans poser de problème dans la
commencer l’analyse au niveau du mot pour en mesure où un texte n’est pas une suite d’énoncés
déterminer la nature et la structure morphologique, isolés les uns des autres mais une suite d’énoncés
continuer au niveau de la phrase pour déterminer co-référencés, c’est-à-dire qui s’articulent et « font
l’ordre des mots, la structure syntaxique et le sens sens » les uns par rapport aux autres. De ce point
de la phrase entière, avant de s’intéresser enfin au de vue, la résolution des problèmes posés par les
contexte et à l’environnement ou au domaine de relations anaphoriques (par exemple, entre un nom
référence. Un mot ou une phrase peut avoir un sens de personne et le pronom qui le désigne dans les
spécifique ou une connotation particulière en fonc- phrases suivantes) est loin d’être évidente.

tion d’un contexte ou d’un domaine et peut être en La segmentation en mots (tokenisation en
résonance avec d’autres mots ou d’autres phrases anglais) vise tout d’abord à reconnaître puis regrou-
dans un contexte donné ou en fonction d’un usage per les chaînes de caractères alphabétiques [a…z],
particulier. [A…Z] ainsi que les différents caractères avec leurs
Pour effectuer une tâche de TAL, on distingue signes diacritiques comme les lettres accentuées,
classiquement (pour la langue écrite) six niveaux de numériques [0…9] et typographiques [ ?, ;. etc.]
traitement : pour former des unités lexicales. Le principe
- le niveau de la segmentation en mots et en consiste donc à identifier préalablement les signes
phrases ; qui vont jouer le rôle de séparateurs entre les uni-
- le niveau morphologique qui traite de la manière tés lexicales.
dont sont constituées les unités lexicales (flexion, Ainsi, si on considère que les quatre caractères
dérivation, composition, etc.) et vise à déterminer apostrophe, espace, tiret et point d’interrogation
la catégorie de discours de l’unité considérée ; sont des séparateurs, l’énoncé L’entends-tu ? est
- le niveau syntaxique qui détermine la structure constitué de trois mots. Cette liste de séparateurs
des phrases en fonction de la grammaire de réfé- pose néanmoins un problème avec l’énoncé Que
rence ; fais-tu aujourd’hui ? qui serait segmenté en cinq mots
- le niveau sémantique qui traite du sens des mots avec aujourd’hui considéré comme deux mots.
et des phrases ;
- le niveau du discours qui vise à identifier la struc- 1 Pour une présentation plus détaillée, voir [2].

La représentation
des contenus
Inversement, l’énoncé Que mange-t-il ? est consti- taxiques (on parle également de partie du discours,
tué de trois mots et non de quatre. ou de part of speech en anglais) est un problème
Pour éviter ce genre de problème, il convient de extrêmement délicat. Même s’il existe un accord de
distinguer les contextes dans lesquels un caractère fait concernant l’emploi des catégories principales
jour le rôle de séparateur. On obtient une liste de (comme nom, verbe, adjectif, etc.), il n’existe néan-
séparateurs sans condition (virgule, point-virgule, moins pas de norme ni de standard concernant le
points d’exclamation et d’interrogation, etc.) et une nombre, la nature ou l’intitulé de ces catégories. De
liste de caractères dont le rôle varie en fonction du plus, la finesse des catégories dépend des objectifs
contexte (apostrophe, point, tiret, etc.). Une autre poursuivis. Ainsi, dans certains cas, il sera néces-
solution consiste également à fournir la liste des saire de différencier les types de pronoms au sein de
formes pour lesquelles le caractère ne joue pas le la catégorie générale des pronoms personnels alors
rôle de séparateur (comme dans aujourd’hui). que, dans d’autres cas, ce ne sera pas utile. Une autre
La segmentation en phrases obéit au même prin- question concerne la nécessité ou non de segmen-
cipe mais en considérant comme séparateurs les ter en composants élémentaires certaines expres-
ponctuations dites « fortes », à savoir le point, les sions (par exemple, faire marche arrière ou machine
points d’exclamation et d’interrogation et de sus- à vapeur). Dans certaines situations (l’indexation
pension. Comme pour la segmentation en mots, le d’un texte, par exemple), il peut même être utile de
rôle du point est ambigu puisqu’il peut être utilisé considérer comme expression figée ou semi-figée
dans les abréviations : ainsi S.N.C.F. ne correspond un multi-terme (par exemple, crise économique ou
pas à quatre phrases mais bien au sigle correspon- encéphalopathie spongiforme bovine).
dant du transporteur ferroviaire national. Par ailleurs, le français, comme d’autres langues,
La sortie du module de segmentation est un texte possède également une morphologie dérivation-
segmenté en phrases, elles-mêmes segmentées en nelle. Celle-ci définit les règles permettant d’associer
unités qui sont appelées formes de surface (tokens un affixe (suffixe ou préfixe) à une forme de base.
en anglais). Par exemple, le préfixe re peut être utilisé avec de
nombreux verbes comme refaire ou rejouer ; le pré-
L’analyse morphologique fixe in est quant à lui utilisé pour les adjectifs,
L’analyse morphologique consiste à reconnaître comme dans injuste ou insatisfait. De même, un
la structure des formes de surface telles qu’elles ont grand nombre de suffixes existent en français,
été segmentées précédemment puis à leur affecter comme isme, ité ou iste. Les règles de morphologie
une catégorie grammaticale. dérivationnelle sont alors utilisées pour retrouver
La première tâche de l’analyseur morphologique une forme de base et son lemme à partir d’une
est donc de procéder à la lemmatisation des formes forme de surface correspondant, par exemple, à un
de surface appelées « formes fléchies » en référence néologisme rencontré dans un texte, et pour aider
aux flexions qui sont utilisées pour conjuguer les ainsi à son analyse (attribution d’une catégorie syn-
verbes et accorder les adjectifs en genre et en taxique, par exemple).
nombre. Une forme fléchie (par exemple chantais) D’un point de vue logiciel, les analyseurs mor-
correspond à la concaténation de sa forme de base phologiques peuvent relever de deux grands types
(chant-) et de la flexion indiquant la première per- de méthodes. Le premier type concerne les
sonne du singulier à l’indicatif imparfait (-ais). La méthodes à base de règles linguistiques qui utili-

morphologie flexionnelle donne l’ensemble des sent les connaissances linguistiques propres à la
règles permettant d’associer les formes de base avec langue considérée pour déterminer l’attribution des
les flexions, pour les verbes, les noms et les adjec- catégories. Un travail important de description lin-
tifs. guistique est donc nécessaire en amont pour for-
Ainsi, à partir des formes fléchies du texte, le maliser les connaissances dans les règles d’attribu-
lemmatiseur va identifier la forme de base et le tion. Le second type correspond aux méthodes par
lemme de référence (par exemple, la forme infini- apprentissage où les analyseurs sont entraînés sur
tive des verbes ou l’adjectif au masculin singulier des corpus traités manuellement. Ainsi, lorsque le
par convention) et la flexion qui lui est associée. logiciel a identifié une catégorie pour une forme
L’analyse morphologique du français nécessite de donnée, il disposera de la probabilité la plus forte
connaître les formes de base constituant les formes pour trouver la catégorie suivante. Pour ces
fléchies ainsi que les modèles flexionnels. Pour cela, méthodes, plus les corpus d’entraînement sont
un dictionnaire flexionnel peut être utilisé, qui asso- importants et diversifiés, meilleurs sont les
cie la forme de base, le lemme de référence et le résultats.
modèle flexionnel. À la sortie du module d’analyse morphologique,
La seconde tâche de l’analyseur morphologique le texte apparaît sous la forme d’une liste de lemmes
est d’attribuer une catégorie ou étiquette syntaxique avec leur catégorie syntaxique et les informations
à chacune des formes fléchies identifiées (nom, morphologiques nécessaires.
verbe, adjectif, etc.). Le choix des catégories syn-

L’analyse syntaxique permettent à la fois de rendre compte de manière

Le rôle de l’analyse syntaxique est d’abord d’iden- souple des différentes manières de composer un
tifier les différents éléments constitutifs de la phrase même syntagme et d’exprimer les diverses structures
(appelés syntagmes ou constituants), puis de de constituants qui sont acceptables pour une
construire la structure globale de l’énoncé. Pour ce phrase. Le pouvoir d’expression de ces grammaires
faire, l’analyse est régie par une grammaire de la est beaucoup plus important que la méthode des
langue qui est utilisée au niveau local pour la patrons. En effet, ces grammaires de constituants
construction des syntagmes et au niveau global (dont il existe de très nombreuses versions) per-
pour l’attribution des rôles syntaxiques à chacun mettent de dériver plusieurs constituants à partir
des syntagmes (groupe sujet, groupe verbal, groupe d’une seule règle. Ces règles de réécriture sont
complément, etc.). constituées de deux parties : une partie gauche qui
L’identification des syntagmes, et particulière- correspond à l’un des symboles utilisés pour dési-
ment des syntagmes nominaux, correspond à un gner les constituants et une partie droite qui indique
enjeu important dans la mesure où de nombreux la suite de constituants ou de catégories syntaxiques
systèmes utilisent ces derniers comme candidats- attendus. Par exemple, GN (qui signifie groupe nomi-
descripteurs pour représenter le contenu informa- nal) pourra se réécrire par la suite Déterminant Nom
tionnel d’un texte. Dans cette liste de candidats, le Adjectif ou Déterminant Adjectif Nom ou Nom propre;
système détermine ensuite ceux qui possèdent les GV (groupe verbal) se réécrit Verbe suivi de GN.
propriétés pour devenir les descripteurs. Pour ce
faire, le système peut recourir à un calcul de fré- Un aspect important de ce formalisme est la pos-
quence ou à une comparaison avec un vocabulaire sibilité d’utiliser les symboles non terminaux dans
contrôlé, une liste d’autorités ou un thésaurus. Cette la partie droite de la règle, permettant ainsi d’ex-
extraction de syntagmes ou groupes nominaux plus primer la récursivité. Cette fonction augmente la
ou moins complexes est utilisée bien sûr par les sys- puissance d’expression des grammaires en autori-
tèmes d’indexation automatique, mais également sant l’analyse de syntagmes de longueur variable.
par certains types de systèmes de « résumé » auto- Ainsi, l’exemple un logiciel de traitement automa-
matique. Le « résumé » obtenu est alors moins une tique des langues naturelles est reconnu par la gram-
véritable « condensation » du texte source qu’une maire suivante où l’on constate la récursivité par la
suite d’extraits jugés suffisamment significatifs pour présence des symboles GN et GP (pour groupe pré-
constituer ce que certains appellent une « signa- posionnel) à gauche et des règles à droite :
ture » du texte. GN → Déterminant + Nom + GP
Pour constituer ces syntagmes, deux grandes GN → Nom + Adjectif
familles de méthodes peuvent être utilisées. GP → Préposition + GN
L’intérêt de ces grammaires réside à la fois dans
• D’une part, les méthodes fondées sur l’utili- leur grande souplesse d’écriture et dans leur pouvoir
sation de « patrons » (patterns en anglais) où la d’expression. Inversement, elles ont tendance à pro-
structure syntaxique est définie à l’avance (par poser de nombreuses analyses pour les phrases
exemple, les groupes nominaux constitués de la complexes (suggérant en particulier différentes
suite <Nom Adjectif Adjectif> comme encéphalopa- solutions pour le rattachement des GP en cascade).
thie spongiforme bovine). La méthode des patrons L’ajout d’une nouvelle règle impose de procéder à

peut également être utilisée pour détecter dans un des tests de non-régression afin de vérifier que la
document ou un flux informationnel comme une règle n’a pas d’effet de bord sur l’ensemble de la
dépêche de presse des événements à surveiller. Dans grammaire.
le cadre d’une veille économique, on peut, par
exemple, construire des patrons syntaxiques per- L’analyse sémantique
mettant de repérer les opérations de rachat d’entre- Le quatrième niveau de l’analyse linguistique
prises (un exemple très simplifié peut être : Entre- concerne le traitement sémantique du document
prise1 a racheté Entreprise2). La méthode des et vise à en identifier le sens intrinsèque. Alors que
patrons, qu’ils soient génériques ou spécifiques, est l’analyse syntaxique définit l’acceptabilité gram-
efficace car le traitement effectué prend en compte maticale des phrases, l’analyse sémantique permet
le contexte immédiat. Inversement, elle risque d’ex- de « calculer » leur sens en utilisant soit un système
clure des informations qui pourraient être impor- de relations (graphe conceptuel, réseau séman-
tantes et qui se trouvent, par exemple, dans un tique), soit un système de traits sémantiques, soit
constituant non identifié par le patron, ou dans le une représentation conceptuelle pivot.
verbe de la phrase s’il s’agit d’un patron uniquement
destiné à extraire les syntagmes nominaux. • La première approche consiste à établir des
relations de significations entre les lemmes. C’est
• Le second type de méthodes repose sur des
grammaires à base de règles de réécriture. Elles 2 http://wordnet.princeton.edu

La représentation
des contenus
donc la place du lemme dans le réseau qui déter- les sèmes indiquant qu’il s’agit d’œufs d’esturgeon
mine son sens et non pas une description séman- salés est insuffisant et il conviendrait, comme l’in-
tique fine de chacun des lemmes. Un exemple bien dique François Rastier [6, page 63], d’ajouter le
connu est celui du thésaurus, utilisé depuis long- sème luxueux. Mais, avec cet exemple, on voit bien
temps dans le monde documentaire, et qui décrit que les sèmes sont dépendants du type de repré-
les relations existant entre les termes (relations de sentation que l’on donne du monde de référence
synonymie, d’hyponymie, d’hyperonymie, etc.). et du contexte d’usage de l’application qui va mani-
Une extension de cette approche à la langue puler ces connaissances. On retrouve donc d’une
générale a été mise en œuvre dans le projet Word- certaine manière les objections adressées à l’ap-
net réalisé par l’Université de Princeton pour l’an- proche par relations sémantiques pour la question
glais. Une version de ce réseau sémantique est de l’universalité des sèmes. Enfin, se posent égale-
consultable en ligne2 et permet de se rendre compte ment la question de l’adaptation du système de
des relations sémantiques (les synsets) qui sont uti- traits à des domaines de spécialités nouveaux ainsi
lisées. Le tableau ci-dessous donne l’exemple des que celle de la maintenance du dictionnaire com-
relations sémantiques pour le lemme car (voiture portant la description sémantique des termes.
en anglais).
Autant cette approche est très efficace pour • La troisième approche consiste à adopter
décrire des mondes conceptuels fermés (domaines une représentation conceptuelle pivot. Elle est le
de spécialités), autant sa généralisation à la langue plus souvent utilisée dans des applications multi-
générale pose de nombreux et sérieux problèmes. lingues comme les systèmes de traduction auto-
On peut tout d’abord observer que la polysémie de matique ou les systèmes de recherche d’informa-
la plupart des termes, les glissements de sens, les tion interlingue, Cette approche repose sur
nouvelles acceptions rendent difficilement « main- l’hypothèse que le sens d’une phrase peut être
tenable » un réseau de cette taille, sauf à simplifier représenté au moyen d’un langage non spécifique
les relations. Mais, surtout, se pose la question de entièrement indépendant des langues. Ce forma-
l’universalité de la représentation du monde qui lisme peut être composé de symboles, de codes ou,
est sous-jacente au réseau, aussi bien dans le choix fréquemment, de termes empruntés à l’une des
et la nature des relations que dans la place des langues considérées. Ainsi, chaque terme d’une
lemmes les uns par rapport aux autres. langue est associé à un concept pivot qui permet de
générer les termes équivalents dans d’autres
• La deuxième approche consiste à décrire les langues. Par exemple, le terme neige en français
lemmes au moyen de traits sémantiques (ou réfère au concept de /neige/ (peu importe le label
sèmes) qui correspondent à des étiquettes. De qui code le concept) et permet de générer
même que le lemme est décrit, sur le plan syn- le terme snow en anglais, neve en italien, Schnee en
taxique, par sa catégorie morphologique et le allemand, etc.
modèle flexionnel qui lui est associé, il est décrit, Si la mise en œuvre de ce type de système pivot
sur le plan sémantique, par les sèmes qui le carac- est relativement simple, elle pose néanmoins un
térisent. Ainsi, le terme avocat sera affecté des traits sérieux problème linguistique car il n’y a pas de
sémantiques indiquant qu’il peut s’agir d’un fruit ou rapport bi-univoque entre une langue source et une
d’un homme de loi. Si, dans la même phrase, on ren- langue cible (par exemple, le mot neige en français

contre le lemme plaider affecté des traits séman- se traduit par de nombreux termes différents en
tiques indiquant qu’il s’agit d’une prise de parole finnois, selon sa qualité, sa température, etc.).
pour défendre un accusé, seule l’acception homme La description sémantique des lemmes s’avère
de loi sera retenue. donc une tâche extrêmement difficile et coûteuse.
La compatibilité des traits sémantiques entre les Mais, même si les nombreuses questions théoriques
lemmes d’une même phrase est vérifiée dans un rapidement évoquées ci-dessus n’ont toujours pas
processus d’unification. L’unification vérifie qu’il trouvé de réponses évidentes, des systèmes lin-
existe un même trait (ou ensemble de traits) com- guistiques intégrant le niveau d’analyse sémantique
mun aux différents lemmes de la phrase pour sont désormais opérationnels. D’un point de
conclure à la validité de celle-ci. Par exemple, le
syntagme l’avocat marron est accepté car marron
comporte le sème malhonnête alors que le syntagme EXEMPLE DE RELATIONS SEMANTIQUES POUR LE LEMME CAR
l’avocat bleu ne sera pas accepté. • S: (n) car, auto, automobile, machine, motorcar (a motor vehicle with four wheels;
Si le principe de fonctionnement de l’approche usually propelled by an internal combustion engine) "he needs a car to get to work"
par traits sémantiques est simple, sa mise en œuvre direct hyponym / full hyponym
s’avère délicate. D’une part, il est impossible de part meronym
déterminer a priori tous les sèmes qui seront néces- domain term category
saires pour les différentes applications. Par direct hypernym / inherited hypernym / sister term
exemple, définir le terme caviar uniquement avec derivationally related form

vue fonctionnel, l’apport de la sémantique permet - éventuellement, remplacement des candidats-des-

de désambiguïser les textes qui sont analysés. Du cripteurs (mots et syntagmes) par les termes du
point de vue de l’usager, la décision de recourir à thésaurus du domaine (dans ce cas, l’indexation
ces approches dépend de plusieurs critères : redevient contrôlée).
- la délimitation conceptuelle du domaine : plus le
domaine est spécialisé, bien délimité, meilleurs • Nous ne reviendrons pas sur la première étape
sont les résultats ; qui a déjà été décrite pages 32-33.
- l’évolutivité du domaine : plus le domaine est
stable, moins le système de représentation séman- • Par contre, la deuxième étape qui concerne
tique devra évoluer, moins la maintenance sera fas- l’élimination des mots dits « vides » ou « outils »
tidieuse ; pose problème. En effet, d’un strict point de vue
- le volume des données à traiter : on ne peut guère linguistique, il n’existe pas de « mot vide »
envisager un traitement sémantique complexe pour (stopword en anglais) ; toute forme de surface repé-
l’indexation du Web, mais traiter un intranet d’en- rable dans un texte a une fonction linguistique. La
treprise ne pose aucun problème. fonction d’une liste de « mots vides » est d’identi-
fier les mots qui ne seront pas indexés, soit parce
qu’ils sont d’usage très courant (les auxiliaires être
3
et avoir), soit parce qu’ils sont considérés comme
Les modes de n’étant pas porteurs de sens (les articles, les
adverbes, etc.), soit parce qu’ils relèvent d’un
représentation registre de langue argotique ou trop familier. La
liste de ces mots varie suivant les systèmes d’in-
L’indexation et le résumé sont des techniques dexation et les moteurs de recherche (voir comme
anciennes qui permettent d’organiser le contenu exemple la liste des mots vides utilisée par le
de documents textuels non structurés. Ces deux moteur de recherche du CERIG3).
processus créent une courte description du texte La liste des « mots vides » est donc constituée
original considérée comme une représentation de d’une liste générique dépendante de la langue et
ce texte. L’indexation vise à extraire ou à assigner d’une liste spécifique au domaine de spécialité
à un document un ensemble de termes ou syn- concerné ; cette dernière sera construite à partir des
tagmes qui fonctionnent comme des entrées d’in- mots les plus fréquents et donc les moins discri-
dex. Le résumé vise à produire un petit texte cohé- minants.
rent qui structure l’information contenue dans le
texte source. Des méthodes automatiques simples • La phase de lemmatisation a été traitée page
fondées sur les fréquences d’occurrences permet- 33. Elle permet de diminuer le nombre de candi-
tent d’extraire les mots jugés pertinents pour dats-descripteurs potentiels en ramenant les formes
décrire un document (cas de l’indexation) ou d’ex- fléchies à leur forme canonique, le lemme. Cela a
traire les phrases jugées les plus significatives d’un pour effet d’améliorer le taux de rappel.
document (cas du résumé).
Ce type d’approche statistique intègre de plus • L’étape suivante concerne l’identification des
en plus un module d’analyse morphologique afin syntagmes, et notamment des syntagmes nomi-

de traiter les lemmes et non les formes fléchies. naux, dont nous avons présenté les méthodes d’ex-
Parfois également, elle peut recourir à l’analyse syn- traction page 33. Comme nous l’avons indiqué,
taxique afin d’identifier les syntagmes jugés perti- l’idée d’utiliser les syntagmes comme descripteurs
nents (par exemple le GN). est fondée sur l’hypothèse qu’ils sont plus signi-
fiants que les mots simples. L’utilisation des syn-
L’indexation automatique tagmes comme entrées d’index améliore le taux de
L’indexation automatique peut être libre (utili- précision dans la recherche d’information parce
sation des mots du document) ou contrôlée (utili- qu’ils sont moins ambigus que les termes simples
sation des descripteurs issus d’une liste préalable- (l’expression pierre à fusil est en effet plus précise
ment définie). que les deux mots pris isolément). Enfin, une fois
Les six étapes classiques du processus d’in- les syntagmes identifiés et extraits, il est nécessaire
dexation libre sont les suivantes : de les normaliser afin de s’assurer que les syn-
- segmentation des mots de la phrase ; tagmes indexant le document et ceux qui seront
- élimination des mots vides ; identifiés lors de l’analyse de la requête seront
- lemmatisation des formes fléchies ; homogènes. Un même syntagme peut connaître
- identification des syntagmes comme candidats- des variations lexicales, morphologiques et/ou syn-
descripteurs ; taxiques.
- pondération des mots, syntagmes ou descripteurs
retenus ; 3 http://cerig.efpg.inpg.fr/Recherche/mots-vides.htm

La représentation
des contenus
• La dernière étape du processus d’indexation concepts issus d’un texte ou d’un flux d’informa-
consiste à affecter un indice d’importance aux tion. Cette approche ascendante ou bottom up de
termes et syntagmes pressentis pour indexer le l’organisation et de la représentation des connais-
document. Le poids affecté à chaque entrée de l’in- sances correspond à une tradition épistémologique
dex dépend de leur importance relative pour fondée sur une approche inductive. Elle réfute en
décrire le document. L’hypothèse initiale est que effet l’hypothèse qu’il est possible d’organiser
l’importance d’un sujet traité dans un texte est rationnellement les objets de connaissance a priori.
reflétée par la fréquence des termes ou syntagmes Dans le domaine de l’analyse textuelle, elle organise
exprimant le sujet en question. Cet indice corres- les documents en fonction des occurrences lexi-
pond à la mesure tf (term frequency). Néanmoins, cales qui sont contenues dans ces mêmes docu-
la seule prise en compte de la fréquence d’occur- ments et non en fonction d’un plan de classement
rences des termes ne suffit pas car, dans certains préexistant.
documents, la fréquence d’un terme peut être si La construction automatique d’agrégats donne
élevée que celui-ci n’est plus discriminant pour lieu à des représentations diverses. Une représen-
représenter le document. Par exemple, le terme lin- tation fréquente des clusters se fait en particulier
guistique n’est pas pertinent pour caractériser un sous forme d’une visualisation de l’information,
article de linguistique. Donc, au-delà d’un certain parfois sous forme de cartes, dont l’objectif est d’ai-
seuil, plus un terme est fréquent, moins il est per- der à appréhender rapidement un important
tinent pour décrire le document dans lequel il volume d’informations textuelles. Différents logi-
figure. ciels de veille proposent ainsi de cartographier
Un deuxième facteur intervient alors, qui va cal- automatiquement des documents textuels à partir
culer le nombre d’occurrences du terme dans l’en- de la construction d’agrégats afin d’en faciliter l’ana-
semble du fonds documentaire auquel appartient le lyse. Cette approche est connue sous le nom de
document concerné. Cet indice est fourni par la cartographie décisionnelle.
mesure idf (inverse document factor). C’est donc le Cette technique de représentation est également
rapport entre la fréquence du terme dans le docu- utilisée pour visualiser les résultats d’une recherche
ment et sa fréquence dans l’ensemble de la collec- d’informations en ligne. Ainsi, plusieurs moteurs
tion qui fournit son poids. Cette mesure de pon- graphiques sont actuellement disponibles sur Inter-
dération très fréquente est donnée par la formule net afin de faciliter le processus de recherche d’in-
tf*idf. Elle exprime le fait qu’un bon candidat-des- formation.
cripteur est un terme qui apparaît souvent dans le
document en cours d’indexation mais rarement La catégorisation de documents
dans les documents de la collection. À l’inverse de la classification, la catégorisation
À partir de cette formule de base, d’autres fonc- consiste à classer des textes en fonction d’un
tions ont ensuite été proposées, qui intègrent dif- ensemble préexistant de catégories structurées,
férents paramètres tels que la longueur des docu- organisées et éventuellement hiérarchisées.
ments, le pouvoir discriminant des termes, la Ce traitement, principalement fondé sur une
probabilité d’apparition des termes dans les docu- identification des termes du document, vise à assi-
ments pertinents et non pertinents, etc. gner automatiquement un document ou un flux
entrant d’informations textuelles dans le plan de

• Une autre étape, optionnelle, concerne la pos- classement préexistant, souvent construit manuel-
sibilité de remplacer les termes et les syntagmes lement. Cette approche correspond à une tradition
extraits des documents par leurs équivalents choi- épistémologique ancienne (arbre de Porphyre, tra-
sis dans un thésaurus de référence. Cette fonction dition encyclopédique, etc.) qui présuppose donc
permet donc de rapporter la question de l’indexa- l’existence d’un modèle conceptuel d’organisation
tion libre à celle de l’indexation contrôlée. rationnelle du monde formalisé dans des classes.
Ce modèle peut s’exprimer à travers différents
La classification automatique outils comme les répertoires, les thésaurus, les
Outre la construction d’un index, le processus réseaux sémantiques, les ontologies et plus récem-
d’extraction des termes ou des syntagmes peut per- ment les approches connues sous le nom de web
mettre la construction automatique d’agrégats de sémantique et topic maps. La caractéristique com-
termes. La classification est un processus qui mune de ces outils est de procéder selon une
consiste à construire automatiquement des classes approche déductive ou top down, c’est-à-dire que les
de mots à partir des mots du texte. La classification classes sont « projetées » sur les documents.
d’un texte renvoie à la formation de classes (appe- De nombreux logiciels de recherche et d’analyse
lées aussi agrégats, ou clusters en anglais) de termes de l’information, notamment en contexte de veille,
qui sont conceptuellement proches. proposent cette fonctionnalité qui constitue une
Le processus de classification construit auto- aide efficace au classement automatique des flux
matiquement des agrégats de termes ou de informationnels entrants.

Le second type d’approche correspond aux

Le résumé automatique méthodes fondées sur la compréhension du texte
Le dernier mode de représentation de l’infor- source. Ce courant part de l’hypothèse que l’activité
mation abordé dans cet article est le résumé auto- résumante doit s’appuyer sur une compréhension
matique de textes. Comme le souligne Frederick préalable du texte à résumer. Parmi ces méthodes,
Wilfrid Lancaster [3, pages 5 et suivantes], les pro- on retrouve les techniques qui visent à représenter
cessus d’indexation et de résumé sont très proches. le contenu du texte en s’appuyant sur la structure
Alors que l’indexation vise à décrire le contenu argumentative de celui-ci et sur les différents
d’un texte au moyen de descripteurs, résumer un niveaux linguistiques, notamment sémantique,
texte consiste à produire une description textuelle décrits dans la section 1 de cet article.
de son contenu en appliquant un taux variable de À l’heure actuelle, les « résumés » produits auto-
réduction. Un rapide examen des résumés propo- matiquement sont essentiellement des extractions
sés par les systèmes commerciaux montre que la d’unités linguistiques jugées représentatives. On ne
frontière entre ces deux modes de représentation peut guère les considérer comme de véritables sys-
est parfois très floue. Ce flou tient en grande par- tèmes de résumé automatique au sens linguistique
tie au fait que les « résumeurs automatiques » uti- du terme, mais ces outils donnent des résultats inté-
lisent souvent les mêmes techniques d’extraction ressants en fournissant des « clés de lecture » pour
que pour l’indexation et qu’ils font l’impasse sur l’accès au texte. Face au volume croissant d’infor-
les différents types de résumé qui existent. mations, ces outils permettent de prendre rapide-
Ainsi, Jean-Luc Minel [4, page 15] rappelle ment connaissance d’un texte volumineux ou d’un
qu’on distingue divers types de résumés en fonc- ensemble de textes dans le cas des systèmes de
tion de l’usage qui en sera fait. Il distingue notam- résumé multi-documents.
ment le résumé informatif qui donne une informa-
tion générale sur le contenu d’un texte en reprenant
les éléments essentiels de celui-ci, le résumé indi-
catif qui couvre l’ensemble des thèmes développés Comment définir
dans le texte et qui sert de « point d’entrée » au
texte sans se substituer à lui, le résumé critique, le et évaluer les technologies
résumé de conclusions, etc. La notion de résumé est
donc ambiguë. linguistiques?
Le schéma général du fonctionnement d’un sys-
tème de résumé automatique comprend trois étapes : Plusieurs constats peuvent être faits à la fin de
l’analyse du texte source pour identifier l’informa- cet article. En premier lieu la notion de « repré-
tion pertinente ; la représentation de l’information sentation d’un document » désigne des pratiques et
par extraction ou par généralisation ; et la produc- résultats très différents. Un index, un résumé, des
tion du résumé. agrégats de termes, voire une assignation d’un
Pour accomplir ce traitement, deux types d’ap- document dans une ou plusieurs catégories d’un
proche sont utilisés. répertoire peuvent être considérés comme des
Le premier type, dit « méthodes par extraction », représentations. Un deuxième constat est que, pour
vise à repérer les unités textuelles supposées infor- parvenir à ces représentations, les technologies lin-

matives puis à sélectionner les plus significatives en guistiques sont de plus en plus sollicitées, comme
fonction du taux de réduction souhaité. La sélec- le montre Bernard Normier [5]. Elles gagnent en
tion des unités textuelles se fait selon différentes effet en robustesse et peuvent être intégrées à dif-
techniques, par calcul de score (de type tf*idf), par férentes étapes des traitements visant à représenter
calcul de similarité lexicale, sur le repérage de un document, même si tous les niveaux linguis-
phrases prototypiques ou sur le repérage d’éléments tiques ne sont pas pris en compte.
lexicaux. Les deux premières relèvent des Se posent alors deux questions : la première est
approches statistiques alors que les deux dernières de définir ce qu’on appelle « technologies linguis-
relèvent des technologies linguistiques. Notons tiques », la seconde concerne les critères permet-
que, en ce qui concerne l’extraction par repérage de tant d’évaluer « objectivement » leur apport par
phrases prototypiques, l’analyse s’appuie sur la rapport à d’autres technologies.
structure discursive du texte à résumer en identi- Concernant la première question, le traitement
fiant, par exemple, certains mots ou expressions linguistique d’un texte devrait en théorie intégrer
qui jouent un rôle clé dans la structuration du les quatre niveaux décrits dans la section 1 ; en pra-
document (en premier lieu, en conclusion, il est tique, tous ces niveaux ne sont pas implémentés
important de…, l’idée essentielle de ce texte est…, et il est parfois difficile de dire avec précision si un
etc.). Ces formes de surface donnent des indices logiciel relève du domaine des technologies lin-
utiles pour repérer les passages importants d’un
document. 4 www.technolangue.net

La représentation
des contenus
guistiques, d’autant que les approches sont de plus

en plus souvent mixtes. On peut quand même
Références
avancer qu’un tel logiciel doit intégrer une forma-
lisation minimale des phénomènes langagiers, au [1] CHAUDIRON, Stéphane (dir.). L’évaluation
moins au niveau morphologique, et adosser son des systèmes de traitement de l’information.
fonctionnement à un ensemble de ressources lin- Paris : Hermès Science Publications : Lavoisier,
guistiques (telles que des dictionnaires). Ces deux 2004. 375 p. (Traité des sciences et techniques
critères sont suffisamment discriminants pour cla- de l'information)
rifier l’offre industrielle auprès des utilisateurs non- [2] LALLICH-BOIDIN, Geneviève, MARET,
spécialistes. Dominique. Recherche d’information et traite-
Concernant la seconde question, seule l’organi- ment de la langue : fondements linguistiques
sation de campagnes d’évaluation reposant sur des et applications. Villeurbanne : Presses de
protocoles unanimement acceptés permet de défi- l’ENSSIB, 2005. – 288 p. – (Les Cahiers de
nir et d’évaluer l’apport réel des différentes tech- l’Enssib)
nologies. Comme nous l’avons montré [1], la défi- [3] LANCASTER, Frederick Wilfrid. Indexing
nition des protocoles et des métriques utilisés pour and abstracting in theory and practice. London
l’évaluation des logiciels de traitement de la langue, : Library Association, 1991. 464 p. [3rd ed :
écrite et orale, pose de nombreux problèmes théo- Champaing (Ill.) : University of Illinois, Gra-
riques et méthodologiques. L’organisation de telles duate school of library and information science,
campagnes n’est néanmoins pas nouvelle puisque 2003. XIX-451 p.]
les tests de Cranfield 1 et 2, réalisés en Angleterre [4] MINEL, Jean-Luc. Filtrage sémantique : du
en 1957 et 1967, visaient déjà à évaluer différents résumé automatique à la fouille de textes. Paris :
systèmes d’indexation. Plus récemment, les cam- Hermès Science Publications : Lavoisier, 2002.
pagnes TREC organisées aux États-Unis par la 202 p.
DARPA et les campagnes Evalda qui ont eu lieu en [5] NORMIER, Bernard. L'apport des techno-
France dans le cadre du programme Technolangue4 logies linguistiques au traitement et à la valo-
ont, parmi d’autres, contribué à mettre en place risation de l'information textuelle. Paris : ADBS
une infrastructure d’évaluation et à fournir des res- Éditions, 2007. 65 p.
sources pour évaluer différentes tâches. Il convient [6] RASTIER, François. Sémantique interpré-
désormais d’organiser de telles campagnes appli- tative. Paris : Presses universitaires de France,
quées aux diverses fonctionnalités de représenta- 1987. 277 p. (Formes sémiotiques) [2e éd. revue
tion de l’information textuelle en français et en et augmentée : 1996]
intégrant les besoins des usagers dans les proto-
coles d’évaluation. ●

Docsi 441 0030

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Docsi 441 0030

Transféré par

Droits d'auteur :

Formats disponibles

Etude

TECHNOLOGIES LINGUISTIQUES ET MODES DE REPRÉSENTATION DE

A.D.B.S. | « Documentaliste-Sciences de l'Information »

2007/1 Vol. 44 | pages 30 à 39

Distribution électronique Cairn.info pour A.D.B.S..

© A.D.B.S. | Téléchargé le 05/12/2021 sur www.cairn.info (IP: 194.126.31.24)

Powered by TCPDF (www.tcpdf.org)

Qu’apportent les technologies linguistiques à la représentation du par STÉPHANE CHAUDIRON

IDENTIFIER L’INFORMATION PERTINENTE et

© A.D.B.S. | Téléchargé le 05/12/2021 sur www.cairn.info (IP: 194.126.31.24)

30 • Documentaliste - Sciences de l’information 2007, vol. 44, n° 1

informationnel. La croissance de la quantité d’in- niques statistiques permettant un calcul de fré-

© A.D.B.S. | Téléchargé le 05/12/2021 sur www.cairn.info (IP: 194.126.31.24)

Documentaliste - Sciences de l’information 2007, vol. 44, n° 1 • 31

matique de la langue, en insistant en particulier sur ture discursive et argumentative du document ;

© A.D.B.S. | Téléchargé le 05/12/2021 sur www.cairn.info (IP: 194.126.31.24)

32 • Documentaliste - Sciences de l’information 2007, vol. 44, n° 1

© A.D.B.S. | Téléchargé le 05/12/2021 sur www.cairn.info (IP: 194.126.31.24)

Documentaliste - Sciences de l’information 2007, vol. 44, n° 1 • 33

L’analyse syntaxique permettent à la fois de rendre compte de manière

© A.D.B.S. | Téléchargé le 05/12/2021 sur www.cairn.info (IP: 194.126.31.24)

34 • Documentaliste - Sciences de l’information 2007, vol. 44, n° 1

© A.D.B.S. | Téléchargé le 05/12/2021 sur www.cairn.info (IP: 194.126.31.24)

Documentaliste - Sciences de l’information 2007, vol. 44, n° 1 • 35

vue fonctionnel, l’apport de la sémantique permet - éventuellement, remplacement des candidats-des-

© A.D.B.S. | Téléchargé le 05/12/2021 sur www.cairn.info (IP: 194.126.31.24)

36 • Documentaliste - Sciences de l’information 2007, vol. 44, n° 1

© A.D.B.S. | Téléchargé le 05/12/2021 sur www.cairn.info (IP: 194.126.31.24)

Documentaliste - Sciences de l’information 2007, vol. 44, n° 1 • 37

Le second type d’approche correspond aux

© A.D.B.S. | Téléchargé le 05/12/2021 sur www.cairn.info (IP: 194.126.31.24)

38 • Documentaliste - Sciences de l’information 2007, vol. 44, n° 1

guistiques, d’autant que les approches sont de plus

© A.D.B.S. | Téléchargé le 05/12/2021 sur www.cairn.info (IP: 194.126.31.24)

Documentaliste - Sciences de l’information 2007, vol. 44, n° 1 • 39

Vous aimerez peut-être aussi