Vous êtes sur la page 1sur 6

Atelier Corpus et TAL : pour une réflexion méthodologique, Conférence TALN’99, Cargèse, 12-17 juillet 1999 2 Bénédicte Pincemin

Actes publiés par Anne CONDAMINES, Marie-Paule PERY-WOODLEY et Cécile FABRE, pp. 26-36.

Construire et utiliser un corpus : le point de vue d’une 2. Sémantique, textualité et interprétation : éléments pour une linguistique
de corpus
sémantique textuelle interprétative
2.1. La valeur d’un corpus tient à son interprétabilité
Bénédicte Pincemin
Les critères de bonne constitution d’un corpus sont nombreux :
INaLF-CNRS, équipe Sémantique des Textes
• Conditions de signifiance : Un corpus est constitué en vue d’une étude déterminée
EDF-DER, dépt. SID, bat. N, 1 av. du Général-de-Gaulle, 92141 Clamart cedex
(pertinence), portant sur un objet particulier, une réalité telle qu’elle est perçue sous un
certain angle de vue (et non sur plusieurs thèmes ou facettes indépendants, simultanément)
(cohérence).
__________________________________________________________________________________________
Résumé • Conditions d’acceptabilité : Le corpus doit apporter une représentation fidèle
(représentativité), sans être parasité par des contraintes externes (régularité). Il doit avoir
Un corpus n’est exploitable qu’en se référant à la manière dont on interprète sa une ampleur et un niveau de détail adaptés au degré de finesse et à la richesse attendue en
constitution. Sa valeur n’est pas déterminée par sa forme, mais relève de son adéquation à une résultat de l’analyse (complétude).
visée interprétative claire. Le codage de textes, à l’intérieur du corpus, est essentiel, puisque la
structuration des textes organise les contextes des éléments linguistiques, et que leur • Conditions d’exploitabilité : Les textes qui forment le corpus doivent être commensurables
délimitation institue l’autonomie relative des segments textuels requise par les traitements (homogénéité). Le corpus doit apporter suffisamment d’éléments pour pouvoir repérer des
effectués sur le corpus. En revanche, un étiquetage détaillé, au niveau du lexique, semble peu comportements significatifs (au sens statistique du terme) (volume).
conforme au caractère dynamique, contextuel, et généralement plus étendu, des structures Ces critères semblent essentiellement envisager le corpus sous l’angle de sa construction en
sémantiques. vue d’une étude déterminée, ce qui se justifie pleinement pour pouvoir évaluer sa pertinence
La constitution d’un corpus pour construire la base des profils des destinataires d’une en situation. Qu’en est-il cependant du corpus en ce qui concerne son existence propre et ses
application de diffusion ciblée donne lieu à l’explicitation d’une grille de critères détaillée. possibles réutilisations ? En adoptant une perspective interprétative, nous voudrions
Une étude du corpus retenu (programmes de recherche) permet d’analyser son évolution principalement définir le corpus comme un regroupement de données (textes) correspondant à
chronologique et ses facteurs d’homogénéité et d’hétérogénéité. L’interprétation que l’on un choix explicitable et intelligible1. Un corpus peut alors se prêter à plus ou moins
donne au corpus dans le cadre de la diffusion ciblée est également précisée. d’utilisations intéressantes en fonction de la signification qui lui est attachée : les critères
__________________________________________________________________________________________ factuels et généraux pourront être préférés aux critères subjectifs, et les sélections
systématiques aux recueils irréguliers. Par exemple, un corpus de l’ensemble des articles
1. Introduction entrés dans une grande base bibliographique l’année dernière sous la rubrique linguistique
peut fournir des résultats d’une portée plus large qu’un corpus des articles cités en référence
L’accès actuel à de vastes ensembles de textes sous forme électronique a été une condition d’une thèse donnée. Mais même les corpus les plus subjectifs et les plus irréguliers ont droit à
décisive pour le développement d’un courant linguistique récent : la linguistique de corpus l’existence et peuvent faire l’objet d’études scientifiques, pourvu que leur mode de
(Habert & al. 1997). L’approche à base de corpus revendique d’abord son empirisme, car elle constitution soit « avoué » et s’accorde à une visée interprétative, et que les résultats que l’on
se fonde sur des textes réels, des données attestées. Le corpus est aussi l’apanage d’une en tire soient situés par rapport à cette visée interprétative. En revanche, un corpus
linguistique descriptive, qui l’observe pour reconstituer a posteriori des régularités. Du côté (apparemment) dépourvu de principe de constitution, fût-il volumineux et impeccablement
des outils informatiques, le corpus appelle des traitements robustes, s’en tenant parfois à des codé, est inutilisable, car il n’y a rien à quoi rapporter les résultats des analyses qui y seraient
analyses partielles s’avérant suffisantes dans la pratique (Pincemin & al. 1996). effectuées.
Par ses choix fondamentaux, l’approche à base de corpus se présente comme un bon terrain (Amitay 1997) étudie ainsi un corpus de 155 pages Web personnelles (personal
de mise en œuvre d’une sémantique textuelle interprétative, dans la lignée des travaux de homepages), recueillies suite à un appel sur plusieurs listes électroniques et forums
François Rastier et de Théodore Thlivitis. Cet article se propose dans un premier temps électroniques. Les listes ou forums en question ont en fait tous trait à la recherche en
d’expliciter la pertinence de l’utilisation de corpus dans un tel cadre. C’est l’occasion d’une traitements automatiques des langues ou en sciences cognitives. Ce qu’elle observe comme
lecture renouvelée ou critique de pratiques associées à la constitution et à l’utilisation de caractéristiques linguistiques sur son corpus, notamment par contraste avec le BNC (British
corpus. Dans un second temps, nous évoquons une expérience concrète de recours à un National Corpus), ne doit pas être attribué au genre (tout à fait hypothétique) des pages Web,
corpus, dans le cadre d’une application de diffusion ciblée d’informations (présentée § 3.1). mais a minima à la catégorie particulière que constituent les pages de présentation
Ce cas illustre la diversité des critères sollicités pour la définition d’un corpus évolutif, ici personnelle, et peut-être même plus exactement au genre des pages personnelles de chercheurs
celui utilisé pour la construction et la mise à jour pluriannuelle de la base des profils des
destinataires. L’exploitation de textes existants, non destinés à devenir les données d’une 1
L’interprétabilité dont il est question ici concerne le mode de rassemblement des textes, sans
application de diffusion ciblée, appelle également une réflexion sur la signification des profils
préjuger de la clarté des textes eux-mêmes (le régime herméneutique dominant n’étant
obtenus et une étude du genre textuel sous-jacent.
d’ailleurs sans doute pas celui de l’évidence).
Corpus et sémantique textuelle interprétative 3 4 Bénédicte Pincemin

actifs sur les réseaux dans les communautés de la linguistique computationnelle. Certains sa forme, et en particulier un texte n’est pas obligatoirement long. Par ailleurs, un recueil
résultats (comme la spécificité de la locution click here) seraient sans doute effectivement d’extraits choisis peut devenir un corpus de textes, dans la mesure où chacun des dits extraits
généralisables à de nombreuses familles de pages Web, mais, pour être confirmés, devient un texte à part entière, considéré de façon autonome, envisagé comme un tout
mériteraient d’être examinés dans le cadre d’un corpus élargi. La question du caractère construit, avec son début, sa fin, sa progression. Ce corpus ne serait pas un « échantillon de la
généralisable des résultats obtenus à partir d’un corpus est en effet renvoyée à celle de la littérature française », mais refléterait une vision conventionnelle et une réécriture
représentativité admissible du corpus. La question de leur validité ne serait autre que celle pédagogique de cette littérature. Autrement dit, il n’y a pas de textes en soi, et dans lesquels il
d’un accord sur l’interprétation de leur sens et de leur portée. faudrait (et suffirait de) piocher pour former des corpus. Un texte est toujours défini par un
D’un point de vue opérationnel, le corpus est pour nous un univers de référence en vue acte interprétatif, et prend sens par rapport à la perspective selon laquelle il est institué.
d’une description. Il donne la matière concrète pour représenter un axe de lecture, et de fait à Du point de vue du codage du corpus, les standards actuels (TEI, ISO 12083) accordent une
la multiplicité des lectures répond la non moindre multiplicité des corpus possibles. Le corpus place essentielle à l’entête, qui précise notamment les choix et conventions de codage, et les
des textes des programmes d’activité des chercheurs d’EDF peut par exemple être utilisé pour sources des documents. Ces informations accompagnant le corpus sont effectivement
définir un univers d’unités descriptives2, utilisables ensuite pour indexer tout texte sous fondamentales, en ce qu’elles guident son interprétation, et donc ses utilisations possibles.
l’angle des axes de recherche l’entreprise (Bommier-Pincemin 1999). Le corpus devient un Mais il s’agit également de rendre compte des structurations significatives qui articulent les
véritable outil herméneutique. textes eux-mêmes, et orientent la lecture4. Chaque texte présente une organisation interne :
Le corpus fournit un référentiel de nature intralinguistique, mais susceptible d’une portée zones de localité, constructions de type listes, rapport titre / partie, etc. Des relations
interprétative étendue. Les trois pôles intrinsèques du texte, à savoir l’impression référentielle intertextuelles doivent également être exploitables lors des traitements : regroupements et
suscitée par le texte, et les foyers énonciatifs et interprétatifs, tels qu’ils sont représentés dans oppositions multiples (en fonction de l’auteur, du genre textuel), ou relations orientées
le texte et situés par les règles du genre textuel, restituent, comme en trace, les trois pôles (d’évolution, d’héritage). Le rattachement et la chronologie des programmes d’activités du
extrinsèques du texte –l’auteur, le monde, et le destinataire (Rastier 1996). centre de recherche d’EDF sont ainsi utilisés pour calculer le vocabulaire caractéristique de
chaque Département, en tenant compte des effets de récence et de stabilité (Bommier &
Le corpus est toujours fini, et relatif au point de vue selon lequel sa constitution est Lemesle 1995). Plus généralement, (Bommier-Pincemin 1999, §V) propose un modèle de
interprétable. En ce sens, il n’existe pas de corpus universel (en raison de l’indétermination de document SGML (la DTD Corpus) centré sur la description de structures génériques intra- et
l’ensemble des points de vue possibles), ni de corpus représentatif de la langue générale inter-textuelles. Sa valeur opérationnelle est illustrée notamment par la traduction automatique
(puisque tout texte s’inscrit dans une pratique sociale et relève d’un genre, et qu’il n’y a donc de pages Web tout-venant (non strictement conformes à la DTD HTML) dans ce format.
pas d’usage neutre ou non spécialisé de la langue). Quant à un corpus ‘tout informe’3, qui
collecterait n’importe quel texte rencontré sans restriction ni orientation particulière du 2.3. Pièges et opportunités pour la sémantique
recueil, son statut est problématique, et son exploitation linguistique douteuse, car il confronte Le recours à un corpus dans une étude linguistique est communément assorti à la volonté
artificiellement des effets de langues qui ne sont jamais mêlés. de travailler sur des données réelles, attestées, et même « grandeur nature » (capacité à
2.2. Structure du corpus et textualité embrasser des volumes importants dans leur entier). Toute l’ambiguïté tient alors à la force
que l’on accorde au mot même de données, et deux orientations divergentes se dessinent.
Compte-tenu de l’exigence d’interprétabilité du corpus, il apparaît essentiel de penser sa
composition en termes de textes. Si le corpus est vu comme du texte (et non comme des La première voit dans ces données tout ce dont on dispose pour une exploitation ultérieure,
textes) (Péry-Woodley 1995), il est artificiellement privé de ce qui structure les contextes de et s’efforce par conséquent d’enrichir et de préciser cette ressource. Par exemple, un repérage
ses éléments, et de ce qui fonde la délimitation de ses constituants et leur autonomie. des unités morpho-syntaxiques, ou un codage sémantique, devraient économiser la répétition
d’analyses linguistiques, plus ou moins performantes et jamais infaillibles. L’effort investi
Une définition trop restrictive de la textualité pourrait faire craindre une limitation trop dans cet étiquetage, unique et définitif, peut donc être plus important : des procédures semi-
drastique et puriste des corpus acceptables. La première idée que l’on se fait d’un corpus de automatiques permettent d’éliminer les ambiguïtés rencontrées par l’analyse automatique, et
textes, c’est celle d’une collection de romans, ou d’un fonds de documents techniques ou de valider les unités et les structures identifiées. Cependant, on reconnaît ici un risque de
d’articles de presse ; mais il y a bien d’autres textes que des œuvres littéraires ou des figement du corpus, qui ne serait lu que selon un seul point de vue statique. De plus, c’est un
publications professionnelles. Une collection d’instructions consignées sur des panneaux référentiel externe et peu contextuel qui est projeté sur le corpus, si l’étiquetage une fois
routiers, ou bien d’étiquettes attribuées à des boutons ou des menus déroulants d’une interface effectué est invariant par rapport à la composition et aux frontières du corpus.5
logicielle, peuvent constituer des collections de textes : un texte ne se définit pas d’abord par
4
L’utilisation du Modèle de l’Espace Vectoriel (Salton & McGill 1983) sur des textes
2
en quelque sorte un répertoire (univers) de mots-clés (unités descriptives), ces mots-clés représentés comme des « paquets de mots » révèle ses limites dès que les textes font quelques
prenant la forme de combinaisons structurées de mots du texte : mots simples (ex. corpus), pages ou plus (c’est le problème des « textes longs » ressortant des articles de la conférence
expressions composées plus ou moins figées (ex. linguistique de corpus), mots dont la américaine TREC) : de fait, la structuration interne des textes est ignorée, alors qu’elle
récurrence locale d’ensemble contribue à la formation d’une isotopie (ex. codage, SGML et module les interactions s’établissant entre les mots du texte.
5
balise dans un même paragraphe). Notre critique s’adresse à un étiquetage sémantique, par exemple un usage généralisé des
3
constitué selon l’optique « more data is better data », dénoncée par (Péry-Woodley 1995). balises référentielles dans la TEI (personnes, dates, etc.), ou des projections de catégories
Corpus et sémantique textuelle interprétative 5 6 Bénédicte Pincemin

L’autre orientation est celle de la sémantique interprétative, qui affirme avec force que les mieux procède par copier / coller (par exemple depuis son traitement de texte, ou depuis une
unités ne sont pas données mais construites, et que c’est le global (le contexte du texte, du autre page Web) ou encore indique un fichier. DECID répond par une sélection organisée de
corpus, de la pratique sociale et culturelle dans laquelle le texte s’inscrit) qui détermine le personnes ; des informations expliquant chaque rapprochement et une navigation hypertexte
local (la délimitation d’une unité lexicale, le choix de lui reconnaître telle signification). Le aident à l’interprétation des propositions calculées. Une diffusion par courrier électronique
volume du corpus est alors un point d’appui nouveau et puissant pour, à l’aide du levier des peut ensuite être effectuée par DECID, pour les destinataires finalement retenus.
statistiques, construire et repérer dynamiquement des unités linguistiques et sémantiques, par Techniquement, le fonctionnement de DECID repose sur : (i) la construction automatique
rapport à un contexte intertextuel motivé. La tactique de l’apprentissage endogène, mise au des profils de l’ensemble des chercheurs, à partir d’un corpus de textes représentatif de leur
point par Didier Bourigault pour le logiciel LEXTER d’extraction de terminologie (Bourigault activité ; (ii) la capacité à calculer une représentation sémantique de tout texte soumis au
1994), est un tel exemple d’identification de structures linguistiques s’appuyant sur le système ; (iii) la mise au point d’une mesure d’adéquation (similarité) entre le document
contexte d’un corpus construit et homogène. soumis et chacun des profils.8
Une sémantique unifiée montre la présence de structures sémantiques à tous les paliers de
La question de la constitution et de l’utilisation d’un corpus se pose donc pour la définition
l’analyse : mot, phrase, texte. Un codage qui s’en tient à étiqueter des items lexicaux6 manque
des profils des destinataires. En effet, au niveau applicatif, l’ensemble des profils forment une
donc la formation d’unités sémantiques des autres ordres (par exemple l’interprétation « en
base : ils sont considérés en interrelation les uns avec les autres. Au niveau de la
bloc » d’une citation, l’impression diffuse suscitée par une suite de quelques paragraphes). Par
représentation, les textes forment un corpus. Les propriétés attendues chez l’un doivent se
nature, il atomise le sens, et ne permet pas de rendre pleinement compte du mécanisme des
retrouver chez l’autre : à l’exhaustivité, la régularité, requises pour la base, répondent la
isotopies sémantiques : en effet, « ce n’est pas la récurrence de sèmes déjà donnés qui
cohésion et l’équilibre du corpus. Le choix des documents pour la représentation des profils se
constitue l’isotopie, mais à l’inverse la présomption d’isotopie qui permet d’actualiser des
présente comme la construction raisonnée d’un corpus, aux soins du concepteur puis de
sèmes, voire les sèmes » (Rastier 1987, Introduction § II.A, p. 12). Un modèle de
l’exploitant de DECID.
caractérisation sémantique d’un corpus, compatible avec la construction dynamique d’unités à
différents paliers d’analyse (mot, paragraphe, texte), est décrit dans (Bommier-Pincemin Rares sont les réalisations de bases de profils à partir de textes constitués en corpus –à la
1999)7, et fait l’objet d’une première implémentation. différence d’un mécanisme de relevance feedback où les textes servent de fournisseurs de
mots-clés pour alimenter et rectifier le profil, en continu et indépendamment les uns des
3. Une expérience de constitution de corpus : la base de profils d’une autres. Non loin de notre approche, (French 1994) imagine un espace de recherche composé
application de diffusion ciblée de documents et de profils pouvant entrer en relation. (Streeter & Lochbaum 1988) présentent
une application analogue à DECID : le corpus servant à définir les profils n’est pas l’objet
3.1. Présentation de l’application DECID d’une réflexion théorique ou méthodologique, néanmoins il est bien exploité dans sa
dimension d’ensemble grâce à la technique LSI (Latent Semantic Indexing).
Le serveur DECID (Diffusion Electronique Ciblée d’Informations et de Documents),
La réflexion que nous présentons autour de ce corpus est conduite dans l’esprit d’une
opérationnel sur l’Intranet EDF depuis 1995, est utilisé pour repérer les personnes les plus
sémantique textuelle interprétative. Elle présente également le cas d’un corpus conçu avec une
concernées par un document, ou les experts sur un sujet, parmi tous les chercheurs de la
dimension évolutive, se déployant sous forme d’une série chronologique.
Direction des Etudes et Recherches (DER). L’interrogation du système DECID se fait
directement au moyen d’un texte : l’utilisateur entre quelques lignes de synthèse au clavier, ou 3.2. Principe initial : tirer parti des textes
L’automatisation de la chaîne de traitement suppose que l’on n’impose pas comme format
comme présenté dans (Habert & al. 1997, § III). Toutefois, les étiquetages morphosyntaxiques
d’entrée une structuration particulière, qui pour la plupart des corpus devrait être ajoutée
ne sont pas dépourvus de subjectivité, nous en voulons pour preuve les discussions sur les
manuellement ou même semi-automatiquement. En effet, le balisage d’un corpus est une
jeux d’étiquettes et sur les options alternatives d’interprétation et de codage qui apparaissent
charge de travail considérable. Il s’agit donc de pouvoir exploiter automatiquement des
en pratique, par exemple dans le contexte de l’évaluation GRACE (cf. Journée ATALA du 24
informations de structuration existantes, comme de pouvoir se passer d’informations de
octobre 1998, organisée par Patrick Paroubek et Martin Rajman).
6 structuration explicite quand le texte d’entrée est démuni de tout balisage.
y compris un étiquetage contextuel comme présenté dans (Habert & al. 1997, § IV.3), qui
opère en considérant le voisinage syntagmatique (et quelquefois paradigmatique) de l’item Il faut souligner l’importance de recueillir et de se fonder sur des données de qualité, tant
lexical et va ainsi bien au-delà d’une procédure mot-à-mot : même dans ce cas de traitement en ce qui concerne la propreté des fichiers, d’une part, que sur l’intérêt des informations qui
avancé, l’information sémantique est in fine localisée dans les seuls mots. Par contraste,
8
(Thlivitis 1998) propose par exemple des sèmes attachés aux textes et structurant ceux-ci dans Pour DECID v.1 (en exploitation), un profil est représenté par un vecteur pondéré de mots, à
un intertexte, en complément des sèmes distribués au niveau des lexèmes. la manière du Modèle de l’Espace Vectoriel (Salton & McGill 1983) ; les rapprochements
7
La tactique consiste à tirer parti des régularités de comportement des unités issues des sont calculés à l’aide d’un cosinus sur l’angle entre vecteurs représentatifs. DECID v.2 (en
analyses locales, observées à l’échelle du corpus, pour réélaborer des unités motivées développement) allie la robustesse et la souplesse du Modèle de l’Espace Vectoriel avec une
(détermination du local par le global). Certaines de ces nouvelles unités consistent en meilleure gestion de la contextualité, grâce à des réaménagements significatifs : redéfinition
constellations d’indicateurs sur une zone de localité (période, paragraphe, texte) et ne se des unités d’indexation, contrôle de la combinatoire des dimensions de l’espace vectoriel
forment alors qu’à l’échelle de ces zones et pour caractériser celles-ci. (Bommier-Pincemin 1999).
Corpus et sémantique textuelle interprétative 7 8 Bénédicte Pincemin

sont représentées, d’autre part. Si les données pèchent par de nombreuses irrégularités ou souvent être corrigée par le contexte, ou par d’autres occurrences correctes), que pour les
lacunes, les traitements automatiques ne peuvent opérer que des caractérisations confuses et autres renseignements et la structuration du fichier (ne serait-ce que la séparation d’un texte
des rapprochements décevants. Si derrière les profils, il n’y a pas des données de valeur, nul à l’autre).
n’a envie d’utiliser le système. Faute de se baser sur des textes de qualité, l’application est • L’accessibilité du document : DECID protège l’accès aux documents ayant servi à la
alors doublement inutile –inutilisable et inutilisée. définition des profils, et prévoit d’autres modes d’explication et de guidage pour une bonne
3.3. Critères d’adéquation d’un corpus à l’application DECID exploitation des résultats sans la visualisation de ces textes. Cependant, l’utilisation des
documents les plus confidentiels est d’autant plus délicate que l’on envisage une collection
Pour avoir une description des profils sans mobiliser les agents, les textes utilisés doivent complète ; pour DECID, on préférera donc se baser sur des corpus pas trop sensibles. Il est
faire partie des documents courants, donner un écho de l’activité des agents, et faire l’objet clair cependant qu’avoir une bonne représentation de l’ensemble des activités actuelles de la
d’une collecte centralisée sous forme électronique. D’un point de vue méthodologique, une DER est une information stratégique, jamais anodine.
grille de critères a été établie, qui conduit à examiner la présence des éléments suivants :
D’autres critères, moins déterminants, peuvent intervenir de façon subsidiaire :
• Une indication de date (année) : les profils sont repérés dans le temps, et chaque année
forme une base de profils. Le profil actuel d’une personne traduit ses centres d’intérêt alors • La langue du document sur lequel est basé le profil détermine la langue des documents qui
que ses profils des années passées reflètent plutôt ses compétences acquises (cf. § 3.5). pourront en être rapprochés. L’essentiel des textes ici sont en français. Les données en
anglais sont rares, peu développées (surtout traduction de titres, de résumés, mais pas de
• Le statut éventuel du document : il s’agit de faire la part entre d’une part les documents textes), et lacunaires. En l’état actuel, elles ne permettent pas la construction de profils,
provisoires, projets en discussion, et d’autre part ce qui reflète une activité effective. sinon peut-être de profils très généraux et sans doute incomplets au niveau des équipes
• Des données textuelles suffisamment riches : un titre ou un libellé seul est insuffisant ; un (Groupes, Départements).
résumé (résumé descriptif en quelques lignes) est souvent trop synthétique et superficiel ; • Le format de codage des textes est variable selon les documents. En général, on a soit de
une synthèse (résumé informatif de l’ordre d’une page) ou / et le texte intégral sont ce qui l’ASCII (fichier texte standard), soit du SGML (fichier structuré). L’intérêt du codage
convient le mieux. L’idéal est de disposer d’un texte structuré. SGML dépend du modèle que codent les balises et de sa pertinence pour l’application. Les
• Une indication permettant le rattachement du document à une personne ou à une structure autres facteurs importants sont la propreté du codage (taux d’erreurs de la version
(Groupe, etc.) : l’exploitation automatique des noms propres est délicate, notamment s’il y a électronique) et sa richesse (conservation des accents, du découpage en paragraphes, etc.).
plusieurs personnes (il faut isoler chaque nom), s’il existe des homonymes ou au contraire • Encore rarement reprises par une structuration SGML, les régularités de structure induites
si la personne change d’état-civil (passage du nom de jeune fille au nom d’épouse), si le par un plan-type, ou les régularités relatives à un genre bien cerné, donnent accès à un
nom se prête à des confusions entre nom et prénom, à des variantes d’orthographe ou de traitement plus fin du document. En ce sens, l’existence de consignes de rédaction, qui
saisie (parce que composé, ou d’origine étrangère, par exemple). Expérimentalement, ces instituent un cadre de référence, peut guider la modélisation, sachant toutefois que tout
difficultés entraînent un taux d’erreur de l’ordre de 1 %. rédacteur n’a pas nécessairement une bonne connaissance des consignes, et que chacun se
• La pérennité de la source qui fournit la version électronique : la définition des profils doit fait une idée, a son interprétation, de la forme qui est demandée.
pouvoir être actualisée périodiquement. On se fonde donc sur des documents dont le circuit • Le fait de disposer d’archives sur plusieurs années est un plus, car on peut construire
prévoit l’enregistrement d’une version électronique. A la DER, la base de données immédiatement plusieurs bases de profils (avec la nuance entre profils d’intérêts -actuels- et
SPHERE centralise les données textuelles concernant l’activité. profils de compétences), et l’on a aussi tout de suite des informations sur la stabilité et la
• Une répartition régulière sur toute la DER : dans l’idéal, chaque entité doit être nouveauté des activités.
« équitablement » décrite ; il faut éviter qu’une partie de la DER ait une représentation très Dans cette liste de critères ne figurent pas la présence d’attributs de classification (axe de
détaillés, et qu’une autre n’ait que très peu d’éléments pour la construction de ses profils. recherche, thème de recherche,...), car (i) les grilles utilisées à la DER sont relativement peu
• Une couverture aussi fine que possible : toutes choses égales par ailleurs, les documents détaillées, (ii) elles ne peuvent suivre de près l’évolution des thèmes de recherche,
correspondant à l’activité d’une personne ou d’une petite équipe sont plus utiles que ceux (iii) l’opération de classification, à savoir l’affectation à telle classe plutôt qu’à telle autre, est
faisant la synthèse de l’activité d’un Département. En effet, on peut construire une délicate et peut toujours être sujette à caution, (iv) l’affectation à un thème donné fige une
représentation de l’activité du Département connaissant l’activité de ses membres, alors que vision univoque et a priori du texte, alors que DECID, en se fondant directement sur les
l’inverse n’est pas vrai. textes, vise à s’affranchir d’un passage obligé par les cadres descriptifs connus (qu’il s’agisse
de l’organigramme ou de disciplines instituées) et à favoriser le décloisonnement.
• Une dynamique de renouvellement : les données très liées à un référentiel, comme les noms
des équipes, ou les contrats sur lesquels elles se fondent, ont nécessairement une certaine 3.4. Choix d’un corpus : les textes d’Action
inertie, par opposition à d’autres documents directement liés à l’activité en cours. L’image
que doit donner DECID se veut suivre au plus près l’évolution des activités. Les corpus accessibles recensés dans l’entreprise, au nombre d’une dizaine, sont confrontés
méthodiquement à l’ensemble des critères retenus, à l’aide d’un tableau. Il en ressort que les
• La fiabilité du codage, sa fidélité par rapport à la version papier si elle existe : cela est Actions (ARD/AID) sont les plus aptes à fonder la définition des profils.
moins crucial pour ce qui est du texte proprement dit (pour lequel une erreur devrait
Corpus et sémantique textuelle interprétative 9 10 Bénédicte Pincemin

La DER, pour assurer un pilotage précis de son programme de travail, le découpe chaque 3.5. Dimensions d’un profil et rôle d’un texte : interprétation du corpus dans le cadre de la
année en Actions de recherche élémentaires (environ 2 000 Actions, soit un fichier SGML de diffusion ciblée
l’ordre de 10 Méga-octets). Un texte d’Action est une description générale, en une à deux
pages, d’un projet de recherche scientifique et technique, rédigée par le chercheur à l’intention Le profil d’une personne dans DECID a deux faces : la personne peut être recherchée soit
de sa hiérarchie, et ayant un rôle décisif pour la détermination du contenu de son travail et des comme destinataire, soit comme source d’information. Dans le premier cas, on parle du profil
moyens qui lui sont accordés. On perçoit déjà que tout cela a une incidence sur le choix du d’intérêts de la personne, et dans le second de son profil de compétences.
vocabulaire (technique mais pas trop spécialisé), les types d’informations attendues Les documents sous-jacents, pouvant servir à la caractérisation, alimentent l’un ou l’autre
(justifications, calendrier,...), la forme (longueur « convenable » (suffisante) mais de ces profils. Il n’est pas anodin de remarquer que les documents rédigés par une personne ne
« raisonnable » (limitée) du document, articulation systématique par points de certaines ressemblent qu’accessoirement aux documents dont elle se sert dans son travail ; ou que les
parties), le point de vue porté sur le sujet (positif, engageant) et le « ton » de l’exposé (rapport documents cités dans une bibliographie sont toujours en léger décalage par rapport à l’ouvrage
hiérarchique)9. Du point de vue de sa forme, un texte d’Action comprend un entête, ou l’article qui les cite. L’information qui retient l’attention est celle que l’on n’aurait pas su
consignant les informations administratives et budgétaires, et une partie textuelle libre, de retranscrire avant de la rencontrer. Cette forme d’hystérésis se retrouve dans les deux faces du
l’ordre d’une à deux pages. C’est cette partie rédigée, et l’intitulé de l’Action, qui sont utilisés profil. Le profil d’intérêt correspond aux documents consultés, étudiés, acquis, dans le cadre
pour le calcul des profils dans DECID. d’un projet actuel. Le profil de compétence ressort des compte-rendus, des rapports produits,
Or, sur les années 1991-1999, on voit évoluer la forme de la partie rédigée (texte) des des documents reçus pour relecture et avis ; il reflète souvent l’expérience acquise lors de
Actions. Il ressort très nettement qu’au début de cette période, il y a peu de prescriptions sur la projets relativement récents et menés à bien.
manière d’organiser les informations, voire même sur le type de contenu attendu. Le La teneur du profil se déplace donc, selon que l’on considère des documents écrits ou bien
document de doctrine paru en 1990 est centré sur le circuit de relecture et de validation de lus par la personne. Et un même document peut, avec le temps, glisser d’un profil d’intérêts à
l’ordonnancement, l’unique indication sur le contenu est qu’y est défini « le programme de un profil de compétences. Dans DECID, l’interrogation rétrospective sur les textes d’Action
travail ». En revanche, trois autres facteurs contribuent dès le début à homogénéiser ces écrits. des années passées est ainsi interprété comme une recherche d’expertise, l’interrogation sur
Tout d’abord, le rédacteur s’inspire des Actions existantes, de son entourage (collègues, l’année courante ou sur les prévisions pour l’année à venir vise des profils d’intérêt.
prédécesseur). Ensuite, le secrétariat de l’équipe, qui rassemble les textes et transmet le fichier
Enfin, l’organisation du travail fait que certains documents qui définissent ou reflètent
aux instances pour relecture, a une vue d’ensemble des textes et peut intervenir sur leur mise
l’activité d’une personne ne sont pas nécessairement écrits par elle : programme de travail
en forme pour faire ressortir leur cohérence. Enfin, un modèle de structure est quelquefois
établi par un supérieur hiérarchique, document de synthèse réalisé par un proche
utilisé (avec plus ou moins de variantes) par tous les membres d’une entité, sans doute en
collaborateur. « Dans plusieurs cas, le nom de la personne n’apparaît pas sur le document
application d’une consigne à l’initiative du chef de Groupe ou de Département. L’ensemble
qu’elle présente comme caractéristique de son activité […]. [Ou inversement,] le texte parle
des Actions comporte alors des textes de longueur et de structure variées, avec des petits
des activités [de l’auteur], mais on n’y perçoit pas le rôle de l’auteur dans l’activité décrite »11.
groupes homogènes de textes analogues reflétant de fait l’organisation structurelle de la DER.
En bref, la relation de l’auteur à son texte n’est pas la seule possible pour construire un profil ;
L’idée se fait jour de donner un plan-type de référence, suivi dans toute la DER : un tel et cette relation se charge d’interprétations différentes notamment au fil du temps.
plan est prescrit dans le document de doctrine diffusé en septembre 1995, pour entrer en
~~~
vigueur dès 1996. Tel qu’il est conçu, ce plan opère une synthèse équilibrée des pratiques
précédentes : il reprend les idées d’organisation les plus intéressantes qui figuraient déjà ici ou Un corpus présente pour un traitement des textes existants, réunis selon une visée
là : une introduction présentant le contexte de l’Action, une partie explicitant l’objectif interprétative. Son ancrage au réel est ce qui fonde les résultats qui en sont tirés, et leur donne
général du projet, une partie détaillant les étapes planifiées pour l’année, etc. Dans les faits, la valeur. Mais aussi, par son existence propre, le corpus se révèle une force potentielle vive de
formalisation du cadre rédactionnel des Actions ne dissout pas les variations de style, ni les déplacement et de renouvellement des problématiques auxquelles on le confronte : il est
différentes manières de comprendre le rôle de chaque partie prévue et de la réaliser. La source et objet d’une interprétation jamais définitive.
tendance est toutefois celle d’une homogénéisation10 progressive des textes à l’échelle de la Ainsi, l’application de diffusion ciblée est née à EDF de l’opportunité d’exploiter des
DER, et à l’intérieur de chaque texte d’une spécialisation de chaque partie. Cela se traduit par collections de textes électroniques disponibles. Pourtant, une réflexion sur la composition
des contrastes linguistiques : phrases construites vs structure énumérative (avec dominance d’un corpus à partir de ces ressources a été nécessaire pour que l’application prenne sens, non
des formes substantivées et infinitives), usage des temps et modes, etc. (Bommier-Pincemin sans nuances imprévues initialement, et qu’elle acquière une valeur opératoire dans les
1999, Annexe V.1). pratiques des utilisateurs. Cette expérience a également clairement ravivé la pertinence des
concepts de textualité et d’intertextualité au plan de la mise en œuvre, notamment par rapport
9
En filigrane on retrouve les quatre composantes sémantiques du texte proposées par François aux régularités effectives mais non systématiques liées aux genres textuels.
Rastier (Rastier, Cavazza, Abeillé 1994, § VII.4) : le vocabulaire renvoie à la thématique, la
chronologie (explicite dans un calendrier d’étapes) à la dialectique, le point de vue et le ton à
11
la dialogique, la forme à la tactique. MERLE Thierry, FRADIN Marie-Agnès, SOINARD Xavier (1994) - Etude PUBE sur les profils
10
Notamment : longueur des textes, réduction de la gamme des variantes des intertitres utilisateurs de la bibliothèque électronique : résultats des groupes d’animation, Rapport
utilisés pour organiser le contenu, généralisation de l’emploi de certaines tournures. d’étape n°3, HN-46/94/073, décembre 1994, acc. restreinte, Clamart : EDF-DER, pp. 68-69.
Corpus et sémantique textuelle interprétative 11

Remerciements
Je tiens à remercier les trois relecteurs anonymes de cette contribution, dont les critiques et
suggestions ont permis d’améliorer sensiblement la qualité de ces pages.

Références
AMITAY Einat (1997) - Hypertext : The Importance of being Different, Master of Science
Dissertation, Centre for Cognitive Science, The University of Edinburgh, sept. 1997, 61 p.
BOMMIER Bénédicte, LEMESLE Xavier (1995) - Caractérisation automatique des termes de
métier et des termes généraux non discriminants pour la diffusion ciblée à la DER d’EDF,
Note interne EDF-DER, HN-46/95/029, juill. 1995, acc. libre, Clamart : EDF-DER, 91 p.
BOMMIER-PINCEMIN Bénédicte (1999) - Diffusion ciblée automatique d’informations :
conception et mise en œuvre d’une linguistique textuelle pour la caractérisation des
destinataires et des documents, Thèse de doctorat, linguistique, Université Paris IV
(Sorbonne), 6 avril 1999, n°99PA040027.
BOURIGAULT Didier (1994) - LEXTER, un Logiciel d'EXtraction de TERminologie –
Application à l'acquisition de connaissances à partir de textes, Thèse de doctorat, École
des Hautes Études en Sciences Sociales, Paris.
FRENCH James C. (1994) - « DIRE : An approach to improving informal scientific
communication », Information and Decision Technologies 19, pp. 527-541.
HABERT Benoît, NAZARENKO Adeline, SALEM André (1997) - Les linguistiques de corpus,
Paris : Armand Colin, 240 p.
PERY-WOODLEY Marie-Paule (1995) - « Quels corpus pour quels traitements
automatiques ? », Traitement Automatique des Langues, 36 (1-2), pp. 213-232.
PINCEMIN Bénédicte, ASSADI Houssem, LEMESLE Xavier (1996) - ECAI’96 - Workshop
Corpus-based semantic analysis : Compte-rendu, Note Interne EDF-DER, HN-46/96/038,
HI-23/96/014, déc. 1996, acc. libre, Clamart : EDF-DER, 44 p.
RASTIER François (1987) - Sémantique interprétative, Presses Universitaires de France, 277 p.
RASTIER François (1996) - « Pour une sémantique des textes -questions d’épistémologie », in
Textes & Sens, François RASTIER (dir.), Paris : Didier Erudition, pp. 9-35.
RASTIER François (1998) - « Le problème épistémologique du contexte et le problème de
l’interprétation dans les sciences du langage », Langages, 129, pp. 97-111.
RASTIER François, CAVAZZA Marc, ABEILLE Anne (1994) - Sémantique pour l’analyse –De la
linguistique à l’informatique, Paris : Masson, coll. Sciences cognitives, 252 p.
SALTON Gerard, MCGILL Michael J. (1983) - Introduction to Modern Information Retrieval,
McGraw-Hill.
STREETER Lynn A., LOCHBAUM Karen E. (1988) - « Who knows : a system based on
automatic representation of semantic structure », RIAO’88 « User-Oriented Content-Based
Text and Image Handling », Cambridge MA, 21-24 mars 1988, pp. 380-388.
THLIVITIS Théodore (1998) - Sémantique Interprétative Intertextuelle : assistance
informatique anthropocentrée à la compréhension de textes, Thèse de Doctorat,
Informatique, Université de Rennes 1, 29 juin 1998, 218 p.