Vous êtes sur la page 1sur 18

INFORMATIQUE ET LEXICOGRAPHIE DE CORPUS : LES NOUVEAUX

Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques
DICTIONNAIRES
Henri Béjoint

Pub. linguistiques | « Revue française de linguistique appliquée »


Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques

2007/1 Vol. XII | pages 7 à 23


ISSN 1386-1204
Article disponible en ligne à l'adresse :
--------------------------------------------------------------------------------------------------------------------
https://www.cairn.info/revue-francaise-de-linguistique-appliquee-2007-1-page-7.htm
--------------------------------------------------------------------------------------------------------------------

Distribution électronique Cairn.info pour Pub. linguistiques.


© Pub. linguistiques. Tous droits réservés pour tous pays.

La reproduction ou représentation de cet article, notamment par photocopie, n'est autorisée que dans les
limites des conditions générales d'utilisation du site ou, le cas échéant, des conditions générales de la
licence souscrite par votre établissement. Toute autre reproduction ou représentation, en tout ou partie,
sous quelque forme et de quelque manière que ce soit, est interdite sauf accord préalable et écrit de
l'éditeur, en dehors des cas prévus par la législation en vigueur en France. Il est précisé que son stockage
dans une base de données est également interdit.

Powered by TCPDF (www.tcpdf.org)


Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques

Rev. franç. de linguistique appliquée, 2007, XII-1 (7-23)

Informatique et lexicographie de corpus :


les nouveaux dictionnaires

Henri Béjoint
Université Lumière-Lyon 2

Résumé : L'utilisation de l'informatique est l'événement le plus important de l'histoire de la


lexicographie des cinquante dernières années. Elle a eu une influence sur la présentation des
dictionnaires, que l'on trouve désormais sous diverses formes numérisées, mais surtout elle a
profondément modifié les conditions de travail du lexicographe. L'informatique a permis
d'augmenter considérablement la taille des corpus que les lexicographes ont toujours utilisés, et en
anglais on dispose maintenant de corpus qui contiennent plusieurs centaines de millions de mots. Il
s'en est suivi une transformation du texte du dictionnaire, qui est devenu plus représentatif de l'usage
commun, et mieux adapté aux tâches d'encodage.

Abstract: The use of computers is the most important thing that has happened to lexicography in the
last fifty years. It has had an influence on the presentation of dictionaries, that now come in various
electronic forms, and above all it has transformed the work of the lexicographers. Computers have
allowed them to increase the sizes of the corpora that they have always used, and in English some
corpora now exceed several hundred million words. This in turn has profoundly modified the text of
the dictionary, which has become more representative of common usage and better adapted to
encoding tasks.

1. Introduction

Tout le monde est d’accord : la mise en œuvre de l’informatique dans toutes les phases du
travail du lexicographe et dans l’acte de consultation de l'utilisateur est sans doute le point le
plus important de l’évolution de la lexicographie au cours des dernières décennies. C'est en
tout cas le plus évident. L'objectif de cet article est d'esquisser un portrait de cette évolution
depuis que la lexicographie a commencé à utiliser l'informatique, et de tracer les grandes
lignes de l’avenir de la discipline 1 .
Cette présentation n'a rien de très original. En effet, les lexicographes éprouvent depuis
quelques années le besoin de faire le point et d’essayer de voir de quoi leur avenir sera fait,
parce qu'ils n'échappent pas à une certaine perplexité au milieu des bouleversements de leur
travail, et parce que la profession de lexicographe est plus que jamais précaire. On voit ces
inquiétudes transparaître dans plusieurs articles qui essaient de tracer les grandes lignes de la

1
Cet article fait suite à deux communications, l’une faite en août 2003 au congrès d'ASIALEX à Tokyo
(Murata, M., Yamada, S. et Tono, Y., dirs.), et l’autre faite en mai 2004 au congrès de l'ACFAS à
Montréal (L’Homme et Vandaele, dirs.).
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques

8 Henri Béjoint

lexicographie dans un futur plus ou moins immédiat (Atkins 1996 ; Hanks 2000 ; van
Sterkenburg 2003).
Je parlerai surtout de dictionnaires monolingues généraux, et plus particulièrement de
dictionnaires monolingues généraux d'anglais et de français produits en France et en Grande-
Bretagne depuis quelques décennies, parce que ce sont ceux que je connais le mieux, et parce
qu'ils sont parmi les plus concernés par l'utilisation de l'informatique et des corpus.

2. Les dictionnaires informatisés

2.1. Les différentes sortes de dictionnaires informatisés


L’informatique intervient de diverses manières dans un dictionnaire (Ooi 1998, 32). Passons
sur les dictionnaires à l'aspect tout à fait traditionnel dans la compilation desquels
l'informatique a été plus ou moins libéralement utilisée, dont l’histoire commence dans les
années 1970. Le premier exemple est peut-être le Longman Dictionary of Contemporary
English, publié en 1978, mais cette première place est contestée. Le texte de LDOCE avait été
préparé entièrement sur support magnétique, ce qui a permis toutes sortes de manipulations
par la suite (voir par exemple Michiels 1982). Évidemment, on a fait bien mieux depuis.
Les dictionnaires électroniques proprement dits sont ceux qui sont commercialisés sur un
support électronique. Parmi ceux-là, il y a des dictionnaires sur CD-ROM destinés à être
utilisés à partir d'un ordinateur, souvent disponibles parallèlement à leurs versions sur papier.
Le premier en français semble avoir été le dictionnaire Hachette en 1988, à moins que ce ne
soit le Grand Robert en 1989. La version CD-ROM d’un dictionnaire est plus ou moins
différente de la version papier selon les cas. La plupart du temps, elle contient des éléments
supplémentaires : prononciation des mots, illustrations, cartes, séquences vidéo, autre
dictionnaire, par exemple bilingue, grammaire, encyclopédie, voire des exercices, etc.
Il y a également des dictionnaires sur support électronique qui ressemblent à des
calculettes ou à des petits traducteurs électroniques de poche, lisibles directement sur un
minuscule écran, dont la mémoire n’est pas plus grande qu’une carte de crédit mais qui
peuvent contenir des milliers de pages et que l'on trouve d'ores et déjà en abondance au Japon,
où ils sont fabriqués par des marques de produits électroniques (Canon, Ricoh, Sony, etc.)
plutôt que par des éditeurs lexicographiques. Ces dictionnaires portables contiennent une
quantité phénoménale d'informations sous un volume très réduit, mais ceux que j’ai examinés
étaient des compilations d'éditions anciennes, dépassées, hétéroclites, sans intérêt du point de
vue de la méthodologie lexicographique. On a l'impression dans leur cas que la forme a pris le
pas sur le fonds, et que les éditeurs ont voulu séduire les acheteurs plus par la modernité du
support que par la qualité du contenu. Les potentialités de ce support sont si fortes, cependant,
que d’autres communautés ne tarderont pas à l’adopter, ne serait-ce que pour les écoliers et
les étudiants, qui peuvent ainsi disposer d'une bibliothèque de référence pas plus grosse
qu'une boîte d'allumettes. Gageons qu'au cours de ce processus les lexicographes auront
également l'occasion de faire progresser la qualité du contenu.
Il y a enfin les dictionnaires en ligne, accessibles gratuitement ou contre paiement à partir
d'une connexion à Internet, tel le Trésor de la langue française informatisé, qui sont en forte
expansion et parmi lesquels on trouve tout, du très bon au très mauvais. Il y en aurait
actuellement plus de 300 rien que pour l’anglais, mais chacun peut faire son propre compte à
partir d’un moteur de recherche.
Je ne me risquerai pas à me prononcer sur l'avenir de chacune des formes de dictionnaires
électroniques, puisque cet avenir dépend de développements techniques et de batailles
commerciales qui me sont très largement opaques. On dit que le CD est d’ores et déjà voué à
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques

Informatique et lexicographie de corpus : les nouveaux dictionnaires 9

une mort prochaine, et qu'il sera remplacé par d'autres supports, et il semble bien que cette
prédiction soit en voie de réalisation. On prévoit déjà la même chose du DVD. Je fais comme
tout le monde : j'attends.

2.2. Avantages et inconvénients du support électronique pour l'utilisateur


Les dictionnaires sur support informatique offrent à l'utilisateur des avantages indéniables,
quelle que soit la forme adoptée. Le plus évident est la portabilité : l’Oxford English
Dictionary, 20 volumes pour la deuxième édition, tient sur un seul CD. Il y a aussi le fait que
l’utilisateur peut disposer d’images animées et de sons, parfois bien utiles pour certaines
définitions : par exemple, les sons pour les cris d’animaux, les images animées pour les
verbes de mouvement ou de lumière, etc. (Pruvost 2002a, 88). Les dictionnaires électroniques
participent donc, pour une petite part, à l’imprécision de la frontière entre la connaissance des
mots et la connaissance du monde, word knowledge et world knowledge pour les
anglophones.
Les dictionnaires électroniques offrent des possibilités d'accès à l'information et une
rapidité de consultation évidemment très supérieures à celles des dictionnaires papier.
L’utilisateur trouvera toujours ce qu’il cherche, même s’il se trompe sur l’orthographe. Il
pourra plus ou moins facilement et rapidement selon les versions chercher des mots à partir
d’un élément de la microstructure, pour peu que cet élément ait été retenu par les concepteurs,
par exemple à partir de l’étymologie, des mots contenus dans les définitions, des étiquettes
d'usage, des dates d'apparition, etc. Il pourra ainsi confectionner ses propres catégories : les
mots apparus dans la langue entre 1815 et 1830, ceux qui finissent par telle ou telle suite de
lettres, les mots dont la définition indique qu’ils sont hyponymes de animal, ou de meuble,
etc. Par là, le dictionnaire électronique est une réponse partielle au vieux rêve des
lexicographes, qui voudraient que l’on puisse retrouver un mot à partir de la chose qu’il
désigne, ou plutôt du concept correspondant à cette chose, et dont les différentes réalisations
explicitement onomasiologiques sont moyennement convaincantes.
Dans ces conditions, il est permis de se demander si nous sommes en train d'assister à la
fin du dictionnaire papier. La question est inévitable, et souvent abordée par les
métalexicographes, mais la réponse n'est pas simple. Les avantages du support informatique
sont indéniables, on vient de le voir, et l'un au moins de ces avantages, la possibilité de
stocker une quantité impressionnante d'information dans un volume très réduit, a sans doute
déjà causé la perte de certains types de dictionnaires papier. J'incline en effet à penser, comme
Landau (2001, 84), que les plus copieux de nos dictionnaires, ceux qui ont été publiés pour un
certain nombre de langues au cours des XIXe et XXe siècles, comme l’Oxford English
Dictionary, le Grand Dictionnaire Universel du XIXe siècle, le Trésor de la Langue Française
ou le Webster’s Third New International Dictionary, ou d'autres qui sont encore en cours de
rédaction (Winchester 2003, 140), ne seront plus jamais publiés sous cette forme. Ils sont trop
lourds, trop encombrants, coûtent trop cher à l'éditeur et à l'acheteur, et sont trop vite
dépassés. Ils seront donc supplantés à plus ou moins long terme par des dictionnaires
électroniques sur CD-ROM ou en ligne, bien mieux adaptés à ce genre de texte et à leur mode
d'utilisation, et susceptibles d'être mis à jour constamment. On peut penser la même chose des
grands dictionnaires bilingues.
Mais le papier a encore quelques atouts, dont le premier et le plus important est sans doute
de permettre une indépendance totale par rapport à la technique. Dans dix, vingt, cent ans,
tout le monde pourra encore consulter les grands dictionnaires sur papier, mais qu’en sera-t-il
de leur version électronique ? Le papier permet aussi une consultation de deux pages entières
droite et gauche en même temps, ou une consultation simultanée de plusieurs dictionnaires
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques

10 Henri Béjoint

dans des conditions un peu différentes (certains diraient plus agréables) de celles du multi-
fenêtrage (Varantola 2003, 229). Enfin, d'aucuns diront que rien ne remplace pour tout
amateur de livres le plaisir du toucher et de la vue du papier, de la reliure, l'odeur de la colle,
les titres alignés sur les dos épais rangés côte à côte sur une étagère et que l'on parcourt d'un
regard amoureux ou pressé au moment du choix, et peut-être surtout les annotations
marginales que l'on retrouve des années plus tard qui font que, d’une certaine manière, on
s’approprie le texte du dictionnaire. Argument auquel répondent facilement les partisans du
tout électronique en disant que rien n'égale pour eux le plaisir de jouer avec cette merveilleuse
machine qu'est l'ordinateur. Joute verbale où nul jamais ne convaincra l'autre. Question,
partiellement, de génération…
Les prévisions de disparition prochaine du dictionnaire papier sont démenties au fur et à
mesure que les années passent : Meijs, par exemple, prévoyait en 1992 (1992, 152) que dix
ans plus tard, soit en 2002, le CD-ROM serait devenu la norme et le papier l’exception ! On
peut penser qu'un certain nombre de dictionnaires sur papier subsisteront quelque temps
encore, en particulier les dictionnaires de taille modeste. Mais je ne m'aventurerai pas à dire
combien de temps ils dureront. Cela dépend du temps qu'il faudra pour que s'éteignent
progressivement les habitudes de consultation installées au cours des générations successives
d'utilisateurs de dictionnaires sur support papier, en particulier du temps qu'il nous faudra
pour perdre l'usage de l'ordre alphabétique. Cela dépendra des progrès accomplis par les
dictionnaires électroniques, des efforts consentis par les développeurs et les éditeurs pour en
généraliser l'usage, de la réceptivité des enseignants, etc.

3. L’informatique dans la fabrication des dictionnaires

3.1. La mise au point du texte dictionnairique


Le fait que le dictionnaire soit commercialisé sur support électronique permet au lexicographe
de vaincre dans une large mesure son ennemi ancestral, le manque de place, même si cette
victoire n'est pas aussi totale qu'ont pu le penser certains. Par ailleurs l'utilisation de
l’informatique pour préparer le texte dictionnairique permet aussi au lexicographe
• d’utiliser un masque de saisie identique pour chaque entrée, et donc de faire en sorte que la
microstructure soit une véritable structure,
• de gérer les jeux de polices de caractères,
• de vérifier les renvois,
• de contrôler la cohérence de l'ensemble du texte, par exemple la circularité, la comparabilité
des définitions qui doivent être comparables, etc.,
• de faciliter les mises à jour, pour tenir compte des avancées de la recherche ou pour coller à
l'actualité,
• d’adapter un même texte dictionnairique à une catégorie particulière d'utilisateurs, en
ajoutant ou en retirant certains types d'information (par exemple l'étymologie, la
prononciation, les structures syntaxiques), pour peu que ces informations aient été
convenablement étiquetées au cours de la phase de préparation,
• etc.
Il est permis de penser que dans un avenir assez proche, grâce aux facilités que procure
l'informatique, toutes les informations disponibles pourront être fournies sur un seul et même
support, laissant à l'utilisateur le soin de choisir ce dont il a besoin selon ses caractéristiques
ou même à chaque acte de consultation. C'est par le biais de l'hypertexte que le lexicographe
pourra donner cette énorme quantité d'informations tout en préservant une bonne facilité de
consultation. Les différences actuelles entre dictionnaire général, dictionnaire encyclopédique
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques

Informatique et lexicographie de corpus : les nouveaux dictionnaires 11

et dictionnaire spécialisé, voire dictionnaire bilingue, auraient donc tendance à s'effacer, la


même base faisant office de l’un ou de l’autre selon les utilisateurs et les utilisations (Pruvost
2002a, 77).

3.2. Le corpus
3.2.1. Le corpus lexicographique
La notion de corpus n’est pas nouvelle, mais sa version moderne, celle d’un ensemble de
textes authentiques assemblés sous forme électronique selon un certain nombre de critères
préalablement à tout travail linguistique (définition adaptée de Bowker & Pearson 2002, 9),
avait besoin de l’informatique pour que s’épanouissent toutes ses potentialités. Le corpus de
Littré ou même celui de l’Oxford English Dictionary avaient des caractéristiques bien
différentes et une place tout autre dans le travail lexicographique.
Le corpus lexicographique, par rapport à des corpus destinés à d’autres usages, est surtout
caractérisé par ses dimensions (Kennedy 1998, 117). En effet, si un corpus modeste peut
donner accès à la totalité, ou à la quasi-totalité, des phénomènes linguistiques relevant de la
phonologie ou de la syntaxe, il n'en est pas de même en ce qui concerne le lexique. Seul un
très vaste ensemble de textes peut donner une image raisonnablement « représentative » (voir
ci-dessous § 4.1.) de l'emploi des éléments lexicaux d'une langue. Le corpus « Bank of
English », par exemple, a plus de 450 millions de mots (Sinclair 2003, 193), et il est alimenté
en permanence. La question de l'ouverture du corpus à usage lexicographique se pose en effet.
La tendance – tout au moins pour ce qui concerne la langue anglaise – semble être d’aller vers
des corpus ouverts (en anglais monitor corpus), condition indispensable pour ne pas perdre le
contact avec les évolutions de la langue.
Kilgarriff & Tugwell (2002, 125) distinguent quatre âges dans l’histoire de la
lexicographie de corpus. Le premier, avant l’ordinateur, n’est que la collecte des citations,
comme chez Samuel Johnson ou dans l’Oxford English Dictionary. Le second commence
avec la compilation de la première édition du Collins COBUILD Dictionary au début des
années 1980, avec son corpus de 7 millions de mots d’où étaient tirées toutes les informations.
Le troisième correspond à la période où les corpus deviennent tellement grands que les
lexicographes ont besoin d’aide pour les utiliser, et le quatrième est celui où les lexicographes
disposent d’outils permettant d’extraire du corpus des « portraits de mots » plus ou moins
prêts à l’emploi.
La plupart des dictionnaires produits en Grande-Bretagne et un nombre croissant de ceux
qui sont produits aux Etats-Unis utilisent désormais un corpus. Il en est de même pour un
certain nombre de dictionnaires dans d'autres pays en Europe ou ailleurs, mais contrairement à
ce que pourrait laisser croire la lecture des revues ou des actes de colloques de lexicographie
depuis quelques années, un grand nombre de dictionnaires de par le monde sont encore
préparés aujourd’hui sans corpus. Situation incongrue où certains se battent pour pouvoir
disposer d'un minimum alors que d'autres éprouvent les pires difficultés pour pouvoir se servir
de corpus qui sont devenus trop grands pour être facilement utilisables. En lexicographie
comme dans d'autres domaines, certains ont trop, d'autres trop peu.
J'ai bien peur que la lexicographie française, en dehors du TLF, ne soit pas la mieux
placée : où sont les corpus des deux dictionnaires français les plus vendus, le Petit Larousse et
le Petit Robert ? Que les maisons d'édition me pardonnent si je me trompe, mais je ne les ai
jamais vus, ces corpus, et je n’ai même pas la moindre information sur eux, alors que les
corpus utilisés par les dictionnaires anglais sont connus, décrits et souvent même plus ou
moins accessibles. C'est en partie une question d’argent, bien sûr : les dictionnaires de langue
anglaise rapportent suffisamment d’argent à leurs éditeurs (plutôt d’ailleurs qu’à leurs
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques

12 Henri Béjoint

auteurs !) pour qu'ils investissent dans des améliorations méthodologiques susceptibles de leur
donner un avantage sur leurs concurrents.

3.2.2. Les usages du corpus


Un corpus peut être utilisé pour
• déterminer la liste des éléments de la nomenclature par la fréquence et la répartition
(Landau 2001, 104). Le corpus montre que certaines formes sont trop rares pour justifier
l’inclusion dans un dictionnaire et que d’autres au contraire sont tellement fréquentes qu’il
n’est pas pensable de les omettre. Il permet également de marquer les frontières des unités
lexicales complexes.
• établir l’usage syntagmatique réel et non tel qu’il est supposé ou imaginé par le
lexicographe. Svartvik (1999, 291) compare une étude de collocations (good, strong et high
avec likelihood, probability, possibility et chance) par Bolinger en 1975 avec le contenu du
British National Corpus (100 millions de mots), et conclut que certaines des collocations
retenues par Bolinger sont en fait très rares (par exemple good likelihood, une seule
occurrence) et que parmi celles qu’il ne retient pas certaines sont très utilisées (par exemple
strong chance, 13 occurrences).
• définir les mots : le corpus contient des éléments de contexte qui permettent de mieux
cerner le sens des mots, et les mots grammaticaux peuvent être « définis » par le biais des
contextes dans lesquels ils apparaissent.
• choisir les étiquettes d’usage, en fonction des contextes (Landau 2001, 228, 269).

3.2.3. La préparation du corpus


Pour accomplir ces tâches, un corpus doit d’abord être préparé par des outils, désormais bien
connus. On distingue, on le sait, des lemmatiseurs, des concordanciers, des « taggers » qui
identifient les catégories grammaticales auxquelles appartiennent les mots, des « parsers » qui
décortiquent les phrases, des systèmes de désambiguïsation des formes ambiguës, etc.
(Greffenstette 1998 ; Landau 2001, 336). Ces outils sont développés par les éditeurs de
dictionnaires, ou par des firmes spécialisées 2 .

3.2.4. Les outils d’analyse du corpus


Une fois que le corpus est prêt, il reste à l’exploiter pour en tirer la substance du texte
dictionnairique. Il existe pour cela aussi divers outils, qui sont devenus d’autant plus
nécessaires que les corpus sont devenus gigantesques. Un corpus anglais de 200 millions de
mots, par exemple, aura environ 1500 occurrences pour un mot comme forge, 3500 pour
forgive et 25000 pour forget (Rundell 2002, 140). Il est clair que le lexicographe qui se voit
proposer plusieurs milliers d'occurrences du mot qui l'intéresse a besoin d'aide : c’est le
troisième stade de Kilgarriff et Tugwell. Un certain nombre de chercheurs consacrent leurs
efforts depuis quelques années à fournir au lexicographe des moyens de « pré-digérer » la
masse des occurrences contenue dans un corpus.
Verlinde, Binon et Selva (2005) montrent que depuis la fin des années 1980 c’est surtout
la combinatoire des mots qui a retenu l’attention des spécialistes. Des outils statistiques
comme l’« information mutuelle » (mutual information), le « T score », ou le « Z score »

2
Cette préparation des textes du corpus pose des problèmes à certains, qui y voient une défiguration des
discours authentiques par des critères arbitrairement choisis par les informaticiens – contrepoint
rafraîchissant aux déclarations de ceux pour qui l'informatique serait la clé de tous les problèmes (Sinclair
2003).
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques

Informatique et lexicographie de corpus : les nouveaux dictionnaires 13

permettent de mettre en évidence les cooccurrences pertinentes. Verlinde, Binon et Selva


donnent l’exemple des résultats obtenus pour le mot jouer, avec un contexte de 4 mots à
gauche et à droite, dans un corpus du journal Le Monde en 1998 (Figure 1 infra, que je leur
emprunte). On peut constater que le tableau identifie les cooccurrences pertinentes, mais sans
qu’il soit toujours possible d’identifier la relation syntagmatique avec le verbe jouer. On voit
aussi qu’il y a un certain nombre de cooccurrences qui ne sont pas pertinentes : effarouchées,
prêteuses, amplifications.
Kilgarriff & al. (2004) perfectionnent ce type d’outils pour en tirer des « portraits » de
chaque « mot ». Pour l’équivalent anglais du verbe jouer, to play, on aboutit à une « carte
combinatoire » (word sketch) très détaillée, avec les sujets, les objets et les modificateurs
typiques (Figure 2 infra, également empruntée à Verlinde, Binon et Selva 2005).

Figure 1. Cooccurrences pour le verbe jouer.

Bien sûr, le lexicographe qui utilise Word Sketch peut d’un simple clic avoir à sa disposition
la totalité des contextes d’utilisation du mot étudié. Cet outil a été utilisé pour la compilation
du Macmillan English Dictionary (2002). Il est possible ensuite de confronter la combinatoire
de deux mots différents. Incidemment, cet outil est donc très utile pour étudier les synonymies
potentielles. Il permet de constater qu’il existe en général des différences de comportement
cooccurrentiel entre deux quasi-synonymes.
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques

14 Henri Béjoint

Figure 2. Carte combinatoire de play.

Un autre domaine d’activité intense est ce que les anglophones appellent « Word sense
disambiguation », c’est-à-dire la mise au point d’outils servant à déterminer quel est le sens de
chaque « mot » polysémique ou ambigu dans chacune de ses occurrences dans un texte (voir
l’expérience SENSEVAL menée par Kilgarriff et quelques autres). Ces travaux utilisent un
dictionnaire existant pour essayer de faire coïncider les sens des mots en contexte avec les
sens identifiés par le lexicographe. Evidemment, cela ne résout en rien la question de ce
qu’est un sens, combien un mot polysémique a de sens différents, etc. Je prends toujours avec
mes étudiants l’exemple du mot pied, et les résultats sont ceux qu’on attendait : le nombre de
sens distingués spontanément par eux est variable, le découpage n’est pas le même, sans
compter qu’ils oublient toujours des « sens », comme par exemple celui de « chaussure »,
comme dans Je vais essayer le pied gauche 3 .

4. Le texte du dictionnaire informatisé

Mais le corpus n’est après tout qu’un moyen, même si la littérature lexicographique récente
pourrait laisser penser le contraire. Ce qui compte, c’est quand même le texte du dictionnaire
tel qu’il est produit avec le secours de l’informatique en général et du corpus en particulier. Je
voudrais montrer en quoi le texte dictionnairique qui résulte de l’utilisation d’un corpus est
différent du texte du dictionnaire traditionnel, en quoi il est meilleur sur beaucoup de points,
et je terminerai en montrant qu’il ne faut peut-être pas, tout de même, se laisser aller à un
optimisme excessif.

3
On aura noté par ailleurs que l’exploitation informatique du corpus remet sur le devant de la scène la
notion de « mot », dont les linguistes avaient essayé de se débarrasser.
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques

Informatique et lexicographie de corpus : les nouveaux dictionnaires 15

4.1. Corpus et représentativité de la nomenclature


L’utilisation d’un corpus pose en termes nouveaux le problème de la représentativité de la
nomenclature et accessoirement de la microstructure des dictionnaires généraux. On sait que
Josette Rey-Debove (1971) appelait représentativité l'idéal visé par le lexicographe faute de
pouvoir atteindre l'exhaustivité : un dictionnaire, disait-elle, ne peut sans doute pas tout
inclure et tout dire, mais on peut exiger de lui qu'il donne une image représentative de la
« totalité » du lexique. La représentativité est en fait une notion assez ancienne, associée au
dictionnaire destiné à fournir un portrait de l'ensemble d'un lexique, le « dictionnaire-
portrait » de Dubois & Dubois (1971), apparu au cours du XVIIIe siècle dans nos civilisations.
Elle est difficile à définir et à mettre en œuvre : on parle parfois de cercles concentriques dont
le noyau central serait constitué par la langue « commune » et dont les strates successives,
semblables aux pelures d'un oignon, contiendraient les autres éléments, selon une
« centralité » qui dépend de leur fréquence. Cette image est séduisante, mais elle ne résiste à
l'épreuve que si l'on accepte de ne pas être trop exigeant – tous les lexicographes le savent.
La question de la représentativité se pose au moment de l'assemblage des documents qui
entrent dans la constitution du corpus. Il y a un aspect quantitatif : combien de mots, combien
de textes, de quelle longueur, combien d’auteurs différents ? Les réponses varient en fonction
des objectifs. Mais il y a aussi un aspect qualitatif ; ce n'est pas seulement : Comment faire
pour que le corpus soit représentatif ? mais surtout : Quel est l'ensemble que le dictionnaire
est censé représenter ? Représentatif, mais représentatif de quoi ? Il n'y a pas de réponses
simples à ces questions : ni la langue ni ses sous-ensembles, variétés, dialectes, patois,
jargons, langues de spécialités, registres, lectes, etc. ne constituent des entités faciles à
circonscrire 4 . La subjectivité reste donc présente dans la lexicographie moderne, au moins au
moment de la constitution du corpus. L’une des « déformations » évidentes en lexicographie
traditionnelle est la sous-représentation des données concernant la langue orale, pour diverses
raisons, en particulier le fait qu’elles sont trop coûteuses à rassembler.
One corpus linguist estimates that it takes ten hours to transcribe one hour’s worth of recorded
speech (usually 7,000 to 9,000 words) with minimal prosodic markup. (Landau 2001, 324)
Il reste que le corpus, une fois constitué, donne accès à une quantité de documents
inaccessible jusqu'alors, et qu'il permet au lexicographe de se rapprocher davantage de
l'objectif de la représentativité. Toute décision d'inclusion ou d'exclusion peut désormais être
fondée sur les témoignages du corpus, en particulier sur la fréquence de l'élément dans
l'usage.

4.2. Corpus et fidélité de l’information à l’usage


Même si l'on n'accorde pas une confiance aveugle aux chiffres de fréquence, le corpus permet
de recentrer le dictionnaire sur ce qui est courant dans l'usage, conformément aux objectifs
déclarés des dictionnaires modernes – jamais remis en cause depuis le XVIIIe siècle – qui
doivent contenir « tous » les mots et « tous » les sens, même les plus courants, ceux que
personne n'aura jamais besoin de consulter. Les trois techniques traditionnellement employées
pour la constitution de la nomenclature (l'intuition ou introspection, la lecture de textes ou
sources primaires et la consultation des dictionnaires précédents ou sources secondaires) ont
toujours eu tendance à concentrer l'attention du lexicographe sur ce que Hanks (2000) appelle
la « saillance cognitive » (cognitive salience), c'est-à-dire sur ce qui est le plus spontanément

4
Evidemment, plus l'ensemble est restreint, moins il sera difficile à circonscrire : par exemple, la langue
française de la cardiologie de 1980 à 2000 sera plus facile à décrire que la langue de la médecine depuis
1950, qui sera plus facile que la langue de la science au XXe siècle, et que la langue française en général.
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques

16 Henri Béjoint

présent à l'esprit des locuteurs, plus que sur la fréquence, que ce soit dans le choix des
éléments de la nomenclature ou dans celui des sens des unités polysémiques.
Introspection is a very flawed technique. Corpus studies indicate that there is an inverse
relationship between cognitive salience (what we can come up with by means of introspection)
and social salience (what we find in corpora). We human beings are wired to register the
unusual in our minds […] But we fail to pay any attention to the commonplace. (Hanks, 2000, 4)
L’expérience de James Murray pour la compilation de l’Oxford English Dictionary de ce
point de vue est une bonne illustration de ce phénomène : ce que ses lecteurs lui rapportaient,
d’ailleurs dans le droit-fil de ses recommandations mais en les poussant un peu loin, c’étaient
surtout les bizarreries de l’usage plutôt que les lignes de force (Simpson 2003).
Accessoirement, le corpus permet aujourd'hui au lexicographe de cantonner au strict
minimum la part de l’information tirée de son intuition ou de ses prédécesseurs. Cela lui
permet de corriger les erreurs ou les archaïsmes qui ont tendance à être transportés de
dictionnaire à dictionnaire sans que soit posée la question de leur authenticité. Le
lexicographe a désormais à sa disposition les moyens de s'assurer que chacune des
informations qu'il donne est corroborée par l'usage tel qu'il est représenté par le corpus.

4.3. Corpus et normativité


L’opposition entre « descriptivisme » et « prescriptivisme » en lexicographie a beaucoup
attisé les passions aux Etats-Unis au moment de la parution du Webster’s Third New
International Dictionary en 1961, mais la question est plus générale : le dictionnaire doit-il
dire ce qui est « bien » et ce qui est « mal » dans le domaine de l'usage linguistique, voire
passer sous silence ce qui est « mal », ou bien se contenter de dire tout ce qui est utilisé, sans
porter de jugement ? La guerre a beaucoup diminué d’intensité depuis quelques années, au
point que la question n’est plus guère évoquée, et on peut se demander si le corpus a joué un
rôle dans cette évolution.
Utiliser un corpus, c’est tendre naturellement vers le descriptivisme. Certes, on peut
toujours fabriquer un corpus à des fins prescriptivistes en restreignant les textes sources à
certains types, ou encore ne retenir dans un corpus que la fine fleur linguistique. C'est ce que
font, par exemple, les dictionnaires Encarta. La publicité dit qu’ils sont fondés sur un corpus
(ce dont certains semblent douter ; Landau 2000, 113), mais leurs auteurs ont choisi d’écarter
tout ce qu'ils jugent insultant, grossier, vulgaire, péjoratif, voire familier, et d'inonder le
lecteur sous les commentaires et les avertissements à propos des unités qu'ils n'ont pas pu se
résoudre à écarter mais qui pourraient éventuellement, dans certaines circonstances, être
considérées comme inopportunes (Landau op. cit). Ces dictionnaires paraissent très décalés
par rapport à la tendance générale dans beaucoup de pays, qui est de ne reculer devant aucun
élément de nomenclature sous prétexte qu’il est vulgaire ou peu recommandable, dès lors qu'il
est attesté dans l'usage de manière convaincante. Plus personne ne cherche les gros mots dans
les dictionnaires, mais ils y sont tous, alors que dans les générations précédentes on les
cherchait assidûment mais on ne les trouvait pas ! En tout cas, le corpus fournit aux
descriptivistes un outil d’une puissance naguère inimaginable pour étayer leurs décisions.

4.4. Corpus, synchronie et fonctionnalité du code


Une autre caractéristique des dictionnaires actuels partiellement liée à l’utilisation d’un
corpus électronique est qu’ils ont désormais un rapport différent avec la synchronie (Pruvost
2002b, 66). Grâce à l'informatique, le lexicographe est en mesure de mieux « coller à
l'actualité » et de faire correspondre le dictionnaire à une synchronie telle que définie par Rey-
Debove (1971, 98) en rapport avec l'humain. Là où il fallait huit ou dix ans pour écrire un
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques

Informatique et lexicographie de corpus : les nouveaux dictionnaires 17

dictionnaire, et parfois beaucoup plus (l'Oxford English Dictionary a nécessité 70 années de


travail, de 1857 à 1928, et d'autres dictionnaires beaucoup plus encore ; Osselton 2000),
désormais quelques mois, au plus quelques années suffisent. Il se trouve aussi, sans qu'on
puisse savoir quelle est la cause et quelle est la conséquence, que les besoins des utilisateurs
actuels ont évolué. Bien sûr, il y a toujours des amateurs de dictionnaires historiques, et on
continue donc à en produire, et il y a aussi des renseignements d’ordre historique dans les
dictionnaires généraux, mais la demande de dictionnaires synchroniques représentant un code
fonctionnel dans son ensemble semble avoir augmenté, du moins si l'on en juge par l'offre.
On peut voir dans ce relatif oubli de la diachronie une tendance à diminuer dans les
dictionnaires généraux l'importance de l'information qui n’est pas directement fonctionnelle :
la connaissance de l'étymologie, par exemple, peut éventuellement être une aide à la
compréhension et à la mémorisation des éléments lexicaux, mais elle n’améliore pas
directement la capacité à communiquer. Si beaucoup de dictionnaires monolingues (les
bilingues sont construits sur une autre image) continuent à fournir des informations
étymologiques, c'est autant par fidélité à la tradition que par une véritable réflexion des
lexicographes sur les objectifs de leurs ouvrages, c'est parce que la tradition veut que le
dictionnaire dise à propos de chaque mot tout ce que l'honnête homme doit savoir.
En tout cas, il semble bien que le dictionnaire ait tendance à devenir un objet destiné à une
utilisation limitée dans le temps, et voué à une obsolescence rapide, en phase avec les
changements qui s’opèrent dans le langage qu’il tente de représenter.

4.5. Corpus et unités lexicographiques


Les lexicographes ont toujours eu pour objet de description l’élément lexical isolé. Dans les
dictionnaires, cet élément est débarrassé de son contexte pour que les informations données à
son sujet puissent mieux s'adapter à tous les contextes possibles. Les lexicographes travaillent
un peu comme les entomologistes : le mot qu'ils étudient, comme le papillon cloué sur la
planche, est plus facile à observer que dans la nature, mais il ne vit plus. La description
lexicographique traditionnelle consiste à rendre compte de chaque unité en elle-même, mais a
tendance à se désintéresser de l'effet produit lorsque cette unité est mise en discours.
Or le corpus informatisé a permis de mettre en évidence des affinités entre les mots qui
constituent des entités plus ou moins longues et plus ou moins codées, véritables unités
fonctionnelles du discours (Sinclair 1991 ; Tognini-Bonelli 2001). Il a ainsi facilité le
traitement lexicographique du mot dans ses divers environnements syntagmatiques. Les
possibilités techniques offertes par l'informatique sont d'ailleurs fort opportunément arrivées
sur la scène de la lexicographie au moment même où les avancées de la linguistique et
l'évolution de la didactique des langues avaient amené les linguistes à s'intéresser à ces
affinités (voir par exemple les travaux de Firth en Grande-Bretagne). Encore une fois, le
corpus a sans doute été à la fois la cause partielle et l'instrument.
Le corpus permet de mettre en lumière toutes les affinités qu’on peut appeler
« cooccurrences » au sens large, depuis les mots composés jusqu'aux syntagmes plus ou
moins idiomatiques en passant par les locutions, les expressions, les phraséologismes, les
collocations, qui n’étaient traitées auparavant qu'au hasard de l'inspiration du lexicographe. Il
permet aussi d'explorer les relations entre cet environnement syntagmatique et le sens des
unités qui les composent. Le sujet de l'article de dictionnaire tend donc à être non plus l'unité
lexicale isolée mais l'unité lexicale insérée dans ses environnements. C'est tout le principe de
fonctionnement des définitions du Collins COBUILD Dictionary (1987), comme le montre
l'exemple de l'article climb.
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques

18 Henri Béjoint

climb /klaim/, climbs, climbing, climbed. 1 If you climb or if you climb something
tall such as a tree, mountain, or ladder, you move or travel to- wards the top of it, often
with some effort or difficulty. EG We started to climb the hill… He climbed the stairs
to his bedroom… I climbed up the ladder. ▼used as a noun. EG We were still out of
breath from the climb.
2 If you climb somewhere, you move there slowly, carefully, and often rather
awkwardly, for example because you are moving into a small space or trying to avoid
falling …

Figure 3. Article climb dans COBUILD 1987.

Bien sûr, cette prise en compte de l'environnement syntagmatique des mots est beaucoup plus
nette pour les verbes et certains adjectifs que pour les noms. Elle varie également selon le mot
traité et selon le dictionnaire. A terme, on peut s’attendre à ce que les dictionnaires soient en
mesure grâce aux observations faites sur un corpus de rendre compte de cooccurrences plus
floues, plus distantes, moins lexicales et plus grammaticales, du type de celles qui sont
décrites par Sinclair (1991, 110) lorsqu’il évoque son « principe d’idiomaticité » (idiom
principle). Globalement, on peut dire que dans les dictionnaires modernes le mot unique
conserve sa fonction d'étiquette servant au classement des articles du dictionnaire et donc à
leur repérage, mais qu'il ouvre désormais sur un article qui tend à traiter d'entités discursives
plus étendues, repérées et traitées grâce au corpus.

4.6. Corpus et lexicographie d'encodage


La plus grande facilité à noter l'environnement syntagmatique des unités lexicales a favorisé
l'épanouissement de ce que j'ai appelé ailleurs une « lexicographie de l'encodage » (Béjoint
2001, 83). Je faisais là allusion aux dictionnaires explicitement dédiés à cette fonction,
comme les dictionnaires de collocations ou encore les dictionnaires explicatifs et
combinatoires inspirés par la théorie Sens → Texte de Mel'čuk, mais aussi à la présence
d'informations nécessaires à l'encodage dans les dictionnaires généraux. Toute cette
lexicographie est en plein développement depuis quelques décennies.
Les informations d'encodage intéressent les lexicographes comme les linguistes, les
spécialistes de traduction assistée par ordinateur et beaucoup d’autres : que faut-il que le
locuteur sache pour pouvoir encoder, que ce soit dans sa langue ou dans une langue seconde
ou étrangère ? Les informations nécessaires sont d’ordre syntagmatique (ce qui concerne les
lois de l’assemblage, collocations, contraintes syntaxiques) et paradigmatique (ce qui
concerne le choix d’un mot parmi d’autres), la différence entre les deux n'étant d'ailleurs pas
toujours claire, dans la mesure où chaque mot porte avec lui ses propres contraintes
syntagmatiques. C’est une question très complexe, dont les dictionnaires ne peuvent
évidemment rendre compte que très partiellement et imparfaitement, dans l'état actuel de la
lexicographie.
Il y a toujours eu des informations utiles à l’encodage dans les dictionnaires généraux,
mêlées aux informations de décodage toujours majoritaires. Qu’on se souvienne du premier
Dictionnaire de l’Académie (1694), dont l’objectif était autant de montrer comment parlaient
et écrivaient les meilleurs locuteurs et écrivains du royaume que de permettre de les
comprendre. Mais en tant que guide d'encodage, ces dictionnaires étaient peu réalistes, dans la
mesure où les modèles proposés ne pouvaient laisser l'utilisateur espérer qu'il pourrait jamais
les égaler. En France, la présence d'informations d'encodage avait également une place dans
l'objectif de lexicographes comme Pierre Larousse, qui voulaient faire du dictionnaire général
« un outil au service de [l’]autonomie » de l'utilisateur (Pruvost 2002a, 66), mais qui ne
donnaient guère d’outils précis de mise en discours.
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques

Informatique et lexicographie de corpus : les nouveaux dictionnaires 19

On peut dire que l’histoire de la lexicographie de l'encodage syntagmatique contemporain


conçu d'une manière réaliste pour la production de discours « ordinaire » par l’imitation a
commencé avec les premiers dictionnaires anglais pour apprenants, c’est-à-dire le Idiomatic
and Syntactic English Dictionary en 1942 au Japon 5 . C'était un ouvrage vraiment novateur
dans le sens où il proposait un inventaire systématique des constructions (syntactic patterns),
verbales d'abord puis nominales et adjectivales dans des éditions ultérieures et chez les
concurrents, avec un codage permettant leur repérage, leur classement et leur utilisation. A la
suite de ces dictionnaires pour apprenants étrangers, très populaires et finalement assez
influents, les dictionnaires généraux de langue anglaise se sont davantage intéressés aux
informations d’encodage. Le New Oxford Dictionary of English, par exemple, qui est pourtant
un dictionnaire pour locuteurs natifs, a des « Usage notes », pratique nouvelle en Grande-
Bretagne quoique connue depuis longtemps dans les dictionnaires américains, pour des
raisons sociolinguistiques qui ont été souvent évoquées. Par ailleurs, et indépendamment, en
France, les analogies de Paul Robert constituent aussi une avancée dans la direction de
l'encodage, même si elle est très différente, lexicale plutôt que syntaxique. D’une manière
générale, il est clair que le partage entre ce qui appartient à la grammaire (au sens de « livre »)
et ce qui appartient au dictionnaire est devenu beaucoup plus flou. Cette évolution n'est pas
directement liée au corpus, mais elle fait partie d'un infléchissement du dictionnaire vers le
discours ordinaire, habituel, normal, courant et donc « imitable », qui a été favorisé par la
présence du corpus.

4.7. Corpus, langue, parole, compétence et performance


Les lexicographes, concentrés sur l'unité lexicale isolée, ont toujours eu pour objectif d'écarter
tout ce qui est variable, changeant pour essayer de rendre compte de ce qui est permanent,
intangible, fondamental, qui constitue la base sur laquelle la communication linguistique est
construite. Il s'est toujours agi pour eux d'essayer d'atteindre le système plutôt que sa mise en
œuvre, c'est-à-dire, en termes saussuriens, la langue plutôt que le discours. En termes
chomskyiens, on dirait que le dictionnaire traditionnel est une boîte à outils qui contient les
éléments de la compétence, mais ne se mêle pas de performance. Le dictionnaire traditionnel
est ce qu’on pourrait appeler un « Meccano » (du nom du célèbre jeu de construction qu’on
offrait jadis aux enfants 6 ), c’est-à-dire un dictionnaire chargé de fournir à ses utilisateurs des
éléments lexicaux qui peuvent être alignés bout à bout sur la chaîne syntagmatique pour
interpréter le discours ou pour en produire, comme dans le principe « du choix libre » de
Sinclair (1991). Mais il est en train de se transformer en profondeur. Il devient, grâce au
corpus, un dictionnaire qui fournit à ses utilisateurs des modèles de discours imitables plus ou
moins prêts à l’emploi. Parce qu'il contient plus d’exemples d’usage authentique, et des
exemples plus longs, il devient un outil de production immédiate et simplifiée par imitation de
ce qui se dit communément, une boîte pleine de morceaux de discours prêts à l'usage. Il
devient un thesaurus, un recueil de paroles, ou de performances (Hanks 2000), jouet
Playmobil à utiliser tel quel plutôt que Meccano à construire.
Le corpus aura donc contribué à faire en sorte que l'unité lexicale soit désormais vue
comme un événement, l'élément d'une situation, d'un cadre, et non plus seulement comme un
objet isolé. C'est pourquoi la lexicographie de corpus a besoin d'une sémantique de

5
Qui a donné naissance au fameux Advanced Learner's Dictionary de A.S. Hornby & al., publié depuis
1948 par Oxford University Press (voir Cowie 1999).
6
Le Meccano (contraction de make and know) a été inventé en 1901 par l'anglais Frank Hornby, dont le
nom le prédestinait à être cité dans un article sur la lexicographie, le même qui lancera trente ans plus tard
les non moins célèbres Dinky Toys.
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques

20 Henri Béjoint

constatation de l'usage, comme la sémantique des cadres de Fillmore. Mais ceci est une autre
histoire.

5. L’informatique et le corpus ont-ils résolu tous les problèmes des lexicographes ?

L’informatique permet d’ores et déjà de produire des dictionnaires de meilleure qualité sur
certains points, on l’a vu. En outre, les possibilités offertes à l'utilisateur d’un dictionnaire sur
support informatisé constituent un défi pour le lexicographe, ainsi poussé à inventer, à
innover pour que le contenu soit à la hauteur du contenant, et on peut donc penser qu’il y aura
d’autres améliorations. Dans l'état actuel de nos techniques, par exemple, les dictionnaires
électroniques donnent accès à l'article qui traite de l'unité recherchée, mais pas encore à la
seule partie de cet article qui répond à la question posée. Beaucoup travaillent sur cette
problématique, mais les obstacles n'ont pas tous été levés.
Mais l’utilisation de l’informatique peut aussi, si l'on en croit certains, comporter des
dangers pour la lexicographie. Pour Landau (2001, 399), la facilité avec laquelle le texte
dictionnairique peut être produit désormais a en fait rendu les dictionnaires plus médiocres
dans leur contenu. Les lexicographes travaillent avec des contraintes de temps et de rentabilité
pires que jamais. Par ailleurs, les éditeurs de dictionnaires ont tendance désormais à
concentrer leurs efforts sur ce que Bernard Quemada (1987) appelle le lexicographique, c’est-
à-dire la préparation des bases de données lexicales, au détriment du dictionnairique, c’est-à-
dire la compilation des dictionnaires. Parce qu'ils considèrent le dictionnaire comme un
produit de consommation comme un autre, qui doit être financièrement rentable, ils cherchent
à augmenter la productivité en extrayant le plus de variations possibles de la même base de
données, au détriment des projets originaux qui comportent toujours une part de risque
(Landau 2001, 400).
Enfin, et paradoxalement (mais est-ce aussi paradoxal ?), il y a de plus en plus de
lexicographes préparés par les universités mais les lexicographes travaillent de plus en plus
comme des ouvriers sous-qualifiés qui font fonctionner des machines et appliquent des
consignes. Il n'y a plus de lexicographes vedettes capables d'imprimer à leur dictionnaire la
marque de leur génie : les Samuel Johnson, Noah Webster, Emile Littré, Pierre Larousse,
James Murray, Paul Robert, Jean Dubois ne sont plus là, et ils n’ont pas été remplacés. Les
éditeurs semblent convaincus qu’un bon technicien suffira à préparer un dictionnaire sur la
base du matériau qu’on lui fournit, et qu’il n’est donc nul besoin de s’offrir les services d’une
star. Indirectement, l’informatique aura donc contribué à la disparition des grands noms de la
lexicographie, en réduisant le champ d'application de leur génie : tout rédacteur de
dictionnaire sait désormais qu'une proportion importante de ce que le dictionnaire contiendra
est fixé, par avance, par l'application mécanique des outils mis à sa disposition, sans qu'il y
puisse rien changer.
Le corpus a permis d’ores et déjà de transformer, et peut-être d’améliorer, le texte
dictionnairique, on l’a vu. Mais un optimisme béat serait là aussi excessif. Le corpus n’a pas
simplifié le travail du lexicographe ; il l’a modifié (Landau 2001, 44 ; Rundell 1998, 325). Là
où il travaillait naguère avec beaucoup d’intuition et de bonnes facultés d’analyse, il a
désormais besoin de puissance de déduction et de pouvoir de synthèse. Il est clair que le
corpus ne peut pas tout faire seul. Il est surtout utile pour la mise au point de la nomenclature,
mais même ces problèmes ne peuvent pas être totalement traités par le seul corpus : aucun
corpus ne permet de rassembler une nomenclature sans intervention complémentaire du
lexicographe. Quant aux problèmes de microstructure, comportements syntagmatiques,
définitions, étiquetage, nous ne sommes qu'à l'aube de l'utilisation des moyens informatiques
pour les résoudre.
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques

Informatique et lexicographie de corpus : les nouveaux dictionnaires 21

Dans ces conditions, que peut-on prévoir pour l'avenir de la lexicographie ? On peut être
certain qu'il y a de l'avenir pour les outils de référence de tout poil, les monolingues et les
bilingues, les généraux et les spécialisés, les encyclopédiques et les linguistiques, les
sémasiologiques et les onomasiologiques, et que nous ne sommes donc pas prêts de voir la fin
de la lexicographie. En effet, le besoin d’information ponctuelle et immédiate, en particulier
de repères linguistiques, sera de plus en plus grand, parce que nous sommes de plus en plus
pressés, parce qu’il y a de plus en plus de personnes qui interagissent par le langage avec des
personnes issues de la même communauté ou de communautés linguistiques différentes, parce
que nous avons besoin d‘outils fiables, dépositaires du code. Mais on peut se demander si ce
sont bien les dictionnaires que nous connaissons qui sont promis à ce brillant avenir.
A quoi ressembleront les dictionnaires du futur ? En quoi seront-ils différents des
dictionnaires actuels ? Le dictionnaire survivra-t-il tel qu'il est, ou disparaîtra-t-il pour
rejoindre les vitrines des musées comme tant d’autres artefacts du passé, la tablette d’argile ou
la règle à calcul ? Sera-t-il remplacé par des outils qui n'ont guère de rapport avec lui ?
L'avenir le dira, mais cela ne fait guère de doute. D'ores et déjà, il est clair que le dictionnaire,
qui fut un des grands instruments de la promotion sociale et qui était devenu plus récemment
et plus modestement l'outil idéal pour toute question sur l'usage linguistique, a commencé à
perdre ce dernier monopole. Il joue désormais un rôle réduit dans l’acculturation des locuteurs
culturellement désavantagés, dans la mesure où il existe d’autres moyens plus modernes et
donc plus attractifs d'auto-enseignement. À terme, c'est donc bien la définition même du
dictionnaire qui sera remise en cause.

PHRASE BNC count ALTAVISTA count


medical treatment 414 627522
prostate cancer 39 518393
deep breath 732 170921
acrylic paint 30 43181
perfect balance 38 35494
electromagnetic radiation 39 69286
powerful force 71 52710
concrete pipe 10 21477
upholstery fabric 6 8019
vital organ 46 28829

Figure 4. Fréquences dans le BNC et dans Altavista 7 .


Grefenstette (2002, 202) est un de ceux qui posent la question de la survie du dictionnaire, en
face de la puissance gigantesque d’Internet. Il montre qu’Internet est supérieur, au moins en
quantité, à n’importe quel corpus. Ainsi le nombre d’occurrences de certains termes est
beaucoup plus élevé sur Altavista que dans le British National Corpus (Figure 4 ; voir aussi
Zaenen 2002, 237).
Certes il ne suffit pas d’avoir des données ; encore faut-il disposer des moyens de les
interpréter, et pour le moment la compétence du lexicographe est indispensable. Mais cela
durera-t-il ? Il suffit de songer au nombre de fois où nous allons d’ores et déjà chercher sur
Internet par l’intermédiaire de Google ou d’un autre moteur de recherche des informations
que nous aurions naguère recherchées dans un ouvrage, encyclopédie, dictionnaire bilingue,
etc.

7
On notera que Grefenstette a choisi des termes polylexicaux, qui éventuellement ne seront même pas
traités dans un dictionnaire.
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques

22 Henri Béjoint

C’est donc ce défi que la lexicographie doit relever : il s’agira désormais de produire des
outils adaptés à leur temps, c’est-à-dire qui tiennent compte de l’existence d’autres sources
d’information, et qui en tirent le meilleur parti. À la question posée par Gregory Grefenstette
en 1998 « Y aura-t-il encore des lexicographes en l’an 3000 ? », on peut sans doute répondre
« Oui », mais ils auront des compétences, des objectifs, des contraintes, des conditions de
travail et des techniques bien différentes.

Henri Béjoint
Université Lumière Lyon 2 / Centre de Recherche en Terminologie et Traduction (CRTT)
86 rue Pasteur, 69365 Lyon Cedex 7
<Henri.Bejoint@univ-lyon2.fr>

Références

1. Dictionnaires
Advanced Learner's Dictionary of Current English (2000/1995/1989/1974/1963/1948). Oxford, Oxford
University Press.
BBI Combinatory Dictionary of English (1986). Amsterdam, Benjamins.
Collins COBUILD English Language Dictionary (1987). Londres-Glasgow, Collins.
Concise Oxford Dictionary (2001/1995/1990/1982/1976/1964). Oxford, Oxford University Press.
Dictionnaire explicatif et combinatoire (1992/1987/1984). Montréal, Presses de l'Université de Montréal.
Encarta World English Dictionary (1993-1999). Microsoft.
Grand Dictionnaire Universel du XIXe siècle (1866). Paris, Larousse.
Grand Larousse de la Langue Française (1986). Paris, Larousse.
Grand Robert de la langue française. Dictionnaire alphabétique et analogique de la langue française
(1985). Paris, Le Robert.
Idiomatic and Syntactic English Dictionary (1942). Tokyo, Institute for Research in Language Teaching.
Longman Dictionary of Contemporary English (2003/1995/1987/1978). Harlow, Pearson Education Ltd.
New Oxford Dictionary of English (2001/1998). Oxford, Oxford University Press.
Petit Larousse (depuis 1904). Paris, Larousse.
Petit Robert : Le Nouveau Petit Robert, Dictionnaire de la langue française (1995). Paris, Le Robert.
Webster’s Third New International Dictionary (1961). Springfiled, Mass., Merriam Webster.

2. Ouvrages et articles
Atkins, B.T. Sue (1996). Bilingual Dictionaries: Past, Present and Future. In Gellerstam, M. & al. (eds.),
Euralex’96 Proceedings, Göteborg, Göteborg University, 515-546.
Atkins, B.T. Sue (2002). Then and Now: Competence and Performance in 35 Years of Lexicography. In
Braasch, A. & Povlsen, C. (eds.), Proceedings of the Tenth EURALEX International Congress,
EURALEX 2002, Copenhague, Center for Sprogteknologi), 1-28.
Béjoint, Henri (2001). Modern Lexicography: An Introduction. Oxford, OUP.
Béjoint, Henri (2003). Modern Lexicography: Past, Present and Future. In Murata, M., Yamada, S. &
Tono, Y. (eds.), Dictionaries and Language Learning : How can Dictionaries Help Human &
Machine Learning ?, Urayasu, The Asian Association for Lexicography, 3- 17.
Bowker, Lynne & Pearson, Jennifer (2002). Working with Specialized Language, A Practical Guide to
Using Corpora. London-New York, Routledge.
Cowie, Anthony P. (1999). English Dictionaries for Foreign Learners: A History. Oxford, Clarendon
Press.
Dubois, Claude & Dubois, Jean (1971). Introduction à la lexicographie. Paris, Larousse.
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques
Document téléchargé depuis www.cairn.info - Università Politecnica delle Marche - - 193.205.136.30 - 28/03/2019 11h37. © Pub. linguistiques

Informatique et lexicographie de corpus : les nouveaux dictionnaires 23

Greffenstette, Gregory (1998). The Future of Linguistics and Lexicographers: Will there be
Lexicographers in the year 3000? In Fontenelle, T. & al. (eds.), Actes EURALEX’98 Proceedings,
Liège, Université de Liège, 25-41.
Hanks, Patrick (2000). Contributions of Lexicography and Corpus Linguistics to a Theory of Language
Performance. In Heid, U. & al. (eds.), Proceedings of the Ninth EURALEX International Congress,
EURALEX 2000, Stuttgart, Institüt für Maschinelle Sprachverarbeitung, 3-13.
Hausmann, Franz Josef (2002). La lexicographie bilingue en Europe : peut-on l’améliorer ? In Ferrario,
E. & Pulcini, V. (eds.), La Lessicografia Bilingue tra presente e avvenire, Vercelli, Mercurio, 11-
31.
Kilgarriff, Adam & Tugwell, David (2002). Sketching words. In Corréard, Marie-Hélène (ed.),
Lexicography and Natural-Language Processing, Göteborg, EURALEX, 125-37.
Kilgarriff, Adam, Rychly, Pavel, Smrz, Pavel & Tugwell, David (2004). The Sketch Engine. In Williams,
Geoffrey & Vessier, Sandra (eds.), Proceedings of the Eleventh EURALEX International Congress.
Lorient, Université de Bretagne-Sud, 105-115.
Landau, Sidney (2000). Review of Encarta World English Dictionary. Dictionaries 21, 112-24.
Landau, Sidney (2001/1984). Dictionaries: The Art and Craft of Lexicography. Cambridge, CUP.
L’Homme, Marie-Claude & Vandaele, Sylvie (à paraître). Actes du Congrès de l’ACFAS, Montréal,
2004.
Michiels, Archibald (1982). Exploiting a Large Dictionary Database. PhD, Université de Liège.
Moon, Rosamund (1998). Fixed Expressions and Idioms in English. Oxford, Clarendon Press.
Murata, Minoru, Yamada, Shigeru & Tono, Yukio (2003). Dictionaries and Language Learning: How
can Dictionaries Help Human and Machine Learning? Tokyo, Asian Association for
Lexicography.
Osselton, Noel (2000). Murray and his European Counterparts. In Mugglestone, Linda (ed.),
Lexicography and the OED, Oxford, OUP, 59-76.
Pruvost, Jean (2002a). Les Dictionnaires de langue française. Paris, PUF.
Pruvost, Jean (2002b). Les Dictionnaires d’apprentissage monolingues du français langue maternelle :
L’histoire d’une métamorphose, du sous-produit à l’heureux pragmatisme en passant par
l’heuristique. In Braasch, A. & Povlsen, C. (eds.), Proceedings of the Tenth EURALEX
International Congress, EURALEX 2002, Copenhague, Center for Sprogteknologi, 55-84.
Quemada, Bernard (1987). Notes sur lexicographie et dictionnairique. Cahiers de Lexicologie 51/2, 229-
42.
Rey-Debove, Josette (1971). Etude linguistique et sémiotique des dictionnaires français contemporains.
The Hague, Mouton.
Simpson, John (2003). The production and use of occurrence examples. In van Sterkenburg (ed.), 260-
272.
Sinclair, John (1991). Corpus, Concordance, Collocation. Oxford, OUP.
Sinclair, John (2003). Corpus processing. In van Sterkenburg (ed.), 179-193.
Tognini-Bonelli, Elena (2001). Corpus Linguistics at Work. Amsterdam, Benjamins.
Sterkenburg, Piet van (ed.) (2003). A Practical Guide to Lexicography. Amsterdam, Benjamins.
Varantola, Krista (2003). Linguistic corpora (databases) and the compilation of dictionaries. In van
Sterkenburg (ed.), 228-239.
Verlinde, Serge, Selva, Thierry & Binon, Jean (2005). L’Informatique au service de la lexicographie. In
Béjoint, H. & Maniez, F. (eds.), De la mesure dans les termes. Lyon, Presses Universitaires de
Lyon, 109-123.
Wierzbicka, Anna (1985). Lexicography and Conceptual Analysis. Ann Arbor, Karoma .
Wierzbicka, Anna (1996). Semantics, Primes and Universals. Oxford, OUP.
Winchester, Simon (2003). The Meaning of Everything, The Story of the Oxford English Dictionary.
Oxford, OUP.

Vous aimerez peut-être aussi