Académique Documents
Professionnel Documents
Culture Documents
Base de Données Bilingue Wolof-Français
Base de Données Bilingue Wolof-Français
LEXICALE MULTIFONCTIONNELLE : LE
DICTIONNAIRE UNILINGUE WOLOF ET
BILINGUE WOLOF-FRANAIS*
Mame Thierno Ciss, Anna Marie Diagne
Universit Cheikh Anta Diop (Dakar, Sngal)
1 INTRODUCTION
tal sur une priode de deux ans (2007-2009), le projet de mise au point d'une base de
donnes lexicale multifonctionnelle est un projet men par l'Universit Cheikh Anta Diop
de Dakar (UCAD) au Sngal en collaboration avec le centre de recherche en linguistique
applique Termisti de la Haute cole de Bruxelles (Belgique) et avec le soutien de
l'Agence Universitaire de la Francophonie (AUF). Ce projet, aujourd'hui mi-parcours, a
pour objectif principal de constituer une base de donnes lexicale multifonctionnelle pour
la langue wolof, en d'autres termes, de collecter, numriser et standardiser un matriel
lexical qui pourra tre exploit une double fin : d'une part, fournir aux chercheurs et aux
spcialistes du wolof un corpus lexical rexploitable des fins d'enrichissement du
matriel constitu dans le cadre du projet, ou rutilisable pour des applications de
l'ingnierie linguistique ; d'autre part, fournir le support d'un dictionnaire destination des
populations wolophones monolingues ou bilingues.
Structuration et format des donnes ont t penss en premier lieu pour que le produit
final puisse servir au double usage de corpus lexical et de dictionnaire (tantt l'usage
exclusif de l'une ou l'autre de ces fonctions, tantt l'usage conjoint des deux fonctions) et,
en second lieu, pour offrir in fine la possibilit d'une exploitation des donnes sur
diffrents supports (site web, cdrom, publication imprime, etc.).
La dcision de proposer un dictionnaire wolof sous format lectronique et intgrant une
dimension bilingue dcoule du constat que les dictionnaires, monolingues ou bilingues,
pour cette langue sont non seulement peu nombreux, mais aussi et surtout que l'accs ces
trsors par la population wolophone est handicap par divers obstacles en termes de
publics viss, de cot et de disponibilit. En raison de son format lectronique, ce
dictionnaire, pourra tre librement tendu, exploitable sur divers mdias et rutilis par la
suite par d'autres quipes. Quant la dimension bilingue du projet, elle se manifeste au
travers de l'association, pour chaque entre lexicale wolof, d'une proposition d'quivalente
Pour faire rfrence cet article : van Campenhoudt Marc, Diagne Anna Marie, Muraille Paul & Thierno
Ciss Mame, Mise au point d'une base de donnes lexicale multifonctionnelle : le dictionnaire unilingue
wolof et bilingue wolof-franais , revue lectronique Texte et corpus, n3 / aot 2008, Actes des Journes
http://web.univde
la
linguistique
de
Corpus
2007,
p. 163-170
(disponible
sur
ubs.fr/corpus/jlc5/ACTES/ACTES_JLC07_thiernocisse_diagne_campenhoudt_muraille.pdf)
163
2 CONTEXTE DU PROJET
Comme d'autres langues africaines, le wolof n'a gure bnfici jusqu' prsent des
avantages dcoulant des avances de l'informatique depuis la fin des annes 1990, en
matire d'universalisation du traitement (Unicode) et d'change (XML) des donnes
textuelles. Or cette langue est non seulement la premire langue vernaculaire du Sngal
(et une de celles de la Gambie et de la Mauritanie), mais est aussi une importante langue
vhiculaire entre Sngalais (du moins en termes de corpus par contraste avec le franais
qui occupe, lui, la premire place en termes de status selon R. Chaudenson (1991)). Le
franais tant langue officielle et d'enseignement au Sngal ( ce jour, il n'existe pas
d'enseignement dans les langues nationales en dehors de classes d'exprimentation au
niveau de l'enseignement lmentaire), son apprentissage effectif ncessite le
dveloppement d'outils didactiques qui prennent en considration le substrat linguistique
des apprenants, et permettent d'offrir une passerelle vers les langues locales. Dans cette
optique, le dictionnaire a t labor pour tenter de rpondre aux besoins lexicographiques
de la didactique du franais des wolophones dans l'ducation primaire. ce niveau
d'enseignement, les enseignants ont en effet besoin d'outils facilitant l'apprentissage de
l'orthographe et de la signification des mots en wolof (partie unilingue) d'une part, et
d'outils facilitant l'apprentissage du franais partir de la langue maternelle des apprenants
d'autre part (partie bilingue). Le dictionnaire intgre ainsi les mots les plus frquents du
wolof tels que recenss dans Diouf, Calvet et Dia (1971). Il a galement pour vocation de
faciliter les changes interculturels du fait qu'il peut tre intgr dans une stratgie de
didactique du wolof des francophones.
La disponibilit des donnes lexicologiques sous forme lectronique, en conformit
avec les standards Unicode et XML, est une condition indispensable non seulement pour
leur exploitation long terme par les chercheurs au Sngal et ailleurs, mais aussi pour
leur rutilisation et leur intgration dans des applications d'ingnierie linguistique telles
qu'un vrificateur orthographique. La forme de stockage des donnes et leur mode de
diffusion pallient, en outre, les inconvnients du support papier en termes de cot, de
disponibilit et de diffusion.
164
Le logiciel Toolbox de SIL International peut tre tlcharg librement l'adresse suivante
http://www.sil.org/computing/toolbox/.
2
WordSmith Tools, logiciel conu par Mike Scott de lUniversit de Liverpool, est commercialis par
Oxford University Press.
3
Praat est un gratuiciel conu par Paul Boersma et David Weenink de l'Institut des sciences de la phontique
de l'Universit d'Amsterdam, tlchargeable l'adresse http://www.fon.hum.uva.nl/praat/
165
quelque 115 000 formes (tokens). L'indexation du corpus laide de WordSmith a permis
disoler quelque 14 700 formes uniques. Comme il n'existe pas, notre connaissance, de
lemmatiseur pour la langue wolof, ces 14 700 formes ont t importes dans la base de
donnes Toolbox o l'opration de rduction lemmatique est opre manuellement,
mesure que les transcripteurs dpouillent les formes importes pour pouvoir procder la
description lexicographique conforme au schma descriptif des donnes lexicographiques
tabli pour notre base.
166
167
169
5 CONCLUSIONS
Sur le plan de la linguistique de corpus, le projet na certes pas pour vocation dinnover en
matire de recherche ou de mthode, mais bien doffrir une premire application, faisant
appel, dans une modeste mesure, aux apports de la linguistique de corpus pour une langue
qui, pour de multiples raisons, na gure pu profiter jusqu prsent des applications de
lingnierie linguistique en gnral et de la linguistique de corpus en particulier. Nous le
faisons au dpart dun matriel limit et dune application exemplative qui, pour modestes
quils soient et indpendamment des limites exposes dans cet article, nen sont pas moins
concrets, exploitables et rutilisables.
Outre lapplication de type dictionnaire que les utilisateurs pourront consulter en ligne
et hors ligne leurs propres fins, pour des usages aussi divers que l'ducation de base et
l'enseignement en gnral, la rdaction, la traduction et toute autre activit en relation avec
l'apprentissage ou la pratique crite du wolof, le projet fournit aux chercheurs un premier
corpus lexical wolof informatis quils ont toute libert denrichir et augmenter par la
constitution et lexploitation de corpus textuels plus larges ou plus spcialiss. Ils ont ainsi
la possibilit de satisfaire, par exemple, le besoin de lexiques bilingues spcifiques dans
des domaines tels que la mdecine ou l'agriculture, ou dintgrer le contenu de
dictionnaires aujourd'hui uniquement disponibles sur papier qui, quand ils ne sont pas
puiss, sont publis dans les pays du Nord et, le plus souvent, sont trop coteux et absents
des rayons des librairies du Sud.
Indpendamment des divers usages que des chercheurs pourraient faire du matriel, le
projet intgre, de par sa conception mme, la possibilit dtre tendu des applications
qui dbordent le champ lexical et qui sont couramment utilises aujourd'hui dans d'autres
langues en environnement d'apprentissage ou dcriture sur ordinateur tels les exerciseurs,
les vrificateurs orthographiques ou syntaxiques, etc.
Enfin, nous terminerons en soulignant le fait que la dmarche et lapplication dcrites
pour le wolof dans cet article peuvent tre utilement rutilises par les spcialistes dautres
langues qui, linstar du wolof, figurent parmi les parents pauvres de linformatisation
du traitement des langues et des outils mis au point dans ce cadre. Cest en crant de
premiers corpus informatiss aussi imparfaits soient-ils dans des formats ouverts et
standards que lon offrira ces langues la possibilit dexploiter leur tour les outils et
mthodes labors par la linguistique de corpus.
6 RFRENCES
Chaudenson R. et al. (1991). La francophonie : reprsentations, ralits, perspectives, Aix-enProvence : Institut d'Etudes croles et francophones
Diop A., Calvet M. & Dia O.B.K. (1971). Les cent et les quinze cents mots les plus frquents de la
langue wolof, Dakar : Centre de linguistique applique de Dakar (CLAD).
Diouf J.-L. (2003). Dictionnaire wolof-franais et franais-wolof, Paris : Khartala
Fal A., Santos R. & Doneux J. L. (1990). Dictionnaire wolof-franais suivi d'un index franaiswolof, Paris : Khartala
Mbodj C. & Diolo A. (1998). Terminologie linguistique et grammaticale wolof = Turalinu
lmmial rofoo-gi-baat ci wolof, Dakar / Nouakchott : Centre de linguistique applique de
Dakar (CLAD) / Institut des langues nationales de Nouakchott (ILN)
170