Vous êtes sur la page 1sur 8

MISE AU POINT D'UNE BASE DE DONNES

LEXICALE MULTIFONCTIONNELLE : LE
DICTIONNAIRE UNILINGUE WOLOF ET
BILINGUE WOLOF-FRANAIS*
Mame Thierno Ciss, Anna Marie Diagne
Universit Cheikh Anta Diop (Dakar, Sngal)

Marc van Campenhoudt, Paul Muraille


Centre de Recherche Termisti (ISTI, Bruxelles, Belgique)

1 INTRODUCTION
tal sur une priode de deux ans (2007-2009), le projet de mise au point d'une base de
donnes lexicale multifonctionnelle est un projet men par l'Universit Cheikh Anta Diop
de Dakar (UCAD) au Sngal en collaboration avec le centre de recherche en linguistique
applique Termisti de la Haute cole de Bruxelles (Belgique) et avec le soutien de
l'Agence Universitaire de la Francophonie (AUF). Ce projet, aujourd'hui mi-parcours, a
pour objectif principal de constituer une base de donnes lexicale multifonctionnelle pour
la langue wolof, en d'autres termes, de collecter, numriser et standardiser un matriel
lexical qui pourra tre exploit une double fin : d'une part, fournir aux chercheurs et aux
spcialistes du wolof un corpus lexical rexploitable des fins d'enrichissement du
matriel constitu dans le cadre du projet, ou rutilisable pour des applications de
l'ingnierie linguistique ; d'autre part, fournir le support d'un dictionnaire destination des
populations wolophones monolingues ou bilingues.
Structuration et format des donnes ont t penss en premier lieu pour que le produit
final puisse servir au double usage de corpus lexical et de dictionnaire (tantt l'usage
exclusif de l'une ou l'autre de ces fonctions, tantt l'usage conjoint des deux fonctions) et,
en second lieu, pour offrir in fine la possibilit d'une exploitation des donnes sur
diffrents supports (site web, cdrom, publication imprime, etc.).
La dcision de proposer un dictionnaire wolof sous format lectronique et intgrant une
dimension bilingue dcoule du constat que les dictionnaires, monolingues ou bilingues,
pour cette langue sont non seulement peu nombreux, mais aussi et surtout que l'accs ces
trsors par la population wolophone est handicap par divers obstacles en termes de
publics viss, de cot et de disponibilit. En raison de son format lectronique, ce
dictionnaire, pourra tre librement tendu, exploitable sur divers mdias et rutilis par la
suite par d'autres quipes. Quant la dimension bilingue du projet, elle se manifeste au
travers de l'association, pour chaque entre lexicale wolof, d'une proposition d'quivalente

Pour faire rfrence cet article : van Campenhoudt Marc, Diagne Anna Marie, Muraille Paul & Thierno
Ciss Mame, Mise au point d'une base de donnes lexicale multifonctionnelle : le dictionnaire unilingue
wolof et bilingue wolof-franais , revue lectronique Texte et corpus, n3 / aot 2008, Actes des Journes
http://web.univde
la
linguistique
de
Corpus
2007,
p. 163-170
(disponible
sur
ubs.fr/corpus/jlc5/ACTES/ACTES_JLC07_thiernocisse_diagne_campenhoudt_muraille.pdf)

Texte et Corpus, n3 / aot 2008

163

en langue franaise (accompagne d'indications supplmentaires voques plus loin).


De par sa dure et les ressources mises en oeuvre, le projet ne prtend pas
l'exhaustivit : il entend plutt fournir un modle conceptuel et un canevas technique
simples, ouverts et facilement rutilisables pour la production de bases de donnes et de
dictionnaires gnraux ou spcialiss, tant en wolof que dans d'autres langues qui n'ont
gure pu profiter jusqu' prsent des avances de l'informatique. Remercions enfin Ndeye
Fatou Thiaw, Elhadj Diye, Dame Ndao et Nol Biagui, doctorants l'UCAD, pour leur
regard critique et leur contribution essentielle toutes les tapes du projet depuis son
lancement.

2 CONTEXTE DU PROJET
Comme d'autres langues africaines, le wolof n'a gure bnfici jusqu' prsent des
avantages dcoulant des avances de l'informatique depuis la fin des annes 1990, en
matire d'universalisation du traitement (Unicode) et d'change (XML) des donnes
textuelles. Or cette langue est non seulement la premire langue vernaculaire du Sngal
(et une de celles de la Gambie et de la Mauritanie), mais est aussi une importante langue
vhiculaire entre Sngalais (du moins en termes de corpus par contraste avec le franais
qui occupe, lui, la premire place en termes de status selon R. Chaudenson (1991)). Le
franais tant langue officielle et d'enseignement au Sngal ( ce jour, il n'existe pas
d'enseignement dans les langues nationales en dehors de classes d'exprimentation au
niveau de l'enseignement lmentaire), son apprentissage effectif ncessite le
dveloppement d'outils didactiques qui prennent en considration le substrat linguistique
des apprenants, et permettent d'offrir une passerelle vers les langues locales. Dans cette
optique, le dictionnaire a t labor pour tenter de rpondre aux besoins lexicographiques
de la didactique du franais des wolophones dans l'ducation primaire. ce niveau
d'enseignement, les enseignants ont en effet besoin d'outils facilitant l'apprentissage de
l'orthographe et de la signification des mots en wolof (partie unilingue) d'une part, et
d'outils facilitant l'apprentissage du franais partir de la langue maternelle des apprenants
d'autre part (partie bilingue). Le dictionnaire intgre ainsi les mots les plus frquents du
wolof tels que recenss dans Diouf, Calvet et Dia (1971). Il a galement pour vocation de
faciliter les changes interculturels du fait qu'il peut tre intgr dans une stratgie de
didactique du wolof des francophones.
La disponibilit des donnes lexicologiques sous forme lectronique, en conformit
avec les standards Unicode et XML, est une condition indispensable non seulement pour
leur exploitation long terme par les chercheurs au Sngal et ailleurs, mais aussi pour
leur rutilisation et leur intgration dans des applications d'ingnierie linguistique telles
qu'un vrificateur orthographique. La forme de stockage des donnes et leur mode de
diffusion pallient, en outre, les inconvnients du support papier en termes de cot, de
disponibilit et de diffusion.

164

Texte et Corpus, n3 / aot 2008

3 CONCEPTION DE LA BASE DE DONNES LEXICALE


3.2 Outils mis en uvre
Le principal outil mis en oeuvre pour les besoins du projet est l'outil de base de donnes
Toolbox (version 1.5) de SIL International1. Ce gratuiciel, utilis pour la cration et
l'entretien de la base de donnes lexicales, et dont une version francise est en cours
d'laboration dans le cadre dune collaboration entre SIL International, le LLACAN et le
Centre de recherche Termisti, partenaire de laction de recherche, a t retenu, entre autres,
pour sa capacit prouve grer lUnicode et pour ses possibilits dexportation au
format XML.
D'autres outils sont mis contribution en amont ou en aval, selon les besoins
spcifiques des tapes du projet.
En amont, par exemple, la collecte de donnes lexicales pour la base a t excute
partir de textes en wolof numriss et de l'exploitation subsquente du corpus obtenu
l'aide du concordancier WordSmith2. En aval, vu qu'il est prvu que des donnes audio
compltent le dispositif et que, terme, un fichier son au format .mp3 soit ventuellement
associ chaque entre et chaque phrase d'illustration en wolof et mis disposition sur le
Web, le logiciel Praat3 sera mis contribution, entre autres, pour la segmentation des
fichiers audio enregistrs au format .wav et la production des fichiers mp3.

3.2 Constitution d'un corpus textuel restreint


Les moyens et la dure du projet tant limits, une premire tche a t de disposer d'un
corpus numris du wolof contemporain, de taille certes rduite, mais couvrant autant que
possible plusieurs domaines fonctionnels. La littrature gnrale ou spcialise en langue
wolof est, en effet, peu abondante, et le nombre de documents accessibles sous forme
numrique encore plus rduit.
La majorit des 35 textes dont est constitu le corpus exploit jusquici est donc issue
du secteur de l'alphabtisation fonctionnelle (ducation la sant, la citoyennet, etc.),
auxquels s'ajoutent des chantillons de la littrature romanesque ou potique (contes,
nouvelles, essais) ainsi que des interviews et la transcription de discours politiques.
Les textes collects qui n'taient pas encore numriss l'ont t de manire disposer
d'une base de donnes textuelle limite, mais susceptible de fournir des attestations en
contexte des entres lexicales. Chaque texte a fait lobjet dune description bibliographique
complte de manire pouvoir disposer dun en-tte conforme la TEI (Text Encoding
Initiative). Le traitement des 35 textes l'aide de WordSmith permet de disposer de
statistiques en termes de frquences (dont les hapax), texte par texte et tous textes
confondus, de sorte qu'il nous est possible d'identifier le(s) texte(s) spcifique(s) associs
un contexte d'attestation dans la base de donnes lexicales.
Toutefois, du fait des limites voques plus haut, le corpus constitu ne compte que

Le logiciel Toolbox de SIL International peut tre tlcharg librement l'adresse suivante
http://www.sil.org/computing/toolbox/.
2
WordSmith Tools, logiciel conu par Mike Scott de lUniversit de Liverpool, est commercialis par
Oxford University Press.
3
Praat est un gratuiciel conu par Paul Boersma et David Weenink de l'Institut des sciences de la phontique
de l'Universit d'Amsterdam, tlchargeable l'adresse http://www.fon.hum.uva.nl/praat/

Texte et Corpus, n3 / aot 2008

165

quelque 115 000 formes (tokens). L'indexation du corpus laide de WordSmith a permis
disoler quelque 14 700 formes uniques. Comme il n'existe pas, notre connaissance, de
lemmatiseur pour la langue wolof, ces 14 700 formes ont t importes dans la base de
donnes Toolbox o l'opration de rduction lemmatique est opre manuellement,
mesure que les transcripteurs dpouillent les formes importes pour pouvoir procder la
description lexicographique conforme au schma descriptif des donnes lexicographiques
tabli pour notre base.

3.3 Enrichissement du corpus lexical


Nous avons compar les lexmes provenant du corpus textuel wolof avec les entres d'un
travail scientifique imprim traitant des 1 500 mots les plus courants du wolof (Diouf,
Calvet et Dia, 1971), ainsi qu'avec deux dictionnaires de rfrence imprims (Fal et al.,
1990 ; Diouf J.-L. 2003) (dsigns sous l'appellation de matriel de rfrence ci-aprs).
Ce processus de confrontation autorise, en effet, un enrichissement du corpus
lexical driv du corpus textuel, au regard de l'objectif de quelque 5 000 entres au terme
des deux ans du projet. Par consquent, notre base contient, en premier lieu, des entres
tires du corpus textuel absentes du matriel de rfrence. En second lieu, elle contient des
entres communes au matriel de rfrence et notre corpus, enrichies d'indications
absentes du matriel de rfrence et, en particulier, d'un contexte et d'une source
d'attestation (voire d'une note d'usage le cas chant). En dernier lieu, dans le cas d'une
entre existante dans le matriel de rfrence mais absente du corpus textuel, l'entre
intgre dans la base ne dispose certes d'aucun contexte ni source d'attestation provenant
de notre corpus, mais est enrichie de toutes les indications lies au schma de donnes
appliqu toute entre de la base, dont une dfinition et une illustration phrastique cres
par l'quipe des transcripteurs du projet de telle manire que le corpus lexical de la base est
systmatiquement constitu de lexies adosses un contexte d'attestation et/ou une
phrase d'illustration.
En ce qui concerne l'quivalent franais de chaque entre, lorsqu'il y a dsaccord sur
l'quivalent propos par les transcripteurs et/ou des personnes ressources consultes, le
matriel de rfrence est utilis comme outil de comparaison. Des personnes ressources
sont galement consultes, en cas de dsaccord entre transcripteurs, sur l'quivalent
propos pour une entre absente du matriel de rfrence.
Pour ce qui concerne la terminologie des parties du discours pour le wolof et la
dfinition du wolof fondamental, nous nous sommes appuys sur des travaux existants du
Centre de linguistique applique de Dakar et de l'Institut des langues nationales de
Nouakchott (Mbodj et Dioulo, 1998 ; Diouf, Calvet et Dia, 1971).
Enfin, pour ce qui concerne la variance orthographique rsultant de l'application de
rgles de transcription diffrentes, nous nous sommes fonds sur le dcret n 2005-992,
relatif l'orthographe et la sparation des mots en wolof du 21 octobre 2005 de l'tat
sngalais. Relevons que cette prcision est d'importance : les dictionnaires imprims ne
prcisent pas systmatiquement les rgles ou usages suivis pour la transcription et, mme
quand c'est le cas, ne la respectent pas forcment, de sorte que d'un dictionnaire l'autre, la
graphie et l'ordre alphabtique des lexies peut varier. Dans notre cas, si le corpus textuel
n'a pas t normalis, le corpus lexical l'est, lui, en fonction du prescrit dcrtal.

166

Texte et Corpus, n3 / aot 2008

3.4 Structuration des donnes lexicales (champs de la base)


Le modle de donnes retenu pour la base de donnes lexicales est orient par le fait que,
le wolof tant considr comme la langue de rfrence, l'essentiel de la description
lexicographique concerne cette langue. Il est donc prvu que chaque lexme sera
accompagn dinformations lmentaires, mais pertinentes au regard des objectifs du
projet : prononciation (au format mp3), information grammaticale, dfinition, note
dusage, contexte dattestation, source(s), synonyme(s), homonyme(s), etc.
Sagissant dune base de donnes informatise, nous avons volontairement privilgi
une structuration monosmique afin de rpondre adquatement aux exigences de
lingnierie linguistique. Dans la pratique, cela signifie qu'une lexie wolof polysmique (
laquelle correspond ncessairement plus d'un quivalent en franais) fera l'objet de
plusieurs entres. L'accs aux diffrents sens en wolof (et leur quivalent en franais) est
toujours possible, dans la mesure o les entres sont relies par le biais d'un champ nomm
homonyme . Par exemple, le verbe wolof muus ayant deux significations (en franais,
tre rus ou tre dessch ), il fera l'objet de deux entres distinctes. Ce choix a t
guid par la volont de limiter un le nombre de significations et d'quivalents d'une
entre. Dans la mme optique, puisque, en wolof, bon nombre de termes appartiennent
frquemment deux catgories grammaticales diffrentes, et ont de ce fait deux sens
diffrents, ils feront l'objet de deux entres distinctes ; ainsi, la lexie lekk tant la fois un
nom ( nourriture ) et un verbe ( manger ), elle fait l'objet de deux entres dans la base,
qui, dans ce cas aussi, seront relies par le biais du champ homonyme .
Le schma descriptif des entres repose sur une hirarchisation en trois niveaux des
donnes (l'outil Toolbox permet de dfinir des relations de subordination entre les
descripteurs). Cette hirarchisation permettra, entre autres, d'utiliser le dictionnaire avec un
degr de granularit diffrent selon les besoins des usagers. Au premier niveau
d'information, qui correspond au champ de la lexie, sont associes les informations
hirarchises sur deux autres niveaux comme suit :
- champs secondaire : information qualifiant directement le champ primaire lexme ,
telles les donnes se rapportant la catgorie grammaticale ou aux synonymes .
- champs tertiaire : information qualifiant une donne secondaire. Par exemple, le champ
classe nominale est un champ subordonn du champ catgorie grammaticale .
La capture d'cran ci-dessous (Figure 1) donne un aperu d'une entre et des champs
qui y sont associs dans Toolbox.
On peut y voir que le degr de finesse de l'information est limit aux usages projets par
le projet, qu'il s'agisse de l'usage ultrieur du contenu des fins de recherche par des
spcialistes ou de l'usage des donnes au titre de dictionnaire. De mme, toujours en
conformit avec la vise du projet, la richesse des informations lexicales est de loin plus
importante en wolof qu'en franais, mais ne rduit pas pour autant les donnes lexicales en
relation avec le franais la proposition d'un quivalent la lexie wolof, puisque s'y
ajoutent la catgorie grammaticale en franais ainsi qu'une traduction de la phrase
d'illustration wolof afin, d'une part, de situer la lexie en contexte et, d'autre part, d'offrir un
corpus de phrases d'illustration bilingues.

Texte et Corpus, n3 / aot 2008

167

Figure 1 : Exemple de fiche lexicale de la base de donnes Toolbox

Notons enfin que le modle comporte cinq champs d'administration de la base de


donnes qui permettent de suivre l'tat d'achvement de chaque fiche, l'identit du
gestionnaire de la fiche, les ventuels commentaires sur le contenu de la fiche et, enfin, la
date de dernire modification de la fiche (un champ dont la valeur est gre de manire
automatique par Toolbox).
Du point de vue de la mthode de travail, les transcripteurs qui ont prpar le corpus
textuel et les autres sources d'entres lexicales de la base sont aussi les personnes qui
compltent chaque fiche. Aucun n'est charg de complter la totalit des fiches mais
chacun est charg, selon ses comptences spcifiques, de complter des champs
dtermins par lots alphabtiques de fiches. Le travail des transcripteurs est valid et
coordonn par une personne, et des runions intervalles rguliers permettent l'quipe
du projet de dcider d'orientations communes dans la rsolution des problmes rencontrs
en cours de rdaction des fiches. Ainsi, alors qu' l'origine le modle comprenait un champ
Auteur dsignant lauteur dune fiche complte, celui-ci a t abandonn au profit
d'une gestion de la rotation des lots de fiches entre transcripteurs, ainsi qu'entre eux et le
coordinateur pour l'avancement du projet. Cette gestion prsente le double avantage d'un
remplissage de certains champs selon un fil logique prdtermin (ex. le champ
dfinition wolof est toujours complt avant le champ traduction franaise ) et la
possibilit de retours plus frquents sur le contenu de champs dj complts.
168

Texte et Corpus, n3 / aot 2008

4 MISE DISPOSITION DES DONNES


Au terme du projet, la disponibilit et la diffusion des donnes auprs des publics viss chercheurs, linguistes et population wolophone seront assures au travers d'une interface
web dcline dans les deux langues du projet, wolof et franais, afin d'en renforcer
l'accessibilit. En ce qui concerne l'infrastructure technique, les donnes seront hberges
sur un serveur d'une des institutions partenaires.
Pour se conformer la double vise du projet, l'interface web proposera le choix entre
deux modes d'accs aux donnes, savoir un accs aux donnes brutes aux fins de la
recherche linguistique, et un accs aux donnes prtraites aux fins de la consultation du
dictionnaire. La principale diffrence entre l'un et l'autre modes d'accs est que, dans le
premier cas (usage de type recherche ), le visiteur aura la possibilit de rcuprer les
donnes brutes ou intgrales, exportes depuis Toolbox dans divers formats, pour une
rutilisation des fins dingnierie tandis que, dans le second (usage de type
dictionnaire ), le visiteur aura accs aux donnes dans un format prdfini (html) pour
consultation et, au besoin, pour un transfert dans ce format vers un support de diffusion
hors ligne, que ce dernier soit lectronique ou imprim.
En ce qui concerne les donnes brutes mises la disposition des chercheurs, les
donnes exportes de Toolbox seront librement disponibles pour tlchargement dans un
fichier au format xml produit par Toolbox, ainsi que dans un fichier au format csv. Pour
faciliter la rutilisation du matriel lexical export dans des vocabulaires xml standards,
tels qu'OLIF, des feuilles de style seront fournies pour l'excution des conversions
ncessaires. Par ailleurs, si les auteurs des textes utiliss pour la constitution du corpus
mais ne relevant pas du domaine public nous y autorisent, les chercheurs disposeront aussi
de la facult de tlcharger les fichiers texte utiliss pour l'alimentation de la base de
donnes lexicale. La seule restriction au libre tlchargement du matriel du projet
concernera les fichiers son (exploitables des fins d'analyse acoustique), auxquels l'accs
se fera sur demande auprs de l'institution chef de file du projet.
Pour ce qui concerne l'usage des fins de consultation du dictionnaire, l'utilisateur aura
la possibilit de consulter le dictionnaire en ligne via une barre d'accs alphabtique
classique, tant pour le wolof que pour les combinaisons wolof-franais / franais-wolof.
L'utilisateur aura aussi la capacit de dfinir l'tendue des informations souhaites, du jeu
d'informations rduit sa plus simple expression un jeu d'informations complet. Pour la
diffusion des donnes, le visiteur disposera du fichier du dictionnaire complet (pour le
wolof dune part, pour la combinaison wolof-franais et franais-wolof dautre part) ainsi
que dun fichier pour chaque lettre de lalphabet dans les deux langues. Ces fichiers seront
fournis au format html, avec une feuille de style adapte pour l'impression des donnes.
Enfin, une documentation simplifie visant les internautes non avertis sera rdige et mise
en ligne, afin de documenter la consultation des donnes hors ligne sur support
lectronique.
Vu que la totalit du matriel brut est mise disposition, rien n'interdit d'autres
quipes de mettre au point des interfaces d'interrogation beaucoup plus fines ou
spcifiquement adaptes des besoins lexicaux particuliers.

Texte et Corpus, n3 / aot 2008

169

5 CONCLUSIONS
Sur le plan de la linguistique de corpus, le projet na certes pas pour vocation dinnover en
matire de recherche ou de mthode, mais bien doffrir une premire application, faisant
appel, dans une modeste mesure, aux apports de la linguistique de corpus pour une langue
qui, pour de multiples raisons, na gure pu profiter jusqu prsent des applications de
lingnierie linguistique en gnral et de la linguistique de corpus en particulier. Nous le
faisons au dpart dun matriel limit et dune application exemplative qui, pour modestes
quils soient et indpendamment des limites exposes dans cet article, nen sont pas moins
concrets, exploitables et rutilisables.
Outre lapplication de type dictionnaire que les utilisateurs pourront consulter en ligne
et hors ligne leurs propres fins, pour des usages aussi divers que l'ducation de base et
l'enseignement en gnral, la rdaction, la traduction et toute autre activit en relation avec
l'apprentissage ou la pratique crite du wolof, le projet fournit aux chercheurs un premier
corpus lexical wolof informatis quils ont toute libert denrichir et augmenter par la
constitution et lexploitation de corpus textuels plus larges ou plus spcialiss. Ils ont ainsi
la possibilit de satisfaire, par exemple, le besoin de lexiques bilingues spcifiques dans
des domaines tels que la mdecine ou l'agriculture, ou dintgrer le contenu de
dictionnaires aujourd'hui uniquement disponibles sur papier qui, quand ils ne sont pas
puiss, sont publis dans les pays du Nord et, le plus souvent, sont trop coteux et absents
des rayons des librairies du Sud.
Indpendamment des divers usages que des chercheurs pourraient faire du matriel, le
projet intgre, de par sa conception mme, la possibilit dtre tendu des applications
qui dbordent le champ lexical et qui sont couramment utilises aujourd'hui dans d'autres
langues en environnement d'apprentissage ou dcriture sur ordinateur tels les exerciseurs,
les vrificateurs orthographiques ou syntaxiques, etc.
Enfin, nous terminerons en soulignant le fait que la dmarche et lapplication dcrites
pour le wolof dans cet article peuvent tre utilement rutilises par les spcialistes dautres
langues qui, linstar du wolof, figurent parmi les parents pauvres de linformatisation
du traitement des langues et des outils mis au point dans ce cadre. Cest en crant de
premiers corpus informatiss aussi imparfaits soient-ils dans des formats ouverts et
standards que lon offrira ces langues la possibilit dexploiter leur tour les outils et
mthodes labors par la linguistique de corpus.

6 RFRENCES
Chaudenson R. et al. (1991). La francophonie : reprsentations, ralits, perspectives, Aix-enProvence : Institut d'Etudes croles et francophones
Diop A., Calvet M. & Dia O.B.K. (1971). Les cent et les quinze cents mots les plus frquents de la
langue wolof, Dakar : Centre de linguistique applique de Dakar (CLAD).
Diouf J.-L. (2003). Dictionnaire wolof-franais et franais-wolof, Paris : Khartala
Fal A., Santos R. & Doneux J. L. (1990). Dictionnaire wolof-franais suivi d'un index franaiswolof, Paris : Khartala
Mbodj C. & Diolo A. (1998). Terminologie linguistique et grammaticale wolof = Turalinu
lmmial rofoo-gi-baat ci wolof, Dakar / Nouakchott : Centre de linguistique applique de
Dakar (CLAD) / Institut des langues nationales de Nouakchott (ILN)

170

Texte et Corpus, n3 / aot 2008

Vous aimerez peut-être aussi