Vous êtes sur la page 1sur 8

MISE AU POINT D'UNE BASE DE DONNES LEXICALE MULTIFONCTIONNELLE : LE DICTIONNAIRE UNILINGUE WOLOF ET BILINGUE WOLOF-FRANAIS*

Mame Thierno Ciss, Anna Marie Diagne


Universit Cheikh Anta Diop (Dakar, Sngal)

Marc van Campenhoudt, Paul Muraille


Centre de Recherche Termisti (ISTI, Bruxelles, Belgique)

1 INTRODUCTION
tal sur une priode de deux ans (2007-2009), le projet de mise au point d'une base de donnes lexicale multifonctionnelle est un projet men par l'Universit Cheikh Anta Diop de Dakar (UCAD) au Sngal en collaboration avec le centre de recherche en linguistique applique Termisti de la Haute cole de Bruxelles (Belgique) et avec le soutien de l'Agence Universitaire de la Francophonie (AUF). Ce projet, aujourd'hui mi-parcours, a pour objectif principal de constituer une base de donnes lexicale multifonctionnelle pour la langue wolof, en d'autres termes, de collecter, numriser et standardiser un matriel lexical qui pourra tre exploit une double fin : d'une part, fournir aux chercheurs et aux spcialistes du wolof un corpus lexical rexploitable des fins d'enrichissement du matriel constitu dans le cadre du projet, ou rutilisable pour des applications de l'ingnierie linguistique ; d'autre part, fournir le support d'un dictionnaire destination des populations wolophones monolingues ou bilingues. Structuration et format des donnes ont t penss en premier lieu pour que le produit final puisse servir au double usage de corpus lexical et de dictionnaire (tantt l'usage exclusif de l'une ou l'autre de ces fonctions, tantt l'usage conjoint des deux fonctions) et, en second lieu, pour offrir in fine la possibilit d'une exploitation des donnes sur diffrents supports (site web, cdrom, publication imprime, etc.). La dcision de proposer un dictionnaire wolof sous format lectronique et intgrant une dimension bilingue dcoule du constat que les dictionnaires, monolingues ou bilingues, pour cette langue sont non seulement peu nombreux, mais aussi et surtout que l'accs ces trsors par la population wolophone est handicap par divers obstacles en termes de publics viss, de cot et de disponibilit. En raison de son format lectronique, ce dictionnaire, pourra tre librement tendu, exploitable sur divers mdias et rutilis par la suite par d'autres quipes. Quant la dimension bilingue du projet, elle se manifeste au travers de l'association, pour chaque entre lexicale wolof, d'une proposition d'quivalente

Pour faire rfrence cet article : van Campenhoudt Marc, Diagne Anna Marie, Muraille Paul & Thierno Ciss Mame, Mise au point d'une base de donnes lexicale multifonctionnelle : le dictionnaire unilingue wolof et bilingue wolof-franais , revue lectronique Texte et corpus, n3 / aot 2008, Actes des Journes http://web.univde la linguistique de Corpus 2007, p. 163-170 (disponible sur ubs.fr/corpus/jlc5/ACTES/ACTES_JLC07_thiernocisse_diagne_campenhoudt_muraille.pdf)

Texte et Corpus, n3 / aot 2008

163

en langue franaise (accompagne d'indications supplmentaires voques plus loin). De par sa dure et les ressources mises en oeuvre, le projet ne prtend pas l'exhaustivit : il entend plutt fournir un modle conceptuel et un canevas technique simples, ouverts et facilement rutilisables pour la production de bases de donnes et de dictionnaires gnraux ou spcialiss, tant en wolof que dans d'autres langues qui n'ont gure pu profiter jusqu' prsent des avances de l'informatique. Remercions enfin Ndeye Fatou Thiaw, Elhadj Diye, Dame Ndao et Nol Biagui, doctorants l'UCAD, pour leur regard critique et leur contribution essentielle toutes les tapes du projet depuis son lancement.

2 CONTEXTE DU PROJET
Comme d'autres langues africaines, le wolof n'a gure bnfici jusqu' prsent des avantages dcoulant des avances de l'informatique depuis la fin des annes 1990, en matire d'universalisation du traitement (Unicode) et d'change (XML) des donnes textuelles. Or cette langue est non seulement la premire langue vernaculaire du Sngal (et une de celles de la Gambie et de la Mauritanie), mais est aussi une importante langue vhiculaire entre Sngalais (du moins en termes de corpus par contraste avec le franais qui occupe, lui, la premire place en termes de status selon R. Chaudenson (1991)). Le franais tant langue officielle et d'enseignement au Sngal ( ce jour, il n'existe pas d'enseignement dans les langues nationales en dehors de classes d'exprimentation au niveau de l'enseignement lmentaire), son apprentissage effectif ncessite le dveloppement d'outils didactiques qui prennent en considration le substrat linguistique des apprenants, et permettent d'offrir une passerelle vers les langues locales. Dans cette optique, le dictionnaire a t labor pour tenter de rpondre aux besoins lexicographiques de la didactique du franais des wolophones dans l'ducation primaire. ce niveau d'enseignement, les enseignants ont en effet besoin d'outils facilitant l'apprentissage de l'orthographe et de la signification des mots en wolof (partie unilingue) d'une part, et d'outils facilitant l'apprentissage du franais partir de la langue maternelle des apprenants d'autre part (partie bilingue). Le dictionnaire intgre ainsi les mots les plus frquents du wolof tels que recenss dans Diouf, Calvet et Dia (1971). Il a galement pour vocation de faciliter les changes interculturels du fait qu'il peut tre intgr dans une stratgie de didactique du wolof des francophones. La disponibilit des donnes lexicologiques sous forme lectronique, en conformit avec les standards Unicode et XML, est une condition indispensable non seulement pour leur exploitation long terme par les chercheurs au Sngal et ailleurs, mais aussi pour leur rutilisation et leur intgration dans des applications d'ingnierie linguistique telles qu'un vrificateur orthographique. La forme de stockage des donnes et leur mode de diffusion pallient, en outre, les inconvnients du support papier en termes de cot, de disponibilit et de diffusion.

164

Texte et Corpus, n3 / aot 2008

3 CONCEPTION DE LA BASE DE DONNES LEXICALE


3.2 Outils mis en uvre
Le principal outil mis en oeuvre pour les besoins du projet est l'outil de base de donnes Toolbox (version 1.5) de SIL International1. Ce gratuiciel, utilis pour la cration et l'entretien de la base de donnes lexicales, et dont une version francise est en cours d'laboration dans le cadre dune collaboration entre SIL International, le LLACAN et le Centre de recherche Termisti, partenaire de laction de recherche, a t retenu, entre autres, pour sa capacit prouve grer lUnicode et pour ses possibilits dexportation au format XML. D'autres outils sont mis contribution en amont ou en aval, selon les besoins spcifiques des tapes du projet. En amont, par exemple, la collecte de donnes lexicales pour la base a t excute partir de textes en wolof numriss et de l'exploitation subsquente du corpus obtenu l'aide du concordancier WordSmith2. En aval, vu qu'il est prvu que des donnes audio compltent le dispositif et que, terme, un fichier son au format .mp3 soit ventuellement associ chaque entre et chaque phrase d'illustration en wolof et mis disposition sur le Web, le logiciel Praat3 sera mis contribution, entre autres, pour la segmentation des fichiers audio enregistrs au format .wav et la production des fichiers mp3.

3.2 Constitution d'un corpus textuel restreint


Les moyens et la dure du projet tant limits, une premire tche a t de disposer d'un corpus numris du wolof contemporain, de taille certes rduite, mais couvrant autant que possible plusieurs domaines fonctionnels. La littrature gnrale ou spcialise en langue wolof est, en effet, peu abondante, et le nombre de documents accessibles sous forme numrique encore plus rduit. La majorit des 35 textes dont est constitu le corpus exploit jusquici est donc issue du secteur de l'alphabtisation fonctionnelle (ducation la sant, la citoyennet, etc.), auxquels s'ajoutent des chantillons de la littrature romanesque ou potique (contes, nouvelles, essais) ainsi que des interviews et la transcription de discours politiques. Les textes collects qui n'taient pas encore numriss l'ont t de manire disposer d'une base de donnes textuelle limite, mais susceptible de fournir des attestations en contexte des entres lexicales. Chaque texte a fait lobjet dune description bibliographique complte de manire pouvoir disposer dun en-tte conforme la TEI (Text Encoding Initiative). Le traitement des 35 textes l'aide de WordSmith permet de disposer de statistiques en termes de frquences (dont les hapax), texte par texte et tous textes confondus, de sorte qu'il nous est possible d'identifier le(s) texte(s) spcifique(s) associs un contexte d'attestation dans la base de donnes lexicales. Toutefois, du fait des limites voques plus haut, le corpus constitu ne compte que

Le logiciel Toolbox de SIL International peut tre tlcharg librement l'adresse suivante http://www.sil.org/computing/toolbox/. 2 WordSmith Tools, logiciel conu par Mike Scott de lUniversit de Liverpool, est commercialis par Oxford University Press. 3 Praat est un gratuiciel conu par Paul Boersma et David Weenink de l'Institut des sciences de la phontique de l'Universit d'Amsterdam, tlchargeable l'adresse http://www.fon.hum.uva.nl/praat/

Texte et Corpus, n3 / aot 2008

165

quelque 115 000 formes (tokens). L'indexation du corpus laide de WordSmith a permis disoler quelque 14 700 formes uniques. Comme il n'existe pas, notre connaissance, de lemmatiseur pour la langue wolof, ces 14 700 formes ont t importes dans la base de donnes Toolbox o l'opration de rduction lemmatique est opre manuellement, mesure que les transcripteurs dpouillent les formes importes pour pouvoir procder la description lexicographique conforme au schma descriptif des donnes lexicographiques tabli pour notre base.

3.3 Enrichissement du corpus lexical


Nous avons compar les lexmes provenant du corpus textuel wolof avec les entres d'un travail scientifique imprim traitant des 1 500 mots les plus courants du wolof (Diouf, Calvet et Dia, 1971), ainsi qu'avec deux dictionnaires de rfrence imprims (Fal et al., 1990 ; Diouf J.-L. 2003) (dsigns sous l'appellation de matriel de rfrence ci-aprs). Ce processus de confrontation autorise, en effet, un enrichissement du corpus lexical driv du corpus textuel, au regard de l'objectif de quelque 5 000 entres au terme des deux ans du projet. Par consquent, notre base contient, en premier lieu, des entres tires du corpus textuel absentes du matriel de rfrence. En second lieu, elle contient des entres communes au matriel de rfrence et notre corpus, enrichies d'indications absentes du matriel de rfrence et, en particulier, d'un contexte et d'une source d'attestation (voire d'une note d'usage le cas chant). En dernier lieu, dans le cas d'une entre existante dans le matriel de rfrence mais absente du corpus textuel, l'entre intgre dans la base ne dispose certes d'aucun contexte ni source d'attestation provenant de notre corpus, mais est enrichie de toutes les indications lies au schma de donnes appliqu toute entre de la base, dont une dfinition et une illustration phrastique cres par l'quipe des transcripteurs du projet de telle manire que le corpus lexical de la base est systmatiquement constitu de lexies adosses un contexte d'attestation et/ou une phrase d'illustration. En ce qui concerne l'quivalent franais de chaque entre, lorsqu'il y a dsaccord sur l'quivalent propos par les transcripteurs et/ou des personnes ressources consultes, le matriel de rfrence est utilis comme outil de comparaison. Des personnes ressources sont galement consultes, en cas de dsaccord entre transcripteurs, sur l'quivalent propos pour une entre absente du matriel de rfrence. Pour ce qui concerne la terminologie des parties du discours pour le wolof et la dfinition du wolof fondamental, nous nous sommes appuys sur des travaux existants du Centre de linguistique applique de Dakar et de l'Institut des langues nationales de Nouakchott (Mbodj et Dioulo, 1998 ; Diouf, Calvet et Dia, 1971). Enfin, pour ce qui concerne la variance orthographique rsultant de l'application de rgles de transcription diffrentes, nous nous sommes fonds sur le dcret n 2005-992, relatif l'orthographe et la sparation des mots en wolof du 21 octobre 2005 de l'tat sngalais. Relevons que cette prcision est d'importance : les dictionnaires imprims ne prcisent pas systmatiquement les rgles ou usages suivis pour la transcription et, mme quand c'est le cas, ne la respectent pas forcment, de sorte que d'un dictionnaire l'autre, la graphie et l'ordre alphabtique des lexies peut varier. Dans notre cas, si le corpus textuel n'a pas t normalis, le corpus lexical l'est, lui, en fonction du prescrit dcrtal.

166

Texte et Corpus, n3 / aot 2008

3.4 Structuration des donnes lexicales (champs de la base)


Le modle de donnes retenu pour la base de donnes lexicales est orient par le fait que, le wolof tant considr comme la langue de rfrence, l'essentiel de la description lexicographique concerne cette langue. Il est donc prvu que chaque lexme sera accompagn dinformations lmentaires, mais pertinentes au regard des objectifs du projet : prononciation (au format mp3), information grammaticale, dfinition, note dusage, contexte dattestation, source(s), synonyme(s), homonyme(s), etc. Sagissant dune base de donnes informatise, nous avons volontairement privilgi une structuration monosmique afin de rpondre adquatement aux exigences de lingnierie linguistique. Dans la pratique, cela signifie qu'une lexie wolof polysmique ( laquelle correspond ncessairement plus d'un quivalent en franais) fera l'objet de plusieurs entres. L'accs aux diffrents sens en wolof (et leur quivalent en franais) est toujours possible, dans la mesure o les entres sont relies par le biais d'un champ nomm homonyme . Par exemple, le verbe wolof muus ayant deux significations (en franais, tre rus ou tre dessch ), il fera l'objet de deux entres distinctes. Ce choix a t guid par la volont de limiter un le nombre de significations et d'quivalents d'une entre. Dans la mme optique, puisque, en wolof, bon nombre de termes appartiennent frquemment deux catgories grammaticales diffrentes, et ont de ce fait deux sens diffrents, ils feront l'objet de deux entres distinctes ; ainsi, la lexie lekk tant la fois un nom ( nourriture ) et un verbe ( manger ), elle fait l'objet de deux entres dans la base, qui, dans ce cas aussi, seront relies par le biais du champ homonyme . Le schma descriptif des entres repose sur une hirarchisation en trois niveaux des donnes (l'outil Toolbox permet de dfinir des relations de subordination entre les descripteurs). Cette hirarchisation permettra, entre autres, d'utiliser le dictionnaire avec un degr de granularit diffrent selon les besoins des usagers. Au premier niveau d'information, qui correspond au champ de la lexie, sont associes les informations hirarchises sur deux autres niveaux comme suit : - champs secondaire : information qualifiant directement le champ primaire lexme , telles les donnes se rapportant la catgorie grammaticale ou aux synonymes . - champs tertiaire : information qualifiant une donne secondaire. Par exemple, le champ classe nominale est un champ subordonn du champ catgorie grammaticale . La capture d'cran ci-dessous (Figure 1) donne un aperu d'une entre et des champs qui y sont associs dans Toolbox. On peut y voir que le degr de finesse de l'information est limit aux usages projets par le projet, qu'il s'agisse de l'usage ultrieur du contenu des fins de recherche par des spcialistes ou de l'usage des donnes au titre de dictionnaire. De mme, toujours en conformit avec la vise du projet, la richesse des informations lexicales est de loin plus importante en wolof qu'en franais, mais ne rduit pas pour autant les donnes lexicales en relation avec le franais la proposition d'un quivalent la lexie wolof, puisque s'y ajoutent la catgorie grammaticale en franais ainsi qu'une traduction de la phrase d'illustration wolof afin, d'une part, de situer la lexie en contexte et, d'autre part, d'offrir un corpus de phrases d'illustration bilingues.

Texte et Corpus, n3 / aot 2008

167

Figure 1 : Exemple de fiche lexicale de la base de donnes Toolbox

Notons enfin que le modle comporte cinq champs d'administration de la base de donnes qui permettent de suivre l'tat d'achvement de chaque fiche, l'identit du gestionnaire de la fiche, les ventuels commentaires sur le contenu de la fiche et, enfin, la date de dernire modification de la fiche (un champ dont la valeur est gre de manire automatique par Toolbox). Du point de vue de la mthode de travail, les transcripteurs qui ont prpar le corpus textuel et les autres sources d'entres lexicales de la base sont aussi les personnes qui compltent chaque fiche. Aucun n'est charg de complter la totalit des fiches mais chacun est charg, selon ses comptences spcifiques, de complter des champs dtermins par lots alphabtiques de fiches. Le travail des transcripteurs est valid et coordonn par une personne, et des runions intervalles rguliers permettent l'quipe du projet de dcider d'orientations communes dans la rsolution des problmes rencontrs en cours de rdaction des fiches. Ainsi, alors qu' l'origine le modle comprenait un champ Auteur dsignant lauteur dune fiche complte, celui-ci a t abandonn au profit d'une gestion de la rotation des lots de fiches entre transcripteurs, ainsi qu'entre eux et le coordinateur pour l'avancement du projet. Cette gestion prsente le double avantage d'un remplissage de certains champs selon un fil logique prdtermin (ex. le champ dfinition wolof est toujours complt avant le champ traduction franaise ) et la possibilit de retours plus frquents sur le contenu de champs dj complts.
168 Texte et Corpus, n3 / aot 2008

4 MISE DISPOSITION DES DONNES


Au terme du projet, la disponibilit et la diffusion des donnes auprs des publics viss chercheurs, linguistes et population wolophone seront assures au travers d'une interface web dcline dans les deux langues du projet, wolof et franais, afin d'en renforcer l'accessibilit. En ce qui concerne l'infrastructure technique, les donnes seront hberges sur un serveur d'une des institutions partenaires. Pour se conformer la double vise du projet, l'interface web proposera le choix entre deux modes d'accs aux donnes, savoir un accs aux donnes brutes aux fins de la recherche linguistique, et un accs aux donnes prtraites aux fins de la consultation du dictionnaire. La principale diffrence entre l'un et l'autre modes d'accs est que, dans le premier cas (usage de type recherche ), le visiteur aura la possibilit de rcuprer les donnes brutes ou intgrales, exportes depuis Toolbox dans divers formats, pour une rutilisation des fins dingnierie tandis que, dans le second (usage de type dictionnaire ), le visiteur aura accs aux donnes dans un format prdfini (html) pour consultation et, au besoin, pour un transfert dans ce format vers un support de diffusion hors ligne, que ce dernier soit lectronique ou imprim. En ce qui concerne les donnes brutes mises la disposition des chercheurs, les donnes exportes de Toolbox seront librement disponibles pour tlchargement dans un fichier au format xml produit par Toolbox, ainsi que dans un fichier au format csv. Pour faciliter la rutilisation du matriel lexical export dans des vocabulaires xml standards, tels qu'OLIF, des feuilles de style seront fournies pour l'excution des conversions ncessaires. Par ailleurs, si les auteurs des textes utiliss pour la constitution du corpus mais ne relevant pas du domaine public nous y autorisent, les chercheurs disposeront aussi de la facult de tlcharger les fichiers texte utiliss pour l'alimentation de la base de donnes lexicale. La seule restriction au libre tlchargement du matriel du projet concernera les fichiers son (exploitables des fins d'analyse acoustique), auxquels l'accs se fera sur demande auprs de l'institution chef de file du projet. Pour ce qui concerne l'usage des fins de consultation du dictionnaire, l'utilisateur aura la possibilit de consulter le dictionnaire en ligne via une barre d'accs alphabtique classique, tant pour le wolof que pour les combinaisons wolof-franais / franais-wolof. L'utilisateur aura aussi la capacit de dfinir l'tendue des informations souhaites, du jeu d'informations rduit sa plus simple expression un jeu d'informations complet. Pour la diffusion des donnes, le visiteur disposera du fichier du dictionnaire complet (pour le wolof dune part, pour la combinaison wolof-franais et franais-wolof dautre part) ainsi que dun fichier pour chaque lettre de lalphabet dans les deux langues. Ces fichiers seront fournis au format html, avec une feuille de style adapte pour l'impression des donnes. Enfin, une documentation simplifie visant les internautes non avertis sera rdige et mise en ligne, afin de documenter la consultation des donnes hors ligne sur support lectronique. Vu que la totalit du matriel brut est mise disposition, rien n'interdit d'autres quipes de mettre au point des interfaces d'interrogation beaucoup plus fines ou spcifiquement adaptes des besoins lexicaux particuliers.

Texte et Corpus, n3 / aot 2008

169

5 CONCLUSIONS
Sur le plan de la linguistique de corpus, le projet na certes pas pour vocation dinnover en matire de recherche ou de mthode, mais bien doffrir une premire application, faisant appel, dans une modeste mesure, aux apports de la linguistique de corpus pour une langue qui, pour de multiples raisons, na gure pu profiter jusqu prsent des applications de lingnierie linguistique en gnral et de la linguistique de corpus en particulier. Nous le faisons au dpart dun matriel limit et dune application exemplative qui, pour modestes quils soient et indpendamment des limites exposes dans cet article, nen sont pas moins concrets, exploitables et rutilisables. Outre lapplication de type dictionnaire que les utilisateurs pourront consulter en ligne et hors ligne leurs propres fins, pour des usages aussi divers que l'ducation de base et l'enseignement en gnral, la rdaction, la traduction et toute autre activit en relation avec l'apprentissage ou la pratique crite du wolof, le projet fournit aux chercheurs un premier corpus lexical wolof informatis quils ont toute libert denrichir et augmenter par la constitution et lexploitation de corpus textuels plus larges ou plus spcialiss. Ils ont ainsi la possibilit de satisfaire, par exemple, le besoin de lexiques bilingues spcifiques dans des domaines tels que la mdecine ou l'agriculture, ou dintgrer le contenu de dictionnaires aujourd'hui uniquement disponibles sur papier qui, quand ils ne sont pas puiss, sont publis dans les pays du Nord et, le plus souvent, sont trop coteux et absents des rayons des librairies du Sud. Indpendamment des divers usages que des chercheurs pourraient faire du matriel, le projet intgre, de par sa conception mme, la possibilit dtre tendu des applications qui dbordent le champ lexical et qui sont couramment utilises aujourd'hui dans d'autres langues en environnement d'apprentissage ou dcriture sur ordinateur tels les exerciseurs, les vrificateurs orthographiques ou syntaxiques, etc. Enfin, nous terminerons en soulignant le fait que la dmarche et lapplication dcrites pour le wolof dans cet article peuvent tre utilement rutilises par les spcialistes dautres langues qui, linstar du wolof, figurent parmi les parents pauvres de linformatisation du traitement des langues et des outils mis au point dans ce cadre. Cest en crant de premiers corpus informatiss aussi imparfaits soient-ils dans des formats ouverts et standards que lon offrira ces langues la possibilit dexploiter leur tour les outils et mthodes labors par la linguistique de corpus.

6 RFRENCES
Chaudenson R. et al. (1991). La francophonie : reprsentations, ralits, perspectives, Aix-enProvence : Institut d'Etudes croles et francophones Diop A., Calvet M. & Dia O.B.K. (1971). Les cent et les quinze cents mots les plus frquents de la langue wolof, Dakar : Centre de linguistique applique de Dakar (CLAD). Diouf J.-L. (2003). Dictionnaire wolof-franais et franais-wolof, Paris : Khartala Fal A., Santos R. & Doneux J. L. (1990). Dictionnaire wolof-franais suivi d'un index franaiswolof, Paris : Khartala Mbodj C. & Diolo A. (1998). Terminologie linguistique et grammaticale wolof = Turalinu lmmial rofoo-gi-baat ci wolof, Dakar / Nouakchott : Centre de linguistique applique de Dakar (CLAD) / Institut des langues nationales de Nouakchott (ILN)

170

Texte et Corpus, n3 / aot 2008