Vous êtes sur la page 1sur 16

Abdelaziz BERKA

278
















Lintrt du corpus et une ide de sa constitution en lexicographie amazighe

279










Corpus : Exploitation : Thories et Mthodes



Abdelaziz BERKA

280




Lintrt du corpus et une ide de sa constitution en lexicographie amazighe

281
Lintrt du corpus et une ide de sa constitution en
lexicographie amazighe

Abdelaziz BERKA
Universit de Bjaa

Introduction
Lobjet de notre proposition de contribution est de montrer
lintrt du corpus en lexicographie et de donner une ide de sa
constitution en lexicographie amazighe, faite jusqu prsent
essentiellement hors corpus.
De grands dictionnaires, comme le Trsor de la Langue
Franaise (TLF) ou le Collins COBUILD English Language
Dictionary, sont labors in extenso partir de corpus qui assurent
lobjectivation et la prcision de linformation lexicographique
garanties par des contextes dusage. Et si un corpus dune dimension
modeste permet de recueillir de faon satisfaisante linformation
relative au phontisme, la morphologie ou la syntaxe dune langue,
celui qui doit servir au lexique, de par sa nature ouverte, doit tre la
fois important et ouvert, cest--dire continuellement enrichi, pour
pouvoir ladapter aux changements qui touchent ce niveau de langue.
Lavnement de linformatique et de lInternet ont grandement facilit
le recueil et le traitement des donnes et considrablement agrandi les
corpus qui passent de quelques dizaines ou centaines de milliers de
mots, dont ils taient constitus avant lavnement de ces nouveaux
moyens, des centaines de millions, voire des milliards de mots
constitus notamment partir du Web (Geyken, 2008 : 84).
Lavnement de la mico-informatique notablement partir des annes
1980, qui a grandement facilit la constitution et surtout la
manipulation des corpus,a donn naissance un nouveau courant en
linguistique, dnomm linguistique de corpus ou, lorigine,
corpus linguistics, puisque cest en Grande-Bretagne que le concept
est dabord conu. Cest une discipline qui est trs lie lutilisation
de linformatique, mais qui reste une discipline des sciences humaines
Abdelaziz BERKA

282
et non de linformatique. Les matres mots sont linguistique et
corpus, crit Williams, cit par Cori et David (2008 : 112). La micro-
informatique qui a considrablement amlior tant au plan qualitatif
que quantitatif le corpus, en a fait non seulement un objet de
validation dhypothses, conues plus ou moins introspectivement
auparavant, mais en plus un objet heuristique qui permet partir dun
ensemble de donnes reprsentatives dun type de discours daccder
des dductions tonnantes, que la simple intuition naurait pas pu
atteindre (Blanche-Benveniste, 2000 : 15). Cest en celaque la
nouveaut de cette discipline de linguistique de corpus se
justifie. Cest la plus grande mallabilit et extensibilit de ce
matriau qui en fait aujourdhui lindispensable matire premire de
toute tude srieuse de linguistique. Elle se justifie aussi par le travail
dobjectivation et de formalisation de cet objet quest le corpus qui
na pas t fait avant. Mais, nommer une nouvelle discipline nest pas
suffisant pour la crer. La linguistique de corpus nest en fait rien
dautre que la simple linguistique qui utilise les moyens de son poque
en recourant, grce linformatique, plus massivement et plus
avantageusement au corpus
1
. En fait, il sagit plutt dune
mthodologie de recherche qui concerne quasiment lensemble des
secteurs de la linguistique que dune discipline ayant son objet et sa
thorie
2
.
Le corpus : quel intrt pour la lexicographie ?
De grands corpus textuels informatiss sont constitus dans
certaines langues, notamment europennes, et servent de matire
premire pour des tudes diverses, en particulier lexicographiques.
Leurs avantages sont multiples :
- Ils permettent de constituer, selon la nature du dictionnaire, la
nomenclature dsire et de connatre en outre la frquence et la
rpartition de chaque mot. Cette information est dune utilit vidente
dans le traitement microstructurel de ces units ;
- Ils permettent partir des multiples contextes dusage des
units de dfinir prcisment leur smantisme et de connatre leur
combinatoire, ce qui facilite leur analyse morphosyntaxique et le
Lintrt du corpus et une ide de sa constitution en lexicographie amazighe

283
relev des locutions et collocations dont elles sont des lments
constitutifs ;
- Ils permettent enfin par la comparaison de leurs tats
successifs de dterminer certaines units particulires et leurs statuts
(nologisme, xnisme, prgrinisme, archasme, mot rare, etc.).
Le lexicographe dispose donc travers le corpus, pour peu quil
soit correctement constitu, dun matriau qui lui permet dtudier les
units lexicales dans leur milieu naturel et de connatre prcisment
leur fonctionnement smantique, morphologique et syntagmatique et
mme sociolinguistique en sachant le contexte, la situation dusage et
le statut du locuteur (ge, origine gographique, profession, etc.).
Cependant, mme si le corpus a incontestablement amlior le texte
dictionnairique, il na pas pour autant simplifi le travail du
lexicographe. L o il travaillait nagure avec beaucoup dintuition
et de bonnes facults danalyse, il a dsormais besoin de puissance de
dduction et de pouvoir de synthse, crit Bjoint (2007 : 20). Un
bon corpus avec un mauvais travail dinfrence donnerait en effet un
mauvais dictionnaire. De mme quun mauvais corpus, mme avec un
bon travail dinfrence aboutirait au mme rsultat. Mais quest-ce
quun bon et un mauvais corpus ? Mais dabord, quest-ce quun
corpus ? Franois Rastier en donne une dfinition intressante, mais
critiquable (v. notes 4 et 5) et qui concerne surtout les corpus
textuels
3
: Un corpus est un regroupement structur de textes
intgraux
4
, documents, ventuellement enrichis par des tiquetages,
et rassembls : (i) de manire thorique rflexive
5
en tenant compte
des discours et des genres, et (ii) de manire pratique en vue dune
gamme dapplications (Rastier, 2004 : 2). La dfinition de V. Giouli
et S. Piperidis nous semble plus gnrale et mieux adapte pour
dfinir le corpus lexicographique en parlant de fragments de discours :
Le mot corpus est utilis pour renvoyer des fragments de discours
sous forme soit crite soit orale, notamment au format lectronique,
runis dune manire systmatique pour pouvoir en tirer des
conclusions sur lusage linguistique (Duchet, 2008 : 129). La nature
des ces conclusions tirer dtermine un choix qualitatif et
quantitatif de discours et de genres mme doptimiser les rsultats.
Abdelaziz BERKA

284
Un bon corpus lexicographique doit satisfaire, dans une certaine
mesure, deux principes :
1. Le principe dextensivit : le corpus doit inclure le
maximum de domaines et de registres possibles impliqus par les
objectifs et la nature du dictionnaire
6
;
2. Le principe dexhaustivit : il doit reprsenter de faon
exhaustive le lexique dun domaine particulier, concern bien entendu
par la nomenclature (v. Lafage, 1997 : 88).
Le respect de ces deux principes conduit llaboration dun
corpus dit reprsentatif, o lessentiel du lexique vis serait
reprsent. Mais, lessentiel ne veut jamais dire la totalit qui est
la somme des lexiques de tous les idolectes dune communaut
linguistique quil nest pas possible de recueillir en entier. Nous ne
sommes pas daccord en loccurrence avec Damon Mayaffre lorsquil
affirme que les corpus lexicographiques peuvent donc non seulement
tre des corpus clos mais des corpus finis (2005 : 5). Il nexiste pas
declos ni de fini en fait de mots. Mme dans la somme des
matriaux de ce corpus dit reprsentatif, le dictionnaire ne prsente
pas tous les lments. Il opre toujours un tri o beaucoup de mots
jugs non conformes aux critres de slection de la nomenclature sont
carts (certains hapax, mots vieillis, xnismes, prgrinismes). En
ajoutant cela le fait que beaucoup dautres mots, lexception des
mots isols, ne figurent pas dans le dictionnaire et quils sont
reprsents par des sortes de reprsentants quon appelle lemmes
7

ou juste titre adresses, o ils sont censs tre domicilis.On peut
sinterroger de ce fait sur le statut du dictionnaire comme source
dattestation des mots. J.-C. Corbeil (1971 : 136) invite justement le
dmystifier en insistant sur sa qualit relative : C'est un outil d'un
certain type et d'une certaine qualit, rien de plus et rtablit le rapport
de dpendance entre mot et dictionnaire en faveur du premier :
l'existence d'un mot ne tient pas au dictionnaire, c'est l'existence du
dictionnaire qui tient aux mots : pas de mots, pas de dictionnaire.

Lintrt du corpus et une ide de sa constitution en lexicographie amazighe

285
La lexicographie amazighe : Quelle place pour le corpus ?
Les bons dictionnaires amazighs, comme le dictionnaire
kabyle-franais de J.-M. Dallet, le touareg-franais de Charles de
Foucauld ou encore le tamazight-franais de Miloud Tafi, reposent,
mais pas exclusivement, sur des corpus
8
, mme sils ne sont pas
toujours signals. Tafi dont le dictionnaire est le rsultat dune thse
de doctorat dEtat est le seul des trois auteurs cits ci-dessus en
parler explicitement (1991 : II). Mais son corpus littraire (constitu
de timedyazin et dihellilen), prcise-t-il, lui a servi seulement
complter ses enqutes lexicologiques (ibid.)
9
. Il est donc loin de
satisfaire aux critres dextensivit et dexhaustivit voqus ci-dessus
et qui sont ncessaires la reprsentativit dun corpus. Il ne sagit
donc pas en loccurrence dune lexicographie de corpus, o celui-ci
est utilis comme objet heuristique servant llaboration dun savoir,
mais peine dune lexicographie sur corpus, o il sert surtout de
support la validation dhypothses adoptes a priori, pour reprendre
les termes de lopposition de Mayaffre : corpus comme apport vs
corpus comme support, de langlais corpus-based vs corpus-driven de
Tognini-Bonelli (2001) (2005 : 8).
Tafi et les diteurs du Dallet ont eu lhonntet de reconnatre
que leurs dictionnaires sont incomplets. Malgr la richesse de la
nomenclature qui y est recense, ce dictionnaire reste incomplet,
crit Tafi (1991 : III). Nous ne pouvons prtendre, bien entendu,
avoir tout dit et navoir rien omis des richesses du parler des At
Mangellat, qui en dpit de notre patiente recherche, dborde encore
par sa vigueur de vie ce que nous en avons not. Nous devons ()
reconnatre franchement les faiblesses trop videntes, les lacunes pour
une part invitables de ce travail difficile, crivent modestement les
diteurs du Dallet (1982 : XX). Nous pensons, pour notre part, que
pour laborer un dictionnaire qui rponde de faon satisfaisante aux
attentes de son public, par ailleurs bien cibl, le travail sur corpus est
dsormais ncessaire pour pallier les nombreuses lacunes et
approximations qui caractrisent la lexicographie amazighe. La
constitution de corpus textuels informatiss est ncessaire pour chaque
dialecte, et dans la mesure du possible pour chaque parler. Ils peuvent
Abdelaziz BERKA

286
servir diverses tudes linguistiques, littraires et autres, et tre
complts, pour tendre la reprsentativit, en lexicographie, par des
recueils thmatiques constitus par une approche onomasiologique,
cest--dire en partant des notions concernant un domaine particulier
pour atteindre leurs dnominations. Ces nomenclatures thmatiques
peuvent tre constitues globalement partir de celles qui existent
dans dautres langues en les compltant, le cas chant, par les
donnes lexicales spcifiques au parler concern obtenues par des
enqutes cibles. Car quelle que soit la dimension dun corpus textuel,
des mots courants peuvent chapper ses mailles. Ce sont des mots
usuels qui se drobent la statistique, crit J. Picoche, cite par C.
Frey (1997 : 259). Des mots trs connus mais pas ncessairement
sollicits, sinon dans certaines circonstances ou situations o ils sont
impliqus. Ce sont les mots qu'on appelle disponibles et qui
compltent les frquents dans l'ensemble des mots usuels. Le mot
fourchette, par exemple, et malgr la richesse du franais dans le
domaine culinaire na pas t recueilli dans un corpus de 312135 mots
ayant servi llaboration du franais fondamental. Beaucoup de
domaines peuvent tre concerns par ces recueils
onomasiologiques : la cuisine (ustensiles et recettes), la maison
(construction, literie et objets divers), les arbres et arbustes, les
plantes, les maladies (humaines, animales et vgtales), le corps
humain, les animaux,le sport et les jeux, les titres et fonctions, le
temps et le climat, la mer, lagriculture,les vtements et les parures,
etc. On peut tablir ces recueils par des enqutes cibles en utilisant
des sous-corpus sources constitus de rfrents (objet, image,
description) ou/et dquivalents dans dautres parlers amazighs
proches ou/et dans dautres langues (arabe, franais) des
dnominations recherches. Une fois obtenues, leur mise en corpus
pourrait comporter les informations suivantes :
- Une transcription phontique partielle qui prend en charge les
sons objets dune variation (spirantisation/occlusion, emphase ou son
absence dans un contexte emphatique). Il est inutile de donner par
exemple une transcription phontique pour des mots comme ifelfel
piment, poivron, amellal blanc, afermac dent, etc. La
transcription usuelle suffit largement dans ces cas
10
;
Lintrt du corpus et une ide de sa constitution en lexicographie amazighe

287
- La catgorie grammaticale qui situe litem considr parmi les
neuf
11
parties du discours connues (nom, pronom, verbe,
dterminant/article, adjectif, adverbe, conjonction, prposition et
interjection) ;
- La flexion des mots variables. Pour le nom on donne (aprs les
avoir recueillies) les flexions du genre, du nombre et de ltat
dannexion, lorsquelles existent. Pour le verbe on donne les formes
de laoriste, du prtrit, du prtrit ngatif et de laoriste intensif.Pour
les formes drives, on donnera lorsquelles sont attestes les formes
du factitif, du passif, du rciproque, mixte (combinaison des
prcdentes) ;celles du nom daction, du dverbatif concret, du nom
dagent, dinstrument, de ladjectif et mme de la forme verbale
potentielle exprimant la faisabilit dun procs (action ou tat),
rarement donnes dans les dictionnaires amazighs : ttwaay (tre
mangeable, comestible), ttwasway (tre buvable, potable), ttwaxdam
(tre faisable ; rparable) Toutes ces formes pourtant trs vivantes
en kabyle ne sont pas attestes dans le Dallet (Berka, 2011 : 33) ;
- Linformation smantique o il est utile de donner, en plus du
smantisme de litem, linformation analogique ncessaire au travail
dencodage pour un dictionnaire de thme : le synonyme, lantonyme,
lhomonyme, la variante phonique et/ou morphologique,
lhyperonyme, lhyponyme, etc. ;
- Linformation pragmatique, cest--dire toute information utile
une actualisation adquate dun item : registre de la langue (familier,
vulgaire, grossier, enfantin, fminin), archasme, nologisme,
prgrinisme, etc. On peut ajouter ces informations lorsque cest
possible et cest utile, en particulier pour les verbes et leurs problmes
de valence et de combinatoire, un ou des exemples dusage des items
concerns. Cette information est trs utile pour llaboration dun
dictionnaire dencodage ;
- Linformation iconique lorsquelle est ncessaire la
description prcise dun rfrent a fortiori lorsquil est spcifique la
culture amazighe.
Abdelaziz BERKA

288
Beaucoup de mots relevant des domaines cits ci-dessus peuvent
tre videmment recueillis dans un corpus textuel important. Ce
corpus est dautant plus reprsentatif quil est vaste et vari, cest--
dire satisfaisant aux deux principes dextensivit et dexhaustivit. Les
mots disponibles concernent surtout les substantifs concrets qui ne
sont pas frquents dans le discours, contrairement aux mots
grammaticaux et aux verbes qui y sont relativement bien reprsents.
Ceci d'une part. D'autre part, le smantisme et la valence d'un mot
fonctionnel ou d'un verbe et mme des noms polysmiques, qui
constituent la majeure partie des units de cette catgorie discursive,
ne peuvent s'tablir vritablement qu' partir d'un contexte d'usage,
cest--dire dun corpus. C'est que les mots, pour reprendre Humboldt
cit par Meschonnic (2008 : 11), ne prcdent pas le discours, mais
ils procdent du discours.
Conclusion
Notre ide de la constitution du corpus lexicographique en
tamazight est donc de complter le corpus textuel traditionnel
constitu de la plus grande varit possible de discours (contes,
posie, proverbes, devinettes, textes en prose, discours informels)
par un corpus thmatique constitu par des enqutes cibles
concernant le maximum de champs lexicaux (lexique des animaux,
des plantes, des maladies, des titres et fonctions) dont une bonne
partie des termes, des nominaux notamment, a trs peu de chance de
se retrouver dans le premier corpus. Ce corpus complmentaire est
constitu essentiellement par une approche onomasiologique, cest--
dire en partant des notions ou/et rfrents concernant un champ lexical
particulier pour aller la recherche de leurs dnominations. Une
dmarche inverse de celle concernant le corpus textuel o nous avons
des dnominations ou signifiants dont il convient de chercher les
signifis. Cest lapproche smasiologique dominante en
lexicographie. Ces deux corpus, textuel et thmatique ou smasio et
onomasio, sont videmment ici les deux parties (ou sous-corpus) dun
mme corpus lexicographique. Labsence de grands corpus textuels en
tamazight pouvant, comme cest le cas de ceux du Collins COBUILD
Dictionary et du TLF, contenir lessentiel du lexique de cette langue
Lintrt du corpus et une ide de sa constitution en lexicographie amazighe

289
exige donc, en plus de la smasiologique, une autre dmarche pour
aller chercher des mots, les disponibles en particulier, qui ne
risquent pas de se faire prendre dans les filets trs grosses mailles
dun modeste corpus textuel.

Bibliographie
Bacelar do Nascimento M.-F., 2000, Corpus de rfrence du
portugais contemporain, dans Bilger M. (d.), Corpus :
Mthodologie et applications linguistiques, Paris, Honor Champion,
p. 25-29.
Basset A., 1952, La langue berbre, Col. Handbook of african
languages, Oxford University Press For International African
Institute.
Bjoint H., 2007, Informatique et lexicographie de corpus : les
nouveaux dictionnaires, Vol. XII-1 : Corpus : tat des lieux et
perspectives, Editions De Werelt, Amsterdam, p. 7-24.
Berka A., 2010,Lexicographie amazighe : inventaire et
propositions, dans Dourari, A. (dir.),La dictionnairique des langues
de moindre diffusion : le cas de tamazight, Edition du Centre National
Pdagogique et Linguistique pour lEnseignement de Tamazight
(CNPLET), p. 118-131.
Berka A., 2011, Quel programme microstructurel en
lexicographie berbre ?, dans Nat-Zerrad K. (d.), La
standardisation du berbre la lumire des volutions rcentes en
Europe et dans le Nord de lAfrique, Actes du colloque organis
lINALCO (Paris) 6-7 octobre 2008, Revue des Etudes Berbre, Vol.
5, p. 25-45.
Blache Ph., 2000, A quoi sert lannotation syntaxique de
corpus ?, dans Bilger M. (d.), Corpus : Mthodologie et
applications linguistiques, Paris, Honor Champion, p. 82-94.
Abdelaziz BERKA

290
Blanche-Benveniste C., 2000, Type de corpus, dans Bilger M.
(d.), Corpus : Mthodologie et applications linguistiques, Paris,
Honor Champion, p. 11-15.
Corbeil J.-C., 1971, Aspects du problme nologique, dans La
Banque des mots n2.
Cori M. et David S., 2008, Les corpus fondent-ils une nouvelle
linguistique ?, Langages, n 171, p. 111-129.
Dallet J.-M., 1982, Dictionnaire kabyle-franais. Parler des Ait-
Manguellat (Algrie), Paris, SELAF.
De Foucauld Ch., 1951, Dictionnaire touareg-franais, T. I, II,
III, IV, Paris, Imprimerie nationale de France.
Duchet J.-L. et al., 2008, Corpus massifs et corpus aligns :
leur impact sur la recherche linguistique, dans Bulletin de la Socit
de Linguistique de Paris, T. CIII-2008, Fasc. 1, p. 129-150.
Frey C., 1997, Corpus et information, dans C. Frey et D.
Latin, Le corpus lexicographique : Mthodes de constitution et de
gestion, Actes des troisimes journes scientifiques du rseau
thmatique de recherche Etude du franais en francophonie, Paris,
Editions Duculot.
Gueyken A., 2008, Quelques problmes observs dans
llaboration de dictionnaires partir de corpus, inConstruction de
faits en linguistique : la place des corpus, Langages 171, Larousse, p.
77-94.
Lafage S., 1997, De quelques principes apparemment
contradictoires dans la constitution dun corpus lexicographique
diffrentiel, dans C. Frey et D. Latin, Le corpus lexicographique :
Mthodes de constitution et de gestion, Actes des troisimes journes
scientifiques du rseau thmatique de recherche Etude du franais en
francophonie, Paris, Editions Duculot, p. 87-100.
Mayaffre D., 2002, Les corpus rflexifs : entre architextualit
et hypertextualit, Corpus [en ligne] n 1, URL :
http//corpus.revues.org/11.
Lintrt du corpus et une ide de sa constitution en lexicographie amazighe

291
Mayaffre D., 2005, Rle et place des corpus en linguistique :
rflexions introductives, dans Texto [en ligne], vol. X, n4.
Disponible sur: http://www.revue-
texto.net/Reperes/Themes/Mayaffre_Corpus.html.
Meschonnic H., 2008, Le dictionnaire mon trsor, prface
Dotoli G., La construction du sens dans le dictionnaire, Linguistica
33, Schena Editore, Hermann Editeurs, p. 11-19.
Rastier F., juin 2004, Enjeux pistmologiques de la
linguistique de corpus, dans Texto ! [en ligne], Rubrique Dits et
indits. Disponible sur : http://www.revue-
texto.net/Inedits/Rastier/Rastier_Enjeux.html.
Rey A., 2008, De l'artisanat des dictionnaires une science du
mot. Images et modles, Paris, Armand Colin.
Saldanha G., 2009, Principles of corpus linguistics and their
application to translation studies research, dans revista tradumtica
[en ligne], n 7. Disponible sur:
http://www.fti.uab.cat/tradumatica/revista : ISSN : 1578-7559.
Tafi M., 1991, Dictionnaire tamazight-franais (parlers du
Maroc central), Paris, LHarmattan-Awal.
Tafi M. et Pognan P., 2011, Un dictionnaire en tant que corpus :
traitements informatiques du dictionnaire raisonn berbre-franais de
Miloud Tafi, Actes du 4
me
atelier international sur lamazighe et les
TICs des 24 et 25 fvrier 2011, Les ressources langagires : construction
et exploitation, IRCAM, p. 33-51 (en ligne).


1-Philipe Blache crit ce propos que la dnomination de linguistique de corpus
prsuppose tout dabord quil puisse exister une linguistique qui nutiliserait pas de
corpus. Cela est videmment faux et tout linguiste, y compris ceux dont les travaux
sont plus formels, sappuient sur des corpus (2000 : 83).
2-Corpus linguistics is not a linguistic theory but a methodology that can be
applied to a wide range of linguistic enquiries (Saldanha, 2009 : 2).
3-Voir, par exemple, lopposition faite par Damon Mayaffre (2005) entre corpus
lexicographiques ou sacs de mots, corpus phrastiques et corpus textuels.
Abdelaziz BERKA

292

4-Il nest pas toujours possible daccder lintgralit dun texte lorsquil est
protg juridiquement par les droits dauteur/diteur. On recourt, en loccurrence,
des extraits ou chantillons reprsentatifs de ces discours. Le rsultat ne serait
pas un corpus textuel (en ce sens quil naurait pas forcment des textes complets)
mais quil serait un corpus de rfrence (en ce sens quil aurait des chantillons de
chaque uvre ou document reprsent) (Bacelar do Nascimento, 2000 : 26).
5-Damon Mayaffre dfinit la rflexivit du corpus au sens idal o ses
constituants (articles de presse, discours politiques, pices de thtre ; de manire
plus gnrale sous-parties) renvoient les uns aux autres pour former un rseau
smantique performant dans un tout (le corpus) cohrent et auto-suffisant (2001 :
5). Nous ne croyons pas, en ce qui nous concerne, lautosuffisance dun corpus
quelle que soit sa dimension. Il dpendrait toujours dun "hors-corpus", sinon pour
sa compltion, du moins pour son interprtation (v. note 7). Les caractres rflexif
et intgral (v. note 4) ne sont pas indispensables, de notre point de vue, la
dfinition du corpus.
6- Il doit y avoir par ailleurs une juste reprsentativit des diffrents types de
discours qui vite une sur- ou une sous-reprsentation dun type particulier ou
carrment labsence dun tel autre type. Do lusage de la notion de corpus
quilibr (balanced corpus).
7- Paradoxalement, ces lemmes qui reprsentent des formes attestes peuvent
parfois tre des formes non usites et qui sont de pures constructions de
lexicographes. La lemmatisation de la forme verbale de limpratif de la deuxime
personne du singulier en tamazight tient exclusivement sa simplicit. Du point de
vue de lusage, cest sans doute la forme la moins conseille comme lemme. A.
Basset qui a beaucoup travaill sur le verbe amazigh le souligne trs bien en
affirmant qu on est en effet amen parfois dgager artificiellement cette
deuxime personne qu'il n'est pas toujours ais d'obtenir au cours de l'enqute
(1952 : 19). Nous aurions nous-mmes, dans un essai dlaboration dun
dictionnaire dans le cadre de notre thse, pu dgager cette forme lemmatique pour
un verbe qui nest pas attest limpratif (*nutre, exister). Nous avons prfr,
en loccurrence, donner la forme du verbe la 3me personne du sing. au prtrit
(inu, tnu) qui est, elle, bien atteste. Et cest prcisment la forme lemmatique
adopte en lexicographie arabe (faala). Alain Rey concernant le franais "regrette"
que cette forme dans les dictionnaires franais, anglais, etc., soit linfinitif. Il serait
plus simple de la remplacer par la premire personne de lindicatif () Ladresse
la premire personne du prsent de lindicatif amorce un paradigme mmoris (),
et donc une possibilit de phrase, de discours, linfinitif donne au verbe un caractre
quasi nominal et mtalinguistique (Rey, 2008 : 26). Les formes non attestes dans
lusage lorsquelles sont ncessaires en lexicographie ou en grammaire montrent
limportance de lintrospection dans tout travail de constitution et dexploitation de
corpus. Celui-ci fait toujours appel un savoir situ hors corpus.
Lintrt du corpus et une ide de sa constitution en lexicographie amazighe

293

8-Le Dallet repose en partie sur les nombreux Fichiers de Documentation Berbre
que lauteur a lui-mme dirigs depuis leur cration en 1946 jusqu sa mort en
1972. Ses travaux antrieurs comme Le verbe kabyle (1953) ainsi que certains des
travaux de ses prdcesseurs comme la Mthode de langue kabyle (1913) de Si Sad
Boulifa et son glossaire ont aussi servi llaboration de ce dictionnaire. Le
Foucauld aussi sest appuy en partie sur des travaux antrieurs sur le touareg
(parler de lAhaggar), dont ceux de lauteur lui-mme : Textes touaregs en prose et
Posies touargues.
9- Dans le cadre dun projet rcent de Dictionnaire raisonn berbre-franais,
Miloud Tafi, avec la collaboration de Patrice Pognan, utilise le contenu de son
ancien dictionnaire comme lment important dun corpus (reprsentant 40% de
celui-ci) servant de support llaboration du dictionnaire raisonn (Tafi et
Pognan, 2011 : 34)
10- Le dictionnaire du franais le plus populaire, Le Petit Larousse, ne propose la
transcription phontique que dans les rares cas o les mots en question prsentent une
srieuse difficult de prononciation qui rsulte dune diffrence trs marque entre loral
et lcrit. Gnralement des mots latins ou des emprunts : sine qua non [sinekwann], hic
et nunc [iktnk] Ce dictionnaire transcrit cependant entirement les mots en question,
alors que nous proposons de transcrire seulement les sons objet de la difficult qui peut
parfois se poser pour tous les sons dun mot. Un historien franais raconte dans une
mission de tlvision que Krim Belkacem, lors des ngociations dEvian o il tait le
chef de la dlgation algrienne, avait prononc [sindi] le mot sine die qui se prononce
correctement comme [sinedje]. Sil lavait appris dans un dictionnaire o il tait
accompagn de sa transcription phontique, ce politicien, bon francophone par ailleurs,
naurait pas commis cette erreur.
11- Mieux adaptes lamazighe que les trois parties de la grammaire arabe : le
nom, le verbe et la particule. Tripartition que M. Mammeri a reprise dans sa
dfinition de mot : isem (nom), amyag (verbe) d tzela (et la particule) (v. Tajerrumt
n tmazight, grammaire berbre (kabyle)).