Vous êtes sur la page 1sur 23

Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde

INF M34 Informatique, Multilinguisme et Traduction



1
SOMMAIRE





INTRODUCTION p.2

PRESENTATION DE LA LANGUE

1. Typologies linguistiques
1.1 Famille de langues
1.2 Type de langue

2. Donnes linguistiques
2.1 Nombre de locuteurs et langues parles en Sardaigne
2.2 Variantes dialectales du sarde

p.3

p.3



p.4

CONSTITUTION DU DICTIONNAIRE

1. Description du lexique
1.1 Recueil des donnes
1.2 Catgorisation des lemmes

2. Le dictionnaire lectronique morphosyntaxique
2.1 Dfinition gnrale
2.2 Structure du dictionnaire
a) Modle relationnel
b) Les tables
c) Les requtes

p.7

p.7



p.8

FONCTIONNEMENT DE LA LANGUE SARDE

1. Les catgories grammaticales
1.1 Catgories variables et invariables
1.2 Tableau des flexions

2. Caractristiques de la flexion sarde
2.1 La flexion nominale
2.2 La flexion de ladjectif qualificatif
2.3 La flexion des dterminants
2.4 La flexion des verbes
2.5 Le pronom

p.13

p.13



p.14

CONCLUSION

p.21

SITOGRAPHIE

p.22

Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde
INF M34 Informatique, Multilinguisme et Traduction

2
INTRODUCTION


Depuis plusieurs annes dj, des dictionnaires lectroniques ont t crs pour le
traitement automatique du langage (TAL). Lutilisation de ces ressources se retrouve autant
dans le domaine des recherches linguistiques que dans celui des industries de la langue. En
effet, les applications sont nombreuses et varies : vrification orthographique, indexation de
textes, analyse syntaxique, recherche documentaire
Cependant, il faut tablir une distinction entre les dictionnaires lectroniques et les
dictionnaires dusage. La diffrence entre ces deux types de ressources rside principalement
dans la finalit. En effet, les dictionnaires dusage (mme sur support informatique) sont
orients vers la dfinition des mots et la description de leurs emplois et sont, par consquent,
destins une lecture humaine. Ce qui nest pas le cas des dictionnaires lectroniques qui sont
conus dans le but dtre exploits par des programmes informatiques et sont focaliss sur la
description formelle des objets de la langue et leur classification. Ces derniers se prsentent
dailleurs le plus souvent sous la forme dune base de donnes contenant des informations
morpho-grammaticales des mots (lemmes) et des informations sur les variations possibles de
ces mots en genre et en nombre ainsi que la conjugaison des verbes.

Dans le cadre de lunit denseignement INF M34 Informatique, Multilinguisme et
Traduction, nous devions raliser un dictionnaire lectronique partir dune langue autre que
le franais. Notre choix sest port sur la langue sarde car elle est peu dcrite du point de vue
linguistique.
Dans une premire partie, nous prsenterons la langue sarde en traitant plusieurs points
relatifs aux typologies linguistiques : le type de langue et la famille de langue. Puis, nous
fournirons quelques informations dmolinguistiques sur la langue : nombre de locuteurs,
variantes dialectales, statut linguistique du sarde.
Une seconde partie sera consacre la description du notre dictionnaire lectronique :
rcupration du lexique, utilisation dune base de donnes pour reprsenter la structure des
donnes.
Enfin, nous nous intresserons au fonctionnement de la langue sarde en dcrivant les
diffrentes catgories de mots (noms, verbes, adjectifs) et leur variabilit en fonction des
traits grammaticaux (genre, nombre, conjugaison des verbes) ; nous parlerons galement des
problmes rencontrs et des choix thoriques que nous avons d faire.
Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde
INF M34 Informatique, Multilinguisme et Traduction

3
PRSENTATION DE LA LANGUE


Comme nous lavons voqu prcdemment, nous avons choisi de nous intresser la
langue sarde dont le lexique nous servira de base pour constituer notre dictionnaire
lectronique. Nous dbuterons donc cette partie par une prsentation de la langue sarde :
famille de langues, type de langue. Puis nous fournirons quelques informations linguistiques :
nombre de locuteurs, langue officielle, dialectes.

1. Typologies linguistiques

1.1. Famille de langues

Le sarde est une langue romane appartenant la grande famille des langues indo-
europennes. Plus prcisment, elle appartient au groupe rhto-roman (sous-famille des
langues romanes) dont lorigine remonte au XII
me
sicle. Comme les autres langues romanes,
la langue sarde puise ses origines du latin vernaculaire c'est--dire le latin employ dans la
communication de tous les jours par opposition au latin classique employ dans la
littrature. Il est noter que le sarde est rest relativement archaque et conservateur (du fait
de lisolement insulaire) et constitue lheure actuelle la langue la plus proche du latin.
Nanmoins, il convient dajouter que le sarde a connu de nombreuses influences linguistiques
travers les sicles, parmi lesquelles litalien, le catalan mais aussi le castillan.

1.2. Type de langue

Nous pouvons galement dfinir la langue sarde en fonction de son type : il sagit dune
langue flexionnelle c'est--dire une langue dans laquelle les mots (ou lemmes) changent de
forme selon leur rapport grammatical aux autres mots de lnonc. La flexion est un procd
morphologique qui consiste ajouter la racine dun mot des dsinences exprimant des
catgories grammaticales (genre, nombre, personne) ou des fonctions syntaxiques (cas). Les
formes flchies des mots sont obtenues en ajoutant des dsinences ou affixes flexionnels au
radical (qui est le plus souvent invariable). Ces dsinences permettent de dfinir les traits
grammaticaux pour les catgories de mots variables essentiellement pour le systme nominal :
genre, nombre, cas et pour le systme verbal : personne, nombre, temps, mode, voix.

Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde
INF M34 Informatique, Multilinguisme et Traduction

4
Pour illustrer ces diffrentes notions, voici quelques exemples de formes flchies en
sarde :
- mundu-s : dans la forme nominale mundus la dsinence -s exprime le nombre
(pluriel)
- fill-a : dans ce mot, la dsinence -a exprime le genre (fminin)
- amig-as : dans cet exemple, la dsinence -as exprime la fois le genre (fminin) et
le nombre (pluriel)
- cnt-at : pour cette forme verbale, la dsinence -at exprime la fois le mode
(indicatif), le temps (prsent), la personne (3
me
personne) et le nombre (singulier).


2. Donnes linguistiques

2.1. Nombre de locuteurs et langues parles en Sardaigne

Actuellement, on compte environ 1 200 000 locuteurs de cette langue, principalement
en Sardaigne. La plupart des locuteurs sont bilingues sarde italien, litalien constituant la
langue officielle de lle (la Sardaigne est rattache lItalie et elle est considre comme
rgion autonome statut spcial). Cependant, sur une population de 1,6 million dhabitants
que compte la Sardaigne, prs de 1,3 million de locuteurs utilisent le sarde comme langue
maternelle.

Tableau rcapitulatif
Capitale : Cagliari
Population : 1,6 million dhabitants (2001)
Langue officielle : Italien
Groupe majoritaire : Sarde (81,2%)
Groupes minoritaires : Italien, catalan, corse, gnois
Systme politique : Rgion autonome statut spcial

La langue sarde est considre comme une langue minoritaire et elle est protge par la
loi rgionale intitule Promozione e valorizzazione della cultura e della lingua della
Sardegna (entre en vigueur le 1
er
janvier 1998) qui lui reconnat le statut de langue
rgionale.


Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde
INF M34 Informatique, Multilinguisme et Traduction

5
2.2. Variantes dialectales du sarde

La Sardaigne se divise en plusieurs rgions marques par des influences linguistiques
trs diverses. En fait, le sarde ne fait pas rfrence une langue unique mais aux diffrents
dialectes parls en Sardaigne.
On distingue deux grandes varits dialectales :

- Le logoudorais : parl surtout dans le nord de lle et divis galement en trois autres
dialectes : le septentrional, le logoudorais central (ou nuorais) et le logoudorais
commun.
- Le campidanais : parl dans la partie sud de lle et qui porte linfluence de litalien.
Le campidanais connat galement plusieurs variantes : le cagliaritain (Cagliari),
logliastrais (province de lOgliastra) et liglesientais (province de Carbonia-Iglesias).

Sajoutent cela, le sassarais (rgion de Sassari) et le gallurais (nord-est de lle) trs
proche du corse. A noter galement la prsence du catalan (uniquement parl dans la ville
dAlghero).
La carte ci-dessous illustre cette diversit dialectale :












Le SIL International (Socit Internationale de
Linguistique) distingue, au sein d'une macro-langue sarde
(identifiant srd), quatre langues individuelles :
- Campidanese Sardinian [sro]
- Gallurese Sardinian [sdn]
- Logudorese Sardinian [src]
- Sassarese Sardinian [sdc]
Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde
INF M34 Informatique, Multilinguisme et Traduction

6
Compte tenu de labondance des dialectes, le sarde connat des problmes dunit
linguistique et il se rvle donc dlicat de mettre en place une norme crite commune ces
dialectes. Les dialectes principaux, savoir le logoudorais et le campidanais, se disputent la
suprmatie littraire mais cest litalien qui est employ comme langue denseignement, dans
les documents administratifs ou encore pour la justice.
La langue sarde a donc un statut linguistique un peu particulier puisque litalien est la
seule langue officielle mais plus de 81% de la population parle une des variantes du sarde
dcrites plus haut.
Il est noter que labondance des variantes dialectales a constitu la premire difficult
de ce travail, dans la mesure o nous avons d choisir une des variantes du sarde pour raliser
notre dictionnaire.

































Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde
INF M34 Informatique, Multilinguisme et Traduction

7
CONSTITUTION DU DICTIONNAIRE


Dans cette partie, nous prsenterons dune part, le lexique que nous avons rcupr
(nombre dentres et catgories reprsentes) puis, nous nous intresserons la structure du
dictionnaire qui se prsente sous la forme dune base de donnes lexicale.

1. Description du lexique

1.1. Le recueil des donnes

Dans un premier temps, nous avons rcupr un ensemble de mots appartenant au
vocabulaire sarde. La tche na pas t facile puisque le sarde est une langue peu dcrite du
point de vue linguistique. De plus, en considrant les variantes dialectales, il semble difficile
de dfinir clairement ce quest la langue sarde .
Pour rcuprer les mots appartenant au vocabulaire, nous nous sommes base sur une
grammaire du sarde rdige en italien et disponible sur Internet
(http://www.mondosardegna.net). Cette grammaire explique le fonctionnement de la langue
sarde et plus particulirement de la variante campidanaise ; cest pourquoi, tant donn le peu
de ressources disponibles, nous avons fait le choix de ne dcrire prcisment que cette
variante du sarde. Cependant, nous fournirons les quivalences (lorsque nous avons
linformation) pour les autres variantes de la langue.
Pour complter nos informations et en vrifier lexactitude, nous avons galement
utilis un dictionnaire smantique multilingue en langue sarde (http://www.ditzionariu.org).
Les recherches peuvent seffectuer partir du sarde directement (variantes) ou partir
dautres langues : litalien, le franais, langlais ou lallemand. Ce dictionnaire comprend
93 000 lemmes en sarde, 18 000 mots traduits en italien, 18 000 en anglais, 17 000 en franais
et 9000 pour lallemand.
Les informations recueillies nous ont permis de rcuprer 427 lemmes appartenant au
sarde campidanais. Nous avons galement effectu des recherches afin dobtenir pour cet
ensemble de lemmes les traductions en deux langues cible savoir litalien et le franais.

Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde
INF M34 Informatique, Multilinguisme et Traduction

8
1.2. Catgorisation des lemmes

Aprs avoir ralis le listage des lemmes, nous avons class ces units dans les
diffrentes catgories grammaticales existantes. Or, bien que la plupart de ces catgories
soient clairement dfinies, nous avons rencontr des difficults catgoriser certains lemmes.
Cest pourquoi, pour des raisons de commodits, nous avons effectu des regroupements pour
classer plus facilement les mots du lexique. Ainsi, nous avons inclus dans la catgorie
gnrique Dterminant les articles (dfinis et indfinis) bien sr, mais aussi les adjectifs
possessifs et dmonstratifs. Il en va de mme pour la catgorie Pronom qui englobe les
diffrents types de pronoms (personnels, relatifs, dmonstratifs, possessifs, indfinis) mais
aussi certains adjectifs indfinis. En effet, la plupart des pronoms indfinis sont galement des
adjectifs indfinis : par exemple en sarde tanti (tant en franais) est la fois un adjectif
indfini et un pronom indfini.
Une catgorie spcifique a t cre pour classer les adjectifs numraux qui ont un statut
un peu particulier en franais : ils peuvent tre tour tour adjectifs, noms ou pronoms.
Le tableau suivant prsente les diffrentes catgories du lexique que nous avons choisies
de reprsenter ainsi que le nombre de lemmes correspondants :

Catgories grammaticales reprsentes
Catgorie Nombre de lemmes
Adjectif 100
Adverbe 51
Conjonction 12
Dterminant 12
Nom 122
Numral 36
Prposition 5
Pronom 35
Verbe 54
Total 427


2. Le dictionnaire lectronique morphosyntaxique

2.1. Dfinition gnrale

Les dictionnaires morphosyntaxiques lectroniques servent reprsenter formellement
un lexique en associant chaque forme flchie le lemme (c'est--dire la forme canonique du
Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde
INF M34 Informatique, Multilinguisme et Traduction

9
mot) ainsi que des informations grammaticales, flexionnelles et ventuellement smantiques.
La finalit de ces outils tant de gnrer automatiquement les formes flchies partir des
lemmes en dcrivant des modles de flexion. Par exemple, les adjectifs petit et grand en
franais ont un modle de flexion similaire puisque la forme flchie du fminin singulier
sobtient en rajoutant un e au lemme, la forme au fminin pluriel en ajoutant es et la
forme au masculin pluriel en ajoutant un s .

Exemple de flexion pour petit et grand
Lemme Morphologie Ajouter Formes flchies
petit ms - petit
petit mp s petits
petit fs e petite
petit fp es petites
grand ms - grand
grand mp s grands
grand fs e grande
grand fp es grandes

Pour gnrer les diffrentes formes flchies partir dun lemme, on regroupe les mots
en classes de flexions (mots qui ont le mme comportement flexionnel) et on sattache
dcrire de manire prcise ces diffrentes classes de flexion.

Dans la plupart des cas, les dictionnaires morphosyntaxiques se prsentent sous la forme
dune base de donnes indexe. Les donnes y sont organises selon des critres prcis et par
des structures informatives spcifiques, de faon tre consultes, mises jour et
ventuellement restructures.


2.2. Structure du dictionnaire

Pour raliser notre dictionnaire morphosyntaxique de la langue sarde, nous nous
sommes inspire dun modle de base de donnes existant : 2000-morphologie.mdb (base
cre avec le logiciel Access).
Comme la majorit des dictionnaires, notre dictionnaire prsente les caractristiques
principales suivantes :
- une liste de lemmes ;
- des codes alphanumriques ;
Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde
INF M34 Informatique, Multilinguisme et Traduction

10
- des oprations effectuer sur les lemmes pour obtenir les formes flchies, associes de
faon univoque aux codes alphanumriques.

a) Modle relationnel

La conception dune base de donnes passe par une phase de modlisation qui permet
dexpliciter les donnes contenues dans les diffrentes tables. En ce qui concerne la base de
donnes que nous utilisons, elle emploie le modle relationnel (relations entre les tables) pour
structurer les entres.
La copie dcran ci-dessous prsente la structure des donnes et les relations entre les
tables de la base.

b) Les tables

Notre dictionnaire lectronique se compose de trois tables :

La table des bases qui associe chaque lemme un modle de flexion, identifi par un
code alphanumrique (ce que nous nommons Modle dans la base de donnes)
La table des modles qui dfinit les oprations (Enlever et Ajouter) effectuer partir
de la forme canonique du mot, de faon obtenir les formes flchies.
La table des traductions (que nous avons rajoute la base 2000-morphologie.mdb)
qui propose pour chaque lemme en sarde les autres variantes dialectales ainsi que la
traduction des lemmes en deux langues cible : litalien et le franais.

Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde
INF M34 Informatique, Multilinguisme et Traduction

11
Un seul code alphanumrique (Modle), peut dcrire le comportement de plusieurs
units lexicales et peut tre assign des ensembles de lemmes ayant les mmes
caractristiques morphologiques.
Prenons pour exemple les adjectifs sardes suivants :
- pitcu
- dilicu
- lbiu

Voici la manire dont ils sont reprsents dans le dictionnaire :

Table des traductions
Base Variantes Traduction Italien Traduction Franais
pitcu picicu, pitiu, pitzicu pccolo petit
lbiu lpiu, lviu leggro lger
dilicu delicdu, delicau, dibicau, dilicadu delicato dlicat


Tables des bases
Base Cat Sous-cat Modle
pitcu adjectif qualificatif Adj01
lbiu adjectif qualificatif Adj01
dilicu adjectif qualificatif Adj02


Tables des modles
Modle Cat Morpho Enlever Ajouter
Adj01 adjectif ms - -
Adj01 adjectif mp - s
Adj01 adjectif fs u a
Adj01 adjectif fp u as
Adj02 adjectif ms - -
Adj02 adjectif mp - s
Adj02 adjectif fs u ada
Adj02 adjectif mp u adas

Les adjectifs pitcu et lbiu ont le mme modle cod Adj01 car ils ont les
mmes caractristiques flexionnelles. Les oprations effectuer pour avoir les formes flchies
peuvent se rsumer ainsi :

ms (masculin singulier) : Enlever 0 lettre au lemme / Ajouter 0 lettre
mp (masculin pluriel) : Enlever 0 lettre au lemme / Ajouter 1 lettre : S
Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde
INF M34 Informatique, Multilinguisme et Traduction

12
fs (fminin singulier) : Enlever 1 lettre au lemme : U / Ajouter A
fp (fminin pluriel) : Enlever 1 lettre au lemme : U / Ajouter AS

En revanche pour ladjectif dilicu le modle de flexion est diffrent (cod Adj02)
car il na pas les mmes caractristiques morphologiques que les deux autres adjectifs :
ms (masculin singulier) : Enlever 0 lettre au lemme / Ajouter 0 lettre
mp (masculin pluriel) : Enlever 0 lettre au lemme / Ajouter 1 lettre : S
fs (fminin singulier) : Enlever 2 lettres au lemme : AU / Ajouter 3 lettres : ADA
fp (fminin pluriel) : Enlever 2 lettres au lemme : AU / Ajouter 4 lettres : ADAS

On peut galement remarquer que chaque entre de la table Base correspond une
entre dans la table Traductions : pour chaque lemme on fournit les autres variantes du lemme
(en sarde), la traduction en italien et celle en franais.

c) Les requtes

Les requtes servent en quelque sorte interroger la base de donnes car elles
permettent de trier, de slectionner et dextraire des informations pertinentes. Lintrt
principal des requtes rside dans le fait quelles peuvent sappliquer plusieurs tables et que
lon peut ensuite crer une nouvelle table partir des rsultats obtenus.
Notre base de donnes en comprend plusieurs :

Requte Formes : il sagit dune requte (de type slection) qui permet dafficher les
formes flchies correspondant chaque lemme entr dans le dictionnaire.
Requte Traductions : qui permet dafficher les variantes, la traduction en italien et la
traduction en franais lorsque lon tape un mot en sarde dans la bote de dialogue.
Requte Reconnaissance : est une requte de paramtres : en tapant une forme
lemmatise ou une forme flchie dans une bote de dialogue, on obtient les caractristiques
morphologiques correspondantes (lemme, modle, la catgorie)
Requte Tagger : permet dafficher ltiquette qui correspond un lemme que lon tape
dans la table Texte.

Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde
INF M34 Informatique, Multilinguisme et Traduction

13
FONCTIONNEMENT DE LA LANGUE SARDE


Il ne sagit pas dans cette partie de faire une description dtaille et exhaustive de la
grammaire sarde mais de mettre en vidence certaines des caractristiques de la langue en
terme de flexions. Il est noter que nous nous intressons uniquement la flexion (variations
en genre et en nombre et conjugaisons des verbes) et non la drivation : procds
daffixation qui permettent dobtenir des formes drives partir dune forme dj flchie.
Par exemple, ladverbe de mode en sarde sobtient en utilisant ladjectif au fminin
singulier et en y ajoutant le suffixe -menti :
amargo (adjectif, ms) amarga (adjectif, fs) amargamenti (adverbe)
siguro (adjectif, ms) sigura (adjectif, fs) siguramenti (adverbe)

Dans un premier temps, nous prsenterons les diffrentes catgories que nous allons
traiter puis nous dcrirons les diffrents modles de flexion propres chaque catgorie, en
expliquant galement les difficults que nous avons rencontres.


1. Les catgories grammaticales

1.1. Catgories variables et invariables

Comme le franais, le sarde compte neuf catgories de mots : cinq variables, et quatre
invariables.
5 catgories variables :
- Nom
- Article
- Adjectif
- Pronom
- Verbe

4 catgories invariables :
- Adverbe
- Prposition
Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde
INF M34 Informatique, Multilinguisme et Traduction

14
- Conjonction
- Interjection (qui ne fait pas partie du dictionnaire)

Bien que certaines catgories soient variables comme larticle dfini (dterminant), le
pronom ou encore le verbe nous navons pas toujours t en mesure dtablir des modles de
flexions pour ces units. Dans ce qui suit, nous proposons de dcrire les modles de flexions
pour les noms, les adjectifs qualificatifs et pour les dterminants. Nous aborderons nanmoins
les autres catgories en expliquant les problmes rencontrs.

1.2. Tableau des flexions

Le tableau qui suit prsente pour chaque catgorie de mot, le nombre dentres et le
nombre de flexions. Ainsi on peut constater que ladjectif, le nom et le verbe sont les
catgories qui comptent le plus de formes flchies.

Catgorie Nombre de lemmes Nombre de flexions
Adjectif 100 400
Adverbe 51 51
Conjonction 12 12
Dterminant 12 36
Nom 122 278
Numral 36 36
Prposition 5 5
Pronom 35 35
Verbe 54 1242
Total 427 2095

2. Caractristiques de la flexion du sarde

Nous nous intresserons, dans ce qui suit, aux catgories de mots variables en dcrivant
les modles de flexion que nous avons dgags grce nos observations.

2.1. La flexion nominale

Notre dictionnaire rpertorie 122 noms que nous pouvons rpartir selon diffrents
modles de flexion. Pour dfinir ces modles, nous avons observ les terminaisons de chaque
Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde
INF M34 Informatique, Multilinguisme et Traduction

15
entre nominale du dictionnaire et nous nous sommes base sur la grammaire du sarde
prsente plus haut (cf. chapitre 2, 1-1.1 : Recueil des donnes). Nous avons ainsi dgag 12
modles de flexions diffrents que nous rsumons dans le tableau suivant :

Modle Terminaison Genre Exemples
Oprations sur les lemmes
Morpho Enlever Ajouter
N01 -A Fminin bba, bca, mba
fs
fp s
N02 -U Masculin bbbu, bntu, ru
ms
mp s
N03 -U Masculin fllu, pipu, titu
ms
mp s
fs u a
fp u as
N04
-A

Masculin artista, tema, pra
ms
mp s
N05 -I Masculin
Furistri, professri,
bendidori
ms
mp s
fs i a
fp i as
N06 -I Masculin cni, flori, frdi
ms
mp s
N07 -I Fminin
libertadi, mullri,
arrexoni
fs
fp s
N8 -AU Masculin connau, sordau
ms
mp s
fs u ada
fp u adas
N09 scolanu Masculin scolanu
ms
mp scolanu iscolanu
fs u a
fp scolanu iscolanas
N10 scla Fminin scla
fs
fp scla iscolas
N11 spsu spsu
ms
mp spsu isposus
fs u a
fp spsu isposas
N12 -S Masculin corpus, deus, tempus
ms
mp

Les substantifs en sarde campidanais, ont trois terminaisons possibles : -A, -U, -I. Les
noms qui se terminent par -A sont en gnral fminins (modle N01). Cependant, quelques
noms font exception la rgle : ceux qui se terminent en -MA, -ARCA, -IATRA, -ISTA, -TA,
-PA, -ETRA qui sont de genre masculin. Cest pourquoi, nous avons cre un modle de
flexion spcifique ces noms (modle N04).
Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde
INF M34 Informatique, Multilinguisme et Traduction

16
Les noms qui se terminent en -U, sont en majeure partie, masculins. Nous pouvons
distinguer les noms qui saccordent uniquement en nombre (deux flexions possibles) qui sont
regroups dans le modle N02 et ceux qui saccordent la fois en genre et en nombre et qui
sont classs dans le modle N03.
Parmi les terminaisons possibles, les noms qui finissent par -I peuvent tre soit
masculins soit fminins. Cependant, nous pouvons observer quelques rgularits qui
permettent de distinguer quel genre appartient le nom. Ainsi, les noms qui possdent les
terminaisons suivantes : -ERI, -ADORI, -IDORI, -ORI, ONI sont masculins et saccordent en
genre et en nombre (modle N05). Cest le cas par exemple des mots msiganti, traitri ou
encore dotori.
Avec la mme terminaison en -I, nous avons les noms qui se terminent en -UNI, -INI, -ALI
qui sont de genre masculin (deux flexions possibles) qui appartiennent au modle N06 comme
cni, fmini et ceux qui se terminent en -ADI, -UDI, -X + voyelle + -NI qui sont fminins tels
que cantidadi, arrexoni, jovuntudi (modle N07).
Nous avons cre un autre modle (N08) pour les noms masculin en -AU pour lesquels
laccord en genre est diffrent : le fminin est en -ADA comme par exemple dans le mot
connau qui se change en connada au fminin.
Les modles de flexions N09, N10 et N11 sont des modles un peu particuliers car ils
correspondent une unique entre dans le dictionnaire. Ils font rfrence aux substantifs qui
commencent par S- suivis dune consonne dont le pluriel se forme en ajoutant le prfixe I- et
la marque du pluriel habituelle c'est--dire -S. Par exemple, le mot scola se change en iscolas
au pluriel. Le problme vient du fait quil nest pas possible dans notre base dajouter un
lment avant le radical. La seule solution a donc t denlever le mot entier de dpart et de le
remplacer intgralement par sa forme flchie (au pluriel seulement). Le modle cr ne
pouvant sappliquer qu un mot la fois (on supprime le mot dont il est question pour le
remplacer par son quivalent flchi), nous avons t contraint de crer un modle pour chacun
des mots prsentant cette particularit :
N09 scolanu iscolanus iscolanas
N10 scla iscolas
N11 spsu isposus isposas
Le dernier modle N12 fait rfrence au noms qui se caractrisent par le maintien du S
latin en finale de mot et qui conservent la mme forme au pluriel : corpus, deus, frius, tempus.


Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde
INF M34 Informatique, Multilinguisme et Traduction

17
2.2. La flexion de ladjectif qualificatif

En ce qui concerne les adjectifs, nous nous sommes seulement intresse la flexion
des adjectifs qualificatifs car, comme nous lavons expliqu prcdemment, nous avons fait le
choix de regrouper les autres types dadjectifs (possessifs et dmonstratifs) dans la catgorie
des dterminants et dont nous ferons la description dans les pages suivantes.


Modle Terminaison Genre Exemples
Oprations sur les lemmes
Morpho Enlever Ajouter
ADJ01 -U Masculin bnu, lanju, nbu
ms
mp
fs u a
fp u as
ADJ02 -I Masculin arsti, crueli, fini
ms
mp s
fs
fp s
ADJ03 -AU Masculin
dilicu, ,spollu,
tostu
ms
mp s
fs u ada
fp u adas
ADJ04
-I

Masculin
fainri, impiastri,
magiri
ms
mp s
fs i a
fp i as


tablir des modles de flexion pour les adjectifs ne nous a pas pos trop de difficults
dans la mesure o les marqueurs flexionnels des adjectifs sont quasiment les mmes que pour
les noms. Ainsi, nous avons pu dgager quatre modles de flexions pour cette catgorie. Le
modle Adj01 fait rfrence aux adjectifs dont la finale est -U et qui saccordent en genre et
en nombre :
- bnu (ms) bnus (mp) bna (fs) bnas (fp)
Les adjectifs appartenant au deuxime modle (Adj02) ont la particularit davoir la
mme forme au masculin et au fminin, cest le contexte qui permet de dfinir le genre de
ladjectif :
- unomini aresti una fmina aresti
Comme pour les noms, le fminin des adjectifs qui se terminent en -AU est -ADA. Ces
adjectifs renvoient au modle Adj03 :
- prexu (ms) prexus (mp) prexada (fs) prexadas (fp)
Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde
INF M34 Informatique, Multilinguisme et Traduction

18
Enfin, un dernier modle Adj04, correspond aux adjectifs se terminant en -ERI, -ONI, -
ORI et qui saccordent en genre et en nombre :
- impiastri (ms) impiastris (mp) impiastra (fs) impiastras (fp)
- minri (ms) minris (mp) minra (fs) minras (fp)

2.3. La flexion des dterminants

Les dterminants reprsentent une classe gnrique permettant de rassembler plusieurs
types dunits comme les articles (dfinis et indfinis), les adjectifs possessifs et les adjectifs
dmonstratifs. En examinant les diffrents dterminants, nous avons constat quil ntait pas
possible de proposer un modle de flexion pour les articles dfinis : su, sa, is (le, la, les en
franais). En effet, la forme du pluriel sobtient en ajoutant un I- en dbut de mot et nous
avons vu prcdemment que nous ne pouvions pas ajouter de prfixes un radical mais
seulement des dsinences. De plus, peut-on considrer s comme tant la base
morphologique des articles dfinis ? Pour ces raisons, et bien que ces units possdent des
variations en genre et en nombre, nous leur avons appliqu un modle chacune. Ainsi, le
modle Det01 fait rfrence su (article dfini masculin singulier), Det02 renvoie sa (article
dfini fminin singulier) et Det03 sapplique is (article dfini masculin/fminin pluriel).
En revanche, les autres dterminants, savoir les adjectifs possessifs et dmonstratifs
mais aussi les articles indfinis, possdent des caractristiques flexionnelles analogues et il est
possible de leur appliquer un modle commun (Det04) :
- Article indfini : nu nus na nas
- Adjectif possessif : tu tus ta tas
- Adjectif dmonstratif : cstu cstus csta cstas
Seul ladjectif possessif insru ne possde pas de forme flchie cest pourquoi nous lui
avons appliqu le modle Det05.

Modle Terminaison Genre Exemples
Oprations sur les lemmes
Morpho Enlever Ajouter
DET01 SU Masculin ms
DET02 SA Fminin fs
DET03 IS Masculin / Fminin mp/fp
DET04 -U Masculin
mu, nstu,
cssu
ms
mp s
fs u a
fp u as
DET05 INSORU Masculin / Fminin ms/fs
Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde
INF M34 Informatique, Multilinguisme et Traduction

19
2.4. La flexion des verbes

En gnral, ce qui caractrise le verbe est la richesse de sa conjugaison. En effet, il varie
en genre et en nombre o il se conjugue laide des pronoms personnels atones sujets mais
aussi en fonction des conjugaisons (aux diffrents temps et modes). Le sarde compte quatre
modes : lindicatif, le subjonctif, limpratif et le conditionnel.
La langue sarde compte trois auxiliaires : ai (avoir), essi (tre) et tenni (avoir dans le
sens de possder). Elle possde galement trois conjugaisons rgulires : la dsinence de
linfinitif pour la premire conjugaison tant -AI, -I pour la seconde et -IRI pour la troisime.
La seconde conjugaison comporte une multitude de sous-classes qui se distinguent selon
la forme du participe pass :

Sous-classe Participe pass
-IMI IMIU
-ESSI ESSIU
-USI USIU
-UDI UDIU
-ENDI ENDIU
-EDI EDIU
-ITI ITIU
-GI JU
-UDI UDIU

Pour illustrer les diffrentes conjugaisons rgulires, on peut donner un exemple avec
les verbes cantai (chanter), timi (craindre) et partiri (partir) au prsent de lindicatif :

Cantai Timi Partiri
cantu timu partu
cantas timis partis
cantt timit partit
cantaus timeus parteus
cantais timeis parteis
cntant timint partint

Il semble vident de pouvoir tablir des routines flexionnelles pour les conjugaisons
rgulires. Cependant, la formation de certains temps ne nous permet pas dtablir des
modles de flexions pour les verbes. Par exemple, le futur simple est form de lauxiliaire ai
suivi de la prposition a suivie de linfinitif du verbe :
- ap a cantai (je chanterai)
Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde
INF M34 Informatique, Multilinguisme et Traduction

20
Comme chaque infinitif est diffrent dun verbe lautre, nous ne pouvons pas tablir
de modles de flexions pour les verbes. Nous rencontrons donc le mme problme que pour
les noms ce qui nous contraint assigner chaque verbe un modle de flexion unique.
Nous avons donc 54 modles de flexions pour chaque verbe du dictionnaire. Pour ce qui
est de la conjugaison, nous donnons la conjugaison des verbes pour lindicatif (prsent,
imparfait, futur et les diffrentes formes du participe pass).

2.5. Le pronom

La catgorie des pronoms regroupe les pronoms personnels, relatifs, indfinis,
dmonstratifs et possessifs. Cette catgorie est trs variable, cest notamment le cas par
exemple des pronoms personnels sujets :
- deu, tui, issu, nosu, bosatrus, issus
Compte tenu de cette variabilit, nous avons prfr appliquer un modle de flexion
pour chacune des entres.

Nous avons pu remarquer tout au long de ce travail, que les difficults sont inhrentes
la cration des dictionnaires morphosyntaxiques.
Par exemple, notre base de donnes ne sapplique pas ladjonction de prfixes. En
effet il nest pas possible dans son tat actuel dajouter des prfixes. Il faudrait crer dautres
oprateurs que enlever et ajouter partir de la fin du mot. Cette amlioration
permettrait de pouvoir modifier une entre sans avoir la supprimer intgralement pour la
remplacer par sa forme flchie dont seul le dbut du lemme est modifi.
Par ailleurs, il nest absolument pas vident de calculer la base adquate du lemme. En
effet, lorsquon utilise les principes de la morphologie flexionnelle pour gnrer
automatiquement les diffrentes formes d'un mot, cela ne se rsume pas accoler des suffixes
la forme canonique dun mot. Nous pouvons prendre lexemple en franais o pour produire
la forme fminin singulier de traducteur, il est ncessaire de calculer la base adquate (i.e.
"traduc-") et de lui associer par la suite la flexion fminin convenable (i.e. "- trice"). En
consquence, la phase de gnration morphologique se droule en deux parties fondamentales
bien distinctes, savoir, le calcul de la base et celui des flexions appropries.



Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde
INF M34 Informatique, Multilinguisme et Traduction

21
CONCLUSION


Le travail ralis pour ce projet a permis de mettre en place un dictionnaire morpho-
syntaxique pour une des variantes de la langue sarde : le campidanais. Comme nous lavons
expos prcdemment, la langue sarde (quelque soit la variante tudie) souffre dun manque
de description linguistique flagrant. La documentation utilise na donc t que trs faible du
fait de la raret des ressources existantes.

Par ailleurs, outre les divers problmes poss par la mise en uvre du dictionnaire, la
premire difficult est venue de la disparit des variantes de la langue. En effet, nous avons
t confront un premier problme thorique quant au choix de la variante tudier.

Le recours une base de donnes tait de loin le moyen le plus efficace malgr les
contraintes quelle impose (par exemple pour la saisie des donnes). Cependant nous avons pu
constater par les difficults que nous avons rencontres, que la structure de notre base pouvait
poser des problmes (oprateurs permettant dajouter des prfixes).

Ce dictionnaire ne prtend videmment pas tre exhaustif mais offre dj une premire
base de travail intressante pour des tudes ultrieures sur cette variante de la langue, et de
faon plus gnrale pour lensemble des variantes du sarde. Il pourrait notamment tre
intressant denrichir de nouvelles entres et de fournir une caractrisation verbale plus
prcise des lemmes. Une autre phase damlioration serait de pouvoir actualiser ce
dictionnaire en le rendant multilingue (en intgrant des langues supplmentaires).










Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde
INF M34 Informatique, Multilinguisme et Traduction

22
SITOGRAPHIE


DOCUMENTS EN LIGNE (articles et thses):

BLANC O., CONSTANT M., SASTRE J., Interface lexique-grammaire et lexiques
syntaxiques et smantiques
http://www.atala.org/doc/JE_050312/Lexsynt-Blanc.pdf

COURTOIS B., Buts et mthodes de llaboration des dictionnaires lectroniques du LADL

FRANCOPOULO G. (2003), Proposition de norme des lexiques pour le traitement
automatique du langage
http://pauillac.inria.fr/atoll/RNIL/TC37SC4-docs/N07.pdf

MONTELEONE M. (2003), Lexicographie et dictionnaires lectroniques
http://igm.univ-mlv.fr/LabInfo/theses/2003/monteleone.pdf

VERONIS J., KHOURI L., Etiquetage grammatical multilingue : le projet multext
http://aune.lpl.univ-aix.fr/projects/multext/LEX/LEX2_1.html


LIENS SUR LA LANGUE SARDE :

Donnes gographiques, dmo-linguistiques, statut linguistique de la langue sarde
http://www.tlfq.ulaval.ca/axl/europe/italiesardaigne.htm

Article sur la langue sarde (Encyclopdie Wikipdia) : Aspects linguistiques (phontique,
morphologie, syntaxe) et aspects socio-linguistiques
http://fr.wikipedia.org/wiki/Sarde

La langue sarde :
La lingua sarda : prsentation de la langue de la grammaire et de certains aspects
linguistiques (possibilit de tlcharger une grammaire complte du sarde au format PDF en
italien)
http://www.mondosardegna.net/linguasarda/linguasarda.htm

Aspects de la littrature sarde
http://yves.barnoux.free.fr/sarde/litterature.htm

Ditzionriu de sa limba sarda (auteur Mario Puddu) : Dictionnaire smantique multilingue en
langue sarde. Les recherches peuvent seffectuer partir du sarde directement (variantes) ou
partir dautres langues : litalien, le franais, langlais ou lallemand. Ce dictionnaire
comprend 93 000 lemmes en sarde, 18 000 mots traduits en italien, 18 000 en anglais, 17 000
en franais et 9000 pour lallemand.
http://www.ditzionariu.org/



Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde
INF M34 Informatique, Multilinguisme et Traduction

23
EXEMPLES DE DICTIONNAIRES ELECTRONIQUES MORPHOSYNTAXIQUES

- BDLEX :
http://www.irit.fr/ACTIVITES/EQ_IHMPT/ress_ling.v1/rbdlex.php
- CELEX :
http://solutions.journaldunet.com/0006/000607celex.shtml
-MULTEX
http://www.up.univ-mrs.fr/veronis/pdf/1995tal.pdf