Vous êtes sur la page 1sur 97

MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :

Typologie des erreurs et valuation dun logiciel


- 1 -










CORRECTION ORTHOGRAPHIQUE
AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel






















MEMOIRE DE MASTER 1
Enseignant : Jean Vronis
Anne universitaire : 2004 - 2005






MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 2 -

SOMMAIRE




INTRODUCTION p.4

CORRECTION AUTOMATIQUE ET TYPOLOGIE DES ERREURS

I. La correction automatique

1. Aide la rdaction et correction automatique
2. Les mthodes de correction automatique
3. Quelques logiciels existants
4. La correction automatique sous Word XP

II. Typologies des erreurs dorthographe

1. Utilit dune typologie des erreurs
2. Les tudes en typologie orthographique

p.6

p.6

p.6
p.9
p.11
p.15

p.22

p.22
p.22

RECUEIL ET TRAITEMENT DES DONNEES

I. Recueil des donnes

1. Prsentation du corpus
2. Quantification des erreurs
3. Constitution dun corpus lectronique

II. Traitement des donnes

1. Extraire les erreurs
2. Frquences des erreurs et altrations graphiques

III. Classement des erreurs

p.30

p.30

p.30
p.31
p.32

p.33

p.33
p.35

p.38
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 3 -

1. Les problmes de classement
2. Le classement ralis laide de la typologie

p.38
p.41

EVALUATION DU LOGICIEL

I. Mthodologie de lvaluation

1. Les mthodes de mesure pour lvaluation des correcteurs
2. Analyse hors contexte et analyse contextuelle

II. Rsultats

1. Les erreurs de segmentation
2. Les erreurs de phontique
3. Les erreurs de substitution
4. Les erreurs de grammaire
5. Les erreurs dorthographe lexicale
6. Cumul derreurs : lexique et grammaire
7. Les erreurs sur les signes diacritiques

III. Bilan de lvaluation

1. Rsultat gnral
2. Les performances du logiciel
3. Les limites

p.50

p.51

p.51
p.54

p.56

p.56
p.57
p.59
p.60
p.62
p.63
p.65

p.66

p.67
p.69
p.70

CONCLUSION

p.74

BIBLIOGRAPHIE ET SITOGRAPHIE

p.75

ANNEXES

p.78

MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 4 -

INTRODUCTION



Le secteur des technologies de la langue et notamment celui de lindustrie des
langues ne cesse dvoluer proposant des outils de plus en plus perfectionns.
Aujourdhui les progrs matriels et logiciels permettent aux machines de traiter
directement la langue de tous les jours . Mlant linformatique et la linguistique,
cest un secteur dont les applications se retrouvent dans de nombreux domaines tels
que lenseignement des langues, la synthse de la parole, la veille stratgique, la
bureautique ou encore la gestion de linformation. Les exigences des utilisateurs en
matire doutils et dapplications permettant par exemple, dcrire correctement, de
rechercher plus facilement des informations sur Internet, de rsumer ou de traduire
un texte, sont de plus en plus importantes et reprsentent un enjeu la fois
conomique et culturel.

Dans le cadre de ce projet, nous avons choisi de nous intresser, en particulier,
un domaine des technologies du langage : la correction automatique. En effet, de
nombreux utilisateurs ont recours aux correcteurs orthographiques et grammaticaux
qui permettent, depuis plusieurs annes dj, de dtecter et de corriger les erreurs.
Cependant, malgr dimportants progrs, ces outils ne corrigent pas toutes les
erreurs, et les subtilits de notre langue leur chappent encore. Il est important de
pouvoir valuer la porte de ces outils et cest ce que nous proposons de faire dans ce
projet.
Tous les logiciels de traitement de texte rcents possdent un correcteur
orthographique. Le rle de cet outil est de vrifier lorthographe dans un document :
il dtecte les erreurs commises par lutilisateur et formule des propositions de
correction adquates pour remplacer les formes errones. En ce sens, nous pouvons
considrer quil sagit dun outil prcieux daide lcriture puisquil amliore le
contenu des documents. Mais dun point de vue pdagogique, les correcteurs
orthographiques peuvent ils tre confis des apprenants qui ne matrisent pas
encore parfaitement lorthographe et la grammaire ?
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 5 -
Il semble donc primordial dvaluer les logiciels permettant la dtection et la
correction des erreurs, surtout lorsquils sont utiliss par des apprenants.
Dans le cadre de ce projet, nous proposons dvaluer un correcteur
orthographique en particulier, savoir le correcteur intgr au logiciel de traitement
de texte Word XP.
A partir dun corpus informatis de copies dlves, nous valuerons les
performances du correcteur en matire de dtection-correction des erreurs. Notre
approche sera double car nous ferons le lien entre deux domaines : dune part, le
domaine de la correction automatique et dautre part, les tudes qui ont men
llaboration de typologies des erreurs dorthographe.

Dans une premire partie, nous aborderons le domaine de la correction
automatique en dcrivant les diffrents types de correcteurs, les mthodes de
correction automatique ainsi que les outils actuellement sur le march. Ensuite, nous
dcrirons plus prcisment le correcteur intgr Word XP qui va constituer notre
objet dtude. Enfin, pour terminer cette premire partie, nous voquerons quelques
tudes en typologie orthographique et nous prsenterons la grille des erreurs qui
constituera notre instrument danalyse dans ce projet.

Dans une deuxime partie, nous dcrirons le travail ralis sur un corpus de
copies dlves et les diffrentes tapes : recueil des donnes, informatisation du
corpus, quantification des erreurs, cration de programmes permettant dextraire les
erreurs du corpus. Cette partie sera galement consacre au classement des erreurs
recueillies et aux problmes poss par ce classement.

Enfin, en dernier lieu, nous proposerons une valuation du correcteur intgr
Word XP, qui se basera sur le classement pralablement ralis. Ainsi, pour chaque
catgorie derreur recense, nous valuerons les performances du correcteur et sa
capacit dtecter et corriger les erreurs. Les rsultats obtenus devraient nous
permettre de cerner plus facilement le fonctionnement et les limites du correcteur.
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 6 -

CORRECTION AUTOMATIQUE
ET
TYPOLOGIE DES ERREURS



Les recherches consacres la relation entre lorthographe et linformatique
tant peu nombreuses, il nous a paru ncessaire dans cette tude, de traiter les deux
domaines de faon distincte : dune part le domaine de la correction automatique et
dautre part les tudes qui ont abouti llaboration de typologies des erreurs.


I. La correction automatique

Nous allons dbuter cette premire partie par un bref tat de lart concernant la
correction automatique. Notre plan sefforcera daller du gnral au particulier : nous
commencerons par prsenter les diffrents outils daide la rdaction en essayant du
mieux possible de dcrire la manire dont ils fonctionnent. Puis nous nous
intresserons plus particulirement un outil : le correcteur orthographique et
grammatical. Enfin, nous dcrirons le correcteur intgr Word XP qui constituera
notre objet dtude dans le cadre de ce projet.

1. Aide la rdaction et correction automatique

Laide la rdaction recouvre un ensemble riche et vari doutils et
dapplications qui interviennent dans les tches de planification et de rvision dun
texte. Les outils lmentaires de laide la rdaction renvoient le plus souvent aux
correcteurs orthographiques et grammaticaux ainsi quaux dictionnaires de
synonymes. Mais, lheure actuelle, ces outils ont tendance voluer et se
diversifient de plus en plus. Nous pouvons ainsi recenser plusieurs types de
correcteurs qui agissent diffrents niveaux : niveau du mot, de la phrase ou du
texte. Sous le terme gnrique de correcteurs sont donc rassembls des logiciels
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 7 -
qui ont pour vocation de djouer diffrents niveaux les piges de lcriture. On en
distingue en gnral cinq types
1
, prsents laide du schma suivant :


Le dictionnaire de synonymes

Le dictionnaire de synonymes constitue un outil daide la rdaction ; il se
prsente sous la forme dune base de donnes indexe. Son rle est de fournir, par le
biais de cette base de donnes, une liste de mots ayant un sens quivalent ou proche
du terme slectionn. En ce sens, il ny a pas de grande diffrence entre un
dictionnaire de synonymes sur ordinateur et un dictionnaire de synonymes sur papier
puisque le rle est le mme : fournir un ensemble de mots ayant un sens quivalent.
Dans le cas dun mot polysmique, lutilisateur est sollicit afin de dfinir le trait
smantique particulier du mot. Par exemple, le mot terme reoit plusieurs traits
smantiques : borne, date, fin, dlai, expression, relation. A chacun de ces traits, est
associe une liste de mots correspondants. Ainsi, le trait smantique expression
renvoie une liste de mots ayant un sens quivalent ou proche : mot, formule, locution,
terminaison.


1
Article de F.Berten : http://users.skynet.be/ameurant/francinfo/correcteur/correcteur.html


Dictionnaire de
synonymes

Correcteur
orthographique,
grammatical

Correcteur
syntaxique

Correcteur
smantique

Correcteur
stylistique

Outils daide
la rdaction

MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 8 -
Le correcteur orthographique

Autre outil qui va retenir notre attention dans les pages qui vont suivre, le
correcteur orthographique et grammatical. Le rle du correcteur orthographique est
de vrifier lorthographe (orthographe lexicale) des mots dans un document. Il
fonctionne selon le principe de la vrification lexicale. Le correcteur compare chaque
graphie avec les entres de son lexique interne. Lorsquun mot ne figure pas dans son
lexique, le correcteur va proposer une ou plusieurs solutions pour remplacer la forme
errone. Les correcteurs orthographiques existants sont semi-automatiques car ils
assistent lutilisateur en lui proposant des corrections mais ninterviennent pas
directement sur lerreur. Depuis quelques annes dj, les correcteurs dits
orthographiques intgrent des modules grammaticaux incorporant des rgles de
reprage linguistique
1
; ces modules permettent la dtection des erreurs de
grammaire. La correction de ce type de fautes suppose aussi que la fonction
grammaticale des mots de la phrase ait pu tre dtermine, afin que le correcteur
puisse appliquer les rgles daccord et ainsi reprer les erreurs. Par lappellation
correcteur orthographique , nous comprenons donc ici un correcteur
orthographique et grammatical. Mais nous reviendrons plus tard sur la distinction
entre les erreurs dorthographe lexicale et les erreurs de grammaire.

Le correcteur syntaxique

Ce type de correcteur, dvelopp rcemment, fonctionne galement par
comparaison mais il ne compare pas des mots avec dautres mots comme le fait le
correcteur orthographique, mais compare des phrases (dlimites par une majuscule
initiale et un point final) avec des schmas syntaxiques. Le correcteur va observer
lordre des mots et va comparer cet ordre avec les schmas syntaxiques qui font
partie de sa base de donnes. Sil rencontre une phrase qui ne correspond pas un
des schmas syntaxiques, elle sera alors considre comme incorrecte. Le correcteur
syntaxique va donc dcouper lnonc en plusieurs segments en se basant sur les
signes de ponctuation, les prpositions ou encore les subordonnants.



1
http://www.synapse-fr.com/descr_technique/A_propos_des_correcteurs.htm

MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 9 -
Le correcteur smantique

Les recherches actuelles portent sur la vrification smantique des textes, mais
il est noter que la rcente intgration de cet outil dans le domaine de la correction
automatique ne nous permet pas den faire une prsentation dtaille. Ce que lon
peut dire propos du correcteur smantique, cest quil traite de la signification des
mots. Son rle est donc de vrifier que les mots dune phrase ne produisent ni de
contradiction, ni dabsurdit.

Le correcteur stylistique

Le correcteur stylistique, outil galement rcent, va vrifier le style dun texte.
Pour ce faire, il va traiter la chane de caractres que forme la phrase afin de reprer :
- Certaines tournures syntaxiques mal employes (par exemple lemploi de la voix
passive)
- Les rptitions
- Les chanes trop longues (le correcteur va considrer quau-del dun certain
nombre de mots la phrase est trop longue)
- Lusage de mots inappropris (barbarismes, plonasmes, mots vulgaires)

Nous avons prsent quelques outils daide la rdaction et nous avons vu que
ces outils interviennent diffrents niveaux (mot, phrase ou texte). Nous allons
dsormais nous intresser plus particulirement la correction des erreurs
dorthographe et de grammaire, par le biais du correcteur orthographique.

2. Les mthodes de correction automatique

Karen Kukich (1992) sest intresse au domaine de la correction automatique
des erreurs dorthographe et divise les mthodes de correction orthographique en
trois types :
a) La reconnaissance des mots incorrects
b) La correction des erreurs dorthographe hors contexte
c) La correction des erreurs dorthographe en fonction du contexte
Les outils du premier type apparaissent dans les annes 1960 grce au
dveloppement de la micro-informatique. Ces premiers correcteurs sont bass sur des
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 10 -
approches statistiques (de 1960 1980) et se limitent au reprage des mots incorrects
sans proposer leur correction. Leur principe de fonctionnement repose sur lanalyse
des n-grams cest dire des squences de lettres qui sont interdites ou peu probables
dans les mots dune langue donne (par exemple ghy, ftr, shj sont des squences de
lettres interdites en franais).
Les outils du deuxime type qui napparaissent qu partir des annes 1980,
intgrent la correction des mots incorrects en incorporant des vrifications
dictionnairiques. Ces correcteurs orthographiques ont pour tche de rechercher pour
un mot incorrect les mots connus semblables intgrs dans le dictionnaire du
correcteur (base de donnes sans aucune dfinition). Les propositions de correction
sont tablies par ressemblance avec le mot incorrect : soit par ressemblance
alphabtique (les lettres et squences de lettres proches), soit par ressemblance
phontique et dans ce cas, le mot incorrect et sa correction doivent avoir une
prononciation identique ou proche. Dans le cas de fautes de frappe, la dtection du
mot erron et la correction qui est propose se basent sur quatre oprations
lmentaires effectues sur les lettres : lomission (*ortographe), la substitution
(*orthagraphe), linsertion dune lettre superflue (*orthongraphe) ou encore
linterversion de deux lettres (*othrographe).
Les correcteurs du deuxime type sont limits dans plusieurs cas : le nombre
des entres du dictionnaire tant forcment limit, les formes qui nappartiennent pas
au lexique, sont rejetes quelles soient correctes ou non. De plus, dans la plupart des
cas, les noms propres, les termes techniques ainsi que les mots dorigine trangre ne
sont pas reconnus, car les dictionnaires prsents dans les systmes de correction
orthographique sont des dictionnaires gnraux et ils contiennent uniquement les
mots les plus courants.
Les insuffisances des premiers correcteurs ont conduit les concepteurs crer
des outils mettant profit dautres informations contenues dans le texte et
notamment les informations grammaticales et contextuelles. Les correcteurs
orthographiques du troisime type appels galement correcteurs grammaticaux ,
qui apparaissent dans les annes 1990, sont les plus rcents parmi les trois types
prsents plus haut. Ils ne se contentent plus de la simple vrification lexicale des
mots isols, puisquils proposent une analyse syntaxique locale des phrases en
prenant en compte le contexte phrastique. Les phrases sont analyses mot par mot et
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 11 -
le correcteur vrifie toutes les combinaisons entre les dterminants et les noms, les
noms et les adjectifs, les sujets et les verbes.
En ce qui concerne lvolution des mthodes de correction orthographique,
nous sommes passs du simple reprage des mots errons aux correcteurs procdant
la vrification lexicale, pour aboutir de nos jours aux correcteurs incorporant des
rgles de reprage linguistique, permettant une analyse contextuelle de la phrase.
Les correcteurs actuels qualifis de correcteurs intelligents reprsentent
donc la troisime gnration de correcteurs. Ils sont nettement plus volus car ils
procdent une analyse tendue de la phrase, en tenant compte la fois de la
grammaire et de lorthographe. Certains dentre eux, intgrent mme la
reprsentation smantique des phrases. On ne peut donc plus parler de simples
correcteurs orthographiques, car ces outils ont tellement volu quils reprsentent de
vritables outils complets daide la rdaction.

3. Quelques logiciels existants

Parmi les logiciels existants, il est important de distinguer deux catgories de
correcteurs orthographiques et grammaticaux : dune part, les correcteurs intgrs
dans les logiciels de traitement de texte et les correcteurs indpendants
1
.
Les correcteurs intgrs, comme leur nom lindique, font partie des logiciels de
traitement de texte. Cest le cas notamment des traitements de texte comme Word,
Word 2000, Word 2003, Word XP (de Microsoft), WordPro (de Lotus), Wordperfect
(de Corel) ou encore Appleworks (de Claris) qui mettent la disposition de
lutilisateur un correcteur orthographique et/ou grammatical.
Les correcteurs indpendants sont en revanche des outils qui fonctionnent de
manire autonome, car ils possdent leur propre diteur de texte ; cependant, ils
peuvent aussi sinterfacer avec les logiciels de traitement de texte courants. Ces deux
catgories de correcteurs diffrent par leur conception
2
. Les correcteurs intgrs ont
t initialement conus pour la langue anglaise dont les structures grammaticales et
la syntaxe sont diffrentes de celle du franais. Tandis que les correcteurs
indpendants ont t dvelopps par des spcialistes de la langue franaise. Cette
diffrence conceptuelle, entrane aussi une diffrence au niveau des performances :

1
Article de F.Berten : http://users.skynet.be/ameurant/francinfo/correcteur/correcteur.html
2
Article de X.Bihan : http://www2.rz.hu-berlin.de/francopolis/correcteurs.htm

MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 12 -
les correcteurs indpendants ont des capacits smantiques et syntaxiques plus
importantes que les correcteurs intgrs.
Il est noter que notre but, dans ce projet, nest pas de comparer les
performances des correcteurs indpendants avec celles des correcteurs intgrs, en
apportant une rflexion de type bancs dessai comparatifs , car ces comparaisons
figurent trs souvent dans les magazines spcialiss en informatique et constituent
une recherche diffrente de la ntre. Aussi, nous allons prsenter brivement les
principaux correcteurs indpendants prsents sur le march avant de nous
intresser au correcteur intgr Word XP dont nous ferons lvaluation.

Antidote

Antidote
1
, dvelopp par Druide Informatique, est un outil complet daide la
rdaction. En plus de son correcteur orthographique et grammatical, il possde quatre
utilitaires supplmentaires : un dictionnaire de dfinitions (110 000 entres), un
dictionnaire de synonymes (60 000 entres) qui permet de connatre les synonymes
mais galement les hyponymes (chien : beagle, caniche, cocker), les hyperonymes
(chien : animal, mammifre, canid) et les antonymes des mots. Antidote dispose
aussi dun conjugueur de verbes comportant 400 000 formes et dune grammaire
interactive. Le correcteur d'Antidote est la fois un correcteur d'orthographe et un
correcteur grammatical avanc. Il fait l'analyse syntaxique complte de la phrase et
vrifie l'orthographe, la syntaxe, les accords grammaticaux, la conformit l'usage,
et un certain nombre d'autres rgles d'criture du franais. Le site Internet de Druide
Informatique (http://www.druide.com) fournit des informations trs prcises sur les
types derreurs traites par Antidote.
Comme tous les outils d'Antidote, le correcteur informatique peut sinterfacer
avec le traitement de texte : il lit directement le texte, et y apporte ses corrections.



1
http://www.druide.com/a_description.html

MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 13 -
Cordial

Ce correcteur propos par lentreprise Synapse
1
, est disponible en trois
versions : Professionnel, Standard et Essentiel. La version de Cordial 10
Professionnel est la plus complte. L encore, lutilisateur dispose de plusieurs outils
linguistiques en plus du correcteur orthographique, grammatical et typographique.
Comme par exemple, un dictionnaire des synonymes (4 500 000 liens), un
dictionnaire de noms propres et de noms communs, un conjugueur mais aussi un
module de traduction (traduction mot mot en franais, anglais, allemand, espagnol
et italien) La correction orthographique des erreurs peut seffectuer dans plusieurs
langues. De plus, la correction grammaticale peut se faire laide dautres logiciels
comme Excel par exemple ; cela peut tre utile si lon veut observer le contexte
linguistique dans lequel est produit lerreur. En plus de ces diffrentes
fonctionnalits, Cordial propose galement une analyse syntaxique, smantique et
stylistique (en comparant le texte produit avec 2600 ouvrages franais).

ProLexis

ProLexis
2
, des ditions Diagonal, est un outil modulaire daide la correction
destin principalement aux professionnels de lcriture. Il se compose de moteurs
danalyse orthographique, grammaticale, syntaxique et typographique appels
modules experts . Chaque module de correction est autonome, lutilisateur peut
donc en choisir un seul ou en combiner plusieurs. Ces modules sont aliments par
Myriade qui est en fait un dictionnaire et un conjugueur.
Le module expert d'orthographe utilise une base lexicale de 85 000 entres,
analyse et gnre 500 000 flexions, gre des nologismes et se sert d'un moteur
phontique aux fins de dtections intuitives. De son ct, le moteur expert en
grammaire franaise utilise Le bon usage de Grevisse, analyse les principales
fautes d'accords. Au point de vue de la conjugaison, ProLexis dispose dune base de
donnes comportant 8500 verbes. En janvier 2004, les Editions Diagonal ont
commercialis un autre logiciel de correction automatique : le Petit ProLexis
3
. Ce
correcteur fonctionne de la mme manire que ProLexis, mais il est destin un
usage personnel.

1
http://www.synapse-fr.com/sub_produits.htm
2
Article consacr Prolexis : http://www.ccdmd.qc.ca/correspo/Corr6-4/Prolexis.html
3
http://www.prolexis.com/index.php?F=Ppl/1
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 14 -
Le correcteur 101/ correcteur 101 Didactique

Le correcteur 101
1
de Machina Sapiens, est avant tout un correcteur
grammatical. Il offre la possibilit dadapter le mode de correction. Lutilisateur peut
opter pour une vrification simple, normale ou exhaustive. Ce correcteur, dispose lui
aussi dun dictionnaire de synonymes et de dfinitions. Le dictionnaire Le souverain
de correcteur 101 renferme 77 000 mots, 800000 formes et nologismes. Le
correcteur 101 existe aussi dans une version pdagogique destine aux lves qui
sont en phase dapprentissage de lorthographe : le correcteur 101 Didactique
2
. Sa
conception est base sur les plus rcents travaux de recherche en didactique du
franais traitant de l'utilisation pdagogique des logiciels de correction. Le
Correcteur 101 Didactique est un logiciel complet d'apprentissage du franais crit. Il
analyse les phrases de l'lve et en souligne les erreurs, mais ne les corrige pas. C'est
l'lve de trouver la forme correcte en s'aidant au besoin des explications et des
outils que lui offre le logiciel : un dictionnaire de dfinitions, un conjugueur, un
dictionnaire phontique et une grammaire.

Cette courte description des logiciels indpendants nous permet de remarquer
que tous ces outils ne sont pas de simples correcteurs orthographiques et
grammaticaux mais constituent des outils complets daide la rdaction. En effet, ils
disposent quasiment tous de plusieurs dictionnaires (dfinitions, synonymes), de
conjugueurs de verbes, de grammaires. Certains dentre eux, les plus perfectionns,
intgrent mme la reprsentation smantique des phrases (cf. Cordial). De plus,
comme nous lavons dj expliqu prcdemment, de nombreuses tudes ont t
consacres la comparaison des correcteurs indpendants et des correcteurs intgrs.
Nous pouvons par exemple citer ltude dAlain Malle
3
dont le but est de comparer
les performances du correcteur intgr Word avec celles du Correcteur 101
Didactique. Les rsultats de cette tude et, en gnral de toutes les comparaisons
effectues entre les logiciels intgrs et les logiciels indpendants, ne souffrent gure
discussion : les correcteurs indpendants sont plus performants. Pourtant, malgr ce
constat, nous avons choisi de nous intresser un correcteur intgr, celui de Word
XP. Notre choix sest port sur ce correcteur car, selon nous, il est plus accessible

1
http://www.atoutmicro.ca/10082301.htm
2
http://www.sofworld.com
3
http://www.ac-nantes.fr
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 15 -
(livr directement avec le logiciel de traitement de texte), contrairement aux logiciels
indpendants qui sont payants et dont le cot est relativement lev.

4. La correction automatique sous Word XP

Le traitement de texte est un outil dcriture, fonctionnant sur ordinateur,
lequel, au del du rle de machine crire, possde de multiples spcificits
extrmement utiles dans tout travail dcriture. Outre les fonctions classiques offertes
par le traitement de texte comme leffacement, linsertion, le remplacement, le
dplacement (de mots, de phrases, de paragraphes) et la mise en page, Word XP
1

dispose de plusieurs outils linguistiques. Il sagit doutils complmentaires tels que
des polices, des correcteurs d'orthographe et de grammaire, des listes de correction
automatique, des rgles de synthse automatique, un dictionnaire de synonymes et
plusieurs dictionnaires de traduction. En ce qui concerne loption de correction
automatique, le correcteur de Word XP, comme la plupart des logiciels, sappuie la
fois sur la vrification lexicale et sur un traitement syntaxique pour dtecter et
corriger les erreurs.

La vrification lexicale

La vrification de lorthographe (vrification lexicale) fait partie de loption de
correction automatique de Word XP. Ce que nous entendons ici par orthographe ,
renvoie la notion dorthographe lexicale qui concerne la forme crite des mots
(retranscription des phonmes) et non la notion dorthographe grammaticale (ou
grammaire), qui renvoie quant elle aux rgles de genre, de nombre ou daccord sur
les mots. Les erreurs dorthographe que lon peut commettre en utilisant le traitement
de texte peuvent tre de natures trs diverses : elles peuvent, par exemple, tre dues
une mconnaissance probable de lcriture de certains mots ou bien des fautes de
frappe ou dinattention. Pour reprer les erreurs dorthographe, le correcteur de Word
XP va utiliser le principe de la vrification lexicale que nous avons voqu
prcdemment. Il va comparer les mots du document, cest dire les squences de
lettres spares par des espaces ou des signes de ponctuation, avec lensemble des
squences contenues dans son dictionnaire (ou lexique interne) Il est noter, que ce

1
Une prsentation du traitement de texte Word XP :
http://www.callisto.si.usherb.ca/~cles/clef_info/doc_formation/H04-Word_XP.doc

MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 16 -
que nous dsignons sous lappellation de dictionnaire renvoie un dictionnaire
lectronique, cest dire une base de donnes lexicales destine lusage de
programmes informatiques. Le dictionnaire contient les formes de base des mots,
mais aussi toutes les variations possibles de ces mots en genre, en nombre et les
conjugaisons des verbes tous les temps. Si le correcteur orthographique rencontre
un mot quil ne reconnat pas, il va considrer quil sagit dune forme incorrecte car
absente de son dictionnaire. Il va ensuite rechercher dans ce mme dictionnaire, des
mots dont lorthographe est voisine de celle du mot erron et va proposer la liste de
ces mots comme correction.
Le correcteur va signaler les erreurs dorthographe lexicale par des
soulignements onduls de rouge qui apparaissent en dessous du mot qui comporte
une erreur. La correction sous Word XP est ralise en mode dialogu , cest
dire avec une succession de botes . Pour corriger lerreur, lutilisateur doit cliquer
sur le mot (avec le bouton droit de la souris) : un menu contextuel apparat alors, et
une srie de mots lui est propose. Lutilisateur na plus qu choisir parmi cette srie
de mots ; le mot incorrect est ensuite remplac par sa slection. Mais il peut aussi
choisir dignorer la correction ou dajouter le mot au dictionnaire (dans le cas dun
mot correct mais non reconnu par le correcteur). La correction seffectue de deux
manires diffrentes : soit par le menu contextuel, soit en choisissant loption
Orthographe qui figure galement dans le menu contextuel (correction plus
dtaille).
Voici un exemple de correction propose par le correcteur avec la capture
dcran ci-dessous pour la forme errone *chapo :

La liste des propositions de correction est tablie par
ressemblance alphabtique et parfois combine avec
des lments de ressemblance phontique (module de
phontisation)
On peut voir galement avec cette capture dcran du
menu contextuel, les diffrentes options proposes :
Ignorer, Ajouter au dictionnaire, Langue
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 17 -
La correction grammaticale

Le correcteur intgr Word XP procde galement la correction
grammaticale du texte, car il intgre des modules grammaticaux incorporant des
rgles de reprage linguistique. Mais il semble que loption de correction
grammaticale soit encore peu connue des utilisateurs. Cette ignorance est peut-tre
due la pagination trop rduite rserve la correction grammaticale dans les
manuels de traitements de texte ou bien la trop rcente intgration de cet outil dans
les logiciels de traitements de texte courants.
Les erreurs dites de grammaire (orthographe grammaticale) renvoient aux mots
morphologiquement justes mais syntaxiquement errons dans un certain contexte,
celui de la phrase. Il faut donc bien distinguer les erreurs relevant de lorthographe
lexicale , dont la correction repose sur le principe de la vrification lexicale
(utilisation dun dictionnaire interne) et les erreurs dorthographe grammaticale ,
dont la correction est plus complexe, car elle tient compte du contexte phrastique.
Pour traiter les erreurs dorthographe grammaticale, le correcteur va analyser
non plus des mots isols, mais des phrases, cest dire des squences de mots
spares par des ponctuations fortes. Lanalyse grammaticale consiste combiner ces
squences de mots : les dterminants sont combins avec les noms, les adjectifs avec
les noms, les sujets avec les verbes Cela prsuppose galement que le correcteur
assigne une nature et une fonction chaque mot de la phrase.
Le correcteur va signaler les erreurs de grammaire par des soulignements
onduls de vert (ce type de soulignement sert galement signaler les erreurs
typographiques, majuscules et ponctuations) La mthode de correction est identique
celle propose pour les erreurs dorthographe, mais pour obtenir une explication de
la rgle grammaticale employer, lutilisateur doit slectionner loption Grammaire
qui figure dans le menu contextuel.
Nous prsentons, en page suivante, la correction propose pour la phrase
les enfants samuse qui comporte une faute daccord entre le sujet et le verbe :





MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 18 -


Lerreur dtecte par le correcteur figure dans la zone du haut (en vert pour les
erreurs de grammaire et en rouge pour les erreurs dorthographe) Dans la zone du
bas, les propositions de correction. Lutilisateur peut choisir parmi plusieurs actions :
il peut ignorer la faute dans un cas bien prcis (Ignorer), ignorer la faute dans tout le
texte (Ignorer toujours), remplacer la faute par une expression pralablement choisie
(Remplacer), demander une explication sur lerreur (Explication) ou spcifier la
langue du dictionnaire.
Il est noter que lorsquune phrase comporte plusieurs erreurs de grammaire, le
correcteur ne va traiter quune seule erreur la fois, cest dire une seule
combinaison. La correction ne seffectue donc pas directement dans toute la phrase,
mais erreur par erreur et ce, en respectant lordre de la phrase.
Pour exemple, prenons la phrase prcdente en y ajoutant une erreur daccord
supplmentaire : les enfant samuse . Le correcteur va traiter cette phrase de la
manire suivante : le voisinage entre Les et enfants est reconnu comme incorrect. La
premire correction porte sur la modification du groupe nominal (lenfant ou les
enfants) qui figure en tte de phrase.




MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 19 -


Nous pouvons remarquer quaprs la correction de la premire erreur,
rtablissant le pluriel les enfants, la deuxime erreur portant sur la forme verbale est
traite :



Il est galement important dajouter que, comme la plupart des correcteurs
orthographiques, le systme de correction de Word XP effectue un traitement
squentiel. En effet, il utilise en squence : un traitement lexical et un traitement
syntaxique. Autrement dit, la vrification lexicale prime sur la correction
grammaticale. On observe notamment cela, lorsque le correcteur doit traiter un mot
cumulant une erreur dorthographe et une erreur de grammaire.
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 20 -
Jacques Menzo (1999), dans sa thse consacre la correction automatique,
illustre ce traitement squentiel par le schma suivant :
Pour illustrer ce principe, avec le correcteur de Word XP, prenons lexemple ci-
dessous o la forme *sanfonce cumule deux erreurs de nature diffrentes :


La forme *sanfonce nexistant pas, elle est facilement dtecte par le
correcteur, car elle ne fait pas partie de son dictionnaire. Une fois corrige, la
correction va porter sur la deuxime erreur, cest dire lerreur grammaticale.
Analyse morphologique de
chaque mot

Proposition de correction pour
les mots inconnus

Analyse syntaxique sur la
phrase

Vrification des accords

Suggestion de fautes

Vrification
lexicale
Traitement
syntaxique
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 21 -



Aprs avoir prsent le domaine de la correction automatique et le logiciel dont
nous ferons lvaluation dans la suite du projet, nous allons abord un autre
domaine : celui des typologies orthographiques. En effet, il nous a sembl intressant
de faire le lien entre ces deux domaines, et mler ainsi la linguistique informatique et
les tudes menes en typologie lies une approche thorique et descriptive de
lorthographe. Le fait de dcrire les erreurs va nous permettre de les analyser
qualitativement grce lidentification de types derreurs . Nous allons donc
nous appuyer sur une grille des erreurs qui va nous tre dune double utilit : elle va
nous permettre de classer les erreurs dans plusieurs catgories distinctes et ensuite,
pour chaque catgorie derreurs recense, nous valuerons le correcteur intgr
Word XP.
Nous allons donc terminer cette premire partie, en abordant le domaine des
typologies orthographiques. Mais nous nallons pas retracer tout lhistorique et
dcrire toutes les tudes de manire exhaustive, car la bibliographie de ce domaine
est tellement riche, que nous nous serions loigne de notre sujet principal, qui traite
de la correction automatique des erreurs.






MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 22 -
II. Typologies des erreurs dorthographe

Nous dbuterons cette partie consacre aux typologies orthographiques par une
rflexion portant sur lutilit dune typologie des erreurs en pdagogie du franais.
Ensuite, nous prsenterons la classification de Nina Catach, qui fait figure de
rfrence dans ce domaine. Enfin, nous prsenterons la grille qui constituera notre
instrument danalyse en explicitant notre choix.


1. Utilit dune typologie des erreurs

Marylne Constant, dans son article
1
consacr aux typologies orthographiques,
insiste sur la ncessit de construire une grille des erreurs pour lapprentissage et la
structuration du savoir orthographique. Selon elle, lintrt de lusage des typologies
est de plusieurs ordres. Dabord, le recours un corpus derreurs permet de
renseigner sur les comptences des lves. Ensuite, les oprations de tri et de
classement des erreurs commises permettent de structurer la variation et par
consquent de structurer le systme orthographique. De plus, llaboration dune
classification des erreurs permet de mener un traitement statistique et qualitatif par
lve et par classe, ponctuellement ou sur une priode donne dans diffrentes
situations dcrits et diffrents types de textes. Elle considre galement quune
typologie des erreurs reprsente la cl de vote dun systme dvaluation
formative (...) la cration et lutilisation dune typologie se doivent aussi de chercher
faire formuler les raisons de lerreur et dintgrer le questionnement une
dmarche heuristique.


2. Les tudes en typologie orthographique

La typologie classique des erreurs, dont lorigine remonte au XIX
me
sicle,
distingue les erreurs dorthographe lexicale (ou orthographe dusage) et les erreurs
dorthographe grammaticale. Mais cette unique distinction sest vite rvle
insuffisante. Cest pourquoi des typologies plus fines ont t labores. Il existe
plusieurs grilles proposes par diffrents auteurs, mais les travaux les plus complets

1
http://jeunes.profs.free.fr/ortho/presentation.htm
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 23 -
concernant la description de lorthographe, sont sans aucun doute ceux de Nina
Catach.

La grille typologique propose par Nina Catach (1980)

Sinspirant des travaux de Gak
1
, Nina Catach considre que tout ce qui
touche au langage est organis, et organis plusieurs niveaux (Catach, p.27). Le
systme graphique du franais repose sur un ensemble de systmes. Les zones de ce
plurisystme orthographique sont dfinies de la manire suivante :

a) Les phonogrammes

Il sagit de la zone centrale , la plus importante (80 85 % des graphmes),
qui se compose des graphmes chargs de retranscrire les sons (phonmes). Les
phonogrammes sont classs en fonction de critres dont le plus important est la
frquence. Parmi les 130 phonogrammes du franais, un premier tri aboutit environ
72 graphmes. Un tri plus pouss abouti 45 graphmes de base suffisants pour
couvrir les besoins de communication immdiats dun scripteur franais dbutant.
Une ultime slection donne les 33 archigraphmes : ce sont 33 units thoriques qui
constituent le noyau graphmique du franais.

b) Les morphogrammes

Lappellation morphogrammes fait rfrence la morphologie, cest dire
la forme ou aux variations des mots. Nina Catach divise les morphogrammes en
deux catgories : les morphogrammes grammaticaux tout dabord, qui renvoient
essentiellement aux dsinences, cest dire aux terminaisons correspondant une
catgorie grammaticale (genre, nombre, flexions verbales). Et les morphogrammes
lexicaux qui sont des indicateurs de sries lexicales, cest dire des marques (le plus
souvent finales) qui relient un mot (radical) ses drivs comme le t final de petit
que nous retrouvons dans petite, petitesse ou dans berger, bergre, bergerieLe rle
des morphogrammes est donc de confrer une identit lexicale ou grammaticale aux
mots.


1
GAK V. (1976) Lorthographe du franais, Slaf
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 24 -
c) Les logogrammes

Les logogrammes renvoient aux homonymes lexicaux ou grammaticaux.
Comme par exemple : date / datte ; ban / banc qui sont des homonymes lexicaux et
ces / ses ; la / l qui sont considrs comme des homonymes grammaticaux.


d) Les lettres tymologiques et historiques

En marge du systme se trouvent les lettres tymologiques et historiques qui,
selon Catach, renvoient des graphies non fonctionnelles.
Etymologies latines : vingt, doigt, homme, adhrer
Etymologies grecques : chur, choriste, thtre, rhsus

Daprs cette thorie, Nina Catach a conu une grille trs fouille des erreurs
dorthographe (Catach, p.287-290). Lapproche des erreurs se situe dans le cadre de
la linguistique et une distinction est tablie entre ce qui relve de lcrit et ce qui
relve de loral. La grille en question se compose de six catgories derreurs. Les
exemples, qui illustrent les catgories derreurs, sont directement tirs de louvrage
de Catach.
1. Erreurs dominante extragraphique (ne relevant pas du systme)
Catgorie derreurs

Remarques Exemples
Erreurs dominante
calligraphique

Ajout ou absence de
jambages
*mid / nid
Reconnaissance, coupure des
mots
*le lvier / lvier
*langouste / langouste

Erreurs dominante
phontique
- Omission ou adjonction de
phonmes

- Confusion consonnes et
voyelles
*maitenant / maintenant


*suchoter / chuchoter
*moner / mener

2. Erreurs dominante phonogrammique (phonogrammes)

Rgles fondamentales de
transcription et de position
- Altrant la valeur phonique


- Naltrant pas la valeur
phonique
*merite / mrite
*briler / briller
*recu / reu

*bintte / binette
*pingoin / pingouin

MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 25 -

4. Erreurs dominante logogrammique (logogrammes)
Catgorie derreurs

Remarques Exemples
Logogrammes lexicaux datte / date
vin / vain
chant / champ
voix / voie

Logogrammes grammaticaux a/
ou/o
on/ont
ni/ny


5. Erreurs dominante idogrammique
Catgorie derreurs

Remarques Exemples
Approche davantage
syntaxique et stylistique
- Majuscules l *tat/ (lEtat)
- Ponctuation *et, lui / et lui
- Trait dunion *mot-compos / mot
compos
- Apostrophe *ltat / ltat

6. Erreurs dominante non fonctionnelle (non justifiables dun enseignement)
Catgorie derreurs

Remarques Exemples
- Lettres tymologiques *sculteur / sculpteur
*rume / rhume

- Consonnes simples ou
doubles non fonctionnelles
*boursouffler / boursoufler
*charriot / chariot


Cette typologie est trs intressante dun point de vue linguistique, mais nous la
jugeons trop complexe utiliser pour lvaluation dun logiciel de correction
automatique. En effet, elle ne nous a pas sembl pertinente pour lanalyse que nous
3. Erreurs dominante morphogrammique (morphogrammes)
Catgorie derreurs

Remarques Exemples
Morphogrammes
grammaticaux
- Confusion de nature, de
catgorie, de genre, de
nombre, de forme verbale

*chevaus / chevaux
*les rue / les rues

Morphogrammes lexicaux - Marques du radical

- Marques prf. /suffixes
*canart / canard

*anterrement / enterrement
*annui / ennui

MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 26 -
devons raliser sur le correcteur orthographique qui, il faut le rappeler, distingue
uniquement erreurs de lexique et erreurs de grammaire (ce que Nina Catach ne
distingue pas dans sa grille, puisquelle regroupe sous une mme tiquette
morphologie certaines erreurs de lexique et de grammaire). Cest pourquoi sans
renier les apports thoriques de Nina Catach, nous avons choisi dopter pour une
typologie plus simple et plus facile manier.
Nous nous sommes donc inspire dune autre typologie pour concevoir une
grille plus adapte lvaluation du correcteur de Word XP. Il sagit de la grille
orthographique propose par Andr Chervel et Danile Manesse en 1989, dans
louvrage La Dicte, les franais et lorthographe, 1873-1987 .


La typologie propose par Andr Chervel et Danile Manesse (1989)

Les auteurs ont labor une grille des erreurs dorthographe partir dun
important corpus de dictes dlves (6162 copies ; texte de Fnelon les Arbres).
Cette grille regroupe neuf types de fautes classs par ordre de gravit dcroissante
(A.Chervel et D.Manesse p.161-168). Lchelle de gravit se base sur les pratiques
actuelles de correction des erreurs. Nous prsentons, en page suivante, la typologie
propose par les auteurs.

Types derreurs

Exemples

1. Mauvais dcoupage du mot : mot saut ou
tronqu


*souterrain (souterrain)
*parleur (par leurs)


2. Aberration dans la reprsentation des sons


*serses (chercher)
*alibri (abri)


3. Substitution de mot


*lre (lair)

4. Cumul de faute grammaticale et lexicale

*les brenche (les branches)


5. Faute dorthographe grammaticale
(la catgorie grammaticale nest pas reprsente)


*les racine/ (les racines)

6. Faute dorthographe grammaticale
(la catgorie grammaticale est mal reprsente)

*les racinent (les racines)
*tuyaus (tuyaux)


MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 27 -
7. Faute grave dorthographe lexicale
(la forme graphique est loin dtre assimile)
*ecors (corce)
*commes (comme)
*part (par)


8. Faute dorthographe lexicale
(forme approchante)


*siel (ciel)
*abrit (abri)

9. Faute sur les signes orthographiques et les
majuscules

*raines (racines)
*la seve (la sve)
*le Ciel (le ciel)



Cette typologie des erreurs nous parat tre un bon outil pour lanalyse que
nous devons raliser. En effet, elle distingue lorthographe dite lexicale et
lorthographe grammaticale , et nous avons vu prcdemment que le correcteur de
Word XP tablit aussi cette distinction. Cependant, pour mener bien notre travail de
classement des erreurs et dvaluation du correcteur, il nous a sembl ncessaire
dapporter quelques modifications la grille de Chervel et Manesse. Tout dabord,
lchelle de gravit des erreurs ne nous a pas paru utile pour lvaluation du
correcteur, cest pourquoi, notre classement des erreurs ne se basera pas sur cette
chelle. Nous avons prfr renommer certaines catgories, nous avons galement
enrichi les catgories de plusieurs subdivisions, afin que la caractrisation verbale
des erreurs soit plus prcise. Lorsque les auteurs ont choisi de diffrencier deux
niveaux derreurs pour une mme catgorie (par exemple pour les erreurs de type 5
et 6), nous avons prfr regrouper ces niveaux en une seule et mme catgorie.
Nanmoins, la plupart des catgories derreurs sont calques sur la typologie de
Chervel et Manesse.












MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 28 -
Notre grille danalyse


Types derreurs


Sous- catgories

Exemples

1. Erreurs de segmentation sur
les mots (coupure des mots)

- Deux units sont formes
partie dune seule

- Deux units sont
regroupes pour nen
former quune seule


*bien veillance (bienveillance)


*lvier (lvier)


2. Erreurs de type phontique

- Syllabe manquante

- Son omis

- Confusion de sons


*rsole (rsolve)


*proplmes (problmes)


3. Erreurs de substitution de
mot

- Un autre mot que le mot
dict

- Confusion dhomonymes

*la bise (pour la brise)


faim/fin ; ce/se ; /a


4. Erreurs dorthographe
grammaticale

- Genre
- Nombre
- Formes verbales
- Formes du pluriel


*le ciel bleue (bleu)
*trois ami (amis)
*je fait (je fais)
*chevaus (chevaux)

5. Erreurs dorthographe
lexicale

- Confusion dans lemploi
de certains graphmes

- Finales de mots
(appartenance une famille
de mots)

- Erreurs sur les consonnes
doubles

*invantre (inventaire)
*tiket (ticket)

*peti (petit)
*inabit (inhabit)


*colone (colonne)



6. Cumul dune erreur
lexicale et grammaticale

- Mot mal orthographi au
point de vue lexical et
grammatical


*les cheuveus (les cheveux)

7. Erreurs sur les signes
diacritiques et les majuscules


- Accents
- Cdille
- Apostrophe
- Emploi maj. / min


*maitre (matre)
*rit (rcit)
*l autre (lautre)
*un Homme (un homme)


MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 29 -
Aprs avoir abord le domaine de la correction automatique et celui des
typologies orthographiques, nous allons dsormais procder notre travail sur un
corpus de dictes contenant des erreurs relles, commises par des lves.

MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 30 -

RECUEIL ET TRAITEMENT DES DONNEES



I. Recueil des donnes

Pour raliser le classement des erreurs, qui nous permettra par la suite dvaluer
le correcteur intgr Word XP, nous avons besoin de nous appuyer sur des erreurs
relles, commises par des lves. Dans cette optique, nous avons rcupr un corpus
de dictes dlves.

1. Prsentation du corpus

Le corpus est constitu de 335 dictes manuscrites dlves de sixime et de
cinquime qui ont particip la dicte des Dicos dOr Scolaires, organise dans
plusieurs collges du Var en juin 2001. Sur ces 335 dictes, nous relevons 113 copies
dlves de sixime et 222 copies dlves de cinquime. La dicte porte sur un
extrait dun roman de Colette Sido ou les vrilles de la vigne (1908) intitul Fleur
du dsert :

Elle avait de grands sourcils dmesurs, peints en noir vif sur son front, une
bouche fire aux commissures charnues, et des yeux sans ge, langoureux entre les
cils paissis de fard. Une toile bleue marquait chaque ronde pommette, une flche
bleue divisait le menton. Des signes bleus, groups, prolongeaient entre les yeux la
ligne des sourcils. Un haillon rougetre, tordu sur les cheveux laissait voir deux
minuscules tresses poussireuses, arrondies sur loreille en cornes de blier. Le talus
boul imitait exactement le ton de sa peau, un jaune clair mystrieusement ml de
rose, et la petite fille immobile semblait ne linstant davant, frachement ptrie
dargile blonde, modele dune poigne de dsert.

Cet extrait est relativement court puisquil ne compte que 111 mots. Cependant,
les problmes daccords y sont nombreux. Les difficults de ce texte portent
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 31 -
principalement sur les accords en genre et en nombre entre les noms et les adjectifs
(ou avec les participes passs employs comme adjectifs) : dmesurs , peints ,
groups , tordu Sont galement prsentes dans ce texte quelques difficults
dordre lexical : en effet, les mots commissures , langoureux , fard ,
pommette sont trs peu employs par des lves de sixime et cinquime.

2. Quantification des erreurs

A partir de ces copies dlves, nous avons procd au comptage des erreurs en
nous basant sur le nombre derreurs relev par les professeurs qui ont corrig les
dictes. Pour chaque copie, nous avons donc not le nombre derreurs indiqu par les
professeurs. Les erreurs dorthographe prsentes dans les dictes ont donn lieu une
comptabilit qui consiste les additionner, en les affectant ventuellement de
certains coefficients. Ce relev des erreurs nous permet dobtenir 2126 erreurs pour
lensemble du corpus. Cependant, nous pouvons faire quelques remarques
concernant ce chiffre. En effet, les professeurs nont pas pris en compte les fautes
multiples sur un mme mot, cest le cas par exemple de la forme *paumettes
(pommette) qui est triplement errone. De plus, certaines erreurs, et notamment
celles qui portent sur les accents, ont bnfici dune certaine indulgence : les erreurs
sur les accents ne comptent pas pour une faute mais pour un quart de faute,
lorsquelles sont comptabilises. Le nombre derreurs relev par les professeurs nest
pas reprsentatif du nombre rel derreurs. Mais il ne sagit l que dune remarque,
car il nest pas ncessaire pour notre tude de dcrire le barme employ par les
professeurs, ni la manire dont ils corrigent les copies. Voici le comptage ralis
pour lensemble des copies.

Nombre de copies Erreurs releves
Classes de sixime 113 841
Classes de cinquime 222 1285

Pour lensemble des dictes, nous relevons un nombre moyen de 6,3 erreurs par
copie. En ce qui concerne la rpartition des copies, les lves de sixime commettent
environ 7,4 erreurs et les lves de cinquime en font environ 5,7. Nous constatons
une diminution des erreurs chez les lves de cinquime mais ceci na rien
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 32 -
dtonnant puisquils sont censs avoir une matrise de lorthographe plus importante
que les lves de sixime.

3. Constitution dun corpus lectronique

Ce corpus de dictes sous une forme manuscrite nest pas utilisable. En effet,
ce que nous souhaitons raliser par la suite, cest un programme permettant dextraire
automatiquement les erreurs prsentes dans le corpus et ce programme ncessite la
cration dun corpus lectronique.
La procdure que nous avons suivie pour informatiser ce corpus de dictes, est
trs simple. Nous avons, dans un premier temps, cr un fichier texte en recopiant
(par copier-coller) 335 fois la dicte sans erreurs (chaque dicte est prcde dun
numro) ; ensuite nous avons saisi manuellement les erreurs, en nous basant sur les
copies manuscrites des lves (les copies manuscrites ont fait galement lobjet
dune numrotation). Il est noter que les copies taient dj corriges, ce qui nous a
facilit la tche, en nous faisant gagner un temps considrable sur le reprage des
erreurs. En ajoutant les erreurs prsentes dans chaque dicte, nous avons utilis des
conventions qui vont nous servir de marqueurs pour reprer plus facilement les
mots errons et les extraire automatiquement laide de scripts. Ces conventions sont
galement trs simples : les mots errons sont entours dtoiles : comme on peut le
voir avec lexemple du mot pommette qui a t mal orthographi dans plusieurs
dictes : *paumette*. Dans le cas dune omission dun ou plusieurs mots de la dicte,
nous utilisons une autre convention : chaque oubli de mot est signal par deux toiles
qui se suivent : **.
Le corpus une fois informatis, se prsente donc sous la forme dun fichier
texte (corpus.txt) comportant des paragraphes (numrots de 1 335), qui renvoient
aux diffrentes dictes et qui comportent tous les mots comportant des erreurs
(entours dtoiles).






MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 33 -
II. Traitement des donnes

1. Extraire les erreurs

Notre travail en programmation va consister en la rcupration des erreurs
prsentes dans le corpus, pralablement informatis. Il ne sagit donc pas,
proprement parler, dun programme mais plutt de diffrents traitements successifs
que nous allons effectuer sur notre corpus afin dobtenir ce fichier derreurs. Nous
allons utiliser le systme dexploitation Linux et les langages de programmation Perl
et Bash ( base dexpressions rgulires) pour raliser ces diffrents traitements.
Pour des raisons de place, nous avons prfr dcrire les diffrentes tapes de
ce travail en annexe du projet.
Pour rsumer, nous sommes passe par cinq tapes principales pour traiter ce corpus
de dictes :

a) Nettoyage du corpus

Retrait du caractre retour-chariot (propre Windows)
Alignement des lignes du corpus (suppression des lignes sparatrices
des paragraphes, rajustement des lignes)

b) Test comparatif : une dicte sans erreurs et une dicte qui en contient

Cration dun fichier texte qui ne comporte pas derreurs dans le but
de le comparer un autre fichier qui en contient.
Le fichier sans erreurs est ensuite toknis (c'est--dire segment au
mot), laide dun script en Perl, et la mme opration est ralise
pour la dicte qui contient des erreurs.
Comparaison des deux fichiers tokniss : le rsultat se prsente sous
la forme de colonnes ( droite, les mots bien orthographis et gauche
les erreurs correspondantes). Le numro en tte de la colonne de
gauche correspond lindex de la dicte compare avec la dicte sans
faute [index 0] (ici la comparaison est opre avec la dicte n 113).

MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 34 -
0 | 113
dmesurs | dmesures
son | sont
aux | au
commissures | commissure
charnues | charnue
ge | ages
fard | phare
ronde | rondes

c) Cration de 335 fichiers tokniss correspondant aux dictes

On extraie dabord toutes les dictes du corpus laide dun script en
Bash et on les envoie dans un autre rpertoire (Dictees)
Toutes les dictes sont ensuite coupes au mot, et on cre un autre
rpertoire contenant toutes les dictes toknises (DicteesTOK)

d) Comparaison : la dicte sans erreurs et lensemble du corpus

On effectue une comparaison pour chaque dicte du corpus (avec la
dicte sans erreurs) laide dun script en Bash.
Le rsultat de cette comparaison est ensuite stock dans un fichier
texte resulatGeneral.txt.Il se prsente galement sous forme de
colonnes.





0 | 100
aux | au
commissures | comissures
langoureux | lengoureuse
fard | fare
marquait | marque
chaque | chaques
ronde | rondes
pommette | pommettes
poussireuses | poussireuse
cornes | corne

Colonne de gauche :
La dicte sans erreurs
Colonne de droite :
Toutes les dictes du
corpus
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 35 -
e) Extraction des erreurs : altrations graphiques et frquences dapparition

A partir du fichier resultatGeneral.txt, on extraie toutes les erreurs
On trie les erreurs en faisant apparatre deux informations : la
frquence des erreurs et les altrations graphiques subies sur les mots
de la dicte.
Aprs avoir effectu ces diffrents traitements, nous obtenons donc un fichier
texte (alterationsGraphiques.txt) contenant toutes les altrations graphiques pour
chaque mot de la dicte, ainsi que leurs frquences dapparition.

2. Frquences des erreurs et altrations graphiques

Nous ouvrons ensuite le fichier alterationsGraphiques.txt dans un classeur
Excel (frequences.xls) afin que le rsultat soit plus lisible. Nous proposons, dans un
premier temps, de supprimer toutes les omissions de mots contenues dans ce fichier.
Signals par des chevrons (<), les mots oublis sont considrs comme des erreurs
(voir section consacre au corpus lectronique). Pour notre travail ultrieur
(classement des erreurs, valuation du correcteur), il ne semble pas ncessaire de
traiter ces erreurs qui, dune part sont peu frquentes et ne prsentent pas
vritablement dintrt pour lanalyse que nous souhaitons raliser.

A partir du fichier Excel (frequences.xls), on relve le nombre de formes
errones prsentes dans notre corpus derreurs, ainsi que le total des occurrences.

Nombre de formes errones 356
Nombre total d'occurrences 2857

Frquences des erreurs

Chaque forme errone est atteste par un certain nombre doccurrences. Nous
optons ici pour une approche quantitative en prsentant les erreurs classes par
frquence dcroissante. Pour des raisons de place, nous faisons figurer uniquement
les erreurs dont la frquence est la plus leve (cf. annexe pour lintgralit du
tableau).

MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 36 -
Tte de liste : erreurs classes par frquence dcroissante
Rang Formes errones Frquence
1 corne 154
2 poussireuses 109
3 comissures 93
4 ml 88
5 immitait 87
6 rondes 85
7 far 79
8 paumette 76
9 aillon 69
10 prolongaient 68
11 model 59
12 fraichement 57
13 pommettes 46
14 phare 40
15 talu 40
16 bleu 39
17 mystrieusement 39
18 dmeusurs 37
19 talut 36
20 mistrieusement 35
21 au 32
22 ges 32
23 groupaient 32
24 sourcis 31
25 pomette 30
26 phares 29
27 fare 29
28 marque 29
29 ptrit 29
30 prolongs 27
31 mysterieusement 25
32 rougtre 23
33 paumettes 22
34 laiss 22
35 tont 19
36 pomettes 18
37 rougeatre 18
38 peint 17
39 arrondis 17
40 divise 15
41 peins 14
42 belier 14
43 imobile 14
44 ptri 14
45 demesurs 13
46 paissit 13
47 hayon 13
48 poussiereuses 13
49 boull 13
50 charnus 12
51 arondies 12
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 37 -
Altrations graphiques

Il est galement intressant dobserver, les variantes orthographiques des mots
de la dicte. Le fait dobserver les altrations graphiques subies sur les mots, devrait
nous permettre de juger des difficults rencontres par les lves : Quels sont les
mots qui posent le plus de problmes aux lves et qui subissent le plus daltrations
graphiques?
Le tableau ci-dessous prsente les mots qui comptent le plus de variantes
orthographiques.

Tte de liste : altrations graphiques
Formes de base Nb d'altrations
langoureux 18
ptrie 16
paissis 15
haillon
14
poussireuses 13
fard 12
dmesurs 11
commissures 11
pommette 10
blier 10
talus 10
ml 10
imitait 9
prolongeaient 8
arrondies 8
modele 8
sourcils 7
sourcils 7
boul 7
ne 7
poigne 7
peints 6
charnues 6
rougetre 6
laissait 6
groups 5
mystrieusement 5
frachement 5
fire 4
tordu 4
exactement 4
immobile 4



On peut remarquer que certains mots
subissent un nombre important daltrations.
Cest notamment le cas des mots langoureux,
haillon, fard, commissures, pommetteCes
mots semblent prsenter des difficults pour
les lves car ils donnent lieu de
nombreuses variantes orthographiques

MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 38 -
III. Classement des erreurs

Nous allons, prsent, classer les 356 formes errones de notre corpus laide
de la typologie des erreurs prsente en premire partie. Nous allons par consquent,
adopter un point de vue davantage qualitatif qui consiste analyser non plus la
quantit derreurs observes, mais les types derreurs produits par les lves.

1. Les problmes de classement

La grille danalyse

La grille que nous avons choisie reprsente un bon outil danalyse puisquelle
se base sur des erreurs commises dans des travaux de dictes. Rappelons que cette
grille distingue sept types derreurs :

1) Les erreurs de segmentation
2) Les erreurs de type phontique
3) Les erreurs de substitution de mots
4) Les erreurs dorthographe grammaticale
5) Les erreurs dorthographe lexicale
6) Les erreurs cumulant une erreur lexicale et grammaticale
7) Les erreurs portant sur les signes diacritiques et les majuscules

Toutes les erreurs de notre corpus semblent, au premier examen, pouvoir tre
classes. Cependant, nous nous heurtons un certain nombre de difficults et
notamment, pour classer les mots comportant plusieurs fautes de natures diffrentes,
ainsi que les erreurs pouvant tre rattaches plusieurs catgories la fois. Notre but
est de classer chaque mot erron en nous efforant de lassigner une seule
catgorie ; ce qui devrait nous permettre ensuite dvaluer le correcteur en le
confrontant des types derreurs clairement dfinis. Ce qui facile en thorie mais pas
dans la pratique. En effet, bien que les catgories apparaissent comme discriminants
pertinents, nous rencontrons des difficults classer certaines formes.


MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 39 -
Les cumuls derreurs


Le principal problme que nous rencontrons rside dans le fait que chaque mot
fautif ne prsente pas toujours une seule erreur, pouvant tre rattache une seule
catgorie. En effet, un mot peut donner lieu plusieurs erreurs diffrentes. Il est donc
important de faire la distinction entre un mot erron qui peut contenir plusieurs
erreurs et une forme errone qui renvoie une erreur en particulier. Par exemple le
mot *paumete (pommette) est triplement fautif si nous prenons en compte toutes les
erreurs commises ; mais ces trois formes errones peuvent tre rattaches la
catgorie 5 cest dire celle de lorthographe dite lexicale .
La difficult est plus grande lorsquil sagit de mots cumulant des erreurs de
nature diffrente. Ainsi, certains mots comportent une erreur sur un signe diacritique
et une erreur de grammaire, cest le cas des mots *ages (ge), *epaissies (paissis)
ou encore *ptri (ptrie) qui sont la fois justifiables dans la catgorie 4 et dans la
catgorie 7.
Autre cas, les mots qui cumulent une erreur de type lexical et une erreur sur un
signe diacritique : les mots errons *bellier (blier), *demeusurs (dmesurs), *fr
(fard) prsentent cette difficult.
Il est noter que la seule catgorie qui autorise le cumul derreurs de nature
diffrente est la catgorie 6 (cumul dune erreur dorthographe lexicale et
grammaticale) mais il nen va pas de mme des autres catgories.
Pour rsoudre ce problme et parvenir classer chaque mot erron dans une
seule catgorie, il nous semble ncessaire, dans la mesure du possible, de ramener
chaque cumul derreurs une seule et unique catgorie. Les mots cumulant une
erreur de type 4 et une erreur de type 7 seront classs dans la catgorie 6 qui autorise
le cumul dune erreur dorthographe lexicale et une erreur de grammaire. Nous avons
jug que les erreurs sur les signes diacritiques pouvaient dans ce cas, tre considres
comme des erreurs de type lexical. Il en va de mme pour les erreurs pouvant tre
rattaches la catgorie 5 et la catgorie 7 qui seront classes dans la catgorie 5
(orthographe lexicale).
Cependant ces cumuls derreurs peuvent prsenter de lintrt pour lvaluation
du correcteur. En effet, il serait intressant dobserver le comportement du correcteur
de Word XP vis vis de mots cumulant diffrentes erreurs : parvient-il les
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 40 -
dtecter ? A les corriger ? Pour rpondre ces questions, il semble ncessaire
dindiquer lors du classement les informations relatives aux cumuls derreurs.

Les critres de classement


Au problme du cumul derreurs, sajoute le problme des critres de
classement. La grille peut se rvler dun maniement dlicat pour classer certaines
erreurs, et notamment celles qui peuvent appartenir plusieurs catgories.
En effet, certaines erreurs orthographiques peuvent entraner une altration au
niveau de la valeur phonique du mot : doit-on les classer pour autant dans la
catgorie des erreurs phontiques (catgorie 2) ? Prenons pour exemple les mots
errons *comisures (commissures) et *demesurs (dmesurs) qui subissent une
altration phonique. Dans le premier cas, cest une erreur sur les doubles consonnes
(catgorie 5) qui est lorigine de laltration phonique. Pour la deuxime forme
*demesurs, lerreur graphique due un oubli daccent (catgorie 7) entranant aussi
une altration de la valeur phonique. Le problme qui se pose nous est de savoir
dans quelle catgorie ce type derreur doit tre rattach. Comment classer les erreurs
graphiques altrant la physionomie sonore des mots ? Si nous les classons dans la
catgorie des erreurs de type phontique alors certaines catgories de la grille comme
celle portant sur les signes diacritiques ne se rvlent plus pertinentes.
Il est important de dfinir partir de quel critre doit se baser notre analyse des
erreurs : le critre auditif (la forme sonore du mot est-elle acceptable ou non) ou bien
le critre visuel et dans ce cas, notre intrt principal est dobserver les altrations
graphiques subies sur les mots. Dans la grille propose par Andr Chervel et Danile
Manesse, il est vident que le critre visuel prdomine puisque seuls les mots
profondment altrs dans leur reprsentation phontique sont rattaches la
catgorie des erreurs phontiques. Les auteurs ont considr par exemple que des
erreurs de reprsentation phontique comme *suterrains (souterrains) ou *ingures
(injures) devaient tre rattaches la catgorie des erreurs dorthographe lexicale.
Les auteurs se sont surtout attachs dcrire laspect crit de lorthographe et non
laspect oral. En fait ce qui nous pose problme ici, cest labsence de distinction
stricte entre ce qui est phontiquement acceptable et ce quil ne lest pas.
Pour des raisons de commodits et pour ne pas quil y ait de confusion entre les
diffrentes composantes linguistiques, notre analyse va surtout se baser sur le critre
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 41 -
visuel cest dire sur les altrations graphiques. Il est important de rappeler que,
pour le correcteur orthographique, une erreur est une forme absente dans son
dictionnaire et il na pas de considration particulire pour les erreurs entranant une
altration phonique. Cependant, nous conservons la catgorie des erreurs phontiques
introduite dans la deuxime rubrique. Ainsi, les erreurs altrant la valeur phonique
des mots seront considres comme erreurs de type phontique (2) lorsque les mots
sont trs altrs dans leur reprsentation phontique ou lorsque lidentification du
mot par llve semble poser problme. Cest le cas des mots errons *beaumette
(pommette), *goul (boul) ou encore *courcils (sourcils) prsents dans notre
corpus et quil est ncessaire, notre sens, de classer dans cette catgorie.

Les diffrents problmes auxquels nous sommes confronte, nous rvlent que
la mise en uvre dune typologie des erreurs est trs complexe et que ltape de
classement relve plus du compromis que de lexercice de mathmatique ; la
typologie que nous avons choisie ntant pas parfaite et pouvant tre ouverte
certaines modifications.

2. Le classement ralis laide de la typologie

Nous prsentons le classement des erreurs que nous avons ralis partir de
notre corpus de dictes dlves. Nous faisons figurer en annexe du projet
lintgralit de ce classement.

Rpartition des erreurs selon les catgories

Le tableau ci-dessous prsente la rpartition des erreurs en fonction des
catgories de la typologie.

Catgories Effectif %
1 Segmentation 6 1,7%
2 Phontique 42 11,8%
3 Substitution 21 5,9%
4 Grammaire 92 25,8%
5 Lexique 116 32,6%
6 Lexique et grammaire 37 10,4%
7 Diacritiques 42 11,8%
Total 356 100%

MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 42 -
Toutes les catgories de la grille sont reprsentes, ce qui prouve par
consquent que notre outil danalyse est particulirement adapt au classement
derreurs ralises dans des travaux de dictes. Ces donnes nous fournissent des
informations sur les types derreurs les plus commis par les lves.
Les erreurs les plus frquentes se rpartissent surtout en orthographe lexicale et
en orthographe grammaticale. Ces deux catgories reprsentent respectivement
32,6% et 25,8% des erreurs de notre corpus. Les catgories les moins reprsentes
tant la substitution (5,9% des erreurs) et la segmentation (1,7% derreurs).
A laide dune reprsentation graphique, on peut mieux visualiser la proportion
des formes errones en fonction des catgories.

Catgories d'erreurs
Lexique
32,6%
Grammaire
25,8%
Substitution
5,9%
Phontique
11,8%
Segmentation
1,7%
Diacritiques
11,8%
Lexique et
grammaire
10,4%


Le classement nous a permis davoir une vision globale des types derreurs
produits par les lves. Mais, il est noter que chaque type derreurs comporte
plusieurs sous-catgories. Par exemple, pour les erreurs de grammaire, on relve les
erreurs daccord (des commissures *charnu), les erreurs sur la forme du pluriel (des
signes *bleux), les erreurs concernant la forme verbale (*dmesuraient pour
dmesurs).
Il semble donc intressant dobserver pour chaque type derreurs, les
diffrentes sous-catgories, de faon affiner notre analyse et notre classement.




MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 43 -
Les erreurs de segmentation

Les erreurs de segmentation touchent lidentification du mot comme entit
dans la chane parle. Elles rsultent dune modification du nombre des units
lexicales : soit deux units sont formes partir dune seule (*bien veillance pour
bienveillance) ; soit deux units sont regroupes pour nen former quune (*lvier
pour lvier). Dans notre corpus, nous relevons seulement six erreurs de
segmentation (soit 1,7% sur le total des erreurs) et toutes illustrent le premier cas de
figure, o deux units sont formes partir dun seul mot.
Peu nombreuses, ces erreurs portent essentiellement sur le mot langoureux qui
ne semble pas tre identifi correctement.

Erreurs de segmentation
Mots de la dicte Formes errones
langoureux l'angoureux
langoureux l'angoureuse
langoureux l'engoureuse
langoureux l'engoureux
ronde rond de
rougetre rouge tre


Les erreurs de phontique

Les erreurs de phontique reprsentent 11,8% des erreurs du corpus. Nous
proposons de classer dans cette catgorie, tous les mots errons rsultant dune
mauvaise reprsentation des sons. La mauvaise transcription des sons amne
considrer quil ne sagit pas dune simple erreur dorthographe lexicale. Cette
catgorie regroupe les mots ayant subi des altrations au niveau phontique, selon
lune des trois modalits suivantes :

- lomission de signes :
*rougeate (rougetre) ; *poussreuses (poussireuses) ; *sourcis
(sourcils) ; *exatement (exactement)
- laddition de signes :
*prtrie (ptrie) ; *poingne (poigne) ; *poussirieuses (poussireuses) ;
*tourdu (tordu)

MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 44 -
- la confusion de signes :
*colissures (commissures) ; *miniscules (minuscules) ;*longoureux
(langoureux) ; *monton (menton)

Nous avons joint cette catgorie une forme errone rsultant de la suppression
dune syllabe, il sagit de la forme *frachent employe la place de ladverbe
frachement.
Le tableau et le graphique ci-dessous nous donnent une synthse des rsultats
obtenus pour chacune des sous-catgories :

Erreurs de phontique
Sous-catgories Effectif %
Confusion de signe(s) 30 71,4%
Omission de signe(s) 9 21,4%
Addition de signes(s) 2 4,8%
Syllabe manquante 1 2,4%
Total 42 100%

Erreurs de phontique
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Confusion de signe(s) Omission de signe(s) Addition de signes(s) Syllabe manquante
Sous-catgories
P
o
u
r
c
e
n
t
a
g
e




Les erreurs de substitution

Nous relevons 21 formes errones pouvant tre rattaches cette catgorie, ce
qui reprsente environ 6% des erreurs du corpus. Les mots errons classs dans cette
catgorie, prsentent, correctement orthographi, un autre mot que le mot dict,
admis ou non dans le contexte de la phrase. Cest ainsi que le mot charnues est rendu
par *charrues, le mot tordu par *fendu et le mot poigne par *partie. Ces erreurs
sont-elles dues une mauvaise comprhension du texte, doivent-elles tre
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 45 -
considres comme des erreurs dinattention ? Il semble impossible de donner
rellement la cause de ces erreurs.
Sont galement rattaches cette catgorie, les erreurs portant sur les
homonymes car il sagit, dans ce cas aussi, de mots corrects qui se substituent
dautres. Il peut sagir dhomonymes lexicaux (du type faim/fin) ou dhomonymes
grammaticaux (du type se/ce).
Voici quelques exemples relevs dans le corpus :

- *cygnes au lieu de signes
- *voire au lieu de voir
- *phare au lieu de fard
- *sont au lieu de son
- *de au lieu de deux

Nous donnons pour chacune de ces deux sous-catgories leffectif et le
pourcentage :

Erreurs de substitution
Sous-catgories Effectif %
Un autre mot 12 57%
Homonymes 9 43%
Total 21 100%


Erreurs de substitution
0%
20%
40%
60%
80%
100%
Un autre mot Homonymes
Sous-catgories
P
o
u
r
c
e
n
t
a
g
e



MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 46 -
Les erreurs de grammaire

Limportance de ce type derreurs dans notre corpus (25,8 % des erreurs),
mrite notre sens, un examen particulier. Tout dabord il est important de dfinir ce
que nous entendons par erreur de grammaire. Dans la plupart des cas, les erreurs de
grammaire renvoient aux mots morphologiquement justes mais syntaxiquement
errons dans un certain contexte, celui de la phrase. Cependant, nous rencontrons des
formes dans le corpus qui doivent tre rattaches cette catgorie mais qui ne
prsentent pas pour autant des mots corrects au point de vue de la morphologie, cest
dire au niveau des variations en genre et en nombre et la conjugaison des verbes.
Tel est le cas des mots errons *bleux (employ la place de bleus) et *arrondient
(au lieu de arrondies). Pour la premire erreur, il sagit dune mauvaise distribution
des marques du pluriel : llve a employ x au lieu du s ; pour la deuxime,
il y a une confusion entre une forme verbale (qui nexiste pas) et le participe pass du
verbe arrondir. Il est ncessaire de classer ces formes dans la catgorie des erreurs de
grammaire. Mme si elles ne renvoient pas des mots morphologiquement
justes elles tmoignent de lintention de satisfaire aux exigences de la grammaire,
mais la terminaison puise dans le stock des terminaisons possibles est fausse.
(A.Chervel, D.Manesse, p.166)
Les erreurs de grammaire les plus frquentes sont celles qui portent sur les
accords en genre et en nombre sur les noms, les adjectifs et les participes passs
employs comme adjectifs.
Pour exemple, les quelques erreurs suivantes :

- une bouche fire aux commissures charnus
- des signes bleues
- elle avait de grands sourcils dmesur
- les cils paissie de fard

Nous avons galement class dans cette catgorie, les erreurs de conjugaison
comme par exemple lutilisation du prsent au lieu de limparfait (*semble la place
de semblait). Sont aussi considres comme des erreurs de grammaire, les erreurs
rsultant dune confusion au niveau de la catgorie du mot. Tel est le cas de la forme
errone *poussireusent employe la place de ladjectif poussireuses. Nous avons
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 47 -
galement joint cette catgorie, les erreurs sur les formes verbales : *nat pour ne,
*modelait pour modele, *imit au lieu de imitait ; ainsi que les erreurs sur les
formes du pluriel comme par exemple, *bleux la place de bleus.
Voici la rpartition des formes errones pour chacune des sous-catgories :

Erreurs de grammaire
Sous-catgories Effectif %
Accords 62 67,4%
Erreur sur la forme verbale 22 23,9%
Erreur sur la catgorie du mot 3 3,3%
Forme du pluriel 3 3,3%
Conjugaison 2 2,2%
Total 92 100%


Erreurs de grammaire
0%
20%
40%
60%
80%
100%
Accords Erreur sur la
forme verbale
Erreur sur la
catgorie du
mot
Forme du
pluriel
Conjugaison
Sous-catgories
P
o
u
r
c
e
n
t
a
g
e



Les erreurs dorthographe lexicale

Cette catgorie est celle qui compte le plus de formes errones (116 formes
reprsentant 32,6% du total des erreurs). Elle regroupe les formes errones de type
lexical , comme par exemple, les erreurs portant sur les variantes graphiques,
c'est--dire sur la notation des sons qui prennent couramment des graphies
diffrentes. Cest le cas, des formes *cheuveux (cheveux), *maudele (modele),
*manton (menton), ou encore *phard (fard). Nous classons galement dans cette
catgorie, les erreurs sur les consonnes doubles, quil sagisse daddition ou
domission : *poussirreuses (poussireuses),*commisures (commissures), *orreille
(oreille). On y a intgr les erreurs sur les finales de mots (appartenance une
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 48 -
famille de mots) : *peins (peints), *fronc (front), *far (fard) ainsi que les erreurs sur
les lettres muettes : *hboul (boul), *mysthrieusement (mystrieusement),
*himmobile (immobile). Ont galement t incluses dans cette catgorie, des formes
cumulant plusieurs erreurs de type lexical tel que *aippaissis (paissis), *paumte
(pommette) ou les erreurs cumulant une erreur lexicale et une erreur sur les signes
diacritiques comme *bllier (blier), *poussirreuses (poussireuses).

Erreurs d'orthographe lexicale
Sous-catgories Effectif %
Variantes graphiques 33 28,4%
Consonnes doubles 27 23,3%
Finale de mot 26 22,4%
Cumul 26 22,4%
Lettres muettes 4 3,4%
Total 116 100%

Erreurs d'orthographe lexicale
0%
20%
40%
60%
80%
100%
Variantes
graphiques
Consonnes
doubles
Finale de mot Cumul Lettres muettes
Sous-catgories
P
o
u
r
c
e
n
t
a
g
e



MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 49 -
Cumul derreurs : lexique et grammaire

Les formes appartenant cette catgorie, sont des erreurs combines de lexique
et de grammaire. Cest la seule catgorie qui reprsente un cumul derreurs
diffrentes sur une mme forme errone. Cest le cas par exemple, des formes
suivantes : *comissure (commissures), *belliers (blier), *mls (ml), *pomtes
(pommette).

Grammaire et lexique
Effectif
Cumul d'erreurs 53


Les erreurs sur les signes diacritiques

On relve 42 formes errones pouvant tre rattaches cette catgorie (soit
11,8% du total). Ces erreurs concernent les signes diacritiques : accents, trait
dunion, cdille, apostrophe ainsi que lutilisation des minuscules et des majuscules.
Dans notre corpus, nous relevons presque exclusivement des erreurs sur les accents
et une erreur sur lutilisation des majuscules. Les erreurs sur les accents se font selon
lune des trois modalits suivantes : lomission, laddition, la confusion. On trouve ce
type derreurs dans les formes suivantes : *fiere (fire), *age (ge), *flche (flche),
*poigne (poigne), *modle (modele), *xactement (exactement).

Erreurs sur les diacritiques
Sous-catgories Effectif %
Omission d'accent 17 40,5%
Confusion d'accents 17 40,5%
Addition d'accent 7 16,7%
Emploi min/maj 1 2,4%
Total 42 100%


MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 50 -
Erreurs sur les diacritiques
0%
20%
40%
60%
80%
100%
Omission d'accent Confusion d'accents Addition d'accent Emploi min/maj
Sous-catgories
P
o
u
r
c
e
n
t
a
g
e



Nous allons prsent, procder lvaluation du correcteur intgr Word XP
laide du classement pralablement ralis et qui nous a permis de dfinir les types
derreurs produits par les lves.





MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 51 -

EVALUATION DU LOGICIEL



Nous voici la dernire tape de ce projet qui concerne lvaluation du
correcteur intgr Word XP. Nous allons tudier dans cette partie, les performances
du logiciel en le confrontant aux erreurs pralablement classes laide de notre
typologie orthographique. Pour mener bien ce travail, nous allons nous appuyer sur
plusieurs mthodes de mesure qui sont couramment employes lors de tests effectus
sur les correcteurs orthographiques.

I. Mthodologie de lvaluation

1. Les mthodes de mesure pour lvaluation des correcteurs

Lvaluation des systmes de correction orthographique automatique repose le
plus souvent sur une analyse de leur capacit fonctionnelle . La capacit
fonctionnelle (functionality selon la terminologie anglaise) dun correcteur se divise
en deux composantes principales savoir la capacit dtecter les erreurs et
uniquement celles-ci et la capacit suggrer une correction approprie.
Pour rendre compte de la capacit fonctionnelle dun correcteur, il faut
procder une valuation sappuyant sur trois mthodes de mesure que nous allons
prsent dtailler.

La mesure de lexhaustivit

Lexhaustivit (recall) dun correcteur svalue par la mesure de ses deux sous
attributs savoir la couverture lexicale cest dire lacceptation de mots corrects et
les faux positifs qui reprsentent des mots corrects mais nanmoins rejets par le
correcteur. La couverture lexicale dun systme de correction orthographique se
mesure partir de listes gnres pour plusieurs types de mots :

MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 52 -
- Les mots courants cest dire les mots appartenant aux groupes lexicaux dits
ferms qui renvoient aux prpositions, dterminants, pronoms, conjonctions
et adverbes ainsi que les mots appartenant aux groupes lexicaux dits ouverts
cest dire les verbes, les noms et les adjectifs.

- Les sous-langages techniques reprsentent des sous-ensembles de la langue
spcifiques certains domaines comme la mdecine ou la biologie par
exemple. Les termes appartenant ces sous-ensembles sont reprsentatifs du
domaine. Par exemple, le terme acathisie appartient au vocabulaire mdical et
le mot dumping fait rfrence lconomie.

- Les lments lexicaux composs peuvent galement tre analyss. Ce que
nous entendons par lments lexicaux composs renvoie aux groupements de
mots qui ne peuvent pas tre employs sparment. Ces units sont dlimites
par des sparateurs comme lespace dans le mot ad hoc ou bien le tiret dans les
mots eau-de-vie, rendez-vous, abat-jour, a priori, aprs-midi...

- Les sous-langages ferms qui sont le plus souvent des mots emprunts
dautres langues comme les mots week-end, fair-play, globe-trotter mais qui
font partie de la langue car reconnus dans la plupart des dictionnaires.

- Les sous-langages productifs seffectuent par des tests sur chaque sous-
langage productif. Les sous-langages productifs comprennent les nombres
(nombres cardinaux et ordinaux), les units de mesure (longueur, poids,
vitesse), les units de monnaie et leurs symboles, les dates, les quations et
autres formules mathmatiques.

- Les noms propres (noms de personnes et noms de lieu)

- Les abrviations et les sigles (Mr, Mme, ONU, UNESCO)

Les faux positifs sont des mots que le correcteur ne reconnat pas mais qui sont
nanmoins corrects. En se reportant au taux de couverture lexicale pour un correcteur
donn, nous pouvons calculer le taux de faux positifs. Par exemple, pour 100 mots
tests, si le taux de couverture lexicale est de 65, cela signifie que le correcteur
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 53 -
reconnat 65 mots, autrement dit quil en rejette 35 et donc que le taux de faux
positifs est de 35.

La mesure de la pertinence

Le taux de pertinence (precision) pour un systme donn se calcule partir du
pourcentage dlments incorrects (erreurs) effectivement rejets par le correcteur. Il
est possible dvaluer la pertinence de la mme manire que pour lexhaustivit en
dfinissant certaines catgories derreurs, et en observant pour chaque catgorie, le
nombre dlments incorrects qui sont refuss par le correcteur.

Ladquation des suggestions

Ladquation des suggestions (suggestion adequacy) est une mthode de
mesure permettant dvaluer le correcteur par rapport aux propositions de correction
quil fournit. Cette mesure permet dtablir un lien entre la source, lerreur et la
suggestion propose.


La mesure de ladquation des suggestions consiste effectuer des tests partir
de listes derreurs et dobserver le comportement du correcteur en matire de
proposition de correction.
La source
(lment souhait par le scripteur)
Lerreur
(lment rejet par le correcteur)
La suggestion
(lment propos par le correcteur pour remplacer lerreur)
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 54 -
Pour ce faire, il faut noter pour chaque lment derreur lequel des cas suivants
se prsente :
1. La premire proposition de correction est une russite
2. Les propositions visibles contiennent une russite
3. Aucune des propositions nest valable
4. Aucune proposition nest formule par le correcteur

Pour notre analyse, nous allons nous baser sur deux des mthodes de mesure
indiques plus haut savoir la pertinence et ladquation des suggestions, la mesure
de lexhaustivit ntant pas envisageable pour notre corpus qui contient uniquement
des mots courants. Nous allons donc examiner le pourcentage dlments incorrects,
dtects par le correcteur. Ensuite, pour chaque lment reconnu comme incorrect,
nous examinerons les propositions de correction fournies par le logiciel.

2. Analyse hors contexte et analyse contextuelle

Pour aborder le problme de la dtection-correction des erreurs et valuer notre
logiciel, il faut tablir une distinction entre lanalyse contextuelle et lanalyse hors
contexte. Comme nous lavons dj voqu prcdemment, la vrification lexicale et
la correction grammaticale sappuient sur deux mthodes diffrentes. Lorsque le
correcteur procde la vrification lexicale dun document, il vrifie les lments
lexicaux en les comparant son dictionnaire. Il considre quil sagit dune erreur
lorsque llment lexical est absent de son dictionnaire interne ; en faisant cela, le
correcteur ne tient pas compte du contexte. Pour traiter les erreurs de grammaire, le
correcteur va analyser des phrases, cest dire des squences de mots spares par
des ponctuations fortes. Lanalyse grammaticale consiste combiner ces squences
de mots : les dterminants sont combins avec les noms, les adjectifs avec les noms,
les sujets avec les verbes et sappuie sur le contexte phrastique.
Pour ce qui est de nos catgories derreurs, nous devons donc distinguer les
erreurs qui ne relvent pas du contexte et celles qui ncessitent la prise en compte du
contexte comme par exemple, les erreurs de grammaire. Ainsi, les formes errones
*grand et *n (relevant de la grammaire) seront replaces dans le contexte initial de
la phrase et nous observerons le comportement du correcteur par rapport ce type
derreur.
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 55 -
- Elle avait de *grand sourcils dmesurs
- La petite fille semblait *n linstant davant
Selon le type derreur, lanalyse ncessitera la prise en compte du contexte :

Analyse hors contexte : Analyse contextuelle :
- les erreurs de segmentation - les erreurs de grammaire
- les erreurs de phontique - les erreurs de substitution
- les erreurs dorthographe lexicale - les cumuls derreurs
- les erreurs sur les diacritiques

MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 56 -
II. Rsultats

Nous allons valuer le correcteur intgr Word XP en prenant en
considration la mesure de la pertinence, ladquation des suggestions et nous
indiquerons galement lors de lvaluation, le nombre moyen de propositions
suggr par le correcteur pour chaque catgorie derreurs.

1. Les erreurs de segmentation

Comme nous lavons expliqu, les erreurs de segmentation entranent une
modification du nombre des units lexicales : soit deux units sont formes partir
dun seul mot, cest par exemple ce que nous relevons dans notre corpus avec la
forme errone *langoureuse ; soit deux units sont colles pour former un mot
unique, comme par exemple la forme *pommeverte mais nous ne rencontrons pas ce
type de segmentation dans notre corpus. Nous relevons 6 erreurs de segmentation et
voici les rsultats que nous obtenons :
Mesure de la pertinence
Nombre total de formes 6
Formes dtectes 4
Taux de pertinence 67%

Adquation des suggestions
La premire proposition est une russite 2 50%
Les propositions contiennent une russite 0 0%
Aucune proposition nest valable 2 50%
Absence de propositions 0 0%
Nombre moyen de propositions 2,2

A partir des tableaux de la page prcdente, nous pouvons faire plusieurs
observations. Pour les erreurs de segmentation nous obtenons un taux de pertinence
de 67%. Cependant, il faudrait nuancer ce chiffre. En effet, les deux formes errones
*rouge tre (rougetre) et *rond de (ronde) ne sont pas dtectes par le correcteur
car dune part, elles sont acceptables au niveau du contexte et dautre part, il faut
rappeler que pour le correcteur une erreur est un lment lexical qui nappartient pas
son dictionnaire. En apprhendant le fonctionnement du correcteur, on saperoit
rapidement quil lui est impossible de dtecter ces formes.
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 57 -
Sur les six erreurs de segmentation releves dans notre corpus, le correcteur en
dtecte quatre et au niveau de ladquation des suggestions, seulement deux erreurs
sont corriges de manire satisfaisante. Il semblerait que le correcteur parvienne
traiter les erreurs rsultantes de la segmentation lorsque les formes errones ne sont
pas trop loignes de leur source. Par exemple, les formes *langoureux et
*langoureuse sont facilement repres par le logiciel qui propose comme correction
langoureux et langoureuse. En revanche, pour les formes *lengoureux et
*lengoureuse, il ne propose aucune correction valable et les propositions sont
nombreuses : engourdi, engouement, engoulement, engoulevent, engober.
Dautre part, le nombre moyen des formes candidates la correction est de 2,2.
Cependant, nous ne pouvons pas vraiment dire si le correcteur est performant
au niveau de la dtection-correction de ce type derreurs, car le nombre derreurs
relev dans notre corpus est trs faible (seulement six formes) et il faudrait effectuer
des tests plus tendus, en prenant en compte par exemple les formes agglutines du
type *pommeverte (pomme verte) ou *lvier (lvier).

2. Les erreurs de phontique

Nous avons relev 42 formes pouvant appartenir la catgorie des erreurs de
phontique. En confrontant le correcteur ce type derreurs, nous obtenons les
rsultas suivants :

Mesure de la pertinence
Nombre total de formes 42
Formes dtectes 42
Taux de pertinence 100%


Adquation des suggestions
La premire proposition est une "russite" 23 55%
Les propositions contiennent une russite 4 10%
Aucune proposition n'est valable 12 29%
Absence de propositions 3 7%
Nombre moyen de propositions 2,2



MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 58 -
En ce qui concerne la pertinence, le correcteur est trs efficace puisquil
dtecte toutes les erreurs de phontique (100%).
Au niveau de ladquation des suggestions, dans 55% des cas, la premire
proposition de correction est la bonne, et 10% des erreurs reoivent une correction
satisfaisante (mme si elle ne figure pas en tte de liste).
Cependant, 29% des erreurs ne sont pas corriges de manire satisfaisante et
pour 7% des erreurs, le correcteur ne fournit aucune correction. Nous obtenons le
mme nombre moyen de formes candidates la correction que pour les erreurs de
segmentation c'est--dire 2,2.
En observant nos erreurs, nous pouvons constat que celles-ci sont bien
corriges lorsquelles ne sont pas trop loignes de la source. Nous avons fait le
mme constat pour les erreurs de segmentation. Les erreurs de phontique qui
rsultent de laddition ou de lomission dun signe sont globalement mieux corriges
que les erreurs de phontique portant sur la confusion de signes. Pour illustrer cela,
prenons quelques exemples.
Les formes *poussirieuses (poussireuses) et *prtrie (ptrie) rsultantes de
laddition dun signe, sont corriges de manire satisfaisante et pour ces erreurs, le
correcteur ne fournit quune seule forme candidate la correction. Il en va de mme
des formes rsultant de lomission dun signe comme par exemple, *surcils
(sourcils), *rougete (rougetre) ou encore *exatement (exactement).
En revanche, les formes errones *goul (boul), *surcits (sourcils) et
*colissures (commissures) ne sont pas corriges. Il semblerait que le logiciel ne
parvienne pas trouver dans son dictionnaire interne des formes approchantes pour
corriger ces erreurs. On peut considrer que les erreurs possdent des degrs de
complexit distincts : la forme *poussirieuses par exemple rsulte de laddition dun
signe tandis que *goul renvoie une substitution de lettre et pose des problmes au
correcteur qui ne parvient pas corriger cette erreur par le biais de la vrification
dictionnairique.
De plus, on ne peut pas accabler le logiciel lorsquil ne dtecte pas des formes
errones comme *beaumette ou *frachent qui sont trs altres au niveau
phontique et bien trop loignes de la source. Le fait de connatre le fonctionnement
du logiciel, nous permet de dterminer ce quil est capable de dtecter et de corriger.

MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 59 -
3. Les erreurs de substitution

Dans notre corpus, nous relevons 21 erreurs de substitution. Comme nous
lavons expliqu prcdemment, nous avons class dans cette catgorie certains mots
employs la place des mots dicts, cest le cas du mot *charrues employ la place
de charnues ou encore *fendu au lieu de tordu. Ces erreurs prsentent chaque fois
un mot correctement orthographi mais qui ne renvoie pas au mot dict. Entrent
galement dans cette catgorie, les erreurs sur les homonymes tels que cygnes/signes,
sont/son.
Voici les rsultats obtenus pour ce type derreurs :

Mesure de la pertinence
Nombre total de formes 21
Formes dtectes 0
Taux de pertinence 0%

Ces rsultats nous montrent que le correcteur tmoigne de certaines limites car
il ne parvient pas dtecter ce type derreurs (taux de pertinence 0%). Il nest donc
pas possible de mesurer ladquation des suggestions puisquil ne reconnat aucune
forme incorrecte. La reconnaissance des homonymes et des mots substitus
semble donc poser problme au correcteur, qui va laisser passer des erreurs parfois
aberrantes, comme par exemple :

- Elle avait de grands sourcils dmesurs, peints en noir vif sur *sont front
- La petite fille immobile semblait ne linstant davant, frachement ptrie dargile
blonde, modele dune *poignet de dsert.
- des yeux sans ge, langoureux entre les cils paissis de *phare.
- Une bouche fire aux commissures *charrues
- Une toile bleue marquait chaque ronde pommette, une flche bleue divisait le
*mentant.
- Un haillon rougetre, tordu sur les cheveux *lassait voir deux minuscules tresses
poussireuses

Il sagit l dune limite srieuse mais qui est facilement explicable lorsque lon
apprhende le fonctionnement du correcteur. En fait, une erreur qui figure dans le
dictionnaire du correcteur ne sera pas dtecte, que le contexte smantique ou
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 60 -
syntaxique ladmette ou non. Cette limite soulve une autre faiblesse du correcteur,
savoir son incapacit analyser et comprendre le sens des mots dun texte.

4. Les erreurs de grammaire

Les erreurs de grammaire occupent une place importante puisque nous en
relevons 92 ce qui reprsente environ 26% des erreurs du corpus. Voici les rsultats
de lvaluation pour les erreurs de grammaire :

Mesure de la pertinence
Nombre total de formes 92
Formes dtectes 29
Taux de pertinence 32%

Adquation des suggestions
La premire proposition est une "russite" 21 72%
Les propositions contiennent une russite 6 21%
Aucune proposition n'est valable 2 7%
Absence de propositions 0 0%
Nombre moyen de propositions 0,4

Du point de vue de la grammaire, dont la vrification est beaucoup plus
complexe que celle de lorthographe, nous pouvons constater que notre correcteur est
limit puisque sur les 92 erreurs de grammaire, il en dtecte seulement 29 ce qui
nous donne un taux de pertinence 32%. Par contre, au niveau de ladquation des
suggestions, ses performances sont meilleures : dans 72% des cas, la bonne
correction figure en tte de liste ; dans 21% des cas, la correction figure dans la liste
des propositions ; 7% des erreurs ne reoivent pas de correction valable. Nous
remarquons aussi que le nombre moyen de propositions est de 0,4 : le correcteur
fournit donc moins de corrections pour les erreurs de grammaire.
En observant plus prcisment nos erreurs, nous constatons que certaines
erreurs de grammaire sont mieux dtectes et corriges que dautres. Par exemple,
les accords entre les dterminants et les noms sont dans la plupart des cas, bien
reprs et corrigs :

- la *lignes des sourcils
- l*oreilles
- aux *commissure charnues
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 61 -

Il semblerait que la proximit des mots et des combinaisons de mots influe sur
la correction. En rgle gnrale, les noms suivent directement les dterminants, le
correcteur parvient donc dtecter plus facilement les problmes daccord.
Les erreurs sur les formes du pluriel (du type *chevaus pour chevaux) sont
galement dtectes et corriges de manire satisfaisante. On peut penser que ces
formes sont traites facilement car elles ne font pas partie du lexique du logiciel.

- des yeux *langoureu
- des signes *bleux

Le correcteur tmoigne nanmoins de certaines limites au niveau de la
correction grammaticale. Par exemple, laccord des adjectifs pose des problmes au
correcteur. Comme chacun sait, ladjectif saccorde en genre et en nombre avec le
nom auquel il se rapporte. Dans la dicte, les phrases comportent plusieurs
propositions et le correcteur a du mal reconnatre les adjectifs qui se rapportent aux
noms. Pour exemple, la phrase suivante :

- Elle avait de *grand sourcils dmesurs, peints en noir vif sur son front, une
bouche *fier aux commissures *charnus, et des yeux sans ge, *langoureuses entre
les cils paissis de fard.

Parmi ces quatre accords fautifs, le correcteur dtecte uniquement laccord de
ladjectif grand car il se rapporte au nom sourcils qui se situe proximit.

Pour laccord des participes passs, la difficult est comparable la prcdente.
- Le talus *bouls imitait exactement le ton de sa peau, un jaune clair
mystrieusement *mle de rose et la petite fille immobile semblait *n linstant
davant, frachement *ptri dargile blonde, *model dune poigne de dsert.

Dans cette phrase, les accords fautifs avec les participes passs ne sont pas
dtects par le logiciel.
Cette limite, au niveau de la correction grammaticale, semble tre fonction de
la capacit danalyse du correcteur intgr Word XP. Lanalyse des phrases
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 62 -
complexes et particulirement celles qui contiennent plusieurs propositions (spares
par des virgules), semble difficile raliser pour le correcteur.

5. Les erreurs dorthographe lexicale

Les erreurs dorthographe lexicale sont les plus nombreuses dans notre corpus
puisquelles sont au nombre de 116, ce qui reprsente environ 33% du total. Voici les
rsultats obtenus pour ce type derreurs :

Mesure de la pertinence
Nombre total de formes 116
Formes dtectes 106
Taux de pertinence 91%

Adquation des suggestions
La premire proposition est une "russite" 79 75%
Les propositions contiennent une russite 8 8%
Aucune proposition n'est valable 19 18%
Absence de propositions 0 0%
Nombre moyen de propositions 1,9

Le taux de pertinence pour les erreurs dorthographe lexicale est assez bon : sur
les 116 formes recenses, le correcteur en dtecte 106 (taux de pertinence 91%). Au
niveau de ladquation des suggestions, ses performances sont assez satisfaisantes :
dans 75% des cas, la bonne correction est la premire tre suggre ; dans 8%des
cas la correction figure dans la liste des propositions. Le correcteur intgr Word
XP est donc assez performant en ce qui concerne la dtection-correction de ce type
derreurs.
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 63 -
6. Cumul derreurs : lexique et grammaire

Nous avons dgag un type derreur spcifique : les erreurs combines de
lexique et de grammaire. Nous relevons 37 formes diffrentes pouvant tre rattaches
cette catgorie. Rappelons quil sagit de la seule catgorie qui accepte un cumul
derreurs de natures diffrentes sur un mme mot.
Il est noter que lvaluation de ce type derreurs peut poser certains
problmes. En effet, dans le cas dune forme errone rsultante dun cumul derreur,
le systme de correction ne prend pas en compte la forme dans sa globalit, mais lui
applique un traitement squentiel (voir section consacre la correction sous Word
XP). Si le correcteur rencontre par exemple la forme *paumettes (qui comprend deux
erreurs diffrentes), il va dabord traiter lerreur dorthographe (au la place de o)
pour ensuite corriger lerreur de grammaire en rtablissant le singulier au mot
pommette (chaque ronde pommette). Nous avons vu prcdemment que la
vrification lexicale prime sur la correction grammaticale. Le problme principal
vient du fait que le dispositif nest pas toujours en mesure de proposer une correction
grammaticale une fois la correction lexicale effectue.
Il est donc dlicat pour cette catgorie dappliquer les mmes mesures que pour
les types derreurs prcdents. Dans un tel cas, les chiffres obtenus seraient
videmment nuancer.
Par exemple, pour la totalit des erreurs recenses, le taux de pertinence pour la
dtection orthographique slve 97%. Il faut cependant vrifier aussi, pour les
mmes formes, le taux de pertinence pour la dtection grammaticale. Celui-ci ne
slevant qu 8%.
Le chiffre tmoignant de la pertinence de la correction lexicale nest alors que
peu significatif, et il reste donc difficile de savoir si le correcteur est rellement
performant pour ce type de combinaison puisquil ne corrige que partiellement les
erreurs.
Voici quelques exemples tmoignant du fonctionnement du correcteur par
rapport aux cumuls derreurs :



MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 64 -
Forme errone

Corr. orthog.
attendue

Corr. orthog.
ralise

Corr. gram.
attendue

Corr. gram.
ralise
Le talus boul immiter
exactement le ton de sa peau
()
imiter imiter imitait
Deux minuscules tresses
poussireuses arondis sur
loreille ()
arrondis arrondis arrondies

De plus, il convient de souligner qu partir du moment o lerreur lexicale nest
pas dtecte, le correcteur est incapable de proposer une correction grammaticale
de la forme errone :

Forme errone

Corr. orthog.
attendue

Corr. orthog.
ralise

Corr. gram.
attendue

Corr. gram.
ralise
des yeux sans
ages ()
ges ge

En observant le fonctionnement du correcteur, nous sommes confronte
limpossibilit de traiter ce type derreurs de la mme manire que les prcdents.
Nous pouvons simplement nous contenter de regrouper les cumuls derreurs dans
une catgorie spcifique. Pour cette catgorie, nous avons donc constat que le
correcteur est nettement plus performant en ce qui concerne la vrification
orthographique quau niveau de la correction grammaticale. La primaut dans
lordre dapplication des corrections semble donc inadapte pour ce type derreurs
qui mriteraient peut-tre dtre analyses en parallle.

MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 65 -
7. Les erreurs sur les signes diacritiques

En dernier lieu, nous avons valu le correcteur intgr Word XP par rapport
aux erreurs commises sur les signes diacritiques :

Mesure de la pertinence
Nombre total de formes 42
Formes dtectes 40
Taux de pertinence 95%

Adquation des suggestions
La premire proposition est une "russite" 38 95%
Les propositions contiennent une russite 2 5%
Aucune proposition n'est valable 0 0%
Absence de propositions 0 0%
Nombre moyen de propositions 1,6

Le taux de pertinence pour cette catgorie est trs satisfaisant puisquil slve
95%. Nous obtenons galement de bons rsultats au niveau de ladquation des
suggestions : 95% des corrections figurent en tte de liste et 5% figurent dans la liste
des propositions. Le correcteur est donc trs performant pour la dtection et la
correction de ce type derreurs.

MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 66 -
III. Bilan de lvaluation

Cette valuation nous a permis de mettre en vidence les performances du
correcteur intgr Word XP et de cerner galement ses limites. Nous proposons
donc pour finir de faire le bilan de nos observations, en regroupant plus
gnralement deux catgories derreurs : les erreurs correctement traites par le
correcteur et les erreurs plus problmatiques pour la correction automatique. Il est
important de souligner au moment de dresser ce bilan, que nous ne prenons pas en
compte ici les erreurs de segmentation. En effet, les problmes de ce type sont
trop peu nombreux, et il conviendrait deffectuer des tests plus tendus sur un
volume bien plus important de formes errones, afin de garantir des rsultats
vritablement significatifs.

Lvaluation propose dans cette tude porte donc sur les nombreuses autres
catgories recenses dans notre grille danalyse. Nous commencerons par
prsenter le rsultat gnral de cette valuation du correcteur intgr Word XP
puis nous parlerons de ce qui est correctement trait, avant de dcrire les limites
auxquelles le correcteur est confront.

MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE :
Typologie des erreurs et valuation dun logiciel
- 67 -
1. Rsultat gnral

Les rsultats de notre valuation peuvent tre rsums par les tableaux et
graphiques suivants. Ceux-ci regroupent les taux de pertinence ainsi que ladquation
de suggestions pour chaque catgorie derreurs. Sous lappellation gnral , nous
dsignons la moyenne des rsultats obtenus lors de nos tests.


PERTINENCE Taux
Gnral 62%
Segmentation 67%
Phontique 100%
Substitution 0%
Grammaire 32%
Lexique 91%
Diacritiques 95%



T A U X D E P ER T I N E N C E P A R C A T EG O R I ES
0 %
2 0 %
4 0 %
6 0 %
8 0 %
1 0 0 %
G

r
a
l
S
e
g
m
e
n
t
a
t
i
o
n
P
h
o
n

t
i
q
u
e
S
u
b
s
t
i
t
u
t
i
o
n
G
r
a
m
m
a
i
r
e
L
e
x
i
q
u
e
D
i a
c
r
i
t
i
q
u
e
s
C a t g o r i e s
T
a
u
x







- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 68 -
ADEQUATION DES SUGGESTIONS Gnral Segmentation Phontique Grammaire Lexique Diacritiques
La premire proposition est une "russite" 74% 50% 55% 72% 75% 95%
Les propositions contiennent une russite 9% 0% 10% 21% 8% 5%
Aucune proposition n'est valable 16% 50% 29% 7% 18% 0%
Absence de propositions 1% 0% 7% 0% 0% 0%



ADEQUATION DES SUGGESTIONS
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Gnral Segmentation Phontique Grammaire Lexique Diacritiques
La premire proposition est une "russite"
Les propositions contiennent une russite
Aucune proposition n'est valable
Absence de propositions


- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 69 -

2. Les performances du logiciel

A partir des rsultats obtenus, nous avons constat que les performances
notables du correcteur portent principalement sur trois types derreurs.
Tout dabord, le correcteur intgr Word XP est un vrificateur
orthographique trs performant puisquil dtecte la plupart des erreurs dorthographe
lexicale (taux de pertinence 91%).
Il en va de mme pour les erreurs sur les signes diacritiques o le correcteur
obtient des rsultats plus que satisfaisants : 95% des erreurs sont dtectes et dans la
plupart des cas, elles sont galement bien corriges. Les performances du correcteur
en ce qui concerne ce type derreurs, peuvent probablement tre lies au fait que les
erreurs sur les diacritiques sont souvent considres comme des erreurs de type
lexical.
Autre type derreurs bien trait : les erreurs de phontique. L encore, les
capacits de correction du systme sont idalement adaptes pour dtecter ces erreurs
(taux de pertinence de 100%). Toutefois, il convient de prciser quau niveau de
ladquation des suggestions, il demeure moins performant puisquil propose souvent
de nombreuses corrections, et ces dernires ne sont pas systmatiquement exactes.
Cependant, il faudrait nuancer notre propos car les erreurs de phontique sont bien
souvent loignes du mot initial et cette remarque sapplique aussi aux autres
catgories.
Exemples : *beaummette > pommette
*goul > boul
*lemboureux > langoureux
Dans l'tat actuel de la technologie, nous ne pouvons pas nous attendre ce
qu'un correcteur devine l'intention de l'auteur lorsqu'une erreur n'a plus aucun lien
avec le mot initial. Ainsi, si lutilisateur tape *hemom au lieu du mot homme, il ne
serait pas concevable de croire que le correcteur soit en mesure de reconnatre le mot.
Le correcteur est donc performant en ce qui concerne les formes errones les
plus frquemment rencontres dans notre corpus. En effet, les trois types derreurs
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 70 -
ci-dessus recouvrent la majorit des formes incorrectes rencontres (plus de 56% du
corpus).

3. Les limites

Aprs avoir regroup les performances essentielles du logiciel, nous allons tenter
de montrer que cet outil mrite encore des amliorations. Nous avons pu ainsi
identifier trois limites principales auxquelles le correcteur de Word XP est
confront.

Absence de dtection de certaines erreurs

Lors de notre tude, nous avons pu remarquer que le correcteur ne parvenait
pas dtecter et corriger un certain type derreurs : les erreurs de substitution (mots
substitus ou homonymes).
Cette absence de correction, peut sexpliquer facilement. En effet, le correcteur
ne tient pas compte de la reprsentation smantique des mots et cest pourquoi il se
montre incapable de dtecter et encore moins de corriger ces erreurs.
Il sagit l dune limite srieuse mais qui est facilement explicable lorsque lon
apprhende le fonctionnement du correcteur. En fait, moins quelle ne transgresse
une rgle de grammaire vidente, une erreur qui figure dans le dictionnaire du
correcteur ne sera pas dtecte. La reconnaissance des homonymes pose des
problmes au correcteur qui va laisser passer des erreurs parfois grossires.

Exemples : *Le poulet et dent le four. (et/est ; dent/dans)
*Il ma salu dun cygne de la main. (cygne/signe)
*Il tait une foi. (foi/fois)

Ces quelques exemples et ceux relevs dans notre corpus, soulvent donc une
des faiblesses du logiciel de correction automatique, savoir son incapacit
analyser et comprendre le sens des mots dun texte.
Il serait intressant que le correcteur puisse intgrer la reprsentation
smantique des phrases, ceci amliorerait considrablement ses performances.
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 71 -
Cependant, lheure actuelle, lintgration de la smantique dans les logiciels de
correction automatique est encore ltude, et les ralisations oprationnelles sont
peu nombreuses.

La correction grammaticale

Nous avons galement identifi une autre limite qui concerne la correction
grammaticale. En effet, daprs nos observations, la capacit danalyse du correcteur
semble tre limite dans la dtection et la correction de ce type derreur, et ce,
plusieurs niveaux.
Tout dabord, le correcteur rencontre certaines difficults dtecter et
corriger les erreurs les plus commises en matire dorthographe grammaticale. Par
exemple, dans la plupart des cas, il se montre incapable de dtecter les erreurs
daccord avec les adjectifs ou les participes passs. Il nidentifie pas correctement le
nom auquel se rapporte ladjectif et ne parvient pas appliquer les rgles daccord
adquates. Il en va de mme pour laccord des participes passs o le correcteur
rencontre les mmes difficults.

Exemples :
Accord de ladjectif : une bouche* fier (fire) ()
Accord du participe pass : la petite fille immobile semblait *n (ne) ()

Nous avons galement remarqu que laccord entre le sujet et le verbe pose des
problmes. Le verbe saccordant en nombre avec son sujet, le correcteur devrait tre
en mesure didentifier ce sujet, notamment si les deux lments sont spars par une
proposition, comme cest le cas dans lexemple suivant, tir du corpus.

Exemple : Un haillon rougetre, tordu sur les cheveux *laissaient voir deux
minuscules tresses ()

Dautre part, lanalyse des phrases complexes c'est--dire contenant soit
plusieurs propositions juxtaposes, soit des propositions subordonnes relatives,
nest pas ralise correctement et le logiciel laisse passer de nombreuses erreurs.


- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 72 -
Exemples :
Elle avait de grands sourcils *dmesures (dmesurs), peints en noir *vifs
(vifs) sur son front, une bouche *fier (fire) aux commissures *charnus
(charnues), et des yeux sans *ges (ge), langoureux entre les cils paissit de
fard. (exemple tir du corpus)

Dans cet exemple, le correcteur napplique pas les rgles daccord adquates
car il ne dtecte aucune des formes incorrectes rencontres dans cette phrase.

Les personnes qui sont venu hier, sont parti en oubliant leurs affaires.

Dans lexemple ci-dessus, le correcteur ne reconnat quune seule erreur, celle
du second participe pass (*parti) alors que celui de la relative (*venu), pourtant
fautif, est ignor.

Les cumuls derreurs

Une forme errone ne comporte pas toujours une seule erreur. En effet, nous
avons rencontr plusieurs cas prsentant des formes contenant plusieurs erreurs sur
un mme mot. Le correcteur rencontre de nombreuses difficults traiter ces formes,
surtout lorsque les erreurs sont de natures diffrentes, comme par exemple, les
erreurs combines de lexique et de grammaire.

Exemples : *comissure (commissures)
*pomtes (pommette)
*paint (peints)

Cette catgorie constitue, notre sens, loriginalit de notre classification. Ce
type derreur est particulirement intressant car il pose dimportants problmes au
correcteur qui nest que rarement en mesure de traiter ce phnomne. Ainsi, bien que
le systme soit performant sur dautres types derreurs, cette difficult rend compte
de certaines limites qui ne sont pas encore correctement gres. Le systme nest pas
capable de raliser une correction simultane puisquil opre un traitement
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 73 -
squentiel : les erreurs de lexique sont traites (vrification lexicale) puis les erreurs
de grammaire (correction grammaticale).

Cette valuation nous a permis dune part, didentifier ce qui est correctement
trait par le logiciel et dautre part, les limites auxquelles il est confront.
Lvaluation des logiciels de correction automatique est donc trs utile pour
envisager une intgration fiable et utile de ces outils dans certains environnements et
notamment en pdagogie du franais.
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 74 -

CONCLUSION




Le domaine de la correction automatique propose actuellement de nombreux
systmes perfectionns. Nanmoins, les capacits de correction de tels outils restent
encore perfectibles, tant en terme de dtection derreurs que dadquation des
suggestions. En effet, dans une perspective daide la rdaction pour des apprenants
de la langue franaise, il est essentiel que les outils mis disposition des lves
soient de qualit optimale.

Le travail ralis dans ce projet a permis dvaluer de faon qualitative et
quantitative les capacits dun dispositif spcifique : le correcteur intgr au
traitement de texte Word XP. Les observations faites partir dun corpus de travaux
dlves ont mis en vidence les performances remarquables du systme ainsi que
ses limites.

Bien videmment, il serait ncessaire de mener lvaluation sur un corpus plus
consquent, mais le corpus auquel nous avons eu recours permet dores et dj de
dgager certaines apprciations quil est important de poursuivre dans le cadre de
travaux ultrieurs.
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 75 -

BIBLIOGRAPHIE ET SITOGRAPHIE



OUVRAGES

CARRE A., DEGREMONT J-F., GROSS M., PIERREL J-M., SABAH G. (1991)
Langage humain et machine, Presses du CNRS, pp. 78-80

CATACH N. (1980), L'orthographe franaise, Nathan, p.27 ; p.29 ; pp. 287-290

CHERVEL A., MANESSE D. (1989) La Dicte, les franais et lorthographe, 1873-
1987, Calmann-Lvy, pp. 161-168

DOCUMENTS EN LIGNE

Thse en ligne

MENEZO J. (1999), Cline, vers un correcteur lexico-syntaxique, adaptatif et semi-
automatique
http://publications.imag.fr/publications/theses/1999/Menezo.Jacques/notice-
francais.html

Articles en ligne

BERTEN F. (1999) Correcteurs orthographiques et enseignement du franais
http://users.skynet.be/ameurant/francinfo/correcteur/correcteur.html

BIHAN X. (2000) Les correcteurs orthographiques
http://www2.rz.hu-berlin.de/francopolis/correcteurs.htm


CHARNET C., PANCKHURST R. (1998) Le correcteur grammatical : un auxiliaire
efficace pour lenseignant ? Quelques lments de rflexion.
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 76 -
Site de lALSIC (Apprentissage des Langues et Systmes dInformation et de
Communication)
http://alsic.u-strasbg.fr/Num2/panck/alsic_n02-rec3.htm

CONSTANT M. Construire une typologie des erreurs
http://jeunes.profs.free.fr/ortho/presentation.htm

KUKICH K. (1992), Techniques for automatically correcting words in text. In ACM
Computing Surveys, Vol.24, N.4.
http://portal.acm.org/citation.cfm?id=146380

MALLE A. (2003)
Correcteurs orthographiques : Comparaison entre Word 97 et Correcteur 101
http://www.ac-nantes.fr

AUTRES LIENS UTILES

Typologies des erreurs

Historique des typologies orthographiques :
http://s.huet.free.fr/paideia/diaphorai/ensaig.htm

http://www.reunion.iufm.fr/TICE/houpert/Competences/Analyser%20Production/Ty
pologie/grille2.htm

Les logiciels de correction orthographiques indpendants

- Antidote :
http://www.druide.com/a_description.html

- Cordial :
http://www.synapse-fr.com/sub_produits.htm

- Prolexis :
http://www.ccdmd.qc.ca/correspo/Corr6-4/Prolexis.html
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 77 -

- Le correcteur 101 :
http://www.atoutmicro.ca/10082301.htm

- Le correcteur 101 Didactique :
http://www.sofworld.com

Le correcteur orthographique intgr Word XP

Prsentation du traitement de texte Word XP et de ses fonctionnalits
http://www.callisto.si.usherb.ca/~cles/clef_info/doc_formation/H04-Word_XP.doc

A propos des limites de la correction automatique

http://www.cce.umontreal.ca/2939.htm

http://www.osil.ch/eval/node7.html

http://www.edufle.net/article110.html

http://www.synapse-fr.com/descr_technique/A_propos_des_correcteurs.htm

Evaluation des systmes de correction orthographique

http://www.osil.ch/eval/

LOGICIELS

Correcteur intgr au traitement de texte Word XP





- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 78 -















ANNEXES
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 79 -
Techniques for Automatically Correcting Words in Text, Karen Kukich, (1992)


Abstract :

Research aimed at correcting words in text has focussed on three progressively more
difficult problems :

1) non-word error detection
2) isolated-word error correctionand
3) context-dependent word correction

In response to the first problem, efficient pattern matching and n-gram analysis
techniques have been developed for detecting strings that do not appear in a given word list.
In response to the second problem, a variety of general and application-specific
spelling correction techniques have been developed. Some of them were based on detailed
studies of spelling error patterns.
In response to the third problem, a few experiments using natural language processing
tools or statis tical language models have been carried out.
This article surveys documented findings on spelling error correction techniques, reviews the
state of the art of context-dependent word correction techniques, and discusses research
issues related to all three areas of automatic error correction in text.

(The Article on which the Talk was based appeared in the December 1992 Issue of
Computing Surveys)



- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 80 -
Quelques tudes ralises en typologie orthographique


Nous exposons dans cette annexe, quelques tudes ralises en typologie
orthographique et mentionnes dans la premire partie du mmoire. Ces typologies sont
prsentes de manire chronologique de manire faire apparatre les emprunts de chaque
chercheur.


La typologie propose par P.Bovet (1918)

A partir dun relev derreurs commises dans des travaux de rdaction (200 copies et
environ 4200 erreurs), Pierre Bovet, linguiste suisse, entreprend une classification des
erreurs en cinq grands types :

1. Rgles (accords, verbes, homonymes grammaticaux)
2. Prononciation (omission, adjonction, confusion)
3. Usage
4. Ponctuation
5. Calligraphie (lettres mal formes, omissions et adjonctions de points, de
barres)

Mais dans larticle cit, Pierre Bovet dcrit uniquement les trois premiers types :

REGLES

1. GRAMMAIRE

a) Nombre : les division ; les trois ltait

b) Genre : trois bizar colonne

c) Verbes : on avait donner

d) Homonymes grammaticaux : des devoirs a faire ; sont monde (son monde)

2. GRAPHIES

a) Rgles : n devant p ou b : linpression ; g pour ge ou gu ; c pour .

b) Confusion majuscule et minuscule


PHONETIQUE

1. PRONONCIATION LOCALE : et pis (et puis) ; escayer (escalier)

2. IGNORANCE DE LA LANGUE : il a qui voulait (il a dit quil voulait)

3. INATTENTION

a) Omission de signes : entierement (entirement) ; rsole (rsolve)
b) Addition de signes : la mieune (la mienne)
c) Confusion : les proplmes ; une sance

- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 81 -
USAGE

1. SIGNES SONORES

a) Consonnes : ou c pour s ; k pour qu

b) Voyelles : o pour au ou eau ; en pour an

2. SIGNES MUETS

a) Omission

- Accents
- Voyelles
- Consonnes : au traver
- Consonnes doubles : les colones

b) Addition

- Accents : les problmes
- Voyelles : des devoires
- Consonnes : au premiers coups doeil
- Consonnes doubles : reffaire

c) Confusion

- Accents
- Lettres : les colommes (les colonnes)

3. SEGMENTATION

a) Apostrophe : jusqu

b) Trait dunion : celle ci

c) Autres coupures : jusqua second (jusqu ce quon)


La classification de G.Spache (1940)

Cette classification est intressante car elle reprsente une synthse de nombreux
travaux antrieurs. Lauteur propose de distinguer huit types derreurs :

1. OMISSION

- Lettre simple : regarde don
- Lettre double : des chifres
- Syllabes : rsol (rsolve)

2. ADDITION OU REPETITION

- Lettre double : premmier
- Syllabe ajoute : ziguezaguer (zigzaguer)

- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 82 -
3. TRANSPOSITION OU RENVERSEMENT

Exemples : les disivions (les divisions) ; au premier coup deulle (il)

4. SUBSTITUTION

- Phontique : au travaire dune page
- Anti-phontique : les proplmes

5. CONFUSION HOMONYMIQUE

Exemple : un cot dil

6. MOTS OUBLIES

7. MAUVAISE PRONONCIATION

Exemple : les trois lt

8. ETOURDERIE


La thse de V.Gak (1952)

V. Gak explique dans son ouvrage que la correspondance phono-graphique est presque
toujours rompue dans notre langue. Soit le signifiant oral (Sao) est infrieur au signifiant
graphique (Sag), soit il lui est suprieur et ce, selon trois plans : syntagmatique (limites du
signe), paradigmatique (polysmie) ou smiotique (absence dune des faces du signifiant).
Selon Gak, labsence de correspondance stricte entre la phonie et la graphie peut entraner
six types de distorsions possibles, rsumes dans le tableau de la page suivante :

Sag <
Sao
Syntagmatique Paradigmatique Smiotique
l. (taxi) 2. /s/vs/z/ 3. (Mme)
divisions
/:taksi/ son /madam/
graphie
synthtique
graphie
polysmique
graphie incomplte
Sag >
Sao
4. zigzaguaient 5. mienne 6. cours
/gz/ avait /ku:r/
entirement refaire entirement
/ / /Raf Ratj Rma/
graphie
compose
graphie
synonymique
graphie muette (val.
zro)



La grille propose par J. Vial (1969)

Les types derreurs recenss par lauteur sont soit homophones, soit htrophones avec
cinq sous-rubriques possibles :

- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 83 -
- addition
- omission
- substitution
- inversion
- accentuation

Lauteur diffrencie galement plusieurs lieux derreurs :

- les lexmes
- les morphmes
- les mots-outils
- les syntagmes (structure de lnonc) : ponctuation, barbarismes, erreurs de
segmentation

Les recherches menes lEcole Normale de Nmes (1971)

Les recherches effectues lEcole Normale de Nmes ont abouti la cration dune
typologie directement destine lapprenant. Llve dispose dune fiche individuelle lui
permettant de sauto-corriger. Les erreurs se rpartissent en trois catgories :

- Phonologie : le son nest pas correctement reproduit, le mot est dform.
- Usage/Convention
- Relations


Plurisystme orthographique dfini par Nina Catach (1980)


- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 84 -
Scripts utiliss pour extraire les erreurs du corpus

Voici les diffrents traitements appliqus au corpus informatis de dictes. Nous avons
utilis le systme dexploitation Linux et les langages de programmation Perl et Bash pour
raliser les diffrents traitements.


1. Nettoyage du corpus

Le corpus informatis ntant pas format pour Linux, nous avons remarquer la prsence
du caractre retour chariot (symbolis par ^M) propre au systme dexploitation
Windows. Dans un premier temps, nous avons donc supprim ce caractre qui pourrait nuire
aux diffrents traitements que nous souhaitons raliser sur notre corpus.

Ligne de commande : tr d \r < corpus.txt > corpus1.txt

#On redirige le rsultat dans un autre fichier : corpus1.txt
(corpus sans le caractre ^M)

Une fois ce traitement effectu, nous pouvons galement remarqu que les lignes du
corpus sont ingales. Aprs avoir obtenu un corpus sans retours chariot , il nous faut donc
procder au rajustement des lignes ainsi qu la suppression des lignes vides. Nous
procdons donc la seconde phase du nettoyage qui va nous permettre de recoller le
corpus en supprimant les lignes sparatrices des paragraphes et en alignant toutes les lignes.
Pour recoller le corpus, nous allons utiliser un script Perl : recolleLignes.pl

#!/usr/bin/perl -w

use locale;

while (<>) {
chomp;

if (/^\s*$/){
print "$para\n";
$para = ""; #remise zro
}

else {
if ($para=~/[^ ]$/){
$para = $para." ";
}
}
$para = $para.$_;
};
print "$para \n";
# Pour afficher le dernier paragraphe et vider la variable


Ligne de commande : ./recolleLignes.pl > corpusPropre

#On redirige le rsultat vers corpusPropre.txt (corpus sans
caractres retours chariot et dont les lignes sont ajustes)

- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 85 -
Une fois le corpus nettoy , nous proposons de crer un fichier qui ne comporte
aucune erreur dans le but de le comparer avec lensemble des dictes qui contiennent des
erreurs. Ce que nous voulons obtenir, cest un fichier comportant deux colonnes : dans la
premire colonne figure le mot de la dicte bien orthographi et dans la deuxime colonne
lerreur commise pour le mot en question, et ce pour chacune des dictes. Pour raliser ce
travail, il faut passer par plusieurs tapes.


2. Test comparatif : une dicte sans erreurs et une dicte qui en contient

Pour comparer la dicte sans erreurs avec lensemble des dictes du corpus, nous
avons dans un premier temps cr un fichier qui ne comporte pas derreurs. Ce fichier que
nous baptisons sansFautes.txt va nous servir de rfrence pour la comparaison. Pour raliser
cette comparaison, et afficher le rsultat sous forme de colonnes, il nous faut couper au mot
ou tokniser les mots de la dicte sans erreurs. Cette opration consiste faire apparatre
sur une seule ligne chaque mot de la dicte. La dicte ne se prsente plus sous la forme dun
paragraphe mais sous la forme dune colonne de mots. Pour tokniser la dicte sans erreurs,
nous utilisons un script en perl : coupeMot.pl


#!/usr/bin/perl -w

use locale;

while (<>){
chomp;
@champs = split(/\W+/);
foreach $element (@champs) {
print "$element \n";
}
};


Dans un premier temps nous appliquons ce script sur la dicte sans erreurs :

Ligne de commande : ./coupeMot.pl sansfautes.txt >
TOKsansFautes.txt

#On redirige le rsultat dans un autre fichier qui porte le
nom de TOKsansFautes.txt

Puis, nous utilisons nouveau ce script sur une autre dicte qui contient des erreurs :

Ligne de commande : ./coupeMot.pl uneDictee.txt >
TOKuneDictee.txt

Ensuite, nous utilisons la commande diff qui va nous permettre de comparer les deux
fichiers tokniss (TOKsansFautes.txt et TOKuneDictee.txt) et dafficher les diffrences de
contenu entre ces deux fichiers.
Nous inscrivons donc directement en ligne de commande :

diff --side-by-side --suppress-common-line TOKsansfautes.txt TOKuneDictee > testResultat.txt
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 86 -
Cette ligne de commande va spcifier trois choses :

- La commande diff doit renvoyer les diffrences de contenu entre les deux
fichiers tokniss : TOKsansFautes.txt et TOKuneDictee.txt
- Le rsultat obtenu est affich sous forme de colonnes (-side-by-side)
- Seules les diffrences sont affiches puisque lon en supprime ce qui
semblable aux deux fichiers cest dire les mots correctement orthographis
(--suppress -common-line)

Nous faisons figurer le rsultat de cette premire comparaison dans autre fichier texte
testResultat.txt.
Lexcution de la commande nous renvoie donc les diffrences entre les deux fichiers.
Le mot correctement orthographi se situe dans la colonne de gauche et lerreur qui lui
correspond dans la colonne de droite. Nous sommes parvenue comparer deux fichiers de
mme taille mais quen est-il si la comparaison seffectue sur toutes les dictes du corpus ?
Le rsultat que nous allons obtenir ne va pas correspondre ce que nous attendons puisque la
commande diff va nous renvoyer toutes les lignes du corpus lexception de celles de la
premire dicte. La comparaison doit donc seffectuer sur des fichiers de taille similaire.
Pour rsoudre ce problme, nous devons effectuer la comparaison sur des fichiers ayant la
mme taille. Nous allons donc dcouper les 335 dictes de notre corpus et nous allons les
mettre dans des fichiers spars. Les dictes ainsi prleves devront galement tre
toknises pour pouvoir effectuer une comparaison avec la dicte sans erreurs.


3. Cration de 335 fichiers tokniss correspondant aux dictes

Les dictes du corpus sont numrotes, nous allons donc utiliser cette numrotation
pour extraire toutes les dictes et mettre chacune dentre elles dans un fichier spar. Il sagit
dans un premier temps dextraire toutes les dictes puis de les couper aux mots. Pour ce
faire, nous nous servons dun script en bash : coupe.sh.
Ce script permet deffectuer plusieurs oprations sur le corpus cest pourquoi il
convient de le dtailler :

#!/bin/bash

numeros =`sed "s/\..*//" corpusPropre.txt`

for n in $numeros

do

tail +$n corpusPropre.txt|head -1 > Dictees/dictee$n.txt
#extrait la ligne numro n et envoie dans un fichier

perl coupeMot.pl Dictees/dictee$n.txt >
DicteesTOK/dictee$n.txt

done

- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 87 -
Dans un premier temps, tous les numros de dictes (de 1 335) sont rcuprs et
stocks dans la variable numeros. Ensuite une boucle for sur cette variable (for n in
$numeros) permet deffectuer deux oprations :
- Extraire chacune des dictes pour les envoyer ensuite dans un rpertoire
appel Dictees. Ce rpertoire contient donc les 335 dictes (dictee1.txt,
dictee2.txt, dictee3.txtdictee335.txt)
- Tous les fichiers texte contenus dans le rpertoire Dictees, sont ensuite
coups aux mots grce au script coupeMot.pl que nous avons prcdemment
employ. Les dictes ainsi toknises sont places dans un autre rpertoire
DicteesTOK.


4. Comparaison de la dicte sans erreurs avec lensemble des dictes du corpus

Nous pouvons dsormais effectuer une comparaison entre la dicte sans erreurs
sansFautes.txt et les dictes toknises. En ralit, il ne sagit pas dune seule comparaison
mais de 335 comparaisons.Pour ce faire, nous utilisons un script en bash :
compareDictees.sh.

#!/bin/bash

dictees =`ls DicteesTOK`
#on lit tout ce qui se trouve dans le rpertoire DicteesTOK

for d in $dictees #on stocke les dictes dans la variable
$dictees
do

echo
"=================================================="
# ligne sparatrice

diff --side-by-side --suppress-common-line TOKsansFautes.txt
DicteesTOK/$d
#on compare les dictes avec la dicte sans erreurs
done

Ligne de commande : ./compareDictees.sh > resultatGeneral.txt

Une boucle for permet de comparer chaque dicte contenue dans le rpertoire
DicteesTOK avec la dicte sans erreurs. Nous insrons un dlimiteur entre chaque
comparaison afin dobtenir un rsultat plus lisible. Ce rsultat est stock ensuite dans le
fichier resultatGeneral.txt.







- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 88 -
Extrait de resultatGeneral.txt




0 | 100
aux | au
commissures | comissures
langoureux | lengoureuse
fard | fare
marquait | marque
chaque | chaques
ronde | rondes
pommette | pommettes
poussireuses | poussireuse
cornes | corne
talus | tallu
boul | boull
ton | tont
ml | mlait
ne | nat
ptrie | ptrit
modele | model
==================================================
0 | 101
dmesurs | dmeusurs
peints | peint
paissis | paissits
fard | phare
marquait | marque
ronde | rondes
pommette | pommettes
bleue | bleu
divisait | divis
haillon | allon
cheveux | cheuveux
laissait | laiss
poussireuses | poussireuses
cornes | corne
blier | bliers
talus | talut
ml | ml
ptrie | ptrit
modele | model

A partir de ce rsultat, nous souhaitons extraire uniquement le contenu de la deuxime
colonne cest dire les erreurs dans le but dobserver leurs frquences dapparition et les
altrations graphiques subies sur les mots de la dicte.


Colonne 1 : mots
correctement
orthographis
Colonne 2 : erreurs
correspondantes pour
chaque dicte
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 89 -
5. Extraction des erreurs : altrations graphiques et frquences dapparition

A partir du fichier resultatGeneral.txt, nous souhaitons extraire la deuxime colonne
contenant toutes les erreurs du corpus et leurs frquences dapparition. En fait, nous
souhaitons croiser deux informations : la frquence dapparition des erreurs et les altrations
graphiques observes pour chacun des mots de la dicte. Le fait dobserver les altrations
graphiques subies sur les mots, devrait nous permettre de juger des difficults rencontres
par les lves : quels sont les mots russis ? Quels sont les mots qui posent le plus de
problmes aux lves ?
Pour ce faire, nous allons effectuer une recherche pour chaque mot de la dicte en
utilisant la commande suivante :

Ligne de commande :
awk '$1~/^dsert$/' resultatGeneral.txt | sort | uniq c >>
alterationsGraphiques.txt

Cette commande permet deffectuer plusieurs oprations sur le fichier
resultatGeneral.txt. Tout dabord, elle recherche exactement loccurrence contenue dans les
guillemets (ici, le mot dsert) partir du premier champ du fichier resultatGenenral.txt. Elle
indique pour chaque occurrence, les diffrentes altrations graphiques subies sur les mots. La
commande sort permet de trier les erreurs par ordre alphabtique, et uniq c permet
deffectuer un comptage du nombre doccurrences (en liminant les mots qui apparaissent
plusieurs fois). Le rsultat de la requte est stock dans le fichier alterationsGraphiques.txt
(le double chevron permet dajouter le rsultat de chaque requte la suite de la prcdente)
Nous utilisons cette commande tous les mots de la dicte (sauf pour les mots
apparaissant plusieurs fois tels que sourcils ou yeux ) en changeant loccurrence dans
le motif.

Aprs lexcution de cette commande, nous obtenons donc un fichier contenant toutes
les altrations graphiques de chacun des mots de la dicte et leur frquence dapparition.




- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 90 -
Frquences des erreurs (classement par frquence dcroissante)


Nombre de formes errones 356
Nombre total d'occurrences 2857
MIN 1
MAX 154
Moyenne 8,03


Rang Formes errones Frquence
1 corne 154
2 poussireuses 109
3 comissures 93
4 ml 88
5 immitait 87
6 rondes 85
7 far 79
8 paumette 76
9 aillon 69
10 prolongaient 68
11 model 59
12 fraichement 57
13 pommettes 46
14 phare 40
15 talu 40
16 bleu 39
17 mystrieusement 39
18 dmeusurs 37
19 talut 36
20 mistrieusement 35
21 au 32
22 ges 32
23 groupaient 32
24 sourcis 31
25 pomette 30
26 phares 29
27 fare 29
28 marque 29
29 ptrit 29
30 prolongs 27
31 mysterieusement 25
32 rougtre 23
33 paumettes 22
34 laiss 22
35 tont 19
36 pomettes 18
37 rougeatre 18
38 peint 17
39 arrondis 17
40 divise 15
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 91 -
Rang Formes errones Frquence
41 peins 14
42 belier 14
43 imobile 14
44 ptri 14
45 demesurs 13
46 paissit 13
47 hayon 13
48 poussiereuses 13
49 boull 13
50 charnus 12
51 arondies 12
52 boulait 12
53 n 12
54 desert 12
55 vifs 11
56 commisures 11
57 chaques 11
58 prolongeait 11
59 tallu 11
60 claire 11
61 roses 11
62 ptris 11
63 peinds 10
64 paissits 10
65 paissient 10
66 laissaient 10
67 nat 10
68 lengoureux 9
69 ppaissis 9
70 manton 9
71 bleux 9
72 ptrie 9
73 paitrie 9
74 fars 8
75 cheuveux 8
76 mel 8
77 semble 8
78 petrie 8
79 noirs 7
80 charnue 7
81 age 7
82 languoureux 7
83 sils 7
84 flche 7
85 cygnes 7
86 tordut 7
87 miniscules 7
88 tallus 7
89 imit 7


- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 92 -

Rang Formes errones Frquence
90 grand 6
91 paints 6
92 frond 6
93 commissure 6
94 ages 6
95 l'engoureux 6
96 bleu 6
97 oreil 6
98 immit 6
99 xactement 6
100 tond 6
101 mlait 6
102 paitrit 6
103 blond 6
104 poignet 6
105 colissures 5
106 langoureuses 5
107 langoureuse 5
108 fart 5
109 fares 5
110 fards 5
111 bleues 5
112 prolongeaint 5
113 lignes 5
114 poussireuse 5
115 arondis 5
116 bliers 5
117 mll 5
118 semble 5
119 frchement 5
120 poign 5
121 dserts 5
122 dmesures 4
123 comisures 4
124 paummettes 4
125 cignes 4
126 hallon 4
127 ayon 4
128 minuscule 4
129 traisses 4
130 blier 4
131 eboul 4
132 imittait 4
133 patrie 4
134 argil 4
135 sourcies 3
136 fier 3
137 comissure 3
138 collissures 3

- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 93 -


Rang Formes errones Frquence
139 charnu 3
140 l'angoureux 3
141 l'engoureuse 3
142 farre 3
143 fr 3
144 rond de 3
145 flche 3
146 divis 3
147 laisss 3
148 voire 3
149 poussireuse 3
150 arrondit 3
151 arrondi 3
152 mls 3
153 nait 3
154 modelle 3
155 modelait 3
156 avaient 2
157 surcils 2
158 surcies 2
159 courcils 2
160 dmusurs 2
161 demeusurs 2
162 dmesur 2
163 sont 2
164 caumissures 2
165 lengoureuse 2
166 lamgoureux 2
167 scils 2
168 epaissis 2
169 paissies 2
170 paissi 2
171 paisis 2
172 paicis 2
173 phar 2
174 bleux 2
175 fleche 2
176 sygnes 2
177 haillons 2
178 haillion 2
179 tordus 2
180 de 2
181 treisses 2
182 poussireusent 2
183 poussrieuses 2
184 poussreuses 2
185 arrondient 2
186 arondi 2
187 oreilles 2
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 94 -
Rang Formes errones Frquence
188 bellier 2
189 blier 2
190 talue 2
191 bouls 2
192 mle 2
193 mlait 2
194 ner 2
195 ptri 2
196 argille 2
197 argiles 2
198 modeles 2
199 maudele 2
200 Elles 1
201 du 1
202 deux 1
203 surcits 1
204 soursils 1
205 dmusrs 1
206 dmesurs 1
207 dmesurs 1
208 dmsurs 1
209 dmesuraient 1
210 uns 1
211 paint 1
212 noire 1
213 vive 1
214 vife 1
215 fronc 1
216 fron 1
217 fiert 1
218 fire 1
219 fiere 1
220 commissres 1
221 commissur 1
222 comisure 1
223 charrues 1
224 charnuts 1
225 charns 1
226 de 1
227 l'angoureuse 1
228 longoureux 1
229 lengureux 1
230 lemboureux 1
231 langureux 1
232 languoureuse 1
233 langoureu 1
234 lanboureux 1
235 lamboureux 1
236 entres 1


- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 95 -


Rang Formes errones Frquence
237 en 1
238 siles 1
239 ppaicis 1
240 epaissit 1
241 epaissies 1
242 paissie 1
243 paisit 1
244 aippaissis 1
245 phard 1
246 etoile 1
247 bleues 1
248 marqu 1
249 marquaient 1
250 pomtes 1
251 paummette 1
252 paumte 1
253 beaumette 1
254 dvise 1
255 monton 1
256 mentant 1
257 de 1
258 groupps 1
259 grouppaient 1
260 groups 1
261 groupes 1
262 prolonguaient 1
263 prolonges 1
264 prolong 1
265 prolongait 1
266 une 1
267 hallon 1
268 haon 1
269 haillont 1
270 hallon 1
271 aon 1
272 allon 1
273 allon 1
274 aillion 1
275 rougete 1
276 rougeate 1
277 rouge tre 1
278 rougatre 1
279 tourdu 1
280 fendu 1
281 chevveux 1
282 chevaux 1
283 lassait 1
284 laisser 1
285 laisait 1
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 96 -
Rang Formes errones Frquence
286 trsses 1
287 poussirreuses 1
288 poussierreuses 1
289 poussirieuses 1
290 poussireusses 1
291 poussiereuse 1
292 pousireuses 1
293 arondient 1
294 orreille 1
295 cournes 1
296 belliers 1
297 bllier 1
298 beliers 1
299 Blier 1
300 beilier 1
301 talud 1
302 tlu 1
303 tal 1
304 tallut 1
305 taillu 1
306 hboul 1
307 goul 1
308 eboulet 1
309 immittait 1
310 immiter 1
311 immite 1
312 miter 1
313 mitait 1
314 excatement 1
315 exatement 1
316 xactement 1
317 tons 1
318 peaux 1
319 mysthrieusement 1
320 misterieusement 1
321 mell 1
322 mellait 1
323 melait 1
324 immobille 1
325 immobbile 1
326 himmobile 1
327 semblai 1
328 ne 1
329 nee 1
330 natre 1
331 instint 1
332 instent 1
333 avent 1
334 frchement 1


- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 97 -
Rang Formes errones Frquence
335 frachent 1
336 frachemment 1
337 prtrie 1
338 pttrie 1
339 ptrit 1
340 ptris 1
341 petri 1
342 patris 1
343 patri 1
344 arlige 1
345 blonds 1
346 blondes 1
347 modeler 1
348 modle 1
349 modele 1
350 poingne 1
351 poinge 1
352 poigne 1
353 poignee 1
354 partie 1
355 dsert 1
356 dser 1

Vous aimerez peut-être aussi