Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
r
a
l
S
e
g
m
e
n
t
a
t
i
o
n
P
h
o
n
t
i
q
u
e
S
u
b
s
t
i
t
u
t
i
o
n
G
r
a
m
m
a
i
r
e
L
e
x
i
q
u
e
D
i a
c
r
i
t
i
q
u
e
s
C a t g o r i e s
T
a
u
x
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 68 -
ADEQUATION DES SUGGESTIONS Gnral Segmentation Phontique Grammaire Lexique Diacritiques
La premire proposition est une "russite" 74% 50% 55% 72% 75% 95%
Les propositions contiennent une russite 9% 0% 10% 21% 8% 5%
Aucune proposition n'est valable 16% 50% 29% 7% 18% 0%
Absence de propositions 1% 0% 7% 0% 0% 0%
ADEQUATION DES SUGGESTIONS
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Gnral Segmentation Phontique Grammaire Lexique Diacritiques
La premire proposition est une "russite"
Les propositions contiennent une russite
Aucune proposition n'est valable
Absence de propositions
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 69 -
2. Les performances du logiciel
A partir des rsultats obtenus, nous avons constat que les performances
notables du correcteur portent principalement sur trois types derreurs.
Tout dabord, le correcteur intgr Word XP est un vrificateur
orthographique trs performant puisquil dtecte la plupart des erreurs dorthographe
lexicale (taux de pertinence 91%).
Il en va de mme pour les erreurs sur les signes diacritiques o le correcteur
obtient des rsultats plus que satisfaisants : 95% des erreurs sont dtectes et dans la
plupart des cas, elles sont galement bien corriges. Les performances du correcteur
en ce qui concerne ce type derreurs, peuvent probablement tre lies au fait que les
erreurs sur les diacritiques sont souvent considres comme des erreurs de type
lexical.
Autre type derreurs bien trait : les erreurs de phontique. L encore, les
capacits de correction du systme sont idalement adaptes pour dtecter ces erreurs
(taux de pertinence de 100%). Toutefois, il convient de prciser quau niveau de
ladquation des suggestions, il demeure moins performant puisquil propose souvent
de nombreuses corrections, et ces dernires ne sont pas systmatiquement exactes.
Cependant, il faudrait nuancer notre propos car les erreurs de phontique sont bien
souvent loignes du mot initial et cette remarque sapplique aussi aux autres
catgories.
Exemples : *beaummette > pommette
*goul > boul
*lemboureux > langoureux
Dans l'tat actuel de la technologie, nous ne pouvons pas nous attendre ce
qu'un correcteur devine l'intention de l'auteur lorsqu'une erreur n'a plus aucun lien
avec le mot initial. Ainsi, si lutilisateur tape *hemom au lieu du mot homme, il ne
serait pas concevable de croire que le correcteur soit en mesure de reconnatre le mot.
Le correcteur est donc performant en ce qui concerne les formes errones les
plus frquemment rencontres dans notre corpus. En effet, les trois types derreurs
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 70 -
ci-dessus recouvrent la majorit des formes incorrectes rencontres (plus de 56% du
corpus).
3. Les limites
Aprs avoir regroup les performances essentielles du logiciel, nous allons tenter
de montrer que cet outil mrite encore des amliorations. Nous avons pu ainsi
identifier trois limites principales auxquelles le correcteur de Word XP est
confront.
Absence de dtection de certaines erreurs
Lors de notre tude, nous avons pu remarquer que le correcteur ne parvenait
pas dtecter et corriger un certain type derreurs : les erreurs de substitution (mots
substitus ou homonymes).
Cette absence de correction, peut sexpliquer facilement. En effet, le correcteur
ne tient pas compte de la reprsentation smantique des mots et cest pourquoi il se
montre incapable de dtecter et encore moins de corriger ces erreurs.
Il sagit l dune limite srieuse mais qui est facilement explicable lorsque lon
apprhende le fonctionnement du correcteur. En fait, moins quelle ne transgresse
une rgle de grammaire vidente, une erreur qui figure dans le dictionnaire du
correcteur ne sera pas dtecte. La reconnaissance des homonymes pose des
problmes au correcteur qui va laisser passer des erreurs parfois grossires.
Exemples : *Le poulet et dent le four. (et/est ; dent/dans)
*Il ma salu dun cygne de la main. (cygne/signe)
*Il tait une foi. (foi/fois)
Ces quelques exemples et ceux relevs dans notre corpus, soulvent donc une
des faiblesses du logiciel de correction automatique, savoir son incapacit
analyser et comprendre le sens des mots dun texte.
Il serait intressant que le correcteur puisse intgrer la reprsentation
smantique des phrases, ceci amliorerait considrablement ses performances.
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 71 -
Cependant, lheure actuelle, lintgration de la smantique dans les logiciels de
correction automatique est encore ltude, et les ralisations oprationnelles sont
peu nombreuses.
La correction grammaticale
Nous avons galement identifi une autre limite qui concerne la correction
grammaticale. En effet, daprs nos observations, la capacit danalyse du correcteur
semble tre limite dans la dtection et la correction de ce type derreur, et ce,
plusieurs niveaux.
Tout dabord, le correcteur rencontre certaines difficults dtecter et
corriger les erreurs les plus commises en matire dorthographe grammaticale. Par
exemple, dans la plupart des cas, il se montre incapable de dtecter les erreurs
daccord avec les adjectifs ou les participes passs. Il nidentifie pas correctement le
nom auquel se rapporte ladjectif et ne parvient pas appliquer les rgles daccord
adquates. Il en va de mme pour laccord des participes passs o le correcteur
rencontre les mmes difficults.
Exemples :
Accord de ladjectif : une bouche* fier (fire) ()
Accord du participe pass : la petite fille immobile semblait *n (ne) ()
Nous avons galement remarqu que laccord entre le sujet et le verbe pose des
problmes. Le verbe saccordant en nombre avec son sujet, le correcteur devrait tre
en mesure didentifier ce sujet, notamment si les deux lments sont spars par une
proposition, comme cest le cas dans lexemple suivant, tir du corpus.
Exemple : Un haillon rougetre, tordu sur les cheveux *laissaient voir deux
minuscules tresses ()
Dautre part, lanalyse des phrases complexes c'est--dire contenant soit
plusieurs propositions juxtaposes, soit des propositions subordonnes relatives,
nest pas ralise correctement et le logiciel laisse passer de nombreuses erreurs.
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 72 -
Exemples :
Elle avait de grands sourcils *dmesures (dmesurs), peints en noir *vifs
(vifs) sur son front, une bouche *fier (fire) aux commissures *charnus
(charnues), et des yeux sans *ges (ge), langoureux entre les cils paissit de
fard. (exemple tir du corpus)
Dans cet exemple, le correcteur napplique pas les rgles daccord adquates
car il ne dtecte aucune des formes incorrectes rencontres dans cette phrase.
Les personnes qui sont venu hier, sont parti en oubliant leurs affaires.
Dans lexemple ci-dessus, le correcteur ne reconnat quune seule erreur, celle
du second participe pass (*parti) alors que celui de la relative (*venu), pourtant
fautif, est ignor.
Les cumuls derreurs
Une forme errone ne comporte pas toujours une seule erreur. En effet, nous
avons rencontr plusieurs cas prsentant des formes contenant plusieurs erreurs sur
un mme mot. Le correcteur rencontre de nombreuses difficults traiter ces formes,
surtout lorsque les erreurs sont de natures diffrentes, comme par exemple, les
erreurs combines de lexique et de grammaire.
Exemples : *comissure (commissures)
*pomtes (pommette)
*paint (peints)
Cette catgorie constitue, notre sens, loriginalit de notre classification. Ce
type derreur est particulirement intressant car il pose dimportants problmes au
correcteur qui nest que rarement en mesure de traiter ce phnomne. Ainsi, bien que
le systme soit performant sur dautres types derreurs, cette difficult rend compte
de certaines limites qui ne sont pas encore correctement gres. Le systme nest pas
capable de raliser une correction simultane puisquil opre un traitement
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 73 -
squentiel : les erreurs de lexique sont traites (vrification lexicale) puis les erreurs
de grammaire (correction grammaticale).
Cette valuation nous a permis dune part, didentifier ce qui est correctement
trait par le logiciel et dautre part, les limites auxquelles il est confront.
Lvaluation des logiciels de correction automatique est donc trs utile pour
envisager une intgration fiable et utile de ces outils dans certains environnements et
notamment en pdagogie du franais.
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 74 -
CONCLUSION
Le domaine de la correction automatique propose actuellement de nombreux
systmes perfectionns. Nanmoins, les capacits de correction de tels outils restent
encore perfectibles, tant en terme de dtection derreurs que dadquation des
suggestions. En effet, dans une perspective daide la rdaction pour des apprenants
de la langue franaise, il est essentiel que les outils mis disposition des lves
soient de qualit optimale.
Le travail ralis dans ce projet a permis dvaluer de faon qualitative et
quantitative les capacits dun dispositif spcifique : le correcteur intgr au
traitement de texte Word XP. Les observations faites partir dun corpus de travaux
dlves ont mis en vidence les performances remarquables du systme ainsi que
ses limites.
Bien videmment, il serait ncessaire de mener lvaluation sur un corpus plus
consquent, mais le corpus auquel nous avons eu recours permet dores et dj de
dgager certaines apprciations quil est important de poursuivre dans le cadre de
travaux ultrieurs.
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 75 -
BIBLIOGRAPHIE ET SITOGRAPHIE
OUVRAGES
CARRE A., DEGREMONT J-F., GROSS M., PIERREL J-M., SABAH G. (1991)
Langage humain et machine, Presses du CNRS, pp. 78-80
CATACH N. (1980), L'orthographe franaise, Nathan, p.27 ; p.29 ; pp. 287-290
CHERVEL A., MANESSE D. (1989) La Dicte, les franais et lorthographe, 1873-
1987, Calmann-Lvy, pp. 161-168
DOCUMENTS EN LIGNE
Thse en ligne
MENEZO J. (1999), Cline, vers un correcteur lexico-syntaxique, adaptatif et semi-
automatique
http://publications.imag.fr/publications/theses/1999/Menezo.Jacques/notice-
francais.html
Articles en ligne
BERTEN F. (1999) Correcteurs orthographiques et enseignement du franais
http://users.skynet.be/ameurant/francinfo/correcteur/correcteur.html
BIHAN X. (2000) Les correcteurs orthographiques
http://www2.rz.hu-berlin.de/francopolis/correcteurs.htm
CHARNET C., PANCKHURST R. (1998) Le correcteur grammatical : un auxiliaire
efficace pour lenseignant ? Quelques lments de rflexion.
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 76 -
Site de lALSIC (Apprentissage des Langues et Systmes dInformation et de
Communication)
http://alsic.u-strasbg.fr/Num2/panck/alsic_n02-rec3.htm
CONSTANT M. Construire une typologie des erreurs
http://jeunes.profs.free.fr/ortho/presentation.htm
KUKICH K. (1992), Techniques for automatically correcting words in text. In ACM
Computing Surveys, Vol.24, N.4.
http://portal.acm.org/citation.cfm?id=146380
MALLE A. (2003)
Correcteurs orthographiques : Comparaison entre Word 97 et Correcteur 101
http://www.ac-nantes.fr
AUTRES LIENS UTILES
Typologies des erreurs
Historique des typologies orthographiques :
http://s.huet.free.fr/paideia/diaphorai/ensaig.htm
http://www.reunion.iufm.fr/TICE/houpert/Competences/Analyser%20Production/Ty
pologie/grille2.htm
Les logiciels de correction orthographiques indpendants
- Antidote :
http://www.druide.com/a_description.html
- Cordial :
http://www.synapse-fr.com/sub_produits.htm
- Prolexis :
http://www.ccdmd.qc.ca/correspo/Corr6-4/Prolexis.html
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 77 -
- Le correcteur 101 :
http://www.atoutmicro.ca/10082301.htm
- Le correcteur 101 Didactique :
http://www.sofworld.com
Le correcteur orthographique intgr Word XP
Prsentation du traitement de texte Word XP et de ses fonctionnalits
http://www.callisto.si.usherb.ca/~cles/clef_info/doc_formation/H04-Word_XP.doc
A propos des limites de la correction automatique
http://www.cce.umontreal.ca/2939.htm
http://www.osil.ch/eval/node7.html
http://www.edufle.net/article110.html
http://www.synapse-fr.com/descr_technique/A_propos_des_correcteurs.htm
Evaluation des systmes de correction orthographique
http://www.osil.ch/eval/
LOGICIELS
Correcteur intgr au traitement de texte Word XP
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 78 -
ANNEXES
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 79 -
Techniques for Automatically Correcting Words in Text, Karen Kukich, (1992)
Abstract :
Research aimed at correcting words in text has focussed on three progressively more
difficult problems :
1) non-word error detection
2) isolated-word error correctionand
3) context-dependent word correction
In response to the first problem, efficient pattern matching and n-gram analysis
techniques have been developed for detecting strings that do not appear in a given word list.
In response to the second problem, a variety of general and application-specific
spelling correction techniques have been developed. Some of them were based on detailed
studies of spelling error patterns.
In response to the third problem, a few experiments using natural language processing
tools or statis tical language models have been carried out.
This article surveys documented findings on spelling error correction techniques, reviews the
state of the art of context-dependent word correction techniques, and discusses research
issues related to all three areas of automatic error correction in text.
(The Article on which the Talk was based appeared in the December 1992 Issue of
Computing Surveys)
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 80 -
Quelques tudes ralises en typologie orthographique
Nous exposons dans cette annexe, quelques tudes ralises en typologie
orthographique et mentionnes dans la premire partie du mmoire. Ces typologies sont
prsentes de manire chronologique de manire faire apparatre les emprunts de chaque
chercheur.
La typologie propose par P.Bovet (1918)
A partir dun relev derreurs commises dans des travaux de rdaction (200 copies et
environ 4200 erreurs), Pierre Bovet, linguiste suisse, entreprend une classification des
erreurs en cinq grands types :
1. Rgles (accords, verbes, homonymes grammaticaux)
2. Prononciation (omission, adjonction, confusion)
3. Usage
4. Ponctuation
5. Calligraphie (lettres mal formes, omissions et adjonctions de points, de
barres)
Mais dans larticle cit, Pierre Bovet dcrit uniquement les trois premiers types :
REGLES
1. GRAMMAIRE
a) Nombre : les division ; les trois ltait
b) Genre : trois bizar colonne
c) Verbes : on avait donner
d) Homonymes grammaticaux : des devoirs a faire ; sont monde (son monde)
2. GRAPHIES
a) Rgles : n devant p ou b : linpression ; g pour ge ou gu ; c pour .
b) Confusion majuscule et minuscule
PHONETIQUE
1. PRONONCIATION LOCALE : et pis (et puis) ; escayer (escalier)
2. IGNORANCE DE LA LANGUE : il a qui voulait (il a dit quil voulait)
3. INATTENTION
a) Omission de signes : entierement (entirement) ; rsole (rsolve)
b) Addition de signes : la mieune (la mienne)
c) Confusion : les proplmes ; une sance
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 81 -
USAGE
1. SIGNES SONORES
a) Consonnes : ou c pour s ; k pour qu
b) Voyelles : o pour au ou eau ; en pour an
2. SIGNES MUETS
a) Omission
- Accents
- Voyelles
- Consonnes : au traver
- Consonnes doubles : les colones
b) Addition
- Accents : les problmes
- Voyelles : des devoires
- Consonnes : au premiers coups doeil
- Consonnes doubles : reffaire
c) Confusion
- Accents
- Lettres : les colommes (les colonnes)
3. SEGMENTATION
a) Apostrophe : jusqu
b) Trait dunion : celle ci
c) Autres coupures : jusqua second (jusqu ce quon)
La classification de G.Spache (1940)
Cette classification est intressante car elle reprsente une synthse de nombreux
travaux antrieurs. Lauteur propose de distinguer huit types derreurs :
1. OMISSION
- Lettre simple : regarde don
- Lettre double : des chifres
- Syllabes : rsol (rsolve)
2. ADDITION OU REPETITION
- Lettre double : premmier
- Syllabe ajoute : ziguezaguer (zigzaguer)
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 82 -
3. TRANSPOSITION OU RENVERSEMENT
Exemples : les disivions (les divisions) ; au premier coup deulle (il)
4. SUBSTITUTION
- Phontique : au travaire dune page
- Anti-phontique : les proplmes
5. CONFUSION HOMONYMIQUE
Exemple : un cot dil
6. MOTS OUBLIES
7. MAUVAISE PRONONCIATION
Exemple : les trois lt
8. ETOURDERIE
La thse de V.Gak (1952)
V. Gak explique dans son ouvrage que la correspondance phono-graphique est presque
toujours rompue dans notre langue. Soit le signifiant oral (Sao) est infrieur au signifiant
graphique (Sag), soit il lui est suprieur et ce, selon trois plans : syntagmatique (limites du
signe), paradigmatique (polysmie) ou smiotique (absence dune des faces du signifiant).
Selon Gak, labsence de correspondance stricte entre la phonie et la graphie peut entraner
six types de distorsions possibles, rsumes dans le tableau de la page suivante :
Sag <
Sao
Syntagmatique Paradigmatique Smiotique
l. (taxi) 2. /s/vs/z/ 3. (Mme)
divisions
/:taksi/ son /madam/
graphie
synthtique
graphie
polysmique
graphie incomplte
Sag >
Sao
4. zigzaguaient 5. mienne 6. cours
/gz/ avait /ku:r/
entirement refaire entirement
/ / /Raf Ratj Rma/
graphie
compose
graphie
synonymique
graphie muette (val.
zro)
La grille propose par J. Vial (1969)
Les types derreurs recenss par lauteur sont soit homophones, soit htrophones avec
cinq sous-rubriques possibles :
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 83 -
- addition
- omission
- substitution
- inversion
- accentuation
Lauteur diffrencie galement plusieurs lieux derreurs :
- les lexmes
- les morphmes
- les mots-outils
- les syntagmes (structure de lnonc) : ponctuation, barbarismes, erreurs de
segmentation
Les recherches menes lEcole Normale de Nmes (1971)
Les recherches effectues lEcole Normale de Nmes ont abouti la cration dune
typologie directement destine lapprenant. Llve dispose dune fiche individuelle lui
permettant de sauto-corriger. Les erreurs se rpartissent en trois catgories :
- Phonologie : le son nest pas correctement reproduit, le mot est dform.
- Usage/Convention
- Relations
Plurisystme orthographique dfini par Nina Catach (1980)
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 84 -
Scripts utiliss pour extraire les erreurs du corpus
Voici les diffrents traitements appliqus au corpus informatis de dictes. Nous avons
utilis le systme dexploitation Linux et les langages de programmation Perl et Bash pour
raliser les diffrents traitements.
1. Nettoyage du corpus
Le corpus informatis ntant pas format pour Linux, nous avons remarquer la prsence
du caractre retour chariot (symbolis par ^M) propre au systme dexploitation
Windows. Dans un premier temps, nous avons donc supprim ce caractre qui pourrait nuire
aux diffrents traitements que nous souhaitons raliser sur notre corpus.
Ligne de commande : tr d \r < corpus.txt > corpus1.txt
#On redirige le rsultat dans un autre fichier : corpus1.txt
(corpus sans le caractre ^M)
Une fois ce traitement effectu, nous pouvons galement remarqu que les lignes du
corpus sont ingales. Aprs avoir obtenu un corpus sans retours chariot , il nous faut donc
procder au rajustement des lignes ainsi qu la suppression des lignes vides. Nous
procdons donc la seconde phase du nettoyage qui va nous permettre de recoller le
corpus en supprimant les lignes sparatrices des paragraphes et en alignant toutes les lignes.
Pour recoller le corpus, nous allons utiliser un script Perl : recolleLignes.pl
#!/usr/bin/perl -w
use locale;
while (<>) {
chomp;
if (/^\s*$/){
print "$para\n";
$para = ""; #remise zro
}
else {
if ($para=~/[^ ]$/){
$para = $para." ";
}
}
$para = $para.$_;
};
print "$para \n";
# Pour afficher le dernier paragraphe et vider la variable
Ligne de commande : ./recolleLignes.pl > corpusPropre
#On redirige le rsultat vers corpusPropre.txt (corpus sans
caractres retours chariot et dont les lignes sont ajustes)
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 85 -
Une fois le corpus nettoy , nous proposons de crer un fichier qui ne comporte
aucune erreur dans le but de le comparer avec lensemble des dictes qui contiennent des
erreurs. Ce que nous voulons obtenir, cest un fichier comportant deux colonnes : dans la
premire colonne figure le mot de la dicte bien orthographi et dans la deuxime colonne
lerreur commise pour le mot en question, et ce pour chacune des dictes. Pour raliser ce
travail, il faut passer par plusieurs tapes.
2. Test comparatif : une dicte sans erreurs et une dicte qui en contient
Pour comparer la dicte sans erreurs avec lensemble des dictes du corpus, nous
avons dans un premier temps cr un fichier qui ne comporte pas derreurs. Ce fichier que
nous baptisons sansFautes.txt va nous servir de rfrence pour la comparaison. Pour raliser
cette comparaison, et afficher le rsultat sous forme de colonnes, il nous faut couper au mot
ou tokniser les mots de la dicte sans erreurs. Cette opration consiste faire apparatre
sur une seule ligne chaque mot de la dicte. La dicte ne se prsente plus sous la forme dun
paragraphe mais sous la forme dune colonne de mots. Pour tokniser la dicte sans erreurs,
nous utilisons un script en perl : coupeMot.pl
#!/usr/bin/perl -w
use locale;
while (<>){
chomp;
@champs = split(/\W+/);
foreach $element (@champs) {
print "$element \n";
}
};
Dans un premier temps nous appliquons ce script sur la dicte sans erreurs :
Ligne de commande : ./coupeMot.pl sansfautes.txt >
TOKsansFautes.txt
#On redirige le rsultat dans un autre fichier qui porte le
nom de TOKsansFautes.txt
Puis, nous utilisons nouveau ce script sur une autre dicte qui contient des erreurs :
Ligne de commande : ./coupeMot.pl uneDictee.txt >
TOKuneDictee.txt
Ensuite, nous utilisons la commande diff qui va nous permettre de comparer les deux
fichiers tokniss (TOKsansFautes.txt et TOKuneDictee.txt) et dafficher les diffrences de
contenu entre ces deux fichiers.
Nous inscrivons donc directement en ligne de commande :
diff --side-by-side --suppress-common-line TOKsansfautes.txt TOKuneDictee > testResultat.txt
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 86 -
Cette ligne de commande va spcifier trois choses :
- La commande diff doit renvoyer les diffrences de contenu entre les deux
fichiers tokniss : TOKsansFautes.txt et TOKuneDictee.txt
- Le rsultat obtenu est affich sous forme de colonnes (-side-by-side)
- Seules les diffrences sont affiches puisque lon en supprime ce qui
semblable aux deux fichiers cest dire les mots correctement orthographis
(--suppress -common-line)
Nous faisons figurer le rsultat de cette premire comparaison dans autre fichier texte
testResultat.txt.
Lexcution de la commande nous renvoie donc les diffrences entre les deux fichiers.
Le mot correctement orthographi se situe dans la colonne de gauche et lerreur qui lui
correspond dans la colonne de droite. Nous sommes parvenue comparer deux fichiers de
mme taille mais quen est-il si la comparaison seffectue sur toutes les dictes du corpus ?
Le rsultat que nous allons obtenir ne va pas correspondre ce que nous attendons puisque la
commande diff va nous renvoyer toutes les lignes du corpus lexception de celles de la
premire dicte. La comparaison doit donc seffectuer sur des fichiers de taille similaire.
Pour rsoudre ce problme, nous devons effectuer la comparaison sur des fichiers ayant la
mme taille. Nous allons donc dcouper les 335 dictes de notre corpus et nous allons les
mettre dans des fichiers spars. Les dictes ainsi prleves devront galement tre
toknises pour pouvoir effectuer une comparaison avec la dicte sans erreurs.
3. Cration de 335 fichiers tokniss correspondant aux dictes
Les dictes du corpus sont numrotes, nous allons donc utiliser cette numrotation
pour extraire toutes les dictes et mettre chacune dentre elles dans un fichier spar. Il sagit
dans un premier temps dextraire toutes les dictes puis de les couper aux mots. Pour ce
faire, nous nous servons dun script en bash : coupe.sh.
Ce script permet deffectuer plusieurs oprations sur le corpus cest pourquoi il
convient de le dtailler :
#!/bin/bash
numeros =`sed "s/\..*//" corpusPropre.txt`
for n in $numeros
do
tail +$n corpusPropre.txt|head -1 > Dictees/dictee$n.txt
#extrait la ligne numro n et envoie dans un fichier
perl coupeMot.pl Dictees/dictee$n.txt >
DicteesTOK/dictee$n.txt
done
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 87 -
Dans un premier temps, tous les numros de dictes (de 1 335) sont rcuprs et
stocks dans la variable numeros. Ensuite une boucle for sur cette variable (for n in
$numeros) permet deffectuer deux oprations :
- Extraire chacune des dictes pour les envoyer ensuite dans un rpertoire
appel Dictees. Ce rpertoire contient donc les 335 dictes (dictee1.txt,
dictee2.txt, dictee3.txtdictee335.txt)
- Tous les fichiers texte contenus dans le rpertoire Dictees, sont ensuite
coups aux mots grce au script coupeMot.pl que nous avons prcdemment
employ. Les dictes ainsi toknises sont places dans un autre rpertoire
DicteesTOK.
4. Comparaison de la dicte sans erreurs avec lensemble des dictes du corpus
Nous pouvons dsormais effectuer une comparaison entre la dicte sans erreurs
sansFautes.txt et les dictes toknises. En ralit, il ne sagit pas dune seule comparaison
mais de 335 comparaisons.Pour ce faire, nous utilisons un script en bash :
compareDictees.sh.
#!/bin/bash
dictees =`ls DicteesTOK`
#on lit tout ce qui se trouve dans le rpertoire DicteesTOK
for d in $dictees #on stocke les dictes dans la variable
$dictees
do
echo
"=================================================="
# ligne sparatrice
diff --side-by-side --suppress-common-line TOKsansFautes.txt
DicteesTOK/$d
#on compare les dictes avec la dicte sans erreurs
done
Ligne de commande : ./compareDictees.sh > resultatGeneral.txt
Une boucle for permet de comparer chaque dicte contenue dans le rpertoire
DicteesTOK avec la dicte sans erreurs. Nous insrons un dlimiteur entre chaque
comparaison afin dobtenir un rsultat plus lisible. Ce rsultat est stock ensuite dans le
fichier resultatGeneral.txt.
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 88 -
Extrait de resultatGeneral.txt
0 | 100
aux | au
commissures | comissures
langoureux | lengoureuse
fard | fare
marquait | marque
chaque | chaques
ronde | rondes
pommette | pommettes
poussireuses | poussireuse
cornes | corne
talus | tallu
boul | boull
ton | tont
ml | mlait
ne | nat
ptrie | ptrit
modele | model
==================================================
0 | 101
dmesurs | dmeusurs
peints | peint
paissis | paissits
fard | phare
marquait | marque
ronde | rondes
pommette | pommettes
bleue | bleu
divisait | divis
haillon | allon
cheveux | cheuveux
laissait | laiss
poussireuses | poussireuses
cornes | corne
blier | bliers
talus | talut
ml | ml
ptrie | ptrit
modele | model
A partir de ce rsultat, nous souhaitons extraire uniquement le contenu de la deuxime
colonne cest dire les erreurs dans le but dobserver leurs frquences dapparition et les
altrations graphiques subies sur les mots de la dicte.
Colonne 1 : mots
correctement
orthographis
Colonne 2 : erreurs
correspondantes pour
chaque dicte
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 89 -
5. Extraction des erreurs : altrations graphiques et frquences dapparition
A partir du fichier resultatGeneral.txt, nous souhaitons extraire la deuxime colonne
contenant toutes les erreurs du corpus et leurs frquences dapparition. En fait, nous
souhaitons croiser deux informations : la frquence dapparition des erreurs et les altrations
graphiques observes pour chacun des mots de la dicte. Le fait dobserver les altrations
graphiques subies sur les mots, devrait nous permettre de juger des difficults rencontres
par les lves : quels sont les mots russis ? Quels sont les mots qui posent le plus de
problmes aux lves ?
Pour ce faire, nous allons effectuer une recherche pour chaque mot de la dicte en
utilisant la commande suivante :
Ligne de commande :
awk '$1~/^dsert$/' resultatGeneral.txt | sort | uniq c >>
alterationsGraphiques.txt
Cette commande permet deffectuer plusieurs oprations sur le fichier
resultatGeneral.txt. Tout dabord, elle recherche exactement loccurrence contenue dans les
guillemets (ici, le mot dsert) partir du premier champ du fichier resultatGenenral.txt. Elle
indique pour chaque occurrence, les diffrentes altrations graphiques subies sur les mots. La
commande sort permet de trier les erreurs par ordre alphabtique, et uniq c permet
deffectuer un comptage du nombre doccurrences (en liminant les mots qui apparaissent
plusieurs fois). Le rsultat de la requte est stock dans le fichier alterationsGraphiques.txt
(le double chevron permet dajouter le rsultat de chaque requte la suite de la prcdente)
Nous utilisons cette commande tous les mots de la dicte (sauf pour les mots
apparaissant plusieurs fois tels que sourcils ou yeux ) en changeant loccurrence dans
le motif.
Aprs lexcution de cette commande, nous obtenons donc un fichier contenant toutes
les altrations graphiques de chacun des mots de la dicte et leur frquence dapparition.
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 90 -
Frquences des erreurs (classement par frquence dcroissante)
Nombre de formes errones 356
Nombre total d'occurrences 2857
MIN 1
MAX 154
Moyenne 8,03
Rang Formes errones Frquence
1 corne 154
2 poussireuses 109
3 comissures 93
4 ml 88
5 immitait 87
6 rondes 85
7 far 79
8 paumette 76
9 aillon 69
10 prolongaient 68
11 model 59
12 fraichement 57
13 pommettes 46
14 phare 40
15 talu 40
16 bleu 39
17 mystrieusement 39
18 dmeusurs 37
19 talut 36
20 mistrieusement 35
21 au 32
22 ges 32
23 groupaient 32
24 sourcis 31
25 pomette 30
26 phares 29
27 fare 29
28 marque 29
29 ptrit 29
30 prolongs 27
31 mysterieusement 25
32 rougtre 23
33 paumettes 22
34 laiss 22
35 tont 19
36 pomettes 18
37 rougeatre 18
38 peint 17
39 arrondis 17
40 divise 15
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 91 -
Rang Formes errones Frquence
41 peins 14
42 belier 14
43 imobile 14
44 ptri 14
45 demesurs 13
46 paissit 13
47 hayon 13
48 poussiereuses 13
49 boull 13
50 charnus 12
51 arondies 12
52 boulait 12
53 n 12
54 desert 12
55 vifs 11
56 commisures 11
57 chaques 11
58 prolongeait 11
59 tallu 11
60 claire 11
61 roses 11
62 ptris 11
63 peinds 10
64 paissits 10
65 paissient 10
66 laissaient 10
67 nat 10
68 lengoureux 9
69 ppaissis 9
70 manton 9
71 bleux 9
72 ptrie 9
73 paitrie 9
74 fars 8
75 cheuveux 8
76 mel 8
77 semble 8
78 petrie 8
79 noirs 7
80 charnue 7
81 age 7
82 languoureux 7
83 sils 7
84 flche 7
85 cygnes 7
86 tordut 7
87 miniscules 7
88 tallus 7
89 imit 7
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 92 -
Rang Formes errones Frquence
90 grand 6
91 paints 6
92 frond 6
93 commissure 6
94 ages 6
95 l'engoureux 6
96 bleu 6
97 oreil 6
98 immit 6
99 xactement 6
100 tond 6
101 mlait 6
102 paitrit 6
103 blond 6
104 poignet 6
105 colissures 5
106 langoureuses 5
107 langoureuse 5
108 fart 5
109 fares 5
110 fards 5
111 bleues 5
112 prolongeaint 5
113 lignes 5
114 poussireuse 5
115 arondis 5
116 bliers 5
117 mll 5
118 semble 5
119 frchement 5
120 poign 5
121 dserts 5
122 dmesures 4
123 comisures 4
124 paummettes 4
125 cignes 4
126 hallon 4
127 ayon 4
128 minuscule 4
129 traisses 4
130 blier 4
131 eboul 4
132 imittait 4
133 patrie 4
134 argil 4
135 sourcies 3
136 fier 3
137 comissure 3
138 collissures 3
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 93 -
Rang Formes errones Frquence
139 charnu 3
140 l'angoureux 3
141 l'engoureuse 3
142 farre 3
143 fr 3
144 rond de 3
145 flche 3
146 divis 3
147 laisss 3
148 voire 3
149 poussireuse 3
150 arrondit 3
151 arrondi 3
152 mls 3
153 nait 3
154 modelle 3
155 modelait 3
156 avaient 2
157 surcils 2
158 surcies 2
159 courcils 2
160 dmusurs 2
161 demeusurs 2
162 dmesur 2
163 sont 2
164 caumissures 2
165 lengoureuse 2
166 lamgoureux 2
167 scils 2
168 epaissis 2
169 paissies 2
170 paissi 2
171 paisis 2
172 paicis 2
173 phar 2
174 bleux 2
175 fleche 2
176 sygnes 2
177 haillons 2
178 haillion 2
179 tordus 2
180 de 2
181 treisses 2
182 poussireusent 2
183 poussrieuses 2
184 poussreuses 2
185 arrondient 2
186 arondi 2
187 oreilles 2
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 94 -
Rang Formes errones Frquence
188 bellier 2
189 blier 2
190 talue 2
191 bouls 2
192 mle 2
193 mlait 2
194 ner 2
195 ptri 2
196 argille 2
197 argiles 2
198 modeles 2
199 maudele 2
200 Elles 1
201 du 1
202 deux 1
203 surcits 1
204 soursils 1
205 dmusrs 1
206 dmesurs 1
207 dmesurs 1
208 dmsurs 1
209 dmesuraient 1
210 uns 1
211 paint 1
212 noire 1
213 vive 1
214 vife 1
215 fronc 1
216 fron 1
217 fiert 1
218 fire 1
219 fiere 1
220 commissres 1
221 commissur 1
222 comisure 1
223 charrues 1
224 charnuts 1
225 charns 1
226 de 1
227 l'angoureuse 1
228 longoureux 1
229 lengureux 1
230 lemboureux 1
231 langureux 1
232 languoureuse 1
233 langoureu 1
234 lanboureux 1
235 lamboureux 1
236 entres 1
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 95 -
Rang Formes errones Frquence
237 en 1
238 siles 1
239 ppaicis 1
240 epaissit 1
241 epaissies 1
242 paissie 1
243 paisit 1
244 aippaissis 1
245 phard 1
246 etoile 1
247 bleues 1
248 marqu 1
249 marquaient 1
250 pomtes 1
251 paummette 1
252 paumte 1
253 beaumette 1
254 dvise 1
255 monton 1
256 mentant 1
257 de 1
258 groupps 1
259 grouppaient 1
260 groups 1
261 groupes 1
262 prolonguaient 1
263 prolonges 1
264 prolong 1
265 prolongait 1
266 une 1
267 hallon 1
268 haon 1
269 haillont 1
270 hallon 1
271 aon 1
272 allon 1
273 allon 1
274 aillion 1
275 rougete 1
276 rougeate 1
277 rouge tre 1
278 rougatre 1
279 tourdu 1
280 fendu 1
281 chevveux 1
282 chevaux 1
283 lassait 1
284 laisser 1
285 laisait 1
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 96 -
Rang Formes errones Frquence
286 trsses 1
287 poussirreuses 1
288 poussierreuses 1
289 poussirieuses 1
290 poussireusses 1
291 poussiereuse 1
292 pousireuses 1
293 arondient 1
294 orreille 1
295 cournes 1
296 belliers 1
297 bllier 1
298 beliers 1
299 Blier 1
300 beilier 1
301 talud 1
302 tlu 1
303 tal 1
304 tallut 1
305 taillu 1
306 hboul 1
307 goul 1
308 eboulet 1
309 immittait 1
310 immiter 1
311 immite 1
312 miter 1
313 mitait 1
314 excatement 1
315 exatement 1
316 xactement 1
317 tons 1
318 peaux 1
319 mysthrieusement 1
320 misterieusement 1
321 mell 1
322 mellait 1
323 melait 1
324 immobille 1
325 immobbile 1
326 himmobile 1
327 semblai 1
328 ne 1
329 nee 1
330 natre 1
331 instint 1
332 instent 1
333 avent 1
334 frchement 1
- CORRECTION ORTHOGRAPHIQUE AUTOMATISEE -
- 97 -
Rang Formes errones Frquence
335 frachent 1
336 frachemment 1
337 prtrie 1
338 pttrie 1
339 ptrit 1
340 ptris 1
341 petri 1
342 patris 1
343 patri 1
344 arlige 1
345 blonds 1
346 blondes 1
347 modeler 1
348 modle 1
349 modele 1
350 poingne 1
351 poinge 1
352 poigne 1
353 poignee 1
354 partie 1
355 dsert 1
356 dser 1