Vous êtes sur la page 1sur 60

Psychologie du langage – partim 2

Chapitre 1 : la reconnaissance des mots en modalité orale.

I. Introduction
La compréhension de la parole est, en apparence, simple; or, elle recouvre des processus complexes.
Il est en effet nécessaire d’établir un lien entre l’univers physique des sons du langage et l’univers
symbolique des énoncés. Finalement, la compréhension de la parole consiste à dégager du sens à partir
d’une onde acoustique.
Pour rappel, l’onde sonore est produite par l’air qui sort des poumons et passe au travers des cordes
vocales qui vont vibrer d’une certaine manière. L’air rythmé va alors sortir par la bouche et, en
fonction de sa forme, va donner un certain son.
Le pavillon de l’oreille externe recueille les vibrations de l’air ; l’air va alors exercer une pression sur
le tympan et va déplacer celui-ci vers l’oreille moyenne. Dans cette dernière, un système de levier va
transmettre le déplacement du tympan à une autre membrane élastique, la fenêtre ovale, qui est en
contact avec le liquide de l’oreille interne, appelé la cochlée. Le nerf auditif est alors stimulé par cette
dernière, ce qui va permettre le transfert des informations au cortex auditif (partim 1).

En fait, la compréhension de la parole nécessite des traitements cognitifs complexes en raison d’un
certain nombre de ses caractéristiques : sa variabilité, sa continuité et sa rapidité.

A. La variabilité de la compréhension verbale.


La variabilité est lorsqu’à chaque production, un mot donné prend une forme phonétique et
phonologique différente. La représentation stockée en mémoire doit pouvoir s’activer en réponse à ces
différentes formes possibles.
1) Variabilité intra-individuelle : une même personne peut prononcer un même phonème de
manière variable.
2) Variabilité interindividuelle : les caractéristique de la voix des personnes, comme l’effet du
sexe de la personne, l’accent de la région,…
3) Variabilité due aux contextes phonétiques de réalisation (co-articulation) : comparer par
exemple, l’articulation de /k/ devant /i/ ou devant /u/ ou encore prononcer le /R/ dans « gredin
» ou « carte ».
4) Variabilité phonologique due aux règles contextuelles:
o Phénomènes d’élision = phonème non prononcé comme le deuxième « e » dans
« relever ».

1
o Phénomène de liaison = phonème ajouté comme un « z » lorsqu’on prononce « les
amis ».
o Phénomène d’assimilation = phonème transformé comme le « b » prononcé [bp] dans
le mot « obtus ».

B. La continuité de la compréhension verbale.


A la différence de la modalité écrite, la parole n’a pas de « blancs » ou d’« espaces » systématiques
pour indiquer la fin d’un mot ou le début du suivant ; c’est là le caractère continu de la
compréhension verbale. Il n’y a pas non plus d’indices explicites pour séparer les phonèmes, les
syllabes et même les phrases.
Cette caractéristique est frappante quand on écoute une langue étrangère puisqu’il est difficile, dans ce
cas, de repérer l’unité lexicale, des mots particuliers.
Par exemple : /kansdumDrdsaltzgin/ en Luxembourgeois qui est composé de plusieurs mots non-
identifiable pour une personne ne parlant pas le Luxembourgeois.
En outre, les indices acoustiques correspondants à 2 sons clairement perçus de manière successive
chevauchent largement sur le plan temporel. En effet, lorsqu’on prononce un mot, nous ne prononçons
pas chaque phonème séparément. Il est traité avec ce qui suit.
Si, par exemple, je prononce le mot « kiwi », le k est traité directement avec la voyelle i qui le suit. De
même, lorsque je prononce « peur », le p est directement prononcé avec le e qui suit.

C. La rapidité de la compréhension verbale.


A nouveau en comparaison au traitement des mots écrits, les mots en modalité orale sont présentés très
brièvement.
Le rythme de la parole est de l’ordre de 200 mots par minute. L’auditeur doit donc être capable
d’identifier 12 à 15 phonèmes par seconde. En réalité, les capacités d’un auditeur moyen sont encore
plus élevées : la perception ne commence à se dégrader sérieusement qu’à partir de 300 mots par
minute environ.

D. Le caractère lacunaire de la compréhension verbale.


Le caractère lacunaire se rapporte à une proportion importante de mots et de phonèmes prononcée de
manière imparfaite (voire pas du tout dans le cas des phonèmes) sans que cela ne gêne la
compréhension. En outre, les conditions de production sont le plus souvent constituées d’autres bruits.
Pollack et Pickett (1969), dans une expérience, font entendre à des sujets des mots isolés extraits de
l’enregistrement d’une conversation spontanée. Ils ont démontré qu’en fait, 47% des mots seulement
ont pu être correctement identifiés. Autrement dit, lorsque des mots sont isolés de la conversation, ils
sont plus difficilement identifiables.

E. Le caractère ambigu de la compréhension verbale.


Le caractère ambigu par rapport au lexique renvoie au cas de mots qui se retrouvent à l’intérieur des
mots. Par exemple, les mots « croque », « roc », « ode », et « code » sont enchâssés dans le mot
« crocodile ». Pourtant, nous n’identifions pas tous ces mots séparément lorsque l’on entend le mot
crocodile. (Frauenfelder, 1991).

2
II. Composants impliqués dans la compréhension des mots et
neuropsychologie

A. Karalyn Patterson.
Chercheuse et professeure au prestigieux Cognition and Brain Sciences Unit du Medical Research
Council de l'Université de Cambridge, K. Patterson a eu une très grande influence grâce à ses travaux
dans le domaine de la psychologie.
Ses travaux de recherches sur les modèles du langage oral et écrit sont très influents ; ils sont
couramment utilisés pour l'évaluation des troubles langagiers auprès de patients adultes ou enfants.
Elle est parmi les premiers chercheurs à s'engager dans un courant de recherche multidisciplinaire qui
a donné naissance il y a quelques années à une discipline nouvelle, les neurosciences cognitives. De
plus, elle a travaillé dans des domaines variés comme la psychologie cognitive, la psycholinguistique,
la neuropsychologie cognitive, la neuropsychologie clinique, l'aphasiologie théorique et clinique, la
modélisation connexionniste et la neuroimagerie cérébrale fonctionnelle.
Dans les dernières années, Karalyn Patterson a développé un important programme scientifique
concernant la compréhension des troubles du langage dans les troubles neurodégénératifs , avec une
attention particulière à la démence sémantique. Elle a également reçu le titre de Docteur Honoris
Causa de l’Université de Liège en octobre 2010 .

B. La reconnaissance des mots en modalité orale.

 Le système d’analyse acoustique


Entrée : stimulus verbal qui est une onde sonore complexe constituée d’unités linguistiques.
Traitement du stimulus : extraire de l’onde sonore complexe que constitue la séquence verbale, les
caractéristiques acoustiques correspondant aux traits phonémiques constituant les différents phonèmes
de cette séquence verbale (indépendamment des différences relatives à la voix, l’accent, le rythme de
parole, etc…et donc de la variabilité).
Sortie : représentations phonologiques du signal sonore, stockées dans le système cognitif, activées.
L’altération de ce système mène à des difficultés ou à l’incapacité à identifier les caractéristiques
acoustiques correspondant aux traits phonémiques constituant les différents phonèmes de la séquence
verbale entendue.
Autrement dit, le patient va avoir des troubles de la perception de la parole, il ne perçoit pas
correctement le mot et donc, ne le comprend pas. Si un mot est donné en modalité écrite, le patient va
donc pouvoir comprendre, sans problème, un mot donné. Mais ce même mot présenté oralement ne
sera pas compris.
 Compréhension verbale: ko
 Compréhension écrite: ok
 Production verbale et écrite spontanée : ok
 Répétition (mots et non-mots): ko
 Écriture sous dictée: ko
Attention que l’audition est normale (préalablement contrôlé!), c’est « juste » que la personne en sait
pas traiter les mots présentés oralement. En clinique, les personnes souffrant de cette altération sont
dits caractérisé par la « surdité verbale pure ».

3
 Le lexique auditif d’entrée
Entrée : séquence d’unités phonologiques.
Il stocke les représentations lexicales auditives des mots familiers (connus) du sujet.
Traitement : identifier le mot correspondant à la séquence d’unités phonologiques par activation de la
représentation lexicale auditive du mot entendu stockée en mémoire :
 Séquence phonologique ne correspond pas à un mot familier : pas de représentation lexicale
en mémoire => séquence non identifiable, par exemple le mot « stoel ».
 Séquence phonologique correspond à un mot familier : activation de la représentation lexicale
correspondante => mot identifié, par exemple le mot « chaise » dont les phonèmes « chai » et
« se » vont être associés facilement.
!! Le sens du mot n’est pas encore traité, c’est le sentiment de connaissance, de familiarité qui entre en
jeu ici. !!
Sortie : représentation lexicale auditive correspondant à la forme auditive du mot entendu activée, ou
alors rien si l’activation est nulle ou insuffisante. Exemple : mot rarement entendu dans le cours de la
vie.
L’altération de ce système mène à des difficultés à activer la représentation lexicale auditive des mots
; et donc à les identifier ; c’est la « surdité à la forme du mot ».
 Compréhension verbale: ko
 Compréhension écrite: ok
 Production verbale et écrite spontanée : ok
 Lecture: ok
 Répétition (mots et non-mots): ok car la répétition des mots est possible grâce à une autre
voie, celle de la conversion acoustico-phonologique. Le buffer phonologique, qui est une
mémoire à court terme des phonèmes, va ensuite permettre la répétition.
 Tâche de décision lexicale : ko
(très peu de cas décrits dans la littérature scientifique)

 Le système sémantique
Entrée : représentations lexicales auditives des mots ; mais aussi représentations dans d’autres
modalités. Il stocke les représentations sémantiques correspondant aux mots indépendamment de leur
modalité (écrite ou orale).
Traitement : activation des caractéristiques sémantiques correspondant au mot entendu et donc accès
au sens de ce mot .
Sortie : représentation sémantique correspondant au mot entendu activée ; le mot est compris.
L’altération de ce système mène à des difficultés à activer la représentation sémantique correspondant
au mot entendu.
 Compréhension verbale: ko
 Compréhension écrite: ko
 Production verbale et écrite spontanée : ko
 Toutes les tâches impliquant le système sémantique: ko
 Répétition (mots et non-mots): ok car ni le système d’analyse acoustique, ni la conversion
acoustico-phonologique n’est altéré. Le patient répètera les mots mais ne les comprendra pas.
 Tâche de décision lexicale : ok
Exemples d’altération: le cas de « démences sémantiques » = perte graduelle de la capacité à
accéder au sens des mots.

4
III. Effets de variables psycholinguistiques sur la
reconnaissance des mots

A. La fréquence lexicale.
Cette variable représenta la fréquence d’apparition des mots dans la langue parlée. « Maison est
très fréquent, et l’est plus que le mot « lagon » en Français.
Elle est mesurée en comptant l’occurrence d’un mot, cad l’apparition d’un mot, dans un corpus donné
(souvent écrit). Un exemple de base de données lexicales, en français est Brulex; disponible en libre
accès sur le site www.lexique.org.
La fréquence lexicale détermine la rapidité et la précision des réponses dans les tâches de décision
lexicale et de dénomination en lecture.
Cet effet est situé au niveau des représentations lexicales. L’effet serait dû à des différences de
niveaux d’activation de repos (Morton, 1970) ou de seuils d’activation (Dell, 1986); c’est-à-dire que
plus un mot est fréquent, plus le niveau d’activation de base de sa représentation serait élevé ou plus
son seuil d’activation serait bas.
Ainsi, pour un mot fréquent, la reconnaissance sera plus facile puisque le seuil d’activation de ce mot
est bas.

5
B. L’âge d’acquisition (AoA).
L’âge d’acquisition estimé est une mesure de l’âge auquel les adultes pensent avoir acquis un mot
dans l’enfance ; elle est une mesure subjective. En effet, la mesure objective est beaucoup trop
complexe à obtenir puisqu’il faudrait suivre constamment un enfant et sur tous les mots.
C’est, par exemple, comparer le moment d’acquisition des mots « chaise », « poupée » et « justice ».
Selon les sujets, les âges vont être assez semblables pour un même mot mais différents entre les mots.
Il a été montré que cette mesure était hautement corrélée avec des mesures de l’âge auquel les enfants
acquièrent réellement les mots (= mesure objective).
C’est une conception selon laquelle les effets de fréquence des mots parlés refléteraient, en réalité,
l’âge d’acquisition des mots. Les deux mesures sont donc également fortement corrélées. D’ailleurs,
l’AoA est un meilleur prédicteur des performances que la fréquence lexicale, par exemple pour la
latence de dénomination d’images et la lecture à voix haute mais pas pour la reconnaissance auditive
et visuelle des mots.
 Les effets d’AoA seraient donc d’abord caractéristiques du système de production verbale.
Une base de données sur AoA en français, est Bonin (2002) mais il est également possible de les
consulter sur le site www.lexique.org.

C. Concrétude/imageabilité.
Il s’agit aussi de variables estimées.
L’imageabilité est estimée par les sujets sur base de la facilité avec laquelle il est possible de créer
une image visuelle ou auditive du référent correspondant à un mot. C’est par exemple comparer la
facilité à visualiser le mot « mer » par rapport au mot « peine ».
La concrétude est estimée sur base de la disponibilité du référent du mot à l’expérience sensible. On
imagine moins le mot, ici c’est plutôt ce qu’on peut faire avec le mot. Par exemple, ce qu’on peut faire
avec un « râteau ».
Bien que les estimations se fassent sur des instructions différentes, les deux mesures sont hautement
corrélées et de nombreux auteurs utilisent les deux termes de manière interchangeable.
La localisation de l’effet est le système sémantique. Ces variables sont donc des propriété du système
sémantique.

D. Longueur du mot.
La longueur du mot est mesurée en termes de nombre de phonèmes ou de syllabes. Elle est, à côté de
la fréquence lexicale, la variable qui a montré les effets les plus consistants dans la dénomination chez
l’aphasique. On parle donc davantage de l’influence sur la production des mots par cette variable.
Sa localisation est post-lexicale. Elle peut se trouver au niveau de l’encodage phonologique ou au
niveau du maintien en mémoire à court terme. Ce n’est donc pas une variable localisée au niveau
sémantique.

E. Lexicalité (mot vs non-mot).


Les mots sont généralement plus rapidement traités que les non-mots.
Dans les tâches de décision lexicale, les non-mots moins « plausibles », c’est-à-dire qui ressemblent
peu à des mots, sont rejetés plus rapidement que les non-mots davantage plausibles.
Ex : « tnszv » rejeté plus vite par rapport à « siant ».

6
Les non-mots plausibles, c’est-à-dire qui respectent les règles de formation de la langue dans laquelle
ils sont traités, ne contiennent pas de suite de lettres illégales par rapport à cette langue. On les appelle
alors plutôt des « pseudo-mots ».

IV. Traitement de la variabilité de la parole


Pour rappel, la variabilité c’est lorsqu’à chaque production, un mot donné prend une forme
phonétique et phonologique différente.
Mais alors, quel est l’effet de cette variabilité sur l’activation de la représentation du mot stockée en
mémoire?

A. Le cas de l’élision.
Un élision est un effacement ou une non-réalisation d’un phonème. Il se produit, par exemple, entre 2
voyelles pour éviter un hiatus (=succession de deux voyelles) : « la idée » devient « l’idée ».
Un processus phonologique très courant en français est l’élision du schwa (e muet) qui consiste à
effacer un « e » dans la structure phonétique d’un mot.
Il peut se produire au sein d’une unité lexicale (la s’maine, le souv’nir) ou d’un syntagme (notr’ ali, tu
m’le dis). Il peut, en plus, se produire en début d’unité (la f’nêtre) ou en milieu (fonctionn’ment).
L’effacement du schwa semble dépendre du débit du locuteur, de la provenance du locuteur, …
« la pelouse » donne « la p’louse »

 L’accès à la représentation d’un mot élidé


Comment se réalisé l’accès à un mot élidé présenté oralement ? Y a-t-il un effet sur la rapidité de la
reconnaissance du mot ?
Pour retrouver l’identité sous-jacente du mot, le système de traitement doit faire face à un défaut
d’appariement entre la forme de surface de l’entrée sensorielle et la représentation lexicale abstraite
Conséquence de l’élision sur l’activation des mots?
Expérience de Racine et Grosjean (2000).
Comparaison des temps de traitement d’un même mot présenté sous une forme de surface élidée (la
p’louse) ou non élidée (la pelouse) dans :
1) une tâche de décision lexicale : les sujets doivent dire si ce qu’il entendent est un mot ou un
pseudo-mot.
2) une tâche de répétition de mot : on mesure la latence de prononciation du mot entre le
moment où il est émis par l’examinateur et le moment où il est produit par le sujet.

Les résultats ont montré que les items élidés sont


reconnus/traités moins rapidement que les items non élidés. L’effacement du schwa retarde donc la
reconnaissance des mots.

7
B. Le cas de l’assimilation.
Pour rappel, l’assimilation est un transfert d’une caractéristique ou d’un trait phonétique d’un son à un
son immédiatement voisin.
L’assimilation de voisement est le fait qu’une consonne voisée peut perdre son caractère voisé (b
devient p) ou qu’une consonne non voisée peut devenir voisée (p devient b) selon que la consonne qui
la suit est respectivement non voisée ou voisée. L’assimilation de voisement peut également avoir lieu
au sein d’un mot.
Pour rappel, une consonne voisée (sonore) est une consonne qui fait intervenir la vibration des cordes
vocales avant sa prononciation tandis qu’une consonne sourde (non-voisée) pas.
Exemple de dévoisement (vs voisement conservé) d’une consonne voisée :
robe sale (dévoisement) : b prononcé p car le s est non voisé
robe grise (voisement conservé) : b prononcé b car le g est voisé
Exemple de voisement (vs non voisement conservé) d’une consonne non voisée
passe devant : s prononcé z car le d est voisé
passe partout : s prononcé s car le p est non-voisé

En anglais, le phénomène d’assimilation peut aussi se produire au niveau du point d’articulation,


c’est- à-dire le point de contact entre l’organe articulatoire avec l’organe fixe.
Ainsi, assimilation du point d’articulation quand une consonne dentale (/d/, /t/, /n/) se modifie en
adoptant le lieu d’articulation du phonème qui suit.
Exemple: « green » (vert) peut être prononcé « greem », donc avec une labiale finale au lieu de la
dentale, dans l’énoncé « greem boat » (bateau vert). Puisque le b est bilabiale, la consonne finale du
mot
« green » devient une bilabiale, en l’occurrence remplacée par le m qui est bilabiale.
« absent » donne /apsS/

 L’accès à la représentation d’un mot assimilé


Comment le système de traitement assure-t-il l’accès aux mots assimilés?
Il existe 3 hypothèses :
1) Le système de traitement tolérerait les défauts d’appariement qui peuvent exister entre
l’entrée sensorielle et la représentation lexicale stockée en mémoire.
Ex : « greem » pourrait être reconnu comme une version de « green ».
2) Hypothèse de sous-spécification (Lahiri et Marslen-Wilson, 1991) : la caractéristique qui
change pour certains phonèmes lors d’une assimilation, ne serait pas spécifiée (par ex. la place
de l’articulation).
3) Le système de traitement disposerait d’un mécanisme d’inférence régressive qui permettrait
de ré-analyser un phonème assimilé selon son contexte phonologique suivant, c’est-à-dire le
phonème qui suit (contexte droit), afin de retrouver l’identité sous-jacente de ce phonème
(Gaskell et Marslen-Wilson, 1996).
Ces trois hypothèses ne sont pas à trier. On va plutôt se demander si l’accès au lexique est perturbé par
les variations de surface dues à l’assimilation.

8
 L’accès au lexique par les variations de surface provoquées par l’assimilation
En réalité, un certain nombre de données montrent que l’assimilation permettrait d’anticiper les
phonèmes suivants et donc de limiter le choix des candidats lexicaux possibles qui sont activés lors de
la présentation d’un mot.

L’expérience de David Gow (2001) teste l’hypothèse d’anticipation des candidats lexicaux avec une
tâche de détection de phonèmes.
Compare la détection d’un phonème (b) dans 3 conditions :
 C1 : assimilation se produit dans un contexte approprié.
« tem buns » (et non ten), = assimilation labiale dans un contexte labiale
 C2 : assimilation se produit dans un contexte non approprié.
« teng buns », = assimilation vélaire dans un contexte labiale
 C3 : condition non assimilée
« ten buns »= permise
Les sujets doivent dire si dans l’expression qu’ils entendent, ils entendent un « b ».
Les résultats montrent que les temps de détection du « b » sont plus courts dans la condition
appropriée (tem buns) que dans la condition non appropriée (teng buns) et la condition non assimilée
(ten buns).
 Perception d’un phonème assimilé permet anticipation du phonème suivant.
Lorsque l’on traite le « m » dans « ten », on fait déjà l’hypothèse que ce qui va suivre est une labiale.
Ceci va limiter les choix des candidats lexicaux. Il y a alors un avantage pour le système de
reconnaissance des mots parlés ; on va donc traiter plus rapidement le mot qui suit.
Dans l’exemple « tem buns », le système de reconnaissance pourrait, avant même de traiter le « b » de
buns, restreindre la compétition lexicale aux candidats commençant par un phonème labial satisfaisant
ainsi aux contraintes de l’assimilation.

Gow (2001) teste, par la suite, les conséquences de cette anticipation sur l’activation des candidats
lexicaux en compétition par une expérience de priming (amorçage). La rapidité de reconnaissance
d’un mot cible est donc mesurée en fonction d’un mot présenté auparavant de façon subliminale
(=amorce). Cet amorce peut faciliter la reconnaissance du mot ou la rendre plus difficile.
Ici, Gow va mesurer l’activation de « guns », compétiteur de « buns » dans une tâche de décision
lexicale présentée suite au priming.
Concrètement, on présente un énoncé comme « teng buns » comme amorce. Cette amorce présente
donc une assimilation vélaire inappropriée causé par le « g ». Les mots candidats activés devraient être
des mots commençant par une consonne palatale/vélaire. Le mot « guns » pourrait, dans ce cas, être
activé.
Si « guns » a effectivement été activé, il faut que le sujet l’inhibe par la suite puisque dans l’expression
« teng buns » ce n’est pas « guns » mais bien « buns » qui est produit. Ainsi, si à la suite de cette
inhibition due au prime, on présente le mot « guns », celui-ci devrait être reconnu plus tardivement par
rapport au mot cible « guns » présenté sans amorce.
Les résultats montrent effectivement cet effet d’inhibition qui apparaît pour la cible « guns » après la
présentation de « teng buns ».

On peut donc conclure que l’information utilisée dans un phonème assimilé peut être utilisée pour
anticiper le phonème suivant mais aussi pour moduler l’activation des candidats dans le processus
de compétition lexicale. L’assimilation aide donc le traitement des mots dans des énoncés.

9
 L’assimilation et ambiguïté lexicale
Dans certains cas, le phonème assimilé peut produire une variation dans la forme de surface du mot
donnant lieu à un autre mot ; c’est l’ambiguïté lexicale et donc absence d’assimilation.
Ex : j’ai écrit « vide » sans erreur (en disant vit’).
En français, l’assimilation de voisement est graduelle et asymétrique. C’est-à-dire qu’elle est moins
marquée quand il y a une ambiguïté lexicale potentielle (rate/rade : l’assimilation produit un autre mot
et donc n’aura pas lieu ou sera moins importante) mais est plus complète quand elle donne lieu à un
non-mot (robe/rope : l’assimilation sera forte puisque rope ne veut rien dire) puisqu’un non-mot ne
peut être confondu avec un mot.
En outre, il semble que les consonnes non voisées donnent lieu à une assimilation plus importante que
les consonnes voisées.

C. Le cas de la liaison.
La liaison consiste à réaliser/produire une consonne finale lorsque le mot suivant commence par une
voyelle mais pas lorsqu’il commence par une consonne.
Ex : « petit ami » vs « petit pain », dans ce dernier cas, la consonne finale du mot est muette.
Cette liaison impose à l’auditeur de faire un choix de segmentation afin d’activer le bon candidat
lexical.
Ex : petit avion => pe-ti-ta-vion => peti – tavion (resyllabation)
Il est également possible qu’il y ait ambiguïté dans le sens de la phrase du à l’homophonie.
Ex : il est ouvert vs il est tout vert
« le petit ami » donne « le petit ami » ou « le petit tamis »?

 L’accès à la représentation des mots resyllabés par la liaison


Comment se réalise la représentation des mots resyllabés ?
Il semblerait qu’il n’y ait pas de coût de traitement pour les mots réalisés en situation de liaison.
Il a, par exemple, été montré que le temps nécessaire pour détecter un mot commençant par une
voyelle est équivalent dans les séquences sonores contenant la réalisation liée de ce mot et la
réalisation canonique de ce mot.
Ex : petit éléphant vs joli éléphant, on détecte aussi rapidement le mot éléphant dans les deux cas.

 Le rôle du contexte lexicale


Comment le contexte lexicale intervient pour que la bonne représentation lexicale puisse être
représentée ?
Le contexte lexical pourrait être utilisé pour ne pas écarter les hypothèses lexicales à voyelles initiales.
Par exemple, les sujets pourraient utiliser la connaissance qu’ils ont qu’un mot comme « petit »
possède un /t/ sous-jacent pour la liaison, pour ne pas écarter les hypothèses lexicales à voyelles
initiales (petit éléphant et petit téléphant : on sait que « petit » est fini par un t donc on n’écarte pas la
possibilité du mot suivant « éléphant » malgré qu’il commence par une voyelle).
Une étude de Dejean de la Bâtie et Bradley (1995) confirme cette hypothèse. Ils ont examiné l’effet
des liaisons potentielles sur la rapidité de la détection de phonèmes à l’initial de mots (par ex. « t »)
Ils comparent des conditions de :

10
1) liaison potentiel : excellent tableau
2) non liaison : vrai tableau
Les résultats ont montré que la détection du phonème « t » est plus rapide dans la condition de non
liaison. En fait, les sujets détectent moins rapidement le « t » dans la première condition parce qu’ils
savent que le mot « excellent » se termine par la lettre t. Ils peuvent alors penser que le mot qui suit
peut donner naissance à une liaison avec le « t » final de « excellent ». Ce raisonnement va ralentir la
rapidité de détection de la présence du phonème « t » dans « tableau ».

 Le rôle de l’information acoustique


Le système pourrait également détecter et utiliser des indices acoustiques permettant de différencier
les consonnes de liaison des consonnes initiales.
L’expérience de Wauquier-Gravelines (1996) a pu montrer, grâce à l’analyse acoustiques des stimuli,
que le temps d’occlusion est plus long pour consonne initiale que consonne de liaison et que la durée
totale de la consonne initiale plus longue que celle de la consonne de liaison.
Si l’information acoustique, ici longueur contenue dans le signal, joue effectivement un rôle dans la
résolution des ambiguïtés dues aux liaisons, des énoncés phonologiquement homophones comme
« c’est le dernier oignon vs c’est le dernier rognon »
devraient pouvoir être désambiguïsés par l’auditeur.
L’expérience de Spinelli, McQueen & Cutler (2003) va tester cette hypothèse.
Les sujets sont soumis à tâches de décision lexicale sur des cibles (oignon)
précédées d’amorces ambiguës :
1) « c’est le dernier oignon » : la liaison va traiter le mot oignon par rognon
2) « c’est le dernier rognon » : pas de liaison
Les résultats montrent que l’intention du locuteur (i.e. le mot oignon ou rognon prononcé par celui-ci)
a un effet sur le pattern d’activation de la cible. La détection du mot « oignon » sera plus rapide
lorsque l’amorce est « dernier oignon ».

Ainsi, on observe :
 Une activation de la cible oignon lorsque celle-ci est intentionnellement prononcée dans
l’amorce dernier oignon
 Une activation moindre lorsque la cible n’est pas contenue dans l’amorce dernier rognon
 Une activation du candidat « rognon » plus faible lorsque l’amorce contient son compétiteur
« oignon » dernier oignon que lorsqu’il est prononcé dans l’amorce dernier rognon
En outre, les analyses acoustiques de ces stimuli confirment que les consonnes de liaison sont en
moyenne plus brèves que les consonnes initiales.
Ces résultats confirment le fait que l’information acoustique joue un rôle pour désambiguïser la
situation de liaison. En effet, les énoncés « c’est le dernier oignon » et « c’est le dernier rognon » ne
sont pas identiques; les infos acoustiques qui permettent de les différencier contribuent à résoudre

11
l’ambiguïté. Cependant, l’information acoustique ne suffit pas à elle seule à résoudre l’ambiguïté
causée par la liaison. Par exemple, l’information acoustique ne suffit pas à bloquer totalement
l’activation des compétiteurs (ceux à consonne initiale).
 Cette approche suggère des processus mentaux explicitement dédiés à l’identification d’une
situation de liaison.

Une autre approche consiste à concevoir un listage de toutes les variations phonologiques et les
resyllabations possibles pour un mot donné.
En français, pour un mot à voyelle initiale, la situation de resyllabation est plus courante que la
réalisation avec des consonnes. Le lexique pourrait donc contenir des unités plus grandes que les mots.
On aurait une reconnaissance effectuée pour tout ce qui est resyllabé et non resyllabé puisque le
système aurait stocké toutes les variations possibles d’un mot.
Selon une telle approche, il n’y a aucun processus d’extraction du mot. La reconnaissance est effectuée
puisque le système aurait stocké toutes les variantes possibles des mots à voyelle initiale. Par exemple,
nous rencontrons plus souvent tavion (petit avion), lavion (l’avion), navion (un avion), … pour le mot
avion).

V. Traitement de la continuité de la parole


A. Introduction.
La parole est continue, comme le montre ci-dessous la représentation de l’onde acoustique de la phrase
« il faut ménager sa monture ».

Contrairement à l’écriture dans laquelle les mots sont séparés par des espaces blancs, il n’y a pas
d’indice clair et univoque qui permette de marquer le début et la fin des mots dans la parole.
Du fait de la continuité du signal de la parole, la compréhension de celle-ci doit donc passer par une
étape de segmentation de la chaîne parlée des mots. Le problème de la segmentation se pose dans le
domaine de la reconnaissance des mots mais également dans celui de l’acquisition de la langue
maternelle et de l’acquisition d’une 2ième langue.
Dans l’acquisition de la langue maternelle, on peut se baser sur des unités lexico-sémantique déjà
apprises auparavant pour se repérer dans la segmentation des mots. En revanche, pour un
apprentissage d’une nouvelle langue, nous ne savons pas nous repérer à des mots déjà connus.
Comment a lieu la segmentation, y a-t-il des indices dans la parole sur lesquels elle peut se baser et si
oui lesquels ?
Il existe dans le signal de la parole certains indices acoustiques, métriques, phonotactiques et la
contrainte du mot possible.

B. Les indices acoustiques.


Dans les indices acoustiques, nous retrouvons notamment :
 Longueur des voyelles qui varient selon leur position

12
 Montée de la fréquence fondamentale de la voyelle initiale d’un mot
 Allongement des consonnes en début de mot
 …
Un certain nombre d’expériences montrent que les auditeurs sont effectivement capables d’utiliser ce
type d’indices acoustiques pour segmenter la parole.

 Dumay et al. (1999)


Les sujets de cette expérience doivent détecter le mot « tante » le plus rapidement possible. Pour cela,
deux phrases vont leur être présentées :
 Une contenant le syntagme « Tante roublarde »
 Une contenant le syntagme « temps troublant »
L’expérience a montré que le mot « tante » est plus rapidement détecté dans la séquence « tantrou ».
Ceci suggère que la séquence « tr » présente des caractéristiques différentes selon qu’elle est produite
en resyllabation ou au sein d’une syllabe. Ainsi, ces caractéristiques sont exploitées par les auditeurs
pour segmenter la chaîne parlée.

 Gow & Gordon (1995)


Ces chercheurs ont montré que les mots « two lips » amorçait le mot « kiss » tandis que le mot « tulips
» ne l’amorçait pas. En réalité, le premier « l », c’est-à-dire celui de « two lips », est plus long que le
deuxième « l », c’est-à-dire celui de « tulips ». Cet indice va être exploité par les auditeurs pour
segmenter la chaîne parlée.

C. Les indices métriques.


Les indices métriques se rapportent aux régularités prosodiques de la langue qui pourraient
également être utilisées par l’auditeur pour segmenter le signal acoustique.
L’hypothèse de stratégie de segmentation métrique postule une segmentation du signal de parole à
chaque syllabe forte rencontrée.
Cette hypothèse a d’abord été développée pour l’anglais (Metrical Segmentation Strategy, Cutler &
Norris, 1988). L’anglais qui est une langue à accent possède 2 types de syllabes:
1. Des syllabes accentuées ou fortes qui contiennent des voyelles pleines, cad prononcées
entièrement.
2. Des syllabes faibles qui contiennent des voyelles réduites ou des schwa (how are you : are
devient « e »), cad pas du tout accentuée.
L’étude statistique de la structure prosodique du lexique anglais (Cutler & Carter,1987) a montré
qu’une minorité (9,8%) de mots « contenu », cad porteurs de sens (par opposition aux mots «
fonction »), commence par une voyelle faible.
 Bonne corrélation entre le début des mots et l’apparition d’une syllabe forte
Une certain nombre de résultats expérimentaux en faveur de cette hypothèse mais également d’autres
résultats qui ne la supportent pas.

 Une stratégie de segmentation métrique en Français


Le français n’est pas comme l’anglais une langue à accent. Elle possède certaines régularités
métriques, notamment le fait que les mots se terminent par une syllabe longue.

13
Certaines études ont montré que les francophones pouvaient exploiter le fait que le pattern métrique
des mots français est bref-long pour isoler les frontières des mots. Ainsi, quand lorsque nous
entendons une syllabe longue, nous nous disons qu’on est à la fin d’un mot.

 Une stratégie de segmentation syllabique en Français


La syllabe pourrait être une unité de segmentation en français. Un certain nombre d’études ont en effet
montré que la segmentation était plus aisée lorsque les débuts de syllabe coïncident avec les débuts des
mots.
L’expérience de Dumay, Content & Frauenfelder (2002) utilise une tâche de détection de mot dans un
non-mot pour montrer qu’il est plus facile de détecter un mot lorsque le mot est aligné avec le début
d’une syllabe. Ainsi, le mot « lac » est plus facilement détecté dans
ZUN.LAC que dans ZU.GLAC
En fait, dans le 1er exemple, lac est aligné avec le début d’une syllabe mais pas dans le 2ième exemple.

 Les frontières de groupe phonologique


Les frontières de groupe phonologique est lorsqu’un autre indice intonatif que celui qu’on veut est
susceptible d’être exploité par les auditeurs pour la segmentation.
Exemple de 2 phrases comportant la séquence «chagrin »
(1) [Le livre] [racontait l’histoire] [d’un chat grincheux] [qui avait mordu] [un facteur]
(2) [D’après ma sœur] [le gros chat] [grimpait aux arbres]
Dans les 2 cas, l’accès à la représentation du mot « chat » est susceptible d’être gênée par l’activation
d’un compétiteur « chagrin » également présent dans l’input.
L’expérience de Christophe et al. (2004) utilise une tâche de détection de mot pour montrer que les
auditeurs détectent plus rapidement le mot « chat » dans la phrase (2) que dans la (1).
(1) [Le livre] [racontait l’histoire] [d’un chat grincheux] [qui avait mordu] [un facteur]
(2) [D’après ma sœur] [le gros chat] [grimpait aux arbres]
Ceci suggère que la présence de la frontière de phrase phonologique a facilité l’accès à la
représentation du mot cible « chat ». Phonologiquement parlant, c’est la même chose, mais la frontière
entre les mots/les groupes de mots, permet la segmentation de la parole ; et donc une meilleure
détection du mot
« chat ».
De plus, il existe dans ces deux phrases deux corrélats acoustiques clairs aux 2 conditions :
 La voyelle /a/ de chat est significativement plus longue dans la phrase (2) que dans la (1) =
stratégie de segmentation métrique.
 Au contraire, le /R/ est plus long dans la (1) que dans la (2) = stratégie de segmentation métrique.

D. Les indices phonotactiques.


Il existe dans toutes les langues un ensemble de règles qui régissent la possibilité ou l’impossibilité
de produire certaines séquences de phonèmes dans un signal de parole. Ces règles, intégrées par les
locuteurs au cours du processus d’acquisition de leur langue pourraient être utilisées comme indice de
segmentation de la chaîne parlée.
Donc, si une suite de phonèmes n’est pas autorisée au sein d’une même syllabe (par ex. /lr/ en
français), on peut inférer qu’il y a une frontière de syllabe ou de mots entre les 2 phonèmes (il
regarde).

14
E. La contrainte du mot possible.
Cet indice de segmentation se base sur l’idée selon laquelle le système de reconnaissance évite de
segmenter la chaîne parlée à un endroit où le résidu (= ce qui reste) ne peut pas constituer un mot.
L’expérience de Norris et al. (1997) montre, grâce à une tâche de détection de mots, que le mot « apple
» est plus rapidement détecté dans la séquence « vuffapple » que dans la séquence « fapple ».
En fait, « vuff » pourrait constiruer un mot alors que « f » ne peut à lui-seul pas en constituer un.

VI. Modèles de reconnaissance des mots parlés


Les modèles actuels envisagent généralement la reconnaissance du mot parlé comme un processus
d’appariement entre l’information sensorielle provenant du signal acoustique (i.e. la représentation de
l’entrée) et la représentation lexicale stockée dans un lexique interne.
Nous allons envisager les principaux modèles de reconnaissance des mots parlés.

A. Le modèle de la Cohorte.
La première version de ce modèle, développée par Marlsen-Wilson et Welsh (1978), est celui de Cohort
I. La deuxième version, développée par Marslen-Wilson tente de corriger les limites de la première
version ; c’est le modèle Cohort II.

 Cohort I
Ce modèle a été proposé pour se rendre compte spécifiquement des mots parlés et est adapté aux
propriétés du signal acoustique.
Il postule que le processus de reconnaissance comprend 2 étapes successives essentielles de traitement
des mots parlés :

1. Production de la cohorte initiale du mot cible.


Tous les mots qui s’apparient à la représentation de l’entrée pour le début du mot cible (le premier ou
les deux premiers sons) sont activés. Autrement dit, quand un sujet entend un mot, les mots qui
commencent par le même son que le mot présenté sont activés dans la mémoire du sujet.
Ainsi, plusieurs mots forment des candidats possibles à l’identification (= la cohorte). L’activation
des candidats se fait en tout ou rien : soit le mot fait partie de la cohorte, soit il est exclu.
Exemple : le début du mot « éléphant » va activer « élaborer », « élargir », « élastique », etc.

2. Désactivation progressive de la cohorte initiale du mot cible.


Au fur et à mesure que le système accumule de l’information, c’est-à-dire que le sujet traite les sons
suivants du mot présenté, les candidats possibles ne possédant pas ces sons sont éliminés de la cohorte.
Le traitement continue de la sorte jusqu’à ce qu’il ne reste plus qu’un seul mot possible.
Un mot cible donné est donc reconnu quand il est le seul mot restant dans sa cohorte.
Le point d’unicité est le moment auquel le mot devient l’unique candidat par rapport aux autres mots
du lexique. Il en découle qu’un mot présenté peut être compris avant même le traitement de tous ces
composants.

15
Exemple : dans la continuité du mot « éléphant », le phonème « lé » va pourvoir éliminer les mots
« élastique », « élaborer » et « élargir ». Toutefois, le mot « élégance » va rester un candidat. Ensuite,
le phonème « f » va éliminer tous les autres candidats puisque « éléf » ne peut donner lieu qu’au mot
éléphant. Ainsi, « éléf » est le point d’unicité du mot « éléphant ».

Fig. tirée de Kolinsky, Morais et Segui (1991)

La 1ère étape opère de façon autonome puisque le contexte ne peut ni proposer ni empêcher des mots
contextuellement inappropriés d’y être inclus. En d’autres mots, l’activation se fait uniquement dans le
sens bottom-up (de bas en haut) à partir de la seule information acoustique vers l’information
sémantique.
De la même manière, lors de la seconde étape, seule l’information bottom-up, issue du signal
acoustique est à l’origine de l’élimination des candidats préalablement activés.
Pour les mots présentés en phrase, on suppose que le contexte peut avoir un effet mais uniquement au
niveau de la 2ème étape en éliminant de la cohorte les mots contextuellement inappropriés.

Schéma tiré de Harley (2008)

Le modèle de la cohorte a permis de rendre compte d’un nombre important de phénomènes observés,
par exemple, le fait que les mots soient reconnus rapidement (200 msec.).
Un mot peut en fait même être reconnu avant d’avoir été complètement entendu. C’est le cas des
mots longs grâce à leur point d’unicité, c-à-d au moment auquel la séquence de phonèmes constituant
le mot n’appartient qu’à celui-ci.
Cependant, il a été critiqué à différents niveaux. Il met par exemple fortement l’accent sur le phonème
initial des mots, au point qu’un mot dont le phonème initial serait absent ou dégradé ne pourrait pas
être reconnu. Ce qui dans la réalité n’est pas nécessairement le cas!

16
En résumé, le modèle Cohort 1 se caractérise par le fait qu’il postule à la fois de l’activation et de
l’inhibition ascendante (de manière passive) mais pas d’activation ni d’inhibition descendante. Il ne
postule pas d’activation et d’inhibition latérale, c-à-d intra-niveaux. De plus, Il accorde un statut
privilégié au début des mots ; et le paramètre pertinent pour l’identification des mots est le point
d’unicité.

 Cohort II
Par rapport au modèle Cohort I, trois aspects restent inchangés :
1. La cohorte initiale de candidats lexicaux générée à partir de l’information sensorielle se fait de
manière ascendante.
2. De multiples hypothèses lexicales sont générées.
3. Le traitement est séquentiel.
Dans ce modèle, l’idée de l’activation des candidats lexicaux en tout ou rien est abandonnée.
L’activation des candidats se réalise en termes de niveau d’activation. Un mot fréquemment utilisé
aura ainsi un niveau d’activation plus grand.
De plus, il ne faut plus un appariement parfait entre l’entrée et les représentations lexicales. Ce qui
compte est la qualité relative de l’ajustement. Ainsi, un mot mal prononcé (comme chigarette) pourra
être reconnu malgré le défaut d’appariement du phonème initial. En fait, la représentation de l’entrée
est considérée en termes de traits phonétiques et non plus de phonèmes. Donc s’il y a une différence
d’un trait phonétique (comme dans chigarette, « ch » est proche de « s)), les autres traits partagés sont
quand même activés, alors qu’ils ne le seraient pas si la représentation était considérée en termes de
phonèmes.
En intégrant la notion de seuil d’activation, Cohort II permet de rendre compte des effets de
fréquence. Les mots de haute fréquence lexicale ont un niveau d’activation plus élevé que les mots
rares ; ils sont donc reconnus plus vite que les mots rares, à qualité d’appariement égale.

En résumé, Cohort II postule comme Cohort I à la fois l’activation et l’inhibition ascendante (de
manière passive) mais pas d’activation ni d’inhibition descendante. Il ne postule pas non plus
d’activation et d’inhibition latérale.
Il accorde toujours un statut privilégié au début des mots mais intègre le paramètre de fréquence
lexicale pour l’identification des mots.

B. Le modèle TRACE.
Conçu par McClelland et Elman (1986), ce modèle d’activation interactive est basé sur celui de
McClelland et Rumelhart (1981), dans le domaine de la reconnaissance des mots écrits.
Le modèle TRACE comprend 3 niveaux de représentations :
1) des traits acoustiques
2) des unités phonémiques

17
3) des unités de mots
Les différentes unités sont reliées entre elles pour constituer un réseau et sont organisées
hiérarchiquement. Les connexions facilitatrices se font d’un niveau à l’autre tandis que les
connexions inhibitrices se font au niveau d’un seul traitement.

Le 1er niveau d’unités (traits) est constitué d’un ensemble de détecteurs de traits phonétiques produits
(bilabial, trait occlusif, sonorité,…)
Le 2ième niveau (unités phonémiques) permet d’identifier les phonèmes en fonction de l’activation
des traits, mais aussi à partir de l’activation des mots à un niveau plus élevé (ceci différencie le modèle
TRACE des modèles Cohort).
Le 3ième niveau (unités lexicales) permet l’activation des mots. La puissance avec laquelle un
phonème active un mot dépend du niveau d’activation de base (repos) du phonème en question et de la
force du lien entre les 2 unités.
Exemple : la perception d’un trait voisé dans le signal de la parole va activer tous les phonèmes voisés.
De même, la perception d’un phonème va activer tous les mots qui contiennent ce phonème quelles
que soient la longueur du mot et la position du phonème dans le mot.
Un mot va ensuite être choisi parce qu’il est plus facilement activé et parce qu’il fait sens.
Lorsqu’un mot est activé, il va en retour activer les phonèmes contenus dans ce mot ; c’est la
rétroaction d’activation descendante. Ce mécanisme tend à renforcer l’activation des unités déjà
activées mais également des unités qui n’auraient pas été correctement perçues en raison, par exemple,
d’un signal de mauvaise qualité.
Parallèlement à ces mécanismes d’activation, des inhibitions intra-niveaux sont également actives.
Elles vont permettre, si un phonème est activé, que tous les autres phonèmes soient inhibés ; de même
en ce qui concerne les mots. Le degré d’inhibition des unités entre elles dépend :
1) de la force des connexions
2) du niveau d’activation de l’unité inhibitrice
3) du recouvrement entre les unités
 Les unités les plus activées ont donc tendance à inhiber les moins activées, ce qui permet la
réduction des hypothèses lexicales.
Un mot est finalement reconnu quand son niveau d’activation est significativement plus élevé que
celui de tous les autres mots à un moment donné, c-à-d quand sa probabilité de reconnaissance dépasse
un certain seuil, déterminé par la règle de Luce (1959).
= la probabilité de réponse d’une unité particulière est calculée en divisant la force de réponse
de cette unité par la somme des forces de réponse de toutes les unités pour un temps donné.

18
Contrairement au modèle Cohort I et II, TRACE n’accorde pas de statut privilégié au début des mots.
TRACE postule un alignement exhaustif : à chaque phonème activé, le système active tous les mots
contenant ce phonème. L’ensemble des entrées lexicales activées change donc constamment, les
hypothèses non appropriées étant rejetées par un mécanisme d’inhibition.
En résumé, le modèle TRACE se caractérise par le fait qu’il postule à la fois de l’activation ascendante
et descendante (interactivité) ainsi que de l’inhibition latérale. Il n’accorde pas de statut privilégié au
début du mot et postule l’alignement exhaustif.

VII. Les effets de contexte


La reconnaissance des mots parlés ne dépend pas que de l’information calculée à partir du signal
acoustique ; elle dépend aussi d’informations contextuelles.

A. Le contexte phrastique : influence sémantique et syntaxique sur l’activation


lexicale.
Pour étudier les effets du contexte phrastique on peut utiliser, par exemple, des homophones (maire /
mère / mer) ou des homonymes (avocat) qui sont ambigus lorsqu’ils sont présentés seuls puisqu’ils
font référence à plusieurs sens possibles.
En fait, quand on présente des items ambigus sans contexte, les deux sens sont activés (Spinelli &
Alario, 2002). On peut ainsi examiner si un contexte donné précédent un item ambigu permet de
restreindre l’accès à une seule de ses acceptions.
Exemple : présentation de « vase »
Le sens relié à « la vase » et à « le vase » sont activés.

Le contexte permet-il de restreindre l’activation à un seul sens de l’item ambigu?


Notons que l’on peut distinguer
 Le contexte sémantique véhiculé par le sens général de la phrase
 Le contexte syntaxique donné par les règles grammaticales d’accord ou d’agencement des
items dans la phrase
Dans l’exemple, l’accès à une acceptation correcte va dépendre du contexte sémantique et du contexte
syntaxique de la phrase dans laquelle il se trouve.
« Elle a mis les tulipes qu’on lui a offertes dans un vase. »
Le contexte sémantique : on met généralement les fleurs dans un vase.
Le contexte syntaxique : l’accord de genre
Certaines études ont en fait montré un accès exhaustif, c-à-d l’accès à tous les sens d’un item ambigu
malgré le contexte qui le précède. D’autres au contraire ont montré un accès sélectif , c-à-d à un des
sens de l’item ambigu en accord avec le contexte qui le précède.

B. Les effets du contexte sur la perception des phonèmes.

19
 Effet du contexte lexical
Au sein d’un mot, on a un phénomène de restauration phonémique : les auditeurs ne font pas la
distinction entre une séquence de parole intacte et une séquence dans laquelle un des phonèmes a été
remplacé par du bruit.
De plus, un même phonème est plus facilement détecté dans un mot que dans un non-mot.

 Effet du contexte de la langue


La connaissance des régularités phonologiques de notre langue influence la perception des phonèmes.
Ainsi, si on demande à des auditeurs d’identifier un phonème ambigu (placé sur un continuum entre
deux phonèmes, par ex. l-r), ils vont avoir tendance à donner une interprétation du phonème ambigu
qui préserve les contraintes phonotactiques de leur langue.
Exemple : chez des anglophones, un même phonème entre l et r sera perçu « r » dans la séquence t(r-
l)i car tl est une séquence illégale en anglais. Par contre, cette séquence donnera une interprétation « l
» dans la séquence s(r-l) car sr est une séquence illégale en anglais.

20
Chapitre 2 : la reconnaissance des mots en modalité écrite.

I. L’écriture
A. Caractéristiques.

 Historique
Selon le Larousse, l’écriture est un système de signes graphiques servant à noter un message oral afin
de pouvoir le conserver et/ou le transmettre. Elle est une invention relativement récente dans l’histoire
de l’humanité dont les premières traces datent de fin du 4ième millénaire av. J-C en Mésopotamie dans
la région de Sumer (actuellement l’Irak). L’écriture est donc dite plus récente par rapport au langage
oral qui, chez l’homo Sapiens, est daté entre 150.000 et 100.00 ans avant J-C.

L’écriture est apparue pour répondre à la demande d’une utilisation par des scribes sumériens pour
consigner des informations de type administratif sur des tablettes d’argile au moyen de stylets de
roseau.

Tablette pictographique sumérienne, fin du 4ième millénaire, Musée du Louvre

 Ecriture vs parole
L’écriture se distingue du langage oral (parole) par un certain nombre d’aspects (voir Bonin, 2013) :
1) Toutes les communautés humaines possèdent un langage oral mais pas nécessairement un
système d’écriture.
2) L’acquisition de la parole précède l’acquisition de l’écriture.
3) L’acquisition de la parole se fait spontanément pourvu que l’enfant soit exposé régulièrement
à celle-ci tandis que l’acquisition de l’écriture requiert un apprentissage formel et relativement
long.
4) L’écriture est considérée comme « moins naturelle » que le langage oral.

B. Systèmes d’écriture actuels.


On distingue des systèmes d’écriture logographiques des systèmes d’écriture phonographiques.
 Systèmes d’écriture logographiques = le signe graphique représente le mot ou le morphème.
 Systèmes d’écriture phonographiques = le signe graphique représente la structure sonore de
la langue au niveau :
 du phonème = écriture alphabétique
 de la consonne = écriture consonantique
 de la syllabe = écriture syllabique

21
 Les systèmes logographiques
L’unité graphique représente le mot : son sens et sa prononciation. Les signes représentent donc des
concepts.
C’est notamment le cas pour le Kanji japonais et le Chinois.

Extrait de la dia 17

 Les systèmes d’écriture alphabétiques


L’unité graphique représente, le plus souvent, un phonème ou, plus rarement plus.
Exemple : en français pour un phonème: a correspond à /a/, in correspond à /R/, p correspond à /p/.
Mais parfois plus qu’un phonème : « x » correspond à /ks/ comme dans « taxi » ou /gz/ comme dans
« examen ».
L’unité graphique correspondant à un phonème s’appelle le graphème et est composé d’une ou de
plusieurs lettres
Exemple : en français, a, ch, in, eau sont des graphèmes.

Il existe différents types d’alphabet dans le monde comme les alphabets latin, cyrillique, grec, arabe,
hébreu, … Ces différents alphabets correspondent à différents scripts ou écritures alphabétiques où le
phonème est donc représenté par un graphème.
Exemples de lettres dans différentes écritures alphabétiques :
Latine : a b c d e f g h i j
Cyrillique : а б в г д е ж з и
Grecque : α β δ ε ζ η θ ι κ λ
Arabe : ‫ض ص ش س ز ر ذ د خ ح ج ث ت ب ا‬
Hébreu : ‫כּ ך י ט ח ז ו ה ד ג בּ ב א‬

Les langues qui utilisent un même alphabet se distinguent par leur code orthographique, celui-ci
définissant les règles de conversion entre les graphèmes et les phonèmes de la langue en question.
Exemple : le graphème « u » correspond au phonème /y/ en français, comme dans le mot musique mais
ce même graphème correspond au phonème /u/ en italien, comme dans musica.
Les codes orthographiques se distinguent en termes de degré de « transparence » ou « opacité » qui
est le degré d’univocité des relations entre graphèmes et phonèmes. Un niveau d’univocité élevé
correspond à un degré de transparence tandis qu’un niveau d’univocité faible renvoie à un degré
d’opacité.
 Le degré de transparence est lorsqu’un graphème ne donne qu’un seul phonème, et vice versa.
 Le degré d’opacité est lorsqu’un graphème donne différents phonèmes, et vice versa.

22
Exemple : l’Italien est transparent car chaque lettre correspond à un seul phonème et vice versa.
un graphème = un seul phonème => en lecture i = /i/
un phonème = un seul graphème => en écriture /i/ = i
L’Anglais est opaque car un graphème donne différents phonèmes et inversement.
un graphème = différents phonèmes => en lecture ea => ? great, head, team
un phonème = différents graphèmes => en écriture /i/ => ? me, feel, team
Le Français est assez transparent dans le sens graphème = un phonème, c’est-à-dire dans le sens de la
lecture ; mais est opaque dans le sens phonème = différents graphèmes, c’est-à-dire dans le sens de
l’écriture.
Ex : Le son /D/ donne laine, reine, tête, scène, coquet

 Les systèmes d’écriture consonantiques


L’unité graphique représente essentiellement les consonnes. Tous les sons ne sont donc pas
représentés mais peuvent l’être par des signes diacritiques, cad par des signes placés au-dessus de
certains signes.
C’est notamment le cas pour l’Arabe et l’Hébreu.

 Les systèmes d’écriture syllabiques


L’unité graphique représente la syllabe. Plusieurs signes graphiques correspondent donc à une syllabe.
C’est notamment le cas pour l’ Hiragana et le Katakana japonais.

23
II. Méthodes d’investigation de la reconnaissance visuelle
des mots
A. L’étude des mouvements des yeux.
Lors de la lecture, les mouvements effectués par les yeux ne sont pas réguliers. Ils sont caractérisés par
des saccades, entrecoupées de périodes immobiles, que l’on appel fixations, et parfois de mouvements
de régressions.

 Les saccades
Elles durent de 20 à 60 ms et couvrent en moyenne 7 à 9 lettres. Elles ne donnent que peu
d’informations puisque l’œil ne capte qu’une partie des informations durant ces périodes. Toutefois,
elles permettent d’amener les caractères à décoder en vision fovéale, là où l’acuité visuelle est la plus
élevée (puisque cette zone est très riche en cellules nerveuses).

 Les fixations
Elles durent entre 200 et 250 ms. Elles occupent 90% du temps puisque nous fixons des mots, ce qui
amène à dire que nos yeux sont stationnaires.
Les fixations correspondent aux périodes pendant lesquelles nous traitons l’information pertinente
pour comprendre ce que nous lisons.
Au niveau du point de fixation, seules 4 ou 5 lettres sont identifiées, les autres situées à la périphérie
n’étant perçues qu’en vue de la préparation de la fixation suivante : 3 à 4 lettres se trouvent à la gauche
du point de fixation et 6 à 15 lettres se trouvent à sa droite dans les écritures qui se lisent de gauche à
droite (et l’inverse pour les écriture de droite à gauche).

 Les régressions
Les régressions sont les mouvements de retour en arrière, parfois tellement brefs que nous n’en
sommes pas conscients. Elles ont lieu en cas d’erreurs ou de nécessité de vérifier ce qui a été lu.

24
Mouvements
Point de fixation
Temps de fixation
Régression

B. Les tâches de dénomination (lecture à voix haute).


Dans ce type de tâche, on présente visuellement un mot aux participants et ceux-ci doivent le
dénommer, c’est-à-dire le lire à haute voix.
On mesure le temps de latence de dénomination, c’est-à-dire le temps entre le moment où le mot est
présenté et le moment où le participant commence à le prononcer à voix haute. Les latences de
dénomination sont de l’ordre de 500 ms.
Exemple : temps de latence de « hameçon » est plus long que le temps de latence « table » dû à un
niveau d’activation de base moins haut et donc à un temps plus long pour activer sa représentation
graphique.

C. Les tâches de décision lexicale.


Dans ce type de tâche, le participant doit décider si une séquence de lettres qui lui est présentée
visuellement correspond à un mot écrit ou pas (non-mot ou pseudo-mot).
Les stimuli sont présentés en général sur un écran d’ordinateur et le participant doit appuyer le plus
rapidement possible sur une touche donnée du clavier lorsque le stimulus est un mot et une autre
touche quand il s’agit d’un pseudo-mot. On mesure le temps de réaction et les erreurs du sujet.
Exemple : appuyer sur le bouton droit pour dire que cotril est un pseudo-mot mais appuyer sur le
bouton gauche pour dire que hameçon et table sont des mots.

D. Les tâches de priming (ou amorçage).


Dans ce type de tâche, on présente un mot avant le mot cible auquel une réponse doit être donnée par
dénomination ou décision lexicale. Le 1er mot est le prime ou l’amorce et le second est le mot cible.
Le temps écoulé entre le début de la présentation de l’amorce et le début de la présentation de la cible
se nomme SOA ou Stimulus Onset Asynchrony.
On observe l’effet de l’amorce sur la réponse à la cible en comparant une amorce liée à la cible à une
amorce neutre non liée à la cible (pas d’effet). Amorce et cible entretiennent différents liens :
 Sémantique (homme / femme)
 Phonologique (peau / tôt)
 Orthographique (peine / veine)
 Identité = priming de répétition où l’amorce et la cible sont le même mot (homme / homme)
 …
Le résultat de l’amorçage est une accélération ou ralentissement de la réponse.
La manipulation du lien entre l’amorce et la cible, et le SOA donnent des informations sur la manière
dont la reconnaissance visuelle des mots a lieu.

25
Exemple : amorce « homme » et mot cible « femme » : lien sémantique entre homme et femme.
Lorsqu’on active le mot homme, il est activé dans le réseau sémantique. Alors le mot « femme »
recevra un niveau d’activation plus haut, permettant le traitement de ce mot plus rapidement que s’il
avait été présenté seul. Ici, effet d’amorce = accélération.

Illustration de l’utilisation du paradigme d’amorçage (Sprenger-Charolles et Colé, 2003)


Quand un mot est lu, trois codes essentiels sont activés par rapport à ce mot :
1) un code orthographique = identité des lettres et combinaison de celles-ci
2) un code phonologique = identité des phonèmes et leur combinaison
3) un code sémantique = ensemble des connaissances conceptuelles nécessaires à la
compréhension de ce mot
En étudiant le décours temporel de l’activation de ces trois codes à l’aide de la technique d’amorçage,
on a pu montrer que :
1. Lors de la présentation visuelle des mots, l’activation des codes orthographiques et
phonologiques des mots écrits est extrêmement rapide.
2. L’activation des codes orthographiques est plus précoce que celle des codes phonologiques .
3. L’activation des codes sémantiques des mots est plus tardive que celle des codes
phonologiques et orthographiques.
Autrement dit, le traitement orthographique est le premier traitement. Il est suivi du code
phonologique, suivi lui-même par le code sémantique.

III. Modèles de la lecture à deux voies


Pour rappel, il existe deux voies de lecture :
1. Une voie directe (lexicale, adressage) qui est utilisée pour lire les mots familiers réguliers ou
irréguliers.
Ex : table (régulier) ou femme (irrégulier).
2. Une voie indirecte (par conversion grapho-phonémique) qui est utilisée pour lire des
séquences régulières des mots réguliers ou des non-mots.
Ex : table (mot) ou rimotu (non-mot).

A. La lecture des mots à voix haute : composants impliqué dans la voie directe.

26
 Le système d’analyse visuelle
Entrée : stimulus écrit qui est une série de traits graphiques qui composent les lettres.
Traitement : activation de la représentation abstraite correspondant à chacune des lettres composant le
stimulus écrit (identification de chaque lettre) et encodage de la position de chaque lettre dans la suite
de lettres.
Sortie : le produit de cette analyse visuelle est la représentation graphémique du stimulus écrit.

 Le lexique orthographique d’entrée


Entrée : représentation graphémique du mot écrit produite à l’étape précédente
Ce sous-composant stocke la représentation orthographique (ou unité de reconnaissance visuelle) de
chacun des mots écrits familiers au sujet, c’est-à-dire déjà rencontrés auparavant et qui ont pu être
mémorisé ou une représentation graphique a pu être crée auparavant.
Traitement : la représentation graphémique du mot écrit va activer l'unité de reconnaissance visuelle,
c’est-à-dire la représentation orthographique (si elle existe) correspondant au mot écrit et celui-ci va
être reconnu comme étant un mot familier.
Si le lexique orthographique d'entrée ne contient pas d'unité correspondant au mot écrit, cette unité ne
pourra évidemment pas être activée et le mot écrit ne sera pas reconnu, il s’agira donc d’un pseudo-
mot ou d’un mot d’une langue étrangère.
Sortie : représentation orthographique du mot activée
Notons qu'à ce stade, les seules informations que le lecteur possède sur le mot sont que celui-ci est ou
non familier ! Il n'a encore aucune information quant au sens du mot.

 Le système sémantique
Entrée : représentations lexicales orthographiques des mots mais aussi des représentations dans
d’autres modalités. En effet, ce système stocke les représentations sémantiques correspondant aux
mots indépendamment de leur modalité.
Traitement : activation des caractéristiques sémantiques correspondant au mot lu => accès au sens de
ce mot
Sortie : représentation sémantique correspondant au mot lu, est activée et le mot compris.

 Le lexique phonologique de sortie


Ce lexique stocke les représentations phonologiques des mots, c’est-à-dire la forme orale des mots.
Diverses entrées sont possibles outre le système sémantique.
Traitement : activation de la représentation phonologique correspondant à la représentation sémantique
évoquée dans le cas de la production orale spontanée.

 Le buffer phonologique
Ce système stocke temporairement les différents phonèmes constitutifs du mot à prononcer ainsi que
la position de ces phonèmes dans le mot, le temps que se réalisent les différents traitements qui vont
permettre l’articulation effective des différents phonèmes du mot en une forme phonologique globale.

27
B. La lecture des mots à voix haute : composants impliqués dans la voie indirecte.

 La conversion graphème-phonèmes
Pour que la conversion grapho-phonémique puisse avoir lieu, il faut tout d'abord que la représentation
graphémique produite à l'étape précédente soit segmentée en unités sous-lexicales. Il faut donc la
segmenter en lettre ou groupe de lettres correspondant à un graphème.
Ainsi isolées (par exemple, t-r-ain pour « train »), elles pourront alors être transformées par
l'application de règles de conversion en unités phonémiques (/t/-/r/-/R/).
Enfin, ces dernières seront assemblées en une représentation phonologique complète (/trR/).

 Le buffer phonologique
Les différentes unités phonologiques sont maintenues le temps d’articuler les quelques phonèmes en
une unité phonologiques globale.

C. Conséquences de l’altération sélective d’une des deux voies de lecture.


Altération sélective de la voie lexicale : difficultés ou incapacité à lire les mots irréguliers (femme)
mais préservation de la capacité à lire les mots réguliers (table) et les pseudo-mots (rimotu) via la voie
d’assemblage (ou de conversion grapho-phonémique)
 Profil de dyslexie de surface
Altération sélective de la voie d’assemblage : difficultés ou incapacité à lire les mots non familiers,
mots rares ou pseudo-mots (rimotu) mais préservation de la capacité à lire des mots familiers
réguliers (table) ou irréguliers (femme) via la voie de d’adressage.
 Profil de dyslexie phonologique

IV. Implémentation d’un modèle à deux voies : le modèle à deux


voies en cascade.
Ce modèle est issu du modèle « Dual-Route Cascaded-DRC-Model of reading » de Coltheart et al.
(1993) qui constitue une des premières simulations informatiques d’un modèle à deux voies.

28
A. Qu’est-ce qu’une implémentation de modèle ?

On a présenté des mots de fréquence et de régularité différentes à des participants. Ensuite, on a


mesuré le temps de lecture et la qualité de lecture de ces mots.
Les résultats ont montré qu’il existait un effet de fréquence pour les mots irréguliers mais pas pour les
mots réguliers. Ainsi, les mots irréguliers seront mieux lu lorsqu’il seront fréquents.
 Interaction entre la régularité des mots et la fréquence des mots.

Pour expliquer cette interaction, le modèle ci-dessous va être rédigé.


Ce modèle postule que les deux voies fonctionnent en parallèle lors de la lecture de mot ; c’est-à-dire
que les deux voies sont activées lors de la lecture. Au final il y aura donc une activation des phonèmes
de la représentation phonologique du mot ; phonèmes qui vont être produits.
Pour les mots fréquents et irréguliers, les deux voies fonctionnent en parallèles mais la voie
d’adressage va être plus rapide puisque la représentation orthographique de ces mots est déjà très
activée. Ainsi, avant que le système graphème-phonème n’agisse, le mot est déjà produit via la voie
d’adressage.
Pour les mots rares et irréguliers, la représentation orthographique est beaucoup plus lente. Il se peut
alors qu’avant que la voie d’adressage n’ait produit les phonèmes des représentations phonologiques
de ces mots irréguliers, la voie grapho-phonémique a déjà traité l’information. S’en suit une
compétition entre les phonèmes différents activés ce qui va ralentir la production du mot, voir donner
court à des erreurs.
Ceci explique pourquoi l’effet de fréquence est présent chez les mots irréguliers mais pas chez les
mots réguliers.
Ce modèle, avec ses caractéristiques, est ensuite implémenté dans un programme informatique qui va
reproduire les effets des résultats expérimentaux par simulation. Cette simulation va être comparée
avec les résultats expérimentaux des sujets humains.
Si les simulations sont semblables aux résultats expérimentaux, le modèle est décrété comme valide .
Les résultats peuvent donc être expliqués par ce modèle.

B. Le modèle à deux voies en cascade.


Le modèle à 2 voies en cascade a la forme générale de l'architecture fonctionnelle des modèles
standards à deux voies avec:
 Une procédure lexicale (directe, par adressage).

29
 Une procédure sous-lexicale (indirecte, par assemblage, par conversion grapho-phonémique)
Mais dans ce modèle, les traitements sont interactifs avec une propagation de l’information se
déroulant en cascade.

Pour rappel, le mode de transmission de l’information au sein des modèles classiques (ou standards) à
deux voies est séquentiel et unidirectionnel. L’information doit être entièrement traitée pour pouvoir
être transmisse en aval. Ajoutons aussi que l’information est soit traitée complétement, soit pas du tout
par les processus, le mode de transmission obéit donc à la loi du tout ou rien. De plus, la transmission
se fait de manière bottom-up (unidirectionnel donc), c’est-à-dire en partant de la périphérique pour se
diriger vers le centre.
Dans les modèles interactifs, la propagation de l’activation se fait en cascade et de manière
bidirectionnelle. En fait, le commencement du traitement d’un niveau stimule déjà le niveau
supérieur. De plus, des interactions entre les niveaux sont possibles ; c’est là la caractéristique
bidimensionnelle.

En terme d’implémentation du modèle, les informations données au programme sont :


 La procédure lexicale a à sa disposition une base de données qui lui est fournie comme
support pour identifier les stimuli orthographiques
 La procédure sous-lexicale est soumise à un paradigme d'apprentissage qui doit lui permettre
d'acquérir des règles de conversion graphèmes-phonèmes.

C. La procédure lexicale : Coltheart & Rastle, 1994.


Le système de détecteurs de traits graphiques contient
une série de détecteurs de traits correspondant aux
traits horizontaux, verticaux, obliques etc. constituant
les lettres.
Le système de détecteurs de lettres contient, comme le
modèle de McClelland & Rumelhart, une série
complète de 26 unités de détecteurs de lettres pour
chacune des positions possibles des lettres dans un
mot.
Donc à chaque position (par exemple la première
lettre), il existe 26 unités de détecteurs de lettres.
Le système de détecteurs de mots contient des unités
correspondant à des mots monosyllabiques et
composés d’au moins deux lettres.
 Base fournie au modèle où les mots sont issus
d'une base de données linguistiques de l’anglais et sont
au nombre de 7991.

30
Toutes les unités de détecteurs de lettres sont connectées avec toutes les unités de détecteurs de mots.
Une connexion entre un détecteur de lettre et un détecteur de mot est activatrice quand le mot contient cette lettre part
Par ailleurs, toutes les connexions sont bidirectionnelles : allant du détecteur de lettre vers le détecteur de mots et inve
Exemple : la vision de la barre verticale active la lettre A. Cette
activation du détecteur de lettre A va elle-même activer les mots commençant par A comme « able ». En même temp
« trap » afin d’inhiber ce dernier. De même, le détecteur de mots « able » va se connecter au détecteur de lettre N afin

Le modèle d’activation interactive identifie les mots selon les étapes suivantes de traitement (pour le
mot PAGE) :
1. Comme la lettre P comporte un trait vertical gauche, le détecteur de ce trait va s’activer.
2. Par son activité, ce détecteur de trait va déclencher tous les détecteurs de lettres qui
contiennent un trait vertical gauche : P, B, D, C, E, F, H, L, M….
En même temps, il va inhiber les détecteurs de lettres sans trait vertical gauche : J, S, T, Y, Z, …
3. Comme la lettre P comporte également un trait horizontal haut, le détecteur de ce trait va
s’activer et, de ce fait, déclencher les détecteurs de lettres comprenant ce trait ; tout en
inhibant les autres.
Ainsi, dans la série de lettres précédemment activées par le trait horizontal gauche seront,
certaines lettres seront davantage activées : B, C, D, E,… Tandis que H, L et M commenceront à
être inhibées puisqu’elles ne contiennent pas de trait horizontal haut.
Le système est conçu de manière à pouvoir traiter et donc identifier chacune des lettres
simultanément. Très rapidement après la présentation du mot PAGE, les détecteurs de traits auront
activé le jeu des quatre détecteurs de lettres appropriés et inhibé les autres.
4. Une fois que les unités P, A, G, E du système de détecteurs de lettres commencent à être
activées, elles vont, à leur tour, activer les unités du système de détecteurs de mot.
Dans la mesure où l’activation se fait en cascade à travers les différents niveaux de traitement, dès
que les unités d’un niveau déterminé commencent à être activées, elles déclenchent l’activation
des unités des niveaux supérieurs.
Ainsi, quand le mot PAGE est présenté au modèle, le détecteur de lettres correspondant au P
initial active l'unité du système de détecteurs de mots correspondant à PAGE, mais déclenche
également une certaine activation au niveau d'autres unités commençant par P : PILE, PALE,
PURE etc.
PALE a trois lettres en commun avec PAGE, il sera donc fortement activé par ce dernier.
Cependant, tandis que l'unité PALE au niveau du système de détecteurs de mot sera activée par les
détecteurs de lettres P, A, et E, elle sera inhibée par le détecteur du G.

Pour résumer,
Les unités-lettre activent les unités-mot pour les mots dont elles font partie et elles inhibent ou
suppriment l'activité des unités de reconnaissance pour les mots dont elles ne font pas partie. Par
ailleurs, les unités actives au sein d'un système s'inhibent mutuellement.

31
Chaque unité de détection de mots a un niveau d'activation de repos en rapport avec la fréquence
d'occurrence du mot qu'elle représente. Quand un mot est présenté au modèle, le détecteur de mot
auquel il est associé atteindra d'autant plus rapidement son seuil d'activation que le mot est fréquent
puisque, dans ce cas, son niveau d'activation de base est plus élevé.

 Effet de supériorité
Grâce à ce modèle, il est possible d’expliquer le phénomène d’effet de supériorité du mot. En fait, un
mot est plus facilement traité qu’un non-mot car l’activation des lettres du mot va donner activation
des mots contenant ces lettres tout en revoyant cette activation vers le bas. Ainsi, les autres lettres des
mots activés par le détecteur de lettre activé précédemment vont inhiber les lettres qui ne les
constituent pas. L’inhibition des lettres ne constituant pas les mots activés déjà connus permet de
traiter plus rapidement les mots connus.
Exemple : TRIP vs TREP
Le barre verticale va activer le détecteur T. A son tour, il va activer les mots Trap et Trip qui sont déjà
connus. Ces deux mots vont alors inhiber les détecteurs de lettres G et S puisque ces lettres ne sont pas
contenues dans ces mots connus. Ceci va permettre de reconnaitre plus vite le mot TRIP par rapport au
non-mot TREP.

 Le lexique phonologique de sortie et système de phonèmes

Le lexique phonologique de sortie contient une unité


pour chacun des 7127 mots monosyllabiques
phonologiquement distincts de la base de données
utilisée.
Le "système de phonèmes" comprend six séries d'unités
de représentation des phonèmes, une série pour chaque
position phonémique possible dans une prononciation
(aucun mot monosyllabique ne contient en fait plus de
six phonèmes dans la base de données de référence).

Le nombre d'unités du lexique phonologique de sortie est moindre que celui du lexique
orthographique d'entrée à cause de l'existence d'homophones. Ceux-ci ont, en effet, des représentations
distinctes dans le lexique orthographique d'entrée parce que leur orthographe est différente mais ont
une représentation unique dans le lexique phonologique de sortie parce qu'ils se prononcent de la
même manière. Par exemple, "pain" et "pin" sont des représentations orthographiques distinctes
possédant la même représentation phonologique.
Plus rarement, il existe des homographes hétérophones qui ont une représentation commune dans le
lexique orthographique d'entrée connectée à des représentations distinctes dans le lexique
phonologique de sortie, une pour chacune des prononciations possibles. Par exemple le mot "fils" a
une représentation orthographique à laquelle correspondent deux représentations phonologiques
possibles, /fil/ et /fis/
A part ces cas d'homophones et d'homographes, les connexions entre le lexique orthographique
d'entrée et le lexique phonologique de sortie sont de type bijectif (exacte correspondance) :

32
Une unité dans le lexique orthographique d'entrée a une connexion activatrice directe et bidirectionnelle
avec l'unité qui lui est associée dans le lexique phonologique de sortie.

Chaque série du système de phonème comprend 44 unités-phonème différentes plus une unité-
phonème zéro qui permet de coder la fin d’un mot. Chaque unité-phonème est connectée à toutes les
unités-mot du lexique phonologique de sortie. Ces connexions phonème-mot sont activatrices quand
le mot possède ce phonème dans la position correspondante, les autres connexions sont inhibitrices.
Toutes les connexions unité-phonème/unité-mot sont bidirectionnelles.

D. La procédure sous-lexicale (grapho-phonémique).

Les étapes de traitement prélexical sont communes à la procédure lexicale et sous-lexicale. Une fois
les lettres identifiées par les systèmes de détecteurs de traits et de détecteurs de lettres décrits
précédemment, la procédure sous-lexicale convertit la suite de lettres en une suite de sons.
L'unité orthographique sur laquelle le DRC opère est le graphème, c’est-à-dire la représentation
graphique du phonème, et peut donc être constitué d'une à plusieurs lettres). La conversion est ainsi
effectuée en utilisant des règles de conversion graphème-phonème (CGP).
Les concepteurs du modèle n'ont pas fixé les règles CGP a priori, il n’y a donc pas de code prédéfinit
qui dicte, par exemple, que la lettre i donne le son i. En réalité, les chercheurs ont développé un
algorithme qui permet au système d'apprendre automatiquement ces règles en étant exposé à des
formes écrites associées à leur prononciation. Il est ensuite capable d'appliquer ces règles à de
nouvelles séquences qu'il n'a jamais rencontrées auparavant et de produire une suite de phonèmes
appropriée à la suite de lettres présentée.
Illustration de la procédure :

Séquence de lettres Séquence de sons Déduction du système

PAPA /papa/ P = /p/ et A = /a/

MARI /mari/ M = /m/, R = /r/, et /I/ = i

MAMAN /mamS/ vu la création des règles précédentes, dans MAMAN, AN


= /S/

33
Le modèle DRC a été entraîné au moyen des 2897 mots sélectionnés par Seidenberg et McClelland
(1989) pour l'entraînement de leur modèle connexionniste. Comment cela fonctionne-t-il ?
1. Les mots sont présentés de manière aléatoire.
2. Pour chaque mot, l'algorithme déduit toutes les règles CGP qui décrivent la relation entre
l'orthographe du mot et sa prononciation.
3. La base de règles progressivement créée est mise à jour chaque fois qu'une nouvelle règle est
rencontrée.
4. La fréquence à laquelle une règle est rencontrée est notée.
5. Chaque règle s'associe un autre type de règle qui indique la position du graphème dans le mot
à partir duquel la règle a été créée.

E. Résultats des simulations.


Il s’agit des résultats de simulation obtenus sur un nombre réduit de stimuli représentatifs. Les
simulations effectuées concernent des effets classiques décrits chez les sujets humains tels que les
effets de régularité, et l'interaction entre régularité et fréquence, l’effet de pseudohomophonie et l’effet
de taille du voisinage orthographique.

 L’effet de régularité
En condition de lecture à haute voix, le taux d'erreurs est plus bas et la latence de réponse plus courte
pour les formes orthographiques régulières que pour les formes orthographiques irrégulières.
Cet effet s'explique facilement dans le cadre du modèle à deux voies en cascade.
La présentation d'un mot active les deux voies et aboutit à l'activation des unités-phonèmes du système
de phonèmes. Les phonèmes activés par les deux procédures :
 seront les mêmes quand le stimulus est un mot régulier (table)
 différeront quand il s'agit d'un mot irrégulier (femme)
La réponse du système dépendra alors de la fréquence du stimulus orthographique puisque lorsqu’un
mot est fréquent, la représentation orthographique puis orthographique sera plus rapidement activée
par la voie lexicale.

34
 L’effet de fréquence et interaction avec l’effet de régularité
La latence de réponse est plus courte si le mot présenté est familier ou très fréquent que s'il est peu
connu ou de fréquence faible.
Pour reproduire l'effet de fréquence observé chez les sujets humains, le niveau d'activation attribué à
une représentation lexicale dans le modèle simulé est fonction de la fréquence d'occurrence du mot
dans la langue.
Activation du système en fonction de la fréquence et de la régularité du mot (interaction) ?

Mot fréquent Mot peu fréquent

Régulier Irrégulier Régulier Irrégulier

table femme commodité solennité

Plus le mot est fréquent, plus son niveau d'activation de repos est élevé et plus rapidement il atteindra
son seuil d'activation dans la procédure lexicale.
Il s'ensuit que la procédure lexicale pourrait avoir généré la prononciation d'un mot de haute fréquence
avant que l'activation des unités-phonème à partir de la procédure non lexicale ait pu se produire. Dans
ce cas, la régularité ne peut pas influencer la performance dans le sens où l'effet de régularité
n'apparaît qu'à travers un conflit au niveau du système de phonèmes entre les activations générées via
chacune des deux procédures.
Avec un choix de paramètres appropriés cependant, l'activation de la voie sous-lexicale par un mot de
basse fréquence peut parvenir au système de phonèmes avant que le traitement lexical n'ait
complètement déterminé la prononciation. Dans ce cas, deux unités-phonèmes différentes seront
activées pour une même position au niveau du système de phonèmes, ce qui, en raison de l'existence
de connexions inhibitrices entre toutes les séries d'unités-phonème, entraînera une inhibition mutuelle
de ces deux unités.
Comme l'activation de l'unité correcte (c'est-à-dire issue de la procédure lexicale) a commencé plus
tôt, elle est plus importante que l'activation de l'unité incorrecte et inhibera davantage celle-ci que cette
dernière ne peut l'inhiber. Elle atteindra donc son seuil d'activation. Néanmoins, l'inhibition qu'elle
aura subie ralentira le moment où ce seuil sera atteint.
La prononciation des mots irréguliers de basse fréquence sera donc retardée par rapport à la
prononciation des mots réguliers associés dont les unités-phonème ne subissent aucune inhibition.
Dans le cas de mots réguliers, la procédure non lexicale accélère plutôt qu'elle ne ralentit
l'accroissement de l'activation des unités phonémiques correctes puisque l'activation provient de deux
sources.
En outre, si la fréquence des mots irréguliers est vraiment très basse, le modèle permet de prévoir que
l'activation via la voie non lexicale pourra parfois atteindre l'étape de production phonémique avant
l'activation venant de la voie lexicale et, dans ce cas, produire une réponse erronée.

 L’effet de pseudohomophonie
Un pseudohomophone, c'est-à-dire un non-mot dont la prononciation est identique à celle d'un mot
réel (par exemple "servau" est un pseudohomophone de « cerveau ») est traité différemment d'un non-
mot qui n'est pas un pseudohomophone (rimotu).

Tâche de décision lexicale


Ainsi, dans une tâche de décision lexicale, la latence de la réponse "non ce n’est pas un mot qui existe
à l’écrit" est plus importante et les erreurs plus nombreuses pour les pseudohomophones que pour
des non-mots non pseudohomophones associés. En réalité, cet effet se limite aux pseudohomophones

35
qui

36
sont orthographiquement très semblables aux mots dont ils sont pseudohomophones (Coltheart,
Patterson et Coltheart,1994).
Coltheart et Rastle (1994) ont présenté au modèle DRC deux non-mots :
 le pseudohomophone « koat » du mot réel « coat » (= manteau)
Ex. en français : menteau
 un non pseudohomophone orthographiquement associé « foat »,
Ex. en français : lanteau
Ils vont démontré que la latence de réponse "non" dans la tâche de décision lexicale est plus élevée
pour le pseudohomophone (koat) que pour le non pseudohomophone (foat).

Pour les auteurs, l'activation de l'unité "coat" par le stimulus "koat" est une conséquence du caractère
interactif du modèle.
Une fois que "koat" a activé ses trois phonèmes dans le système phonème via le système de conversion
graphème-phonème,
la représentation phonologique du mot "coat" dans le système phonologique de sortie sera
activée par les connexions activatrices provenant du système phonème et activera elle-même en
retour l'unité orthographique de "coat" dans le lexique orthographique d'entrée et à travers celle-
ci l'unité-lettre dans la position 1 au niveau du système de détecteur de lettres.
A ce niveau cependant, la lettre k est également activée par le stimulus koat, ce qui va entrainer une
inhibition de la lettre c, inhibition qui va à son tour se transmettre au niveau du système de détecteurs
visuels de mots et inhiber la représentation de coat pour aboutir finalement au rejet de koat comme
étant un mot, dans la tâche de décision lexicale.
Mais ce jeu d’inhibition aura eu pour effet d’augmenter le temps nécessaire pour répondre « non »,
ce qui n’est pas le cas pour un pseudo-mot comme foat puisque celui n’activera pas de représentation
phonologique et donc pas non plus de représentation orthographique associée, même si au niveau du
système de détecteurs de lettres, plusieurs lettres communes seront activées.

37
Si au lieu de "koat", on présente au modèle "kote" qui est également un pseudohomophone de "coat"
mais qui est orthographiquement plus diffiérent,
on observe que la représentation de "coat" dans le lexique orthographique d'entrée ne reçoit
aucune activation.
Cette différence peut s'expliquer par l'existence des connexions inhibitrices entre les représentations de
lettres au sein du système de détecteurs de lettres postulées par le modèle. Ainsi, avec le
pseudohomophone "kote", trois des quatre lettres stimuli, K, T, et E inhiberont les lettres constituant
"coat", ce qui, au total, le maintient non activé.
Par contre, avec le stimulus "koat", seule une lettre, "k", aura un effet inhibiteur alors que les trois
autres lettres activeront l'unité "coat".

Tâche de lecture : latence de prononciation


En ce qui concerne la latence de prononciation (en lecture), on sait qu'elle est plus courte pour les
pseudohomophones que pour les non pseudohomophones.
Ici, on propose de lire des mots et on calcule le temps qu’il faut pour commencer à prononcer le mot ;
c’est la latence de prononciation.
Coltheart et Rastle (1994) ont présenté au modèle DRC une série de 36 pseudohomophones ainsi que
des non-mots de contrôle, et mesuré la latence de prononciation de ces deux types de stimuli. Le
modèle de simulation se comporte de la même manière que les sujets humains puisque :
la latence de prononciation nécessite un plus grand nombre de cycles de traitement pour les non
pseudohomophones que pour les pseudohomophones.

38
L'avantage du pseudohomophone serait dû à l'action des connexions allant du lexique phonologique
de sortie au système phonème.
L'effet de ces connexions serait d'augmenter l'activation des unités-phonème dans le système phonème
quand la série des phonèmes activés à ce niveau comprend la forme phonologique d'un mot qui est
présent dans le lexique phonologique de sortie.
Si on prend « serveau » et « turmin », on commence à transformer la série de lettres en leur
correspondant phonémiques.
Pour « serveau », les phonèmes activés correspondent à une représentation phonologique du mot
« cerveau » qui sera activé. S’en suit, une réactivation des phonèmes dans le systèmes phonèmes par
la représentation phonologique de « cerveau ». C’est cette réactivation qui a un effet sur la
prononciation plus rapide du pseudo-mot.
« turmin » n’ayant pas de représentation phonologique, une réactivation n’est pas possible.
 Activation plus importante des phonèmes qui composent un pseudohomophone.

Coltheart et Rastle ont testé cette hypothèse en réduisant simplement le poids de ces connexions à zéro
dans le modèle DRC. Les résultats confirment l'hypothèse : les non-mots et les pseudohomophones
sont toujours prononcés correctement mais l'avantage du pseudohomophone disparaît quant à la
latence de prononciation.

39
 L’effet de la taille du voisinage orthographique
Cet effet correspond au temps de décision lexicale d'une suite de lettres est affectée par le nombre de
ses voisins orthographiques.
Coltheart et al. (1977) ont défini la taille du voisinage orthographique d'une suite de lettres comme
le nombre de mots réels différents qui possèdent une seule lettre différente de cette suite de lettres (N).
Ex. avec rire qui possède de nombreux voisins orthographiques : dire, cire, lire, pire, mire, rare, ride,
… Ainsi, dans une tâche de décision lexicale, le temps pour dire "non" quand un non-mot est présenté
est
plus long quand la taille du voisinage orthographique (N) est élevé que lorsqu'il est bas.
Par contre dire "oui" face à un mot se fait plus rapidement quand la taille du voisinage orthographique
(N) est élevé que quand il est bas mais seulement si le mot est de basse fréquence. Quand il est de
haute fréquence, N n'affecte pas son temps de décision lexicale.
Cet effet serait dû à l’action des connexions reliant les détecteurs de mots aux détecteurs de lettres
(Andrews, 1992).
Le modèle DRC permet de confirmer cette hypothèse : ainsi, quand on réduit à zéro le poids des
connexions activatrices allant des détecteurs de mots aux détecteurs de lettres, la différence de temps
de décision lexicale entre les mots de basse fréquence ayant peu ou beaucoup de voisins
orthographiques disparaît.

F. Evaluation des performances générales du modèle.


Selon Coltheart et al. (1993), un "bon" modèle de la lecture doit être capable d'expliquer notamment
 Comment le lecteur expert lit les mots irréguliers et les non-mots.
 Comment la tâche de décision lexicale visuelle se réalise.
 Comment la dyslexie de surface et la dyslexie phonologique surviennent.
Pour rappel, les modèles de la lecture à deux voies postulent l'existence d'une procédure d'accès direct
à des représentations lexicales orthographiques et phonologiques stockées en mémoire et d'une
procédure indirecte basée sur l'utilisation d'un système de règles de conversion grapho-phonémique.
La version informatisée du modèle à deux voies, "DRC" :
 Dispose d'une procédure effectivement capable de reconnaître directement les mots si ceux-ci
se trouvent dans sa base de données (base de données de près de 8000 mots fournie au
40
système)

41
 Après avoir été soumis à un paradigme d'apprentissage, le DRC a acquis des règles de
conversion grapho-phonémiques à partir desquelles il est capable de lire environ 97% des non-
mots de listes classiquement utilisées dans les études chez les sujets humains. Autrement dit, il
est capable de lire les non-mots.

La possibilité de réaliser une tâche de décision lexicale s'explique dans les modèles à deux voies par le
fait que tous les mots familiers sont représentés dans un lexique interne mais pas les non-mots.
 La décision lexicale visuelle s'effectue donc en consultant le lexique orthographique d'entrée.
Lorsque le DRC est soumis à des tâches de lecture ou de décision lexicale, il reproduit les effets
obtenus dans les expériences de lecture avec les sujets humains et qui sont dus à des différences de
traitement des stimuli orthographiques en fonction de leurs caractéristiques psycholinguistiques.

En ce qui concerne les dyslexies acquises, il suffit pour simuler la dyslexie de surface que le modèle
fonctionne avec la seule procédure indirecte. Il lit alors correctement les formes orthographiques
régulières au moyen de la procédure indirecte mais pas les irrégulières.
Par contre, le modèle se comporte comme un dyslexique phonologique quand il dispose uniquement
de la procédure lexicale et qu'il ne peut donc lire que les mots qui se trouve dans sa base de données.

Au total, le modèle à deux voies en cascade paraît pouvoir reproduire les principaux comportements
des lecteurs experts ainsi que les configurations de troubles classiques de la dyslexie phonologique et
de surface quand il fonctionne avec une seule des deux procédures dont il dispose.

V. Modèles connexionnistes de la lecture


A lire - Pas matière d’examen

42
Chapitre 3 : la compréhension du langage.

I. Introduction
Pour comprendre un énoncé, il faut l’interpréter, c’est-à-dire donner du sens à l’ensemble des éléments
qui le constituent :
a) A partir de l’analyse syntaxique de la disposition séquentielle des éléments et des relations
qu’ils établissent entre eux.
b) En effectuant des inférences sur base du contenu ainsi que du contexte dans lequel l’énoncé
est émis.
Mais, la plupart du temps, ce n’est pas seulement un énoncé que nous devons interpréter mais bien des
ensembles d’énoncés qui sont reliés entre eux dans le cadre d’un discours (ou d’un texte). Ce discours
va être représenté en mémoire et s’intégrer aux connaissances que nous avons déjà.

II. La compréhension des énoncés


A. L’analyse syntaxique.
Identifier des mots ne suffit pas pour interpréter l’énoncé souhaité.
Exemple : Jean aime Jacqueline ≠ Jacqueline aime Jean => les mêmes mots ne veulent pas dire la
même chose.
En réalité, les mots de l’énoncé doivent être catégorisés en tant que nom, verbe, adjectif, adverbe, etc.
De plus, l’ordre dans lequel ils sont agencés doit être pris en compte.
En fait, au sein de la phrase, les mots sont organisés entre eux selon certaines relations, et sont
affectés de différentes fonctions. Il est dès lors indispensable de repérer ces fonctions afin d’accéder à
la compréhension de la phrase.
Exemple d’analyse : /typVmpaselsDl/
On peut repérer 2 verbes autour desquels s’organisent 2 propositions : tu peux me passer le sel ?
Dans la 1ère : le verbe, un sujet explicite « tu » et un complément qui est la deuxième proposition.
Dans la 2nde: verbe infinitif, sujet implicite « tu », deux compléments attachés au verbe : COD « le sel
» et COI « me ». De plus, le syntagme nominal « le sel » peut être décomposé en : un nom « sel » et un
déterminant « le »
Finalement, l’intonation de la phrase est interrogative (elle aurait pu être marquée par des moyens
syntaxiques – Peux-tu…? – ou lexicaux – est-ce que tu peux…?), avec dans ces cas redondance.

Comment l’auditeur réalise-t-il cette analyse syntaxique?


Il peut en fait s’appuyer sur des indices de différents types :
1) Les catégories grammaticales dont relèvent les mots de la phrase : verbe, nom, pronom,
article, etc…
2) L’ordre des mots : en français, un syntagme nominal sujet précède généralement le verbe et le
suit s’il est complément d’objet direct.
3) Les marques morphologiques : « tu » ne peut qu’être sujet et « me » complément.
4) Des indices sémantiques et situationnels qui peuvent orienter l’analyse syntaxique, voire s’y
substituer.

43
Les procédures mises en places par l’auditeur sont spontanées et inconscientes, ce qui est différent de
l’analyse réfléchie du linguiste.
Au fur et à mesure du déroulement de l’énoncé, les constituants sont extraits en dégageant une
structure préliminaire qui va être progressivement corrigée par la confrontation de ce qui a déjà été
décodé avec ce qui compose la suite de l’énoncé.

B. L’analyse sémantique.
Avant d’aborder l’analyse sémantique d’un énoncé, revenons à la notion de signification des mots.
Une fois les unités de l’énoncé identifiées et leur fonction repérée, il faut interpréter le sens de celles-
ci. La notion de « sens » ou de « signification » renvoie à une certaine réalité mentale attachée au
signifiant linguistique et évoquée par lui.
Cependant, cette réalité est souvent multiple. Un même mot peut en effet souvent avoir de multiples
sens ; c’est la polysémie des langues naturelles. Le contexte impose alors une sélection parmi les sens
possibles.
Illustration de cette difficulté liée à la polysémie
/typVmpaselsDl/ => Tu peux me passer le sel ?
Si chacun des mots composant cette phrase évoque probablement une signification bien définie, il
pourrait donner lieu à une autre interprétation dans d’autres contextes.
Par ex., « passer » : passer un film, passer un col, passer une couche de peinture => sens différents
« pouvoir » peut évoquer une capacité matérielle mais aussi une permission ou une incertitude
« sel » pourrait prendre un autre sens utilisé dans un laboratoire de chimie

Revenons à l’analyse sémantique des phrases.


Les phrases sont constitués d’une série de propositions qui en constituent les contenus.
Proposition = la plus petite unité capable de donner un sens à un ensemble de concepts, en indiquant
les relations qu’ils établissent entre eux.
La proposition est une structure qui se retrouve dans toutes les langues. Elle se compose d’un prédicat
(= élément central dans la phrase) et d’un ou plusieurs arguments.
1) Le prédicat rend compte d’un état, d’une propriété, d’une position ou d’une action.
2) L’argument définit le ou les individus ou les choses.
Qui se trouve dans cet état ?
Qui ont cette propriété ou cette position ?
Qui sont les agents de cette action ?
Donc, les relations que nous avons d’abord repérées entre les mots étaient des relations grammaticales
(sujet, COD, COI, autres compléments du verbe), mais celles-ci renvoient à des relations sémantiques.
Dans l’énoncé « Tu peux me passer le sel », le verbe « passer » considéré d’un point de vue
strictement grammatical, comporte un sujet et des compléments. Mais du point de vue sémantique, il
signifie une action mettant en relation plusieurs objets.
Ainsi, le verbe et prédicat « passer » signifie une action mettant en relation plusieurs objets:
celui qui effectue l’action = Agent
ce qui subit l’action = Objet
celui à qui aboutit l’action = Bénéficiaire

44
On peut donc représenter le verbe « passer » sous forme d’une relation à trois termes , ou en termes
logiques, d’un prédicat à trois arguments.

Le sens de la phrase est ainsi défini à partir du verbe, déterminant des rôles attribués aux différents
éléments spécifiés dans la phrase. On parle d’attribution des rôles thématiques, c’est-à-dire au niveau
du sens il s’agit de déterminer « qui fait quoi à qui… ».
Par exemple, si on a la structure de base: CASSER (Agent: enfant; Objet: vitre; Instrument : caillou)
On peut appliquer des règles grammaticales permettant de dériver différents énoncés possibles :
 L’enfant a cassé la vitre avec un caillou.
 La vitre a été cassée par l’enfant avec un caillou.

Dans une proposition, on peut en plus déterminer :


1) L’action indiquant la relation
2) Celui qui agit, représentant = l’agent,
3) Ce qui fait l’objet de l’action = le patient
4) La cause de l’action
5) Le lieu où se déroule l’action
6) Le moment où elle se passe, etc.
Les propositions vont ainsi être traitées et stockées au fur et à mesure du déroulement du discours,
chaque phrase pouvant dès lors être décrite sous la forme d’un réseau de propositions.
Exemple : Pierre pense que son amie prendra le train qui part de Lyon à 7 heures.
 prédicat pense avec arguments Pierre et amie
 prédicat prendre avec arguments amie et train
 prédicat part avec arguments train, Lyon, 7 heures

C. Référence et repérages énonciatifs.


A ce stade, le sens de la phrase peut paraître suffisamment établi.
Pour reprendre l’exemple de la phrase « tu peux me passer le sel? », on pourrait paraphraser le sens de
la manière suivante :
« Un locuteur A demande à son interlocuteur B si B peut passer le sel à A ».

Peut-on en rester là? L’analyse est-elle suffisante ?

45
En fait, l’énoncé tel que nous l’avons analysé ici reste en quelque sorte une entité abstraite. Pour qu’un
énoncé soit réel, il lui faut un ancrage dans la situation, une référence.
« le sel » renvoie à un concept, celui d’une certaine substance, pourvue de propriétés spécifiques. Pour
l’auditeur, il s’agit non seulement d’évoquer ce concept mais d’en identifier une instance particulière
qui se trouve dans l’environnement physique réel dans lequel on se trouve, de l’identifier de façon
unique comme étant l’objet singulier que vise le locuteur.
En fait, cela suppose que
 Le sens des mots comporte une spécification des procédures de recherche des objets qui leur
correspondent.
 Un accord tacite entre locuteur et auditeur, ce dernier présumant que le 1er a produit son
énoncé de manière à lui permettre d’en identifier les référents de façon univoque.

Les termes « tu » et « me » ne renvoient pas à des concepts mais à l’événement singulier par lequel
l’énoncé est produit : quelqu’un qui parle, moi, quelqu’un à qui l’énoncé est adressé, toi; donc pas
concept absolu, le moi et le toi varient.
Leur sens concerne non pas l’énoncé mais l’acte d’énonciation : « je » (« moi », « me ») désigne celui
qui parle, « tu », celui à qui il s’adresse.
Toutes les langues naturelles comportent un ensemble de termes dont la fonction est de « pointer »
vers des éléments ou des aspects de la situation ou de l’acte d’énonciation ; ce sont les déictiques (du
grec, deixis : acte de montrer, de désigner).
Il existe différents types de déictiques :
1) les marques de personne : référence à celui qui parle (1ère personne) ou à celui à qui il
s’adresse (2ième personne); 3ième personne utilisée pour les personnes qui ne sont pas les
acteurs de l’énonciation
2) les marques temporelles : repèrent l’énoncé par rapport au moment de l’énonciation (temps
verbaux, certains adverbes : maintenant, demain, etc.)
3) les marques localisant l’énoncé par rapport au lieu de l’énonciation (démonstratifs : ceci,
cela; adverbes : ici, là-bas, etc.)
Certains auteurs y ajoutent la « deixis sociale » qui code certaines relations sociales entre les
interlocuteurs (cf la distinction entre le tu et le vous en français) ou encore les termes modaux
(Benveniste, 1970) par lesquels le locuteur qualifie sa prise en charge de l’énoncé (« je crois que… »,
« il est certain que… », « peut-être », etc).
D’autres encore parlent de procédés linguistiques par lesquels est défini le type particulier d’acte de
langage (assertion, ordre, interrogation…) effectué par l’énoncé.

D. L’intention du locuteur.
L’énoncé « tu peux me passer le sel ? » qui a été analysé, soulève un dernier problème.
En fait, cet énoncé est un énoncé interrogatif. En tant que tel, il n’a pas seulement un sens, il a aussi une
fonction communicative: il requiert de l’auditeur une réponse.
Il ne s’agit pas seulement pour le locuteur de produire un énoncé (c-à-d coder linguistiquement une
représentation) mais d’effectuer une action à l’aide du langage.
Tout énoncé est un acte, créant certaines relations nouvelles entre l’énonciateur, son partenaire et le
contenu de l’énoncé.
Une interrogation, un ordre mettent l’interlocuteur en demeure de répondre ou d’obéir.

46
Le fait que tout énoncé est un acte peut être compris de différentes manières:
1) Il s’agit d’un acte locutoire : produire un énoncé nécessite une certaine activité mentale
(choisir les mots, construire une phrase) et physique (articuler l’énoncé).
2) Il s’agit d’un acte illocutoire : dans un énoncé, les règles de la langue définissent un certain
type d’acte, c’est-à-dire une action que le locuteur exerce sur l’auditeur.
3) Il s’agit d’un acte perlocutoire : acte qui a des conséquences voulues ou imprévisibles des
paroles (par ex., rassurer ou au contraire désespérer mon auditeur, …)

« Tu peux me passer le sel? », est-ce réellement une interrogation?


Si c’était le cas, la réponse devrait simplement être « oui »! Or ce n’est pas le cas, donc effectivement,
cet énoncé n’est pas réellement une interrogation.
L’auditeur interprète la phrase comme une requête, il élimine l’interprétation littérale pour une
interprétation indirecte. En fonction du contexte situationnel, et partant du postulat selon lequel
l’énoncé est pertinent, il infère l’intention du locuteur.

Certains (Grice, 1975) ont cherché à fonder ce type d’inférences sur ce qu’ils ont appelé une « logique
de la conversation ». En fait, la communication verbale repose sur un principe général qui est le
principe de coopération :
Toute contribution à l’échange conversationnel est présumé correspondre à ce qui est exigé du locuteur
par le but de cet échange. Cela a un certain nombre de conséquences.
Le locuteur est alors censé :
1) fournir autant d’informations, et pas plus, qu’il n’est requis = maxime de quantité
2) n’affirmer que ce qu’il croit vrai ou ce pour quoi il possède des preuves = maxime de qualité
3) ne dire que ce qui est pertinent = maxime de relation
4) être clair, c-à-d éviter l’ambiguïté, l’obscurité, la prolixité, le désordre = maxime de manière
Toute conversation suppose une acceptation tacite de ces règles, et l’interprétation de l’énoncé par
l’auditeur se fonde donc sur elles. Si une de ces règles n’est manifestement pas respectée, le locuteur a
une raison de ne pas l’appliquer et il sait que son auditeur est en mesure d’identifier cette raison.
Dans l’exemple, « Tu peux me passer le sel? », la question posée viole la maxime de relation : le
locuteur n’a pas de raison de s’informer des capacités physiques (tu peux?) de l’auditeur à déplacer la
salière. (Comparer avec : « tu peux parler l’italien?)
 L’énoncé sera interprété comme un moyen indirect de formuler une requête et d’exprimer
en même temps que son auteur ne veut pas donner un ordre. Il y a alors une notion de
politesse.

La compréhension de l’énoncé consiste finalement à saisir l’intention du locuteur, mais cela non pas
en vertu d’une intuition ou d’empathie à l’égard du locuteur mais en termes de décodage du message
conformément à des règles de la langue et de son utilisation.
Ce n’est pas une simple interprétation.

En disant « Tu peux me passer le sel ? », le locuteur en choisissant de dire « le » sel, présuppose qu’il
existe du sel dans l’environnement immédiat et que l’auditeur ne l’ignore pas. Cette existence n’est
pas directement affirmée mais elle fait partie du sens même de l’énoncé (pas le cas si « du » sel avait
été évoqué).
Cela concerne la distinction entre présupposition et sous-entendu :

47
 Présupposition : condition pour qu’une proposition puisse avoir une valeur de vérité qui fait
donc partie de l’énoncé (ici qu’il y ait effectivement du sel => « le » sel sur la table).
Ex. : « C’est lui qui a assassiné le président. », présuppose que le président a été assassiné par
quelqu’un.
 Sous-entendu : référence à un savoir extralinguistique pour saisir l’intention du discours qui
ne fait donc pas partie de l’énoncé. Ici la demande de sel pourrait laisser sous-entendre que le
plat est mal préparé, que le locuteur veut changer de conversation, etc.

48
Chapitre 4 : la production des mots en modalité orale.

I. Introduction
La production du langage est une habileté spécifiquement humaine. Nous consacrons une grande
partie de notre temps à parler avec d’autres personnes, ou même à nous parler à nous-mêmes.
D’ailleurs, parler fait partie de nos activités préférées…
Levelt et Meyer (2000) parlent même d’addiction au langage pour exprimer à quel point l’être humain
est dépendant de la parole, dès le moment où il produit son 1er mot.
En fait, nous sommes des experts dans la production orale de mots. En effet, si on estime qu’un adulte
parle environ 45 minutes par jour et qu’il produit 2,5 mots à la seconde, on peut calculer qu’à 21 ans,
une personne qui parle normalement a produit au cours de sa vie au moins 50 millions de mots!

Cependant, il existe des variations interindividuelles très importantes autour de cette estimation
moyenne. D’ailleurs, les femmes sont-elles plus bavardes que les hommes?
Mehl et al. (2007), dont l’étude a été rapportée par Bonin (2013), ont demandé à 396 étudiants de
porter pendant quelques jours un dispositif d’enregistrement qui se déclenchait toutes les 12 minutes et
enregistrait l’environnement sonore pendant 30 secondes. A partir de ces échantillons, les chercheurs
ont pu extrapoler le nombre de mots produits par jour par ces participants.
Les résultats montrent une production moyenne des femmes de 16.215 mots et des hommes de 15.669
mots. En réalité, les variations à l’intérieur des échantillons hommes et femmes sont beaucoup plus
importantes que celles observées entre les 2 sexes.
 Les femmes ne sont pas significativement plus bavardes que les hommes.

II. Caractéristiques de l’accès lexical


Une des caractéristiques principales est la rapidité. Le rythme de la parole est de + ou – 100 à 200 mots
/ minute, soit en moyenne 2.5 mots/sec. L’efficacité en est une autre. Le taux d’erreurs est de l’ordre
d’une erreur pour mille mots produits.
De plus, l’accès lexical est caractérisé par l’impénétrabilité. Cette composante signifie que les
mécanismes impliqués dans l’accès lexical sont inaccessibles à la conscience. Seuls les résultats
peuvent être identifiés consciemment (détection et correction des erreurs).

49
Le traitement cognitif de la production de la parole est très coûteux. La plupart des adultes normaux
sont capables de produire à l’oral, des mots, des phrases, des discours, sans difficulté apparente…
Cependant, la relative facilité de la production orale n’est effectivement qu’apparente.
Un certain nombre d’expériences montrent que parler est coûteux sur le plan cognitif et « entrave » la
réalisation simultanée d’autres activités, comme par exemple le fait de conduire une voiture.
L’expérience de Becic et al. (2010), rapportée par Bonin (2013), illustre ce coût.
Les chercheurs ont étudié l’effet de la conduite automobile sur la production verbale à l’oral. L’étude
est réalisée avec un simulateur de conduite automobile. Les participants doivent écouter, à l’aide du’un
casque, une histoire (par ex. le récit d’un voyage) qu’ils doivent ensuite raconter à leur passager. Deux
conditions sont alors créées :
 Condition double tâche: les participants conduisent et parlent.
 Condition contrôle: les participants racontent sans conduire ou bien ils conduisent sans raconter.
Les résultats montrent que la conduite est moins rapide pendant que l’on raconte l’histoire, et que les
récits sont plus pauvres quand on raconte en conduisant (même lorsqu’il s’agit de trajet routinier).

III. Niveaux de traitement dans la production des mots


Quels sont les niveaux de traitement impliqués dans la production orale des mots?
Que se passe-t-il entre l’intention de communiquer un concept (je pense à un livre et je veux produire
le mot qui correspond à ce concept) et la production des mouvements articulatoires correspondant à la
prononciation du mot (livre)?
En particulier, comment le locuteur opère-t-il pour sélectionner rapidement le mot adapté à
l’expression d’un concept parmi un ensemble comportant plusieurs milliers de mots?

De façon générale, on distingue classiquement au moins les niveaux de traitements suivants dans la
production verbale à l’oral :
1) Un niveau conceptuel : activation d’un concept à exprimer.
2) Un niveau verbal : recouvrement en mémoire de l’étiquette verbale
correspondant au concept activé.
3) Un niveau articulatoire : création d’un programme articulatoire
correspondant à l’étiquette verbale du concept en question.
Toutefois, il existe des distinctions plus fines :
1) Niveau conceptuel : distinction sémantique conceptuelle / lexicale…
2) Niveau des lemmas : sémantico-syntaxique
3) Niveau des lexèmes : forme phonologique
4) Niveau articulatoire : pas abordé ici
En outre, si la production verbale des mots s’effectue à partir d’une image d’objet ou d’un objet, un
niveau de traitement qui correspond à l’identification visuelle de l’objet et au recouvrement de ses
caractéristiques structurales doit être envisagé.

50
Nous allons examiner dans ce qui suit ce qui justifie la distinction de ces différents niveaux.

A. Distinction générale entre niveaux conceptuel et langagier.


Cette distinction est basée sur l’observation de patients aphasiques :
 Certains sont capables de comprendre le langage mais incapables d’accéder à la
représentation phonologique des mots et donc de les produire.
Altération du niveau verbal.
 D’autres sont capables de productions orales mais dépourvues de sens.
Altération du niveau conceptuel.

B. Distinction d’un niveau structural.


Certains patients sont incapables de retrouver des informations sémantiques sur des objets alors
qu’ils sont capables de réaliser une tâche de décision d’objets, c’est-à-dire qu’ils sont capables de
décider si une image présentée représente ou non un objet.
Si le patient n’a pas d’altération, il répond correctement lors de la présentation d’images ; par contre il
répondra au hasard si son système sémantique est altéré.

51
D’autres patients ne sont plus capables de reconnaître visuellement certains objets et ne peuvent
dès lors plus non plus donner d’informations sémantiques à propos de ces objets quand ils sont
présentés visuellement. Par contre, ils sont capables de donner des informations sur ceux-ci s’ils sont
présentés en modalité orale ou tactile par exemple, ce qui témoigne du fait que le système sémantique
Exemple : montrer une tasse => ne pas savoir ce que c’est.
Laisser toucher la tasse => reconnaitre la tasse.

est intact.
Ces deux profils de patients suggèrent qu’il existe un niveau de représentations structurales des objets
qui est distinct du niveau des représentations sémantiques.

C. Questions à propos du traitement au niveau sémantique.


La production orale d’un mot nécessite tout d’abord que soit activée la représentation
conceptuelle/sémantique correspondant à ce mot. Les représentations sémantiques consistent en
différents types d’informations parmi lesquelles les propriétés perceptives et fonctionnelles associées à
l’objet à dénommer.
Un certain nombre de questions se posent à propos
- des relations entre dénomination et activation sémantique
- de différents niveaux de représentations sémantiques
- de la manière dont ces représentations sont stockées dans le système sémantique

 Est-il possible de dénommer des objets sans en avoir de représentations sémantique ?


En général, on suppose qu’il est nécessaire de disposer de connaissances sémantiques sur un objet pour
pouvoir dénommer celui-ci.
Cependant, des chercheurs ont affirmé que certains patients présentant une altération des représentations
sémantiques étaient capables de dénommer des objets ou des visages en l’absence de connaissances
« explicites » sur ceux-ci. Ce phénomène est appelé « dénomination sans sémantique ».
Cas de Mme DT (décrite par Brennen et al., 1996) : incapable de répondre à des questions simples sur
des objets qu’elle pouvait dénommer correctement. Elle pouvait par exemple dénommer l’image d’un
avion, mais était incapable de dire de quoi il s’agissait et s’il était plus gros ou non qu’une voiture.
Pour rendre compte de ce phénomène, il est nécessaire de postuler l’existence d’une voie alternative qui
contourne le système sémantique.
Ferrand (1997) a par exemple proposé un modèle qui comprend une voie sémantique et une voie
directe à partir des représentations structurales pour accéder au représentations phonologiques.

52
Mais selon d’autres auteurs (par ex., Hodges et Greene, 1998), des connaissances sémantiques
minimales existent toujours quand les patients sont capables de dénommer et il n’est donc pas utile de
postuler l’existence de ce type de voie.

 Le système conceptuel/sémantique est-il commun aux différentes activités langagières,


lecture, écriture, production orale, etc ?
En général, on considère qu’un système sémantique unique sous-tend les différentes activités
impliquant le langage (par ex., Caramazza, 1996).
 Système sémantique amodal

Cependant, certains chercheurs postulent l’existence de systèmes sémantiques multiples. Cette


conception repose sur l’existence d’aphasies ou d’anomies spécifiques à une modalité sensorielle
(aphasie optique, aphasie tactile).
Par exemple, l’aphasie optique se caractérise par une difficulté sévère dans la dénomination d’objets
présentés visuellement alors que la dénomination d’objets, soit à partir d’informations tactiles, soit à
partir de définitions, est préservée.
Le trouble ne peut pas être imputé à un déficit de traitement visuel des objets (niveau des
représentations structurales) dans la mesure où ces patients peuvent par ex. dessiner sur demande les
objets qu’ils ne peuvent dénommer.
La dénomination d’objets typique de ce profil :
 Sur représentation visuelle : pas ok
 Sur représentation verbale : ok
 Sur représentation tactile : ok
 Tâches évaluant l’intégrité des représentations structurales des objets : ok
Certains auteurs postulent alors l’existence d’un système sémantique visuel (A). Ce système serait
altérer dans le cas des patients correspondant au profil type d’aphasie optique.
Le modèle classique (B) parle plutôt d’une altération de la connexion entre le système de
représentations structurales des objets et le système sémantique.

53
 Le stockage des représentations sémantiques sous forme de traits sémantiques et origine
fonctionnelle des erreurs de production orale
Les patients aphasiques présentant des difficultés en dénomination orale peuvent produire des
paraphasies sémantiques, c’est-à-dire la production d’un associé sémantique de la cible à dénommer.
Ex. : patient décrit par Hillis et Caramazza (1995):
Image de grenouille => dit tortue
de ours => dit renard
de couteau => dit fourchette
de banane => dit pomme

Modèle de production normale des mots

Analyse du profil de troubles de deux patients qui commettent des paraphasies sémantiques très
semblables par Hillis et Caramazza (1995)
Patient KE
 Difficultés dans toutes les tâches impliquant le sens des mots (production et compréhension
verbale et écrite)
 Altération du système sémantique
Patient RGB
 Dénomination orale: pas ok

54
 Lecture à haute voix: pas ok
 Vérification mot/image: ok
 Définition de mots même mal lus: ok
 Système sémantique intact
 Altération du lexique phonologique de sortie

En cas d’altération du système sémantique, il est possible que certains traits caractéristiques du
concept cible ne soient plus disponibles. L’activation transmise au niveau du lexique phonologique
sera partielle et elle pourra de ce fait activer l’étiquette lexicale correspondant à un concept associé
qui comprend aussi les différents traits sémantiques activés.
Par exemple, si pour le concept chien, seuls les traits sémantiques « animal domestique », « 4 pattes »,
« a des poils » sont activés, comme ces traits caractérisent également le concept chat, l’activation
transmise au niveau phonologique pourra correspondre à l’activation de la représentation phonologique
« chat ».

En cas d’altération du lexique phonologique de sortie , alors que l’activation à partir du système
sémantique est complète, il est possible que l’étiquette lexicale correspondante au sein du lexique
phonologique de sortie ne soit pas disponible.
Dans ce cas, comme les étiquettes de mots sémantiquement associés auront également reçu une
certaine quantité d’informations du système sémantique (à partir des traits sémantiques activés qu’ils
ont en commun avec le mot cible), il se peut que ce soit cette étiquette lexicale qui soit produite.
L’activation des traits sémantiques se fait normalement. Mais le patient produit l’étiquette verbale
« chat » au lieu de « chien ».

Ainsi, une paraphasie sémantique peut être le reflet tout autant d’une altération du système sémantique
que d’une altération du lexique phonologique de sortie si on postule le fait que les représentations
sémantiques peuvent être décomposées en traits sémantiques dont l’activation se propage au niveau du
lexique phonologique de sortie ; c’est la notion de compositionnalité des représentations sémantiques.

55
Comment une altération du lexique phonologique de sortie peut-elle donner lieu à la production de
paraphasies sémantiques?
En fait, les concepts sont représentés en termes de traits sémantiques au sein du système sémantique.
Les traits sémantiques sont partagés par différents concepts associés sur le plan sémantique.
L’activation d’un concept donné consiste à activer les différents traits qui le composent. Comme
certains de ces traits caractérisent également des concepts associés, ceux-ci vont également être
partiellement activés.
L’activation de ces différents traits sémantiques se propagent au niveau du lexique phonologique de
sortie où l’on postule que les représentations lexicales ont des connexions avec les différents traits
sémantiques caractérisant le concept correspondant à l’étiquette verbale (représentation lexicale) en
question.
Par ex., le concept « chien » et le concept « chat » ont en commun les traits sémantiques
 « animal domestique»
 « a 4 pattes »
 « a des poils »
 etc.
Par contre, le trait « vit dans une niche » ou « aboie » ne caractérise que le chien.

 Existe-t-il un composant intermédiaire entre le niveau lexico-sémantique et la


représentation phonologique du mot ?
Cet intermédiaire sont les lemnas. Le lemna est une partie de la représentation lexicale qui concerne
les propriétés sémantiques et syntaxiques du mot mais pas phonologiques.
Par exemple, lors de l’activation d’un concept donné, il y a activation d’information sur le genre du
mot, sa catégorie grammaticale avant d’activer les informations sur sa forme phonologique
Le premier niveau est le lemma et le second niveau, le lexème. Le
lexème est l’accès à la partie de la représentation lexicale qui se réfère
aux propriétés morphologiques et phonologiques du mot.

56
Données empiriques de la distinction
Existence du phénomène de « mot sur le bout de la langue » qui correspond à une inaccessibilité
ponctuelle à la forme d’un mot alors que certaines informations sémantiques et syntaxiques sont
disponibles. Dans ce cas, l’accès au lexème est impossible mais bien au lemna.
Par exemple, pouvoir donner le genre grammatical, si renvoie à une entité dénombrable, nombre de
syllabes, 1er phonème, etc. tout en ne sachant pas dire le mot.

Données neuropsychologiques
Patient italien « Dante » (Baddecker, Miozzo, & Zanuttini, 1995):
Présentation de dessins d’objets : incapable de dénommer, mais donne le genre grammatical (correct)
dans 95% des cas. Capable aussi de sélectionner dans 99% des cas l’auxiliaire correct du verbe sans
pouvoir produire celui-ci.
Profil inverse (patient FS, Miceli & Caramazza, 1997) :
Récupération des informations phonologiques mais pas grammaticales : donner la forme du mot mais
pas le morphème correct (le genre ou le nombre,…).

57
Chapitre 5 : la production des mots en modalité écrite.

I. Modèles classiques à 2 voies de l’écriture


Les modèles les plus classiques de production écrite des mots postulent l’existence de 2 procédures
pour écrire :
1) Adressage : recherche de la représentation graphique
2) Conversion phonème-graphème : conversion des phonèmes en graphèmes correspondants. Le
Français n’utilise que peu ce système parce qu’il est nécessaire de stocker les représentations
orthographiques des mots en mémoire pour pouvoir les écrire correctement ces mots.

A. Les composants impliqués dans l’écriture de mots familiers.


Penser à un objet et vouloir l’écrire :

Le système sémantique : même procédé que dans la production orale


Le lexique orthographique (graphémique) de sortie : il stocke la représentation orthographique des
mots écrits familiers mémorisés au sujet.
Le buffer graphémique : il stocke temporairement les différents graphèmes constitutifs de la
représentation orthographique du mot à produire par écrit ainsi que la position des graphèmes dans le
mot, le temps que se réalisent les différents traitements qui vont permettre la réalisation graphique
effective des différentes lettres du mot. C’est une sorte de mémoire à court terme des formes des
lettres utiles à la réalisation de l’écriture.

B. Les composants impliqués dans l’écriture de séquences non familières.

58
Le système de conversion phonème-graphème permet la segmentation de la séquence phonologique
en unités phonémiques. De plus, il converti chaque unité phonémique en son unité graphémique
correspondante (parfois plusieurs possibilités).
Les autres composants sont précédemment décrits.

II. La question de l’autonomie orthographique


Quand nous avons le sens d’un mot en tête, est-il nécessaire d’accéder à la forme parlée du mot pour
retrouver la manière dont il s’écrit, c’est-à-dire sa forme orthographique ?

Selon l’hypothèse de la médiation phonologique obligatoire, l’écriture d’un mot requiert d’abord
l’accès à sa forme phonologique. L’activation de la signification d’un mot est suivie par l’activation de
sa phonologie et alors seulement l’accès à l’orthographe peut avoir lieu.
Cette hypothèse est basée sur la conception traditionnelle selon laquelle les connaissances relatives au
langage écrit sont totalement dépendantes des connaissances relatives au langage parlé.
En ce qui concerne les troubles de l’orthographe, la médiation phonologique obligatoire prédit un
déficit qui affecte la capacité à accéder au lexique phonologique de sortie devrait nécessairement avoir
des conséquences sur l’écriture.

Selon l’hypothèse alternative de l’autonomie orthographique, bien que l’orthographe se construise sur
la base de la phonologie au cours de l’acquisition du langage écrit, une fois que le système est
complètement développé, l’orthographe peut être retrouvée directement à partir de la signification du
mot sans médiation phonologique.
Selon cette hypothèse, un déficit qui affecte l’accès aux représentations phonologiques ne devrait pas
avoir de conséquence sur l’accès orthographique.

Il semblerait que le meilleur modèle est celui de l’indépendance orthographique. C’est, en tous cas,
ce modèle qui est le plus soutenu par les cas cliniques.

Présentation de cas : RGB (Caramazza & Hillis, 1990) déjà étudié dans la partie « production orale ».
Patient présentant un déficit de la production orale se manifestant notamment par la production de
paraphasies sémantiques en dénomination orale d’images qui ne peuvent être attribuées ni à un trouble

59
d’accès aux représentations sémantiques à partir des représentations structurales des objets, ni à un
déficit au niveau du système sémantique lui-même. Également, paraphasies sémantiques en lecture.

 La seule localisation fonctionnelle possible du déficit est celle du lexique phonologique de


sortie.
Qu’en est-il de l’écriture des mots que ce patient ne dénomme pas correctement en production orale?
Très bonne performance : 94% de réponses correctes tant en écriture sous dictée qu’en dénomination
écrite. D’ailleurs, les erreurs commises ne sont pas des erreurs sémantiques (ex. « dokny » pour
« donkey » ou « celey » pour « celery ».
 Support pour l’hypothèse de l’autonomie orthographique

60

Vous aimerez peut-être aussi