Vous êtes sur la page 1sur 19

PREMIRE PARTIE

Modles et composantes
de la production verbale

Chapitre 1

Les modles de la production de la parole

1.1. Introduction
Parler est une de nos proccupations prfres. Nous passons plusieurs heures
par jour discuter, raconter des histoires, dbattre, argumenter et, bien sr, nous
parler nous-mmes (Levelt, 1989). Au cours dune conversation normale, nous
produisons 2 3 mots par seconde, ce qui correspond environ 4 syllabes et 10-12
phonmes par seconde. Ces mots sont slectionns extrmement rapidement (en
moins dune seconde) dans le lexique mental qui comprend environ 60 000 mots
chez un adulte lettr. Nous faisons trs peu derreurs de production, moins dune
erreur sur 1 000 mots produits (Rossi et Peter-Defare, 1998). Nous sommes ns pour
parler, et parvenus lge adulte, nous avons produit environ 50 millions de mots.
Cest sans doute le talent cognitif et moteur que nous pratiquons le plus ; cest celui
qui nous parat le plus simple et le plus immdiat, mais cest aussi le plus complexe.
1.2. La production de la parole : trois tapes principales
La plupart des thories psycholinguistiques (Dell, 1986; Levelt, 1989) suggrent
que la production de la parole passe par trois tapes principales de traitement (voir
figure 1.1) : (1) la premire tape est celle de la prparation conceptuelle du
message prverbal (le message exprimer correspond aux intentions, aux ides que
le locuteur veut exprimer ; ce message est non linguistique ou prverbal). Ce
message contient un ou plusieurs concepts pour lesquels nous avons des mots dans
notre lexique mental et ces mots doivent tre rcuprs ; (2) la seconde tape est
celle de la formulation ou lexicalisation du message prverbal : cette tape daccs
Chapitre rdig par Ludovic FERRAND.

28

Production du langage

au lexique est elle-mme divise en deux sous-tapes; il sagit tout dabord de


rcuprer les informations smantiques et syntaxiques relatives aux mots concerns
(tape de slection lexicale), il faut ensuite rcuprer les informations
phonologiques et morphologiques correspondantes (tape dencodage
phonologique) ; (3) la troisime tape est celle de larticulation.

Figure 1.1. Les trois tapes principales impliques dans la production de la parole :
(1) conceptualisation ; (2) formulation (encodage smantique/syntaxique et phonologique/
morphologique) ; (3) articulation

Dans ce chapitre, nous traiterons essentiellement de la seconde tape, celle de la


formulation ou de la lexicalisation dans la mesure o elle concerne laccs au lexique
au cours de la production. De nombreux travaux suggrent lexistence de deux
niveaux de traitement indpendants mais interconnects mis en uvre dans laccs au
lexique au cours de la production de parole (Ferrand, 1994, 2001a, 2001b ; Segui et
Ferrand, 2000). Les donnes issues des erreurs de production (Rossi et Peter-Defare,
1998), du phnomne du mot sur le bout de la langue (Vigliocco, Antonini et Garrett,
1997), de la chronomtrie mentale (Schriefers, Meyer et Levelt, 1990; Levelt,
Schriefers, Vorberg, Meyer et Pechmann, 1991), de la neuropsychologie cognitive
(Caramazza, 1997) et de limagerie crbrale conduisent toutes ce dcoupage en
deux niveaux de traitements : (1) le niveau smantique/syntaxique (slection lexicale),
(2) le niveau dencodage phonologique, correspondant respectivement la
rcupration des lemmas (informations smantiques et syntaxiques) et des lexmes
(informations phonologiques et morphologiques).
Toutefois, les modles diffrent sur tous les autres points (Ferrand, 2001a,
2001b ; Segui et Ferrand, 2000). Les divergences portent en particulier sur la nature
des reprsentations des diffrents niveaux concerns :
les reprsentations sont-elles locales (Dell, 1986 ; Dell, Schwartz, Martin et
Gagnon, 1997) ou distribues (Dell, Juliano et Govindjee, 1993) ?
linformation conceptuelle est-elle reprsente sous la forme de traits
smantiques dcomposables (Caramazza, 1997 ; Dell, 1986) ou bien est-elle globale
et indivisible (Roelofs, 1997a) ?

Modles de production de la parole

29

les reprsentations morphologiques sont-elles dcomposables (Roelofs, 1996)


ou non ?
la rcupration des informations syntaxiques est-elle obligatoire (Levelt,
Roelofs et Meyer, 1999) ou optionnelle (Caramazza, 1997 ; Caramazza et Miozzo,
1997) ?
existe-t-il ou non des connexions inhibitrices lintrieur de chaque niveau et
entre les diffrents niveaux (comme cela est suggr par Berg et Schade, 1992 ; et
contrairement ce que proposent Levelt et al., 1999) ?
Les divergences entre les diffrents modles portent galement sur le dcours
temporel de ces deux tapes dencodage smantique/syntaxique et dencodage
phonologique/morphologique : ces deux tapes de lexicalisation sont-elles
strictement srielles (Levelt et al., 1991, 1999), en cascade (Peterson et Savoy,
1998), ou interactives (Dell, 1986 ; Dell et al., 1997 ; Cutting et Ferreira, 1999 ;
Rapp et Goldrick, 1999) ?
1.3. Les principales techniques utilises pour tudier la production de la parole
Classiquement, ltude des mcanismes impliqus dans la production de la
parole repose sur deux approches diffrentes : la premire, la plus ancienne, consiste
recueillir et analyser les erreurs spontanes de production ou les induire en
laboratoire ; la seconde approche est celle de la chronomtrie mentale, qui consiste
enregistrer et analyser les latences au cours de la production de mots ou de la
dnomination de dessins dobjets. Nous verrons dans les paragraphes suivants que
ces deux approches, bien que ntant pas incompatibles, ont conduit au
dveloppement de deux modles opposs de la production de la parole : le modle
interactif de Dell (1986) et le modle sriel de Levelt et al. (1991).
Jusqu trs rcemment, presque toutes les recherches sur la production de la
parole reposaient sur lanalyse des erreurs produites lors de conversations de la vie de
tous les jours. Ces recherches ont permis didentifier les principaux types derreurs
partir desquelles ont t labores des hypothses largement partages. En particulier,
ces hypothses ont t formules partir de la prise en considration de la nature
rgulire des erreurs, cest--dire du fait que celles-ci semblent obir des rgles. Les
erreurs de production ont t depuis longtemps considres comme fournissant des
informations prcieuses quant aux mcanismes cognitifs mis en uvre au cours de la
production de la parole. En particulier, la nature des erreurs peut indiquer quel
niveau le systme est pris en dfaut. Ceci permet dassocier chaque type derreurs
une tape particulire de traitement. Leur analyse peut donc permettre de faire des
infrences sur larchitecture fonctionnelle du systme de production, cest--dire sur
son organisation interne. Il existe dimportants recueils derreurs de production en
anglais (Fromkin, 1973, par exemple) et, plus rcemment, en franais (Rossi et Peter-

30

Production du langage

Defare, 1998). Les erreurs de production prennent des formes multiples. Toutefois,
dans cette diversit, une taxinomie prcise a t labore (Dell, 1986). Lobservation
des erreurs de production prsente un intrt considrable mais aussi de nombreux
inconvnients, notamment la raret des erreurs, lambigut de leur nature, ainsi que
les biais dans leur recueil. Les erreurs de syntaxe surviennent moins de 5 fois sur 1 000
phrases produites, les erreurs de slection lexicale surviennent moins dune fois sur
1 000 mots produits, et les erreurs dencodage phonologique moins de 4 fois sur
10 000 mots produits. Nanmoins, malgr tous ces problmes potentiels, il existe une
bonne convergence entre les observations naturelles et celles induites en laboratoire.
Une autre mthode trs frquemment utilise pour tudier la production de la
parole est celle de la dnomination dobjets (Ferrand, 1997). Cette technique permet
dtudier le dcours temporel des processus impliqus dans la production de la parole.
Lanalyse des temps de raction constitue en psychologie exprimentale lun des
instruments privilgis pour infrer la complexit et la nature des processus tudis.
Que se passe-t-il quand nous devons dnommer un dessin dobjet ? Gnralement,
cela nous prend entre 600 et 1 200 millisecondes en moyenne entre la prsentation du
dessin et linitialisation de la rponse verbale, et nous commettons trs peu derreurs.
Dnommer un objet demande plusieurs tapes de traitement, qui peuvent ou non se
recouvrir temporellement, comme nous le verrons par la suite. Premirement, le
locuteur doit traiter le dessin visuellement. Cela implique lextraction de traits visuels :
bords, coins, ombres, etc. Bien sr, les tapes initiales de la dnomination, celles qui
sont impliques dans lanalyse et la reconnaissance visuelle de lobjet, ne font pas
partie des processus de production de la parole proprement dit.
Deuximement, le locuteur doit catgoriser le dessin comme tant une maison,
un avion, une montre ou autre. Cette tape lui permet de recruter le mot
smantiquement appropri dans le lexique mental. Cela lui fournit de linformation
sur la faon dont le mot reprsent est utilis habituellement : sagit-il dun verbe,
dun nom ou autre ? Est-il au masculin ou fminin, au singulier ou pluriel, etc. ?
Localiser une entre lexicale exige quun mot adquat existe dans le lexique mental
du locuteur pour vhiculer le message correspondant. La facilit de slection dun
mot pour la production dpend de nombreux facteurs comme, par exemple, la
frquence du nom de lobjet (plus un mot est frquent ou familier, et plus vite a lieu
sa rcupration), lge dacquisition du nom de lobjet (plus un mot est acquis tt, et
plus vite a lieu sa rcupration), etc. Une fois lentre lexicale slectionne, la
prononciation du mot doit tre rcupre et produite.
1.4. Les principaux modles de la production de la parole
Nous prsentons trois principaux modles de la production de la parole (voir
Ferrand, 2001b pour plus de dtails) : le modle en cascade avec interactivit de

Modles de production de la parole

31

Dell (Dell, 1986 ; Dell et al., 1997), le modle strictement sriel de Levelt (Levelt et
al., 1999) et le modle rseau indpendant de Caramazza (Caramazza, 1997 ;
Caramazza et Miozzo, 1997). Ces trois modles sont localistes avec des
reprsentations mentales symboliques discrtes comme des traits smantiques, des
phonmes, des morphmes, etc. (le seul modle distribu tant celui de Dell et al.,
1993).
1.4.1. Le modle en cascade interactif de Dell
Gary Dell (Dell, 1986 ; Dell et al., 1997) a propos un modle connexionniste en
cascade et interactif deux tapes comprenant trois niveaux de reprsentations (voir
figure 1.2) : il sagit du niveau smantique (correspondant des traits smantiques),
du niveau lexical (correspondant aux mots) et du niveau phonologique
(correspondant aux phonmes). Ces trois niveaux sont relis par des connexions
excitatrices bidirectionnelles (il nexiste pas de connexions inhibitrices dans ce
modle). De plus, chaque niveau interagit avec les niveaux adjacents. Les
connexions descendantes vont du niveau smantique vers le niveau lexical, puis du
niveau lexical vers le niveau phonologique. Les connexions ascendantes vont dans
lautre sens, permettant linteractivit du modle grce cette rtroaction
dactivation du niveau phonologique vers le niveau lexical et smantique. De ce
point de vue, ce modle est similaire aux autres modles interactifs de la production
de la parole (Stemberger, 1985) et diffre des modles strictement sriels (Levelt et
al., 1991, 1999). Les reprsentations de chaque niveau sont codes par des valeurs
dactivation. Ces valeurs sont actualises au cours du traitement en fonction des
niveaux dactivation des reprsentations voisines, le dclin de lactivation de base, et
linfluence du bruit alatoire. Les mots sont rcuprs grce la propagation de
lactivation dans le modle travers ces trois niveaux.
Il sagit dun modle deux tapes, correspondant respectivement la slection
lexicale et lencodage phonologique. Au cours de la premire tape, dite de slection
lexicale, les traits smantiques du mot produire reoivent une vague dactivation.
Cette activation se propage dans tout le rseau pendant une certaine dure. Aprs un
certain temps, lunit mot la plus active est slectionne, ce qui correspond la
premire tape de slection lexicale. La seconde tape, dite dencodage phonologique,
dmarre avec une vague dactivation partant du mot slectionn. Cette activation se
propage vers le niveau phonologique : aprs un certain temps, les phonmes les plus
activs sont slectionns et ordonns dans un cadre phonologique.
Ce modle est interactif car toutes les connexions sont bidirectionnelles :
lactivation se propage dans les deux sens. Ce modle permet en particulier
dexpliquer et de simuler de nombreuses erreurs de production, dont les erreurs
smantiques, formelles et mixtes. Un des arguments en facteur de linteractivit est

32

Production du langage

lexistence derreurs mixtes (smantiques et formelles ; Dell et Reich, 1981). Par


exemple, si vous devez produire CAT mais quaccidentellement vous produisez RAT,
il sagit dune erreur mixte qui partage la fois de linformation smantique et
phonologique avec la cible initiale CAT. Ce type derreur sexplique de la faon
suivante dans le modle de Dell que nous reproduisons figure 1.2 (Dell et al., 1997).
Lunit mot CAT est fortement active par ses traits smantiques lmentaires. Cette
unit mot CAT envoie ensuite de lactivation vers les units phonmiques
correspondantes /k/, /ae/ et /t/. Certains traits smantiques de CAT (comme anim
et mammifre ) coactivent lunit mot RAT. Cette unit mot RAT reoit galement
de lactivation rtroactive des phonmes /ae/ et /t/. Cette convergence dactivations du
niveau smantique et du niveau phonologique donne RAT plus de chance dmerger
comme erreur quun mot reli smantiquement seulement (comme DOG) ou
phonologiquement seulement (comme MAT). Lexistence dune interactivit dans le
modle signifie quau cours de la slection lexicale, les units mots des voisins
phonologiques de CAT tels que MAT, SAT et CAN sont galement actives. Selon
Dell et al. (1997), cette activation bidirectionnelle et cette interactivit permettent une
grande fluidit de la slection lexicale des mots.

Figure 1.2. Modle activation interactive en cascade de Dell et al. (1997). Le niveau
smantique est compos dunits smantiques correspondant des traits smantiques ; le
niveau lexical est compos dunits mots et le niveau phonmique est constitu de phonmes
(les attaques, les voyelles et les codas). Les connexions entre les niveaux sont excitatrices et
bidirectionnelles (il nexiste pas de connexions inhibitrices). Lactivation se propage en
cascade de faon interactive, du niveau smantique vers le niveau phonologique (en passant
par le niveau lexical), mais aussi du niveau phonologique vers le niveau smantique (en
passant par le niveau lexical). Les traits smantiques en commun pour CAT (chat), DOG
(chien) et RAT (rat) apparaissent en noir.

Modles de production de la parole

33

Dell (1986, 1988) a donn une description trs prcise des mcanismes
impliqus dans ltape dencodage phonologique (voir cette description dans la
figure 1.3). Dell (1986) suggre que les mots sont reprsents dans le rseau par des
units correspondant aux morphmes, syllabes, rimes, segments, groupements de
segments et traits. La figure 1.3 illustre cela pour le mot RADAR (par simplicit, les
rimes et les traits ne sont pas reprsents). Par exemple, lorsque nous devons
produire le mot RADAR, le morphme correspondant et ses units segmentales /r/,
/a/ , /d/, /a/ et /r/ sont rcuprs en mmoire et sont utiliss pour construire un
programme moteur appropri. Ensuite, les segments forment lattaque et le nucleus
de la premire syllabe (RA), et lattaque, le nucleus et la coda de la seconde syllabe
(DAR), respectivement. Les units correspondant aux segments et aux groupements
de segments sont donc marques en fonction de leur position syllabique. Les units
sont connectes entre elles par des connexions bidirectionnelles de diffrentes
forces. Au cours de lencodage phonologique, lactivation de lunit morphmique
RADAR augmente grce lactivation provenant du lemma RADAR. Lactivation
se propage ensuite travers le rseau, chaque unit envoyant de lactivation ses
voisins. La mise en correspondance du morphme RADAR avec ses segments
phonologiques se fait par la slection des segments ou groupements de segments les
plus activs. Les units slectionnes sont ensuite insres dans des cadres
syllabiques. Les units segmentales pour une syllabe sont slectionnes en parallle.
Dans le cas de morphmes polysyllabiques (comme REPEINDRE), les
connexions entre lunit morphmique et les units syllabiques sont tiquetes par
ordre et position. Les syllabes sont codes de faon srielle. Le codage successif des
syllabes est accompli en augmentant temporairement le taux dactivation dune
syllabe et en diminuant celui des autres syllabes. Par la suite, Dell (1988) a ajout un
niveau supplmentaire pouvant coder toutes les formes possibles (voir figure 1.3).
Chaque mot dans le rseau lexical est connect la tte de la forme du mot qui
reprsente sa structure CV. Lunit correspondant la forme du mot active de faon
srielle les units segmentales correspondantes : lattaque-consonne (CAt), la voyelle
(V) et la coda-consonne (CCo). La slection des units correspondant lattaque, au
nucleus et la coda se fait de manire srielle. Cela permet au modle de rendre
compte des effets sriels de lencodage phonologique (voir Segui et Ferrand, 2000
pour un rsum). Toutefois, Roelofs (1997b) a suggr une autre faon de modliser
ltape dencodage phonologique (voir le paragraphe suivant).
Une des limitations du modle de Dell est quil na pas t dvelopp pour
simuler les donnes de la chronomtrie mentale mais seulement pour simuler les
distributions des erreurs de production. Le modle sriel de Levelt et al. (1999)
permet au contraire dexpliquer certaines donnes de la chronomtrie mentale.

34

Production du langage

Figure 1.3. Fragment du modle dencodage phonologique (adapt de Dell, 1986, 1988). Par
souci de simplicit, les units correspondant aux rimes et aux traits phontiques ne sont pas
reprsentes

1.4.2. Le modle strictement sriel de Levelt


Levelt et Roelofs (Levelt et al., 1991, 1999 ; Roelofs, 1997b) ont propos un
modle de la production de la parole tapes discrtes et strictement srielles, sans
rtroaction dactivation. Dans la dernire version de ce modle (appel WEAVER),
la production des mots passe par une srie dtapes de traitement dont chacune
correspond un niveau de reprsentation et de traitement spcifique. La
transmission de linformation dun niveau lautre opre de manire strictement
srielle : le traitement dun type particulier dinformation doit tre effectu avant
que ne commence le traitement de linformation associe au niveau suivant. La
figure 1.4 reprsente un fragment du modle WEAVER. Ce modle comprend trois
niveaux, comme le modle de Dell et al. (1997) : le niveau conceptuel/smantique,
le niveau syntaxique (des lemmas, avec les proprits syntaxiques comme le genre,
la catgorie grammaticale, etc.), le niveau phonologique (des lexmes, avec la
structure mtrique, les morphmes, les segments et les syllabes).

Modles de production de la parole

35

Comment fonctionne WEAVER ? Supposons que lon doive dnommer limage


dun MOUTON. La premire tape consiste activer le concept lexical MOUTON.
Lactivation se propage alors du niveau conceptuel/smantique au niveau des
lemmas. Dans le rseau conceptuel/smantique, lactivation se diffuse vers les
concepts relis (comme LAMA et CHEVRE). Ces concepts envoient leur tour de
lactivation leurs lemmas. La probabilit de slectionner le lemma cible MOUTON
est fonction du niveau dactivation du lemma MOUTON par rapport au niveau
dactivation total de tous les autres lemmas activs (comme LAMA et CHEVRE).
Autrement dit, il existe une comptition entre les lemmas smantiquement relis. Ce
mcanisme de comptition permet dexpliquer un certain nombre de rsultats
comme les erreurs smantiques et les effets dinhibition smantique (Segui et
Ferrand, 2000). Un seul lemma est slectionn (MOUTON ici). La slection de ce
lemma permet ensuite la rcupration des codes morphophonologiques (comme la
structure mtrique et segmentale ; voir Segui et Ferrand, 2000 pour plus de dtails).
La rcupration des informations morphophonologiques succde donc la slection
du lemma. Lorsque le mot cible est CAT, seul le lemma CAT se trouve slectionn
et envoie de lactivation son code phonologique /kaet/. Les autres lemmas (comme
DOG et RAT) ne sont pas slectionns et nenvoient pas dactivation au niveau
phonologique.
Le niveau phonologique est constitu de trois types dunits diffrentes (voir
figure 1.4) : les units morphmiques (<select>), les units segmentales (/s/, /i/, /l/,
//, /k/ et /t/), et les units syllabiques ([si], [lk], et [lkt]). Les units morphmiques
permettent de coder les racines et les affixes. Ces units morphmiques sont
connectes au lemma et ses paramtres diacritiques. La racine morphologique
<select> est connecte aux segments phonologiques la dfinissant, ainsi qu sa
structure mtrique (nombre de syllabes et accentuation). Point important,
linformation mtrique nindique pas quels segments constituent telle ou telle
syllabe, de mme quelle ne spcifie pas la forme CV (contrairement au modle de
Dell). Les liens entre le morphme et ses units segmentales indiquent la position
srielle des segments dans le morphme (dans lexemple choisi ici, le /s / est en
premire position, le /i/ en deuxime position, etc.). Les positions possibles des
segments dans les syllabes (attaque, nucleus, coda) sont prcises par les liens entre
les units segmentales et les units syllabiques. Par exemple, les liens dans le rseau
spcifient que /l/ est lattaque de la syllabe [lk] et de la syllabe [lkt]. Linformation
dans le rseau est rcupre via la propagation de lactivation. Lencodage
phonologique dmarre ds que lunit morphmique reoit lactivation de son
lemma. Celle-ci se propage ensuite de faon unidirectionnelle travers le rseau.
Chaque unit envoie une partie de son activation ses voisins immdiats. Il existe
galement un dclin spontan de lactivation. Ce modle diffre de celui de Dell en
ce que la syllabation y est calcule par des rgles tandis quelle est stocke
directement dans le lexique mental dans le modle de Dell.

36

Production du langage

Figure 1.4. WEAVER : modle sriel de Levelt et al. (1999). La production de la parole passe
par plusieurs tapes srielles : ltape conceptuelle, ltape de slection lexicale
(correspondant la rcupration du lemma) et ltape dencodage phonologique. Les nuds
du niveau conceptuel reprsentent les concepts lexicaux et les connexions entre ces concepts
reprsentent les relations smantiques. Au niveau des lemmas (le niveau syntaxique), chaque
nud reprsente un lemma, cest--dire les proprits syntaxiques des mots (comme le
nombre, le genre, etc.). La connexion du lemma avec son nud conceptuel reprsente le sens
du mot. Le lemma est galement connect sa forme phonologique (ou lexme). Lactivation
se propage de faon unidirectionnelle des lemmas vers le niveau phonologique. Seul le lemma
slectionn peut envoyer de lactivation au niveau phonologique.

Ce modle est extrmement dtaill et rend compte dun grand nombre de


rsultats. Toutefois, comme nous allons le voir, sa nature strictement srielle a t
remise en question par de nombreux auteurs.
1.4.3. Srialit ou interactivit ?
La conception strictement srielle du modle de Levelt et al. (1991, 1999) a t
remise en question par de nombreux travaux exprimentaux (Cutting et Ferreira,
1999 ; Dell et al., 1997 ; Jescheniak et Schriefers, 1998 ; Peterson et Savoy, 1998 ;

Modles de production de la parole

37

Rapp et Goldrick, 2000 ; voir Segui et Ferrand, 2000, pour une synthse). En
particulier, Rapp et Goldrick (2000) ont test quatre modles de la production de la
parole laide de simulations (voir figure 1.5).
Le modle standard discret (figure 1.5a) se caractrise principalement par une
activation strictement propage vers le niveau suprieur, sans rtroaction (Levelt et al.,
1999), un traitement limit ltape considre et, enfin, un processus de slection la
fin de chaque tape. De plus, seul litem slectionn la fin dune tape donne est
trait par ltape suivante. Autrement dit, le modle standard na ni activation en
cascade, ni rtroaction dun niveau vers un autre. Par exemple, ltape 1 (slection
lexicale) commence lorsque linformation smantique concernant le mot cible (CAT)
active la cible et ses comptiteurs smantiquement relis (comme RAT et DOG) au
niveau lexical. Cette tape se termine lorsquune seule unit lexicale est slectionne
(ici CAT) : lactivation des units lexicales en comptition (comme DOG et RAT) se
voit rduite zro. Au cours de ltape 2 (encodage phonologique), la rcupration des
phonmes a lieu uniquement pour lunit lexicale slectionne (CAT ; figure 1.5a).
Le modle en cascade sans interaction (figure 1.5b). Comme pour le modle
standard, lactivation est propage vers lavant sans rtroaction. Toutefois, lactivation
nest pas limite ltape considre mais est transmise en cascade aux niveaux
suivants. Enfin, bien quil existe des moments de slection la fin de chaque tape, le
traitement de tous les items se poursuit au cours des tapes suivantes. Par exemple,
ltape 1 (slection lexicale) commence lorsque linformation smantique concernant
le mot cible (CAT) active la cible et ses comptiteurs smantiquement relis (comme
RAT et DOG) au niveau lexical. Plusieurs units lexicales sont slectionnes, dont le
mot cible (CAT) ainsi que ses comptiteurs lexicaux (DOG et RAT). Au cours de
ltape 2 (encodage phonologique), lactivation des phonmes concerne la fois
lunit lexicale cible (CAT) et les comptiteurs (DOG et RAT ; figure 1.5b).
Le modle interactif restreint (figure 1.5c) : lactivation est transmise en cascade
vers les autres niveaux, comme pour le modle en cascade, mais il existe une
rtroaction de lactivation du niveau phonologique vers le niveau smantique
(comme dans le modle de Dell). Par exemple, ltape 1 dmarre lorsque
linformation smantique concernant la cible CAT active lunit lexicale CAT et ses
comptiteurs lexicaux DOG et RAT. De plus, ltape 1 continue pendant que toutes
les units lexicales concernes (CAT, DOG et RAT) envoient de lactivation aux
phonmes correspondants. Les tapes 1 et 2 impliquent non seulement une
propagation de lactivation vers lavant, mais aussi une rtroaction de lactivation du
niveau phonologique vers le niveau lexical. Ltape 1 se termine avec la slection du
candidat le plus activ au niveau lexical (CAT dans notre exemple), mais
lactivation des comptiteurs lexicaux (DOG et RAT) nest pas remise zro.
Pendant ltape 2, le traitement de tous les niveaux se poursuit jusqu la fin de cette
tape, au cours de laquelle les phonmes les plus activs vont tre slectionns.

38

Production du langage

Figure 1.5. Reprsentations schmatiques de quatre modles possibles de la production de la


parole pour le mot CAT (daprs Rapp et Goldrick, 2000). Les flches paisses correspondent
un flux dactivation impliquant le mot cible CAT, les flches fines correspondent un flux
dactivation impliquant les voisins lexicaux, et les flches en pointill correspondent un flux
dactivation impliquant des mots diffrents du mot cible.

Modles de production de la parole

39

Le modle interactif exhaustif (figure 1.5d). Il possde les mmes caractristiques


que le modle prcdent, sauf que linteraction existe tous les niveaux, entre les
niveaux phonologique et lexical, et entre les niveaux lexical et smantique.
Les simulations de Rapp et Goldrick (2000) ont port sur quatre faits : les erreurs
mixtes observes chez les sujets normaux ; leffet de biais lexical ; les erreurs
smantiques ; les erreurs phonologiques. Pour pouvoir simuler les rsultats, Rapp et
Goldrick montrent quun modle doit possder au minimum : un mcanisme
dactivation en cascade et un mcanisme interactif entre le niveau phonologique et le
niveau smantique. Les rsultats de ces simulations vont donc dans le sens dun
modle en cascade avec une interactivit limite aux niveaux smantique et
phonologique (figure 1.5c).
Que choisir entre un modle strictement sriel et un modle interactif ? Selon
Levelt et al., la slection lexicale et lencodage phonologique remplissent deux
fonctions trs diffrentes. La premire vise une recherche rapide du mot appropri
dans un lexique norme ; la seconde vise crer un programme articulatoire pour
litem slectionn. Toute rtroaction du niveau phonologique vers le niveau
smantique fragiliserait le systme et conduirait un nombre derreurs bien
suprieur celui qui est attest dans une communication normale. La modularit,
peut-on dire, est une protection naturelle contre cette drive (Levelt et al., 1991,
p. 618). Au contraire, selon Dell et al. (1997), linteractivit rend le systme plus
robuste et moins sujet lerreur. En effet, il serait plus avantageux pour le locuteur
de choisir un lemma dont la forme phonologique sera plus facile rcuprer par la
suite. Les lemmas dont les formes sont accessibles reoivent plus dactivation (via la
rtroaction dactivation du niveau phonologique vers le niveau smantique) que
ceux dont les formes ne sont pas accessibles. De plus, linteractivit permet de
satisfaire de nombreuses contraintes et rend le systme optimal dans la mesure o il
gre ces contraintes multiples de faon satisfaisante. Les donnes empiriques, temps
de raction et erreurs de production, ainsi que les simulations sur ordinateur
favorisent plutt le modle interactif restreint.
1.4.4. Le modle rseau indpendant de Caramazza
Comme nous lavons soulign auparavant, la distinction entre le niveau
smantique/syntaxique (le niveau des lemmas) et le niveau phonologique (le niveau
des lexmes) est largement accepte. Toutefois, Caramazza et Miozzo (Caramazza,
1997 ; Caramazza et Miozzo, 1997) proposent un modle diffrent reposant sur les
donnes de la Neuropsychologie et du phnomne du mot sur le bout de la langue.
De rcents travaux ont montr quil tait possible de rcuprer linformation
syntaxique dun mot (comme le genre grammatical par exemple) dans des cas o il
tait impossible de rcuprer la moindre information phonologique relative ce

40

Production du langage

mme mot : ces rsultats ont t obtenus avec des sujets normaux en tat de mot sur
le bout de la langue (Ferrand, 2001c ; Vigliocco et al., 1997), ainsi quavec des
patients aphasiques (Badecker, Miozzo et Zanuttini, 1995). Ce rsultat est
compatible avec les modles deux tapes. Toutefois, Caramazza et Miozzo (1997)
ont montr que la rcupration des proprits syntaxiques nest pas corrle avec
lhabilet rcuprer linformation phonologique partielle des mots. En particulier,
dans une srie dexpriences utilisant le phnomne du mot sur le bout de la langue,
Caramazza et Miozzo ont montr que linformation phonologique partielle relative
un mot sur le bout de la langue pouvait tre rcupre mme lorsque le locuteur tait
incapable de rcuprer la moindre information syntaxique concernant ce mot. Le
modle de Levelt et al. (1999) prdit quil ne devrait pas tre possible de rcuprer
linformation phonologique partielle sans rcuprer auparavant linformation
syntaxique. Or, Caramazza et Miozzo (1997) montrent que tel est le cas.
Caramazza (1997) a propos un modle de la production de la parole dans lequel
linformation syntaxique est indpendante de linformation smantique et de
linformation phonologique. Ce modle (voir la figure 1.6) suggre que les
connaissances lexicales sont organises en rseaux indpendants mais
interconnects. Le rseau lexical-smantique reprsente le sens des mots comme des
ensembles de proprits smantiques, de traits smantiques ou de prdicats. Le
rseau syntaxique reprsente les traits syntaxiques des mots comme la catgorie
grammaticale, le genre, le type dauxiliaire, le temps, etc. Dans ce rseau, les nuds
sont organiss en sous-rseaux correspondant diffrentes fonctions syntaxiques.
Par exemple, un sous-rseau correspond des catgories (nom, verbe, adjectif, etc.),
un autre au genre (masculin, fminin), un autre encore au type dauxiliaire (avoir,
tre), etc. Les nuds lintrieur du sous-rseau syntaxique ont des connexions
inhibitrices car ils sont en comptition. Le rseau des lexmes reprsente la forme
phonologique des items lexicaux.
Ce modle rseaux indpendants partage de nombreuses proprits avec
dautres modles de laccs au lexique : linformation lexicale-smantique est
reprsente indpendamment des reprsentations syntaxiques et phonologiques
(comme dans le modle de Dell) ; le rseau lexical-smantique est componentiel
(comme dans Dell, mais contrairement Levelt) ; il sagit dun modle dont
lactivation se propage uniquement vers lavant, sans rtroaction (comme dans
Levelt, et contrairement Dell ; Rapp et Goldrick, 2000). Toutefois, contrairement
aux modles prcdents, lactivation se propage simultanment et indpendamment
du rseau lexical-smantique vers le rseau syntaxique dune part, et vers le rseau
des lexmes dautre part. Autrement dit, ce modle nadhre pas lhypothse de la
mdiation syntaxique obligatoire de Levelt et al. (1999). Les donnes issues de la
neuropsychologie cognitive suggrent effectivement que linformation lexicalesmantique et linformation grammaticale sont indpendantes puisquune lsion peut
affecter la premire et pas la seconde, ou au contraire, la seconde et pas la premire.

Modles de production de la parole

41

Linformation syntaxique et linformation phonologique sont indpendantes pour les


mmes raisons. Les hypothses centrales du modle de Caramazza (1997) sont les
suivantes :
les reprsentations lexicales-smantiques, syntaxiques et phonologiques sont
stockes indpendamment dans des rseaux spars ;
les reprsentations phonologiques (les lexmes) sont actives indpendamment
par les reprsentations smantiques ;
les reprsentations lexicales-smantiques sont componentielles et activent en
parallle linformation syntaxique et linformation phonologique ;
la reprsentation lexicale-smantique active en parallle tous les lexmes des
mots partageant des traits smantiques avec le lemma slectionn.

Figure 1.6. Reprsentation schmatique du rseau indpendant (daprs Caramazza, 1997)


montrant les relations entre les reprsentations lexicales-smantiques, syntaxiques et
phonologiques (lexmes). Le flux dactivation se propage du rseau lexical-smantique au
rseau syntaxique et aux lexmes, puis aux phonmes. Les lignes en pointill indiquent une
faible activation. Les connexions lintrieur dun rseau sont inhibitrices.

Caramazza suggre que la slection des reprsentations (lexicales) smantiques


ne garantit pas laccs aux informations syntaxiques et que laccs aux informations
phonologiques dun mot ne dpend pas strictement de laccs pralable ses

42

Production du langage

informations grammaticales. Contrairement aux modles de Dell et al. (1997) et de


Levelt et al. (1999), le modle de Caramazza reste verbal pour le moment et na
pas t implment sur ordinateur. Il reste donc difficile comparer directement
avec les deux modles prcdents et nous ne pouvons faire que des prdictions
verbales peu prcises. De plus, le modle rseau indpendant ne fournit aucun
dtail concernant les mcanismes impliqus au niveau de lencodage phonologique.
1.5. Conclusion
Dans ce chapitre, nous avons abord brivement les trois modles principaux de
la production de la parole : le modle en cascade interactif de Dell, le modle
strictement sriel de Levelt et Roelofs, et le modle rseau indpendant de
Caramazza et Miozzo. Nous avons vu quil existait une controverse importante
concernant la nature srielle ou interactive des relations entre les niveaux
smantique et phonologique. La plupart des travaux actuels favorisent plutt les
conceptions interactives.
Nous navons pas abord la neuropsychologie de la production de la parole mais
cest un domaine qui se dveloppe extrmement rapidement et qui apporte dores et
dj des contraintes importantes sur la modlisation des mcanismes impliqus dans
la production de la parole (Dell et al., 1997; Rapp et Goldrick, 2000). Nous navons
pas non plus abord les modles de la lecture voix haute, bien qu lvidence ces
deux tches (lecture voix haute et production de la parole) partagent de nombreux
processus. Peut-on pour autant dire quun modle de la production de la parole est
un modle de la lecture voix haute, et vice versa ? Enfin, certaines questions
importantes nont toujours pas trouv de rponse. En particulier, comment le
systme de production de la parole est-il li au systme de perception de la parole
(voir Segui et Ferrand, 2000 pour un dbut de rponse) ? Quelles sont les rgions
crbrales impliques dans les processus de prparation conceptuelle, de slection
lexicale, dencodage phonologique, etc. ? A lavenir, les modles de la production
de la parole vont-ils tendre vers des modles traitement parallle distribu (Dell et
al., 1993) et remplacer les modles symboliques classiques ?
1.6. Bibliographie
Badecker, W., Miozzo, M., & Zanuttini, R. (1995). The two-stage model of lexical retrieval:
Evidence from a case of anomia with selective preservation of grammatical gender.
Cognition, 57, 193-216.
Berg, T., & Schade, U. (1992). The role of inhibition in a spreading-activation model of
language production: I. The psycholinguistic perspective. Journal of Psycholinguistic
Research, 21, 405-434.

Modles de production de la parole

43

Caramazza, A. (1997). How many levels of processing are there in lexical access? Cognitive
Neuropsychology, 14, 177-208.
Caramazza, A., & Miozzo, M. (1997). The relation between syntactic and phonological
knowledge in lexical access: evidence from the tip-of-the-tongue phenomenon.
Cognition, 64, 309-343.
Cutting, J.C., & Ferreira, V.S. (1999). Semantic and phonological flow in the production
lexicon. Journal of Experimental Psychology: Learning, Memory, and Cognition, 25,
318-344.
Dell, G.S., & Reich, P.A. (1981). Stages in sentence production: An analysis of speech error
data. Journal of Verbal Learning and verbal Behavior, 20, 611-629.
Dell, G.S. (1986). A spreading-activation theory of retrieval in sentence production.
Psychological Review, 93, 283-321.
Dell, G.S. (1988). The retrieval of phonological forms in production: Tests of predictions
from a connectionist model. Journal of Memory and Language, 27, 124-142.
Dell, G.S., Juliano, C., & Govindjee, A. (1993). Structure and content in language production: A
theory of frame constraints in phonological speech errors. Cognitive Science, 17, 149-195.
Dell, G.S., Schwartz, M.F., Martin, N., Saffran, E.M., & Gagnon, D.A. (1997). Lexical access
in aphasic and nonaphasic speakers. Psychological Review, 104, 801-838.
Ferrand, L. (1994). Accs au lexique et production de la parole : Un survol. LAnne
Psychologique, 94, 295-312.
Ferrand, L. (1997). La dnomination dobjets : Thories et donnes. LAnne Psychologique,
97, 113-146.
Ferrand, L. (2001a). La production du langage. Grenoble : Presses Universitaires de Grenoble.
Ferrand, L. (2001b). La production du langage: une vue densemble. Psychologie Franaise,
46, 3-15.
Ferrand, L. (2001c). Grammatical gender is also on the tip of French tongues. Current
Psychology Letters, 5.
Fromkin, V.A. (1973). Speech errors as linguistic evidence. La Haye : Mouton.
Jescheniak, J.D., & Schriefers, H. (1998). Discrete serial versus cascaded processing in
lexical access in speech production: Further evidence from the coactivation of nearsynonyms. Journal of Experimental Psychology: Learning, Memory, and Cognition, 24,
1256-1274.
Levelt, W.J.M. (1989). Speaking: From intention to articulation. Cambridge, MA : MIT Press.
Levelt, W.J.M., Schriefers, H., Vorberg, D., Meyer, A.S., Pechmann, T., & Havinga, J.
(1991). The time course of lexical access in speech production: A study of picture
naming. Psychological Review, 98, 122-142.
Levelt, W.J.M., Roelofs, A., & Meyer, A.S. (1999). A theory of lexical access in speech
production. Behavioral and Brain Sciences, 22, 1-75.

44

Production du langage

Peterson, R.R., & Savoy, P. (1998). Lexical selection and phonological encoding during
language production: Evidence for cascaded processing. Journal of Experimental
Psychology: Learning, Memory, and Cognition, 24, 539-557.
Rapp, B., & Goldrick, M. (2000). Discreteness and interactivity in spoken word production.
Psychological Review, 107, 460-499.
Roelofs, A. (1996). Serial order in planning the production of successive morphemes of a
word. Journal of Memory and Language, 35, 854-876.
Roelofs, A. (1997a). A case for non-decomposition in conceptually driven word retrieval.
Journal of Psycholinguistic Research, 26, 33-67.
Roelofs, A. (1997b). The WEAVER model of word-form encoding in speech production.
Cognition, 64, 249-284.
Rossi, M., & Peter-Defare, E. (1998). Les lapsus, ou comment notre fourche a langu. Paris :
Presses Universitaires de France.
Schriefers, H., Meyer, A.S., & Levelt, W.J.M. (1990). Exploring the time course of lexical
access in language production: Picture-word interference studies. Journal of Memory and
Language, 29, 86-102.
Segui J., & Ferrand L. (2000). Leons de parole. Paris : Odile Jacob.
Stemberger, J.P. (1985). An interactive activation model of language production. In W. Ellis
(Ed.), Progress in the psychology of language, vol. 1. Hillsdale : Erlbaum.
Vigliocco, G., Antonini, T., & Garrett, M.F. (1997). Grammatical gender is on the tip of
Italian tongues. Psychological Science, 8, 314-317.