Académique Documents
Professionnel Documents
Culture Documents
Modles et composantes
de la production verbale
Chapitre 1
1.1. Introduction
Parler est une de nos proccupations prfres. Nous passons plusieurs heures
par jour discuter, raconter des histoires, dbattre, argumenter et, bien sr, nous
parler nous-mmes (Levelt, 1989). Au cours dune conversation normale, nous
produisons 2 3 mots par seconde, ce qui correspond environ 4 syllabes et 10-12
phonmes par seconde. Ces mots sont slectionns extrmement rapidement (en
moins dune seconde) dans le lexique mental qui comprend environ 60 000 mots
chez un adulte lettr. Nous faisons trs peu derreurs de production, moins dune
erreur sur 1 000 mots produits (Rossi et Peter-Defare, 1998). Nous sommes ns pour
parler, et parvenus lge adulte, nous avons produit environ 50 millions de mots.
Cest sans doute le talent cognitif et moteur que nous pratiquons le plus ; cest celui
qui nous parat le plus simple et le plus immdiat, mais cest aussi le plus complexe.
1.2. La production de la parole : trois tapes principales
La plupart des thories psycholinguistiques (Dell, 1986; Levelt, 1989) suggrent
que la production de la parole passe par trois tapes principales de traitement (voir
figure 1.1) : (1) la premire tape est celle de la prparation conceptuelle du
message prverbal (le message exprimer correspond aux intentions, aux ides que
le locuteur veut exprimer ; ce message est non linguistique ou prverbal). Ce
message contient un ou plusieurs concepts pour lesquels nous avons des mots dans
notre lexique mental et ces mots doivent tre rcuprs ; (2) la seconde tape est
celle de la formulation ou lexicalisation du message prverbal : cette tape daccs
Chapitre rdig par Ludovic FERRAND.
28
Production du langage
Figure 1.1. Les trois tapes principales impliques dans la production de la parole :
(1) conceptualisation ; (2) formulation (encodage smantique/syntaxique et phonologique/
morphologique) ; (3) articulation
29
30
Production du langage
Defare, 1998). Les erreurs de production prennent des formes multiples. Toutefois,
dans cette diversit, une taxinomie prcise a t labore (Dell, 1986). Lobservation
des erreurs de production prsente un intrt considrable mais aussi de nombreux
inconvnients, notamment la raret des erreurs, lambigut de leur nature, ainsi que
les biais dans leur recueil. Les erreurs de syntaxe surviennent moins de 5 fois sur 1 000
phrases produites, les erreurs de slection lexicale surviennent moins dune fois sur
1 000 mots produits, et les erreurs dencodage phonologique moins de 4 fois sur
10 000 mots produits. Nanmoins, malgr tous ces problmes potentiels, il existe une
bonne convergence entre les observations naturelles et celles induites en laboratoire.
Une autre mthode trs frquemment utilise pour tudier la production de la
parole est celle de la dnomination dobjets (Ferrand, 1997). Cette technique permet
dtudier le dcours temporel des processus impliqus dans la production de la parole.
Lanalyse des temps de raction constitue en psychologie exprimentale lun des
instruments privilgis pour infrer la complexit et la nature des processus tudis.
Que se passe-t-il quand nous devons dnommer un dessin dobjet ? Gnralement,
cela nous prend entre 600 et 1 200 millisecondes en moyenne entre la prsentation du
dessin et linitialisation de la rponse verbale, et nous commettons trs peu derreurs.
Dnommer un objet demande plusieurs tapes de traitement, qui peuvent ou non se
recouvrir temporellement, comme nous le verrons par la suite. Premirement, le
locuteur doit traiter le dessin visuellement. Cela implique lextraction de traits visuels :
bords, coins, ombres, etc. Bien sr, les tapes initiales de la dnomination, celles qui
sont impliques dans lanalyse et la reconnaissance visuelle de lobjet, ne font pas
partie des processus de production de la parole proprement dit.
Deuximement, le locuteur doit catgoriser le dessin comme tant une maison,
un avion, une montre ou autre. Cette tape lui permet de recruter le mot
smantiquement appropri dans le lexique mental. Cela lui fournit de linformation
sur la faon dont le mot reprsent est utilis habituellement : sagit-il dun verbe,
dun nom ou autre ? Est-il au masculin ou fminin, au singulier ou pluriel, etc. ?
Localiser une entre lexicale exige quun mot adquat existe dans le lexique mental
du locuteur pour vhiculer le message correspondant. La facilit de slection dun
mot pour la production dpend de nombreux facteurs comme, par exemple, la
frquence du nom de lobjet (plus un mot est frquent ou familier, et plus vite a lieu
sa rcupration), lge dacquisition du nom de lobjet (plus un mot est acquis tt, et
plus vite a lieu sa rcupration), etc. Une fois lentre lexicale slectionne, la
prononciation du mot doit tre rcupre et produite.
1.4. Les principaux modles de la production de la parole
Nous prsentons trois principaux modles de la production de la parole (voir
Ferrand, 2001b pour plus de dtails) : le modle en cascade avec interactivit de
31
Dell (Dell, 1986 ; Dell et al., 1997), le modle strictement sriel de Levelt (Levelt et
al., 1999) et le modle rseau indpendant de Caramazza (Caramazza, 1997 ;
Caramazza et Miozzo, 1997). Ces trois modles sont localistes avec des
reprsentations mentales symboliques discrtes comme des traits smantiques, des
phonmes, des morphmes, etc. (le seul modle distribu tant celui de Dell et al.,
1993).
1.4.1. Le modle en cascade interactif de Dell
Gary Dell (Dell, 1986 ; Dell et al., 1997) a propos un modle connexionniste en
cascade et interactif deux tapes comprenant trois niveaux de reprsentations (voir
figure 1.2) : il sagit du niveau smantique (correspondant des traits smantiques),
du niveau lexical (correspondant aux mots) et du niveau phonologique
(correspondant aux phonmes). Ces trois niveaux sont relis par des connexions
excitatrices bidirectionnelles (il nexiste pas de connexions inhibitrices dans ce
modle). De plus, chaque niveau interagit avec les niveaux adjacents. Les
connexions descendantes vont du niveau smantique vers le niveau lexical, puis du
niveau lexical vers le niveau phonologique. Les connexions ascendantes vont dans
lautre sens, permettant linteractivit du modle grce cette rtroaction
dactivation du niveau phonologique vers le niveau lexical et smantique. De ce
point de vue, ce modle est similaire aux autres modles interactifs de la production
de la parole (Stemberger, 1985) et diffre des modles strictement sriels (Levelt et
al., 1991, 1999). Les reprsentations de chaque niveau sont codes par des valeurs
dactivation. Ces valeurs sont actualises au cours du traitement en fonction des
niveaux dactivation des reprsentations voisines, le dclin de lactivation de base, et
linfluence du bruit alatoire. Les mots sont rcuprs grce la propagation de
lactivation dans le modle travers ces trois niveaux.
Il sagit dun modle deux tapes, correspondant respectivement la slection
lexicale et lencodage phonologique. Au cours de la premire tape, dite de slection
lexicale, les traits smantiques du mot produire reoivent une vague dactivation.
Cette activation se propage dans tout le rseau pendant une certaine dure. Aprs un
certain temps, lunit mot la plus active est slectionne, ce qui correspond la
premire tape de slection lexicale. La seconde tape, dite dencodage phonologique,
dmarre avec une vague dactivation partant du mot slectionn. Cette activation se
propage vers le niveau phonologique : aprs un certain temps, les phonmes les plus
activs sont slectionns et ordonns dans un cadre phonologique.
Ce modle est interactif car toutes les connexions sont bidirectionnelles :
lactivation se propage dans les deux sens. Ce modle permet en particulier
dexpliquer et de simuler de nombreuses erreurs de production, dont les erreurs
smantiques, formelles et mixtes. Un des arguments en facteur de linteractivit est
32
Production du langage
Figure 1.2. Modle activation interactive en cascade de Dell et al. (1997). Le niveau
smantique est compos dunits smantiques correspondant des traits smantiques ; le
niveau lexical est compos dunits mots et le niveau phonmique est constitu de phonmes
(les attaques, les voyelles et les codas). Les connexions entre les niveaux sont excitatrices et
bidirectionnelles (il nexiste pas de connexions inhibitrices). Lactivation se propage en
cascade de faon interactive, du niveau smantique vers le niveau phonologique (en passant
par le niveau lexical), mais aussi du niveau phonologique vers le niveau smantique (en
passant par le niveau lexical). Les traits smantiques en commun pour CAT (chat), DOG
(chien) et RAT (rat) apparaissent en noir.
33
Dell (1986, 1988) a donn une description trs prcise des mcanismes
impliqus dans ltape dencodage phonologique (voir cette description dans la
figure 1.3). Dell (1986) suggre que les mots sont reprsents dans le rseau par des
units correspondant aux morphmes, syllabes, rimes, segments, groupements de
segments et traits. La figure 1.3 illustre cela pour le mot RADAR (par simplicit, les
rimes et les traits ne sont pas reprsents). Par exemple, lorsque nous devons
produire le mot RADAR, le morphme correspondant et ses units segmentales /r/,
/a/ , /d/, /a/ et /r/ sont rcuprs en mmoire et sont utiliss pour construire un
programme moteur appropri. Ensuite, les segments forment lattaque et le nucleus
de la premire syllabe (RA), et lattaque, le nucleus et la coda de la seconde syllabe
(DAR), respectivement. Les units correspondant aux segments et aux groupements
de segments sont donc marques en fonction de leur position syllabique. Les units
sont connectes entre elles par des connexions bidirectionnelles de diffrentes
forces. Au cours de lencodage phonologique, lactivation de lunit morphmique
RADAR augmente grce lactivation provenant du lemma RADAR. Lactivation
se propage ensuite travers le rseau, chaque unit envoyant de lactivation ses
voisins. La mise en correspondance du morphme RADAR avec ses segments
phonologiques se fait par la slection des segments ou groupements de segments les
plus activs. Les units slectionnes sont ensuite insres dans des cadres
syllabiques. Les units segmentales pour une syllabe sont slectionnes en parallle.
Dans le cas de morphmes polysyllabiques (comme REPEINDRE), les
connexions entre lunit morphmique et les units syllabiques sont tiquetes par
ordre et position. Les syllabes sont codes de faon srielle. Le codage successif des
syllabes est accompli en augmentant temporairement le taux dactivation dune
syllabe et en diminuant celui des autres syllabes. Par la suite, Dell (1988) a ajout un
niveau supplmentaire pouvant coder toutes les formes possibles (voir figure 1.3).
Chaque mot dans le rseau lexical est connect la tte de la forme du mot qui
reprsente sa structure CV. Lunit correspondant la forme du mot active de faon
srielle les units segmentales correspondantes : lattaque-consonne (CAt), la voyelle
(V) et la coda-consonne (CCo). La slection des units correspondant lattaque, au
nucleus et la coda se fait de manire srielle. Cela permet au modle de rendre
compte des effets sriels de lencodage phonologique (voir Segui et Ferrand, 2000
pour un rsum). Toutefois, Roelofs (1997b) a suggr une autre faon de modliser
ltape dencodage phonologique (voir le paragraphe suivant).
Une des limitations du modle de Dell est quil na pas t dvelopp pour
simuler les donnes de la chronomtrie mentale mais seulement pour simuler les
distributions des erreurs de production. Le modle sriel de Levelt et al. (1999)
permet au contraire dexpliquer certaines donnes de la chronomtrie mentale.
34
Production du langage
Figure 1.3. Fragment du modle dencodage phonologique (adapt de Dell, 1986, 1988). Par
souci de simplicit, les units correspondant aux rimes et aux traits phontiques ne sont pas
reprsentes
35
36
Production du langage
Figure 1.4. WEAVER : modle sriel de Levelt et al. (1999). La production de la parole passe
par plusieurs tapes srielles : ltape conceptuelle, ltape de slection lexicale
(correspondant la rcupration du lemma) et ltape dencodage phonologique. Les nuds
du niveau conceptuel reprsentent les concepts lexicaux et les connexions entre ces concepts
reprsentent les relations smantiques. Au niveau des lemmas (le niveau syntaxique), chaque
nud reprsente un lemma, cest--dire les proprits syntaxiques des mots (comme le
nombre, le genre, etc.). La connexion du lemma avec son nud conceptuel reprsente le sens
du mot. Le lemma est galement connect sa forme phonologique (ou lexme). Lactivation
se propage de faon unidirectionnelle des lemmas vers le niveau phonologique. Seul le lemma
slectionn peut envoyer de lactivation au niveau phonologique.
37
Rapp et Goldrick, 2000 ; voir Segui et Ferrand, 2000, pour une synthse). En
particulier, Rapp et Goldrick (2000) ont test quatre modles de la production de la
parole laide de simulations (voir figure 1.5).
Le modle standard discret (figure 1.5a) se caractrise principalement par une
activation strictement propage vers le niveau suprieur, sans rtroaction (Levelt et al.,
1999), un traitement limit ltape considre et, enfin, un processus de slection la
fin de chaque tape. De plus, seul litem slectionn la fin dune tape donne est
trait par ltape suivante. Autrement dit, le modle standard na ni activation en
cascade, ni rtroaction dun niveau vers un autre. Par exemple, ltape 1 (slection
lexicale) commence lorsque linformation smantique concernant le mot cible (CAT)
active la cible et ses comptiteurs smantiquement relis (comme RAT et DOG) au
niveau lexical. Cette tape se termine lorsquune seule unit lexicale est slectionne
(ici CAT) : lactivation des units lexicales en comptition (comme DOG et RAT) se
voit rduite zro. Au cours de ltape 2 (encodage phonologique), la rcupration des
phonmes a lieu uniquement pour lunit lexicale slectionne (CAT ; figure 1.5a).
Le modle en cascade sans interaction (figure 1.5b). Comme pour le modle
standard, lactivation est propage vers lavant sans rtroaction. Toutefois, lactivation
nest pas limite ltape considre mais est transmise en cascade aux niveaux
suivants. Enfin, bien quil existe des moments de slection la fin de chaque tape, le
traitement de tous les items se poursuit au cours des tapes suivantes. Par exemple,
ltape 1 (slection lexicale) commence lorsque linformation smantique concernant
le mot cible (CAT) active la cible et ses comptiteurs smantiquement relis (comme
RAT et DOG) au niveau lexical. Plusieurs units lexicales sont slectionnes, dont le
mot cible (CAT) ainsi que ses comptiteurs lexicaux (DOG et RAT). Au cours de
ltape 2 (encodage phonologique), lactivation des phonmes concerne la fois
lunit lexicale cible (CAT) et les comptiteurs (DOG et RAT ; figure 1.5b).
Le modle interactif restreint (figure 1.5c) : lactivation est transmise en cascade
vers les autres niveaux, comme pour le modle en cascade, mais il existe une
rtroaction de lactivation du niveau phonologique vers le niveau smantique
(comme dans le modle de Dell). Par exemple, ltape 1 dmarre lorsque
linformation smantique concernant la cible CAT active lunit lexicale CAT et ses
comptiteurs lexicaux DOG et RAT. De plus, ltape 1 continue pendant que toutes
les units lexicales concernes (CAT, DOG et RAT) envoient de lactivation aux
phonmes correspondants. Les tapes 1 et 2 impliquent non seulement une
propagation de lactivation vers lavant, mais aussi une rtroaction de lactivation du
niveau phonologique vers le niveau lexical. Ltape 1 se termine avec la slection du
candidat le plus activ au niveau lexical (CAT dans notre exemple), mais
lactivation des comptiteurs lexicaux (DOG et RAT) nest pas remise zro.
Pendant ltape 2, le traitement de tous les niveaux se poursuit jusqu la fin de cette
tape, au cours de laquelle les phonmes les plus activs vont tre slectionns.
38
Production du langage
39
40
Production du langage
mme mot : ces rsultats ont t obtenus avec des sujets normaux en tat de mot sur
le bout de la langue (Ferrand, 2001c ; Vigliocco et al., 1997), ainsi quavec des
patients aphasiques (Badecker, Miozzo et Zanuttini, 1995). Ce rsultat est
compatible avec les modles deux tapes. Toutefois, Caramazza et Miozzo (1997)
ont montr que la rcupration des proprits syntaxiques nest pas corrle avec
lhabilet rcuprer linformation phonologique partielle des mots. En particulier,
dans une srie dexpriences utilisant le phnomne du mot sur le bout de la langue,
Caramazza et Miozzo ont montr que linformation phonologique partielle relative
un mot sur le bout de la langue pouvait tre rcupre mme lorsque le locuteur tait
incapable de rcuprer la moindre information syntaxique concernant ce mot. Le
modle de Levelt et al. (1999) prdit quil ne devrait pas tre possible de rcuprer
linformation phonologique partielle sans rcuprer auparavant linformation
syntaxique. Or, Caramazza et Miozzo (1997) montrent que tel est le cas.
Caramazza (1997) a propos un modle de la production de la parole dans lequel
linformation syntaxique est indpendante de linformation smantique et de
linformation phonologique. Ce modle (voir la figure 1.6) suggre que les
connaissances lexicales sont organises en rseaux indpendants mais
interconnects. Le rseau lexical-smantique reprsente le sens des mots comme des
ensembles de proprits smantiques, de traits smantiques ou de prdicats. Le
rseau syntaxique reprsente les traits syntaxiques des mots comme la catgorie
grammaticale, le genre, le type dauxiliaire, le temps, etc. Dans ce rseau, les nuds
sont organiss en sous-rseaux correspondant diffrentes fonctions syntaxiques.
Par exemple, un sous-rseau correspond des catgories (nom, verbe, adjectif, etc.),
un autre au genre (masculin, fminin), un autre encore au type dauxiliaire (avoir,
tre), etc. Les nuds lintrieur du sous-rseau syntaxique ont des connexions
inhibitrices car ils sont en comptition. Le rseau des lexmes reprsente la forme
phonologique des items lexicaux.
Ce modle rseaux indpendants partage de nombreuses proprits avec
dautres modles de laccs au lexique : linformation lexicale-smantique est
reprsente indpendamment des reprsentations syntaxiques et phonologiques
(comme dans le modle de Dell) ; le rseau lexical-smantique est componentiel
(comme dans Dell, mais contrairement Levelt) ; il sagit dun modle dont
lactivation se propage uniquement vers lavant, sans rtroaction (comme dans
Levelt, et contrairement Dell ; Rapp et Goldrick, 2000). Toutefois, contrairement
aux modles prcdents, lactivation se propage simultanment et indpendamment
du rseau lexical-smantique vers le rseau syntaxique dune part, et vers le rseau
des lexmes dautre part. Autrement dit, ce modle nadhre pas lhypothse de la
mdiation syntaxique obligatoire de Levelt et al. (1999). Les donnes issues de la
neuropsychologie cognitive suggrent effectivement que linformation lexicalesmantique et linformation grammaticale sont indpendantes puisquune lsion peut
affecter la premire et pas la seconde, ou au contraire, la seconde et pas la premire.
41
42
Production du langage
43
Caramazza, A. (1997). How many levels of processing are there in lexical access? Cognitive
Neuropsychology, 14, 177-208.
Caramazza, A., & Miozzo, M. (1997). The relation between syntactic and phonological
knowledge in lexical access: evidence from the tip-of-the-tongue phenomenon.
Cognition, 64, 309-343.
Cutting, J.C., & Ferreira, V.S. (1999). Semantic and phonological flow in the production
lexicon. Journal of Experimental Psychology: Learning, Memory, and Cognition, 25,
318-344.
Dell, G.S., & Reich, P.A. (1981). Stages in sentence production: An analysis of speech error
data. Journal of Verbal Learning and verbal Behavior, 20, 611-629.
Dell, G.S. (1986). A spreading-activation theory of retrieval in sentence production.
Psychological Review, 93, 283-321.
Dell, G.S. (1988). The retrieval of phonological forms in production: Tests of predictions
from a connectionist model. Journal of Memory and Language, 27, 124-142.
Dell, G.S., Juliano, C., & Govindjee, A. (1993). Structure and content in language production: A
theory of frame constraints in phonological speech errors. Cognitive Science, 17, 149-195.
Dell, G.S., Schwartz, M.F., Martin, N., Saffran, E.M., & Gagnon, D.A. (1997). Lexical access
in aphasic and nonaphasic speakers. Psychological Review, 104, 801-838.
Ferrand, L. (1994). Accs au lexique et production de la parole : Un survol. LAnne
Psychologique, 94, 295-312.
Ferrand, L. (1997). La dnomination dobjets : Thories et donnes. LAnne Psychologique,
97, 113-146.
Ferrand, L. (2001a). La production du langage. Grenoble : Presses Universitaires de Grenoble.
Ferrand, L. (2001b). La production du langage: une vue densemble. Psychologie Franaise,
46, 3-15.
Ferrand, L. (2001c). Grammatical gender is also on the tip of French tongues. Current
Psychology Letters, 5.
Fromkin, V.A. (1973). Speech errors as linguistic evidence. La Haye : Mouton.
Jescheniak, J.D., & Schriefers, H. (1998). Discrete serial versus cascaded processing in
lexical access in speech production: Further evidence from the coactivation of nearsynonyms. Journal of Experimental Psychology: Learning, Memory, and Cognition, 24,
1256-1274.
Levelt, W.J.M. (1989). Speaking: From intention to articulation. Cambridge, MA : MIT Press.
Levelt, W.J.M., Schriefers, H., Vorberg, D., Meyer, A.S., Pechmann, T., & Havinga, J.
(1991). The time course of lexical access in speech production: A study of picture
naming. Psychological Review, 98, 122-142.
Levelt, W.J.M., Roelofs, A., & Meyer, A.S. (1999). A theory of lexical access in speech
production. Behavioral and Brain Sciences, 22, 1-75.
44
Production du langage
Peterson, R.R., & Savoy, P. (1998). Lexical selection and phonological encoding during
language production: Evidence for cascaded processing. Journal of Experimental
Psychology: Learning, Memory, and Cognition, 24, 539-557.
Rapp, B., & Goldrick, M. (2000). Discreteness and interactivity in spoken word production.
Psychological Review, 107, 460-499.
Roelofs, A. (1996). Serial order in planning the production of successive morphemes of a
word. Journal of Memory and Language, 35, 854-876.
Roelofs, A. (1997a). A case for non-decomposition in conceptually driven word retrieval.
Journal of Psycholinguistic Research, 26, 33-67.
Roelofs, A. (1997b). The WEAVER model of word-form encoding in speech production.
Cognition, 64, 249-284.
Rossi, M., & Peter-Defare, E. (1998). Les lapsus, ou comment notre fourche a langu. Paris :
Presses Universitaires de France.
Schriefers, H., Meyer, A.S., & Levelt, W.J.M. (1990). Exploring the time course of lexical
access in language production: Picture-word interference studies. Journal of Memory and
Language, 29, 86-102.
Segui J., & Ferrand L. (2000). Leons de parole. Paris : Odile Jacob.
Stemberger, J.P. (1985). An interactive activation model of language production. In W. Ellis
(Ed.), Progress in the psychology of language, vol. 1. Hillsdale : Erlbaum.
Vigliocco, G., Antonini, T., & Garrett, M.F. (1997). Grammatical gender is on the tip of
Italian tongues. Psychological Science, 8, 314-317.