Amaya Palama These

Archive ouverte UNIGE
https://archive-ouverte.unige.ch
Thèse 2019 Open Access
This version of the publication is provided by the author(s) and made available in accordance with the
copyright holder(s).
La perception intermodale (audio-visuelle) des expressions émotionnelles

(joie, colère, peur ou dégoût) chez les bébés âgés de 1 à 6 mois et les
enfants âgés de 5 à 10 ans : apports de l'oculométrie
Palama, Amaya
How to cite
PALAMA, Amaya. La perception intermodale (audio-visuelle) des expressions émotionnelles (joie,

colère, peur ou dégoût) chez les bébés âgés de 1 à 6 mois et les enfants âgés de 5 à 10 ans : apports
de l’oculométrie. 2019. doi: 10.13097/archive-ouverte/unige:123713
This publication URL: https://archive-ouverte.unige.ch//unige:123713

Publication DOI: 10.13097/archive-ouverte/unige:123713
© This document is protected by copyright. Please refer to copyright holder(s) for terms of use.
Section de psychologie
Sous la direction du Professeur Edouard Gentaz
La perception intermodale (audio-visuelle) des expressions émotionnelles

(joie, colère, peur ou dégoût) chez les bébés âgés de 1 à 6 mois et les
enfants âgés de 5 à 10 ans : apports de l’oculométrie
THESE
Présentée à la
Faculté de psychologie et des sciences de l’éducation
de l’Université de Genève
pour obtenir le grade de Docteur en Psychologie
par
Amaya PALAMA
de
Genève
Thèse No 741
GENEVE
Juillet 2019
No étudiant : 10-308-047
UNIVERSlTÉ
DE GENÈVE
FACULTÉ DE PSYCHOLOCIE ET
DES SCIENCES DE TÉDUCATION
Doctorat en psychologie
Thèse de Amaya PALAMA
lntitulée < La perception intermodale (audio-visuelle) des expressions

émotionnelles (joie, colère, peur ou dégoût) chez les bébés âgés de 1 à
6 mois et les enfants âgés de 5 à 10 ans:apports de I'oculométrie >
La Faculté de psychologie et des sciences de l'éducation, sur préavis du jury de

thèse formé par les professeur-e-s :
Edouard Gentaz, directeur, FPSE, Université de Genève

Jean-Yves Baudouin, Université Lyon 2
Didier Grandjean, ËPSE, Université de Genève
David Sander, FPSE, Université de Genève
Arlette Streri, Université Paris V
autorise I'impression de la présente thèse, sans prétendre par-là émettre d'opinion

sur les propositions qui sont énoncées dans les recommandations sur la publication
de la thèse.
Genève, le 13 septembre 2019
lle Bétrancourt
Doyenne
Thèse No 741
Numéro d'immatriculation : 10.308.047
N.B. L'lmprimatur constitue une validation de la réussite de la thèse par la doyenne de la Faculté'
L,lmprimatur permet de déposer la thèse aux archives ouvertes et ainsi obtenir le diplôme final.
En aucun cas il ne fait office de diplôme final.
Uni Mail
4o, boulevard du Pont-d'Arve - CH-tztt Genève 4
Résumé
Le but de cette thèse est d’approfondir les connaissances sur la nature et le développement de
la perception des émotions. Pour cela, nous avons réalisé cinq études (et 11 expériences) visant à
étudier le développement de la capacité à percevoir les expressions émotionnelles de manière amodale
(c.-à-d. indépendamment des modalités sensorielles) fondées sur une reconnaissance intrinsèque
véritable, ou alors en fonction des caractéristiques physiques (acoustiques, picturales) des stimuli
utilisés (visages ou voix).
Pour cela, nous avons présenté des séquences de transfert intermodal émotionnel audio-visuel
à des bébés âgés de 1 à 6 mois (N=290), à des enfants âgés de 5 à 10 ans (N=60) et à des jeunes
adultes (N=20). Ces séquences consistaient à la présentation de voix émotionnelles suivies de la
présentation de deux visages, l’un congruent et l’autre incongruent par rapport à la voix. Ainsi, nous
avons étudié grâce à un codage vidéo ou à un eye-tracker l’influence des voix préalablement
entendues sur le temps, le nombre et la direction du regard dirigés vers les expressions faciales.
Les résultats des cinq études pour un total de onze expériences réalisées dans le cadre de cette
thèse révèlent des différences en fonction de l’âge des participants, du type de stimuli présentés et de
l’émotion exprimée. Chez les bébés, les résultats n’ont pas permis de mettre en évidence une capacité
de transfert intermodal émotionnel de 1 à 4 mois (études 2 et 4). À partir de 4 mois, l’émergence d’un
transfert intermodal émotionnel semble être possible, mais de manière très limitée et dépendante des
stimuli présentés (préférence pour le visage congruent avec des stimuli masculins et préférence pour
le visage incongruent avec des stimuli féminins) (étude 3). À 6 mois, un transfert intermodal
émotionnel semble également possible, mais uniquement avec la voix de joie, avec une préférence
pour le visage incongruent de colère, mais reste limité à la condition 1 (études 1, 2 et 4). Jusqu’à 6
mois, les résultats, obtenus uniquement à des conditions spécifiques, pourraient également être
révélateurs d’une discrimination influencée par les propriétés des stimuli. Chez les enfants (étude 5),
à 5 ans, les résultats n’ont pas mis en évidence une capacité de transfert intermodal émotionnel.
Cependant, à partir de 8 ans, les résultats montrent un transfert de la voix émotionnelle de joie, avec
une préférence pour le visage congruent de joie. À partir de 10 ans, les résultats montrent un transfert
de la voix émotionnelle de colère, avec une préférence pour le visage congruent de colère. Les
résultats de l’étude 5 suggèrent une capacité spontanée à orienter leur attention principalement vers
l'expression faciale congruente avec la voix et ce avec différents types de stimuli.
L’ensemble des résultats suggère l’émergence précoce de la capacité de transfert intermodal
émotionnel à partir de 4 mois mais un développement de cette capacité plus tardif : dès 8 ans pour la
joie et dès 10 ans pour la colère, démontrant une perception amodale de l’émotion qui révèle une
reconnaissance intrinsèque véritable de l'émotion. Ainsi, une tâche de transfert intermodal émotionnel
pourrait être intéressante afin d’évaluer, sans instructions verbales, la reconnaissance des émotions
chez des populations atypiques.
Mots-clés : émotion, transfert intermodal audio-visuel, perception, eye-tracking, développement.
5
Remerciements
Quand j’ai débuté cette thèse, je n’imaginais pas être capable de réaliser un tel projet.
Quatre ans plus tard… me voilà à la fin de son écriture. Un dernier défi m’attend, peut-être le
plus délicat : adresser mes remerciements, le plus chaleureusement possible, à toutes les
personnes qui ont contribué de près ou de loin à la réalisation de ce projet.
Pour commencer, je voudrais remercier très chaleureusement mon directeur de thèse, le

professeur Edouard Gentaz. Merci Edouard, de m’avoir ouvert la porte de votre laboratoire lors
de mes premiers pas en recherche. Merci également de m’avoir donné l’opportunité et l’envie
de passer quelques années à vos côtés afin de réaliser cette thèse. Et, merci infiniment pour la
confiance que vous m’avez accordée : celle-ci m’a obligée de, régulièrement, me confronter à
des défis que je n’aurais jamais pensé être capable d’affronter. Grâce à votre soutien et votre
bienveillance, je finalise cette thèse grandie et plus sûre de mes compétences.
J’aimerais remercier la professeure Arlette Streri, les professeurs Jean-Yves Baudouin,

Didier Grandjean et David Sander d’avoir accepté de faire partie de mon jury de thèse.
Je tiens à remercier du fond du cœur tous les participants et en particulier les enfants et
leurs familles pour leur généreuse contribution, indispensable à ces recherches.
Je souhaiterais remercier tout particulièrement ma sœur, Yaëlle. Merci infiniment de

m’avoir accueillie dans ton cabinet pédiatrique durant 2 ans. Tu m’as permis et aidée à
rencontrer la majorité des bébés de ces recherches. Je n’aurais jamais pu mener à bien cette
thèse sans ton aide et ton soutien quotidien. Sans oublier l’aide plus que précieuse d’Anne-
Pascale, Coralie et Valérie dans le recrutement et l’organisation des passations.
Je remercie également Christine Jaquemet-Drezen, Philippe Gobet et Anne Davie, les

directeurs des établissements scolaires des Eaux-Vives, Bois-Gourmand et Petit-Senn qui
m’ont permis de réaliser une de mes études. Ainsi que tout particulièrement les enseignants :
7
REMERCIEMENTS
Roxane Crettaz, Manuela Hasnaoui, Johanna Bretton, Reda Guinand, Christelle Renaud et
Marina Vernet pour leur accueil chaleureux.
J’adresse un grand merci aux chercheurs d’autres laboratoires avec lesquels j’ai eu
l’occasion de collaborer ces dernières années : Christelle Aymoz, Didier Grandjean, David
Sander et Lucas Tamarit de l’Université de Genève. Olivier Pascalis et l’équipe du LPNC de
l’Université Grenoble Alpes. Je remercie aussi Thierry Debillon et son équipe de l’unité de
néonatologie du CHU de Grenoble de m’avoir accueillie. Merci également à José Barreiros de
m’avoir enseigné l’utilisation de l’eye-tracker et à Susan Campbell pour sa relecture des articles
rédigés en anglais.
Un énorme merci va également à mes premières partenaires de recherche et amies.

Laure, je te remercie pour ta générosité ainsi que de m’avoir confié un peu de ton organisation
et de ton efficacité. Paulina, je te remercie pour ton expérience et ta gentillesse, et surtout de
m’avoir presque forcée à entreprendre cette thèse en me répétant que j’étais faite pour la
recherche. Si j’écris ces lignes aujourd’hui, c’est donc en grande partie grâce à toi.
Je remercie infiniment toutes mes super collègues du SMAS (laboratoire du

développement Sensori-Moteur, Affectif et Social): Chiara L., Cathy, Dannyelle, Dara, Fleur,
Jen et Sylvie. Merci, bien évidemment, pour votre relecture de cette thèse ou des articles. Mais
aussi et surtout, pour votre soutien, votre collaboration et vos encouragements quotidiens.
Merci à vous aussi pour votre merveilleuse présence et tous ces moments si agréables passés
en votre compagnie.
Je remercie également mes ex-collègues du SMAS : Alex, Anne, Chiara F, Fanny,

Laura, Martina, Prune et Solange pour les échanges et les collaborations que nous avons
entretenus. Un grand merci également à toutes les auxiliaires et stagiaires du SMAS. Un merci
tout particulier aux merveilleuses Coralie et Margaux qui m’ont accompagnée dès le début de
ma thèse, sans oublier Agnès, Alexandra, Bruno, Chloé R., Hee, Justine, Kelly et Lola qui m’ont
aidée dans le recrutement des participants, le codage des vidéos, les passations etc…
Je tiens également à remercier chaleureusement Emina, Gaia, Isaline et Orian qui ont
contribué à ces recherches dans le cadre de leur travail de master. Ainsi que Céline et Morgane
E. qui nous ont aidées avec le recrutement des bébés lors de leur travail de master. Je voudrais
8
REMERCIEMENTS
aussi remercier les étudiants de master que j’ai encadrés, qui ont mené à bien leurs projets et
avec lesquels nous avons exploré des perspectives de recherche à cette thèse : Alice, Claire,
Elie et Shelley. Merci aussi aux très belles personnes que j’ai côtoyées lors de mon passage à
l’UPCNE : Caroline, Chloé G., Julie et Morgane R. Merci aussi à Delphine pour ton amitié et
ton soutien. En particulier, merci d’avoir été là pour échanger sur notre statut de doctorantes et,
bien sûr, merci aussi d’avoir répondu à mes questions de stat.
Je tiens aussi à adresser mes remerciements au Fonds National Suisse de la recherche

scientifique (FNS) et la faculté de Psychologie et des Sciences de l’Education de l’Université
de Genève (DIP) d’avoir financé ce projet. Je voudrais également remercier les accompagnants
et les étudiants de l’école doctorale du Centre Interfacultaire en Sciences Affectives (CISA)
avec lesquels j’ai eu le plaisir d’avoir de nombreux échanges sur le thème passionnant des
émotions (et ceci malgré mon anglais approximatif..). Je souhaiterais aussi remercier le
Programme doctoral romand en Psychologie (PdrP) de m’avoir donné l’occasion de suivre des
cours qui m’ont aidée à mener à bien mes recherches.
Je tiens à adresser un merci tout particulier à ma famille, ma belle-famille et à mes amis

pour leur présence et leur soutien indispensables. Merci à vous tous de m’entourer comme vous
le faites depuis toujours. Bien sûr, merci du fond du cœur à tous ceux qui ont gardé Nayan cette
année et m’ont permis de terminer cette thèse sereinement. Merci particulièrement à mes
parents d’avoir éveillé ma curiosité et mon amour pour le développement de l’enfant. Je vous
remercie surtout pour votre amour et votre support inconditionnels. Merci Maman d’être la
championne de l’orthographe et d’avoir relu toute cette thèse le plus attentivement possible.
Merci Antoine pour ta relecture et celles de tous les autres travaux précédents durant lesquels
tu m’as appris à rédiger le mieux possible. Merci également de ton intérêt pour mes recherches
et toutes nos discussions scientifiques ou autres. Merci Baptiste d’être un ami si formidable,
merci pour ta générosité, ton soutien et ta relecture attentive de ce travail.
Finalement, un grand merci à mes deux amours. Anthony, merci pour ton amour. Je te
te suis infiniment reconnaissante de m’avoir toujours soutenue, motivée et accompagnée dans
mes choix et mes projets. Merci à notre rayon de soleil, Nayan. Ta venue au monde m’a permis
de transposer la théorie à la « vraie » vie. T’observer grandir est si merveilleux.
Merci à tous, du fond du cœur !
9
Table des matières
INTRODUCTION ................................................................................................... 19
I CADRE THEORIQUE : LE DEVELOPPEMENT DES EMOTIONS DURANT L’ENFANCE . 23
LES EMOTIONS : DEFINITIONS ET THEORIES ........................................................................... 25
Définitions .............................................................................................................................. 25
Les trois théories contemporaines dominantes ..................................................................... 26
Théorie des émotions de base ...................................................................................................... 26
Théories dimensionnelles ............................................................................................................. 29
Théorie de l’évaluation cognitive.................................................................................................. 30
Perspectives développementales .......................................................................................... 32
LE DEVELOPPEMENT PRECOCE DES COMPETENCES EMOTIONNELLES .......................................... 35
Le développement précoce des expressions émotionnelles primaires ................................. 36
Le développement précoce de la régulation émotionnelle ................................................... 41
Le développement précoce de la discrimination émotionnelle ............................................. 43
Les méthodes et outils d’évaluation des capacités de discrimination visuelle des bébés ............ 43
Les compétences perceptives pré-requises à la discrimination précoce des émotions ............... 46
La discrimination précoce vocale émotionnelle ........................................................................... 51
La discrimination précoce faciale émotionnelle ........................................................................... 52
La discrimination précoce multimodale émotionnelle ................................................................. 62
Le développement précoce de la compréhension émotionnelle .......................................... 68

La référenciation sociale ............................................................................................................... 69
L’identification verbale des émotions ........................................................................................... 71
OBJECTIFS PRINCIPAUX ...................................................................................................... 75

Les limites des paradigmes multimodaux .............................................................................. 75
Les apports des paradigmes de transfert intermodal ............................................................ 76
Le développement précoce des capacités de transfert intermodal ............................................. 77
Le développement précoce des capacités de transfert intermodal émotionnel .......................... 78
Hypothèses générales ............................................................................................................ 79
II CONTRIBUTIONS EXPERIMENTALES ................................................................... 81

PROCEDURE GENERALE ...................................................................................................... 83
Lieux d’études ........................................................................................................................ 84
Stimuli .................................................................................................................................... 84
Stimuli auditifs .............................................................................................................................. 84
Stimuli visuels ............................................................................................................................... 85
Paradigme expérimental ........................................................................................................ 87
11
TABLE DES MATIÈRES
Outils d’analyse des mouvements oculaires .......................................................................... 88

Enregistrement des mouvements oculaires à l’aide d’une caméra .............................................. 89
Enregistrement des mouvements oculaires à l’aide d’un eye-tracker.......................................... 90
Présentation générale des cinq études (et 11 expériences) .................................................. 91

ETUDE 1: TRANSFERT INTERMODAL ÉMOTIONNEL (JOIE VS. COLÈRE) À 6 MOIS : ANALYSES EYE-
TRACKING ....................................................................................................................... 93
Expérience 1: condition 1: photographies de visages et vocalisations non-verbales: Are 6-

month-old human infants able to transfer emotional information (happy or angry) from
voices to faces? An eye-tracking study .................................................................................. 94
Introduction .................................................................................................................................. 95
Method ......................................................................................................................................... 99
Results ........................................................................................................................................ 102
Discussion ................................................................................................................................... 109
Expérience 2 : condition 2: visages virtuels et pseudo-mots ............................................... 115

Méthode expérience 2 ................................................................................................................ 115
Résultats expérience 2 ................................................................................................................ 118
Discussion expérience 2 .............................................................................................................. 121
Expérience 3 : contrôle des préférences visuelles pour les photographies de visages ou les
visages virtuels émotionnels « sans voix » ........................................................................... 123
Discussion générale étude 1 ................................................................................................ 127
ETUDE 2: TRANSFERT INTERMODAL ÉMOTIONNEL (JOIE VS. COLÈRE) À 2, 4 ET 6 MOIS : ANALYSES
CAMÉRA ....................................................................................................................... 131
Expérience 4: condition 1: photographies de visages et vocalisations non-verbales: The

cross-modal transfer of emotional information (happy or angry) from voices to faces in 2, 4
and 6 month-old infants....................................................................................................... 132
Abstract ...................................................................................................................................... 133
Résumé ....................................................................................................................................... 134
Introduction ................................................................................................................................ 134
Method ....................................................................................................................................... 136
Results ........................................................................................................................................ 139
Discussion ................................................................................................................................... 142
Acknowledgments ...................................................................................................................... 144
Additional information ............................................................................................................... 145
References .................................................................................................................................. 145
Expérience 5 : condition 2 : visages virtuels et pseudo-mots .............................................. 150

12
TABLE DES MATIÈRES
ETUDE 3: TRANSFERT INTERMODAL EMOTIONNEL (JOIE VS. COLERE ET PEUR VS. COLERE) A 4 MOIS :
ANALYSES CAMERA ......................................................................................................... 159
Expérience 6 : joie vs. colère ................................................................................................ 160

Expérience 7 : peur vs. colère .............................................................................................. 169

ETUDE 4: TRANSFERT INTERMODAL EMOTIONNEL (JOIE VS. COLERE, JOIS VS. DEGOUT, COLERE VS.
DEGOUT) LONGITUDINAL (1-6 MOIS) : ANALYSES CAMERA .................................................... 177
Expérience 8 : joie vs. colère ................................................................................................ 178

Méthode expérience 8................................................................................................................ 178
Expérience 9 : joie vs. dégoût .............................................................................................. 184
Méthode expérience 9................................................................................................................ 184
Expérience 10 : colère vs. dégoût ........................................................................................ 190

Méthode expérience 10 .............................................................................................................. 190
Résultats expérience 10 .............................................................................................................. 191
Discussion expérience 10 ............................................................................................................ 193
ETUDE 5: TRANSFERT INTERMODAL ÉMOTIONNEL CHEZ DES PARTICIPANTS VERBAUX : ANALYSES EYE-
TRACKING ..................................................................................................................... 199
Expérience 11: The cross-modal transfer of emotional information from voices to faces in 5,
8 and 10 year old children and adults: an eye-tracking study ............................................. 199
Abstract ...................................................................................................................................... 201
Introduction ................................................................................................................................ 202
Method ....................................................................................................................................... 206
Results ........................................................................................................................................ 212
Discussion ................................................................................................................................... 221
Acknowledgments ...................................................................................................................... 225
Additional information ............................................................................................................... 226
References .................................................................................................................................. 226
III DISCUSSION GÉNÉRALE .................................................................................. 233

SYNTHESE DES RESULTATS PRINCIPAUX ............................................................................... 237
13
TABLE DES MATIÈRES
DISCUSSION .................................................................................................................. 241

Résultats de la « baseline » : condition sans voix ou voix neutre ........................................ 241
Résultats de la condition expérimentale : voix émotionnelles ............................................ 245
Compétences nécessaires au transfert intermodal émotionnel audio-visuel ............................ 245
Transfert intermodal émotionnel de la condition 1 (photographies de visages et vocalisations
non-verbales) .............................................................................................................................. 246
Transfert intermodal émotionel de la condition 2 (visages virtuels et pseudo-mots) ................ 249
Comparaison des résultats des deux conditions expérimentales ............................................... 250
Première trajectoire développementale proposée .................................................................... 251
Deuxième trajectoire développementale proposée ................................................................... 252
Transfert intermodal émotionnel inné ou acquis ? .................................................................... 255
LIMITES ........................................................................................................................ 257

PERSPECTIVES ................................................................................................................ 259
CONCLUSION ................................................................................................................. 263
REFERENCES BIBLIOGRAPHIQUES ....................................................................... 265
LISTE DES PUBLICATIONS ................................................................................... 301
14
Table des figures
FIGURE 1. PHOTOGRAPHIES UTILISEES DANS LES RECHERCHES INTERCULTURELLES D’EKMAN, SORENSON ET FRIESEN (1969) ISSUES DE
SANDER ET SCHERER (2009). ....................................................................................................................... 27
FIGURE 2. TABLEAU DU TAUX DE RECONNAISSANCES DANS LES DIFFERENTES CULTURES (EKMAN, 1973, P.206) ISSU DE SANDER ET
SCHERER (2009). ...................................................................................................................................... 28
FIGURE 3. MODELE BI-DIMENSIONNEL CIRCULAIRE DE RUSSELL (1980) ADAPTE DE SANDER ET SCHERER (2009). ........................ 29
FIGURE 4. MODELE DES COMPOSANTES DE SCHERER ISSU DE SANDER, GRANDJEAN ET SCHERER (2005). ................................... 31
FIGURE 5. PHOTOGRAPHIES REPRESENTANT LES DIFFERENTES EXPRESSIONS EMOTIONNELLES DES BEBES ISSUES DE MYERS ET DEWALL
(2016). ................................................................................................................................................... 32
FIGURE 6. MODELE DU DEVELOPPEMENT DES EMOTIONS DANS LES 3 PREMIERES ANNEES DE VIE ISSU DE LEWIS (2008)................. 33
FIGURE 7. EXEMPLES ISSUS DE NADEL ET MUIR (2005) QUI PRESENTENT DIFFERENTES INTENSITES DE SOURIRE EXPRIMEES PAR UN
BEBE ET CODEES GRACE AU BABYFACS. .......................................................................................................... 37
FIGURE 8. REPRESENTATION DE LA TACHE DE COMPARAISON DE PAIRES VISUELLES ISSUE DE PASCALIS ET DE HAAN (2003)............. 45
FIGURE 9. EXEMPLE DES STIMULI PRESENTES DANS L’ETUDE DE GOREN ET AL. (1975) : VISAGE, ELEMENTS DE VISAGE MELANGES OU
VISAGE VIDE (DE GAUCHE A DROITE). .............................................................................................................. 48
FIGURE 10. EXEMPLE DES STIMULI PRESENTES DANS L’ETUDE DE SAI (2005), LE VISAGE DE LA MAMAN ET CELUI D’UNE PERSONNE
INCONNUE. ............................................................................................................................................... 48
FIGURE 11. ZONES D’INTERET DU VISAGE ET MOYENNE DES POURCENTAGES DE REGARD SUR CHAQUE AIRE DU VISAGE PRESENTEES
DANS L’ETUDE DE GALLAY ET AL. (2006). ....................................................................................................... 49
FIGURE 12. EXEMPLE DES STIMULI PRESENTES DANS L’ETUDE DE HUNNIUS ET GEUZE (2004) VISAGE DE LA MAMAN ET UNE FORME
ABSTRAITE CONSTRUITE A PARTIR DE L’IMAGE DEFORMEE DE LA MAMAN (DE GAUCHE A DROITE). ............................... 50
FIGURE 13. EXEMPLE D’IMITATION ADAPTE DE L’ETUDE DE FIELD ET AL. (1982) : VISAGE JOIE, TRISTESSE ET SURPRISE (DE GAUCHE A
DROITE). ................................................................................................................................................... 52
FIGURE 14. EXEMPLE DES STIMULI PRESENTES DANS L’ETUDE DE FARRONI ET AL. (2007) : VISAGE NEUTRE, PEUR ET JOIE (DE GAUCHE A
DROITE). ................................................................................................................................................... 53
FIGURE 15. EXEMPLE DE STIMULI PRESENTES DANS L’ETUDE DE KUCHUK ET AL. (1986), DIFFERENTES INTENSITES DE SOURIRES. ...... 53
FIGURE 16. EXEMPLE DE STIMULI PRESENTES DANS L’ETUDE DE BORNSTEIN ET ARTERBERRY (2003) DIFFERENTES INTENSITES DE
SOURIRES LORS DE L’HABITUATION, UN VISAGE SOURIANT ET UN VISAGE DE PEUR PRESENTE LORS DE LA PHASE TEST. ...... 55
FIGURE 17. EXEMPLE DE STIMULI PRESENTES DANS L’ETUDE DE BAYET ET AL. (2015): FEMININ A GAUCHE ET MASCULIN A DROITE,
SOURIANTS OU NEUTRES. ............................................................................................................................. 56
FIGURE 18. EXEMPLE DE STIMULI PRESENTES DANS L’ETUDE DE PELTOLA, LEPPÄNEN, VOGEL-FARLEY, ET AL. (2009), PEUR, JOIE,
NEUTRE, YEUX DE PEUR MAIS BAS DU VISAGE NEUTRE (DE GAUCHE A DROITE). ........................................................ 57
FIGURE 19. ZONES D’INTERET DES STIMULI DE L’ETUDE DE SOUSSIGNAN ET AL. (2018). .......................................................... 59
FIGURE 20. ZONES D’INTERET DES STIMULI DE L’ETUDE SCHURGIN ET AL. (2014). .................................................................. 60
FIGURE 21. EXEMPLE DES STIMULI PRESENTES DE L’ETUDE DE FLOM ET AL. (2018)................................................................. 64
FIGURE 22. EXEMPLE DES STIMULI PRESENTES DANS L’ETUDE DE VAILLANT-MOLINA ET AL. (2013). .......................................... 65
FIGURE 23. EXEMPLE DES STIMULI VISUELS PRESENTES DANS L’ETUDE DE ZIEBER ET AL. (2014B). .............................................. 66
15
TABLE DES FIGURES
FIGURE 24. REPRESENTATION DES RESULTATS D’UNE META-ANALYSE DE 11 ETUDES, POURCENTAGE DE LABEL CORRECT EN FONCTION
DE L’AGE ET DE L’EMOTION ISSUE DE WIDEN (2013). ........................................................................................ 72
FIGURE 25. STIMULI PRESENTES DANS L’ETUDE DE THEUREL ET AL. (2016), DISPONIBLES A L’ADRESSE :
HTTPS://WWW.UNIGE.CH/FAPSE/SENSORI-MOTEUR/FILES/9914/7868/7389/LIVRE_EMOTIONS_DEF-WEB.PDF. .... 73
FIGURE 26. PHOTOGRAPHIE DU PROTOCOLE EXPERIMENTAL DE TEST DES BEBES AU BABYLAB DE GENEVE, SUISSE. CREDIT :
WWW.SEBANEX.COM. ................................................................................................................................. 83
FIGURE 27. STIMULI VISUELS KDEF MASCULINS (EN HAUT) ET FEMININS (EN BAS) DE JOIE, DE PEUR ET DE COLERE (DE GAUCHE A
DROITE). ................................................................................................................................................... 86
FIGURE 28. STIMULI VISUELS FACSGEN DE JOIE, COLERE ET DEGOUT (DE GAUCHE A DROITE). ................................................... 86
FIGURE 29. PARADIGME GENERAL PRESENTE DANS LE CADRE DE CETTE THESE, EXEMPLE POUR L’ETUDE DE LA JOIE ET LA COLERE. ..... 88
FIGURE 30. ILLUSTRATION DE LA MESURE PCCR, LE CENTRE DE LA PUPILLE (INTERSECTION DE LA CROIX NOIRE ET BLANCHE) ET LA
LUMIERE REFLECHIE PAR LA CORNEE (INTERSECTION DE LA CROIX GRISE). ............................................................... 90
FIGURE 31. ILLUSTRATION DU CONTROLE EXPERIMENTAL DE L’EYE-TRACKER (SMI RED 250), LE REGARD DU BEBE SUR LES STIMULI EST
REPRESENTE PAR LE POINT JAUNE. CREDIT : WWW.SEBANEX.COM. ....................................................................... 91
FIGURE 32. FIG 1. VISUAL STIMULI. THE ANGRY FACE (RIGHT) AND THE HAPPY FACE (LEFT) WITH FACES FROM THE KAROLINSKA
DIRECTED EMOTIONAL FACES – KDEF.......................................................................................................... 100
FIGURE 33. FIG 2. SCHEMATIC REPRESENTATION OF THE SUCCESSIVE PRESENTATION OF ALL STIMULI...................................... 101
FIGURE 34. FIG 3. AREA OF INTEREST REPRESENTING THE WHOLE FACE. THE ANGRY FACE (RIGHT) AND THE HAPPY FACE (LEFT). FACES
FROM THE KAROLINSKA DIRECTED EMOTIONAL FACES – KDEF. ........................................................................ 102
FIGURE 35. FIG 4. AREA OF INTEREST REPRESENTING THE EYES AND THE MOUTH. THE ANGRY FACE (RIGHT) AND THE HAPPY FACE
(LEFT). FACES FROM THE KAROLINSKA DIRECTED EMOTIONAL FACES – KDEF. ..................................................... 102
FIGURE 36. FIG 5. LOOKING TIME AT HAPPY OR ANGRY FACES. INFANTS’ MEAN LOOKING TIME (S) IN FUNCTION OF VOICES (ANGRY OR
HAPPY) AND EMOTIONAL FACES (ANGRY: BLUE OR HAPPY: GREEN). AFTER HEARING A HAPPY VOICE, INFANTS LOOK LONGER
AT THE ANGRY FACE THAN THE HAPPY FACE (F(1, 23)=4.85, P<.05). THE VERTICAL BARS REPRESENT POSITIVE STANDARD
ERRORS (S.E.M.),*P<.05. .......................................................................................................................... 105
FIGURE 37. FIG 6. LOOKING TIMES AT HAPPY OR ANGRY AOIS (MOUTH OR EYES). INFANTS’ MEAN LOOKING TIME (S) IN FUNCTION OF
THE EMOTIONAL VOICES (HAPPY OR ANGRY) AND EMOTIONAL AOIS (HAPPY: GREEN OR ANGRY: BLUE). THE ANGRY MOUTH
IS LOOKED AT LONGER THAN THE HAPPY MOUTH F(1, 23)=12.39, P<.01. AFTER THE HAPPY VOICE, THE ANGRY MOUTH IS
LOOKED AT LONGER THAN THE HAPPY MOUTH (F(1, 23)=8.32, P<.01). THE VERTICAL BARS REPRESENT POSITIVE
STANDARD ERRORS (S.E.M.), **P<.01. ........................................................................................................ 106
FIGURE 38. STIMULI VISUELS UTILISES DANS L’EXPERIENCE 2. PAIRES DE VISAGES EMOTIONNELS.............................................. 116
FIGURE 39. ZONE D’INTERET (AOIS) DES VISAGES (A GAUCHE) ET DES YEUX ET DES BOUCHES (A DROITE) DE L’EXPERIENCE 2......... 117
FIGURE 40. HEAT MAP: LES TEMPS DE FIXATION MOYENS DE TOUS LES PARTICIPANTS REPRESENTES PAR DES COULEURS, ALLANT DE
BLEU TRES PEU REGARDE A ROUGE BEAUCOUP REGARDE. .................................................................................. 118
FIGURE 41. DTRT SUR LES AOIS (VISAGE, BOUCHE ET YEUX) DE JOIE (>0%) OU DE COLERE (<0%) EN FONCTION DES VOIX (NEUTRE,
JOIE OU COLERE). LES BARRES VERTICALES REPRESENTENT L’ERREUR STANDARD. **P <.01. .................................... 121
FIGURE 42. PARADIGME DE L’EXPERIENCE 3. ................................................................................................................. 124

FIGURE 43. FIG 1. SCHEMATIC REPRESENTATION OF THE SUCCESSIVE PRESENTATION OF ALL STIMULI...................................... 138
FIGURE 44. FIG 2. LOOKING TIME AT HAPPY OR ANGRY FACES. INFANTS’ MEAN LOOKING TIME (S) IN FUNCTION OF VOICES (ANGRY OR
HAPPY) AND EMOTIONAL FACES (ANGRY: BLACK OR HAPPY: GREY). AFTER HEARING A HAPPY VOICE, INFANTS LOOK LONGER
AT THE ANGRY FACE THAN THE HAPPY FACE (F(1, 58) = 6.54, P < .05). THE VERTICAL BARS REPRESENT POSITIVE
STANDARD ERRORS, * P <.05...................................................................................................................... 140
FIGURE 45. FIG 3. PTLT TO HAPPY (>0) OR ANGRY (<0) FACES: IN FUNCTION OF VOICES (NEUTRAL, HAPPY OR ANGRY) AND AGES (2,
4 AND 6 MONTHS). AFTER HEARING A HAPPY VOICE, ONLY 6 MONTH INFANTS LOOK LONGER AT THE ANGRY FACE THAN THE
HAPPY FACE (T(27) = -2.69, P < .05). THE VERTICAL BARS REPRESENT STANDARD ERRORS, *P <.05. ....................... 142
16
TABLE DES FIGURES
FIGURE 46. DTRT SUR LES VISAGES DE JOIE (>0%) OU DE COLERE (<0%) EN FONCTION DES VOIX (NEUTRE, JOIE OU COLERE) ET DE
L’AGE DES BEBES (2, 4, 6 MOIS). LES BARRES VERTICALES REPRESENTENT L’ERREUR STANDARD. ............................... 153
FIGURE 47. STIMULI VISUELS UTILISES DANS L’EXPERIENCE 6, STIMULI MASCULINS (EN HAUT) ET FEMININS EN BAS DE JOIE ET DE
COLERE. .................................................................................................................................................. 161
FIGURE 48. TEMPS DE REGARD SUR LES VISAGES DE JOIE ET DE COLERE EN MILLISECONDES EN FONCTION DES VOIX EMOTIONNELLES
(COLERE OU JOIE) ET DU GENRE DES STIMULI (FEMININ OU MASCULIN). LES BARRES VERTICALES REPRESENTENT L’ERREUR
STANDARD POSITIVE ET NEGATIVE, * P < .05. ................................................................................................. 164
FIGURE 49. DTRT SUR LES VISAGES DE JOIE (>0%) OU DE COLERE (<0%) EN FONCTION DES VOIX (NEUTRE, JOIE OU COLERE) ET DU
GENRE DES STIMULI (FEMININS, MASCULINS). LES BARRES VERTICALES REPRESENTENT L’ERREUR STANDARD. *P <.05, (*) P
<.065. ................................................................................................................................................... 165
FIGURE 50. STIMULI VISUELS UTILISES DANS L’EXPERIENCE 7, STIMULI MASCULINS (EN HAUT) ET FEMININS (EN BAS) DE PEUR ET DE
COLERE. .................................................................................................................................................. 170
FIGURE 51. TEMPS DE REGARD SUR LES VISAGES DE PEUR ET DE COLERE EN MILLISECONDES EN FONCTION DES VOIX EMOTIONNELLES
(COLERE OU PEUR) ET DU GENRE DES STIMULI (FEMININ OU MASCULIN). LES BARRES VERTICALES REPRESENTENT L’ERREUR
STANDARD POSITIVE ET NEGATIVE, * P < .05. ................................................................................................. 172
FIGURE 52. DTRT SUR LES VISAGES DE PEUR (>0%) OU DE COLERE (<0%) EN FONCTION DES VOIX (NEUTRE, PEUR OU COLERE) ET DU
GENRE DES STIMULI (FEMININS, MASCULINS). LES BARRES VERTICALES REPRESENTENT L’ERREUR STANDARD. *P <.05, ***
P <.001. ................................................................................................................................................ 173
FIGURE 53. DTRT SUR LES VISAGES DE JOIE ET COLERE EN FONCTION DE L’AGE (1, 2, 4, 6 MOIS) ET DES VOIX (NEUTRE, JOIE, COLERE).
LES BARRES VERTICALES REPRESENTENT L’ERREUR STANDARD. ........................................................................... 181
FIGURE 54. DTRT SUR LES VISAGES DE JOIE ET DEGOUT EN FONCTION DE L’AGE (1, 2, 4, 6 MOIS) ET DES VOIX (NEUTRE, JOIE,
DEGOUT). LES BARRES VERTICALES REPRESENTENT L’ERREUR STANDARD. *** P <.01 ............................................ 187
FIGURE 55. DTRT SUR LES VISAGES DE COLERE ET DE DEGOUT EN FONCTION DE L’AGE (1, 2, 4, 6 MOIS) ET DES VOIX (NEUTRE,
DEGOUT, COLERE). LES BARRES VERTICALES REPRESENTENT L’ERREUR STANDARD. ................................................. 193
FIGURE 56. FIGURE 1. VISUAL STIMULUS CONDITION 1: HAPPY FACE (LEFT); ANGRY FACE (RIGHT). .......................................... 207
FIGURE 57. FIGURE 2. VISUAL STIMULUS CONDITION 2: HAPPY FACE (LEFT); ANGRY FACE (RIGHT). .......................................... 208
FIGURE 58. FIGURE 3. SCHEMATIC REPRESENTATION OF THE PARADIGM FOR THE SECOND STIMULUS CONDITION. THE PARADIGM IS
EXACTLY THE SAME FOR THE FIRST STIMULUS CONDITION BUT WITH DIFFERENT VOCAL AND VISUAL STIMULI. ............... 210
FIGURE 59. FIGURE 4. AREAS OF INTEREST REPRESENTING THE WHOLE FACE, EYES AND MOUTH. THE HAPPY FACE (LEFT) AND ANGRY
FACE (RIGHT): AOIS OF THE FACE, THE EYES AND THE MOUTH AREAS FOR CONDITION 1 AND CONDITION 2. ............... 211
FIGURE 60. FIGURE 5. FOCUS MAP: ALL PARTICIPANTS’ GAZE PATTERNS OVER THE STIMULUS IMAGE VISUALIZED AS A TRANSPARENT
MAP. ..................................................................................................................................................... 212
FIGURE 61. FIGURE 6. HEAT MAP: ALL PARTICIPANTS’ GAZE PATTERNS OVER THE STIMULUS IMAGE VISUALIZED AS A COLORED MAP,
MINIMUM (BLUE) TO MAXIMUM (RED) FIXATION TIME AVERAGE IN MS. ............................................................. 219
FIGURE 62. FIGURE 7. DTLT TO HAPPY (>0) OR ANGRY (<0) FACES: IN FUNCTION OF VOICES, HAPPY (DARK GREY) OR ANGRY (LIGHT
GREY), AND AGES (5, 8, 10 YEARS AND ADULTS). * P <.05, ** P <.01, *** P <.001. .......................................... 220
17
Table des résumés
RESUME 1. DEVELOPPEMENT PRECOCE DES EXPRESSIONS EMOTIONNELLES ............................................................................ 40
RESUME 2. DEVELOPPEMENT PRECOCE DE LA REGULATION EMOTIONNELLE ........................................................................... 42
RESUME 3. COMPETENCES PERCEPTIVES PRE-REQUISES A LA DISCRIMINATION DES EMOTIONS ................................................... 50
RESUME 4. DEVELOPPEMENT DE LA DISCRIMINATION VOCALE EMOTIONNELLE ....................................................................... 52
RESUME 5. DEVELOPPEMENT DE LA DISCRIMINATION FACIALE EMOTIONNELLE ....................................................................... 61
RESUME 6. DEVELOPPEMENT DE LA DISCRIMINATION MULTIMODALE EMOTIONNELLE .............................................................. 67
RESUME 7. DEVELOPPEMENT PRECOCE DE LA COMPREHENSION EMOTIONNELLE ..................................................................... 74
RESUME 8. LE TRANSFERT INTERMODAL ......................................................................................................................... 78
RESUME 9. ETUDE 1 ................................................................................................................................................... 93
RESUME 10. ETUDE 2 ............................................................................................................................................... 131
RESUME 11. ETUDE 3 ............................................................................................................................................... 159
RESUME 12. ETUDE 4 ............................................................................................................................................... 177
RESUME 13. ETUDE 5 ............................................................................................................................................... 199
18
« Un petit enfant comprend jusqu'à un certain point, et
très tôt il me semble, l'intention ou les sentiments des personnes
qui le soignent, d'après l'expression de leurs traits. »
(Darwin, 1877, p. 294)
Introduction
Les émotions font partie intégrante de nos vies et influencent nos comportements, nos
perceptions ou nos choix quotidiens. Participant à la compréhension de l’environnement et à la
production d’un comportement adapté à la situation évaluée (Niedenthal & Ric, 2017), elles
sont indispensables aux interactions sociales. Elles sont un support de communication de nos
états internes et de compréhension de ceux d’autrui grâce à la production et à l’analyse des
expressions faciales, des postures corporelles, des tons de voix ainsi que par l’évaluation du
contexte dans lequel l’émotion se produit (Dols & Russell, 2017). De ce fait, les émotions
semblent jouer un rôle crucial au niveau des compétences sociales (Barthassat & Gentaz, 2013;
Eisenberg & Fabes, 1992; Lemerise & Arsenio, 2000; Weiner, 1995). Elles sont également
impliquées dans la réussite académique (Parker, Summerfeldt, Hogan, & Majeski, 2004;
Theurel & Gentaz, 2016) et professionnelle (Poon, 2004).
Les émotions sont omniprésentes, c’est pourquoi chacun croit savoir ce qu’est une
émotion avant d’être confronté à la difficulté d’en fournir une définition (Fehr & Russell, 1984).
L’émotion peut être définie comme « un processus rapide, focalisé sur un événement et
constitué de deux étapes : un mécanisme de déclenchement fondé sur la pertinence de
l’événement (par exemple, l’événement est-il pertinent pour mes buts ?), et une réponse
émotionnelle à plusieurs composantes (les tendances à l’action, les réactions du système
nerveux autonome contrôlant par exemple le rythme cardiaque, les expressions et les
sentiments) » (Sander, 2013b).
La capacité des individus à identifier, exprimer, comprendre, utiliser et réguler leurs

émotions et celles d’autrui sont constitutives de ce que Saarni (1988) a originellement nommé
les compétences émotionnelles (Luminet, 2013; Mikolajczak, Quoidbach, Kotsou, & Nelis,
2009). La maîtrise de ces différentes compétences serait liée à de nombreux facteurs tels que
les comportements sociaux (Barthassat & Gentaz, 2013; Eisenberg & Fabes, 1992; Lemerise &
19
INTRODUCTION
Arsenio, 2000; Weiner, 1995), les performances scolaires (Parker et al., 2004; Theurel &
Gentaz, 2016) professionnelles (Poon, 2004), ou même la santé physique ou psychologique
(Mikolajczak & Luminet, 2008). Ainsi, le développement de ces compétences émotionnelles
semble primordial.
Afin de transmettre et informer autrui sur ses états internes et ses intentions, un individu
exprime ses émotions avec le visage, la voix ou le corps (Sander & Scherer, 2009). Ainsi,
reconnaître et comprendre les expressions émotionnelles d’autrui est une capacité essentielle
qui permet d’établir des relations interpersonnelles adaptées. Etudier le développement précoce
de la capacité à percevoir les expressions émotionnelles permet de mieux comprendre les
premières interactions interpersonnelles. Cependant, le développement chez les bébés des
capacités à discriminer et catégoriser les expressions émotionnelles n’est pas identique pour
tout type d’émotion et les conditions expérimentales influent sur les observations (Bayet,
Pascalis, & Gentaz, 2014). Comment ces compétences se développent-elles ? Les différentes
compétences émotionnelles sont-elles déjà toutes présentes chez les bébés ?
Les comportements humains sont guidés par les capacités cognitives ainsi que par les
compétences émotionnelles. Les connaissances autour du développement des processus
émotionnels sont tout aussi importantes pour la compréhension du développement des
comportements humains que celles qui portent sur les processus cognitifs. Cependant, les
données sur le développement émotionnel restent relativement rares et controversées dans la
littérature. Cette thèse vise à évaluer le développement des compétences d’association
d’informations auditives et visuelles pour une représentation amodale (c.-à-d. indépendamment
des modalités sensorielles) de certaines émotions (joie, colère, peur et dégoût). Pour cela, nous
avons présenté une tâche audio-visuelle et nous avons enregistré les comportements oculaires
effectués, à l’aide d’une caméra ou, quand cela était possible, d’un oculomètre (en anglais : eye-
tracker) afin d’observer l’évolution du développement des compétences de transfert intermodal
de l’émotion.
Cette thèse vise à approfondir les connaissances sur le développement typique de la

perception et la discrimination émotionnelle au cours de l’enfance et à l’âge adulte. Pour étudier
cette question, nous avons examiné si la perception d’une émotion pouvait être transférée de la
modalité auditive à la modalité visuelle chez des bébés âgés de 1 à 6 mois, des enfants de 5 à
10 ans et des adultes.
20
INTRODUCTION
Ainsi, la première partie de ce travail (I) est dédiée à une revue de la littérature existante
sur le développement des émotions durant l’enfance. Dans le chapitre 1, nous abordons la
notion d’émotion et les principales théories. Ensuite, dans le chapitre 2, nous présentons les
travaux relatifs au développement des compétences émotionnelles avec un accent particulier
sur le développement de la discrimination et la compréhension des expressions émotionnelles.
La deuxième partie de ce travail (II) est consacrée aux contributions expérimentales.

Avant de présenter les différentes études réalisées dans ce travail de thèse, nous avons décrit la
procédure générale employée (chapitre 4). La première étude présentée dans ce travail a évalué
le transfert intermodal émotionnel à 6 mois entre la joie et la colère, avec un oculomètre qui
permet de mesurer précisément la direction du regard. Dans ce but, deux conditions
expérimentales ont été réalisées : la première avec des photographies de visages et des
vocalisations non-verbales (expérience 1) et la seconde avec des visages virtuels 3D et des
pseudo-mots (expérience 2) ; une étude complémentaire a été réalisée pour contrôler le temps
de regard sur les visages émotionnels, sans l’écoute préalable d’une voix (expérience 3). La
deuxième étude s’est consacrée à l’étude du transfert intermodal émotionnel (joie vs. colère) à
2, 4 et 6 mois pour la condition 1 (expérience 4) et la condition 2 (expérience 5). La troisième
étude a exploré le transfert intermodal émotionnel à 4 mois entre des stimuli féminins et
masculins de joie et de colère (expérience 6) ou de peur et de colère (expérience 7). La
quatrième étude a été réalisée chez des bébés de 1, 2, 4 et 6 mois dans une perspective
longitudinale, avec les stimuli de la condition 2 pour les émotions de joie et de colère
(expérience 8), de joie et de dégoût (expérience 9) et de colère et de dégoût (expérience 10). La
cinquième étude a exploré les conditions de transfert intermodal émotionnel spontané chez des
participants verbaux grâce à l’eye-tracking chez des enfants de 5, 8 et 10 ans ainsi que chez de
jeunes adultes, pour les émotions de joie et de colère dans les conditions 1 et 2 (expérience 11).
La troisième et dernière partie est consacrée à une discussion générale (III), dans
laquelle nous présentons une synthèse (chapitre 10) ainsi qu’une discussion (chapitre 11) des
résultats principaux. Préalablement à la conclusion de ce travail (chapitre 14), les limites
observées (chapitre 12) ainsi que les perspectives (chaptitre 13) ont été abordées.
21
I
Cadre théorique :
le développement des émotions
durant l’enfance
23
Les émotions : définitions et théories
Définitions
Les émotions sont au cœur de nos vies; c’est pourquoi chacun croit savoir ce qu’est une
émotion avant qu’on lui demande de la définir (Fehr & Russell, 1984). De plus, il est difficile
de trouver une définition consensuelle au terme « émotion » (Kleinginna & Kleinginna, 1981).
Un débat classique oppose la théorie périphéraliste à la théorie centraliste sur la nature du lien
entre les changements corporels et la perception de ceux-ci. La théorie périphérique de
l’émotion a été proposée par William James (1884) et par Carl Lange (1885). Selon celle-ci, la
perception d’un stimulus va déclencher des modifications dans l’organisme (Système Nerveux
Périphérique / SNP) et la prise de conscience (Système Nerveux Central / SNC) de ces
modifications physiologiques, va constituer l’émotion. À l’inverse, Walter Cannon (1929)
affirme que l’émotion serait ressentie au niveau cérébral (SNC) avant d’en ressentir les effets
physiologiques (SNP). Aujourd’hui, la question de savoir si la réponse corporelle précède ou
suit l’émotion est toujours débattue. Cependant, les théoriciens s’accordent sur le fait que
l’émotion serait un phénomène componentiel. Il semblerait en effet qu’une émotion est un
processus rapide, focalisé sur un événement spécifique et constitué de deux étapes : (1) un
mécanisme de déclenchement basé sur la pertinence (c.-à-d., l’évaluation cognitive) qui (2)
façonne une réponse émotionnelle multiple (c.-à-d., tendance à l’action, réaction du système
nerveux périphérique, expression et sentiment subjectif) (Sander, 2013a). Ainsi, pour ce travail,
nous retiendrons la définition du terme « émotion » proposée par Sander et Scherer (2009),
selon laquelle les émotions seraient « un ensemble de variations épisodiques dans plusieurs
composantes de l’organisme en réponse à des événements évalués comme importants par
l’organisme » (Sander & Scherer, 2009, p. 10).
Les émotions sont indispensables aux interactions sociales, car elles permettent la
compréhension de l’environnement et ainsi la production d’un comportement adapté à la
situation évaluée (Niedenthal & Ric, 2017). En effet, Charles Darwin expliquait déjà en 1872
que les émotions sont adaptatives. Dans le sens de sa théorie de l’évolution, elles
contribueraient à une plus grande chance de survie de l’espèce en influençant les réponses aux
exigences environnementales de manière appropriée. Selon cette perspective, les émotions
permettent aux individus qui les ressentent et les expriment de survivre et se reproduire. En
25
I. CADRE THÉORIQUE : LE DÉVELOPPEMENT DES ÉMOTIONS DURANT L’ENFANCE
effet, les émotions permettent au récepteur d’être informé rapidement de l’état émotionnel de
son interlocuteur et d’inférer sa réaction et, ainsi, évaluer une tendance à l’action (Dezecache,
Mercier, & Scott-Phillips, 2013). Selon ce point de vue, les émotions ne seraient pas propres
aux êtres humains, mais elles seraient aussi présentes chez les animaux (Anderson & Adolphs,
2014). La principale différence présumée entre les animaux et les êtres humains est que ces
derniers seraient capables d’interpréter des états émotionnels de manière subjective et les
exprimer grâce au langage (pour une discussion, voir De Waal, 2018)
Ce chapitre sera consacré aux différentes théories contemporaines des émotions. Dans
un premier temps, nous en définirons les aspects principaux et, dans un second temps, nous
discuterons de leurs différentes perspectives développementales et de leurs limites.
Les trois théories contemporaines dominantes

Il existe de nombreuses théories des émotions (Sander & Scherer, 2009). Dans ce travail,
nous avons décidé de ne présenter que les trois théories contemporaines dominantes : la théorie
des émotions de base, les théories dimensionnelles et la théorie de l’évaluation cognitive. La
théorie des émotions de base est caractérisée par le fait qu’il y aurait des émotions reconnues et
exprimées universellement. Les théories dimensionnelles proposent que les émotions se
répartissent sur un continuum de plusieurs dimensions. La théorie de l’évaluation cognitive
postule que l’évaluation de la situation faite par l’individu est l’élément central au ressenti
émotionnel.
Théorie des émotions de base
Charles Darwin (1872) dans son livre « L’expression des émotions chez l’homme et
chez les animaux » met en évidence que les hommes et les animaux possèdent des expressions
universelles pour exprimer certaines émotions. Selon lui, les expressions faciales ont évolué,
car elles ont un rôle fonctionnel. Par exemple, le fait de remonter le nez et fermer la bouche
dans l’expression de dégoût permettrait d’éviter une odeur désagréable. À la suite de Darwin,
Tomkins (1963) propose que l’élément principal des émotions est le visage. Il crée, ainsi, le
concept « affect programs ». Ce concept a été, ensuite, repris et théorisé par un de ses élèves,
Paul Ekman avec sa théorie des « émotions de base », aussi appelées, « émotions primaires »,
26
1. LES ÉMOTIONS : DÉFINITION ET THÉORIES DOMINANTES
« émotions fondamentales » ou encore « émotions discrètes » (Ekman, 1992b, 1992a). Selon

cette théorie, il existerait plusieurs émotions universelles différentes, car fondamentales et
observables chez la plupart des vertébrés. Chacune posséderait une activation physiologique
spécifique, une expression spécifique, un circuit neuronal spécifique et serait déclenchée par
des situations spécifiques. La joie, la surprise, la peur, la colère, le dégoût et la tristesse sont les
six émotions retenues ; une septième émotion, le mépris, est souvent ajoutée. Les émotions plus
complexes proviendraient, quant à elles, d’un mélange de ces émotions de base (Ortony &
Turner, 1990)
Cette théorie s’appuie sur des études interculturelles. Des individus issus de différentes
cultures ont été photographiés produisant des expressions faciales émotionnelles suite à la
lecture de petits scénarii comme « un ami est arrivé et vous vous sentez content » (Figure 1)
(Ekman, Sorenson, & Friesen, 1969).
Figure 1. Photographies utilisées dans les recherches interculturelles d’Ekman, Sorenson et Friesen (1969) issues
de Sander et Scherer (2009).
27
Le taux de reconnaissance observé dans les différentes cultures est élevé et globalement
similaire, ce qui suggérerait le caractère universel des expressions faciales (Figure 2) (Ekman,
1973).
Figure 2. Tableau du taux de reconnaissances dans les différentes cultures (Ekman, 1973, p.206) issu de Sander et
Scherer (2009).
Certaines recherches menées avec des aveugles congénitaux semblent soutenir l’idée
d’une certaine innéité quant à l’expression des émotions. En effet, les aveugles congénitaux
produiraient des expressions faciales spontanées semblables à celles des voyants sans avoir
recours à l’expérience visuelle, ou à des mécanismes d’imitation lors des différentes
observations et échanges visuels de la vie sociale. Par exemple, une étude de Galati, Miceli, et
Sini (2001) réalisée avec des enfants voyants et aveugles congénitaux âgés de 6 mois à 4 ans,
ne démontre pas de différence dans l’expression faciale spontanée de joie, dégoût, surprise et
intérêt (pour une revue, cf. Valente, Theurel, et Gentaz, 2018). Ces résultats présentent des
arguments en faveur de l’hypothèse que ces comportements sont, au moins en partie, innés et
ils suggèrent que ces émotions pourraient être perçues et exprimées de manière très précoce.
Selon cette approche, les émotions auraient évolué, car elles permettent la survie et
offrent ainsi un avantage adaptatif dans la phylogenèse. Il existerait ainsi des événements
déclencheurs universels distincts pour les émotions de base : par exemple, la perte d’un proche
déclencherait de la tristesse chez tous les individus. Ainsi, Matsumoto et Ekman (2009)
définissent les émotions comme « des réactions transitoires, bio-psycho-sociales conçues pour
aider les individus à s’adapter et à faire face à des événements qui ont des implications pour
leur survie et leur bien-être ».
28
Une limite de cette théorie est qu’elle est focalisée principalement sur les expressions
faciales et les réactions physiologiques associées et qu’elle ne prend que peu en compte les
expressions vocales ou corporelles. De plus, les émotions de base seraient évaluées
automatiquement et apparaîtraient spontanément. Cette théorie intègre donc peu les autres
composantes comme l’évaluation cognitive et le sentiment subjectif.
Théories dimensionnelles
Selon les théories dimensionnelles, les émotions seraient organisées autour de

différentes dimensions comme la valence, l’activation physiologique et le contrôle. Les théories
contemporaines dimensionnelles se fondent sur la théorie proposée par Wundt (1897), qui
suggère que le sentiment subjectif de l’émotion peut être identifié par un niveau plus ou moins
important sur chacune des trois dimensions : plaisir, tension, excitation. Plus récemment,
Russell (1980) propose un modèle bi-dimensionnel circulaire « circumplex model » dans lequel
l’axe horizontal est associé au niveau de plaisir/déplaisir (valence) et l’axe vertical est associé
au niveau d’activation/désactivation (activation, en anglais : arousal) qui représentent
l’émotion sur un continuum d’expérience subjective (Figure 3). Chaque émotion peut être
représentée dans ce modèle circulaire à deux axes : par exemple la colère suscite beaucoup de
déplaisir et beaucoup d’activation alors que la joie suscite beaucoup de plaisir et également
beaucoup d’activation. Cette théorie peut s’appliquer aussi au « core affect » (c.-à-d. les états
neurophysiologiques consciemment accessibles : les émotions, les sentiments, les humeurs ou
les sensations).
Figure 3. Modèle bi-dimensionnel circulaire de Russell (1980) adapté de Sander et Scherer (2009).
29
Une première limite de cette théorie est que certaines émotions sont difficilement
différenciables selon les dimensions proposées. Par exemple, la peur et la colère se situent à la
même place sur le cercle, car elles sont toutes deux très déplaisantes et impliquent une grande
activation. Cependant, ces deux émotions sont très différentes au niveau expressif et
comportemental (la colère motive l’approche alors que la peur motive la fuite). Une autre limite
est qu’il n’existe pas de réel consensus sur les dimensions retenues (Coppin & Sander, 2010).
Certains auteurs par exemple incluent la dimension de contrôle (Osgood, 1962) ou de
dominance (Mehrabian, 1996). De plus, cette théorie se focalise principalement sur la
composante du sentiment subjectif. C’est le ressenti qu’a la personne qui va faire qu’elle
éprouve telle ou telle émotion. De ce fait, l’individu doit pouvoir être conscient de ce qu’il
ressent pour pouvoir ressentir une émotion.
Théorie de l’évaluation cognitive
Enfin, la théorie de l’évaluation cognitive propose d’expliquer un aspect fondamental

négligé par les autres théories : le déclenchement de l’émotion (Sander & Scherer, 2009). Les
autres théories sont basées sur les composantes (émotions de base : expression émotionnelle;
dimensionnel : sentiment subjectif), mais pas sur la cause d’une émotion. Cette théorie
s’intéresse aux mécanismes cognitifs par lesquels l’émotion se déclenche et devient une
émotion particulière comme la peur, la joie ou la culpabilité.
La théorie de l’évaluation cognitive propose le modèle des composantes (Figure 4) qui

décrit cinq composantes de l’organisme inter-reliées de manière dynamique, de telle sorte qu’un
changement au sein d’une des composantes peut conduire à un changement dans les autres. Les
différentes composantes de l’émotion sont :
 les évaluations de l’événement déclencheur (p. ex., le stimulus est agréable, je suis
capable de faire face à la situation),
 le sentiment qui se profile dans la conscience (p. ex., se sentir honteux, heureux ou
en colère),
 les réactions motrices (p. ex., sourire de plaisir, froncer les sourcils lors d’un
événement allant contre nos buts),
 les réactions du système nerveux autonome (p. ex., rougir de honte, avoir le cœur
qui s’accélère),
 les tendances à agir (p. ex., préparation à la fuite devant un danger, préparation à
s’approcher d’un ami).
30
Ce modèle décrit particulièrement le rôle de l’évaluation cognitive (en anglais :

appraisal) d’un événement qui serait déterminée selon les valeurs, les besoins et les buts
propres à l’individu. L’évaluation cognitive va donc influencer les autres composantes de
l’organisme en fonction de la pertinence, des implications, du potentiel de maîtrise et de la
significativité normative de l’événement perçu par l’individu. De ce fait, un même événement
peut générer des émotions très différentes chez deux individus différents. Selon ce modèle
toutes les composantes de l’organisme sont prises en compte, mais l’évaluation serait la cause
de l’émotion, elle serait automatique, rapide et inconsciente, mais nécessaire à l’émotion et
déterminerait la réponse donnée par l’individu. De ce fait, le ressenti subjectif et la verbalisation
des différentes émotions nécessitent un ensemble d’évaluations cognitives séquentielles se
déroulant dans un temps très bref (quelques millisecondes).
Figure 4. Modèle des composantes de Scherer issu de Sander, Grandjean et Scherer (2005).
En conclusion, ces trois théories concernent principalement la psychologie humaine

adulte. Elles ne proposent pas ou peu de perspectives phylogénétiques. De plus, une manière
de comprendre un fonctionnement observé chez l’adulte est d’étudier son origine et son
développement durant l’enfance comme observé chez Piaget ou Spelke par exemple. Une
perspective ontogénétique permet de mieux comprendre un fonctionnement adulte.
31
Perspectives développementales
Comme expliqué précédemment, certains auteurs émettent l’hypothèse que certaines
émotions seraient universelles et donc innées. Cette idée a été explicitée pour la première fois
par Darwin (1872) et a été ensuite développée par Paul Ekman dans le cadre de ses études
interculturelles des émotions de base (Ekman et al., 1969).
Carroll Izard soutient, dans sa théorie différentielle des émotions (DET), que les
émotions de base seraient innées et que les enfants les exprimeraient d’une manière similaire à
celles des adultes dès la naissance (C. E. Izard et al., 1995) (Figure 5). Selon cette perspective,
le système motivationnel primaire des comportements humains serait régi par les émotions (C.
E. Izard & King, 2009).
Figure 5. Photographies représentant les différentes expressions émotionnelles des bébés issues de Myers et
DeWall (2016).
Néanmoins, l’hypothèse de l’innéité et de l’universalité des émotions reste au cœur du

débat scientifique (p ex. Jack, 2013; Sauter & Eisner, 2013). Des chercheurs soutenant une
perspective socio-constructiviste par exemple n’y adhèrent pas. Ils considèrent que les
comportements sont des constructions sociales et culturelles. De ce fait, l’expression des
émotions serait différente d’une culture à l’autre. Certaines études semblent aller dans ce sens.
Par exemple, il a été montré que les Occidentaux représentent chacune des six émotions de base
avec un ensemble distinct de mouvements faciaux communs alors que les Orientaux ne font pas
cette distinction (Jack, Garrod, Yu, Caldara, & Schyns, 2012).
32
La théorie de l’évaluation cognitive soutient une perspective ontogénétique (Sander &

Scherer, 2009). Selon Harriet Oster et sa perspective ontogénétique du développement des
émotions chez l’enfant, les adaptations biologiques sont cruciales pour la survie et le
développement de l’enfant (Oster, 2005). Il existerait un changement et une continuité selon la
morphologie, le sens émotionnel et la fonction communicative.
En effet, Oster est en accord avec Sroufe (1997) et sa perspective organisationnelle, sur
le fait que les expressions émotionnelles sont plutôt globales au début de la vie et sont les
précurseurs d’émotions plus spécifiques. Selon cette perspective, à la naissance, les bébés
expriment de la détresse en réaction à une excitation physiologique excessive et à partir de 6
mois ils expriment des émotions plus définies comme la peur ou la colère. La détresse
provoquée par différentes situations provoquerait une réaction non spécifique : pleurer. Plus
tard, il est possible de distinguer des expressions spécifiques en fonction des situations comme
de la peur si l’enfant se retrouve avec quelqu’un qu’il ne connaît pas ou de la colère si le parent
lui retire un jouet par exemple. Cependant, Oster émet tout de même des limites à ce
développement du global au spécifique, car certaines expressions spécifiques semblent
observables dès la naissance comme l’intérêt ou le dégoût. De plus, comme l’explicite Lewis
(2008), les émotions plus complexes comme les émotions morales se développent après 2 ans
grâce à la maîtrise de la conscience de soi et d’autrui et de la conscience des normes et des
règles sociales (Figure 6) (pour une revue, cf. Theurel, Palama et Gentaz, 2017).
Figure 6. Modèle du développement des émotions dans les 3 premières années de vie issu de Lewis (2008).
33
De plus, la théorie de l’évaluation cognitive soutient le fait que le développement

progressif des compétences émotionnelles est lié à la possibilité d’évaluations de plus en plus
complexes grâce à la maturation du Système Nerveux Central (SNC) (p.ex. Munakata, Casey,
& Diamond, 2004). Les processus d’évaluation les plus précoces réalisés par le SNC se feraient
indépendamment de la conscience qu’en a l’individu, par exemple l’évaluation de la nouveauté.
Pour les théories dimensionnelles, l’individu doit pouvoir être conscient de ce qu’il
ressent afin de ressentir une émotion. Cette vision des émotions semble limiter la possibilité de
compétences émotionnelles précoces indépendamment de la conscience qu’en a l’individu.
Actuellement, les différentes perspectives développementales ne sont toujours pas en

accord sur le développement émotionnel. Comme l’étude des aveugles congénitaux, l’étude des
bébés permet d’évaluer l’innéité des compétences émotionnelles, car ils n’ont pas ou alors très
peu d’expérience visuelle. Ils n’ont donc pas pu apprendre à produire ou reconnaître des
expressions faciales par un processus d’imitation déjà disponible dès la naissance (Meltzoff &
Moore, 1977).
Le développement des émotions étant toujours discuté, ce travail a pour objectif

principal d’apporter quelques réponses à ce débat par l’étude de la perception des émotions
chez les bébés. Premièrement, le prochain chapitre sera consacré à une revue de la littérature
des études traitant du développement précoce des différentes compétences émotionnelles.
Deuxièmement, les études expérimentales effectuées dans le cadre de ce travail ont été
élaborées dans le but d’approfondir les connaissances sur le développement précoce émotionnel
grâce à la perception intermodale (audio-visuelle) des expressions émotionnelles (joie, colère,
peur ou dégoût) chez les bébés âgés de 1 à 6 mois et les enfants âgés de 5 à 10 ans.
34
Le développement précoce des compétences
émotionnelles1
Les compétences émotionnelles peuvent être définies comme la capacité des individus
à percevoir, exprimer, comprendre, utiliser et réguler leurs émotions et celles d’autrui (Luminet,
2013). Depuis les années 90 et le bestseller de David Goleman (1998) « Emotional
Intelligence : why it can matter more than IQ », on évoque aussi le terme « d’intelligence
émotionnelle » pour parler des compétences émotionnelles (Sander & Scherer, 2009).
La maîtrise de ces différentes compétences serait liée à de nombreux facteurs tels que
les comportements sociaux (Barthassat & Gentaz, 2013; Eisenberg & Fabes, 1992; Lemerise &
Arsenio, 2000; Weiner, 1995), les performances scolaires (Parker et al., 2004; Theurel &
Gentaz, 2016) ou professionnelles (Poon, 2004), ou même la santé (Mikolajczak et al., 2009).
Le développement de ces compétences émotionnelles semble primordial au fonctionnement
dans la société. Mais comment le développement de ces compétences se déroule-t-il ?
Dans ce chapitre, nous explorerons les fondements ontogénétiques du développement

des compétences émotionnelles. Nous commencerons, ainsi, par aborder brièvement le
développement précoce de la production des expressions émotionnelles et de la régulation
émotionnelle. Nous détaillerons ensuite plus particulièrement le développement précoce de la
discrimination et la compréhension des expressions émotionnelles qui sont les compétences
étudiées dans les études expérimentales effectuées dans le cadre de ce travail de thèse.
1Une partie de ce chapitre est largement inspiré par l’article suivant : Palama, A., Theurel, A. & Gentaz, E. (2017).
Le développement des émotions primaires durant l’enfance. Médecine & Enfance, 37(7), 195-20.
35
Le développement précoce des expressions

émotionnelles primaires
Les expressions émotionnelles sont l’ensemble de traits comportementaux par lesquels
se révèle l’émotion, comme les sourires, les pleurs, les mimiques faciales et les attitudes.
Exprimer ses émotions avec le visage, la voix ou encore avec le corps aide à transmettre et
informer à propos de ses états internes et de ses intentions. Néanmoins, la majorité des études
se sont intéressées à l’expression des émotions via le visage (Sander & Scherer, 2009).
Duchenne de Boulogne (1862) a été le premier à mettre en évidence de quelle manière

les expressions faciales sont produites par la stimulation des muscles du visage. Depuis, de
nombreux chercheurs ont montré que les adultes possèdent une grande richesse expressive et
peuvent ainsi communiquer leur motivation et leurs besoins (Niedenthal, Winkielman,
Mondillon, & Vermeulen, 2009). L’avancée sur les études des expressions faciales et leur
diffusion est principalement due à Ekman, Friesen, et Hager (1978) et à leur développement du
« Facial Action Coding System (FACS) », un système de codage objectif des expressions
faciales dont le but est de retranscrire des unités musculaires. Ces auteurs ont, ainsi, distingué
46 unités d’action (Action Units, AU) qui correspondent chacune à la contraction ou la détente
d’un ou plusieurs muscles faciaux. Ces unités d’action peuvent être produites séparément ou
sous forme de combinaisons (Roesch et al., 2011).
Afin d’étudier les expressions faciales produites par les bébés, il existe deux systèmes
de codage facial. Le premier est le Baby FACS qui est adapté du FACS pour adultes en fonction
de la musculature des bébés (Oster, 2016; Rosenstein & Oster, 1988). Par exemple, pour le
sourire chez le bébé, les unités d’actions faciales AU12 (remontée des joues), AU25 (ouverture
de la bouche et séparation légère des lèvres) et AU26 (ouverture de la mâchoire) peuvent être
activées à différentes intensités allant de « a » (peu intense) à « e » (très intense) (Figure 7). Le
second système est le « Maximally Discriminative Facial Movement Coding System (MAX) (C.
E. Izard et al., 1995) » utilisé pour définir et quantifier différentes émotions chez les jeunes
enfants.
36
2. LE DÉVELOPPEMENT PRÉCOCE DES COMPÉTENCES ÉMOTIONNELLES
Figure 7. Exemples issus de Nadel et Muir (2005) qui présentent différentes intensités de sourire exprimées par
un bébé et codées grâce au BabyFACS.
Dans ces deux systèmes, l’étude de l’expression émotionnelle chez les bébés est ainsi
réalisée grâce à l’observation et au codage manuel des expressions faciales. L’évaluation de
l’expression émotionnelle nécessite un décodage subjectif. Il est dès lors difficile d’obtenir des
certitudes concernant le développement des expressions émotionnelles. Pour des résultats plus
objectifs, l’utilisation de l’EMG (électromyogramme) pour les muscles du visage peut être
envisagée ; cette technique peut toutefois être trop invasive pour des bébés. Cependant, des
techniques développées récemment permettent de décoder les unités d’action produites grâce à
des logiciels d’analyse automatique de l’expression faciale tels qu’AFDEX développé par
Affectiva ou FaceReader développé par Noldus.
Des chercheurs ont utilisé le baby FACS afin de décoder les muscles faciaux activés
lors de la production d’expressions faciales chez le fœtus. À partir d’images obtenues par
scanner ultrason 4D, ils ont montré que les fœtus âgés de 34 semaines peuvent déjà produire un
répertoire limité d’expressions faciales comme le sourire ou un visage de détresse (Reissland,
Francis, Mason, & Lincoln, 2011).
La joie se manifeste grâce aux sourires qui s’expriment par la remontée des lèvres et la
remontée des joues qui font se plisser le coin des yeux. Dès la naissance, le sourire serait une
contraction musculaire réflexe non reliée à un contexte spécifique. Par exemple, les bébés
sourient pendant leur sommeil (M. W. Sullivan & Lewis, 2003). Il est communément dit que
les nouveau-nés « sourient aux anges ». Dès l’âge de 1 mois, les sourires apparaissent en
37
réponse à des stimulations multisensorielles (tactiles, vocales, ou visuelles) au cours

d’interactions sociales (M. W. Sullivan & Lewis, 2003). À partir de 2 mois, les bébés sourient
en réponse aux sourires produits par l’entourage. Les bébés comprennent progressivement que
le sourire a un impact positif sur les relations. Durant la période de 12 à 14 semaines, on observe
un pic de sourires, les bébés sourient à toutes les interactions plaisantes. À 6 mois, ils sourient
plus volontiers aux personnes familières (Cloutier, Gosselin, & Tap, 2004). À partir de 8 mois,
les bébés commencent à montrer une compréhension plus subtile des interactions sociales : ils
vont, par exemple, produire des sourires de manière anticipée durant les interactions sociales
(Venezia, Messinger, Thorp, & Mundy, 2004). La majorité des parents rapporte que les bébés
produisent leur premier « vrai » sourire à 1 mois alors qu’il faut attendre 3 mois pour observer
les premiers rires (C. Addyman & I. Addyman, 2013). La plupart des enfants commencent à
produire un rire complet vers 4-5 mois en réponse à des stimulations tactiles ou vocales intenses
(p. ex., chatouilles, bruits rigolos). Vers 7 mois, ce sont les stimulations visuelles qui
provoquent plus le rire. Entre 3 et 11 mois, le rire est provoqué par des sensations physiques et
sensorielles, alors qu’à partir de 12 mois c’est l’incongruence et la nouveauté qui impliquent la
participation de l’enfant (Hoicka, 2016).
Dès la naissance, les bébés expriment également leur détresse et leurs émotions
négatives à travers les pleurs. Les causes et l’émotion spécifique à l’origine de cette
manifestation sont difficiles à déterminer dans les premiers mois : est-ce qu’il a faim, est-ce
qu’il est fatigué, est-ce qu’il veut être porté, est-ce de la colère, de la tristesse ou de la peur ?
La quantité globale de pleurs a tendance à augmenter de semaine en semaine au cours des 2
premiers mois, puis diminue progressivement au cours de la première année, c’est ce qu’on
appelle parfois la « courbe normale des pleurs » (Barr, 2010).
Selon certains auteurs, les pleurs des bébés exprimeraient principalement de la colère
(Bennett, Bendersky, & Lewis, 2002). L’expression de colère correspond à des sourcils
rapprochés et abaissés, les lèvres pincées ou la bouche grande ouverte. Les colères sont le
résultat de l’échec, de l’insatisfaction que cause un besoin ou un désir inassouvi, elles sont une
réponse à la frustration ressentie par l’enfant. L’expression de colère semble être observée dès
4 mois, par exemple, dans des paradigmes où les bras de l’enfant sont contenus (Stenberg &
Campos, 1990). Elles sont très impressionnantes chez les jeunes enfants et liées à leurs faibles
capacités d’autonomie; elles connaissent un pic entre 2 et 3 ans (Tremblay, 2003). Les colères
diminuent ensuite grâce à la maîtrise du langage et l’amélioration de la coordination motrice.
38
La tristesse s’exprime par les paupières légèrement abaissées, le menton abaissé, la lèvre
inférieure pouvant recouvrir la lèvre supérieure, ainsi que par des pleurs. On peut observer une
activité ralentie, l’apparition de mouvements répétitifs ainsi qu’une diminution de la respiration.
La tristesse fait suite à la perte de l’objet qui apporte le bien-être ou la perte du contrôle de la
situation. Dès 3 mois, il est possible d’observer de la tristesse chez les bébés en réaction au
visage impassible produit par la maman lors d’une interaction « still-face » (Rochat, Striano, &
Blatt, 2002). Généralement, on observe les premières tristesses vers 8-12 mois, lors de la
séparation temporaire avec la figure d’attachement (Ainsworth, Blehar, Waters, & Wall, 2015).
La peur s’exprime par des sourcils levés et rapprochés, les paupières supérieures levées
et les paupières inférieures tendues ainsi que les lèvres tirées à l’horizontale. Dès la naissance,
on peut considérer le réflexe de Moro (c.-à.-d., l’abduction et l’extension des membres
supérieurs et le retour en abduction accompagné d’un cri en réponse à un bruit fort et inattendu
ou à la sensation de chute) comme une première expression de peur. L’expression de peur
n’apparaît qu’à partir de 7-8 mois en réaction à la présence d’adultes ou d’objets non familiers
(Sroufe, Cooper, DeHart, & Marshall, 1992). Dès le déplacement à 4 pattes, on peut aussi
observer la peur du vide, évaluée grâce à la falaise visuelle par exemple (E. J. Gibson & Walk,
1960). Jusqu’à l’âge de 2 ans, les bébés ont surtout peur des stimuli de leur environnement
immédiat, par exemple des bruits soudains. Ensuite, ce ne sont plus seulement les éléments
immédiats et concrets, mais aussi ceux anticipés ou des éléments imaginaires ou abstraits (p.
ex., fantômes, monstres). Ces peurs augmentent entre 2 et 4 ans en raison de leur difficulté à
gérer les images imaginaires et réelles. Chez les enfants d’âge préscolaire, plusieurs types de
peurs sont caractéristiques telles que la peur d’être laissés seuls, la peur du noir ou encore la
peur des animaux (Eckmann Levy, Regusci-Theurillat, & Gentaz, 2014). Ces peurs diminuent
au cours du développement, et ont pratiquement toutes disparu à l’âge de 6 ans.
Le dégoût s’exprime par le nez replié et l’élévation de la lèvre supérieure ainsi qu’une
possible protrusion de la langue. Les nouveau-nés produisent déjà des moues semblables à du
dégoût, par exemple en réaction à des goûts amers ou des odeurs désagréables. En effet, une
étude de Soussignan, Schaal, Marlier, et Jiang (1997) a montré que des nouveau-nés produisent
plus d’expressions de dégoût en réponse à des odeurs désagréables comme l’acide butyrique
(odeur d’œufs pourris) qu’en réponse à des odeurs de vanille. À 4 mois, cette réaction est
d’autant plus prononcée avec des expressions de dégoût encore plus marquées (Steiner, 1979).
39
La surprise est caractérisée par un sursaut, des yeux écarquillés, des sourcils levés et la
bouche grande ouverte. Il existe de grandes différences individuelles quant à l’âge et aux
contextes d’apparition de cette expression (M. W. Sullivan & Lewis, 2003). À 4 mois, si l’on
provoque une expression de surprise en faisant sortir un jouet de manière inattendue d’une boîte
(« Jack-in-the-box »), un peu plus de la moitié des bébés expriment de la surprise (Bennett et
al., 2002). Les bébés exprimeraient de la surprise, au moins de manière moyennement intense,
en réaction à des événements nouveaux et inattendus à partir de 6 mois (M. W. Sullivan &
Lewis, 2003). De plus, chez les très jeunes enfants, l’expression de surprise semblerait être plus
intense lors d’un premier événement et diminuerait au fil des répétitions, alors que chez les
adultes, elle disparaîtrait dès la première répétition de l’événement (M. W. Sullivan & Lewis,
2003).
Résumé 1. Développement précoce des expressions émotionnelles
Durant la première année de vie, le bébé s’exprime dans l’alternance de moments calmes,
d’excitations et de pleurs lui permettant d’exprimer ses besoins élémentaires, d’assurer sa
survie et de créer des liens d’attachement puissants avec son entourage. Le sourire et les
pleurs semblent être des expressions présentes déjà in utéro et les premières à s’exprimer à
la naissance avec le dégoût. Puis, les expressions émotionnelles plus spécifiques à chaque
émotion de base se développent durant les 6 premiers mois après la naissance.
40
Le développement précoce de la régulation

émotionnelle
La régulation des émotions peut être définie comme la capacité à modifier la nature,
l’intensité, la durée ou la façon dont les émotions s’expriment (Gross, 1999). Durant la première
année, afin de diminuer par eux-mêmes leurs états négatifs, les bébés n’ont à leur disposition
que certains comportements tels que la stimulation tactile (p. ex., la succion réflexe) ou le
détournement du regard (Kopp, 1989). Ces comportements sont les prémices d’une capacité de
régulation émotionnelle plus élaborée. À cet âge, les stratégies dites intrapersonnelles sont très
peu présentes et la régulation des émotions se fait majoritairement par l’intermédiaire du
donneur de soins, grâce à des stratégies dites interpersonnelles. L’expression émotionnelle
permet au bébé de « demander » de l’aide en signifiant à ses donneurs de soins d’un mal-être
ou de sa détresse. Un processus de régulation interpersonnelle est possible si le donneur de
soins parvient à identifier l’état émotionnel du bébé et a la capacité d’adapter son expression
faciale, son ton de voix et ses gestes aux états émotionnels de ce dernier. Le développement de
la régulation émotionnelle est ainsi lié aux échanges avec les donneurs de soins, la manière dont
ils s’occupent, tiennent ou portent le bébé (Sroufe, 1997) ainsi que par le type d’attachement
(Ainsworth et al., 2015).
Au cours de la deuxième année, les bébés commencent à développer une régulation plus
indépendante, renforcée par le développement significatif de la marche et du langage oral. Les
enfants vont ainsi recourir à des actions visant à éviter une émotion négative et à solliciter la
répétition d’émotions positives. Par exemple, la succion réflexe va évoluer en une succion auto-
relaxante volontaire. Les stratégies de distraction présentes sous la forme du détournement du
regard deviennent des actions motrices de fuite ou d’évitement (Kopp, 1989).
Dès 3 ans, les enfants commencent à utiliser le langage pour initier des demandes de
régulations interpersonnelles ainsi que l’utilisation de stratégies intrapersonnelles grâce à des
auto-instructions langagières (Bloom & Beckwith, 1989). Les adultes vont encourager les
enfants à verbaliser leur ressenti afin d’associer la cause et l’évaluation de l’émotion. Les
enfants vont également utiliser seuls les stratégies de régulation qu’ils ont apprises lors des
épisodes de régulation interpersonnelle (Bretherton, Fritz, Zahn-Waxler, & Ridgeway, 1986).
41
Ensuite, entre 3 et 6 ans, les enfants développent la capacité de modifier, masquer ou

minimiser leurs émotions dans certaines circonstances (Eisenberg & Fabes, 1992). En effet, ils
comprennent et utilisent de mieux en mieux les règles culturelles définissant la manière de
répondre émotionnellement dans un contexte social (Gnepp & Hess, 1986). Par exemple, depuis
leur plus jeune âge, les enfants apprennent souvent que même s’ils reçoivent un cadeau qui ne
leur plaît pas, ils ne doivent pas le montrer. Cela implique pour l’enfant de pouvoir séparer ce
que l’on ressent émotionnellement de ce que l’on exprime physiquement (Zeman, Cassano,
Perry-Parrish, & Stegall, 2006). Ces règles culturelles impliquent un répertoire de stratégies de
régulations émotionnelles telles que l’amplification de l’expression (p. ex., l’enfant qui exagère
la douleur quand il tombe pour obtenir l’attention de ses parents), la minimisation de ses
émotions (p. ex., l’enfant qui essaie de retenir ses larmes), la substitution de l’expression (p.
ex., prendre un air joyeux alors qu’on est déçu), et la neutralisation d’une expression
émotionnelle (p. ex., « poker face ») (Zeman et al., 2006).
L’autonomie de la régulation émotionnelle concorde avec la maîtrise experte du langage

oral, c’est-à-dire vers 4-5 ans (Bloom & Beckwith, 1989). Le perfectionnement de ces capacités
coïncide également avec le développement des fonctions exécutives (Riggs, Jahromi, Razza,
Dillworth-Bart, & Mueller, 2006). À partir de 6 ans, le développement des capacités cognitives
et du contrôle attentionnel va jouer un rôle important dans le développement des capacités de
régulation (Riggs et al., 2006). Avec l’âge, les enfants vont percevoir les liens entre leurs efforts
de régulation et la modulation de leurs émotions. Ils deviendront ensuite capables, à la pré-
adolescence, d’utiliser des stratégies de régulation très spécifiques telles que la résolution de
problèmes, la recherche de soutien, la distraction, la réévaluation cognitive ou la suppression
expressive (Denham, 2005). Par exemple, l’étude de Theurel et Gentaz (2018) démontre que
chez des adolescents de 14 ans, la stratégie de réévaluation est plus efficace que la stratégie de
distraction pour des émotions de peur ou d’anxiété. De plus, l’efficacité de la stratégie de
réévaluation semble augmenter entre 13 et 15 ans.
Résumé 2. Développement précoce de la régulation émotionnelle
La régulation émotionnelle se met en place dès la naissance. Au début, les émotions de

l’enfant sont principalement régulées par l’intermédiaire de son donneur de soin.
L’acquisition du langage et le développement des capacités cognitives permettent à l’enfant
d’élaborer des stratégies de régulation de plus en plus efficaces. La régulation émotionnelle
est indispensable dans la vie quotidienne, mais son acquisition est lente et difficile.
42
Le développement précoce de la discrimination

émotionnelle
La discrimination peut être définie comme la capacité d’un individu à percevoir
différemment deux stimulations sensorielles. La sensibilité du système sensoriel va permettre
de faire la distinction entre deux stimulations. Par exemple, la discrimination visuelle (ou acuité
visuelle) va permettre de différencier deux points visuels spatialement distincts et la
discrimination auditive permet de faire la différence entre deux sons distincts (par exemple,
deux phonèmes).
Les méthodes et outils d’évaluation des capacités de

discrimination visuelle des bébés
La capacité des bébés à discriminer des stimuli externes, qu’ils soient visuels, auditifs
ou tactiles, peut être évaluée grâce à différentes méthodologies. Ces méthodologies sont fondées
sur un même raisonnement : un bébé discrimine deux stimuli s’il réagit différemment à la
présentation de chacun d’eux. Les stimuli peuvent être présentés dans différentes modalités
sensorielles, de manière unimodale, bimodale ou multimodale, simultanément ou
successivement (Lécuyer, 2014).
Les différentes méthodes d’étude de la discrimination chez les bébés se fondent sur le
recueil et l’analyse de différents types d’indices, biologiques ou comportementaux. Les mesures de
l’activité cérébrale sont possibles avec l’imagerie par résonnance magnétique fonctionnelle (IRMf),
l’électroencéphalographie (EEG) ou la spectroscopie proche infrarouge (NIRS : Near Infrared
Spectroscopy). Les mesures de l’activité physiologique sont possibles avec celles du rythme
cardiaque ou de la respiration. Les mesures comportementales sont possibles avec celles des
comportements sensori-moteurs comme le taux de succion, le temps de tenue manuelle ou le temps
de regard enregistré par vidéo ou oculométrie (eye-tracking).
Les études comportementales de discrimination auditive sont difficiles à réaliser chez

les bébés et elles requièrent, la plupart du temps, la mobilisation de la modalité visuelle. En
effet, les bébés sont exposés à un stimulus visuel neutre, par exemple un damier, et à des sons.
Les chercheurs étudient alors si les bébés s’habituent au son familier en analysant si le temps
de regard sur le stimulus visuel neutre diminue et réaugmente lorsqu’un bruit nouveau leur est
présenté. De ce fait, afin d’avoir une mesure de la discrimination auditive mobilisant
43
uniquement la modalité auditive, la majorité des études ont recours à des techniques de mesure
de l’activité cérébrale.
L’analyse comportementale de la discrimination visuelle va être détaillée, car c’est cette

dernière qui est utilisée dans la section expérimentale. L’analyse du regard est possible chez le
bébé : elle se base sur une compétence sensorielle présente dès la naissance et ne requiert pas
de consigne, elle est non invasive et sans contact, et elle permet de calculer objectivement les
temps de regard sur un stimulus. L’analyse comportementale du regard se décline en deux
familles de protocoles expérimentaux largement dérivés des travaux pionniers de Fantz (1961,
1963, 1964) : le protocole du « regard préférentiel » et le protocole d’ « habituation et de
réaction à la nouveauté ». Ces protocoles sont largement utilisés encore aujourd’hui pour
étudier les compétences des bébés.
Le protocole du « regard préférentiel » ou du « temps de fixation relatif » consiste à

présenter deux stimuli simultanément à l’enfant, un à droite et un à gauche, et à comparer le
temps passé à regarder chaque stimulus. Une différence de temps de regard significative permet
d’affirmer que le bébé discrimine les deux stimuli. Cependant, si le bébé regarde autant les deux
stimuli, on ne peut rien conclure, car il peut être capable de discriminer les deux stimuli, mais
n’en préférer aucun des deux.
Le protocole « d’habituation et de réaction à la nouveauté » part du principe que nous

nous désintéressons progressivement de quelque chose que nous connaissons et qu’il y a un
regain d’attention quand quelque chose de nouveau nous est présenté (Fantz, 1964). Les
expérimentateurs présentent plusieurs fois de suite les mêmes stimuli au bébé jusqu’à ce qu’il
s’y habitue, c’est-à-dire qu’il regarde de moins en moins le stimulus présenté (Colombo &
Mitchell, 2009). Il existe deux types de procédures d’habituation : à essais fixes ou contrôlés
par le bébé. Lors de la procédure à essais fixes, le nombre et la durée des essais sont
prédéterminés. Lors de la procédure contrôlée par le bébé, un essai commence quand le bébé
s’intéresse au stimulus et se termine quand il ne s’y intéresse plus. Le bébé est considéré habitué
quand il diminue son intérêt par rapport aux premiers essais selon un seuil. Généralement, chez
les nouveau-nés, ce seuil est fixé à une diminution de 50% et chez les bébés plus âgés à 30%.
Une fois habitué, on lui présente un nouveau stimulus. On considère que le bébé discrimine les
deux stimuli si son intérêt augmente lors de la présentation du nouveau stimulus. Dans une
44
présentation de stimuli visuels, on considère que le bébé discrimine les stimuli si son temps de
regard augmente lors de la présentation du nouveau stimulus.
La tâche de comparaison de paires visuelles (Visual Paired Comparison task) qui

combine les protocoles de préférence visuelle et d’habituation/réaction à la nouveauté est
également largement utilisée pour mesurer les compétences visuelles chez les bébés. Cette tâche
consiste en une première phase de familiarisation durant laquelle un stimulus est présenté au
bébé de façon répétée puis une deuxième phase, de reconnaissance visuelle, dans laquelle le
même stimulus est présenté accompagné d’un nouveau stimulus (préférence visuelle) (Figure
8). Dans cette tâche, on observe le temps passé à regarder les stimuli dans la phase de
reconnaissance visuelle et une différence de temps de regard significative permet d’affirmer
que le bébé discrimine les deux stimuli. La tâche de comparaison de paires visuelles se distingue
du protocole d’habituation/réaction à la nouveauté. Dans ce dernier protocole, d’une part, la
phase d’habituation dans laquelle une présentation répétée va progressivement induire une
diminution de la réponse comportementale est différente de la phase de familiarisation. D’autre
part, lors de la phase de reconnaissance, le stimulus est présenté seul.
Figure 8. Représentation de la tâche de comparaison de paires visuelles issue de Pascalis et de Haan (2003).
Dans la tâche de comparaison de paires visuelles, les bébés peuvent donc préférer
regarder le nouveau stimulus, le stimulus familier ou ne pas montrer de préférence visuelle.
Initialement, ce test suppose une préférence visuelle pour le nouvel objet (Fantz, 1964).
Cependant, une préférence pour la familiarité est également retrouvée dans certaines études.
Dans une revue de question, Pascalis et de Haan (2003), ont examiné les facteurs qui influencent
le sens de la préférence visuelle. Pour commencer, il semble que la préférence dépende de la
qualité de l’encodage. Une hypothèse est que si le stimulus est bien encodé, on doit observer
une préférence pour la nouveauté alors que s’il est mal encodé on doit observer une préférence
pour la familiarité. De plus, entre un encodage partiel et un bon encodage, il y aurait une période
45
intermédiaire ou aucune préférence ne serait observée, car l’objet familier et le nouveau seraient
autant intéressants pour le bébé. Trois facteurs contribueraient à la qualité de l’encodage : le
temps de familiarisation, la complexité du stimulus et l’âge des bébés. Plus le bébé est jeune et
plus le stimulus est complexe, plus il faudrait du temps pour le familiariser afin qu’il encode
correctement le stimulus. Plus le temps de familiarisation est élevé, plus on retrouverait une
préférence pour la nouveauté. Ensuite, plusieurs études suggèrent qu’il existe des différences
individuelles dans le style d’encodage qui peuvent contribuer à des différences individuelles
dans la préférence pour la nouveauté ou la familiarité. Les émotions ressenties pendant la phase
de familiarisation affecteraient le processus d’encodage et ainsi une préférence pour la
nouveauté ou la familiarité. Pour terminer, le délai de présentation entre la phase de
familiarisation et la phase de reconnaissance pourrait aussi influencer le sens de la préférence.
Selon Bahrick et Pickens (1995), dans les paradigmes où le délai est très court (max. 1 minute),
la mémoire est très accessible et on retrouverait une préférence pour la nouveauté.
La qualité de l’encodage ainsi que le contenu émotionnel des stimuli contribuent à

déterminer si le résultat comportemental est une préférence pour la familiarité, une préférence
pour la nouveauté ou aucune préférence du tout. Cependant, aucun modèle ne peut rendre
compte de tous les résultats retrouvés. Compte tenu de la diversité des résultats, il est difficile
de déterminer a priori le sens de la préférence attendue ou l’absence de préférence. Une des
limites de cette tâche est que lorsqu’aucune préférence n’est retrouvée, on ne peut rien conclure
quant à la capacité de discrimination visuelle des bébés.
Les compétences perceptives pré-requises à la

discrimination précoce des émotions
La discrimination des émotions débute principalement par la reconnaissance d’indices

objectifs extraits du visage ou de la voix. Afin de pouvoir affirmer que les bébés sont capables
de discriminer des émotions, il est important de déterminer s’ils parviennent déjà à discriminer
des visages ou des voix neutres.
2.3.2.1. La discrimination auditive des voix
La perception auditive des voix est très précoce, car déjà présente chez le fœtus à partir
de la 28ème semaine de gestation (Abrams, Gerhardt, & Peters, 1995). In utero, les sons peuvent
46
venir de l’intérieur (p. ex. battements du cœur de la mère, respiration) ou de l’extérieur, atténués
par la paroi abdominale (p. ex. voix, musique). En effet, le nouveau-né et même le fœtus sont
capables de mémoriser ce qu’ils entendent souvent (Hepper, 1991).
Dès la naissance, le bébé reconnaît et préfère la voix de sa mère à celle d’une inconnue.
En effet, DeCasper et Fifer (1980), ont montré que, dès la naissance, les bébés vont moduler la
fréquence de leur succion pour activer la voix de leur mère plutôt que celle d’une femme
inconnue. Dans l’étude de Lee et Kisilevsky (2014), les auteurs ont habitué le fœtus à la voix
de leur père pendant 7 jours in utero, et il y avait une réponse au niveau du rythme cardiaque
pour les deux voix, celle de la mère et celle du père. Cependant, à la naissance, les nouveau-
nés vont plus tourner la tête en direction de la voix de leur mère qu’en direction de celle de leur
père. Des nouveau-nés âgés de 2 jours ont une préférence pour leur langue maternelle comparée
à une langue étrangère; en effet, le temps de succion est plus long lorsqu’ils écoutent leur langue
maternelle (Moon, Cooper, & Fifer, 1993).
De plus, dans une expérience utilisant la NIRS, les bébés âgés de 7 mois, mais pas ceux
de 4 mois, ont montré une augmentation des réponses à la voix humaine par rapport aux sons
non vocaux dans le cortex temporal supérieur (Grossmann, Oberecker, Koch, & Friederici,
2010). Ce résultat suggère que les systèmes du cerveau spécialisés dans le traitement des voix
humaines apparaissent entre 4 et 7 mois (pour une revue, cf. Grossmann et Friederici, 2012).
2.3.2.2. La discrimination visuelle des visages
À la naissance, le bébé n’a eu que très peu d’expérience prénatale. En effet, in utéro, ses
seules expériences visuelles sont les fortes variations de luminosité perçues à travers la paroi
abdominale (Lecanuet & Schaal, 2002). De plus, le système visuel est encore très immature à
la naissance. Malgré cela, la perception des visages est une capacité très précoce (pour une
revue, cf. Pascalis et al., 2011). En effet, dès la naissance, les bébés préfèrent les visages par
rapport à d’autres stimuli mêmes très similaires comme des configurations schématiques
(Fantz, 1961, 1963; Goren, Sarty, & Wu, 1975; Johnson, Dziurawiec, Ellis, & Morton, 1991;
Macchi, Turati, & Simion, 2004; Maurer, 1983; Mondloch et al., 1999; Valenza, Simion,
Cassia, & Umiltà, 1996). Même dès 9 minutes après la naissance les bébés préfèrent le visage
schématique, c’est-à-dire l’image qui respecte la disposition des yeux, du nez et de la bouche
47
plutôt que lorsque ces mêmes éléments sont mélangés ou s’il n’y a pas d’éléments (Figure 9)
(Goren et al., 1975).
Figure 9. Exemple des stimuli présentés dans l’étude de Goren et al. (1975) : visage, éléments de visage mélangés
ou visage vide (de gauche à droite).
De plus, les nouveau-nés ne sont pas seulement capables de différencier des visages
schématiques, ils parviennent à différencier deux individus. En particulier, ils sont experts pour
discriminer le visage de leur mère et celui d’une autre femme, qui se traduit par une préférence
pour le visage familier de leur mère (Bushneil, Sai, & Mullin, 1989; Bushnell, 2001; Field,
Cohen, Garcia, & Greenberg, 1984; Pascalis, de Schonen, Morton, Deruelle, & Fabre-Grenet,
1995; Sai, 2005; Walton, Bower, & Bower, 1992).
Même si la reconnaissance du visage de la mère peut s’effectuer uniquement à partir de

la modalité visuelle, son apprentissage a pu être associé à d’autres modalités sensorielles,
comme la modalité olfactive (Cernoch & Porter, 1985) ou la modalité auditive (DeCasper &
Fifer, 1980). Par exemple, le fait d’être exposé à la voix de sa mère in utéro pourrait accélérer
l’apprentissage de son visage par association de cette voix qu’il connaît bien avec ce nouveau
visage. Sai (2005) a montré que pour retrouver une préférence visuelle pour le visage de sa
mère dans les heures qui suivent la naissance, il était nécessaire que le bébé ait été exposé au
visage ainsi qu’à la voix de celle-ci (Figure 10).
Figure 10. Exemple des stimuli présentés dans l’étude de Sai (2005), le visage de la maman et celui d’une personne
inconnue.
Certains facteurs environnementaux modulent et affinent le développement précoce de

la discrimination et de la préférence visuelle des visages des bébés. Par exemple, des études
montrent que le genre du visage influence la discrimination et la préférence visuelle des visages
(Ramsey-Rennels & Langlois, 2006). En effet, les bébés de 3-4 mois préfèrent les visages
48
féminins comparés aux visages masculins (Quinn et al., 2008; Quinn, Yahr, Kuhn, Slater, &
Pascalis, 2002 ; Liu et al., 2015). Cette préférence s’expliquerait par le fait que, pendant la
première année, le principal donneur de soins est généralement une femme (Sugden, Mohamed-
Ali, & Moulson, 2014), car lorsque le principal donneur de soins est un homme, les visages
masculins sont préférés (Quinn et al., 2002). De plus, à 3 mois, les bébés commencent à
développer une préférence pour les visages de leur propre ethnie comparés aux visages d’une
ethnie différente alors que cette préférence n’est pas retrouvée à la naissance (Kelly et al., 2005).
À partir de 9 mois, les bébés sont spécialisés pour reconnaître les visages de leur propre ethnie
et n’arrivent plus à différencier deux visages d’une ethnie différente à la leur (Kelly et al., 2007).
Le traitement visuel des visages et l’expertise en matière de discrimination faciale sont

déterminés par les éléments faciaux et la configuration (Pascalis et al., 2011). Les éléments
faciaux correspondent aux éléments isolés internes (yeux, nez, bouche) et externes (coiffure et
mâchoire) utilisés pour distinguer les visages. Les caractéristiques internes deviennent plus
critiques pour l’expertise du visage à l’âge adulte, après des variations hiérarchiques pendant la
petite enfance dues au développement de l’acuité visuelle (Ellis, Shepherd, & Davies, 1979; Ge
et al., 2008; Pascalis et al., 2011; Tanaka & Farah, 1993). En effet, les nouveau-nés semblent
plus sensibles aux changements des traits externes qu’internes (Turati, Cassia, Simion, & Irene,
2006). Alors que les bébés de 4 mois explorent plus les traits internes du visage de femmes
présenté à l’endroit, les traits externes sont plus regardés si le visage est présenté à l’envers
(Figure 11) (Gallay, Baudouin, Durand, Lemoine, & Lécuyer, 2006).
Figure 11. Zones d’intérêt du visage et moyenne des pourcentages de regard sur chaque aire du visage présentées
dans l’étude de Gallay et al. (2006).
Les informations de configuration se réfèrent aux relations spatiales entre les différents
éléments sensibles à l’effet d’inversion (p. ex. espace entre les yeux, le nez, etc.). Les
informations des éléments faciaux et les informations de configuration sont ainsi associées à
travers le traitement intégral et holistique de l’ensemble du visage (Tanaka & Gordon, 2011).
En général, les visages sont traités avec un modèle de fixation préférentielle systématique le
49
long d’un triangle inversé à travers les traits internes entre les yeux, le nez et la bouche (Groner,
Walder, & Groner, 1984).
Les bébés de 3 à 4 mois regardent autant les yeux et la bouche d’un visage alors que les
bébés de 9 mois regardent plus les yeux (Wilcox, Stubbs, Wheeler, & Alexander, 2013).
Hunnius et Geuze (2004), montrent qu’à 2 mois et demi, les bébés préfèrent le visage souriant
de leur mère à une forme abstraite construite à partir de l’image déformée de leur mère (Figure
12). On ne retrouve pas cette préférence plus tard. De plus, de 4 à 6 mois, la bouche est plus
regardée que les yeux.
Figure 12. Exemple des stimuli présentés dans l’étude de Hunnius et Geuze (2004) visage de la maman et une
forme abstraite construite à partir de l’image déformée de la maman (de gauche à droite).
Les adultes sont des experts dans le domaine de la reconnaissance faciale et discriminent
les visages sans effort. En effet, même si une photographie de visage est dégradée, floutée ou
que le visage est orienté de différents angles, les performances en reconnaissance faciale sont
très élevées. En ce qui concerne la perception des visages, les adultes sont des experts et les
nouveau-nés ont déjà de nombreuses capacités à les reconnaître, malgré leur faible acuité et
expérience visuelle. Les bébés semblent prédisposés à préférer les visages et sont ainsi poussés
aux premières interactions. Ce développement précoce de la perception des visages laisse
penser que le bébé aurait déjà les compétences nécessaires à la discrimination des expressions
faciales émotionnelles.
Résumé 3. Compétences perceptives pré-requises à la discrimination des émotions
Dès la naissance, les bébés semblent avoir de bonnes capacités de reconnaissance des
visages et des voix. De plus, une préférence pour la voix et le visage de leur mère ou pour
les personnes familières a été mise en évidence dans plusieurs études. Cette préférence
semble être liée à l’exposition plus répétée de ces stimuli dans l’environnement de l’enfant.
Les nouveau-nés semblent avoir les capacités sensorielles requises pour la reconnaissance
des émotions au niveau visuel et auditif. Mais à partir de quel âge les bébés sont-ils capables
de discriminer les émotions ?
50
La discrimination précoce vocale émotionnelle
La discrimination vocale émotionnelle semble déjà possible à la naissance. Par exemple,

lorsqu’on présente des expressions vocales avec des prosodies émotionnelles de joie, de colère,
de tristesse et neutres à des nouveau-nés, ceux-ci ouvrent plus souvent les yeux pour une
prosodie joyeuse (Mastropieri & Turkewitz, 1999). Cet effet est retrouvé seulement si la
prosodie est exprimée dans la langue maternelle de l’enfant. Ce résultat souligne ainsi
l’importance des indices acoustiques et prosodiques pour la discrimination précoce des
expressions émotionnelles vocales.
Une étude en EEG a montré que, dès les premiers jours de vie, la spécialisation cérébrale
pour les voix humaines et les processus émotionnels se développe dans l’hémisphère droit. De
plus, les syllabes de peur provoquent une amplitude plus importante que celles de joie ou neutre,
alors qu’il n’y a pas de différence retrouvée entre une prosodie de colère comparée à une
prosodie de joie (Cheng, Lee, Chen, Wang, & Decety, 2012). Une étude en NIRS a également
montré l’importance de l’hémisphère droit pour la discrimination des émotions vocales chez
les nouveau-nés (Zhang, Zhou, Hou, Cui, & Zhou, 2017). Une autre étude en EEG avec des
nouveau-nés endormis suggère qu’ils discrimineraient la colère de la peur (Zhang et al., 2014).
De plus, les pleurs d’autres bébés provoquent la détresse chez les nouveau-nés (Dondi,
Simion, & Caltran, 1999) ainsi que chez des bébés âgés de 1 à 9 mois (Geangu, Benga, Stahl,
& Striano, 2010). À 8 mois, une étude en EEG dans laquelle des bébés ont écouté des rires et
des pleurs exprimés par des pairs ou des voix adultes neutres. Les rires ont provoqué plus de
positivité (P300) et les pleurs plus de négativité (N200) (Missana, Altvater-Mackensen, &
Grossmann, 2017).
Les bébés âgés de 5 mois semblent capables de discriminer des émotions vocales de
joie, de colère et de tristesse. Lors de la phase d’habituation, seuls les stimuli vocaux sont
présentés avec un visage neutre et lors de la phase de test, le même visage neutre est présenté,
mais l’émotion vocale est différente (Flom & Bahrick, 2007). Une autre étude montre que les
bébés dès 6 mois (mais pas à 3 mois) discriminent les expressions vocales de triomphe et de
soulagement, lors d’un paradigme d’habituation avec un damier comme support visuel
(Soderstrom, Reimchen, Sauter, & Morgan, 2017). Selon deux études réalisées par Grossmann
et ses collaborateurs, à 7 mois, les bébés discrimineraient des mots neutres exprimés avec une
51
prosodie neutre, joyeuse ou en colère. Une étude en EEG a révélé plus de négativité pour les
prosodies de colère que neutre ou joyeuses (Grossman, Striano, & Friederici, 2005). Une étude
en NIRS suggère que la prosodie émotionnelle entraîne une augmentation des réponses dans
une région sensible à la voix de l’hémisphère cérébral droit ainsi qu’une sensibilité particulière
à la prosodie de joie dans une région du cortex orbitofrontal inférieur droit (Grossmann et al.,
2010).
Résumé 4. Développement de la discrimination vocale émotionnelle
Les difficultés méthodologiques des études de la discrimination émotionnelle vocale chez

les bébés ont pour conséquence le nombre limité d’études réalisées. Cependant, ces études
semblent montrer que la reconnaissance vocale des émotions est possible dès la naissance.
Les régions cérébrales se spécialisent dans le traitement des voix très tôt dans le
développement et les émotions semblent moduler le traitement des voix dans l’hémisphère
cérébral droit.
La discrimination précoce faciale émotionnelle
Durant les premiers mois de la vie, la joie est la première expression faciale discriminée
et préférée (cf., Bayet et al., 2014). Field, Woodson, Greenberg et Cohen (1982) ont montré
que les nouveau-nés âgés de 3 jours sont capables de reproduire l’expression faciale lors d’une
interaction avec une expérimentatrice exprimant trois types d’émotions accentuées : joie,
tristesse ou surprise (Figure 13). Dans cette condition, les nouveau-nés semblent capables de
détecter les mouvements faciaux d’une personne et d’en imiter certains. Cependant, ces
résultats ne sont pas toujours retrouvés (Kaitz, Meschulach-Sarfaty, Auerbach, & Eidelman,
1988; Oostenbroek et al., 2016).
Figure 13. Exemple d’imitation adapté de l’étude de Field et al. (1982) : visage joie, tristesse et surprise (de gauche
à droite).
Farroni, Menon, Rigato, et Johnson (2007) ont montré que les nouveau-nés regardaient
plus longtemps un visage statique de joie plutôt qu’un visage de peur, mais aucune évidence
52
n’a montré une préférence entre un visage de peur et un visage neutre (Figure 14). Dans une
étude ultérieure, Rigato, Menon, Johnson, & Farroni (2011) ont observé une préférence visuelle
pour l’expression de joie par rapport à une expression neutre. À cet âge, la joie semble être la
seule expression faciale perçue. Cette constatation peut s’expliquer par la familiarité de cette
expression dans l’environnement visuel du bébé par rapport à une autre expression faciale, par
exemple neutre, de peur ou de colère. Cette préférence peut également être influencée
socialement. Notamment, les parents vont avoir tendance à encourager les expressions de joie.
Figure 14. Exemple des stimuli présentés dans l’étude de Farroni et al. (2007) : visage neutre, peur et joie (de
gauche à droite).
Cette préférence pour les visages souriants, observée chez les nouveau-nés, persiste
durant les premiers mois de vie (Kuchuk, Vibbert, & Bornstein, 1986; LaBarbera, Izard, Vietze,
& Parisi, 1976; Rochat et al., 2002). Dans une étude menée par Kuchuk et al. (1986), les
chercheurs ont présenté à des bébés de 3 mois une série de sourires dont l’intensité de
l’expression augmente graduellement (Figure 15). Les résultats révèlent une préférence pour
les expressions de sourires intenses comparées aux expressions neutres ou de sourires moins
intenses. À 4 mois, les premières fixations sont plus souvent dirigées vers le visage de joie que
neutre (LaBarbera et al., 1976). À cet âge, un visage exprimant de la joie est également plus
regardé qu’un visage exprimant de la tristesse (A. J. Caron, Caron, & MacLean, 1988;
Montague & Walker-Andrews, 2002).
Figure 15. Exemple de stimuli présentés dans l’étude de Kuchuk et al. (1986), différentes intensités de sourires.
53
La discrimination visuelle des expressions faciales émotionnelles continue à se

développer entre 2 et 6 mois, avec des expressions de plus en plus diversifiées avec l’âge (Bayet
et al., 2014). Ainsi, on trouve une discrimination visuelle entre la joie et d’autres émotions telles
que la surprise (R. F. Caron, Caron, & Myers, 1982; Young-Browne, Rosenfeld, & Horowitz,
1977) ou la colère représentée par un froncement de sourcil (Barrera & Maurer, 1981) à 3 mois,
la tristesse à 3 et 5 mois (A. J. Caron et al., 1988; Montague & Walker-Andrews, 2002), et la
peur à 4 (Rigato, Farroni, & Johnson, 2010) et à 5 mois (Bornstein & Arterberry, 2003). À 5
mois, une étude rapporte également la capacité à discriminer les expressions de colère, de peur
et de surprise (Serrano, Iglesias, & Loeches, 1992). À cet âge, les bébés pourraient discriminer
la colère, la peur et la tristesse (Schwartz, Izard, & Ansul, 1985). De plus, à 6 mois, les bébés
seraient capables de discriminer des expressions faciales de joie, de tristesse et de colère (Flom
& Bahrick, 2007).
Les paradigmes décrits précédemment testent la discrimination des expressions

statiques produites par une seule personne. Ainsi, la discrimination des bébés peut être fondée
sur les traits spécifiques du visage d’une seule personne plutôt que sur l’émotion elle-même.
En revanche, les paradigmes qui étudient la capacité des bébés à catégoriser les expressions
faciales produites par plusieurs personnes permettent de s’assurer que la discrimination
observée ne se fonde que sur des caractéristiques isolées. En effet, la catégorisation consiste à
grouper ensemble différentes entités en fonction de caractéristiques partagées. Dans les
paradigmes de catégorisation, les bébés sont tenus de détecter (via la ou les caractéristiques
communes partagées) la similarité de l’expression malgré les variations intrinsèques dans les
visages des personnes, afin de catégoriser une expression faciale particulière (p. ex., joie) et de
la distinguer d’une expression faciale différente (p. ex., peur). Les paradigmes de catégorisation
permettent de s’assurer d’une reconnaissance intrinsèque de l’émotion que les simples
paradigmes de discrimination ne peuvent pas assurer.
Non seulement les bébés seraient capables de discriminer des expressions faciales, mais
ils seraient aussi, dans une certaine mesure, capables de catégoriser des émotions. La
catégorisation des émotions semble émerger entre 5 et 7 mois. En effet, les bébés âgés de 6-7
mois peuvent catégoriser l’émotion présentée par une identité différente comme étant la même
émotion, telle que la surprise (R. F. Caron et al., 1982), la tristesse (Leppänen & Nelson, 2009)
et la peur (Kotsoni, Haan, & Johnson, 2001). Les bébés sont même capables, dès 5 mois, de
catégoriser le sourire. En effet les bébés sont habitués à différentes intensités de sourires
54
produits par différentes identités (Figure 16). Ainsi, tous ces sourires ne sont pas considérés
comme nouveaux lors de la phase test et sont donc moins regardés que ceux produits par une
personne différente à la phase test ou à la peur (Bornstein & Arterberry, 2003).
Figure 16. Exemple de stimuli présentés dans l’étude de Bornstein et Arterberry (2003) différentes intensités de
sourires lors de l’habituation, un visage souriant et un visage de peur présenté lors de la phase test.
À 6 mois et demi, les bébés pourraient catégoriser les visages de peur et de joie de
visages familiers et non familiers (Safar & Moulson, 2017). Les bébés entre 4 et 9 mois
semblent discriminer et catégoriser des visages de joie, colère et neutre présentés par 3
différentes identités lors d’un paradigme d’habituation (Serrano, Iglesias, & Loeches, 1995).
Mais, une autre étude a montré que des bébés entre 6 et 11 mois, après avoir été habitués à
l’émotion de joie, regardent plus longtemps la nouvelle émotion de peur quand le modèle est le
même que celui présenté lors de l’habituation, mais n’a pas noté de différence quand le modèle
est différent (Amso, Fitzgerald, Davidow, Gilhooly, & Tottenham, 2010).
En conclusion, il n’existe aucune preuve d’une catégorisation des expressions entre les
expressions de la même valence émotionnelle (positive ou négative) chez les bébés jusqu’à 7
mois (Ludemann, 1991). En revanche, une étude a montré cette capacité chez des bébés déjà
âgés de 10 et 18 mois (Ruba, Johnson, Harris, & Wilbourn, 2017). Ces bébés parviennent à
catégoriser des visages de colère et de dégoût. L’interprétation des résultats des paradigmes de
catégorisation est souvent compliquée par le fait que les bébés montrent des préférences
spontanées pour des expressions émotionnelles particulières. Par exemple, au début de la
première année, les bébés semblent préférer les expressions faciales de joie. Cependant, nous
allons voir plus loin que la discrimination et la préférence pour le visage de joie retrouvée dans
les premiers mois peuvent être influencées par d’autres dimensions. Ces résultats pourraient
être le reflet de l’expérience différentielle acquise au cours des premiers jours de vie ou être
influencés les propriétés des stimuli.
55
2.3.4.1. Facteurs influençant la discrimination précoce faciale

émotionnelle
Premièrement, la dépression post-partum : dans ce cas les enfants sont moins exposés à
des expressions faciales positives (Raag et al., 1997). Chez ces enfants, on note qu’à l’âge de 3
mois, ils ont une préférence pour les expressions de tristesse et non pas pour les visages de joie
et ont des difficultés à faire le lien entre la voix et le visage de joie (Field, Pickens, Fox,
Gonzalez, & Nawrocki, 1998). De plus, les enfants de mères dépressives montrent moins
d’expressions faciales positives à 2 mois (Cohn, Campbell, Matias, & Hopkins, 1990) et plus
de tristesse et de colère à 3 mois (Pickens & Field, 1994).
Deuxièmement, les visages familiers : par exemple, si le visage présenté est celui de
leur mère, les bébés de 3 mois et demi préfèrent le visage de joie au visage triste et le visage de
colère au visage de joie avec une voix de joie entendue simultanément. Si le visage présenté est
celui de leur père, on retrouve une préférence pour le visage de joie au visage de colère avec
une voix de joie entendue simultanément. Néanmoins, aucune préférence n’est trouvée si le
visage présenté est celui d’un étranger. Les visages familiers semblent donc favoriser la
discrimination (Montague & Walker-Andrews, 2002).
Troisièmement, le genre des visages : cette préférence pour les visages de joie peut être
limitée aux visages féminins à 3 mois et demi (Figure 17) (Bayet et al., 2015), reflétant ainsi le
rôle probable de l’exposition prédominante à des visages féminins durant les premiers jours
après la naissance.
Figure 17. Exemple de stimuli présentés dans l’étude de Bayet et al. (2015): féminin à gauche et masculin à droite,
souriants ou neutres.
Quatrièmement, certains indices picturaux tels que la présence des dents : semblent
jouer un rôle important dans la perception des expressions faciales. Par exemple Harriet Oster,
(1981) a montré que les bébés de 4 mois discriminent les visages de joie et de tristesse
seulement si les dents sont visibles. Mais encore, R. F. Caron, Caron, & Myers (1985) ont mis
56
en évidence que les bébés de 4, 5 et 7 mois regardent plus longtemps le sourire lorsque les dents
sont visibles s’ils sont habitués à l’expression de colère ou au sourire sans dents. Cependant, ils
n’ont pas noté de différence de temps de regard si les bébés sont habitués à l’expression de
colère avec des dents visibles. Selon ces auteurs, les bébés réagiraient à des caractéristiques
faciales isolées et non à la nature de l’émotion présentée par l’expression faciale.
Par ailleurs, la préférence pour le visage de joie n’est pas toujours retrouvée dans les
études récentes. En effet des études suggèrent qu’un biais attentionnel pour la peur est présent
chez l’adulte (p. ex. Pourtois, Grandjean, Sander, & Vuilleumier, 2004), mais serait aussi
présent dès 7 mois (Leppänen et al., 2010; Peltola, Leppänen, & Hietanen, 2011; Peltola,
Leppänen, Palokangas, & Hietanen, 2008). De plus, à cet âge, les bébés mettent plus de temps
à se désengager (temps de latence plus long) d’un visage de peur que d’un visage de joie, neutre
ou neutre avec des yeux de peur (Figure 18). Ce résultat démontre que les visages de peur ont
tendance à retenir particulièrement l’attention des bébés et que l’effet ne reflète pas une simple
réaction à des yeux différents sur des visages de peur (Peltola, Leppänen, Vogel-Farley,
Hietanen, & Nelson, 2009) (pour une revue, cf. Grossmann et Jessen, 2017).
Figure 18. Exemple de stimuli présentés dans l’étude de Peltola, Leppänen, Vogel-Farley, et al. (2009), peur, joie,
neutre, yeux de peur mais bas du visage neutre (de gauche à droite).
Des études montrent un biais pour la peur encore plus précoce dans le développement.
Par exemple, l’étude de Bayet et al. (2017) montre que les bébés dès 3 mois et demi détectent
l’expression de peur plus rapidement que l’expression de joie. De plus, les bébés de 5 mois
préféreraient un visage de peur à un visage de joie ou neutre (Heck, Hock, White, Jubran, &
Bhatt, 2016; Peltola, Leppänen, Mäki, & Hietanen, 2009). Les résultats de l’étude de Safar,
Kusec, et Moulson (2017), suggèrent également une préférence spontanée pour le visage de
peur comparé au visage de joie à 6 et 9 mois. Ainsi, le biais pour les stimuli de peur trouvé chez
les adultes serait déjà retrouvé dès 3 mois chez les bébés. De plus, un biais pour les visages de
dégoût comparé aux visages de joie a également été montré à 3, 5 et 7 mois (Godard, Baudouin,
Schaal, & Durand, 2016).
57
2.3.4.2. Apports récents de l’oculométrie : analyse des zones

d’intérêt regardées
La discrimination des émotions peut aussi être étudiée grâce à l’analyse plus précise des
mouvements oculaires et les zones d’intérêt regardées en fonction de l’émotion exprimée. À
l’heure actuelle, très peu d’études ont été réalisées sur le développement du traitement des
visages émotionnels. La perception des visages émotionnels ainsi que les zones d’intérêt
(bouche, nez, yeux) explorées peuvent être étudiées à l’aide d’outils de suivi du regard tel que
l’eye-tracker (les détails techniques seront présentés plus loin). L’étude des zones regardées
lors de la production d’une expression faciale permettrait de mettre en évidence des capacités
de discrimination plus poussées. En effet, lorsque l’on explore un visage émotionnel, certaines
des régions du visage peuvent contenir des informations plus utiles que d’autres. Les
expressions faciales des émotions de base sont produites avec des configurations
caractéristiques des mouvements des muscles faciaux. Ces configurations fournissent la base
perceptive de la discrimination entre les différents types d’expression émotionnelle (Ekman et
al., 1978a). Par exemple, lors de la joie, le sourire s’exprime par la remontée des lèvres et la
remontée des joues qui font se plisser le coin des yeux. Dans cette émotion, la zone de la bouche
ainsi que la zone des yeux semblent provoquer potentiellement plus d’exploration.
D’un point de vue global, la majorité des études réalisées chez des bébés âgés entre 3 et
12 mois révèle que la zone des yeux est la zone la plus regardée des visages émotionnels (joie,
peur, dégoût, colère, tristesse) et neutres (Hunnius, Wit, Vrins, & Hofsten, 2011; Peltola,
Leppänen, Vogel-Farley, et al., 2009; Soussignan et al., 2018). Ce résultat est similaire à ceux
des adultes (Beaudry, Roy-Charland, Perron, Cormier, & Tapp, 2014; Eisenbarth & Alpers,
2011; Hernandez et al., 2009; Schurgin et al., 2014; Vassallo, Cooper, & Douglas, 2009).
Cependant, une étude ne montre aucune différence de temps de regard entre les yeux et la
bouche de visages de joie et de peur chez des bébés de 6 mois (Amso et al., 2010). Une étude
montre aussi une différence de regard entre les hommes et les femmes âgés d’une vingtaine
d’années. Les hommes regarderaient plus la bouche et le nez que les femmes, mais ces dernières
identifieraient plus rapidement les émotions correctes (Vassallo et al., 2009).
D’un point de vue spécifique à chaque émotion, certaines études ont démontré des
patterns de regards différents en fonction de l’émotion exprimée. Par exemple, des chercheurs
ont présenté des visages émotionnels statiques féminins à des bébés de 4 et 7 mois ainsi qu’à
58
des adultes (Hunnius et al., 2011). Dans cette étude, les participants font moins de fixations sur
les éléments internes des expressions émotionnelles de peur ou de colère que pour les
expressions de joie, tristesse ou neutre. Les auteurs émettent l’hypothèse d’un évitement des
visages potentiellement menaçants de peur ou de colère.
Une récente recherche a étudié l’exploration de visages virtuels émotionnels

dynamiques chez des bébés âgés de 3 à 12 mois grâce à l’oculométrie (Figure 19). Cette étude
a montré que les plus jeunes (3 mois) focalisent leur attention sur les yeux et les éléments
externes des visages émotionnels alors que les plus âgés (7 et 12 mois) focalisent leur attention
en fonction de l’émotion proposée. La bouche capte l’attention des visages de joie, les yeux et
les sourcils des visages de peur et de colère, et la zone du nez des visages de joie et de dégoût
(Soussignan et al., 2018).
Figure 19. Zones d’intérêt des stimuli de l’étude de Soussignan et al. (2018).
Une autre étude des mêmes chercheurs a démontré qu’à l’âge de 7 mois les enfants
regardent plus longtemps les zones d’intérêt d’un visage neutre en fonction de la valence des
odeurs senties précédemment. Après l’habituation à une odeur plaisante (fraise), ils regardent
plus longtemps le visage neutre et en particulier plus les yeux, les sourcils, le nez et la bouche
alors qu’après l’habituation à une odeur déplaisante (fromage fort), ils préfèrent regarder le haut
du nez (Dollion, Godard, Durand, Schaal, & Baudouin, 2014). Cette étude révèle qu’en fonction
des états internes provoqués par l’odeur, les bébés cherchent des indices de réaction sur les
visages.
Chez les bébés, Amso et al. (2010) ont trouvé une corrélation positive entre le temps
passé à regarder la zone des yeux et la capacité à discriminer l’expression de joie après avoir
été habitués à une expression de peur à partir de 6 mois. Chez les adultes, la zone supérieure du
visage permettrait une meilleure reconnaissance de la colère, de la peur et de la tristesse, alors
59
que la zone inférieure permettrait une meilleure reconnaissance du dégoût et de la joie (Calder,
Young, Keane, & Dean, 2000; S. Sullivan, Ruffman, & Hutton, 2007). Beaudry et al. (2014),
suggèrent que, d’une part, les yeux sont importants pour reconnaître la tristesse et, d’autre part,
la bouche est importante pour reconnaître la joie. Cependant, le pattern général des résultats
pour les quatre autres émotions testées (peur, colère, dégoût et surprise) n’était pas constant
entre les différentes mesures. De plus, chez les jeunes adultes, l’attention visuelle aux zones
d’intérêt du visage (bouche et yeux) semble corrélée à une meilleure reconnaissance des
émotions (S. Sullivan et al., 2007).
De ce fait, chez les adultes, il semblerait que les traits internes du visage soient explorés
en fonction de l’émotion présentée, mais les résultats entre les différentes études ne sont pas
toujours concordants. Dans leur étude, Schurgin et al. (2014), présentent des visages
émotionnels à des adultes et retrouvent des temps de regard différents entre les régions du
visage en fonction de l’émotion. Ils identifient 5 zones du visage regardées plus de 3% du temps
qui représentent 88% de toutes les fixations : les yeux, le nez supérieur, le nez inférieur, le
corrugateur et la lèvre supérieure (Figure 20). Ces auteurs identifient des patterns de regards
différents sur les différentes zones d’intérêt (Areas Of Interest : AOIs) en fonction des
émotions. Les yeux seraient regardés plus longtemps pour un visage de colère, de peur, de
tristesse et de honte et moins regardés pour le dégoût et la joie. La bouche (lèvre supérieure) a
été plus regardée que la moyenne pour les émotions de joie et de dégoût et moins regardée pour
la colère et la tristesse. Le corrugateur a été moins regardé que la moyenne pour les visages de
peur.
Figure 20. Zones d’intérêt des stimuli de l’étude Schurgin et al. (2014).
60
Dans une autre étude chez les adultes, où les participants ont été exposés à des visages
de joie, peur, tristesse, colère ou neutre, on retrouve cette attention préférentielle pour la bouche
d’un visage de joie. De plus, les yeux sont plus regardés pour les expressions de colère et de
tristesse. Par contre on ne trouve pas de différence pour les visages de peur ou neutres
(Eisenbarth & Alpers, 2011). Par ailleurs, Hunnius et al. (2011) suggèrent que les adultes
regardent moins les yeux de peur ou de colère que les yeux des autres émotions de joie, tristesse
ou neutre, par contraste, avec les autres études qui suggèrent le contraire (Eisenbarth & Alpers,
2011; Schurgin et al., 2014; S. Sullivan et al., 2007). Une étude de Hernandez et al. (2009)
démontre un regard préférentiel pour la bouche du visage de joie, mais pas de différence au
niveau du visage de tristesse, neutre, neutre avec le regard détourné ou neutre avec un visage
virtuel.
En conclusion, il semble que des études complémentaires, aussi bien chez les enfants
que chez l’adulte, soient nécessaires pour mieux comprendre ces différents résultats.
Résumé 5. Développement de la discrimination faciale émotionnelle
Les nouveau-nés et les bébés, durant les premiers mois, ont une préférence pour les
visages souriants et deviennent sensibles aux changements d’expressions faciales. Avant
6 mois, les bébés semblent capables de discriminer la joie d’autres expressions, mais
uniquement dans des conditions expérimentales spécifiques. Par ailleurs, l’âge de
discrimination des émotions varie d’une étude à l’autre. Néanmoins, à partir de 6-7 mois,
les bébés semblent montrer une discrimination claire et catégorielle de plusieurs émotions
de base, comme la joie, la colère, la surprise, la tristesse et la peur. Dans l’ensemble, la
discrimination positive pour des contrastes spécifiques apparaît plus tôt dans les
paradigmes n’impliquant qu’une ou un nombre limité d’identités de visages, et plus tard
dans les paradigmes impliquant plusieurs identités. De plus, les études eye-tracking ont
permis de montrer que, dès le plus jeune âge, la zone des yeux semble principalement
regardée sur les visages émotionnels. Chez les bébés dès 7 mois ainsi que chez les adultes,
certaines zones du visage semblent préférentiellement regardées en fonction de l’émotion
exprimée. La majorité des résultats a montré que la bouche semble plus regardée dans les
visages de joie ou de dégoût et les yeux semblent plus regardés dans les visages de colère,
peur ou tristesse.
61
La discrimination précoce multimodale émotionnelle
Afin d’étudier les capacités de discrimination précoce, les études présentées jusqu’ici
avaient recours à des stimuli unimodaux (une seule modalité sensorielle mobilisée).
Néanmoins, d’autres études ont eu recours à des stimuli multimodaux présentés simultanément
(p. ex. audition et vision) (Lécuyer, 2014). Selon l’hypothèse de redondance intersensorielle
(Bahrick, Lickliter, & Flom, 2004), la stimulation multimodale facilite la perception des
propriétés amodales (c.-à-d. indépendamment de la modalité sensorielle). Avec le
développement, l’attention du bébé devient plus flexible, et les propriétés peuvent également
être détectées en stimulation unimodale. De plus, de récentes évidences en imagerie cérébrale
démontrent que la perception multisensorielle serait à l’origine de la catégorisation (Leleu et
al., 2019). Dans une revue, Walker-Andrews (1997) souligne que pour reconnaître les émotions,
les bébés ont besoin de plus d’une modalité sensorielle et qu’ils utilisent les informations de la
voix ou l’expression du visage seul au cours du développement. De plus, la présentation
multimodale permet une expression plus proche de la réalité, plus écologique. En effet, dans
l’environnement réel, les émotions sont exprimées de manière multi-sensorielle : par la voix, le
visage et le corps.
Dans les paradigmes d’appariement intermodal, les stimuli multimodaux peuvent être
congruents : c’est-à-dire que le stimulus présenté dans une modalité sensorielle est le même
que celui présenté dans l’autre modalité sensorielle, ou incongruents : c’est-à-dire que le
stimulus présenté dans une modalité sensorielle est différent de celui présenté dans l’autre
modalité sensorielle. Les stimuli auditifs et visuels peuvent également être synchronisés (c.-à-
d. les visages bougent au même rythme, intensité et temporalité que la voix) ou non-
synchronisés.
Les paradigmes d’appariement intermodal semblent fonctionner dès la naissance. Par

exemple, Guellaï, Coulon et Streri (2011a) ont mis à profit le paradigme d’appariement
intermodal afin d’étudier la reconnaissance des visages à la naissance. Ces auteurs ont montré
que les visages en mouvement, mais sans la voix, sont plus difficiles à discriminer que les
visages en mouvement accompagnés de la voix. Ils ont également montré que lorsque le modèle
est un visage familier qui produit des mouvements sans lien avec le discours vocal, ce visage
n’est pas préféré à un visage non familier. Il apparaît alors que, dès la naissance, les nouveau-
nés sont d’ores et déjà sensibles à la coordination des mouvements des lèvres avec le discours
62
et pas seulement à l’association entre les mouvements du visage et des paroles. De plus, Kuhl
et Meltzoff (1984) ont proposé une étude dans laquelle ils ont présenté à des bébés de 5 mois,
deux clips vidéo côte à côte d’un visage prononçant une syllabe /a/ d’un côté et une syllabe /i/
de l’autre. Les bébés ont une préférence pour le visage congruent avec le son entendu. D’autres
chercheurs ont répliqué cette étude chez des nouveau-nés (Aldridge, Braga, Walton, & Bower,
1999) avec un âge moyen de 33 heures, en présentant des visages féminins prononçant les
syllabes /i/ ou /u/. Les nouveau-nés semblent également plus regarder le stimulus congruent
que l’incongruent.
Concernant l’appariement intermodal émotionnel, des recherches plus écologiques

basées sur des paradigmes impliquant l’interaction avec un adulte ont été proposées chez les
bébés les plus jeunes. Ces paradigmes sont ainsi multimodaux dynamiques et synchronisés,
comme le paradigme du « still face » ou le paradigme du « peekaboo ». Par exemple, dans le
paradigme du « still face » où, lors d’une interaction avec l’enfant, l’adulte bloque l’expression
de son visage, les bébés dès 2 mois expriment moins de regards et de sourires (Rochat et al.,
2002; Tronick, Als, Adamson, Wise, & Brazelton, 1978). De plus, les bébés de 5 mois
réagissent différemment en fonction de l’émotion exprimée par l’adulte et de la familiarité de
l’adulte. Si l’adulte bloque son visage avec une expression de joie, on observe plus de sourires
que s’il le bloque avec une expression triste ou neutre. Si l’adulte module seulement sa voix,
aucune différence de production n’est observée (D’Entremont & Muir, 1997). Dans le
paradigme du « peekaboo », l’adulte cache son visage et le remontre à l’enfant après un court
délai. Dès 4 mois, les bébés montrent un pattern de regard et une expression différente pour la
joie, la colère, la peur ou la tristesse exprimée par l’adulte (Montague & Walker-Andrews,
2001). Haviland & Lelwica (1987) ont montré aussi que des bébés de 2 mois et demi produisent
des expressions faciales et vocales congruentes après l’interaction avec leur mère. Grâce à
l’outil de codage des expressions MAX (voir page 29), ils ont identifié la production du sourire
après la joie, de moues après la tristesse et des expressions de colère et moins de mouvements
après l’exposition à la colère.
Dans des paradigmes plus classiques de laboratoire où les bébés écoutent des voix
enregistrées et où des visages sont présentés sur un écran, on retrouve une discrimination plus
précoce pour les stimuli multimodaux que pour les stimuli unimodaux, lorsque les stimuli
multimodaux sont synchronisés. Une étude de Flom, Bahrick et Pick (2018), montre que des
63
bébés âgés de 3 et 5 mois discriminent des expressions dynamiques multimodales

synchronisées positives et négatives produites par un autre bébé (Figure 21).
Figure 21. Exemple des stimuli présentés de l’étude de Flom et al. (2018).
De plus, A. J. Caron et al. (1988) ont montré que les bébés âgés de 4 mois sont capables
de discriminer la joie de la tristesse uniquement lorsqu’ils sont habitués à des expressions
féminines multimodales audio-visuelles dynamiques synchronisées de tristesse. En revanche, à
partir de 5 mois, ils sont capables de discriminer la tristesse par rapport à la joie quand les
vidéos sont présentées sans la voix, donc quand les stimuli sont unimodaux visuels. Selon cette
étude, la discrimination de l’expression de joie par rapport à la colère n’est possible qu’à partir
de 7 mois et uniquement avec des stimuli multimodaux.
Flom et Bahrick (2007) ont examiné eux aussi la perception des expressions
émotionnelles dynamiques féminines de joie, de tristesse et de colère chez des bébés âgés de 3
à 7 mois. Cette étude montre que, dès 4 mois, les bébés sont capables de discriminer la joie, la
colère et la tristesse présentées grâce à des stimuli multimodaux synchronisés. À partir de 5
mois, les bébés discriminent des stimuli auditifs unimodaux de joie, de colère et de tristesse
alors qu’il faut attendre jusqu’à l’âge de 7 mois pour que les bébés discriminent des stimuli
unimodaux visuels de joie, de colère et de tristesse. De plus, à 5 mois, une autre étude montre
qu’ils sont capables de faire la différence entre des expressions vocales de joie et de tristesse
ainsi que de joie et de colère, mais seulement si ces émotions sont présentées avec les visages
congruents et non avec un visage incongruent ou un damier (Walker-Andrews & Lennon,
1991).
Lorsque les stimuli multimodaux sont non-synchronisés, l’appariement est

probablement fondé sur la détection d’une valence affective plus générale, commune au visage
et à la voix. Par exemple, des bébés de 5 mois et 3 mois et demi sont exposés à des visages
dynamiques et des voix émotionnelles positifs ou négatifs exprimés par des bébés (Figure 22).
64
Dans cette étude, les bébés de 5 mois regardent plus le visage congruent avec la voix, mais
aucune différence n’est observée à 3 mois (Vaillant-Molina, Bahrick, & Flom, 2013).
Figure 22. Exemple des stimuli présentés dans l’étude de Vaillant-Molina et al. (2013).
L’appariement intermodal (audiovisuel) a également été trouvé chez les bébés de 3-4
mois avec les expressions maternelles. Une préférence pour l’expression congruente à la voix
(joie et tristesse) et l’incongruente (joie et colère) a été mise en évidence (Montague & Walker-
Andrews, 2002). Une autre étude chez des bébés de 3 mois et demi a présenté des vidéos de
visage familier (mère) ou non familier (femme inconnue) heureux ou tristes et ainsi qu’une
expression vocale congruente à l’un des visages. Cette étude a indiqué que lorsque les
expressions émotionnelles étaient exprimées par la mère, les bébés regardaient plus longtemps
les expressions faciales congruentes à la voix présentée et ce, même si la voix et le visage
n’étaient pas synchronisés temporellement. Ceci indique qu’un facteur autre que la
synchronisation temporelle guidait leurs préférences visuelles pour le visage congruent à la voix
de la mère, mais pas de la personne non familière (Kahana-Kalman & Walker-Andrews, 2001).
De plus, Walker (1982) a montré que des bébés de 5 et 7 mois ont une préférence pour
les expressions faciales accompagnées de la voix concordante comparée aux expressions
faciales sans le son. Cependant, si on présente l’image à l’envers, cet effet n’est pas retrouvé.
Walker a également présenté, à des bébés du même âge, deux visages émotionnels dynamiques
de joie et de colère accompagnés d’une voix féminine congruente ou incongruente. Le bas du
visage est obscurci pour que l’enfant ne soit pas influencé par la synchronie des lèvres qui
bougent. Cette recherche montre que les enfants de 7 mois préféreraient regarder le visage
congruent avec la voix présentée. De plus, elle n’a pas mis en évidence de préférence spontanée
65
pour l’un ou l’autre des visages, indépendamment des voix. Il semble donc qu’il y ait chez les
bébés une capacité d’appariement intermodal au niveau des émotions de joie ou colère (Walker-
Andrews, 1986). Des preuves d’appariement audiovisuel ont également été rapportées à 7 mois
avec une préférence pour l’expression faciale (joie, intérêt, colère, tristesse) congruente à la
voix (Soken & Pick, 1992, 1999). Cependant si les émotions expriment la joie ou l’intérêt
comparé à la tristesse, les bébés ne regardent pas en fonction de la congruence, mais regardent
toujours plus les émotions positives de joie et d’intérêt (Soken & Pick, 1999).
Récemment, des chercheurs ont également étudié l’appariement intermodal émotionnel

entre la voix et le corps, de manière statique (Zieber, Kangas, Hock, & Bhatt, 2014b) ou
dynamique (Zieber, Kangas, Hock, & Bhatt, 2014a) (Figure 23). À 6 mois et demi, si le corps
est présenté à l’endroit, les bébés regardent plus le corps congruent (joie, colère ou neutre). Ce
résultat n’est pas retrouvé chez les bébés plus jeunes (3 mois et demi) et si le corps est présenté
à l’envers.
Figure 23. Exemple des stimuli visuels présentés dans l’étude de Zieber et al. (2014b).
De plus, un appariement visuo-olfactif émotionnel, entre une odeur agréable ou

désagréable et le visage exprimant la joie ou le dégoût, avec une préférence pour le visage
congruent a également été montré à 3 mois. En effet, les bébés de 3 mois ont plus regardé le
visage de joie si l’odeur présentée simultanément était agréable et plus le visage de dégoût si
l’odeur présentée simultanément était désagréable. Cependant, cet effet n’a pas été retrouvé à
5 et 7 mois (Godard et al., 2016).
66
Concernant l’appariement intermodal émotionnel chez les adultes, les études de suivi
oculaire ont révélé que la prosodie et/ou la sémantique déclenchent un temps de regard plus
long sur le visage émotionnel congruent lorsque les visages et les voix sont présentés
simultanément (Paulmann, Titone, & Pell, 2012; Rigoulot & Pell, 2012). Chez l’adulte, les
réponses cérébrales aux informations émotionnelles congruentes ou incongruentes ont été
étudiées. Spécifiquement, le signal IRMf dans le pSTS droit (Right Posterior Superior
Temporal Sulcus) était réduit en réponse à un stimulus dans lequel l’émotion faciale était
similaire à l’émotion vocale du stimulus précédent. Ces résultats suggèrent que l’intégration
des informations émotionnelles du visage et de la voix dans le pSTS implique une proportion
détectable de neurones bimodaux qui combinent les entrées des cortex visuels et auditifs
(Watson et al., 2014). De plus, les stimuli audiovisuels (colère, neutre et joie) congruents et non
congruents ont provoqué des réponses plus importantes dans le thalamus et les régions
temporales supérieures par rapport aux conditions unimodales. Les émotions congruentes
étaient caractérisées par l’activation de l’amygdale, de l’insula, du cingulum postérieur ventral
(vPCC), du cortex temporo-occipital et auditif. Les émotions incongruentes ont activé un réseau
frontopariétal et le noyau bilatéral caudé, indiquant une plus grande charge de traitement dans
les zones de mémoire de travail et de codage des émotions (Klasen, Kenworthy, Mathiak,
Kircher, & Mathiak, 2011).
Résumé 6. Développement de la discrimination multimodale émotionnelle
En accord avec l’hypothèse de redondance intersensorielle, la discrimination des émotions

chez les bébés est facilitée et donc plus précoce lors de la présentation des stimuli
multimodaux synchronisés par rapport à des stimuli unimodaux. Dès 3 mois, les stimuli
multimodaux plus familiers pour l’enfant (visage et voix de bébés ou parent) peuvent être
discriminés. Certains stimuli multimodaux émotionnels synchronisés semblent
discriminés dès 4 mois alors que les stimuli émotionnels non-synchronisés semblent
discriminés entre 5 et 7 mois. Même si la plupart des études mettent en avant une
préférence pour les stimuli congruents, certaines révèlent aussi une préférence pour les
stimuli incongruents.
67
Le développement précoce de la compréhension

émotionnelle
La compréhension des émotions se rapporte à la capacité de comprendre la nature, les
causes et les conséquences de l’expérience émotionnelle chez soi et autrui. Sa fonction
principale est d’identifier, expliquer, prédire et changer les émotions (Pons & Harris, 2018).
Ainsi, une compréhension émotionnelle aboutie implique une maîtrise du lexique émotionnel.
Chez les jeunes enfants, la compréhension des émotions est évaluée par des tâches
d’identification des émotions comme la labellisation libre ou l’appariement d’expressions
émotionnelles. Ces tâches nécessitent toutes la compréhension et/ou l’expression du langage.
Des tests psychométriques ont été développés afin d’évaluer la compréhension des émotions
chez les enfants par exemple le « Test of Emotion Comprehension » (TEC) construit par Pons
et Harris (2000). Dans ce test, 3 niveaux de compréhension sont évalués de 2 à 12 ans, la
compréhension de la nature, des causes et des conséquences à travers différentes tâches où une
histoire est présentée à l’enfant avec 4 choix possibles. Selon ce test, un premier niveau de
compréhension des émotions est possible à partir de 2 ans. En effet, les enfants commencent à
comprendre la nature des émotions en nommant et identifiant les émotions primaires, ils
commencent à reconnaître des situations qui causent des émotions (p. ex. perdre un objet
précieux peut provoquer la tristesse). Ce ne serait qu’à partir de 4 ans que les enfants
commencent à comprendre l’influence des désirs sur les émotions, que deux personnes peuvent
avoir des désirs différents et qu’un même événement peut provoquer des émotions différentes
(p. ex. si deux personnes se retrouvent face à un chien, une personne peut ressentir de la joie et
désirera le caresser et une autre de la peur et désirera fuir).
La nature des émotions peut être comprise plus précocement encore, mais l’emploi de
tâche non langagière est nécessaire. Chez les bébés, une compréhension précoce des
expressions a été évaluée au moyen de techniques de discrimination et de catégorisation. Les
résultats des études présentant des stimuli unimodaux ou multimodaux confirment seulement
que les bébés ont une sensibilité perceptive qui peut influencer leur performance aux tâches de
discrimination émotionnelle. Elles ne prouvent en revanche pas que les bébés soient capables
de former des représentations émotionnelles.
68
Plusieurs tâches sont utilisées pour mettre en évidence un niveau de compréhension des
émotions plus significatif. Pour commencer, nous décrirons les tâches qui révèlent la capacité
des bébés à utiliser l’information communiquée par les expressions pour réguler leurs
comportements : les tâches de référenciation sociale. Ensuite, nous aborderons la capacité des
bébés à identifier verbalement des expressions émotionnelles.
La référenciation sociale
Au cours de la première année, les bébés développent une meilleure intégration des
signaux contextuels permettant une perception des expressions des émotions plus élaborée. Ils
vont ainsi évaluer et se référer au contexte social afin d’effectuer des actions.
Par exemple, les bébés de 8-10 mois attendent d’un personnage réussissant une action
qu’il affiche une expression positive (sourire) plutôt que négative (tristesse) (Skerry & Spelke,
2014). Les bébés, dès la première année de vie, peuvent associer différentes réactions
émotionnelles aux conditions qui les provoquent.
De ce fait, les bébés vont développer la capacité à se servir de l’information fournie par
un adulte dans son expression émotionnelle (approbation ou non) pour modeler son action dans
un contexte ambigu (Campos, 1983; Feinman, 1982; Feinman, Roberts, Hsieh, Sawyer, &
Swanson, 1992; Walle, Reschke, & Knothe, 2017). C’est ce qu’on appelle généralement la
référenciation sociale. Cette capacité permet d’affirmer que l’enfant comprend le sens de
l’expression émotionnelle produite.
Cette compétence a classiquement été étudiée grâce au paradigme de la « falaise

visuelle ». Ce paradigme s’appuie sur la peur du vide qui apparaît dès que l’enfant commence
à se déplacer. Les bébés sont mis devant l’illusion qu’il y a un vide sous eux et les chercheurs
observent le nombre d’enfants qui traversent «la falaise visuelle» en fonction du visage
émotionnel exprimé par la maman. À 12 mois, si la maman exprime un visage de peur, aucun
enfant ne traverse, si elle exprime un visage de colère c’est seulement 11% qui traversent et si
elle exprime un visage de tristesse 33%, alors que si la maman exprime un visage de joie ou
d’intérêt plus de 70% des enfants traversent (Sorce, Emde, Campos, & Klinnert, 1985).
69
Les bébés de 10 mois vont également se référer à l’expression de leurs parents pour
interagir avec les personnes qu’ils ne connaissent pas. Si la maman s’adresse directement à
l’enfant par des expressions positives, le bébé va être plus avenant avec la personne qu’il ne
connaît pas (Feinman & Lewis, 1983).
De plus, on peut observer les comportements des bébés face à un nouvel objet en
fonction de l’émotion exprimée par un adulte; c’est ce qu’on appelle le paradigme du nouveau
jouet. Par exemple, Klinnert (1984) a montré 3 objets inhabituels à des bébés de 12 et 18 mois,
lorsque les bébés se référaient visuellement à leur mère, cette dernière exprimait des
expressions de joie, peur ou neutre. Aux deux âges, les bébés se rapprochaient plus de leur mère
lorsqu’elle exprimait de la peur, s’éloignaient lorsqu’elle exprimait de la joie, et maintenaient
une distance intermédiaire lorsqu’elle semblait neutre. Dès l’âge de 12 mois, les bébés
recherchent de l’information sur l’expression faciale et l’utilisent pour réguler leur propre
comportement. Une autre étude utilisant le paradigme du nouveau jouet chez des bébés de 12
mois a montré que l’enfant se référait non seulement à l’information émotionnelle fournie par
ses parents, mais aussi par celle fournie par l’expérimentateur, un adulte non-familier pour
interagir avec un jouet. L’enfant interagissait de manière congruente avec l’objet en fonction
de la valence émotionnelle exprimée par l’adulte (Klinnert, Emde, Butterfield, & Campos,
1986).
Par ailleurs, Repacholi (2009) a étudié la compréhension du lien entre les actions et les
émotions chez des bébés de 15 et 18 mois. Les bébés ont regardé une vidéo dans laquelle des
adultes ont exécuté une action sur un objet et exprimé des émotions positives, négatives ou
neutres. Les bébés touchaient l’objet, mais ne reproduisaient pas l’action si l’émotion exprimée
était négative. Ces résultats suggèrent que les bébés ont compris que l’affect négatif des
modèles était une réaction à l’action, plutôt qu’à l’objet lui-même.
Des enfants de 14 et 18 mois ont été exposés à une expérimentatrice exprimant du

dégoût ou de la joie quand elle goûtait un aliment et les bébés devaient, ensuite, choisir quel
aliment lui donner. Les bébés de 14 mois ont réagi de façon égocentrique, offrant la nourriture
qu’ils préféraient. Cependant, dès 18 mois, ils ont déduit à juste titre que l’expérimentatrice
voulait la nourriture associée à l’émotion positive exprimée antérieurement, même lorsque les
désirs de l’expérimentateur différaient des leurs (Repacholi & Gopnik, 1997).
70
L’identification verbale des émotions
Pour comprendre le développement de la reconnaissance des expressions faciales

pendant l’enfance, les chercheurs ont conçu différentes tâches (p. ex. labellisation libre,
appariement, choix forcé entre plusieurs étiquettes émotionnelles, catégorisation). Dès l’âge de
2 ans, l’enfant est capable d’une première catégorisation verbale de certaines émotions
primaires (joie, colère, ou tristesse). Les enfants commenceraient par catégoriser les émotions
selon deux catégories basées sur la valence positive (agréable/plaisant) et négative
(désagréable/déplaisant) et ne parviendraient que plus tardivement à une catégorisation des
émotions spécifiques comme chez l’adulte (Widen & Russell, 2008, 2015). La capacité à
identifier des émotions semble dépendre des méthodes de présentation utilisées (histoires,
films, visages) et des modalités de réponses (N. L. Nelson & Russell, 2011; Vicari, Reilly,
Pasqualetti, Vizzotto, & Caltagirone, 2000).
Toutefois, un pattern général de développement se dégage (Boyatzis, Chazan, & Ting,

1993; Camras & Allison, 1985; Durand, Gallay, Seigneuric, Robichon, & Baudouin, 2007;
Gagnon, Gosselin, & Maassarani, 2014; Gosselin, 1995; Rodger, Vizioli, Ouyang, & Caldara,
2015; Widen, 2013; Widen & Russell, 2013). L’identification de l’émotion de joie est déjà bien
acquise (>90% de label correct) à 3 ans. La colère et la tristesse sont correctement labellisées à
plus de 80% à 4 ans. La peur est labellisée correctement à plus de 70% dès 5 ans, mais le nombre
de labels corrects augmente jusqu’à 9 ans (>90%). Les labels de surprise et de dégoût ne sont
pas encore bien maîtrisés à 9 ans avec un pourcentage de labellisation correct de plus de 60%
pour la surprise et seulement 50% pour le dégoût (Figure 24). Par ailleurs, l’analyse des
réponses incorrectes montre que les erreurs de labellisation des enfants sont systématiques et
non aléatoires. Les enfants sont plus susceptibles de mal étiqueter un visage avec un label
appartenant à une catégorie d’émotions de la même valence et d’un niveau d’excitation
similaire (p. ex. en qualifiant le dégoût de colère ou la surprise de peur) que d’une autre
catégorie. De plus, les jeunes adultes (18-32 ans) semblent mieux reconnaître les émotions que
les adultes plus âgés (60-87 ans), ce qui suggère une diminution de la reconnaissance des
émotions avec l’âge (S. Sullivan et al., 2007). Néanmoins, ce consensus est discutable en raison
de la diversité des modèles expérimentaux et de l’exigence de compétence linguistique.
71
Figure 24. Représentation des résultats d’une méta-analyse de 11 études, pourcentage de label correct en fonction
de l’âge et de l’émotion issue de Widen (2013).
Néanmoins, la majorité des recherches effectuées sur le développement des capacités

d’identification des expressions faciales émotionnelles ont été réalisées en présentant des
visages émotionnels de manière isolée. Or, dans la vie de tous les jours, on rencontre rarement
des visages de façon isolée. Par exemple, Bänziger, Grandjean et Scherer (2009) démontrent
que même chez les adultes, les émotions présentées de façon multimodale (audiovisuelle) sont
mieux reconnues que les émotions présentées de façon unimodale. En outre, les expressions
dynamiques semblent mieux reconnues que les expressions faciales statiques. De plus, les
expressions faciales sont généralement expérimentées dans un contexte qui influe sur
l’interprétation de ces expressions. De récentes recherches se sont donc intéressées au rôle de
l’information contextuelle sur la capacité à identifier les expressions faciales émotionnelles.
Ces études rapportent que les performances de reconnaissance des expressions faciales
émotionnelles sont meilleures quand ces dernières sont présentées avec un contexte congruent
tel que des postures, des voix ou encore des scènes émotionnelles (pour une revue, cf. Wieser
et Brosch, 2012). À l’inverse, un contexte incongruent a le pouvoir potentiel de changer la
classification de l’expression faciale d’une catégorie à une autre (p. ex. : classer une expression
de dégoût en colère) (pour une revue, cf. De Gelder et Van den Stock, 2011).
Chez l’enfant, des études ont montré des effets de contexte équivalents à ceux observés
chez l’adulte (Theurel et al., 2016). Dans ces études, les enfants étaient plus performants pour
reconnaître des expressions faciales émotionnelles lorsqu’elles étaient présentées avec un
contexte congruent (posture ou scènes émotionnelles). Par exemple, dans une tâche de
72
labellisation chez les enfants âgés de 7 à 12 ans, si les visages et les voix émotionnels présentés
sont congruents, ils sont exécutés avec une précision de 100 % pour l’expression émotionnelle
de joie, de colère ou de tristesse alors que les enfants maltraités, qualifient davantage les stimuli
incongruents comme étant de la colère (Shackman & Pollak, 2005). On peut encore citer l’étude
de Theurel et al. (2016), dans laquelle les chercheurs présentent à des enfants âgés entre 5 et 15
ans différentes images représentant un enfant exprimant des expressions émotionnelles de joie,
de colère, de dégoût, de tristesse ou de peur dans un contexte congruent à l’émotion qu’il
exprime. Le participant doit choisir lequel des trois visages présentés exprime la même
expression émotionnelle (Figure 25). Les résultats de cette étude montrent que, dès l’âge de 5
ans, les performances sont très élevées (72.87%) et augmentent avec l’âge (87.47% à 15 ans).
Cette étude révèle surtout l’importance du contexte pour reconnaître les expressions
émotionnelles.
Figure 25. Stimuli présentés dans l’étude de Theurel et al. (2016), disponibles à l’adresse :
https://www.unige.ch/fapse/sensori-moteur/files/9914/7868/7389/livre_emotions_DEF-web.pdf.
Parallèlement au développement des capacités d’identification des expressions faciales

émotionnelles, l’enfant développe une compréhension croissante des situations. Il devient
capable d’induire des émotions ainsi que des termes émotionnels, des indices situationnels,
physiologiques et mentaux qui permettent à quelqu’un d’identifier une émotion (pour une
revue, cf. Pons, Harris, et Rosnay, 2004). Entre 2 et 4 ans, l’enfant commence à comprendre
l’incidence de causes externes et de certains souvenirs d’événements externes sur les émotions.
À partir de 5 ans, l’enfant commence à comprendre l’influence des désirs sur les émotions. Vers
6-7 ans il comprend en plus le rôle des croyances et des perceptions sur les émotions. Il
commence aussi, à cet âge, à faire la distinction entre l’apparence et la réalité d’une émotion,
notamment qu’il est possible de masquer une émotion.
73
Cette différenciation progressive des émotions va s’opérer par la compréhension

croissante des éléments composant ce que Widen et Russell (2010) définissent comme un
« script émotionnel ». Ce dernier inclut l’événement déclencheur, le sentiment conscient, les
expressions faciales ou vocales, les indices situationnels, physiologiques ou mentaux des causes
et conséquences des émotions, le tout dans un ordre temporel et causal particulier. Toutes ces
informations seraient utilisées par les enfants pour attribuer une émotion à une expression
faciale dans un contexte particulier (pour une revue, cf. Widen, 2013).
La compréhension des émotions s’améliore avec l’âge tout au long de l’enfance et de la

(pré)adolescence, malgré des capacités émotionnelles très précoces de discrimination. Les
bébés pourraient-ils avoir des compétences de compréhension des émotions plus précoces,
comme la compréhension de la nature des émotions ? Le but de cette thèse est de déterminer à
partir de quel âge les bébés pourraient être capables de comprendre la nature des émotions.
Nous allons tenter de déterminer si les bébés peuvent percevoir l’émotion de manière amodale
ou s’ils discriminent simplement des caractéristiques physiques perceptivement différentes.
Résumé 7. Développement précoce de la compréhension émotionnelle
Dès 10 mois, les bébés semblent capables de se référer à l’expression émotionnelle de

l’adulte pour moduler leurs comportements dans un contexte ambigu. Les capacités
d’identification des émotions primaires chez l’enfant vont évoluer progressivement d’une
conception des émotions en très larges catégories mentales en termes de valence
plaisante/déplaisante à une conception plus fine au niveau des émotions spécifiques
similaires à celle de l’adulte. L’identification verbale de l’émotion de joie est déjà bien
acquise à 3 ans et celles de tristesse, de colère et de peur évoluent plus lentement pour être
bien reconnues verbalement vers 5-6 ans alors que l’identification de la surprise et du
dégoût se ferait plus tard, entre 6 et 10 ans. Peu à peu, les catégories d’émotions
ressemblent à celles des adultes.
74
Objectifs principaux
Le but de cette thèse est d’approfondir les connaissances sur la nature et le
développement précoce de la perception des émotions. En particulier, nous nous demandons
comment se déroule le développement de la capacité à discriminer les expressions
émotionnelles ? Les bébés sont-ils capables de percevoir l’émotion de manière amodale ou
parviennent-ils seulement à discriminer les propriétés physiques (acoustiques, picturales) des
stimuli utilisés (visages ou voix) ?
Les limites des paradigmes multimodaux

Les résultats des études présentant des stimuli unimodaux ou multimodaux confirment
seulement que les bébés ont une sensibilité perceptive qui peut influencer leur performance aux
tâches de discrimination émotionnelle. Elles ne prouvent pas que les bébés sont capables de
former des représentations émotionnelles. Comment peut-on être sûr que l’enfant reconnaît
réellement l’émotion présentée de manière intrinsèque et ne discrimine pas simplement des
caractéristiques physiques perceptivement différentes, extraites de la configuration du visage
ou des caractéristiques de la voix ? En effet, la discrimination pourrait être basée simplement à
partir d’indices de la prosodie (Cheng et al., 2012 ; Mastropieri & Turkewitz, 1999) ou
d’indices visuels comme la saillance des dents pour comparer deux visages émotionnels (R. F.
Caron et al., 1985).
Selon l’hypothèse de redondance intersensorielle (Bahrick et al., 2004), la stimulation

multimodale facilite la perception des propriétés amodales. Avec le développement, l’attention
du bébé devient plus flexible, et les propriétés peuvent également être détectées en stimulation
unimodale. Dans une revue, Walker-Andrews (1997) souligne que pour reconnaître les
émotions, les bébés ont besoin de plus d’une modalité sensorielle et qu’ils peuvent utiliser la
voix ou l’expression du visage tout au long du développement. En effet, la discrimination
émotionnelle multimodale semble possible à 4 mois alors qu’une discrimination unimodale
vocale ou visuelle semble possible à partir de 5 mois environ (A. J. Caron et al., 1988; Flom &
Bahrick, 2007). Cela s’explique par le fait que la présentation multimodale est plus proche de
la réalité et ainsi facilite la discrimination.
75
Bien que les paradigmes multimodaux soient plus écologiques et permettent une
discrimination plus précoce, les paradigmes expérimentaux qui utilisent des stimuli
multimodaux simultanés et/ou concordants ne permettent pas de conclure quant à la
reconnaissance intrinsèque de l’émotion. En effet, ces paradigmes pourraient seulement refléter
la discrimination des différentes expressions d’émotion à partir d’indices physiques. De plus,
comme les stimuli sont présentés dans les deux modalités simultanément, on ne peut pas
identifier quel indice influence la discrimination. On peut seulement déterminer la capacité à
discriminer les propriétés physiques et on ne peut pas affirmer qu’ils comprennent le sens de
l’émotion per se. Une méthode pertinente permettant de pallier à cette incertitude est d’étudier
la perception des émotions grâce à un paradigme de transfert intermodal.
Les apports des paradigmes de transfert intermodal

Le transfert intermodal est un type de paradigme qui consiste à présenter successivement
deux stimuli unimodaux distincts et à explorer le transfert intermodal, qui peut être défini
comme la capacité de transférer une information prélevée dans une modalité pour être utilisée
ensuite via une autre modalité (Hatwell, 2004). Cette méthode, appliquée aux bébés, consiste à
« Familiariser le bébé avec un objet dans une première modalité puis, à lui présenter dans une
autre modalité l’objet supposé « familier » et un nouvel objet qui diffère du premier par une
propriété. La logique de ce paradigme est qu’un transfert des informations est observé si les
durées d’exploration obtenues diffèrent entre l’objet familier et l’objet nouveau. » (A. Streri,
1991, p. 89).
Le transfert intermodal exige au moins quatre processus :
1. traiter l’information de l’objet familier dans une première modalité par exemple
auditive,
2. mémoriser cette information,
3. le traitement des informations de la deuxième modalité par exemple visuelle,
4. la comparaison entre ces trois informations : l’objet familier dans la première
modalité, l’objet familier et le nouvel objet dans la deuxième modalité.
Selon la théorie de l’affordance de Eleanor Jack Gibson (1969), si l’enfant peut coder
une information dans une modalité sensorielle (p. ex. visuelle) et percevoir cette information
dans une autre modalité (p. ex. tactile) on peut considérer que l’enfant peut coder l’information
de manière amodale. Si une information est perçue de manière amodale, on peut considérer que
la nature de cette information est comprise.
76
3. BUTS ET HYPOTHÈSES GÉNÉRALES
En ce qui concerne l’étude des émotions, les bébés sont-ils capables de percevoir
l’émotion de manière amodale ou parviennent-ils seulement à discriminer les indices
physiques ? L’étude de l’existence ou non d’un transfert permet de répondre à cette question.
Ainsi, l’existence d’un tel transfert serait favorable à l’hypothèse d’une reconnaissance
intrinsèque véritable des émotions et pas d’une simple discrimination des propriétés physiques,
picturales ou acoustiques.
Le développement précoce des capacités de transfert

intermodal
Concernant le transfert des propriétés entre les sens, bon nombre d’études montrent sa
présence dès la naissance (pour une revue, cf. Streri et Gentaz, 2011). Déjà en 1979, Meltzoff
et Borton, ont mis en évidence la capacité de transfert intermodal chez des bébés âgés de 1
mois. Ils démontrent qu’ils sont déjà capables de reconnaître visuellement la texture d’un objet
exploré par la zone buccale. En effet, ils mettent dans la bouche des bébés une tétine lisse ou
avec des reliefs, les bébés préfèrent ensuite regarder la tétine familière, c’est-à-dire celle qu’ils
ont déjà explorée tactilement. Ils sont donc capables de transférer l’information entre deux sens.
Ensuite, cette compétence a même été trouvée plus précocement. En effet, Streri et
Gentaz (2003) ont étudié le transfert entre le toucher et la vision dès la naissance et montrent
que les nouveau-nés sont capables de reconnaître visuellement un prisme ou un cylindre
préalablement exploré avec leur main droite, et préfèrent le nouvel objet présenté. Ils mettent
en évidence le fait que dès la naissance, les sens ne fonctionnent pas indépendamment les uns
des autres.
Le transfert intermodal chez les bébés a été largement étudié dans différents domaines,
comme la connaissance du nombre grâce à des tâches audio-visuelles (Féron, Gentaz, & Streri,
2006; V. Izard, Sann, Spelke, & Streri, 2009; Kobayashi, Hiraki, Mugitani, & Hasegawa, 2004;
Mix, Levine, & Huttenlocher, 1997; Moore, Benenson, Steven, Peterson, & Kagan, 1987;
Starkey, Spelke, & Gelman, 1983, 1990) ou des tâches visu-haptiques (Coubart, Streri, de
Hevia, & Izard, 2015; Féron, Gentaz, & Streri, 2006), et la perception de l’unité de l’objet grâce
à des tâches haptico-visuelles chez des bébés de 4-5 mois (A. Streri, Gentaz, Spelke, & de
Walle, 2004; A. Streri, Spelke, & Rameix, 1993; A. Streri & Spelke, 1988, 1989). Ces
recherches mettent en évidence que les enfants peuvent coder les informations dans une
modalité sensorielle (auditives ou tactiles) et ensuite percevoir le nombre ou l’unité d’un petit
77
objet dans une modalité visuelle malgré différentes tailles, volumes, textures, formes, etc…
(pour une revue, cf. Bremner, Lewkowicz et Spence, 2012).
Le développement précoce des capacités de transfert

intermodal émotionnel
En ce qui concerne le transfert des propriétés émotionnelles, il peut principalement être

étudié grâce au transfert audio-visuel. Trois compétences préalables sont nécessaires mais non
suffisantes afin de retrouver un transfert intermodal émotionnel: (a) la capacité auditive à
discriminer les émotions, (b) la capacité visuelle à discriminer les émotions et (c) un transfert
intermodal des informations générales de la modalité auditive à la modalité visuelle. Au vu des
résultats présentés précédemment, ces trois compétences pré-requises semblent déjà présentes
dans les premiers mois après la naissance. À notre connaissance, seules deux études ont exploré
le transfert émotionnel visuo-auditif grâce à l’EEG et aucune étude n’a étudié le transfert
intermodal émotionnel visuo-auditif de manière comportementale ou le transfert auditivo-
visuel.
Dans la première étude, Grossmann, Striano et Friederici (2006) ont présenté des visages
émotionnels (joie ou colère) et ensuite une prosodie émotionnelle congruente ou non avec le
visage à des bébés de 7 mois. L’amplitude positive des potentiels évoqués (Evente-Related
Potential : ERP) était plus importante pour des prosodies congruentes aux visages émotionnels
et l’amplitude négative était plus importante pour des prosodies incongruentes. La deuxième
étude a été réalisée avec des bébés de 9 mois qui ont été exposés à des visages émotionnels
exprimant de la peur ou de la joie puis à des vocalisations émotionnelles congruentes ou non
avec le visage. Le traitement de l’information vocale émotionnelle semble modulé par
l’expression émotionnelle du visage correspondant; en effet les bébés ont répondu par des ERP
auditifs plus importants après avoir été exposés à des visages de peur qu’à des visages de joie
(P150 et P350) (Otte, Donkers, Braeken, & Van den Bergh, 2015).
Résumé 8. Le transfert intermodal
La perception multisensorielle de certaines propriétés semble déjà observable dès la

naissance alors que la perception multisensorielle de propriétés plus complexes comme
l’émotion semble peu étudiée, mais observable dans les mois qui suivent la naissance.
Avec le développement, les bébés peuvent percevoir des relations intersensorielles de plus
en plus complexes. Très peu de recherches ont étudié le développement du transfert
émotionnel et, à notre connaissance, aucune ne l’a étudié au niveau comportemental.
78
3. BUTS ET HYPOTHÈSES GÉNÉRALES
Hypothèses générales
La capacité de transfert intermodal audio-visuel d’une expression émotionnelle serait
favorable à l’existence d’une reconnaissance intrinsèque véritable des émotions et pas d’une
simple discrimination des propriétés physiques. Pour vérifier cette hypothèse, nous avons
présenté des séquences de transfert intermodal émotionnel audio-visuel aux participants. Ainsi,
nous avons étudié si les regards sur les expressions faciales sont influencés par les voix
préalablement entendues. Pour cela, nous avons présenté des stimuli émotionnels de nature
différente : photographies de visages réels féminins et masculins, visages virtuels 3D féminins,
vocalisations non-verbales féminines et masculines, pseudo-mots (c.-à-d. : séquence de
phonèmes pseudo-linguistiques) féminins ainsi que des émotions différentes (joie, colère, peur,
dégoût).
La technologie d’eye-tracking utilisée à partir de 6 mois, nous a permis d’analyser

précisément les temps de regard dans chaque zone d’intérêt (AOI : Area Of Interest). De ce fait
nous avons examiné si des zones du visage (yeux ou bouche) étaient regardées différemment
en fonction de l’émotion exprimée.
Cette thèse vise également à examiner comment évolue le transfert intermodal

émotionnel chez des enfants d’âge scolaire et de jeunes adultes. Il est relativement inhabituel
d’utiliser un paradigme de préférence visuelle pour étudier la perception visuelle chez des
individus qui maîtrisent le langage. Cependant, un tel paradigme permet d’évaluer la
compréhension spontanée des émotions indépendamment des capacités langagières (accès au
lexique, labellisation, etc.).
Nous nous attendons à observer un développement de cette compétence. Avec l’âge, les
bébés devraient discriminer de mieux en mieux les émotions. Nous nous attendons également
à une progression développementale au niveau des temps de fixation et des saccades. Nous nous
attendons aussi à ce qu’avec l’âge, les zones des yeux et de la bouche soient particulièrement
regardées en fonction des émotions exprimées : la joie et le dégoût orienteraient plus d’attention
sur la bouche alors que la colère et la peur orienteraient plus d’attention sur les yeux.
79
II
Contributions expérimentales
81
4. PROCÉDURE GÉNÉRALE
Procédure générale
Les recherches chez les bébés de moins d’une année soulèvent de nombreux défis.
Premièrement, comme nous ne pouvons pas utiliser le langage afin de leur donner des consignes
ou leur poser des questions, les études comportementales chez les bébés se basent sur leurs
capacités sensorielles précoces (voir, toucher, écouter, sentir) (Streri, 2017). Deuxièmement,
l’état d’éveil et d’attention des bébés est très court et ils peuvent très vite se désintéresser des
stimuli proposés. Ainsi, le nombre de bébés testés est bien supérieur à celui réellement inclus
dans les analyses. Troisièmement, le développement et les changements sont très rapides à cette
période de la vie. Ainsi, la fenêtre d’étude est très courte. Il faut également rester attentif aux
nombreuses différences interindividuelles qui pourraient survenir. Ces différents défis rendent
l’étude des bébés difficile et limitent la taille des échantillons testés. Il est donc important d’être
prudent dans l’interprétation des résultats obtenus.
Dans nos différentes études, nous avons utilisé la procédure de transfert intermodal
émotionnel, cette procédure a été adaptée à partir de diverses études menées sur le transfert
intermodal chez les bébés (p. ex. Hatwell, Streri, & Gentaz, 2003; Lewkowicz, 2000; Rose,
1994). Ainsi, des séquences de transfert intermodal audio-visuel émotionnel ont été proposées
individuellement à chaque participant. Ces séquences visaient à familiariser le participant à une
voix émotionnelle ou neutre durant 20 secondes puis, lors de la phase test, à présenter
simultanément deux visages, un à l’expression faciale congruente et l’autre à l’expression
faciale non congruente pendant 10 secondes.
Figure 26. Photographie du protocole expérimental de test des bébés au Babylab de Genève, Suisse. Crédit :
www.sebanex.com.
83
II. CONTRIBUTIONS EXPÉRIMENTALES
Chaque participant était confortablement installé, dans un siège adapté, face à un écran.
L’écran d’affichage des stimuli mesurait 47.5 cm x 30 cm et avait une résolution spatiale de
1680 x 1050 pixels. Les participants étaient placés à une distance de 60 cm de l’écran (Figure
26).
Lieux d’études
Toutes les passations se sont déroulées à Genève, Suisse. Nous avons effectué les
passations dans 3 lieux différents en fonction des études et de l’âge des participants. Les bébés
et les parents ont principalement été accueillis au Babylab du laboratoire du SMAS (Sensori-
Moteur, Affectif et Social) à l’Université de Genève (salle 3131). Pour certaines de nos études
chez les bébés de 1 à 6 mois, afin d’éviter aux parents de se déplacer dans deux lieux différents,
nous avons effectué les passations directement au cabinet pédiatrique des doctoresses Hamdan
et Oury (1 rue Pedro-Meylan, 1208 Genève), dans une salle aménagée à cet effet. Les passations
se déroulaient avant les contrôles pédiatriques à 1, 2, 4 et 6 mois. En ce qui concerne l’étude
avec les jeunes adultes, des étudiants de l’Université de Genève ont été recrutés dans les
couloirs et les passations se sont déroulées au laboratoire du SMAS (salle 3131). Les passations
avec les enfants entre 4 et 11 ans ont été effectuées dans une salle de leur établissement primaire
(EP) du canton de Genève (EP Eaux-Vives, Bois-Gourmand et Petit-Senn).
Stimuli
Les stimuli utilisés ont été présentés dans deux conditions expérimentales. Une première
condition dans laquelle les stimuli visuels étaient des photographies de visages et les voix
étaient des vocalisations non-verbales et la deuxième condition où les stimuli visuels étaient
des visages virtuels 3D et les voix étaient des pseudo-mots (c.-à-d. : séquence de phonèmes
pseudo-linguistiques).
Stimuli auditifs
Les stimuli auditifs étaient des voix émotionnelles ou neutres non verbales
accompagnées d’un écran noir et provenaient de deux sources différentes. Le volume des
stimuli auditifs présentés n’a pas dépassé 60 dBA.
84
4.2.1.1. Condition 1 :
Pour la condition 1, les stimuli auditifs émotionnels (joie, colère, peur) et neutres
provenaient de la base de données « Montreal Affective Voice » (Belin, Fillion-Bilodeau, &
Gosselin, 2008). La vocalisation non-verbale correspondait à la production de la voyelle /a/.
Chaque stimulus auditif était composé d’une voix d’une durée de 1 seconde répétée en boucle
avec une pause de 1 seconde entre chaque répétition pour une durée totale de 20 secondes au
total. Les voix étaient celles d’une femme (ref : SF60) ou d’un homme (ref : SM55).
Pour la condition 2, les stimuli auditifs émotionnels (joie, colère, dégoût) et neutres
provenaient de la base de données « GEMEP » (Bänziger, Mortillaro, & Scherer, 2012). Il
s’agissait de pseudo-phrases constituées de la répétition d’une séquence de phonèmes pseudo-
linguistiques : « nekal ibam soud molen » et « koun se mina lod belam » interprétée par 3
actrices différentes (ref : 2, 7 et 9) pour une durée totale de 20 secondes.
Stimuli visuels
Les stimuli visuels représentaient des expressions faciales émotionnelles et provenaient

de deux sources différentes. Les stimuli visuels étaient toujours présentés par paire, la même
identité était présentée simultanément, mais deux émotions différentes étaient exprimées. L’un
des visages émotionnels était présenté dans l’hémi-champ droit et l’autre dans l’hémi-champ
gauche, inversion droite-gauche randomisée. De plus, les cheveux n’étaient pas visibles sur les
stimuli afin d’éviter de potentiels biais d’attention sur les éléments externes du visage (Turati
et al., 2006).
Pour la condition 1, les stimuli visuels émotionnels (joie, colère, peur) étaient des
photographies de visages provenant de la base de données «The Karolinska Directed Emotional
Faces – KDEF » (Lundqvist, Flykt, & Öhman, 1998) (Figure 27). Les stimuli étaient en noir et
blanc, mesuraient 14 x 10 cm et étaient présentés sur un fond gris moyen (RGB, 100, 100, 100).
Les visages étaient ceux d’une femme (ref : SF4) ou d’un homme (ref : SM1).
85
Figure 27. Stimuli visuels KDEF masculins (en haut) et féminins (en bas) de joie, de peur et de colère (de gauche
à droite).
Pour la condition 2, les stimuli visuels émotionnels (joie, colère et dégoût) étaient des
visages virtuels 3D féminins créés avec FACSGen (Roesch et al., 2011) (Figure 28).
Figure 28. Stimuli visuels FACSGen de joie, colère et dégoût (de gauche à droite).
Ce logiciel permet la création de stimuli faciaux synthétiques 3D réalistes et

standardisés basés sur le système de codage d’actions faciales (FACS) (Ekman, Friesen, &
Hager, 1978b). Le visage d’une femme (ref : Tanja) a été choisi. Une correction gamma de 1.7
pour la couleur de peau a été appliquée. Pour chaque visage émotionnel, nous avons activé les
unités d’action (UA) en accord avec Ekman et al. (1978b) ou Roesch et al. (2011). Pour le
visage joyeux, les UA 6, 12, 25 et 26 ont été activées, avec une intensité d’activation dans
l’ordre de chaque UA de 60, 60, 40 et 50 (pour une intensité maximale de 100). Pour le visage
en colère, les UA 4, 5, 7, 9, 16, 23 et 25 ont été activées, avec une intensité d’activation de 60
pour chaque UA. Pour les visages de dégoût, les UA 4, 10, 12, 25 ont été activées, avec une
intensité d’activation dans l’ordre de chaque UA de 20, 40, 70 et 60 (voir Table 1). Ces visages
mesuraient 18 x 12 cm, ils étaient en couleur et étaient présentés sur un fond noir.
86
Table 1.
Unité d’action (UA) et intensité (max = 100) utilisées pour créer les visages FACSGen
N° UA Nom FACS des UA Joie Colère Dégoût
4 Sourcils baissés 0 60 20
5 Paupières supérieures levées 0 60 0
6 Paupières inférieures levées 60 0 0
7 Paupières tendues 0 60 0
9 Nez replié 0 60 0
10 Lèvre supérieure levée 0 0 40
12 Coin des lèvres levé 60 0 70
16 Lèvre inférieure baissée 0 60 0
23 Lèvres serrées et rentrées 0 60 0
25 Lèvres séparées 40 60 60
26 Mâchoire baissée 50 0 0
Afin de contrôler la reconnaissance des visages émotionnels créés avec FACSGen, les
stimuli ont été validés dans une étude pilote réalisée avec des participants adultes : 24 étudiants
de l’Université de Genève (14 femmes; âge moyen = 21.04 ± 2.8 ans). Nous avons demandé à
chaque participant de classer les visages en 7 catégories : joie, colère, tristesse, dégoût, surprise,
peur et un champ vide pour leur permettre de proposer une autre émotion. Les stimuli et la liste
des choix ont été présentés dans un ordre aléatoire. Les stimuli ont été reconnus avec une
précision de 92 % (N = 22/24) pour la joie et la colère, et de 83.33 % (N = 20/24) pour le dégoût,
beaucoup plus élevé que le niveau de chance de 14.29 % (100/7).
Paradigme expérimental
Après lecture et signature du document d’information et de consentement et la réponse
à un court questionnaire par les parents ou les participants adultes, les participants étaient
confortablement installés face à un écran et, en fonction de leur âge, sur les genoux d’un de
leurs parents, dans un siège bébé ou sur une chaise.
Pour chaque participant, le paradigme expérimental correspondait à la présentation des

6 essais pour un total de 3 minutes. Un essai correspondait à la présentation d’une voix pendant
20 secondes, accompagnée d’un écran noir (phase de familiarisation) suivie par la présentation
d’une paire de visages émotionnels durant 10 secondes (phase test). À chaque essai, lors de la
87
phase test, les visages émotionnels étaient les mêmes, mais leur présentation à droite ou à
gauche était contre-balancée.
Les essais s’enchaînaient selon l’ordre suivant pour un total de 6 essais : afin d’obtenir
la « baseline » du temps de regard des participants pour les visages émotionnels, une voix neutre
était présentée lors des deux premiers essais. Afin de tester le transfert intermodal émotionnel,
les 4 essais suivants étaient des essais expérimentaux. Lors de ces essais, les voix émotionnelles
étaient présentées en alternance, un visage était congruent à la voix et l’autre incongruent
(Figure 29).
Figure 29. Paradigme général présenté dans le cadre de cette thèse, exemple pour l’étude de la joie et la colère.
Outils d’analyse des mouvements oculaires

Dans ce travail, nous avons analysé les comportements oculaires des participants lors
de la phase test grâce au protocole du « regard préférentiel » (Fantz, 1963). L’enregistrement
des mouvements oculaires sur les stimuli visuels a été effectué à l’aide d’une caméra ou, lorsque
cela était possible, d’un eye-tracker. Nous avons analysé les temps de regard spontané sur deux
visages émotionnels différents. Un temps de regard supérieur vers l’un ou l’autre est considéré
comme une « préférence ». En revanche, une absence de préférence n’est pas nécessairement
la preuve d’une absence de discrimination (les bébés peuvent ne préférer aucun des stimuli,
mais être capables de faire la différence entre eux). Nous avons émis l’hypothèse que, si les
bébés exploraient différemment les visages en fonction des voix émotionnelles présentées
88
préalablement, ils seraient capables d’effectuer un transfert d’une expression émotionnelle de

la modalité auditive à la modalité visuelle.
L’analyse des mouvements oculaires comporte plusieurs avantages pour l’étude des
bébés. Elle se base sur une compétence sensorielle présente dès la naissance et ne requiert pas
de consigne, elle est non invasive et sans contact. En revanche, l’analyse des mouvements
oculaires chez les bébés implique une grande perte de participants. Dans nos études, de
nombreux bébés n’ont pas pu être inclus dans l’échantillon final d’analyse en fonction de leur
comportement qui a affecté les données oculaires. Les bébés changent facilement d’état d’éveil
et d’humeur (Als, Tronick, Lester, & Brazelton, 1977). En effet, certains des bébés étaient très
agités, pleuraient ou étaient très peu intéressés par les stimuli présentés durant la passation. Ces
comportements se sont répercutés sur la mesure du temps de regard et nous avons donc choisi
d’exclure les essais où le temps de regard était insuffisant. De ce fait, les bébés qui ont regardé
moins de 50% du temps total ainsi que ceux qui n’ont pas du tout regardé durant au moins un
essai ont été exclus des analyses.
De plus, les bébés présentent souvent un « biais de côté », qui pourrait être lié à des
difficultés de désengagement de l’attention. Ce biais peut s’avérer problématique lors d’une
mesure de préférence entre deux stimuli. Ce comportement est typique entre 1 et 3 mois, mais
moins probable pour les bébés plus âgés (Hopkins & van Wulfften Palthe, 1985). De ce fait, les
bébés ayant regardé d’un seul côté de l’écran pendant 95% du temps, dans au moins 3 essais
(biais de côté) ont été exclus des analyses. Le seuil de 95% est couramment utilisé dans les
études chez les bébés (Damon, 2015). Cela permet d’exclure les biais de côté extrêmes, mais
n’efface pas la tendance à regarder plus d’un côté que de l’autre. Afin de contrôler cette
préférence éventuelle, nous avons systématiquement contre-balancé la position droite et gauche
des stimuli visuels.
Enregistrement des mouvements oculaires à l’aide

d’une caméra
Classiquement, les paradigmes de préférence visuelle étaient codés manuellement grâce

à une caméra qui filmait les yeux du participant. La caméra permet d’enregistrer des paramètres
globaux : identifier les mouvements des yeux sur la droite ou sur la gauche de l’écran,
permettant ainsi de calculer les différences de temps de regard entre deux stimuli, ou bien alors
le temps passé à regarder un seul stimulus. Dans nos études, afin de déterminer le temps passé
89
sur le stimulus de droite ou de gauche, nous avons filmé le visage des participants grâce à une
caméra Sony HDR-CX220 puis, nous avons codé les regards grâce à BORIS (Behavioral
Observation Research Interactive Software), un logiciel de codage de vidéo gratuit (Friard &
Gamba, 2016). Afin de garantir la plus grande objectivité d’analyse, deux codeurs ignorant
l’émotion présentée à droite ou à gauche ont calculé le temps passé à regarder d’un côté et de
l’autre. La corrélation entre les deux codages se situait aux alentours de .90 (Pearson’s r), qui
illustre de l’objectivité du procédé. Les temps de regards ont été calculés par la moyenne de ces
deux codages.
Enregistrement des mouvements oculaires à l’aide

d’un eye-tracker
L’eye-tracker ou oculomètre est un appareil situé sous l’écran d’ordinateur qui permet
de mesurer la direction du regard grâce au reflet de la lumière infrarouge sur la pupille et la
cornée (en anglais, Pupil Center Corneal Reflection / PCCR) (Figure 30). La caméra de l’eye-
tracker détecte le centre de la pupille et l’endroit où la lumière est réfléchie par la cornée.
Figure 30. Illustration de la mesure PCCR, le centre de la pupille (intersection de la croix noire et blanche) et la
lumière réfléchie par la cornée (intersection de la croix grise).
Cet outil permet d’examiner où, quand et combien de temps une personne regarde une
scène. Les techniques d’oculométrie permettent une mesure bien plus précise qu’un simple
enregistrement vidéo des yeux du participant (Figure 31). En effet, cette méthode permet de
déterminer exactement ce qu’a regardé le participant. De plus, cette technique permet de définir
des zones d’intérêt spécifiques (Areas Of Interest - AOIs) des stimuli présentés, par exemple
pour les visages : définir les contours des visages, des yeux, de la bouche, du nez etc... Ainsi,
on peut calculer précisément le nombre et le temps des fixations dans chacune de ces zones
ainsi qu’obtenir des informations sur les saccades oculaires effectuées. Dans nos études, nous
avons utilisé un eye-tracker RED 250 développé par SMI (SensoMotric Instruments, GmbH,
Teltow, Germany).
90
Figure 31. Illustration du contrôle expérimental de l’eye-tracker (SMI RED 250), le regard du bébé sur les stimuli
est représenté par le point jaune. Crédit : www.sebanex.com.
Comparé au codage vidéo, l’oculométrie permet d’obtenir des informations sur

l’organisation spatio-temporelle de l’attention de l’enfant et non pas une « simple » quantité
d’attention. C’est pourquoi, dans nos recherches, nous avons eu recours dès que possible à
l’eye-tracking. Malheureusement, nous ne sommes parvenus à utiliser cette technologie
efficacement que dès l’âge de 6 mois. En effet, cet appareil nécessite la détection des yeux du
bébé qui peuvent être trop petits ou encore lorsque l’enfant ne reste pas assez attentif pour que
l’appareil parvienne à capter ses yeux (Hessels, Andersson, Hooge, Nyström, & Kemner, 2015).
De plus, pour chaque enregistrement avec l’eye-tracker, l’expérience commence par une phase
de calibration en utilisant 5 points de fixation (cibles colorées et mouvantes). Cette phase de
calibration est nécessaire et implique de suivre un objet aux différents coins de l’écran. Cette
phase peut être encore difficile chez les bébés les plus jeunes.
C’est également un outil récent et, de ce fait, peu d’études antérieures examinent les
mouvements oculaires à l’aide d’un eye-tracker. Cependant, c’est un outil prometteur pour
l’exploration du développement des acquisitions dans une population atypique, présentant des
difficultés de langage (Baudouin, Durand, Soussignan, & Schaal, 2016).
Présentation générale des cinq études (et 11

expériences)
Les cinq études (et 11 expériences) de cette thèse sont représentées à la Table 2. La
première étude présentée dans ce travail a évalué le transfert intermodal émotionnel à 6 mois
91
entre la joie et la colère grâce à un eye-tracker ou oculomètre qui permet de mesurer précisément
la direction du regard; dans ce but deux conditions expérimentales ont été réalisées : la première
avec des vocalisations non-verbales puis des photographies de visages (expérience 1) et la
seconde avec des pseudo-mots puis des visages virtuels 3D (expérience 2) ; une étude
complémentaire a été réalisée pour contrôler le temps de regard sur les visages émotionnels
sans l’écoute préalable d’une voix (expérience 3). La deuxième étude s’est consacrée à
l’analyse du transfert intermodal émotionnel (joie et colère) à 2, 4 et 6 mois pour la condition
1 (expérience 4) et la condition 2 (expérience 5). La troisième étude a exploré le transfert
intermodal émotionnel à 4 mois entre des stimuli féminins et masculins de joie et colère
(expérience 6) ou de peur et colère (expérience 7). La quatrième étude a été réalisée chez des
bébés de 1, 2, 4 et 6 mois dans une perspective longitudinale avec les stimuli de la condition 2
pour les émotions de joie et colère (expérience 8), de joie et dégoût (expérience 9) et de colère
et dégoût (expérience 10). La cinquième étude a exploré les conditions de transfert intermodal
émotionnel spontané chez des participants verbaux grâce à l’eye-tracking chez des enfants de
5, 8 et 10 ans ainsi que chez de jeunes adultes pour les émotions de joie et de colère dans les
conditions 1 et 2 (expérience 11).
Table 2.
Présentation générale de toutes les études. Condition 1: vocalisations non-verbales puis
photographies de visages / condition 2: pseudo-mots puis visages virtuels
Stimuli condition /
# Age / Effectif Outil d’analyse Emotions Publications
Genre des stimuli
6 mois Expé. 1 :
Condition 1 (expé. 1 et 3) et
Etude 1
Expé. 1 N=24 article

eye-tracking Condition 2 (expé. 2 et 3) joie, colère, neutre
Expé. 2 N=22 publié dans
féminins
Expé. 3. N=14 PLoSONE
2, 4, 6 mois
Condition 1 (expé. 4) et Expé. 4 :
Etude 2
transversal
codage vidéo Condition 2 (expé. 5) joie, colère, neutre manuscrit
Expé. 4 N=61
féminins soumis
Expé. 5 N=57
4 mois
Etude 3
Condition 1 joie, colère, neutre (expé. 6)

Expé. 6 N=36 codage vidéo
féminins et masculins peur, colère, neutre (expé. 7)
Expé. 7 N=20
1, 2, 4, 6 mois
joie, colère, neutre (expé. 8)
longitudinal
Etude 4
Condition 2 joie, dégoût, neutre (expé. 9)

Expé. 8 N=16 codage vidéo
féminins colère, dégoût, neutre (expé.
Expé. 9 N=20
10)
Expé. 10 N=20
5, 8 et 10 ans Expé. 11 :
Etude 5
Conditions 1 et 2
et adultes eye-tracking joie, colère, neutre manuscrit
féminins
Expé. 11 N=80 soumis
92
Etude 1: transfert intermodal émotionnel
(joie vs. colère) à 6 mois : analyses eye-
tracking
Résumé 9. Etude 1
Cette étude a examiné à travers 3 expériences si les bébés de 6 mois étaient capables de
transférer des informations amodales des voix émotionnelles aux visages émotionnels
(joie vs. colère) grâce à une analyse eye-tracking. Ainsi, des séquences de transfert
intermodal émotionnel de la modalité auditive à la modalité visuelle, ont été présentées
à des bébés de 6 mois. Chaque séquence présentait une voix émotionnelle (colère ou
joie) ou neutre, suivie de la présentation simultanée de deux visages émotionnels
statiques (colère ou joie, congruent ou incongruent vis-à-vis de la voix émotionnelle).
Deux conditions ont été présentées, la condition 1 dans laquelle les voix étaient des
vocalisations non-verbales et les visages étaient des photographies (expérience 1 : article
publié dans PloSONE) et la condition 2 dans laquelle les voix étaient des pseudo-mots
et les visages étaient virtuels (expérience 2). Une troisième expérience a été menée afin
de contrôler les préférences visuelles spontanées pour les visages et les AOIs
émotionnelles (conditions 1 et 2) sans qu’aucune voix n’ait été entendue préalablement.
Les mouvements oculaires en réponse aux stimuli visuels ont été enregistrés à l’aide
d’un eye-tracker.
Pour la condition 1 (expérience1), les résultats n’ont indiqué aucune différence de temps
de regard sur le visage de joie ou colère après avoir écouté la voix neutre ou la voix en
colère. Néanmoins, après avoir écouté la voix de joie, les bébés regardaient plus
longtemps le visage en colère incongruent (la zone de la bouche en particulier) que le
visage de joie congruent. Pour la condition 2 (expérience 2), les résultats n’ont révélé
aucune différence de temps de regard sur le visage de joie ou en colère, peu importe la
voix. La seule différence mise en évidence était que les yeux de joie étaient plus regardés
que les yeux de colère après l’écoute de la voix neutre. Pour l’expérience 3, les résultats
n’ont révélé aucune différence de temps de regard sur le visage de joie ou en colère pour
les deux conditions expérimentales.
L’ensemble des résultats a révélé qu’un transfert intermodal (des modalités auditives
aux modalités visuelles) serait possible pour les bébés de 6 mois, uniquement dans la
condition 1, après la présentation d’une voix de joie. Ces résultats suggèrent que les
bébés seraient capables, à certaines conditions, de percevoir cette émotion de manière
amodale.
93
Expérience 1: condition 1: photographies de

visages et vocalisations non-verbales: Are 6-
month-old human infants able to transfer emotional
information (happy or angry) from voices to faces?
An eye-tracking study2
2
Cette expérience est une reproduction de l’article: Palama, A., Malsert, J., & Gentaz, E. (2018). Are 6-month-old
human infants able to transfer emotional information (happy or angry) from voices to faces? An eye-tracking
study. PLoS ONE, 13(4), e0194579. https://doi.org/10.1371/journal.pone.0194579
94
5. ETUDE 1 : TRANSFERT INTERMODAL ÉMOTIONNEL À 6 MOIS (EYE-TRACKING)
Introduction
Expressing emotions via facial expressions, voices or even body movements helps to
transmit one’s internal state and intentions to others [1]. Human infants are able to recognize
emotions expressed by the people in their environment (parents, brothers and sisters, etc.), this
adaptive ability is essential for infants to interact with these people [2]. However, perceiving
emotional expressions is not trivial for infants and the development of this ability depends on
the type of emotions expressed and their mode of presentation [3–5].
The spontaneous visual preference for happy faces, observed in specific conditions in
newborns [6,7] generally persists until 5 months of age and seems to decline after that. More
particularly, at 3 months old, the amount of time infants look at a happy face is greater than the
amount of time they spend looking at a neutral one [8]. Additionally, at 4 months old, infants’
first fixations are more often directed toward happy faces than neutral faces [9]. Nevertheless,
results show that this visual preference is influenced by other facial dimensions, for example ,
the preference for happy faces is limited to female faces in 3.5-month-olds [10]. This difference
may be explained by the different experiences with male and female faces acquired over the
first few days of life [11]. Although this preference for happiness is not reported after 5 months
[12], it may still be observed in some cases at 7 months [13,14].
The visual discrimination between happiness and other expressions is demonstrated
from 2 to 5 months [3]. Discrimination between surprised [15,16] and angry (frowning) faces
[17] occurs at 3 months, and between happy and sad faces at 3-5 months [18]. At 5 months,
infants are able to discriminate between happy and neutral faces [19], as well as between happy
and fearful faces [20]. Studies have shown a categorical discrimination between happiness and
several other emotions (surprise, sadness, fear) for 6-7 month-old children [for reviews 3–5] ,
as demonstrated by identity-invariant categorization (i.e. infants can categorize the emotion
presented by a different identity as the same emotion) e.g. [5,15,18,21,22] for audio-visual
stimuli and categorical boundary effects (i.e. in emotional morphing, the point in the continuum
of emotional expression when the infant perceived the face as a specific emotional category)
(e.g. [23]). However, no evidence for a valence-based categorization of expressions (i.e. the
categorization between the same emotional valence, positive or negative) was found in 7-
month-old infants [24]. Overall, the positive discrimination for specific contrasts appears earlier
in paradigms involving just one or a limited number of face identities (e.g. [17]), and later in
paradigms involving the extraction of expressions across multiple identities [15].
95
A review of the studies regarding the perceptual development of emotional expressions

suggests that the sensory mode in which a stimulus is presented, whether it be unimodal or
multimodal, plays a significant role in an infant’s ability to discriminate emotions [3]. For
example, Flom and Bahrick [25] showed that infants can discriminate among happiness, anger
and sadness as of 5 months with unimodal auditory stimuli and as of 7 months with unimodal
visual stimuli. Furthermore, at 4 months, infants are able to discriminate among happiness,
anger and sadness with multimodal dynamic (audio–visual) stimuli, i.e. when the sounds and
the emotional faces are shown simultaneously and synchronized. More evidence of multimodal
matching has been reported in 3-4 month-old infants for audio-visual matching of happiness
versus sadness (concordant > discordant) and happiness versus anger (discordant > concordant)
expressions of the mother [26], as well as for visual-olfactory matching of happy versus
disgusted expressions [27]. However, the visual-olfactory matching appears limited to the
happy expression and is not present at 5 months. Evidence of audio-visual matching also exists
for happy and angry (concordant > discordant) expressions at 6-7 months [13,28].
It should be noted that most of the previous behavioral studies used videos in individual
testing sessions. Generally, the experimenters manually coded the infant’s gaze as being either
to the left side, the right side, or outside of the screen - generating raw-looking data. This
analysis procedure is not very accurate and does not allow for an examination of the specific
face areas (eyes and mouth) explored by each infant in function of the conditions. For the aim
of this study, we recorded the eye movements that occurred in response to the visual stimuli in
each of the 6 test phases using an eye-tracker. There have been few studies that have examined
ocular movement with an eye-tracking device in infants. However, eye-tracking, which
precisely calculates the time and direction of the gaze, allows for spatial and temporal precision
and accuracy. Besides fixation and saccades, the eye-tracker allows one to examine specific
areas of interest (AOIs) on the stimulus presented, such as the eyes and mouth. Depending on
the type of emotion, some regions of the face may be more useful than others in helping an
infant to determine an emotion. Schurgin et al.'s study [29] shows that by observing an adult’s
eye-movements on a picture, one can predict the emotion that is presented on it.
A recent study [30] using eye-tracking and dynamic emotional faces with infants aged
from 3 to 12 months, showed that younger infants focused their attention on the eyes and the
external features of emotional faces. However, the visual attention of older infants (7- and 12-
month-olds) depended on the emotion that was displayed. In this study, the mouth drew the
most attention for smiling faces, the eyes and eyebrows drew the most attention for fearful and
angry faces, and the upper nose area drew attention for disgusted faces. Another study by the
96
same authors [31] demonstrated that 7-month-old infants looked longer at areas of interest of a
neutral face according to the valence of the odors smelt before. With a pleasant (strawberry)
scent, the infants looked more at the neutral face, particularly the eyes, eyebrows, nose and
mouth areas, whereas with an unpleasant (strong cheese) odor, they looked more at the upper
nose area. As a function of the internal states provoked by the smell, the infants searched for
reaction cues on the faces presented. Amso et al. [32] found a positive correlation between the
time spent looking at the eye area and the ability to discriminate between happy and fearful
expressions after having been habituated to fearful expressions at 6 to 11 months old. In another
study, Hunnius et al. [33] showed that 4- and 7-month-old infants looked less at inner feature
area (mouth, eye and nose) of threat-related expressions (anger or fear) compared to non-threat-
related expressions (happy, sad or neutral).
Nonetheless, the existence of the ability to discriminate emotional expressions in
unimodal or multimodal conditions does not allow us to determine whether it results from an
amodal representation of the emotion or from a sensitivity to specific perceptual features,
whether they be visual and/or auditory. Some studies showed that infants use cues such as the
salience of teeth at 4 months, rather than emotions, when comparing two emotional faces [34].
The findings of the behavioral studies which used experimental paradigms involving just one
or a limited number of face identities do not prove that infants are unable to form emotional
representations. However, they confirm that sensitivity to perceptual variables contributes to
infants' performances in many experiments designed to assess sensitivity to emotion.
A relevant way to rule out this difficulty is to study the recognition of emotional
expression in a cross-modal task [for review 35]. These data gave evidence that infants can
code information in an auditory or tactile mode and then perceive this information in a visual
mode, despite several differences in size, volume, texture, shape, etc (such as number [36] or
object unity [37]). In this perspective, a similar way to address the question of amodal
representation of emotions would be to investigate cross-modal emotional correspondence from
auditory to visual emotional stimuli.
The aim of this present study is to evaluate if the ability to discriminate emotional
expressions is founded on the nature of emotion per se, amodally (i.e. independently of sensory
modalities) or on specific physical characteristics of stimuli (faces or voices). To help answer
this question, we chose to use a paradigm with a successive cross-modal transfer from
emotional voices to emotional faces. To our knowledge, no such experiment has been
conducted on infants. This cross-modal transfer of emotional information from auditory to
visual consists of two successive phases: an auditory familiarization phase and then a visual
97
test phase. This task is very difficult because it involves a serial mapping process in which
emotional information is extracted in an audio format and transformed into a visual format.
Thus, if infants are able to successfully transfer the emotional information, it would support the
hypothesis that they are able to recognize the emotions amodally, not simply via physical
features (pictorial or acoustic). The studies showing the categorical discrimination of emotions
(i.e. the extraction of expressions across multiple identities) also support the hypothesis that
infants are able to form amodal emotional representations.
Our experiment consists of six sequences of cross-modal transfers that were individually
shown to each infant. This study began with a baseline condition in which a neutral voice was
presented for 20 seconds during 2 trials, followed by the two emotional faces (happy and angry)
presented simultaneously for 10 seconds. The goal was to obtain the baseline of any
spontaneous preferences of the looking time between happy and angry faces. This continued
with the experimental conditions in which infants received four different sequences
corresponding to an emotional voice (happy or angry) presented for 20 seconds (auditory
familiarization phase), followed by the two emotional faces being presented simultaneously
(one familiar and the other novel vis-à-vis the emotional voice) for 10 seconds (visual test phase
without any sound).
We hypothesized that if infants had an amodal representation of emotion, they would
be able to detect the correspondence between an emotional voice and a visual face containing
the same emotion. In this case, a reaction to novelty was expected: i.e. a longer looking time
for the non-matching face. Thus, we expected that infants would prefer the novel face.
Furthermore, due to the fact that happiness is the first emotion infants are able to discriminate,
we expected the happy expression to be better transferred than the angry one.
Additionally, we examined whether visual preference is dependent on specific areas,
such as the eyes and/or mouth of each of the faces, after the auditory familiarization.
Interestingly enough, the results from two different infant studies regarding the face areas
looked at in function of the emotion presented provided contradictory results. One study [30]
showed that infants looked longer at the mouth area for happy faces and at the eyes for angry
faces. However, the other study [33] showed that infants look longer at the mouth for the angry
faces. Evidently, infants seem to be drawn to these two areas when presented with these
emotional faces. Therefore, we examined the mouth and eye areas for both of the emotional
faces. In addition, to explore the gaze further, we also examined the first fixations of each visual
test phase for each infant and peak looks at the face, the mouth and the eyes for each emotional
face.
98
Finally, we decided to investigate the rarely analyzed gender effect due to the fact that
contradictory effects have been reported in previous experiments. Of those that studied this
effect, two did not observe any differences between males and females [38, 39] while one
observe a significant difference between females and males in emotion recognition,
demonstrating that 5-month-old girls recognized emotions similarly to 6-month-old boys [15].
Method
5.1.2.1. Participants
Twenty-four full-term (at least 37 weeks of gestation) 6-month-old infants (13 females;
mean age = 6.03 months ± 0.32, range = 6.5– 5.2 months) were included in the final sample of
the study. Because of the difficulty to apply the eye-tracking technic to infants, a great number
of data has been not recorded. Thirty-one additional infants were observed but excluded from
the final sample due to technical failure of the eye-tracking not being able to find the pupil
(seventeen), excessive movement (two) resulting in loss of gaze data, noisy eye tracking data
due to unsuccessful calibration (three) defined as more than 2° of deviation in the x and y axes,
inattentiveness to stimuli (looking at the screen less than a third of the entire time) (one), crying
(four) or fussiness (four). The descriptive characteristics of the final sample are as follows: the
mean age of the mothers was 33.01 (± 4.6) years and 35.56 (± 5.9) years for the fathers. The
majority of the parents that participated in the study were married (N=14) or cohabitating
(N=9), while one parent was a single mother raising her child alone (N=1). The familys’
socioeconomic status (SES) was calculated using the Largo scale based on paternal occupation
and maternal education, ranging from 2 (the highest SES) to 12 (the lowest SES) [40]. The
mean socioeconomic status (SES) of the families used in the sample was 3.42 ± 1.47, range =
2-8. Approval for the study was given by the Ethics Committees of the Faculty of Psychology
and Educational Sciences of Geneva and all parents gave written informed consent for their
children’s participation in the experiment. The experiment was performed in accordance with
the relevant guidelines and regulations.
5.1.2.2. Stimuli
The emotional nonverbal auditory stimuli of happiness, anger and neutral come from
the "Montreal Affective Voice" database [41]. They are expressive onomatopoeic stimuli based
on the emission of the vowel /a/. This auditory stimulus was a loop of a one second voice with
99
a break of 1 second between each repetition for a total clip of 20 seconds. Note that these are
the vocal productions of only one woman (ref: SF60). The volume of auditory stimuli presented
to babies did not exceed 60 dBA.
The visual stimuli used were emotional (happy and angry) faces of a woman taken from
the database "The Karolinska Directed Emotional Faces - KDEF" [42]. These pictures are 9.1
x 9.1 cm, in black and white, and are presented on a medium gray background (RGB 100, 100,
100). The hair is not visible on the stimuli to avoid potential biases of attention on the external
elements of the face [43]. Because studies showed that 4-month-old infants discriminate female
faces more easily than male faces [10], we tested the emotional faces represented by the same
woman (ref: SF4). Faces are presented in pairs, pseudo-randomized for the left and right
presentation (Fig 1).
Figure 32. Fig 1. Visual stimuli. The angry face (right) and the happy face (left) with faces from The Karolinska
Directed Emotional Faces – KDEF.
5.1.2.3. Experimental procedure
Each infant was comfortably installed in a suitable seat, placed in an experimental cubicle
in Geneva’s Baby Lab. The stimulus display screen measured 47.5 cm x 30 cm with a spatial
resolution of 1680 x 1050 pixels. The baby was placed at a distance of 60 cm from the screen,
at this distance, visual stimuli were 8.7° of visual angle. To focus the infant’s attention on the
screen, just before starting the experiment, we presented a cartoon extracted from “Le Monde
des petits”. The gaze on visual stimuli was recorded with an eye-tracker SMI RED 250
(SensoMotoric Instruments GmbH, Teltow, Germany).
The experiment started with a 5-point calibration phase with the eye-tracker, an
animated image at 5 different locations covering the whole surface of the screen. This phase
was repeated until a satisfactory calibration (less than 2° of deviation in the x and y axes) was
achieved.
In this experiment, each trial consisted of exposure to a voice (neutral, happy or angry
prosody) for 20 seconds accompanied by a black display screen, for an auditory familiarization
100
phase. Afterwards, a pair of emotional faces (happy and angry) was presented for 10 seconds
during the visual test phase. The side of presentation of the happy and angry faces were
counterbalanced for each voice.
The experiment was composed of 6 trials in this order: first, in order to obtain the
baseline of spontaneous preferences for infants, a neutral voice was presented during the first 2
trials, followed by the 2 emotional faces which were laterally counterbalanced. The next 4 trials,
the test trials, consisted of the presentation of the 2 emotional voices, each followed by the 2
emotional faces, laterally counterbalanced for each emotional voice, in succession. The happy
voice was presented first, to avoid the triggering of a negative reaction by the negative stimulus
[44]. The presentation of the 6 trials (sequences of audio-visual transfer) lasted 3 minutes for
each infant (Fig 2).
Figure 33. Fig 2. Schematic representation of the successive presentation of all stimuli.
5.1.2.4. Data Analysis
All the data were extracted by using Begaze SMI’s analyzer software. The total looking
time in seconds to the whole face and to the Areas of Interest (AOI) was calculated by the net
dwell time (length of time spent looking the AOIs). We defined AOIs as one general for the
whole face (Fig. 3) and two specific ones for the eyes and the mouth (Fig. 4) for each type of
101
emotional expression. Peak look duration was calculated in milliseconds as the longest
unbroken look at the screen for the same 3 AOIs in each emotional face. We performed repeated
measures analysis of variance (ANOVA) on the whole face and specific AOI looking times and
peak looks. The proportion of first fixations toward the faces of each trial (24 infants x 2 trials
by voice = maximum 48 first looks for each voice) were also analyzed with T-test. Statistical
analyses were conducted using Statistica 13. The significance threshold was .05 and Bonferroni
test was performed to determine significant differences, effect sizes are given in partial eta-
squared η for ANOVAs.
Figure 34. Fig 3. Area of interest representing the whole face. The angry face (right) and the happy face (left).
Faces from The Karolinska Directed Emotional Faces – KDEF.
Figure 35. Fig 4. Area of interest representing the eyes and the mouth. The angry face (right) and the happy
face (left). Faces from The Karolinska Directed Emotional Faces – KDEF.
Results
5.1.3.1. Baseline condition
Table 1 presents the results of the baseline condition for the looking time at the whole
face and AOIs (mouth and eyes) as well as the first fixations for the happy or angry face
presented after the neutral voice. We found no significant difference concerning the looking
102
time at the emotional faces F(1, 23)=3.135, p=.09, η=0.12, the first fixations at faces (t(47) =
0.58, p=.56; single Student’s T-test) and the peak looks (F(1, 23)=2.02, p=.168, η=0.08). No
difference concerning the looking time at the emotional AOIs of the mouth F(1, 23)=2.89,
p=.103 or eyes F(1, 23)=0.15, p=.701. However, with the peak looks, we found an emotional
face effect (F(1, 23)=5.34, p<.05, η=0.18) suggesting angry AOIs triggered a longer fixation
(420 ± 67 ms) than the happy ones (307 ± 39). Even more, we found a significant interaction
between emotional faces and AOIs (F(1, 23)=5.59, p<.05, η=0.19). A pre-planned comparison
showed that the angry mouth (523 ± 125 ms) seemed to involve longer fixations than the happy
mouth (277 ± 61 ms) (F(1, 23)=6.93, p<.05) while both the angry and happy eyes were looked
at equally (F(1, 23)=0.16, p=.688. These results are in accordance with the results after
Bonferroni corrections; only the angry mouth seemed to trigger longer fixations than the happy
mouth (p=.03).
Table 3.
Table 1. Results in the baseline condition of the visual test phase analyses.
Both faces Angry face Happy face
mean ± s.e.m mean ± s.e.m mean ± s.e.m Value test P value
% % %
Looking time at faces: F(1,
6.75 ± 0.53 3.75 ± 0.29 3.00 ± 0.23 .09 NS
23)=3.135
68% 56% 44%
Peak looks at faces: 691 ± 81 389 ± 51 301 ± 30 F(1, 23)=2.02 .168 NS
Looking time at AOIs:

Neutral voice
1.51 ± 0.36 0.94 ± 0.19 0.57 ± 0.17 F(1, 23)=2.89 .103 NS

Mouth:
22% 62% 38%
1.43 ± 0.24 0.74 ± 0.12 0.69 ± 0.12
Eyes: F(1, 23)=0.15 .701 NS
21% 52% 48%
Peak looks at AOIs:
800 ± 186 523 ± 125 277 ± 186 F(1, 23)=5.34 .014*
Mouth:
Eyes: 653 ± 125 317 ± 57 336 ± 68 F(1, 23)=5.34 .689 NS
First fixations at faces: Number; % Number; % Number; %

(Ntot=48) 46; 96% 121 ; 46% 25425; 4% t(47)=0.58 .56 NS
Infants’ mean ± standard error and percentage looking time (s) and mean ± standard error of
peak looks (ms) at faces and to AOIs and number and percentage of first fixations for the happy
or angry face after the neutral voice. *p<.05, NS=Non Significant result.
5.1.3.2. Preliminary analyses about the gender effect on looking

times
A 2 (emotional voice familiarization condition: angry or happy) x 2 (gender: male or

female) x 2 (emotional face: happy or angry) ANOVA was performed on the looking times
with the voice conditions and emotional faces as a within-subjects factor and gender between-
103
subject factors. The gender effect was not significant (F(1, 22)=.36, p=.56, η=.02) and did not
interact with other factors (all p >.05).
A 2 (emotional voice familiarization condition) x 2 (gender) x 2 (emotional face) x 2
(AOIs: mouth or eyes) ANOVA was performed on the looking times, with the emotional voice
conditions, AOIs, and the emotional faces as a within-subjects factor and gender as a between-
subjects factor. The gender effect was not significant (F(1, 22)=.47, p=.50, η=.02) and did not
interact with other factors (all p >.05). Consequently, results were further collapsed across
gender.
5.1.3.3. Main analyses: looking times, first fixations and peak

look at whole faces and AOIs
Table 2 presents the results of the visual test phase for the looking time at faces, the
AOIs, the visual preferences of the infants, and their first fixations for the happy or angry face
presented after the emotional voices (angry or happy).
Table 4.
Table 2. Results of the visual test phase analyses.
Both faces Angry face Happy face
mean ± mean ± mean ±
s.e.m
Value test P value
s.e.m s.e.m
% % %
Looking time at faces: 5.33 ± 0.52 3.04 ± 0.24 2.29 ± 0.28 F(1, 23)=4.85 .037*
53% 56% 44%
Peak looks at faces: 796 ± 140 446 ± 79 350 ± 61 F(1,23)=1.30 .265 NS

Happy voice

1.21 ± 0.31 0.83 ± 0.20 0.38 ± 0.11 F(1, 23)=8.32 .008**
Mouth:
12% 69% 31%
0.99 ± 0.25 0.44 ± 0.11 0.55 ± 0.13
Eyes: F(1, 23)=0.54 .470 NS
9% 45% 55%
Peak looks at AOIs:
589 ± 114 347 ± 51 242 ± 64 F(1,23)=2.43 .132 NS
Mouth:
Eyes: 546 ± 102 243 ± 37 303 ± 65 F(1,23)=1.09 .307 NS
First fixations at faces:

44 ; 92% 29 ; 66% 15; 34% t(47)=2.19 .033*
(Ntot=48)
Looking time at faces: 4.91 ± 0.53 2.48 ± 0.24 2.42 ± 0.29 F(1, 23)=0.04 .843 NS
49% 56% 44%
Angry voice
Peak looks at faces: 667 ± 101 313 ± 38 354 ± 63 F(1,23)=0.36 .553 NS

1.19 ± 0.29 0.72 ± 0.13 0.47 ± 0.16 F(1, 23)=2.24 .148 NS
Mouth:
12% 60% 40%
0.44 ± 0.10 0.46 ± 0.09 0.69 ± 0.12
Eyes: F(1, 23)=0.04 .845 NS
10% 49% 51%
Peak looks at AOIs:
Mouth: 740 ± 182 429 ± 74 311 ± 109 F(1,23)=1.21 .285 NS
104
Eyes: 492 ± 99 214 ± 46 278 ± 53 F(1,23)=1.06 .313 NS

First fixations at faces: Number; % Number; % Number; %
t(47)=1.85 .069 NS
N ; % (Ntot=48) 44 ; 92% 17 ; 36% 27; 64%
Infants’ mean ± standard error and percentage looking time (s) and mean ± standard error of
peak looks (ms) at faces and to AOIs and number and percentage of first fixations for the happy
or the angry face after the happy or angry voice. *p<.05, **p<.01, NS=Non Significant result.
A 2 (emotional voice familiarization condition: angry or happy) x 2 (emotional face:

happy or angry, Fig 5) ANOVA was performed on the looking times, with the voice conditions
and emotional face as a within-subjects factor.
Figure 36. Fig 5. Looking time at happy or angry faces. Infants’ mean looking time (s) in function of voices
(angry or happy) and emotional faces (angry: blue or happy: green). After hearing a happy voice, infants look
longer at the angry face than the happy face (F(1, 23)=4.85, p<.05). The vertical bars represent positive standard
errors (s.e.m.),*p<.05.
The emotional voice familiarization condition was not significant (F(1,

23)=1.51, p=.23, η=.06). The effect of the emotional face was significant (F(1,
23)=7.42, p<.05, η=.244), with a clear visual preference for the angry face (mean ± s.e.m.;
seconds, 2.76 ± 0.19 s.) compared to the happy face (2.35 ± 0.22 s.) presented. The interaction
between the emotional voice familiarization condition and the emotional face was not
significant (F(1, 23)=1.43, p=.24, η=.058). Nevertheless, according to Iacobucci [45], it is
possible to examine the effect of a non-significant interaction given certain conditions. He
stated that if a simple effect is significant, we can explore its effect on the second, non-
significant one. Under these circumstances, we can explore our a priori hypotheses. Therefore,
pre-planned comparisons show that infants looked at the happy and the angry face equally after
hearing the angry voice (F(1, 23)=.04, p=.843). By contrast, infants looked longer at the angry
face than the happy face after hearing the happy voice, (F(1, 23)=4.85, p<.05) (Fig 5). In sum,
105
the looking time for the happy face is not affected by either emotional voice. However, the
looking time for the angry face increases after hearing the happy voice.
A 2 (emotional voice familiarization condition) x 2 (emotional face) x 2 (AOIs: mouth
or eyes, Fig 6) ANOVA was performed on the looking times, with the emotional voice
conditions, AOI, and the emotional faces as within-subjects factors. Fig 6 presents the means
and standard errors of looking times of the visual test phase for the AOIs (mouth and eyes) in
function of the emotional faces (angry or happy) after each emotional voice familiarization
condition (angry or happy).
Figure 37. Fig 6. Looking times at happy or angry AOIs (mouth or eyes). Infants’ mean looking time (s) in
function of the emotional voices (happy or angry) and emotional AOIs (happy: green or angry: blue). The angry
mouth is looked at longer than the happy mouth F(1, 23)=12.39, p<.01. After the happy voice, the angry mouth is
looked at longer than the happy mouth (F(1, 23)=8.32, p<.01). The vertical bars represent positive standard errors
(s.e.m.), **p<.01.
The effect of AOIs was not significant (F(1,23)=.56, p=.46 η=.024). Infants seem to
have looked at the mouth (mean ± s.e.m.; seconds, 0.60 ± 0.11 s.) and eye (0.47 ± 0.08 s.) areas
for the same amount of time. The effect of the emotional voice familiarization condition was
not significant (F(1, 22)=.25, p=.62, η=.011). The main effect of the emotional face was
significant (F(1, 23)=6.76, p<.05, η=.227). Infants also seem to have looked longer at the AOIs
of the faces that expressed anger (0.61 ± 0.06 s.) than the AOIs of the faces that expressed
happiness (0.46 ± 0.05 s.).
The interaction between the emotional voice familiarization condition and the AOIs was
not significant (F(1, 23)=.08, p=.79, η=.003). The interaction between the AOIs and the
106
emotional face was significant (F(1, 23)=12.29, p<.01, η=.348). The results revealed that
infants looked longer at the angry AOIs (0.60 ± 0.12 s.) than the happy ones (0.47 ± 0.08 s.).
Pre-planned comparisons showed that infants looked longer at the mouth of the angry face (0.77
± 0.14 s.) compared to the mouth of the happy face (0.42 ± 0.11 s.) (F(1, 23)=12.39, p<.01),
but no differences were shown between the happy or angry eyes (F(1, 23)=1.32, p=.26).
The three-way interaction between the emotional voice familiarization condition, the
AOIs, and the emotional face was not significant (F(1, 23)=.76, p=.39, η=.032). However, pre-
planned comparisons showed that after the presentation of the happy voice, infants looked
longer at the mouth of the angry face (0.83 ± 0.20 s.) than that of the happy faces (0.38 ± 0.11
s.) (F(1, 23)=8.32, p<.01). There is no difference in looking time between the two emotional
mouths (happy and angry) after the angry voice (F(1, 23)=.2.24, p=.148), no difference in
looking time between the emotional eyes after the angry voice (F(1, 23)=.54, p=.47) or even
the happy voice (F(1, 23)=.04, p=.845). In sum, the looking time for the happy AOIs is not
affected by either emotional voice. However, infants increased their looking time for the angry
AOIs after hearing a happy voice, particularly for the mouth area (Table 2).
Furthermore, a single Student’s T-test analysis was conducted to examine the first
fixation on either emotional face (angry or happy) in function of the emotional voice (angry
and happy) presented beforehand. After hearing a happy voice, infants directed their first
fixation more often toward the angry face (66%) than the happy face (34%) (t(47) = 2.19, p
<.05). By contrast, the angry voice had a tendency effect on the first fixations, as the infants
tended to direct their first fixation more often to the happy face (64%) than the angry face (36%)
(t(47) = 1.85, p=.069). As previously stated, after being exposed to the neutral voice, infants
directed their first fixation equally, to both faces (Table 1).
Moreover, a 2 (emotional voice) x 2 (emotional face) ANOVA was performed on the
peak looks. We found no significant difference concerning the peak looks at the emotional face
(F(1, 23)=0.296, p=.59, η=0.01), in function of the voice (F(1, 23)=1.214, p=.28, η=0.05) or
interaction between emotional faces and voices (F(1, 23)=1.42, p=.24, η=0.06).
A 2 (emotional voice) x 2 (emotional face) x 2 (AOIs: mouth or eyes) ANOVA was
performed on the peak looks. We only found a significant interaction between AOI and
emotional faces (F(1, 23)=4.45, p<.05, η=0.16). After Bonferroni corrections, no significant
difference was found, only a tendency of longer peak looks at the angry mouth (388.04 ± 51.49
ms) compared to the angry eyes (228.47 ± 34.94 ms), suggesting that with the angry face, the
mouth involves the longest peak looks.
107
5.1.3.4. Complementary analyses of the voice effect: neutral vs.

emotional voices
After the 3 voices (neutral, happy and angry), the results on looking time at faces
suggested that the effect of the emotional voice was significant (F(2, 46)=11.05, p <
.001, η=.32). Indeed, after Bonferroni corrections, in the neutral voice trials (first 2 trials), the
faces are looked at longer than after the emotional voices (angry voice: p=.002; happy voice:
p=.008).
The emotional face condition was significant (F(1, 23)=13.026, p<.01, η=.362), with
longer looking time at the angry face (3.09 ± 0.17 s.) compared to the happy face (2.57 ± 0.17
s.). The interaction between the emotional voice familiarization condition and the emotional
faces was not significant (F(1, 23)=0.96, p=.39, η=.04).
Results of the infants’ looking time at the AOIs (mouth and eyes) showed that the
emotional voice condition was significant (F(2, 46)=7.823, p < .001, η=.25). After the neutral
voices, the faces are looked at longer than after the emotional voices. The main effect of the
emotional faces was significant (F(1, 23)=8.44, p<.01, η=.268). Furthermore, the interaction
between AOIs and emotional faces was also significant (F(1, 23)=10.06, p<.01, η=.304). After
Bonferroni corrections, the angry mouths were looked at longer than the happy mouths
(p=.002), the angry eyes (p=.014) or the happy eyes (p=.03). The three-way interaction between
the emotional voice familiarization condition, the AOIs, and the emotional faces was not
significant (F(1, 23)=.518, p=.59, η=.022.
Concerning the first fixations, as previously stated after being exposed to the neutral
voice, infants directed their first fixations equally to both faces (t(47) = 0.58, p=.56) while after
the angry voice infants had a tendency to direct more their first fixations at the happy face (t(47)
= 2.19, p <.05) and after the happy voice they directed their first fixation more to the angry face
(t(47) = 1.85, p=.069).
Finally, with the 3 voices, no significant difference was found regarding the peak looks
at the faces. The peak looks at the AOI reveled a tendency effect in emotional face condition
(F(1, 23)=3.73, p=.065, η=.139, suggesting that angry AOIs trigger longer peak looks than
happy AOIs. Moreover, the interaction between AOIs and emotional faces was significant,
indicating after Bonferroni correction, that angry mouths trigger longer peak looks than happy
mouths p=.01, angry eyes p=.005 or happy eyes tend to p=.068.
108
Discussion
The main goal of this study was to determine if 6-month-old infants are able to extract
amodal components in emotional facial expressions (happiness or anger) through a cross-modal
transfer paradigm - from auditory to visual modalities. The results showed that this ability
differs depending on the type of emotional faces and voices presented (happy or angry).
Specific facial areas, such as the eyes and mouth, can also influence their preference.
The first basic result observed in the baseline condition (neutral voice) was the absence
of a significant spontaneous visual preference between the two emotional faces and specific
areas by 6-month-old infants. This absence of visual preference for one or the other facial
expression was expected with the neutral voice. Indeed, the angry and the happy faces are both
novel in regards to the neutral voice so both faces are equally looked at. This result also
confirms that the preference for happiness seems to decline with age, especially in a paradigm
involving two alternative auditory and visual sequences: 20 sec (no faces) - 10 sec (two faces)
respectively. It may be that these conditions eliminate a spontaneous visual preference for
happiness. An additional complementary explanation would be the emergence of fear
sensitivity between the age of 5 and 7 months [46–48]. For example, an attentional and arousal
response has been observed in 6-7 month-old children in response to audiovisual stimuli of
infants crying using pupillometric measures [49]. In adults, this may parallel the specific
engagement of threat processing pathways (amygdala) by auditory screams (e.g. [50]. This
supports the idea of a potential developmental shift in emotional processing at 6- to 7-months
[4]. The developmental trajectory of the sensitivity to each emotional expression (joy, anger,
fear, etc.) from birth to 6-7-months and its underlying mechanisms remain under debate [3]. In
any case, this absence of preferences after the neutral voice allows us to better explore whether
emotional voices can influence the visual preferences for an emotional face.
The second result showed that visual preference (looking times and peak looks) and the
first look changed depending on the hearing familiarization phase. After listening to the angry
voice, differences in visual preferences (whole face and specific areas) or first fixations, were
not observed between the two faces. By contrast, after listening to the happy voice, infants
looked longer at the angry (novel) face than at the happy (familiar) face. These results are
consistent with the previous research, which observes that happy is the emotion that is
recognized most precociously [3].
Studies on AOIs in emotional recognition have suggested that AOIs observed can
predict emotions perceived by the subject [29]. In our study we observed that infants looked
109
longer at the mouth area of an angry face compared to the mouth area of a happy one. However,
they looked at the eyes similarly for both faces. This result is in agreement with the preliminary
results presented by Hoehl [51] which stated that the mouth area of an angry face is preferred
by 7 month-old infants.
However, these results can be influenced by the saliency of the mouth area in the angry
face we used, which was fully open. Therefore, the mouth of the angry expression, which was
looked at longer and triggered the longest peak looks independently of the voice presented,
could have drawn more attention than the mouth of the happy face. Moreover, Caron and
collaborators [34] have demonstrated that 5-month-old infants are influenced by the presence
of teeth when interpreting facial emotions. However, it can be noted that with the faces we used
in our experiment, both faces presented visible teeth, even though the teeth were more salient
in the angry faces. According to Oster & Evy (1980) quoted by Oster [52], 4-months-old infants
differentiate between happy and sad faces if teeth are visible, but are unable to distinguish
between these two emotions if teeth are not visible for the happy face. In agreement with these
authors, we hypothesize that babies evaluate emotions more from the pictorial elements of
faces. Nevertheless, it is after listening to a happy voice that the difference of looking time
between the angry and happy mouth is present, indicating that it’s the novel incongruent mouth
drives attention more.
In the same way, our results showed that after listening to a happy voice, the first
fixations of infants were more drawn to the angry face (novel) than the happy (familiar) face.
These results are consistent with adult studies showing that the visual processing of the face is
extremely fast in adults (fewer than 150 ms) [53], suggesting that the first fixation could be
oriented by the emotional nature of stimuli, and is done so from an early age.
The existence of a cross-modal transfer (from audio to visual modalities) after the happy
voice in 6-month-old infants may be related to the greater familiarity to happiness compared to
anger. Additionally, vocal stimuli of anger could be considered less ecological than those of
happiness. Indeed, it is rare to repeat angry vocalizations endlessly compared to a happy voice
or a real laugh. If we can say that the vocal stimulus is much more familiar (happy in the present
experiment), babies should have a preference for novelty and prefer to explore the incongruous
facial expression (anger). If a voice is less familiar (angry in the present experiment), most
babies will not express a preference for one or the other facial expression (anger or happiness).
To verify this interpretation, it would be wise to study whether a child could link a familiar
sound to its respective object, thus influencing a visual preference.
110
Finally, it is noteworthy that in all the studies mentioned above, most researchers are
not interested in the "gender effect" of babies.Concerning our study, we found no differences
between the male and female infants in accordance with Kuchuk et al. and Labarbera et al.
[38,39].
In conclusion, these results revealed that the angry mouth area drives the most attention
and that a cross-modal transfer (from auditory to visual modalities) is possible for 6-month-old
infants only after the presentation of a happy voice, suggesting that they recognize this emotion
amodally.
111
112
113
114
Expérience 2 : condition 2: visages virtuels et

pseudo-mots
Afin d’avoir une compréhension étendue du développement des capacités de transfert
intermodal, nous avons cherché à savoir si un transfert intermodal serait présent
indépendamment du type de visages et de voix utilisés. De ce fait, pour cette deuxième
expérience, nous avons choisi de reproduire le paradigme de la condition 1, mais en apportant
un meilleur contrôle des stimuli. Dans la deuxième condition, les voix ont été manipulées à
l’aide de pseudo-mots émotionnels exprimés par trois identités différentes. Le transfert, avec
une voix exprimée par différentes actrices, suggère une catégorisation de l’émotion
indépendamment de l’identité et offre ainsi un meilleur contrôle de la reconnaissance des
émotions. En effet, la capacité des bébés à catégoriser les émotions présentées par des identités
différentes comme étant les mêmes est retrouvée plus tardivement que dans les paradigmes
présentant une seule identité (p.ex. A. J. Caron et al., 1988; Rose F. Caron et al., 1982;
Ludemann & Nelson, 1988; C. A. Nelson, 1987; C. A. Nelson & Dolgin, 1985). De plus, les
visages émotionnels virtuels ont été créés à l’aide du logiciel FACSGen. Ce type de visage
présente l’avantage de contrôler les potentiels biais liés aux propriétés physiques du visage. Si
un transfert intermodal est trouvé dans la deuxième condition avec des émotions exprimées par
des stimuli plus contrôlés, cela suggérerait une capacité de transfert plus robuste.
Méthode expérience 2
Vingt-deux bébés âgés de 6 mois et nés à terme (au moins 37 semaines de gestation) (9
filles; âge moyen = 6.36 mois ± 0. 45, intervalle = 7.1-5.4 mois) ont été inclus dans l’échantillon
final de l’étude. En raison de la difficulté d’appliquer la technique du suivi oculaire aux bébés,
un grand nombre de données n’ont pas pu être enregistrées. Vingt-trois bébés supplémentaires
ont été observés, mais exclus de l’échantillon final en raison d’une défaillance technique de
l’eye-tracker (N=7), de mouvements excessifs (N=3) entraînant une perte des données de suivi
du regard, d’une calibration insuffisante (N=6) définie comme plus de 2 ° d’écart sur les axes
x et y, d’une faible attention aux stimuli (N=4) ou de pleurs (N=3). Les caractéristiques
descriptives de l’échantillon final sont les suivantes : l’âge moyen des mères était de 35.04 ans
(± 4.0) et de 37.86 ans (± 6.0) pour les pères. Les parents ayant participé à l’étude étaient
principalement mariés (N=13) ou vivaient en concubinage (N=9). Le statut socioéconomique
115
(SSE) de la famille a été calculé à l’aide de l’échelle Largo basée sur l’occupation paternelle et
l’éducation maternelle, allant de 2 (le SSE le plus élevé) à 12 (le SSE le plus faible) (Largo et
al., 1989). Le statut socioéconomique (SSE) moyen des familles de l’échantillon était de 3.68
± 1.62, intervalle = 2-8. L’étude a été approuvée par le comité d’éthique de la Faculté de
psychologie et des sciences de l’éducation de Genève et tous les parents ont donné leur
consentement éclairé, par écrit, à la participation de leur enfant à cette expérience.
5.2.1.2. Stimuli
Pour le détail des stimuli utilisés dans cette condition, voir la partie II Contributions
expérimentales, point 4.2, Stimuli.
5.2.1.2.1. Stimuli auditifs
Les stimuli utilisés dans cette étude étaient des stimuli auditifs émotionnels non verbaux
de joie, de colère ou neutres provenant de la base de données « GEMEP » (Bänziger et al.,
2012). Il s’agissait de pseudo-phrases constituées de la répétition d’une séquence de phonèmes
pseudo-linguistiques : « nekal ibam soud molen » et « koun se mina lod belam » interprétées
par 3 actrices différentes (ref : 2, 7 et 9) pour une durée totale de 20 secondes.
5.2.1.2.2. Stimuli visuels
Les stimuli visuels émotionnels étaient des visages féminins virtuels créés avec
FACSGen exprimant la joie et la colère (Roesch et al., 2011). Ces visages mesuraient 18 x
12 cm, ils étaient en couleur et ont été présentés sur un fond noir. Les stimuli visuels étaient
toujours présentés par paire, la même identité était présentée simultanément, mais exprimait
deux émotions différentes, la joie et la colère dans l’hémi-champ droit ou gauche de façon
contre-balancée (Figure 38).
Figure 38. Stimuli visuels utilisés dans l’expérience 2. Paires de visages émotionnels.
116
5.2.1.3. Procédure expérimentale
Pour cette étude, nous avons accueilli les bébés et leurs parents au Babylab du
laboratoire du SMAS ou dans une salle du cabinet pédiatrique des doctoresses Hamdan et Oury.
Les parents commençaient par la lecture et la signature du document d’information et de
consentement puis répondaient à un court questionnaire sur l’environnement pré et post-partum.
Ensuite, les bébés étaient confortablement installés dans un siège adapté, à 60 cm de l’écran au-
dessous duquel était placé un eye-tracker (SMI RED 250, SensoMotoric Instruments GmbH,
Teltow, Germany) permettant d’enregistrer les mouvements oculaires.
Afin d’attirer l’attention du bébé sur l’écran, un court dessin animé (max 30 secondes)
extrait de « Le Monde des Petits » était présenté. Toutes les passations commençaient par une
phase de calibration de l’eye-tracker en utilisant 5 points de fixation (cibles colorées et
mouvantes). Le paradigme expérimental correspondait à ce qui a été présenté au chapitre II
Contributions expérimentales, point 4.3, Paradigme expérimental (Figure 29).
5.2.1.4. Analyse des données
Toutes les données ont été extraites à l’aide du logiciel d’analyse Begaze (SMI). Le
temps total de regard en millisecondes a été calculé grâce au net dwell time (temps passé à
regarder les AOIs). Nous avons défini une zone d’intérêt pour l’ensemble du visage et deux
spécifiques pour les yeux et la bouche pour chacune des émotions (Figure 39).
Figure 39. Zone d’intérêt (AOIs) des visages (à gauche) et des yeux et des bouches (à droite) de l’expérience 2.
Nous avons effectué une analyse de la variance (ANOVA) à mesures répétées sur
l’ensemble du visage ainsi que pour les AOIs spécifiques yeux et bouche pour la « baseline »
(voix neutre) et la condition expérimentale (voix de joie et de colère). Dans le but de comparer
toutes les AOIs et toutes les voix, nous avons calculé les distributions de temps de regard total
(DTRT) comme la différence de distribution de regard pour la joie (>0%) ou la colère (<0%)
117
((temps de regard sur la joie - temps de regard sur la colère) / (temps de regard sur la joie +
temps de regard sur la colère)). Un t-test à un échantillon comparé à la chance (0%) a été
effectué avec la DTRT, afin de déterminer une préférence pour les visages émotionnels
significativement supérieure au niveau de chance, plus de 0% pour les visages de joie et moins
de 0% pour les visages de colère. Les analyses statistiques ont été effectuées à l’aide de
Statistica 13. Le seuil de significativité était de .05. Le test de Bonferroni a été effectué afin de
déterminer les différences significatives. Les tailles d’effet ont été calculées avec l’eta-carré
partiel (ηp2) pour les ANOVAs.
Résultats expérience 2
5.2.2.1. Description générale du temps de regard
Pour toutes les voix (neutre, joie, colère), le temps moyen de regard sur les visages était
de 5900/10000ms, intervalle de 5987 à 5741 ms, 27% du temps de regard total était consacré à
l’exploration de la bouche et des yeux.
Figure 40. Heat Map: Les temps de fixation moyens de tous les participants représentés par des couleurs, allant de
bleu très peu regardé à rouge beaucoup regardé.
5.2.2.2. « Baseline » : voix neutre
5.2.2.2.1. Temps de regard sur les visages
Nous avons analysé le temps de regard sur les visages émotionnels après l’écoute d’une
voix neutre. Une ANOVA à mesures répétées a été réalisée sur le temps passé à regarder les
visages avec les visages émotionnels (joie, colère) comme facteur intra-sujets.
118
L’effet principal du visage était non significatif F(1, 21) = 2.62, p = .120, ηp2 =.111,
aucune différence de temps de regard entre le visage de joie (3218 ± 339 ms) et le visage de
colère (2769 ± 263 ms) n’a été mise en avant.
5.2.2.2.2. Temps de regard sur les AOIs
Nous avons analysé le temps de regard sur les AOIs émotionnelles après l’écoute d’une
AOIs avec les AOIs (bouche, yeux) et l’émotion sur les visages (joie, colère) comme facteurs
intra-sujets.
Un effet principal des AOIs a été révélé F(1, 21) = 10.689, p = .004, ηp2 =.337. Les yeux
(1089 ± 189 ms) étaient regardés plus longtemps que la bouche (300 ± 80 ms). Nous observons
également un effet principal de l’émotion exprimée par les visages F(1, 21) = 6.18, p = .021,
ηp2 =.227. Les AOIs de joie (784 ± 97 ms) étaient plus regardées que les AOIs de colère (603
± 78 ms). Ces effets principaux étaient qualifiés par une interaction significative entre les AOIs
et l’émotion F(1, 21) = 10.689, p = .004, ηp2 =.337. L’analyse post-hoc réalisée avec Bonferroni
a indiqué que les yeux de joie (1283 ± 213 ms) étaient plus regardés que les yeux de colère (891
± 178 ms) (p=.003) alors qu’aucune différence entre les bouches de joie (284 ± 97 ms) et de
colère (315 ± 85 ms) n’a été révélée. De plus, les yeux étaient toujours plus regardés que les
bouches.
5.2.2.3. Condition expérimentale : voix émotionnelles
5.2.2.3.1. Temps de regard sur les visages
Nous avons analysé le temps de regard sur les visages émotionnels après l’écoute des
voix émotionnelles. Une ANOVA à mesures répétées a été réalisée sur le temps passé à regarder
les visages avec les visages émotionnels (joie, colère) et les voix émotionnelles (joie, colère)
comme facteurs intra-sujets.
L’effet principal des visages émotionnels était non significatif F(1, 21) = 0.797, p =
.382, ηp2 =.036. L’effet principal des voix émotionnelles était non significatif F(1, 21) = 0.296,
p = .592, ηp2 =.014. L’interaction entre les visages émotionnels et les voix émotionnelles était
également non significative F(1, 21) = 0.056, p = .815, ηp2 =.003. Après l’écoute de la voix de
joie, aucune différence de temps de regard n’était significative entre les visages de joie (3041
119
± 322 ms) et de colère (2931 ± 314 ms) et après l’écoute de la voix de colère, aucune différence
de temps de regard n’était significative entre les visages de joie (2988 ± 341 ms) et de colère
(2752 ± 333 ms).
5.2.2.3.2. Temps de regard sur les AOIs
Nous avons analysé le temps de regard sur les AOIs émotionnelles après l’écoute des
les AOIs avec les AOIs (bouche, yeux) l’émotion exprimée par les visages (joie, colère) et les
voix émotionnelles (joie, colère) comme facteurs intra-sujets.
Un effet principal des AOIs a été révélé F(1, 21) = 5.971, p = .024, ηp2 =.221. Les yeux
(954 ± 173 ms) étaient regardés plus longtemps que la bouche (354 ± 104 ms). Tous les autres
effets principaux et effets d’interactions étaient non-significatifs, toutes les ps >.08.
5.2.2.4. Distribution du temps de regard total (DTRT)
Une ANOVA à mesures répétées a été réalisée sur la distribution du temps de regard
total (DTRT) avec les AOIs (visage, bouche, yeux) et les voix (joie, colère, neutre) comme
facteurs intra-sujets. Un résultat positif représentait le pourcentage du temps de regard en faveur
du visage de joie et un résultat négatif représentait le pourcentage du temps de regard en faveur
du visage de colère.
L’effet principal des AOIs était non significatif F(2, 42) = 0.969, p = .388, ηp2 =.044.
L’effet principal des voix était non significatif F(2, 42) = 0.58, p = .564, ηp2 =.027. L’interaction
entre les AOIs et les voix était également non significative F(4, 84) = 0.722, p = .579, ηp2 =.033.
Nous avons également effectué un test T à un échantillon sur la DTRT pour chaque AOI
(visage, bouche, yeux), en fonction de chaque voix (neutre, joie, colère) comparé au niveau de
chance de 0%. La seule condition dans laquelle il semblait qu’une zone était plus regardée pour
une émotion que l’autre était la zone des yeux du visage de joie par rapport à celle du visage de
colère, uniquement après la voix neutre, t(21) = 3.099, p = .005 (23% ± 3%) (Figure 41). Il est
aussi intéressant de noter que bien que la différence soit non significative, la seule zone qui
semblait attirer un peu plus le regard vers la colère est la bouche après la voix de joie.
120
40%
DTRT sur les AOIs de colère (<0%) et de joie (>0%)
**
30%
Joie
20%
10%
0%
-10%
Colère
-20%
-30%
-40%
Visage Bouche Yeux
voix neutre voix joie voix colère
Figure 41. DTRT sur les AOIs (visage, bouche et yeux) de joie (>0%) ou de colère (<0%) en fonction des voix
(neutre, joie ou colère). Les barres verticales représentent l’erreur standard. **p <.01.
Discussion expérience 2
Le but de cette recherche était d’étudier les capacités de transfert intermodal émotionnel
des bébés de 6 mois et analyser s’il était présent de la même manière que dans la première
expérience (condition 1). La deuxième expérience n’a pas montré une capacité de transfert
intermodal émotionnel dans la condition 2.
Pour commencer, après la « baseline » (voix neutre) aucune préférence spontanée pour
l’un ou l’autre des visages n’a été mise en évidence. Cette absence de préférence visuelle était
attendue après la voix neutre, car le visage de joie et de colère sont tous les deux nouveaux par
rapport à la voix neutre écoutée. Cette absence de préférence pour l’un ou l’autre des visages
après la voix neutre nous a permis d’explorer une éventuelle influence des voix émotionnelles
sur les préférences visuelles. Cependant, après la voix neutre, les AOIs de joie étaient plus
regardées que les AOIs de colère, en particulier les yeux de joie étaient regardés plus longtemps
que les yeux de colère.
121
Ensuite, après l’écoute des voix émotionnelles (joie et colère), nous n’avons retrouvé
aucune préférence significative pour l’un ou l’autre des visages. Du fait de cette absence de
préférence en fonction des voix émotionnelles, nous n’avons pas pu confirmer la présence d’un
transfert intermodal émotionnel dans la condition 2. De plus, après l’écoute des voix
émotionnelles, nous n’avons pas trouvé de différence significative de temps de regard entre les
AOIs en fonction de l’émotion exprimée sur le visage. Malgré tout, il semblait qu’après la voix
de joie, bien que non-significatif, les yeux de joie tendaient à être plus regardés que les yeux de
colère (+13%) et la bouche de colère tendait à être plus regardée que la bouche de joie (-10%).
Par ailleurs, concernant les AOIs, les yeux semblaient toujours être plus regardés que la bouche,
peu importe la voix (neutre, joie ou colère).
En conclusion, les résultats de l’expérience 2 n’ont montré aucune préférence pour l’un
ou l’autre des visages émotionnels selon la voix émotionnelle entendue. De ce fait, ces résultats
n’ont pas permis d’affirmer que les bébés de 6 mois étaient capables d’effectuer un transfert
intermodal émotionnel dans la condition 2. Les stimuli de cette condition ne permettent pas de
mettre en évidence cette capacité observée dans la condition 1 pour des enfants de cet âge.
122
Expérience 3 : contrôle des préférences

visuelles pour les photographies de visages ou les
visages virtuels émotionnels « sans voix »
Nous avons créé une expérience complémentaire dans laquelle nous n’avons pas
présenté de voix. Dans le but de contrôler que l’absence de préférence pour les visages et les
AOIs émotionnelles était aussi présente sans aucune voix. Car il serait possible qu’une voix,
même à la prosodie émotionnellement neutre, pourrait moduler l’attention visuelle. Pour ce
faire, nous avons présenté les mêmes paires de visages émotionnels que celles des conditions 1
et 2 mais précédées d’un écran noir sans aucun son. Ainsi, un temps de regard plus élevé pour
l’un des visages émotionnels suggérerait une préférence visuelle spontanée pour ce dernier.
Quatorze bébés âgés de 6 mois et nés à terme (au moins 37 semaines de gestation) (8
filles ; âge moyen = 6.15 mois ± 0. 43, intervalle = 6.7-5.6 mois) ont été inclus dans l’échantillon
final de l’étude. Trois bébés supplémentaires ont été observés, mais exclus de l’échantillon final
en raison d’une défaillance technique de l’eye-tracker (N=1) ou d’une calibration insuffisante
(N=2) définie comme plus de 2° d’écart sur les axes x et y. Les caractéristiques descriptives de
l’échantillon final sont les suivantes : l’âge moyen des mères était de 33.19 ans (± 4.9) et de
34.75 ans (± 5.7) pour les pères. Les parents ayant participé à l’étude étaient principalement
mariés (N=9) ou vivaient en concubinage (N=5). Le statut socioéconomique (SSE) de la famille
a été calculé à l’aide de l’échelle Largo basée sur l’occupation paternelle et l’éducation
maternelle, allant de 2 (le SSE le plus élevé) à 12 (le SSE le plus faible) (Largo et al., 1989).
Le statut socioéconomique (SSE) moyen des familles de l’échantillon était de 5.14 ± 2.07,
intervalle = 2-8. L’étude a été approuvée par le comité d’éthique de la Faculté de psychologie
et des sciences de l’éducation de Genève et tous les parents ont donné leur consentement éclairé,
par écrit, à la participation de leur enfant à cette expérience.
5.3.1.2. Stimuli
Dans cette étude, aucun stimuli auditif n’a été présenté et les stimuli visuels étaient les
mêmes que ceux de la condition 1 (visages réels) et condition 2 (visages virtuels).
123
laboratoire du SMAS. Après lecture et signature du document d’information et de consentement
et la réponse à un court questionnaire par les parents, les bébés étaient confortablement installés
dans un siège bébé à 60 cm de l’écran au-dessous duquel était placé un eye-tracker (SMI RED
250, SensoMotoric Instruments GmbH, Teltow, Germany) afin d’enregistrer les mouvements
oculaires.
Afin d’attirer l’attention du bébé sur l’écran un court dessin animé (max 30 secondes)
extrait du « Le Monde des Petits » était présenté. Toutes les passations commençaient par une
phase de calibration de l’eye-tracker en utilisant 5 points de fixation (cibles colorées et
mouvantes).
Le paradigme expérimental correspondait à la présentation de 4 essais. Chaque essai

correspondait à la présentation d’un écran noir durant 20 secondes (sans aucun son) suivi de la
présentation d’une paire de visages émotionnels durant 10 secondes. Deux essais
correspondaient aux stimuli visuels de la condition 1 et deux autres essais correspondaient aux
stimuli visuels de la condition 2. L’ordre des essais des conditions 1 et 2 était réparti
aléatoirement entre les sujets. L’expérience se déroulait sur une durée totale de 2 minutes
(Figure 42).
Figure 42. Paradigme de l’expérience 3.
124
Toutes les données ont été extraites à l’aide du logiciel d’analyse Begaze (SMI). Le
temps total de regard en millisecondes a été calculé grâce au net dwell time (temps passé à
regarder les AOIs). Nous avons défini une AOI générale pour l’ensemble du visage et deux
spécifiques pour les yeux et la bouche pour chacune des émotions (Figure 34, Figure 35, Figure
39).
Nous avons effectué une analyse de la variance (ANOVA) à mesures répétées sur
l’ensemble du visage ainsi que pour les AOIs spécifiques yeux et bouche. Les analyses
statistiques ont été effectuées à l’aide de Statistica 13. Le seuil de significativité était de .05. Le
test de Bonferroni a été effectué afin de déterminer les différences significatives. Les tailles
d’effet ont été calculées avec l’eta-carré partiel (ηp2) pour les ANOVAs.
5.3.2.1. Temps de regard sur les visages
Nous avons analysé le temps de regard sur les visages émotionnels après la présentation
d’un écran noir sans aucune voix. Une ANOVA à mesures répétées a été réalisée sur le temps
passé à regarder les visages avec les visages émotionnels (joie, colère) et la condition (1, 2)
comme facteur intra-sujets.
L’effet principal du visage était non significatif F(1, 13) = 0.00, p = .995, ηp2 =.000,
aucune différence de temps de regard entre le visage de joie (2430 ± 275 ms) et le visage de
colère (2428 ± 263 ms) n’a été retrouvé. L’effet principal de la condition était non significatif
F(1, 13) = 0.37, p = .552, ηp2 =.028. De plus, l’interaction entre les visages et la condition était
non significative F(1, 13) = 1.09, p = .315, ηp2 =.077.
5.3.2.2. Temps de regard sur les AOIs
Nous avons analysé le temps de regard sur les AOIs émotionnelles. Une ANOVA à
mesures répétées a été réalisée sur le temps passé à regarder les AOIs avec les AOIs (bouche,
yeux), l’émotion sur les visages (joie, colère) et la condition (1, 2) comme facteurs intra-sujets.
125
L’effet principal des AOIs était non significatif F(1, 13) = 1.32, p = .271, ηp2 =.092,
aucune différence de temps de regard entre les yeux (660 ± 135 ms) et la bouche (437 ± 15 ms)
n’a été mise en évidence. L’effet principal de l’émotion exprimée par les visages était non
significatif F(1, 13) = 0.00, p = .954, ηp2 =.000. De plus, l’effet de la condition était également
non significatif F(1, 13) = 0.06, p = .810, ηp2 =.000. L’interaction entre les AOIs et la condition
s’est révélée significative F(1, 13) = 5.79, p = .031, ηp2 =.308. Cependant, l’analyse post-hoc
réalisée avec Bonferroni n’a indiqué aucune différence significative, simplement une légère
tendance à ce que les yeux (856 ± 232 ms) aient été plus regardés que la bouche (272 ± 67 ms)
dans la condition 2 (visages virtuels), p = .099. Toutes les autres interactions étaient non-
significatives, toutes les ps > .35.
L’objectif de cette expérience complémentaire était de vérifier que les visages

émotionnels n’induisaient pas de regard préférentiel spontané et que l’absence de préférence
pour l’un ou l’autre des visages après la voix neutre était bien retrouvée sans aucune voix.
Les résultats de cette étude complémentaire ont confirmé que les visages et les AOIs de
colère et de joie semblaient être regardés autant à 6 mois, et ce dans les deux conditions
expérimentales. Cette étude complémentaire a mis en avant une seule légère différence
concernant le temps de regard entre les yeux et la bouche. Il semblerait qu’avec les visages
virtuels, les yeux aient été tendentiellement plus regardés que la bouche, ceci étant en accord
avec les résultats de l’expérience 2.
126
Discussion générale étude 1

L’étude 1 avait pour objectif principal d’examiner si les bébés de 6 mois pouvaient
transférer des informations amodales des voix émotionnelles aux visages émotionnels grâce à
une analyse eye-tracking. L’objectif secondaire de cette étude était d’étudier les zones d’intérêts
(AOIs) explorées par les bébés. Afin d’avoir une meilleure compréhension des capacités de
transfert intermodal, nous avons cherché à savoir si un transfert intermodal était présent
indépendamment du type de visages et de voix utilisées. De ce fait, deux conditions différentes
ont été présentées aux bébés, la condition 1 dans laquelle les voix étaient des vocalisations non-
verbales et les visages étaient des photographies (expérience 1 : article publié dans PloSONE)
et la condition 2 dans laquelle les voix étaient des pseudo-mots et les visages étaient virtuels
(expérience 2). Une troisième expérience a été menée afin de contrôler les préférences visuelles
spontanées pour les visages et les AOIs émotionnelles (conditions 1 et 2) sans qu’aucune voix
n’ait été entendue préalablement.
Premièrement, les bébés de 6 mois n’ont pas montré de préférence spontanée pour l’un
des visages émotionnels de joie ou de colère. Effectivement, dans l’expérience 3, après la
présentation d’un écran noir sans voix, les deux visages émotionnels n’étaient pas
significativement regardés différemment, et ce dans les deux conditions. Cette absence de
résultat significatif pourrait confirmer l’hypothèse que la préférence pour le visage de joie
diminue avec l’âge. En effet, la plupart des études ont démontré une préférence spontanée pour
le visage de joie durant les premiers mois de vie (A. J. Caron et al., 1988; Farroni et al., 2007;
Kuchuk et al., 1986; LaBarbera et al., 1976; Montague & Walker-Andrews, 2002; Rigato et al.,
2011; Rochat et al., 2002) (pour une revue, cf. Bayet et al., 2014). Cependant, de récentes études
montrent que cette préférence semble diminuer avec l’âge et est remplacée par une préférence
pour une émotion négative. En effet, des chercheurs ont démontré un biais attentionnel pour la
peur dès 3-5 mois (Bayet et al., 2017; Heck et al., 2016; Peltola, Leppänen, Mäki, et al., 2009;
Safar et al., 2017). Un biais pour les visages de dégoût comparé aux visages de joie a également
été montré à 3, 5 et 7 mois (Godard et al., 2016).
De plus, après l’écoute de la voix neutre (expérience 1 et 2), les deux visages
émotionnels n’étaient pas regardés différemment d’une façon significative, et ce dans les deux
conditions. Selon notre hypothèse de transfert intermodal, les deux visages émotionnels étaient
nouveaux vis-à-vis de la voix entendue, de ce fait l’absence de préférence pour l’un des visages
127
émotionnels était attendue. Cette absence de différence significative suggérerait que l’écoute
d’une voix neutre n’influence pas les temps de regard pour l’un ou l’autre des visages
émotionnels.
Deuxièmement, les résultats ont révélé une capacité de transfert intermodal émotionnel
à 6 mois, mais seulement à certaines conditions. D’une part, pour la condition 1, les résultats
n’indiquaient aucune différence significative de temps de regard sur le visage de joie ou de
colère après avoir écouté la voix de colère. Alors qu’après avoir écouté la voix de joie, les bébés
regardaient plus longtemps le visage de colère incongruent que le visage de joie congruent.
D’autre part, pour la condition 2, après l’écoute des deux voix émotionnelles (joie et colère),
nous n’avons retrouvé aucune préférence pour l’un ou l’autre des visages, contrairement à la
condition 1. Cette absence de préférence peut être due à la difficulté des stimuli employés dans
la seconde condition. En effet, les visages étaient des visages virtuels 3D permettant d’éliminer
les éventuels biais liés aux autres propriétés physiques du visage. Cependant, les bébés sont
exposés dans leur environnement à des visages réels et non à des visages virtuels. Ainsi, ces
visages non-familliers pourraient perturber leurs capacités d’exploration. Mais encore, faire le
lien entre ces visages virtuels et les voix entendues pourrait être trop compliqué. D’autre part,
les voix étaient des pseudo-mots émotionnels exprimés par trois identités différentes. Il se peut
que l’émotion vocale exprimée par ces différentes identités n’ait pas été catégorisée comme une
émotion et, de ce fait, le transfert de la voix aux visages était trop difficile. Du fait de cette
absence de préférence en fonction des voix émotionnelles, nous n’avons pas pu confirmer la
présence d’un transfert intermodal émotionnel dans la deuxième condition.
Troisièmement, concernant les AOIs, dans la condition 1, nous n’avons pas trouvé de
différence de temps de regard entre les yeux et la bouche, en accord avec l’étude de Amso et
al., (2010). Alors que dans la condition 2, les yeux semblaient toujours plus regardés que la
bouche, peu importe la voix (neutre, joie ou colère). Ce résultat est en accord avec la majorité
des études réalisées en eye-tracking (Hunnius et al., 2011; Peltola, Leppänen, Vogel-Farley, et
al., 2009; Soussignan et al., 2018). De plus, après la voix neutre, pour la condition 1, les AOIs
de la bouche et des yeux n’ont montré aucune différence de temps de regard. Alors que pour la
condition 2, les AOIs de joie étaient plus regardées que les AOIs de colère, en particulier les
yeux de joie étaient regardés plus longtemps que les yeux de colère. Par ailleurs, après l’écoute
des voix émotionnelles, pour la condition 1, après la voix de joie, un temps de regard plus
important sur la bouche de colère que celle de joie a été mis en évidence. Alors que pour la
128
condition 2, nous n’avons pas retrouvé de différence significative de temps de regard entre les
AOIs en fonction de l’émotion exprimée sur le visage. Malgré tout, il semblerait qu’après la
voix de joie, bien que non-significatif, les yeux de joie tendaient à être plus regardés que les
yeux de colère et la bouche de colère tendait à être plus regardée que la bouche de joie. Alors
qu’après la voix de colère, les yeux et la bouche n’ont révélé aucune différence de temps de
regard entre les deux visages émotionnels. Ces résultats vont dans le même sens que ceux
obtenus dans la condition 1. Cette tendance retrouvée dans la condition 2, ne peut être due à la
saillance de la bouche comme proposé dans la discussion de la condition 1, car dans ces stimuli,
les bouches avaient le même degré d’ouverture pour les deux émotions. Dans la condition 2,
cette tendance nous laisse imaginer que les éléments internes des visages émotionnels étaient
explorés différemment en fonction de la voix entendue, mais n’ont pas permis de conclure à un
transfert. Néanmoins, ils renforcent l’hypothèse d’une capacité d’un transfert émotionnel
précoce dans la condition 1.
En conclusion, ces résultats ont révélé qu’un transfert intermodal (des modalités
auditives aux modalités visuelles) était possible pour les bébés de 6 mois seulement dans la
condition 1 (expérience 1), après la présentation d’une voix de joie. Suggérant qu’ils sont
capables, à certaines conditions, de percevoir cette émotion de manière amodale.
129
(joie vs. colère) à 2, 4 et 6 mois : analyses
caméra
Résumé 10. Etude 2
Cette étude a examiné, à travers 2 expériences, si les bébés de 2, 4 et 6 mois seraient

capables d’extraire une information émotionnelle amodale de la voix au visage. Ainsi,
des séquences de transfert intermodal émotionnel ont été montrées individuellement à
chacun des bébés. Chaque séquence présentait une voix neutre ou émotionnelle (colère
ou joie), suivie de la présentation simultanée de deux visages émotionnels statiques
(colère et joie). Deux conditions ont été présentées, la condition 1 dans laquelle les voix
étaient des vocalisations non-verbales et les visages étaient des photographies
(expérience 4 : manuscrit soumis) et la condition 2 dans laquelle les voix étaient des
pseudo-mots et les visages étaient virtuels (expérience 5). Les mouvements oculaires en
réponse aux stimuli visuels ont été enregistrés à l’aide d’une caméra.
Pour la condition 1 (expérience 4), le résultat principal était qu’à 6 mois seulement, après
avoir écouté une voix de joie, les bébés regardaient davantage le visage de colère
incongruent que le visage de joie. Ces résultats confirment ceux de l’expérience 1. Pour
la condition 2 (expérience 5), aucune préférence pour le visage de joie ou de colère n’a
été mise en évidence. Ces résultats confirment ceux de l’étude 1, condition 2 et suggèrent
que les stimuli utilisés seraient trop complexes pour déclencher un transfert intermodal
émotionnel. La seule différence mise en évidence était que les yeux de joie étaient plus
regardés que les yeux de colère après l’écoute de la voix neutre.
L’ensemble de ces résultats a révélé qu’un transfert intermodal émotionnel (des

modalités auditives aux modalités visuelles) était possible pour les bébés de 6 mois
seulement dans la condition 1, après la présentation d’une voix de joie. Ces résultats
suggèrent que la capacité à percevoir l’émotion de joie de manière amodale émergerait
entre 4 et 6 mois, à certaines conditions.
131
Expérience 4: condition 1: photographies de

visages et vocalisations non-verbales: The cross-
modal transfer of emotional information (happy or
angry) from voices to faces in 2, 4 and 6 month-old
infants3
3
Cette expérience est une reproduction de l’article: Palama, A., Malsert, J., & Gentaz, É. (submitted). The cross-
modal transfer of emotional information (happy or angry) from voices to faces in 2, 4 and 6 month-old infants.
132
6. ETUDE 2 : TRANSFERT INTERMODAL ÉMOTIONNEL À 2, 4 ET 6 MOIS
The cross-modal transfer of emotional information (happy

or angry) from voices to faces in 2, 4 and 6 month-old
infants
Amaya Palama1,2*, Jennifer Malsert1,2, Edouard Gentaz1,2,3
1
SensoriMotor, Affective and Social Development Laboratory, Faculty of Psychology and
Educational Sciences, University of Geneva, Geneva, Switzerland
2
Swiss Center for Affective Sciences, Campus Biotech,University of Geneva, Geneva,
Switzerland.
3
CNRS, France.
* Corresponding author
E-mail: amaya.palama@unige.ch (AP)
Postal address: Amaya Palama, 40 blvd du Pont-d’Arve, 1211 Geneva, Switzerland
Phone: +4122.379.91.48
Running title: Cross-modal transfer of emotions in infants
Abstract
This present study examined whether 2-, 4- and 6-month-old infants are able to extract
and transfer an amodal emotional information (i.e. indepedently of sensory modalities) from
voices to faces. Thus, sequences of successive cross-modal transfers were individually shown
to each of the infants. Each sequence presented a neutral or an emotional voice (angry or happy),
uniquely, followed by the simultaneous presentation of two static emotional faces (angry and
happy). The main result showed that only at 6 months, after listening to a happy voice, infants
looked more at the incongruent angry face than the happy face (greater than chance), confirming
the previous results observed in an eye-tracking study (Palama, Malsert, & Gentaz, 2018).
Moreover, the results suggested a preference looking time and number of looks for the angry
face after listening to emotional voices in three age groups. These results suggested that the
ability to recognize the happy emotion amodally emerge between 4 and 6 months.
Keywords: infancy; development; emotions; amodal
133
Résumé
Cette étude examine la compétence des bébés âgés de 2, 4 et 6 mois à extraire et

transférer une information émotionnelle amodale (indépendamment de la modalité sensorielle)
d’une voix à un visage. Pour étudier un tel transfert, des voix neutres ou émotionnelles (colère
ou joie) ont été présentées individuellement aux bébés, suivies par la présentation d’une paire
de visages émotionnels statiques (colère et joie). Le résultat principal montre que seulement à
6 mois, après l’écoute d’une voix de joie, les bébés regardent plus le visage incongruent de
colère que le visage de joie (supérieur au niveau de chance), confirmant le résultat d’une étude
eye-tracking (Palama, Malsert, & Gentaz, 2018). De plus, les résultats suggèrent que le visage
de colère est plus regardé après l’écoute des voix émotionnelles aux trois âges étudiés. Ces
résultats suggèrent que la capacité à percevoir une expression de joie de manière amodale
émergerait entre 4 et 6 mois.
Mots clés : enfance ; développement ; émotion ; amodale
Introduction
Faces and voices are important sources of information for parent-infant interaction. With
these features, infants’ caregivers naturally express their emotion in order to communicate.
Indeed, emotions are important for interaction and make it possible to convey one’s internal
state and intentions to others (Sander & Scherer, 2014). The perception of emotional
expressions is not trivial for infants and the development of this ability depends on the age, the
type of emotions expressed and their mode of presentation (for reviews see: Bayet, Pascalis, &
Gentaz, 2014; Leppänen & Nelson, 2009). The occurrence of the ability to discriminate
emotional in unimodal (visual or auditory stimuli) or multimodal (visuo-auditivo stimuli)
conditions do not allow us to determine whether it results from an amodal representation of the
emotion or from a sensitivity to specific perceptual features, visual or auditory.
Palama, Malsert and Gentaz (2018) overcame this difficulty in choosing to use
a paradigm with a successive cross-modal transfer from emotional voices to emotional faces.
Thus, they examined the ability to transfer cross-modally from emotional voices to emotional
faces (angry or happy) in 6-month-old infants. The aim of this experiment was to understand if
134
the discrimination of emotion in infants is based on physical features (visual or acoustic) or if

the infants recognize emotion amodally, i.e. independently of the sensorial modality. This
earlier experiment consisted of six sequences of cross-modal transfers that were individually
displayed to each infant. Each sequence consisted of an auditory familiarization phase where
voices (neutral and emotional: happy or angry) were presented followed by a visual test phase
without any sound where the two emotional faces (happy and angry) were presented
simultaneously, one familiar and the other novel vis-à-vis the emotional voices. Eye movements
in response to the visual stimuli were recorded with an eye-tracker. First, results suggested no
difference in infants’ looking time at the happy or angry face after listening to the neutral voice
or the angry voice. Nevertheless, after listening to the happy voice, infants looked longer at the
incongruent angry face (the mouth area in particular) than the congruent happy face. These
results revealed that a cross-modal transfer (from auditory to visual modalities) is possible for
6-month-olds, only after the presentation of a happy voice, suggesting that they recognize this
emotion amodally. These results are consistent with studies which revealed a categorical
discrimination of happiness and several other emotions (surprise, sadness, fear) from 6-7
months (for reviews: (Bayet et al., 2014; Leppänen & Nelson, 2009; Nelson, 1987)).
The main goal of the present experiment is to examine the early development of the ability
to transfer emotional information from voices to faces in infants aged 2, 4 and 6 months. In
using the same experimental paradigm as that of the study of Palama et al. (2018) but with a
classic camera to record the looking time and the number of look, we expect that this ability
would be present in 6-month-old infants for happy expressions. We will analyse if this ability
could also be observed earlier. Three prior abilities are necessary but not sufficient before 6
months: the auditory ability to discriminate emotions and the visual ability to discriminate
emotions and a cross-modal transfer of general information from the auditory to visual
modality.
First, infants at birth seem able to discriminate between emotions presented in voices,
such as fearful compared to happy or neutral ones (Cheng, Lee, Chen, Wang, & Decety, 2012),
happiness compared to anger, sadness or neutral (Mastropieri & Turkewitz, 1999) speech. As
early as 3-months, infants detect changes in vocal expression from sadness to happiness
(Walker-Andrews & Grolnick, 1983; Walker-Andrews & Lennon, 1991).
Second, infants are able to discriminate visually between happiness and other
expressions. This ability seems actually already possible in newborns in some conditions
(Farroni et al., 2007; Field et al., 1982; Rigato et al., 2011). However, these results are not
always replicated (Kaitz, Meschulach-Sarfaty, Auerbach, & Eidelman, 1988; Oostenbroek et
135
al., 2016) and the happiness seems to be the only facial expression efficiently perceived.
Moreover, before 5 months, studies have found a preference for happy compared to neutral
faces at 3 (Kuchuk, Vibbert, & Bornstein, 1986a) or 4 month-olds (LaBarbera, Izard, Vietze,
& Parisi, 1976a), or a preference for happy compared to sad faces at 4 months (A. J. Caron,
Caron, & MacLean, 1988; Montague & Walker-Andrews, 2002). Studies also demonstrated
discrimination between happiness and surprise (R. F. Caron, Caron, & Myers, 1982; Young-
Browne, Rosenfeld, & Horowitz, 1977), or anger (Barrera & Maurer, 1981) at 3 months,
sadness at 3-5 months (A. J. Caron et al., 1988; Montague & Walker-Andrews, 2002), neutral
(Bornstein, Arterberry, Mash, & Manian, 2011) and fear (Bornstein & Arterberry, 2003) at 5
months.
Third, studies revealed that infants younger than 6 months can code information in one
modality (eg. auditory or visual) and then perceive this information in another modality (eg.
visual) as suggested by Gibson (1969) (for review see Streri, 2012). Thus, there is some
evidence that newborns can transfer audio-visual information for example in number perception
(Izard, Sann, Spelke, & Streri, 2009) or synchrony between speech and faces (Aldridge, Braga,
Walton, & Bower, 1999; Guellaï, Coulon, & Streri, 2011). Moreover, studies investigating
visual and auditory speech in intermodal matching tasks observed that as of 2 months of age,
infants could match vowels (Kuhl & Meltzoff, 1984, 1984; Patterson & Werker, 2003).
On the bases of these three prior abilities, we investigated whether the ability to transfer
emotional information from voices to faces would also be present in 2-and-4-month-old infants
for happy expressions.
Method
The final sample of the study was made up of sixty-one full-term (at least 37 weeks of
gestation) infants aged 2, 4 and 6 months broken down into age groups thus: 14 2-month-old
infants (6 females; mean age = 68.00 days ± 7.76, range = 57–80 days), 19 4-month-old infants
(8 females; mean age = 130.89 days ± 10.46, range = 115–146 days) and 28 6-month-old infants
(18 females; mean age = 184.50 days ± 9.33, range = 157-199 days). The descriptive
characteristics of the sample are as follows: the mean age of the mothers was 34.14 (± 6.8)
years and 35.99 (± 6.9) years for the fathers. The majority of the parents that participated in the
study are married or live together (95%), while few was a single mother raising her child alone
136
(5%). The mothers of these infants tested reported not having been affected by perinatal
depression. The family’s socioeconomic status (SES) was calculated using the Largo scale
based on paternal occupation and maternal education, ranging from 2 (the highest SES) to 12
(the lowest SES) (Largo et al., 1989). The mean socioeconomic status (SES) of the family’s
used in the sample was 3.59 ± 2.16, range = 2-10. Fifty-one additional infants (14 at 2 months
10 at 4 months and 27 at 6 months) were excluded due to infants behavior (N=14), failure of
recording or coding videos (N=10), to side-bias (N=15), i.e. they looked to one side more than
95% of the time in at least 3 trials or were excluded for not looking more than 50% of the time
(N=3), or for not looking at least for one trial (N=9). Approval for the study was given by the
Ethics Committees of the Faculty of Psychology and Educational Sciences of Geneva and all
parents gave written informed consent for the participation of their children in the experiment.
The experiment was performed in accordance with the relevant guidelines and regulations.
6.1.4.2. Stimuli
The auditory and visual stimuli were the same as those used by Palama et al. (2018).
The auditory stimuli were emotional nonverbal voices of happiness, anger and neutral emotion
of a woman (ref: SF60) extracted from the “Montreal Affective Voice” database (Belin, Fillion-
Bilodeau, & Gosselin, 2008). They were expressive onomatopoeic voices based on the emission
of the vowel /a/. Each voice repeated for 20 seconds, corresponding to one second of voice and
one second of break. The volume of auditory stimuli did not exceed 60 dBA. The visual stimuli
were a woman’s emotional happy and angry faces (ref: SF4) extracted from “The Karolinska
Directed Emotional Faces - KDEF” database (Lundqvist, Flykt, & Öhman, 1998). In these
pictures the hair was not visible, each measured 9.1 x 9.1 cm and was in black and white
presented on a medium gray background (RGB 100, 100, 100). Faces were presented in pairs,
pseudo-randomized for the left and right presentation.
6.1.4.3. Experimental procedure
The experimental procedure was the same as in Palama et al. (2018). Each infant was
comfortably installed in a suitable seat, facing a computer screen that was 60 cm away. The
stimulus display screen measured 47.5 x 30 cm with a spatial resolution of 1680 x 1050 pixels.
Visual stimuli measured 8.7° x 8.7° of visual angle. To focus the infant’s attention on the screen,
137
just before starting the experiment, we presented a cartoon extracted from “Le Monde des
petits”. The gaze on visual stimuli was recorded with a video camera (Sony HDR-CX220).
This experiment consisted of the presentation of 6 trials of audio-visual transfers
sequences lasting 3 minutes for each infant (cf. Fig 1). Each trial consisted of a succession of
an auditory familiarization phase followed by a visual test phase. The familiarization phase
consisted in 20 seconds exposure to a voice (neutral, happy or angry prosody) accompanied by
a black display screen. The test phase consisted in the presentation of a pair of emotional faces
(happy and angry) for 10 seconds. The left-right position of both emotional faces was reversed
for each voice. Six trials were presented in this order, in the first two, infants heard the neutral
voice during the familiarization phase to obtain the baseline of spontaneous visual preferences
for one of the emotional faces (angry or happy) without an emotional triggering. In the next 2
trials, infants heard one of the emotional voices during the familiarization phase, firstly the
happy and secondly the angry voice. Each voice was followed by the test phase corresponding
to the pair of emotional faces (angry and happy), one novel face and one familiar face to the
emotional voice. The last 2 trials were same as the 2 previous ones but the faces were laterally
counterbalanced in the test phase. The happy voice was presented first, to avoid the triggering
of a negative reaction by the negative stimulus (Geangu et al., 2010).
Figure 43. Fig 1. Schematic representation of the successive presentation of all stimuli.
138
6.1.4.4. Data analysis
The looking time to the left side or the right side of the screen was recorded by a camera.
The looking times that occurred in response to the visual stimuli in each of the 6 test phases
was coded offline with BORIS (Friard & Gamba, 2016) by two naïve observers with a mean of
0.90 agreement (Pearson’s r). We calculated the mean of the two observations for the analyses.
We performed repeated measures analysis of variance (ANOVA) on the total looking times and
the number of looks to each side of the screen (left or right) corresponding to both emotional
faces (happy and angry). The Infant’s Proportion of Total Looking Time (PTLT) was also
calculated as the difference proportion of looking time to happy (>0%) or to angry (<0%)
[(looking time to happy/(looking time to happy + looking time to angry)) – (looking time to
angry/(looking time to happy + looking time to angry))]. One-sample t-test against chance (0%)
was conducted with PTLT, to determine a looking preference for the emotional faces
significantly greater than chance, more than 0% for happy and less than 0% for angry faces.
Because Palama et al. (2018) found no differences between the male and female infants, we
didn’t analyze the gender effect in the present experiment. The significance threshold was .05
and Bonferroni test was performed to determine significant differences, effect sizes are given
in partial eta-squared ηp2 for ANOVAs. Statistical analyses were conducted using Statistica 13.
Results
6.1.5.1. Baseline condition: analyzes of neutral voice effect on

the looking time and the number of looks
Firstly, we analyzed the results of the baseline condition for the looking time toward the
happy or angry face presented after the neutral voice in function of the age group (2, 4 and 6
months). After the neutral voice, we found no significant difference concerning the looking
time toward the emotional faces F(1, 58) = 1.04, p = .31, ηp2 = .02, no difference between the
age group F(2, 58) = 0.49, p = .61, ηp2 = .02 or interaction between the looking time directed at
emotional faces and age F(2, 58) = 0.96, p = .39, ηp2 = .03.
We also analyzed the number of looks toward the happy or the angry face presented
after the neutral voice in function of the age group (2, 4 and 6 months). After the neutral voice,
we found that the number of looks increase with infant development. Indeed, the age effect was
significant (F(1, 58) = 11.76, p <.001, ηp2 = .29), the number of looks directed at each emotional
139
face was higher in 6-month-old infants (2.65 ± 0.16) than in 4-months (1.80 ± 0.19; p < .01)
and in 2-months (1.41 ± 0.22; p < .001). All other factors and interactions were not significant
(all p >.50).
6.1.5.2. Experimental conditions: analyzes of emotional voice

effect on the looking time and the number of looks
Secondly, we analyzed the looking time directed at happy and angry faces presented after
the emotional voices (happy or angry) in function of the age group (2, 4 and 6 months). The
age effect was not significant (F(2, 58) = 1.90, p =.16, ηp2 =.06) and did not interact with other
factors (all p >.35). Particularly, the triple interaction among the age, the faces and the voices
was not significant (F(2, 58) = 1.01, p = .37, ηp2 = .00). We found a main effect of the face (F(1,
58) = 9.48, p <.01, ηp2 = .14), the angry face was looked at more (4.41 ± 0.19 s.) than the happy
face (3.44 ± 0.17 s.). The voice effect was not significant (F(1, 58) = 1.29, p = .26, ηp2 = .02).
The interaction between the emotional voice familiarization condition and the emotional face
(F(1, 58) = 0.11, p = .74, ηp2 =.00) was not significant. Nevertheless, according to Iacobucci
(2001), it is possible to examine the effect of a non-significant interaction given certain
conditions. Thus, if a simple effect is significant, we can explore its effect on the second, non-
significant, one. Under these circumstances, we can explore our a priori hypotheses; i.e. the
effect of voices on the looking time directed at faces, as carried out in Palama et al. (2018).
Therefore, pre-planned comparisons show that, after hearing the happy voice, infants looked
longer at the angry face (4.51 ± 0.22 s.) than the happy face (3.45 ± 0.23 s.), (F(1, 58) = 6.54, p
< .05). After hearing the angry voice infants tend to look longer at the angry face (4.29 ± 0.26
s.) than at the happy face (3.43 ± 0.23 s.) (F(1, 58) = 3.83, p =.055) (cf. Fig 2).
Figure 44. Fig 2. Looking time at happy or angry faces. Infants’ mean looking time (s) in function of voices
(angry or happy) and emotional faces (angry: black or happy: grey). After hearing a happy voice, infants look
140
longer at the angry face than the happy face (F(1, 58) = 6.54, p < .05). The vertical bars represent positive standard
errors, * p <.05.
Then, we analyzed the number of looks toward the happy or the angry face presented
after the emotional voices (happy or angry) in function of the age group (2, 4 and 6 months).
The age effect was significant (F(2, 58) = 10.27, p < .001, ηp2 = .26). After Bonferroni
corrections, we found that the number of looks directed at each emotional face was higher in 6-
month-old infants (2.38 ± 0.11) than in 2-months (1.21 ± 0.21; p <.001) and a tendency with
the 4-months (1.80 ± 0.18; p = .055). The face effect was also significant (F(1, 58) = 5.72, p
<.05, ηp2 =.29), infants directed their gaze more often to the angry face (1.86 ± 0.11) than the
happy face (1.73 ± 0.11). All other factors and interactions were not significant (all p >.50).
However, we perform pre-planned comparison analyses to explore our a priori hypotheses; i.e.
the effect of voices on the number of looks directed at faces (Iacobucci, 2001). These analyses
showed that after hearing the happy voice, infants tend to direct their gaze more often to the
angry face (1.91 ± 0.12) than the happy face (1.77 ± 0.12), (F(1, 58) = 3.02, p=.09) but not after
the angry voice (F(1, 58) = 2.50, p=.12).
6.1.5.3. Baseline and experimental conditions: analyses of the

infant’s Proportion of Total Looking Time (PTLT) to
happy or angry faces in function of ages and voices
Thirdly, to determine the preference for the emotional face significantly greater than
chance in function of the age group (2-4 and 6 months) and the voice condition (angry, happy
or neutral), we conducted a one-sample t-tests against chance of no preference (0%) under the
PTLT to happy face (>0%) and the PTLT to angry face (<0%) separately by age and voice
conditions (cf. Fig 3). Results suggested that only the 6-month-old infants exposed to the happy
voice showed a significative looking preference for angry face (-12% ± 4%) (t(27) = -2.69, p
<.05).
141
Figure 45. Fig 3. PTLT to happy (>0) or angry (<0) faces: in function of voices (neutral, happy or angry) and
ages (2, 4 and 6 months). After hearing a happy voice, only 6 month infants look longer at the angry face than the
happy face (t(27) = -2.69, p < .05). The vertical bars represent standard errors, *p <.05.
Discussion
The aim of this experiment was to determine if 2 to 6-month-old infants are able to extract
and transfer amodal components in emotional facial expressions (happy or angry) through a
cross-modal transfer paradigm - from auditory to visual modalities. The present experiment
suggests the presence of a cross-modal transfer from happy voice to emotional faces only at 6
months.
On the one hand, after a neutral voice, both faces are looked at equally in accordance with
observed in the previous study (Palama et al., 2018). We didn’t find a spontaneous preference
for the happy face as suggested by some several studies (A. J. Caron et al., 1988; Kuchuk,
Vibbert, & Bornstein, 1986b; LaBarbera, Izard, Vietze, & Parisi, 1976b; Montague & Walker-
Andrews, 2002). In regards to the cross-modal transfer, the absence of visual preference for one
facial expression over another was expected with the neutral voice. In this emotional cross-
modal transfer, after a neutral voice both angry and happy faces are novel emotions. These
results were not consistent with the idea of a spontaneous visual preference for happiness.
On the other hand, after the emotional voices (angry and happy), the angry face is looked
more and longer than the happy face. But after pre-planned comparisons it is especially after
the happy voice that the angry face is looked at more and longer than the happy face. Moreover,
it is only at 6 months that a preference for the angry face compared to the happy face greater
142
than chance was found after the happy voice. This result suggests the emergence of an
emotional cross-modal transfer. However, we can express caution about the presence of such
an ability. Indeed, as shown in a previous study (Palama et al., 2018), it is possible that the
preference for the angry face could be affected by the saliency of the mouth. Nevertheless, it is
after listening to emotional voices and especially after the happy voice that the angry face is
looked at longer, suggesting that it is the novel incongruent face that drives attention more. It
is consistent with a previous study in eye-tracking at 6-months (Palama et al., 2018) and the
one of Montague & Walker-Andrews (2002) which demonstrates a preference for the
incongruent happy or angry monther’s expression at 4 months. But most of the intermodal
matching studies with angry or happy expressions found a preference for the congruent one
(Soken & Pick, 1992, 1999; Vaillant-Molina, Bahrick, & Flom, 2013; Walker, 1982; Walker
Andrews, 1986). This study showed the ability to transfer emotional information from voice to
face, suggesting an amodal comprehension of the happy emotion at 6-months only.
The primacy of a cross-modal transfer from the happy voice to happy face may be
associated with a greater familiarity to happiness compared to anger. Definitely, most caregiver
express happiness in priority with their infants. This familiarity seems associated with an early
discrimination of happiness compared to all other basic emotions (Bayet et al., 2014). Indeed,
in the case of a maternal postpartum depression, infants are less exposed to happiness and their
discrimination of emotion is compromised (Raag et al., 1997). We could argue that the angry
stimulus is less familiar than the happy one and thus misunderstood.
From a developmental point of view, concerning the number of looks, we found that
with age they do more number of looks interpreted as back-and-forth between the faces. The
increase number of looks with age demonstrate that older infants explore more attentively and
compared more the faces at which they are exposed. According to Cohen (1972), there is a low
but negative correlation between the measures of looking time and number of looks, moreover,
mean of looking time seems more sensitive indicator of visual acuity. Concerning the global
looking time, our results suggested that there is no difference in 2, 4 and 6-month-old infants.
Although the three prior abilities necessary to observe an early emotional cross-modal
transfer (emotional vocal and facial discrimination and ability of cross-modal transfer) are met
in early infancy, the successive emotional cross-modal transfer from voices to faces could be
difficult for infants before 6 months. Indeed, according to the intersensory redundancy
hypothesis (Bahrick, Lickliter, & Flom, 2004), multimodal stimulation facilitated the
perception of amodal properties. With the development, infant attention becomes more flexible,
143
and amodal properties can also be detected in unimodal stimulation. Flom and Bahrick (2007)
tested these predictions and showed that 4-month-old infants are able to discriminate between
video clips presenting a happy, angry or sad woman when voice and faces are shown
simultaneously and synchronized. While, it is necessary to wait until 5 months for the unimodal
vocal discrimination (i.e. auditory stimuli were paired with a static image of the face of the
same actress in a neutral affective expression) and 7 months for the unimodal visual
discrimination (video clips without sounds). Moreover, A. J. Caron et al., (1988) suggest that
infants can discriminate dynamic multimodal expression as early as 4-month-old infants and
unimodal expression only from 5 months for happy and sad, discrimination is only possible at
7-months with multimodal stimuli of angry and happy. With intermodal matching procedure, 7
months infants exposed to an emotional voice look longer to the congruent face (happy, angry
or sad) while 5 months infants match only the happy expressions or have no preferences (Soken
& Pick, 1992, 1999; Walker, 1982; Walker Andrews, 1986). Vaillant-Molina, Bahrick, & Flom
(2013) explored the ability to match faces and voices produced by peers demonstrated that 5-
months looked more the positive or negative congruent expression, but not 3.5-months. An
earlier matching could be found with the mother as stimulus. At 3-4 months, with the mother
expression, infants prefered looking at the congruent happy or sad expression or the incongruent
happy or angry expression (Montague & Walker-Andrews, 2002). Theses studies suggested
that emotional intermodal matching seems observed in 7 month old infants. In younger, it could
be observed if the stimuli used are the mother or infants’ happy expression, all more familiar
for the infant. In that present study, voices and faces are presented successively, in order to
determine a real comprehension of emotion by infants. Nevertheless, regarding these previous
ressearchs, such a paradigm is more difficult for infants due to its unfamiliarity.
In conclusion, these results suggest the possibility of an emotional cross-modal transfer
in 6-month-old infants, from happy voice to emotional faces (happy vs.. angry). Thus, it
strengthens that at 6 months, a happy cross-modal transfer could be found as demonstrated in a
previous study (Palama et al., 2018). However, this emotional cross-modal transfer seems not
demonstrated in younger infants and would thus emerged between 4 and 6 months of life.
Acknowledgments
The authors are grateful to the infants and their families for their involvement and
participation. We would like to thank Emina Arnautovic, Isaline Humair, Laure Calpe, HeeJung
144
Choi, Margaux Pimont, Coralie Vouillon, Agnès Mottaz and Justine Quiblier, for their
contribution to this research, and finally Susan Campbell who provided English editing.
Additional information
This research was supported by the Swiss National Fund for the research grant 100019-
156073 awarded to E.G. The authors had no personal or financial conflicts of interest.
References
Aldridge, M. A., Braga, E. S., Walton, G. E., & Bower, T. G. R. (1999). The intermodal
representation of speech in newborns. Developmental Science, 2(1), 42–46.
https://doi.org/10.1111/1467-7687.00052
Bahrick, L. E., Lickliter, R., & Flom, R. (2004). Intersensory Redundancy Guides the
Development of Selective Attention, Perception, and Cognition in Infancy. Current
Directions in Psychological Science, 13(3), 99–102. https://doi.org/10.1111/j.0963-
7214.2004.00283.x
Barrera, M. E., & Maurer, D. (1981). Recognition of mother’s photographed face by the
three-month-old infant. Child Development, 52(2), 714–716.
https://doi.org/10.2307/1129196
Bayet, L., Pascalis, O., & Gentaz, É. (2014). The development of emotional facial expression
discrimination by infants in the first year of life. L’Année Psychologique, 114(03),
469–500. https://doi.org/10.4074/S0003503314003030
Belin, P., Fillion-Bilodeau, S., & Gosselin, F. (2008). The montreal affective voices: a
validated set of nonverbal affect bursts for research on auditory affective processing.
Behavior Research Methods, 40(2), 531–539. https://doi.org/10.3758/BRM.40.2.531
Bornstein, M. H., & Arterberry, M. E. (2003). Recognition, discrimination and categorization

of smiling by 5-month-old infants. Developmental Science, 6(5), 585–599.
https://doi.org/10.1111/1467-7687.00314
Bornstein, M. H., Arterberry, M. E., Mash, C., & Manian, N. (2011). Discrimination of facial
expression by 5-month-old infants of nondepressed and clinically depressed mothers.
Infant Behavior and Development, 34(1), 100–106.
https://doi.org/10.1016/j.infbeh.2010.10.002
145
Caron, A. J., Caron, R. F., & MacLean, D. J. (1988). Infant discrimination of naturalistic
emotional expressions: the role of face and voice. Child Development, 59(3), 604–616.
https://doi.org/10.2307/1130560
Caron, R. F., Caron, A. J., & Myers, R. S. (1982). Abstraction of invariant face expressions in
infancy. Child Development, 53(4), 1008–1015. https://doi.org/10.2307/1129141
Cheng, Y., Lee, S.-Y., Chen, H.-Y., Wang, P.-Y., & Decety, J. (2012). Voice and Emotion
Processing in the Human Neonatal Brain. Journal of Cognitive Neuroscience, 24(6),
1411–1419. https://doi.org/10.1162/jocn_a_00214
Cohen, L. B. (1972). Attention-Getting and Attention-Holding Processes of Infant Visual

Preferences. Child Development, 43(3), 869–879. https://doi.org/10.2307/1127638
Farroni, T., Menon, E., Rigato, S., & Johnson, M. H. (2007). The perception of facial
expressions in newborns. European Journal of Developmental Psychology, 4(1), 2–13.
https://doi.org/10.1080/17405620601046832
Field, T. M., Woodson, R., Greenberg, R., & Cohen, D. (1982). Discrimination and imitation
of facial expressions by neonates. Science, 218(4568), 179–181.
Flom, R., & Bahrick, L. E. (2007). The development of infant discrimination of affect in
multimodal and unimodal stimulation: The role of intersensory redundancy.
Developmental Psychology, 43(1), 238–252. https://doi.org/10.1037/0012-
1649.43.1.238
Friard, O., & Gamba, M. (2016). BORIS: a free, versatile open-source event-logging software
for video/audio coding and live observations. Methods in Ecology and Evolution,
7(11), 1325–1330. https://doi.org/10.1111/2041-210X.12584
Geangu, E., Benga, O., Stahl, D., & Striano, T. (2010). Contagious crying beyond the first
days of life. Infant Behavior and Development, 33(3), 279–288.
Gibson, E. J. (1969). Gibson, E. J. (1969). Principles of perceptual learning and development.
Guellaï, B., Coulon, M., & Streri, A. (2011). The role of motion and speech in face
recognition at birth. Visual Cognition, 19(9), 1212–1233.
https://doi.org/10.1080/13506285.2011.620578
146
Iacobucci, D. (2001). Analysis of Variance. Journal of Consumer Psychology’s Special Issue

on Methodological and Statistical Concerns of the Experimental Behavioral
Researcher, 10(1&2), 5–35.
Izard, V., Sann, C., Spelke, E. S., & Streri, A. (2009). Newborn infants perceive abstract
numbers. Proceedings of the National Academy of Sciences, 106(25), 10382–10385.
https://doi.org/10.1073/pnas.0812142106
Kaitz, M., Meschulach-Sarfaty, O., Auerbach, J., & Eidelman, A. (1988). A reexamination of
newborns’ ability to imitate facial expressions. Developmental Psychology, 24(1), 3–
7. https://doi.org/10.1037/0012-1649.24.1.3
Kuchuk, A., Vibbert, M., & Bornstein, M. H. (1986a). The perception of smiling and its
experiential correlates in three-month-old infants. Child Development, 57(4), 1054–
1061. https://doi.org/10.2307/1130379
Kuchuk, A., Vibbert, M., & Bornstein, M. H. (1986b). The Perception of Smiling and Its
Experiential Correlates in Three-Month-Old Infants. Child Development, 57(4), 1054–
1061. https://doi.org/10.2307/1130379
Kuhl, P. K., & Meltzoff, A. N. (1984). The Intermodal Representation of Speech in Infants.
Infant Behavior and Development, 7(3), 361–381. https://doi.org/10.1016/S0163-
6383(84)80050-8
LaBarbera, J. D., Izard, C. E., Vietze, P., & Parisi, S. A. (1976a). Four- and six-month-old
infants’ visual responses to joy, anger, and neutral expressions. Child Development,
47(2), 535–538. https://doi.org/10.2307/1128816
LaBarbera, J. D., Izard, C. E., Vietze, P., & Parisi, S. A. (1976b). Four- and Six-Month-Old
Infants’ Visual Responses to Joy, Anger, and Neutral Expressions. Child
Development, 47(2), 535–538. https://doi.org/10.2307/1128816
Largo, R. H., Pfister, D., Molinari, L., Kundu, S., Lipp, A., & Due, G. (1989). Significance of
prenatal, perinatal and postnatal factors in the development of AGA Preterm Infants at
Five to Seven Years. Developmental Medicine & Child Neurology, 31(4), 440–456.
https://doi.org/10.1111/j.1469-8749.1989.tb04022.x
Leppänen, J. M., & Nelson, C. A. (2009). Tuning the developing brain to social signals of
emotions. Nature Reviews Neuroscience, 10(1), 37–47.
https://doi.org/10.1038/nrn2554
147
Lundqvist, D., Flykt, A., & Öhman, A. (1998). The karolinska directed emotional faces -
KDEF. CD ROM from Department of Clinical Neuroscience, Psychology Section,
Karolinska Institutet, ISBN.
Mastropieri, D., & Turkewitz, G. (1999). Prenatal experience and neonatal responsiveness to
vocal expressions of emotion. Developmental Psychobiology, 35(3), 204–214.
https://doi.org/10.1002/(SICI)1098-2302(199911)35:3<204::AID-DEV5>3.0.CO;2-V
Montague, D. P. F., & Walker-Andrews, A. S. (2002). Mothers, fathers, and infants: the Role
of person familiarity and parental involvement in infants’ perception of emotion
expressions. Child Development, 73(5), 1339–1352.
Nelson, C. A. (1987). The recognition of facial expressions in the first two years of life:
mechanisms of development. Child Development, 58(4), 889–909.
https://doi.org/10.2307/1130530
Oostenbroek, J., Suddendorf, T., Nielsen, M., Redshaw, J., Kennedy-Costantini, S., Davis, J.,
… Slaughter, V. (2016). Comprehensive Longitudinal Study Challenges the Existence
of Neonatal Imitation in Humans. Current Biology, 26(10), 1334–1338.
https://doi.org/10.1016/j.cub.2016.03.047
Palama, A., Malsert, J., & Gentaz, E. (2018). Are 6-month-old human infants able to transfer
emotional information (happy or angry) from voices to faces? An eye-tracking study.
PLOS ONE, 13(4), e0194579. https://doi.org/10.1371/journal.pone.0194579
Patterson, M. L., & Werker, J. F. (2003). Two-month-old infants match phonetic information
in lips and voice. Developmental Science, 6(2), 191–196.
https://doi.org/10.1111/1467-7687.00271
Raag, T., Malphurs, J., Field, T., Pelaez-Nogueras, M., Martinez, A., Pickens, J., … Yando,
R. (1997). Moderately dysphoric mothers behave more positively with their infants
after completing the BDI. Infant Mental Health Journal, 18(4), 394–405.
https://doi.org/10.1002/(SICI)1097-0355(199724)18:4<394::AID-IMHJ6>3.0.CO;2-L
Rigato, S., Menon, E., Johnson, M. H., & Farroni, T. (2011). The interaction between gaze
direction and facial expressions in newborns. European Journal of Developmental
Psychology, 8(5), 624–636. https://doi.org/10.1080/17405629.2011.602239
Sander, D., & Scherer, K. (2014). Traité de psychologie des émotions [Treaty of emotional
psychology]. Paris; Arcueil: Dunod.
148
Soken, N. H., & Pick, A. D. (1992). Intermodal perception of happy and angry expressive
behaviors by seven‐month‐old infants. Child Development, 63.
Soken, N. H., & Pick, A. D. (1999). Infants’ perception of dynamic affective expressions: do
infants distinguish specific expressions? Child Development, 70(6), 1275–1282.
https://doi.org/10.1111/1467-8624.00093
Streri, A. (2012). Crossmodal interactions in the human newborn: New answers to

Molyneux’s question. In Multisensory Development (pp. 88–112). OUP Oxford.
Vaillant-Molina, M., Bahrick, L. E., & Flom, R. (2013). Young Infants Match Facial and
Vocal Emotional Expressions of Other Infants. Infancy: The Official Journal of the
International Society on Infant Studies, 18(Suppl 1).
https://doi.org/10.1111/infa.12017
Walker, A. S. (1982). Intermodal perception of expressive behaviors by human infants.

Journal of Experimental Child Psychology, 33(3), 514–535.
https://doi.org/10.1016/0022-0965(82)90063-7
Walker Andrews, A. S. (1986). Intermodal perception of expressive behaviors: Relation of

eye and voice? Developmental Psychology, 22(3), 373–377.
https://doi.org/10.1037/0012-1649.22.3.373
Walker-Andrews, A. S., & Grolnick, W. (1983). Discrimination of vocal expressions by

young infants. Infant Behavior and Development, 6(4), 491–498.
https://doi.org/10.1016/S0163-6383(83)90331-4
Walker-Andrews, A. S., & Lennon, E. (1991). Infants’ discrimination of vocal expressions:

Contributions of auditory and visual information. Infant Behavior and Development,
14(2), 131–142. https://doi.org/10.1016/0163-6383(91)90001-9
Young-Browne, G., Rosenfeld, H. M., & Horowitz, F. D. (1977). Infant discrimination of

facial expressions. Child Development, 48(2), 555–562.
https://doi.org/10.2307/1128653
149
Expérience 5 : condition 2 : visages virtuels et

pseudo-mots
Comme pour l’étude 1, afin d’avoir une meilleure compréhension du développement
des capacités de transfert intermodal, nous avons cherché à savoir si un transfert intermodal
serait présent indépendamment du type de visages et de voix utilisées. De ce fait, pour
l’expérience 5, nous avons choisi de reproduire le paradigme de l’expérience 4, mais en
modifiant les stimuli utilisés, censés ajouter un meilleur contrôle des stimuli. Les stimuli sont
les mêmes que ceux de l’expérience 2 (condition 2).
Cinquante-sept bébés âgés de 2, 4 et 6 mois et nés à terme (au moins 37 semaines de

gestation) ont été inclus dans l’échantillon final de cette étude. Dans cet échantillon, les bébés
ont été répartis en trois groupes d’âge : les bébés de 2 mois : 10 bébés (6 filles ; âge moyen =
61.8 jours ± 6.32, intervalle = 57-74 jours), les bébés de 4 mois : 20 bébés (11 filles ; âge moyen
= 125.65 jours ± 6.51, intervalle = 114-140 jours) et les bébés de 6 mois : 27 bébés (13 filles ;
âge moyen = 189.85 jours ± 11.17, intervalle = 163-210 jours). Vingt et un bébés
supplémentaires ont été exclus en raison de pleurs (N=6), de biais latéraux (N=6) (c.-à-d. qu’ils
ont regardé d’un côté plus de 95% dans au moins 3 essais) ou encore en raison d’un temps de
regard insuffisant (N=9) (c.-à-d. ne pas regarder plus de 50% du temps ou ne pas regarder les
stimuli durant tout un essai). Les caractéristiques descriptives de l’échantillon final incluant les
trois groupes d’âge sont les suivantes : l’âge moyen des mères était de 34.98 ans (± 4.4) et de
37.11 ans (± 5.5) pour les pères. Les parents ayant participé à l’étude étaient principalement
mariés ou vivaient en concubinage (89%) et une minorité de mères élevaient leur enfant seules
(11%). Le statut socioéconomique (SSE) de la famille a été calculé à l’aide de l’échelle Largo
basée sur l’occupation paternelle et l’éducation maternelle, allant de 2 (le SSE le plus élevé) à
12 (le SSE le plus faible) (Largo et al., 1989). Le statut socioéconomique (SSE) moyen des
familles de l’échantillon était de 4.03 ± 2.01, intervalle = 2-9. L’étude a été approuvée par le
comité d’éthique de la Faculté de psychologie et des sciences de l’éducation de Genève et tous
les parents ont donné leur consentement éclairé, par écrit, à la participation de leur enfant à
cette expérience.
150
6.2.1.2. Stimuli
Les stimuli visuels et auditifs émotionnels de joie, colère ou neutre utilisés dans cette
étude étaient les mêmes que ceux de l’expérience 2. Les stimuli visuels étaient des visages
émotionnels virtuels féminins créés avec FACSGen (Roesch et al., 2011) et les stimuli auditifs
étaient des voix émotionnelles féminines prononçant des pseudo-mots provenant de la base de
données « GEMEP » (Bänziger et al., 2012).
Pour cette étude, nous avons accueilli les bébés et leurs parents dans une salle du cabinet
pédiatrique des doctoresses Hamdan et Oury. Le paradigme expérimental correspondait à ce
qui a été présenté au chapitre II Contributions expérimentales, point 4.3, Paradigme
expérimental (Figure 29).
Comme pour l’expérience 2, le temps de regard a été enregistré par une caméra et codé
hors ligne. Le temps de regard a été codé grâce aux regards sur le côté gauche, le côté droit de
l’écran, générant des données brutes. Toutes les vidéos ont été double codées avec le logiciel
BORIS (Friard & Gamba, 2016) par deux observateurs naïfs avec une moyenne d’accord de
0.93 (Pearson’s r). Pour les analyses, nous avons pris la moyenne des deux observations. Nous
avons effectué une analyse de variance (ANOVA) à mesures répétées sur le temps total de
regards et le nombre de regards de chaque côté de l’écran (gauche ou droite) correspondant aux
deux visages émotionnels (joie et colère). Dans le but de comparer les trois groupes d’âge (2, 4
et 6 mois) et toutes les voix, nous avons calculé les distributions de temps de regard total
(DTRT) comme la différence de distribution de regards pour la joie (>0%) ou la colère (<0%)
((temps de regard sur la joie - temps de regard sur la colère) / (temps de regard sur la joie +
temps de regard sur la colère)). Un t-test à un échantillon comparé à la chance (0%) a été
effectué avec la DTRT, afin de déterminer une préférence pour les visages émotionnels
significativement supérieure au niveau de chance, plus de 0% pour les visages de joie et moins
de 0% pour les visages de colère. Les analyses statistiques ont été effectuées à l’aide de
Statistica 13. Le seuil de significativité était de .05. Le test de Bonferroni a été effectué afin de
déterminer les différences significatives. Les tailles d’effet ont été calculées avec l’eta-carré
partiel (ηp2) pour les ANOVAs.
151
visages avec les visages émotionnels (joie, colère) comme facteur intra-sujets et l’âge des bébés
(2, 4 ou 6 mois) comme facteur inter-sujets.
L’effet principal des visages émotionnels était non significatif F(1, 54) = 0.34, p = .561,
ηp2 =.006. L’effet principal de l’âge était significatif F(2, 54) = 3.89, p = .026, ηp2 =.126.
L’analyse post-hoc réalisée avec Bonferroni a indiqué que les bébés de 2 mois (4.74 ± 0.13 s)
regardaient plus longtemps les visages que les bébés de 6 mois (4.31 ± 0.08 s) p=.029.
L’interaction entre les visages émotionnels et l’âge était non significative F(2, 54) = 0.13, p =
.874, ηp2 = .005.
comme facteurs intra-sujets et l’âge des bébés (2, 4 ou 6 mois) comme facteur inter-sujets.
L’effet principal des visages émotionnels était non significatif F(1, 54) = 0.001, p =
.910, ηp2 =.000, aucune différence de temps de regard n’a été mise en évidence entre le visage
de joie (4.31 ± 0.14 s) et le visage de colère (4.34 ± 0.16 s). L’effet principal des voix
émotionnelles était non significatif F(1, 54) = 0.04, p = .85, ηp2 =.000. L’effet principal de l’âge
était significatif F(2, 54) = 5.53, p = .007, ηp2 = .17. L’analyse post-hoc réalisée avec Bonferroni
a révélé que les bébés de 2 mois (4.74 ± 0.17 s) regardaient plus longtemps les visages que les
bébés de 4 mois (4.18 ± 0.12 s) p = .033 et les bébés de 6 mois (4.07 ± 0.11 s) p = .005.
L’interaction entre les voix émotionnelles et les visages émotionnels n’était pas
significative F(1, 54 )= 0.51, p = .478, ηp2 = .009. De plus, la triple interaction entre l’âge, les
visages émotionnels et les voix émotionnelles n’était pas significative F(2, 54) = 0.54, p =
.587, ηp2 = .019). Cependant, selon Iacobucci (2001), afin de répondre à une hypothèse posée a
152
priori, il est possible d’examiner l’effet d’une interaction non significative si un des effets
principaux est significatif (l’âge). Par conséquent, nous avons analysé les comparaisons a priori
entre le temps de regard sur le visage de joie ou de colère en fonction des voix émotionnelles
et de l’âge des bébés. Les comparaisons planifiées n’ont révélé aucune différence entre le temps
passé à regarder les visages de joie et colère, pour chaque voix émotionnelle et chaque âge. Les
autres interactions n’étaient pas significatives, toutes les ps > .29.
total (DTRT) avec les voix (joie, colère, neutre) comme facteurs intra-sujets et l’âge des bébés
(2, 4 ou 6 mois) comme facteur inter-sujets. Un résultat positif représentait le pourcentage du
temps de regard en faveur du visage de joie et un résultat négatif représentait le pourcentage du
temps de regard en faveur du visage de colère.
L’effet principal des voix était non significatif F(2, 108) = 0.56, p = .575, ηp2 =.010.
L’effet principal de l’âge était non significatif F(2, 54) = 0.58, p = .561, ηp2 =.021. L’interaction
entre les voix émotionnelles et l’âge était également non significative F(4, 108) = 0.47, p =
.754, ηp2 =.017.
Nous avons également effectué un test T à un échantillon sur la DTRT sur les visages
émotionnels en fonction de chaque voix (neutre, joie, colère) et de l’âge des bébés (2, 4 ou 6
mois) comparé au niveau de chance de 0%. Nous n’avons retrouvé aucune différence
significativement supérieure au niveau de chance, toutes les ps > .27 (Figure 46).
40%
de colère (<0%) et de joie
30%
DTRT sur les visages
Joie
20%
10%
(>0%)
0%
-10%
Colère
-20%
-30%
-40%
2 mois 4 mois 6 mois
Figure 46. DTRT sur les visages de joie (>0%) ou de colère (<0%) en fonction des voix (neutre, joie ou colère) et
de l’âge des bébés (2, 4, 6 mois). Les barres verticales représentent l’erreur standard.
153
6.2.2.4. Nombre de regards
Nous avons également analysé le nombre de regards sur le visage de joie ou de colère
en fonction de la voix et de l’âge. Une ANOVA à mesures répétées a été réalisée sur le nombre
de regards sur les visages avec les visages émotionnels (joie, colère) et les voix émotionnelles
(joie, colère, neutre) comme facteurs intra-sujets et l’âge des bébés (2, 4 ou 6 mois) comme
facteur inter-sujets.
Cette analyse a mis en avant que le nombre de regards dirigés sur chaque visage
émotionnel augmentait avec l’âge F(2, 54) = 10.40, p = .0002, ηp2 = .28. Le nombre de regards
dirigé sur chaque visage émotionnel était moins élevé pour les bébés de 2 mois (1.41 ± 0.27)
que les bébés de 4 mois (2.48 ± 0.19; p = .007) et ceux de 6 mois (2.87 ± 0.17 ; p <.001). Nous
n’avons trouvé aucune différence du nombre de regards sur les visages émotionnels, F(1, 54) =
0.99, p = .327, ηp2 =.018, en fonction des voix, F(2, 108) = 1.23, p=.297, ηp2 = .022 ou de
l’interaction entre les visages et les voix, F(2, 108) = 0.08, p = .927, ηp2 = .001. Toutes les autres
interactions étaient non-significatives, toutes les ps > .05.
Dans l’expérience 5, nous avons analysé si les bébés de 2, 4 et 6 mois étaient capables
d’extraire des composantes amodales des expressions émotionnelles à travers un paradigme de
transfert intermodal audio-visuel. Le but de cette expérience était d’examiner si les résultats
que nous avons trouvés dans la condition 1 (expérience 4) étaient les mêmes dans la condition
2, avec des visages virtuels 3D et des pseudo-mots.
Pour cette expérience 5, nous n’avons trouvé aucune différence de temps de regard entre
les deux visages émotionnels, et ce pour chacune des trois voix (neutre, joie ou colère). Cette
absence de différence significative a répliqué les résultats eye-tracking à 6 mois de cette même
condition présentés dans l’expérience 2.
En ce qui concerne les résultats développementaux, aucune différence selon l’âge des
bébés n’a été trouvée en fonction des expressions faciales émotionnelles ou des voix
émotionnelles. Nous avons seulement constaté que les bébés de deux mois regardaient les
visages plus longtemps, mais faisaient un nombre de fixations moins élevé que les bébés plus
âgés. Ce résultat suggère qu’ils feraient moins d’aller-retour entre les deux visages.
154

L’étude 2 avait pour objectif d’examiner si les bébés de 2, 4 et 6 mois étaient capables
d’extraire et de transférer une information émotionnelle amodale de la voix au visage. Afin
d’avoir une meilleure compréhension des capacités de transfert intermodal, nous avons cherché
à savoir si un transfert intermodal était présent indépendamment du type de visages et de voix
utilisés. De ce fait, deux conditions différentes ont été présentées aux bébés, la condition 1 dans
laquelle les voix étaient des vocalisations non-verbales et les visages étaient des photographies
(expérience 4 : manuscrit soumis) et la condition 2 dans laquelle les voix étaient des pseudo-
mots et les visages étaient virtuels (expérience 5). Dans les expériences rapportées ici, nous
avons observé qu’un transfert intermodal émotionnel serait possible, même si fragile, dès l’âge
de 6 mois. Cependant, cette capacité s’est révélée limitée à la condition 1.
Premièrement, après la « baseline » (voix neutre), aucune différence de temps de regard

entre les deux visages émotionnels (colère ou joie) n’a été montré, et ce, dans les deux
conditions. En ce qui concerne le transfert intermodal, l’absence de préférence visuelle pour
l’une ou l’autre expression faciale était attendue avec la voix neutre, car les deux expressions
faciales étaient nouvelles vis-à-vis de la voix.
Deuxièmement, après les voix émotionnelles (colère ou joie), différents résultats ont été
observés en fonction de la condition. La première condition (photographies de visages et
vocalisations non-verbales) a révélé la possibilité d’un transfert intermodal émotionnel précoce,
tandis que la deuxième condition (visages virtuels et pseudo-mots) n’a pas mis en évidence
cette capacité précoce.
D’une part, dans la condition 1, les résultats suggèrent qu’un transfert intermodal serait
possible après les voix émotionnelles. En effet, après la voix de joie, le visage de colère était
regardé plus longtemps, mais uniquement à 6 mois. Ce résultat serait en adéquation avec notre
précédente étude en eye-tracking à 6 mois utilisant les mêmes stimuli (étude 1, condition 1). La
primauté d’un transfert intermodal avec la voix de joie pourrait être associée à une plus grande
familiarité de cette expression comparée à la colère. Indéniablement, la plupart des personnes
s’occupant d’enfants expriment majoritairement de la joie avec un bébé. Par conséquent, cette
familiarité semble être associée à une discrimination précoce de la joie par rapport à toutes les
autres émotions de base. De plus, cette discrimination semble compromise chez les bébés moins
155
exposés à la joie comme dans le cas d’une dépression post-partum maternelle (Raag et al.,
1997). Si nous admettons que le stimulus vocal de joie est beaucoup plus familier, les bébés
devraient avoir une préférence pour la nouveauté et préférer explorer l’expression faciale
incongruente, la colère. Si la voix du stimulus vocal en colère est moins familière et donc moins
bien comprise, la plupart des bébés n’exprimeraient pas de préférence pour l’une ou l’autre
expression faciale (colère ou joie). De plus, les stimuli vocaux de colère sélectionnés pourraient
être considérés comme moins écologiques que ceux de joie. En effet, il est inhabituel
d’exprimer la colère en répétant la même vocalisation plusieurs fois comparé à la joie et
l’expression habituelle de rire associée, qui est la répétition de la même vocalisation.
Cependant, nous devons faire preuve de prudence quant à la possibilité d’un tel transfert
intermodal. Comme l’a montré notre étude précédente (expérience 1), il serait possible que la
préférence pour le visage en colère soit affectée par la saillance de la bouche du visage en colère
utilisé. Néanmoins, les résultats ont montré que c’est après avoir écouté les voix émotionnelles
et en particulier après la voix de joie, que le visage de colère était regardé plus longtemps,
suggérant que le visage incongruent attirerait le plus l’attention.
D’autre part, dans la condition 2, le transfert intermodal trouvé dans la condition 1 n’

pas été montré. En effet, aucune différence de temps de regard n’a été révélée entre les deux
visages émotionnels, et ce, après les deux voix émotionnelles. Cette absence de résultat peut
suggérer qu’avec les stimuli employés, la reconnaissance des émotions grâce à un transfert
intermodal serait trop difficile jusqu’à 6 mois. En effet, les stimuli que nous avons utilisés dans
cette deuxième condition étaient plus contrôlés et aussi plus difficiles à discriminer. Les visages
ont été créés par un logiciel (FACSGen) et n’étaient pas des photographies de visages réels
comme ceux de la condition 1. Nous pouvons donc émettre l’hypothèse que les bébés de cet
âge ont moins ou n’ont même jamais été exposés à de tels visages et n’ont donc peut-être pas
réussi à faire le lien avec les voix. En outre, concernant les stimuli vocaux, chaque voix
émotionnelle est la combinaison de trois voix féminines différentes. Afin de comprendre que
l’émotion présentée est la même pour les trois voix et en extraire les propriétés émotionnelles,
les bébés doivent catégoriser l’expression vocale. Des études ont montré qu’une discrimination
catégorielle entre la joie et plusieurs autres émotions (surprise, tristesse, peur) était possible à
partir de 6-7 mois (A. J. Caron et al., 1988; R. F. Caron et al., 1982; Ludemann & Nelson, 1988;
C. A. Nelson, 1987; C. A. Nelson & Dolgin, 1985). La capacité à catégoriser les émotions
indépendamment de l’identité se développerait après la capacité d’une simple discrimination
156
entre deux émotions exprimées par la même personne. Ainsi, l’absence de transfert dans la
condition 2, peut être expliquée par la difficulté des stimuli employés. Ainsi, la condition 2
présenterait plusieurs obstacles à un tel transfert intermodal précoce. Ces résultats suggèrent
que jusqu’à 6 mois, les bébés auraient besoin d’être exposés à des stimuli plus simples et plus
écologiques pour être discriminés ou créer une association entre les voix émotionnelles et les
visages.
Troisièmement, en ce qui concerne l’exploration du développement, différents résultats

en fonction de la condition expérimentale ont été observés. Concernant le temps d’exploration
du visage, dans la condition 1, à chaque âge, les bébés ont montré le même temps d’exploration
du visage alors que dans la condition 2, les bébés de 2 mois regardaient plus longtemps le visage
que les bébés plus âgés (4 et 6 mois). Néanmoins en ce qui concerne le nombre de regards, nous
avons trouvé les mêmes résultats entre les deux conditions. Avec le développement, les bébés
ont produit un plus grand nombre de regards. Ces résultats suggèrent que les bébés plus jeunes
pourraient avoir des temps de fixation plus longs sur le visage, mais qu’avec l’âge, ils feraient
plus de fixations, interprétées comme des allers-retours entre les visages. Le raccourcissement
du temps d’exploration chez les bébés plus âgés pourrait s’expliquer par une accoutumance
plus rapide aux visages présentés, associée à une baisse d’intérêt. Ainsi, l’augmentation du
nombre de regards avec l’âge suggérerait que les bébés plus âgés ont exploré plus attentivement
et ont comparé davantage les visages auxquels ils étaient exposés. De plus, selon Cohen (1972),
il existerait une corrélation négative entre les mesures du temps de recherche et le nombre de
regards. Par ailleurs, la moyenne du temps de recherche semble être un indicateur plus sensible
de l’acuité visuelle.
Pour l’expérience 4, le résultat principal a révélé qu’à 6 mois seulement, après avoir
écouté une voix de joie, les bébés regardaient davantage le visage en colère (incongruent) que
le visage de joie (congruent), confirmant les résultats de l’expérience 1. Ces résultats suggèrent
que la capacité à percevoir l’émotion de joie de manière amodale émergerait entre 4 et 6 mois.
Pour l’expérience 5, aucune préférence pour le visage de joie ou de colère n’a été mise en
évidence, confirmant les résultats de l’expérience 2. Ces résultats suggèrent que les stimuli
utilisés dans la condition 2 étaient trop complexes pour être discriminés ou déclencher un
transfert intermodal.
157
En conclusion, ces résultats ont révélé que les propriétés des stimuli utilisés ont
influencé la capacité de transfert intermodal des émotions chez les bébés. Les visages virtuels
et les voix présentés dans la condition 2 seraient trop compliqués pour créer un transfert
intermodal émotionnel à ces âges. Alors que les photographies de visages et les vocalisations
non-verbales, présentés dans la condition 1, semblent attirer plus l’attention sur le visage de
colère mais seulement après les voix émotionnelles. Ainsi, un transfert intermodal émotionnel
des modalités auditives aux modalités visuelles serait possible, mais limité, suggérant
l’émergence d’une capacité de reconnaissance amodale de l’émotion de joie entre 4 et 6 mois.
158
(joie vs. colère et peur vs. colère) à 4 mois :
analyses caméra
Cette étude a évalué les capacités de transfert intermodal des bébés de 4 mois. Pour cela
nous avons effectué deux expériences : la première avec des stimuli de joie et de colère
(les mêmes que ceux des études 1 et 4) (expérience 6) et la deuxième avec des stimuli
de peur et de colère (expérience 7). Le but de ces deux expériences était d’évaluer si un
transfert intermodal serait présent de la même manière si les émotions présentaient une
valence opposée ou si elles présentaient une valence similaire. De plus, afin de mettre
en évidence un éventuel impact du genre des stimuli présentés sur le transfert intermodal
émotionnel, pour chacune des expériences, un groupe de bébés a été exposé à des stimuli
féminins et un autre groupe à des stimuli masculins.
Pour l’expérience 6 (joie vs. colère), les résultats indiquaient qu’un transfert intermodal
émotionnel serait possible uniquement avec la voix émotionnelle de colère. La
préférence pour le visage émotionnellement nouveau ou familier vis-à-vis de la voix
s’est révélée dépendante du genre des stimuli : si les stimuli étaient féminins, le visage
de colère était préféré alors que si les stimuli étaient masculins, le visage de joie était
préféré. Pour l’expérience 7 (peur vs. colère), une préférence spontanée pour le visage
de peur après la voix neutre pour les stimuli féminins et masculins a été mise en évidence.
En ce qui concerne le transfert, il semblerait qu’après la voix de colère pour les stimuli
masculins seulement, le visage de peur était regardé plus longtemps. Alors que pour les
stimuli féminins, bien qu’une préférence pour la peur était présente avec la voix neutre,
aucune préférence n’a été retrouvée après les voix émotionnelles.
De manière générale, le genre et l’émotion des stimuli semblent avoir influencé les temps
de regards. Malgré tout, ces résultats ont mis en avant l’émergence d’un transfert
intermodal émotionnel précoce.
159
Expérience 6 : joie vs. colère

Pour mieux comprendre le développement des capacités de transfert intermodal (joie
vs. colère), nous avons cherché à savoir si un transfert intermodal serait présent
indépendamment du genre des visages et des voix présentées à 4 mois. De ce fait, nous avons
étudié les capacités de transfert intermodal émotionnel en fonction du genre des stimuli. Le
premier groupe de participants a été exposé à des stimuli féminins (les mêmes que ceux des
expériences 1 et 4) et un deuxième groupe de participants a été exposé à des stimuli masculins
provenant des mêmes bases de données que les stimuli féminins.
Trente-six bébés âgés de 4 mois et nés à terme (au moins 37 semaines de gestation) ont
été inclus dans l’échantillon final de cette étude. Dans cet échantillon, les bébés ont été répartis
en deux groupes : un groupe auquel nous avons présenté des stimuli féminins : 19 bébés (8
filles ; âge moyen = 130.89 jours ± 10.46, intervalle = 115-146 jours) et un groupe auquel nous
avons présenté des stimuli masculins : 17 bébés (6 filles ; âge moyen = 129.59 jours ± 8.41,
intervalle = 114-144 jours). Vingt-deux bébés supplémentaires ont été exclus en raison de
pleurs (N=4), de problèmes techniques (N=2), de biais latéraux (N=7) (c.-à-d. qu’ils ont regardé
d’un côté plus de 95% dans au moins 3 essais) ou encore en raison d’un temps de regard
insuffisant (N=9) (c.-à-d. ne pas regarder plus de 50% du temps ou ne pas regarder les stimuli
durant tout un essai). Les caractéristiques descriptives de l’échantillon final incluant les deux
groupes sont les suivantes : l’âge moyen des mères était de 34.61 ans (± 7.4) et de 35.88 ans (±
7.5) pour les pères. Les parents ayant participé à l’étude étaient principalement mariés (N=28)
ou vivaient en concubinage (N=6), ou alors vivaient séparément (N=2). Le statut
socioéconomique (SSE) de la famille a été calculé à l’aide de l’échelle Largo basée sur
l’occupation paternelle et l’éducation maternelle, allant de 2 (le SSE le plus élevé) à 12 (le SSE
le plus faible) (Largo et al., 1989). Le statut socioéconomique (SSE) moyen des familles de
l’échantillon était de 4.11 ± 2.21, intervalle = 2-9. L’étude a été approuvée par le comité
d’éthique de la Faculté de psychologie et des sciences de l’éducation de Genève et tous les
parents ont donné leur consentement éclairé, par écrit, à la participation de leur enfant à cette
expérience.
160
7. ETUDE 3 : TRANSFERT INTERMODAL ÉMOTIONNEL À 4 MOIS
7.1.1.2. Stimuli
Dans cette étude, les stimuli étaient des voix et des visages émotionnels féminins et
masculins. Un groupe a été exposé à des stimuli toujours féminins et l’autre groupe à des stimuli
toujours masculins.
7.1.1.2.1. Stimuli auditifs
Les stimuli utilisés dans cette étude étaient des stimuli auditifs émotionnels non verbaux
de joie, de colère ou neutre provenant de la base de données « Montreal Affective Voice »
(Belin et al., 2008). Les voix féminines étaient les mêmes que celles présentées dans les études
1 et 2, condition 1 (SF60), les voix masculines étaient celles produites par la référence SM55.
7.1.1.2.2. Stimuli visuels
Les stimuli visuels émotionnels (joie, colère) étaient des photographies de visages
provenant de la base de données «The Karolinska Directed Emotional Faces – KDEF »
(Lundqvist et al., 1998). Les visages féminins étaient les mêmes que ceux présentés dans les
études 1 et 2, condition 1 (SF4), les visages masculins étaient ceux produits par la référence
SM1. Les stimuli sont en noir et blanc, mesurent 14 x 10 cm et étaient présentés sur un fond
gris moyen (RGB, 100, 100, 100). Les visages étaient présentés par paires, inversion droite-
gauche randomisée (Figure 47).
Figure 47. Stimuli visuels utilisés dans l’expérience 6, stimuli masculins (en haut) et féminins en bas de joie et de
colère.
161
laboratoire du SMAS. Après lecture et signature du document d’information et de consentement
et la réponse à un court questionnaire par les parents, les bébés étaient confortablement installés
dans un siège bébé à 60 cm de l’écran au-dessus duquel est placée une caméra (Sony HDR-
CX220) afin d’enregistrer les mouvements oculaires.
Afin d’attirer l’attention des bébés sur l’écran, un court dessin animé (max 30 secondes)
extrait de « Le Monde des Petits » était présenté à l’écran. Le paradigme expérimental
correspond à ce qui a été présenté au chapitre II Contributions expérimentales, point 4.3,
Paradigme expérimental (Figure 29).
Comme pour l’étude 2, le temps de regard était enregistré par une caméra et codé hors
ligne. Le temps de regard a été codé grâce aux regards sur le côté gauche ou droit de l’écran,
générant des données brutes. Toutes les vidéos ont été double codées avec le logiciel BORIS
(Friard & Gamba, 2016) par deux observateurs naïfs avec une moyenne d’accord de 0.90
(Pearson’s r). Pour les analyses, nous avons pris la moyenne des deux observations. Nous avons
effectué une analyse de variance (ANOVA) à mesures répétées sur le temps total de regards de
chaque côté de l’écran (gauche ou droite) correspondant aux deux visages émotionnels (joie et
colère). Dans le but de comparer les deux groupes (stimuli féminins et masculins) et toutes les
voix, nous avons calculé les distributions de temps de regard total (DTRT) comme la différence
de distribution de regards pour la joie (>0%) ou la colère (<0%) ((temps de regard sur la joie -
temps de regard sur la colère) / (temps de regard sur la joie + temps de regard sur la colère)).
Un t-test à un échantillon comparé à la chance (0%) a été effectué avec la DTRT, afin de
déterminer une préférence pour les visages émotionnels significativement supérieure au niveau
de chance, plus de 0% pour les visages de joie et moins de 0% pour les visages de colère. Les
analyses statistiques ont été effectuées à l’aide de Statistica 13. Le seuil de significativité était
de .05. Le test de Bonferroni a été effectué afin de déterminer les différences significatives. Les
tailles d’effet ont été calculées avec l’eta-carré partiel (ηp2) pour les ANOVAs.
162
voix neutre en fonction du genre des stimuli. Une ANOVA à mesures répétées a été réalisée
sur le temps passé à regarder les visages avec les visages émotionnels (joie, colère) comme
facteur intra-sujets et le genre des stimuli (féminin, masculin) comme facteur inter-sujets.
L’effet principal des visages émotionnels était non significatif, F(1, 34) = 0.06, p = .812,
ηp2 =.002. L’effet principal du genre des stimuli était non significatif, F(1, 34) = 2.39, p = .131,
ηp2 =.066. L’interaction entre les visages émotionnels et le genre des stimuli était également
non significative, F(1, 34) = 2.56, p = .119, ηp2 =.069. Avec des stimuli féminins, aucune
différence de temps de regard entre les visages de joie (3637 ± 389 ms) et de colère (4593 ±
380 ms) n’a été retrouvée. Avec les stimuli masculins, aucune différence de temps de regard
non plus entre les visages de joie (4151 ± 411 ms) et de colère (3443 ± 402 ms) n’a été révélée.
comme facteurs intra-sujets et le genre des stimuli (féminin, masculin) comme facteur inter-
sujets.
L’effet principal des visages émotionnels était non significatif, F(1, 34) = 0.001, p =
.973, ηp2 =.002. L’effet principal des voix émotionnelles était non significatif, F(1, 34) = 1.67,
p = .204, ηp2 =.047. L’effet principal du genre des stimuli était non significatif, F(1, 34) = 0.42,
p = .520, ηp2 = .012.
L’interaction entre les visages émotionnels et le genre des stimuli s’est révélée
significative, F(1, 34) = 10.28, p = .003, ηp2 =.232. L’analyse post-hoc réalisée avec Bonferroni
indique que le visage féminin de colère (4395 ± 258 ms) était plus regardé que le visage
masculin de colère (3242 ± 273 ms) p = .021. L’interaction entre les visages émotionnels et les
voix émotionnelles était non significative, F(1, 34) = 0.00, p = .988, ηp2 =.000. L’interaction
163
triple entre les visages émotionnels, les voix émotionnelles et le genre des stimuli était
également non significative, F(1, 34) = 1.707, p = .200, ηp2 =.048. Cependant, selon Iacobucci
(2001), afin de répondre à une hypothèse posée a priori, il est possible d’examiner l’effet d’une
interaction non significative si un des effets principaux est significatif. Par conséquent, nous
avons analysé les comparaisons a priori entre le temps de regard sur le visage de joie ou de
colère en fonction du genre des stimuli et des voix émotionnelles. Ainsi, il semblerait que si le
genre des stimuli est féminin, après l’écoute d’une voix de colère, les bébés regardaient plus le
visage de colère que de celui de joie, F(1, 34) = 5.04, p = .031, alors qu’après l’écoute d’une
voix de joie, aucune différence n’a été retrouvée, F(1, 34) = 1.44, p = .239. Si le genre des
stimuli était masculin, après l’écoute d’une voix de colère, les bébés regardaient plus le visage
de joie que celui de colère, F(1, 34) = 4.43, p = .043, alors qu’après l’écoute d’une voix de joie,
aucune différence n’a été retrouvée, F(1, 34) = 1.17, p = .287. En résumé, l’écoute d’une voix
de colère semblait modifier le temps de regard sur l’un ou l’autre des visages émotionnels et
cette préférence était inverse en fonction du genre des stimuli. En effet, avec des stimuli
féminins le visage de colère était préféré alors qu’avec des stimuli masculins c’est le visage de
joie qui était préféré (Figure 48).
*
Temps de regard en
5000 *
milisecondes
4000
3000
2000
1000
0
voix joie voix colère voix joie voix colère
stimuli féminin stimuli masculin
visage colère visage joie
Figure 48. Temps de regard sur les visages de joie et de colère en millisecondes en fonction des voix émotionnelles
(colère ou joie) et du genre des stimuli (féminin ou masculin). Les barres verticales représentent l’erreur standard
positive et négative, * p < .05.
total (DTRT) avec les voix (joie, colère, neutre) comme facteurs intra-sujets et le genre des
stimuli (féminins, masculins) comme facteur inter-sujets. Un résultat positif représentait le
164
pourcentage du temps de regard en faveur du visage de joie et un résultat négatif représentait le

pourcentage du temps de regard en faveur du visage de colère.
L’effet principal des voix était non significatif, F(2, 68) = 0.42, p = .959, ηp2 =.001.
L’effet principal du genre des stimuli était significatif, F(1, 34) = 9.31, p = .004, ηp2 =.215. Cet
effet a révélé une DTRT supérieure pour le visage de joie masculin (11 % ± 6%) et le visage de
colère féminin (-12 % ± 5%). L’interaction entre les voix et le genre des stimuli était non
significative, F(2, 68) = 1.16, p = .321, ηp2 =.033.
Nous avons également effectué un test T à un échantillon sur la DTRT aux visages
émotionnels en fonction de chaque voix (neutre, joie, colère) et le genre des stimuli (féminins,
masculins) comparé au niveau de chance de 0%. Nous avons trouvé une différence significative
avec les stimuli masculins après la voix de colère correspondant à une DTRT supérieure au
niveau de chance (0%) pour le visage de joie (19% ± 6%), t(16) = 3.27, p = .005. Avec les
stimuli féminins après la voix de colère une DTRT supérieure au niveau de chance pour le
visage de colère qui tendait vers la significativité (-18% ± 9%), t(18) = -1.99, p = .062, toutes
les autres ps > .26 (Figure 49).
40%
*
de colère (<0%) et de joie (>0%)
30%
Joie
Joie
20%
10%
0%
-10%
Colère
Colère
-20%
-30%
(*)
-40%
stimuli féminins stimuli masculins
Figure 49. DTRT sur les visages de joie (>0%) ou de colère (<0%) en fonction des voix (neutre, joie ou colère) et
du genre des stimuli (féminins, masculins). Les barres verticales représentent l’erreur standard. *p <.05, (*) p
<.065.
165
Le but de l’expérience 6 était d’étudier les capacités de transfert intermodal émotionnel

(joie vs. colère) à 4 mois en fonction du genre des stimuli. De ce fait, nous avons fait passer
l’expérience à deux groupes de participants, le premier groupe a été exposé à des stimuli
féminins (les mêmes que ceux des éxpériences 1 et 4) et un deuxième groupe a été exposé à des
stimuli masculins.
Premièrement, après la baseline (voix neutre), aucune différence de temps de regard

n’était significative entre les visages émotionnels de joie et de colère, peu importe le genre des
stimuli. Cette absence de préférence visuelle était attendue après la voix neutre, car le visage
de joie et de colère étaient tous les deux nouveaux par rapport à la voix neutre écoutée. Cette
absence de préférence pour l’un ou l’autre des visages après la voix neutre nous a permis
d’explorer une éventuelle influence des voix émotionnelles sur les préférences visuelles.
Deuxièmement, après les voix émotionnelles (joie et colère), il semblerait que la voix
de joie n’ait pas dirigé les temps de regards vers un visage émotionnel particulier alors que la
voix de colère semble avoir influencé le temps de regard sur les stimuli. En revanche, la
préférence pour l’un ou l’autre des visages était dépendante du genre des stimuli. D’une part,
pour les stimuli féminins, après la voix de colère nous avons trouvé un temps de regard plus
important pour le visage congruent de colère, familier vis-à-vis de la voix. D’autre part, pour
les stimuli masculins, après la voix de colère nous avons trouvé un temps de regard plus
important pour le visage incongruent de joie, familier vis-à-vis de la voix.
Ces résultats semblent démontrer une capacité de transfert intermodal émotionnel

précoce de la colère. Cependant, une interprétation plus précautionneuse de ces résultats serait
que les visages de joie masculins ou les visages de colère féminins aient plus attiré l’attention
des bébés et ce, peu importe la voix. Deux arguments renforceraient cette interprétation. Le
premier est qu’aucune des interactions avec la voix n’était significative, c’est-à-dire que peu
importe la voix, la DTRT était en faveur du visage de joie pour les stimuli masculins et en
faveur du visage de colère pour les stimuli féminins. La voix de colère, ne ferait que renforcer
cette préférence pré-établie. Selon cette interprétation, à 4 mois, le temps de regard des bébés
serait plutôt influencé par les caractéristiques picturales des visages. De plus, le genre des
stimuli influencerait cette préférence. Une différence de temps de regard des stimuli
166
émotionnels en fonction du genre des stimuli a également été trouvée dans l’étude de Bayet et
al. (2015). Cependant, dans cette étude, les visages féminins de joie et les visages masculins
neutres étaient préférentiellement regardés. La préférence pour le visage de colère féminin
trouvée dans notre étude pourrait être due à la saillance de la bouche de l’expression faciale de
colère, grande ouverte. Ainsi, l’expression faciale pourrait avoir été mal interprétée par les
bébés qui la considéreraient non pas comme une bouche exprimant de la colère, mais plutôt
comme une bouche qui rit aux éclats. De plus, il a été mis en évidence que la présence des dents
à 4 ou 5 mois peut avoir un impact sur la reconnaissance des expressions faciales émotionnelles
(R. F. Caron et al., 1985; Oster, 2005), à noter toutefois que les dents étaient visibles dans les
deux expressions émotionnelles. Le deuxième argument est que la voix qui semble permettre
le transfert était la voix de colère, alors que la voix de joie ne semblait pas permettre le transfert.
Le fait que la joie ne soit pas perçue de manière amodale va contre les résultats trouvés lors des
études 1 et 2, condition 1. De plus, cela paraît contradictoire avec l’hypothèse que l’émotion de
joie serait censée être plus familière que la voix de colère et donc reconnue plus tôt.
Malgré tout, si l’on interprète nos résultats de manière à dire qu’il existe un transfert
intermodal de la voix de colère chez ces bébés, cela suggérerait une capacité des bébés de 4
mois à extraire l’émotion de colère de manière amodale. Dans ce cas, comment expliquer que
les stimuli masculins ont provoqué une préférence pour la nouveauté/incongruence alors que
les stimuli féminins ont provoqué une préférence pour la familiarité/congruence ? Cette
différence de préférence pourrait avoir une cohérence avec la revue de questions de Pascalis et
de Haan (2003) qui conclut qu’il serait difficile de déterminer a priori le sens de la préférence
attendue ou l’absence de préférence et que cela peut être lié à la nature ou la qualité de
l’encodage ou encore au contenu émotionnel des stimuli. De plus, cette différence de préférence
semble être retrouvée dans les études d’appariement intermodales, même si la plupart des
études mettent en avant une préférence pour les stimuli congruents, de 3 à 7 mois (Godard et
al., 2016; Kahana-Kalman & Walker-Andrews, 2001; Montague & Walker-Andrews, 2002;
Soken & Pick, 1992; Vaillant-Molina et al., 2013; Walker, 1982; Zieber et al., 2014b), une
étude a aussi révélé une préférence pour les stimuli incongruents, de joie et de colère (Montague
& Walker-Andrews, 2002).
Pour conclure, les bébés de 4 mois seraient possiblement capables d’un transfert
intermodal émotionnel de la voix de colère. Ces résultats suggéreraient une perception amodale
de l’expression de colère, mais cette interprétation reste controversée. En tous les cas, la voix
167
de colère semble avoir modulé la préférence spontanée pour l’un ou l’autre des visages
émotionnels. Cependant, la préférence était différente en fonction du genre des stimuli
présentés. Les stimuli féminins semblent avoir orienté les préférences visuelles vers le visage
de colère, familier par rapport à la voix, alors que les stimuli masculins semblent avoir orienté
les préférences visuelles vers le visage de joie, nouveau vis-à-vis de la voix.
168
Expérience 7 : peur vs. colère

L’objectif de l’expérience 7 était d’approfondir les connaissances sur les capacités de
transfert intermodal indépendamment du genre des stimuli utilisés à 4 mois en étudiant d’autres
émotions que pour l’expérience 6. De ce fait, nous avons répliqué le paradigme de l’expérience
6, mais avec des stimuli de peur à la place des stimuli de joie. Dans cette expérience, nous allons
étudier la capacité de transfert intermodal émotionnel avec des stimuli de la même valence
(négative : peur et colère).
Vingt bébés âgés de 4 mois et nés à terme (au moins 37 semaines de gestation) ont été
inclus dans l’échantillon final de cette étude. Dans cet échantillon, les bébés ont été répartis en
deux groupes : un groupe auquel nous avons présenté des stimuli féminins : 10 bébés (3 filles ;
âge moyen = 129.59 jours ± 14.7, intervalle = 111-157 jours) et un groupe auquel nous avons
présenté des stimuli masculins : 10 bébés (2 filles ; âge moyen = 134.4 jours ± 9.91, intervalle
= 121-150 jours). Huit bébés supplémentaires ont été exclus en raison de biais latéraux (N=6)
(c.-à-d. qu’ils ont regardé d’un côté plus de 95% dans au moins 3 essais) ou en raison d’un
temps de regard insuffisant (N=2) (c.-à-d. ne pas regarder plus de 50% du temps ou ne pas
regarder les stimuli durant tout un essai). Les caractéristiques descriptives de l’échantillon final
incluant les deux groupes étaient les suivantes : l’âge moyen des mères était de 34.28 ans (±
4.5) et de 36.96 ans (± 7.9) pour les pères. Les parents ayant participé à l’étude étaient
principalement mariés (N=11) ou vivaient en concubinage (N=9). Le statut socioéconomique
7.2.1.2. Stimuli
Dans cette étude, les stimuli sont des voix et des visages émotionnels féminins et
masculins. Un groupe a été exposé à des stimuli toujours féminins et l’autre groupe à des stimuli
169
toujours masculins. Les stimuli sont similaires à ceux de l’expérience 1, cependant à la place
de l’émotion de joie, l’émotion exprimée par les voix et les visages est de la peur (Figure 50).
Figure 50. Stimuli visuels utilisés dans l’expérience 7, stimuli masculins (en haut) et féminins (en bas) de peur et
de colère.
7.2.1.3. Procédure expérimentale et analyses des données
La procédure expérimentale et l’analyse des données étaient similaires à l’expérience 6.

L’accord interjuge du codage est en moyenne de 0.92 (Pearson’s r). Le calcul des distributions
de regards est le suivant : la différence de distribution de regards pour la peur (>0%) ou la colère
(<0%) ((temps de regard sur la peur - temps de regard sur la colère) / (temps de regard sur la
peur + temps de regard sur la colère)).
sur le temps passé à regarder les visages avec les visages émotionnels (peur, colère) comme
facteur intra-sujets et le genre des stimuli (féminin, masculin) comme facteur inter-sujets.
L’effet principal des visages émotionnels était significatif, F(1, 18) = 7.45, p = .014, ηp2
=.293. Les visages de peur (4954 ± 340 ms) étaient regardés plus longtemps que les visages de
colère (3434 ± 259 ms). L’effet principal du genre des stimuli était non significatif, F(1, 18) =
0.05, p = .829, ηp2 =.003. L’interaction entre les visages émotionnels et le genre des stimuli
était également non significative, F(1, 18) = 0.32, p = .581, ηp2 =.017.
170
les visages avec les visages émotionnels (peur, colère) et les voix émotionnelles (peur, colère)
comme facteurs intra-sujets et le genre des stimuli (féminin, masculin) comme facteur inter-
sujets.
ηp2 =.056. L’effet principal des voix émotionnelles était non significatif, F(1, 18) = 0.07, p =
.801, ηp2 =.004. L’effet principal du genre des stimuli était également non significatif, F(1, 18)
= 0.10, p = .756, ηp2 = .005. L’interaction entre les visages émotionnels et le genre des stimuli
s’est révélée significative F(1, 18) = 8.31, p = .01, ηp2 =.316. L’analyse post-hoc réalisée avec
Bonferroni a uniquement suggéré une tendance à ce que le visage masculin de peur (4591 ±
360 ms) soit plus regardé que le visage masculin de colère (3070 ± 309 ms) (p = .076).
L’interaction entre les visages émotionnels et les voix émotionnelles était non significative,
F(1, 18) = 0.33, p = .571, ηp2 =.018. L’interaction triple entre les visages émotionnels, les voix
émotionnelles et le genre des stimuli était également non significative, F(1, 18) = 0.30, p =
.589, ηp2 =.017. Cependant, selon Iacobucci (2001), afin de répondre à une hypothèse posée a
priori, il est possible d’examiner l’effet d’une interaction non significative si un des effets est
significatif. Par conséquent, nous avons analysé les comparaisons a priori entre le temps de
regard sur le visage de joie ou de colère en fonction du genre des stimuli et des voix
émotionnelles. Ainsi, avec des stimuli féminins, aucune différence de temps de regard entre les
visages de peur et de colère n’était significative après l’écoute d’une voix de peur, F(1, 18) =
0.815, p = .378 ou de colère, F(1, 18) = 0.80, p = .384. Avec des stimuli masculins, après
l’écoute d’une voix de peur, aucune différence significative n’a été mise en évidence entre le
visage de peur et celui de colère, F(1, 18) = 1.70, p = .208, alors qu’après l’écoute d’une voix
de colère, le visage de peur était regardé plus longtemps que le visage de colère, F(1, 18) =
6.249, p = .022. En résumé, avec des stimuli masculins, l’écoute d’une voix de colère semble
augmenter le temps de regard sur le visage de peur (Figure 51).
171
6000
Temps de regard en milisecondes

5000 *
4000
3000
2000
1000
0
voix peur voix colère voix peur voix colère
visage colère visage peur
Figure 51. Temps de regard sur les visages de peur et de colère en millisecondes en fonction des voix émotionnelles
(colère ou peur) et du genre des stimuli (féminin ou masculin). Les barres verticales représentent l’erreur standard
positive et négative, * p < .05.
total (DTRT) avec les voix (peur, colère, neutre) comme facteurs intra-sujets et le genre des
stimuli (féminins, masculins) comme facteur inter-sujets. Un résultat positif représentait le
pourcentage du temps de regard en faveur du visage de peur et un résultat négatif représentait
le pourcentage du temps de regard en faveur du visage de colère.
L’effet principal du genre des stimuli était significatif, F(1, 18) = 4.93, p = .040, ηp2 =.215. Cet
effet a révélé une DTRT supérieure pour le visage de peur masculin (20 % ± 6%) alors qu’avec
les visages émotionnels féminins aucune différence significative n’a été mise en évidence (-1
% ± 7%). L’interaction entre les voix émotionnelles et le genre des stimuli était non
significative, F(2, 36) = 1.46, p = .245, ηp2 =.075.
émotionnels en fonction de chaque voix émotionnelle (neutre, peur, colère) et le genre des
stimuli (féminins, masculins) comparé au niveau de chance de 0%. Nous avons trouvé une
différence significative avec les stimuli masculins correspondant à une DTRT supérieure au
niveau de chance (0%) pour le visage de peur après la voix neutre (20% ± 8%), t(9) = 2.46, p =
172
.036 et la voix de colère (27% ± 4%), t(9) = 6.18, p = .0002, toutes les autres ps > .15 (Figure
52).
40%
de colère (<0%) et de peur (>0%)
***
30% *
Peur
Peur
20%
10%
0%
-10%
Colère
Colère
-20%
-30%
-40%
voix neutre voix peur voix colère
Figure 52. DTRT sur les visages de peur (>0%) ou de colère (<0%) en fonction des voix (neutre, peur ou colère)
et du genre des stimuli (féminins, masculins). Les barres verticales représentent l’erreur standard. *p <.05, *** p
<.001.
L’objectif de l’expérience 7 était d’étudier la capacité de transfert intermodal

émotionnel de la même valence affective (négative : peur et colère) à 4 mois, et de comparer
les résultats entre des stimuli féminins et masculins.
Pour commencer, après la « baseline » (voix neutre), le visage de peur semble être plus
regardé que le visage de colère et ce, peu importe le genre des stimuli. Ceci suggérerait une
préférence précoce pour le visage de peur comparé au visage de colère. Ce résultat semble aller
contre l’hypothèse d’un transfert intermodal émotionnel, car aucune préférence n’était attendue
après la voix neutre, les deux visages étant nouveaux et incongruents vis-à-vis de la voix.
Cependant, ce résultat semble cohérent avec les récentes études qui démontrent une préférence
pour le visage de peur dès 3-5 mois (Bayet et al., 2017; Heck et al., 2016; Peltola, Leppänen,
Mäki, et al., 2009; Safar et al., 2017). Ce résultat démontrerait un biais attentionnel robuste. De
plus, il faut noter que, même si les visages de peur féminins et masculins sont plus regardés que
173
les visages de colère, le visage de peur masculin semble tout de même attirer plus l’attention
que le féminin.
Ensuite, après les voix émotionnelles, les résultats se sont révélés différents en fonction
du genre des stimuli. D’une part, avec des stimuli féminins, aucune différence significative n’a
été retrouvée, mais une légère tendance à ce que les visages de colère soient plus regardés que
ceux de peur. Avec les stimuli féminins, les voix émotionnelles semblent donc supprimer ce
biais attentionnel pour la peur, cela pourrait être dû à la saillance de la bouche de l’expression
faciale de colère, ou alors être les prémices d’un transfert intermodal. Cependant, la différence
de temps de regard entre les visages de peur et de colère n’étant pas significative, cela ne permet
pas de confirmer une capacité de transfert intermodal émotionnel. D’autre part, avec les stimuli
masculins, les visages de peur ont toujours été préférentiellement regardés que les visages de
colère. Néanmoins, cet effet semble plus important après la voix de colère, démontrant une
préférence pour le visage incongruent et nouveau vis-à-vis de la voix. Ce dernier résultat
pourrait être révélateur d’une capacité de transfert intermodal émotionnel de la colère.
Cependant, nous pouvons aussi émettre une interprétation plus prudente, qui serait que le visage
de peur masculin attire plus l’attention des bébés et ce, peu importe la voix. Cette interprétation
est justifiée, car aucune des interactions avec la voix ne s’est révélée significative, c’est-à-dire
que peu importe la voix, la DTRT était en faveur du visage de peur pour les stimuli masculins.
La voix de colère ne ferait que renforcer cette préférence spontanée. De plus, pour rappel, cette
préférence était déjà significative avec la voix neutre. Selon cette interprétation, à 4 mois, les
bébés semblent avoir discriminé le visage de peur avec celui de colère et préférer celui de peur.
Pour conclure, le visage de peur semble avoir induit une préférence spontanée par
rapport au visage de colère. De plus, les bébés de 4 mois seraient éventuellement capables d’un
transfert intermodal émotionnel de la voix de colère avec les stimuli masculins. Ces résultats
suggéreraient une reconnaissance intrinsèque de l’expression de colère, mais il faut rester
prudent quant à cette interprétation. En tous les cas, la voix de colère masculine semble avoir
accentué la préférence spontanée pour le visage de peur masculin.
174

L’objectif de cette étude était d’évaluer les capacités de transfert intermodal des bébés
de 4 mois. Pour cela nous avons effectué deux expériences : la première avec des stimuli de
joie et de colère (les mêmes que ceux des expériences 1 et 4) (expérience 6) et la deuxième avec
des stimuli de peur et de colère (expérience 7). Le but de ces deux expériences était d’analyser
si un transfert intermodal est également présent si les émotions ont une valence opposée (joie
vs. colère) ou si elles ont une valence similaire (peur vs. colère). De plus, afin de déterminer
l’impact du genre des stimuli présentés sur le transfert intermodal émotionnel, pour chacune
des expériences, un groupe de bébés a été exposé à des stimuli féminins et un groupe à des
stimuli masculins.
Premièrement, après la « baseline » (voix neutre), la préférence ou l’absence de

préférence était différente en fonction des émotions présentées. Il est important de rappeler que
pour la « baseline » des deux expériences, la voix neutre était la même et les visages de colère
étaient les mêmes, la seule différence est que pour l’expérience 6, il y avait un visage de joie
associé au visage de colère et que pour l’expérience 7, il y avait un visage de peur associé au
visage de colère. Dans l’expérience 6, aucune préférence n’a été trouvée alors que dans
l’expérience 7, une préférence pour le visage de peur a été trouvée. Nous interprétons ces
résultats par deux hypothèses.
La première hypothèse serait qu’un transfert intermodal était réalisé pour l’expérience
6. En effet, aucune préférence n’était attendue après une voix neutre, vu que les deux émotions
étaient nouvelles vis-à-vis de la voix. Alors que pour l’expérience 7, la préférence des bébés
pour le visage de peur après la voix neutre pour être expliqué par deux facteurs. Soit la voix n’a
pas été prise en compte pour les temps de regard, donc aucun transfert n’a été réalisé, soit la
voix neutre a été mal interprétée.
La deuxième hypothèse serait que le visage de peur provoque une préférence spontanée
supérieure au visage de joie. En effet, avec le visage de colère comparé au visage de joie aucune
différence de temps de regard n’a été mise en évidence alors que comparé au visage de peur, le
visage de colère est moins regardé. Ce résultat met en avant que la préférence pour le visage de
joie retrouvée dans les premiers mois de la vie (A. J. Caron et al., 1988; Farroni et al., 2007;
Kuchuk et al., 1986; LaBarbera et al., 1976; Montague & Walker-Andrews, 2002; Rigato et al.,
175
2011; Rochat et al., 2002) n’est pas si évidente et semble diminuer au profit d’une préférence
pour les stimuli négatifs avec un biais attentionnel déjà démontré pour le visage de peur dès 3-
5 mois (Bayet et al., 2017; Heck et al., 2016; Peltola, Leppänen, Mäki, et al., 2009; Safar et al.,
2017), ou pour le visage de dégoût à 3, 5 et 7 mois (Godard et al., 2016). Cependant, à notre
connaissance aucun biais attentionnel pour la colère n’a été démontré à ces âges.
Deuxièmement, après les voix émotionnelles, les résultats dépendent de l’émotion et du

genre des stimuli. Pour l’expérience 6, les résultats indiquent qu’un transfert serait possible
uniquement de la voix émotionnelle de colère aux visages. La préférence pour le visage
émotionnellement nouveau ou familier vis-à-vis de la voix s’est révélée dépendante du genre
des stimuli. Si les stimuli étaient féminins, le visage de colère, congruent était préféré alors que
si les stimuli étaient masculins, le visage de joie, incongruent était préféré. Pour l’expérience 7,
il semblerait qu’après la voix de colère pour les stimuli masculins seulement, le visage de peur
soit regardé plus longtemps. Alors que pour les stimuli féminins bien qu’une préférence pour
la peur ait été trouvée avec la voix neutre, aucune préférence n’a été retrouvée après les voix
émotionnelles.
Pour finir, si les émotions sont de la même valence (peur et colère), la capacité de
transfert semble moins établie. En effet, dans l’expérience 7, si nous admettons qu’un transfert
est effectué, il ne le serait qu’avec les stimuli masculins après la voix de colère, alors que dans
l’expérience 6, il le serait avec les stimuli féminins et masculins, mais aussi après la voix de
colère uniquement. De plus, les stimuli masculins favoriseraient le transfert intermodal
émotionnel, ou tout du moins moduleraient plus les préférences pour l’un ou l’autre des visages
émotionnels que les stimuli féminins. Ce résultat paraît surprenant car les visages les plus
familiers semblent favoriser la discrimination (Montague & Walker-Andrews, 2002). En effet,
les stimuli féminins sont supposés être plus familiers que les stimuli masculins dans les
premiers mois de vie et sont le plus souvent employés dans les recherches. De ce fait, ces
résultats mettent en avant l’importance d’utiliser aussi des stimuli masculins dans l’étude des
émotions car ils peuvent démontrer des résultats différents en accord avec l’étude de Bayet et
al., (2015), par exemple.
Pour conclure, de manière générale, le genre et l’émotion des stimuli sembleraient

influencer les temps de regards. Malgré tout, ces résultats ont mis en avant une éventuelle
possibilité de transfert intermodal émotionnel précoce de la colère.
176
(joie vs. colère, jois vs. dégoût, colère vs.
dégoût) longitudinal (1-6 mois) : analyses
caméra
Cette étude a étudié le développement des capacités de transfert intermodal émotionnel

de 1 à 6 mois, à travers trois expériences longitudinales. Pour ce faire, les bébés ont été
vus à quatre reprises, à 1, 2, 4 et 6 mois. Les trois expériences ont été créées avec le même
paradigme et le même type de stimuli : visage virtuel et voix exprimant des pseudo-mots
similaires à ceux des expériences 2 et 5. Cependant, les émotions présentées diffèrent
d’une étude à l’autre. L’expérience 8 présente des stimuli de joie et de colère, l’expérience
9, des stimuli de joie et de dégoût et l’expérience 10 des stimuli de colère et de dégoût.
Les résultats observés dans les 3 expériences ne suggèrent aucune différence de temps de
regard entre les visages émotionnels, peu importe la voix émotionnelle préalablement
entendue, et ce à tous les âges. L’absence de préférence semble stable tant au niveau inter
qu’intra personnel. Ainsi, ces résultats n’ont pas permis de mettre en évidence une
capacité de transfert intermodal émotionnel chez ces bébés de 1 à 6 mois.
177
Expérience 8 : joie vs. colère

L’objectif de cette étude était d’examiner le développement précoce des capacités de
transfert intermodal émotionnel (joie vs. colère) de 1 à 6 mois grâce à un protocole longitudinal.
Le but étant d’étudier les capacités de transfert au niveau inter et intra personnel. L’expérience
8 reproduit le paradigme et les stimuli utilisés dans les expériences 2 et 5, c’est-à-dire des
visages émotionnels virtuels de joie et de colère et des voix neutres ou émotionnelles (joie,
colère) prononçant des pseudo-mots.
Seize bébés (8 filles) nés à terme (au moins 37 semaines de gestation) ont été vus à
quatre reprises à 1, 2, 4 et 6 mois. Ces bébés ont été inclus à l’échantillon final pour avoir
participé aux quatre passations. À 1 mois : âge moyen = 34.31 jours ± 12.62, à 2 mois : âge
moyen = 64.81 jours ± 9.02, à 4 mois : âge moyen = 124.25 jours ± 6.03, à 6 mois : âge moyen
= 189.25 jours ± 8.84. Quatorze bébés supplémentaires ont été exclus en raison de passation
impossible (pleurs, problème technique, rendez-vous annulé, bébés dépassant l’âge limite (âge
+ 2 semaines)) pour au moins une passation. Les caractéristiques descriptives de l’échantillon
final étaient les suivantes : à la naissance de leur enfant, l’âge moyen des mères était de 35.42
ans (± 3.9) et de 36.78 ans (± 4.3) pour les pères. Les parents ayant participé à l’étude étaient
principalement mariés (60%) ou vivaient en concubinage (40%). Le statut socioéconomique
8.1.1.2. Stimuli
Les stimuli visuels et auditifs émotionnels de joie, colère ou neutre utilisés dans cette
étude étaient les mêmes que ceux des expériences 2 et 5. Les stimuli visuels étaient des visages
émotionnels virtuels féminins créés avec FACSGen (Roesch et al., 2011) (Figure 28) et les
178
8. ETUDE 4 : TRANSFERT INTERMODAL ÉMOTIONNEL LONGITUDINAL (1 À 6 MOIS)
stimuli auditifs étaient des voix émotionnelles féminines prononçant des pseudo-mots
provenant de la base de données « GEMEP » (Bänziger et al., 2012).
Pour cette étude, nous avons accueilli les bébés et leurs parents dans une salle du cabinet
pédiatrique des doctoresses Hamdan et Oury. Les bébés de 1 et 2 mois étaient assis sur les
genoux de leurs parents et les bébés de 4 et 6 mois étaient assis dans un siège enfant. Le
paradigme expérimental correspondait à ce qui a été présenté au chapitre II Contributions
expérimentales, point 4.3, Paradigme expérimental (Figure 29).
Comme pour l’étude 2, le temps de regard a été enregistré par une caméra et codé hors
ligne. Toutes les vidéos ont été double codées avec le logiciel BORIS (Friard & Gamba, 2016)
par deux observateurs naïfs avec une moyenne d’accord de 0.93 (Pearson’s r). Pour les analyses,
nous avons pris la moyenne des deux observations. Nous avons effectué une analyse de la
variance (ANOVA) à mesures répétées sur le temps total de regards et le nombre de regards de
chaque côté de l’écran (gauche ou droite) correspondant aux deux visages émotionnels (joie et
colère). Dans le but de comparer les quatre groupes d’âge (1, 2, 4 et 6 mois) et toutes les voix,
nous avons calculé les distributions de temps de regard total (DTRT) comme la différence de
distribution de regards pour la joie (>0%) ou la colère (<0%) ((temps de regard sur la joie -
temps de regard sur la colère) / (temps de regard sur la joie + temps de regard sur la colère)).
Un t-test à un échantillon comparé à la chance (0%) a été effectué avec la DTRT, afin de
déterminer une préférence pour les visages émotionnels significativement supérieure au niveau
de chance, plus de 0% pour les visages de joie et moins de 0% pour les visages de colère. Les
analyses statistiques ont été effectuées à l’aide de Statistica 13. Le seuil de significativité était
de .05. Le test de Bonferroni a été effectué afin de déterminer les différences significatives. Les
tailles d’effet ont été calculées avec l’eta-carré partiel (ηp2) pour les ANOVAs.
179
visages avec les visages émotionnels (joie, colère) et l’âge des bébés (1, 2, 4 ou 6 mois) comme
facteurs intra-sujets.
ηp2 =.037. L’effet principal de l’âge était significatif, F(3, 45) = 4.67, p = .006, ηp2 =.238.
L’analyse post-hoc réalisée avec Bonferroni a indiqué que les bébés de 1 mois (3.26 ± 0.44 s)
regardent moins longtemps les visages que les bébés de 2 mois (4.25 ± 0.26 s) (p=.047), 4 mois
(4.47 ± 0.08 s) (p=.009) et 6 mois (4.29 ± 0.14 s) (p=.037). L’interaction entre les visages
émotionnels et l’âge était non significative, F(3, 45) = 0.21, p = .892, ηp2 = .014.
les visages avec les visages émotionnels (joie, colère), les voix émotionnelles (joie, colère) et
l’âge des bébés (1, 2, 4 ou 6 mois) comme facteurs intra-sujets.
L’effet principal des visages émotionnels était non significatif, F(1, 15) = 0.003, p =
.958, ηp2 =.000, aucune différence de temps de regard entre le visage de joie (3.55 ± 0.21 s) et
le visage de colère n’a été révélée (3.54 ± 0.22 s). L’effet principal des voix émotionnelles était
non significatif, F(1, 15) = 2.67, p = .12, ηp2 =.151. L’effet principal de l’âge était significatif,
F(3, 45) = 3.87, p = .015, ηp2 = .205. L’analyse post-hoc réalisée avec Bonferroni a suggéré que
les bébés de 2 mois (4.26 ± 0.33 s) regardaient plus longtemps les visages que les bébés de 1
mois (2.70 ± 0.45 s) (p = .018). L’interaction entre les voix émotionnelles et les visages
émotionnels ne s’est pas révélée significative, F(1, 15)= 0.13, p = .723, ηp2 = .009. De plus, la
triple interaction entre l’âge, les visages émotionnels et les voix émotionnelles n’était pas
significative, F(3, 45) = 0.48, p = .698, ηp2 = .031. Cependant, selon Iacobucci (2001), afin de
répondre à une hypothèse posée a priori, il est possible d’examiner l’effet d’une interaction non
significative si un des effets principaux est significatif (l’âge). Par conséquent, nous avons
analysé les comparaisons a priori entre le temps de regard sur le visage de joie ou de colère en
fonction des voix émotionnelles et de l’âge des bébés. Les comparaisons planifiées n’ont révélé
aucune différence entre le temps passé à regarder les visages de joie et colère, pour chaque voix
émotionnelle et chaque âge. Les autres interactions ne sont pas significatives, toutes les ps >
.37.
180
total (DTRT) avec les voix (joie, colère, neutre) et l’âge des bébés (1, 2, 4 ou 6 mois) comme
facteurs intra-sujets. Un résultat positif représentait le pourcentage du temps de regard en faveur
du visage de joie et un résultat négatif représentait le pourcentage du temps de regard en faveur
du visage de colère.
L’effet principal de l’âge était non significatif, F(3, 45) = 0.25, p = .858, ηp2 =.016. L’interaction
entre les voix émotionnelles et l’âge était également non significative, F(6, 90) = 0.52, p = .791,
ηp2 =.033.
Nous avons effectué un test T à un échantillon sur la DTRT aux visages émotionnels en
fonction de chaque voix (neutre, joie, colère) et de l’âge des bébés (1, 2, 4 ou 6 mois) comparé
au niveau de chance de 0%. Nous n’avons trouvé aucune différence significativement
supérieure au niveau de chance, toutes les ps > .23 (Figure 53).
40%
30%
de colère (<0%) et de joie (>0%)
Joie
20%
10%
0%
-10%
Colère
-20%
-30%
-40%
1 mois 2 mois 4 mois 6 mois
Figure 53. DTRT sur les visages de joie et colère en fonction de l’âge (1, 2, 4, 6 mois) et des voix (neutre, joie,
colère). Les barres verticales représentent l’erreur standard.
181
de regards avec les visages émotionnels (joie, colère), les voix (joie, colère ou neutre) et l’âge
des bébés (1, 2, 4 ou 6 mois) comme facteurs intra-sujets.
Cette analyse a mis en avant un effet principal de l’âge, F(3, 45) = 19.94, p =.0000, ηp2
= .571. L’analyse post-hoc réalisée avec Bonferroni a suggéré que le nombre de regards dirigés
sur chaque visage émotionnel était moins élevé pour les bébés de 1 mois (1.37 ± 0.20) que pour
les bébés de 4 mois (4.57 ± 0.45) (p <.001) et ceux de 6 mois (4.58 ± 0.53) (p <.001). Nous
n’avons trouvé aucune différence du nombre de regards sur les visages émotionnels, F(1, 15) =
0.14, p = .711, ηp2 =.009, en fonction des voix, F(2, 30) = 2.34, p=.114, ηp2 = .135 ou de
l’interaction entre les visages et les voix, F(2, 30) = 0.98, p = .386, ηp2 = .061. Toutes les autres
interactions étaient non-significatives, toutes les ps > .11.
Cette expérience avait pour but d’étudier le développement précoce des capacités de
transfert intermodal émotionnel (joie et colère) de 1 à 6 mois. Nous avons réalisé une étude
longitudinale : les mêmes bébés étaient vus à 1, 2, 4 et 6 mois afin d’étudier les capacités de
transfert au niveau inter et intra personnel.
Pour commencer, après la « baseline » (voix neutre), aucune différence de temps de

regard n’a été mise en évidence entre les visages de joie et de colère, et ce à tous les âges. Ce
résultat ne suggérerait aucune préférence spontanée pour l’un ou l’autre des visages
émotionnels.
Ensuite, après les voix émotionnelles, également aucune différence de temps de regard
n’a été mise en évidence entre les visages de joie et de colère, et ce à tous les âges. Du fait de
cette absence de préférence en fonction des voix émotionnelles, nous n’avons pas pu confirmer
la présence d’un transfert intermodal émotionnel de 1 à 6 mois.
182
Finalement, au niveau des résultats développementaux, l’absence de préférence pour le

visage de joie ou de colère semble être stable à travers les quatre âges étudiés. Par ailleurs, nous
avons trouvé un effet de l’âge sur le temps et le nombre de regards. Il semblerait que les bébés
de 1 mois regardaient moins longtemps les visages qu’aux autres âges et que le nombre de
fixations effectuées ait augmenté avec l’âge.
En conclusion, chez ces bébés de 1 à 6 mois, aucune différence de temps de regard n’a
été mise en évidence entre les visages de joie et de colère. Ainsi, cette expérience n’a suggéré
aucune discrimination de ces visages et ces voix de 1 à 6 mois et n’a pas permis de révéler une
capacité de transfert intermodal émotionnel.
183
Expérience 9 : joie vs. dégoût

L’objectif de cette expérience était d’étudier le développement précoce des capacités de
transfert intermodal émotionnel (joie vs. dégoût) de 1 à 6 mois grâce à un protocole
longitudinal. Le but étant d’étudier les capacités de transfert au niveau inter et intra personnel.
Dans l’expérience 9, par rapport à l’expérience 8, les stimuli de colère ont été remplacés par
des stimuli de dégoût. À notre connaissance, la discrimination de l’émotion de dégoût n’a été
étudiée que dans l’étude d’appariement intermodal émotionnel de Godard et al. (2016) de 3 à 7
mois. Cette étude a montré un biais attentionnel pour le visage de dégoût comparé au visage de
joie. Bien que peu étudiée. nous émettons l’hypothèse que ce serait une émotion discriminée
précocement, car exprimée dès la naissance (Soussignan et al., 1997).
Vingt bébés (9 filles) nés à terme (au moins 37 semaines de gestation) ont été vus à
quatre reprises : à 1, 2, 4 et 6 mois. Ces bébés ont été inclus à l’échantillon final pour avoir
moyen = 63.05 jours ± 7.06, à 4 mois : âge moyen = 123.70 jours ± 7.31, à 6 mois : âge moyen
= 185.50 jours ± 6.38. Quinze bébés supplémentaires ont été exclus en raison de passation
ans (± 3.9) et de 35.68 ans (± 5.2) pour les pères. Les parents qui ont participé à l’étude étaient
184
8.2.1.2. Stimuli
Les stimuli visuels étaient des visages émotionnels virtuels féminins de joie et de dégoût
créés avec FACSGen (Roesch et al., 2011) (Figure 28) et les stimuli auditifs étaient des voix
neutres et émotionnelles de joie et de dégoût féminines prononçant des pseudo-mots provenant
de la base de données « GEMEP » (Bänziger et al., 2012). Pour le détail de ces stimuli voir le
chapitre II Contributions expérimentales, point 4.2 stimuli.
La procédure expérimentale était exactement la même que celle de l’expérience 8, sauf

que dans l’expérience 9, les stimuli de dégoût ont remplacé les stimuli de colère.
Toutes les vidéos ont été double codées avec le logiciel BORIS (Friard & Gamba, 2016)
par deux observateurs naïfs avec une moyenne d’accord de 0.94 (Pearson’s r). L’analyse des
données s’est déroulée de la même manière que pour l’expérience 8, sauf que dans l’expérience
9, les stimuli de dégoût ont remplacé les stimuli de colère. La DTRT a été calculée de telle sorte
qu’un nombre supérieur à 0% correspondait à un temps de regard plus élevé pour le visage de
joie et un nombre inférieur à 0% correspondait à un temps de regard plus élevé pour le visage
de dégoût.
sur le temps passé à regarder les visages avec les visages émotionnels (joie, dégoût) et l’âge des
bébés (2, 4 ou 6 mois) comme facteurs intra-sujets.
ηp2 =.156. L’effet principal de l’âge était non significatif, F(3, 57) = 1.20, p = .319, ηp2 =.059.
Cependant, l’interaction entre les visages émotionnels et l’âge était significative, F(3, 57) =
5.30, p = .003, ηp2 = .218. L’analyse post-hoc réalisée avec Bonferroni a indiqué que les bébés
185
de 1 mois (5.31 ± 0.42 s) regardaient plus longtemps les visages de joie que les visages de
dégoût (2.63 ± 0.38 s) (p=.005).
les visages avec les visages émotionnels (joie, dégoût) et les voix émotionnelles (joie, dégoût)
et l’âge des bébés (1, 2, 4 ou 6 mois) comme facteurs intra-sujets.
ηp2 =.011. Le visage de joie (3.59 ± 0.17 s) semble avoir été regardé autant que le visage de
colère (3.72 ± 0.18 s). L’effet principal des voix émotionnelles était non significatif, F(1, 19) =
1.43, p = .25, ηp2 =.070. L’effet principal de l’âge était non significatif, F(3, 57) = 1.88, p =
.143, ηp2 =.090. L’interaction entre les voix émotionnelles et les visages émotionnels n’était pas
significative, F(1, 19 )= 0.04, p = .840, ηp2 = .002. De plus, la triple interaction entre l’âge, les
visages émotionnels et les voix émotionnelles n’était pas significative, F(3, 57) = 0.30, p =
.825, ηp2 = .015. Toutes les autres interactions n’étaient pas significatives, toutes les ps > .28.
total (DTRT) avec les voix (joie, dégoût, neutre) et l’âge des bébés (1, 2, 4 ou 6 mois) comme
facteurs intra-sujets. Un résultat positif représente le pourcentage du temps de regard en faveur
du visage de joie et un résultat négatif représente le pourcentage du temps de regard en faveur
du visage de dégoût.
entre les voix émotionnelles et l’âge était tendentiellement significative, F(6, 114) = 2.05 p =
.064, ηp2 =.118. L’analyse post-hoc réalisée avec Bonferroni a suggéré qu’à 1 mois, les bébés
ont une tendance à regarder plus le visage de joie après une voix neutre (36% ± 9%) que le
visage de joie après une voix de dégoût (-15% ± 11%), (p = .066).
186
émotionnels en fonction de chaque voix (neutre, joie, dégoût) et de l’âge des bébés (1, 2, 4 ou
6 mois) comparé au niveau de chance de 0%. Nous ne retrouvons qu’une seule différence
significativement supérieure au niveau de chance à 1 mois après l’écoute de la voix neutre avec
une DTRT pour le visage de joie comparé au visage de dégoût supérieur au niveau de chance
(36% ± 9%), t(19) = 4.18, p = .0005, toutes les autres ps > .11 (Figure 54).
***
40%
de dégoût (<0%) et de joie (>0%)
30%
Joie
20%
10%
0%
-10%
Dégoût
-20%
-30%
-40%
voix neutre voix joie voix dégoût
Figure 54. DTRT sur les visages de joie et dégoût en fonction de l’âge (1, 2, 4, 6 mois) et des voix (neutre, joie,
dégoût). Les barres verticales représentent l’erreur standard. *** p <.01
Nous avons également analysé le nombre de regards sur le visage de joie ou de dégoût
de regards les visages avec les visages émotionnels (joie, dégoût), les voix (joie, dégoût ou
neutre) et l’âge des bébés (1, 2, 4 ou 6 mois) comme facteurs intra-sujets.
= .957. L’analyse post-hoc réalisée avec Bonferroni a révélé que le nombre de regards dirigés
sur chaque visage émotionnel était plus élevé pour les bébés de 6 mois (1.80 ± 0.14) que pour
187
les bébés de 1 mois (0.62 ± 0.05) (p <.001), de 2 mois (0.56 ± 0.05) (p <.001) et ceux de 4 mois
(1.36 ± 0.10) (p <.001). De plus, le nombre de regards des bébés de 4 mois était plus élevé que
ceux des bébés de 1 mois (p <.001) et de 2 mois (p <.001). Nous n’avons trouvé aucune
différence du nombre de regards sur les visages émotionnels, F(1, 19) = 0.12, p = .738, ηp2
=.006 ou de l’interaction entre les visages et les voix, F(2, 38) = 0.22, p = .805, ηp2 = .011.
L’objectif de cette expérience était d’étudier le développement des capacités de transfert

intermodal émotionnel de 1 à 6 mois grâce à une étude longitudinale. Les bébés étaient vus à
quatre âges différents, à 1, 2, 4 et 6 mois. Le but de cette expérience était de déterminer si un
transfert intermodal émotionnel pour les émotions de joie et de dégoût serait possible car
l’émotion de dégoût a été très peu étudiée chez les bébés de moins de 6 mois.
Premièrement, les résultats de la « baseline » (voix neutre) ont démontré une différence
de préférence pour le visage de joie ou de dégoût en fonction de l’âge des bébés. Si un transfert
intermodal émotionnel a été réalisé, on s’attend à ce que la voix neutre ne provoque pas de
préférence pour l’un ou l’autre des visages, car les deux sont nouveaux vis-à-vis de la voix. Les
résultats ont révélé que les bébés, à 1 mois, ont regardé plus longtemps le visage de joie que de
dégoût. Alors que chez les bébés les plus âgés aucune différence de temps de regard n’a été
retrouvée.
Deuxièmement, après les voix émotionnelles, aucune différence de temps de regard

entre les deux visages émotionnels ne s’est révélée significative et ce peu importe l’âge des
bébés. Ceci ne permet pas d’affirmer que les bébés de 1-6 mois sont capables de transférer une
information émotionnelle contenue dans la voix à des visages émotionnels.
Troisièmement, au niveau développemental, l’absence de préférence pour le visage de

joie ou de dégoût semble être stable à travers les quatre âges étudiés pour les voix
émotionnelles, mais serait modulée par la voix neutre à 1 mois, avec une préférence pour le
visage de joie. Par ailleurs, nous avons trouvé un effet de l’âge sur le nombre de regards. Il
semblerait que les bébés de 1 et 2 mois ont produit un nombre de fixations plus faible que les
bébés de 4 et 6 mois. Ce résulat suggérerait que les bébés les plus jeunes font moins de
comparaisons entre les deux visages, mais produisent des fixations plus longues.
188
Pour conclure, les bébés de 1 à 6 mois n’ont démontré aucune préférence pour le visage
de joie et de dégoût après les voix émotionnelles. De ce fait, cette expérience ne permet pas de
révéler une capacité de transfert intermodal pour la joie ou le dégoût de 1 à 6 mois. Cependant,
le visage de joie a largement été préféré au visage de dégoût à 1 mois. Ce résultat pourrait être
révélateur d’une discrimination de l’émotion de dégoût par rapport à l’émotion de joie de
manière très précoce, jamais encore démontrée.
189
Expérience 10 : colère vs. dégoût

L’objectif de cette expérience était d’étudier le développement précoce des capacités de
transfert intermodal émotionnel (dégoût et colère) de 1 à 6 mois grâce à un protocole
longitudinal. Le but étant d’étudier les capacités de transfert au niveau inter et intra personnel.
Dans l’expérience 10, par rapport à l’expérience 8, les stimuli de joie ont été remplacés par des
stimuli de dégoût. Cette expérience a opposé deux émotions de la même valence, cependant la
colère est une émotion qui suscite une tendance à l’approche alors que le dégoût, lui, une
tendance au retrait. Si un transfert intermodal émotionnel est retrouvé après ces deux émotions
de même valence. Nous pourrons conclure à un transfert intermodal très robuste.
Vingt bébés (8 filles) nés à terme (au moins 37 semaines de gestation) ont été vus à
quatre reprises à 1, 2, 4 et 6 mois. Les bébés ont été inclus à l’échantillon final pour avoir
moyen = 61.40 jours ± 5.51, à 4 moi :s âge moyen = 120.50 jours ± 10.79, à 6 mois : âge moyen
= 187.25 jours ± 9.16. Quatorze bébés supplémentaires ont été exclus en raison de passation
ans (± 4.3) et de 35.41 ans (± 5.3) pour les pères. Les parents ayant participé à cette étude étaient
8.3.1.2. Stimuli
Les stimuli visuels étaient des visages émotionnels virtuels féminins de dégoût et de
colère créés avec FACSGen (Roesch et al., 2011) (Figure 28) et les stimuli auditifs étaient des
190
voix neutres et émotionnelles de colère et de dégoût féminines prononçant des pseudo-mots

provenant de la base de données « GEMEP » (Bänziger et al., 2012). Pour le détail de ces
stimuli voir le chapitre II Contributions expérimentales, point 4.2 stimuli.
La procédure expérimentale était exactement la même que celle de l’expérience 8, sauf

que dans l’expérience 10, les stimuli de dégoût ont remplacé les stimuli de joie.
Toutes les vidéos ont été double codées avec le logiciel BORIS (Friard & Gamba, 2016)
par deux observateurs naïfs avec une moyenne d’accord de 0.94 (Pearson’s r). L’analyse des
données s’est déroulée de la même manière que pour l’expérience 8, sauf que dans l’expérience
10, les stimuli de dégoût ont remplacé les stimuli de joie. La DTRT a été calculée de telle sorte
qu’un nombre supérieur à 0% correspondait à un temps de regard plus élevé pour le visage de
dégoût et un nombre inférieur à 0% correspondait à un temps de regard plus élevé pour le visage
de colère.
visages avec les visages émotionnels (dégoût, colère) et l’âge des bébés (1, 2, 4 ou 6 mois)
comme facteurs intra-sujets.
ηp2 =.130. L’effet principal de l’âge était non significatif, F(3, 57) = 2.15, p = .104, ηp2 =.101.
L’interaction entre les visages émotionnels et l’âge était également non significative, F(3, 57)
= 0.91, p = .440, ηp2 = .046.
191
les visages avec les visages émotionnels (dégoût, colère) et les voix émotionnelles (dégoût,
colère) et l’âge des bébés (1, 2, 4 ou 6 mois) comme facteurs intra-sujets.
ηp2 =.000, aucune différence de temps de regard entre le visage de dégoût (3.51 ± 0.14 s) et le
visage de colère (3.48 ± 0.17 s) n’a été mise en évidence. L’effet principal des voix
émotionnelles était non significatif, F(1, 19) = 0.01, p = .927, ηp2 =.000. L’effet principal de
l’âge était non-significatif, mais tendentiel, F(3, 57) = 2.62, p = .06, ηp2 = .121. Cependant,
l’analyse post-hoc réalisée avec Bonferroni n’a révélé aucune différence significative.
L’interaction entre les voix émotionnelles et les visages émotionnels n’était pas significative,
F(1, 19)= 0.15, p = .701, ηp2 = .008. De plus, la triple interaction entre l’âge, les visages
émotionnels et les voix émotionnelles n’était pas significative, F(3, 57) = 0.67, p = .573, ηp2 =
.034.
total (DTRT) avec les voix (dégoût, colère, neutre) et l’âge des bébés (1, 2, 4 ou 6 mois) comme
facteurs intra-sujets. Un résultat positif représente le pourcentage du temps de regard en faveur
du visage de dégoût et un résultat négatif représente le pourcentage du temps de regard en
faveur du visage de colère.
entre les voix émotionnelles et l’âge était également non significative, F(6, 114) = 0.44, p =
.850, ηp2 =.023.
émotionnels en fonction de chaque voix (neutre, dégoût, colère) et de l’âge des bébés (1, 2, 4
ou 6 mois) comparé au niveau de chance de 0%. Nous n’avons retrouvé qu’une seule différence
significativement supérieure au niveau de chance, à 2 mois, après l’écoute de la voix neutre
avec une DTRT pour le visage de colère comparé au visage de dégoût, supérieure au niveau de
chance (24% ± 11%), t(19) = -2.09, p = .049, toutes les autres ps > .32 (Figure 55).
192
40%
de colère (<0%) et de dégoût (>0%) 30%
Dégoût
20%
10%
0%
-10%
Colère
-20%
-30%
-40% *
voix neutre voix dégoût voix colère
Figure 55. DTRT sur les visages de colère et de dégoût en fonction de l’âge (1, 2, 4, 6 mois) et des voix (neutre,
dégoût, colère). Les barres verticales représentent l’erreur standard.
de regards, les visages avec les visages émotionnels (dégoût, colère), les voix (dégoût, colère
ou neutre) et l’âge des bébés (1, 2, 4 ou 6 mois) comme facteurs intra-sujets.
= .597. L’analyse post-hoc réalisée avec Bonferroni a révélé que le nombre de regards dirigés
sur chaque visage émotionnel était moins élevé pour les bébés de 1 mois (2.05 ± 0.21) que les
bébés de 4 mois (4.28 ± 0.36) (p <.001) et ceux de 6 mois (5.46 ± 0.46) (p <.001). Nous n’avons
trouvé aucune différence du nombre de regards sur les visages émotionnels, F(1, 19) = 1.24, p
= .279, ηp2 =.061, en fonction des voix, F(2, 30) = 2.34, p=.114, ηp2 = .135 ou de l’interaction
entre les visages et les voix, F(2, 38) = 0.22, p = .802, ηp2 = .012.
L’objectif de cette expérience était d’étudier le développement des capacités de transfert

intermodal émotionnel de 1 à 6 mois grâce à une étude longitudinale. Les bébés étaient vus à
quatre âges différents, à 1, 2, 4 et 6 mois. Dans cette expérience nous avons essayé de
193
déterminer si un transfert intermodal émotionnel pour les émotions de dégoût et de colère était
possible. Cette expérience a opposé deux émotions de la même valence, cependant la colère est
une émotion qui suscite une tendance à l’approche alors que le dégoût, lui, une tendance au
retrait. Si un transfert intermodal émotionnel est retrouvé après ces deux émotions de même
valence, nous pourrons conclure à un transfert intermodal très robuste.
Pour commencer, les résultats de la « baseline » (voix neutre) démontraient une

différence de préférence pour le visage de dégoût ou de colère en fonction de l’âge des bébés.
Si un transfert intermodal émotionnel est réalisé, on s’attend à ce que la voix neutre ne démontre
pas de préférence significative pour l’un ou l’autre des visages, car les deux visages sont
nouveaux vis-à-vis de la voix. Les résultats ont révélé que les bébés à 2 mois ont regardé plus
longtemps le visage de colère que de dégoût. Alors que chez les bébés de 1, 4 et 6 mois, aucune
différence de temps de regard entre le visage de colère et de dégoût n’a été trouvée.
Ensuite, après les voix émotionnelles, il semblerait qu’aucune différence de temps de

regard n’ait été mise en évidence entre le visage de dégoût et de colère, et ce, peu importe l’âge
des bébés. Ceci ne permet pas d’affirmer que les bébés de 1-6 mois seraient capables de
transférer une information émotionnelle contenue dans la voix, à des visages émotionnels.
Finalement, au niveau développemental, l’absence de préférence pour le visage de

dégoût ou de colère semble être stable à travers les quatre âges étudiés pour les voix
émotionnelles, mais modulée par la voix neutre à 2 mois, avec une préférence pour le visage de
colère. Par ailleurs, nous avons trouvé un effet de l’âge sur le nombre de regards. Il semblerait
que les bébés de 1 mois ont réalisé un nombre de fixations plus faible que les bébés de 4 et 6
mois. Ce résultat suggère que les bébés les plus jeunes font moins de comparaison entre les
deux visages et font des fixations plus longues.
En conclusion, les bébés de 1 à 6 mois n’ont démontré aucune préférence pour le visage
de colère et de dégoût après les voix émotionnelles. Ainsi, cette expérience ne permet pas de
révéler une capacité de transfert intermodal pour le dégoût ou la colère de 1 à 6 mois.
194

L’objectif de cette étude était d’analyser le développement des capacités de transfert
intermodal émotionnel de 1 à 6 mois grâce à trois expériences longitudinales. Les bébés étaient
vus à quatre âges différents, à 1, 2, 4 et 6 mois. Les trois expériences avaient le même paradigme
et le même type de stimuli : visages virtuels 3D et voix exprimant des pseudo-mots similaires
à ceux des expériences 2 et 5 mais les émotions présentées différaient d’une étude à l’autre.
L’expérience 8 a présenté des expressions émotionnelles de joie et de colère, l’expérience 9,
des expressions émotionnelles de joie et de dégoût et l’expérience 10 des expressions
émotionnelles de colère et de dégoût.
Pour commencer, après la « baseline » (voix neutre), la préférence ou l’absence de

préférence était différente en fonction de l’âge et des émotions présentées. Il est important de
rappeler que pour la « baseline » des trois expériences, la voix neutre était la même. Dans
l’expérience 8 (joie vs. colère), aucune différence de temps de regard n’a été observée. Dans
l’expérience 9 (joie vs. dégoût), les bébés âgés de 1 mois ont regardé plus longtemps le visage
de joie que celui de dégoût. Dans l’expérience 10 (colère vs. dégoût), les bébés âgés de 2 mois
ont regardé plus longtemps le visage de colère que celui de dégoût. Ces résultats peuvent être
sujets à deux interprétations différentes.
Premièrement, si l’on considère que les bébés ont réalisé un transfert intermodal, la voix
neutre ne devrait pas révéler de différence significative entre le temps de regard des deux
visages, car les deux visages sont nouveaux par rapport à la voix. Ainsi, les résultats obtenus
pourraient suggérer qu’à 1 mois, pour l’expérience 9 et à 2 mois, pour l’expérience 10 le
transfert de la voix n’a pas été effectué ou alors effectué avec une interprétation erronée de
l’émotion des stimuli. Avec l’âge, la voix neutre serait ensuite bien interprétée comme neutre
et donc aucun visage ne serait préféré.
Deuxièmement, si l’on suppose que les bébés n’ont pas pris en compte la voix neutre
entendue pour regarder les visages émotionnels et donc qu’aucun transfert n’a été effectué, alors
l’expérience 8 n’a révélé aucune préférence spontanée pour le visage de joie par rapport au
visage de colère. Ce résultat serait ainsi contraire à ceux retrouvés dans la majorité des études
qui ont démontré une préférence spontanée pour le visage de joie durant les premiers mois de
vie (A. J. Caron et al., 1988; Farroni et al., 2007; Kuchuk et al., 1986; LaBarbera et al., 1976;
195
Montague & Walker-Andrews, 2002; Rigato et al., 2011; Rochat et al., 2002). Dans
l’expérience 9, à 1 mois seulement, une préférence spontanée pour le visage de joie par rapport
au visage de dégoût a été retrouvée. Ainsi, une discrimination précoce pour le visage de joie
par rapport au visage de dégoût serait démontrée pour la première fois, mais s’estomperait avec
le développement et pourrait même s’inverser comme mis en évidence par Godard et al. (2016)
à 3, 5 et 7 mois. Dans l’expérience 10, les résultats ont révélé une préférence pour le visage de
colère par rapport au visage de dégoût à 2 mois seulement. Cela pourrait suggérer, qu’à 1 mois,
les bébés ne parviennent pas à discriminer deux visages de même valence, mais que, à 2 mois,
ils auraient une préférence spontanée pour le visage de colère par rapport au visage de dégoût
et que ensuite, cette préférence pour le visage de colère s’estomperait avec le développement.
Ensuite, après les voix émotionnelles, pour les trois expériences, les résultats n’ont
indiqué aucune différence significative de temps de regard sur l’un ou l’autre des visages
émotionnels. Du fait de cette absence de préférence en fonction des voix émotionnelles, nos
études n’ont pas permis de confirmer la présence d’un transfert intermodal émotionnel dans ces
trois expériences.
Nous pouvons émettre l’hypothèse que cette absence de préférence peut être due à la
difficulté des stimuli employés dans cette condition expérimentale. En effet, les visages étaient
des visages virtuels qui ont permis d’éliminer les éventuels biais liés aux autres propriétés
physiques du visage. Cependant, les bébés sont exposés dans leur environnement à des visages
réels et non à des visages virtuels, ces derniers pouvant peut-être ainsi déteriorer leurs capacités
d’exploration. Mais encore, faire le lien entre ces visages virtuels et les voix entendues pourrait
avoir été trop compliqué. D’autre part, les voix étaient des pseudo-phrases émotionnelles
exprimées par trois identités différentes. Afin de comprendre que l’émotion présentée est la
même pour les trois voix et en extraire les propriétés émotionnelles, les bébés doivent
catégoriser l’expression vocale. Des études ont montré qu’une discrimination catégorielle entre
la joie et plusieurs autres émotions (surprise, tristesse, peur) est possible à partir de 6-7 mois
(A. J. Caron et al., 1988; R. F. Caron et al., 1982; Ludemann & Nelson, 1988; C. A. Nelson,
1987; C. A. Nelson & Dolgin, 1985). La capacité à catégoriser les émotions indépendamment
de l’identité semble se développer après la capacité d’une simple discrimination entre deux
émotions exprimées par la même personne. Il se peut que l’émotion vocale exprimée par ces
différentes identités n’ait pas été catégorisée comme une émotion et, de ce fait, le transfert de
la voix aux visages était trop difficile. Ainsi, l’absence de transfert dans cette étude, peut être
196
expliquée par la difficulté des stimuli employés chez de si jeunes bébés. Cette absence de
résultats semble montrer que, jusqu’à 6 mois, les bébés ont besoin d’être exposés à des stimuli
plus simples pour pouvoir correctement discriminer et créer une association entre les voix
émotionnelles et les visages.
Au vu de l’absence de mise en évidence d’un transfert émotionnel avec les voix

émotionnelles, après la voix neutre, l’hypothèse que les bébés n’aient pas effectué de transfert
semble plus raisonnable. Ainsi, les résultats trouvés révéleraient une préférence spontanée pour
le visage de joie par rapport au visage de dégoût à 1 mois et le visage de colère par rapport au
visage de dégoût à 2 mois.
De plus, le but de cette étude longitudinale était d’étudier le développement intra-

individuel des capacités de transfert intermodal. Ainsi, l’absence de préférence semble être
constante au fil des âges. Malheureusement, de ce fait, il n’est pas possible d’établir de profils
développementaux et de déterminer l’âge d’apparition d’un possible transfert intermodal
émotionnel. Par ailleurs, nous retrouvons un effet de l’âge sur le nombre de regards. Il
semblerait que les bébés produisent un nombre de fixations de plus en plus élevé avec l’âge.
Ces résultats suggèrent que les bébés les plus jeunes effectuent moins de comparaison entre les
deux visages et font des fixations plus longues.
En conclusion, les résultats observés dans ces trois expériences ne suggèrent aucune
différence de temps de regard entre les visages émotionnels, peu importe la voix émotionnelle
préalablement entendue, et ce à tous les âges. Ainsi, ces résultats n’ont pas permis de mettre en
évidence une capacité de transfert intermodal émotionnel chez ces bébés de 1 à 6 mois.
197
chez des participants verbaux : analyses eye-
tracking
Cette étude a examiné l’évolution du comportement de transfert intermodal émotionnel

chez les enfants et les adultes, en utilisant un paradigme expérimental originellement
conçu pour les bébés. Ainsi, 16 séquences de transfert intermodal ont été proposées
individuellement aux participants de 5, 8, 10 ans et adultes. Deux conditions
expérimentales ont été analysées afin d’évaluer l’impact de différents types de stimuli
utilisés (condition 1 : vocalisations non-verbales et photographies de visages ou
condition 2 : pseudo-mots et visages virtuels). Dans chaque condition, ces séquences
correspondaient à quatre modalités de voix présentées deux fois (sans voix, neutre, joie,
colère) pendant 20 secondes pour une phase de familiarisation auditive, suivie de la
présentation simultanée pendant 10 secondes de deux visages émotionnels statiques. Les
comportements oculaires à l’égard des stimuli visuels ont été enregistrés grâce à un eye-
tracker.
Les résultats étaient similaires entre les deux conditions expérimentales. Après la
baseline (sans voix ou la voix neutre), les résultats n’ont révélé aucune différence de
préférence visuelle entre les visages de joie et de colère. Après les voix émotionnelles,
les participants ont regardé plus longtemps le visage congruent. Dès 8 ans seulement
après la voix de joie et, dès 10 ans, aussi après la voix de colère.
La capacité d’extraire des informations émotionnelles amodales et de faire correspondre

les informations congruentes semble acquise à partir de 8 ans avec une voix de joie et à
partir de 10 ans avec une voix de colère.
Expérience 11: The cross-modal transfer of

emotional information from voices to faces in 5, 8
and 10 year old children and adults: an eye-tracking
study4
4
Cette expérience est une reproduction de l’article : Palama, A., Malsert, J., Grandjean, D., Sander, D. & Gentaz,
E. (submitted). The cross-modal transfer of emotional information from voices to faces in 5-, 8- and 10-year-old
children and adults: an eye-tracking study.
199
Running head: Development of cross-modal (audio-visual) recognition of emotional face
The cross-modal transfer of emotional information from

voices to faces in 5-, 8- and 10-year-old children and
adults: an eye-tracking study
A. Palama1,2, J. Malsert1,2, D. Grandjean1,2, D. Sander1,2, E. Gentaz1,2,3
1 Faculty of Psychology and Sciences of Education, University of Geneva, Switzerland

2 Swiss Center for Affective Sciences, University of Geneva, Switzerland
3 CNRS, France
200
9. ETUDE 5 : TRANSFERT INTERMODAL ÉMOTIONNEL CHEZ DES PARTICIPANTS VERBAUX
Abstract
The present study examined the evolution of emotional amodal transfer throughout
childhood compared to adulthood, using an experimental design first used with infants. Thus,
16 sequences of cross-modal transfer were individually presented to 5-, 8- and 10-year-old
children and adults (20 per age group). Two stimulus conditions were tested in order to evaluate
the impact of different stimuli used through 8 sequences each (condition 1: cross modal transfer
with voiced affective bursts and face photographs or condition 2: meaningless-speech voices
and 3D virtual faces. In each condition, these 8 sequences corresponded to 4 voice conditions
presented twice (no voice, neutral, happy or angry voices) presented for 20 seconds for a
hearing familiarization phase, followed by the simultaneous presentation of two static
emotional faces for 10 seconds. The only instruction was to look at the screen, thus spontaneous
ocular behaviors towards visual stimuli were recorded by eye-tracking in each of the 16 test
phases. First, results did not suggest any difference in visual preference between happy and
angry faces after “no voice” or the neutral voice. Second, results showed that 8-year-old
participants looked spontaneously longer at the congruent face only after the happy voice,
whereas 10-year-old children and adults did so after both emotional voices. Then the
modulation of behavior indicators related to the ability to extract amodal emotional information
and spontaneously match the congruent information was present as of age 8 with a happy voice
and age 10 with an angry voice.
Key-words: Emotion, cross-modal transfer, development
201
Introduction
Emotional face, voice and body expressions play a fundamental role in social
communication. Emotions are important for interaction and make it possible to transmit one’s
internal state and intentions to others (Dols & Russell, 2017). Researchers have used many
different instruments (tests, questionnaires, interviews, etc.) to measure the perception and
understanding of emotions from early childhood to adulthood, and most require verbal abilities
(for review: Castro, Cheng, Halberstadt, & Grühn, 2016). Because infants cannot use language
or receive instructions, some studies collect and analyze oculomotor activity. In this case,
researchers examine whether stimulus factors are associated to a specific oculomotor activity.
The review of the literature in infancy reveals that the ability to recognize facial
expressions emerges early with infants’ capacities to discriminate facial expressions at around
the age of 6-7 months (for a review: Bayet, Pascalis, & Gentaz, 2014). Moreover, the
discrimination of two emotional faces by infants gives no information on their real
understanding of the emotion per se, it merely shows they can perceptively differentiate stimuli
like the visual characteristics of a face. For example, Caron, Caron, and Myers (1985) showed
that 4-month-old infants use cues such as the salience of teeth, rather than emotions, when
comparing two emotional faces. However, they confirm that sensitivity to perceptual variables
contributes to infants' performances in several experiments designed to assess sensitivity to
emotion.
Palama, Malsert, and Gentaz (2018) overcame this difficulty using a successive cross-
modal transfer paradigm from emotional voices to emotional faces. Thus, the ability to transfer
cross-modally from emotional voices to emotional faces (angry or happy) was examined in 6-
month-old infants. The goal was to understand if the discrimination of emotion in infants is
based on physical specificity (visual/acoustic perceptual nature) or if they recognize emotion
amodally, i.e. independently of the sensorial modality. Results suggested no difference in
infants’ looking time at the happy or angry face after listening to the neutral voice or the angry
voice, whereas, after listening to the happy voice, the incongruent angry face (the mouth area
in particular) was watched longer than the congruent happy face. These results revealed that a
cross-modal transfer (from auditory to visual modalities) is possible from 6-months of age after
the presentation of a happy voice, suggesting that infants recognize this emotion amodally.
Using the same paradigm, the results of Palama et al. (submitted) did not demonstrate this
emotional cross-modal transfer ability in infants 2 or 4 months of age. These results suggested
that the ability to amodally recognize happiness could emerge between 4 and 6 months.
202
Despite these early emotional skill developments, the ability to understand emotions
improves considerably with age throughout childhood and (pre)adolescence (for reviews:
Gosselin, 2005; Harris, de Rosnay, & Pons, 2016; Pons et al., 2015; Pons, Harris, & Rosnay,
2004). Indeed, as of age 2 (years), children are able to make a first verbal categorization of
certain primary emotions. Thereafter, this categorization continues to develop and children
become able to categorize an increasing number of emotions. Children would first categorize
emotions into two types based on positive (pleasant) and negative (unpleasant) valences, and
would only later reach a categorization of specific emotions as in adults (Widen & Russell,
2008, 2015). The development of children’s emotion understanding seems to depend on the
presentation used (e.g. stories, films, faces) and the response modalities (e.g. matching, label,
etc.) (Nelson & Russell, 2011; Vicari, Reilly, Pasqualetti, Vizzotto, & Caltagirone, 2000).
However, a general pattern of development emerges from the various studies: using verbal
tasks, the identification of happiness is already well established at age 3, sadness, anger and
fear at around age 6, whereas the identification of surprise and disgust between the ages of 6
and 10 (Boyatzis, Chazan, & Ting, 1993; Camras & Allison, 1985; Durand, Gallay, Seigneuric,
Robichon, & Baudouin, 2007; Gagnon, Gosselin, & Maassarani, 2014; Gosselin, 1995; Rodger,
Vizioli, Ouyang, & Caldara, 2015; Widen & Russell, 2013). Bänziger, Grandjean, & Scherer
(2009) demonstrated that emotions presented in multimodal (audio-visual) ways are better
recognized than emotions presented in unimodal ways. In addition, dynamic expressions appear
to be more easily recognized than static facial expressions. Moreover, young adults (18-32
years) seem to recognize emotions better than older ones (60-87 years), suggesting a decline in
emotional recognition with age (Sullivan, Ruffman, & Hutton, 2007). Nevertheless, this
consensus is debatable due to the diversity of experimental designs and the requirement of
language proficiency. One way to test emotional perception without using language skills could
be to use the emotional successive cross-modal transfer task proposed to infants by Palama et
al. (2018). Indeed, research with infants involves being built without instruction and without
verbal response. With cross-modal transfer task, we hypothesized that if participants had an
amodal representation of emotion, they would be able to transfer the emotional information
from an emotional voice to an emotional face.
The main goal of the present experiment is to examine how the emotional transfer from
voices to faces evolves in verbal participants. In this study, we applied the same paradigm as
Palama et al. (2018), originally created for infants, to school-age children (ages 5, 8 and 10)
and adults. It is relatively unusual to use a visual preference paradigm to study visual
recognition in verbal humans, however, this makes it possible to evaluate emotional recognition
203
independently of the child's language abilities (access to the lexicon, labelling, etc.). In adult
eye-tracking studies, intermodal stimulations revealed that both prosody and/or semantics
orient more towards the congruent emotional face when faces and voices are presented
simultaneously (Paulmann, Titone, & Pell, 2012; Rigoulot & Pell, 2012). Would we find these
results if voiced and visual emotions were presented successively and not simultaneously? This
question may arise because, in a study of visual preference tasks after delays of 10 seconds
between stimuli, adults have shown a preference for the novel, thus incongruent face (Pascalis
& Bachevalier, 1998). Moreover, children age 7 to 12 showed labelling accuracy of 100% for
happiness, anger or sadness if faces and voices are congruent. Nevertheless, abused children
demonstrated an attentional bias toward auditory cues when expressing vocal anger, a stimulus
that is less ambiguous for them (Shackman & Pollak, 2005). Thus, context and environment
can modulate emotional attention, therefore ocular behavior is not so obviously oriented even
in subjects who are able to transfer emotions.
The secondary goal is therefore to explore the development of emotional face processing
using eye-tracking and test whether the areas of interest (AOIs) on the face (eyes, mouth) are
looked at differently depending on the age of the participant or emotions expressed. Two types
of content are crucial for face processing and expertise in face discrimination: featural and
configural information (Pascalis et al., 2011). Features correspond to important internal (eyes,
nose, mouth) and external (hairstyle and jawline) isolated elements used to discriminate or
categorize faces. Internal features are considered to become more critical for adulthood face
expertise, after hierarchical variations during infancy due to visual acuity development (Ellis,
Shepherd, & Davies, 1979; Ge et al., 2008; Pascalis et al., 2011; Tanaka & Farah, 1993).
Configural information refers to spatial relationships between the different elements sensitive
to inversion effect (ex.: space between eyes, nose, etc.). Featural and configural information is
thus associated through holistic face processing (Tanaka & Gordon, 2011). Generally, faces
would be treated with a pattern of systematic preferential fixation along an inverted triangle
pattern through the internal features between the eyes, nose, and mouth (Groner, Walder, &
Groner, 1984).
There is still little knowledge about the development of emotional face processing
despite the growing number of eye-tracking studies. One consistent result that can be found
among the different studies is higher proportion of fixation on the mouth and the eye areas (e.g.
Beaudry, Roy-Charland, Perron, Cormier, & Tapp, 2014; Eisenbarth & Alpers, 2011; Jack,
Blais, Scheepers, Schyns, & Caldara, 2009; Schurgin et al., 2014; Vaidya, Jin, & Fellows,
2014). Among them, one eye-tracking study in infants shows that as of 7 months, they already
204
looked preferentially at the mouth for happy faces, whereas they oriented sooner toward the eye
and eyebrow areas for angry and sad faces. In adults, eye-tracking studies revealed that the eye
area was fixed longer than the mouth for all basic emotions (Beaudry et al., 2014; Hernandez
et al., 2009; Hunnius, Wit, Vrins, & Hofsten, 2011). It seems that a preferential looking
behaviour for the inner features of the face in function of the emotion exists but it remains
unclear and not always found (Blais, Fiset, Roy, Saumure Régimbald, & Gosselin, 2017; Jack
et al., 2009; Vaidya et al., 2014). For example, Hunnius et al., (2011) suggested that the eye
area is avoided in angry face perception whereas others showed that eyes are looked at more in
angry expressions (Eisenbarth & Alpers, 2011; Schurgin et al., 2014; Sullivan et al., 2007).
Moreover, some studies suggest that happiness triggers more attention to the mouth area
(Beaudry et al., 2014; Eisenbarth & Alpers, 2011; Hernandez et al., 2009; Schurgin et al., 2014).
Also, visual attention to faces seems correlated with better emotion recognition (Sullivan et al.,
2007).
For a better understanding of cross-modal transfer in children and adults, we aimed at
exploring if it would be present independently of the types of faces and voices used. For this
purpose, we presented two stimulus conditions. One condition had the same stimuli used in
Palama et al., 2018 (affective bursts and photographs of faces) and a new one (meaningless-
speech sentences and 3D virtual faces) which is supposed to add better control of the stimuli.
In the new condition, voices were manipulated using emotional meaningless-speech sentences
expressed by 3 different identities. The transfer with a voice expressed by different actresses
suggested identity-invariant categorization and offered better control of emotion recognition.
Indeed, infants’ ability to categorize emotions presented by different identities as the same is
found later than paradigms using only one identity discrimination (e.g. A. J. Caron, Caron, &
MacLean, 1988; Rose F. Caron, Caron, & Myers, 1982; Ludemann & Nelson, 1988; C. A.
Nelson, 1987; C. A. Nelson & Dolgin, 1985). Emotional faces were manipulated using 3D
virtual faces created with FACSGen software. This type of face presents the advantage that it
eliminates biases related to other physical properties of the face and earlier studies in adults
have validated these 3D virtual faces (e.g. Mumenthaler & Sander, 2012, 2015; Roesch et al.,
2011). Moreover, a study using similar virtual emotional faces from the same software showed
that children as of age 3 perform similarly to adults, with participants more often choosing a
label for an unknown object from a reference expressing a happy face than from an angry one
(Clément, Bernard, Grandjean, & Sander, 2013). Furthermore, an eye-tracking study in adults
revealed no difference in participants’ looks at each area of a neutral face (mouth, nose, eyes)
between virtual and real face models (Hernandez et al., 2009). If a cross-modal transfer is found
205
in the second condition with emotions expressed by more controlled stimuli, it will suggest a
more robust transfer ability.
In this study, we explored the development of the ability to represent emotion in an
amodal way. More precisely, we analyzed whether children as of age 5 are able to match an
emotional voice with the corresponding face and whether there is a developmental pattern
specific to each emotion (happy and anger). We also investigated whether the face congruent
to the voice was preferentially looked at, or whether as in 6-month-old infants, the incongruency
was preferred. More specifically, we examined whether potential visual preferences depend on
attentional orientation towards specific areas of the face such as the eyes and/or mouth after the
auditory familiarization.
Method
The sample comprised 80 participants consisting of 20 5-year-olds (7 females; 4.85 ±

0.58 years, range= 4 to 6 years), 20 8-year-olds (13 females; 8.15 ± 0.48 years, range= 7 to 9
years), 20 10-year-olds (8 females; 10.25 ± 0.55 years, range= 9 to 11 years) and 20 young
adults (10 females; 21.80 ± 3.45 years, range= 18 to 32 years). In this experiment, each
participant performed the 2 stimulus conditions: Condition 1: cross-modal transfer with
affective bursts and photographs of faces and Condition 2: cross-modal transfer with
meaningless-speech voice and 3D virtual faces. The sample size was determined based on
previous studies using eye tracking and revealing differences of visual face processing using around
20 participants per groups (e.g. Blais et al., 2017; Blais, Jack, Scheepers, Fiset, & Caldara, 2008;
Jack et al., 2009). The Ethics Committees of the Faculty of Psychology and Educational
Sciences at the University of Geneva gave approval for the study and all parents and adult
participants gave written informed consent for their children’s or their own participation in the
experiment.
9.1.3.2. Stimuli
9.1.3.2.1. Stimulus Condition 1: affective bursts and photographs of

faces
In stimulus condition 1, auditory and visual stimuli were the same as those in the Palama
et al. (2018) infant study. The emotional auditory stimuli of happiness, anger and neutral
nonverbal came from the "Montreal Affective Voice" database (Belin, Fillion-Bilodeau, &
206
Gosselin, 2008). They were expressive affective bursts stimuli based on the emission of the
vowel /a/. This auditory stimulus was a loop of a 1-second voice with a break of 1 second
between each repetition for a total clip of 20 seconds from the vocal productions of only one
woman (ref: SF60). The volume of auditory stimuli presented did not exceed 60 dBA.
The visual stimuli used were the emotional (happy and angry) faces of a woman (ref:
SF4) taken from the "The Karolinska Directed Emotional Faces - KDEF" database (Lundqvist,
Flykt, & Öhman, 1998). These photographs were 14 x 10 cm, in black and white, and were
presented on a medium gray background (RGB 100, 100, 100). The faces were presented in
pairs and pseudo-randomized for the left and right presentation (cf. Figure 1).
Figure 56. Figure 1. Visual stimulus condition 1: happy face (left); angry face (right).
9.1.3.2.2. Stimulus condition 2: meaningless-speech voices and 3D

virtual faces
The emotional auditory stimuli of happiness, anger and neutral came from the GEMEP
database (Bänziger, Mortillaro, & Scherer, 2012). They were the repetition of two meaningless-
speech sentences (linguistic phoneme sequences without semantic) (“nekal ibam soud
molen” and “koun se mina lod belam”) portrayed by 3 different actresses (ref: 2, 7 and 9) for a
total clip of 20 seconds. The volume of the auditory stimuli presented did not exceed 60 dBA.
The emotional visual stimuli were 3D virtual happy and angry faces created with
FACSGen (Roesch et al., 2011). This software allows for the creation of high standardized
realistic synthetic 3D facial stimuli based on the Facial Action Coding System (FACS) (Ekman,
Friesen, & Hager, 1978). The face selected is called “Tanja” and we applied a gamma correction
of 1.7 to it. For each emotional face, we activated the action units (AU) in accordance with
(Ekman et al., 1978; Roesch et al., 2011). For the happy face AU 6, 12, 25 and 26 were
activated, with an intensity of activation (in order of each AU) of 60, 60, 40 and 50 (i.e.
maximum intensity is 100). For the angry face AU 4, 5, 7, 9, 16, 23 and 25 were activated, with
207
an intensity of activation of 60 for each AU (cf. Table 1, Figure 2). These faces were 18 x 12
cm, in color, and were presented on a black background.
Table 5
Table 1. Action Units (AU) and intensity used to create Happy and Angry faces with
FACSGen
Intensity of Activation
AU Number AU FACS Name Maximum=100
Happy Angry
4 Brow Lowerer 0 60
5 Upper Lid Raiser 0 60
6 Cheek Raiser 60 0
7 Lid Tightener 0 60
9 Nose Wrinkler 0 60
12 Lip Corner Puller 60 0
16 Lower Lip Depressor 0 60
23 Lip Tightener 0 60
25 Lip Part 40 60
26 Jaw Drop 50 0
Figure 57. Figure 2. Visual stimulus condition 2: happy face (left); angry face (right).
In order to make sure that the emotional faces created with FACSGen were recognized
as intended emotional faces (angry or happy), the stimuli were validated in a pilot study with
adult participants, 24 University of Geneva students (14 females; mean age= 21.04 ± 2.8 years).
Each participant was instructed to classify the faces in a 7-alternative forced choice task. The
208
choices were: happiness, anger, sadness, disgust, surprise, fear and a black field to allow
participants to suggest another emotion. The stimuli and the list of choices were presented in a
randomized order. Stimuli were recognized with an accuracy of 92% (N=22/24) for both
emotional expressions, much higher than the chance level of 14.29% (100/7).
9.1.3.3. Experimental procedure and conditions
The young adult students were recruited at University of Geneva’s corridor and tested
in the Sensory-Motor, Affective and Social (SMAS) Lab. The children were tested directly in
a quiet room at their school in Geneva. The participants were seated at a distance of 60 cm from
the screen; at this distance, visual stimuli were 13.1° x 9.5° for condition 1 and 16.7° x 11.3°
for condition 2 of visual angle. The stimulus display screen measured 47.5 cm x 30 cm with a
spatial resolution of 1680 x 1050 pixels. The gaze on visual stimuli was recorded with an eye-
tracker SMI RED 250 (SensoMotoric Instruments GmbH, Teltow, Germany). The information
provided before starting the experiment was that they would be listening to voices and watching
faces. The only instruction was to look at the screen. The experiment started with a 5-point
calibration phase with the eye-tracker, an animated image at 5 different locations covering the
whole surface of the screen. This phase was repeated until a satisfactory calibration (less than
2° of deviation on the x and y axes) was achieved.
The experiment was composed of 2 stimulus conditions: each participant performed the
2 stimulus conditions and their order of presentation was randomized between participants.
Between the 2 stimulus conditions we proceed again to the calibration phase. The presentation
of the 16 trials (sequences of audio-visual transfer) lasted 8 minutes for each participant. This
experimental design was first used with infants, thus the stimuli presentation is longer but there
is less stimulus presented than the usual adult paradigms. In this experiment, each trial consisted
of exposure to a voice condition: no voice, neutral voice, and emotional happy or angry prosody
for 20 seconds accompanied by a black display screen, for an auditory familiarization phase.
Afterwards, a happy and an angry face were presented side by side for 10 seconds during the
visual test phase, in order to explore carefully the visual face processing. The side the happy
and angry faces were presented on was counterbalanced for each voice. Each condition
consisted of 8 trials in this order. First, in order to obtain a baseline of the spontaneous
preferences for emotional faces, the first 4 trials are 2 no voice trials and 2 neutral voice trials.
The next 4 trials, the test trials, consisted in the presentation of the 2 emotional voices, angry
and happy. Each trial was followed by the 2 emotional faces, laterally counterbalanced for each
emotional voice, in succession (cf. Figure 3). The happy voice was presented first, to avoid the
209
triggering of a negative reaction by the negative stimulus (Geangu, Benga, Stahl, & Striano,
2010).
Figure 58. Figure 3. Schematic representation of the paradigm for the second stimulus condition. The paradigm is
exactly the same for the first stimulus condition but with different vocal and visual stimuli.
9.1.3.4. Data analysis
All the data were extracted by using Begaze SMI’s analyzer software and can be found
at this link: https://osf.io/6r2gt/?view_only=7ca6993299f445bda1bbc598b64e1d24. The
looking behaviour (looking time and first fixation) was calculated for the Areas of Interest
(AOIs): one general for the whole face and 2 specific ones for the eyes and the mouth (Figure
4). In both conditions, these AOIs were of equal size for the expression of anger and happiness.
The looking time was calculated by the net dwell time (length of time spent looking at the
AOIs) in milliseconds (ms). The distribution of the first fixation on the happy or angry face was
collected, a fixation was determined as at least 80 ms in maximum 100 pixels of dispersion.
210
Figure 59. Figure 4. Areas of interest representing the whole face, eyes and mouth. The happy face (left) and angry
face (right): AOIs of the face, the eyes and the mouth areas for Condition 1 and Condition 2.
For each stimulus condition, we performed a repeated measures analysis of variance

(ANOVA) on the whole face and specific AOI looking times for the baseline condition (no
voice and neutral voice) and the experimental condition (angry and happy voices). In order to
compare the two conditions’ stimuli for emotional voices, the distribution of total looking time
(DTLT) was calculated as the percentage of difference of looking time to happy (>0%) or to
angry (<0%) (looking time to happy - looking time to angry) / (looking time to happy + looking
time to angry). A one-sample t-test against chance was conducted with DTLT, to determine a
looking preference for the emotional faces significantly greater than chance level (0%): a
positive for happy and negative for angry faces. Repeated measures ANOVA were performed
on the rate of first fixation to each emotional face. Statistical analyses were conducted using
Statistica 13. The significance threshold was .05. A Bonferroni test was performed to determine
significant differences. For predicted interactions between emotional voices and emotional
faces, a planned comparison was used to determine the preferential looking time to the
congruent face or AOIs with the voice. Effect sizes are given in partial eta-squared (ηp2) for
ANOVAs.
211
Results
9.1.4.1. General looking time description
With all voice conditions (no voice, neutral, happy or angry), in stimulus condition (1,
2) and in all age groups (5, 8, 10 years and adults), the mean of looking times to faces is about
8037/10000 ms, ranging from 7516 to 8838 ms. In all faces, gazes are directed to the inner
features of the faces, the eyes, nose and mouth (cf. Figure 5).
Figure 60. Figure 5. Focus Map: all participants’ gaze patterns over the stimulus image visualized as a transparent
map.
9.1.4.2. Looking time analysis of Condition 1: affective bursts

and photographs of faces
9.1.4.2.1. Baseline condition: no voice and neutral voice
Looking time to faces

We analyzed the results of the baseline condition for the looking times to faces after the
no voice or neutral voice condition in function of the age group. A repeated measures ANOVA
was performed on looking times to faces with emotional faces (happy, angry) and voice
condition (no voice, neutral voice) as within-subjects factors and age (5, 8, 10 years and adults)
as a between-subject factor.
A main effect of age, F(3, 76) = 8.25, p < .001, ηp2 =.246, was revealed. Post-hoc
analyses using Bonferroni indicated that 5-year-olds (3589 ± 131 ms) looked at faces for a
shorter duration than 10-year-olds (4259 ± 131) (p = .003) or than adults (4465 ± 131) (p <
.001). A main effect of voice condition, F(1, 76) = 19.83, p < .001, ηp2 =.207, was revealed:
there were greater looking times after no voice (4269 ± 55 ms) than after the neutral voice (3895
± 95 ms). The main effect of emotional face was not significant, F(1, 76) = 1.46, p = .231, ηp2
=.019.
212
We observed a significant interaction between age and emotional faces, F(3, 76) = 4.02,
p = .010, ηp2 = .137. Post-hoc analyses using Bonferroni indicated that the happy face in 5-year-
olds is looked at for a shorter time than the happy face in adults p < .001, or the angry face in
10-year-olds p < .001. However, in each age group, no difference of looking time between the
emotional faces was found.
Looking time to AOIs

We analyzed the results of the baseline condition for the looking times to AOIs (eyes,
mouth) presented after the no voice or neutral voice condition in function of the age group. A
repeated measures ANOVA was performed on looking times to AOIs with emotional faces
(happy, angry), AOIs (eyes, mouth) and voice condition (no voice, neutral voice) as within-
subjects factors and age (5, 8, 10 years and adults) as a between-subject factor.
The main effect of age, F(3, 76) = 2.45, p = .069, ηp2 =.088, was not significant. A main
effect of voice condition, F(1, 76) = 7.70, p = .007, ηp2 =.09, was revealed: there were greater
looking times to AOIs after no voice (1196 ± 40 ms) than after the neutral voice (1098 ± 43
ms). The main effect of emotional face was not significant, F(1, 76) = 1.54, p = .219, ηp2 =.020.
The main effect of AOIs, was not significant, F(1, 76) = 0.08, p = .780, ηp2 =.001, no significant
difference of looking time to the eyes (1161 ± 65 ms) and the mouth (1132 ± 62 ms).
However, a significant interaction between emotional faces and AOIs, F(1, 76) = 16.53,
p < .001, ηp2 =.179 was found. Post-hoc analyses using Bonferroni indicated that the happy
mouth was looked at less than the happy eyes (p = .008) and the angry mouth (p < .001). We
observed a significant interaction between age and emotional faces, F(3, 76) = 3.20, p= .028,
ηp2 =.112, post-hoc analyses using Bonferroni indicated that 5-year-olds look less at the happy
AOIs than the adults (p = .02).
9.1.4.2.2. Experimental condition: happy and angry voices
Looking times to faces

We analyze the results of the experimental condition for the looking times to faces
presented after a happy or angry voice in function of the age group. a repeated measures
ANOVA was performed on looking times to faces with emotional faces (happy, angry) and
voice condition (happy, angry) as within-subjects factors and age (5, 8, 10 years and adults) as
a between-subject factor.
A main effect of age, F(3, 76) = 8.89, p = .00004, ηp2 =.259, was revealed. Post-hoc
analyses using Bonferroni indicated that 5-year-olds (3118 ± 167 ms) looked for a shorter time
213
than 8-year-olds (3773 ± 167 ms) (p = .04), 10-year-olds (4015 ± 167 ms) (p = .002) and adults
(4280 ± 167 ms) (p < .001). The main effect of voice condition was not significant, F(1, 76) =
0.55, p = .461, ηp2 =.007. The main effect of emotional face was not significant, F(1, 76) = 1.49,
p = .226, ηp2 =.019.
However, the interaction between the voice condition and emotional faces was
significant, F(1, 76) = 33.88, p < .001, ηp2 =.308. A planned comparison suggested that after
the happy voice, the happy face was looked at more than the angry face (p < .001) and after the
angry voice, the angry face was looked at more than the happy face, (p < .001). Moreover,
interaction between age, voice and emotional faces was significant, F(3, 76) = 2.74, p = .048,
ηp2 =.098. A planned comparison suggested that after the happy voice, the happy face is looked
at more than the angry face in 8-year-olds (p = .004), 10 years (p = .05) and adults (p < .001),
but no difference of looking time has been found in 5-year-olds (p = .601). After the angry
voice, the angry face was looked at more than the happy face in 10-year-olds (p < .001) and in
adults (p < .001), in 8-year-olds this preference looking time tended to be significant (p = .055),
but no difference of looking time has been found in 5-year-olds (p = .389).

We analyze the results of the experimental condition for the looking time at AOIs (eyes,
mouth) presented after the happy or angry voice in function of the age group. A repeated
measures ANOVA was performed on looking time with emotional faces (happy, angry), AOIs
(eyes, mouth) and voice condition (happy, angry) as within-subjects factors and age (age 5, 8,
10 and adults) as between-subject factor.
A main effect of age, F(3, 76) = 3.49, p = .02, ηp2 =.121, was found. Post-hoc analyses
using Bonferroni indicated that adults (1200 ± 75 ms) looked more to the AOIs than the 5-year-
olds (874 ± 75 ms) (p = .019). The main effect of voice condition, F(1, 76) = 1.66, p = .202, ηp2
=.021, was not significant. The main effect of emotional face was not significant, F(1, 76) =
0.25, p = .616, ηp2 =.003. The main effect of AOIs, F(1, 76) = 0.31, p = .578, ηp2 =.004, was
not significant; the looking time to eyes (1096 ± 76 ms) was not significantly different to that
of the mouth (1031 ± 64 ms).
A significant interaction between emotional faces and AOIs, F(3, 76) = 4.76, p = .032,
ηp2 =.059 was revealed. However, post-hoc analyses using Bonferroni indicated no significant
differences of looking time between the happy or angry mouth and eyes, all ps >.05. À
significant interaction between voice condition and emotional faces, F(1, 76) = 29.75, p < .001,
ηp2 =.281 was found. A planned comparison indicated that after the happy voice, the AOIs of
214
the happy face were looked at more than the AOIs of the angry face (p < .001) and after the
angry voice, the AOIs of the angry face were looked at more than the AOIs of the happy face
(p < .001). Moreover, a significant interaction between age, emotional faces and AOIs, F(3, 76)
= 3.41, p = .021, ηp2 =.119, was revealed. Post-hoc analyses using Bonferroni suggested that
the 5-year-olds looked less at the eyes than the 8-year-olds and adults looked at the happy eyes;
8-year-olds looked more at the happy eyes than the mouth, all ps <.05.
9.1.4.3. Looking time analysis of Condition 2: meaningless-

speech voices and 3D virtual faces
9.1.4.3.1. Baseline condition: no voice and neutral voice

We analyzed the results of the baseline condition for the looking times to faces after the
no voice or neutral voice condition in function of the age group. A repeated measures ANOVA
was performed on looking times to faces with emotional faces (happy, angry) and voice
condition (no voice, neutral voice) as within-subjects factors and age (5, 8, 10 years and adults)
as a between-subject factor.
A main effect of age, F(3, 76) = 10.22, p < .001, ηp2 =.287, was also revealed. Post-hoc
analyses using Bonferroni indicated that 5-year-olds (3838 ± 104 ms) looked less than 8-year-
olds (4268 ± 104) (p = .027), 10-year-olds (4348 ± 104 ms) (p = .005) and adults (4642 ± 104
ms) (p < .001). A main effect of voice condition, F(1, 76) = 16.99, p < .001, ηp2 =.182, was
revealed: a greater looking time after no voice (4419 ± 47 ms) than after the neutral voice (4129
± 75 ms). The main effect of emotional face was significant, F(1, 76) = 6.95, p = .01, ηp2 =.084,
suggested that the happy face (4554 ± 122 ms) was looked at longer than the angry face (3994
± 114 ms).
These main effects were qualified by an interaction between voice condition and
emotional faces, F(1, 76) = 4.822, p = .031, ηp2 =.059. Post-hoc analyses using Bonferroni
indicated that after the neutral voice, the angry face was looked at less than all other voice
conditions and emotional faces, all ps <.05. Moreover, we observe a significant interaction
between age and emotional faces, F(3, 76) = 4.21, p = .008, ηp2 = .143. Post-hoc analyses using
Bonferroni indicated that the 8-year-olds looked more at the happy face than the 5-year-olds;
the adults looked more at the happy face than the 5-year-olds looked at both emotional faces,
and more than the 8-year-olds, 10-year-olds and adults looked at the angry face, all ps < .05.
We also observe a significant interaction between age and voice condition, F(3, 76) = 4.97, p
215
= .003, ηp2 = .164. Post-hoc analyses using Bonferroni indicated that after the neutral voice, the
5-year-olds looked at the face for a shorter time than all other age and voice conditions, all ps
<.05.

We analyze the results of the baseline condition for the looking times to AOIs (eyes,
mouth) presented after the no voice or neutral voice condition in function of the age group. À
repeated measures ANOVA was performed on looking time with emotional faces (happy,
angry), AOIs (eyes, mouth) and voice condition (no voice, neutral voice) as within-subjects
factors and age (5, 8, 10 years and adults) as a between-subject factor.
The main effect of age, F(3, 76) = 4.44, p = .006, ηp2 =.149, was significant. Post-hoc
analyses using Bonferroni indicated that adults (1483 ± 64 ms) looked longer at the AOIs than
the 5-year-olds (1158 ± 64 ms) (p = .004). A main effect of voice condition, F(1, 76) = 8.912,
p = .004, ηp2 =.105, was revealed: greater looking time to AOIs after the no voice condition
(1363 ± 36 ms) than after the neutral voice condition (1251 ± 39 ms). The main effect of
emotional face was also significant, F(1, 76) = 9.46, p = .003, ηp2 =.111, happy AOIs (1419 ±
53 ms) are looked at longer than angry AOIs (1194 ± 44 ms). The main effect of AOIs, F(1,
76) = 23.50, p < .001, ηp2 =.236, was significant, suggesting a greater looking time at the eyes
(1582 ± 77 ms) than the mouth (1032 ± 50 ms).
We observe a significant interaction between age and voice condition, F(3, 76) = 3.69,
p= .015, ηp2 =.127: post-hoc analyses using Bonferroni indicated that 5-year-olds looked less
at the AOIs after the neutral voice than the 8-year-olds after no voice (p = .04) and the adults
after no voice (p = .002) and neutral voice (p < .001). After the neutral voice, 8-year-olds looked
less at the AOIs than the adults (p = .04). We observe a significant interaction between age and
emotional faces, F(3, 76) = 4.03, p= .010, ηp2 =.137; post-hoc analyses using Bonferroni
indicated that adults looked more at the happy AOIs than did 5-year-olds, (p < .001). Also, the
adults looked more at the happy AOIs than the 5-year-olds (p = .004), 8-year-olds (p < .001),
10-year-olds (p = .008) and adults (p = .008) looked at the angry AOIs. A significant interaction
between age, emotional faces and AOIs, F(3, 76) = 4.34, p = .007, ηp2 =.146 was revealed. Post-
hoc analyses using Bonferroni indicated that 8-year-olds looked more at the happy eyes than
the happy or the angry mouth; 10-year-olds looked more at the happy and angry eyes than at
the angry mouth and adults looked more at the happy eyes than the angry eyes, happy mouth
or angry mouth.
216
9.1.4.3.2. Experimental condition: happy and angry voices

We analyze the results of the experimental condition for the looking times to faces
presented after the happy or angry voice in function of the age group. A repeated measures
ANOVA was performed on looking times to faces with emotional faces (happy, angry) and
voice condition (happy, angry) as within-subjects factors and age (5, 8, 10 years and adults) as
a between-subject factor.
A main effect of age, F(3, 76) = 6.11, p < .001, ηp2 =.194, was revealed. Post-hoc
analyses using Bonferroni indicated that adults (4465 ± 165 ms) looked more than 5-year-olds
(3501 ± 165 ms) (p < .001) and 8-year-olds (3766 ± 165 ms) (p = .02). The main effect of voice
condition was not significant, F(1, 76) = 1.18, p = .282, ηp2 =.015. The main effect of emotional
face was not significant, F(1, 76) = 0.61, p = .439, ηp2 =.008.
However, the interaction between voice condition and emotional faces was significant,
F(1, 76) = 30.54, p < .001, ηp2 =.286. A planned comparison suggested that after the happy
voice, the happy face was looked at more than the angry face (p < .001) and after the angry
voice, the angry face was looked at more than the happy face, (p < .001). Moreover, the
interaction between age, voice and emotional faces was significant, F(3, 76) = 8.09, p < .001,
ηp2 =.242. A planned comparison suggested that after the happy voice, the happy face was
looked at more than the angry face in 8-year-olds (p = .003), 10-year-olds (p = .008) and adults
(p < .001), but no difference of looking time was found in 5-year-olds (p = .985). After the
angry voice, the angry face was looked at more than the happy face in 10-year-olds (p = .01)
and in adults (p < .001), but no difference in looking time was found in 5-year-olds (p = .795)
or in 8-year-olds (p = .755).
Looking times to AOIs

We analyze the results of the experimental condition for the looking times to AOIs
(eyes, mouth) presented after the happy or angry voice in function of the age group. A repeated
measures ANOVA was performed on looking times with emotional faces (happy, angry), AOIs
(eyes, mouth) and voice condition (happy, angry) as within-subjects factors and age (5, 8, 10
years and adults) as a between-subject factor.
A main effect of age, F(3, 76) = 3.95, p = .011, ηp2 =.135, was found. Post-hoc analyses
using Bonferroni indicated that adults (1364 ± 71 ms) looked more than 5-year-olds (1061 ± 71
ms) (p = .02) and 8-year-olds (1073 ± 71 ms) (p = .03). The main effect of voice condition, F(1,
217
76) = 0.35, p = .556, ηp2 =.005, was not significant. The main effect of emotional face was not
significant, F(1, 76) = 0.51, p = .479, ηp2 =.007. The main effect of AOIs, F(1, 76) = 21.22, p
< .001, ηp2 =.218, was significant: there was more looking time to the eyes (1399 ± 77 ms) than
to the mouth (909 ± 48 ms).
However, a significant interaction between voice condition and emotional faces, F(1,
76) = 32.22, p < .001, ηp2 =.298 has been found. A planned comparison indicated that after the
happy voice, the AOIs of the happy face were looked at more than the AOIs of the angry face
(p = .001) and after the angry voice, the AOIs of the angry face were looked at more than the
AOIs of the happy face (p < .001). Moreover, a significant interaction between age, emotional
faces and voices, F(3, 76) = 9.55, p < .001, ηp2 =.274, was revealed. A planned comparison
suggested that after the happy voice, the happy AOIs were looked at more than the angry AOIs
in 8-year-olds (p = .007), 10-year-olds (p = .058) and adults (p < .001), but no difference of
looking time was found in 5-year-olds (p = .542). After the angry voice, the angry AOIs were
looked at more than the happy AOIs in 10-year-olds (p = .01) and in adults (p < .001), but no
difference of looking time was found in 5-year-olds (p = .617) or 8-year-olds (p = .513).
9.1.4.4. Distribution Total Looking Time (DTLT) analysis of the

2 stimulus conditions: general analysis of the emotional
cross-modal transfer
To respond to our hypothesis of the experimental conditions, we analyzed the

Distribution Total Looking Time (DTLT) to each emotional face presented after emotional
voice presentation in function of the age group. Indeed, we were interested in examining if one
of the emotional faces or AOIs was looked at more than the other in function of the voices
presented. We have explored if there is greater DTLT for the congruent or the incongruent face
and AOIs in both stimulus conditions.
DTLT to emotional faces

A repeated measures ANOVA was performed on DTLT to each emotional face with
emotional voice (happy, angry) and stimulus condition (1, 2) as within-subjects factors and age
(5, 8, 10 years and adults) as a between-subject factor. A positive result represents a percentage
of looking time favoring the happy face and a negative result represents the percentage of
looking time favoring the angry face.
The main effect of stimulus condition was not significant, F(1, 76) = 1.57, p = .285, ηp2
=.015, and did not interact with any other factor, all ps > .19. A main effect of emotional voice
218
F(1, 76) = 40.56, p < .001, ηp2 =.378, was revealed, with the happy voice having a more positive
DTLT than the angry voice. After a one-sample t-test against chance level of 0% with the happy
voice, the congruent happy face was looked at more (18% ± 3%) than chance, t(79) = 5.22, p <
.001, whereas with the angry voice it was the congruent angry face that was looked at more (-
19% ± 4%) than chance, t(79) = -4.85, p < .001, (cf. Figure 6).
Figure 61. Figure 6. Heat Map: all participants’ gaze patterns over the stimulus image visualized as a colored map,
minimum (blue) to maximum (red) Fixation Time Average in ms.
This main effect was qualified by an interaction between age and emotional voice, F(3,
76) = 5.19, p = .002, ηp2 =.17, (cf. Figure 7). After a one-sample t-test against chance level of
0%, in 5-year-olds after the happy voice (4% ± 4%) and after the angry voice (-5% ± 5%), and
in 8-year-olds old after the angry voice (-6% ± 10%), none of the emotional faces was looked
at more than at chance level of 0%, all p >.29. In 8-year-olds, only after the happy voice, was
the happy face looked at (20% ± 9%) more than at chance level of 0%, t(19) = 2.17, p = .043.
In 10-year-olds, after the happy voice, the happy face was looked at more (17% ± 5%) than at
chance level of 0%, t(19) = 3.20, p = .005, whereas after the angry voice it was the angry face
that was looked at more (-26% ± 6%) than chance, t(19) = -4.08, p < .001. In adults, after the
happy voice, the happy face was looked at more (31% ± 7%) than at chance level of 0%, t(19)
= 4.26, p < .001, whereas after the angry voice it was the angry face that was looked at more (-
39% ± 7%) , t(19) = -5.46, p < .001. All other interactions were non-significant. Moreover,
DTLT to real faces (Condition 1) and virtual faces (Condition 2) were positively correlated,
after the happy voice, r(78) = .476, p <.05, and after the angry voice r(78) = .495, p <.05.
219
Figure 62. Figure 7. DTLT to happy (>0) or angry (<0) faces: in function of voices, happy (dark grey) or angry
(light grey), and ages (5, 8, 10 years and adults). * p <.05, ** p <.01, *** p <.001.
DTLT to emotional AOIs

A repeated measures ANOVA was performed on DTLT with AOIs (mouth, eyes),
emotional voice (happy, angry) and stimulus condition (1, 2) as within-subjects factors and age
(5, 8, 10 years and adults) as a between-subject factor. A positive result represents the
percentage of looking time favoring the happy AOIs and a negative result represents the
percentage of looking time favoring the angry AOIs.
The main effect of stimulus condition was not significant, F(1, 76) = 0.03, p = .87, ηp2
=.00. A main effect of age, F(3, 76) = 2.89, p = .041, ηp2 =.102, was found. After a one-sample
t-test against chance level of 0%, only the 10-year-olds looked at the angry AOIs (-11% ± 3%)
more than chance. A main effect of emotional voice, F(1, 76) = 31.99, p < .001, ηp2 =.296, was
revealed: after the happy voice there was more positive DTLT to AOIs than after the angry
voice. After a one-sample t-test against chance level of 0%, after the happy voice, the congruent
happy AOIs were looked at more (18% ± 4%) than chance, t(79) = 4.62, p < .001, whereas after
the angry voice it was the congruent angry AOIs that were looked at more (-20% ± 4%) than
chance, t(79) = -4.44, p < .001.
These main effects were qualified by the interaction between age and emotional voice,
F(3, 76) = 31.99, p < .001, ηp2 =.29. After a one-sample t-test against chance level of 0%, in 5-
year-olds with the happy (10% ± 6%) and the angry voice (-2% ± 6%), and in 8-year-olds after
220
the happy (17% ± 10%) and angry voice (-6% ± 10%), none of the emotional AOIs was looked
at more than at chance level of 0%, all p >.11. After the happy voice, 10-year-olds, tended to
looked at the happy AOIs (13% ± 6%) more than at chance level, t(19) = 1.99, p = .060, whereas
after the angry voice it was the angry faces that were looked at more (-35% ± 6%) than at chance
level of 0%, t(19) = -5.37, p < .001. In adults, after the happy voice, the happy faces are looked
at more (34% ± 8%) than at chance level of 0%, t(19) = 4.41, p < .001, whereas after the angry
voice it is the angry faces that are looked at more (-38% ± 10%) than at chance level of 0%,
t(19) = -3.85, p = .001.
Another interaction was also significant: the interaction between AOIs and the stimulus
condition, F(1, 76) = 13.15, p < .001, ηp2 =.148. After a one-sample t-test against chance level
of 0%, the real angry mouth is looked at more (-7% ± 3%) than chance. None of the real eyes
(6% ± 3%), or the virtual mouths (2% ± 3%) or eyes (-4% ± 3%) was looked at more than
chance, all ps >.088. All other interactions were non-significant.
9.1.4.5. First fixations to faces analysis of the 2 stimulus

conditions
A repeated measures ANOVA was performed on the rate of first fixation [-2 to 2] on
each emotional face with voice condition (no voice, neutral, happy, angry) and stimulus
condition (1, 2) as within-subjects factors and age (5, 8, 10 years and adults) as a between-
subject factor. A positive result [0-2] represented the rate of first fixation on the happy face and
a negative result [-2-0] represented the rate of first fixation on the angry face.
A main effect of stimulus condition, F(1, 76) = 5.33, p = .02, ηp2 =.066, was revealed.
After a one-sample t-test against chance level of 0%, the real angry face triggered the first
fixation more (-0.18 ± 0.07) than chance, t(79) = -2.46, p = .016. All other main effects and
interactions were non-significant.
Discussion
The main objective of this study was to assess children’s and adults' eye behaviors in
response to cross-modal emotional stimuli, and to explore if they had preferences for emotional
congruence or incongruence transfer. The second objective was to determine whether the mouth
and eye areas of the face are looked at differently in function of the ages of the participants and
the voices they heard before. Through an emotional cross-modal transfer task (audio-visual),
we analyzed the developmental evolution of looks for emotional faces in children age 5, 8 and
10, and young adults with an eye-tracking analysis. Moreover, for a better understanding of
221
cross-modal transfer performance in children and adults, we explored if it would be present

independently of the types of faces and voices used. To this purpose, cross-modal transfer in
all participants was tested in two stimulus conditions. The first condition, cross-modal transfer
with affective bursts and photographs of faces (the same stimuli used in Palama et al., 2018)
and the second condition, cross-modal transfer with meaningless-speech sentences and 3D
virtual faces, were meant to add better control of the stimuli.
In order to affirm that the emotional voices have an impact on the looking times of
emotional faces, it is important to test the spontaneous preferences for faces and AOIs, that is
after no voice or after a neutral one (baseline conditions). Results show similar patterns in both
baseline conditions. With age, there is more attention on the faces and the internal features of
the face (mouth and eyes AOIs), and greater visual attention to faces seems correlated with
better emotional recognition, as suggested by Sullivan et al. (2007). After the first two trials
(the no voice condition) faces and AOIs are looked at longer than after the second 2 trials (the
neutral voice condition). This result suggests longer attention is paid to first stimuli with a little
decline over time.
Moreover, as expected, after the no voice condition, no significant difference between
the time spent looking at the angry and happy faces was found for all ages and stimulus
conditions. This result revealed no significant spontaneous visual preference for one of the
emotions. After the neutral voice condition the results were different in function of the stimulus
condition presented. In stimulus condition 1, there was no significant difference of looking time
between the happy and the angry faces photographs. However, in stimulus condition 2, the 3D
virtual happy faces were looked at longer than the angry ones, particularly in adults. Adults
seemed to search more for a matching face to the voice than children did. In stimulus condition
2, the voice was meaningless-speech sentences portrayed by three women, while in stimulus
condition 1, the voice was affective bursts from a woman pronouncing the vowel sound /a/.
Thus, this result suggests that female voices that express meaningless-speech, even in a neutral
tone, are more associated to the happy face than the angry face. However, a female voice who
pronounce only the vowel /a/ with a neutral tone of voice was not associated with any of the
emotional faces, suggesting a neutral triggering. This result suggested that a voice that
pronounces pseudowords even with a neutral tone is considered as positive, while a voice that
pronounces just one phoneme with a neutral tone is considered as neutral. Producing speech
composed of pseudowords seems to be more associated with positive emotion than neutral
emotion.
222
Furthermore, concerning the AOIs looked at after the baseline condition, in Condition
1, another effect found was that the angry mouth was looked at more than the happy one. In
stimulus condition 2, as of age 8, the eyes were looked at more than the mouth, thus confirming
previous findings (Beaudry et al., 2014; Hunnius et al., 2011).
If we compare the two different baseline conditions used to determine the spontaneous
visual preference, the no voice condition didn’t show any evidence that angry and happy faces
were looked at differently. The neutral voice seems to reveal more ambiguous results. Even
though the voice is proven to be neutral, it could modify spontaneous visual preferences.
Concerning our main objective, emotional voices (happy and angry) seemed to drive
attention to the face and AOIs that were more congruent to the voice in both stimulus conditions
(1, 2). This result suggested that happy and angry emotions were spontaneously recognized in
an amodal way independently of these conditions, suggesting a robust transfer ability.
Preference for the congruent expression in children and young adults was in accord with some
previous studies using a simultaneous intermodal task in adults (Paulmann et al., 2012; Rigoulot
& Pell, 2012). However, these results were in contrast to those observed in 6-month-old infants
in a previous experiment using the same paradigm (Palama et al., submitted, 2018). It leads us
to believe that there may be a change in development from a preference for the ‘incongruent’
novel expression to a preference for the ‘congruent’ familiar expression. Indeed, in accordance
with the theory of the violation of expectation (Wang, Baillargeon, & Brueckner, 2004) some
studies showed that infants and toddlers prefer to focus their attention on the incongruent
emotional scene (Hepach & Westermann, 2013; Reschke, Walle, Flom, & Guenther, 2017;
Skerry & Spelke, 2014). Considering this, when do children start to prefer the congruent one?
Our results suggest a possible response. Indeed, the preference for the congruent expression
was significantly revealed only as of age 8 with the happy voice and as of 10 with the angry
voice. A discussion attempt of these results using an infants’ experimental design may be based
on two interpretations.
First, in this experiment, children had no instruction except to look at the screen. Thus,
younger children could understood the emotions expressed but didn’t have a spontaneous
preference observable throughout this long stimulus presentation for the congruent or the
incongruent one and so they explored both faces. It reasonable to think that a shorter
presentation of the visual stimuli would have revealed a difference in the look between the
happy and angry face of the younger participants. However, this paradigm is a replication of an
infant paradigm that requires a long presentation of stimuli. Moreover, the direction of the first
fixations didn’t showed a preferential look towards either of the emotional faces depending on
223
the voice. The preference for the congruent face from 8 years of age seems to be observable
only on the fixation times and not from the first fixation. Thus with this non-verbal cross-modal
transfer paradigm, in 6-month-old infants (Palama et al., submitted, 2018) the more familiar
expression of happiness is transferred with an incongruency preference while in this study, at 5
years, no significant preference has been highlighted, whereas from 8 years children showed
reversed preference in favor of congruence. Thus, 5 would be a pivotal age from the reaction
to novelty to a more mature preference for congruence. This interpretation seems possible
because studies have shown that they are however already able to correctly label more than
90% the facial expressions of happiness as of age 3 and anger as of age 4 (Widen, 2013).
Nevertheless, it is well known that these recognition skills are affected by the kind of task (e.g.
matching, labialization, stories, faces, etc.) and all of them involve verbal instructions (Nelson
& Russell, 2011; Vicari et al., 2000). We can wonder what the results would have been if we
had given the instruction to look at the congruent face. In view of these considerations, we can
assume that a preference for the congruent face could be already found earlier, if instruction
were given to children.
Second, even if the emotional facial expressions are correctly labeled for happy and
angry before age 5 (Widen, 2013), the recognition ability is not totally acquired at that age.
Indeed, recognition of emotion increases with age and studies have found that 10-year-olds’
accuracy in facial expression recognition is similar to that of adults and in later adolescence,
vocal expression recognition is like that of adults (Chronaki, Hadwin, Garner, Maurage, &
Sonuga‐Barke, 2015). In our study, the youngest children (5-year-olds) didn’t show any
significant preference for one of the facial expressions after both emotional voices. This result
could suggest that they do not master emotion recognition and so are unable to match the facial
expressions with the corresponding voice. Moreover, 8-year-old children are able to match the
facial expression with the happy voice but we didn’t demonstrate it with the angry one. This
result could be explained by the fact that only the happy vocal expression is totally understood
at this age and it is only with this voice that children are able to match the facial expression.
This result is in line with studies that show that happiness is recognized first, and other emotions
like anger are recognized later in development (Boyatzis et al., 1993; Camras & Allison, 1985;
Durand et al., 2007; Gagnon et al., 2014; Gosselin, 1995; Rodger et al., 2015; Widen & Russell,
2013). The congruent transfer for happiness in younger subjects over anger is then consistent
with this earlier development of the understanding of this emotion.
AOI analysis also revealed a preference in looking times to the congruent AOIs with
voice. However, there is a delay in the age of appearance of the effect compared to the whole
224
face. Indeed, it is only as of age 10 that we found evidence for the fact that children look more
at the AOIs of the faces congruent with the angry voice and as of adulthood with the happy
voice. This result is in accord with the fact that internal features are considered to become more
critical for adulthood face expertise (Ellis et al., 1979; Ge et al., 2008; Pascalis et al., 2011;
Tanaka & Farah, 1993) and are looked at more to process emotional faces.
Moreover, with AOI analysis, we found different results in function of the stimulus
condition. In stimulus Condition 1, more participants looked at the angry mouth than at the
happy one. This result suggests that the angry mouth seems more attractive after emotional
voices, similarly to what was found in 6-month-old infants (Palama et al., 2018) using the same
stimuli. In Stimulus Condition 2, more attention was paid to the eye area compared to the mouth
in all age groups. This result is consistent with previous studies in children (de Wit, Falck-Ytter,
& von Hofsten, 2008) and adults (Beaudry et al., 2014; Hernandez et al., 2009; Hunnius et al.,
2011).
Regarding first fixation, there is only one effect, the main effect of stimulus condition,
suggesting that in the stimuli Condition 1, participants directed their first spontaneous attention
toward the angry face regardless of the voice, whereas in the stimuli Condition 2, no difference
of first fixation was significant. This result could be explained by the possible threat expressed
by the face photographs, driving the first attention to it, while perhaps, 3D virtual faces are
identified as less threatening even if they express anger.
To conclude, this experiment revealed that children as of age 8 and adults were
spontaneously able to match the vocal expression and that they oriented their attention towards
the congruent facial expression in different stimulus conditions. This confirms that a cross-
modal transfer of emotional information was used by participants in this paradigm,
demonstrating an understanding of the amodal nature of emotion. Thus, this task could be
interesting to evaluate emotion recognition in atypical populations that are unable to understand
verbal instructions.
Acknowledgments
The authors are grateful to the schools, teachers, children and their families, as well as
the adult participants for their involvement and participation. We would also like to thank
Margaux, Pimont, Coralie Vouillon and Kelly Canizares-Marin for their contribution, and
finally Susan Campbell who provided English editing.
225
Additional information
This research was supported by the Swiss National Fund for research grant 100019-
156073 awarded to E.G. The authors had no personal or financial conflicts of interest.
References
Bänziger, T., Grandjean, D., & Scherer, K. R. (2009). Emotion recognition from expressions in
face, voice, and body: The Multimodal Emotion Recognition Test (MERT). Emotion,
9(5), 691. https://doi.org/10.1037/a0017088
Bänziger, T., Mortillaro, M., & Scherer, K. R. (2012). Introducing the Geneva Multimodal
expression corpus for experimental research on emotion perception. Emotion, 12(5),
1161–1179. https://doi.org/10.1037/a0025827
discrimination by infants in the first year of life. L’Année Psychologique, 114(03), 469–
500. https://doi.org/10.4074/S0003503314003030
Beaudry, O., Roy-Charland, A., Perron, M., Cormier, I., & Tapp, R. (2014). Featural processing
in recognition of emotional facial expressions. Cognition and Emotion, 28(3), 416–432.
https://doi.org/10.1080/02699931.2013.833500
Belin, P., Fillion-Bilodeau, S., & Gosselin, F. (2008). The montreal affective voices: a validated
set of nonverbal affect bursts for research on auditory affective processing. Behavior
Research Methods, 40(2), 531–539. https://doi.org/10.3758/BRM.40.2.531
Blais, C., Fiset, D., Roy, C., Saumure Régimbald, C., & Gosselin, F. (2017). Eye fixation
patterns for categorizing static and dynamic facial expressions. Emotion, 17(7), 1107.
https://doi.org/10.1037/emo0000283
Blais, C., Jack, R. E., Scheepers, C., Fiset, D., & Caldara, R. (2008). Culture Shapes How We
Look at Faces. PLOS ONE, 3(8), e3022. https://doi.org/10.1371/journal.pone.0003022
Boyatzis, C. J., Chazan, E., & Ting, C. Z. (1993). Preschool Children’s Decoding of Facial
Emotions. The Journal of Genetic Psychology, 154(3), 375–382.
https://doi.org/10.1080/00221325.1993.10532190
226
Camras, L. A., & Allison, K. (1985). Children’s understanding of emotional facial expressions
and verbal labels. Journal of Nonverbal Behavior, 9(2), 84–94.
https://doi.org/10.1007/BF00987140
https://doi.org/10.2307/1130560
Caron, R. F., Caron, A. J., & Myers, R. S. (1985). Do infants see emotional expressions in static
faces? Child Development, 56(6), 1552–1560.
Caron, Rose F., Caron, A. J., & Myers, R. S. (1982). Abstraction of invariant face expressions
in infancy. Child Development, 53(4), 1008–1015. https://doi.org/10.2307/1129141
Castro, V. L., Cheng, Y., Halberstadt, A. G., & Grühn, D. (2016). EUReKA! A Conceptual
Model of Emotion Understanding. Emotion Review, 8(3), 258–268.
https://doi.org/10.1177/1754073915580601
Chronaki, G., Hadwin, J. A., Garner, M., Maurage, P., & Sonuga‐Barke, E. J. S. (2015). The
development of emotion recognition from facial expressions and non-linguistic
vocalizations during childhood. British Journal of Developmental Psychology, 33(2),
218–236. https://doi.org/10.1111/bjdp.12075
Clément, F., Bernard, S., Grandjean, D., & Sander, D. (2013). Emotional expression and
vocabulary learning in adults and children. Cognition and Emotion, 27(3), 539–548.
https://doi.org/10.1080/02699931.2012.724012
de Wit, T. C. J., Falck-Ytter, T., & von Hofsten, C. (2008). Young children with Autism
Spectrum Disorder look differently at positive versus negative emotional faces.
Research in Autism Spectrum Disorders, 2(4), 651–659.
https://doi.org/10.1016/j.rasd.2008.01.004
Dols, J. M. F., & Russell, J. A. (Eds.). (2017). The Science of Facial Expression. Oxford, New
York: Oxford University Press.
Durand, K., Gallay, M., Seigneuric, A., Robichon, F., & Baudouin, J.-Y. (2007). The
development of facial emotion recognition: The role of configural information. Journal
227
of Experimental Child Psychology, 97(1), 14–27.

https://doi.org/10.1016/j.jecp.2006.12.001
Eisenbarth, H., & Alpers, G. W. (2011). Happy mouth and sad eyes: Scanning emotional facial
expressions. Emotion, 11(4), 860–865. https://doi.org/10.1037/a0022758
Ekman, P., Friesen, W. V., & Hager, J. C. (1978). Facial action coding system (FACS). A
Technique for the Measurement of Facial Action. Consulting, Palo Alto, 22.
Ellis, H. D., Shepherd, J. W., & Davies, G. M. (1979). Identification of Familiar and Unfamiliar
Faces from Internal and External Features: Some Implications for Theories of Face
Recognition. Perception, 8(4), 431–439. https://doi.org/10.1068/p080431
Gagnon, M., Gosselin, P., & Maassarani, R. (2014). Children’s Ability to Recognize Emotions
From Partial and Complete Facial Expressions. The Journal of Genetic Psychology,
175(5), 416–430. https://doi.org/10.1080/00221325.2014.941322
Ge, L., Anzures, G., Wang, Z., Kelly, D. J., Pascalis, O., Quinn, P. C., … Lee, K. (2008). An
inner face advantage in children’s recognition of familiar peers. Journal of Experimental
Child Psychology, 101(2), 124–136. https://doi.org/10.1016/j.jecp.2008.05.006
Geangu, E., Benga, O., Stahl, D., & Striano, T. (2010). Contagious crying beyond the first days
of life. Infant Behavior and Development, 33(3), 279–288.
Gosselin, P. (1995). Le développement de la reconnaissance des expressions faciales des

émotions chez l’enfant. [The development of the recognition of emotional facial
expressions in children.]. Canadian Journal of Behavioural Science / Revue Canadienne
Des Sciences Du Comportement, 27(1), 107–119. https://doi.org/10.1037/008-
400X.27.1.107
Gosselin, P. (2005). Le décodage de l’expression faciale des émotions au cours de l’enfance. =

The emotional decoding of facial expressions during the duration of childhood.
Canadian Psychology/Psychologie Canadienne, 46(3), 126–138.
https://doi.org/10.1037/h0087016
228
Groner, R., Walder, F., & Groner, M. (1984). Looking at Faces: Local and Global Aspects of
Scanpaths. In A. G. Gale & F. Johnson (Eds.), Advances in Psychology (pp. 523–533).
https://doi.org/10.1016/S0166-4115(08)61874-9
Harris, P. L., de Rosnay, M., & Pons, F. (2016). Understanding emotion. In Handbook of
Emotions (L. Feldman Barrett, M. Lewis, J. Haviland-Jones, Vol. 3, pp. 293–306). New
York: Guilford Press.
Hepach, R., & Westermann, G. (2013). Infants’ sensitivity to the congruence of others’
emotions and actions. Journal of Experimental Child Psychology, 115(1), 16–29.
Hernandez, N., Metzger, A., Magné, R., Bonnet-Brilhault, F., Roux, S., Barthelemy, C., &
Martineau, J. (2009). Exploration of core features of a human face by healthy and
autistic adults analyzed by visual scanning. Neuropsychologia, 47(4), 1004–1012.
https://doi.org/10.1016/j.neuropsychologia.2008.10.023
Hunnius, S., Wit, T. C. J. de, Vrins, S., & Hofsten, C. von. (2011). Facing threat: Infants’ and
adults’ visual scanning of faces with neutral, happy, sad, angry, and fearful emotional
expressions. Cognition and Emotion, 25(2), 193–205.
https://doi.org/10.1080/15298861003771189
Jack, R. E., Blais, C., Scheepers, C., Schyns, P. G., & Caldara, R. (2009). Cultural Confusions
Show that Facial Expressions Are Not Universal. Current Biology, 19(18), 1543–1548.
Ludemann, P. M., & Nelson, C. A. (1988). Categorical representation of facial expressions by

7-month-old infants. Developmental Psychology, 24(4), 492–501.
https://doi.org/10.1037/0012-1649.24.4.492
Mumenthaler, C., & Sander, D. (2012). Social Appraisal Influences Recognition of Emotions.
Journal of Personality and Social Psychology, 102(6), 1118.
229
Mumenthaler, C., & Sander, D. (2015). Automatic Integration of Social Information in Emotion
Recognition. Journal of Experimental Psychology: General, 144(2), 392.
https://doi.org/10.2307/1130530
Nelson, C. A., & Dolgin, K. G. (1985). The generalized discrimination of facial expressions by
seven-month-old infants. Child Development, 56(1), 58–61.
https://doi.org/10.2307/1130173
Nelson, N. L., & Russell, J. A. (2011). Preschoolers’ use of dynamic facial, bodily, and vocal
cues to emotion. Journal of Experimental Child Psychology, 110(1), 52–61.
Palama, A., Malsert, J., & Gentaz, É. (submitted). The cross-modal transfer of emotional
information (happy or angry) from voices to faces in 2, 4 and 6 month-old infants.
L’Année Psychologique.
PLOS ONE, 13(4), e0194579. https://doi.org/10.1371/journal.pone.0194579
Pascalis, O., & Bachevalier, J. (1998). Face recognition in primates: a cross-species study.
Behavioural Processes, 43(1), 87–96. https://doi.org/10.1016/S0376-6357(97)00090-9
Pascalis, O., de Martin de Viviés, X., Anzures, G., Quinn, P. C., Slater, A. M., Tanaka, J. W.,
& Lee, K. (2011). Development of face processing. Wiley Interdisciplinary Reviews:
Cognitive Science, 2(6), 666–675. https://doi.org/10.1002/wcs.146
Paulmann, S., Titone, D., & Pell, M. D. (2012). How emotional prosody guides your way:
Evidence from eye movements. Speech Communication, 54(1), 92–107.
https://doi.org/10.1016/j.specom.2011.07.004
Pons, F., Guiménez-Dasi, M., Nives Sala, M., Molina, P., Tornare, E., & Anderson, B. (2015).
Compréhension et régulation des émotions à l’école. In Psychologie des apprentissages
scolaires (M. Crahay & M. Dutrevis, pp. 115–142). De Boeck Superieur.
230
Pons, F., Harris, P. L., & Rosnay, M. de. (2004). Emotion comprehension between 3 and 11
years: Developmental periods and hierarchical organization. European Journal of
Developmental Psychology, 1(2), 127–152.
https://doi.org/10.1080/17405620344000022
Reschke, P. J., Walle, E. A., Flom, R., & Guenther, D. (2017). Twelve-Month-Old Infants’
Sensitivity to Others’ Emotions Following Positive and Negative Events. Infancy, 22(6),
874–881. https://doi.org/10.1111/infa.12193
Rigoulot, S., & Pell, M. D. (2012). Seeing Emotion with Your Ears: Emotional Prosody
Implicitly Guides Visual Attention to Faces. PLoS ONE, 7(1), e30740.
https://doi.org/10.1371/journal.pone.0030740
Rodger, H., Vizioli, L., Ouyang, X., & Caldara, R. (2015). Mapping the development of facial
expression recognition. Developmental Science, 18(6), 926–939.
https://doi.org/10.1111/desc.12281
Roesch, E. B., Tamarit, L., Reveret, L., Grandjean, D., Sander, D., & Scherer, K. R. (2011).
FACSGen: A Tool to Synthesize Emotional Facial Expressions Through Systematic
Manipulation of Facial Action Units. Journal of Nonverbal Behavior, 35(1), 1–16.
https://doi.org/10.1007/s10919-010-0095-9
Schurgin, M. W., Nelson, J., Iida, S., Ohira, H., Chiao, J. Y., & Franconeri, S. L. (2014). Eye
movements during emotion recognition in faces. Journal of Vision, 14(13), 14–14.
https://doi.org/10.1167/14.13.14
Shackman, J. E., & Pollak, S. D. (2005). Experiential Influences on Multimodal Perception of

Emotion. Child Development, 76(5), 1116–1126. https://doi.org/10.1111/j.1467-
8624.2005.00901.x
Skerry, A. E., & Spelke, E. S. (2014). Preverbal infants identify emotional reactions that are
incongruent with goal outcomes. Cognition, 130(2), 204–216.
https://doi.org/10.1016/j.cognition.2013.11.002
Sullivan, S., Ruffman, T., & Hutton, S. B. (2007). Age Differences in Emotion Recognition
Skills and the Visual Scanning of Emotion Faces. The Journals of Gerontology: Series
B, 62(1), P53–P60. https://doi.org/10.1093/geronb/62.1.P53
231
Tanaka, J. W., & Farah, M. J. (1993). Parts and wholes in face recognition. The Quarterly
Journal of Experimental Psychology Section A, 46(2), 225–245.
https://doi.org/10.1080/14640749308401045
Tanaka, J. W., & Gordon, I. (2011). Features, configuration, and holistic face processing. In
Oxford Handbook of Face Perception (pp. 177–194). OUP Oxford.
Vaidya, A. R., Jin, C., & Fellows, L. K. (2014). Eye spy: The predictive value of fixation
patterns in detecting subtle and extreme emotions from faces. Cognition, 133(2), 443–
456. https://doi.org/10.1016/j.cognition.2014.07.004
Vicari, S., Reilly, J. S., Pasqualetti, P., Vizzotto, A., & Caltagirone, C. (2000). Recognition of
facial expressions of emotions in school-age children: the intersection of perceptual and
semantic categories. Acta Paediatrica, 89(7), 836–845. https://doi.org/10.1111/j.1651-
2227.2000.tb00392.x
Wang, S., Baillargeon, R., & Brueckner, L. (2004). Young infants’ reasoning about hidden
objects: evidence from violation-of-expectation tasks with test trials only. Cognition,
93(3), 167–198. https://doi.org/10.1016/j.cognition.2003.09.012
Widen, S. C. (2013). Children’s Interpretation of Facial Expressions: The Long Path from
Valence-Based to Specific Discrete Categories. Emotion Review, 5(1), 72–77.
https://doi.org/10.1177/1754073912451492
Widen, S. C., & Russell, J. A. (2008). Children acquire emotion categories gradually. Cognitive
Development, 23(2), 291–312. https://doi.org/10.1016/j.cogdev.2008.01.002
Widen, S. C., & Russell, J. A. (2013). Children’s recognition of disgust in others. Psychological
Bulletin, 139(2), 271–299. https://doi.org/10.1037/a0031640
Widen, S. C., & Russell, J. A. (2015). Do Dynamic Facial Expressions Convey Emotions to
Children Better Than Do Static Ones? Journal of Cognition and Development, 16(5),
802–811. https://doi.org/10.1080/15248372.2014.916295
232
III
Discussion générale
233
L’objectif de cette thèse était d’approfondir les connaissances sur la nature et le
développement précoce de la perception des émotions. Pour ce faire, nous avons étudié le
développement de la capacité de transfert intermodal émotionnel audio-visuel chez des bébés
de 1 à 6 mois, chez des enfants de 5 à 10 ans et chez de jeunes adultes à travers 11 expériences.
Tout d’abord, les participants étaient exposés à un stimulus auditif émotionnel : des
vocalisations non-verbales ou des pseudo-mots (c.-à-d. : séquence de phonèmes pseudo-
linguistiques). Puis à des stimuli visuels émotionnels : des photographies de visages réels ou
des visages virtuels 3D présentés par paires sur un écran. L’un des visages était congruent avec
la voix et l’autre incongruent. Ainsi, nous avons présenté des stimuli de natures différentes,
exprimant des émotions différentes (joie, colère, peur, dégoût) ou un genre différent (féminin
ou masculin).
Nous avons, ensuite, analysé si les comportements oculaires (grâce à un eye-traker ou à

une caméra) sur les visages étaient influencés par l’émotion contenue dans les voix
préalablement entendues. Nous avons tout d’abord analysé les compétences de transfert
intermodal émotionnel chez des bébés âgés de 6 mois grâce à l’oculométrie. Ensuite nous avons
étudié le développement du transfert intermodal jusqu’à 6 mois grâce au codage vidéo. Nous
l’avons étudié à 2, 4 et 6 mois avec une approche transversale. Puis, nous avons comparé à 4
mois l’effet des stimuli féminins et masculins sur le transfert intermodal émotionnel. De plus,
nous avons conduit une étude longitudinale afin d’étudier le développement des capacités de
transfert intermodal émotionnel au niveau inter et intrapersonnel dans les 6 premiers mois.
Finalement, nous avons examiné l’évolution du transfert intermodal émotionnel chez des
participants verbaux, des enfants d’âge scolaire (5 à 10 ans) et chez de jeunes adultes, avec une
approche transversale grâce à une analyse eye-tracking.
Dans la première partie de cette discussion générale, nous effectuerons une synthèse des
résultats des cinq études (et 11 expériences) réalisées dans le cadre de ce travail de thèse.
Ensuite, nous discuterons ces résultats dans une approche développementale. Puis, nous
aborderons les limites et les différentes perspectives qu’offre ce projet. Enfin, nous terminerons
par une conclusion générale.
235
Synthèse des résultats principaux
La Table 6 regroupe une synthèse des résultats principaux des 5 études (et 11
expériences) du développement des capacités de transfert intermodal émotionnel réalisées dans
le cadre de cette thèse.
Table 6.
Résumé des résultats principaux des 5 études (et 11 expériences). Condition 1 : vocalisations
non-verbales puis paires de photographies de visages — Condition 2 : pseudo-mots puis paires
de visages virtuels.
# Outil Stimuli condition /

Age / Effectif Emotions Résultat
d’analyse Genre des stimuli
Condition 1 (expé. Expé. 1: transfert voix de joie —
6 mois
1 et 3) et préférence pour le visage et la bouche
Etude 1
Expé. 1 N=24 eye-

Condition 2 (expé. joie, colère, neutre de colère après la voix de joie.
Expé. 2 N=22 tracking
2 et 3) Expé. 2: absence de transfert.
Expé. 3. N=14
féminins Expé. 3 : Absence de préférence
Condition 1 (expé. Expé. 4: transfert voix de joie à 6 mois
2, 4, 6 mois
Etude 2
codage 4) et Condition 2 — préférence pour le visage de colère

Expé. 4 N=61 joie, colère, neutre
vidéo (expé. 5) après la voix de joie.
Expé. 5 N=57
féminins Expé. 5: absence de transfert.
Expé. 6: Transfert voix de joie, — après
la voix de joie, préférence pour le
joie, colère, neutre visage de colère avec stimuli féminins
4 mois Condition 1
Etude 3
codage (expé. 6) et préférence pour le visage de joie

Expé. 6 N=36 féminins et
vidéo peur, colère, neutre avec stimuli masculins
Expé. 7 N=20 masculins
(expé. 7) Expé. 7: Transfert voix peur avec
stimuli masculins — après la voix de
peur, préférence pour le visage de peur
joie, colère, neutre
1, 2, 4, 6 mois
(expé. 8)
longitudinal Expé. 8: absence de transfert.
Etude 4
codage Condition 2 joie, dégoût, neutre

Expé. 8 N=16 Expé. 9: absence de transfert.
vidéo féminins (expé. 9)
Expé. 9 N=20 Expé. 10: absence de transfert.
colère, dégoût,
Expé. 10 N=20
neutre (expé. 10)
Expé 11: transfert pour la voix de joie
5, 8 et 10 ans et
Etude 5
eye- Conditions 1 et 2 dès 8 ans et pour la voix de colère dès

adultes joie, colère, neutre
tracking féminins 10 ans — préférence pour les visages
Expé. 11 N=80
et les AOIs congruents avec la voix.
L’étude 1, qui a examiné les capacités de transfert intermodal à 6 mois grâce à l’eye-
tracking, a montré des résultats différents en fonction de la condition expérimentale
(expériences 1 et 2). Pour l’expérience 1 (condition 1 : vocalisations non-verbales puis
photographies de visages), les résultats ont montré que les bébés ont regardé plus longtemps le
visage de colère incongruent (la zone de la bouche en particulier) que le visage de joie congruent
seulement après avoir écouté la voix de joie. Pour l’expérience 2 (condition 2 : pseudo-mots
puis visages virtuels), les résultats n’ont indiqué aucune différence de temps de regard sur le
237
III. DISCUSSION GÉNÉRALE
visage de joie ou de colère, peu importe la voix. Malgré tout, les yeux de joie étaient plus
regardés que les yeux de colère après l’écoute de la voix neutre. Une troisième expérience nous
a permis de contrôler les préférences visuelles spontanées pour les visages et les AOIs
émotionnels (conditions 1 et 2) sans qu’aucune voix n’ait été entendue préalablement. Cette
expérience complémentaire n’a pas révélé de différence significative de temps de regard sur le
visage de joie ou de colère pour les deux conditions expérimentales. Les résultats de l’étude 1
ont mis en évidence qu’un transfert intermodal des modalités auditives aux modalités visuelles
serait possible pour les bébés de 6 mois, seulement dans la condition 1, après la présentation
d’une voix de joie. Ces résultats suggèrent que les bébés de 6 mois seraient capables, dans des
conditions spécifiques, de percevoir cette émotion de manière amodale.
L’étude 2, qui a observé les capacités de transfert intermodal avec une approche
transversale à 2, 4 et 6 mois grâce à deux expériences : l’expérience 4 (condition 1) et
l’expérience 5 (condition 2), a montré des résultats différents en fonction de la condition et de
l’âge des bébés. Pour l’expérience 4, seuls les bébés de 6 mois ont regardé davantage le visage
de colère incongruent que le visage de joie, après avoir écouté une voix de joie, confirmant les
résultats de l’expérience 1. Ces résultats suggèrent que la capacité à percevoir l’émotion de joie
de manière amodale émergerait entre 4 et 6 mois. Pour l’expérience 5, aucune préférence pour
le visage de joie ou de colère n’a été observée, confirmant les résultats de l’expérience 2. Ces
résultats suggèrent que les stimuli utilisés pourraient être trop complexes pour permettre un
transfert intermodal des informations émotionnelles.
L’étude 3 a exploré les capacités de transfert intermodal à 4 mois à travers deux

expériences : expérience 6 (joie vs. colère) et expérience 7 (peur vs. colère) et la présentation
de stimuli féminins et masculins. Pour l’expérience 6 (joie vs. colère), les résultats ont indiqué
qu’un transfert était possible uniquement après la voix émotionnelle de colère. La préférence
pour le visage émotionnellement nouveau ou familier vis-à-vis de la voix semble dépendante
du genre des stimuli. Pour les stimuli féminins, le visage de colère était préféré alors que pour
les stimuli masculins, le visage de joie était préféré. Pour l’expérience 7 (peur vs. colère), les
bébés ont montré une préférence pour le visage de peur, après la voix neutre, pour les stimuli
féminins et masculins. En ce qui concerne le transfert, le visage de peur était regardé plus
longtemps, seulement après la voix de colère pour les stimuli masculins. Alors que pour les
stimuli féminins, après les voix émotionnelles, aucune préférence n’a été trouvée. De manière
générale, le genre et l’émotion des stimuli semblent influencer les temps de regards. De plus,
238
10. SYNTHÈSE DES RÉSULTATS PRINCIPAUX
ces résultats ont mis en avant une possibilité de transfert intermodal émotionnel à 4 mois, dans
des conditions spécifiques.
L’étude 4 a examiné le développement des capacités de transfert intermodal grâce à trois

expériences longitudinales (expérience 8 : joie vs. colère, expérience 9 : joie vs. dégoût et
expérience 10 : dégoût vs. colère) de 1 à 6 mois. Les résultats observés dans les trois
expériences, n’ont révélé aucune différence significative de temps de regard entre les visages
émotionnels, et ce, quel que soit la voix émotionnelle préalablement entendue ou l’âge des
bébés. Ainsi, ces résultats n’ont pas permis de mettre en évidence une capacité de transfert chez
ces bébés de 1 à 6 mois. De plus, après la « baseline » (voix neutre), la préférence ou l’absence
de préférence s’est révélée différente en fonction de l’âge et des émotions présentées. Dans
l’expérience 8 (joie vs. colère), aucune différence de temps de regard n’a été observée. Dans
l’expérience 9 (joie vs. dégoût), les bébés âgés de 1 mois ont regardé plus longtemps le visage
de joie que de dégoût. Dans l’expérience 10 (dégoût vs. colère), les bébés âgés de 2 mois ont
regardé plus longtemps le visage de colère que de dégoût. Les résultats observés dans cette
étude ne suggèrent aucune différence significative de temps de regard entre les visages
émotionnels, peu importe la voix émotionnelle préalablement entendue, et ce à tous les âges.
L’absence de préférence semble stable tant au niveau inter qu’intra personnel. Ainsi, ces
résultats n’ont pas permis de mettre en évidence une capacité de transfert intermodal émotionnel
chez ces bébés de 1 à 6 mois
En utilisant le même paradigme expérimental, l’étude 5 a examiné le développement

des capacités de transfert intermodal chez des participants verbaux avec une approche
transversale grâce à une expérience (expérience 11) avec des enfants âgés de 5 à 10 ans et de
jeunes adultes pour les deux conditions expérimentales. Les conditions 1 et 2 n’ont pas révélé
de différences significatives. Après la « baseline » (sans voix ou voix neutre), les résultats n’ont
révélé aucune différence de préférence visuelle entre les visages de joie et de colère chez les
enfants. Chez les adultes, après la voix neutre de la condition 2, les visages de joie étaient plus
regardés que les visages de colère. Après les voix émotionnelles, les participants ont regardé
plus longtemps le visage congruent. Cependant, les résultats se sont révélés significatifs, après
la voix de joie, seulement à partir de 8 ans et après la voix de colère, seulement à partir de 10
ans. Ainsi, la capacité d’extraire des informations émotionnelles amodales et de faire
correspondre les informations congruentes semble acquise à partir de 8 ans avec une voix de
joie et à partir de 10 ans avec une voix de colère.
239
Dans l’ensemble, la condition 1 (vocalisations non-verbales et photographies de

visages) semble montrer l’émergence d’un transfert intermodal émotionnel à 4 et à 6 mois
(études 1, 2 et 3). Alors que la condition 2 (pseudo-mots et visages virtuels 3D) n’a révélé
aucune capacité de transfert de 1 à 6 mois (études 1, 2 et 4). Chez les participants verbaux, la
capacité de transfert intermodal émotionnel a été mise en évidence dès 8 ans pour la joie et dès
10 ans pour la colère dans les deux conditions expérimentales (conditions 1 et 2) (étude 5). De
plus, les études en oculométrie chez les bébés de 6 mois (étude 1), les enfants d’âge scolaire et
les adultes (étude 5) semblent montrer les mêmes résultats concernant les AOIs. Dans la
condition 1, aucune différence de temps de regard ne s’est révélée significative entre la bouche
et les yeux alors que dans la condition 2, les yeux ont attiré plus l’attention que la bouche. De
plus, dans la condition 1 la bouche de l’expression de colère était plus longuement regardée que
la bouche de l’expression de joie.
Pour résumer, les résultats montrent des patterns de développement différents selon les
périodes. Chez les participants non verbaux, de 1 à 4 mois, la capacité de transfert intermodal
émotionnel n’a pas été observée (études 2 et 4). À partir de 4 mois, il semblerait qu’un transfert
intermodal émotionnel émerge, mais de manière très limitée et dépende des stimuli présentés
(préférence pour le visage de joie avec des stimuli masculins et préférence pour le visage de
colère avec des stimuli féminins) (étude 3). À 6 mois, un transfert intermodal émotionnel
semble possible avec la voix de joie, avec une préférence pour le visage incongruent de colère,
mais reste limité à la condition 1 (études 1, 2 et 4). Chez les participants verbaux (étude 5), à 5
ans, les résultats n’ont pas mis en évidence une capacité de transfert intermodal émotionnel.
Cependant, à partir de 8 ans, les résultats ont suggéré un transfert de la voix émotionnelle de
joie, avec une préférence pour le visage congruent de joie. À partir de 10 ans, les résultats ont
suggéré un transfert de la voix émotionnelle de colère, avec une préférence pour le visage
congruent de colère. Ainsi, la capacité d’extraire des informations émotionnelles amodales et
de faire correspondre les informations congruentes semble acquise dès 8 ans avec une voix de
joie et dès 10 ans avec une voix de colère.
240
Discussion
Résultats de la « baseline » : condition sans voix ou
voix neutre
Afin d’affirmer que les voix émotionnelles ont un impact sur le temps de regard des
visages émotionnels, il est important de contrôler les préférences spontanées pour les visages
émotionnels en testant la « baseline » : condition sans voix ou voix neutre. Les résultats de la
« baseline » avec une voix neutre ou sans voix n’ont principalement pas montré de différence
significative du temps de regard entre les visages émotionnels. Seules quelques conditions à
certains âges uniquement, semblent révéler une préférence pour l’un ou l’autre des visages
émotionnels. De ce fait, il est important de rappeler que dans notre paradigme de transfert
intermodal émotionnel, l’analyse du transfert se fait grâce à la différence de regard entre les
deux visages émotionnels en fonction de la condition de voix écoutée. Cependant, avec ce
paradigme, si aucune différence significative de regard n’est observée entre les deux stimuli,
toute interprétation doit être formulée avec prudence.
Premièrement, la condition sans voix a uniquement été testée grâce à l’eye-tracking à 6

mois (expérience 3) et chez les participants verbaux (expérience 11) pour les deux conditions
expérimentales. Avec les stimuli visuels de la condition 1 (photographies de visages) et de la
condition 2 (visages virtuels), aucune différence de temps de regard entre le visage de joie et
de colère n’a été trouvée. Cette absence de différence significative suggère que, spontanément,
aucun des visages émotionnels n’attirerait l’attention plus que l’autre ou alors que les deux
visages émotionnels ne seraient pas discriminés.
Deuxièmement, après la condition de voix neutre (toutes les expériences excepté

l’expérience 3), les résultats se sont révélés différents en fonction des émotions, de la condition
de stimulus présentée et de l’âge des participants. Pour la condition 1 (vocalisations non-
verbales et photographies de visages), les résultats se sont révélés différents en fonction des
émotions présentées.
Pour les émotions de joie et de colère, aucune différence de temps de regard entre les
deux visages émotionnels n’a été mise en évidence et ce, à tous les âges (2 à 6 mois, 5 à 10 ans,
241
adultes) (expériences 1, 4, 6 et 11). Nous allons tenter d’apporter deux interprétations à cette
absence de différence. La première interprétation est construite sur l’hypothèse qu’un transfert
intermodal émotionnel a été effectué de la voix aux visages émotionnels. Dans le cas d’une
voix neutre, aucune préférence n’est attendue, car les deux visages sont nouveaux et
incongruents vis-à-vis de la voix. Selon cette interprétation, aucune préférence n’est trouvée et
ainsi le transfert pourrait avoir été effectué correctement dès 2 mois. La deuxième interprétation
est construite sur l’hypothèse que la voix n’a pas été prise en compte pour l’attention visuelle
sur les visages. Ainsi, cette absence de différence significative suggère que, spontanément,
aucun de ces visages émotionnels n’attirerait plus l’attention que l’autre, ou alors que les deux
visages émotionnels ne seraient pas discriminés. Selon cette deuxième interprétation, ce résultat
chez les bébés serait contraire à ceux trouvés dans la majorité des études qui ont démontré une
préférence pour le visage de joie durant les premiers mois de vie (A. J. Caron et al., 1988;
Farroni et al., 2007; Kuchuk et al., 1986; LaBarbera et al., 1976; Montague & Walker-Andrews,
2002; Rigato et al., 2011; Rochat et al., 2002).
Pour les émotions de peur et de colère à 4 mois (expérience 7), après la voix neutre, une
préférence pour le visage de peur s’est révélée significative tant pour les visages féminins que
masculins. De nouveau, nous pouvons faire deux interprétations différentes en fonction de la
prise en compte ou non de la voix. Si l’on considère que la voix neutre a été prise en compte et
qu’un transfert a été réalisé, ce résultat suggère que l’émotion exprimée serait mal interprétée
et induirait une préférence pour le visage de peur. Si l’on considère que la voix n’a pas été prise
en compte pour l’attention aux visages, ainsi le visage de peur aurait dirigé une attention
visuelle supérieure à celui de colère. Ce résultat va dans le sens d’un biais attentionnel pour le
visage de peur dès 3-5 mois, déjà mis en évidence dans de récentes études (Bayet et al., 2017;
Heck et al., 2016; Peltola, Leppänen, Mäki, et al., 2009; Safar et al., 2017).
Pour la condition 2 (pseudo-mots et visages virtuels 3D), les différences de temps de

regard entre les visages émotionnels dépendent des émotions présentées et de l’âge. Pour les
émotions de joie et de colère (expériences 2, 5, 8 et 11), de 1 à 6 mois ou chez les enfants de 5
à 10 ans, aucune préférence significative pour le visage de joie ou de colère n’a été trouvée.
Alors que chez les adultes, le visage de joie était plus regardé que le visage de colère. Encore
une fois, ce résultat peut être sujet à deux interprétations différentes. Dans le cas où la voix a
été prise en compte, l’absence de préférence de 1 mois à 10 ans suggérerait un transfert correct,
alors que les adultes effectueraient un transfert erroné. Ainsi, ce résultat met en évidence que
242
11. DISCUSSION
les voix féminines qui expriment des pseudo-mots, même sur un ton neutre, sont plus associées
au visage de joie qu’au visage de colère. Chez les adultes, ce résultat suggère que la production
d’un discours composé de pseudo-mots semble être davantage associée à une expression
positive qu’à une expression neutre.
Dans le cas où la voix n’a pas été prise en compte, ce résultat suggère qu’aucune
préférence spontanée pour l’un ou l’autre des visages émotionnels n’est retrouvée ou alors que
les deux visages émotionnels n’ont pas été discriminés de 1 mois à 10 ans. Alors que chez les
adultes, cela suggère une préférence spontanée pour le visage de joie par rapport au visage de
colère uniquement pour la condition 2. Comme pour la condition 1, ce résultat chez les bébés
serait contraire à ceux trouvés dans la majorité des études qui ont démontré une préférence
spontanée pour le visage de joie durant les premiers mois de vie (A. J. Caron et al., 1988; Farroni
et al., 2007; Kuchuk et al., 1986; LaBarbera et al., 1976; Montague & Walker-Andrews, 2002;
Rigato et al., 2011; Rochat et al., 2002).
Pour les émotions de joie et de dégoût de 1 à 6 mois (expérience 9), les bébés âgés de 1
mois ont regardé plus longtemps le visage de joie que celui de dégoût. Si l’on considère que les
bébés ont pris en compte la voix pour le traitement visuel des visages, cela suggérerait qu’à 1
mois le transfert de la voix neutre serait effectué avec une interprétation erronée des stimuli.
Avec l’âge, la voix neutre serait ensuite bien interprétée comme neutre et donc aucun visage ne
serait préféré. Si l’on suppose que les bébés n’ont pas pris en compte la voix entendue pour
regarder les visages émotionnels et donc qu’aucun transfert n’a été effectué, alors on
retrouverait, à 1 mois seulement, une préférence spontanée pour le visage de joie par rapport au
visage de dégoût, démontrant une discrimination de ces deux visages émotionnels. Ainsi, cette
préférence précoce pour le visage de joie par rapport au visage de dégoût serait retrouvée à 1
mois, mais s’estomperait avec le développement. Ce biais pourrait même s’inverser comme mis
en évidence par Godard et al. (2016) à 3, 5 et 7 mois. Cependant, l’absence de préférence
pourrait aussi signifier une absence de discrimination de ces deux visages.
Pour les visages de colère et dégoût, de 1 à 6 mois (expérience 10), les bébés âgés de 2
mois, ont regardé plus longtemps le visage de colère que celui de dégoût. Ces résultats peuvent
être sujets à deux interprétations différentes. Si l’on considère que les bébés ont pris en compte
la voix pour le traitement visuel des visages, cela suggérerait qu’à 2 mois, le transfert de la voix
neutre serait effectué avec une interprétation erronée des stimuli ; et avec l’âge, la voix neutre
243
serait bien interprétée comme neutre et donc aucun visage ne serait préféré. Si l’on suppose que
les bébés n’ont pas pris en compte la voix neutre entendue pour regarder les visages
émotionnels, les résultats pourraient suggérer qu’à 1 mois, les bébés ne parviennent pas à
discriminer deux visages de même valence, ensuite à 2 mois, ils montrent une préférence
spontanée pour le visage de colère par rapport au visage de dégoût et cette préférence pour le
visage de colère s’estompe avec le développement. L’absence de préférence pourrait aussi
signifier une absence de discrimination de ces deux visages.
Chez les enfants et les adultes exposés à des visages de joie et de colère après la
« baseline » (voix neutre ou sans voix), seuls les adultes, après la voix neutre dans la condition
2, démontrent une préférence pour le visage de joie comparé au visage de colère. Alors
qu’aucune préférence n’a été révélée après l’absence de voix (dans les deux conditions) ou
après la voix neutre de la condition 1. Dans la condition 2, la voix était constituée de pseudo-
mots exprimés par trois femmes différentes, tandis que dans la condition 1, la voix était la
production de la voyelle /a/ par une femme. Ainsi, ce résultat suggère que les voix féminines
qui expriment un discours, même dénué de sens sur un ton neutre, sont plus associées au visage
de joie qu’à celui de colère. Alors que la voix féminine qui prononce uniquement la voyelle /a/
avec un ton de voix neutre n’a été associée à aucun des visages émotionnels, suggérant un
amorçage neutre. Ce résultat suggère qu’une voix qui prononce des pseudo-mots même avec
un ton neutre serait considérée comme positive, alors qu’une voix qui ne prononce qu’un seul
phonème avec un ton neutre serait considérée comme neutre. Dans le but d’induire un amorçage
neutre par la voix chez des adultes, l’utilisation de la voix neutre de la condition 1 semble plus
indiquée que celle de la condition 2.
Pour résumer, les résultats de la « baseline » avec une voix neutre ou sans voix semblent
principalement n’avoir révélé aucune différence de temps de regard entre les visages
émotionnels. Ces résultats indiquent que, dans la plupart des conditions, la voix neutre ou
l’absence de voix semblent induire correctement un amorçage neutre. Seules quelques
conditions à certains âges uniquement, semblent révéler une préférence pour l’un ou l’autre des
visages émotionnels. Ces préférences révèlent une discrimination des deux visages mais
suggèrent un transfert erroné. Ainsi, après la voix neutre, l’expression faciale de joie est plus
observée que celle de dégoût à 1 mois, l’expression faciale de colère est plus observée que celle
de dégoût à 2 mois, l’expression faciale de peur est plus observée que celle de colère à 4 mois
et l’expression faciale de joie est plus observée que celle de colère chez les adultes, uniquement
244
11. DISCUSSION
dans la condition 2. Cette absence de préférence pour l’un ou l’autre des visages après la
« baseline », nous a permis d’explorer notre hypothèse principale, à savoir, l’influence des voix
émotionnelles sur le temps de regard des visages émotionnels.
Résultats de la condition expérimentale : voix

émotionnelles
L’objectif de cette thèse était d’explorer le développement des compétences de transfert
intermodal émotionnel. Dans ce but, nous avons observé l’influence des voix émotionnelles sur
les temps de regard aux visages émotionnels.
Compétences nécessaires au transfert intermodal

émotionnel audio-visuel
Il est important de rappeler que trois compétences préalables sont nécessaires mais non
suffisantes afin de retrouver un transfert intermodal émotionnel audio-visuel : (a) la capacité
auditive à discriminer les émotions, (b) la capacité visuelle à discriminer les émotions et (c) un
transfert intermodal des informations générales de la modalité auditive à la modalité visuelle.
Les trois compétences pré-requises semblent déjà observables dans les premiers mois.
Premièrement, les nouveau-nés semblent capables de faire la distinction entre les

émotions présentées dans les voix, comme les émotions de peur par rapport aux émotions de
joie ou neutres, une voix de joie par rapport à la colère, la tristesse ou une voix neutre
(Mastropieri & Turkewitz, 1999). De plus, dès l’âge de 3 mois, les bébés détectent des
changements dans l’expression vocale, de la tristesse à la joie (Walker-Andrews & Grolnick,
1983; Walker-Andrews & Lennon, 1991).
Deuxièmement, les bébés sont capables de distinguer visuellement la joie par rapport à
d’autres expressions faciales émotionnelles. Cette capacité semble déjà possible chez les
nouveau-nés à certaines conditions (Farroni et al., 2007; Field et al., 1982; Rigato et al., 2011).
Cependant, ces résultats ne sont pas toujours reproduits (Kaitz et al., 1988; Oostenbroek et al.,
2016). De plus, avant 5 mois, les études ont trouvé une préférence pour les visages de joie par
rapport aux visages neutres à 3 mois (Kuchuk et al., 1986) ou à 4 mois (LaBarbera et al., 1976),
245
ou une préférence pour les visages de joie par rapport à ceux de tristesse à 4 mois (A. J. Caron
et al., 1988; Montague & Walker-Andrews, 2002). Des études ont également montré une
discrimination entre la joie et la surprise (R. F. Caron et al., 1982; Young-Browne et al., 1977)
ou la joie et la colère à 3 mois (Barrera & Maurer, 1981), la joie et la tristesse à 3-5 mois (A. J.
Caron et al., 1988; Montague & Walker-Andrews, 2002), la joie et une expression neutre
(Bornstein, Arterberry, Mash, & Manian, 2011) et la joie et la peur (Bornstein & Arterberry,
2003) à 5 mois.
Troisièmement, des études ont révélé que les bébés de moins de 6 mois peuvent coder
l’information dans une modalité (p. ex., auditive) et percevoir ensuite cette information dans
une autre modalité (p. ex., visuelle) comme le suggérait Gibson (1969) (pour une revue, cf.
Streri, 2012). Ainsi, il existe des évidences que les nouveau-nés peuvent transférer des
informations de la modalité auditive à la modalité visuelle, par exemple, dans la perception des
nombres (V. Izard et al., 2009) ou la synchronisation entre la parole et les visages (Aldridge et
al., 1999; Guellaï et al., 2011). De plus, des tâches d’appariement intermodal (auditivo-visuel)
sur la parole ont permis de mettre en évidence qu’à partir de l’âge de 2 mois, les bébés pouvaient
apparier les voyelles (P. K. Kuhl & Meltzoff, 1982; Patricia K. Kuhl & Meltzoff, 1984;
Patterson & Werker, 2003).
Sur la base de ces trois capacités préalables, nous avons cherché à savoir si la capacité
de transférer l’information émotionnelle des voix aux visages serait également présente chez
les bébés dès 1 mois. Les résultats des différentes études de cette thèse semblent mettre en avant
qu’il n’existe que peu de différence de regard significative entre les deux visages émotionnels
chez les bébés. Ainsi, comme expliqué précédemment, aucune conclusion ne peut être tirée si
aucune différence n’est retrouvée entre les deux stimuli. Nous allons donc tenter d’interpréter
les absences de différence avec prudence.
Transfert intermodal émotionnel de la condition 1

(photographies de visages et vocalisations non-
verbales)
Pour la condition 1 (vocalisations non-verbales et photographies de visages), les

résultats diffèrent en fonction des émotions et du genre des stimuli présentés. De plus, on trouve
des résultats différents en fonction de l’âge des participants.
246
11. DISCUSSION
11.2.2.1. Joie vs. colère
Avec les émotions de joie et de colère, entre 2 et 4 mois (expérience 4), aucune
préférence n’a été mise en évidence. À 4 mois, après la voix de colère uniquement, une
préférence pour le visage de colère féminin et une préférence pour le visage de joie masculin
ont été mises en évidence (expérience 6). À 6 mois, une préférence pour le visage de colère
après la voix de joie a été révélée (expériences 1 et 4). À 5 ans, aucune préférence n’a été
observée. À partir de 8 ans, une préférence pour le visage de joie après la voix de joie a été mise
en évidence et à partir de 10 ans une préférence pour le visage de colère après la voix de colère
a été révélée (expérience 11).
Si l’on interprète nos résultats de manière à dire qu’il existe un transfert intermodal chez
ces participants, cela suggérerait une capacité des bébés, dès 4 mois, à extraire l’émotion de
manière amodale. Dans ce cas, comment expliquer que la préférence pour le visage nouveau ou
familier est différente en fonction du genre des stimuli et de l’âge des enfants ? Chez les
participants non verbaux, à 4 mois, pour les stimuli féminins, après la voix de colère on retrouve
un temps de regard plus important pour le visage congruent de colère, familier vis-à-vis de la
voix. Alors que pour les stimuli masculins, après la voix de colère on retrouve un temps de
regard plus important pour le visage incongruent de joie, nouveau vis-à-vis de la voix. À 6
mois, un transfert serait mis en évidence avec la voix de joie, avec une préférence pour le visage
incongruent de colère, nouveau vis-à-vis de la voix. Chez les participants verbaux, le transfert
observé semble mettre en avant une préférence pour les visages congruents, familiers vis-à-vis
de la voix, à partir de 8 ans.
Cette différence de préférence pourrait avoir une cohérence avec la revue de questions
de Pascalis et de Haan (2003) qui conclut qu’il est difficile de déterminer a priori le sens de la
préférence attendue ou l’absence de préférence et que cela peut être lié à la qualité de l’encodage
ou encore au contenu émotionnel des stimuli. De plus, cette différence de préférence semble
être retrouvée dans les études d’appariement intermodales, même si la plupart des études
mettent en avant une préférence pour les stimuli congruents de 3 à 7 mois (Godard et al., 2016;
Kahana-Kalman & Walker-Andrews, 2001; Montague & Walker-Andrews, 2002; Soken &
Pick, 1992; Vaillant-Molina et al., 2013; Walker, 1982; Zieber et al., 2014b), une étude révèle
aussi une préférence pour les stimuli présentés par la mère, incongruents, de joie et de colère
(Montague & Walker-Andrews, 2002). De plus, deux études chez les adultes semblent
247
démontrer une préférence pour le congruent (Paulmann & Pell, 2010; Paulmann et al., 2012).
Le résultat de ces études ainsi que les résultats de l’étude 5 effectuée chez les enfants et les
adultes nous laissent penser qu’une préférence pour la congruence est plus probable dans un
paradigme d’appariement intermodal ou de transfert intermodal émotionnel, chez les bébés
jusqu’à 7 mois ou chez les adultes.
Malgré les résultats présentés dans cette thèse, qui semblent suggérer une capacité de
transfert intermodal émotionnel précoce à 4 et 6 mois, des précautions quant à la réelle présence
d’un transfert intermodal émotionnel sont à émettre. En effet, le transfert n’a été retrouvé
qu’avec une des voix émotionnelles et pas la même voix en fonction de l’âge des bébés. Mais
encore, la préférence n’était pas forcément une préférence pour la congruence comme
majoritairement retrouvée dans la littérature. Un autre argument en faveur d’une interprétation
plus prudente est qu’aucune des interactions avec la voix ne s’est révélée significative, c’est-à-
dire que peu importe la voix, la direction du regard était en faveur du visage de joie pour les
stimuli masculins, à 4 mois et en faveur du visage de colère pour les stimuli féminins, à 4 et 6
mois. La voix de colère à 4 mois et la voix de joie à 6 mois ne feraient que renforcer cette
préférence pré-établie. De ce fait, une interprétation plus précautionneuse de ces résultats serait
que les visages de joie masculins ou les visages de colère féminins attirent plus l’attention des
bébés et ce, peu importe la voix. Selon cette interprétation, jusqu’à 6 mois, le regard des bébés
serait plutôt influencé par les caractéristiques picturales des visages. De ce fait, les différences
de temps de regard observées seraient plutôt révélatrices d’une capacité à discriminer les
visages. De plus, le genre des stimuli semble influencer cette préférence. Une différence de
temps de regard des stimuli émotionnels en fonction du genre des stimuli a également été
trouvée dans l’étude de Bayet et al. (2015). Ces auteurs ont montré que les visages féminins de
joie et les visages masculins neutres étaient préférentiellement regardés. Un argument
supplémentaire au fait que les résultats trouvés à 4 et 6 mois soient dus aux propriétés physiques
des stimuli employés est qu’aucune différence de temps de regard n’a été trouvée avec les
stimuli visuels plus contrôlés de la condition 2, de 1 à 6 mois. En effet, les visages virtuels 3D
de la condition 2 ont été construits grâce au logiciel FACSGen dans le but de garantir une
configuration la plus similaire possible entre les éléments internes du visage avec un
changement uniquement au niveau de l’activation des muscles faciaux (Unités d’Actions)
spécifiques à chaque émotion. Pour finir, bien que les bébés, dès 4 mois, soient possiblement
capables d’un transfert intermodal émotionnel, à des conditions spécifiques, l’évidence robuste
d’un transfert spontané n’a été retrouvée qu’à partir de 8 ans pour la voix de joie et qu’à partir
248
11. DISCUSSION
de 10 ans pour la voix de colère, avec une préférence toujours pour le visage congruent. Ces
résultats semblent révéler une acquisition relativement tardive par rapport à l’émergence
supposée de cette dernière, dès 4 mois. En tous les cas, dans la condition 1, à 4 et 6 mois, les
voix émotionnelles semblent moduler la préférence spontanée pour l’un ou l’autre des visages
émotionnels.
11.2.2.2. Peur vs. colère
Avec les émotions de peur et de colère, à 4 mois, rappelons qu’une préférence pour la
peur a été trouvée après la voix neutre pour les stimuli féminins et masculins. Pour les voix
émotionnelles, il semblerait qu’après la voix de colère pour les stimuli masculins uniquement,
le visage de peur soit regardé plus longtemps. Alors qu’après la voix de peur maculine ou après
les voix de peur et de colère féminines, aucune préférence n’a été retrouvée. Ce dernier résultat
pourrait être révélateur d’une capacité de transfert intermodal émotionnel à 4 mois de la voix
de colère pour les stimuli masculins. Cependant, il faut rester modéré quant à l’hypothèse d’un
tel transfert. Premièrement, cette préférence était déjà significative avec la voix neutre.
Deuxièmement, aucune des interactions avec la voix n’est significative, c’est-à-dire que peu
importe la voix émotionnelle, le temps de regard est toujours en faveur du visage de peur pour
les stimuli masculins. La voix de colère ne ferait que renforcer cette préférence spontanée.
Ainsi, ce résultat serait une évidence de plus en faveur d’un biais attentionnel pour le visage de
peur dès 3-5 mois (Bayet et al., 2017; Heck et al., 2016; Peltola, Leppänen, Mäki, et al., 2009;
Safar et al., 2017).
Transfert intermodal émotionel de la condition

2 (visages virtuels et pseudo-mots)
Pour la condition 2, aucun transfert n’a été retrouvé pour les expériences 2, 5 et 8 (joie
vs. colère), 9 (joie vs. dégoût) et 10 (colère vs. dégoût) de 1 à 6 mois. En effet, les résultats
observés dans les trois expériences n’ont montré aucune différence significative de temps de
regard entre les visages émotionnels, peu importe la voix émotionnelle préalablement entendue,
et ce à tous les âges. Ainsi, ces résultats n’ont pas permis de mettre en évidence une capacité
de transfert chez ces bébés de 1 à 6 mois. Alors que chez les enfants et les adultes, un transfert
intermodal émotionnel dès 8 ans pour la joie et dès 10 ans pour la colère a été mis en évidence
comme pour la condition 1.
249
Comparaison des résultats des deux conditions

expérimentales
Cette absence de résultats chez les bébés pourrait être expliquée par les propriétés
intrinsèques des stimuli plus contrôlés que ceux de la condition 1 et donc plus difficilement
discriminables et transférables. Par exemple, la voix de joie de la condition 1 correspondait à
un rire alors que la voix de la condition 2 correspondait à une voix prononçant des pseudo-mots
avec une prosodie joyeuse. L’intensité émotionnelle est donc supérieure dans la condition 1.
Par ailleurs, dans la condition 2, les voix étaient des pseudo-mots émotionnels exprimés par
trois identités différentes. Il se peut que l’émotion vocale exprimée par ces différentes identités
n’ait pas été catégorisée comme une émotion et, de ce fait, le transfert de la voix aux visages
était trop difficile.
De plus, l’étude des AOIs à 6 mois et chez les enfants et les adultes dans les deux
conditions expérimentales n’a révélé que peu de préférence en fonction de l’émotion exprimée
(joie ou colère). En effet, les résultats du temps de regards sur les AOIs de joie et de colère
semblent être stables entre les âges, mais semblent dépendants de la condition expérimentale.
Pour les photographies de visages (condition 1), le temps de regard sur la bouche et sur les yeux
ne s’est pas révélé être différent, en accord avec l’étude de Amso et al. (2010). Alors que pour
les visages virtuels (condition 2), le temps de regard sur les yeux était plus élevé que le temps
de regard sur la bouche, en accord avec la majorité des études réalisées en oculométrie chez les
bébés (Hunnius et al., 2011; Peltola, Leppänen, Vogel-Farley, et al., 2009; Soussignan et al.,
2018), les enfants (de Wit, Falck-Ytter, & von Hofsten, 2008) ou les adultes (Beaudry et al.,
2014; Hernandez et al., 2009; Hunnius et al., 2011).
Par ailleurs, pour la condition 1, la bouche du visage de colère a attiré de plus longs
regards que la bouche du visage de joie, alors qu’aucune différence de temps de regard entre
les yeux de colère et de joie n’a été révélée. Pour la condition 2, nous n’avons pas trouvé de
différence significative de temps de regard entre les AOIs en fonction de l’émotion exprimée
sur le visage. Ce résultat suggère que la bouche de colère du visage de la condition 1 uniquement
semble plus attirante après les voix émotionnelles, de la même façon chez les bébés de 6 mois,
les enfants et les adultes. Ces résultats sont contraires à ceux retrouvés dans la littérature qui
montrent que dès 7 mois ou chez les adultes les temps de regards sont différents entre les régions
du visage en fonction de l’émotion. Ainsi, avec l’expression de joie, la zone de la bouche
250
11. DISCUSSION
semble être plus regardée, alors qu’avec l’expression de colère, c’est la zone des yeux qui
semble être plus regardée (Schurgin et al., 2014; Soussignan et al., 2018).
Bien que la bouche de colère semble attirer davantage l’attention, cela ne semble pas
avoir modifié les capacités de transfert chez les enfants ou chez les adultes, avec un temps de
regard toujours plus élevé pour le visage congruent à la voix. En revanche, chez les bébés de 6
mois, après la voix de joie, le visage féminin de colère était regardé plus longtemps. Cette
expression faciale de colère avec la bouche grande ouverte pourrait, par exemple, avoir été mal
interprétée par les bébés qui la considéreraient non pas comme une bouche exprimant de la
colère, mais plutôt comme une bouche qui rit aux éclats. De plus, le temps de regard préférentiel
pour le visage en colère féminin à 4 et 6 mois pourrait être dû à la saillance de cette bouche, qui
semble aussi être plus attractive pour les enfants et les adultes. Selon les études de R. F. Caron
et al. (1985) ou Oster (1981), les bébés de 4-5 mois sont influencés par la présence des dents
lors de l’interprétation des expressions faciales émotionnelles. À noter, toutefois, que les dents
sont visibles dans les deux expressions émotionnelles.
Pour résumer, chez les participants non verbaux, aucune capacité de transfert intermodal
émotionnel n’a pu être mise en évidence de 1 à 4 mois. Entre 4 et 6 mois, certaines évidences
laissent penser qu’un transfert pourrait être possible, mais seulement dans la condition 1,
suggérant l’émergence d’une capacité de transfert intermodal émotionnel. Chez les participants
verbaux, dès 5 ans, tous les enfants semblent regarder le visage congruent avec la voix, mais la
différence de temps de regard ne s’est révélée significative qu’à partir de 8 ans pour la voix de
joie et à partir de 10 ans pour la voix de colère. Suggérant l’acquisition de la capacité de transfert
intermodal de la voix de joie à 8 ans et la voix de colère à 10 ans. Ce développement est
relativement tardif par rapport à l’émergence supposée d’un transfert entre 4 et 6 mois. Au vu
de ces résultats, nous pouvons proposer deux trajectoires développementales différentes.
Première trajectoire développementale proposée
Une première trajectoire développementale suggérerait des compétences précoces de

transfert intermodal émotionnel. Cette trajectoire montrerait un changement dans le
développement d’une préférence pour l’expression nouvelle, incongruente, comme suggéré
avec les stimuli féminins de joie à 6 mois, à une préférence pour l’expression familière,
251
congruente, comme suggéré chez les enfants et chez les adultes. En effet, conformément à la
théorie de la violation des attentes (Wang, Baillargeon, & Brueckner, 2004), certaines études
ont montré que les bébés et les jeunes enfants préfèrent concentrer leur attention sur la scène
émotionnelle inattendue (Hepach & Westermann, 2013; Reschke, Walle, Flom, & Guenther,
2017; Skerry & Spelke, 2014). Dans ces conditions, à partir de quel âge les enfants
commencent-ils à préférer la congruence ? Nos résultats suggèrent une réponse possible.
En effet, la préférence pour l’expression congruente ne s’est révélée de manière

significative qu’à partir de 8 ans avec la voix de joie et à partir de 10 ans avec la voix de colère,
alors qu’à 5 ans, aucune préférence significative n’a été mise en évidence. Dans cette
expérience, les enfants n’ont reçu aucune instruction, sauf celle de regarder l’écran. Ainsi, les
plus jeunes enfants ont pu comprendre les émotions exprimées, mais n’ont pas eu une
préférence spontanée observable pour le congruent ou l’incongruent et ont donc exploré les
deux visages. Ainsi, 5 ans pourrait être un âge charnière entre la réaction à la nouveauté et une
préférence plus mature pour la congruence. Cette interprétation semble probable, car des études
ont montré que les enfants sont déjà capables de nommer correctement (à plus de 90%) les
expressions faciales de joie à partir de 3 ans et de colère à partir de 4 ans (Widen, 2013).
Néanmoins, il est bien connu que ces habiletés de reconnaissance sont affectées par le
type de tâche (p. ex. appariement, labellisation, histoires, visages, etc.). De plus, toutes ces
tâches impliquent des instructions verbales (N. L. Nelson & Russell, 2011; Vicari et al., 2000).
Ainsi, nous pouvons nous questionner sur le sens des résultats si nous avions donné l’instruction
de regarder le visage congruent, par exemple. Compte tenu de ces considérations, nous pouvons
supposer qu’un transfert intermodal émotionnel pourrait déjà être trouvé plus tôt, si une
instruction était donnée aux enfants.
Deuxième trajectoire développementale proposée
Une deuxième trajectoire développementale suggérerait une maîtrise tardive du transfert

intermodal émotionnel. En effet, même si les compétences prérequises à un transfert intermodal
émotionnel (discrimination émotionnelle vocale et faciale et capacité de transfert intermodal)
sont observées avant 6 mois ; et que les expressions faciales émotionnelles sont correctement
252
11. DISCUSSION
labellisées pour la joie et la colère avant l’âge de 5 ans. Le transfert intermodal émotionnel de
la voix au visage pourrait être difficile et nécessiterait un développement plus long.
Selon cette interprétation, dans nos études, entre 1 et 6 mois, quelques évidences de
discrimination des expressions faciales auraient été révélées. Nos résultats montreraient que
l’expression faciale de joie serait préférée à celle de dégoût à 1 mois, l’expression faciale de
colère serait préférée à celle de dégoût à 2 mois, l’expression faciale de peur serait préférée à
celle de colère à 4 mois, et l’expression faciale de colère serait préférée à la joie pour les stimuli
féminins à 4 et 6 mois et l’expression faciale de joie serait préférée à celle de colère pour les
stimuli masculins.
Ces résultats mettent en évidence que, de 1 à 6 mois, les bébés sont capables de
discriminer différents visages émotionnels, mais sont influencés par les caractéristiques des
visages, par exemple, le genre, l’émotion ou la configuration des éléments internes (p. ex.,
l’ouverture de la bouche). Ces résultats iraient dans le sens qu’avant 7 mois, les bébés sont
capables d’une discrimination des émotions qui se base sur les caractéristiques physiques des
stimuli alors qu’après 7 mois on retrouve une discrimination claire et catégorielle des émotions
primaires. De plus, selon l’hypothèse de redondance intersensorielle (Bahrick et al., 2004), la
stimulation multimodale faciliterait la perception des propriétés amodales. Avec le
développement, l’attention du bébé deviendrait plus flexible, et les propriétés amodales
pourraient également être détectées en stimulation unimodale.
Flom et Bahrick (2007), ont testé ces prédictions et montré que les bébés de 4 mois sont
capables de faire la distinction entre les clips vidéo présentant une femme heureuse, en colère
ou triste lorsque la voix et les visages étaient montrés simultanément et synchronisés. Alors
qu’il faut attendre 5 mois pour la discrimination vocale unimodale (c.-à-d. les stimuli auditifs
ont été couplés avec une image statique du visage de la même actrice posant une expression
affective neutre) et 7 mois pour la discrimination visuelle unimodale (clips vidéo sans les voix).
De plus, A. J. Caron et al. (1988) ont montré que les bébés peuvent discriminer une expression
multimodale dynamique dès l’âge de 4 mois et une expression unimodale seulement à partir de
5 mois pour la joie et la tristesse, la discrimination n’est possible qu’à 7 mois avec un stimulus
multimodal de colère et de joie.
253
Avec une procédure d’appariement intermodal, les bébés de 7 mois exposés à une voix
émotionnelle regardent plus longtemps le visage congruent (joie, colère ou triste) tandis que les
bébés de 5 mois ne font l’appariement qu’avec les expressions de joie ou même ne démontrent
pas de préférence (Soken & Pick, 1992, 1999; Walker, 1982; Walker-Andrews, 1986). Par
ailleurs, un appariement plus précoce a été trouvé avec des stimuli plus familiers. Vaillant-
Molina et al. (2013) ont exploré la capacité de faire correspondre les visages avec des voix
produites par des bébés et ont démontré que l’expression congruente positive ou négative était
plus regardée à 5 mois et pas à 3 mois et demi. À 3-4 mois, avec l’expression de la mère, les
bébés préféraient regarder l’expression de joie ou de tristesse congruente ou l’expression de
joie ou de colère incongruente (Montague & Walker-Andrews, 2002). Ces études suggèrent
que l’appariement intermodal émotionnel semble observé chez les bébés dès 7 mois, ou plus
précocement si les stimuli utilisés sont plus familiers pour le bébé tel que l’expression de la
mère ou d’un pair. Dans les études présentées dans cette thèse, les voix et les visages sont
présentés successivement, afin de déterminer une réelle compréhension de l’émotion.
Néanmoins, au regard de ces recherches antérieures, même un paradigme d’appariement
intermodal semble difficile pour les bébés avant 7 mois et pourrait expliquer que, dans nos
études, nous n’ayons pas trouvé de capacité robuste de transfert intermodal émotionnel jusqu’à
6 mois.
De plus, la capacité à reconnaître les émotions augmente avec l’âge et des études ont
démontré que la précision de la reconnaissance des expressions faciales est semblable à celle
des adultes, dès 10 ans et la reconnaissance des expressions vocales n’est semblable à celle des
adultes qu’à la fin de l’adolescence (Chronaki, Hadwin, Garner, Maurage, & Sonuga‐ Barke,
2015). Dans nos études, les enfants de 5 ans n’ont pas montré de préférence significative pour
l’une des expressions faciales après les deux voix émotionnelles. Ce résultat pourrait suggérer
qu’ils ne maîtrisent pas la reconnaissance des expressions émotionnelles faciales ou vocales et
sont donc incapables de faire correspondre les expressions faciales émotionnelles avec la voix
correspondante. De plus, les enfants de 8 ans sont capables de faire correspondre l’expression
du visage avec la voix de joie, mais nous ne l’avons démontré, avec la voix de colère, qu’à
partir de 10 ans. Ce résultat pourrait s’expliquer par le fait que seule l’expression vocale de joie
est totalement comprise à cet âge et que ce n’est qu’avec cette voix que les enfants sont capables
de faire correspondre l’expression faciale. Ce résultat est conforme aux études qui montrent
que la joie est d’abord reconnue et que les autres émotions comme la colère sont reconnues plus
tard dans le développement (Boyatzis et al., 1993; Camras & Allison, 1985; Durand et al., 2007;
254
11. DISCUSSION
Gagnon et al., 2014; Gosselin, 1995; Rodger et al., 2015; Widen & Russell, 2013). Le transfert
congruent pour la joie avant celui de la colère est alors cohérent avec le développement plus
précoce de la compréhension de cette émotion.
Transfert intermodal émotionnel inné ou acquis ?
Pour finir, selon Lécuyer (2014), l’âge de 2 à 5 mois serait une période clé pour
déterminer si une compétence peut être considérée comme innée ou acquise. Si une compétence
apparaît seulement après 2 mois, cela serait trop tard pour définir cette compétence comme
étant innée. Alors que si elle est observée avant 5 mois, c’est trop tôt pour avoir été acquise
grâce aux mécanismes d’apprentissage. De ce fait, nos études chez les bébés se sont concentrées
entre les âges de 1 et 6 mois, afin de tenter de comprendre si une perception amodale des
émotions pourrait être innée ou serait plutôt acquise.
Les recherches menées dans cette thèse ne permettent pas de mettre en avant une
capacité innée de transfert intermodal audio-visuel émotionnel, elle n’a pu être montrée avant
4 mois, ceci bien que les trois compétences préalables nécessaires (discrimination des voix et
des visages émotionnels, transfert de la modalité auditive à la modalité visuelle) semblent déjà
observables dans les premiers mois. En effet, une perception amodale des émotions n’a pas pu
être démontrée chez des bébés si jeunes. Entre 4 et 6 mois, certaines évidences d’un transfert
intermodal émotionnel ont été observées à certaines conditions, mais l’acquisition de la capacité
de transfert intermodal émotionnel ne semble démontrée d’une manière similaire à l’adulte que
dès 8 ans pour l’émotion de joie et dès 10 ans pour l’émotion de colère.
Ainsi, ces résultats ne sont pas consistants avec la perspective innéiste proposée par la
théorie différentielle des émotions de Izard et King (2009). Cependant, ils semblent démontrer
l’émergence précoce de cette capacité, mais qui ne serait totalement acquise qu’avec le
développement. Ces résultats seraient donc plutôt être cohérents avec une perspective
ontogénétique comme proposée par Harriet Oster (2005), en accord avec le
neuroconstructivisme de Karmiloff-Smith (1994). Ainsi, ces résultats sont plus en faveur de la
théorie de l’évaluation cognitive qui suggère que le développement progressif des compétences
émotionnelles est lié à la possibilité d’évaluations de plus en plus complexes grâce à la
maturation du Système Nerveux Central (SNC) (p.ex. Munakata, Casey, & Diamond, 2004).
255
Limites
Une des limites de cette thèse est l’analyse de comparaison de paires visuelles. En effet,
lorsqu’aucune préférence n’est retrouvée, aucune conclusion ne peut être tirée. Dans les
différentes études chez les bébés, la plupart des résultats n’ont pas permis de mettre en évidence
des différences de regard significatives entre les visages émotionnels. Ainsi, plusieurs
interprétations quant à ces absences de résultats ont été formulées avec prudence.
De plus, il est difficile de déterminer a priori le sens de la préférence attendue. En effet,

initialement, ce test suppose une préférence visuelle pour le nouveau stimulus (Fantz, 1964).
Cependant, une préférence pour la familiarité est également retrouvée dans certaines études. De
plus, il semblerait que les paradigmes d’appariement intermodal émotionnel provoquent
principalement une préférence pour les stimuli congruents (Godard et al., 2016; Kahana-
Kalman & Walker-Andrews, 2001; Montague & Walker-Andrews, 2002; Paulmann & Pell,
2010; Paulmann et al., 2012; Soken & Pick, 1992; Vaillant-Molina et al., 2013; Walker, 1982;
Zieber et al., 2014b). Selon Pascalis & de Haan (2003), la qualité de l’encodage ainsi que le
contenu émotionnel des stimuli contribuent à déterminer si le résultat comportemental est une
préférence pour la familiarité, une préférence pour la nouveauté ou aucune préférence du tout.
Cependant, aucun modèle ne peut rendre compte de tous les résultats retrouvés. Cette tâche
avait malgré tout pour avantage de permettre d’étudier des compétences sans avoir recours au
langage, indispensable à l’étude des compétences chez les bébés.
Une autre limite des différentes études réalisées dans le cadre de cette thèse est le
nombre relativement peu élevé de participants par étude. En effet, une grande quantité des
données ont été perdues. Pour commencer, de nombreux bébés n’ont pas eu un temps d’éveil
calme suffisant pour la récolte des données oculaires. Particulièrement à 1 et 2 mois, les
passations se sont révélées très difficiles, car les bébés ont un temps d’éveil calme très court.
Ils avaient des difficultés à tenir leur tête. Leur acuité visuelle n’est pas encore bien développée,
de ce fait les stimuli présentés à l’écran étaient peut-être trop éloignés pour qu’ils puissent les
discriminer correctement. Les données oculaires des bébés de 1 à 6 mois ont également été
sujettes à beaucoup de perte, car les bébés bougeaient trop, pleuraient ou ne regardaient pas
l’écran suffisamment longtemps, ils n’étaient pas attentifs durant au moins un essai. Ensuite,
dans l’étude longitudinale, plusieurs participants n’ont pas pu être vus aux quatre âges (1, 2, 4
et 6 mois) pour plusieurs raisons (p. ex. indisponibilité des parents, dépassement de l’âge de 2
257
semaines, pleurs) et, de ce fait, ont été exclus de l’échantillon final. Enfin, nous ne sommes pas
parvenus à obtenir des données oculométriques avant 6 mois. En effet, cet appareil nécessite la
détection des yeux du bébé qui peuvent être trop petits. De plus, l’enfant pouvait ne pas rester
attentif assez longtemps afin que l’appareil parvienne à capter ses yeux (Hessels et al., 2015).
De plus, une phase de calibration est nécessaire et implique de suivre un objet aux différents
coins de l’écran. Cette phase peut être encore difficile chez les bébés les plus jeunes. De
surcroît, nous avons eu de nombreux problèmes techniques avec l’appareil et une grande
quantité de données eye-tracker n’ont pas pu être enregistrées.
258
Perspectives
Au vu des résultats obtenus, plusieurs perspectives intéressantes sont envisageables.
Premièrement, cette thèse a révélé que les bébés de 4 et 6 mois pourraient être capables d’un
transfert intermodal, mais à des conditions spécifiques alors que les enfants dès l’âge de 8 ans
et les adultes étaient spontanément capables de faire correspondre l’expression vocale
émotionnelle et qu’ils orientaient leur attention vers l’expression faciale congruente. Il
semblerait intéressant d’évaluer cette compétence entre 6 mois et 5 ans. En effet, aucune
préférence n’est retrouvée à 5 ans, mais cet âge pourrait être un âge charnière entre la réaction
à la nouveauté et une préférence plus mature pour la congruence. De plus, il serait intéressant
d’étudier ce même paradigme, chez des enfants dès qu’ils ont une compréhension langagière
suffisante (environ 3 ans), en ajoutant une consigne afin qu’ils regardent le visage congruent.
Ainsi, pour les raisons explicitées précédemment (étude 5), nous faisons l’hypothèse qu’une
capacité de transfert pourrait être mise en évidence plus tôt qu’à 8 ans.
Deuxièmement, nous pourrions modifier les stimuli ou le paradigme expérimental. Par

exemple, les effets révélés étant différents entre les conditions 1 et 2, à l’avenir, il serait
intéressant d’explorer le transfert intermodal en mélangeant les stimuli des deux conditions, en
présentant les voix de la condition 1 avec les visages de la condition 2 et les voix de la condition
2 avec les visages de la condition 1, pour vérifier l’origine des effets mis en évidence dans notre
étude. Il pourrait aussi être pertinent de présenter différentes identités afin de contrôler que les
effets obtenus ne sont pas uniquement dus aux caractéristiques du visage testé. De plus, les
stimuli masculins semblent provoquer des résultats différents par rapport aux stimuli féminins.
Ainsi, il serait intéressant de tester également les différentes émotions et conditions avec des
stimuli masculins. Il serait également intéressant de tester ce paradigme avec toutes les
émotions de base et les combiner toutes entre elles. Par ailleurs, l’adaptation de notre paradigme
pourrait potentiellement mettre en évidence des compétences plus précoces, par exemple en
présentant des stimuli familiers. En effet, les études ont montré des capacités d’appariement
intermodal dès 3 mois grâce à des stimuli familiers (Montague & Walker-Andrews, 2002;
Vaillant-Molina et al., 2013). Nous aurions également pu présenter un paradigme
d’appariement intermodal, où la présentation des stimuli aurait été simultanée et non
successive. Cependant, nous avons réalisé une étude préliminaire où la voix était encore
présentée durant 5 secondes après l’apparition des visages de joie et de colère chez 8 bébés âgés
259
de 6 mois, pour les stimuli de la condition 2. Les résultats préliminaires de cette étude ne
semblent pas plus concluants que ceux avec un transfert intermodal émotionnel, ne démontrant
aucune préférence significative entre le visage de joie et de colère. Ces premiers résultats ne
suggèrent pas qu’un appariement intermodal serait plus précoce avec ces stimuli. De plus, un
paradigme d’appariement intermodal suppose que l’enfant traite les stimuli dans les deux
modalités simultanément, ainsi on ne peut pas réellement savoir quels indices ont influencé la
discrimination.
Troisièmement, une approche intéressante serait de mesurer la production des

expressions faciales par les participants qui ont écouté les voix émotionnelles. Du point de vue
des théories incarnées de l’émotion, la perception et la représentation cérébrale d’une émotion
implique une réexpérimentation perceptive, somatosensorielle et motrice (en anglais :
embodiment) induite par cette dernière (Niedenthal, 2007). Ainsi, il serait probable que les
participants imitent, par des mimiques faciales congruentes la voix entendue. Par exemple,
Bradley et Lang (2000) ont mis en évidence une activation supérieure du muscle placé entre les
sourcils nommé corrugateur pendant l’écoute de voix négative grâce à l’EMG
(électromyogramme). De plus, l’étude de Soussignan et al. (2018) a révélé que les bébés de 7
et 12 mois, produisent des expressions faciales de la même valence lorsqu’ils observent un
modèle virtuel dynamique. Pour nos études, n’ayant pas fait de mesure EMG, il serait possible
de coder toutes les unités d’actions activées grâce à un codage FACS (Ekman et al., 1978b) ou
Baby FACS (Oster, 2016). Il serait aussi possible de faire coder par des observateurs naïfs la
valence émotionnelle ou l’expression faciale émotionnelle spécifique exprimée par les
participants et observer si elle est similaire à la voix entendue.
Quatrièmement, il serait pertinent de vérifier chez les enfants et chez les adultes que le
transfert est également possible avec d’autres émotions que la joie et la colère, en opposant des
émotions à valences similaires comme l’expérience 7 ou l’expérience 10 ; ou encore avec des
stimuli masculins comme l’étude 3. Ces données chez les adultes ont déjà été récoltées, et feront
l’objet d’analyses ultérieures.
Cinquièmement, chez les bébés, les résultats du transfert ne permettent pas d’affirmer
la présence d’une capacité de transfert intermodal émotionnel, et suggèrent plutôt une
discrimination basée sur les caractéristiques picturales ou acoustiques des stimuli. De ce fait, il
serait intéressant de vérifier à quel point les caractéristiques physiques des stimuli peuvent
260
13. PERSPECTIVES
influencer les patterns d’exploration. Par exemple, nous avons commencé à étudier, chez des
bébés de 6 mois et chez des adultes, les patterns d’explorations oculaires de visages émotionnels
en mouvement : des morphings de visages (c.-à-d., transformation progressive d’une image en
une autre) (Fiorentini & Viviani, 2011). L’expression du visage est, dans un premier temps,
neutre et se transforme jusqu’à l’apex émotionnel (c.-à-d., intensité maximale de l’émotion)
pour les six émotions de base. Alors que des études ont mis en évidence que les différentes
zones d’intérêt sont regardées différemment en fonction de l’émotion exprimée (Schurgin et
al., 2014; Soussignan et al., 2018), nos études n’ont mis en évidence qu’une seule préférence
chez les bébés, les enfants et les adultes. Une préférence pour la bouche de colère du visage
féminin de la condition 1, contraire aux résultats des études antérieures. Ainsi, étudier les
patterns d’exploration de visages dynamiques semble pertinent et pourrait mettre en avant
l’importance de la dynamique dans la reconnaissance émotionnelle.
Par ailleurs, nous avons également commencé à étudier chez des bébés de 4 et 6 mois,
comment l’environnement visuel pourrait influencer leurs préférences visuelles, en fonction du
genre, de l’origine ethnique et des émotions des visages observés. En effet, plusieurs études
semblent démontrer que l’origine ethnique ou le genre des visages pourraient influencer les
préférences visuelles spontanées des visages (Bayet et al., 2015; Kelly et al., 2007, 2005; Liu
et al., 2015; Quinn et al., 2008). De plus, l’étude 3 a montré des différences de préférences
visuelles, à 4 mois, en fonction du genre des stimuli présentés.
Sixièmement, le transfert intermodal émotionnel étant difficile à mettre en évidence

chez les bébés plus jeunes, il serait aussi intéressant d’étudier l’impact d’une voix émotionnelle
sur les compétences précoces. Par exemple, dans une étude non incluse dans cette thèse, nous
avons contribué à montrer qu’une voix féminine positive pouvait perturber les capacités de
discrimination tactile des nouveau-nés prématurés (Lejeune et al., 2019), bien que moins
perturbant qu’un son considéré comme désagréable (le bruit d’une alarme) (Lejeune et al.,
2016). Ainsi, il pourrait être intéressant d’étudier les capacités de discrimination tactile avec
l’écoute simultanée d’une voix émotionnelle négative ou d’une voix familière telle que la voix
maternelle.
261
262
Conclusion
Dans cette thèse, nous avons investigué le développement des capacités de transfert
intermodal émotionnel. La première étape de ces recherches a consisté à étudier les capacités
de transfert intermodal émotionnel précoce chez des participants non verbaux, des bébés âgés
de 1 à 6 mois. Nous nous sommes ensuite intéressés à la nature du développement du transfert
intermodal émotionnel précoce chez des participants verbaux.
Chez les participants non verbaux, nos différentes études n’ont pas permis de mettre en
évidence une capacité de transfert de 1 à 4 mois (études 2 et 4). À partir de 4 mois, l’émergence
d’un transfert intermodal émotionnel semble être possible, mais de manière très limitée et
dépendante des stimuli présentés (préférence pour le visage congruent avec des stimuli
masculins et préférence pour le visage incongruent avec des stimuli féminins) (étude 3). À 6
mois, un transfert intermodal émotionnel semble également possible, mais uniquement avec la
voix de joie, avec une préférence pour le visage incongruent de colère, mais reste limité à la
condition 1 (études 1, 2 et 4). Jusqu’à 6 mois, les résultats obtenus uniquement dans des
conditions spécifiques pourraient également être révélateurs d’une discrimination influencée
par les propriétés des stimuli.
Chez les participants verbaux, à 5 ans, les résultats n’ont pas mis en évidence une
capacité de transfert intermodal émotionnel. Cependant, à partir de 8 ans, les résultats montrent
un transfert de la voix émotionnelle de joie, avec une préférence pour le visage congruent de
joie et à partir de 10 ans, les résultats montrent un transfert de la voix émotionnelle de colère,
avec une préférence pour le visage congruent de colère (étude 5). Ceci montre une capacité à
reconnaître l’émotion de manière amodale et à orienter spontanément l’attention des enfants
principalement vers l’expression faciale congruente avec la voix, et ce avec différents types de
stimuli. Ces résultats confirment que la capacité de transfert intermodal de l’information
émotionnelle est acquise dès 8 ans pour la joie et dès 10 ans pour la colère, démontrant une
reconnaissance intrinsèque véritable de l’émotion. Ainsi, cette tâche semble intéressante pour
évaluer la reconnaissance des émotions dans les populations atypiques, ayant de grandes
difficultés à comprendre les instructions verbales.
263
Références bibliographiques
Abrams, R. M., Gerhardt, K. J., & Peters, A. J. (1995). Transmission of sound and vibration to
the fetus. In J. -P, W. P. Fifer, N. A. Krasnegor, & W. P. Smotherman (Eds.), Fetal
development: A psychobiological perspective (pp. 315–330). Hillsdale, NJ, England:
Lawrence Erlbaum Associates, Inc.
Addyman, C., & Addyman, I. (2013). The science of baby laughter. Comedy Studies, 4(2), 143–
153. https://doi.org/10.1386/cost.4.2.143_1
Ainsworth, M. D. S., Blehar, M. C., Waters, E., & Wall, S. N. (2015). Patterns of Attachment:
A Psychological Study of the Strange Situation. Psychology Press.
Aldridge, M. A., Braga, E. S., Walton, G. E., & Bower, T. G. R. (1999). The intermodal
representation of speech in newborns. Developmental Science, 2(1), 42–46.
https://doi.org/10.1111/1467-7687.00052
Als, H., Tronick, E., Lester, B. M., & Brazelton, T. B. (1977). The Brazelton Neonatal
Behavioral Assessment Scale (BNBAS). Journal of Abnormal Child Psychology, 5(3),
215–229. https://doi.org/10.1007/BF00913693
Amso, D., Fitzgerald, M., Davidow, J., Gilhooly, T., & Tottenham, N. (2010). Visual
exploration strategies and the development of infants’ facial emotion discrimination.
Frontiers in Psychology, 1. https://doi.org/10.3389/fpsyg.2010.00180
Anderson, D. J., & Adolphs, R. (2014). A Framework for Studying Emotions across Species.
Cell, 157(1), 187–200. https://doi.org/10.1016/j.cell.2014.03.003
Bahrick, L. E., Lickliter, R., & Flom, R. (2004). Intersensory Redundancy Guides the
Development of Selective Attention, Perception, and Cognition in Infancy. Current
Directions in Psychological Science, 13(3), 99–102. https://doi.org/10.1111/j.0963-
7214.2004.00283.x
265
RÉFÉRENCES BIBLIOGRAPHIQUES
Bahrick, L. E., & Pickens, J. N. (1995). Infant Memory for Object Motion across a Period of
Three Months: Implications for a Four-Phase Attention Function. Journal of
Experimental Child Psychology, 59(3), 343–371.
https://doi.org/10.1006/jecp.1995.1017
Bänziger, T., Grandjean, D., & Scherer, K. R. (2009). Emotion recognition from expressions in
face, voice, and body: The Multimodal Emotion Recognition Test (MERT). Emotion,
9(5), 691. https://doi.org/10.1037/a0017088
Bänziger, T., Mortillaro, M., & Scherer, K. R. (2012). Introducing the Geneva Multimodal
expression corpus for experimental research on emotion perception. Emotion, 12(5),
1161–1179. https://doi.org/10.1037/a0025827
Barr, R. G. (2010). Les pleurs et leur importance pour le développement psychosocial des
enfants. Devenir, 22(2), 163–174.
Barrera, M. E., & Maurer, D. (1981). Recognition of mother’s photographed face by the three-
month-old infant. Child Development, 52(2), 714–716. https://doi.org/10.2307/1129196
Barthassat, J., & Gentaz, É. (2013). Le développement de l’empathie au cours de l’enfance: le
point de vue psychologique. Médecine et Enfance, Décembre, 356–359.
Baudouin, J.-Y., Durand, K., Soussignan, R., & Schaal, B. (2016). Exploration oculaire du
visage et expression faciale au cours de la première année de la vie chez le jeune enfant :
Une approche qualitative du développement cognitif et social. ANAE - Approche
Neuropsychologique Des Apprentissages Chez L’enfant, 28(142).
discrimination by infants in the first year of life. L’Année Psychologique, 114(03), 469–
500. https://doi.org/10.4074/S0003503314003030
266
Bayet, L., Quinn, P. C., Laboissière, R., Caldara, R., Lee, K., & Pascalis, O. (2017). Fearful but
not happy expressions boost face detection in human infants. Proc. R. Soc. B., 284,
20171054. http://dx.doi.org/10.1098/rspb.2017.1054
Bayet, L., Quinn, P. C., Tanaka, J. W., Lee, K., Gentaz, É., & Pascalis, O. (2015). Face gender
influences the looking preference for smiling expressions in 3.5-month-old human
Infants. PLoS ONE, 10(6), e0129812. https://doi.org/10.1371/journal.pone.0129812
Beaudry, O., Roy-Charland, A., Perron, M., Cormier, I., & Tapp, R. (2014). Featural processing
in recognition of emotional facial expressions. Cognition and Emotion, 28(3), 416–432.
https://doi.org/10.1080/02699931.2013.833500
Belin, P., Fillion-Bilodeau, S., & Gosselin, F. (2008). The montreal affective voices: a validated
set of nonverbal affect bursts for research on auditory affective processing. Behavior
Research Methods, 40(2), 531–539. https://doi.org/10.3758/BRM.40.2.531
Bennett, D. S., Bendersky, M., & Lewis, M. (2002). Facial Expressivity at 4 Months: A Context
by Expression Analysis. Infancy, 3(1), 97–113.
https://doi.org/10.1207/S15327078IN0301_5
Bloom, L., & Beckwith, R. (1989). Talking with Feeling: Integrating Affective and Linguistic
Expression in Early Language Development. Cognition and Emotion, 3(4), 313–342.
https://doi.org/10.1080/02699938908412711
Bornstein, M. H., & Arterberry, M. E. (2003). Recognition, discrimination and categorization
of smiling by 5-month-old infants. Developmental Science, 6(5), 585–599.
https://doi.org/10.1111/1467-7687.00314
Bornstein, M. H., Arterberry, M. E., Mash, C., & Manian, N. (2011). Discrimination of facial
expression by 5-month-old infants of nondepressed and clinically depressed mothers.
Infant Behavior and Development, 34(1), 100–106.
267
Boyatzis, C. J., Chazan, E., & Ting, C. Z. (1993). Preschool Children’s Decoding of Facial
Emotions. The Journal of Genetic Psychology, 154(3), 375–382.
https://doi.org/10.1080/00221325.1993.10532190
Bradley, M. M., & Lang, P. J. (2000). Affective reactions to acoustic stimuli. Psychophysiology,
37(2), 204–215.
Bremner, A. J., Lewkowicz, D. J., & Spence, C. (2012). Multisensory Development. OUP
Oxford.
Bretherton, I., Fritz, J., Zahn-Waxler, C., & Ridgeway, D. (1986). Learning to Talk about
Emotions: A Functionalist Perspective. Child Development, 57(3), 529–548.
https://doi.org/10.2307/1130334
Bushneil, I. W. R., Sai, F., & Mullin, J. T. (1989). Neonatal recognition of the mother’s face.
British Journal of Developmental Psychology, 7(1), 3–15.
https://doi.org/10.1111/j.2044-835X.1989.tb00784.x
Bushnell, I. w. r. (2001). Mother’s face recognition in newborn infants: Learning and memory.
Infant and Child Development, 10(1–2), 67–74. https://doi.org/10.1002/icd.248
Calder, A. J., Young, A. W., Keane, J., & Dean, M. (2000). Configural information in facial
expression perception. Journal of Experimental Psychology. Human Perception and
Performance, 26(2), 527–551.
Campos, J. J. (1983). The Importance of Affective Communication in Social Referencing: A
Commentary on Feinman. Merrill-Palmer Quarterly, 29(1), 83–87.
Camras, L. A., & Allison, K. (1985). Children’s understanding of emotional facial expressions
and verbal labels. Journal of Nonverbal Behavior, 9(2), 84–94.
https://doi.org/10.1007/BF00987140
Cannon, W. B. (1929). Bodily changes in pain, hunger, fear and rage. Oxford, England:
Appleton.
268
https://doi.org/10.2307/1130560
Caron, R. F., Caron, A. J., & Myers, R. S. (1982). Abstraction of invariant face expressions in
infancy. Child Development, 53(4), 1008–1015. https://doi.org/10.2307/1129141
Caron, R. F., Caron, A. J., & Myers, R. S. (1985). Do infants see emotional expressions in static
faces? Child Development, 56(6), 1552–1560.
Cernoch, J. M., & Porter, R. H. (1985). Recognition of Maternal Axillary Odors by Infants.
Child Development, 56(6), 1593–1598. https://doi.org/10.2307/1130478
Cheng, Y., Lee, S.-Y., Chen, H.-Y., Wang, P.-Y., & Decety, J. (2012). Voice and Emotion
Processing in the Human Neonatal Brain. Journal of Cognitive Neuroscience, 24(6),
1411–1419. https://doi.org/10.1162/jocn_a_00214
Chronaki, G., Hadwin, J. A., Garner, M., Maurage, P., & Sonuga‐Barke, E. J. S. (2015). The
development of emotion recognition from facial expressions and non-linguistic
vocalizations during childhood. British Journal of Developmental Psychology, 33(2),
218–236. https://doi.org/10.1111/bjdp.12075
Cloutier, R., Gosselin, P., & Tap, P. (2004). Psychologie de l’enfant. Gaëtan Morin éditeur.
Cohen, L. B. (1972). Attention-Getting and Attention-Holding Processes of Infant Visual
Preferences. Child Development, 43(3), 869–879. https://doi.org/10.2307/1127638
Cohn, J. F., Campbell, S. B., Matias, R., & Hopkins, J. (1990). Face-to-face interactions of
postpartum depressed and nondepressed mother-infant pairs at 2 months.
Developmental Psychology, 26(1), 15. https://doi.org/10.1037/0012-1649.26.1.15
Colombo, J., & Mitchell, D. W. (2009). Infant visual habituation. Neurobiology of Learning
and Memory, 92(2), 225–234. https://doi.org/10.1016/j.nlm.2008.06.002
269
Coppin, G., & Sander, D. (2010). Théories et concepts contemporains en psychologie de
l’émotion. 25–56.
Damon, F. (2015). Développement des préférences pour la familiarité chez le nourrisson
(Phdthesis, Université Grenoble Alpes). Retrieved from https://tel.archives-
ouvertes.fr/tel-01310275/document
Darwin, C. (1872). The Expression of the Emotions in Man and Animals. Impression
anastalitique Culture et Civilisation.
Darwin, C. (1877). A biographical sketch of an infant. In Mind. A Quarterly Review of
Psychology and Philosophy. (Vol. 7, pp. 285–294).
De Gelder, B., & Van den Stock, J. (2011). The bodily expressive action stimulus test (BEAST).
Construction and validation of a stimulus basis for measuring perception of whole body
expression of emotions. Emotion Science, 2, 181.
https://doi.org/10.3389/fpsyg.2011.00181
De Waal, F. (2018). La dernière étreinte: Le monde fabuleux des émotions animales... et ce
qu’il révèle de nous. les liens qui libèrent.
de Wit, T. C. J., Falck-Ytter, T., & von Hofsten, C. (2008). Young children with Autism
Spectrum Disorder look differently at positive versus negative emotional faces.
Research in Autism Spectrum Disorders, 2(4), 651–659.
https://doi.org/10.1016/j.rasd.2008.01.004
DeCasper, A. J., & Fifer, W. P. (1980). Of human bonding: newborns prefer their mothers’
voice. Science, 208(4448), 1174–1176. https://doi.org/doi:10.1126/science.7375928
Denham, S. A. (2005). Assessing social-emotional development in children from a longitudinal
perspective for the National Children’s Study. Prepared for the National Children’s
Study by Bettelle Memorial Institute, pp. 282–298.
270
D’Entremont, B., & Muir, D. W. (1997). Five-months-olds’ attention and affective responses
to still-faced emotional expressions. Infant Behavior and Development, 20(4), 563–568.
https://doi.org/10.1016/S0163-6383(97)90047-3
Dezecache, G., Mercier, H., & Scott-Phillips, T. C. (2013). An evolutionary approach to
emotional communication. Journal of Pragmatics, 59, Part B, 221–233.
https://doi.org/10.1016/j.pragma.2013.06.007
Dollion, N., Godard, O., Durand, K., Schaal, B., & Baudouin, J.-Y. (2014). I’ve got your nose,
I know how you feel: odor effects on the visual processing of faces in 7 month-old
infants. Chemical Senses, 40(3), 241.
Dols, J. M. F., & Russell, J. A. (Eds.). (2017). The Science of Facial Expression. Oxford, New
York: Oxford University Press.
Dondi, M., Simion, F., & Caltran, G. (1999). Can newborns discriminate between their own cry
and the cry of another newborn infant? Developmental Psychology, 35(2), 418–426.
Duchenne de Boulogne, G. (1862). Mécanisme de la physionomie humaine, ou analyse
électrophysiologique de l’expression des passions, applicable à la pratique des arts
plastiques. Paris: Vve J. Renouard.
Durand, K., Gallay, M., Seigneuric, A., Robichon, F., & Baudouin, J.-Y. (2007). The
development of facial emotion recognition: The role of configural information. Journal
of Experimental Child Psychology, 97(1), 14–27.
Eckmann Levy, N., Regusci-Theurillat, A., & Gentaz, E. (2014). La peur du noir chez les
enfants. Médecine & enfance, 34(6), 195–196.
Eisenbarth, H., & Alpers, G. W. (2011). Happy mouth and sad eyes: Scanning emotional facial
expressions. Emotion, 11(4), 860–865. https://doi.org/10.1037/a0022758
271
Eisenberg, N., & Fabes, R. A. (1992). Emotion, regulation, and the development of social
competence. In Review of Personality and Social Psychology, Vol. 14. Emotion and
social behavior (pp. 119–150). Thousand Oaks, CA, US: Sage Publications, Inc.
Ekman, P. (1973). Cross-cultural studies of facial expression. In Darwin and Facial
Expression: A Century of Research in Review (Vol. 169222). ISHK.
Ekman, P. (1992a). An argument for basic emotions. Cognition and Emotion, 6(3–4), 169–200.
https://doi.org/10.1080/02699939208411068
Ekman, P. (1992b). Are there basic emotions? Psychological Review, 99(3), 550–553.
https://doi.org/10.1037/0033-295X.99.3.550
Ekman, P., Friesen, W. V., & Hager, J. C. (1978a). Ekman, P., Friesen, W. V., & Hager, J. C.
(1978). Facial action coding system (FACS). A Technique for the Measurement of
Facial Action. Consulting, Palo Alto, 22.
Ekman, P., Friesen, W. V., & Hager, J. C. (1978b). Facial action coding system (FACS). A
Technique for the Measurement of Facial Action. Consulting, Palo Alto, 22.
Ekman, P., Sorenson, E. R., & Friesen, W. V. (1969). Pan-Cultural Elements in Facial Displays
of Emotion. Science, 164(3875), 86–88.
Ellis, H. D., Shepherd, J. W., & Davies, G. M. (1979). Identification of Familiar and Unfamiliar
Faces from Internal and External Features: Some Implications for Theories of Face
Recognition. Perception, 8(4), 431–439. https://doi.org/10.1068/p080431
Fantz, R. L. (1961). The origin of form perception. Scientific American, 204(5), 66–72.
https://doi.org/10.1038/scientificamerican0561-66
Fantz, R. L. (1963). Pattern Vision in Newborn Infants. Science, 140(3564), 296–297.
Fantz, R. L. (1964). Visual Experience in Infants: Decreased Attention to Familiar Patterns
Relative to Novel Ones. Science, 146(3644), 668–670.
272
Farroni, T., Menon, E., Rigato, S., & Johnson, M. H. (2007). The perception of facial
expressions in newborns. European Journal of Developmental Psychology, 4(1), 2–13.
https://doi.org/10.1080/17405620601046832
Fehr, B., & Russell, J. A. (1984). Concept of emotion viewed from a prototype perspective.
Journal of Experimental Psychology: General, 113(3), 464–486.
https://doi.org/10.1037/0096-3445.113.3.464
Feinman, S. (1982). Social Referencing in Infancy. Merrill-Palmer Quarterly, 28(4), 445–470.
Feinman, S., & Lewis, M. (1983). Social Referencing at Ten Months: A Second-Order Effect
on Infants’ Responses to Strangers. Child Development, 54(4), 878–887.
https://doi.org/10.2307/1129892
Feinman, S., Roberts, D., Hsieh, K.-F., Sawyer, D., & Swanson, D. (1992). A Critical Review
of Social Referencing in Infancy. In S. Feinman (Ed.), Social Referencing and the Social
Construction of Reality in Infancy (pp. 15–54). https://doi.org/10.1007/978-1-4899-
2462-9_2
Féron, J., Gentaz, E., & Streri, A. (2006). Evidence of amodal representation of small numbers
across visuo-tactile modalities in 5-month-old infants. Cognitive Development, 21(2),
81–92. https://doi.org/10.1016/j.cogdev.2006.01.005
Field, T. M., Cohen, D., Garcia, R., & Greenberg, R. (1984). Mother-stranger face
discrimination by the newborn. Infant Behavior and Development, 7(1), 19–25.
https://doi.org/10.1016/S0163-6383(84)80019-3
Field, T. M., Pickens, J., Fox, N. A., Gonzalez, J., & Nawrocki, T. (1998). Facial expression
and EEG responses to happy and sad faces/voices by 3-month-old infants of depressed
mothers. British Journal of Developmental Psychology, 16(4), 485–494.
https://doi.org/10.1111/j.2044-835X.1998.tb00766.x
273
Field, T. M., Woodson, R., Greenberg, R., & Cohen, D. (1982). Discrimination and imitation
of facial expressions by neonates. Science, 218(4568), 179–181.
Fiorentini, C., & Viviani, P. (2011). Is there a dynamic advantage for facial expressions?
Journal of Vision, 11(3), 17–17. https://doi.org/10.1167/11.3.17
Flom, R., & Bahrick, L. E. (2007). The development of infant discrimination of affect in
multimodal and unimodal stimulation: The role of intersensory redundancy.
1649.43.1.238
Flom, R., Bahrick, L. E., & Pick, A. D. (2018). Infants Discriminate the Affective Expressions
of their Peers: The Roles of Age and Familiarization Time. Infancy, 23(5), 692–707.
https://doi.org/10.1111/infa.12246
Friard, O., & Gamba, M. (2016). BORIS: A free, versatile open-source event-logging software
for video/audio coding and live observations. Methods in Ecology and Evolution, 7(11),
1325–1330. https://doi.org/10.1111/2041-210X.12584
Gagnon, M., Gosselin, P., & Maassarani, R. (2014). Children’s Ability to Recognize Emotions
From Partial and Complete Facial Expressions. The Journal of Genetic Psychology,
175(5), 416–430. https://doi.org/10.1080/00221325.2014.941322
Galati, D., Miceli, R., & Sini, B. (2001). Judging and coding facial expression of emotions in
congenitally blind children. International Journal of Behavioral Development, 25(3),
268–278. https://doi.org/10.1080/01650250042000393
Gallay, M., Baudouin, J.-Y., Durand, K., Lemoine, C., & Lécuyer, R. (2006). Qualitative
Differences in the Exploration of Upright and Upside-Down Faces in Four-Month-Old
Infants: An Eye-Movement Study. Child Development, 77(4), 984–996.
https://doi.org/10.1111/j.1467-8624.2006.00914.x
274
Ge, L., Anzures, G., Wang, Z., Kelly, D. J., Pascalis, O., Quinn, P. C., … Lee, K. (2008). An
inner face advantage in children’s recognition of familiar peers. Journal of
Experimental Child Psychology, 101(2), 124–136.
Geangu, E., Benga, O., Stahl, D., & Striano, T. (2010). Contagious crying beyond the first days
of life. Infant Behavior and Development, 33(3), 279–288.
Gibson, E. J. (1969). Gibson, E. J. (1969). Principles of perceptual learning and development.
Gibson, E. J., & Walk, R. D. (1960). The “visual cliff.” Scientific American, 202(4), 64–71.
https://doi.org/10.1038/scientificamerican0460-64
Gnepp, J., & Hess, D. L. (1986). Children’s understanding of verbal and facial display rules.
1649.22.1.103
Godard, O., Baudouin, J.-Y., Schaal, B., & Durand, K. (2016). Affective matching of odors and
facial expressions in infants: Shifting patterns between 3 and 7 months. Developmental
Science, 19(1), 155–163. https://doi.org/10.1111/desc.12292
Goleman, D. (1998). Working with emotional intelligence. Bantam.
Goren, C. C., Sarty, M., & Wu, P. Y. (1975). Visual Following and Pattern Discrimination of
Face-like Stimuli by Newborn Infants. Pediatrics, 56(4), 544–549.
Gosselin, P. (1995). Le développement de la reconnaissance des expressions faciales des
émotions chez l’enfant. [The development of the recognition of emotional facial
expressions in children.]. Canadian Journal of Behavioural Science / Revue
Canadienne Des Sciences Du Comportement, 27(1), 107–119.
https://doi.org/10.1037/008-400X.27.1.107
275
Groner, R., Walder, F., & Groner, M. (1984). Looking at Faces: Local and Global Aspects of
Scanpaths. In A. G. Gale & F. Johnson (Eds.), Advances in Psychology (pp. 523–533).
https://doi.org/10.1016/S0166-4115(08)61874-9
Gross, J. J. (1999). Emotion Regulation: Past, Present, Future. Cognition & Emotion, 13(5),
551–573.
Grossman, T., Striano, T., & Friederici, A. D. (2005). Infants’ electric brain responses to
emotional prosody. NeuroReport, 16(16), 1825–1828.
https://doi.org/10.1097/01.wnr.0000185964.34336.b1.
Grossmann, T., & Friederici, A. D. (2012). When during development do our brains get tuned
to the human voice? Social Neuroscience, 7(4), 369–372.
https://doi.org/10.1080/17470919.2011.628758
Grossmann, T., & Jessen, S. (2017). When in infancy does the “fear bias” develop? Journal of
Experimental Child Psychology, 153, 149–154.
Grossmann, T., Oberecker, R., Koch, S. P., & Friederici, A. D. (2010). The Developmental
Origins of Voice Processing in the Human Brain. Neuron, 65(6), 852–858.
https://doi.org/10.1016/j.neuron.2010.03.001
Grossmann, T., Striano, T., & Friederici, A. D. (2006). Crossmodal integration of emotional
information from face and voice in the infant brain. Developmental Science, 9(3), 309–
315. https://doi.org/10.1111/j.1467-7687.2006.00494.x
Guellaï, B., Coulon, M., & Streri, A. (2011). The role of motion and speech in face recognition
at birth. Visual Cognition, 19(9), 1212–1233.
https://doi.org/10.1080/13506285.2011.620578
Hatwell, Y., Streri, A., & Gentaz, E. (2003). Touching for knowing: cognitive psychology of
haptic manual perception. John Benjamins Publishing.
276
Haviland, J. M., & Lelwica, M. (1987). The induced affect response: 10-week-old infants’
responses to three emotion expressions. Developmental Psychology, 23(1), 97–104.
https://doi.org/10.1037/0012-1649.23.1.97
Heck, A., Hock, A., White, H., Jubran, R., & Bhatt, R. S. (2016). The development of attention
to dynamic facial emotions. Journal of Experimental Child Psychology, 147, 100–110.
Hepach, R., & Westermann, G. (2013). Infants’ sensitivity to the congruence of others’
emotions and actions. Journal of Experimental Child Psychology, 115(1), 16–29.
Hepper, P. G. (1991). An Examination of Fetal Learning Before and After Birth. The Irish
Journal of Psychology, 12(2), 95–107.
https://doi.org/10.1080/03033910.1991.10557830
Hernandez, N., Metzger, A., Magné, R., Bonnet-Brilhault, F., Roux, S., Barthelemy, C., &
Martineau, J. (2009). Exploration of core features of a human face by healthy and
autistic adults analyzed by visual scanning. Neuropsychologia, 47(4), 1004–1012.
https://doi.org/10.1016/j.neuropsychologia.2008.10.023
Hessels, R. S., Andersson, R., Hooge, I. T. C., Nyström, M., & Kemner, C. (2015).
Consequences of Eye Color, Positioning, and Head Movement for Eye-Tracking Data
Quality in Infant Research. Infancy, 20(6), 601–633. https://doi.org/10.1111/infa.12093
Hoicka, E. (2016). Understanding of humorous intentions : a developmental approach. In L.
Ruiz-Gurillo, Metapragmatics of Humor: Current research trends (Vol. 14, pp. 257–
273). John Benjamins Publishing Company.
Hopkins, B., & van Wulfften Palthe, T. (1985). Staring in infancy. Early Human Development,
12(3), 261–267.
277
Hunnius, S., & Geuze, R. H. (2004). Developmental Changes in Visual Scanning of Dynamic
Faces and Abstract Stimuli in Infants: A Longitudinal Study. Infancy, 6(2), 231–255.
https://doi.org/10.1207/s15327078in0602_5
Hunnius, S., Wit, T. C. J. de, Vrins, S., & Hofsten, C. von. (2011). Facing threat: Infants’ and
adults’ visual scanning of faces with neutral, happy, sad, angry, and fearful emotional
expressions. Cognition and Emotion, 25(2), 193–205.
https://doi.org/10.1080/15298861003771189
Iacobucci, D. (2001). Analysis of Variance. Journal of Consumer Psychology’s Special Issue
on Methodological and Statistical Concerns of the Experimental Behavioral
Researcher, 10(1&2), 5–35.
Izard, C. E., Fantauzzo, C. A., Castle, J. M., Haynes, O. M., Rayias, M. F., & Putnam, P. H.
(1995). The ontogeny and significance of infants’ facial expressions in the first 9 months
of life. Developmental Psychology, 31(6), 997–1013. https://doi.org/10.1037/0012-
1649.31.6.997
Izard, C. E., & King, K. A. (2009). Differential emotions theory. In D. Sander & K. R. Scherer,
Oxford Companion to Emotion and the Affective Sciences (Oxford University Press.).
Izard, V., Sann, C., Spelke, E. S., & Streri, A. (2009). Newborn infants perceive abstract
numbers. Proceedings of the National Academy of Sciences, 106(25), 10382–10385.
https://doi.org/10.1073/pnas.0812142106
Jack, R. E. (2013). Culture and facial expressions of emotion. Visual Cognition, 21(9–10),
1248–1286. https://doi.org/10.1080/13506285.2013.835367
Jack, R. E., Garrod, O. G. B., Yu, H., Caldara, R., & Schyns, P. G. (2012). Facial expressions
of emotion are not culturally universal. Proceedings of the National Academy of
Sciences of the United States of America, 109(19), 7241–7244.
278
James, W. (1884). What is an emotion? Mind, os-IX(34), 188–205.
https://doi.org/10.1093/mind/os-IX.34.188
Johnson, M. H., Dziurawiec, S., Ellis, H., & Morton, J. (1991). Newborns’ preferential tracking
of face-like stimuli and its subsequent decline. Cognition, 40(1–2), 1–19.
https://doi.org/10.1016/0010-0277(91)90045-6
Kahana-Kalman, R., & Walker-Andrews, A. S. (2001). The Role of Person Familiarity in
Young Infants’ Perception of Emotional Expressions. Child Development, 72(2), 352–
369.
Kaitz, M., Meschulach-Sarfaty, O., Auerbach, J., & Eidelman, A. (1988). A reexamination of
newborns’ ability to imitate facial expressions. Developmental Psychology, 24(1), 3–7.
https://doi.org/10.1037/0012-1649.24.1.3
Karmiloff-Smith, B. A. (1994). Beyond Modularity: A Developmental Perspective on
Cognitive Science. European Journal of Disorders of Communication, 29(1), 95–105.
https://doi.org/10.3109/13682829409041485
Kelly, D. J., Quinn, P. C., Slater, A. M., Lee, K., Ge, L., & Pascalis, O. (2007). The Other-Race
Effect Develops During Infancy Evidence of Perceptual Narrowing. Psychological
Science, 18(12), 1084–1089. https://doi.org/10.1111/j.1467-9280.2007.02029.x
Kelly, D. J., Quinn, P. C., Slater, A. M., Lee, K., Gibson, A., Smith, M., … Pascalis, O. (2005).
Three-month-olds, but not newborns, prefer own-race faces. Developmental Science,
8(6), F31–F36. https://doi.org/10.1111/j.1467-7687.2005.0434a.x
Klasen, M., Kenworthy, C. A., Mathiak, K. A., Kircher, T. T. J., & Mathiak, K. (2011).
Supramodal Representation of Emotions. Journal of Neuroscience, 31(38), 13635–
13643. https://doi.org/10.1523/JNEUROSCI.2833-11.2011
279
Kleinginna, P. R., & Kleinginna, A. M. (1981). A categorized list of emotion definitions, with
suggestions for a consensual definition. Motivation and Emotion, 5(4), 345–379.
https://doi.org/10.1007/BF00992553
Klinnert, M. D. (1984). The regulation of infant behavior by maternal facial expression. Infant
Behavior and Development, 7(4), 447–465. https://doi.org/10.1016/S0163-
6383(84)80005-3
Klinnert, M. D., Emde, R. N., Butterfield, P., & Campos, J. J. (1986). Social referencing: The
infant’s use of emotional signals from a friendly adult with mother present.
Kobayashi, T., Hiraki, K., Mugitani, R., & Hasegawa, T. (2004). Baby arithmetic: One object
plus one tone. Cognition, 91(2), B23–B34.
Kopp, C. B. (1989). Regulation of distress and negative emotions: A developmental view.
1649.25.3.343
Kotsoni, E., Haan, M. de, & Johnson, M. H. (2001). Categorical perception of facial expressions
by 7-month-old infants. Perception, 30(9), 1115 – 1125. https://doi.org/10.1068/p3155
Kuchuk, A., Vibbert, M., & Bornstein, M. H. (1986). The Perception of Smiling and Its
Experiential Correlates in Three-Month-Old Infants. Child Development, 57(4), 1054–
1061. https://doi.org/10.2307/1130379
Kuhl, P. K., & Meltzoff, A. N. (1982). The bimodal perception of speech in infancy. Science
(New York, N.Y.), 218(4577), 1138–1141.
Kuhl, Patricia K., & Meltzoff, A. N. (1984). The Intermodal Representation of Speech in
Infants. Infant Behavior and Development, 7(3), 361–381.
https://doi.org/10.1016/S0163-6383(84)80050-8
280
LaBarbera, J. D., Izard, C. E., Vietze, P., & Parisi, S. A. (1976). Four- and Six-Month-Old
Infants’ Visual Responses to Joy, Anger, and Neutral Expressions. Child Development,
47(2), 535–538. https://doi.org/10.2307/1128816
Lange, C. G. (1885). The mechanism of the emotions. The Classical Psychologists, 672–684.
Largo, R. H., Pfister, D., Molinari, L., Kundu, S., Lipp, A., & Due, G. (1989). Significance of
prenatal, perinatal and postnatal factors in the development of AGA Preterm Infants at
Five to Seven Years. Developmental Medicine & Child Neurology, 31(4), 440–456.
Lecanuet, J.-P., & Schaal, B. (2002). Sensory performances in the human foetus : A brief
summary of research. Intellectica, 34(1), 29–56.
https://doi.org/10.3406/intel.2002.1072
Lécuyer, R. (2014). La construction des premières connaissances. Paris: Dunod.
Lee, G. Y., & Kisilevsky, B. S. (2014). Fetuses respond to father’s voice but prefer mother’s
voice after birth. Developmental Psychobiology, 56(1), 1–11.
https://doi.org/10.1002/dev.21084
Lejeune, F., Brand, L.-A., Palama, A., Parra, J., Marcus, L., Barisnikov, K., … Berne‐Audéoud,
F. (2019). Preterm infant showed better object handling skills in a neonatal intensive
care unit during silence than with a recorded female voice. Acta Paediatrica, 108(3),
460–467. https://doi.org/10.1111/apa.14552
Lejeune, F., Parra, J., Berne-Audéoud, F., Marcus, L., Barisnikov, K., Gentaz, E., & Debillon,
T. (2016). Sound Interferes with the Early Tactile Manual Abilities of Preterm Infants.
Scientific Reports, 6. https://doi.org/10.1038/srep23329
Leleu, A., Rekow, D., Poncet, F., Schaal, B., Durand, K., Rossion, B., & Baudouin, J.-Y.
(2019). Maternal odor shapes rapid face categorization in the infant brain.
Developmental Science, e12877. https://doi.org/10.1111/desc.12877
281
Lemerise, E. A., & Arsenio, W. F. (2000). An Integrated Model of Emotion Processes and
Cognition in Social Information Processing. Child Development, 71(1), 107–118.
https://doi.org/10.1111/1467-8624.00124
Leppänen, J. M., & Nelson, C. A. (2009). Tuning the developing brain to social signals of
emotions. Nature Reviews Neuroscience, 10(1), 37–47. https://doi.org/10.1038/nrn2554
Leppänen, J., Peltola, M. J., Mäntymaa, M., Koivuluoma, M., Salminen, A., & Puura, K.
(2010). Cardiac and behavioral evidence for emotional influences on attention in 7-
month-old infants. International Journal of Behavioral Development, 34(6), 547–553.
https://doi.org/10.1177/0165025410365804
Lewis, M. (2008). The Emergence of Human Emotions. In Handbook of Emotions (Vol. 3, pp.
265–280). Guilford Press.
Lewkowicz, D. J. (2000). The development of intersensory temporal perception: An epigenetic
systems/limitations view. Psychological Bulletin, 126(2), 281–308.
https://doi.org/10.1037/0033-2909.126.2.281
Liu, S., Xiao, W. S., Xiao, N. G., Quinn, P. C., Zhang, Y., Chen, H., … Lee, K. (2015).
Development of visual preference for own- versus other-race faces in infancy.
Developmental Psychology, 51(4), 500–511. https://doi.org/10.1037/a0038835
Ludemann, P. M. (1991). Generalized discrimination of positive facial expressions by seven-
and ten-month-old infants. Child Development, 62(1), 55–67.
Ludemann, P. M., & Nelson, C. A. (1988). Categorical representation of facial expressions by
7-month-old infants. Developmental Psychology, 24(4), 492–501.
https://doi.org/10.1037/0012-1649.24.4.492
282
Luminet, O. (2013). Psychologie des émotions : Nouvelles perspectives pour la cognition, la
personnalité et la santé. Retrieved from
https://dial.uclouvain.be/pr/boreal/object/boreal:137735
Macchi, C. V., Turati, C., & Simion, F. (2004). Can a Nonspecific Bias Toward Top-Heavy
Patterns Explain Newborns’ Face Preference? Psychological Science, 15(6), 379–383.
https://doi.org/10.1111/j.0956-7976.2004.00688.x
Mastropieri, D., & Turkewitz, G. (1999). Prenatal experience and neonatal responsiveness to
vocal expressions of emotion. Developmental Psychobiology, 35(3), 204–214.
https://doi.org/10.1002/(SICI)1098-2302(199911)35:3<204::AID-DEV5>3.0.CO;2-V
Matsumoto, D., & Ekman, P. (2009). Basic emotions. Oxford Companion to Affective Sciences,
69–72.
Maurer, D. (1983). The scanning of compound figures by young infants. Journal of
Experimental Child Psychology, 35(3), 437–448. https://doi.org/10.1016/0022-
0965(83)90019-X
Mehrabian, A. (1996). Analysis of the Big-five Personality Factors in Terms of the PAD
Temperament Model. Australian Journal of Psychology, 48(2), 86–92.
https://doi.org/10.1080/00049539608259510
Meltzoff, A. N., & Borton, R. W. (1979). Intermodal matching by human neonates Meltzoff, A.
N., & Borton, R. W. (1979). Intermodal matching by human neonates. Retrieved from
http://www.nature.com/nature/journal/v282/n5737/abs/282403a0.html
Meltzoff, A. N., & Moore, M. K. (1977). Imitation of Facial and Manual Gestures by Human
Neonates. Science, 198(4312), 75–78.
283
Mikolajczak, M., & Luminet, O. (2008). Trait emotional intelligence and the cognitive
appraisal of stressful events: An exploratory study. Personality and Individual
Differences, 44(7), 1445–1453. https://doi.org/10.1016/j.paid.2007.12.012
Mikolajczak, M., Quoidbach, J., Kotsou, I., & Nelis, D. (2009). Les compétences émotionnelles.
Dunod.
Missana, M., Altvater-Mackensen, N., & Grossmann, T. (2017). Neural correlates of infants’
sensitivity to vocal expressions of peers. Developmental Cognitive Neuroscience, 26,
39–44. https://doi.org/10.1016/j.dcn.2017.04.003
Mix, K. S., Levine, S. C., & Huttenlocher, J. (1997). Numerical abstraction in infants: Another
look. Developmental Psychology, 33(3), 423–428. https://doi.org/10.1037/0012-
1649.33.3.423
Mondloch, C. J., Lewis, T. L., Budreau, D. R., Maurer, D., Dannemiller, J. L., Stephens, B. R.,
& Kleiner-Gathercoal, K. A. (1999). Face Perception During Early Infancy.
Psychological Science, 10(5), 419–422. https://doi.org/10.1111/1467-9280.00179
Montague, D. P. F., & Walker-Andrews, A. S. (2001). Peekaboo: A new look at infants’
perception of emotion expressions. Developmental Psychology, 37(6), 826.
https://doi.org/10.1037/0012-1649.37.6.826
Montague, D. P. F., & Walker-Andrews, A. S. (2002). Mothers, fathers, and infants: the Role
of person familiarity and parental involvement in infants’ perception of emotion
expressions. Child Development, 73(5), 1339–1352.
Moon, C., Cooper, R. P., & Fifer, W. P. (1993). Two-day-olds prefer their native language.
Infant Behavior and Development, 16(4), 495–500. https://doi.org/10.1016/0163-
6383(93)80007-U
Moore, D., Benenson, J., Steven, J., Peterson, M., & Kagan, J. (1987). Effect of auditory
numerical information on infants’ looking behavior: Contradictory evidence.
284
1649.23.5.665
Munakata, Y., Casey, B. J., & Diamond, A. (2004). Developmental cognitive neuroscience:
Progress and potential. Trends in Cognitive Sciences, 8(3), 122–128.
https://doi.org/10.1016/j.tics.2004.01.005
Myers, D. G., & DeWall, C. N. (2016). Psychology in Everyday Life (Fourth edition). New
York: Worth Publishers.
Nadel, J., & Muir, D. (2005). Emotional Development: Recent Research Advances. Oxford
University Press.
https://doi.org/10.2307/1130530
Nelson, C. A., & Dolgin, K. G. (1985). The generalized discrimination of facial expressions by
seven-month-old infants. Child Development, 56(1), 58–61.
https://doi.org/10.2307/1130173
Nelson, N. L., & Russell, J. A. (2011). Preschoolers’ use of dynamic facial, bodily, and vocal
cues to emotion. Journal of Experimental Child Psychology, 110(1), 52–61.
Niedenthal, P. M. (2007). Embodying Emotion. Science, 316(5827), 1002–1005.
https://doi.org/10.1126/science.1136930
Niedenthal, P. M., & Ric, F. (2017). Psychology of Emotion.
https://doi.org/10.4324/9781315276229
Niedenthal, P. M., Winkielman, P., Mondillon, L., & Vermeulen, N. (2009). Embodiment of
emotion concepts. Journal of Personality and Social Psychology, 96(6), 1120–1136.
https://doi.org/10.1037/a0015574
285
Oostenbroek, J., Suddendorf, T., Nielsen, M., Redshaw, J., Kennedy-Costantini, S., Davis, J.,
… Slaughter, V. (2016). Comprehensive Longitudinal Study Challenges the Existence
of Neonatal Imitation in Humans. Current Biology, 26(10), 1334–1338.
Ortony, A., & Turner, T. J. (1990). What’s basic about basic emotions? Psychological Review,
97(3), 315–331. https://doi.org/10.1037/0033-295X.97.3.315
Osgood, C. E. (1962). Studies on the generality of affective meaning systems. American
Psychologist, 17(1), 10–28. https://doi.org/10.1037/h0045146
Oster, H. (1981). Recognition of emotional expression in infancy. In Infant social cognition:
Empirical and theoretical considerations (pp. 85–125).
Oster, H. (2005). The repertoire of infant facial expressions: An ontogenetic perspective. In J.
Nadel & D. Muir, Emotional Development: Recent Research Advances (pp. 261–292).
Oxford University Press.
Oster, H. (2016). Baby FACS: Facial Action Coding System for infants and young children.
Unpublished Monograph and Coding Manual. New York University.
Otte, R. A., Donkers, F. C. L., Braeken, M. A. K. A., & Van den Bergh, B. R. H. (2015).
Multimodal processing of emotional information in 9-month-old infants I: Emotional
faces and voices. Brain and Cognition, 95, 99–106.
https://doi.org/10.1016/j.bandc.2014.09.007
Parker, J. D. A., Summerfeldt, L. J., Hogan, M. J., & Majeski, S. A. (2004). Emotional
intelligence and academic success: Examining the transition from high school to
university. Personality and Individual Differences, 36(1), 163–172.
https://doi.org/10.1016/S0191-8869(03)00076-X
286
Pascalis, O., & de Haan, M. (2003). Recognition memory and novelty preference: What model.
In H. Hayne & J. Fagen, Progress in Infancy Research (Vol. 3, pp. 95–120). Psychology
Press.
Pascalis, O., de Martin de Viviés, X., Anzures, G., Quinn, P. C., Slater, A. M., Tanaka, J. W.,
& Lee, K. (2011). Development of face processing. Wiley Interdisciplinary Reviews:
Cognitive Science, 2(6), 666–675. https://doi.org/10.1002/wcs.146
Pascalis, O., de Schonen, S., Morton, J., Deruelle, C., & Fabre-Grenet, M. (1995). Mother’s
face recognition by neonates: A replication and an extension. Infant Behavior and
Development, 18(1), 79–85. https://doi.org/10.1016/0163-6383(95)90009-8
Patterson, M. L., & Werker, J. F. (2003). Two-month-old infants match phonetic information
in lips and voice. Developmental Science, 6(2), 191–196. https://doi.org/10.1111/1467-
7687.00271
Paulmann, S., & Pell, M. D. (2010). Contextual influences of emotional speech prosody on face
processing: How much is enough? Cognitive, Affective, & Behavioral Neuroscience,
10(2), 230–242. https://doi.org/10.3758/CABN.10.2.230
Paulmann, S., Titone, D., & Pell, M. D. (2012). How emotional prosody guides your way:
Evidence from eye movements. Speech Communication, 54(1), 92–107.
https://doi.org/10.1016/j.specom.2011.07.004
Peltola, M. J., Leppänen, J. M., & Hietanen, J. K. (2011). Enhanced cardiac and attentional
responding to fearful faces in 7-month-old infants. Psychophysiology, 48(9), 1291–
1298. https://doi.org/10.1111/j.1469-8986.2011.01188.x
Peltola, M. J., Leppänen, J. M., Mäki, S., & Hietanen, J. K. (2009). Emergence of enhanced
attention to fearful faces between 5 and 7 months of age. Social Cognitive and Affective
Neuroscience, 4(2), 134–142. https://doi.org/10.1093/scan/nsn046
287
Peltola, M. J., Leppänen, J. M., Palokangas, T., & Hietanen, J. K. (2008). Fearful faces
modulate looking duration and attention disengagement in 7‐month‐old infants.
Developmental Science, 11(1), 60–68.
Peltola, M. J., Leppänen, J. M., Vogel-Farley, V. K., Hietanen, J. K., & Nelson, C. A. (2009).
Fearful faces but not fearful eyes alone delay attention disengagement in 7-month-old
infants. Emotion, 9(4), 560–565. https://doi.org/10.1037/a0015806
Pickens, J., & Field, T. M. (1994). Facial expressivity in infants of depressed mothers.
Pons, F., & Harris, P. (2000). Test of emotion comprehension: TEC.
Pons, F., & Harris, P. L. (2018). Children’s understanding of emotions or the “error” of Pascal.
In Handbook of Emotional Development. Manuscript under revision. (V. LoBue, K.
Perez-Edgar, K. Buss).
Pons, F., Harris, P. L., & Rosnay, M. de. (2004). Emotion comprehension between 3 and 11
years: Developmental periods and hierarchical organization. European Journal of
Developmental Psychology, 1(2), 127–152.
https://doi.org/10.1080/17405620344000022
Poon, J. M. L. (2004). Career commitment and career success: Moderating role of emotion
perception. Career Development International, 9(4), 374–390.
https://doi.org/10.1108/13620430410544337
Pourtois, G., Grandjean, D., Sander, D., & Vuilleumier, P. (2004). Electrophysiological
Correlates of Rapid Spatial Orienting Towards Fearful Faces. Cerebral Cortex, 14(6),
619–633. https://doi.org/10.1093/cercor/bhh023
Quinn, P. C., Uttley, L., Lee, K., Gibson, A., Smith, M., Slater, A. M., & Pascalis, O. (2008).
Infant preference for female faces occurs for same- but not other-race faces. Journal of
Neuropsychology, 2(1), 15–26. https://doi.org/10.1348/174866407X231029
288
Quinn, P. C., Yahr, J., Kuhn, A., Slater, A. M., & Pascalis, O. (2002). Representation of the
Gender of Human Faces by Infants: A Preference for Female. Perception, 31(9), 1109–
1121. https://doi.org/10.1068/p3331
Raag, T., Malphurs, J., Field, T. M., Pelaez-Nogueras, M., Martinez, A., Pickens, J., … Yando,
R. (1997). Moderately dysphoric mothers behave more positively with their infants after
completing the BDI. Infant Mental Health Journal, 18(4), 394–405.
https://doi.org/10.1002/(SICI)1097-0355(199724)18:4<394::AID-IMHJ6>3.0.CO;2-L
Ramsey-Rennels, J. L., & Langlois, J. H. (2006). Infants’ Differential Processing of Female
and Male Faces. Current Directions in Psychological Science, 15(2), 59–62.
https://doi.org/10.1111/j.0963-7214.2006.00407.x
Reissland, N., Francis, B., Mason, J., & Lincoln, K. (2011). Do Facial Expressions Develop
before Birth? PLOS ONE, 6(8), e24081. https://doi.org/10.1371/journal.pone.0024081
Repacholi, B. M. (2009). Linking actions and emotions: Evidence from 15- and 18-month-old
infants. British Journal of Developmental Psychology, 27(3), 649–667.
https://doi.org/10.1348/026151008X354564
Repacholi, B. M., & Gopnik, A. (1997). Early reasoning about desires: Evidence from 14- and
18-month-olds. Developmental Psychology, 33(1), 12–21.
https://doi.org/10.1037/0012-1649.33.1.12
Reschke, P. J., Walle, E. A., Flom, R., & Guenther, D. (2017). Twelve-Month-Old Infants’
Sensitivity to Others’ Emotions Following Positive and Negative Events. Infancy,
22(6), 874–881. https://doi.org/10.1111/infa.12193
Rigato, S., Farroni, T., & Johnson, M. H. (2010). The shared signal hypothesis and neural
responses to expressions and gaze in infants and adults. Social Cognitive and Affective
Neuroscience, 5(1), 88–97. https://doi.org/10.1093/scan/nsp037
289
Rigato, S., Menon, E., Johnson, M. H., & Farroni, T. (2011). The interaction between gaze
direction and facial expressions in newborns. European Journal of Developmental
Psychology, 8(5), 624–636. https://doi.org/10.1080/17405629.2011.602239
Riggs, N. R., Jahromi, L. B., Razza, R. P., Dillworth-Bart, J. E., & Mueller, U. (2006).
Executive function and the promotion of social–emotional competence. Journal of
Applied Developmental Psychology, 27(4), 300–309.
https://doi.org/10.1016/j.appdev.2006.04.002
Rigoulot, S., & Pell, M. D. (2012). Seeing Emotion with Your Ears: Emotional Prosody
Implicitly Guides Visual Attention to Faces. PLoS ONE, 7(1), e30740.
Rochat, P., Striano, T., & Blatt, L. (2002). Differential effects of happy, neutral, and sad still-
faces on 2-, 4- and 6-month-old infants. Infant and Child Development, 11(4), 289–303.
https://doi.org/10.1002/icd.259
Rodger, H., Vizioli, L., Ouyang, X., & Caldara, R. (2015). Mapping the development of facial
expression recognition. Developmental Science, 18(6), 926–939.
https://doi.org/10.1111/desc.12281
Roesch, E. B., Tamarit, L., Reveret, L., Grandjean, D., Sander, D., & Scherer, K. R. (2011).
FACSGen: A Tool to Synthesize Emotional Facial Expressions Through Systematic
Manipulation of Facial Action Units. Journal of Nonverbal Behavior, 35(1), 1–16.
https://doi.org/10.1007/s10919-010-0095-9
Rose, S. A. (1994). From hand to eye: findings and issues in infant cross-modal transfer. In The
development of intersensory perception: Comparative perspectives (pp. 265–284).
Rosenstein, D., & Oster, H. (1988). Differential Facial Responses to Four Basic Tastes in
Newborns. Child Development, 59(6), 1555–1568. https://doi.org/10.2307/1130670
290
Ruba, A. L., Johnson, K. M., Harris, L. T., & Wilbourn, M. P. (2017). Developmental changes
in infants’ categorization of anger and disgust facial expressions. Developmental
Psychology, 53(10), 1826. https://doi.org/10.1037/dev0000381
Russell, J. (1980). A circumplex model of affect. Journal of Personality and Social Psychology,
39, 1161–1178.
Saarni, C. (1988). Emotional competence: How emotions and relationships become integrated.
Nebraska Symposium on Motivation. Nebraska Symposium on Motivation, 36, 115–182.
Safar, K., Kusec, A., & Moulson, M. C. (2017). Face Experience and the Attentional Bias for
Fearful Expressions in 6- and 9-Month-Old Infants. Frontiers in Psychology, 8.
Safar, K., & Moulson, M. C. (2017). Recognizing facial expressions of emotion in infancy: A
replication and extension. Developmental Psychobiology, 59(4), 507–514.
https://doi.org/10.1002/dev.21515
Sai, F. Z. (2005). The role of the mother’s voice in developing mother’s face preference:
Evidence for intermodal perception at birth. Infant and Child Development, 14(1), 29–
50. https://doi.org/10.1002/icd.376
Sander, D. (2013a). Models of emotion: the affective neuroscience approach. In The Cambridge
Handbook of Human Affective Neuroscience. Cambridge University Press.
Sander, D. (2013b). Vers une définition de l’émotion. Cerveau & Psycho, (56).
Sander, D., Grandjean, D., & Scherer, K. R. (2005). A systems approach to appraisal
mechanisms in emotion. Neural Networks, 18(4), 317–352.
https://doi.org/10.1016/j.neunet.2005.03.001
Sander, D., & Scherer, K. (2009). Traité de psychologie des émotions [Treaty of emotional
psychology]. Paris; Arcueil: Dunod.
291
Sauter, D. A., & Eisner, F. (2013). Commonalities outweigh differences in the communication
of emotions across human cultures. Retrieved June 1, 2016, from
http://www.pnas.org/content/110/3/E180.short
Schurgin, M. W., Nelson, J., Iida, S., Ohira, H., Chiao, J. Y., & Franconeri, S. L. (2014). Eye
movements during emotion recognition in faces. Journal of Vision, 14(13), 14–14.
https://doi.org/10.1167/14.13.14
Schwartz, G. M., Izard, C. E., & Ansul, S. E. (1985). The 5-month-old’s ability to discriminate
facial expressions of emotion. Infant Behavior and Development, 8(1), 65–77.
https://doi.org/10.1016/S0163-6383(85)80017-5
Serrano, J. M., Iglesias, J., & Loeches, A. (1992). Visual discrimination and recognition of
facial expressions of anger, fear, and surprise in 4- to 6-month-old infants.
Developmental Psychobiology, 25(6), 411–425. https://doi.org/10.1002/dev.420250603
Serrano, J. M., Iglesias, J., & Loeches, A. (1995). Infants’ responses to adult static facial
expressions. Infant Behavior and Development, 18(4), 477–482.
https://doi.org/10.1016/0163-6383(95)90036-5
Shackman, J. E., & Pollak, S. D. (2005). Experiential Influences on Multimodal Perception of
Emotion. Child Development, 76(5), 1116–1126. https://doi.org/10.1111/j.1467-
8624.2005.00901.x
Skerry, A. E., & Spelke, E. S. (2014). Preverbal infants identify emotional reactions that are
incongruent with goal outcomes. Cognition, 130(2), 204–216.
Soderstrom, M., Reimchen, M., Sauter, D., & Morgan, J. L. (2017). Do infants discriminate
non-linguistic vocal expressions of positive emotions? Cognition and Emotion, 31(2),
298–311. https://doi.org/10.1080/02699931.2015.1108904
292
Soken, N. H., & Pick, A. D. (1992). Intermodal perception of happy and angry expressive
behaviors by seven‐month‐old infants. Child Development, 63.
Soken, N. H., & Pick, A. D. (1999). Infants’ perception of dynamic affective expressions: do
infants distinguish specific expressions? Child Development, 70(6), 1275–1282.
https://doi.org/10.1111/1467-8624.00093
Sorce, J. F., Emde, R. N., Campos, J. J., & Klinnert, M. D. (1985). Maternal emotional
signaling: Its effect on the visual cliff behavior of 1-year-olds. Developmental
Psychology, 21(1), 195–200. https://doi.org/10.1037/0012-1649.21.1.195
Soussignan, R., Dollion, N., Schaal, B., Durand, K., Reissland, N., & Baudouin, J.-Y. (2018).
Mimicking emotions: How 3–12-month-old infants use the facial expressions and eyes
of a model. Cognition and Emotion, 32(4), 827–842.
https://doi.org/10.1080/02699931.2017.1359015
Soussignan, R., Schaal, B., Marlier, L., & Jiang, T. (1997). Facial and autonomic responses to
biological and artificial olfactory stimuli in human neonates: Re-examining early
hedonic discrimination of odors. Physiology & Behavior, 62(4), 745–758.
Sroufe, L. A. (1997). Emotional Development: The Organization of Emotional Life in the Early
Years. Cambridge University Press.
Sroufe, L. A., Cooper, R. G., DeHart, G. B., & Marshall, M. E. (1992). Child development: Its
nature and course (2nd ed.). New York, NY, England: Mcgraw-Hill Book Company.
Starkey, P., Spelke, E. S., & Gelman, R. (1983). Detection of intermodal numerical
correspondences by human infants. Science, 222(4620), 179–181.
Starkey, P., Spelke, E. S., & Gelman, R. (1990). Numerical abstraction by human infants.
Cognition, 36(2), 97–127. https://doi.org/10.1016/0010-0277(90)90001-Z
293
Steiner, J. E. (1979). Human facial expressions in response to taste and smell stimulation.
Advances in Child Development and Behavior, 13(5).
Stenberg, C. R., & Campos, J. J. (1990). The development of anger expressions in infancy. In
N. L. Stein, B. Leventhal, & T. R. Trabasso, Psychological and biological approaches
to emotion (Vol. 82). Psychology Press.
Streri, A. (1991). L’espace et les relations inter-modalités. L’année Psychologique, 91(1), 87–
102. https://doi.org/10.3406/psy.1991.29446
Streri, A. (2012). Crossmodal interactions in the human newborn: New answers to Molyneux’s
question. In Multisensory Development (pp. 88–112). Oxford: Oxford University Press.
Streri, A., & Gentaz, E. (2003). Cross-modal recognition of shape from hand to eyes in human
newborns. Somatosensory & Motor Research, 20(1), 13–18.
https://doi.org/10.1080/0899022031000083799
Streri, A., & Gentaz, E. (2012). Intermanual and intermodal transfer in human newborns :
neonatal behavioral evidence and neurocogitive approach. Neuroimaging-Cognitive
and Clinical Neuroscience. InTech: www.Intechopen.Com/Books/Neuroimaging-
Cognitive-and-Clinical-Neuroscience, 319–332.
Streri, A., Gentaz, E., Spelke, E., & de Walle, G. V. (2004). Infants’ haptic perception of object
unity in rotating displays. Quarterly Journal of Experimental Psychology: Section A,
57(3), 523–538.
Streri, A., Spelke, E., & Rameix, E. (1993). Modality-specific and amodal aspects of object
perception in infancy: The case of active touch. Cognition, 47(3), 251–279.
https://doi.org/10.1016/0010-0277(93)90051-V
Streri, A., & Spelke, E. S. (1988). Haptic perception of objects in infancy. Cognitive
Psychology, 20(1), 1–23. https://doi.org/10.1016/0010-0285(88)90022-9
294
Streri, A., & Spelke, E. S. (1989). Effects of motion and figural goodness on haptic object
perception in infancy. Child Development, 60(5), 1111–1125.
https://doi.org/10.2307/1130786
Streri, Arlette. (2017). Ce nouveau-né qui est en nous: Ses perceptions, ses actions, ses
intuitions. Hermann.
Sugden, N. A., Mohamed-Ali, M. I., & Moulson, M. C. (2014). I spy with my little eye: Typical,
daily exposure to faces documented from a first-person infant perspective.
Developmental Psychobiology, 56(2), 249–261. https://doi.org/10.1002/dev.21183
Sullivan, M. W., & Lewis, M. (2003). Emotional Expressions of Young Infants and Children:
A Pract... : Infants & Young Children. Infants & Young Children, pp. 120–142.
Sullivan, S., Ruffman, T., & Hutton, S. B. (2007). Age Differences in Emotion Recognition
Skills and the Visual Scanning of Emotion Faces. The Journals of Gerontology: Series
B, 62(1), P53–P60. https://doi.org/10.1093/geronb/62.1.P53
Tanaka, J. W., & Farah, M. J. (1993). Parts and wholes in face recognition. The Quarterly
Journal of Experimental Psychology Section A, 46(2), 225–245.
https://doi.org/10.1080/14640749308401045
Tanaka, J. W., & Gordon, I. (2011). Features, configuration, and holistic face processing. In
Oxford Handbook of Face Perception (pp. 177–194). OUP Oxford.
Theurel, A., & Gentaz, É. (2016). Entraîner les compétences émotionnelles à l’école. Approche
Neuropsychologique Des Apprentissages Chez l’enfant, (39), 545–555.
Theurel, A., & Gentaz, E. (2018). The regulation of emotions in adolescents: Age differences
and emotion-specific patterns. PLOS ONE, 13(6), e0195501.
Theurel, A., Palama, A., & Gentaz, E. (2017). Le développement des émotions morales durant
l’enfance. Médecine & Enfance, 37(10), 307–311.
295
Theurel, A., Witt, A., Malsert, J., Lejeune, F., Fiorentini, C., Barisnikov, K., & Gentaz, E.
(2016). The integration of visual context information in facial emotion recognition in 5-
to 15-year-olds. Journal of Experimental Child Psychology, 150, 252–271.
Tomkins, S. (1963). Affect Imagery Consciousness: Volume II: The Negative Affects. New
York: Springer Publishing Company.
Tremblay, R. E. (2003). Développement de l’agressivité physique depuis la jeune enfance
jusqu’à l’âge adulte. Tremblay RE, Barr RG, Peters RDeV, Eds. Encyclopédie Sur Le
Développement Des Jeunes Enfants, 1–7.
Tronick, E., Als, H., Adamson, L., Wise, S., & Brazelton, T. B. (1978). The Infant’s Response
to Entrapment between Contradictory Messages in Face-to-Face Interaction. Journal of
the American Academy of Child Psychiatry, 17(1), 1–13.
https://doi.org/10.1016/S0002-7138(09)62273-1
Turati, C., Cassia, V. M., Simion, F., & Irene, L. (2006). Newborns’ face recognition: role of
inner and outer facial features. Child Development, 77(2), 297–311.
https://doi.org/10.1111/j.1467-8624.2006.00871.x
Vaillant-Molina, M., Bahrick, L. E., & Flom, R. (2013). Young Infants Match Facial and Vocal
Emotional Expressions of Other Infants. Infancy: The Official Journal of the
International Society on Infant Studies, 18(Suppl 1). https://doi.org/10.1111/infa.12017
Valente, D., Theurel, A., & Gentaz, E. (2018). The role of visual experience in the production
of emotional facial expressions by blind people: A review. Psychonomic Bulletin &
Review, 25(2), 483–497. https://doi.org/10.3758/s13423-017-1338-0
Valenza, E., Simion, F., Cassia, V. M., & Umiltà, C. (1996). Face preference at birth. Journal
of Experimental Psychology: Human Perception and Performance, 22(4), 892–903.
https://doi.org/10.1037/0096-1523.22.4.892
296
Vassallo, S., Cooper, S. L., & Douglas, J. M. (2009). Visual scanning in the recognition of
facial affect: Is there an observer sex difference? Journal of Vision, 9(3), 11–11.
https://doi.org/10.1167/9.3.11
Venezia, M., Messinger, D. S., Thorp, D., & Mundy, P. (2004). The development of
anticipatory smiling. Infancy, 6(3), 397–406.
https://doi.org/10.1207/s15327078in0603_5
Vicari, S., Reilly, J. S., Pasqualetti, P., Vizzotto, A., & Caltagirone, C. (2000). Recognition of
facial expressions of emotions in school-age children: The intersection of perceptual
and semantic categories. Acta Paediatrica, 89(7), 836–845.
Walker, A. S. (1982). Intermodal perception of expressive behaviors by human infants. Journal
of Experimental Child Psychology, 33(3), 514–535. https://doi.org/10.1016/0022-
0965(82)90063-7
Walker-Andrews, A. S. (1986). Intermodal perception of expressive behaviors: Relation of eye
and voice? Developmental Psychology, 22(3), 373. https://doi.org/10.1037/0012-
1649.22.3.373
Walker-Andrews, A. S. (1997). Infants’ perception of expressive behaviors: Differentiation of
multimodal information. Psychological Bulletin, 121(3), 437–456.
https://doi.org/10.1037/0033-2909.121.3.437
Walker-Andrews, A. S., & Grolnick, W. (1983). Discrimination of vocal expressions by young
infants. Infant Behavior and Development, 6(4), 491–498.
https://doi.org/10.1016/S0163-6383(83)90331-4
Walker-Andrews, A. S., & Lennon, E. (1991). Infants’ discrimination of vocal expressions:
Contributions of auditory and visual information. Infant Behavior and Development,
14(2), 131–142. https://doi.org/10.1016/0163-6383(91)90001-9
297
Walle, E. A., Reschke, P. J., & Knothe, J. M. (2017). Social Referencing: Defining and
Delineating a Basic Process of Emotion. Emotion Review, 9(3), 245–252.
https://doi.org/10.1177/1754073916669594
Walton, G. E., Bower, N. J. A., & Bower, T. G. R. (1992). Recognition of familiar faces by
newborns. Infant Behavior and Development, 15(2), 265–269.
https://doi.org/10.1016/0163-6383(92)80027-R
Wang, S., Baillargeon, R., & Brueckner, L. (2004). Young infants’ reasoning about hidden
objects: Evidence from violation-of-expectation tasks with test trials only. Cognition,
93(3), 167–198. https://doi.org/10.1016/j.cognition.2003.09.012
Watson, R., Latinus, M., Noguchi, T., Garrod, O., Crabbe, F., & Belin, P. (2014). Crossmodal
Adaptation in Right Posterior Superior Temporal Sulcus during Face–Voice Emotional
Integration. Journal of Neuroscience, 34(20), 6813–6821.
https://doi.org/10.1523/JNEUROSCI.4478-13.2014
Weiner, B. (1995). Judgments of Responsibility: A Foundation for a Theory of Social Conduct.
Guilford Press.
Widen, S. C. (2013). Children’s Interpretation of Facial Expressions: The Long Path from
Valence-Based to Specific Discrete Categories. Emotion Review, 5(1), 72–77.
https://doi.org/10.1177/1754073912451492
Widen, S. C., & Russell, J. A. (2008). Children acquire emotion categories gradually. Cognitive
Development, 23(2), 291–312. https://doi.org/10.1016/j.cogdev.2008.01.002
Widen, S. C., & Russell, J. A. (2010). Differentiation in preschooler’s categories of emotion.
Emotion, 10(5), 651–661. https://doi.org/10.1037/a0019005
Widen, S. C., & Russell, J. A. (2013). Children’s recognition of disgust in others. Psychological
Bulletin, 139(2), 271–299. https://doi.org/10.1037/a0031640
298
Widen, S. C., & Russell, J. A. (2015). Do Dynamic Facial Expressions Convey Emotions to
Children Better Than Do Static Ones? Journal of Cognition and Development, 16(5),
802–811. https://doi.org/10.1080/15248372.2014.916295
Wieser, M. J., & Brosch, T. (2012). Faces in context: A review and systematization of
contextual influences on affective face processing. Cognitive Science, 3, 471.
Wilcox, T., Stubbs, J. A., Wheeler, L., & Alexander, G. M. (2013). Infants’ scanning of
dynamic faces during the first year. Infant Behavior & Development, 36(4), 513–516.
Wundt, W. M. (1897). Outlines of psychology. Oxford, England: Engelman.
Young-Browne, G., Rosenfeld, H. M., & Horowitz, F. D. (1977). Infant discrimination of facial
expressions. Child Development, 48(2), 555–562. https://doi.org/10.2307/1128653
Zeman, J., Cassano, M., Perry-Parrish, C., & Stegall, S. (2006). Emotion Regulation in Children
and Adolescents. Journal of Developmental & Behavioral Pediatrics, 27(2).
Zhang, D., Liu, Y., Hou, X., Sun, G., Cheng, Y., & Luo, Y. (2014). Discrimination of fearful
and angry emotional voices in sleeping human neonates: A study of the mismatch brain
responses. Frontiers in Behavioral Neuroscience, 8.
https://doi.org/10.3389/fnbeh.2014.00422
Zhang, D., Zhou, Y., Hou, X., Cui, Y., & Zhou, C. (2017). Discrimination of emotional
prosodies in human neonates: A pilot fNIRS study. Neuroscience Letters, 658, 62–66.
https://doi.org/10.1016/j.neulet.2017.08.047
Zieber, N., Kangas, A., Hock, A., & Bhatt, R. S. (2014a). Infants’ Perception of Emotion From
Body Movements. Child Development, 85(2), 675–684.
https://doi.org/10.1111/cdev.12134
299
Zieber, N., Kangas, A., Hock, A., & Bhatt, R. S. (2014b). The development of intermodal
emotion perception from bodies and voices. Journal of Experimental Child Psychology,
126, 68–79. https://doi.org/10.1016/j.jecp.2014.03.005
300
Liste des publications
Articles dans des revues à comité de lecture
Palama, A., Malsert, J., Grandjean, D., & Sander, D. (submitted). The cross-modal transfer of
emotional information from voices to faces in 5-, 8- and 10-year-old children and adults:
an eye-tracking study.
Palama, A., Malsert, J., & Gentaz, É. (submitted). The cross-modal transfer of emotional
information (happy or angry) from voices to faces in 2, 4 and 6 month-old infants.
Valent, D., Palama, A., Gentaz, E. (submitted). Action Simulations by Finger Gestures: A
New Way to Illustrate Tactile Books for Blind and Sighted Children.
Malsert, J., Palama, A., Gentaz, E (in revision). Development of an eye-tracked emotional
and race effect in 6 to 12 year-old children facial perception. PLoS One
Valente, D., Palama, A., Malsert, J., Bolens, G., Gentaz, E. (2019) Adults’ visual recognition
of actions simulations by finger gestures (ASFGs) produced by sighted and blind
individuals. PLoS One, 14(3):e0214371. doi: 10.1371/journal.pone.0214371.
Lejeune F., Brand, L.A., Palama, A., Parra, J., Marcus, L., Barisnikov, K., Gentaz, E.,
Debillon, T., & Berne-Audéoud, F. (2019). Preterm infant showed better object
handling skills in a neonatal intensive care unit during silence than with a recorded
female voice. Acta Paediatrica, 108(3), 460-467. doi: 10.1111/apa.14552
PLoS ONE, 13(4), e0194579. https://doi.org/10.1371/journal.pone.0194579
Articles dans des revues destinées à des professionnels
Theurel, A., Palama, A., Gentaz, E. (2017). Le développement des émotions morales durant
l’enfance. Médecine et Enfance, 37(10), 307-311.
301
PUBLICATIONS
Palama, A., Theurel, A. & Gentaz, E. (2017). Le développement des émotions primaires
durant l’enfance. Médecine & Enfance, 37(7), 195-201.
Palama, A., Malsert, J., Arnautovic, E., Humair, I., Grandjean, D., Gentaz, E. (2016). La
reconnaissance intermodale des émotions: apports de l’analyse des mouvements
oculaires lors du décodage d’expressions faciales émotionnelles chez des bébés âgés
de 6 mois. A.N.A.E., 142, 305-312.
Theurel, A., Palama-Roux, A., Gentaz, E. (2016). Le développement de la culpabilité au

cours de l’enfance. Le journal des professionnels de l’enfance, 101, 37-40.
Communications affichées
Palama, A., Gentaz, E. Is there an amodal recognition of emotion (angry or happy) from
voice to static face (real or virtual)? Evidence in 6-month old infants and adults.
Annual Research Forum 2018, February 7th 2018, Swiss Center for Affective
Sciences, Geneva, Switzerland.
Palama, A., Gentaz, E. Nature et développement de la reconnaissance des émotions chez des
bébés âgés de 1 à 6 mois. 10ème colloque international RIPSYDEVE : De la recherche
à la pratique : étude en psychologie et psychopathologie développementale, 15-16
June 2017, Aix-en-Provence, France
Palama, A., Gentaz, E. Cross-modal (audio -visual) recognition of emotions: a longitudinal

study in infants aged of 1, 2, 4 and 6 months. 2nd Jean Piaget Conferences: Infant
development from Piaget to today, 20-21 June 2016, Geneva, Switzerland.
Humair, I., Palama, A., Gentaz, E. Cross-modal recognition of emotion expression from
voice to face in 6 months-olds babies. 2nd Jean Piaget Conferences: Infant
development from Piaget to today, 20-21 June 2016, Geneva, Switzerland.
Palama-Roux, A., Calpe, L., Fiorentini, C., Malsert, J., & Gentaz, E. Does listening to an
emotional voice (joy vs. anger) help their facial expression recognition in 4-month
old? Research on audio-visual transfer. Inauguration of the Swiss Doctoral School in
Affective Sciences, September 15th 2015, Geneva, Switzerland.
302
PUBLICATIONS
old? Research on audio-visual transfer. The Future of Psychology - SSP/SGP

conference 2015, 8-9 September 2015, Geneva, Switzerland.
old? Research on audio-visual transfer. NCCR Affective Sciences, Site visit, July 2th
2015, Geneva, Switzerland.
Palama-Roux, A., Buffle, P., Franchini, M., Schaer, M., & Gentaz, E. Visual preference for
joint attention in young children with a typical development (TD). A contribution to
early detection of autistic spectrum disorders (ASD). The social motivation hypothesis
in autism: Recent findings in mice and men, June 26th 2015, Geneva, Switzerland.
Buffle, P., Palama-Roux, A., Franchini, M., Schaer, M., & Gentaz, E. Visual preference for
biological motion in young children with a typical development (TD). A contribution
to early detection of autistic spectrum disorders (ASD). The social motivation
hypothesis in autism: Recent findings in mice and men, June 26th 2015, Geneva,
Switzerland.
Communications orales
Communication orale lors du Swiss Center for Affective Sciences Annual Research Forum
2018. “Are 6-month-old human infants able to transfer emotional information (happy
or angry) from voices to faces? An eye-tracking study.” February 2018. Swiss Center
for Affective Sciences, Geneva.
Communication orale lors du Swiss Center for Affective Sciences Annual Research Forum
2016. “Emotional Development from birth to adolescent”. February 2016. Swiss
Center for Affective Sciences, Geneva.
Communication orale lors du The 1st Meeting of the Swiss Center for Affective Sciences
Emotional Developmental Group. “Does listening to an emotional voice help facial
expression recognition in 4-month olds? Research on audio-visual transfer”. March
2015. Swiss Center for Affective Sciences, Geneva.
303
PUBLICATIONS
Diffusion scientifique
Participation au Massive Open Online Course (MOOC) proposé par l’Université de Genève,
« Le développement psychologique de l’enfant » dirigé par le professeur Edouard
Gentaz, diffusé à partir de septembre 2019.
https://moocs.unige.ch/liste-de-cours/cours-en-preparation/
Participation à un article sur le BabyLab de Genève pour le journal Micro, « Des bébés au
labo » écrit part Fabien Feissli, le 1 mars 2019.
https://microjournal.ch/?p=1413.
Participation à un reportage sur le BabyLab de Genève pour l’émission de TV le 12h45, pour

la rubrique santé présentée par Tania Chytil diffusé sur la RTS : « À quoi pensent les
bébés ? », le 16 mai 2018.
https://www.rts.ch/play/tv/12h45/video/12h45?id=9574717&startTime=1191.6519999999998&station=
a9e7621504c6959e35c3ecbe7f6bed0446cdf8da
Participation à un article pour le journal Le Matin, « Un labo genevois décode les bébés, écrit
par Fabien Feissli, le 13 avril 2018.
https://www.unige.ch/fapse/sensori-moteur/files/7515/2387/3601/Scan_UNIGE_0563_001.pdf
Particiption à l’émission de radio CQFD de la RTS présentée par Anne Baecher : « Les bébés
relient l’émotion d’une voix à celle d’un visage », le 12 avril 2018.
https://www.rts.ch/la-1ere/programmes/cqfd/9448274-les-bebes-relient-lemotion-dune-voix-a-celle-
dun-visage-12-04-2018.html?mediaShare=1
Participation à un reportage sur le BabyLab de Genève pour l’émission de TV la Maison des

maternelles diffusé sur France 5 : « Comprendre les émotions des bébés grâce à la
science », le 29 novembre 2016.
https://www.youtube.com/watch?time_continue=1&v=y7lWHyFQxO4
304

Amaya Palama These

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Amaya Palama These

Transféré par

Droits d'auteur :

Formats disponibles

Archive ouverte UNIGE

Thèse 2019 Open Access

La perception intermodale (audio-visuelle) des expressions émotionnelles

PALAMA, Amaya. La perception intermodale (audio-visuelle) des expressions émotionnelles (joie,

This publication URL: https://archive-ouverte.unige.ch//unige:123713

Sous la direction du Professeur Edouard Gentaz

La perception intermodale (audio-visuelle) des expressions émotionnelles

Thèse de Amaya PALAMA

lntitulée < La perception intermodale (audio-visuelle) des expressions

La Faculté de psychologie et des sciences de l'éducation, sur préavis du jury de

Edouard Gentaz, directeur, FPSE, Université de Genève

autorise I'impression de la présente thèse, sans prétendre par-là émettre d'opinion

Genève, le 13 septembre 2019

Pour commencer, je voudrais remercier très chaleureusement mon directeur de thèse, le

J’aimerais remercier la professeure Arlette Streri, les professeurs Jean-Yves Baudouin,

Je souhaiterais remercier tout particulièrement ma sœur, Yaëlle. Merci infiniment de

Je remercie également Christine Jaquemet-Drezen, Philippe Gobet et Anne Davie, les

Un énorme merci va également à mes premières partenaires de recherche et amies.

Je remercie infiniment toutes mes super collègues du SMAS (laboratoire du

Je remercie également mes ex-collègues du SMAS : Alex, Anne, Chiara F, Fanny,

Je tiens aussi à adresser mes remerciements au Fonds National Suisse de la recherche

Je tiens à adresser un merci tout particulier à ma famille, ma belle-famille et à mes amis

Merci à tous, du fond du cœur !

Le développement précoce de la compréhension émotionnelle .......................................... 68

OBJECTIFS PRINCIPAUX ...................................................................................................... 75

II CONTRIBUTIONS EXPERIMENTALES ................................................................... 81

Outils d’analyse des mouvements oculaires .......................................................................... 88

Présentation générale des cinq études (et 11 expériences) .................................................. 91

Expérience 1: condition 1: photographies de visages et vocalisations non-verbales: Are 6-

Expérience 2 : condition 2: visages virtuels et pseudo-mots ............................................... 115

Expérience 4: condition 1: photographies de visages et vocalisations non-verbales: The

Expérience 5 : condition 2 : visages virtuels et pseudo-mots .............................................. 150

Expérience 6 : joie vs. colère ................................................................................................ 160

Expérience 7 : peur vs. colère .............................................................................................. 169

Expérience 8 : joie vs. colère ................................................................................................ 178

Expérience 10 : colère vs. dégoût ........................................................................................ 190

III DISCUSSION GÉNÉRALE .................................................................................. 233

DISCUSSION .................................................................................................................. 241

LIMITES ........................................................................................................................ 257

FIGURE 42. PARADIGME DE L’EXPERIENCE 3. ................................................................................................................. 124

La capacité des individus à identifier, exprimer, comprendre, utiliser et réguler leurs

Cette thèse vise à approfondir les connaissances sur le développement typique de la

La deuxième partie de ce travail (II) est consacrée aux contributions expérimentales.

Les trois théories contemporaines dominantes

Théorie des émotions de base

« émotions fondamentales » ou encore « émotions discrètes » (Ekman, 1992b, 1992a). Selon

Selon les théories dimensionnelles, les émotions seraient organisées autour de

Théorie de l’évaluation cognitive

Enfin, la théorie de l’évaluation cognitive propose d’expliquer un aspect fondamental

La théorie de l’évaluation cognitive propose le modèle des composantes (Figure 4) qui

Ce modèle décrit particulièrement le rôle de l’évaluation cognitive (en anglais :

En conclusion, ces trois théories concernent principalement la psychologie humaine

Néanmoins, l’hypothèse de l’innéité et de l’universalité des émotions reste au cœur du

La théorie de l’évaluation cognitive soutient une perspective ontogénétique (Sander &

De plus, la théorie de l’évaluation cognitive soutient le fait que le développement

Actuellement, les différentes perspectives développementales ne sont toujours pas en

Le développement des émotions étant toujours discuté, ce travail a pour objectif

Dans ce chapitre, nous explorerons les fondements ontogénétiques du développement

Le développement précoce des expressions

Duchenne de Boulogne (1862) a été le premier à mettre en évidence de quelle manière

réponse à des stimulations multisensorielles (tactiles, vocales, ou visuelles) au cours

Résumé 1. Développement précoce des expressions émotionnelles

Le développement précoce de la régulation

Ensuite, entre 3 et 6 ans, les enfants développent la capacité de modifier, masquer ou