Py00602t SP Iris 21 22

SED 20 21
2022
PY00602T
Démarches
de recherche -
Statistiques
Université Toulouse - Jean Jaurès - Service d’Enseignement à Distance

5 allées Antonio Machado 31058 Toulouse cedex 9
Tel : +33 (0)5 61 50 37 99 - Mail : contact.sed@univ-tlse2.fr – Site : sed.univ-tlse2.fr
Reproduction et diffusion interdites sans l’autorisation de l’auteur-e

Sommaire
Démarches de Recherche – Statistiques – 93 pages
Partie I : Démarches de Recherche

Liliana Rico Duarte
Partie II : Statistiques
Nathalie Huet
Les modalités de contrôle des connaissances, éventuellement indiquées dans le document sont
données à titre indicatif, sous réserve de validation par les départements de l’Université.
Elles sont donc susceptibles d’être soumises à modifications.
Pour vérification, connectez-vous sur le site de l’Université
https://www.univ-tlse2.fr/accueil/formation-insertion/inscriptions-scolarite/le-controle-des-
connaissances
UFR de PSYCHOLOGIE – UE PY000602 -L3
Université Toulouse Jean Jaurès
UFR de Psychologie
Licence 3 de Psychologie
UE PY 00602T
Démarches de Recherche – Statistiques – (L3)
Responsables de l’UE PY00602T :
Partie I : Démarches de Recherche

Liliana Rico Duarte (lrico@univ-tlse2.fr)
Partie II : Statistiques
Nathalie Huet (nathalie.huet@univ-tlse2.fr)
Année Universitaire 2021-2022
1
Table des matières
I. Objectifs de l’UE et informations générales ............................................................... 5

II. Objectif et approches de recherche en psychologie .................................................. 9
III. Démarches et techniques de recherche en psychologie .......................................11
A. L’observation naturaliste :...................................................................................11
B. Les comptes-rendus introspectifs : .....................................................................11
C. Les recherches en neurosciences comportementales ou psychobiologie : ........12
D. La simulation par ordinateur et l’intelligence artificielle : .....................................12
E. Les expériences contrôlées ou plans expérimentaux : .......................................12
F. Les protocoles individuels ou à cas-uniques quasi-expérimentaux et
expérimentaux .............................................................................................................14
1. Quels sont les types de protocole individuels ou à cas-uniques ? ..................15
1.1. Les études de cas : ......................................................................................15
1.2. Protocoles individuels ou à cas-uniques quasi-expérimentaux ....................15
1.3. Protocoles individuels ou à cas-uniques expérimentaux..............................17
IV. Critères de validité d’une recherche ......................................................................24
A. La validité des construits ....................................................................................24
B. La validité interne ...............................................................................................25
1. Les facteurs historiques ..................................................................................26
2. La maturation ..................................................................................................26
3. La régression vers la moyenne .......................................................................26
4. Le biais de sélection........................................................................................26
5. La mortalité expérimentale ..............................................................................27
6. Testage ou effet d’apprentissage ....................................................................27
7. L’instrumentation .............................................................................................28
8. Les attentes du participant ..............................................................................28
9. Les attentes de l’expérimentateur psychologue ..............................................28
10. Variables parasites spécifiques à la question étudiée .....................................28
C. La validité externe ..............................................................................................29
D. La parcimonie .....................................................................................................29
V. Les techniques d’échantillonnage .............................................................................29
A. L’échantillonnage probabiliste ............................................................................30
1. L’échantillonnage aléatoire simple ..................................................................30
2. L’échantillonnage aléatoire stratifié .................................................................30
3. L’échantillonnage par cluster ..........................................................................30
2
B. L’échantillonnage non probabiliste .....................................................................30

1. L’échantillonnage par quotas ..........................................................................31
2. L’échantillonnage par disponibilité ..................................................................31
VI. Classification et description des plans d’expérience impliquant des groupes
de participants .................................................................................................................31
A. Les types de plans en fonction du degré de validité interne et externe ..............31
1. Les plans expérimentaux ................................................................................31
2. Les plans quasi-expérimentaux.......................................................................32
B. Type de plans en fonction du nombre et du statut des VI ..................................33
C. Comment décrit-on et construit-on un plan d’expérience ? .................................33
VII. Démarche sous-tendant le choix du test statistique...............................................34
1. L'objectif du chercheur ....................................................................................35
2. La nature des variables ...................................................................................35
3. La taille de l’échantillon ...................................................................................36
4. La structure du plan ........................................................................................36
5. Normalité et homogénéité des variances ........................................................38
VIII. Plans simples à mesures indépendantes (inter-sujets).........................................38
A. Présentation du plan, avantages, inconvénients ................................................39
B. Traitements statistiques associés.......................................................................41
1. L’Analyse de variance à 1 facteur mesures indépendantes ............................41
2 Le Kruskal-Wallis ................................................................................................50
IX. Plans simples à mesures répétées ou appariées (intra-sujet) ...............................52
A. Présentation du plan, avantages, inconvénients ................................................52
B. Traitements statistiques associés.......................................................................54
1. Le t-test à mesures répétées...........................................................................54
2. ANOVA 1 facteur mesures répétées ...............................................................57
3. Le test de Friedman ........................................................................................62
X. Particularités des plans factoriels : Approche intuitive de la notion d’interaction ......64
XI. Plans factoriels à mesures indépendantes (inter-sujets) .......................................72
A. Présentation du plan ..........................................................................................72
B. Traitement statistique associé lorsque les deux mesures sont
indépendantes  ANOVA 2 facteurs à mesures indépendantes) ...............................72
XII. Plans factoriels à mesures répétées (intra-sujets) .................................................77
B. Traitement stat associé lorsque les deux VI sont intra  ANOVA 2
facteurs à mesures repétéés .......................................................................................78
XIII. Plans factoriels mixtes ou combinés ......................................................................78
B. Traitement stat associé ......................................................................................79
3
XIV. Conventions d’écriture pour la rédaction de mémoires et d’articles normes

APA 81
A. Ecriture du t-test ou t de Student ........................................................................81
B. Ecriture de l’ANOVA ...........................................................................................81
XV. Documents complémentaires polycopié 602 .........................................................83
1. Document 1 : Tests non paramétriques /paramétriques .................................83
2. Document 2 : Exemples d’application .............................................................84
3. Document 3 : Tables des valeurs critiques .....................................................89
4
I. Objectifs de l’UE et informations générales

L’objectif de cette UE est de sensibiliser les étudiants aux concepts, techniques et
démarches utiles à la réalisation d’une recherche en psychologie.
Les recherches en psychologie peuvent s’inscrire dans une démarche empirico-

inductive (faits réels et déduire des lois générales) ou dans une démarche
hypothético déductive (partir d’un cadre conceptuel précis et mettre à l’épreuve
des faits une hypothèse). Dans les deux cas, le chercheur et le psychologue
disposent des outils permettant de mettre en place un dispositif adapté à l’objectif
de la recherche.
Dans sa pratique professionnelle, le psychologue peut être amené à concevoir,
proposer et mettre en œuvre une ou des actions visant à améliorer l’état
psychologique d’individus : action thérapeutique, action éducative, action sur
l’environnement familial, social, ou professionnel. De même, dans la pratique de la
recherche, le psychologue cherche à identifier les facteurs qui affectent les
conduites des individus, cela en vue de produire des connaissances valides et
utiles pour la communauté scientifique.
Quel que soit l’objectif de la recherche, le psychologue et le chercheur doivent
être en mesure de défendre la pertinence de leur intervention, leur choix
d’actions par rapport à d’autres méthodes possibles. Autrement dit, ils doivent
connaître les règles, les avantages et les inconvénients pour mettre en place
une expérience ou pour évaluer l’efficacité de leur intervention, en prenant en
compte les objectifs poursuivis mais aussi les contraintes techniques, temporelles,
et déontologiques.
Quant aux statistiques, il s’agit d’un outil indispensable pour la pratique des
psychologues et des chercheur.e.s en psychologie. Descriptives, elles permettent
d’avoir/de construire une image résumée, condensée de données individuelles.
Inférentielles, les statistiques sont un outil d’aide à la décision : elles permettent
notamment de décider si une différence observée entre 2 ou plusieurs échantillons
de données est vraie pour les populations dont sont issus les échantillons et
associe à la décision un niveau de risque de se tromper.
 Les objectifs de cet enseignement sont que :
- Vous identifiez les principales notions qui caractérisent les recherches

expérimentales et quasi-expérimentales (quasi-expérimental et cas unique)
- Vous puissiez évaluer la validité de construit de l’étude ou la fiabilité de la
mesure, le lien entre le niveau théorique (VI théorique, VD théorique,
hypothèse théorique) et le niveau opérationnel (VI opérationnelle, VD
opérationnelle, hypothèse opérationnelle)
- Vous maîtrisiez les notions relatives à la mesure utilisée : la nature des
indicateurs ou variables observées (VD) ; la nature des prédicteurs ou
facteurs (VI : inter-sujet intra-sujet, invoquée, provoquée)
- Vous maîtrisiez les plans d’expérience (inter-sujet, intra-sujet, mixtes)
- Vous maîtrisiez les menaces à la validité interne (facteurs historiques,
instrumentation, mortalité expérimentale, etc.) et les moyens de les
contrôler
5
- vous maîtrisiez la signification des termes et concepts méthodologiques

importants (validité interne, externe, statut inter ou intra d’une variable
indépendante, etc.) ;
- vous connaissiez les différentes techniques expérimentales présentées
(constitution de l’échantillon, constitution de groupes équivalents,
techniques pour assurer un bon niveau de validité interne, etc.) ;
- vous connaissiez les différents plans d’expérience présentés dans le
cours, ainsi que leurs avantages et limites ;
- vous soyez capable, à partir de la description d’une étude
expérimentale, de décrire selon les termes appropriés le type de plan
d’expérience utilisé, d’évaluer son adéquation aux objectifs de l’étude et de
procéder à une analyse critique des choix méthodologiques réalisés
(évaluation de ses qualités de validité expérimentale, statut des VI,
variables parasites non contrôlées, etc.) ;
- vous soyez capable, à partir de la description d’une question
d’étude et d’une hypothèse, de proposer un plan d’expérience adapté
pour permettre la mise à l’épreuve de l’hypothèse ; toute proposition de
plan doit être justifiée par rapport aux autres plans possibles. Vous devez
également être capable d’identifier les variables parasites à contrôler, les
justifications qui président à leur contrôle et de proposer des moyens
réalistes et économiques pour les contrôler.
- vous soyez capable de comprendre la démarche qui sous-tend un test
statistique, de choisir le test statistique approprié pour analyser des
données en fonction du plan d’expérience ayant présidé à leur recueil et de
le mettre en œuvre manuellement. Vous devez également être capable de
lire et rédiger des parties statistiques d’articles de psychologie aux normes
de l’APA (Association de Psychologie Américaine) et de commenter les
résultats donnés par le logiciel de statistique JAMOVI. Il n’est pas
demandé de savoir utiliser le logiciel JAMOVI dans le cadre de l’UE 602T
de L3 mais son usage pourra vous être utile en master.
- Ceux qui sont intéressés peuvent télécharger le logiciel Jamovi sur cette page :
https://www.jamovi.org/
- Remarque : le logiciel JAMOVI a une version Linux, Windows, MacOS ou

Chrome OS. En revanche, nous n’assurons pas les suivis liés aux éventuelles
difficultés d’installation que vous pourriez rencontrer si vous avez envie
d’apprendre à utiliser le logiciel.
Ressources pour travailler le cours :
-Un document complémentaire sur les concepts statistiques de la valeur p et de

puissance statistique, vous sera transmis sur IRIS en début de semestre.
-Des exercices d’application du cours (partie statistique) sont fournis
-De plus, pensez aussi à regarder les documents mis sur IRIS à la page UE602T
générale (vous y trouverez notamment les diapositives utilisées en CM , déposées
au fur et à mesure de l’avancement des séances)
Bibliographie fortement conseillée :
6
Dancey, C.P, Reidy, J. (2007). Statistiques sans maths pour psychologues.

Bruxelles : De Boeck.
Gueguen N. (2013). Statistiques pour psychologues. Paris : DUNOD
Gana, K., Gallé-Tessonneau, M. & Broc, G. (2018). Le protocole individuel en

psychologie : tutoriel à l’usage des psychologues praticiens. Pratiques psychologiques,
25(2), 153-167.
Lanovaz, M.J. (2013). L’utilisation de devis expérimentaux à cas-unique en

psychoéducation. Revue de psychoeducation, 42(1), 161-183.
Navarro, D., Foxcroff & Meunier, J-M. (2019). Apprentissage des statistiques avec
JAMOVI : un tutoriel pour les étudiants en psychologie et autres débutants.
(Version 0.70). (J.M. Meunier, Trad.) https://jmeunierp8.github.io/ManuelJamovi/
Sockeel, P., & Anceaux, F. (2002). La démarche expérimentale en psychologie.

Paris : InPress.
Bibliographie pour approfondir

Aronson,E., Wilson, T., Brewer, M. (1998). Experimentation in social
psychology. In D.T. Gilbert, S.T. Fiske & G. Lindzey (Eds.). The Handbook
of Social Psychology. Boston : McGraw-Hill.
Bourguigon O., Lecourt D., Mattei J.F., Nouvel P. (2004). L’humain est-il
expérimentable ? Coll. Forums Diderot. Paris : PUF.
Campbell, D.T., Stanley, J.C. (1963). Experimental and quasi-experimental

designs for research on teaching. In N.L. Gage (Ed.), Handbook of research on
teaching. Chicago : Rand Mcnally.
Dawes, R. (1994). House of cards: Psychology and psychotherapy built on

myth.New York: Free Press.
Delhomme, P., Meyer, T (2002). La recherche en psychologie sociale : Projets,

méthodes et techniques. Paris : Armand Colin.
Guéguen N. (2007). Méthodologie en psychologie. Collection Express en

Psychologie, Paris : Dunod.
Howell, D.C. (1998). Méthodes statistiques en Sciences Humaines. Paris : De

Boeck Université.
Juhel, J. (2008). Les protocoles individuels dans l’évaluation par le psychologue

praticien de l’efficacité de son intervention. Pratiques Psychologiques, 14, 357-
373.
Kazdin, A. E. (2011). Single-Case Research Designs, Second Edition. New York,

NY: Oxford University Press.
Kinnear, P., & Gray, C. (2005). SPSS facile appliqué à la psychologie et aux
7
sciences sociales, maîtriser le traitement de données. Bruxelles : De Boeck.
Lakens D (2013) Calculating and reporting effect sizes to facilitate cumulative

science: a practical primer for t-tests and ANOVAs. Front. Psychol. 4:863. doi:
10.3389/fpsyg.2013.00863
Myers, A., & Hansen, C.H. (2007). Psychologie expérimentale. Bruxelles : De

Boeck.
Robert, M. (1988). Fondements et étapes de la recherche en psychologie

scientifique. Paris : Edisem Malione S.A.
Webographie :
- http://www.socialresearchmethods.net/kb/destypes.php
- http://spss.espaceweb.usherbrooke.ca/
Pour s’initier à la pensée critique :

Baillargeon, N. (2006). Petit cours d'autodéfense intellectuelle. Montréal : Lux
Editeur.
8
II. Objectif et approches de recherche en

psychologie
1. Quel est l’objectif des recherches réalisées en psychologie ?
Les recherches réalisées en psychologie ont pour objectif d’étudier les conduites
humaines à travers les processus affectifs, cognitifs, développementaux, sociaux et
culturels qui les sous-tendent. De manière générale, il est possible de repérer des
objectifs communs aux différentes recherches réalisées dans cette discipline. Il peut
s’agir par exemple de :
- Décrire et comprendre le phénomène, comportement, évènement ou état mental

étudié (manifestations comportementales, fréquence et conditions d’apparition,
etc.)
- Identifier et décrire les processus qui sous-tendent le comportement, évènement,
ou état mental étudié (quel(s) processus, comment et pourquoi ces processus
sont mis en œuvre, quels sont les éléments déclencheurs, etc.)
- Proposer les mécanismes explicatifs qui sous-tendent la mise en œuvre de ces
processus dans l’apparition du comportement, évènement, ou l’état mental étudié
- Identifier et mettre en place des dispositifs qui permettent de corriger, modifier le
comportement, l’évènement ou l’état mental étudié etc.
2. Quelles sont les approches de recherche utilisées en psychologie ?
Les recherches en psychologie peuvent s’inscrire aussi bien dans une approche
empirico-inductive que dans une approche hypothético-déductive. Bien que souvent
opposées, ces deux approches sont complémentaires. Dans l’approche empirico-
inductive, les recherches s’insèrent souvent dans une démarche exploratoire dont
l’objectif est d’assembler le plus possible d’informations à propos d’un phénomène,
conduite ou comportement observé dans la vie réelle. Cette description du phénomène,
comportement, ou conduite observés dans un contexte naturel (réel), ainsi que
l’interprétation qui peut en être élaborée, contribue à construire progressivement à partir
de ces éléments un cadre explicatif (conceptuel ou théorique) du phénomène étudié.
Dans l’approche hypothético-déductive, les recherches se font à partir d’une idée

précise. Dans ce cas, l’objectif est d’apporter des éléments de réponse à une question
théorique bien fondée à travers la mise en place d’un protocole de recherche permettant
un recueil de données susceptible de répondre à la question posée. Autrement dit,
l’approche hypothético-déductive est une approche confirmatoire qui permet de mettre à
l’épreuve des faits (données) un cadre conceptuel ou théorique. Elle permet en fonction
des résultats observés, soit de confirmer le cadre initial, soit de le remettre en question
et de ce fait conduit à des nouvelles formulations conceptuelles.
9
Qu’il s’agisse de l’approche inductive ou déductive, au fil des recherches réalisées,

les deux approches permettent aussi bien de générer des hypothèses que de les tester.
De plus, dans les deux cas, les recherches réalisées se focalisent sur des phénomènes
particuliers, autrement dit, elles restreignent l’étude réalisée à une question, conduite ou
comportement, a priori, bien identifiés. Le principal élément qui distingue la démarche
basée sur l’approche empirico-inductive de la démarche basée sur l’approche
hypothético-déductive est que dans l’induction, on ne peut jamais atteindre une
conclusion certaine (attention ici certaine ne veut pas dire réelle ou vraie) mais
seulement une conclusion bien fondée ou probable sur le plan logique. La démarche
empirico-inductive s’appuie sur des faits ou des observations spécifiques pour aboutir à
une conclusion vraisemblable pouvant expliquer le phénomène, comportement ou
conduite étudiés. Elle s’appuie ainsi sur cette conclusion probable pour tenter de prédire
des exemples spécifiques futurs. Par exemple, « les étudiants que j’ai observés sont en
souffrance. Donc tous les étudiants sont en souffrance », on passe ici des faits
spécifiques aux généralités dont la conclusion n’est pas certaine mais juste probable.
Indépendamment du nombre d’observations ou de la justesse du raisonnement, aucune
conclusion par induction ne peut être prouvée ; elles peuvent uniquement être
confirmées à un degré plus ou moins élevé par l’apport de preuves à disposition.
En revanche, la démarche hypothético-déductive permet d’aboutir à des conclusions

certaines sur le plan logique mais qui peuvent être parfois valides et parfois non valides.
De manière générale, dans cette démarche on s’appuie sur une relation conditionnelle
de type « si alors ». Par exemple, « si je révise mes cours alors j’ai des bonnes notes »,
« si j’ai ma Licence mention très bien alors je peux intégrer un Master », etc. Cela repose
sur l’idée que si la condition est remplie (je révise / j’ai la mention Bien) alors
l’évènement, le comportement, le phénomène se produit (j’ai des bonnes notes / je peux
intégrer un Master). Si l’on considère l’exemple il est clair que l’on aboutit à des
conclusions certaines sur le plan logique (on l’observe ou on ne l’observe pas).
Toutefois, bien que la validité déductive soit présente, celle-ci ne peut pas être
considérée systématiquement comme étant égale à la vérité. On peut arriver par
déduction à des conclusions valides mais totalement fausses au plan de la réalité. Si l’on
regarde les exemples évoqués plus haut, on peut constater que ce n’est pas parce que
je ne révise pas que je ne pourrai pas avoir des bonnes notes, ou ce n’est pas parce que
j’ai une mention très bien que je pourrai intégrer un Master. Les conclusions sont
certaines sur le plan logique mais la validité déductive peut-être fausse au plan de la
réalité.
Dans la démarche hypothético-déductive la notion d’inférence causale ou

causalité occupe une place centrale. La causalité cherche à établir une relation entre
deux phénomènes dont l’un est la cause de l’autre (l’effet). La causalité traduit l’influence
ou la contribution d’une cause (comportement, évènement, objet ou état mental, par
exemple : si je révise) à l’apparition d’un effet (comportement, évènement, objet ou état
mental : j’ai des bonnes notes). La cause est ce que l’on appelle le facteur explicatif ou
variable indépendante. L’effet est le comportement étudié ou variable observée ou
encore ce que l’on nomme la variable dépendante.
10
III. Démarches et techniques de recherche en

psychologie
La recherche en psychologie s’effectue au moyen de différentes démarches et
techniques plus ou moins naturelles (écologiques) ou plus ou moins contrôlées
(expérimentales). Le niveau de détail sur l’objet de recherche varie en termes
d’exhaustivité, d’objectivité et de fidélité. Parmi ces démarches, nous pouvons identifier :
l’observation naturaliste, les comptes-rendus introspectifs, les techniques de
psychobiologie ou neurosciences comportementales, la simulation et l’intelligence
artificielle, les expériences contrôlées ou expérimentales. La plupart de ces techniques
de recherche peuvent être introduites aussi bien dans le cadre de protocoles individuels
ou à cas unique, que dans le cadre de recherches impliquant un ou des groupes de
participants. De même, certaines démarches et techniques sont mobilisées de manière
privilégiée dans certains domaines de recherche et dans certains contextes de pratique
professionnelle.
A. L’observation naturaliste :
Il s’agit d’étudier les individus dans leur environnement naturel. L’observation

naturaliste permet d’appréhender les comportements des individus dans leur contexte.
Par exemple, observer l’activité d’un individu dans son milieu professionnel
(fonctionnement d’un enseignant à l’école, d’un médecin à l’hôpital, etc.), observer une
personne ou un groupe de personnes atteintes d’une pathologie particulière, s’intéresser
aux interactions sociales d’un groupe (e.g., les études interculturelles dans certaines
communautés). Ce type de technique implique la présence d’un observateur qui fait un
inventaire des comportements liés à la situation étudiée (comportement, évènement,
état). La limite de ce type de techniques est que l’observateur peut générer des biais
dans les comportements qu’il observe.
B. Les comptes-rendus introspectifs :
Ils permettent à l’individu de décrire son propre vécu. Ils sont basés sur la
méthode d’introspection (Wundt). Font partie de cette technique, les agendas, les
journaux intimes voire les enquêtes. Le problème avec cette technique réside dans le
niveau élevé de subjectivité, aucun contrôle ne peut-être établit car c’est uniquement
l’individu qui produit et traduit ce qu’il vit. C’est une méthode qui est particulièrement
utilisée dans les démarches cliniques. De plus, elle est généralement rétrospective ce
qui peut également introduire d’autres biais sans qu’aucune intervention du psychologue
ou du chercheur ne puisse les limiter.
11
C. Les recherches en neurosciences comportementales ou

psychobiologie :
Les recherches réalisées dans ce cadre visent d’une part à éclairer le

fonctionnement du cerveau et d’autre part, à identifier et comprendre les structures
anatomiques mobilisées ou activées lors de la réalisation de diverses tâches (en
particulier cognitives).
Compte tenu des progrès scientifiques et techniques dans ce domaine, les méthodes
d’étude sont à ce jour variées et impliquent une diversité de dispositifs : la stimulation
magnétique transcrânienne (TMS), la résonance magnétique nucléaire (RMN), la
tomographie par émission de positrons (TEP), l’imagerie par résonnance magnétique
fonctionnelle (IRMf), entre autres. Ces techniques peuvent être utilisée aussi bien chez
l’individu sain (comme niveau de référence) que chez l’individu présentant une atteinte
neurologique.
a. Mesures cérébrales chez l’individu sain : cette technique vise à comprendre le

fonctionnement cérébral pendant l’exécution d’une tâche afin de rendre compte
des soubassements biologiques des différentes fonctions cognitives.
b. Mesures cérébrales chez l’individu présentant une pathologie : les études

réalisées avec cette technique ont pour objectif d’améliorer la compréhension des
fonctions cognitives chez l’individu normal. Ceci est fait par
soustraction/comparaison en fonction des zones activées dans les deux groupes
d’individus sains vs. patients. En même temps, ces recherches permettent de
repérer les soubassements cérébraux modifiés ou altérés par la pathologie.
D. La simulation par ordinateur et l’intelligence artificielle :
Ces deux techniques visent à imiter ou modéliser un comportement humain dans

un système artificiel (informatique). Des systèmes simulant la reconnaissance de formes,
la manipulation en 3D, etc., ont été déjà mis en place. D’autres systèmes visent à tester
l’architecture de certains processus. A l’heure actuelle, la plupart des processus
notamment cognitifs ont déjà bénéficié de simulations variées. Les modèles illustrant la
structure et le fonctionnement de la mémoire sont ceux qui ont bénéficié des plus
nombreuses tentatives.
E. Les expériences contrôlées ou plans expérimentaux :
Si les conditions éthiques et le contexte le permettent, il est possible de mettre en

place des expériences contrôlées. L’objectif de ces expériences contrôlées est de tester
une hypothèse, en ne faisant varier qu’un facteur (ou variable indépendante) et en
maintenant constantes toutes les autres variables susceptibles d’influencer le
comportement étudié (variable dépendante). Ces recherches s’appuient directement sur
l’approche hypothético-déductive et sur le paradigme expérimental. Celui-ci a été
développé dans les sciences de la nature et de la vie et a été transposé ensuite dans les
sciences humaines et sociales dont la psychologie fait partie. Le paradigme expérimental
rend compte d’une façon de concevoir le problème en même temps qu’il propose de
12
méthodes pour l’étudier. L’expérimentation comme toute méthode de recherche ne

constitue pas une fin en soi, c’est un moyen de produire et de recueillir des observations
susceptibles de répondre à une question et permettant de falsifier (valider ou infirmer)
une hypothèse.
Dans les expériences contrôlées on retrouve au moins deux conditions : une
condition contrôle et une condition dite expérimentale. Prenons un exemple, supposons
que l’on s’intéresse à l’influence de la méditation sur l’estime de soi des étudiants. On
peut penser que les individus pratiquant la méditation vont avoir une meilleure estime de
soi car ils régulent mieux les émotions que ceux qui ne pratiquent pas la méditation. Il
est décidé dans cette perspective de suivre deux groupes d’étudiants ayant des
caractéristiques similaires en termes d’âge, genre, niveau d’études, niveau
d’engagement sociale, fréquence de pratique sportive, etc., et qui se distinguent
uniquement parce qu’un groupe pratique la méditation une fois par semaine (condition
expérimentale) et l’autre ne la pratique pas (condition contrôle). Le facteur qui diffère
entre les deux groupes constitue la variable indépendante ou facteur explicatif. Ces deux
groupes d’étudiants vont répondre à une série de questions portant sur l’estime de soi, il
s’agit ici de la variable dépendante ou variable observée. La condition contrôle ou
groupe contrôle dans ce type de dispositif constitue la base de référence pour évaluer
l’impact du facteur étudié (la méditation) sur le comportement ou variable observée
(l’estime de soi des étudiants).
La méthode expérimentale permet de contrôler avec plus d’efficacité les variables

parasites qui peuvent biaiser la relation de causalité entre le facteur explicatif et la
variable observée. Ces variables parasites peuvent concerner les participants
(caractéristiques de représentativité ou d’équivalence entre les groupes, que l’on verra
plus tard), le matériel (la tâche, le questionnaire, les items utilisés, mots/images/vidéos,
etc.), la procédure (les moyens concrets de réalisation de l’expérience : ordre de
présentation, ordre de passation, contexte, etc.). Ce type de démarche repose sur quatre
étapes principales :
a. La construction de l’objet d’étude, formulation de la question

b. Identification de variables formulation de l’hypothèse
c. Recueil des données
d. L’analyse des résultats
e. L’interprétation et les conclusions
Compte tenu des conditions de réalisation des expériences contrôlées, un

principe fondamental du paradigme expérimental implique que l’expérience réalisée doit
être reproductible et réplicable (Plesser, 2018). La reproductibilité traduit le fait
d’aboutir aux mêmes résultats et aux mêmes conclusions lorsque l’on utilise les mêmes
procédures/dispositifs que l’étude initiale. La réplicabilité va au-delà, elle doit conduire à
des observations et des conclusions similaires à l’étude originale, lorsqu’elle est répétée
plusieurs fois, auprès de différents échantillons et en utilisant des méthodologies plus ou
moins proches de l’étude initiale. On distingue ici la réplicabilité conceptuelle, celle visant
une élaboration et prolongation des aspects théoriques de l’étude originale et la
réplicabilité directe, qui vise à produire les mêmes résultats et conclusions que l’étude
13
originale. L’objectif est d’écarter le risque de fausses conclusions qui seraient dues à une
variation aléatoire ou au hasard. En psychologie, comme dans d’autres sciences, des
débats ont eu lieu sur la difficulté constatée de répliquer des effets ayant fait l’objet de
publications scientifiques (voir par ex. Asendorpf et al., 2013 ; Nosek & Lakens, 2014).
Un collectif de chercheurs (Open Sciences Collaborations, 2015) a conduit un projet
visant à répliquer des expériences en psychologie, il a été observé que sur 100
tentatives de réplication, uniquement 36 aboutissaient. Compte tenu de l’ampleur du
phénomène, différents critères sont identifiés afin de répondre à cette difficulté de
réplication et ainsi rendre les recherches réalisées plus robustes (voir pour revue
Lantian, 2021 ; Spellman, Gilbert, & Korker, 2018).
F. Les protocoles individuels ou à cas-uniques quasi-

expérimentaux et expérimentaux
Les recherches effectuées avec des protocoles individuels ou à cas-unique sont

très anciennes et ont été particulièrement fécondes. De fait, les premiers travaux en
psychologie, à la fin du XIX siècle, issus de la physiologie (Pavlov, Thorndike) ou de la
philosophie (Wundt), se sont appuyés sur des études qui impliquaient un seul individu
(parfois l’auteur lui-même, c’est le cas d’Ebbinghaus par exemple) ou des petits
échantillons. Dans ce cas, ces protocoles à cas-uniques étaient réalisés comme une
expérience contrôlée. Toutefois, ce type de protocole individuel a été également utilisée
en psychologie clinique et dans les descriptions issues des observations naturalistes
réalisées par les psychanalystes (Freud & Breuer, 1895). L’ensemble de ces recherches
ont permis de poser les principes fondateurs de ce qui serait la psychologie en tant que
discipline. Malgré ce constat, la réalisation des recherches basées sur des protocoles à
cas-uniques ont été délaissées longtemps en raison de l’idée qui relie validité et quantité
de données recueillies. En effet, il est considéré que plus le nombre d’observations est
important plus les résultats issus de ces observations peuvent être valides. Ce que
certains appellent l’orthodoxie méthodo-statistique (Gana, Gallec & Broc, 2019). A
l’heure actuelle, le regain d’intérêt pour les protocoles individuels ou à cas-uniques est le
résultat d’une part des recommandations de l’APA (Association Américaine de
Psychologie, 2006) d’intégrer recherche et expertise clinique dans un contexte adapté
aux caractéristiques des patients. L’objectif ici est d’évaluer scientifiquement l’impact réel
des pratiques et des programmes mis en place en psychologie. En lien avec cette
demande, la deuxième raison repose sur le fait que certains protocoles individuels ou à
cas-uniques sont basés sur une démarche expérimentale ou quasi-expérimentale. Par
conséquent, les conclusions auxquelles ces recherches aboutissent permettent de faire
parfois des inférences de causalité aussi valides que celles des recherches impliquant
des groupes d’individus.
14
1. Quels sont les types de protocole individuels ou à cas-

uniques ?
1.1. Les études de cas :
Ce type de protocole a pour objectif d’observer un individu-cas (e.g., patient, groupe,

classe, famille) en interaction avec un contexte d’intérêt (e.g., vie quotidienne, activité
professionnelle, thérapie psychologique, etc.). La focalisation sur une entité unique
permet au chercheur ou au psychologue d’identifier de manière précise les facteurs liés
à l’expérience de vie ainsi que les caractéristiques de l’individu étudié. Ce type de
protocole est généralement basé sur l’observation naturaliste, les informations recueillies
sont généralement qualitatives et ne sont ni systématiques, ni quantifiables. Le protocole
basé sur l’étude de cas est particulièrement judicieux, si la population visée par ces
recherches possède des caractéristiques spécifiques voire rares (par exemple
personnes atteintes de pathologies, situations professionnelles particulières, conduites
particulières) qui rendent difficile la constitution de grands échantillons. Ils présentent
également l’avantage de pouvoir s’intégrer dans la pratique clinique habituelle du
psychologue et d’être ainsi une source d’informations sur sa propre pratique clinique. En
raison du fait que les études de cas sont intégrées dans le paysage du clinicien, ils
alimentent la démarche empirico-inductive et conduisent parfois à générer des nouvelles
hypothèses qui seront à leur tour mises à l’épreuve grâce à des méthodes
expérimentales. Malgré ces avantages, la faiblesse la plus marquante des études de cas
c’est justement l’absence de cadre méthodologique qui permette un contrôle de la
situation ainsi qu’un recueil et analyse rigoureuse. Cette absence de cadre rigoureux ne
permet pas de tirer des conclusions fiables sur les relations existantes entre les
différentes variables impliquées dans la situation (Kazdin, 2011), notamment de type
causal.
1.2. Protocoles individuels ou à cas-uniques quasi-

expérimentaux
Ces protocoles se situent entre les études de cas que l’on vient de voir et les
protocoles expérimentaux que l’on verra ensuite. Les recherches effectuées avec des
protocoles individuels quasi-expérimentaux sont celles pour lesquelles la situation
d’étude ne permet pas un niveau de contrôle et/ou de manipulation suffisant
caractéristiques d’un protocole purement expérimental. Cependant, dans les protocoles
individuels ou à cas-uniques quasi-expérimentaux, il est possible d’intégrer des éléments
expérimentaux afin d’augmenter la validité interne de l’étude.
Il est à noter que les protocoles quasi-expérimentaux et expérimentaux partagent la

présence de plusieurs phases de mesure et l’itération des mesures à chaque phase qui
sont décrites ci-après.
a. La présence de plusieurs phases de mesure :
15
On identifie deux phases dans ce type de protocole : la ligne de base (A) et

l’intervention ou manipulation expérimentale (B). Ces phases peuvent être répétées
en fonction des recherches effectuées.
i) La phase de base ou pré-intervention (désignée par la lettre A) : correspond

aux mesures de la variable dépendante effectuées avant l’intervention. Il est
recommandé d’en faire autant que possible de mesures car plus il y a des
mesures et plus il sera possible de détecter tout changement pouvant intervenir
après l’introduction de l’intervention ou de la manipulation expérimentale.
ii) La présence d’une intervention ou d’une manipulation expérimentale est
considérée comme la phase B : Les protocoles à cas-uniques (expérimentaux
ou quasi-expérimentaux) impliquent la mise en place d’une manipulation
expérimentale spécifique ou l’ajout d’une intervention (par exemple, une thérapie,
un traitement, une activité, etc.). Cette intervention correspond au facteur
explicatif ou variable indépendante de l’étude.
b. L’itération ou répétition des mesures dans chacune des phases A et B :
Puisque dans les protocoles individuels ou à cas-unique il est possible d’observer

l’évolution du comportement de l’individu tout au long de l’étude par rapport à lui-même
(variabilité intra-sujet), la première condition indispensable à la mise en place de
protocoles quasi-expérimentaux est la répétition de la mesure (variable observée,
variable dépendante) dans les différentes phases de l’étude (A et B).
Dans ce type de protocole le moment, la fréquence et la méthode d’évaluation
dépendent du phénomène étudié et de la vitesse de son évolution. Il est possible de
mettre en place des mesures à des intervalles réguliers du phénomène étudié, par
exemple quotidiennement, ou une fois par semaine, ou une fois par mois, etc. Dans
cette perspective, il est également important de s’assurer que les instruments de mesure
utilisés sont fidèles, sensibles, valides, c’est-à-dire que l’on mesure bien le phénomène
ou comportement que l’on est censé mesurer et que les instruments de mesures sont
robustes d’un point de vue psychométrique. De même il est essentiel d’utiliser à chaque
évaluation la même procédure afin de limiter l’impact de la méthode sur l’apparition des
changements comportementaux. L’ensemble de ces éléments doit être considéré au
regard du contexte de réalisation de l’étude (clinique, travail, éducation, etc.)
Les protocoles individuels ou à cas-uniques quasi-expérimentaux permettent de

mettre en évidence la modification du comportement du même individu (i.e., groupe,
situation, famille, etc.) au cours du temps et de dégager un pattern d’évolution en
fonction des conditions dans lesquelles il est placé successivement. Ils permettent
d’apporter des réponses quant à la nature du changement observé ainsi que de
déterminer si les modifications constatées sont susceptibles d’être la conséquence de
l’intervention intégrée au dispositif. Cependant, les résultats observés avec l’utilisation de
ce type de protocole pâtissent de l’absence de groupe contrôle (condition sans
intervention). Ils nécessitent des réplications permettant de contrôler les biais potentiels
16
liés à d’autres facteurs externes à l’étude, tels que les facteurs historiques,
d’instrumentation, de familiarité, etc., afin d’assurer une validité interne et externe
suffisantes. Un exemple de protocole quasi-expérimental est celui nommé AB.
i) Les protocoles A-B : il s’agit d’un plan basique avec une ligne de base (A) et
une phase d’intervention (B). Par exemple, si l’on s’intéresse à l’effet de la
méditation sur le sommeil, on mesure le sommeil du patient une fois par jour
pendant 21 jours avant d’intégrer les séances de méditation durant 21 jours,
pendant lesquels on mesure également le sommeil une fois par jour. Dans ce
dispositif, il est possible de comparer les 21 mesures de sommeil (pré-
intervention, phase A) aux 21 mesures de sommeil durant l’intervention (phase
B). Les inconvénients de ce type de plans peuvent être :
- La non prise en compte de facteurs autres que celui du traitement (historiques

et maturationnels) ;
- L’absence de groupe contrôle ;
- Le manque de fiabilité d’une mesure unique du niveau de base et au niveau de
traitement ;
- La répétition de la mesure  effet d’apprentissage
1.3. Protocoles individuels ou à cas-uniques expérimentaux
Ces protocoles intègrent un niveau de contrôle supérieur aux protocoles

individuels quasi-expérimentaux. Sont catalogués dans cette rubrique les
protocoles arrêt-reprise de type ABA ou ABAB, les protocoles à lignes multiples,
les protocoles à critères changeants.
a. Les protocoles arrêt-reprise : il s’agit ici des protocoles qui impliquent des
séquences de retour à la phase de base suite à un arrêt de l’intervention et des
séquences de reprise de l’intervention.
i) Les protocoles avec arrêt-reprise A-B-A ou ABAB :
Ces plans impliquent trois phases, la phase A ou phase de pré-intervention qui

constitue la mesure du niveau de base du phénomène étudié (condition contrôle). La
phase B ou intégration de l’intervention ou encore la variable manipulée permet de
mesurer le phénomène étudié durant la durée de l’intervention. Ensuite, l’intervention
est arrêtée ou retirée et l’on mesure encore le phénomène étudié. Il est attendu que le
niveau du phénomène étudié revienne à son niveau de base initiale (phase A).
Les mesures réalisées dans la phase de pré-intervention constituent la condition contrôle
ou niveau de base du phénomène ou comportement étudié. Elles permettent de disposer
d’une mesure de base de l’individu en l’absence de toute intervention. Elles permettent
également de déterminer quelle est l’évolution du comportement une fois que
l’intervention est mise en place et si celle-ci est la cause du changement observé. Ce
type de plan limite les menaces à la validité interne, c’est-à-dire considérer que le
17
changement constaté est lié à d’autres facteurs externes à l’intervention telles que la
maturation, la régression vers la moyenne (car les mesures sont répétées) ou encore les
facteurs historiques. Dans la mesure ou le niveau du phénomène étudié après le retrait
de l’intervention revient à un seuil proche à celui mesuré avant l’intervention (dans la
phase A), l’explication en termes de causalité entre l’intervention et le phénomène étudié
est consolidée.
Si l’on reprend l’exemple de la méditation et du sommeil, on ajoute aux phases A (pré-

intervention : niveau de sommeil de base) et B (intervention : niveau de sommeil durant
les séances de méditation) une troisième phase qui implique le retrait de l’intervention
(niveau de sommeil après l’arrêt de séances de méditation). Au total, on va se retrouver
avec 21 mesures en pré-intervention / 21 mesures pendant la méditation / 21 mesures
après l’arrêt de la méditation). On peut également décider de diminuer le nombre de
sessions comme indiqué dans la figure 1.
Figure 1. Exemple d’un protocole ABA ou ABAB. Figure extraite de Lenovaz (2013, p.
166)
Ce type de plan présente cependant des limites :
- Les effets d’apprentissage liés à la répétition des mesures ;

- Ils ne sont pas utilisable lorsque les interventions/traitements conduisent à des
modifications irréversibles (thérapies, intervention en formation, opérations
chirurgicales..) ;
- Ils posent des problèmes déontologiques : suspendre une action thérapeutique
destinée à améliorer l’état du patient est problématique, d’où le recours à des
plans de type ABAB.
Les plans ABAB visent à répliquer l’effet de l’intervention en la réintroduisant après l’arrêt
(des nouvelles séances de méditation par exemple). Si le traitement (B) a vocation à
améliorer l’état du patient, après la phase de retrait de traitement (A2), le traitement est
de nouveau administré au patient et on peut de nouveau prélever une mesure B pour
évaluer de nouveau l’effet du traitement.
Ce plan est utilisé pour pallier les faiblesses déontologiques du plan précédent.
18
b. Les protocoles à lignes de base multiples :
Il s’agit des plans de type AB qui nécessitent au moins deux cas (participants, contextes,
comportements, etc.). Dans ce type de dispositif, le début de la phase A (pré-
intervention) est le même pour tous les participants mais la phase B d’intervention va se
mettre en place à des moments différents pour chacun des participants. En revanche,
elle se termine au même moment pour tous les participants (contextes, comportements).
L’objectif de ce type de protocole est de voir si l’intervention ou la variable manipulée
impacte l’un des comportements ciblés alors que les autres restent stables.
Par exemple, les patients présentant de difficultés de sommeil sont évalués au même
moment phase A (pré-intervention) mais le début de l’intervention (B) avec les séances
de méditation est décalée. Le patient 1 commence après une phase de base (A) de 3
jours (séances), le patient 2 commence après une phase de base (A) de 9 jours
(séances), le patient 3 commence après une phase A de 11 jours (séances). La figure 2
illustre le dispositif évoqué dans l’exemple.
Trois plans de lignes de base multiple peuvent être utilisées :

1) Les plans à lignes de base multiple appliqués à des participants : ces plans
impliquent qu’un traitement particulier soit appliqué à des moments différentes,
sur un seul comportement ciblé, à des participants appariés et supposés ayant
été confrontés aux mêmes conditions environnementales.
2) Les plans à lignes de base multiple appliqués à des comportements cibles : ces
plans demandent que chez un même sujet l’intervention soit appliquée à des
comportements cibles indépendants et à de moments différents.
3) Les plans à lignes de base multiple appliqués à des contextes : ici il s’agit
d’appliquer un traitement à un seul participant placé, dans des contextes
différents et indépendants et à des moments différents et sur un seul
comportement ciblé.
19
Patient 1
Patient 2
Patient 3
Figure 2. Exemple illustrant les protocoles à lignes de base multiple adapté de Lenovaz
(2013, p. 169)
L’intervention est considérée comme efficace si le comportement est modifié suite à

l’intervention ciblée sur ce comportement, contexte ou participant alors que les autres
lignes de base restent stables.
De manière analogue aux protocoles avec arrêt-reprise ce type de protocole de

lignes de base multiple commence par une ligne de base avant l’intervention. En
revanche, ici il n’y a pas de retour à la ligne de base, l’effet de l’intervention est mis à
l’épreuve en testant différents participants, contextes et comportements au fil du temps.
C’est justement ce décalage dans l’introduction de l’intervention qui permet d’éviter une
explication du changement du comportement en termes de facteurs externes. Le
comportement ciblé doit changer alors que les autres non concernés par l’intervention
doivent rester stables. Pour utiliser ce type de plan il est nécessaire de s’assurer que les
comportements, contextes et participants ciblés sont indépendants les uns des autres
(voir Hendricks et al., 2017). S’il y a co-variation, c’est-à-dire que l’on observe une
modification de toutes les lignes de base quand l’intervention est appliquée sur un
comportement ciblé, il est nécessaire d’utilise d’autres types de plans. Toutefois, ils
présentent l’avantage d’être applicables facilement dans un contexte clinique et
impliquent de par leur dispositif une réplication des effets. Ce qui permet d’établir un lien
causal entre l’intervention et le comportement, à condition que les critères choisis soient
indépendants.
20
c. Les protocoles à critères d’intervention changeants
Ces protocoles sont de type AB et l’intervention est dirigée vers un comportement.

L’objectif ici est d’introduire un critère pour renforcer le comportement attendu, ce critère
n’est pas fixe mais va être modifié progressivement afin d’accroitre l’ampleur de la
modification du comportement. De plus, on passe d’une phase à l’autre uniquement
lorsque le patient atteint un niveau de référence fixé par le critère de renforcement. La
relation causale entre l’intervention et la modification du comportement est mise en
évidence lorsque la modification du critère de renforcement fait apparaître un
changement de comportement. Ce type de protocole est particulièrement utile dans le
cadre de modifications comportementales qui demandent du temps. Il permet en effet de
modifier progressivement le critère d’intervention et ainsi conduire à un changement du
comportement ciblé par le biais du renforcement. De ce fait, ce type de protocole
suppose des interventions motivantes ou incitatives.
Par exemple dans le traitement des addictions comme le tabac, on établit un niveau de
base de consommation de cigarettes dans la phase A (nombre de cigarettes par jour =
25 => 100% de la consommation). Lors de la phase B le critère fixé (nombre de
cigarettes par jour = 20 => 80% de la consommation intiale) est inférieur à celui de la
phase A. Lorsque l’objectif est atteint le comportement est renforcé et il pourra passer à
la phase suivante (15 cigarettes) et ainsi de suite jusqu’à atteindre l’objectif final.
Figure 3. Exemple illustrant le protocole à critères d’intervention changeants appliqué à

l’exemple du nombre de cigarettes consommés par jour. Figure extraite de Lenovaz
(2013, p. 171)
Ces deux dernières techniques sont considérées comme étant complémentaires et

fournissant d’importantes informations aux recherches effectuées en laboratoire. Par
ailleurs, certaines recherches peuvent combiner plusieurs plans à cas unique en fonction
des contraintes du terrain ou des objectifs visés par le chercheur ou le praticien. La
21
figure 4 illustre des variantes de plan à critères changeants avec des plans de type
ABAB. Les principes évoqués dans chacune des sections précédentes s’appliquent dans
ce type de dispositif.
Figure 5. Extraite de Lanovaz (2013, p. 172).
2. L’analyse des données obtenues à partir des protocoles individuels ou à cas-

uniques
L’objectif de l’analyse des données est de décrire les changements de comportements

observés et de faire des inférences concernant l’efficacité de l’intervention réalisée sur le
22
phénomène étudié. Deux techniques d’analyse sont utilisées dans le cadre des
protocoles à cas uniques : a) l’examen visuel, qualitatif des données à partir des
graphiques, b) les analyses statistiques.
L’examen visuel vise à évaluer l’effet de l’intervention en comparant la performance
obtenue dans la phase A (sans intervention) à la performance obtenue dans la phase B
(avec intervention). D’après Lane et Gast (2014) l’analyse visuelle des données
nécessite la prise en considération de 6 critères différents qui permettent d’examiner les
données dans chacune des phases mais également entre les différentes phases comme
suit :
- Le niveau correspond à la moyenne des données dans chacune des phases
(phase A et phase B) et son évolution entre les deux phases
- La tendance des données qui renvoie à la pente de la ligne qui caractérise les
scores dans chacune des phases (A et B). L’idée est de déterminer si la pente
change entre les phases.
- La variabilité des données observées, autrement dit le niveau de déviation des
scores autour de la ligne de régression dans une phase (A et B) et leur
évolution entre les phases.
- Le recouvrement entre les phases qui renvoie au pourcentage de scores dans
une phase qui se recouvre avec l’étendue des scores de la phase précédente
- Le caractère immédiat de l’effet évalué entre les phases qui repose sur
l’ampleur du changement entre les dernières mesures d’une phase et les
premières mesures de la phase suivante
- La similarité entre les phases c’est-à-dire le degré de similarité entre des
patrons de données de phases équivalents. Par exemple détermine si les
patterns des données entre A1 et A2 se ressemblent plus ou moins que ceux
entre les phases B1 et B2.
Malgré l’existence de ces critères, l’examen visuel des données présente l’inconvénient
d’une absence de règles permettant de déterminer si un changement significatif du
comportement entre les phases est observé. De même, la question sur la validité des
inférences à partir des données visuelles demeure. Dans ce cadre, des chercheurs se
sont intéressés aux taux d’accord inter-juges. Ils sont mis en évidence que ce taux
d’accord inter-juges à partir de l’interprétation des graphiques était faible, tout comme les
convergences entre les analyses statistiques et les jugements visuels. Ils ont ainsi
démontré que les effets non significatifs étaient plus concordants que les effets
significatifs. En raison de ces éléments, il est recommandé actuellement d’effectuer les
deux analyses visuelle et statistiques (Kazdin, 2011).
Les protocoles individuels ou à cas-unique qu’ils soient expérimentaux ou quasi-
expérimentaux constituent un moyen rigoureux et utile à la recherche fondamentale et
appliquée. Ils sont adaptés aux contraintes du terrain et permettant d’évaluer ainsi
l’efficacité des interventions ou l’évolution des comportements. La limite principale
concerne la validité externe puisque les effets reposent sur un cas-unique (individu,
famille, classe, etc.) qui demande à être réplicable.
23
Les techniques et démarches pour réaliser des recherches sont variées comme nous
pouvons le constater. Ces dispositifs sont guidés par les objectifs du chercheur ou du
psychologue dans sa pratique professionnelle. Dans tous les cas, quelque soit le type de
dispositif utilisé qu’il s’agisse d’une étude expérimentale ou quasi-expérimentale, qu’elle
concerne des groupes de participants ou des protocoles à cas-uniques, le chercheur et
le praticien peuvent œuvrer pour assurer une validité expérimentale suffisante. A cet
effet, il est important de s’assurer que certains critères de validité soient respectés.
Dans la section suivante nous traiterons de trois notions indispensables dans
l’élaboration et la mise en place d’une recherche : la validité de construit, la validité
interne et la validité externe.
IV. Critères de validité d’une recherche

Lorsqu’on élabore un plan d’expérience, il est nécessaire d’évaluer sa validité
expérimentale ; elle dépend de la validité des construits, de la validité interne et
externe de l’étude.
A. La validité des construits
La validité des construits dépend de la correspondance entre les concepts

théoriques étudiés et les éléments de l’expérience censés les opérationnaliser.
Plus les observables que vous avez choisis d’étudier dans l’expérience reflètent
les concepts théoriques, plus la validité des construits est importante. Le passage
des éléments théoriques aux éléments concrets dans l’expérience s’appelle
l’opérationnalisation et il s’agit d’une phase très importante. La validité des
construits renvoie aux choix d’opérationnalisation concernant la variable
indépendante, la tâche, le matériel et la variable dépendante. Ces choix doivent
trouver leurs justifications dans des travaux existants.
Ainsi, dans un plan d’expérience, les variables indépendantes et dépendantes
peuvent (mais ce n’est pas systématique) être décrites à deux niveaux : le niveau
conceptuel/général/théorique et le niveau concret/opérationnel.
Voici des exemples de concepts abstraits en psychologie : l’intelligence, le
soutien social, l’extraversion, la mémoire, la cohérence d’un texte,
l’individualisation d’une société, l’apprentissage chez un étudiant, la complexité
d’une tâche, etc. Ces variables sont dites générales.
Voici des exemples de manipulation ou de mesure concrète : le score au test de
la WAIS, le nombre d’amis que l’on pense pouvoir appeler en cas de gros
problème, le score aux échelles de l’inventaire de personnalité d’Eysenck, le
pourcentage d’items correctement rappelés à une tâche de rappel, le nombre de
connecteurs dans un texte, le pourcentage de personnes qui font du bénévolat,
la note obtenue à un examen, le nombre d’items à mémoriser… Ces variables
sont dites opérationnelles.
Aussi, au départ une hypothèse est formulée à un niveau général mais après le
processus d’opérationnalisation, il sera alors possible de la formuler à un niveau
opérationnel. A noter qu’une même hypothèse générale peut être opérationnalisée
de multiples façons en fonction du choix de la tâche, des manipulations opérées,
du matériel choisi, etc.
Par exemple, « des stimuli ayant une valence émotionnelle positive ou négative
24
seront mieux mémorisés que des stimuli neutres » est une hypothèse générale.
On ne sait pas ce que sont les stimuli, comment la valence émotionnelle est
manipulée, ni comment la mémorisation est évaluée.
Un exemple d’hypothèse opérationnelle pourrait être : lors d’une tâche de
reconnaissance, le nombre de noms d’objets correctement reconnus sera plus
élevé lorsque les objets ont une valence émotionnelle positive ou négative que les
objets ayant une valence neutre.
Il est fondamental d’évaluer la qualité de l’opérationnalisation car c’est un élément
crucial pour juger de la validité d’une étude.
Notez que la question de l’opérationnalisation d’un concept n’est pas propre à la
psychologie. C’est une question qui touche toutes les tentatives de mesure (le
taux de chômage, la santé financière d’un pays, la fiabilité d’une voiture, l’efficacité
d’une méthode de remédiation cognitive, etc.)
Exemple :
Vous connaissez tous l’épreuve de conservation du nombre chez Piaget : un adulte présente deux
rangées de jetons aux enfants, l'une, longue, composée de 4 jetons, et l'autre, courte, mais
composée de 6 jetons. Si l'on demande aux enfants laquelle a le plus de jetons, la plupart des
enfants de 3-4 ans choisissent la rangée la plus longue alors que c’est celle qui comporte le moins
de jetons. On en a conclu que les enfants de 3-4 ans ne maîtrisaient pas la notion de nombre. Mais
deux chercheurs (Mehler & Bever, 1967) ont eu l'idée de remplacer les jetons par des bonbons. Au
lieu de poser la question piagétienne aux enfants, ils leur demandaient de choisir la rangée qu'ils
souhaitaient emporter à la maison pour pouvoir les manger. Cette fois, la majorité des enfants
choisit la rangée qui comporte le plus grand nombre de bonbons même si c’est la plus courte !
Cette différence de résultats liée à la différence de consigne montre que les deux tâches utilisées
ne mesurent pas exactement la même chose, alors qu’on aurait pu penser qu’elles reflétaient
toutes deux la représentation du nombre chez l’enfant.
B. La validité interne
La validité interne renvoie au degré auquel des différences au niveau de
la VD peuvent être attribuées sans ambiguïté à l’effet d’une VI (ou plusieurs) et
non pas à l’effet d’autres variables non contrôlées ou non neutralisées. Plus la
validité interne d’une expérience ou d’une étude est élevée, plus les
conclusions tirées seront fiables : la relation de cause à effet entre la VI et la
VD (si elle est avérée) sera établie avec un degré de certitude élevé. C’est donc
un indice de la valeur scientifique d’une étude.
Campbell et Stanley (1966) ont énoncé plusieurs variables à neutraliser ou, sinon,
à contrôler pour assurer une validité interne élevée. Ces variables se retrouvent
dans de nombreuses situations expérimentales, c'est pourquoi elles ont été
classifiées. Toutefois, elles sont loin d'être exhaustives. Comme nous le verrons
plus loin, de nombreuses autres variables peuvent venir compromettre la validité
interne d'une étude, elles sont souvent spécifiques à la situation étudiée et doivent
donc être identifiées au cas par cas au regard des résultats empiriques établis par
la littérature dans le domaine.
Ainsi, on peut distinguer deux catégories de variables à contrôler :
- des variables dites méthodologiques, c’est-à-dire mécaniquement liées au
type de plan d’expérience (voir ci-dessous et plus bas) et
- des variables théoriques, c’est-à-dire liées au fait que la VD ne dépend
pas que de la ou des VI dont vous souhaitez investiguer l’effet (la plupart
des comportements humains sont en effet multi-déterminés).
25
1. Les facteurs historiques

Les facteurs historiques englobent tous les évènements qui se produisent dans
la vie du sujet et l’environnement interne ou externe du sujet au moment de
l’expérience et qui pourraient modifier son comportement. Ces évènements
peuvent apparaître au plan médiatique ou bien concerner tout particulièrement le
sujet (naissance, décès d’un proche…).
L’influence des facteurs historiques liés à l’histoire personnelle du sujet n’est
pas à craindre dans des plans d’expérience utilisant un échantillon important car
concernant un faible nombre de participants, elle a peu de probabilité de
bouleverser les tendances générales.
Exemple :
Un psychologue veut évaluer l’efficacité d’une thérapie X par rapport à une
thérapie classique chez des sujets souffrant d'une phobie des transports aériens.
On peut se poser la question suivante : la thérapie classique a-t-elle vraiment un
effet moindre ou bien cette inefficacité relative est-elle due au fait que, pendant
son application, les journaux ont retracé plusieurs accidents d’avions alors que
ce ne fut pas le cas lors des thérapies comportementales?
2. La maturation
Il s’agit de changements au plan biologique et psychologique qui interviennent au
cours du temps indépendamment du contenu des évènements spécifiques. Les
participants peuvent devenir plus mûrs au cours du temps, plus sensibles
émotionnellement… Ainsi, des changements circadiens sont des changements
transitoires imputables à la maturation. Par exemple, après le repas de midi,
certaines performances chutent. L’effet de la maturation peut renvoyer chez le
jeune enfant au passage du quatre pattes à la station debout, à l’acquisition du
langage verbal…
Remarque : Les facteurs historiques et maturationnels auront d'autant plus de chances de jouer un
rôle interférent que l'intervalle de temps entre le début de l'application du traitement (variable
indépendante) et la mesure de la variable dépendante est étendu.
3. La régression vers la moyenne

Au fil de la répétition des mesures, les participants ont tendance à avoir une
performance proche de la performance moyenne appelée « Régression
vers la moyenne ». Ce phénomène se produit chez tous les sujets mais est
accentué chez ceux qui ont des valeurs initiales extrêmes (très élevées ou
très faibles). Ce phénomène provient du fait que la plupart des mesures en
psychologie ne corrèlent pas parfaitement d'un testage à l'autre. Si, au cours de
la première passation d'une mesure quelconque, des sujets obtiennent des
scores extrêmement bas, ils ne pourront, lors d'une seconde épreuve, que
s'améliorer, indépendamment de ce qui se passe entre temps et ce, parce que
la seule marge de manœuvre se trouve du côté de la moyenne. De même, des
sujets ayant des scores très élevés à un premier test obtiendront des scores
moins élevés à un second. Il s’agit d’un phénomène statistique mécanique.
Ainsi, un élève qui obtient une très bonne note en mathématique (19 ou 20/20)
a plus de chance à un contrôle ultérieur d’obtenir une note moins bonne qu’une
note égale ou meilleure car la marge de variation se trouve vers la moyenne.
4. Le biais de sélection
Lorsqu’un psychologue veut comparer un groupe expérimental (par exemple,
26
thérapie X) à un groupe contrôle (thérapie Y), il n’a pas toujours le contrôle de la

répartition des sujets dans les groupes ; autrement dit, il arrive que les groupes
soient déjà constitués, ils pré-existent à l’expérience. En l’absence de répartition
aléatoire des sujets dans les groupes (voir plus bas), on peut craindre une
absence d’équivalence des groupes. Une absence d’équivalence des groupes
signifie que les deux groupes dont on va comparer les performances diffèrent
sur des variables susceptibles d’influencer le comportement étudié. L’absence
d’équivalence peut affecter la validité interne de l’expérience : on ne pourra
pas savoir à quelle variable attribuer les différences observées au niveau de la
VD. Le biais de sélection est à craindre lorsque le plan d’expérience comporte
plusieurs groupes de sujets indépendants et que l’expérimentateur n’a pas de
prise sur leur constitution. Lorsque les modalités de la VI ne dépendent pas du
psychologue mais sont imposées par la situation, on dit que la VI est invoquée.
C’est souvent le cas de variables ayant trait aux caractéristiques des sujets (leur
sexe, leur âge, leur niveau d’étude…). Lorsque les modalités de la VI sont sous le
contrôle de l’expérimentateur et qu’on peut répartir les sujets aléatoirement dans
les groupes, on parle de VI provoquée.
Exemple : Un psychologue veut savoir si le fait de lire des magazines jeunesse à la maison a un
impact sur l’apprentissage de la lecture chez les enfants. Après une première réflexion, le
psychologue choisit de demander aux parents d’enfants issus de plusieurs classes si ils ont
abonné leur enfant à un magazine jeunesse et de constituer à partir de leurs réponses 2 groupes
d’enfants (abonnés vs non abonnés). Cependant, après avoir lu des ouvrages et des articles
scientifiques sur les déterminants de l’apprentissage de la lecture, le psychologue se rend compte
qu’un facteur très important dans l’apprentissage de la lecture est la place que l’écrit occupe dans
la culture familiale de l’enfant ; ainsi, un enfant qui évolue dans un milieu familial dans lequel la
lecture occupe une place importante aura plus de facilité lors de l’apprentissage de la lecture. Le
psychologue se rend compte que son mode de sélection des sujets et de constitution des 2
groupes va poser un problème ; en effet, on peut supposer que des parents qui ont abonné leur
enfant à un magazine jeunesse offrent par ailleurs à l’enfant un environnement favorable à l’écrit et
la lecture. Ainsi, il sera difficile de savoir si un apprentissage plus rapide de la lecture chez les
enfants abonnés sera dû au fait qu’ils lisent des magazines à la maison ou au fait qu’ils bénéficient
d’un environnement favorable à cet apprentissage. Le psychologue décide alors de choisir une
classe d’enfants et de proposer un abonnement à un magazine jeunesse à la moitié d’entre eux
sur la base d’un tirage au sort. Il est donc passé d’une VI invoquée à une VI provoquée.
5. La mortalité expérimentale
Surtout lors d'interventions coûteuses en temps, énergie et argent, il existe un
risque que les sujets abandonnent en cours de route et qu'ils le fassent
différentiellement suivant le type de traitement poursuivi. Si c'est le cas, la
différence de résultats est-elle attribuable à l'efficacité inégale des traitements ou
à cette mortalité expérimentale ? Ce risque se produit surtout dans des études
longitudinales ou lorsque le traitement (ou l’absence de traitement) est associé à
des aspects négatifs ou contraignants pour le sujet (douleurs, par exemple).
6. Testage ou effet d’apprentissage

Être examiné une fois peut avoir une incidence sur le résultat d'un second examen
: la première fois que je suis confronté à un test projectif, je peux me sentir
désemparé pendant quelques instants et obtenir un score moyen. Habitué à ce
test, la prochaine fois, je réussirai beaucoup mieux sans que cela ait quelque
chose à voir avec le traitement ou, en d'autres termes, avec la variable
indépendante. Autrement dit, la simple répétition de la mesure peut parfois
affecter la performance. Les effets d’apprentissage sont à contrôler lorsque la
mesure de la VD a lieu plusieurs fois chez un même sujet ; c’est le cas lorsque le
27
plan est à mesures répétées (le sujet passe par toutes les modalités de la VI, voir
plus loin) ou lorsqu’on répète la tâche dans une même modalité de VI pour
obtenir des données plus fiables. Cependant, certaines mesures peuvent être
répétées sans que cela n’affecte la performance (par exemple, une mesure de
pression artérielle ou de rythme cardiaque).
7. L’instrumentation
Il s'agit de la standardisation avec laquelle l’expérimentateur fait passer les
épreuves, les observations. Elle risque de fluctuer avec le temps et les
circonstances : on est plus fatigué en fin de recherche qu'au départ, on bafouille
plus au début qu'ensuite, on est davantage motivé par de nouveaux patients que
par d'anciens, peut-être les thérapeutes utilisant telle thérapie ont-ils des critères
de guérison plus souples que les autres, etc. La standardisation est
particulièrement importante dans des expériences où le plan d’expérience
implique d’exposer le participant à une situation particulière (par exemple, une
situation de recrutement ou une agression fictive).
8. Les attentes du participant

Les participants peuvent construire des hypothèses personnelles sur les
réponses attendues par l'expérimentateur et se comporter comme ils pensent
que le psychologue veut qu’ils se comportent. Cette autosuggestion, consciente
ou inconsciente, peut être contrôlée par la technique du simple-aveugle, qui
consiste à ne pas révéler au sujet à quelle condition expérimentale il est soumis.
Effet Hawthorne : une personne, à partir du moment où elle se sait observée,
risque de modifier son comportement et ne pas être telle qu’elle serait en situation
normale. Mayo a observé une amélioration du rendement des ouvrières due au
simple fait que l’on s’intéressait à elles.
9. Les attentes de l’expérimentateur psychologue

Le psychologue souhaite généralement que son hypothèse soit vérifiée par les
faits. Il peut induire le comportement du participant par des regards, mimiques,
gestes ou paroles involontaires du psychologue.
Cet effet est illustré par l’effet Pygmalion. En 1968, Rosenthal et Jacobson
apportent la preuve que lorsqu’on dit à un enseignant que tel élève est brillant, le
comportement de l’enseignant induit de meilleures notes chez cet élève
contrairement à un autre enseignant à qui on dit que ce même étudiant a plutôt
des résultats médiocres. La technique du double-aveugle, permet de contrôler
cet effet. Le sujet est soumis à la même procédure que pour la technique du
simple aveugle et l’expérimentateur ne sait pas à quel groupe (expérimental ou
témoin) appartient le participant, ne connaît pas le contenu du produit qu’il
administre au participant.
10. Variables parasites spécifiques à la question étudiée

Au-delà des variables identifiées par Campbell et Stanley (1966), il existe pour
chaque expérience mise en place des variables parasites spécifiques à contrôler.
En effet, les comportements humains ne dépendent jamais d’un seul facteur mais
sont multidéterminés. Le psychologue identifie généralement ces facteurs sur
la base des études empiriques réalisées antérieurement sur la question. Une
fonction importante de l’examen de la littérature est donc d’identifier des variables
parasites potentielles pour les contrôler.
28
Exemple : Si vous souhaitez étudier l’impact de marques typographiques dans un texte sur
l’attention du lecteur (reflétée par son diamètre pupillaire) avec un dispositif d’enregistrements de
mouvements oculaires, il faudra prendre garde à ce que le degré de luminosité dans la pièce soit le
même pour tous les sujets car ceci peut influencer fortement le diamètre pupillaire. Si vous ne le
contrôlez pas, les variations de luminosité risquent d’affecter le diamètre pupillaire ; ainsi, vous ne
pourrez pas décider si les variations du diamètre pupillaire sont liées aux variations typographiques
ou de luminosité, ce qui réduit la validité interne de l’expérience.
C. La validité externe
La validité externe renvoie à la généralisation d’un résultat obtenu à

d’autres situations, d’autres populations, d’autres conditions. La validité externe
dépend de la validité interne. Pour qu’il y ait une bonne validité externe, il faut
qu’au préalable on se soit assuré de la validité interne.
La validité externe dépend surtout :
- de la validité écologique : capacité de la situation expérimentale à
représenter une situation réelle ;
- de la représentativité des sujets : taille de l’échantillon
suffisante et représentativité par rapport à la population parente. Si le
psychologue ne peut pas constituer son échantillon et ses groupes de
sujets au hasard (par exemple lorsque les modalités de la VI ne sont pas
manipulables par le psychologue), les risques que les sujets présentent des
caractéristiques particulières sont grands. Afin que la représentativité des
participants soit garantie, plusieurs techniques d'échantillonnage peuvent
être utilisées.
D. La parcimonie
La parcimonie d’un plan renvoie à la capacité d’un plan d’expériences à tester les
hypothèses générales sous des conditions nécessaires et suffisantes. La
parcimonie s’évalue par le rapport coût/bénéfices associé aux décisions
concernant le plan. C’est une dimension pragmatique associée aux plans
d’expérience. Ainsi, parfois, on peut imaginer un plan d’expérience « idéal », celui
qui permettrait de tester de façon fine les hypothèses, auprès d’un grand nombre
de participants mais on peut y renoncer pour des raisons de faisabilité. Ainsi, entre
2 plans d’expériences possibles pour tester une même hypothèse, le chercheur ou
le psychologue optera toujours pour le plan le plus parcimonieux, c’est-à-dire celui
qui est le plus économique en temps, moyens humains et financiers et en termes
d’analyses de données. La parcimonie est liée au fait que l’utilisation de plans
d’expériences dans la vie professionnelle du chercheur ou du praticien est
soumise à des contraintes temporelles et financières. La gestion de cette tension
entre la recherche de la plus grande validité expérimentale et de la parcimonie
nécessite un travail réfléchi, de la pertinence, voire de l’astuce !
V. Les techniques d’échantillonnage

L’échantillonnage est la procédure employée par l’expérimentateur pour
sélectionner les participants appartenant à une population parente et constituer
ainsi l’échantillon. L’échantillon est l’ensemble des individus participant à
l’expérience.
29
Attention : la population parente d’une expérience n’est pas toujours l’ensemble

des individus tout venant. Il s’agit uniquement des individus concernés par votre
question d’étude. Par exemple, si vous vous intéressez aux facteurs qui
influencent la réussite des étudiants en 1ère année à l’université, votre population
parente « se limite » à l’ensemble des étudiants suivant des études universitaires
en L1 en France.
A. L’échantillonnage probabiliste
Dans cette procédure, les méthodes de sélection des sujets sont non biaisées.
1. L’échantillonnage aléatoire simple

L’échantillon est constitué par tirage au sort dans la population parente, chaque
individu ayant la même probabilité d’être sélectionné. Cette technique est
appropriée lorsque la population parente est très vaste et lorsque la taille de
l’échantillon est importante.
Exemple :
Si l’on dispose d’un fichier informatique rassemblant la liste de tous les étudiants de L1 des
universités françaises, on peut demander à l’ordinateur de tirer au hasard un échantillon de 5 000
étudiants.
2. L’échantillonnage aléatoire stratifié

Si la population parente comprend des sous-groupes et que vous souhaitez que
votre échantillon reproduise les sous-groupes et leur proportion dans la
population parente, vous procéderez à un échantillonnage aléatoire stratifié :
vous effectuerez un tirage au sort des individus non pas dans la population
parente mais dans les différents sous- groupes de la population parente et ceci en
conservant les proportions des sous-groupes.
Exemple :
Si la population parente que vous souhaitez étudier est constituée par les étudiants de L1 en
psychologie en France, vous pouvez constituer un échantillon aléatoire stratifié tenant compte du
sexe des individus. Vous savez que la population parente est constituée de 25% de garçons et de
75% de filles. Pour vous assurer de reproduire cette proportion au niveau de votre échantillon,
vous pouvez constituer un échantillon de 200 individus en tirant au sort 50 individus au sein de la
sous-population des garçons et 150 individus au sein de la sous-population des filles. Ainsi, une
fille a plus de chance qu’un garçon de faire partie de l’échantillon mais une fille a autant de chance
qu’une autre fille d’en faire partie.
3. L’échantillonnage par cluster

Lorsque la sélection sujet par sujet est trop laborieuse, on sélectionne dans
la population générale des sous-groupes entiers d’individus, appelés clusters. Ces
clusters sont choisis au hasard.
Exemple :
Si la population parente étudiée est celle des étudiants en L1 à l’université en France, au lieu de
faire un tirage au sort des individus, l’expérimentateur peut tirer au sort 10 universités.
B. L’échantillonnage non probabiliste
Avec la méthode d’échantillonnage non probabiliste, les méthodes de sélection

des sujets peuvent être sujettes à des biais.
30
1. L’échantillonnage par quotas

On procèdera de la même façon que dans l’échantillonnage aléatoire stratifié
sauf que la sélection des individus dans les sous-groupes ne se fera pas par
tirage au sort mais avec une méthode de sélection non exempte de biais (cf. biais
de sélection).
Exemple :
Au lieu de tirer au hasard les individus dans les deux sous-groupes de garçons et de filles à partir
d’un fichier informatique, l’expérimentateur constitue un échantillon comportant 25% de garçons et
75% de filles en les recrutant à la sortie de la bibliothèque centrale de l’université. Ici, le biais peut
renvoyer au fait que les étudiants sélectionnés présentent peut-être des caractéristiques
particulières en lien avec le fait qu’ils vont à la bibliothèque.
2. L’échantillonnage par disponibilité

L’expérimentateur ne sélectionne pas vraiment son échantillon mais dispose des
individus auxquels il a facilement accès. Par exemple, un neuropsychologue va «
utiliser » les patients de son cabinet ; un enseignant-chercheur va solliciter les
étudiants de ses groupes TD, etc. Si cette méthode de sélection n’est pas
exempte de biais, elle est la plus facile à mettre en œuvre.
VI. Classification et description des plans

d’expérience impliquant des groupes de participants
On peut distinguer différents types de plans d’expérience en fonction :
- du degré de validité interne et externe du plan (plan expérimental
vs quasi- expérimental) ;
- du statut des VI qui définit un type de mesures (plan à mesures
indépendantes, plan à mesures répétées ou plan mixte) et du nombre de
VI étudiées (plan simple ou factoriel).
A. Les types de plans en fonction du degré de validité interne et

externe
1. Les plans expérimentaux
Lorsqu’un plan d’expérience répond aux exigences de validité interne et externe,
il est dit expérimental. Les critères principaux sont l’équivalence des groupes
dans un plan d’expérience comportant deux ou plusieurs groupes indépendants
et un échantillon de taille suffisante. En somme, dans ce type de plan,
l’expérimentateur exerce un contrôle fort sur les variables, de sorte que les
comparaisons établies ne sont pas entachées de biais ; par conséquent, les
validités interne et externe sont élevées.
Lorsque, dans un plan à mesures indépendantes, les sujets sont répartis

aléatoirement dans les groupes, le plan est dit expérimental car les chances que
les groupes ne soient pas comparables sont très faibles (voir plus haut).
Lorsque la situation ne permet pas de répartir aléatoirement les sujets dans les
groupes indépendants mais qu’il n’y a aucune raison à ce que les groupes
ne soient pas équivalents sur d’autres critères que la VI, le plan est dit
expérimental. Par exemple, si vous devez constituer deux groupes de sujets
définis par le sexe, vous ne pourrez pas aléatoirement répartir les sujets de
31
l’échantillon dans les deux groupes car la VI « sexe des individus » est
invoquée : vous serez contraint par le sexe de chaque individu. Pour autant, si
votre échantillon de départ est homogène sur d’autres facteurs, il n’y a pas de
raison que vos deux groupes ne soient pas équivalents sur ces facteurs.
Exemple de plan expérimental :

Les travaux réalisés dans le domaine de l’apprentissage montrent que les buts d’accomplissement
de soi (c’est-à-dire les raisons pour lesquelles les étudiants s’investissent dans le travail
universitaire) ont un effet sur la persévérance. Dans ce cadre, des chercheurs décident de tester
l’effet de l’induction des buts d’accomplissement de soi sur la persévérance. Soixante étudiants ont
été affectés aléatoirement dans un des trois groupes. Chaque groupe comprend vingt sujets. A un
groupe, on donne une consigne induisant un but de maîtrise (« l’important est de s’améliorer,
d’apprendre des choses, de comprendre »), à l’autre groupe on donne une consigne induisant un
but de performance (« l’important est de montrer aux autres que vous êtes le meilleur »). Enfin, à
un autre groupe, on n’induit aucun but particulier, c’est le groupe contrôle. Suite à l’induction de
buts, les participants sont invités à s’entraîner à la résolution d’une série de problèmes. Puis dès
qu’ils s’estiment prêts, ils réalisent un test de résolution de problème.
Dans cet exemple, le plan d’expérience est un plan expérimental car le chercheur a contrôlé
l’affectation des sujets dans les groupes en les répartissant de façon aléatoire.
Attention : Ne pas confondre plan d’expérience et plan expérimental ; un plan

d’expérience est le nom générique pour désigner les plans de recueil de données
utilisés dans les expériences. Un plan d’expérience peut être expérimental ou
quasi-expérimental.
2. Les plans quasi-expérimentaux

Lorsqu’un plan d’expérience ne répond pas aux exigences de validité interne
et externe, il est dit quasi-expérimental.
Par exemple, lorsque le plan comporte plusieurs groupes indépendants imposés
par le terrain d’étude et qu’il est improbable que ces groupes soient
équivalents, la validité interne est atteinte.
Lorsque pour des raisons éthiques, il n’est pas possible de créer un groupe
contrôle et que c’est au niveau d’un même groupe que les variations de la VI
vont être observées avec un contrôle faible des facteurs historiques et
maturationnels, le plan est également dit quasi-expérimental.
Un des critères évoqués également pour déterminer qu’un plan est quasi-
expérimental est la taille du groupe de participants ou échantillon. Souvent on a
considéré que lorsqu’il était très difficile de trouver des individus possédant les
caractéristiques de la population que l’on souhaite étudier, et que la taille de
l’échantillon était alors très faible, on considérait qu’ils faisaient partie des plans
quasi-expérimentaux. Cependant, comme évoqué dans la première partie de ce
cours, si un travail de contrôle suffisant est effectué sur certains échantillons dont
la taille est réduite, tout comme pour les protocoles à cas-uniques, il est possible
de mettre en évidence un lien de causalité entre le traitement ou variable
manipulée et le comportement étudié, à ce moment-là, nous pouvons considérer
qu’il s ‘agit d’un plan expérimental.
Exemple de plan quasi-expérimental

Des chercheurs décident de tester la même hypothèse que ci-dessus dans trois classes de
première année d’IUT génie mécanique provenant de trois établissements différents. Une des trois
classes reçoit une induction de but de maîtrise ; une autre classe reçoit une induction de but de
performance et enfin une autre ne reçoit pas une induction d’un but particulier (groupe contrôle).
Dans ce cas, l’expérimentateur ne peut pas répartir aléatoirement les étudiants dans un des
groupes d’induction ; il est contraint par le terrain. Le fait que les 3 classes proviennent de 3
32
établissements différents rend improbable l’équivalence des groupes. De plus le chercheur

n’intervient pas pour effectuer un contrôle sur les variables qui peuvent différer entre les trois
conditions. Dans ce cas, le plan est dit quasi-expérimental.
Dans la suite du cours nous nous limitons à la présentation des plans dits
expérimentaux.
B. Type de plans en fonction du nombre et du statut des VI

Deux critères peuvent être utilisés pour classifiés les plans :
- Le nombre de VI
o Une VI  plan simple,
o > 1 VI  plan factoriel,
- Le statut des VI :
o Si les modalités de la VI correspondent à des groupes d’individus
différents, la VI est en intersujet  plan à mesures indépendantes,
o Si les modalités de la VI correspondent aux mêmes individus, la VI
est en intrasujet  plan à mesures répétées,
o Si au moins une VI est en intra et au moins une autre VI est en inter
 plan mixte.
Résumé sous la forme d’un arbre :
C. Comment décrit-on et construit-on un plan d’expérience ?
Une expérience comporte au moins une VI et une VD.

Dans la présentation du plan d’expérience, il convient de rapporter les éléments
suivants :
- Identifier clairement le nombre de VI.

- La ou les VI identifiées doivent toujours être décrites clairement par une
étiquette, c’est-à-dire un nom concis et clair qui désigne ce que
l’expérimentateur fait varier ; une VI se définit également par ses
33
modalités (appelées aussi degrés, niveaux ou valeurs). Si les modalités

de la VI définissent des groupes de sujets différents, il convient de bien
préciser en quoi ces groupes diffèrent. Si les modalités de la VI
correspondent à des conditions expérimentales différentes (stimuli,
conditions de passation…), il convient également de bien les décrire. Le
statut de la VI (relation de la VI avec le facteur sujet, voir plus loin) doit
être spécifié mais surtout justifié. Il convient également de repérer si la VI
est invoquée (ses modalités pré-existent dans la nature et
l’expérimentateur ne peut pas affecter aléatoirement les sujets dans les
groupes) ou provoquée (la variation de la VI est sous la contrôle de
l’expérimentateur
- et il est possible d’affecter les sujets aléatoirement dans les groupes).
- Identifier la ou les VD et leur donner une étiquette.
- La description des variables (VI et VD) doit se faire à un double niveau :
au niveau général/théorique mais aussi au niveau opérationnel (concret)
- Préciser la technique d’échantillonnage et s’il y a lieu, la technique de
répartition des sujets dans les groupes (cela permet d’évaluer les risques
de non équivalence
- des groupes, de manque de représentativité des sujets, etc.
- Identifier les menaces à la validité interne et externe et les moyens d’y
remédier
- (variables parasites à contrôler et moyens de contrôle).
 Tous ces éléments permettront d’aboutir à la caractérisation du type

de plan d’expérience utilisé.
Construire un plan d’expérience est une activité de type résolution de problème

où il y a rarement une solution idéale/parfaite mais plutôt un choix à faire entre
plusieurs options.
La construction dépend de :
- Principes méthodologiques et techniques ;
- Contraintes temporelles, matérielles et déontologiques. Du fait de
ces contraintes, il faut toujours appliquer un principe de parcimonie dans
la construction d’un plan d’expérience (proposer l’opérationnalisation la plus
simple et la plus « économique »).4
Ce qui est crucial pour le psychologue/chercheur :
- Pouvoir argumenter ses choix ;
- Être conscient des limites de ses choix.
VII. Démarche sous-tendant le choix du test

statistique
Il est courant chez les auteurs de textes statistiques d'offrir des conseils sur le
choix de tests statistiques sous la forme d'un organigramme ou d'un arbre de
décision.
Sur certains points au moins, un accord général existe. Il n'existe pas d'arbre de
décision qui conduise automatiquement le chercheur au choix correct d'un test
statistique dans toutes les circonstances.
Le choix du test statistique dépend notamment (1) de l’objectif du chercheur, (2)
de la nature des variables, (3) de la taille de l'échantillon, (4) de la structure du
34
plan expérimental (voir arbre ci-dessus).
D’un point de vue général, le choix du test statistique pour analyser des données
issues d’un recueil dépend
- de l’objectif du chercheur,
- de la nature des variables,
- de la taille de l'échantillon,
- de la structure du plan expérimental (échantillons indépendants/liés),
- de la normalité des données et de l’homogénéité des variances.
1. L'objectif du chercheur
Il peut être :
1) de tester l’effet d’une VI sur une VD
2) de montrer qu’il existe un effet d’interaction entre deux variables
indépendantes sur une VD
3) de tester l’existence d’une relation entre deux variables sans pouvoir dire si
l’une est une VI et l’autre une VD.
4) de déterminer parmi un ensemble de VI celle qui a le meilleur effet
prédicteur sur la VD.
Dans le cadre de ce cours, nous ne traiterons que des objectifs 1) et 2).
2. La nature des variables

Les variables se différencient selon le type d’échelle ou le niveau de mesure. Trois
niveaux de mesures sont généralement distingués en psychologie: Nominal,
Ordinal, Intervalle. Chaque niveau de mesure est défini par certaines propriétés
des nombres.
Variables Nominales : A ce niveau, la propriété des nombres retenue est que des
nombres peuvent être différents. Une variable nominale est composée de
plusieurs catégories. On peut désigner les catégories par des nombres mais ces
nombres ont seulement la propriété d'être des symboles différents ; la valeur
numérique attribuée à chaque catégorie n'a ici aucun sens. Les catégories sont
simplement différentes et sont exclusives. Par exemple, la modalité A est
différente de B différente de C : Il n’existe pas d’ordre entre les catégories.
Exemples : sexe, type de réponse donnée, la nature des stratégies (a, b…), type de
personnalité….
Variables ordinales : La propriété des nombres considérée ici est celle de l'ordre
existant entre les catégories (A, B, C) ou modalités de la variable: A<B<C. Le
calcul de la moyenne n'a aucun sens pour ces variables. L'indice de tendance
centrale utilisé est la médiane.
Exemples : niveau de diplôme : CAP, Bac, maîtrise…., nombre de téléviseurs, échelle du type
“Tout à fait d’accord”(score = 4), “plutôt d’accord”(score = 3), “plutôt pas d’accord”(score=2), “pas
du tout d’accord” (score = 1). Il y a bien un ordre mais pas d’équidistance entre les catégories. Par
exemple, dans une échelle de mesure de l'intensité du stress ressenti, on ne sait pas si la
différence entre les points 1 (pas du tout stressé) et 2 (un peu stressé) représente la même
différence qu’entre 4 (stressé) et 5 (très stressé).
Variables d’Intervalles : Ces variables intègrent les propriétés des variables

nominales et ordinales et ajoutent la propriété d'équidistance entre les catégories.
35
La moyenne est l'indice de tendance centrale utilisé dans ce type d'échelle; elle a
un sens psychologique. Les variables d’intervalles sont toujours continues. Les
différences entre les points de l’échelle de mesure ont le même sens tout au long
de l’échelle. Par exemple, un écart de 10 entre 5 et 15 a le même sens qu’un écart
de 10 entre 30 et 40. Autrement dit, les intervalles entre les valeurs successives
de la variable sont égaux.
Exemples : poids des individus, temps de réaction…..
Dans le cadre de ce cours, nous nous limitons aux cas où la ou les VI sont
nominales et la ou les VD d’intervalle.
3. La taille de l’échantillon
Selon que l’échantillon est grand ou petit, nous verrons qu’il faut utiliser soit des
tests différents, soit des tests identiques mais dont les calculs sont ajustés.
4. La structure du plan
Nous avons vu plus haut que les plans d’expérience sont différents en fonction du
nombre et du statut des VI. A chaque type de plan, on peut associer un test
statistique approprié. Il faut alors aussi considérer le nombre de modalités de
chaque VI.
36
Plans d’expérience
Combien de VI ? une plusieurs
plans factoriels
Quel type de
mesures (statut
inter intra Intra + inter
des VI) ?
Quel type de mesures (statut

de la VI) ? plan à mesures plan à mesures
plans simples indépendantes répétées plan mixte
inter
intra
Combien de modalités ANOVA mixte

plan à mesures plan à mesures ANOVA ANOVA
indépendantes de VI ? factorielle à
répétées factorielle à
mesures mesures répétées
2 >2 indépendantes
2 >2
test T de
ANOVA 1 facteur ANOVA 1
Student à test T de
à mesures facteur à
mesures Student à
indépendantes mesures
indépendante mesures
s répétées répétées
37
5. Normalité et homogénéité des variances
a) Normalité des distributions

Les k échantillons de mesures à comparer doivent avoir une distribution proche
d'une distribution normale.
Pour vérifier que la distribution d’un échantillon suit une loi normale, il est possible
d’utiliser, dans JAMOVI, le test descriptif d’aplatissement et d’asymétrie (de
kurtosis and skewness, en anglais) ou bien le test de Kolmogorov-Smirnov.
On considère que l’échantillon suit une loi normale à 95 % lorsque la valeur de

son aplatissement est comprise entre -1,5 et +1,5.
Etant donné que les calculs manuels pour tester la normalité d'une distribution
sont fastidieux, l’énoncé des exercices précisera la normalité des distributions de
la VD sous chaque modalité de la VI.
On notera que la violation de la normalité peut être tolérée.
b) Homogénéité des variances (Homoscédasticité ou des
variances ou égalité des variances)
Le logiciel SPSS utilise le test de Levene comme tester d'homogénéité des
variances.
Ce test permet de comparer les variances de populations distinctes et
indépendantes distribuées suivant une loi normale.
La question est : est ce que les populations distinctes ont des variances qui sont
proches les unes des autres ?
H0 : Les k populations ont la même variance

H1 : Les k populations n’ont pas la même variance.
Dans ce cas, on cherche à vérifier H0. Par conséquent, pour dire que les
variances sont homogènes, il faut que la p-valeur soit >.05 c'est-à-dire ne pas
rejeter H0.
c) Types de tests en fonction de ces 2 critères
Lorsque les critères d’homogénéité des variances et de normalité des distributions
ne sont pas respectés, on utilise une classe de tests appelés tests non
paramétriques. Dans ce cours, deux tests non paramétriques vous seront
présentés.
Si vous voulez plus d’informations sur les différences entre ces deux types de
tests, vous pouvez consulter le document complémentaire à la fin du polycop.
Dans les parties qui suivent, nous détaillons les types de plans d’expérience et les
tests statistiques associés.
VIII. Plans simples à mesures indépendantes

(inter-sujets)
38
A. Présentation du plan, avantages, inconvénients

Lorsque les différentes modalités de la VI donnent lieu à des groupes de
sujets (appelés aussi groupes de mesures) différents, on parle de plan inter-
sujets ou plan à mesures indépendantes. On a alors autant de groupes de sujets
que de modalités de VI.
Modalité 1 Modalité 2 … Modalité k

groupe 1 groupe 2 groupe k
n1 sujets n2 sujets ... nk sujets
Exemple :
a) on compare un groupe expérimental (condition ayant reçu un ‘traitement’) et un groupe
contrôle (sans ‘traitement’). Le groupe expérimental est exposé à une musique violente ; le
groupe contrôle n’est pas exposé à de la musique. On compare les résultats obtenus à un
test d’agressivité. La variable degré d’agressivité est considéré comme une variable
d’intervalle.
Type de plan : plan simple inter-sujets
Une VI nominale : exposition à une musique violente avec 2 modalités (exposition /non
exposition). Les mesures sont indépendantes car on est dans un plan inter-sujets.
Donc d’après l’arbre de décision du choix du test, le test est le t-test appelé aussi t de
Student à mesures indépendantes.
b) On compare plusieurs groupes expérimentaux entre eux : ils sont exposés à des modalités
différentes de la VI (musique violente, peu violente, pas du tout violente, pas de musique). La
variable degré d’agressivité est considérée comme une variable d’intervalle. On veut tester
l’effet de la VI sur le score d’agressivité évalué par un test.
Type de plan : plan simple inter-sujets

Une VI nominale : degré de violence de la musique avec 4 modalités (musique violente,
peu violente, pas du tout violente, pas de musique). Les mesures sont indépendantes car
on est dans un plan inter-sujets
Donc d’après l’arbre de décision du choix du test, le test statistique est l’ANOVA à un
facteur mesures indépendantes.
Avantages :
- Il n’y a pas d’effet d’ordre, de rang ou d’effet d’apprentissage à
craindre, puisque les différentes mesures correspondant aux différentes
modalités de la VI sont prélevées chez des groupes d’individus différents.
- Si on expose les participants à des stimuli dans des conditions
différentes, comme il s’agit de groupes différents, on peut tout à fait utiliser
les mêmes stimuli.
Inconvénients :
- nécessité d’avoir des groupes indépendants équivalents ;
- la taille totale d’échantillon sera importante surtout si la VI comporte
de nombreuses modalités.
Comment contrôler l’équivalence des groupes dans les plans inter-sujets ?

Pour pouvoir comparer des groupes indépendants et en tirer des conclusions
valides, il faut que ces groupes soient équivalents. Equivalents ne signifie pas
rigoureusement identiques mais comparables. L'équivalence des groupes
concerne uniquement les variables susceptibles d'avoir une influence sur le
comportement observé.
Les procédures d’affectation des sujets dans les groupes pour constituer des
39
groupes équivalents sont les suivantes :
- Répartition aléatoire par tirage au sort : d’après Ghiglione &

Richard (2000), la meilleure méthode pour constituer des groupes
équivalents est la répartition ou l’affectation aléatoire des sujets dans
les groupes. A partir d’un échantillon homogène de N sujets, l’affectation
des sujets dans les différents groupes se fait de façon aléatoire (par tirage
à pile ou face). Ainsi, aucune caractéristique susceptible d’influencer la
VD ne distinguera systématiquement les groupes. Il est possible
qu’il existe des petites différences entre les groupes mais la probabilité
que ces différences soient suffisamment fortes pour fausser les résultats
reste très faible. Le tirage au sort étant une procédure aveugle, elle
concerne tous les facteurs même ceux auxquels l’expérimentateur
n’avait pas pensé. Ainsi, lorsque la VI en inter est provoquée, il est
normalement possible d’affecter aléatoirement les sujets dans les groupes
pour assurer leur équivalence.
- Répartition par quotas : la répartition ne se fait pas au hasard ; on

respectera dans chaque groupe de sujets les proportions observées
dans la population d’origine. Tout se passe comme si on voulait
miniaturiser la population d’origine au niveau de chaque groupe.
Exemple :
Dans une expérience qui nécessite 4 groupes d'enfants d'âges différents, un expérimentateur
désire contrôler la variable "profession du père". Il va donc définir les modalités de cette variable et
répartir les sujets de sorte que chacune des modalités de la variable "profession du père" se
retrouve à part égale dans chacun des 4 groupes indépendants, comme présenté ci-dessous :
Age des enfants 5–7 8–10 11–13

2–4 ans
ans ans ans
Agriculteur 5 5 5
5 sujets
sujets sujets sujets
Profession
7"
libérale et cadre 7" 7" 7"
10 "
Employé 10 " 10 " 10 "
6"
Ouvrier 6" 6" 6"
- Pré-test : la répartition ne se fait pas au hasard. On fait passer aux

sujets un pré-test permettant d’obtenir la performance moyenne de
l’échantillon sur une dimension dont on suppose qu’elle peut influencer
les performances. Les sujets sont ensuite affectés dans les différents
groupes de façon à ce que les groupes aient une performance moyenne
(et parfois aussi une variance) identique avant l’intervention du
psychologue.
Exemple :
Un psychologue souhaite savoir si la présentation d'un texte (s'il est mis en forme avec des
paragraphes, des titres, etc. ou s'il n'a aucune mise en forme) peut aider à sa compréhension.
Il s’attend à ce qu’un texte présenté avec une mise en forme soit mieux compris qu’un texte
40
présenté sans mise en forme. Mais il sait par ailleurs que les habiletés de lecture peuvent jouer un
rôle important dans la compréhension. Pour augmenter la validité interne de son plan, avant de
constituer ses groupes (un groupe qui verra un texte mis en forme et un second groupe qui verra le
même texte sans aucune mise en forme), il fait donc un pré-test pour évaluer les habiletés de
lecture des participants. S’il existe des disparités chez les participants, il constituera les groupes de
façon à ce qu’ils aient une performance moyenne identique ou très proche en lecture. La variable
habileté de lecture est considérée comme une variable d’intervalle. Ici l’objectif du test statistique
n’est pas de tester l’hypothèse principale (on s’attend à ce qu’un texte présenté avec une mise en
forme soit mieux compris qu’un texte présenté sans mise en forme) mais de contrôler au préalable
que les participants affectés au groupe « texte mis en forme » soient équivalents au plan des
habiletés de lecture que ceux du groupe « texte sans mis en forme ». Pour cela, dans la mesure où
on a une seule VI (présentation du texte) à deux modalités indépendantes (avec vs. sans mise en
forme) et dans la mesure où la VD habiletés de lecture est considérée comme une variable
d’intervalle, le test statistique approprié sera le t-test à mesures indépendantes. Ensuite, pour
tester son hypothèse selon laquelle un texte présenté avec une mise en forme est mieux compris
qu’un texte présenté sans mise en forme, le psychologue effectuera un t-test à mesures
indépendantes avec en VI la présentation du texte et en VD la performance de compréhension
évaluée par un test.
- Procédure d’appariement : la répartition ne se fait pas au hasard. On fait

passer aux sujets un pré-test et l’expérimentateur compose les groupes
par appariement, c’est-à-dire affecte à chaque condition expérimentale
des sujets ayant obtenu le même score au pré-test. Ils deviennent donc
comparables au regard de cette variable externe, qui sans cette
précaution, pourrait se transformer en variable parasite. On assure ainsi
des moyennes équivalentes mais également des variances équivalentes
(c’est donc un moyen pour augmenter les chances d’avoir des variances
homogènes, voir plus haut).
Exemple :
Si l’on reprend l’exemple précédent, le psychologue évalue les habiletés de lecture des participants
et les affectera dans les groupes en fonction de leur score à ce test d’habiletés de lecture. Chaque
paire de participants ayant un score égal ou très proche sera répartie dans des groupes différents
pour assurer une équivalence des groupes et termes de performance moyenne et de variance.
Attention : Ne pas confondre les techniques d’échantillonnage qui permettent

de constituer l’échantillon à partir de la population parente et les techniques de
répartition des sujets dans les groupes qui permettent de constituer différents
groupes expérimentaux équivalents à partir de l’échantillon.
B. Traitements statistiques associés

Lorsque la VI a deux modalités indépendantes + VD intervalle + normalité  t-test
ou t de Student à mesures indépendants (ce test ayant été traité l’an dernier en L2
il ne fait pas partie du programme de l’UE cette année)
Lorsque la VI nominale a plus de deux modalités indépendantes + VD intervalle +

normalité distribution VD sous chaque modalité de la VI et homogénéité des variances
ANOVA 1 facteur indépendant
1. L’Analyse de variance à 1 facteur mesures indépendantes

1.1. Le test de l’ANOVA
Lorsque le nombre de modalités de la VI nominale est supérieur à 2 et lorsque la
VD est d’intervalle, le test est celui de l’ANOVA (ANalysis Of VAriance) à un
facteur indépendant. L’ANOVA est une généralisation du t de Student à la
41
situation où plus de deux moyennes sont comparées.

Exemple : Imaginez que le psychologue veuille tester l’effet de la présentation d’un texte (mis en
forme, partiellement mis en forme, sans mise en forme) sur les performances de compréhension.
La variable performance de compréhension est considérée comme une variable d’intervalle. Dans
la mesure où la VI est nominale et a 3 modalités indépendantes et la VD est d’intervalle, le test
statistique à appliquer est le test de l’ANOVA à un facteur indépendant.
Pourquoi doit-on utiliser une ANOVA et ne peut-on pas utiliser plusieurs t-tests ?
Si l'on a trois groupes indépendants à comparer, la tentation serait de faire toutes
les comparaisons 2 à 2 en utilisant trois t-tests. Le problème est que plus on
augmente le nombre de comparaisons 2 à 2, plus on a des chances de trouver
une valeur p significative par hasard. Il faut donc que le test tienne compte du
nombre de comparaisons.
Plus précisément, 3 problèmes expliquent cette nécessité :
- Si H0 est vraie, alors 5 % de toutes les comparaisons par paires vont être
significatives (sauf si on effectue des corrections). Plus le nombre de
comparaisons 2 à 2 augmente et plus les chances de commettre une
erreur de type I augmentent (> 5%)
- Pour comparer deux groupes on a calculé l'écart type commun. Pour les
comparaisons multiples, nous pouvons combiner les écart-types de tous
les groupes, pas seulement les écart-types des deux groupes à comparer.
On aura ainsi une mesure plus précise de l'écart type de la population.
Ceci permet d'augmenter la puissance statistique
- Les comparaisons ne sont pas indépendantes : la comparaison entre
groupe 1 et 2 et gr1 et 3 donne une idée de la comparaison entre 2 et 3.
L’analyse de variance ou ANOVA permet de comparer trois ou plusieurs

moyennes entre elles afin de savoir si ces moyennes diffèrent l’une de l’autre de
manière significative (savoir si au moins une diffère des deux autres) en tenant
compte du nombre de comparaisons. Le test est toujours bilatéral. Si l’ANOVA
indique un effet significatif de la VI sur la VD, elle ne permet pas de dire
précisément quelle(s) moyenne(s) diffèrent d’une autre. Pour le savoir, il faut
utiliser des tests dits post-hoc.
a) Etape 1 : Déterminer s’il existe un effet significatif grâce
à l’ ANOVA
Pré-requis
La VD doit être une variable d'intervalle, la VI est nominale et comporte au moins
trois modalités et les modalités renvoient à des groupes indépendants. La VD
sous chaque modalité de la VI doit avoir une distribution proche d’une
distribution normale. En cas de non normalité ou si la VD est ordinale, on
utilisera un test non paramétrique : Le Kruskall-Wallis ou analyse de variance par
rangs.
Hypothèses
H0 : µ1=µ2=µ3=...=µk (k étant le nombre de modalités du facteur) au plan des trois
ensembles parents de mesure.
H0 correspond à l'égalité des moyennes de la VD des populations dont sont
extraits les échantillons
H1 : Au moins une des k moyennes de la VD diffère des autres (test bilatéral)
42
Calcul de la variable test

L'analyse de variance à un facteur (one-way analysis of variance) va consister à
chercher le rapport entre la variance entre les groupes (V. inter-groupe) et la
variance à l'intérieur des groupes (V. intra-groupe).
Sources de Carrés
ddl Somme des carrés
variation moyens
 Ti 2  (∑ x )2 SC int ergr
SC int ergr = ∑  −
 CM int er =
Inter-groupes k-1  ni  N k −1
T 2  SC int ra
SC int ragr = ∑ x 2 − ∑ i  CM int ra =
Intra-groupes N-k  ni  N −k
SC total = ∑ x 2 −
(∑ x )2
Totale N-1 N
Avec k = nombre de groupes à comparer ; N = nombre total de sujets ; x = série

de toutes les valeurs observées ; SCinter = somme des carrés inter-groupes; SCintra
= somme des carrés intra-groupes; SCtotal = somme des carrés total ; Ti = somme
des x du groupe i. ni : Nombre de sujets du groupe i.
Pour calculer la variable test, le F de Fisher, on fait le rapport des carrés moyens
inter-groupes (CMinter) sur les carrés moyens intra-groupes (CMintra )
CM intergr
F=
CM intragr
On note : F(ddl inter, ddl intra) = F(k-1, N-k)

Dans un article, on peut trouver aussi quelquefois les carrés moyens d'erreur ou
Mean Square Error noté MSe
On écrira alors : F (k-1, N-k) = , p < .05, MSe = …….
Si effet expérimental = 0, la seule variance observée est celle lié aux variations
intra-sujets à l’intérieur de chaque condition, variation qui n’intéresse pas
l’expérimentateur, c’est l’Erreur.
Par contre, plus le rapport augmente >1 plus l’effet expérimental a des probabilités
de se manifester
La valeur du F est toujours positive. Le F est égal au carré du t de Student.
Décision:
La valeur du F observé est comparée à la valeur critique du F dans la table. Si le F
observé est > à la valeur critique du F dans la table des valeurs critiques, alors on
rejette H0 et on accepte H1 au seuil α = .05.
Taille de l'effet ou Grandeur de l’effet expérimental, ŋ2 dit Eta carré

η2 mesure l’importance de la différence entre les moyennes. On mesure cette
importance en calculant dans quelle mesure la variabilité globale peut être
attribuée à l’effet de la VI (inter-groupes). Eta carré mesure la force de l’effet
expérimental.
43
SCintergr
η² =
SCtotal
Extrait de Kinnear, P.R, & Gray, C.G .(2008). SPSS made simple. NewYork:
Taylor & Francis (pp 322).
SCintergr : Somme des carrés inter-groupes
SCtotal : Somme des carrés total.
Eta carré indique la proportion de variance expliquée par la VI. Plus la proportion
de variance expliquée est importante (cf tableau ci-dessus), plus la VI étudiée joue
un rôle important dans les variations de la VD. Il s’agit d’un nombre qui varie de 0
(aucun d’effet du tout) à 1 (qui explique toute la variabilité du résultat)
IMPORTANT : Le résultat significatif d'une ANOVA indique simplement que toutes

les moyennes ne sont pas égales, au moins l’une d’entre elles diffère des autres.
Nous ne savons pas à partir de l’ANOVA quelle moyenne diffère significativement
de quelle autre moyenne. Pour savoir si la moyenne de la VD d’un groupe se
différencie nettement d'un autre ou des deux autres (dans le cas de trois groupes),
on réalise un test de comparaisons multiples.
b) Etape 2 : déterminer où se situent les différences grâce

aux tests de comparaisons multiples ou tests post hoc
Pour savoir quel groupe diffère significativement de quel autre groupe, on réalise
un test de comparaisons multiples. Ces tests portent le nom ce ceux qui les ont
créés (Bonferroni, Scheffé, Tuckey, Newmans-Keuls, …). L'idée est que si
l'hypothèse nulle globale est vraie, il y a seulement 5 % de chances qu'une des
comparaisons (ou plusieurs) soit statistiquement significative.
Exemple : on a trois groupes à comparer (un groupe Sans Entraînement, un groupe

d’entraînement à la méthode catégorielle et un groupe d’entraînement à la méthode par répétition
cumulée) sur une VD : les performances de rappel.
L’ANOVA nous dit qu’il y a un effet de la variable « type d’entraînement » sur la VD mais ne nous
dit pas quels couples de moyennes sont significativement différents.
On va donc examiner les différences entre les moyennes ou entre des ensembles de moyennes
Il existe de nombreuses techniques de comparaisons de moyennes, nous

aborderons les plus courantes et les plus utiles.
La plupart des différences qui existent entre les diverses techniques proposées
sont dues au fait qu'on adopte des approches différentes quant à la manière de
contrôler les erreurs de première espèce (accepter H1 alors que H1 est fausse
dans la population parente erreur de 5%)
On aurait pu calculer des t de Student entre des couples de moyennes. Pour

chaque comparaison de couples de moyennes, on va avoir un seuil de 5 %
d’erreur de se tromper, on aurait un intervalle de confiance de 95% (c’est l'étendue
des valeurs que peut prendre la moyenne dans la population parente. Elle est
44
basée sur la moyenne de l'échantillon) pour la comparaison 1 mais cet intervalle

ne serait pas forcément le même 95% pour la deuxième comparaison de paires de
moyennes…etc…La somme des intervalles de confiance ne fait pas 95%, elle
n’est donc pas associée à 5% d’erreurs.
Par exemple, si on a 3 moyennes à comparer :
Lorsqu'on effectue un ensemble de comparaisons entre nos moyennes, on peut
aboutir à un ensemble (ou famille) de conclusions:
µ1 < µ2
µ1 < µ3
µ2 < µ3
La probabilité de voir cette famille de conclusions contenir au moins une erreur de
type I est appelée taux d'erreur de l'ensemble.
Par conséquent, pour avoir une maîtrise de l’erreur globale de type I (5%) on fait
une analyse post-hoc en utilisant un test de comparaisons multiples qui
permettent d’ajuster le seuil de signification.
Dans le cadre de cette UE, nous ne vous demanderons pas d’effectuer ces tests
de comparaisons multiples mais plutôt de savoir interpréter les résultats que
donne le logiciel JAMOVI.
Il existe plusieurs tests de comparaisons multiples qui corrigent le taux d’erreur de

l’ensemble. Celui qui est le plus conseillé est « la correction de Bonferroni »
Correction de Bonferroni
Si nous comparons ces trois valeurs p à celles des tests t non corrigés par
paires, il est clair que la seule chose que la correction de Bonferroni fait est de
les multiplier par 3. Dans ce cas, la correction de Bonferroni dit simplement
« multiplier toutes vos valeurs p brutes par m . m est le nombre de
comparaisons 2 à 2. Si p indique la valeur originale de p, et si pj′ est la valeur
corrigée, alors la correction de Bonferroni indique: p′j=m×p. Vous verrez plus
loin comment on interprète le résultat de la correction de Bonferroni à partir
du résultat donné par JAMOVI.
Autre correction : la correction de Holm
La correction de Holm pour ajuster les p-valeurs est un test plus puissant que le
Bonferroni (c.-à-d. qu’il a un taux d’erreur de type II plus faible) mais, aussi
contre-intuitif que cela puisse paraître, il a le même taux d’erreur de type I.
1.2. Exercice d’application du test de l’ANOVA 1 facteur mesures

indépendantes
Prenons un exemple concret.

On veut tester l'effet de la condition d'entraînement à l'utilisation de stratégies de
mémoire sur les performances de rappel. Trois groupes de participants évalués au
préalable comme ayant le même niveau d’aptitudes mnésiques : un groupe sans
entraînement, un groupe entraîné à la stratégie catégorielle et un groupe entraîné
à la stratégie par répétition cumulée. La variable performance est un score de
performance avec pour étendue [0-20], considérée comme une variable
d’intervalle. La normalité des distributions et l’homogénéité des variances ont été
45
vérifiées.
On s'attend à ce que les performances des sujets varient en fonction de la
condition d’entraînement. Peut-on au seuil .05 accepter cette hypothèse ?
Pré-requis
Structure du plan :
VI nominale intersujet : Entraînement à l’utilisation de stratégies mnémoniques :
• avec entraînement à la stratégie catégorielle
• avec entraînement à la stratégie répétition cumulée
• sans entraînement à une stratégie particulière
VD d’intervalle : score de rappel
Les conditions de normalité et d’homogénéité des variances ont été satisfaites.
 L’ANOVA 1 facteur à mesures indépendantes va permettre de tester

l’hypothèse du psychologue.
Moyenne du groupe avec entraînement catégoriel (AEC) : 12,9

Moyenne du groupe avec entraînement répétition cumulée (AER) : 12,50
Moyenne du groupe sans entraînement (SE) : 8,55
Hypothèses
H0 : µAEC = µAER = µSE
est l'égalité des moyennes des populations dont sont extraits les échantillons au
plan des trois ensembles parents de mesure.
H1 : Au moins une des trois moyennes de rappels diffère de celle des autres
Variable test
La variable test suit une loi de Fisher à F (k-1, N-k).
Variation inter-groupes
Calcul à la main:
Avec Avec
Structure
Sans entraint Entraint entraint
categ repet cumul
4 12 16
8 12 17
2 10 13
7 13 14
9 14 15
6 12 16
11 13 15
9 13 14
10 10 14
9 11 12
7 11 13
9 14 10
10 15 8
8 13 9
12 10 7
12 11 8
10 19 8
11 18 15
8 13 16
46
9 14 10
Somme des x
171 258 250 Σx = 679
(Ti)
Ti 2 29241 66564 62500
29241/20  Ti 2 
Ti 2
= ∑  n  = 7915,25
ni 1462,05 3328,2 3125  i 
Tableau des carrés des valeurs et de leurs sommes par groupes (pour calculer les
variations intra-groupes).
Entraint
Sans Entraint
repet
entraînt X2 categ
cumulée
16 144 256
64 144 289
4 100 169
49 169 196
81 196 225
36 144 256
121 169 225
81 169 196
100 100 196
81 121 144
49 121 169
81 196 100
100 225 64
64 169 81
144 100 49
144 121 64
100 361 64
121 324 225
64 169 256
81 196 100
Somme des Σx2=
1581 3438 3324
x2 8343
Tableau de l'analyse de variance
Source Somme des carrés ddl Carrés moyens F

Inter-groupe 7915,25 – (6792/60) = 231,23/2 =
k-1= 3-1 = 2 115,61
(entre les colonnes) 231,23 115,61 = 15,41
Intra-groupe N-k = 60 - 3 = 427,75 / 57 = 7,504
8343-7915,25 = 427,75
(intra-colonnes) 57 7,504
8343 – (6792/ 60) =
Total N-1 = 59
658,98
Détermination de la valeur critique et décision

Au seuil α = .05, pour un ddl (inter groupes)= 2 et un ddl (intra-groupes) = 57;
d'après la table des valeurs critiques du F, on trouve une valeur critique
approximativement égale à 3,15 ; La valeur du F observé = 15,41; 15,41 > 3,15
par conséquent on rejette H0 et on accepte H1 à savoir "Les moyennes des
performances de rappels diffèrent en fonction du type d'entraînement.
47
On écrira alors : F (2,57) = 15.41, p < .05, MSe = 7.504
1.3. Procédure et analyse des résultats sur JAMOVI
Sur JAMOVI :
Les performances moyennes du groupe sans entraînement (M = 8.55 ; SD = 2.50)

sont inférieures à celles obtenues par les deux autres groupes (M = 12.9 pour le
groupe entraîné à la stratégie de catégorisation ; SD = 2.40 et M = 12.5 pour le
groupe entraîné à la répétition cumulée ; SD = 3.24). Ce résultat va dans le sens
de H1 dans la mesure où l’un des groupes (sans entraînement) a une
performance moyenne différente de celle des deux autres groupes.
Le seuil de signification du test de Shapiro-Wilk est égal à .77 ; cette valeur est >
.05 par conséquent les distributions sont normales.
48
Le seuil de signification du test de Levene est égal à .07 ; cette valeur est >.05,
par conséquent, on considère que les variances sont homogènes.
F (2,57) = 15.4 ; p < .001 ; p étant < .05, on rejette H0 et on accepte H1 à savoir la
condition d’entraînement a un effet significatif sur les performances de rappel.
Taille de l'effet:
Somme des carrés inter - groupes 231.233

Eta carré = =
Somme des carrés total 658.983
Eta carré = .351
35,1 % de la variance des rappels est expliquée par l'effet du type d'entraînement
aux stratégies de mémoire. Eta-carré étant > .14, l’effet est grand.
Test Post-HOC
Pour utiliser la correction de Bonferroni dans Jamovi, il suffit de cliquer sur la
case à cocher « Bonferroni » dans les options « Correction ». Dans le cadre de
cette UE l’important est juste que vous sachiez lire le résultat. Vous verrez une
autre colonne ajoutée au tableau des résultats ANOVA montrant les valeurs
de p ajustées avec la correction de Bonferroni.
49
Lecture du tableau ci-dessus :

La colonne « PBonferroni» indique le seuil de signification. Si le seuil est < .05
alors la différence entre les deux groupes est significative donc les performances
moyennes diffèrent.
La colonne « Différences de moyennes » permet aussi de connaître le sens de la
différence attendue. Si cette différence est négative (moyenne SEntraînement –
moyenne ECatégoriel) alors cela nous indique que les participants de gr
SEntrâinement ont une performance moyenne significativement (cf p < .001 dans
le tableau) inférieure à celle de ceux du gr ECatégoriel.
Commentaire du tableau
Le résultat du test de Bonferroni montre que la moyenne du groupe sans
entraînement est significativement inférieure à celles des deux autres groupes
(seuil de signification p < .001). En revanche, le tableau de résultat indique aussi
que les deux groupes avec entraînement n'ont pas des moyennes qui sont
significativement différentes (p = 1).
2 Le Kruskal-Wallis
2.1.le test de Kruskal-Wallis

Lorsque la VI nominale a plus de deux modalités indépendantes + VD ordinale
et/ou non normalité distribution VD sous chaque modalité de la VI Test de
Kruskal Wallis ou analyse de variance à un facteur par rang pour groupes
indépendants
Le but du test de Kruskal Wallis (test de la somme de rang Kruskal-Wallis)

Tester l’effet d’une VI à plus de deux modalités indépendantes sur une VD
ordinale. Par exemple, on veut tester l’effet du groupe d’âge (jeunes, âge moyen,
âgés) sur le sentiment de compétence en culture générale.
Le test est bilatéral.
Pré-requis : La VD (dans l’exemple, le sentiment de compétence en culture

générale) est mesurée sur une échelle ordinale ; les k mesures de la VD sont
indépendantes (chaque participant n’appartient qu’à un seul groupe) ; k > ou = à
3. La VI est nominale.
Hypothèses statistiques :
H0 : les 3 groupes d’âge ont des distributions identiques sur le sentiment de
compétence en culture générale au plan des trois ensembles parents de mesure.
H1 : Au moins un des 3 groupes d’âge a une distribution de la VD différente de
celles des deux autres groupes
Procédure illustrée par un exemple

Pour le test Kruskal Wallis, nous classerons toutes les valeurs de la VD pour la
ième personne du groupe k) et effectuerons notre analyse sur les données
ordonnées.
Par exemple, si on a 3 groupes d’âge (jeunes, âge moyen, âgés), on va classer
50
par rang l’ensemble des valeurs de la VD (sentiment de compétence en culture

générale) de la plus faible à la plus élevée tous groupes confondus. En cad
d’ex-aequo on calcule le rang moyen.
Groupes Valeurs ordonnées rangs

jeune 50 1
jeune 51 2
jeune 71 3
jeune 75 4
jeune 82 5,5
âge moyen 82 5,5
âge moyen 109 7
âgé 115 8
âge moyen 124 9
âge moyen 135 10,5
âge moyen 135 10,5
âgé 149 12,5
âgé 149 12,5
âgé 166 14
Puis, on calcule la somme des rangs par groupe (notée Ri)

R jeunes = 1 + 2+3+4+5,5 = 15,5
R âge moyen= 5,5 + 7 + 9+10,5+10,5= 42,5
R âgés = 8+12,5+12,5+14= 47
Variable test
Sous H0, H est la valeur observée d’une variable aléatoire qui suit une loi de khi-
deux à 3-1 ddl.
k : nombre de groupes
Ri somme des rangs de l’échantillon i
N : Nombre total d’observations
ni : nombre d’observations dans le groupe i
Application à l’exemple :
H= 9,946
Formule corrigée pour les ex-aequo :

On a 2 valeurs = 82 => 23-2 = 6
On a 2 valeurs = 135 =>23-2=6
On a 2 valeurs = 149=>23-2=6
E= 6 + 6+6= 18
E=
51
eiii : nombre d’éléments du ième groupe d’ex-aequo
Hc = 10,012
Décision
K=3 ; n1= 5 ; n2= 5 ; n3= 4
Sur la table des valeurs critiques du Kruskal-Wallis (cf fin du
polycop), la valeur critique = 5,64 pour p=.05. La valeur de H
calculée = 10,012, cette valeur est > à la valeur critique, par conséquent on rejette
H0 et on accepte H1 à savoir au moins un des trois groupes d’âges diffère des
autres concernant le sentiment de compétences en culture générale.
2.2. Le Kruskal-Wallis avec JAMOVI
Figure x : Test non paramétrique d’ANOVA à un facteur Kruskall-Wallis avec

Jamovi
χ2(2) = 10 ; p = .007
La p-valeur étant < .05, on rejette H0 et on accepte H1 au seuil.007.
IX. Plans simples à mesures répétées ou appariées

(intra-sujet)
A. Présentation du plan, avantages, inconvénients
Lorsque les différentes modalités de la VI donnent lieu à différents groupes de

mesures prélevées au niveau d’un seul et même groupe de sujets, on parle de
plan intra-sujet ou plan à mesures répétées ou appariées. Chaque sujet est
confronté à toutes les modalités de la VI ; les sujets restent identiques dans
les différentes conditions expérimentales, seule la VI change (avec une
comparaison inter-sujets, les effets de la VI peuvent être masqués par les
52
différences entre groupes). Le nombre de mesures par sujet dépend du nombre

de modalités de la VI.
Modalité 1 Modalité 2 ......... Modalité k

Situation 1 Situation 2 ......... Situation k
n1 mesures n2 mesures nk mesures
S1 S1 S1
S2 S2 .... Sk
S3 S3 …
..... …
(S : sujet)
Exemple :
On s’intéresse à l’effet de la valeur affective des mots sur leur rappel. Pour cela, on présente aux
sujets une liste contenant autant de mots à valeur affective que de mots neutres et on mesure le
rappel immédiat des mots. Les mêmes sujets sont bien confrontés à la situation “mots affectifs” et
à la situation “mots neutres”. Ici, la présentation des mots neutres et affectifs peut être aléatoire et
différente pour chaque participant ou alors la moitié des sujets passe d’abord la condition « mot
neutre » puis « mots affectifs » et l’autre moitié bénéficie de l’ordre inverse (contrebalancement de
l’ordre de passation des situations).
Avantages :
- Ces plans demandent moins de sujets qu’un plan à groupes indépendants ;
- Ces plans sont plus avantageux sur le plan statistique (suppression
de la variabilité intergroupe puisque les participants sont les mêmes dans
tous les groupes). En effet, les variations dues aux différences entre les
participants sont mathématiquement retirées du numérateur et du
dénominateur de la fraction définissant F. De ce fait, le test est plus
puissant. Un test puissant est un test qui a une faible probabilité de
commettre une erreur de type II (=Risque de ne pas relever une différence
qui existe).
- La contrainte d’équivalence des groupes disparaît puisqu’il s’agit des
mêmes individus.
Inconvénients :
- on peut craindre des effets de rang ; imaginons une VI ‘X’ à 3 modalités
A, B et C. Chaque sujet va être confronté aux 3 modalités. Si tous les
sujets sont confrontés aux 3 modalités dans l’ordre A, B puis C ; on
peut craindre un effet de rang : par exemple, le fait que la modalité C
soit toujours passée en 3ème position peut biaiser les résultats (effet
d’apprentissage ou de fatigue) ; dans ce cas, on peut contrôler l’effet de
rang en faisant en sorte qu’1/3 des sujets ait l’ordre ABC, 1/3 l’ordre BAC
et enfin, le dernier 1/3 ait CBA. Ainsi chaque modalité aura été passée
en première, deuxième et troisième position.
- on peut craindre des effets d’ordre (appelés aussi effets de dépendance
séquentielle) ; reprenons l’exemple précédent : on peut craindre que
le fait de passer la modalité A après la modalité B provoque un effet
particulier au niveau des performances. Autrement dit, la séquence des
modalités peut en soi affecter la VD. Pour contrôler cet effet, on combine
par rotation toutes les modalités pour obtenir (dans l’exemple), 6
séquences possibles : ABC, ACB, BAC, BCA, CAB et CBA. Ainsi, chaque
modalité a été précédée et suivie de chacune des autres modalités.
53
- on peut craindre des effets de fatigue ou d’apprentissage liés à la

répétition de la mesure chez un même sujet.
- Lorsque la répétition de la mesure chez un même participant nécessite de
construire des stimuli différents, il convient de s’assurer que les stimuli
soient équivalents. Par exemple, si un psychologue veut savoir si la
position des items dans une liste influence leur probabilité de rappel chez
un même participant, il conviendra nécessairement de proposer des items
différents en début et fin de liste mais aussi de s’assurer que ces items
sont comparables (en termes de fréquence lexicale dans la langue
courante, par exemple).
B. Traitements statistiques associés

1. Le t-test à mesures répétées
On veut tester l’effet d’une VI nominale sur une VD d’intervalle avec 2 séries de
mesures répétées. Le test t pour mesures répétées est basé sur la différence de
moyennes entre les valeurs des deux séries de mesures répétées.
Exemple :
Supposons que l’on compare les performances des sujets avant entraînement à l’utilisation de
stratégies et après entraînement.
Les sujets sont les mêmes pour les deux moyennes à comparer, chaque sujet a deux mesures une
avant et une après entraînement. Autrement dit, on a un échantillon de sujets et deux séries de
mesures. Les différences de moyennes s’effectuent sur des couples de données entre la série 1 de
mesure et la série 2 de mesure. Un couple renvoie aux deux scores du même sujet.
Pré-requis :
- La VI est nominale et a 2 modalités répétées
- La VD est d’intervalle
- La distribution des données de la VD sous chaque modalité de la VI sont
normales.
Les hypothèses
H0 : µ1= µ2 au plan de l’ensemble parent.
La moyenne µ1 de la population dont provient la première série de mesure est
égale à la moyenne µ2 de la population dont provient la deuxième série de
mesure.
Cas bilatéral :
H1 : µ1≠ µ2
Cas unilatéral:
H1 : µ1< µ2
H1 : µ1 > µ2
Cas des petits échantillons N≤30 (N étant le nombre de paires)

Sous H0, t est la valeur observée d'une variable aléatoire qui suit une loi de t à N-
1 ddl.
54
µ1 − µ 2
t=
 (∑ D) 
2
 /[N ( N − 1)]
2
∑ D −
 N 
D : Score de Différence entre les scores c'est-à-dire entre chaque score de la

première série de mesure et chaque score de la seconde série de mesures. Par
exemple, un participant A a obtenu une performance égale à 6 avant entraînement
et une performance égale à 10 après entraînement ;
D=6-10= -4 pour ce participant A. Le participant A a eu 6 lors de la première
mesure de performance et 10 lors de la seconde mesure de performance.
N : Nombre de paires de scores. Le nombre de paires de scores correspond
généralement au nombre de participants dans l’expérience.
Décision
On compare la valeur du t observé à la valeur du t dans la table.
Cas bilatéral :
Si t observé > t de la table ou si t observé est < à -t de la table, alors on rejettera
H0. L’Hypothèse H0 est rejetée au risque de 5%. Il existe donc une différence
significative entre les moyennes des scores de la VD pour les 2 populations de
sujets.
H1 : µ1≠ µ2
Z1
Z1 Z0
t
-t 0 +t
Cas unilatéral
H1 : µ1>µ2
Z1
Z0
t
0 t
Si t observé est > au t de la table alors on rejette H0 et on accepte H1
H1 : µ1<µ2
55
Z0
Z1
t
-t 0
Si t observé est < à -t de la table, alors on rejette H0 et on accepte H1
Cas des grands échantillons : N >30

On peut utiliser le test basé sur la loi normale réduite pour évaluer les différences
observées.
La formule est la même que pour le cas des petits échantillons, simplement on
remplace la lettre t par z et la décision se fera en fonction de la table de la loi
normale réduite comme pour le t-test mesures indépendantes.
Taille d’effet cas du t test à mesures répétées:
n= nombre total de paires de scores (= nbre total de sujets) ,

t est la valeur de la var test
Cet indice varie entre 0 et 1 et les balises suivantes ont été élaborées par Cohen
(1988) pour guider son interprétation (cf tableau à la fin du polycopié).
1.2. Procédure pour le t-test mesures répétées sur JAMOVI
t-test mesures répétées= Paired samples T-test : Procédure sur JAMOVI

exple : On veut tester l’effet du moment de l’évaluation(3 mois après un stage de
traduction vs. 6 mois après) sur le nombre de traductions correctes.
Pour réaliser le test, il vous suffit de cliquer sur T-Tests puis sur Paired Samples T-Test
56
Faites passer les deux conditions expérimentales dans la case Paired Variables. Comme
pour le T de Student échantillons indépendants, sélectionnez l’hypothèse correspondante.
Dans le cas présent, on fait l’hypothèse d’une amélioration des moyennes (on sélectionnera
donc (Measure 1<Measure 2). Cochez également la case ‘‘Descriptives’’ et ‘‘Effect size’’
afin d’obtenir respectivement les statistiques descriptives et la taille d’effet (d de Cohen).
Pour vérifier la normalité des distributions, il faudrait aussi cocher la case ‘Normality test’
et s’assurer que le test de Shapiro-Wilk est supérieur à .05 (cf ci-dessus). Dans cet exemple
il y a bien normalité des distributions car la p-value du Shapiro est >.05.
Le premier tableau « Paired samples T-test indique les résultats du t de Student

le seuil de signification associé au t est p=.035 ; on peut donc rejeter H0 (p <. 05).
Le deuxième tableau permet d’obtenir les statistiques descriptives et notamment le nombre

de participants, les moyennes (Mean) et écarts-types (SD) de scores par condition
expérimentale.
p étant < 05 on rejette H0 et on accepte H1 : le nombre moyen de traductions
correctes 3 mois après le démarrage du stage est significativement inférieur de
celui obtenu 6 mois après.
On pourra donc rédiger les résultats de cette manière selon les normes APA: le score
moyen du nombre de traductions correctes trois mois après le stage (M = 22.5, SD
= 2.93) est inférieur à celui obtenu six mois après (M = 23.6, SD = 2.76) , t (19) = -
1.93 ; p = .035 ; d = 0.43.
2. ANOVA 1 facteur mesures répétées
2.1. Le test de l’ANOVA 1 facteur mesures répétées
Lorsque la VI a plus de deux modalités, ANOVA 1 facteur à mesures répétées

Il s'agit de tester l'effet d'une VI nominale à trois modalités au moins sur une VD
d’intervalle avec mesures répétées. On est dans le cas d’un plan intra-sujets ou
intra-facteur.
Dans une ANOVA à mesures indépendantes, par exemple si on teste l’effet d’une
condition (conditions 1, 2 et 3) sur les performances, chaque sujet appartient à un
seul des trois groupes correspondant aux trois conditions donc on a une
indépendance entre les mesures.
Dans une ANOVA à mesures répétées on a un même échantillon de sujets qui va
être soumis aux trois conditions. Il n’y a donc pas indépendance entre les
conditions. En effet on peut supposer que les sujets performants en condition 1 le
57
seront aussi en condition 2 et en condition 3 et les sujets les moins performants en

condition 1 le seront également dans les deux autres conditions. Il n’y a pas
indépendance entre les mesures mais corrélation entre les mesures. L’objectif est
donc de contrôler les effets qui causent la dépendance des mesures.
Prenons un exemple fictif et à but purement pédagogique. 4 sujets sont soumis à un test de
performance effectué à trois moments de la journée. La VI est le moment de la journée et la VD
est la performance.
Moments
Sujets 1 2 3 Total
1 3 5 9 17
2 12 13 15 40
3 20 23 25 68
4 25 30 36 91
60 71 85
Si on regarde les totaux par colonne en comparant les performances du moment 1 aux
performances du moment 2 et à celles du moment 3, on constate quelques différences mais on
constate surtout une forte variabilité au sein de chaque colonne ou moment. On pourrait donc
penser que les totaux par colonne diffèrent par hasard.
Si on regarde maintenant les lignes du tableau autrement dit si on compare les sujets entre eux, on
constate que le sujet 1 est le moins performant et que les sujets 3 et 4 sont les plus performants.
Ces différences entre les sujets produisent les différences à l’intérieur de chaque colonne ou
moment. Or ces différences entre les sujets ne sont pas dûes au moment de passation du test.
Dans une ANOVA à mesures répétées, on va éliminer ces différences liées aux sujets afin d’avoir
une meilleure estimation de l’erreur. Une partie de la variation à l’intérieur d’un sujet est imputable
au fait que ses performances proviennent de moments de passation différents (VI) et une autre
partie est imputable à l’erreur.
Dans le cas d’une ANOVA à mesures répétées comme les sujets sont les mêmes
sur toutes les mesures de la VD, on pourrait dire que la variabilité inter-sujets est
fixée, contrôlée. Mais, d’une mesure à l’autre un même individu peut être plus ou
moins motivé, plus ou moins fatigué et ceci constituera la variance intra-groupe.
La variance intra-groupe inclut la variance due aux différences individuelles

entre les sujets et la variation due au hasard (erreur) ou variance résiduelle
résultant des variations des différences entre les k mesures.
Variance intra-groupe = Variation inter-sujet + variation résiduelle
La variance inter-sujet correspond à la variance produite par la variabilité inter-

sujet (les différences que l’on observe entre les lignes du tableau de données soit
entre les sujets sur les k mesures.) Comme l’échantillon est le même on suppose
que cette variabilité se retrouve à tous les moments de la mesure. De ce fait, cette
variabilité est calculée sur l’ensemble des mesures effectuées par chacun des
sujets (sommes des lignes dans le tableau de données).
La variance intergroupe renvoie à la variance inter-mesures ou mesures

répétées, inter-condition, ou inter-moment…. dans la mesure où ce sont les
mêmes sujets pour les k mesures de la VD.
L’ANOVA à 1 facteur mesures répétées est le rapport :

58
variance intergroupe
variance résiduelle
Pré-requis
- La VD doit être une variable d'intervalle, la VI est nominale et comporte au
moins trois modalités qui renvoient à des mesures répétées.
- Normalité des distributions des k mesures.
- Homogénéité de la covariance ou sphéricité
Qu’est-ce que l’homogénéité de la covariance ?

On fait l’hypothèse que les corrélations entre les scores à différents niveaux du
facteur intra-groupe sont homogènes (i.e., des éléments de la diagonale de la
matrice de covariance-variance sont constants).
Par exemple, un groupe de sujets est soumis à 3 conditions notées 1, 2 et 3 : on

va donc avoir trois corrélations possibles : 1 et 2, 2 et 3 et 1 et 3. On fait
l’hypothèse que ces trois corrélations sont similaires. Si l’hypothèse est vérifiée on
dira qu’il y a homogénéité de la covariance ou que la sphéricité est satisfaite.
Si cette hypothèse est violée, le taux d'erreur vraie de type I (i.e. la probabilité de
rejeter H0 quand elle est vraie) peut être augmenté.
Dans cette UE, on vous demande de savoir lire le résultat du test d’homogénéité
des covariances fourni par le logiciel JAMOVI.
JAMOVI teste l'homogénéité des covariances avec le test de sphéricité de

Mauchly. Si les données ne satisfont pas au test de sphéricité (ie. Les p-valeurs
<0.05 ; covariances non homogènes), le test F de l'ANOVA peut être modifié pour
le rendre plus conservateur (c’est-à-dire moins probable à rejeter l'hypothèse
nulle). JAMOVI propose deux tests variant dans leur degré de conservatisme, le
Greenhouse-Geisser, Huynh-Feldt,
Ces tests donnent des résultats corrigés en cas de non homogénéité ou non
sphéricité. Ils ajustent le degré de liberté. Ceci réduit le risque d’erreur de type I.
Tous sont basés sur une réduction des degrés de liberté du numérateur et du
dénominateur et le rapport F (ses valeurs restent toujours les mêmes) en
multipliant les degrés de liberté par un facteur epsilon (ε), estimé à partir des
sommes et des moyennes de variances et covariance. Plus ε est proche de 1.0,
plus les variances des différences sont homogènes.
Hypothèses de l’ANOVA à un facteur mesures répétées

H0 Les k moyennes répétées sont équivalentes au plan de l’ensemble parent de
mesures
H1: Au moins une des k moyennes répétées est différente des k-1 autres
Principes
L'analyse de variance à un facteur mesures répétées va consister à chercher le
rapport entre la variance liée à la mesure répétée et la variance de l’erreur.
Sources de
ddl Somme des carrés Carrés moyens
variation
59
Inter-sujets n-1 SC int ersujets =

( ) − (∑ x )
∑ Si
2
i
2
k N
Mesures ∑ Ti (∑ x i )
2 2 SC repet
k-1 SC mesrepet = − CM mesrepet =
répétées n N k −1
Erreur
SCerreur= SCtotal-SCintersujets- SCerreur
(n-1) (k-1) CM erreur =
SC mesurepetées (n − 1)(k − 1)
ddlinter +
Totale ddlmesrepet SCtotal = ∑ x i 2 −
(∑ x i )2
( )
N
+ddlerreur
Avec k= nombre de mesures ; N=nombre total de sujets x nombre de mesures ;

xi= série de valeurs observées ; SCintersujets = somme des carrés inter-sujets ;
SCmesurepet= somme des carrés de la mesure répétée ; SCtotal=somme des carrés
total ; Ti= somme des xi. n : nombre de sujets
Si = sommes des valeurs des trois mesures par sujet
Pour calculer le F de Fisher pour une ANOVA à 1 facteur répété, on fait le rapport
des carrés moyens de la mesure répétée (CMmesrépét) sur les carrés moyens de
l’erreur (CMerreur ). Pour la décision on se base sur la table du F de Fisher. Si la
valeur du F observée est > à la valeur critique du du F dans la table on rejette H0
et on accepte H1 au seuil .05.
F (ddlmesrepet, ddlerreur) = ………p < .05.
Exemple d’application : Dans le cadre d’un stage de formation à l’informatique

destiné à des personnes retraitées, un psychologue veut tester si l’auto-estimation
que ces personnes ont de leurs capacités à maîtriser l’informatique varie au cours
des semaines de stage.
Le stage dure 3 semaines. Pour tester son hypothèse, le psychologue fait passer
un questionnaire d’auto-évaluation des capacités à maîtriser l’informatique à trois
moments différents : Moment 1 (Premier jour du stage) ; moment 2 (2ieme
semaine du stage ; moment 3 (dernier jour du stage).
Sujets Moment 1 Moment 2 Moment 3 Total sujets

1 79 92 68 239
2 17 42 44 103
3 19 52 45 116
4 88 56 64 208
5 49 54 52 155
6 59 75 50 184
7 7 38 45 90
8 58 71 71 200
9 39 64 68 171
10 55 48 52 155
11 32 9 75 116
12 42 54 44 140
13 66 72 79 217
14 57 73 70 200
15 86 87 52 225
16 54 63 59 176
60
17 18 63 37 118
18 57 73 94 224
19 78 89 79 246
20 92 69 81 242
Sommes 1052 1244 1229 3525
moyennes 52,60 62,20 61,45 176,25
Calculs : N= 20sujets x 3 mesures = 60

3525 2
SCtotal = 79 2 + 17 2 + ..... + 812 −
60
SCtotal=231997- 207093,75=24903,25
SCtotal=24903,25
239 2 + ...... + 242 2 3525 2

SCsujets = −
3 60
668623 3525 2
SCsujets = −
3 60
SCsujets= 15780,583
1052 2 + 1244 2 + 1229 2 3525 2

SCmoments = −
20 60
SCmoments= 1140,3
SCerreur= SCtotal-SCsujets-SC mesurepetées
ddl SC CM F
Inter-
19 15780,583
sujets
1140,3
Moments 2 570,15 2,71
Erreur 38 7982,368 210,06
Total 24903,25
F (2,38) = 2.71 ; p >.05
Au seuil .05, la valeur critique du F pour un ddl de 2 et un ddl de 38 est proche de

3,23 . 2,71 étant < 3,23 on rejette H1 mais on ne peut pas rejeter H0.
Les moyennes d’auto-évaluations de capacités en informatique ne diffèrent pas
significativement au cours des semaines de stage.
61
2.2. Procédure de l’ANOVA 1 facteur mesures répétées et résultats sur

JAMOVI.
La p-valeur du test de Mauchly est p =.90 cette valeur est > .05 par conséquent il
y a homogénéité de la covariance.
F (2,38) = 2.71 ; p = .079.
P étant > .05, on rejette H1 mais on ne peut pas rejeter H0.

Les moyennes d’auto-évaluations de capacités en informatique ne diffèrent pas
significativement au cours des semaines de stage.
3. Le test de Friedman
3.1. Le test de Friedman ou analyse de variance mesures répétées par rangs
But : le test de Friedman consiste à comparer trois mesures ou plus (k mesures)

ordinales au sein d’une même population. On cherche à tester l’effet d’une VI
nominale sur la VD en mesures répétées.
Le test est bilatéral
Pré-requis : La VD doit être ordinale ; les k séries de mesures de la VD sont

répétées et k > ou = à 3.Chaque participant a un score ou une valeur sur chaque
62
mesure de la VD.
Hypothèses statistiques
H0 : Les distributions de la VD sous chaque modalité de la VI sont identiques au
plan de l’ensemble parent
H1 : Au moins une des k distributions de la VD sous chaque modalité de la VI
diffère des k-1 autres.
Procédure de réalisation du test

Faire un tableau à double entrée avec en ligne les participants et en colonne les k
mesures. Les données sur lesquelles on travaille sont des rangs ;
- On classe les valeurs de la plus faible à la plus élevée pour chaque ligne du
tableau (donc par participant)
- on calcule la somme des rangs par colonne
Exemple : on veut tester l’effet du niveau de réussite à un test selon le moment de

passation au cours de la journée.
Participants Moment 1 Moment 2 Moment 3 Moment 4

1 9 4 1 7
2 6 5 2 8
3 9 1 2 6
4 5 2 4 7
5 8 4 3 5
6 7 6 2 9
7 2 3 1 7
8 8 2 3 1
Tableau X : scores obtenus au test selon le moment de passation
Puis on indique les rangs des scores pour chaque participant et on calcule la
somme des rangs par colonne.
Participants Moment 1 Moment 2 Moment Moment 4
3
1 4 2 1 3
2 3 2 1 4
3 4 1 2 3
4 3 1 2 4
5 4 2 1 3
6 3 2 1 4
7 2 3 1 4
8 4 2 3 1
Totaux R R1= 27 R2= 15 R3= 12 R4 = 26
Tableau des rangs et somme des rangs par moment.
Calcul de la variable test :
N= nombre de participants
k : nombre de modalités de la VI
63
: Somme des rangs des k colonnes élevée au carré
F= 13,05
Décision :
k=4 ; N=8=> table des valeurs critiques du Friedman (cf fin du polycop)indique que
la valeur critique = 7.65 pour un seuil .05. la valeur observée de la variable test est
égale à 13,05 ; cette valeur est > à 7,65 (val critique), par conséquent on rejette
H0 et on accepte H1 au seuil .05. il y a un effet significatif du moment de
passation du test sur la réussite à ce test.
3.2. Procédure et résultats du test de Friedman sous JAMOVI
Norme APA : χ2(3) = 13.1 ; p = .005

p étant > .05, il y a un effet significatif du moment de passation du test sur la
réussite à ce test.
X. Particularités des plans factoriels : Approche

intuitive de la notion d’interaction
Pour des raisons conceptuelles, scientifiques et professionnelles, il est important
de savoir manipuler la notion d’interaction.
Lorsqu’un plan d’expérience contient une seule VI, on étudie uniquement l’effet de
cette VI sur la VD. En revanche, lorsqu’on a affaire à des plans factoriels,
l’analyse des résultats est plus complexe : on peut étudier les effets
principaux de chaque VI et les effets d’interaction entre les VI.
Dans un plan factoriel à deux VI « X » et « Y », les effets principaux sont les

effets de la variable X sur la VD, indépendamment de la variable « Y » et les
effets de la variable « Y » indépendamment de la variable « X ». Un effet
d’interaction signifie que l’effet d’une VI diffère selon les modalités de l’autre VI
; seule l’analyse des effets simples (on teste l’effet de la VI au niveau de chaque
modalité de l’autre VI) permet de qualifier plus précisément l’effet d’interaction.
64
Exemple :
A votre avis, le fait d’avoir un enfant influence-t-il la carrière professionnelle (e.g., la probabilité d’être embauché, le
salaire, le fait d’être perçu comme compétent) ?
Les recherches réalisées dans le domaine tendent à montrer qu’effectivement le fait d’avoir un enfant influence la
carrière mais l’effet n’est pas le même selon le genre de la personne. Pour une femme, le fait d’avoir un enfant joue
défavorablement sur sa carrière professionnelle (on parle de la pénalité de la maternité), alors que pour un homme,
c’est un élément favorable (on parle du bonus de la paternité).
On peut traduire la phrase « le fait d’avoir un enfant influence la carrière » en termes de VI et VD. Et faire un
schéma qui représente la relation causale.
On peut aussi représenter la phrase « l’effet n’est pas le même selon le sexe de la personne » sur le schéma
précédent
Représentons maintenant la phrase : « Pour une femme, le fait d’avoir un enfant joue
défavorablement sur sa carrière professionnelle, alors que pour un homme, c’est un élément
favorable. »
A l’aide de flèches uniquement (la flèche représente une amélioration de la carrière si elle monte et une
dégradation si elle descend) :
Si genre = femme, avoir un enfant ↓
Si genre = homme, avoir un enfant ↑
A noter que si on étudie l’effet d’être parent sur la carrière auprès d’une échantillon composé de 100
femmes et 100 hommes sans tenir compte de la variable genre, les 2 effets représentés ci-dessus
1
65
s’additionnent et il en résulte une absence d’effet ; on conclura alors que le fait d’avoir un enfant n’a pas
d’effet sur la carrière. ↓ + ↑ = 0
A l’aide d’un graphique
Définition
Le phénomène représenté sur le graphique est appelé INTERACTION : les effets
de plusieurs variables indépendantes se combinent pour résulter en un effet qui va
au-delà de la simple cumulation des effets de chacune. Il y a interaction lorsqu’un
effet/un phénomène est modifié par une autre variable. La variable qui modifie
l’effet de l’autre variable indépendante est dite variable modératrice. La
modification de l’effet peut consister en une atténuation/amplification
(l’intensité/ampleur de l’effet est modifiée), une neutralisation (un effet disparaît),
ou un renversement (la direction de l’effet est modifiée : un effet positif devient
négatif ou vice-versa) (voir ci-après).
A noter que l’identification des variables modératrices renseignent sur les
conditions sous lesquelles on va observer un effet (le quand) 1.
L’ANOVA factorielle est l’outil statistique permettant de décider si l’interaction est
significative et les tests post-hoc permettent de savoir comment elle se
décompose.
Utilité/intérêt :
Les comportements humains sont pluri-déterminés. On ne peut pas les expliquer
en invoquant l’influence d’un seul facteur causal. Ils dépendent de l’influence de
plusieurs facteurs. Chacun de ces facteurs peut agir indépendamment de l’action
des autres facteurs : il y a alors absence d’interaction entre les facteurs (cf. figure
1). Mais la plupart du temps, l’action des facteurs peut se combiner avec celle
d’autres facteurs pour entraîner des effets spécifiques : il y a alors interaction
entre les variables indépendantes (cf. figure 2).
1 C’est l’étude des variables médiatrices qui renseignent sur le pourquoi ?

66
Figure 1 : absence d’interaction entre les facteurs causaux
Figure 2 : Cas d’interaction où le comportement à expliquer dépend du facteur A,

du facteur B et de l’action conjointe des 2 facteurs
Ainsi, la notion d’interaction est au cœur de la complexité de l’être humain.

Les recherches en psychologie utilisant la méthode expérimentale cherchent à
- identifier les facteurs qui permettent d’expliquer la variabilité de nos
comportements,
- Détecter les limites ou exceptions des effets d’une variable (notion
d’interaction) et
- à quantifier si un effet observé a une taille importante (à ne pas
confondre avec la significativité d’un effet), autrement dit si le facteur
causal identifié contribue fortement ou non à la variabilité du
comportement.
En effet, sur le plan de l’intervention en psychologie, il est fondamental

- d’être conscient du caractère pluridéterminé des comportements
humains (pour éviter des explications simplistes, naïves,
mécanistes),
- de connaître les conditions sous lesquelles un certain phénomène
s’exprime pour pouvoir intervenir sur ce phénomène,
- de connaître le poids explicatif de tel et tel facteur pour pouvoir
donner des priorités à des actions de modification de la situation.
Prenons l’exemple en psychologie sociale de l’effet spectateur : la présence de spectateurs à un

évènement impliquant d’apporter de l’aide à un tiers diminue la probabilité que l’aide soit apportée
par rapport à une situation sans spectateur. Il semble pertinent dans une démarche où on cherche
à augmenter le taux d’aide apportée à des tiers en situation de détresse d’identifier les facteurs qui
neutralisent cet effet (qui permettent sa disparition). Il s’agit alors d’identifier des facteurs qui entre
en interaction avec le nombre de spectateurs pour modifier les comportements d’aide. Par
exemple, si la victime demande de l’aide explicite à un aidant potentiel, l’effet spectateur diminue.
Prenons un autre exemple en psychologie cognitive des apprentissages ; des recherches ont
montré l’effet multimédia : on apprend mieux à partir de textes et d’images qu’à partir de textes
seuls. Mais des recherches ont montré que ceci est vrai sous certaines conditions : on observe
l’effet multimédia si l’image est complémentaire du texte ; si elle est décorative, alors l’effet
s’inverse : il vaut mieux apprendre avec un texte seul qu’à partir d’un texte accompagné d’une
image décorative. Toutefois, des recherches récentes ont montré que chez de jeunes enfants, la
présence d’une image décorative favorise l’apprentissage par comparaison avec une situation de
texte seul.
Dernier exemple en psychologie de la santé, l’étude du stress a donné lieu à des modèles évalués
empiriquement dans lesquels le stress dépend de l’interaction entre des facteurs
67
environnementaux et des facteurs liés à la personnalité du sujet. Ainsi, chez des personnes ayant
été hospitalisées pour des problèmes cardiaques, le fait d’être ré-hospitalisé entraîne un sentiment
de détresse mais ceci est vrai uniquement chez des sujets ayant un locus de contrôle plutôt
externe. Il n’y a pas d’effet négatif de la ré-hospitalisation chez des sujets ayant plutôt un locus
interne (http://www.cairn.info/zen.php?ID_ARTICLE=TH_642_0097).
A noter que la notion d’interaction n’est pas une notion spécifique à la

psychologie. On parle aussi d’interaction en pharmacologie par exemple. On parle
notamment d’interactions médicamenteuses : le médicament A pris simultanément
au médicament B va majorer, minorer ou neutraliser les effets de B ou carrément
créer un effet spécifique (une insuffisance cardiaque aigue par exemple).
Savoir reconnaître une interaction (et aussi une absence d’interaction)

Dans l’énoncé verbal d’une hypothèse ou d’un résultat :
Pour évaluer la présence d’interaction, il faut au moins comparer 4 situations
puisque une interaction implique au minimum 2 VI et une VI possède au minimum
2 modalités. Et lorsqu’on veut évaluer l’effet de 2 VI, il faut les croiser (combiner
chacune des modalités d’une VI avec chacune des modalités de l’autre VI). Ce
croisement (2VI * 2 modalités) résulte donc en la comparaison au minimum de 4
situations ou conditions.
Ainsi, pour évaluer si une hypothèse ou l’exposé d’un résultat décrit une
interaction ou une absence d’interaction entre plusieurs VI (par opposition à un
effet d’une seule VI), il faut détecter quelles comparaisons implique l’énoncé et
donc combien de VI sont en jeu. Dès lors que 2 VI au moins sont impliquées, on
peut s’intéresser à la présence potentielle d’une interaction entre elles.
Exemples :
« Lorsque des apprenants ont des buts de maitrise, ils ont une attitude moins négative à l’égard de
l’erreur que lorsqu’ils ont des buts de performance. »
Ici est exprimé uniquement un effet de l’orientation des buts sur l’attitude à l’égard des erreurs (une
seule VI, pas d’interaction possible).
« La prise de valium amplifie l’effet négatif de l’alcool sur la vigilance. »

Dans cette phrase, il y a 2 effets décrits : l’alcool exerce un effet négatif sur la vigilance et la prise
de valium exacerbe cet effet. Nous sommes donc en présence de 2 VI : la prise d’alcool et la prise
de valium et d’une VD : la vigilance. Il y a interaction puisque l’effet de l’alcool est modulé/modifié
par la prise de valium.
A partir d’un graphique

Le graphique seul ne permet pas de statuer sur la significativité de l’interaction
mais, le cas échéant, il sera très utile pour faciliter son interprétation.
Exemple
Dans une expérience, on mesure les performances de compréhension de texte auprès de deux
groupes de lecteurs : des lecteurs experts du thème abordé dans le texte et des lecteurs novices,
peu familiers du thème ; la moitié de chaque groupe doit lire soit un texte peu cohérent, soit un
texte très cohérent (plan factoriel à mesures indépendantes).
Imaginons que les résultats obtenus soient les suivants :
68
La lecture du graphique indique :
- un effet principal de l’expertise : si on compare les performances moyennes (traits

rouges) des experts et des novices en faisant une moyenne des colonnes grise et
blanche, on s’aperçoit que les experts ont des performances moyennes en compréhension
supérieures à celles des novices. Ici, on ne tient pas compte de la cohérence du texte.
- un effet principal de la cohérence du texte : si on compare les performances moyennes

pour le texte très cohérent et peu cohérent en comparant la moyenne (traits rouges) des
colonnes grises (texte très cohérent) à celle des colonnes blanches (texte peu cohérent),
on s’aperçoit que globalement, le texte très cohérent donne lieu à de meilleures
performances que le texte peu cohérent. Ici, on ne tient pas compte de l’expertise des
lecteurs.
69
- un effet d’interaction : si on compare l’effet de la cohérence du texte (flèches rouges)

chez les experts et les novices, on constate que l’écart ne va pas dans le même sens ;
ainsi, chez les experts, le texte peu cohérent donne de meilleures performances que le
texte très cohérent alors que chez les novices, c’est l’inverse, le texte très cohérent
entraîne de meilleures performances que le texte peu cohérent. Ainsi, l’effet de la
cohérence du texte varie en fonction de l’expertise des lecteurs. L’effet d’une VI testé au
niveau de chaque modalité de l’autre VI est appelé effet simple.
Pour présenter une interaction, on construit fréquemment des graphiques en

courbes.
- Une première « astuce » pour faciliter l’interprétation de ces graphiques :
lorsqu’on observe des lignes parallèles, on peut être sûrs qu’il n’y a pas
d’interaction notable.
Reprenons l’exemple précédent (effets de l’alcool et du valium sur la vigilance). Sur les graphiques
ci-dessous, plus le score est élevé en ordonnée, plus la vigilance est élevée.
Les lignes représentant l’effet du valium étant parallèles, cela indiquerait l’absence d’interaction. En
effet, si on compare les conditions avec et sans alcool dans les trois cas de figure, on pourra voir
que les participants sont plus vigilants sans valium qu’avec valium, aussi bien avec que sans
alcool. Autrement dit, on observe le même type d’effet du valium, quelle que soit la condition
associée pour l’alcool. On peut en conclure qu’il n’y a pas d’interaction.
70
Figure 3 : diagrammes illustrant l’absence d’interaction (repris de Dancey & Reidy, 2007)
Dans le cas d’une interaction, les graphiques peuvent prendre des formes
diverses. Mais, d’une façon générale, on peut se fier à une seconde astuce : les
lignes ne seront pas parallèles.
Dans chacun des cas présentés ci-dessous, on peut voir que les résultats diffèrent
selon qu’on est dans la situation avec ou sans alcool. En effet, dans le graphique
de gauche, il ne semble pas y avoir de différence entre les situations avec et
sans valium quand on ne consomme pas d’alcool. En revanche, l’effet positif
du valium sur la vigilance est net dans la situation avec alcool.
L’exemple du graphique du milieu montre une situation inverse : alors que
le valium n’a pas d’effet sur la vigilance si on a consommé de l’alcool, il a un effet
positif quand on est sobre.
Dans l’exemple du graphique de droite, on constate un effet positif du valium dans
la situation sans alcool, puisque la vigilance est supérieure avec valium par
rapport à sans valium dans le cas où on n’a pas consommé d’alcool. La tendance
est inversée dans la condition avec alcool. Dans ce cas, le valium implique une
diminution de la vigilance par rapport à l'absence de valium."
Ces exemples illustrent tous la modification de l’effet du valium par la

consommation ou non d’alcool. On voit bien ici que la modification de l’effet peut
consister en une atténuation/amplification, une neutralisation, ou un renversement.
En résumé,
La notion d’interaction entre des facteurs causaux est centrale en psychologie car
elle permet notamment de capturer une partie de la complexité des
comportements humains.
Un graphique des résultats permet de visualiser si une interaction est présente.
Une analyse statistique dite d’analyse de variance (ANOVA) permet de tester si
l’interaction est significative ou non.
Les étudiants pourront par exemple se référer à l’ouvrage Psychologie

expérimentale (Myers & Hansen, 2007) ou des ouvrages de statistiques pour une
71
recension plus systématique des différents cas d’interaction.
XI. Plans factoriels à mesures indépendantes (inter-

sujets)
A. Présentation du plan
Lorsque les VI donnent toutes lieu à des mesures indépendantes, le plan

est dit factoriel à mesures indépendantes. Le nombre total de conditions
sera alors égal au produit du nombre de modalités de chaque VI. On pourra
étudier l’effet de chaque VI sur la VD et l’effet d’interaction des deux VI sur la VD
(voir plus bas).
Exemple :
Un chercheur souhaite savoir si le fait de vouloir être avec autrui (comparaison sociale) dans une
situation dépend du sexe du sujet qui se compare et du type de situation dans laquelle il est placé.
Pour ce faire, le chercheur prend un groupe d’hommes et un groupe de femmes. La moitié de
chaque groupe est placée dans une situation anxiogène, l’autre moitié dans une situation
embarrassante. On mesure si les sujets ont tendance à vouloir être avec autrui.
Sexe des individus

Masculin Féminin
Groupe MA Groupe FA
Type de Sujet MA1 Sujet FA1
situation Anxiogène Sujet MA2 Sujet FA2
Groupe ME Groupe FE
Embarrassa Sujet ME1 Sujet FE1

nte Sujet ME2 Sujet FE2
B. Traitement statistique associé lorsque les deux mesures sont
indépendantes  ANOVA 2 facteurs à mesures indépendantes)
1-Le test de l’ANOVA 2 facteurs mesures indépendantes

Pour les plans factoriels, nous ne présenterons pas les détails permettant de
calculer les variables tests. L’objectif est juste que vous compreniez ce qui sous-
tend un test de comparaison de moyennes lorsqu’on a plusieurs Vis et que vous
sachiez interpréter les résultats du logiciel de statistique.
Objectif :
Tester l’effet d’au moins deux facteurs (var nominales) indépendants sur une VD
d’intervalle.
Pré-requis :
• Deux facteurs indépendants (nominal)
• Chaque facteur peut avoir 2, 3, plusieurs modalités (ou niveaux du facteur)
• VD d’intervalle
Tester l’effet de chaque VI (ou facteur) et de l’interaction entre ces deux Vi sur la
VD
72
Principe
Soient
Quelles sont les sources de variations de la VD ?
- Variation liée au facteur A

- Variation liée au facteur B
- Variation liée à l’interaction A*B
- Variation liée à l’erreur
Buts : évaluer quelle part de la variation de la VD est dûe à ces sources.
Si je fais une ANOVA à 2 facteurs, je vais tester 3 hypothèses 2

Dans une expérience à deux facteurs, il y a deux types d'effets possibles
1) effets principaux de chaque facteur sur la VD
2) une interaction des deux facteurs sur la VD
Algébriquement, les effets principaux et les interactions sont indépendants, donc

il est possible d'obtenir des effets principaux significatifs sans interaction
significative entre les facteurs, et il est aussi possible d'avoir des interactions
significatives sans aucun effet principal significatif.
L’effet du facteur A à un niveau particulier (modalité) du facteur B est appelé effet

simple du facteur A à un niveau spécifié du facteur B.
Travaillons à partir d’un exemple :

Un chercheur décide de mener une expérience à deux facteurs dans laquelle les
facteurs indépendants sont :
- Familiarité avec un domaine de connaissance, avec les modalités : faible

vs. forte
2 Remarque : si l’ANOVA est à 3 facteurs => 7 hypothèses possibles sur les effets principaux de
chaque facteur A, B, C et sur les interactions A*B; A*C; B*C; A*B*C.
73
- Type de pédagogie: classique vs. innovante
Familiarité
Type de Forte Faible
pédagogie
classique Groupe 1 Groupe 2
innovante Groupe 3 Groupe 4
2.Procédure ANOVA 2 facteurs mesures indépendantes surJAMOVI
Test d'égalité des variances des erreurs de Levene
Le seuil de signification du test de Levene est égal à .622 ; cette valeur est >.05
donc les variances sont homogènes.
Effet du facteur Fam: F (1,37) = 38.03; p < .001; ηp2 = .51

Effet du facteur Pédagogie: F (1,37) = 2,49; p = .123 ; ηp2 = .06
Effet de l’interaction Fam*Pédagogie: F (1,37) = 43,24 ; p < .001 ; ηp2 = .54
Eta carré partiel de l’interaction doit aussi être indiqué ici. 54 % de la variance de
la VD est expliquée par l’interaction.
La valeur 0 de eta-carré partiel représente aucun effet et 1 un effet très fort.
Pour chaque rapport F, Il y a un effet principal significatif pour les facteurs fam
mais pas pédagogie. Le premier est significatif au-delà du niveau 0.01. En plus de
l’effet principal de la familiarité, il y a une interaction significative. La valeur de p
est donnée comme 0.000, ce qui signifie qu’elle est inférieure à .001. Clairement,
le facteur fam a différents effets pour les participants suivant une pédagogie
classique ou innovante; mais pour s'assurer de la nature de ces effets, nous
aurons besoin d'examiner plus précisément le pattern des moyennes.
74
Moyennes marginales estimées
Les moyennes marginales, sont les scores moyens (ici la performance

moyenne) à chaque niveau du facteur considéré séparément, ignorant l'autre
facteur.
Représentation de l’interaction :
1- L’effet de la familiarité sur les performances change selon le type de pédagogie

2- Lorsque la pédagogie est innovante, les performances ne diffèrent pas selon
les niveaux de familiarité. Lorsque la pédagogie est classique, les performances
sont faibles lorsque le participant est peu familier, et sont élevées lorsque le
participant est très familier avec le domaine.
La présence d'une interaction est indiquée par une hétérogénéité des profils à
travers les niveaux d'un des facteurs, c'est-à-dire par les profils non parallèles
représentés par les graphes. Une interaction entre deux facteurs A et B est
souvent indiquée par un signe de multiplication: A * B; souvent abrégé par AB.
Lorsque l’interaction entre les deux facteurs est significative, les effets principaux
(significatifs ou pas) n’ont plus de sens. Le chercheur doit se centrer sur
75
l’interaction.
Lorsque l’interaction est significative, on s’intéresse aux effets simples, c’est-à-

dire aux effets d’un facteur à l’intérieur des modalités ou niveaux de l’autre facteur.
Le choix d’interpréter le facteur A aux différents niveaux de B ou d’interpréter le
facteur B aux différents niveaux de A est libre et dépend de vos hypothèses.
Autrement dit, soit on examine les effets simples du facteur A à chaque niveau de
B; soit on examine les effets simples de B à chaque niveau de A. Le choix se
porte sur la comparaison la plus pertinente théoriquement.
Nous choisissons arbitrairement dans cet exemple de décomposer suivant les

niveaux de familiarité. On a donc une analyse de l’effet de la pédagogie chez ceux
qui sont peu familiers et un effet de la pédagogie chez ceux qui sont très familiers
Procédure avec JAMOVI
Cliquer
1 espace avant » = » et un espace avant « 1 »
Chez ceux qui sont peu familiers
76
Chez les peu familiers, on constate que la pédagogie a un effet significatif sur les
performances ; (M = 2.80 ; SD = 1.55 pédagogie classique ; M = 4.80 ; SD = 1.03
pédagogie innovante), t (18) = 3.40 ; p = .003).
Chez ceux qui sont très familiers
Chez les très familiers, on constate que le type de pédagogie a un effet significatif
sur les performances ; (M = 7.90 ; SD = 1.37 pédagogie classique ; M = 4.63 ; SD
= 1.12 pédagogie innovante), t (19) = 6.00 ; p <.001).
XII. Plans factoriels à mesures répétées (intra-sujets)

“Le chercheur a recours à un plan factoriel à mesures répétées lorsqu’il soumet un

seul groupe de sujets à un ensemble de situations, ensemble défini par les
diverses combinaisons des niveaux d’au moins 2 VIˮ (Robert, 1988, p.149).
Exemple :
Un chercheur veut tester, chez des adultes ayant des caractéristiques similaires, l’effet du domaine
de culture générale (art, géographie, histoire) et du facteur temps de réponse (immédiat ou 2 mn)
sur les performances. On présente individuellement à chaque sujet un questionnaire de
connaissance comportant 30 questions (10 questions par domaine de connaissances). Au sein de
chaque sous-liste de 10 questions, 5 questions doivent être répondues immédiatement après que
l’expérimentateur les ait lues et 5 questions doivent être répondues 2 mn après que
77
l’expérimentateur les ait lues.
Domaine
art histoi géogra
S1 S1 S1
immédi S2 S2 S2
at … … …
Temps S1 S1 S1
de 2mn S2 S2 S2
réponse après … … …
B. Traitement stat associé lorsque les deux VI sont intra 

ANOVA 2 facteurs à mesures repétéés
Ce type de test n’est pas au programme de 602 pour l’année 2016-2017.
XIII. Plans factoriels mixtes ou combinés

Lorsqu’un plan d’expérience factoriel combine un facteur avec mesures répétées

et un facteur à groupes indépendants, il est dit mixte ou combiné.
Exemple 1 :
Chaque participant identifie 2 catégories d’expressions faciales (mesures répétées) et appartient à
un des groupes indépendants défini par la variable âge.
Age des participants

Jeunes adultes Personnes âgées
(JA) (PA)
SJA1 SPA1
SJA2 SPA2
Joie
… …
SJA1 SPA1
Type d’expressions
SJA2 SPA2
faciales Tristesse
… …
Exemple 2 :
On compare les performances d’un groupe expérimental à celles d’un groupe contrôle à deux
moments : avant traitement et après traitement
Moment du test
Avant traitement Après traitement

(Pré-test) (Post-test)
SE1 SE1
Expérimental SE2 SE2
… …
78
SC1 SC1
Groupe Contrôle SC2 SC2
… …
B. Traitement stat associé

1.Le test de l’ANOVA à Plan mixte
L’ANOVA à plan mixte est une combinaison d’un ANOVA à un facteur mesures
indépendantes et d’une ANOVA à un facteur mesures répétées. Nous vous
demanderons juste de savoir interpréter les résultats du logiciel de statistique.
Exemple : On veut comparer des serveurs de café expérimentés (> 10 ans

d’expérience) à des serveurs de café en formation donc débutants, sur le rappel
correct par paire client-boisson. Les serveurs sont confrontés à une planche sur
laquelle sont représentés des photos de clients (condition indices perceptifs
présents) vs. une planche représentant des silhouettes autour d’une table (repères
perceptifs absents).
Nous avons donc :

• Facteur 1 : expertise (débutants, experts)
• Facteur 2 : indices perceptifs (présents (photos)/absents (silhouettes))
• VD : Pourcentage de rappels corrects par paires client-boisson.
Résultats :
2.Procédure Sur JAMOVI
79
F (1,41) = 26.99; p < .001 ; ηp2 = .40. Effet significatif des indices sur le pourcentage
moyen de rappels corrects
Effet de l’interaction indices*expertise : F (1,41) = 7.24; p < .01; ηp2 = .15

Effet significatif de l’expertise : F (1,41) = 14.3; p < .001; ηp2 = .26
Pour obtenir la figure de l’interaction:
80
L’interaction étant significative, on va examiner l’effet simple du facteur expertise .

• Comparer les groupes experts/débutants (étude de l’effet de l’expertise)
dans la condition avec indices présents; puis dans la condition avec indices
absents
• Pour cela on réalisera des t-tests mesures indépendantes
Résultats : T-tests confirment que:
• L’expertise n’a pas d’effet sur le pourcentage moyen de rappels corrects
lorsque les indices sont présents ; t (41) = -1.66 ; p = .052
• L’expertise a un effet significatif sur le pourcentage moyen de rappels
corrects lorsque les indices sont absents: t (41) = -4.21; p <.001. Les
experts sont plus performants que les débutants.
XIV. Conventions d’écriture pour la rédaction de

mémoires et d’articles normes APA
A. Ecriture du t-test ou t de Student
Le « t » s’écrit de la façon suivante : t (ddl) = xx,xx ; p = …..

ddl représente les degrés de liberté ; par exemple : t (24) = 2.05 ; p < .001.
Pour la valeur du t, deux décimales suffisent.
Le p (seuil de signification) doit être écrit en italique et on doit laisser un espace
entre le t et la parenthèse et un espace de chaque côté du signe =.
Exple : p < .001
Mettre la valeur exacte du p (même si le résultat est non significatif)
B. Ecriture de l’ANOVA
Le F s’écrit de la façon suivante : F (ddlintergr, ddlintragr) = xx,xx, p < .. ..

Ddlintergr : degré de libertés inter-groupe,
Ddlintragr : degré de libertés intra-groupe,
Le F doit être écrit en italique.
Exple : F (1, 42) = 7.17 ; p = .02.
81
Exemples de rédaction d’article
82
XV. Documents complémentaires polycopié 602
Table des matières

Document 1 : Les différences entre les tests paramétriques et non paramétriques
Document 2 : Exemples d’application
Document 3 : Tables des valeurs critiques
1. Document 1 : Tests non paramétriques /paramétriques

1.1.Un test non paramétrique est un test dont le modèle ne précise pas les
conditions que doivent remplir les paramètres de la population dont a été extrait
l'échantillon.
Il n’existe pas de postulat sur la forme des distributions. Ceci ne veut pas dire
qu’ils ne dépendent pas d’une loi de distribution car sinon on ne pourrait pas
interpréter ces tests mais disons plutôt qu’ils ne nécessitent pas qu’il y ait
conformité entre distribution observée et la fonction de répartition de la loi sur
laquelle ils s’appuient.
Pas d’exigence sur l’homogénéité des variances
Avantages des tests non paramétriques

1. Leur emploi se justifie lorsque les conditions d'applications des autres tests
ne sont pas satisfaites
2. Ils peuvent être utilisés lorsque la taille de l'échantillon est faible. En
effet, pour des échantillons de taille très faible jusqu'à N = 6, la seule
possibilité est l'utilisation d'un test non paramétrique, sauf si la nature
exacte de la distribution de la population est précisément connue.
3. Seuls des tests non paramétriques permettent le traitement de données
(VD) nominales ou ordinales .
4. Les tests non paramétriques sont plus faciles à utiliser que les tests
paramétriques. Leur relative simplicité résulte souvent du remplacement des
valeurs observées soit par des variables dichotomiques, soit par des rangs. C'est
ainsi que la médiane est utilisée à la place de la moyenne.
Désavantage des tests non paramétriques

Les tests non paramétriques sont moins puissants que les tests paramétriques.
1.2.Tests paramétriques
Un test paramétrique requiert un modèle à fortes contraintes (normalité des
distributions, égalité des variances) pour lequel les mesures doivent avoir été
réalisées dans une échelle au moins d'intervalle. Ces hypothèses sont très
difficiles à vérifier lorsque la taille de l'échantillon est faible.
Avantages
Les tests paramétriques sont plus puissants que les tests non paramétriques.
Par conséquent, lorsque toutes les conditions sont remplies, il est préférable
d'utiliser un test paramétrique.
L'analyse des résultats est plus fine avec un test paramétrique.
Inconvénients:
83
La taille des échantillons ne doit pas être faible. Les conditions d'utilisation des
tests paramétriques doivent être remplies. Les variables doivent être mesurées
par une échelle d’intervalle.
On choisira les tests appropriés en fonction notamment du type de mesure

(nominale, ordinale, intervalle), de la forme des distributions (normales ou autre) et
du nombre d'échantillons dont on dispose, du nombre de modalités de la VI, du
type d’échantillons (liés ou indépendants).
2. Document 2 : Exemples d’application
2.1.T-test mesures répétées

Cas des petits échantillons
On veut comparer les performances de 18 sujets avant/après entraînement à
l’utilisation de stratégies. Les conditions de normalité ont été satisfaites. La
variable performance est considérée comme une variable d’intervalle. Peut-on
seuil α=.05 accepter l’hypothèse selon laquelle les performances avant
entraînement sont inférieures à celles obtenues après entraînement ? Les
données sont fournies dans la tableau 3.4 (page suivante).
Les pré-requis
- la variable dépendante (VD)“performance” est considérée comme une variable
d’intervalle.
- les 2 séries de mesures de la VD “avant”/”après” sont répétées.
- la distribution de la variable dépendante doit être proche d’une distribution
normale.
Les hypothèses
H0 : µ1= µ2 au plan de l' ensemble parent
La moyenne µ1 de la population “avant” est égale à la moyenne µ2 de la
population “après”.
H1 : µ1< µ2
test unilatéral
Conditions
N = 18 cas des petits échantillons car N<30
Les observations
Participants Avant Après D = avant-après D2

1 6 7 -1 1
2 9 11 -2 4
3 2 6 -4 16
4 7 13 -6 36
5 9 11 -2 4
6 6 6 0 0
7 11 9 2 4
84
8 9 8 1 1
9 11 12 -1 1
10 9 11 -2 4
11 7 7 0 0
12 9 12 -3 9
13 10 18 -8 64
14 8 10 -2 4
15 12 10 2 4
16 16 16 0 0
17 10 9 1 1
18 15 15 0 0
somme = -25 somme = 153
Variable test
moy(av entrain) = 9,22
moy (ap entrain)= 10,61
On constate que la moyenne avant est < à la moyenne après, ce qui va dans le
sens de H1.
∑ D = 153
2
(∑ D) = (-25)2= 625
2
Sous H0, la valeur observée de la variable test suit une loi de t à N-1 ddl soit
17ddl.
Moy1 − Moy 2
t=
 2 (∑ D)
2

∑ D − 
 N 
 N ( N − 1) 
 
9,22 − 10, 61
t=
 625 
153 − 18 
18(18 − 1)
t = - 2,236
Décision
Sur la table pour ddl =17 et seuil.05 test unilatéral, on trouve que la valeur critique
du t = 1,740.
H1 : µ1<µ2 (H1: moy avant < moy ap )
85
Z0
Z1
t
-2,236 -1,740 0
Si t observé est < à -t critique de la table, le t appartient à Z1 qui est la zone

d’acceptation de H1, donc dans ce cas on rejette H0 et on accepte H1.
-2,236 < -1,740 donc on rejette HO et on accepte H1 à savoir la moyenne de perf
“avant”est inférieure à la moyenne des perf “après” .
Cas des grands échantillons
L’énoncé est le même que pour le cas des petits échantillons, on a simplement
rajouté des données. Il s’agit toujours de comparer les performances de sujets
avant/après entraînement à l’utilisation de stratégies.
Les pré-requis
- la variable dépendante “performance” est considérée comme une variable
d’intervalle.
- Les deux séries de mesures “avant” “après” sont des mesures répétées.
- la distribution de la variable dépendante est proche d’une distribution normale.
Les hypothèses
H0 : µ1= µ2 au plan de l'ensemble parent
La moyenne µ1 de la population des scores dont provient la série de mesure
“avant” est égale à la moyenne µ2 de la population des scores dont provient la
deuxième série de mesure “après”.
H1 : µ1< µ2
test unilatéral
Conditions
N = 40 cas des grands échantillons
Les observations (idem exp petits échantillon + rajout de données)

Avant Après D = avant-après D2
6 7 -1 1
9 11 -2 4
2 6 -4 16
7 13 -6 36
9 11 -2 4
6 6 0 0
11 9 2 4
9 8 1 1
86
11 12 -1 1
9 11 -2 4
7 7 0 0
9 12 -3 9
10 18 -8 64
8 10 -2 4
12 10 2 4
16 16 0 0
10 9 1 1
15 15 0 0
10 10 0 0
9 11 -2 4
12 12 0 0
17 15 2 4
10 11 -1 1
15 17 -2 4
14 18 -4 16
17 18 -1 1
17 18 -1 1
17 16 1 1
13 14 -1 1
18 17 1 1
18 15 3 9
14 14 0 0
15 16 -1 1
15 14 1 1
10 9 1 1
10 11 -1 1
19 19 0 0
18 20 -2 4
17 16 1 1
14 16 -2 4
∑D = -33 ∑D2=209
Variable test
moy1 “avant”= 12,13
moy2 = 12,95
On constate que la moyenne avant est < à la moyenne après, ce qui va dans le
sens de H1.
∑ D = 209
2
(∑ D) = (-33)2
2
Sous H0, la valeur observée de la variable test suit une loi normale réduite à N-1
ddl soit 39ddl. t=z
12,13 − 12,95
z=
 ( −33) 2 
209 − 
 40 
40( 40 − 1)
87
z = - 2,40
Décision
Pour aller dans le sens de H1, il faut que z observé soit faible. Par conséquent Z1
est à gauche. –2,40 est inférieur à la valeur critique –1,65 donc on rejette H0 et on
accepte H1 au seuil .05 à savoir la moyenne des performances “avant
entraînement” est inférieure à la moyenne des performances “après entraînement”
2.2.L’ANOVA à mesures répétées
sur JAMOVI
La p-valeur est p=.417 cette valeur est > .05 par conséquent il y a homogénéité de
la covariance.
88
F ( 2,34) = 8.33 ; p = .001 ; η2= .074

p étant < .05 on rejette H0 et on accepte H1 au seuil p = .001 à savoir au moins
une des distributions des scores au test en fonction du moment diffère des autres.
Interprétation d’un tableau de résultats du test de sphéricité.
• Si le test est significatif (i.e. dans la case "Signification", on trouve une p-valeur
inférieure ou égale à 0.05), alors on peut utiliser un test plus conservateur, tel que
le test de Greenhouse-Geisser en lisant les lignes Greenhouse-Geisser dans le
tableau récapitulatif de l'ANOVA (cf tableau suivant).
• Si le test n'est pas significatif (i.e. dans la colonne "p", on trouve une p-valeur
supérieure à 0.05), alors on doit utiliser la p-valeur donnée dans les lignes
appelées « None » dans le tableau récapitulatif de l'ANOVA.
Dans cet exemple (cf tablau ci-dessus), le seuil de signification du test de

sphéricité est égal à .417. Cette valeur est >.05 par conséquent l’homogénéité
de la covariance ou sphéricité est vérifiée.
3. Document 3 : Tables des valeurs critiques
Table de la loi normale réduite :
Table des valeurs critiques :

Table de la loi normale réduite pour α = .05
Valeurs critiques
Test unilatéral -1,65 ou + 1,65
Test bilatéral -1,96 ou + 1,96
(Pour le t de Student : -1,65 (si H1 : µ1 < µ2) et + 1,65 (si H1 : µ1 > µ2))
89
Table des valeurs critiques du t-test
Extrait de HOWELL, D.C. (1998). Méthodes statistiques en sciences humaines,

Bruxelles, DeBoeck Université, p. 756
90
Extrait de HOWELL, D.C. (1998). Méthodes statistiques en sciences humaines,

Bruxelles, DeBoeck Université, p. 756
91
Table des valeurs critiques du test de Kruskal-Wallis
92
93

Py00602t SP Iris 21 22

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Py00602t SP Iris 21 22

Transféré par

Droits d'auteur :

Formats disponibles

SED 20 21

Université Toulouse - Jean Jaurès - Service d’Enseignement à Distance

Reproduction et diffusion interdites sans l’autorisation de l’auteur-e

Démarches de Recherche – Statistiques – 93 pages

Partie I : Démarches de Recherche

Université Toulouse Jean Jaurès

Responsables de l’UE PY00602T :

Partie I : Démarches de Recherche

Année Universitaire 2021-2022

Table des matières

I. Objectifs de l’UE et informations générales ............................................................... 5

B. L’échantillonnage non probabiliste .....................................................................30

XIV. Conventions d’écriture pour la rédaction de mémoires et d’articles normes

I. Objectifs de l’UE et informations générales

Les recherches en psychologie peuvent s’inscrire dans une démarche empirico-

 Les objectifs de cet enseignement sont que :

- Vous identifiez les principales notions qui caractérisent les recherches

- vous maîtrisiez la signification des termes et concepts méthodologiques

- Remarque : le logiciel JAMOVI a une version Linux, Windows, MacOS ou

Ressources pour travailler le cours :

-Un document complémentaire sur les concepts statistiques de la valeur p et de

Bibliographie fortement conseillée :

Dancey, C.P, Reidy, J. (2007). Statistiques sans maths pour psychologues.

Gana, K., Gallé-Tessonneau, M. & Broc, G. (2018). Le protocole individuel en

Lanovaz, M.J. (2013). L’utilisation de devis expérimentaux à cas-unique en

Sockeel, P., & Anceaux, F. (2002). La démarche expérimentale en psychologie.

Bibliographie pour approfondir

Campbell, D.T., Stanley, J.C. (1963). Experimental and quasi-experimental

Dawes, R. (1994). House of cards: Psychology and psychotherapy built on

Delhomme, P., Meyer, T (2002). La recherche en psychologie sociale : Projets,

Guéguen N. (2007). Méthodologie en psychologie. Collection Express en

Howell, D.C. (1998). Méthodes statistiques en Sciences Humaines. Paris : De

Juhel, J. (2008). Les protocoles individuels dans l’évaluation par le psychologue

Kazdin, A. E. (2011). Single-Case Research Designs, Second Edition. New York,

sciences sociales, maîtriser le traitement de données. Bruxelles : De Boeck.

Lakens D (2013) Calculating and reporting effect sizes to facilitate cumulative

Myers, A., & Hansen, C.H. (2007). Psychologie expérimentale. Bruxelles : De

Robert, M. (1988). Fondements et étapes de la recherche en psychologie

Pour s’initier à la pensée critique :

II. Objectif et approches de recherche en

- Décrire et comprendre le phénomène, comportement, évènement ou état mental

2. Quelles sont les approches de recherche utilisées en psychologie ?

Dans l’approche hypothético-déductive, les recherches se font à partir d’une idée

Qu’il s’agisse de l’approche inductive ou déductive, au fil des recherches réalisées,

En revanche, la démarche hypothético-déductive permet d’aboutir à des conclusions

Dans la démarche hypothético-déductive la notion d’inférence causale ou

III. Démarches et techniques de recherche en

Il s’agit d’étudier les individus dans leur environnement naturel. L’observation

B. Les comptes-rendus introspectifs :

C. Les recherches en neurosciences comportementales ou

Les recherches réalisées dans ce cadre visent d’une part à éclairer le

a. Mesures cérébrales chez l’individu sain : cette technique vise à comprendre le

b. Mesures cérébrales chez l’individu présentant une pathologie : les études

D. La simulation par ordinateur et l’intelligence artificielle :

Ces deux techniques visent à imiter ou modéliser un comportement humain dans

E. Les expériences contrôlées ou plans expérimentaux :

Si les conditions éthiques et le contexte le permettent, il est possible de mettre en

méthodes pour l’étudier. L’expérimentation comme toute méthode de recherche ne

La méthode expérimentale permet de contrôler avec plus d’efficacité les variables

a. La construction de l’objet d’étude, formulation de la question

Compte tenu des conditions de réalisation des expériences contrôlées, un

F. Les protocoles individuels ou à cas-uniques quasi-

Les recherches effectuées avec des protocoles individuels ou à cas-unique sont