Académique Documents
Professionnel Documents
Culture Documents
2022
PY00602T
Démarches
de recherche -
Statistiques
Partie II : Statistiques
Nathalie Huet
Les modalités de contrôle des connaissances, éventuellement indiquées dans le document sont
données à titre indicatif, sous réserve de validation par les départements de l’Université.
Elles sont donc susceptibles d’être soumises à modifications.
Pour vérification, connectez-vous sur le site de l’Université
https://www.univ-tlse2.fr/accueil/formation-insertion/inscriptions-scolarite/le-controle-des-
connaissances
UFR de PSYCHOLOGIE – UE PY000602 -L3
UFR de Psychologie
Licence 3 de Psychologie
UE PY 00602T
Démarches de Recherche – Statistiques – (L3)
Partie II : Statistiques
Nathalie Huet (nathalie.huet@univ-tlse2.fr)
1
UFR de PSYCHOLOGIE – UE PY000602 -L3
2
UFR de PSYCHOLOGIE – UE PY000602 -L3
4
UFR de PSYCHOLOGIE – UE PY000602 -L3
Quant aux statistiques, il s’agit d’un outil indispensable pour la pratique des
psychologues et des chercheur.e.s en psychologie. Descriptives, elles permettent
d’avoir/de construire une image résumée, condensée de données individuelles.
Inférentielles, les statistiques sont un outil d’aide à la décision : elles permettent
notamment de décider si une différence observée entre 2 ou plusieurs échantillons
de données est vraie pour les populations dont sont issus les échantillons et
associe à la décision un niveau de risque de se tromper.
6
UFR de PSYCHOLOGIE – UE PY000602 -L3
Navarro, D., Foxcroff & Meunier, J-M. (2019). Apprentissage des statistiques avec
JAMOVI : un tutoriel pour les étudiants en psychologie et autres débutants.
(Version 0.70). (J.M. Meunier, Trad.) https://jmeunierp8.github.io/ManuelJamovi/
Bourguigon O., Lecourt D., Mattei J.F., Nouvel P. (2004). L’humain est-il
expérimentable ? Coll. Forums Diderot. Paris : PUF.
Kinnear, P., & Gray, C. (2005). SPSS facile appliqué à la psychologie et aux
7
UFR de PSYCHOLOGIE – UE PY000602 -L3
Webographie :
- http://www.socialresearchmethods.net/kb/destypes.php
- http://spss.espaceweb.usherbrooke.ca/
8
UFR de PSYCHOLOGIE – UE PY000602 -L3
Les recherches réalisées en psychologie ont pour objectif d’étudier les conduites
humaines à travers les processus affectifs, cognitifs, développementaux, sociaux et
culturels qui les sous-tendent. De manière générale, il est possible de repérer des
objectifs communs aux différentes recherches réalisées dans cette discipline. Il peut
s’agir par exemple de :
Les recherches en psychologie peuvent s’inscrire aussi bien dans une approche
empirico-inductive que dans une approche hypothético-déductive. Bien que souvent
opposées, ces deux approches sont complémentaires. Dans l’approche empirico-
inductive, les recherches s’insèrent souvent dans une démarche exploratoire dont
l’objectif est d’assembler le plus possible d’informations à propos d’un phénomène,
conduite ou comportement observé dans la vie réelle. Cette description du phénomène,
comportement, ou conduite observés dans un contexte naturel (réel), ainsi que
l’interprétation qui peut en être élaborée, contribue à construire progressivement à partir
de ces éléments un cadre explicatif (conceptuel ou théorique) du phénomène étudié.
9
UFR de PSYCHOLOGIE – UE PY000602 -L3
A. L’observation naturaliste :
Ils permettent à l’individu de décrire son propre vécu. Ils sont basés sur la
méthode d’introspection (Wundt). Font partie de cette technique, les agendas, les
journaux intimes voire les enquêtes. Le problème avec cette technique réside dans le
niveau élevé de subjectivité, aucun contrôle ne peut-être établit car c’est uniquement
l’individu qui produit et traduit ce qu’il vit. C’est une méthode qui est particulièrement
utilisée dans les démarches cliniques. De plus, elle est généralement rétrospective ce
qui peut également introduire d’autres biais sans qu’aucune intervention du psychologue
ou du chercheur ne puisse les limiter.
11
UFR de PSYCHOLOGIE – UE PY000602 -L3
originale. L’objectif est d’écarter le risque de fausses conclusions qui seraient dues à une
variation aléatoire ou au hasard. En psychologie, comme dans d’autres sciences, des
débats ont eu lieu sur la difficulté constatée de répliquer des effets ayant fait l’objet de
publications scientifiques (voir par ex. Asendorpf et al., 2013 ; Nosek & Lakens, 2014).
Un collectif de chercheurs (Open Sciences Collaborations, 2015) a conduit un projet
visant à répliquer des expériences en psychologie, il a été observé que sur 100
tentatives de réplication, uniquement 36 aboutissaient. Compte tenu de l’ampleur du
phénomène, différents critères sont identifiés afin de répondre à cette difficulté de
réplication et ainsi rendre les recherches réalisées plus robustes (voir pour revue
Lantian, 2021 ; Spellman, Gilbert, & Korker, 2018).
14
UFR de PSYCHOLOGIE – UE PY000602 -L3
Ces protocoles se situent entre les études de cas que l’on vient de voir et les
protocoles expérimentaux que l’on verra ensuite. Les recherches effectuées avec des
protocoles individuels quasi-expérimentaux sont celles pour lesquelles la situation
d’étude ne permet pas un niveau de contrôle et/ou de manipulation suffisant
caractéristiques d’un protocole purement expérimental. Cependant, dans les protocoles
individuels ou à cas-uniques quasi-expérimentaux, il est possible d’intégrer des éléments
expérimentaux afin d’augmenter la validité interne de l’étude.
15
UFR de PSYCHOLOGIE – UE PY000602 -L3
liés à d’autres facteurs externes à l’étude, tels que les facteurs historiques,
d’instrumentation, de familiarité, etc., afin d’assurer une validité interne et externe
suffisantes. Un exemple de protocole quasi-expérimental est celui nommé AB.
i) Les protocoles A-B : il s’agit d’un plan basique avec une ligne de base (A) et
une phase d’intervention (B). Par exemple, si l’on s’intéresse à l’effet de la
méditation sur le sommeil, on mesure le sommeil du patient une fois par jour
pendant 21 jours avant d’intégrer les séances de méditation durant 21 jours,
pendant lesquels on mesure également le sommeil une fois par jour. Dans ce
dispositif, il est possible de comparer les 21 mesures de sommeil (pré-
intervention, phase A) aux 21 mesures de sommeil durant l’intervention (phase
B). Les inconvénients de ce type de plans peuvent être :
a. Les protocoles arrêt-reprise : il s’agit ici des protocoles qui impliquent des
séquences de retour à la phase de base suite à un arrêt de l’intervention et des
séquences de reprise de l’intervention.
changement constaté est lié à d’autres facteurs externes à l’intervention telles que la
maturation, la régression vers la moyenne (car les mesures sont répétées) ou encore les
facteurs historiques. Dans la mesure ou le niveau du phénomène étudié après le retrait
de l’intervention revient à un seuil proche à celui mesuré avant l’intervention (dans la
phase A), l’explication en termes de causalité entre l’intervention et le phénomène étudié
est consolidée.
Figure 1. Exemple d’un protocole ABA ou ABAB. Figure extraite de Lenovaz (2013, p.
166)
Les plans ABAB visent à répliquer l’effet de l’intervention en la réintroduisant après l’arrêt
(des nouvelles séances de méditation par exemple). Si le traitement (B) a vocation à
améliorer l’état du patient, après la phase de retrait de traitement (A2), le traitement est
de nouveau administré au patient et on peut de nouveau prélever une mesure B pour
évaluer de nouveau l’effet du traitement.
Ce plan est utilisé pour pallier les faiblesses déontologiques du plan précédent.
18
UFR de PSYCHOLOGIE – UE PY000602 -L3
Il s’agit des plans de type AB qui nécessitent au moins deux cas (participants, contextes,
comportements, etc.). Dans ce type de dispositif, le début de la phase A (pré-
intervention) est le même pour tous les participants mais la phase B d’intervention va se
mettre en place à des moments différents pour chacun des participants. En revanche,
elle se termine au même moment pour tous les participants (contextes, comportements).
L’objectif de ce type de protocole est de voir si l’intervention ou la variable manipulée
impacte l’un des comportements ciblés alors que les autres restent stables.
Par exemple, les patients présentant de difficultés de sommeil sont évalués au même
moment phase A (pré-intervention) mais le début de l’intervention (B) avec les séances
de méditation est décalée. Le patient 1 commence après une phase de base (A) de 3
jours (séances), le patient 2 commence après une phase de base (A) de 9 jours
(séances), le patient 3 commence après une phase A de 11 jours (séances). La figure 2
illustre le dispositif évoqué dans l’exemple.
19
UFR de PSYCHOLOGIE – UE PY000602 -L3
Patient 1
Patient 2
Patient 3
Figure 2. Exemple illustrant les protocoles à lignes de base multiple adapté de Lenovaz
(2013, p. 169)
20
UFR de PSYCHOLOGIE – UE PY000602 -L3
figure 4 illustre des variantes de plan à critères changeants avec des plans de type
ABAB. Les principes évoqués dans chacune des sections précédentes s’appliquent dans
ce type de dispositif.
phénomène étudié. Deux techniques d’analyse sont utilisées dans le cadre des
protocoles à cas uniques : a) l’examen visuel, qualitatif des données à partir des
graphiques, b) les analyses statistiques.
L’examen visuel vise à évaluer l’effet de l’intervention en comparant la performance
obtenue dans la phase A (sans intervention) à la performance obtenue dans la phase B
(avec intervention). D’après Lane et Gast (2014) l’analyse visuelle des données
nécessite la prise en considération de 6 critères différents qui permettent d’examiner les
données dans chacune des phases mais également entre les différentes phases comme
suit :
- Le niveau correspond à la moyenne des données dans chacune des phases
(phase A et phase B) et son évolution entre les deux phases
- La tendance des données qui renvoie à la pente de la ligne qui caractérise les
scores dans chacune des phases (A et B). L’idée est de déterminer si la pente
change entre les phases.
- La variabilité des données observées, autrement dit le niveau de déviation des
scores autour de la ligne de régression dans une phase (A et B) et leur
évolution entre les phases.
- Le recouvrement entre les phases qui renvoie au pourcentage de scores dans
une phase qui se recouvre avec l’étendue des scores de la phase précédente
- Le caractère immédiat de l’effet évalué entre les phases qui repose sur
l’ampleur du changement entre les dernières mesures d’une phase et les
premières mesures de la phase suivante
- La similarité entre les phases c’est-à-dire le degré de similarité entre des
patrons de données de phases équivalents. Par exemple détermine si les
patterns des données entre A1 et A2 se ressemblent plus ou moins que ceux
entre les phases B1 et B2.
Malgré l’existence de ces critères, l’examen visuel des données présente l’inconvénient
d’une absence de règles permettant de déterminer si un changement significatif du
comportement entre les phases est observé. De même, la question sur la validité des
inférences à partir des données visuelles demeure. Dans ce cadre, des chercheurs se
sont intéressés aux taux d’accord inter-juges. Ils sont mis en évidence que ce taux
d’accord inter-juges à partir de l’interprétation des graphiques était faible, tout comme les
convergences entre les analyses statistiques et les jugements visuels. Ils ont ainsi
démontré que les effets non significatifs étaient plus concordants que les effets
significatifs. En raison de ces éléments, il est recommandé actuellement d’effectuer les
deux analyses visuelle et statistiques (Kazdin, 2011).
Les protocoles individuels ou à cas-unique qu’ils soient expérimentaux ou quasi-
expérimentaux constituent un moyen rigoureux et utile à la recherche fondamentale et
appliquée. Ils sont adaptés aux contraintes du terrain et permettant d’évaluer ainsi
l’efficacité des interventions ou l’évolution des comportements. La limite principale
concerne la validité externe puisque les effets reposent sur un cas-unique (individu,
famille, classe, etc.) qui demande à être réplicable.
23
UFR de PSYCHOLOGIE – UE PY000602 -L3
Les techniques et démarches pour réaliser des recherches sont variées comme nous
pouvons le constater. Ces dispositifs sont guidés par les objectifs du chercheur ou du
psychologue dans sa pratique professionnelle. Dans tous les cas, quelque soit le type de
dispositif utilisé qu’il s’agisse d’une étude expérimentale ou quasi-expérimentale, qu’elle
concerne des groupes de participants ou des protocoles à cas-uniques, le chercheur et
le praticien peuvent œuvrer pour assurer une validité expérimentale suffisante. A cet
effet, il est important de s’assurer que certains critères de validité soient respectés.
Dans la section suivante nous traiterons de trois notions indispensables dans
l’élaboration et la mise en place d’une recherche : la validité de construit, la validité
interne et la validité externe.
24
UFR de PSYCHOLOGIE – UE PY000602 -L3
seront mieux mémorisés que des stimuli neutres » est une hypothèse générale.
On ne sait pas ce que sont les stimuli, comment la valence émotionnelle est
manipulée, ni comment la mémorisation est évaluée.
Un exemple d’hypothèse opérationnelle pourrait être : lors d’une tâche de
reconnaissance, le nombre de noms d’objets correctement reconnus sera plus
élevé lorsque les objets ont une valence émotionnelle positive ou négative que les
objets ayant une valence neutre.
Il est fondamental d’évaluer la qualité de l’opérationnalisation car c’est un élément
crucial pour juger de la validité d’une étude.
Notez que la question de l’opérationnalisation d’un concept n’est pas propre à la
psychologie. C’est une question qui touche toutes les tentatives de mesure (le
taux de chômage, la santé financière d’un pays, la fiabilité d’une voiture, l’efficacité
d’une méthode de remédiation cognitive, etc.)
Exemple :
Vous connaissez tous l’épreuve de conservation du nombre chez Piaget : un adulte présente deux
rangées de jetons aux enfants, l'une, longue, composée de 4 jetons, et l'autre, courte, mais
composée de 6 jetons. Si l'on demande aux enfants laquelle a le plus de jetons, la plupart des
enfants de 3-4 ans choisissent la rangée la plus longue alors que c’est celle qui comporte le moins
de jetons. On en a conclu que les enfants de 3-4 ans ne maîtrisaient pas la notion de nombre. Mais
deux chercheurs (Mehler & Bever, 1967) ont eu l'idée de remplacer les jetons par des bonbons. Au
lieu de poser la question piagétienne aux enfants, ils leur demandaient de choisir la rangée qu'ils
souhaitaient emporter à la maison pour pouvoir les manger. Cette fois, la majorité des enfants
choisit la rangée qui comporte le plus grand nombre de bonbons même si c’est la plus courte !
Cette différence de résultats liée à la différence de consigne montre que les deux tâches utilisées
ne mesurent pas exactement la même chose, alors qu’on aurait pu penser qu’elles reflétaient
toutes deux la représentation du nombre chez l’enfant.
B. La validité interne
La validité interne renvoie au degré auquel des différences au niveau de
la VD peuvent être attribuées sans ambiguïté à l’effet d’une VI (ou plusieurs) et
non pas à l’effet d’autres variables non contrôlées ou non neutralisées. Plus la
validité interne d’une expérience ou d’une étude est élevée, plus les
conclusions tirées seront fiables : la relation de cause à effet entre la VI et la
VD (si elle est avérée) sera établie avec un degré de certitude élevé. C’est donc
un indice de la valeur scientifique d’une étude.
Campbell et Stanley (1966) ont énoncé plusieurs variables à neutraliser ou, sinon,
à contrôler pour assurer une validité interne élevée. Ces variables se retrouvent
dans de nombreuses situations expérimentales, c'est pourquoi elles ont été
classifiées. Toutefois, elles sont loin d'être exhaustives. Comme nous le verrons
plus loin, de nombreuses autres variables peuvent venir compromettre la validité
interne d'une étude, elles sont souvent spécifiques à la situation étudiée et doivent
donc être identifiées au cas par cas au regard des résultats empiriques établis par
la littérature dans le domaine.
Ainsi, on peut distinguer deux catégories de variables à contrôler :
- des variables dites méthodologiques, c’est-à-dire mécaniquement liées au
type de plan d’expérience (voir ci-dessous et plus bas) et
- des variables théoriques, c’est-à-dire liées au fait que la VD ne dépend
pas que de la ou des VI dont vous souhaitez investiguer l’effet (la plupart
des comportements humains sont en effet multi-déterminés).
25
UFR de PSYCHOLOGIE – UE PY000602 -L3
2. La maturation
Il s’agit de changements au plan biologique et psychologique qui interviennent au
cours du temps indépendamment du contenu des évènements spécifiques. Les
participants peuvent devenir plus mûrs au cours du temps, plus sensibles
émotionnellement… Ainsi, des changements circadiens sont des changements
transitoires imputables à la maturation. Par exemple, après le repas de midi,
certaines performances chutent. L’effet de la maturation peut renvoyer chez le
jeune enfant au passage du quatre pattes à la station debout, à l’acquisition du
langage verbal…
Remarque : Les facteurs historiques et maturationnels auront d'autant plus de chances de jouer un
rôle interférent que l'intervalle de temps entre le début de l'application du traitement (variable
indépendante) et la mesure de la variable dépendante est étendu.
4. Le biais de sélection
Lorsqu’un psychologue veut comparer un groupe expérimental (par exemple,
26
UFR de PSYCHOLOGIE – UE PY000602 -L3
Exemple : Un psychologue veut savoir si le fait de lire des magazines jeunesse à la maison a un
impact sur l’apprentissage de la lecture chez les enfants. Après une première réflexion, le
psychologue choisit de demander aux parents d’enfants issus de plusieurs classes si ils ont
abonné leur enfant à un magazine jeunesse et de constituer à partir de leurs réponses 2 groupes
d’enfants (abonnés vs non abonnés). Cependant, après avoir lu des ouvrages et des articles
scientifiques sur les déterminants de l’apprentissage de la lecture, le psychologue se rend compte
qu’un facteur très important dans l’apprentissage de la lecture est la place que l’écrit occupe dans
la culture familiale de l’enfant ; ainsi, un enfant qui évolue dans un milieu familial dans lequel la
lecture occupe une place importante aura plus de facilité lors de l’apprentissage de la lecture. Le
psychologue se rend compte que son mode de sélection des sujets et de constitution des 2
groupes va poser un problème ; en effet, on peut supposer que des parents qui ont abonné leur
enfant à un magazine jeunesse offrent par ailleurs à l’enfant un environnement favorable à l’écrit et
la lecture. Ainsi, il sera difficile de savoir si un apprentissage plus rapide de la lecture chez les
enfants abonnés sera dû au fait qu’ils lisent des magazines à la maison ou au fait qu’ils bénéficient
d’un environnement favorable à cet apprentissage. Le psychologue décide alors de choisir une
classe d’enfants et de proposer un abonnement à un magazine jeunesse à la moitié d’entre eux
sur la base d’un tirage au sort. Il est donc passé d’une VI invoquée à une VI provoquée.
5. La mortalité expérimentale
Surtout lors d'interventions coûteuses en temps, énergie et argent, il existe un
risque que les sujets abandonnent en cours de route et qu'ils le fassent
différentiellement suivant le type de traitement poursuivi. Si c'est le cas, la
différence de résultats est-elle attribuable à l'efficacité inégale des traitements ou
à cette mortalité expérimentale ? Ce risque se produit surtout dans des études
longitudinales ou lorsque le traitement (ou l’absence de traitement) est associé à
des aspects négatifs ou contraignants pour le sujet (douleurs, par exemple).
plan est à mesures répétées (le sujet passe par toutes les modalités de la VI, voir
plus loin) ou lorsqu’on répète la tâche dans une même modalité de VI pour
obtenir des données plus fiables. Cependant, certaines mesures peuvent être
répétées sans que cela n’affecte la performance (par exemple, une mesure de
pression artérielle ou de rythme cardiaque).
7. L’instrumentation
Il s'agit de la standardisation avec laquelle l’expérimentateur fait passer les
épreuves, les observations. Elle risque de fluctuer avec le temps et les
circonstances : on est plus fatigué en fin de recherche qu'au départ, on bafouille
plus au début qu'ensuite, on est davantage motivé par de nouveaux patients que
par d'anciens, peut-être les thérapeutes utilisant telle thérapie ont-ils des critères
de guérison plus souples que les autres, etc. La standardisation est
particulièrement importante dans des expériences où le plan d’expérience
implique d’exposer le participant à une situation particulière (par exemple, une
situation de recrutement ou une agression fictive).
28
UFR de PSYCHOLOGIE – UE PY000602 -L3
Exemple : Si vous souhaitez étudier l’impact de marques typographiques dans un texte sur
l’attention du lecteur (reflétée par son diamètre pupillaire) avec un dispositif d’enregistrements de
mouvements oculaires, il faudra prendre garde à ce que le degré de luminosité dans la pièce soit le
même pour tous les sujets car ceci peut influencer fortement le diamètre pupillaire. Si vous ne le
contrôlez pas, les variations de luminosité risquent d’affecter le diamètre pupillaire ; ainsi, vous ne
pourrez pas décider si les variations du diamètre pupillaire sont liées aux variations typographiques
ou de luminosité, ce qui réduit la validité interne de l’expérience.
C. La validité externe
D. La parcimonie
La parcimonie d’un plan renvoie à la capacité d’un plan d’expériences à tester les
hypothèses générales sous des conditions nécessaires et suffisantes. La
parcimonie s’évalue par le rapport coût/bénéfices associé aux décisions
concernant le plan. C’est une dimension pragmatique associée aux plans
d’expérience. Ainsi, parfois, on peut imaginer un plan d’expérience « idéal », celui
qui permettrait de tester de façon fine les hypothèses, auprès d’un grand nombre
de participants mais on peut y renoncer pour des raisons de faisabilité. Ainsi, entre
2 plans d’expériences possibles pour tester une même hypothèse, le chercheur ou
le psychologue optera toujours pour le plan le plus parcimonieux, c’est-à-dire celui
qui est le plus économique en temps, moyens humains et financiers et en termes
d’analyses de données. La parcimonie est liée au fait que l’utilisation de plans
d’expériences dans la vie professionnelle du chercheur ou du praticien est
soumise à des contraintes temporelles et financières. La gestion de cette tension
entre la recherche de la plus grande validité expérimentale et de la parcimonie
nécessite un travail réfléchi, de la pertinence, voire de l’astuce !
29
UFR de PSYCHOLOGIE – UE PY000602 -L3
A. L’échantillonnage probabiliste
Dans cette procédure, les méthodes de sélection des sujets sont non biaisées.
30
UFR de PSYCHOLOGIE – UE PY000602 -L3
Lorsque la situation ne permet pas de répartir aléatoirement les sujets dans les
groupes indépendants mais qu’il n’y a aucune raison à ce que les groupes
ne soient pas équivalents sur d’autres critères que la VI, le plan est dit
expérimental. Par exemple, si vous devez constituer deux groupes de sujets
définis par le sexe, vous ne pourrez pas aléatoirement répartir les sujets de
31
UFR de PSYCHOLOGIE – UE PY000602 -L3
l’échantillon dans les deux groupes car la VI « sexe des individus » est
invoquée : vous serez contraint par le sexe de chaque individu. Pour autant, si
votre échantillon de départ est homogène sur d’autres facteurs, il n’y a pas de
raison que vos deux groupes ne soient pas équivalents sur ces facteurs.
Dans la suite du cours nous nous limitons à la présentation des plans dits
expérimentaux.
33
UFR de PSYCHOLOGIE – UE PY000602 -L3
34
UFR de PSYCHOLOGIE – UE PY000602 -L3
D’un point de vue général, le choix du test statistique pour analyser des données
issues d’un recueil dépend
- de l’objectif du chercheur,
- de la nature des variables,
- de la taille de l'échantillon,
- de la structure du plan expérimental (échantillons indépendants/liés),
- de la normalité des données et de l’homogénéité des variances.
1. L'objectif du chercheur
Il peut être :
1) de tester l’effet d’une VI sur une VD
2) de montrer qu’il existe un effet d’interaction entre deux variables
indépendantes sur une VD
3) de tester l’existence d’une relation entre deux variables sans pouvoir dire si
l’une est une VI et l’autre une VD.
4) de déterminer parmi un ensemble de VI celle qui a le meilleur effet
prédicteur sur la VD.
Variables Nominales : A ce niveau, la propriété des nombres retenue est que des
nombres peuvent être différents. Une variable nominale est composée de
plusieurs catégories. On peut désigner les catégories par des nombres mais ces
nombres ont seulement la propriété d'être des symboles différents ; la valeur
numérique attribuée à chaque catégorie n'a ici aucun sens. Les catégories sont
simplement différentes et sont exclusives. Par exemple, la modalité A est
différente de B différente de C : Il n’existe pas d’ordre entre les catégories.
Exemples : sexe, type de réponse donnée, la nature des stratégies (a, b…), type de
personnalité….
Variables ordinales : La propriété des nombres considérée ici est celle de l'ordre
existant entre les catégories (A, B, C) ou modalités de la variable: A<B<C. Le
calcul de la moyenne n'a aucun sens pour ces variables. L'indice de tendance
centrale utilisé est la médiane.
Exemples : niveau de diplôme : CAP, Bac, maîtrise…., nombre de téléviseurs, échelle du type
“Tout à fait d’accord”(score = 4), “plutôt d’accord”(score = 3), “plutôt pas d’accord”(score=2), “pas
du tout d’accord” (score = 1). Il y a bien un ordre mais pas d’équidistance entre les catégories. Par
exemple, dans une échelle de mesure de l'intensité du stress ressenti, on ne sait pas si la
différence entre les points 1 (pas du tout stressé) et 2 (un peu stressé) représente la même
différence qu’entre 4 (stressé) et 5 (très stressé).
La moyenne est l'indice de tendance centrale utilisé dans ce type d'échelle; elle a
un sens psychologique. Les variables d’intervalles sont toujours continues. Les
différences entre les points de l’échelle de mesure ont le même sens tout au long
de l’échelle. Par exemple, un écart de 10 entre 5 et 15 a le même sens qu’un écart
de 10 entre 30 et 40. Autrement dit, les intervalles entre les valeurs successives
de la variable sont égaux.
Exemples : poids des individus, temps de réaction…..
Dans le cadre de ce cours, nous nous limitons aux cas où la ou les VI sont
nominales et la ou les VD d’intervalle.
3. La taille de l’échantillon
Selon que l’échantillon est grand ou petit, nous verrons qu’il faut utiliser soit des
tests différents, soit des tests identiques mais dont les calculs sont ajustés.
4. La structure du plan
Nous avons vu plus haut que les plans d’expérience sont différents en fonction du
nombre et du statut des VI. A chaque type de plan, on peut associer un test
statistique approprié. Il faut alors aussi considérer le nombre de modalités de
chaque VI.
36
UFR de PSYCHOLOGIE – UE PY000602 -L3
Plans d’expérience
plans factoriels
Quel type de
mesures (statut
inter intra Intra + inter
des VI) ?
inter
intra
37
UFR de PSYCHOLOGIE – UE PY000602 -L3
Etant donné que les calculs manuels pour tester la normalité d'une distribution
sont fastidieux, l’énoncé des exercices précisera la normalité des distributions de
la VD sous chaque modalité de la VI.
On notera que la violation de la normalité peut être tolérée.
b) Homogénéité des variances (Homoscédasticité ou des
variances ou égalité des variances)
Le logiciel SPSS utilise le test de Levene comme tester d'homogénéité des
variances.
Ce test permet de comparer les variances de populations distinctes et
indépendantes distribuées suivant une loi normale.
La question est : est ce que les populations distinctes ont des variances qui sont
proches les unes des autres ?
Dans ce cas, on cherche à vérifier H0. Par conséquent, pour dire que les
variances sont homogènes, il faut que la p-valeur soit >.05 c'est-à-dire ne pas
rejeter H0.
c) Types de tests en fonction de ces 2 critères
Lorsque les critères d’homogénéité des variances et de normalité des distributions
ne sont pas respectés, on utilise une classe de tests appelés tests non
paramétriques. Dans ce cours, deux tests non paramétriques vous seront
présentés.
Si vous voulez plus d’informations sur les différences entre ces deux types de
tests, vous pouvez consulter le document complémentaire à la fin du polycop.
Dans les parties qui suivent, nous détaillons les types de plans d’expérience et les
tests statistiques associés.
38
UFR de PSYCHOLOGIE – UE PY000602 -L3
Exemple :
a) on compare un groupe expérimental (condition ayant reçu un ‘traitement’) et un groupe
contrôle (sans ‘traitement’). Le groupe expérimental est exposé à une musique violente ; le
groupe contrôle n’est pas exposé à de la musique. On compare les résultats obtenus à un
test d’agressivité. La variable degré d’agressivité est considéré comme une variable
d’intervalle.
Type de plan : plan simple inter-sujets
Une VI nominale : exposition à une musique violente avec 2 modalités (exposition /non
exposition). Les mesures sont indépendantes car on est dans un plan inter-sujets.
Donc d’après l’arbre de décision du choix du test, le test est le t-test appelé aussi t de
Student à mesures indépendantes.
b) On compare plusieurs groupes expérimentaux entre eux : ils sont exposés à des modalités
différentes de la VI (musique violente, peu violente, pas du tout violente, pas de musique). La
variable degré d’agressivité est considérée comme une variable d’intervalle. On veut tester
l’effet de la VI sur le score d’agressivité évalué par un test.
Avantages :
- Il n’y a pas d’effet d’ordre, de rang ou d’effet d’apprentissage à
craindre, puisque les différentes mesures correspondant aux différentes
modalités de la VI sont prélevées chez des groupes d’individus différents.
- Si on expose les participants à des stimuli dans des conditions
différentes, comme il s’agit de groupes différents, on peut tout à fait utiliser
les mêmes stimuli.
Inconvénients :
- nécessité d’avoir des groupes indépendants équivalents ;
- la taille totale d’échantillon sera importante surtout si la VI comporte
de nombreuses modalités.
Agriculteur 5 5 5
5 sujets
sujets sujets sujets
Profession
7"
libérale et cadre 7" 7" 7"
10 "
Employé 10 " 10 " 10 "
6"
Ouvrier 6" 6" 6"
Exemple :
Un psychologue souhaite savoir si la présentation d'un texte (s'il est mis en forme avec des
paragraphes, des titres, etc. ou s'il n'a aucune mise en forme) peut aider à sa compréhension.
Il s’attend à ce qu’un texte présenté avec une mise en forme soit mieux compris qu’un texte
40
UFR de PSYCHOLOGIE – UE PY000602 -L3
présenté sans mise en forme. Mais il sait par ailleurs que les habiletés de lecture peuvent jouer un
rôle important dans la compréhension. Pour augmenter la validité interne de son plan, avant de
constituer ses groupes (un groupe qui verra un texte mis en forme et un second groupe qui verra le
même texte sans aucune mise en forme), il fait donc un pré-test pour évaluer les habiletés de
lecture des participants. S’il existe des disparités chez les participants, il constituera les groupes de
façon à ce qu’ils aient une performance moyenne identique ou très proche en lecture. La variable
habileté de lecture est considérée comme une variable d’intervalle. Ici l’objectif du test statistique
n’est pas de tester l’hypothèse principale (on s’attend à ce qu’un texte présenté avec une mise en
forme soit mieux compris qu’un texte présenté sans mise en forme) mais de contrôler au préalable
que les participants affectés au groupe « texte mis en forme » soient équivalents au plan des
habiletés de lecture que ceux du groupe « texte sans mis en forme ». Pour cela, dans la mesure où
on a une seule VI (présentation du texte) à deux modalités indépendantes (avec vs. sans mise en
forme) et dans la mesure où la VD habiletés de lecture est considérée comme une variable
d’intervalle, le test statistique approprié sera le t-test à mesures indépendantes. Ensuite, pour
tester son hypothèse selon laquelle un texte présenté avec une mise en forme est mieux compris
qu’un texte présenté sans mise en forme, le psychologue effectuera un t-test à mesures
indépendantes avec en VI la présentation du texte et en VD la performance de compréhension
évaluée par un test.
Pourquoi doit-on utiliser une ANOVA et ne peut-on pas utiliser plusieurs t-tests ?
Si l'on a trois groupes indépendants à comparer, la tentation serait de faire toutes
les comparaisons 2 à 2 en utilisant trois t-tests. Le problème est que plus on
augmente le nombre de comparaisons 2 à 2, plus on a des chances de trouver
une valeur p significative par hasard. Il faut donc que le test tienne compte du
nombre de comparaisons.
Plus précisément, 3 problèmes expliquent cette nécessité :
- Si H0 est vraie, alors 5 % de toutes les comparaisons par paires vont être
significatives (sauf si on effectue des corrections). Plus le nombre de
comparaisons 2 à 2 augmente et plus les chances de commettre une
erreur de type I augmentent (> 5%)
- Pour comparer deux groupes on a calculé l'écart type commun. Pour les
comparaisons multiples, nous pouvons combiner les écart-types de tous
les groupes, pas seulement les écart-types des deux groupes à comparer.
On aura ainsi une mesure plus précise de l'écart type de la population.
Ceci permet d'augmenter la puissance statistique
- Les comparaisons ne sont pas indépendantes : la comparaison entre
groupe 1 et 2 et gr1 et 3 donne une idée de la comparaison entre 2 et 3.
Hypothèses
H0 : µ1=µ2=µ3=...=µk (k étant le nombre de modalités du facteur) au plan des trois
ensembles parents de mesure.
H0 correspond à l'égalité des moyennes de la VD des populations dont sont
extraits les échantillons
H1 : Au moins une des k moyennes de la VD diffère des autres (test bilatéral)
42
UFR de PSYCHOLOGIE – UE PY000602 -L3
Sources de Carrés
ddl Somme des carrés
variation moyens
Ti 2 (∑ x )2 SC int ergr
SC int ergr = ∑ −
CM int er =
Inter-groupes k-1 ni N k −1
T 2 SC int ra
SC int ragr = ∑ x 2 − ∑ i CM int ra =
Intra-groupes N-k ni N −k
SC total = ∑ x 2 −
(∑ x )2
Totale N-1 N
Pour calculer la variable test, le F de Fisher, on fait le rapport des carrés moyens
inter-groupes (CMinter) sur les carrés moyens intra-groupes (CMintra )
CM intergr
F=
CM intragr
Par contre, plus le rapport augmente >1 plus l’effet expérimental a des probabilités
de se manifester
La valeur du F est toujours positive. Le F est égal au carré du t de Student.
Décision:
La valeur du F observé est comparée à la valeur critique du F dans la table. Si le F
observé est > à la valeur critique du F dans la table des valeurs critiques, alors on
rejette H0 et on accepte H1 au seuil α = .05.
SCintergr
η² =
SCtotal
Extrait de Kinnear, P.R, & Gray, C.G .(2008). SPSS made simple. NewYork:
Taylor & Francis (pp 322).
Eta carré indique la proportion de variance expliquée par la VI. Plus la proportion
de variance expliquée est importante (cf tableau ci-dessus), plus la VI étudiée joue
un rôle important dans les variations de la VD. Il s’agit d’un nombre qui varie de 0
(aucun d’effet du tout) à 1 (qui explique toute la variabilité du résultat)
La plupart des différences qui existent entre les diverses techniques proposées
sont dues au fait qu'on adopte des approches différentes quant à la manière de
contrôler les erreurs de première espèce (accepter H1 alors que H1 est fausse
dans la population parente erreur de 5%)
Par conséquent, pour avoir une maîtrise de l’erreur globale de type I (5%) on fait
une analyse post-hoc en utilisant un test de comparaisons multiples qui
permettent d’ajuster le seuil de signification.
Dans le cadre de cette UE, nous ne vous demanderons pas d’effectuer ces tests
de comparaisons multiples mais plutôt de savoir interpréter les résultats que
donne le logiciel JAMOVI.
Correction de Bonferroni
Si nous comparons ces trois valeurs p à celles des tests t non corrigés par
paires, il est clair que la seule chose que la correction de Bonferroni fait est de
les multiplier par 3. Dans ce cas, la correction de Bonferroni dit simplement
« multiplier toutes vos valeurs p brutes par m . m est le nombre de
comparaisons 2 à 2. Si p indique la valeur originale de p, et si pj′ est la valeur
corrigée, alors la correction de Bonferroni indique: p′j=m×p. Vous verrez plus
loin comment on interprète le résultat de la correction de Bonferroni à partir
du résultat donné par JAMOVI.
Autre correction : la correction de Holm
La correction de Holm pour ajuster les p-valeurs est un test plus puissant que le
Bonferroni (c.-à-d. qu’il a un taux d’erreur de type II plus faible) mais, aussi
contre-intuitif que cela puisse paraître, il a le même taux d’erreur de type I.
45
UFR de PSYCHOLOGIE – UE PY000602 -L3
vérifiées.
On s'attend à ce que les performances des sujets varient en fonction de la
condition d’entraînement. Peut-on au seuil .05 accepter cette hypothèse ?
Pré-requis
Structure du plan :
VI nominale intersujet : Entraînement à l’utilisation de stratégies mnémoniques :
• avec entraînement à la stratégie catégorielle
• avec entraînement à la stratégie répétition cumulée
• sans entraînement à une stratégie particulière
VD d’intervalle : score de rappel
Les conditions de normalité et d’homogénéité des variances ont été satisfaites.
Hypothèses
H0 : µAEC = µAER = µSE
est l'égalité des moyennes des populations dont sont extraits les échantillons au
plan des trois ensembles parents de mesure.
H1 : Au moins une des trois moyennes de rappels diffère de celle des autres
Variable test
La variable test suit une loi de Fisher à F (k-1, N-k).
Variation inter-groupes
Calcul à la main:
Avec Avec
Structure
Sans entraint Entraint entraint
categ repet cumul
4 12 16
8 12 17
2 10 13
7 13 14
9 14 15
6 12 16
11 13 15
9 13 14
10 10 14
9 11 12
7 11 13
9 14 10
10 15 8
8 13 9
12 10 7
12 11 8
10 19 8
11 18 15
8 13 16
46
UFR de PSYCHOLOGIE – UE PY000602 -L3
9 14 10
Somme des x
171 258 250 Σx = 679
(Ti)
Ti 2 29241 66564 62500
29241/20 Ti 2
Ti 2
= ∑ n = 7915,25
ni 1462,05 3328,2 3125 i
Tableau des carrés des valeurs et de leurs sommes par groupes (pour calculer les
variations intra-groupes).
Entraint
Sans Entraint
repet
entraînt X2 categ
cumulée
16 144 256
64 144 289
4 100 169
49 169 196
81 196 225
36 144 256
121 169 225
81 169 196
100 100 196
81 121 144
49 121 169
81 196 100
100 225 64
64 169 81
144 100 49
144 121 64
100 361 64
121 324 225
64 169 256
81 196 100
Somme des Σx2=
1581 3438 3324
x2 8343
Sur JAMOVI :
Le seuil de signification du test de Shapiro-Wilk est égal à .77 ; cette valeur est >
.05 par conséquent les distributions sont normales.
48
UFR de PSYCHOLOGIE – UE PY000602 -L3
Le seuil de signification du test de Levene est égal à .07 ; cette valeur est >.05,
par conséquent, on considère que les variances sont homogènes.
F (2,57) = 15.4 ; p < .001 ; p étant < .05, on rejette H0 et on accepte H1 à savoir la
condition d’entraînement a un effet significatif sur les performances de rappel.
Taille de l'effet:
35,1 % de la variance des rappels est expliquée par l'effet du type d'entraînement
aux stratégies de mémoire. Eta-carré étant > .14, l’effet est grand.
Test Post-HOC
Pour utiliser la correction de Bonferroni dans Jamovi, il suffit de cliquer sur la
case à cocher « Bonferroni » dans les options « Correction ». Dans le cadre de
cette UE l’important est juste que vous sachiez lire le résultat. Vous verrez une
autre colonne ajoutée au tableau des résultats ANOVA montrant les valeurs
de p ajustées avec la correction de Bonferroni.
49
UFR de PSYCHOLOGIE – UE PY000602 -L3
Commentaire du tableau
Le résultat du test de Bonferroni montre que la moyenne du groupe sans
entraînement est significativement inférieure à celles des deux autres groupes
(seuil de signification p < .001). En revanche, le tableau de résultat indique aussi
que les deux groupes avec entraînement n'ont pas des moyennes qui sont
significativement différentes (p = 1).
2 Le Kruskal-Wallis
Hypothèses statistiques :
H0 : les 3 groupes d’âge ont des distributions identiques sur le sentiment de
compétence en culture générale au plan des trois ensembles parents de mesure.
H1 : Au moins un des 3 groupes d’âge a une distribution de la VD différente de
celles des deux autres groupes
Variable test
Sous H0, H est la valeur observée d’une variable aléatoire qui suit une loi de khi-
deux à 3-1 ddl.
k : nombre de groupes
Ri somme des rangs de l’échantillon i
N : Nombre total d’observations
ni : nombre d’observations dans le groupe i
Application à l’exemple :
H= 9,946
E=
51
UFR de PSYCHOLOGIE – UE PY000602 -L3
Hc = 10,012
Décision
K=3 ; n1= 5 ; n2= 5 ; n3= 4
Sur la table des valeurs critiques du Kruskal-Wallis (cf fin du
polycop), la valeur critique = 5,64 pour p=.05. La valeur de H
calculée = 10,012, cette valeur est > à la valeur critique, par conséquent on rejette
H0 et on accepte H1 à savoir au moins un des trois groupes d’âges diffère des
autres concernant le sentiment de compétences en culture générale.
52
UFR de PSYCHOLOGIE – UE PY000602 -L3
Avantages :
- Ces plans demandent moins de sujets qu’un plan à groupes indépendants ;
- Ces plans sont plus avantageux sur le plan statistique (suppression
de la variabilité intergroupe puisque les participants sont les mêmes dans
tous les groupes). En effet, les variations dues aux différences entre les
participants sont mathématiquement retirées du numérateur et du
dénominateur de la fraction définissant F. De ce fait, le test est plus
puissant. Un test puissant est un test qui a une faible probabilité de
commettre une erreur de type II (=Risque de ne pas relever une différence
qui existe).
- La contrainte d’équivalence des groupes disparaît puisqu’il s’agit des
mêmes individus.
Inconvénients :
- on peut craindre des effets de rang ; imaginons une VI ‘X’ à 3 modalités
A, B et C. Chaque sujet va être confronté aux 3 modalités. Si tous les
sujets sont confrontés aux 3 modalités dans l’ordre A, B puis C ; on
peut craindre un effet de rang : par exemple, le fait que la modalité C
soit toujours passée en 3ème position peut biaiser les résultats (effet
d’apprentissage ou de fatigue) ; dans ce cas, on peut contrôler l’effet de
rang en faisant en sorte qu’1/3 des sujets ait l’ordre ABC, 1/3 l’ordre BAC
et enfin, le dernier 1/3 ait CBA. Ainsi chaque modalité aura été passée
en première, deuxième et troisième position.
- on peut craindre des effets d’ordre (appelés aussi effets de dépendance
séquentielle) ; reprenons l’exemple précédent : on peut craindre que
le fait de passer la modalité A après la modalité B provoque un effet
particulier au niveau des performances. Autrement dit, la séquence des
modalités peut en soi affecter la VD. Pour contrôler cet effet, on combine
par rotation toutes les modalités pour obtenir (dans l’exemple), 6
séquences possibles : ABC, ACB, BAC, BCA, CAB et CBA. Ainsi, chaque
modalité a été précédée et suivie de chacune des autres modalités.
53
UFR de PSYCHOLOGIE – UE PY000602 -L3
On veut tester l’effet d’une VI nominale sur une VD d’intervalle avec 2 séries de
mesures répétées. Le test t pour mesures répétées est basé sur la différence de
moyennes entre les valeurs des deux séries de mesures répétées.
Exemple :
Supposons que l’on compare les performances des sujets avant entraînement à l’utilisation de
stratégies et après entraînement.
Les sujets sont les mêmes pour les deux moyennes à comparer, chaque sujet a deux mesures une
avant et une après entraînement. Autrement dit, on a un échantillon de sujets et deux séries de
mesures. Les différences de moyennes s’effectuent sur des couples de données entre la série 1 de
mesure et la série 2 de mesure. Un couple renvoie aux deux scores du même sujet.
Pré-requis :
- La VI est nominale et a 2 modalités répétées
- La VD est d’intervalle
- La distribution des données de la VD sous chaque modalité de la VI sont
normales.
Les hypothèses
H0 : µ1= µ2 au plan de l’ensemble parent.
La moyenne µ1 de la population dont provient la première série de mesure est
égale à la moyenne µ2 de la population dont provient la deuxième série de
mesure.
Cas bilatéral :
H1 : µ1≠ µ2
Cas unilatéral:
H1 : µ1< µ2
H1 : µ1 > µ2
54
UFR de PSYCHOLOGIE – UE PY000602 -L3
µ1 − µ 2
t=
(∑ D)
2
/[N ( N − 1)]
2
∑ D −
N
Décision
On compare la valeur du t observé à la valeur du t dans la table.
Cas bilatéral :
Si t observé > t de la table ou si t observé est < à -t de la table, alors on rejettera
H0. L’Hypothèse H0 est rejetée au risque de 5%. Il existe donc une différence
significative entre les moyennes des scores de la VD pour les 2 populations de
sujets.
H1 : µ1≠ µ2
Z1
Z1 Z0
t
-t 0 +t
Cas unilatéral
H1 : µ1>µ2
Z1
Z0
t
0 t
H1 : µ1<µ2
55
UFR de PSYCHOLOGIE – UE PY000602 -L3
Z0
Z1
t
-t 0
Pour réaliser le test, il vous suffit de cliquer sur T-Tests puis sur Paired Samples T-Test
56
UFR de PSYCHOLOGIE – UE PY000602 -L3
Faites passer les deux conditions expérimentales dans la case Paired Variables. Comme
pour le T de Student échantillons indépendants, sélectionnez l’hypothèse correspondante.
Dans le cas présent, on fait l’hypothèse d’une amélioration des moyennes (on sélectionnera
donc (Measure 1<Measure 2). Cochez également la case ‘‘Descriptives’’ et ‘‘Effect size’’
afin d’obtenir respectivement les statistiques descriptives et la taille d’effet (d de Cohen).
Pour vérifier la normalité des distributions, il faudrait aussi cocher la case ‘Normality test’
et s’assurer que le test de Shapiro-Wilk est supérieur à .05 (cf ci-dessus). Dans cet exemple
il y a bien normalité des distributions car la p-value du Shapiro est >.05.
On pourra donc rédiger les résultats de cette manière selon les normes APA: le score
moyen du nombre de traductions correctes trois mois après le stage (M = 22.5, SD
= 2.93) est inférieur à celui obtenu six mois après (M = 23.6, SD = 2.76) , t (19) = -
1.93 ; p = .035 ; d = 0.43.
Dans une ANOVA à mesures indépendantes, par exemple si on teste l’effet d’une
condition (conditions 1, 2 et 3) sur les performances, chaque sujet appartient à un
seul des trois groupes correspondant aux trois conditions donc on a une
indépendance entre les mesures.
Dans une ANOVA à mesures répétées on a un même échantillon de sujets qui va
être soumis aux trois conditions. Il n’y a donc pas indépendance entre les
conditions. En effet on peut supposer que les sujets performants en condition 1 le
57
UFR de PSYCHOLOGIE – UE PY000602 -L3
Prenons un exemple fictif et à but purement pédagogique. 4 sujets sont soumis à un test de
performance effectué à trois moments de la journée. La VI est le moment de la journée et la VD
est la performance.
Moments
Sujets 1 2 3 Total
1 3 5 9 17
2 12 13 15 40
3 20 23 25 68
4 25 30 36 91
60 71 85
Si on regarde les totaux par colonne en comparant les performances du moment 1 aux
performances du moment 2 et à celles du moment 3, on constate quelques différences mais on
constate surtout une forte variabilité au sein de chaque colonne ou moment. On pourrait donc
penser que les totaux par colonne diffèrent par hasard.
Si on regarde maintenant les lignes du tableau autrement dit si on compare les sujets entre eux, on
constate que le sujet 1 est le moins performant et que les sujets 3 et 4 sont les plus performants.
Ces différences entre les sujets produisent les différences à l’intérieur de chaque colonne ou
moment. Or ces différences entre les sujets ne sont pas dûes au moment de passation du test.
Dans une ANOVA à mesures répétées, on va éliminer ces différences liées aux sujets afin d’avoir
une meilleure estimation de l’erreur. Une partie de la variation à l’intérieur d’un sujet est imputable
au fait que ses performances proviennent de moments de passation différents (VI) et une autre
partie est imputable à l’erreur.
Dans le cas d’une ANOVA à mesures répétées comme les sujets sont les mêmes
sur toutes les mesures de la VD, on pourrait dire que la variabilité inter-sujets est
fixée, contrôlée. Mais, d’une mesure à l’autre un même individu peut être plus ou
moins motivé, plus ou moins fatigué et ceci constituera la variance intra-groupe.
variance intergroupe
variance résiduelle
Pré-requis
- La VD doit être une variable d'intervalle, la VI est nominale et comporte au
moins trois modalités qui renvoient à des mesures répétées.
- Normalité des distributions des k mesures.
- Homogénéité de la covariance ou sphéricité
Dans cette UE, on vous demande de savoir lire le résultat du test d’homogénéité
des covariances fourni par le logiciel JAMOVI.
Principes
L'analyse de variance à un facteur mesures répétées va consister à chercher le
rapport entre la variance liée à la mesure répétée et la variance de l’erreur.
Sources de
ddl Somme des carrés Carrés moyens
variation
59
UFR de PSYCHOLOGIE – UE PY000602 -L3
k N
Mesures ∑ Ti (∑ x i )
2 2 SC repet
k-1 SC mesrepet = − CM mesrepet =
répétées n N k −1
Erreur
SCerreur= SCtotal-SCintersujets- SCerreur
(n-1) (k-1) CM erreur =
SC mesurepetées (n − 1)(k − 1)
ddlinter +
Totale ddlmesrepet SCtotal = ∑ x i 2 −
(∑ x i )2
( )
N
+ddlerreur
Pour calculer le F de Fisher pour une ANOVA à 1 facteur répété, on fait le rapport
des carrés moyens de la mesure répétée (CMmesrépét) sur les carrés moyens de
l’erreur (CMerreur ). Pour la décision on se base sur la table du F de Fisher. Si la
valeur du F observée est > à la valeur critique du du F dans la table on rejette H0
et on accepte H1 au seuil .05.
60
UFR de PSYCHOLOGIE – UE PY000602 -L3
17 18 63 37 118
18 57 73 94 224
19 78 89 79 246
20 92 69 81 242
Sommes 1052 1244 1229 3525
moyennes 52,60 62,20 61,45 176,25
SCtotal=231997- 207093,75=24903,25
SCtotal=24903,25
668623 3525 2
SCsujets = −
3 60
SCsujets= 15780,583
SCmoments= 1140,3
ddl SC CM F
Inter-
19 15780,583
sujets
1140,3
Moments 2 570,15 2,71
Erreur 38 7982,368 210,06
Total 24903,25
61
UFR de PSYCHOLOGIE – UE PY000602 -L3
La p-valeur du test de Mauchly est p =.90 cette valeur est > .05 par conséquent il
y a homogénéité de la covariance.
3. Le test de Friedman
3.1. Le test de Friedman ou analyse de variance mesures répétées par rangs
mesure de la VD.
Hypothèses statistiques
H0 : Les distributions de la VD sous chaque modalité de la VI sont identiques au
plan de l’ensemble parent
H1 : Au moins une des k distributions de la VD sous chaque modalité de la VI
diffère des k-1 autres.
Puis on indique les rangs des scores pour chaque participant et on calcule la
somme des rangs par colonne.
Participants Moment 1 Moment 2 Moment Moment 4
3
1 4 2 1 3
2 3 2 1 4
3 4 1 2 3
4 3 1 2 4
5 4 2 1 3
6 3 2 1 4
7 2 3 1 4
8 4 2 3 1
Totaux R R1= 27 R2= 15 R3= 12 R4 = 26
Tableau des rangs et somme des rangs par moment.
N= nombre de participants
k : nombre de modalités de la VI
63
UFR de PSYCHOLOGIE – UE PY000602 -L3
F= 13,05
Décision :
k=4 ; N=8=> table des valeurs critiques du Friedman (cf fin du polycop)indique que
la valeur critique = 7.65 pour un seuil .05. la valeur observée de la variable test est
égale à 13,05 ; cette valeur est > à 7,65 (val critique), par conséquent on rejette
H0 et on accepte H1 au seuil .05. il y a un effet significatif du moment de
passation du test sur la réussite à ce test.
Exemple :
A votre avis, le fait d’avoir un enfant influence-t-il la carrière professionnelle (e.g., la probabilité d’être embauché, le
salaire, le fait d’être perçu comme compétent) ?
Les recherches réalisées dans le domaine tendent à montrer qu’effectivement le fait d’avoir un enfant influence la
carrière mais l’effet n’est pas le même selon le genre de la personne. Pour une femme, le fait d’avoir un enfant joue
défavorablement sur sa carrière professionnelle (on parle de la pénalité de la maternité), alors que pour un homme,
c’est un élément favorable (on parle du bonus de la paternité).
On peut traduire la phrase « le fait d’avoir un enfant influence la carrière » en termes de VI et VD. Et faire un
schéma qui représente la relation causale.
On peut aussi représenter la phrase « l’effet n’est pas le même selon le sexe de la personne » sur le schéma
précédent
Représentons maintenant la phrase : « Pour une femme, le fait d’avoir un enfant joue
défavorablement sur sa carrière professionnelle, alors que pour un homme, c’est un élément
favorable. »
A l’aide de flèches uniquement (la flèche représente une amélioration de la carrière si elle monte et une
dégradation si elle descend) :
A noter que si on étudie l’effet d’être parent sur la carrière auprès d’une échantillon composé de 100
femmes et 100 hommes sans tenir compte de la variable genre, les 2 effets représentés ci-dessus
1
65
UFR de PSYCHOLOGIE – UE PY000602 -L3
s’additionnent et il en résulte une absence d’effet ; on conclura alors que le fait d’avoir un enfant n’a pas
d’effet sur la carrière. ↓ + ↑ = 0
Définition
Le phénomène représenté sur le graphique est appelé INTERACTION : les effets
de plusieurs variables indépendantes se combinent pour résulter en un effet qui va
au-delà de la simple cumulation des effets de chacune. Il y a interaction lorsqu’un
effet/un phénomène est modifié par une autre variable. La variable qui modifie
l’effet de l’autre variable indépendante est dite variable modératrice. La
modification de l’effet peut consister en une atténuation/amplification
(l’intensité/ampleur de l’effet est modifiée), une neutralisation (un effet disparaît),
ou un renversement (la direction de l’effet est modifiée : un effet positif devient
négatif ou vice-versa) (voir ci-après).
A noter que l’identification des variables modératrices renseignent sur les
conditions sous lesquelles on va observer un effet (le quand) 1.
L’ANOVA factorielle est l’outil statistique permettant de décider si l’interaction est
significative et les tests post-hoc permettent de savoir comment elle se
décompose.
Utilité/intérêt :
Les comportements humains sont pluri-déterminés. On ne peut pas les expliquer
en invoquant l’influence d’un seul facteur causal. Ils dépendent de l’influence de
plusieurs facteurs. Chacun de ces facteurs peut agir indépendamment de l’action
des autres facteurs : il y a alors absence d’interaction entre les facteurs (cf. figure
1). Mais la plupart du temps, l’action des facteurs peut se combiner avec celle
d’autres facteurs pour entraîner des effets spécifiques : il y a alors interaction
entre les variables indépendantes (cf. figure 2).
Prenons un autre exemple en psychologie cognitive des apprentissages ; des recherches ont
montré l’effet multimédia : on apprend mieux à partir de textes et d’images qu’à partir de textes
seuls. Mais des recherches ont montré que ceci est vrai sous certaines conditions : on observe
l’effet multimédia si l’image est complémentaire du texte ; si elle est décorative, alors l’effet
s’inverse : il vaut mieux apprendre avec un texte seul qu’à partir d’un texte accompagné d’une
image décorative. Toutefois, des recherches récentes ont montré que chez de jeunes enfants, la
présence d’une image décorative favorise l’apprentissage par comparaison avec une situation de
texte seul.
Dernier exemple en psychologie de la santé, l’étude du stress a donné lieu à des modèles évalués
empiriquement dans lesquels le stress dépend de l’interaction entre des facteurs
67
UFR de PSYCHOLOGIE – UE PY000602 -L3
environnementaux et des facteurs liés à la personnalité du sujet. Ainsi, chez des personnes ayant
été hospitalisées pour des problèmes cardiaques, le fait d’être ré-hospitalisé entraîne un sentiment
de détresse mais ceci est vrai uniquement chez des sujets ayant un locus de contrôle plutôt
externe. Il n’y a pas d’effet négatif de la ré-hospitalisation chez des sujets ayant plutôt un locus
interne (http://www.cairn.info/zen.php?ID_ARTICLE=TH_642_0097).
Ainsi, pour évaluer si une hypothèse ou l’exposé d’un résultat décrit une
interaction ou une absence d’interaction entre plusieurs VI (par opposition à un
effet d’une seule VI), il faut détecter quelles comparaisons implique l’énoncé et
donc combien de VI sont en jeu. Dès lors que 2 VI au moins sont impliquées, on
peut s’intéresser à la présence potentielle d’une interaction entre elles.
Exemples :
« Lorsque des apprenants ont des buts de maitrise, ils ont une attitude moins négative à l’égard de
l’erreur que lorsqu’ils ont des buts de performance. »
Ici est exprimé uniquement un effet de l’orientation des buts sur l’attitude à l’égard des erreurs (une
seule VI, pas d’interaction possible).
Exemple
Dans une expérience, on mesure les performances de compréhension de texte auprès de deux
groupes de lecteurs : des lecteurs experts du thème abordé dans le texte et des lecteurs novices,
peu familiers du thème ; la moitié de chaque groupe doit lire soit un texte peu cohérent, soit un
texte très cohérent (plan factoriel à mesures indépendantes).
68
UFR de PSYCHOLOGIE – UE PY000602 -L3
69
UFR de PSYCHOLOGIE – UE PY000602 -L3
Reprenons l’exemple précédent (effets de l’alcool et du valium sur la vigilance). Sur les graphiques
ci-dessous, plus le score est élevé en ordonnée, plus la vigilance est élevée.
Les lignes représentant l’effet du valium étant parallèles, cela indiquerait l’absence d’interaction. En
effet, si on compare les conditions avec et sans alcool dans les trois cas de figure, on pourra voir
que les participants sont plus vigilants sans valium qu’avec valium, aussi bien avec que sans
alcool. Autrement dit, on observe le même type d’effet du valium, quelle que soit la condition
associée pour l’alcool. On peut en conclure qu’il n’y a pas d’interaction.
70
UFR de PSYCHOLOGIE – UE PY000602 -L3
Figure 3 : diagrammes illustrant l’absence d’interaction (repris de Dancey & Reidy, 2007)
Dans le cas d’une interaction, les graphiques peuvent prendre des formes
diverses. Mais, d’une façon générale, on peut se fier à une seconde astuce : les
lignes ne seront pas parallèles.
Dans chacun des cas présentés ci-dessous, on peut voir que les résultats diffèrent
selon qu’on est dans la situation avec ou sans alcool. En effet, dans le graphique
de gauche, il ne semble pas y avoir de différence entre les situations avec et
sans valium quand on ne consomme pas d’alcool. En revanche, l’effet positif
du valium sur la vigilance est net dans la situation avec alcool.
L’exemple du graphique du milieu montre une situation inverse : alors que
le valium n’a pas d’effet sur la vigilance si on a consommé de l’alcool, il a un effet
positif quand on est sobre.
Dans l’exemple du graphique de droite, on constate un effet positif du valium dans
la situation sans alcool, puisque la vigilance est supérieure avec valium par
rapport à sans valium dans le cas où on n’a pas consommé d’alcool. La tendance
est inversée dans la condition avec alcool. Dans ce cas, le valium implique une
diminution de la vigilance par rapport à l'absence de valium."
En résumé,
La notion d’interaction entre des facteurs causaux est centrale en psychologie car
elle permet notamment de capturer une partie de la complexité des
comportements humains.
Un graphique des résultats permet de visualiser si une interaction est présente.
Une analyse statistique dite d’analyse de variance (ANOVA) permet de tester si
l’interaction est significative ou non.
71
UFR de PSYCHOLOGIE – UE PY000602 -L3
Objectif :
Tester l’effet d’au moins deux facteurs (var nominales) indépendants sur une VD
d’intervalle.
Pré-requis :
• Deux facteurs indépendants (nominal)
• Chaque facteur peut avoir 2, 3, plusieurs modalités (ou niveaux du facteur)
• VD d’intervalle
Tester l’effet de chaque VI (ou facteur) et de l’interaction entre ces deux Vi sur la
VD
72
UFR de PSYCHOLOGIE – UE PY000602 -L3
Principe
Soient
2 Remarque : si l’ANOVA est à 3 facteurs => 7 hypothèses possibles sur les effets principaux de
73
UFR de PSYCHOLOGIE – UE PY000602 -L3
Familiarité
Type de Forte Faible
pédagogie
classique Groupe 1 Groupe 2
innovante Groupe 3 Groupe 4
Le seuil de signification du test de Levene est égal à .622 ; cette valeur est >.05
donc les variances sont homogènes.
Eta carré partiel de l’interaction doit aussi être indiqué ici. 54 % de la variance de
la VD est expliquée par l’interaction.
La valeur 0 de eta-carré partiel représente aucun effet et 1 un effet très fort.
Pour chaque rapport F, Il y a un effet principal significatif pour les facteurs fam
mais pas pédagogie. Le premier est significatif au-delà du niveau 0.01. En plus de
l’effet principal de la familiarité, il y a une interaction significative. La valeur de p
est donnée comme 0.000, ce qui signifie qu’elle est inférieure à .001. Clairement,
le facteur fam a différents effets pour les participants suivant une pédagogie
classique ou innovante; mais pour s'assurer de la nature de ces effets, nous
aurons besoin d'examiner plus précisément le pattern des moyennes.
74
UFR de PSYCHOLOGIE – UE PY000602 -L3
Représentation de l’interaction :
La présence d'une interaction est indiquée par une hétérogénéité des profils à
travers les niveaux d'un des facteurs, c'est-à-dire par les profils non parallèles
représentés par les graphes. Une interaction entre deux facteurs A et B est
souvent indiquée par un signe de multiplication: A * B; souvent abrégé par AB.
Lorsque l’interaction entre les deux facteurs est significative, les effets principaux
(significatifs ou pas) n’ont plus de sens. Le chercheur doit se centrer sur
75
UFR de PSYCHOLOGIE – UE PY000602 -L3
l’interaction.
Cliquer
76
UFR de PSYCHOLOGIE – UE PY000602 -L3
Chez les peu familiers, on constate que la pédagogie a un effet significatif sur les
performances ; (M = 2.80 ; SD = 1.55 pédagogie classique ; M = 4.80 ; SD = 1.03
pédagogie innovante), t (18) = 3.40 ; p = .003).
Chez les très familiers, on constate que le type de pédagogie a un effet significatif
sur les performances ; (M = 7.90 ; SD = 1.37 pédagogie classique ; M = 4.63 ; SD
= 1.12 pédagogie innovante), t (19) = 6.00 ; p <.001).
Domaine
art histoi géogra
S1 S1 S1
immédi S2 S2 S2
at … … …
Temps S1 S1 S1
de 2mn S2 S2 S2
réponse après … … …
Exemple 1 :
Chaque participant identifie 2 catégories d’expressions faciales (mesures répétées) et appartient à
un des groupes indépendants défini par la variable âge.
SJA1 SPA1
Type d’expressions
SJA2 SPA2
faciales Tristesse
… …
Exemple 2 :
On compare les performances d’un groupe expérimental à celles d’un groupe contrôle à deux
moments : avant traitement et après traitement
Moment du test
78
UFR de PSYCHOLOGIE – UE PY000602 -L3
SC1 SC1
Groupe Contrôle SC2 SC2
… …
79
UFR de PSYCHOLOGIE – UE PY000602 -L3
F (1,41) = 26.99; p < .001 ; ηp2 = .40. Effet significatif des indices sur le pourcentage
moyen de rappels corrects
80
UFR de PSYCHOLOGIE – UE PY000602 -L3
B. Ecriture de l’ANOVA
81
UFR de PSYCHOLOGIE – UE PY000602 -L3
82
UFR de PSYCHOLOGIE – UE PY000602 -L3
1.2.Tests paramétriques
Un test paramétrique requiert un modèle à fortes contraintes (normalité des
distributions, égalité des variances) pour lequel les mesures doivent avoir été
réalisées dans une échelle au moins d'intervalle. Ces hypothèses sont très
difficiles à vérifier lorsque la taille de l'échantillon est faible.
Avantages
Les tests paramétriques sont plus puissants que les tests non paramétriques.
Par conséquent, lorsque toutes les conditions sont remplies, il est préférable
d'utiliser un test paramétrique.
L'analyse des résultats est plus fine avec un test paramétrique.
Inconvénients:
83
UFR de PSYCHOLOGIE – UE PY000602 -L3
La taille des échantillons ne doit pas être faible. Les conditions d'utilisation des
tests paramétriques doivent être remplies. Les variables doivent être mesurées
par une échelle d’intervalle.
Les pré-requis
- la variable dépendante (VD)“performance” est considérée comme une variable
d’intervalle.
- les 2 séries de mesures de la VD “avant”/”après” sont répétées.
- la distribution de la variable dépendante doit être proche d’une distribution
normale.
Les hypothèses
H0 : µ1= µ2 au plan de l' ensemble parent
La moyenne µ1 de la population “avant” est égale à la moyenne µ2 de la
population “après”.
H1 : µ1< µ2
test unilatéral
Conditions
N = 18 cas des petits échantillons car N<30
Les observations
84
UFR de PSYCHOLOGIE – UE PY000602 -L3
8 9 8 1 1
9 11 12 -1 1
10 9 11 -2 4
11 7 7 0 0
12 9 12 -3 9
13 10 18 -8 64
14 8 10 -2 4
15 12 10 2 4
16 16 16 0 0
17 10 9 1 1
18 15 15 0 0
somme = -25 somme = 153
Variable test
moy(av entrain) = 9,22
moy (ap entrain)= 10,61
On constate que la moyenne avant est < à la moyenne après, ce qui va dans le
sens de H1.
∑ D = 153
2
(∑ D) = (-25)2= 625
2
Sous H0, la valeur observée de la variable test suit une loi de t à N-1 ddl soit
17ddl.
Moy1 − Moy 2
t=
2 (∑ D)
2
∑ D −
N
N ( N − 1)
9,22 − 10, 61
t=
625
153 − 18
18(18 − 1)
t = - 2,236
Décision
Sur la table pour ddl =17 et seuil.05 test unilatéral, on trouve que la valeur critique
du t = 1,740.
85
UFR de PSYCHOLOGIE – UE PY000602 -L3
Z0
Z1
t
-2,236 -1,740 0
L’énoncé est le même que pour le cas des petits échantillons, on a simplement
rajouté des données. Il s’agit toujours de comparer les performances de sujets
avant/après entraînement à l’utilisation de stratégies.
Les pré-requis
- la variable dépendante “performance” est considérée comme une variable
d’intervalle.
- Les deux séries de mesures “avant” “après” sont des mesures répétées.
- la distribution de la variable dépendante est proche d’une distribution normale.
Les hypothèses
H0 : µ1= µ2 au plan de l'ensemble parent
La moyenne µ1 de la population des scores dont provient la série de mesure
“avant” est égale à la moyenne µ2 de la population des scores dont provient la
deuxième série de mesure “après”.
H1 : µ1< µ2
test unilatéral
Conditions
N = 40 cas des grands échantillons
11 12 -1 1
9 11 -2 4
7 7 0 0
9 12 -3 9
10 18 -8 64
8 10 -2 4
12 10 2 4
16 16 0 0
10 9 1 1
15 15 0 0
10 10 0 0
9 11 -2 4
12 12 0 0
17 15 2 4
10 11 -1 1
15 17 -2 4
14 18 -4 16
17 18 -1 1
17 18 -1 1
17 16 1 1
13 14 -1 1
18 17 1 1
18 15 3 9
14 14 0 0
15 16 -1 1
15 14 1 1
10 9 1 1
10 11 -1 1
19 19 0 0
18 20 -2 4
17 16 1 1
14 16 -2 4
∑D = -33 ∑D2=209
Variable test
moy1 “avant”= 12,13
moy2 = 12,95
On constate que la moyenne avant est < à la moyenne après, ce qui va dans le
sens de H1.
∑ D = 209
2
(∑ D) = (-33)2
2
Sous H0, la valeur observée de la variable test suit une loi normale réduite à N-1
ddl soit 39ddl. t=z
12,13 − 12,95
z=
( −33) 2
209 −
40
40( 40 − 1)
87
UFR de PSYCHOLOGIE – UE PY000602 -L3
z = - 2,40
Décision
Pour aller dans le sens de H1, il faut que z observé soit faible. Par conséquent Z1
est à gauche. –2,40 est inférieur à la valeur critique –1,65 donc on rejette H0 et on
accepte H1 au seuil .05 à savoir la moyenne des performances “avant
entraînement” est inférieure à la moyenne des performances “après entraînement”
sur JAMOVI
La p-valeur est p=.417 cette valeur est > .05 par conséquent il y a homogénéité de
la covariance.
88
UFR de PSYCHOLOGIE – UE PY000602 -L3
• Si le test est significatif (i.e. dans la case "Signification", on trouve une p-valeur
inférieure ou égale à 0.05), alors on peut utiliser un test plus conservateur, tel que
le test de Greenhouse-Geisser en lisant les lignes Greenhouse-Geisser dans le
tableau récapitulatif de l'ANOVA (cf tableau suivant).
• Si le test n'est pas significatif (i.e. dans la colonne "p", on trouve une p-valeur
supérieure à 0.05), alors on doit utiliser la p-valeur donnée dans les lignes
appelées « None » dans le tableau récapitulatif de l'ANOVA.
89
UFR de PSYCHOLOGIE – UE PY000602 -L3
90
UFR de PSYCHOLOGIE – UE PY000602 -L3
91
UFR de PSYCHOLOGIE – UE PY000602 -L3
92
UFR de PSYCHOLOGIE – UE PY000602 -L3
93