Académique Documents
Professionnel Documents
Culture Documents
Problèmes statistiques
et utilisation de logiciels
Utilisation du logiciel SAS
Tome 3
F.P. PÉRÉE
UNIVERSITE DE LIEGE
Faculté de Psychologie, de Logopédie
et des Sciences de l'Education
Problèmes statistiques
et
Utilisation de logiciels
F.P. Pérée
Aristote
A Christian Heuchenne,
Mathématicien,
Humaniste,
Homme intègre.
Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires
AVERTISSEMENT
Tous les fichiers proposés pour les exercices sont des fichiers EXCEL récents (suffixe .XLSX)
provenant d’une version européenne du logiciel OFFICE de MICROSOFT.
Il existe plusieurs possibilités de permettre la lecture du contenu d’un fichier EXCEL par le logiciel SAS :
L’exportation du fichier EXCEL en fichier texte ASCII (suffixe .txt).
Ce type de fichier a l’avantage d’être lu directement par SAS. Il est aussi facilement accessible et
modifiable via n’importe quel éditeur ASCII (y compris le bloc‐notes de MICROSOFT)
Remarque :
La transformation en fichier texte pose quelques problèmes à régler dans le cas où le fichier EXCEL
contient des valeurs manquantes non codées et lorsqu’il y a des données à virgule décimale (comme
c’est le cas dans les fichiers EXCEL européens)
L’exportation du fichier EXCEL en fichier CSV (séparateur : point‐virgule)
Même si elle apparaît parfois plus compliquée de prime abord, cette exportation permet de régler
les problèmes liés à la présence de décimales européennes (utilisation de la virgule) et/ou de valeurs
manquantes.
Remarque :
L’utilisation d’un programme Microsoft Office européen fournit un format CSV avec la virgule
décimale et le séparateur point‐virgule ( ; ).
Une petite opération manuelle est donc nécessaire pour transformer le fichier obtenu en fichier
comportant des données avec le point décimal. Réaliser cette opération est assez simple et rapide.
Il suffit de procéder de manière ordonnée comme suit :
Editer le fichier .csv obtenu avec un éditeur de texte ASCII (par exemple le bloc‐notes) ;
Remplacer globalement toutes les virgules par un point ;
Sauvegarder le fichier ainsi transformé.
N.B. : Il faut aussi prendre garde au problème suivant : Les versions récentes d’OFFICE exportent en
CSV les valeurs manquantes en ;; alors que les versions plus anciennes les exportaient en ; ; (les deux
points‐virgules étant séparés par un blanc)
Dans le premier cas il faut recourir à l’option DSD dans le premier cas, ce qui n’est pas nécessaire
dans le second.
La lecture directe par SAS du fichier EXCEL
Il est possible de lire directement un fichier EXCEL en utilisant la procédure IMPORT de SAS.
Certaines contraintes peuvent rendre difficile cette importation (des noms de variables non
compatibles SAS, utiliser une colonne de données sans nom, etc…) MAIS, la principale contrainte est
que le fichier EXCEL supposé être en format américain, et donc que les nombres décimaux doivent
utiliser le point décimal (et non la virgule) !!!
EXERCICES SUPPLÉMENTAIRES
ESUPP01
Dans le cadre d’une recherche sur le tabagisme, un chercheur compare trois procédures
distinctes de sevrage des fumeurs (sevrage progressif, arrêt brutal, médicament aversif). Cinq sujets
sont choisis dans chaque groupe. Il leur est demandé d’indiquer sur une échelle en 10 points (de 0 à 9)
leur niveau de « besoin de fumer » dans deux environnements différents (à la maison et au travail) et
ce, avant puis après avoir subi la procédure de sevrage.
Voici les données qui figurent dans le fichier EXCEL DSUPP01 :
Avant Après
Maison Travail Maison Travail
Sevrage progressif 7 6 6 4
5 4 5 2
8 7 7 4
8 8 6 5
6 5 5 3
Arrêt brutal 8 7 7 6
5 5 5 4
7 6 6 5
8 7 6 5
7 6 5 4
Médicament aversif 9 8 5 4
4 4 3 2
7 7 5 3
7 5 5 0
8 7 6 3
1. Effectuer l’analyse de variance appropriée et déterminez si on peut‐on mettre en évidence un
effet significatif de la méthode de sevrage ? Pourquoi ?
2. Peut‐on considérer qu’il y a une différence significative entre les moyennes « avant » et « après »
la procédure de sevrage (effet temporel « MOMENT ») ?
3. Compte tenu des résultats obtenus aux points 2 et 3, comment interpréter le résultat obtenu
pour l’interaction entre la méthode et l’effet temporel « MOMENT » (avant et après le sevrage) ?
4. Y a‐t‐il une différence significative entre les moyennes des scores à la maison et au travail ?
5. Compte tenu du résultat obtenu au point 5, comment interpréter l’interaction entre la variable
METHODE et la variable LIEU (effet « maison » versus « travail ») ?
ESUPP02
Un chercheur souhaite ranger les 15 items d’un test de langage en fonction de l’ordre selon
lequel les capacités langagières apparaissent dans le développement de l’enfant. N’étant pas certain
du classement qu’il a opéré, il demande à un autre spécialiste de ranger ces items de 1 à 15 suivant le
même critère. Voici les données qui figurent dans le fichier EXCEL DSUPP02 :
Chercheur
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Consultant
1 3 2 4 7 5 6 8 10 9 11 12 15 13 14
1. Calculez la statistique rs de Spearman.
2. Déterminez la statistique tk de Kendall et donnez la probabilité correspondante.
ESUPP03
From [Howell (1992)]
The State of Vermont is divided into 10 Health Planning Districts, which correspond to
counties. The following data for 1980 represent the percentage of births of babies under 2500 grams
(Y), the fertility rate for females younger than 18 or older than 34 years of age (X1), and the
percentage of births to unmarried mothers (X2) for each district (both X1 and X2 are known to be risk
factors for low birthweight).
DISTRICT Y X1 X2
1 6,1 43,0 9,2
2 7,1 55,3 12,0
3 7,4 48,5 10,4
4 6,3 38,8 9,8
5 6,5 46,2 9,8
6 5,7 39,9 7,7
7 6,6 43,1 10,9
8 8,1 48,5 9,5
9 6,3 40,0 11,6
10 6,9 56,7 11,6
1. Calculate the correlations between Y and X1, X2. Test H0 : = 0.
2. Compute the regression equation for predicting the percentage of births of infants under 2500
grams (Y) on the basis of fertility rate for females younger than 18 and older than 34 years of age
(X1). What is the standard error of estimate for this regression equation ?
3. Compute a regression equation for predicting this percentage on the basis of variables X1 and X2.
Data : DSUPP03 EXCEL file.
1. ESUPP04
2.
[Juin 2013] On souhaite déterminer un sous‐échantillon du fichier EXCEL DSUPP04 qui soit
constitué par les sujets portant la modalité « B » de la variable GROUPE et pour lesquels la valeur de
la variable TEMPS est > 12.
1. Dans ce sous‐échantillon, quelle est la valeur de la médiane de la variable TEMPS ?
2. Combien y a‐t‐il en pourcents, dans ce sous‐échantillon, de sujets pour lesquels TEMPS présente
une valeur > 14 et <= 17 ?
ESUPP05
[Juin 2013] On considère la variable métrique SCORE du fichier EXCEL DSUPP05. Les deux modalités
de la variable GROUPE (codée 1, 2) caractérisent deux échantillons distincts. Peut‐on conclure que les
données observées pour la variable SCORE dans ces deux échantillons proviennent de deux populations
ayant des distributions identiques ?
1. Indiquez quel test vous utilisez.
2. Quelle est la valeur de la probabilité obtenue et quelle est votre conclusion ?
ESUPP06
Dans une étude portant sur les habitudes alimentaires des adolescents, Gross (1985)1
interroge les différents sujets d’un échantillon d’adolescents sur leur préférence entre trois
possibilités : Gagner du poids, maintenir leur poids actuel ou perdre du poids.
Après avoir recensé les données relatives aux filles en fonction de la race (race blanche /
afro‐américaine), il obtient les résultats suivants :
Réduire Maintenir Augmenter
Blanches 352 152 31 535
Afro-américaine 47 28 24 99
399 180 55 634
Quelle conclusion peut‐on tirer de ces données ?
ESUPP07
Dans le cadre d’une recherche sur l’apprentissage de la langue maternelle, un pédagogue
effectue une étude longitudinale sur 20 enfants d’école primaire. Trois mesures portant sur la
maîtrise du français sont effectuées sur chaque sujet, la première au mois de septembre, la
deuxième en janvier et la troisième en juin. Cette procédure, effectuée pour la première fois en 1ère
année primaire, est renouvelée en 2ème et en 3ème année sur les mêmes sujets. En outre, ces derniers
sont partagés en deux sous‐groupes : Le sous‐groupe 1 comprenant des enfants ayant appris la
lecture par la méthode dite « globale » et le sous‐groupe 2 des enfants dont l’apprentissage s’est
effectué par la méthode analytique.
Voici les données qui sont reprises dans le fichier EXCEL DSUPP07 :
1
Gross, J.S., Weight modification and eating disorders in adolescent boys and girls, unpublished doctoral
dissertation, University of Vermont, 1985.
2
Tuddenham, R.D., Snyder, M.M., Physical Growth of California Boys and Girls from birth to age 18, California
Publications in Child Development, 1, 183‐364, 1954.
1. Déterminez la moyenne, la variance, l’écart‐type et le coefficient de variation.
2. Déterminez, au niveau d’incertitude 5 %, un intervalle de confiance sur la moyenne.
3. Quelle est la médiane de cette distribution ?
4. Déterminer les coefficients d’asymétrie et d’aplatissement. La distribution des valeurs présente‐t‐
elle dès lors une asymétrie gauche ou droite ?
5. Peut‐on tolérer l’hypothèse que les valeurs de cet échantillon proviennent d’une population de
distribution normale ?
ESUPP09
Reaven et Miller3 mesurent quatre variables dans une comparaison entre patients normaux
et diabétiques. La table ci‐après fournit une partie des données relatives aux patients normaux,
données contenues dans le fichier EXCEL DSUPP09.
Y1 X1 X2 X3
0,81 356 124 55
0,95 289 117 76
0,94 319 143 105
1,04 356 199 108
1,00 323 240 143
0,76 381 157 165
0,91 350 221 119
... ... ... ...
Les variables sont
y1 = poids relatif
x1 = intolérance au glucose
x2 = réponse de l’insuline à l’absorption orale de glucose
x3 = résistance à l’insuline
On effectue une régression linéaire de la variable y1 sur les variables x1, x2 et x3.
1. Déterminer l’équation de la régression.
2. Quelle est la matrice des covariances entre les explicateurs ?
3. Quel est le coefficient de détermination dans l’échantillon ? Quelle est son estimation dans la
population ?
4. Quel poids relatif le modèle prédira‐t‐il à un sujet pour lequel x1 = 321, x2 = 153 et x3 = 72 ?
ESUPP10
From [ Marascuilo (1977)]
The data below are derived from a study in which ten girls taking a course in high‐school
business math were given a test to measure their recall of 7‐digit numbers. The tests were given at
the end of the 4th, 8th, 12th, and 16th week of the course.
3
Reaven, G.M., Miller, R.G., An Attempt to Define the Nature of Chemical Diabetes Using a Multidimensional
Analysis, Diabetologia, 16, 17‐24.
4
Test Achats Magazine, n° 391, p. 9‐18, septembre 1996
l’attitude face au client notée sur une échelle ordinale (regroupée) : TB (très bon), B (bon), P
(passable ou médiocre). En outre, le niveau du bureau de poste (Niveau 1, 2 ou 3) a été pris en
considération. Les données figurent dans le fichier EXCEL DSUPP13.
Voici les données recueillies :
P B TB
Niveau 1 12 14 7
Niveau 2 34 42 23
Niveau 3 25 6 2
1. Y a‐t‐il indépendance entre le niveau du bureau de poste et l’attitude vis‐à‐vis du client ?
2. Quelle est la valeur du coefficient de Cramer ?
ESUPP14
Les données ci‐après, qui figurent dans le fichier EXCEL DSUPP14, concernent une
expérimentation effectuée sur des rats de trois groupes d’âge différents. La variable dépendante est
le nombre d’essais nécessaire pour une course sans erreur au sein d’un labyrinthe.
90 jours 120 jours 150 jours
25 7 1
26 15 7
33 37 27
55 24 4
19 3 3
33 2 25
6 7 19
41 23 9
18 17 29
31 15 15
18 11 28
6 14 19
24 9 13
23 1 14
1. Existe‐t‐il une différence significative entre les moyennes des nombres d’essais selon l’âge des
rats ?
2. Déterminer les différentes sommes de carrés intervenant dans ce modèle.
3. Utiliser la procédure de Tukey pour comparer les moyennes deux à deux au niveau d’incertitude 5 %.
Quelle est votre conclusion ?
ESUPP15
On considère les données ci‐après dans le cadre d’une analyse de variance double croisée où
la variable critère mesure la performance à la lecture (variable SCORE) et les variables nominales
explicatives le sexe (garçon ‐ fille) et la méthode de lecture (méthode X ‐ méthode Y et méthode Z).
Ces données figurent dans le fichier EXCEL DSUPP15.
METHODE
SEXE X Y Z
700 480 500
850 460 550
Garçon 820 500 480
640 570 600
920 580 610
900 590 520
880 540 660
Fille 899 560 525
780 570 610
899 555 645
1. Etablir l’équation de la régression de la variable critère SCORE sur les explicateurs catégoriels SEXE
et METHODE.
2. Quelle est, dans l’échantillon, la valeur du coefficient de détermination ?
3. Quel score le modèle prédira‐t‐il à un garçon ayant suivi la méthode Z ?
ESUPP16
From [ Daniel (1978)]
A psychology research team administered a test designed to measure neuroticism in four
groups of subjects who differed on the basis of their smoking habits. The results are shown below
and the data are in DSUPP16 EXCEL file.
Nonsmokers 7,6 7,7 7,5 7,8 7,6 7,3 7,1 8,0 7,5 8,0
Light smokers 8,9 8,2 8,1 8,0 8,6 8,6 8,6 8,4
Medium smokers 8,0 8,8 8,7 8,6 9,0 8,8 8,5
Heavy smokers 9,9 9,1 9,8 9,8 9,8 9,9 9,6
9,2
Do these data suggest a difference in neuroticism level among the four groups ? Use Kruskal‐Wallis
test.
ESUPP17
75 étudiants ont répondu à un questionnaire comprenant 7 questions à choix multiples (une
seule réponse correcte).
Voici la distribution du nombre des réponses correctes enregistrées :
Nombre Fréquence
0 1
1 5
2 8
3 15
4 22
5 12
6 9
7 3
1. Déterminer la moyenne du nombre de réponses correctes. Quelles sont la variance et l’écart‐
type ?
2. Quel autre indice central vaut‐il mieux utiliser dans ce cas ? Quelle est sa valeur ?
3. Donner l’histogramme de cette distribution.
ESUPP18
Un chercheur échantillonne 12 étudiants ayant effectué leurs études secondaires dans
l’enseignement officiel et 12 étudiants ayant suivi ces études dans l’enseignement libre. Six étudiants
de chaque groupe sont en 1er bac en psychologie et les six autres en 1er bac en sciences appliquées.
Tous ces étudiants ont été soumis à un test T1 de connaissance de la langue française à l’entrée à
l’Université et à un second test T2 évaluant cette même connaissance à l’issue des interrogations du
mois de janvier.
Voici les résultats obtenus :
Officiel Libre
T1 T2 T1 T2
s1 12 15 s13 15 17
s2 8 13 s14 13 16
PSYCHOLOGIE s3 14 15 s15 14 15
s4 11 14 s16 12 14
s5 16 16 s17 17 17
s6 10 15 s18 11 15
s7 11 13 s19 12 14
s8 9 12 s20 15 15
SC. APPLIQUEES s9 15 15 s21 13 13
s10 12 14 s22 10 12
s11 13 13 s23 14 12
s12 10 11 s24 15 13
Les données sont reprises dans le fichier EXCEL DSUPP18.
1. Effectuer l’analyse de variance adéquate et déterminer l’ensemble des effets du modèle.
2. Commenter les différents effets significatifs obtenus.
3. Déterminer les valeurs de la statistique et de la probabilité de dépassement obtenues en
éprouvant l’hypothèse suivante : H0 = Il n’y a pas de différence statistiquement significative entre
les résultats obtenus, chez les étudiants de 1er bac en psychologie, entre le premier et le
deuxième testing.
4. Déterminer les valeurs de la statistique et de la probabilité de dépassement obtenues en
éprouvant l’hypothèse suivante : H0 = Il n’y a pas de différence statistiquement significative entre
les résultats obtenus, chez les étudiants de 1er bac en psychologie ayant effectué leurs études
secondaires dans le réseau officiel, entre le premier et le deuxième testing.
5. Quelle est la moyenne au deuxième test obtenue par les étudiants de 1er bac en Sciences
appliquées ayant fait leurs études secondaires dans l’enseignement libre ?
ESUPP19
From [ Daniel (1978)]
Griffiths5 reported data on the extent of coffee‐berry desease on farms not sprayed and
those sprayed with a fungicide. The results are shown below (and are also in DSUPP19 EXCEL file), in
terms of percentage infections in test berries.
Unsprayed 6.01 2.48 1.76 5.1 0.75 7.13 4.88
Sprayed 5.68 5.68 16.3 21.46 11.63 44.2 33.3
Do these data provide sufficient evidence to indicate a difference in population location
parameters ? Use the Wilcoxon test and determine the p value.
ESUPP20
On a mesuré les seuils auditifs d’un certain nombre d’hommes et de femmes dans quatre
conditions expérimentales distinctes (temps de relaxation différents).
Effectuer une analyse de variance sur les données ci‐après, qui figurent dans le fichier EXCEL
DSUPP20, sachant que les huit sous‐échantillons sont indépendants.
Conditions
1 2 3 4
19 21 24 24
Hommes 12 16 18 26
17 17 22 21
20 18 18 17
15 19 15 18
Femmes 15 19 19 19
14 17 16 18
12 14 18 17
1. Le modèle explicatif global est‐il pertinent ? Justifiez.
2. Quelle est la valeur du coefficient de détermination dans l’échantillon ?
3. Y a‐t‐il un effet significatif du sexe sur le seuil auditif ?
4. Quelle est la variable qui prend en compte la plus grande part de la somme des carrés du
modèle ? Quelle est sa valeur en pourcentage ?
5. En appliquant le test de Student‐Newman‐Keuls, entre lesquelles des quatre conditions peut‐on
admettre l’existence d’une différence statistiquement significative ?
ESUPP21
On effectue la régression linéaire d’une variable Y sur trois variables X1, X2 et X3. Les
données sont contenues dans le fichier EXCEL DSUPP21. En voici une partie :
Y X1 X2 X3
20 32 64 32
67 43 85 39
37 27 54 31
42 37 74 19
57 27 54 30
,,, ,,, ,,, ,,,
5
Griffiths E., Negative Effects of Fungicides in Coffee, Trop.Sci., 14, 788‐795, 1972.
1. Quelle est la pertinence du modèle ? Donner la valeur de la statistique F et de sa probabilité de
dépassement.
2. Quelle signification faut‐il donner à la tolérance entre X1 et X2 ? Quel effet cette situation a‐t‐elle
sur le modèle ? Comment y remédier ?
ESUPP22
Les données ci‐après montrent le nombre moyen de mots de vocabulaire dont jouissent des
enfants de différents âges.
Le fichier EXCEL DSUPP22 contient ces données.
Age Nombre de mots
1.0 3
1.5 22
2.0 272
2.5 446
3.0 896
3.5 1222
4.0 1540
4.5 1870
5.0 2072
6.0 2562
1. Sur l’ensemble de notre échantillon, quels sont la médiane du nombre de mots lus ?
2. Etablissez le nuage de points représentant le nombre de mots (en ordonnée) par rapport à l’âge (en
abscisse).
3. Déterminez la corrélation de Bravais‐Pearson entre l’âge et le nombre de mots. Qu’en conclure ?
ESUPP23
Dans une analyse de covariance, un chercheur veut expliquer les scores des sujets de son
échantillon à un test de rapidité en lecture (variable métrique Y) par la variable nominale GROUPE et
la variable métrique X5 (test de mémorisation)
Les données figurent dans le fichier EXCEL DSUPP23 dont un extrait figure ci‐après :
Groupe X1 X2 X3 X4 X5 Y
Gr1 22 6 52 83,5 10,9 176
Gr1 32 8 20 77 11 200
Gr1 36 7 28 86,5 13,2 171
Gr1 22 11 30 104 22,6 230
Gr1 23 1 40 83 15,2 205
… … … … … … …
Gr2 30 10 167 89 25,6 364
Gr2 41 10 104 81 26,8 245
Gr2 22 8 30 108 8,8 284
Gr2 22 8 44 104 17,4 172
Gr2 20 10 65 87 23,8 198
… … … … … … …
1. Le modèle explicatif est‐il statistiquement pertinent ? Justifiez en donnant la statistique et la
probabilité de dépassement.
2. Quelles sont les moyennes de la variable Y dans la variable GROUPE ajustées par la présence de la
covariable X5 ?
3. Peut‐on tolérer l’hypothèse du parallélisme pour ce modèle ? Justifiez en donnant la probabilité
de dépassement concernée.
3. ESUPP24
[Juin 2013] On considère la variable GROUPE (codée par A, B, C, D) qui figure dans le fichier
EXCEL DSUPP24.
1. Quelle est la répartition des effectifs dans les quatre modalités de la variable GROUPE ?
2. Si on vous demande de calculer la médiane de la variable GROUPE, quelle est votre réponse à
cette demande ?
ESUPP25
En décembre 1994, sur la piste de conduite du Driving Know How du VAG Center, 16
membres de Touring Secours ont été soumis à des tests de conduite après avoir absorbé la même
quantité d’alcool.
Les mesures effectuées figurent dans le tableau ci‐après et dans le fichier EXCEL DSUPP25.
1. Déterminez s’il existe une corrélation significative entre les deux groupes de variables suivantes :
L’âge et le poids et les deux taux mesurés d’alcoolémie.
2. Pour chaque taux d’alcoolémie, déterminer s’il existe une différence significative entre les
hommes et les femmes.
3. Déterminez l’équation de la régression linéaire de la variable « CONTRÔLE FIN DE REPAS » sur les
variables AGE et POIDS, respectivement chez les hommes et chez les femmes.
4. Estimez ponctuellement le nombre de grammes par litre de sang en fin de repas que la régression
définie au point 3 et effectuée dans le sous‐ensemble des hommes prédit à un sujet âgé de 50 ans
et pesant 96 kilos.
5. Quelle est la valeur de la corrélation multiple dans la régression définie au point 3 et effectuée
dans le sous‐ensemble des femmes ?
CONTRÔLE APRES 4 VERRES EN COURS DE REPAS
(1 mousseux, 1 vin blanc et 2 vins rouge).
CONTRÔLE FIN DE REPAS CONTRÔLE 1H30 PLUS TARD
N° H/F Age Poids g. par litre de sang g. par litre de sang
1 H 39 72 0,27 0,00
2 H 47 110 0,29 0,00
3 H 65 89 0,36 0,29
4 H 42 78 0,38 0,27
5 H 21 78 0,38 0,20
6 H 26 71 0,38 0,29
7 H 51 78 0,43 -
8 H 23 70 0,50 0,31
9 F 51 59 0,54 0,34
10 H 70 80 0,59 -
11 F 31 52 0,61 0,29
12 F 47 63 0,63 0,40
13 F 29 60 0,70 0,49
14 H 71 63 0,72 0,49
15 F 44 52 0,97 0,65
16 F 37 59 1,02 0,81
ESUPP26
Les données de la table ci‐dessous, qui figurent dans le fichier EXCEL DSUPP26 ont été
obtenues dans le cadre d’une étude portant sur les effets de trois poisons distincts et de quatre
traitements différents sur le temps de survie des rats.
Poison Traitement
A B C D
0,31 0,82 0,43 0,45
1 0,45 1,10 0,45 0,71
0,46 0,88 0,63 0,66
0,43 0,72 0,76 0,62
From [Howell (1992)]
In a study of the way children and adults summarize stories, we select 10 fifth graders and 10
adults. There were further subdivided into equal groups of good and poor readers (on the hypothesis
that good and poor readers may store or retrieve story information differently). All subjects read 10
short stories and were asked to summarize the story in their own words immediately after reading it.
All summaries were content analysed, and the numbers of statements related to settings, goals, and
inferred dispositions were recorded.
The data are collapsed across the 10 stories and are in DSUPP31 EXCEL file.
Age Adults Children
Items Settings Goal Disp. Settings Goal Disp.
Good Readers 8 7 6 5 5 2
5 6 4 7 8 4
5 5 5 7 7 4
7 8 6 6 4 3
6 4 4 4 4 2
Poor Readers 7 6 3 2 2 2
5 3 1 2 0 1
6 6 2 5 4 1
4 4 1 4 4 2
5 5 3 2 2 0
1. Run the appropriate analysis of variance.
2. Calculate the difference effect between first and third item for adult good readers.
ESUPP32
Dans le cadre d’une étude sur l’utilisation de l’informatique, la revue Test Achats a publié
dans son numéro de novembre 1994 le tableau ci‐après qui reprend la liste des différents types de
logiciels les plus courants en indiquant, d’une part, le pourcentage des utilisateurs interrogés qui les
possèdent et, d’autre part, le pourcentage de ceux qui les utilisent régulièrement.
Voici ces données qui sont contenues dans le fichier EXCEL DSUPP32 :
Utilisent
Type Possèdent (%) régulièrement (%)
ESUPP33
Dans chacune des provinces de Liège et de Namur (codées 1 = Liège ‐ 2 = Namur), on a
échantillonné quatre écoles secondaires au sein de l’ensemble des établissements scolaires de ce
niveau d’enseignement.
On veut expliquer le score à un test auquel ont été soumis 8 élèves de chaque école par les
variables nominales « province » et « école ».
Voici une présentation partielle des données qui figurent dans le fichier EXCEL DSUPP33 :
PROVINCE 1 1 1 1 … 1 1 1 1 … 2 2 2 2 … 2 2 2 2 …
ECOLE Ecole1 Ecole1 Ecole1 Ecole1 … Ecole2 Ecole2 Ecole2 Ecole2 … Ecole1 Ecole1 Ecole1 Ecole1 … Ecole2 Ecole2 Ecole2 Ecole2 …
TEST 24 32 29 10 … 30 30 26 28 … 12 14 21 10 … 19 11 25 13 …
1. Effectuez l’analyse de variance adéquate et déterminer tous les effets intervenant dans ce
modèle.
2. Quelle est, dans l’échantillon, la valeur du coefficient de détermination 2 ?
3. Quelle est la moyenne des résultats de la 3ème école de la Province de Liège ?
ESUPP34
Le recensement (en centaines de voitures) des ventes automobiles durant le premier
trimestre de 1995 a fourni le tableau ci‐après. Deux variables sont en présence : Le type de voiture
(petite, moyenne, familiale, grosse) et le type de carburant (essence ou diesel).
Les données figurent dans le fichier EXCEL DSUPP34.
Type de voiture
Petite Moyenne Familiale Grosse
Carburant Diesel 90 342 403 110
Essence 464 427 354 113
1. Déterminer s’il existe une relation statistiquement significative entre le type de voiture et le type
de carburant.
2. Quelle est la valeur du coefficient V de Cramer ?
ESUPP35
Les données ci‐après concernent 20 employés d’une administration dont certains affirment
que leur meilleur rendement au travail se situe le matin et alors que les autres situent ce moment
l’après‐midi (affirmations codées 1 = matin ‐ 2 = après‐midi).
On mesure sur une échelle de 100 points la qualité du travail produit par chaque employé
lors de trois matinées.
Voici les données qui figurent dans le fichier EXCEL DSUPP35 :
Meilleur moment 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2
Performance 65 80 55 60 55 70 60 70 55 70 40 70 50 40 60 50 40 50 40 60
1. Calculez la corrélation bisérielle de point rpb entre la performance et la variable dichotomique
« Moment ».
2. Interprétez le résultat de l’hypothèse H0 : rpb = 0.
ESUPP36
La publication « Flash‐Forem » de janvier 1996 présentait le tableau ci‐après de l’évolution
des demandeurs d’emploi entre janvier 1987 et janvier 1996 :
Périodes Données brutes
Hommes Femmes Total
janv-96 116 608 141 229 257 837
janv-95 114 899 137 251 252 150
janv-94 112 903 134 136 247 039
janv-93 98 720 124 578 223 298
janv-92 89 526 114 356 203 882
janv-91 81 576 109 998 191 574
janv-90 79 281 104 202 183 483
janv-89 82 117 104 326 186 443
janv-88 91 242 107 541 198 783
janv-87 95 620 112 851
208 471
Ces données sont partiellement reprises sous une autre forme dans le fichier EXCEL
DSUPP36.
1. Quelle est la valeur de la corrélation de Pearson entre les variables « Hommes » et « Femmes » ?
2. En considérant que les demandeurs d’emploi sont appariés par l’année de référence, déterminez
s’il existe une différence significative entre les hommes et les femmes.
ESUPP37
Les données ci‐après sont sélectionnées d’une vaste expérience de Snedecor et Cochran7
relative à l’usage des drogues dans le traitement de la lèpre.
Les variables dans l’étude sont :
DROGUE Deux antibiotiques (A et B) et un contrôle (F)
PRE Un score de prétraitement du bacille de la lèpre.
POST Un score de post‐traitement du bacille de la lèpre.
10 patients sont sélectionnés pour chaque traitement (variable DROGUE) et la variable PRE
(prétraitement) est utilisée comme covariable.
Les données figurent dans le fichier EXCEL DSUPP37.
1. On demande d’effectuer tout d’abord une analyse de variance expliquant la variable
métrique POST par la variable catégorielle DROGUE. Peut‐on tolérer l’existence d’un effet
significatif de la variable DROGUE ? Justifiez.
2. Quelles sont les moyennes de la variable POST dans les trois modalités de la variable
DROGUE ?
3. On ajoute ensuite comme explicateur la variable métrique PRE. Le modèle explicatif
complet à deux explicateurs est‐il pertinent ? Justifiez.
4. Quelles sont les valeurs des moyennes ajustées i de la variable nominale explicative
DROGUE près ajustement par la covariable PRE ?
5. Eprouvez l’hypothèse du parallélisme des droites de régression. Peut‐on tolérer cette
hypothèse ? Justifiez.
7
Snedecor, G. W. and Cochran, W. G., Statistical Methods, Sixth Edition, Ames: Iowa State University Press, 1967.
ESUPP38
Un chercheur mène une étude dans 12 établissements d’enseignement secondaire de la
Communauté française. Il construit deux questionnaires destinés à mesurer, le premier, un indice de
satisfaction vis‐à‐vis des programmes scolaires, le second, un indice d’autonomie pédagogique du
chef d’école vis‐à‐vis du caractère normatif des programmes de cours.
Les rangs obtenus pour ces deux indices dans les 12 établissements participant à l’expérience
sont :
Ecole A B C D E F G H I J K L
Satisfaction 1 7 6 2 8 4 10 12 11 5 9 3
Autonomie 12 11 10 9 8 7 6 5 4 3 2 1
Les données sont contenues dans le fichier EXCEL DSUPP38.
1. Déterminer le coefficient de corrélation de Spearman entre les deux indices. Qu’en conclure ?
2. Déterminer le coefficient de corrélation de Kendall entre les deux indices. Qu’en conclure ?
ESUPP39
Un psychologue procède à la passation d’un test visant à mesurer la vitesse de lecture chez
deux groupes d’enfants de 6 ans. Il effectue ensuite une analyse de variance simple pour déterminer
si les résultats peuvent être considérés comme significativement différents entre les deux groupes.
Les données figurent dans le fichier EXCEL DSUPP39.
1. Effectuez l’analyse de variance expliquant la variable métrique TEST par la variable nominale
GROUPE. Y a‐t‐il un effet significatif de la variable GROUPE ? Justifiez.
2. Quelle est, dans l’échantillon, la valeur du coefficient de détermination ?
3. Le chercheur introduit ensuite dans le modèle explicatif la variable métrique PRETEST comme
covariée. Au niveau de la signification statistique, peut‐il considérer que la variable nominale
GROUPE produit toujours le même effet sur la variable dépendante ? Justifiez.
4. Quelle est, dans l’échantillon, la différence entre la valeur du coefficient de détermination relatif
au modèle explicatif complet et celle du coefficient de détermination du modèle explicatif simple
(explication par la seule variable nominale sans la covariée) ?
ESUPP40
On mesure le taux d’activité cérébrale de trente rats. Cette mesure est mise en relation avec
le temps mis par chaque rat pour sortir d’un labyrinthe connu au travers de cinq expériences
antérieures et avec une mesure de performance motrice.
Voici une partie des données qui sont contenues dans le fichier EXCEL DSUPP40 :
ESUPP42
Les données ci‐après sont les temps (en secondes) qui ont été nécessaires aux enfants de
deux groupes expérimentaux pour compléter un modèle imposé de neuf blocs colorés extrait du
WISC8. Les deux groupes ont reçu des instructions différentes pour effectuer cette tâche : le groupe A
a reçu pour instruction de commencer avec une rangée de trois blocs, le groupe B celle de
commencer avec un « coin » de trois blocs.
Voici les données qui sont contenues dans le fichier EXCEL DSUPP42 :
Groupe A 675 510 490 850 317 464 525 298 491 196 268 372 370 739 430 410
Groupe B 342 222 219 513 295 285 408 543 298 494 317 407 290 301 325 360
1. Vérifier si la condition d’homoscédasticité préalable à l’application d’un test t de Student est
rencontrée.
2. En effectuant un test de Student avec l’approximation de Satterthwaite, peut‐on conclure à
l’existence d’une différence significative de résultat entre les deux groupes ?
3. L’application du test non paramétrique de Wilcoxon aboutit‐il à la même conclusion ?
ESUPP43
On a recensé les résultats du vote de 180 étudiants lors de l’élection opposant deux
candidats à la présidence du Cercle de Psychologie et on a obtenu la table suivante :
Candidat A Candidat B
Filles 28 42
Garçons 76 34
1. Dans la présente situation, quel est le test le plus adéquat pour éprouver l’indépendance des deux
variables nominales ? Justifiez.
2. Le choix des candidats est‐il indépendant du sexe des électeurs ? Justifiez en donnant la
probabilité de dépassement du test bilatéral exact ?
ESUPP44
Les données ci‐après9 ont été collectées dans le cadre d’une étude sur la pression sanguine
systolique chez des sujets classifiés en fonction de leur usage du tabac ainsi que par rapport à leurs
antécédents familiaux en termes de problèmes cardiaques et circulatoires.
Voici les données qui sont contenues dans le fichier EXCEL DSUPP44 :
8
Wechsler Intelligence Scale for Children
9
Boniface D.R., Experiment design and statistical methods for behavioural and social research, Chapman and
Hall, London, 1995.
10
Torre M., Bogetto F., Torre E., Effect of LSD‐25 and 1‐Methyl‐d‐Lysergic Acid Butanolamide on Rat Brain and
Platelet Serotonin Levels, Psychopharmacologia, 36, 117‐122, 1974.
1. On souhaite déterminer si les deux variables nominales sont indépendantes. Quel test utilisez‐vous en
l’occurrence ? Quelle est votre conclusion ? Justifiez.
2. Quelle est, en pourcentages, la répartition des modalités de la variable B au sein de la modalité
A1 ?
ESUPP47
Dans une expérience destinée à comparer différentes méthodes d’enseignement de
l’arithmétique, Wetherill11 divise aléatoirement 45 étudiants en cinq groupes d’effectifs égaux.
Deux groupes (A et B) reçoivent un enseignement selon la méthode traditionnelle et les trois
autres (C, D et E) selon trois méthodes nouvelles distinctes. A l’issue de l’apprentissage, les étudiants
sont soumis à un test de connaissance arithmétique.
Voici les données qui sont contenues dans le fichier EXCEL DSUPP47 :
A B C D E
17 21 28 19 21
14 23 30 28 14
24 13 29 26 13
20 19 24 26 19
24 13 27 19 15
23 19 30 24 15
16 20 28 24 10
15 21 28 23 18
24 16 23 22 20
1. Déterminez les moyennes et écart‐types des résultats obtenus aux différentes méthodes.
2. Peut‐on admettre qu’il existe une différence statistiquement significative entre les résultats
obtenus par les différents groupes d’étudiants ?
3. Comparez deux à deux les moyennes obtenues par les cinq groupes. Quels sont les groupes entre
lesquels on rejette l’égalité de leur moyenne ?
4. On souhaite comparer la moyenne regroupée des groupes A et B avec la moyenne regroupée des
groupes D et E. Peut‐on tolérer l’existence d’une différence significative entre les moyennes des
deux groupements ? Justifiez.
ESUPP48
Les données du fichier EXCEL DSUPP48 dont une fraction est présentée dans le tableau ci‐
après sont relatives à la criminalité dans les états des U.S.A. en 1960 :
11
Wetherill G.B., Elementary statistical methods, Chapman and Hall, London, 1982.
ESUPP50
Dans le cadre d’une étude longitudinale dont les résultats figurent dans le schéma d’analyse
ci‐après, trois mesures (variable MESURE) sont effectuées en cours d’année scolaire sur des élèves de
l’enseignement primaire. Ces mesures sont réalisées sur les mêmes sujets durant trois années
consécutives (variable ANNEE).
Sachant que deux types de test sont utilisés, chacun sous deux formes qui lui sont spécifiques
(la variable « forme » étant dès lors subordonnée à la variable « type »), effectuez l’analyse de
variance adéquate et donnez le tableau de l’ensemble des effets présents dans ce modèle.
Les données sont contenues dans le fichier EXCEL DSUPP50.
Année1 Année2 Année3
TYPE FORME Mes1 Mes2 Mes3 Mes1 Mes2 Mes3 Mes1 Mes2 Mes3
1 A 20 21 21 32 42 37 32 32 32
1 A 67 48 29 43 56 48 39 40 41
1 A 37 31 25 27 28 30 31 33 34
1 A 42 40 38 37 36 28 19 27 35
1 A 57 45 32 27 21 25 30 29 29
1 B 39 39 38 46 54 43 31 29 28
1 B 43 32 20 33 46 44 42 37 31
1 B 35 34 34 39 43 39 35 39 42
1 B 41 32 23 37 51 39 27 28 30
1 B 39 32 24 30 35 31 26 29 32
2 A 47 36 25 31 36 29 21 24 27
2 A 53 43 32 40 48 47 46 50 54
2 A 38 35 33 38 42 45 48 48 49
2 A 60 51 41 54 67 60 53 52 50
2 A 37 36 35 40 45 40 34 40 46
2 B 59 48 37 45 52 44 36 44 52
2 B 67 50 33 47 61 46 31 41 50
2 B 43 35 27 32 36 35 33 33 32
2 B 64 59 53 58 62 51 40 42 43
2 B 41 38 34 41 47 42 37 41 46
ESUPP51
Un chercheur veut expliquer les scores des sujets de son échantillon à un test (variable
métrique SCORE) par les variables nominales « école » (codée 1, 2) et « classe » (codée 1, 2, 3).
1. Traduisez par leurs valeurs numériques correspondantes la décomposition des sommes de carrés
Sg = Sgˆ + Sε .
2. Quel score le modèle explicatif prédira‐t‐il à un élève appartenant à la classe n° 3 de l’école n° 1 ?
3. Quelle est, dans ce modèle explicatif, la valeur du coefficient de détermination 2 dans
l’échantillon ?
4. Quelle est la valeur de la différence entre cette valeur et celle (toujours dans l’échantillon) du
coefficient de détermination du modèle où la variable métrique SCORE est expliquée par la seule
variable nominale « école » ?
Les données figurent dans le fichier EXCEL DSUPP51.
ESUPP52
Trois mesures (M1, M2 et M3) ont été successivement effectuées par un chercheur sur les 48
sujets de son échantillon. Les données sont reprises dans le fichier EXCEL DSUPP52.
Sachant qu’il est souhaité d’utiliser un test paramétrique pour déterminer s’il existe une différence
statistiquement significative entre ces trois résultats,
1. Quel test pouvez‐vous utiliser ?
2. Quelle est, en appliquant ce test, la valeur de la statistique obtenue ? Quelle est votre
conclusion ? Justifiez.
3. L’hypothèse de sphéricité est‐elle rencontrée. Justifiez en donnant la statistique de Mauchly et la
probabilité correspondante.
ESUPP53
On considère le schéma expérimental suivant dont les données figurent dans le fichier EXCEL
DSUPP53 :
Mesures
ère ème
1 Année 2 Année 3ème Année
Sujets Sexe Classe T1 T2 T3 T4 T5 T6
s1 ... ... ... ... ... ...
s2
s3
...
Six mesures identiques (T1, T2, T3, T4, T5, T6) ont été effectuées sur les mêmes sujets durant
leur scolarité primaire, deux durant la 1ère année, deux autres au cours de la 2ème année et les deux
dernières durant la 3ème année dans trois classes comportant chacune le même nombre de filles et de
garçons. Sachant que la variable nominale « sexe » est codée 1=Fille ‐ 2=Garçon et que la variable
« classe » est codée par 1, 2, 3,
1. Au niveau d’incertitude 0.05, quels sont les différents effets significatifs de ce modèle ?
2. Quelle est la valeur de la statistique F relative à l’interaction entre la variable « sexe » et la
variable temporelle « mesure » (variables Ti) ?
3. Quelle est la valeur de la probabilité de dépassement relative à l’interaction entre la variable
« classe » et la variable temporelle « année » ?
4. Existe‐t‐il, chez les filles de la classe 2, une différence significative entre la première mesure de
l’année 1 et la première mesure de l’année 2 ? Quelle est la valeur de la probabilité de
dépassement obtenue dans ce cas ?
ESUPP54
Une analyse de variance simple a été réalisée sur les données du fichier EXCEL DSUPP54 en
expliquant les résultats à un test (variable métrique TEST) par la variable nominale GROUPE (codée
« cont »=groupe contrôle – « exp »=groupe expérimental).
On effectue ensuite une analyse de covariance en faisant intervenir la variable métrique
PRETEST comme covariable.
1. Au niveau de la signification statistique, l’effet de la variable GROUPE est‐il resté similaire ?
Justifiez.
2. Dans le modèle d’analyse de covariance, quels sont, pour la variable TEST, la valeur observée, la
valeur prédite et le résidu relatifs au 1er sujet de l’échantillon ?
3. Quelles sont les moyennes ajustées de la variable TEST dans les modalités de la variable
GROUPE ?
4. Eprouvez l’hypothèse de parallélisme. Quelle est votre conclusion ?
ESUPP55
Les données ci‐après concernent une expérimentation effectuée sur des rats de trois groupes
d’âge différents et représentent le nombre d’essais nécessaire à chacun des rats pour une course
sans erreur au sein d’un labyrinthe.
90 jours 30 31 39 62 23 39 8 47 22 37 22 8 29 28
120 jours 10 19 43 29 5 3 10 28 21 19 14 18 12 2
150 jours 2 10 32 6 5 30 23 12 34 19 33 23 17 18
On souhaite tester l’hypothèse qu’il existe une différence significative de résultats selon l’âge
des rats. Sachant que les données sont reprises dans le fichier EXCEL DSUPP55,
1. Quelle analyse paramétrique appliquez‐vous à ce schéma expérimental pour rencontrer cet
objectif ?
2. Quelle est la probabilité de dépassement obtenue ? Quelle est votre conclusion ?
3. Quel test non paramétrique pourrait‐on appliquer à ces données pour tester l’existence d’une
différence entre les résultats ? Quelles sont les valeurs de la statistique et de la probabilité de
dépassement obtenue dans ce cas ? Quelle est votre conclusion ?
ESUPP56
202 étudiants ont répondu à un questionnaire comprenant 13 questions à choix multiples
(une seule réponse correcte).
Voici la distribution du nombre des réponses correctes enregistrées :
Nombre Fréquence
0 1
1 5
2 6
3 8
4 11
5 15
6 22
7 28
8 33
9 27
10 20
11 15
12 8
13 3
Les données figurent dans le fichier EXCEL DSUPP56.
1. Déterminez la moyenne et la variance du nombre de réponses correctes.
2. Quel autre indice central est‐il préférable d’utiliser dans ce cas ? Quelle est sa valeur ?
3. Quel est le mode de cette distribution ?
ESUPP57
On considère le tableau de contingence ci‐après :
Variable U
u1 u2
Variable v1 11 13
V v2 10 6
On veut tester l’indépendance des variables nominales U et V.
1. Quelle est la valeur obtenue pour la statistique chi‐carré de Pearson ?
2. Quelle est la valeur de la probabilité de dépassement obtenue par le test exact de Fisher
(bilatéral) ?
3. Peut‐on conclure à l’indépendance des variables U et V ? Pourquoi ?
ESUPP58
Les données du tableau de contingence ci‐après figurent dans le fichier EXCEL DSUPP58 :
Variable M
m1 m2 m3
Variable n1 45 32 51
N n2 31 17 25
1. Quelle est la distribution des pourcentages de la variable M au sein de la modalité « n1 » de la
variable N ?
2. Quelles sont les fréquences marginales de la variable M ?
3. Quelle est, sous hypothèse d’indépendance, la valeur théorique attendue pour la cellule située en
1ère ligne et en 2ème colonne ?
ESUPP59
[Juin 1999] La corrélation bisérielle de point est la corrélation « classique » (de Bravais‐
Pearson) entre une variable métrique et une variable binaire prenant les valeurs 1 et 0.
A partir des valeurs de la variable SCORE figurant dans le fichier EXCEL DSUPP59, on souhaite créer
une variable binaire REUSSITE valant 1 si SCORE >= 12 et 0 sinon.
1. Quelle est la valeur de la corrélation bisérielle de point entre la variable binaire REUSSITE et la
variable métrique « TEST » figurant dans le même fichier ?
2. Peut‐on conclure que cette corrélation est significative ? Justifiez.
ESUPP60
On considère les données ci‐après qui représentent les valeurs de trois variables métriques
G, G1 et G2 mesurées sur un échantillon de 10 sujets, données qui figurent dans le fichier EXCEL
DSUPP60. On effectue la régression de la variable G sur les variables G1 et G2
G G1 G2
139 4,4 0,91
124 5 1,09
129 5,3 0,95
84 5 1,17
144 6,3 1,04
113 1,9 0,81
141 3,5 0,96
136 5,3 1,21
155 6,3 1,05
129 4,2 1,12
1. Quelle est la valeur de la corrélation multiple ?
2. On détermine ensuite, pour chacun des 10 sujets, la valeur prédite Ĝ par le modèle de régression
et on calcule la corrélation de Bravais‐Pearson entre G et les valeurs obtenues pour Ĝ . Quelle est la
valeur obtenue pour cette corrélation ?
3. Quelle est la propriété de la régression qu’illustrent les deux résultats précédents ?
ESUPP61
[Juin 1999] Le fichier EXCEL DSUPP61 comprend les variables métriques G1, G2, G3 et G4 et
la variable nominale N3. A partir des valeurs de la variable G1, on souhaite créer une variable binaire
REUSSITE valant 1 si G1 > 60 et 0 sinon. On teste ensuite, par un chi‐carré, l’indépendance entre cette
variable REUSSITE et la variable nominale N3 (codée 1, 2, 3).
1. Quelle est la valeur obtenue pour la statistique de Pearson ?
2. Quelle est votre conclusion ? Justifiez.
3. Quelle est, sous hypothèse d’indépendance, la valeur attendue dans la cellule correspondant aux
modalités « Réussite=1 – N3=2 » ?
ESUPP62
[Juin 2000] En utilisant le fichier EXCEL DSUPP62 qui contient les variables métriques G1, G2,
G3 et G4, on effectue la régression linéaire de la variable G1 sur les autres variables.
Quelle est la matrice des covariances entre les explicateurs ?
ESUPP63
[Août 2000] Le fichier EXCEL DSUPP63 comprend la variable métrique SCORE. On souhaite
créer automatiquement une nouvelle variable RESULT recodant SCORE en suivant la règle ci‐après :
Si SCORE < 4, RESULT est égal à SCORE +1
Si SCORE 4 et SCORE <7, RESULT est égal à SCORE + 2
Si SCORE 7, RESULT est égal à SCORE + 3
1. Quelle est la moyenne de la variable RESULT ?
2. Quelle est la valeur de la corrélation de Pearson entre les variables SCORE et RESULT ?
ESUPP64
[Juin 2000] On considère les données ci‐après qui représentent les valeurs de deux variables
métriques X1 et X2 mesurées sur un échantillon de 10 sujets, données qui figurent dans le fichier
EXCEL DSUPP64. On calcule la corrélation de Bravais‐Pearson entre les variables X1 et X2.
X1 X2
139 9
124 10
129 9
84 11
144 10
113 8
141 9
136 12
155 10
129 11
1. Quelle est la valeur de la corrélation ?
On crée ensuite deux nouvelles variables XX1 et XX2 qui sont respectivement les variables
standardisées (ou réduites) de X1 et X2. Pour rappel, Si Y est une variable métrique, les valeurs de
Y -μ Y
sa variable standardisée (ou réduite) s’obtiennent par la formule où Y et Y sont la
σY
moyenne et l’écart‐type de Y.
2. On calcule ensuite la corrélation entre XX1 et XX2. Quelle est la valeur de cette corrélation ?
3. Quelle propriété de la corrélation peut‐on induire des deux résultats précédents ?
ESUPP65
[Septembre 2000] La variable SCORE du fichier EXCEL DSUPP65 reprend les résultats en
statistique des étudiants de 1ère licence en psychologie lors de la première session de l’année 1998‐
1999. La variable SCORE du fichier EXCEL DSUPP651 reprend de manière similaire les résultats de la
1ère session pour l’année 1999‐2000.
1. Quelle est la moyenne des résultats en statistique pour l’année 1998‐1999 ?
2. Quelle est la moyenne des résultats en statistique pour l’année 1999‐2000 ?
3. Au niveau d’incertitude 5%, y a‐t‐il une différence statistiquement significative entre ces deux
moyennes ? Expliquez la procédure que vous employez et justifiez.
ESUPP66
De [Howell, 1998]
Le fichier EXCEL DSUPP66 contient les données d’Eysenck12. Le problème consiste en la
comparaison de quatre groupes de sujets.
12
Eysenck, M.W., Age differences in incidental learning, Developmental Psychology, 1974, 10, 936‐994.
L’un des groupes se composait de jeunes sujets à qui l’on présentait des mots dans une
condition qui suscitait un niveau peu élevé de traitement. Un deuxième groupe se composait de
jeunes sujets à qui l’on donnait une tâche nécessitant le niveau de traitement le plus élevé. Les deux
autres groupes comprenaient des sujets plus âgés à qui l’on donnait des tâches requérant un niveau
de traitement soit peu élevé, soit élevé.
Les données sont les suivantes :
Jeunes/Peu élevé 8 6 4 6 7 6 5 7 9 7
Jeunes/Elevé 21 19 17 15 22 16 22 22 18 21
Âgés/Peu élevé 9 8 6 8 10 4 6 5 7 7
Âgés/Elevé 10 19 14 5 10 11 14 15 11 11
1. Effectuez une analyse de variance à un critère de classification sur ces données. Quel est le
résultat obtenu ?
2. Effectuez ensuite une analyse de variance à un critère de classification en opposant les
traitements 1 et 3 combinés (n = 20) aux traitements 2 et 4 combinés. A quelle question
répondez‐vous ? Quelle est votre interprétation ?
ESUPP67
[Septembre 1998] On considère la variable SCORE contenue dans le fichier EXCEL DSUPP67.
Dans l’échantillon que constituent les données de ce fichier, la variable SCORE a‐t‐elle une
distribution symétrique, asymétrique gauche ou asymétrique droite ? Pourquoi ?
ESUPP68
De manière à s’assurer de l’efficacité d’un nouvel antidépresseur, dix patients dépressifs sont
constitués de manière aléatoire en deux groupes. Cinq patients sont placés dans un premier groupe
où l’antidépresseur leur est administré durant une période de six mois. Les cinq autres patients,
situés dans le deuxième groupe, reçoivent un placebo durant cette même période.
On assume l’hypothèse que le niveau de dépression des patients dans les deux groupes était
égal préalablement à l’expérience.
Après six mois, le niveau de dépression des patients est mesuré en aveugle par un
psychologue (qui ne connaît pas les conditions expérimentales auxquelles les sujets ont été soumis).
Cette mesure s’effectue sur une échelle où les plus hauts scores indiquent les niveaux de dépression
les plus importants.
Voici les données qui figurent dans le fichier EXCEL DSUPP68 :
Groupe 1 11 1 0 2 0
Groupe 2 11 11 5 8 4
Les résultats obtenus indiquent‐ils un effet significatif du nouvel antidépresseur testé ?
ESUPP69
En appliquant le test de Kolmogorov‐Smirnov pour deux échantillons indépendants aux
données de l’exercice ESUPP68, peut‐on en déduire que la distribution des données dans la
population dont le premier groupe est extrait est cohérente avec la distribution des données dans la
population dont le second groupe est extrait ?
ESUPP70
[Juin 2009] On veut expliquer la variable métrique SCORE par la variable nominale GROUPE
(codée 1, 2, 3, 4). Les données figurent dans le fichier EXCEL DSUPP70.
1. Quelle est la valeur de la corrélation multiple entre les deux variables ?
2. Quel est l’intervalle de confiance, au niveau d’incertitude 5 %, sur la moyenne de la variable
SCORE dans la modalité GROUPE = 3 ?
ESUPP71
[Septembre 2010] On considère la variable métrique TEST qui figure dans le fichier EXCEL
DSUPP71.
1. Quelle est la valeur du coefficient d’asymétrie de cette variable ? Quelle est en conséquence
l’allure de sa distribution ?
2. En partant de la variable TEST, on crée une nouvelle variable RECODAGE comme suit :
Si TEST < 7 RECODAGE = 10
Si 7 TEST < 10 RECODAGE = 15
Si 10 TEST < 13 RECODAGE = 20
Si TEST 13 RECODAGE = 25
Quelle est la médiane de la variable RECODAGE ?
ESUPP72
Dickie et al.13 étudient les changements observés chez des patients souffrant d’embolie
pulmonaire aiguë.
Le tableau ci‐après montre la pression artérielle pulmonaire (en mm de mercure) chez neuf
patients avant et 24 heures après application de la thérapie.
Patient 1 2 3 4 5 6 7 8 9
0 heures 33 17 30 25 36 25 31 20 18
24 heures 21 17 22 13 33 20 19 13 9
En utilisant le test de Wilcoxon, on souhaite déterminer si les données permettent d’inférer
que la thérapie utilisée diminue la pression artérielle pulmonaire.
Les données figurent dans le fichier EXCEL DSUPP72.
ESUPP73
[Juin 2001] On considère les données suivantes qui sont reprises dans le fichier EXCEL
DSUPP73 :
13
Dickie K.J., Kenneth J., de Groot J., Cooley R.N., Bond T.P., Guest M.M., Hemodynamic Effects of Bolus
Infusion of Urokinase in Pulmonary Thromboelism, Am. Rev. Respir. Dis., 109, pp. 48‐56, 1974.
Test1 Test2
Albert 31 38
Bernard 38 37
Charles 41 26
David 40 35
Emile 29 41
Fernand 28 42
1. Déterminez la valeur de la corrélation de Kendall entre les résultats aux deux tests.
2. Quelle conclusion pouvez‐vous tirer concernant la structure des données à partir de la valeur
obtenue pour cette statistique ?
ESUPP74
Dans le contexte de l’exercice ESUPP14, on souhaite tester par la méthode des contrastes s’il
existe une différence significative entre le groupe d’âge « 90 jours » et les deux autres groupes.
1. Quelle est la valeur de la statistique F obtenue dans ce test ?
2. Au niveau d’incertitude 5 %, peut‐on conclure au caractère significatif de cette différence ?
ESUPP75
Le fichier EXCEL DSUPP75 contient les résultats en statistique (cotés sur 20) des étudiants de
la 1ère licence en psychologie à la première session de l’examen de l’année académique 2000‐2001.
1. Déterminez la répartition des effectifs des différentes cotes observées.
2. En ne considérant que les étudiants ayant présenté l’examen (donc en excluant les cotes de
présence = 0), quel est le pourcentage des étudiants ayant obtenu moins de 12/20 ?
ESUPP76
Lors de l’embauche de pilotes, chaque candidat est soumis à un test psychologique qui le
classe comme introverti ou extraverti, et à un test d’aptitude au pilotage où il peut être déclaré apte
ou inapte.
Voici les données :
Introverti Extraverti
Apte 14 34
Inapte 31 41
Les résultats suggèrent‐ils une association linéaire entre aptitude au pilotage et type de
personnalité ?
ESUPP77
Le fichier EXCEL DSUPP77 comprend la variable dichotomique GROUPE (dont les modalités
sont codées par 1 et 2) et la variable métrique MESURE. On souhaite déterminer si les données des
deux groupes peuvent être considérées comme provenant d’une même population, c’est‐à‐dire
comme ayant une distribution identique.
1. Amédée GENIUS, statisticien médiocre, effectue dans ce but un test de Student entre les deux groupes.
Quelle la valeur de la probabilité de dépassement obtenue et quelle conclusion va‐t‐il en tirer ?
2. Vérifiez l’hypothèse en recourant au test de Kolmogorov‐Smirnov pour deux échantillons. Quelle
conclusion pouvez‐vous tirer ? Justifiez.
ESUPP78
[Juin 2002] Dans une analyse de variance double hiérarchique, un chercheur veut expliquer
les scores des sujets de son échantillon à un test (variable métrique SCORE) par les variables
nominales « école » (codée 1=Ecole A, 2=Ecole B) et « classe » (codée dans chaque école par 1, 2, 3).
Les données sont reprises dans le fichier EXCEL DSUPP78 :
Explicitez numériquement les différents termes de l’équation d’enrichissement du
modèle hiérarchique Sg =Sgˆ + Sĝ, -Sgˆ +Sε,
ESUPP79
Douze mesures de capacité en arithmétique ont été successivement effectuées sur des
élèves d’école primaire. Trois mesures ont été accomplies durant chacun des deux semestres de
l’année scolaire et ce, durant deux années consécutives.
En outre, ont été pris en considération le sexe des enfants (fille – garçon) et le niveau
capacitaire (subjectif) attribué aux élèves par leurs enseignants (niveau codé par « faible » –
« satisfaisant » – « bon » – « très bon »)
Les données figurent dans le fichier EXCEL DSUPP79 et le schéma expérimental se présente
comme suit :
ANNEE 1 ANNEE 2
Semestre 1 Semestre 2 Semestre 1 Semestre 2
Niveau Sexe Mes1 Mes2 Mes3 Mes4 Mes5 Mes6 Mes7 Mes8 Mes9 Mes10 Mes11 Mes12
bon fille 13 33 50 24 33 48 49 51 54 63 75 85
… … … … … … … … … … … … … …
En ayant effectué l’analyse de variance adéquate,
1. Les effets ANNEE et SEXE sont‐ils significatifs au niveau d’incertitude 5 % ? Justifiez.
2. Quelle est la valeur de la statistique F pour l’effet du semestre ?
3. Y a‐t‐il un effet significatif de la variable NIVEAU sur les résultats ? Justifiez.
4. Quel score le modèle prédira‐t‐il à une fille lors de la 3ème mesure du 1er semestre de la 2ème
année, indépendamment de son niveau subjectif de capacité ?
5. Chez les filles de niveau « très bon », y a‐t‐il une différence significative entre la dernière mesure
effectuée en fin de chacune des deux années ?
ESUPP80
Un pédagogue souhaite faire subir un test à des élèves réputés à haut potentiel (surdoués)
de deux écoles qui accueillent ce type d’enfants dans des classes spécialisées.
Voici les données qui figurent dans le fichier EXCEL DSUPP80 :
Ecole A Ecole B
Classe1 Classe2 Classe1 Classe2 Classe3
17 16 16 11 10
15 13 13 13 12
18 11 11 17 7
10 12 9 8 11
13 14 15 10 10
14 15 12 12 11
18 16 15 11 9
19 12 13
15 12
14 10
11
12
1. Effectuez l’analyse de variance adéquate permettant d’expliquer le score obtenu par les deux
variables nominales ECOLE et CLASSE. Quelle est la valeur du coefficient de détermination dans
l’échantillon ?
2. Y a‐t‐il un gain significatif apporté par la prise en considération de la variable CLASSE ? Justifiez.
3. En fonction des codages utilisés, comment s’écrirait l’équation du modèle complet en mode sur‐
paramétré ?
ESUPP81
[Juin 2004] On considère le schéma expérimental suivant :
Année 1 Année 2
Sujets Sexe Score1
Score2 Score3 Score1 Score2 Score3
S1 Fille 12
12 14 13 13 16
S2 Garçon 11 8 13 11 14 14
S3 Garçon 11
14 14 12 16 11
S4 Fille 14
15 12 15 16 12
S5 Fille 13
14 16 14 15 12
S6 Fille 15
13 15 15 16 17
S7 Garçon 12 9 13 11 14 18
S8 Fille 10
8 13 12 13 12
S9 Garçon 11
13 16 11 15 16
s10 Fille 12
15 15 13 15 14
Sachant que six scores relatifs à des épreuves similaires ont été successivement mesurés sur
les mêmes sujets d’un échantillon de garçons et de filles de l’enseignement secondaire, les trois
premiers lors de la première année et les trois autres aux périodes correspondantes de la deuxième
année, encodez les données dans un fichier permettant à SAS d’effectuer l’analyse statistique
(paramétrique) adéquate de ces données.
1. Au niveau d’incertitude 0.05, y a‐t‐il un effet significatif des variables ANNEE, SEXE et SCORE ?
Justifiez.
2. Quelle est la valeur de la statistique F relative à l’interaction entre la variable « sexe » et la
variable « score » ?
3. Existe‐t‐il chez les filles, une différence significative entre le premier score de l’année 1 et le
premier score de l’année 2 ? Quelle est la valeur de la probabilité de dépassement obtenue dans
ce cas ?
ESUPP82
Un chercheur soumet un groupe de sujets à cinq tests. Les deux premiers tests sont
administrés au mois de septembre, les trois derniers au mois de décembre.
Les résultats ont été consignés dans deux fichiers EXCEL, à savoir respectivement les fichiers
EXCEL DSUPP821 et DSUPP822 dont un extrait figure ci‐après :
NOM TEST1 TEST2 NOM TEST3 TEST4 TEST5
André 13,5 12,5 Daniel 14 11 19,5
Bernard 15,5 12 Georges 12 21
Charles 14,5 10 Ivan 13 12 19
Marc 13,5 Béatrice 15 12 20
Paul 14,5 13 André 15,5 20
Henri 14 12 Emilie 14 13 21
René 15 13,5 Jacques 15,5 13 19,5
Louis 15 13 Gabrielle 14 13 21
Emile 15,5 13,5 Marie 14,5 12,5 20,5
Josiane 15,5 13 Fanny 15 13 20,5
Ovide 15 Pascale 11,5 19
Anne 15,5 13 Fernand 16 12,5 21
Daniel 16 14 Chantal 14,5 12 19
Caroline 15,5 14 Laure 16 12 21,5
Sarah 15,5 13,5 Ophélie 15 12
… … … … … …
En examinant les données, le chercheur constate, d’une part, que certains résultats sont
manquants et, d’autre part, que l’encodage n’a pas été réalisé par ordre alphabétique mais bien
selon l’ordre chronologique de remise par les sujets des réponses aux tests.
1. Réalisez, via SAS, une fusion cohérente de ces deux fichiers sur base de l’identification des sujets
(variable NOM).
2. Déterminez la moyenne de chaque sujet sur l’ensemble des cinq tests. Lorsqu’un (ou plusieurs)
résultat(s) est(sont) manquant(s) pour un sujet, la moyenne doit s’établir sur les quatre (ou trois,
ou deux, …) scores obtenus (abstraction faite des scores manquants).
ESUPP83
[Août 2003] On considère ci‐après la distribution des fréquences des modalités d’une
variable « Appréciation » :
INSUFFISANT 10
FAIBLE 11
SATISFAISANT 12
BIEN 6
TRES BIEN 2
1. Quel est l’indice central le plus approprié pour décrire cette variable ?
2. Quelle est ici sa valeur ?
ESUPP84
[Août 2014] On souhaite expliquer le comportement de la variable métrique RESULTAT par
les variables métriques SCORE1 et SCORE2. Les données figurent dans le fichier EXCEL DSUPP84.
1. Donnez, au niveau d’incertitude 5 %, l’intervalle de confiance sur le coefficient de la variable
explicative SCORE2.
2. Quelle est, dans la population, l’estimation de la valeur du coefficient de détermination de cette
régression ?
ESUPP85
Les résultats de plusieurs études suggèrent une relation inverse entre la sécrétion de cortisol
et le comportement agressif.
Pour vérifier cette tendance, une étude de 199714 a comparé les niveaux de cortisol
plasmatiques de garçons agressifs et non agressifs souffrant d’ADHD (Attention‐Deficit Hyperactivity
Disorder).
Après trois jours d’un régime pauvre en monoamines et un jeûne d’une nuit, des échantillons
de niveau de cortisol plasmatique (en µg/100mL) ont été obtenus après l’insertion d’un cathéter
dans l’avant‐bras des enfants.
Le poids des enfants influençant les taux d’hormones présents dans le sang, celui‐ci a été
introduit dans l’analyse.
Les données obtenues se trouvent dans le fichier EXCEL DSUPP85.
Effectuez la régression de la variable TAUX sur la variable GROUPE, avec comme covariée, le
poids des enfants.
1. Y a‐t‐il une différence entre le taux de cortisol plasmatique des enfants agressifs et non agressifs
quand le taux est expliqué par la seule variable GROUPE ? Quelle est la moyenne du taux dans
chacun des deux groupes ?
2. Quand est‐il lorsqu’on fait intervenir le poids des enfants comme covariable ? Développez.
3. Dans le modèle de covariance, quel niveau de cortisol le modèle prédira‐t‐il à un garçon ADHD
agressif ? Même question dans le modèle d’analyse de variance simple ?
ESUPP86
Une étude française15 a cherché à déterminer l’impact de la prématurité et de
l’environnement familial sur les performances neurodéveloppementales d’enfants très prématurés
sans paralysie cérébrale.
Sur base de certaines caractéristiques, 96 enfants très prématurés (moins de 33 semaines de
gestation) ont été suivis jusqu'à l’âge de 5 ans. Plusieurs mesures de fonctionnement ont été prises,
dont le QI et le quotient de développement (évalué par la capacité à dessiner un « bonhomme »).
Les données de cette étude figurent dans le fichier EXCEL DSUPP86.
14
Schulz, K.P., Halperin, J.M., Newcorn, S.V., & Gabriel, S. (1997). Plasma cortisol and aggression in boys with
ADHD. Journal of the American Academy of Child and Adolescent Psychiatry, 36(5) : 605‐609.
15
Burguet, A., Monnet, E., Roth, P., Hirn, F., Vouaillat, C., Lecourt‐Ducret, M., Fromentin, C., Dornier, L., Helias,
J., Choulot, M.J., Allemand, H., Maillet, R., & Menget, A. (2000). Neurodevelopmental outcome of premature
infants born at less than 33 weeks of gestational age, with no cerebral palsy at the age of five years. Archives de
Pédiatrie, 7(4), 357‐368.
Effectuez la régression du quotient de développement sur la prématurité.
1. Quel pourcentage de variance la prématurité explique‐t‐elle du quotient de développement ?
2. Le modèle est‐il pertinent ?
3. Quel quotient de développement le modèle prédira‐t‐il à un enfant né après 26,4 semaines de
gestation ?
ESUPP87
[Juin 2016] Le fichier EXCEL DSUPP87 comprend les valeurs d’une variable métrique SCORE.
1. On souhaite tester la normalité de la variable métrique SCORE en utilisant le test de Shapiro‐Wilk.
Quelle est votre conclusion au niveau d’incertitude 5 % ? Justifiez en donnant la statistique et la
probabilité de dépassement obtenues.
2. On souhaite comparer cette conclusion avec celle résultant de l’application du test de normalité de
Kolmogorov‐Smirnov. Quelle concluez‐vous de cette comparaison. Explicitez.
ESUPP88
Une étude de 200316 a cherché à déterminer si les intérêts et les comportements de
demande d’aide des parents d’enfants autistes sont différents selon le mode d’apparition des
symptômes de leur enfant.
Un questionnaire électronique a été utilisé pour comparer des parents d’enfants avec un
début non régressif (N=35) et des parents d’enfants avec début régressif (N=10).
Ce questionnaire a permis de récolter des informations notamment sur le délai d’obtention
du diagnostic, les préoccupations au sujet du développement de l’enfant et le support perçu des
pédiatres.
Les données concernant le délai (en semaines) avant l’obtention du diagnostic se trouvent
dans le fichier EXCEL DSUPP88.
1. Vérifiez l’hypothèse d’homogénéité des variances entre les deux groupes.
2. Peut‐on conclure à une différence significative entre les moyennes des deux groupes ?
3. Que valent ces moyennes ?
ESUPP89
Une étudiante en psychologie à l’Université de Liège a effectué un stage en neuropsychologie
de l’enfant ayant pour but de comparer les performances d’enfants de 7 groupes d’âge à des tests
censés mesurer les capacités d’inhibition.
Le fichier EXCEL DSUPP89 reprend une partie de ses données concernant la version pour
enfants du test de Stroop. La variable dépendante est le pourcentage de réponses correctes pour
tous les items interférents du test.
On cherche à déterminer si le groupe d’âge a une influence sur ce pourcentage de réponses
correctes.
1. Les variances des différents groupes sont‐elles homogènes ?
2. Quel(s) test(s) pourrait‐on alors appliquer ?
16
Evans, S.P. (2003). Patterns of concern and help‐seeking behaviour among parents of children with autism.
Dissertation Abstracts‐International Section A :Humanities and Social Sciences, 63(12A) : 4272.
3. La correction effectuée amène‐t‐elle à la même conclusion que celui de l’ANOVA simple ? Quelle
est cette conclusion ?
ESUPP90
[Août 2014] On considère ci‐après la distribution des fréquences des pointures de souliers
d’homme observée chez un marchand. Elle figure dans le fichier EXCEL DSUPP90.
Pointures 38 18 paires Pointures 43 11 paires
39 45 paires 44 8 paires
40 64 paires 45 6 paires
41 23 paires 46 3 paires
42 16 paires
1. Parmi les indices centraux, quel est le plus approprié pour décrire cette distribution de pointures ?
2. Quelle est ici sa valeur ?
ESUPP91
[Juin 2004] On effectue la régression linéaire de la variable métrique Y sur les variables
métriques X1, X2, X3. Les données figurent dans le fichier EXCEL DSUPP91.
1. Quelle est, dans la population, l’estimation du coefficient de détermination de la régression ?
2. Donnez le tableau des covariances entre les variables explicatives X1, X2 et X3.
ESUPP92
[Août 2016] Dans le fichier EXCEL DSUPP92 figure la répartition groupée ci‐après des
résultats à un examen de statistique.
Cote 0 1 3 4 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Effectifs 24 2 2 1 2 1 3 5 2 6 15 3 14 19 24 3 15 8 7
1. Sachant qu’il faut exclure les cotes ayant la valeur zéro, quelle est la moyenne des résultats obtenus
par les étudiants ?
2. Dans le même contexte, quel est le pourcentage d’étudiants ayant une cote 12 et < 18 ?
ESUPP93
[Août 2008] On considère ci‐après la distribution des fréquences d’une variable P (Poids d’enfants à
la naissance) :
2.2 kg < P 2.6 kg 8
2.6 kg < P 3.0 kg 11
3.0 kg < P 3.4 kg 16
3.4 kg < P 3.8 kg 9
3.8 kg < P 4.2 kg 6
1. Parmi les indices centraux, quel est le plus approprié pour décrire cette variable ?
2. Quelle est ici sa valeur ?
ESUPP94
[Juin 2009] On souhaite effectuer une régression linéaire d’une variable métrique Y sur les
variables métriques X1, X2, X3, X4, X5, X6, X7 et X8. Les données sont contenues dans le fichier EXCEL
DSUPP94.
1. Quelle est la valeur du coefficient de détermination dans l’échantillon ?
2. En examinant la structure des données de votre échantillon, quelle est la raison qui a généré cette
valeur du coefficient de détermination, ainsi que l’absence du test du f et de sa probabilité de
dépassement ?
ESUPP95
[Août 2009] Un psychologue veut tester s’il existe une différence significative de
performance (mesurée par la variable métrique P) entre quatre groupes de sujets identifiés par la
variable GROUPE. Pour ce faire, il souhaite utiliser le test non paramétrique de Kruskal‐Wallis.
Les données figurent dans le fichier EXCEL DSUPP95.
1. Quelle est la valeur de la statistique obtenue ?
2. Quelle est votre conclusion ? Justifiez.
ESUPP96
On considère la variable métrique VALEUR contenue dans le fichier EXCEL DSUPP96.
1. On souhaite tester l’hypothèse de la nullité de la moyenne de cette variable dans la population.
Quelle est votre conclusion ? Justifiez.
2. Quel est l’intervalle interquartile de la variable VALEUR ?
ESUPP97
[Juin 2012] Le fichier EXCEL DSUPP97 comprend les valeurs de trois mesures T1, T2 et T3
effectuées au cours du temps sur les mêmes sujets. On souhaite effectuer sur ces données une
ANOVA en mesures répétées et éprouver le test de sphéricité.
1. Quel test utilisez‐vous ?
2. Quelle est la valeur de la statistique obtenue ? Quelle est votre conclusion ? Justifiez.
3. Quelle est en la circonstance la valeur du ε de Huynh‐Feld ?
ESUPP98
On considère le fichier EXCEL DSUPP98 comprenant une variable métrique SCORE et une
variable nominale GROUPE. On souhaite réaliser une analyse de variance simple sur ces données
expliquant la variable SCORE par la variable GROUPE.
1. Eprouvez l’hypothèse d’homogénéité des variances. Quelle est la valeur de la statistique obtenue
et sa probabilité de dépassement ? Quelle est votre conclusion ? Justifiez.
2. Compte tenu de ce résultat, quelle est la valeur du F corrigé de Welch. Quelle est votre
conclusion ?
3. Effectuez une comparaison post hoc entre les moyennes des trois groupes. Quel(s) est(sont) le(s)
groupe(s) dont la différence des moyennes est significative au niveau d’incertitude 5 % ?
ESUPP99
[Juin 2012] On considère dans le fichier EXCEL DSUPP99 la variable SCORE qui représente le
résultat à un test de performance mnésique pour quatre groupes indépendants de souris dont les
résultats sont repris au sein des modalités de la variable GROUPE (codées de 1 à 4). La modalité 1
correspond aux résultats d’un groupe contrôle alors que les résultats repris dans les modalités 2, 3 et
4 correspondent aux groupes expérimentaux ayant respectivement reçu une dose de 0, 5 et 10
mg/kg de thioperamide. On souhaite déterminer s’il y a une différence significative de résultat, au
niveau d’incertitude 5%, entre le groupe contrôle et l’ensemble des trois groupes expérimentaux.
1. A quelle méthode recourez‐vous dans ce type de situation pour répondre à la question ?
2. Quelle est, en appliquant ici cette méthode, la valeur de la statistique et de la probabilité de
dépassement obtenues ? Quelle est votre conclusion ? Justifiez.
ESUPP100
Le fichier EXCEL DSUPP100 reprend les données partielles d'une étude internationale menée
dans plusieurs pays. Trois pays sont ici envisagés (codés par A, B, C). Dans chacun des pays, un certain
nombre d'écoles ont été sélectionnées : 3 écoles dans le pays A (codées 1, 2, 3), 4 écoles dans le pays
B (codées 1, 2, 3, 4) et 2 écoles dans le pays C (codées 1 et 2).
Un test de performance en lecture a été administré aux élèves de chacune des différentes
écoles et un score au test a été obtenu pour chacun.
On demande d’effectuer l’analyse de variance adéquate permettant d’expliquer la variable
métrique SCORE par les variables nominales PAYS et ECOLE.
1. Le modèle explicatif complet est‐il pertinent ? Justifiez en donnant la statistique et la probabilité
de dépassement.
2. Quel score le modèle prédira‐t‐il à un élève de l'école n° 2 du pays B ? Au niveau d’incertitude 5%,
quel est l’intervalle de confiance sur le score prédit à cet élève ?
3. Dans l’équation du modèle riche (en mode sur‐paramétré), quel est le coefficient de la variable
indicatrice relative à l'école n° 1 du pays C ?
ESUPP101
On considère le schéma expérimental figurant ci‐après (données à encoder) :
Sachant que six résultats relatifs à une même épreuve de test ont été successivement mesurés sur les
mêmes sujets de deux groupes d’enfants (groupe expérimental – groupe contrôle), les trois premiers
résultats lors d’une première année et les trois autres aux périodes correspondantes d’une deuxième
année, encodez ces données dans un fichier permettant à SAS d’effectuer l’analyse statistique
paramétrique et adéquate de ces données.
1. Au niveau d’incertitude 5 %, les résultats entre les deux années peuvent‐ils être considérés comme
statistiquement significatifs ? Justifiez votre conclusion en donnant la statistique et la probabilité de
dépassement obtenues.
2. L’interaction entre la variable « résultat » et la variable « groupe » est‐elle significative au niveau
d’incertitude 5 % ? Justifiez en donnant la statistique et la probabilité de dépassement.
3. Le résultat obtenu au point précédent est‐il corroboré par l’examen du correctif de Greenhouse‐
Geisser ? Justifiez votre réponse.
4. Existe‐t‐il dans le groupe « contrôle », une différence significative entre le deuxième résultat de
l’année 1 et le deuxième résultat de l’année 2 ? Justifiez votre conclusion en donnant la statistique et
la probabilité de dépassement.
Année 1 Année 2
Sujets Groupe Result1 Result2 Result3 Result1 Result2 Result3
S1 Expér 12 12 14 13 13 16
S2 Contr 8 11 13 11 14 14
S3 Contr 11 14 14 12 16 11
S4 Expér 14 15 12 15 16 12
S5 Expér 13 14 16 14 15 12
S6 Expér 15 13 15 15 16 17
S7 Contr 9 12 13 11 14 18
S8 Expér 10 8 13 12 13 12
S9 Contr 11 13 16 11 15 16
S10 Expér 12 15 15 13 15 14
ESUPP102
(Données à encoder) On a constitué un échantillon équilibré de filles et de garçons au sein
duquel trois groupes ont été définis : élèves en avance de scolarité (« Avancé »), élèves en âge
normal (« Normal »), élèves en retard de scolarité (« Retardé »). Tous les élèves subissent un test
d’aptitude destiné à mesurer leur niveau de compétence.
Voici les résultats obtenus suite à la passation de l’épreuve :
1. Dans le test de la pertinence de ce modèle explicatif, quelle est la valeur de la statistique
obtenue ? Quelle est votre conclusion ? Justifiez.
2. Qu’est‐ce que le modèle va prédire comme score à une fille appartenant au groupe « Normal » ?
Quel est l’intervalle de confiance, au niveau d’incertitude 5 %, sur la valeur prédite ?
3. Chez les garçons, pouvez‐vous tolérer l’hypothèse de l’homogénéité des variances dans les trois
groupes définis ? Quel test utilisez‐vous ? Quelle est votre conclusion ? Justifiez en donnant la
statistique et la probabilité de dépassement.
ESUPP103
(Données à encoder) Un chercheur veut expliquer les scores des sujets de son échantillon à un test
(variable métrique SCORE) conjointement par la variable catégorielle GROUPE et par la covariable métrique
INITIAL. Voici les données :
GROUPE INITIAL SCORE GROUPE INITIAL SCORE
1 117.0 16.5 2 128.0 24.0
1 109.0 30.5 2 116.5 29.5
1 117.0 23.5 2 121.5 27.0
1 122.0 32.0 2 109.5 18.5
1 116.0 24.5 2 133.0 34.5
1 123.0 22.0 2 120.0 26.0
1 130.5 32.5 2 129.5 18.5
1 126.5 20.0 2 122.0 18.5
1 113.0 24.5 2 125.0 21.5
Il est demandé d’encoder ces données dans un fichier permettant à SAS d’effectuer les
traitements adéquats permettant de répondre aux questions ci‐après :
1. Le modèle explicatif global est‐il pertinent ? Justifiez en donnant la statistique et la probabilité de
dépassement.
2. Quel est, au niveau d’incertitude 5 %, l’intervalle de confiance sur la moyenne de la variable dépendante
SCORE pour les sujets appartenant au groupe n° 2 ?
3. Quelles sont, dans les modalités de la variable GROUPE, les moyennes de la variable SCORE ajustées par
la covariable INITIAL ?
4. Dans présent modèle, peut‐on tolérer l’hypothèse du parallélisme ? Justifiez votre conclusion en
donnant la statistique et la probabilité de dépassement obtenues.
ESUPP104
(Données à encoder) Un magazine publicitaire souhaite déterminer s’il existe chez le lecteur des
différences de mémorisation entre trois types de présentation publicitaire d’un produit.
La première publicité est humoristique, la deuxième relativement technique et la troisième est une publicité
comparative entre plusieurs marques concurrentes.
273 personnes d’un échantillon aléatoire ont été interrogées pour déterminer la publicité sur le produit
concerné dont elles se souvenaient.
Voici les données : Humoristique 73 Technique 93 Comparatif 107
Les données recueillies sont‐elles compatibles avec une distribution uniforme des mémorisations entre les
trois types de publicité ? Justifiez en donnant la statistique et la probabilité de dépassement.
SOLUTIONS DES EXERCICES SUPPLEMENTAIRES
ESUPP01
1. Dans le cadre de cette analyse de variance en mesures répétées, on obtient le tableau de résultats
suivant :
Il n’y a pas d’effet significatif de la méthode (p = 0.5168 > 0.05).
2. Il y a un effet très significatif entre l’avant et l’après sevrage (p = < 0.0001), indépendamment de
la méthode employée.
3. Globalement, sans tenir compte du moment où la mesure est effectuée, il n’y a pas de différence
significative entre les trois méthodes. Cependant, l’interaction entre la variable METHODE et la
variable MOMENT est significative (p = 0.0089). On peut donc en conclure que l’écart des
différences entre les moyennes « avant » et « après » diffère significativement entre les trois
méthodes.
4. Il y a une différence très significative entre les moyennes des scores à la maison et au travail (p <
0.0001).
5. L’interaction entre les variables METHODE et LIEU n’est pas significative (p = 0.3457). On peut dès
lors en conclure que les écarts entre les moyennes des scores à la maison et au travail ne se
différencient pas de manière significative au sein de chaque méthode.
ESUPP02
1. rs = 0.97143
2. tk = 0.88571 p < 0.0001
ESUPP03
1.
2. Y = 3.528923 + 0.068936 X1
s = 1.425153
s = 0.030724
3. Y = 3.512098 + 0.068543 X1 + 0.003406 X2
ESUPP04
1. 13.8924000
2. 45 %
ESUPP05
1. Le test de Kolmogorov‐Smirnov pour deux échantillons
2. On obtient une statistique D = 0.3667 et une probabilité de dépassement p = 0.0354 (< 0.05). Ceci
conduite à rejeter, au niveau d’incertitude 5 %, l’hypothèse que les deux échantillons proviennent
d’une distribution identique des données.
ESUPP06
La valeur importante de la statistique 2, soit 37.2293, et le caractère très significatif de la probabilité
de dépassement obtenue (p < 0.0001 donc < 0.05) conduisent à rejeter l’hypothèse d’indépendance
entre la race des adolescentes interrogées et leur attitude devant le problème pondéral.
ESUPP07
1. La valeur obtenue pour la statistique F (8.54) et la faible valeur de la probabilité de dépassement
(p = 0.0091 < 0,05) conduisent à rejeter l’hypothèse d’égalité des moyennes entre les deux
groupes.
2. On obtient pour cette interaction : F = 27.63 et p = < 0.0001.
Cette interaction très significative implique, compte tenu de l’effet significatif des variables
ANNEE et MESURE, que l’effet (significatif) des différentes mesures au sein des différentes années
ne se marque pas de manière similaire au sein de chaque année.
3. La valeur obtenue pour la statistique t (3.38) et la probabilité de dépassement p = 0.0082 (< 0.05)
conduisent à conclure à une différence significative entre les deux résultats au niveau
d’incertitude 5 %.
Les moyennes correspondantes sont : 42.0 et 28.4.
ESUPP08
1. On obtient :
Moyenne : 179.1964
Variance : 47.66036
Ecart‐type : 6.903648
C.V. : 3.852559
2. [176.5194 ; 181.8733]
3. 178.7
4. Asymétrie : 0.313756
Aplatissement :‐0.271276
La distribution est platycurtique et présente une asymétrie gauche.
5. Le test de Shapiro‐Wilk fournit la valeur W = 0.982888 avec p = 0.9130 (≥ 0.05), ce qui permet de
tolérer l’hypothèse de normalité.
ESUPP09
1. y1 = 0.6263902818 + 0.0009082213 x1 – 0.000957133 x2 + 0.0014897378 x3
2.
3. = 0.258342 ρ̂ = 0.2054
4. 0.878966
ESUPP10
La statistique obtenue vaut 23.8800 avec une probabilité de dépassement p < 0.0001 (et donc < 0.05),
ce qui amène à rejeter l’hypothèse d’absence de différences systématiques entre les quatre testings.
On peut en outre vérifier que la valeur obtenue est largement supérieure à la valeur critique donnée par
la table (7.68)
ESUPP11
On obtient t = 0.45 avec une probabilité de dépassement p = 0.6597 dont la valeur nettement
supérieure à 0.05 ne permet pas de rejeter l’hypothèse de l’égalité des moyennes et, dès lors, amène
à conclure à l’inefficacité de la campagne.
ESUPP12
1. [‐3.9691387 ; 3.2358053]
2. Il n’y a pas, au niveau d’incertitude 5 %, de différence significative entre les résultats au posttest
et ceux au prétest puisque l’intervalle de confiance sur la différence des résultats contient la
valeur 0 (zéro)
ESUPP13
1. La valeur obtenue du 2 = 18.2534 et la probabilité de dépassement p = 0.0011 (< 0.05) amènent
à rejeter l’hypothèse d’indépendance entre le niveau du bureau de poste et la qualité de
l’attitude envers le client.
2. V = 0.2352
ESUPP14
1. On obtient F = 5.15 et p = 0.0103 (< 0,05). On peut donc rejeter l’hypothèse d’égalité des
moyennes entre les trois groupes d’âge.
2. Sg = 5894 Sĝ = 1231.857143 Sε = 4662.142857
3. Il vient :
On peut donc conclure à une différence significative des moyennes entre le 1er groupe (90 jours)
et chacun des deux autres tout en tolérant l’égalité de ces moyennes entre le 2ème et le 3ème
groupe.
ESUPP15
1. Si on désigne par hi. et h.j (i = 1,2 et j = 1,2,3) respectivement les variables indicatrices de ligne et
de colonne, l’équation du modèle de régression s’écrit :
SCORE = 786 h1. h.1 + 518 h1. h.2 + 548 h1. h.3 + 871.6 h2. h.1 + 563 h2. h.2 + 592 h2. h.3
2. 2 = 0.832848
3. 548
ESUPP16
H = 27.6178 avec p < 0.0001 (< 0.05). On peut donc admettre une différence significative des
médianes entre les quatre groupes.
ESUPP17
1. Moyenne = 3.8533333 Variance = 2.4511712 Ecart‐type = 1.5656217
2. La médiane qui vaut 4
3.
ESUPP18
1.
2. On observe deux effets significatifs :
Un effet du moment du testing F = 21.06 p = 0,0002
Un effet d’interaction entre la faculté et ce moment F = 6.78 p = 0.0170
On peut donc en conclure qu’une différence significative entre les résultats observés est liée au
moment où le test a été effectué, mais que cette différence se marque différemment selon la
faculté.
3. t = ‐4.84 p = 0.0005
4. t = ‐3.40 p = 0.0193
5. 13.1666667
ESUPP19
En utilisant l’option EXACT du test de Wilcoxon pour échantillons indépendants, on obtient la
statistique T = 32.0000 et la probabilité de dépassement bilatérale p = 0.0064 (< 0.05). On conclut
donc au rejet de l’égalité des médianes entre les deux groupes.
ESUPP20
1. L’explication de la variable dépendante par les deux variables nominales croisées fournit : F = 3.50
avec une probabilité de dépassement p = 0,0099 (< 0,05) qui conduit au rejet de l’hypothèse 2 = 0.
On peut donc conclure à un effet significatif des deux variables nominales explicatives sur la
variable dépendante.
2. Dans l’échantillon, 2 = 0.505370.
3. F = 9.51 et p = 0.0051 (< 0,05) conduisent à conclure à une différence significative entre hommes
et femmes.
4. On obtient successivement :
Ssexe = 63.28125000 Sconditions = 87.59375000 Sinteraction = 12.34375000
C’est la variable CONDITIONS qui prend la plus grande part (soit 53.67 %).
6. Entre la condition 1 et les conditions 3 et 4.
L’application du test de Newman‐Keuls fournit le tableau suivant :
ESUPP21
1. F = 2.41 et p = 0.1045 (≥ 0.05). On doit tolérer l’hypothèse 2 = 0 dans la population et donc
admettre que les trois variables explicatives X1, X2 et X3 n’ont pas d’effet significatif sur la
variable dépendante Y.
2. On obtient :
La très faible valeur 0.0003… ( < 0.10) de la tolérance entre X1 et X2 indique que ces deux
variables explicatives sont très corrélées et qu’il y a dès lors phénomène de multi colinéarité.
Cette situation a pour effet d’augmenter la variabilité des valeurs obtenues pour les coefficients
de la régression, comme le montre le tableau ci‐après :
On peut y remédier de plusieurs manières. L’une d’entre elles consiste à abandonner une des
deux variables explicatives, par exemple X2.
En effectuant la régression de la variable Y sur les seules variables X1 et X3, on obtient :
F = 3.80 et p = 0.0433 (< 0.05) ce qui conduit à rejeter l’hypothèse 2 = 0 ! En outre, comme le
montre le tableau ci‐après, la variabilité des coefficients de l’équation de régression a nettement
diminué.
ESUPP22
1. La valeur médiane du nombre de mots lus est 1059.
2. Il vient :
3. On obtient r = 0.99261 avec une probabilité de dépassement p < 0.001 (et donc < 0.05). On peut
donc en déduire l’existence d’une forte relation linéaire entre les deux variables.
ESUPP23
1. On obtient pour résultats : F = 38.50 et p < 0.0001 (et donc < 0.05), ce qui permet de conclure à la
pertinence du modèle et de rejeter l’hypothèse 2 = 0 au niveau d’incertitude 5 %.
2. Les moyennes ajustées sont : Pour Gr1 : 176.906040 et pour GR2 : 233.813660
3. La probabilité de dépassement obtenue dans le test d’interaction des variables GROUPE et X5 est p =
0.4384 (≥ 0.05) ce qui permet de tolérer l’hypothèse du parallélisme.
ESUPP24
1. A : 20 B : 17 C : 14 D : 9
2. GROUPE est une variable nominale. Par suite, le calcul d’une médiane n’a pas de sens.
ESUPP25
1. En désignant les variables « Contrôle en fin de repas » et « Contrôle 1h30 plus tard » respectivement
par CFINREP et C1H30, on obtient le tableau suivant :
qui indique une corrélation significativement différente de zéro entre le poids et les deux taux
d’alcoolémie. Par contre, les probabilités de dépassement obtenues amènent à tolérer
l’hypothèse = 0 entre l’âge et ces mêmes taux.
2. Pour le contrôle en fin de repas, on obtient : t = 3.73 p = 0.0022 Significatif
Pour le contrôle 1h30 plus tard, on obtient : t = 2.73 p = 0.0181 Significatif
3. Dans le sous‐échantillon des hommes :
CFINREP = 0.7459102322 + 0.0041833224 AGE ‐ 0.0064163676 POIDS
Dans le sous‐échantillon des femmes :
CFINREP = 1.409430048 ‐ 0.001910898 AGE ‐ 0.010231524 POIDS
4. 0.339 g/litre
5. 0.26389
ESUPP26
1. Effet significatif : F = 13.81 et p < 0.0001 (< 0.05).
La comparaison des moyennes par le test de Tukey fournit les résultats suivants :
2. 0.04168958
3. Poison 1 = 0.6175000 Poison 2 = 0.5443750 Poison 3 = 0.2762500
ESUPP27
1. p = 0.2351 (≥0.05). On ne peut pas rejeter l’hypothèse d’indépendance entre les deux variables.
2. = ‐0.2500
3.
ESUPP28
1. Il vient pour l’effet de la lentille : F = 2.78 avec une probabilité de dépassement p = 0.0711 dont la
valeur (≥ 0.05) conduit à tolérer, au niveau d’incertitude 5%, l’hypothèse de la nullité de l’effet de
la puissance de la lentille sur le temps de réaction.
2. Pour l’œil gauche :
t = ‐4.38 p = 0.0047 Très significatif
Pour l’œil droit :
t = ‐1.65 p = 0.1497 Non significatif
ESUPP29
1. On obtient H = 23.1182 avec p < 0.0001 (< 0.05). On peut donc conclure à l’existence d’une
différence significative entre les trois groupes de sujets.
2. L’utilisation de l’option DSCF fournit une statistique DSCF = 5.8361 avec une probabilité de
dépassement p = 0.0001 (<0.05) ce qui permet de constater une différence significative entre les
deux groupes d’alcooliques (codés 2 et 3))
ESUPP30
1. Poids = ‐ 1.691061160 + 3.372451647 Age
2. F = 20.50 et p = 0.0002 permettent de rejeter l’hypothèse 2 = 0, soit l’hypothèse que la variable
« âge » n’expliquerait rien du critère « poids ».
3. 84.903055
4. 44.83 %
ESUPP31
1. Il vient
2. La comparaison par un t de Student apparié entre le 1er et le 3ème item chez les adultes bons
lecteurs montre une différence de moyenne de 1.2000 et fournit les valeurs :
t = 3.21 p = 0.0327 Effet significatif.
ESUPP32
1. On obtient r = 0.3136 avec p = 0.378, valeur qui ne permet pas de rejeter l’hypothèse d’une
corrélation nulle entre les deux variables.
2. 121.3255556
ESUPP33
1. En n’oubliant pas que la variable « école » est ici un facteur aléatoire (= échantillonné), il vient :
2. 2 = 0.551238
3. Moyenne = 26.6250000
ESUPP34
1. Une statistique 2 écrasante de 197.3749 avec une probabilité de dépassement p < 0.0001 (< 0.05)
conduit à rejeter très significativement l’hypothèse d’indépendance entre le type de carburant et le
type de voiture.
2. V = 0.2928
ESUPP35
1. rpb = ‐ 0.54038 avec p = 0.0139.
2. Par similitude avec les conclusions apportées au calcul d’une corrélation de Bravais‐Pearson, la
valeur obtenue pour la probabilité de dépassement, soit 0.0139 < 0.05, conduit à rejeter
l’hypothèse rpb = 0. Il semble donc y avoir une relation significative entre la performance au travail
le matin et la perception qu’ont les employés de leur moment de meilleur rendement dans la
journée.
Pour rappel, le signe de la corrélation n’est pas à considérer. En effet, il dépend uniquement du
choix arbitraire d’attribution des valeurs de codage à l’une et l’autre des modalités de la variable
dichotomique.
ESUPP36
1. 0.96427
2. On obtient une valeur t = ‐19.03 avec p < 0.0001 (<0.005) ce qui conduit au rejet de l’hypothèse
d’égalité au cours du temps entre les moyennes de demandeurs d’emplois chez les hommes et
chez les femmes.
ESUPP37
1. On obtient les valeurs F = 3.98 et p = 0.0305 (< 0.05) qui permet de rejeter, au niveau
d’incertitude 5%, l’hypothèse de l’absence d’un effet de la variable DROGUE sur la variable
dépendante POST.
2. Les moyennes de la variable DROGUE sont :
3. On obtient les valeurs F = 18.10 et p < 0.0001 (< 0.05). Le modèle explicatif est donc pertinent au
niveau d’incertitude 5%.
4. Les moyennes ajustées sont :
5. Dans le modèle de covariance avec effet d’interaction entre les explicateurs, l’interaction
PRE*DROGUE fournit la valeur de la statistique F = 0.59 et la probabilité p = 0.5606 supérieure à
0.05 qui permet de tolérer l’hypothèse de parallélisme.
ESUPP38
1. On obtient rs = ‐0.33566. Cette valeur n’est pas inférieure à la valeur critique de la table pour n =
12 (soit ‐0.5804) et donc, on ne peut pas rejeter l’hypothèse de la nullité de la corrélation. Notons
que la probabilité de dépassement relative au test de Bravais‐Pearson (p = 0.2861) conduit
également à la même conclusion.
2. La valeur obtenue pour tk = ‐0.24242 > ‐0.455 (valeur critique de la table pour n = 12) conduit à la
même conclusion qu’au point 1.
ESUPP39
1. On obtient une valeur de la statistique F = 2.58 avec une probabilité de dépassement p = 0.1135
(> 0.05) qui conduit à tolérer l’hypothèse d’égalité des moyennes des résultats entre les deux
groupes.
2. 2 = 0.042624.
3. Le modèle d’analyse de covariance fournit comme effet pour la variable GROUPE une statistique F
= 4.43 avec une probabilité de dépassement p = 0.0398 (< 0.05) qui a fait apparaître un effet
significatif de la variable GROUPE du fait de la présence de la covariée.
4. 0.396788 – 0.042624 = 0.354164
ESUPP40
1. TAUX = 0.5965501599 ‐ 0.0140176047 TEMPS + 0.0030303020 PERFORM
2. On obtient F = 23.27 avec une probabilité de dépassement p < 0.0001 (<0.05) qui amène à rejeter
l’hypothèse 2 = 0.
3. 63.2818 %
4. 0.6056
5. En examinant les sommes de carrés de type III :
Ce tableau montre que la performance a un effet significatif sur la variable dépendante (p <
0.0001) alors que l’effet de la variable TEMPS est non significatif (p = 0.1413).
6. On obtient :
ESUPP41
1. On obtient les valeurs suivantes : F = 2.77 et p = 0.0360 (< 0.05) qui conduisent à rejeter
l’hypothèse d’égalité des moyennes entre les cinq types d’électrodes.
Cependant, si on éprouve l’hypothèse de la sphéricité, celle‐ci n’est pas respectée (on obtient W =
0.100249 pour une valeur de χ² = 28.559551 et une probabilité de dépassement p = 0.0008). Dès lors,
en tenant compte de l’approximation de Greehouse‐Geisser (p=0.0762) ou de Huynh‐Feldt
(p=0.0651), on doit tolérer l’hypothèse d’égalité des moyennes.
2. Un test de Student apparié montre une différence significative, au niveau d’incertitude 5 %, entre les
Type2 et Type 4 puisqu’elle fournit pour résultats : t = 2.19 et p = 0.0456 (<0.05)
3. Type 1 = 189.0000000 ; Type 2 = 297.1333333 ; Type 3 = 259.2000000 ; Type 4 = 158.2000000 ; Type 5
= 143.4666667
ESUPP42
1. Le test de Fisher fournit un F = 3.21 avec p = 0.0306 qui conduit à rejeter l’hypothèse d’égalité des
variances
2. On obtient une valeur approchée du t égale à 2.23 avec une probabilité de dépassement p =
0.0353 qui conduit à rejeter l’hypothèse d’égalité des moyennes entre les deux groupes.
3. Le test de Wilcoxon pour deux échantillons indépendants fournit la statistique S = 315.0000 avec
une probabilité de dépassement bilatérale « exacte » de p = 0.0549 qui, strictement, ne permet
pas (de peu il est vrai) de rejeter l’hypothèse d’égalité des médianes entre les deux groupes.
Notons que la conclusion apportée par l’approximation normale (Z) et celle de l’approximation de
Student (t) conduisent à la même interprétation.
ESUPP43
1. Le test exact de Fisher puisqu’il s’agit d’un tableau 2 × 2 avec 1 degré de liberté.
2. On rejette l’hypothèse d’indépendance entre les candidats et le sexe des électeurs puisque la
probabilité de dépassement bilatérale du test exact de Fisher est p = 0.0002 < 0.05.
ESUPP44
1. On obtient le tableau suivant :
Il n’y a aucun effet significatif au niveau d’incertitude 5 %.
2. Dans l’échantillon, 2 = 0.235679.
3. 126.850000
ESUPP45
Le test de Kruskal‐Wallis fournit les valeurs suivantes : H = 6.2341 et p = 0.0443. Ceci amène, au
niveau d’incertitude 5%, à rejeter l’hypothèse de l’égalité des médianes entre les trois groupes.
ESUPP46
1. Le test du chi‐carré d’indépendance. On obtient les valeurs 2 = 29.7033 avec une probabilité de
dépassement p < 0.0001 (< 0.05) qui permettent de rejeter l’hypothèse d’indépendance entre les deux
variables catégorielles.
2. On obtient les pourcentage suivants : 36.73 % 23.13 % 40.14 %
ESUPP47
1. On obtient :
2. La valeur du F (= 15.27) et celle de la probabilité de dépassement p < 0.0001 (< 0.05) conduisent à
rejeter l’hypothèse d’égalité des moyennes entre les différents groupes.
3. En appliquant le test « Post Hoc » de Tukey, on peut déterminer les groupes qui diffèrent
significativement :
A ‐ C
B ‐ C
B ‐ D
C ‐ E
D ‐ E
4. Par la méthode des contrastes, on obtient les valeurs F = 0.46 et p=0.5015 (≥ 0.05) qui conduisent
à tolérer l’égalité des moyennes entre les groupements AB et DE.
ESUPP48
1. Au niveau de la pertinence du modèle explicatif, on obtient une valeur F = 9.33 et une probabilité
de dépassement p < 0.0001 (< 0.05) qui amènent à rejeter l’hypothèse 2 = 0 et dès lors, à conclure
à une influence significative des variables explicatives sur la variable dépendante « taux ».
2. EX0, EX1, LF, M, N, NW, U1 et W.
3. Les variables EX0 (tolérance =0.01057) et EX1 (tolérance = 0.01016). La corrélation entre ces deux
variables est 0.99359.
ESUPP49
Indice d’asymétrie : ‐0.7571689 → la courbe est asymétrique droite
Indice d’aplatissement : 1.2555231 → la courbe est leptocur que
ESUPP50
On obtient :
ESUPP51
1. La décomposition Sg = Sgˆ + Sε donne 52089.97917 = 2937.35417 + 49152.62500
2. 336.250000
3. 0.056390
4. 0.056390 ‐ 0.004579 = 0.051811
ESUPP52
1. L’analyse de variance en mesures répétés
2. F = 0.40 avec une probabilité de dépassement obtenue p = 0.6703 (≥ 0.05). On doit donc tolérer
l'hypothèse de l’égalité des trois moyennes de résultats obtenus.
3. On doit rejeter l’hypothèse de sphéricité au niveau d’incertitude 5 %. En effet, la statistique du
test de Mauchly fournit une valeur 2 = 7.1767785 avec une probabilité de dépassement p =
0.0276 (< 0.05)
ESUPP53
1. Tous les effets dont la probabilité de dépassement est < 0.05, à savoir les effets « classe »,
l’interaction « sexe × classe », « année », l’interaction triple « année × sexe × classe », « mesure »,
l’interaction triple « mesure × sexe × classe » et l’interaction quadruple entre toutes les variables
en présence « année × mesure × sexe ×classe ».
Néanmoins, si on éprouve l’hypothèse de la sphéricité, l’interaction quadruple n’est plus
significative (W=0.85 p=0.0395) et fournit, via les correctifs , une probabilité de dépassement
non significative tant pour Greehouse‐Geisser (p=0.0557) que pour Huynh‐Feldt (p=0.0531).
2. F = 2.21
3. p = 0.2281
4. La valeur du t obtenue (t = ‐1.53) et la valeur de la probabilité de dépassement p = 0.1705 (≥
0.05) conduit à tolérer l’hypothèse de l’égalité des moyennes entre les deux mesures dans le
sous‐échantillon concerné.
ESUPP54
1. Utilisée comme seul prédicteur dans l’analyse de variance simple, la variable GROUPE fournit
comme valeurs F = 4.47 et p = 0.0389, apparaissant ainsi comme ayant un effet significatif sur la
variable dépendante. En présence de la covariée PRETEST, l’effet de la variable GROUPE se
caractérise par les valeurs F = 3.93 et p = 0.0524 et donc apparaît comme devenu non significatif
au niveau d’incertitude 5 %.
2. Valeur observée : 0.42200000 – valeur prédite : 0.37513085 – résidu : 0.04686915.
3. Dans le groupe « contrôle » : 0.37770203 – dans le groupe « expérimental » : 0.33591412.
4. Dans le test du parallélisme, les valeurs obtenues du F = 1.67 et de la probabilité de dépassement
correspondante p = 0.2015 (≥ 0.05) conduisent à tolérer l’hypothèse d’égalité des pentes des
droites de régression dans les deux modalités de la variable nominale explicative.
ESUPP55
1. Une analyse de variance simple.
2. p = 0.0113 (< 0.05). On conclut au rejet de l’égalité des moyennes entre les trois groupes de rats.
3. L’Analyse de variance de Kruskal‐Wallis. On obtient les valeurs H = 7.9427 et p = 0.0188 (< 0.05)
qui conduisent à rejeter l’hypothèse testée de l’égalité des médianes des trois groupes.
ESUPP56
1. Moyenne = 7.4009901 variance = 7.5846756
2. La médiane. Sa valeur est 8.
3. Mode = 8.
ESUPP57
1. 2 = 1.0693
2. p = 0.3487
3. La probabilité de dépassement étant largement supérieure au seuil fixé (0.05), rien ne permet de
rejeter l’hypothèse d’indépendance entre les deux variables.
ESUPP58
1. [35.16 25.00 39.84]
2. [76 49 76]
3. 31.204
ESUPP59
1. 0.11790
2. Non car sa probabilité de dépassement p = 0.4248 (supérieure à 0.05) ne permet pas de conclure
au rejet de l’hypothèse = 0.
ESUPP60
1. Corrélation multiple = 0.55632
2. Corrélation (G, Ĝ ) = 0.55632
3. La conclusion va de soi compte tenu du point 2 ci‐avant : La corrélation multiple (outre d’être la
racine carrée du coefficient de détermination dans l’échantillon) est aussi, dans une régression
linéaire, la corrélation de Pearson entre les valeurs de la variable dépendante et les valeurs
prédites par les variables explicatives.
ESUPP61
1. 1.6000
2. La probabilité de dépassement p = 0.4493 étant supérieure au niveau d’incertitude de l’épreuve
(0.05), on doit tolérer l’hypothèse d’indépendance des deux variables.
3. 5
ESUPP62
=
ESUPP63
1. 6.8666667
2. 0.99446
ESUPP64
1. ‐0.09697
2. ‐0.09697
3. Ceci illustre le fait que la corrélation entre deux variables ne change pas lorsque les variables sont
standardisées (moyenne = 0 et écart‐type = 1)
ESUPP65
1. m = 11.7250000
2. m = 11.5789474
3. Lors de la lecture de chaque fichier externe, il suffit, lors de l’INPUT de la table SAS, de créer une
variable ANNEE en lui attribuant respectivement la valeur alphanumérique ‘1998‐1999’ dans le
premier cas et la valeur ‘1999‐2000’ dans le second.
Il suffit alors de fusionner les deux tables SAS via l’instruction SET puis d’effectuer sur la table
fusionnée un test de Student sur base de la variable catégorielle ANNEE et de la variable métrique
SCORE.
On obtient les valeurs suivantes : t = 0.23 avec p = 0.8189 qui amènent à tolérer l’égalité des
moyennes du score entre les deux années.
ESUPP66
1. On obtient comme valeurs F = 53.30 et p < 0.0001 (< 0.05) qui amènent à rejeter l’hypothèse
d’égalité des moyennes des résultats entre les quatre groupes.
2. La comparaison porte cette fois sur la différence de résultats entre les niveaux « élevé » et « peu
élevé » sans tenir compte de l’âge des sujets. Les valeurs obtenues conduisent au rejet de
l’hypothèse sous épreuve.
ESUPP67
Le coefficient d’asymétrie a pour valeur –0.6413611 ce qui indique une asymétrie droite.
ESUPP68
En recourant au test de Wilcoxon pour échantillons indépendants, on obtient pour résultat S = 19 et
une probabilité de dépassement exacte pour petits échantillons égale à p = 0.0873 qui, au niveau
d’incertitude 5 %, amène à tolérer l’hypothèse d’égalité des résultats entre les deux groupes.
ESUPP69
On obtient d = 0.8000 avec une probabilité p = 0.0815 (≥ 0.05) qui conduit à tolérer l’hypothèse sous
épreuve que les données proviennent de deux distributions identiques.
ESUPP70
1. La corrélation multiple vaut 0.161835 = 0.402287
2. [18.2793621 ; 22.1206379]
ESUPP71
1. L’indice d’asymétrie vaut 0.2443360. la distribution de la variable TEST est asymétrique gauche.
2. La médiane de la variable RECODAGE est 10.
ESUPP72
On obtient une statistique S = 18 et une probabilité p = 0.0078 (< 0.05) qui amène à conclure à l’effet
significatif de la thérapie sur l’abaissement de la pression artérielle pulmonaire.
ESUPP73
1. La valeur obtenue pour la corrélation de Kendall est tk = ‐1
2. Toutes les paires dont discordantes.
ESUPP74
1. F = 10.07
2. La valeur de la probabilité de dépassement p = 0.0029 inférieure à 0.05 amène à rejeter
l’hypothèse d’égalité des résultats entre le groupe « 90 jours » et les deux autres groupes.
ESUPP75
1.
Cote 0 2 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Nombre 23 3 2 1 2 10 5 3 6 19 10 7 17 10 14 16 5 2
2. 24.24 %
ESUPP76
Comme le tableau de contingence est de dimension 2 2, il est préférable de se baser sur le test
exact de Fischer (en bilatéral)
La valeur de la probabilité obtenue, soit 0.1776 amène tolérer l’hypothèse d’indépendance entre
l’aptitude au pilotage et le type de personnalité.
ESUPP77
1. Pour le test de Student (approximation de Satherthwaite), on obtient p = 0.3253 (≥ 0.05) qui
conduit à tolérer l’égalité des moyennes de la variable MESURE entre les deux groupes.
Amédée GENIUS pourrait en conclure que les deux distributions sont identiques.
2. L’application du test de Kolmogorov‐Smirnov fournit une probabilité de dépassement p = 0.0014
inférieure à 0.05 qui conduit à rejeter l’hypothèse d’égalité des deux distributions.
ESUPP78
722.9833333 = 30.8166667 + (36.0833333 – 30.8166667) + 686.9000000
ESUPP79
1. On obtient :
ANNEE : F = 90.71 p < 0.0001 (<0.05) effet significatif
SEXE : F = 0.45 p = 0.5059 effet non significatif
2. F = 106.50
3. Pour la variable NIVEAU, on obtient les valeurs suivantes : F = 2.01 avec p = 0.1234 (≥ 0.05) ce qui
conduite à tolérer l’absence de différence des résultats entre les différents niveaux.
4. 45.5333333
5. On obtient comme valeur t = ‐8.43 avec une probabilité de dépassement p = 0.0138 ce qui révèle
l’existence une différence significative, au niveau d’incertitude 5 %, entre ces deux mesures.
ESUPP80
1. Dans cette analyse de variance double hiérarchique, le coefficient de détermination dans
l’échantillon est 2 = 0.414732
2. Non. La probabilité de dépassement p = 0.0665 amène à tolérer l’hypothèse d’absence d’effet
significatif de la variable CLASSE.
3. Score = 15.3000000 hA1 + 13.8571429 hA2 + 12.8750000 hB1 + 11.6666667 hB2 + 10.0000000 hB3.
ESUPP81
1. On obtient les résultats suivants :
ANNEE : F = 9.36 p = 0.0156 (< 0.05) effet significatif
SEXE : F = 1.26 p = 0.2935 (> 0.05) effet non significatif
SCORE F = 9.45 p = 0.0020 (< 0.05) effet significatif
2. F = 4.08
3. On obtient les valeurs t = ‐3.87 et p = 0.0117 < 0.05 : on peut donc, chez les filles, rejeter
l’hypothèse d’une égalité du premier score entre les deux années.
ESUPP82
1. En réalisant une fusion parallèle des deux fichiers sur base de la variable NOM, on obtient le
fichier résultant suivant (extrait) :
etc …
2. Pour obtenir pour chaque sujet une moyenne adaptée au nombre de scores obtenus, il suffit de
créer une nouvelle variable MOYENNE via l’instruction suivante :
Moyenne = MEAN (OF test1-test5)
On obtient alors les moyennes souhaitées (ci‐après un extrait du résultat) :
etc …
ESUPP83
1. La médiane
2. FAIBLE
ESUPP84
1. [‐3.17069218 ; 2.22224377]
2. ‐0.0327
ESUPP85
1. On obtient F = 0.45 avec une probabilité de dépassement p = 0.5046 supérieure à 0.05 qui ne
permet pas de rejeter l’hypothèse d’égalité entre les moyennes du taux dans les deux groupes.
Les moyennes sont : Enfants agressifs : 12.6086957 – Enfants non agressifs : 11.8333333
2. Dans le modèle de covariance, on obtient les valeurs F = 0.40 et p = 0.6753 (≥ 0.05) qui conduisent
à tolérer l’hypothèse d’absence d’effet conjoint des deux explicateurs sur la variable dépendante
TAUX. De plus, chacun des explicateurs présente un effet non significatif sur la variable
dépendante comme le montre le tableau ci‐après.
3. Dans le modèle d’analyse de covariance, il prédira la valeur de la moyenne ajustée 12.5342200 et
dans le modèle d’analyse de variance la valeur 12.6086957.
ESUPP86
1. La prématurité explique 4.0493 % de la variation du quotient de développement.
2. Le modèle peut être considéré comme pertinent car les valeurs obtenues sont F = 3.97 avec une
probabilité de dépassement de 0.0493 inférieure au niveau d’incertitude 0.05.
3. 93.31739.
ESUPP87
1. Pour le test de Shapiro‐Wilk, on obtient la statistique W = 0.951841 avec la probabilité de
dépassement p = 0.0190 (< 0.05) qui amène à rejeter l’hypothèse de normalité de la variable
SCORE au niveau d’incertitude 5 %.
2. Le test de Kolmogorov‐Smirnov fournit, quant à lui, la statistique D = 0.107176 avec p = 0.0856 (≥
0.05) qui conduit à la conclusion inverse, à savoir tolérer la normalité des données de cette
variable SCORE.
En l’occurrence, la conclusion serait ici de plutôt se référer au résultat du test de Shapiro‐Wilk
mieux adapté aux échantillons de petite taille.
ESUPP88
1. La probabilité de dépassement relative au test sur l’homogénéité des variances dans les deux
groupes (p = 0.8330 ≥ 0.05) permet de tolérer l’hypothèse d’homogénéité des variances.
2. Non car t = 0.97 ; p = 0.3386 (≥ 0.05)
3. m régressif = 4.9000 ; m non régressif = 5.5429
ESUPP89
1. Non, F = 4.58 ; p = 0.0004 < 0.05.
2. Il faut utiliser l’approximation de Welch ou encore le test non paramétrique de Kruskal‐Wallis.
3. Oui. L’ANOVA simple (en principe non applicable ici vu le défaut d’homogénéité des variances)
donnait une valeur du F de 11.74 et une probabilité de dépassement p < 0.0001 (< 0.05), qui
amènerait à conclure à un effet très significatif de l’âge sur l’inhibition verbale.
L’approximation de Welch fournit F = 13.27 et arrive également à une probabilité de
dépassement extrêmement petite (<0.0001) et le test de Kruskal‐Wallis donne un H de 45.1355 et
aussi un p < 0.001.
ESUPP90
1. La médiane.
2. 40.
ESUPP91
1. 0.5870
2.
ESUPP92
1. La moyenne vaut 14.2651515
2. 59.09 %
ESUPP93
1. La moyenne.
2. Il s’agit de calculer la moyenne d’une distribution groupée en intervalles. Dans ce cas, c’est le
centre de chaque intervalle qui est pris en considération.
On obtient comme moyenne : 3.152 kg.
ESUPP94
1. 2 = 1.
2. La régression linéaire impose que le nombre d’observations soit supérieur au nombre de variables
explicatives, ce qui n’est pas le cas ici. Le modèle ne dispose plus dès lors de degrés de liberté
pour effectuer le test du F et, de facto, le coefficient de détermination est égale à 1.
ESUPP95
1. On obtient H = 11.4816
2. La probabilité de dépassement p = 0.0094 < 0.05 amène à rejeter, au niveau d’incertitude 5 %,
l’hypothèse d’égalité des médianes des résultats entre les quatre modalités de la variable
GROUPE.
ESUPP96
1. La moyenne vaut 0.3256667. Le test T fournit les valeurs suivantes : t = 0.85 et p = 0.3999 (≥ 0.05)
qui amène à tolérer la nullité de la moyenne dans la population.
Notons que la même conclusion peut s’obtenir par l’examen de l’intervalle de confiance sur la
moyenne au niveau d’incertitude 5 %, à savoir [‐0.4427783 ; 1.0941116] qui contient la valeur 0.
2. L’intervalle interquartile de la variable VALEUR est 5.365.
ESUPP97
1. Le test de Mauchly.
2. La statistique a ici pour valeur W= 0.9588486. La valeur du chi‐carré = 2.4372809 (2 dl) et sa
probabilité p = 0.2956 > 0.05 amènent à tolérer, au niveau d’incertitude 5 %, l’hypothèse de
sphéricité.
3. 0.9921.
ESUPP98
1. Le test de Levene fournit les valeurs suivantes : F = 4.49 avec p = 0.0296. Ceci amène à rejeter
l’hypothèse d’homogénéité des variances au niveau d’incertitude 5%.
2. Pour l’approximation de Welch : F = 4.11 avec une valeur de p = 0.0641 (≥ 0.05)
On doit donc tolérer l’hypothèse d’égalité des moyennes entre les trois groupes.
Ceci est en contradiction avec les résultats de l’analyse de variance initiale qui donnait pour
résultats F = 5.31 et p = 0.0181 (<0.05), résultats qui auraient conduit à rejeter l’hypothèse
d’égalité des moyennes entre les groupes.
3. Le test de Tukey fournit le résultat suivant :
qui indique une différence significative, au niveau d’incertitude 5 %, entre le groupe A et le
groupe B.
ESUPP99
1. La méthode des contrastes.
2. On obtient F = 0,105257 et p = 0,746819 ce qui conduite à tolérer, au niveau d’incertitude 5%,
l’hypothèse d’égalité des moyennes entre le groupe contrôle et l’ensemble des trois groupes
expérimentaux.
ESUPP100
1. Dans ce modèle d’analyse de variance double hiérarchique, on obtient pour le modèle complet les
valeurs F = 2.37et p = 0.0300 (<00.05) qui permettent de rejeter l’hypothèse de l’absence d’effet
des deux variables nominales sur la variable SCORE. Le modèle est donc pertinent.
2. Un score égal à la moyenne des scores de l’école 2 du pays B, à savoir 21.2. L’intervalle de
confiance sur cette moyenne est [18.9788439 ; 23.4211561]
3. 16.6
ESUPP101
1. Au niveau d’incertitude 5%, on peut rejeter l’hypothèse d’égalité des résultats entre les deux
années vu la statistique F = 9.36 avec une probabilité de dépassement p = 0.0156 < 0.05.
2. Cette interaction peut apparaître significative vu l’obtention de la statistique F = 4.08 avec une
probabilité p = 0.0369 <0.05.
3. Non. La vérification (implicite) du test de sphéricité amène une application du correctif de
Greenhouse‐Geisser donnant une probabilité de dépassement p = 0.0647 ≥ 0.05 et donc une
interaction estimée non significative.
4. Oui. On peut conclure à une différence significative des deux résultats vu la statistique t = ‐9.00 et une
probabilité de dépassement p = 0.0029 < 0.05.
ESUPP102
1. La statistique obtenue est F = 7.54 avec une probabilité de dépassement p <.0001 (et donc < 0.05). Le
modèle explicatif est donc statistiquement pertinent au niveau d’incertitude 5%.
2. Pour une fille du groupe « Normal », le modèle va prédire la valeur 16.3571 (en se limitant à 4
décimales) et l’intervalle de confiance est [15.3684 : 17.3458]
3. Le test de Levene fournit les résultats suivants : F = 3.77 et p = 0.0430 < 0.05. Au niveau d’incertitude 5 %,
on doit donc rejeter l’hypothèse de l’homogénéité des variances chez les garçons.
ESUPP103
1. Le modèle explicatif n’est pas pertinent car on doit tolérer, au niveau d’incertitude 5 %, l’hypothèse que
les deux explicateurs n’expliquent pas significativement le comportement de la variable dépendante
SCORE. En effet, On obtient les valeurs F = 0.38 avec une probabilité de dépassement p = 0.6926 ≥ 0.05.
2. En se limitant à 4 décimales, cet intervalle de confiance est [19.9248 ; 28.5197]
3. Les moyennes ajustées sont 25.3898 et 23.9435.
4. Le test sur l’interaction de la variable catégorielle GROUPE et de la covariable INITIAL fournit les valeurs
F = 0.16 et p = 0.6943 ≥ 0.05. Le caractère non significatif de cette interaction permet de tolérer
l’hypothèse du parallélisme.
ESUPP104
On obtient pour résultats : 2 = 6.4182 avec 2 degrés de liberté et une probabilité de dépassement p =
0.0404 (< 0.05) qui conduit à rejeter l’hypothèse d’une distribution uniforme de la mémorisation entre les
trois types de publicité.