Vous êtes sur la page 1sur 78

Université de Liège

Faculté de Psychologie, Logopédie


Presses Universitaires de Liège et Sciences de l’Éducation

Problèmes statistiques
et utilisation de logiciels
Utilisation du logiciel SAS

Tome 3

F.P. PÉRÉE

BLOC 3 du grade de Bachelier


en Sciences psychologiques et de l’Éducation
(Orientation générale et Logopédie)
BLOC 1 du grade de Master en Logopédie

© Presses Universitaires de Liège


Tous droits de reproduction – par quelque
procédé que ce soit – réservés. Année académique 2019-2020
 

UNIVERSITE DE LIEGE
Faculté de Psychologie, de Logopédie
et des Sciences de l'Education
 

Problèmes statistiques
et
Utilisation de logiciels
 

Utilisation du logiciel SAS


TOME 3

F.P. Pérée
 

 
 
 
 
 
 

 
 
 
 
 
 
 
 
 

Pour devenir habile en quelque profession


que ce soit, il faut le concours de la nature,
de l’étude et de l’exercice.

Aristote
 
 
 
 
 
A Christian Heuchenne,
Mathématicien,
Humaniste,
Homme intègre.

 
Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

 
AVERTISSEMENT
 
Tous les fichiers proposés pour les exercices sont des fichiers EXCEL récents (suffixe .XLSX) 
provenant d’une version européenne du logiciel OFFICE de MICROSOFT. 
 
Il existe plusieurs possibilités de permettre la lecture du contenu d’un fichier EXCEL par le logiciel SAS : 
 

L’exportation du fichier EXCEL en fichier texte ASCII (suffixe .txt). 
Ce type de fichier a l’avantage d’être lu directement par SAS. Il est aussi facilement accessible et 
modifiable via n’importe quel éditeur ASCII (y compris le bloc‐notes de MICROSOFT) 
 
Remarque : 
La transformation en fichier texte pose quelques problèmes à régler dans le cas où le fichier EXCEL 
contient des valeurs manquantes non codées et lorsqu’il y a des données à virgule décimale (comme 
c’est le cas dans les fichiers EXCEL européens) 
 
L’exportation du fichier EXCEL en fichier CSV (séparateur : point‐virgule) 
Même si elle apparaît parfois plus compliquée de prime abord, cette exportation permet de régler 
les problèmes liés à la présence de décimales européennes (utilisation de la virgule) et/ou de valeurs 
manquantes. 
 
Remarque :  
L’utilisation d’un programme Microsoft Office européen fournit un format CSV avec la virgule 
décimale et le séparateur point‐virgule ( ; ). 
Une petite opération manuelle est donc nécessaire pour transformer le fichier obtenu en fichier 
comportant des données avec le point décimal. Réaliser cette opération est assez simple et rapide. 
Il suffit de procéder de manière ordonnée comme suit : 
 Editer le fichier .csv obtenu avec un éditeur de texte ASCII (par exemple le bloc‐notes) ; 
 Remplacer globalement toutes les virgules par un point ; 
 Sauvegarder le fichier ainsi transformé. 
N.B. : Il faut aussi prendre garde au problème suivant : Les versions récentes d’OFFICE exportent en 
CSV les valeurs manquantes en ;;  alors que les versions plus anciennes les exportaient en ; ; (les deux 
points‐virgules étant séparés par un blanc) 
Dans le premier cas il faut recourir à l’option DSD dans le premier cas, ce qui n’est pas nécessaire 
dans le second. 
 
La lecture directe par SAS du fichier EXCEL 
Il est possible de lire directement un fichier EXCEL en utilisant la procédure IMPORT de SAS. 
Certaines contraintes peuvent rendre difficile cette importation (des noms de variables non 
compatibles SAS, utiliser une colonne de données sans nom, etc…) MAIS, la principale contrainte est 
que le fichier EXCEL supposé être en format américain, et donc que les nombres décimaux doivent 
utiliser le point décimal (et non la virgule) !!! 
 
 
   

Problèmes statistiques et utilisation de logiciels  ‐ Page 3 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

 
 
EXERCICES SUPPLÉMENTAIRES
 
 
ESUPP01  
  
Dans  le  cadre  d’une  recherche  sur  le  tabagisme,  un  chercheur  compare  trois  procédures 
distinctes de sevrage des fumeurs (sevrage progressif, arrêt brutal, médicament aversif). Cinq sujets 
sont choisis dans chaque groupe. Il leur est demandé d’indiquer sur une échelle en 10 points (de 0 à 9) 
leur niveau de « besoin de fumer » dans deux environnements différents (à la maison et au travail) et 
ce, avant puis après avoir subi la procédure de sevrage. 
  Voici les données qui figurent dans le fichier EXCEL DSUPP01 : 
 
Avant Après
Maison Travail Maison Travail
Sevrage progressif 7 6 6 4
5 4 5 2
8 7 7 4
8 8 6 5
6 5 5 3

Arrêt brutal 8 7 7 6
5 5 5 4
7 6 6 5
8 7 6 5
7 6 5 4

Médicament aversif 9 8 5 4
4 4 3 2
7 7 5 3
7 5 5 0
8 7 6 3  
 
1. Effectuer l’analyse de variance appropriée et déterminez si on peut‐on mettre en évidence un 
effet significatif de la méthode de sevrage ? Pourquoi ? 
2. Peut‐on considérer qu’il y a une différence significative entre les moyennes « avant » et « après » 
la procédure de sevrage (effet temporel « MOMENT ») ? 
3. Compte tenu des résultats obtenus aux points 2 et 3, comment interpréter le résultat obtenu 
pour l’interaction entre la méthode et l’effet temporel « MOMENT » (avant et après le sevrage) ?  
4. Y a‐t‐il une différence significative entre les moyennes des scores à la maison et au travail ? 
5. Compte tenu du résultat obtenu au point 5, comment interpréter l’interaction entre la variable 
METHODE et la variable LIEU (effet « maison » versus « travail ») ? 
 
ESUPP02  
  
  Un chercheur souhaite ranger les 15 items d’un test de langage en fonction de l’ordre selon 
lequel les capacités langagières apparaissent dans le développement de l’enfant. N’étant pas certain 
du classement qu’il a opéré, il demande à un autre spécialiste de ranger ces items de 1 à 15 suivant le 
même critère. Voici les données qui figurent dans le fichier EXCEL DSUPP02 : 
 

Problèmes statistiques et utilisation de logiciels  ‐ Page 4 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

Chercheur 
1   2   3   4   5   6   7   8   9   10  11  12  13  14  15   
Consultant 
1   3   2   4   7   5   6   8   10   9  11  12  15  13  14 
 
1. Calculez la statistique rs de Spearman. 
2. Déterminez la statistique tk de Kendall et donnez la probabilité correspondante. 
 
ESUPP03  
  
  From [Howell (1992)] 
 
  The State of Vermont is divided into 10 Health Planning Districts, which correspond to 
counties. The following data for 1980 represent the percentage of births of babies under 2500 grams 
(Y), the fertility rate for females younger than 18 or older than 34 years of age (X1), and the 
percentage of births to unmarried mothers (X2) for each district (both X1 and X2 are known to be risk 
factors for low birthweight). 
 
DISTRICT Y X1 X2
1 6,1 43,0 9,2
2 7,1 55,3 12,0
3 7,4 48,5 10,4
4 6,3 38,8 9,8
5 6,5 46,2 9,8
6 5,7 39,9 7,7
7 6,6 43,1 10,9
8 8,1 48,5 9,5
9 6,3 40,0 11,6
10 6,9 56,7 11,6  
 
1. Calculate the correlations between Y and X1, X2. Test H0 :  = 0. 
2. Compute the regression equation for predicting the percentage of births of infants under 2500 
grams (Y) on the basis of fertility rate for females younger than 18 and older than 34 years of age 
(X1). What is the standard error of estimate for this regression equation ? 
3. Compute a regression equation for predicting this percentage on the basis of variables X1 and X2.  
 
Data : DSUPP03 EXCEL file. 
 
1. ESUPP04 
  2.  
 [Juin 2013] On souhaite déterminer un sous‐échantillon du fichier EXCEL DSUPP04 qui soit 
constitué par les sujets portant la modalité « B » de la variable GROUPE et pour lesquels la valeur de 
la variable TEMPS est > 12. 
  
1. Dans ce sous‐échantillon, quelle est la valeur de la médiane de la variable TEMPS ? 
2. Combien y a‐t‐il en pourcents, dans ce sous‐échantillon, de sujets pour lesquels TEMPS présente 
une valeur > 14 et <= 17 ? 
 
ESUPP05  
  

Problèmes statistiques et utilisation de logiciels  ‐ Page 5 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

[Juin 2013] On considère la variable métrique SCORE du fichier EXCEL DSUPP05. Les deux modalités 
de la variable GROUPE (codée 1, 2) caractérisent deux échantillons distincts. Peut‐on conclure que les 
données observées pour la variable SCORE dans ces deux échantillons proviennent de deux populations 
ayant des distributions identiques ? 
 
1. Indiquez quel test vous utilisez. 
2. Quelle est la valeur de la probabilité obtenue et quelle est votre conclusion ? 
 
ESUPP06  
  
  Dans une étude portant sur les habitudes alimentaires des adolescents, Gross (1985)1 
interroge les différents sujets d’un échantillon d’adolescents sur leur préférence entre trois 
possibilités : Gagner du poids, maintenir leur poids actuel ou perdre du poids. 
  Après avoir recensé les données relatives aux filles en fonction de la race (race blanche / 
afro‐américaine), il obtient les résultats suivants : 
 
Réduire Maintenir Augmenter
Blanches 352 152 31 535
Afro-américaine 47 28 24 99
399 180 55 634  
 
Quelle conclusion peut‐on tirer de ces données ? 
 
ESUPP07  
  
  Dans le cadre d’une recherche sur l’apprentissage de la langue maternelle, un pédagogue 
effectue une étude longitudinale sur 20 enfants d’école primaire. Trois mesures portant sur la 
maîtrise du français sont effectuées sur chaque sujet, la première au mois de septembre, la 
deuxième en janvier et la troisième en juin. Cette procédure, effectuée pour la première fois en 1ère 
année primaire, est renouvelée en 2ème et en 3ème année sur les mêmes sujets. En outre, ces derniers 
sont partagés en deux sous‐groupes : Le sous‐groupe 1 comprenant des enfants ayant appris la 
lecture par la méthode dite « globale » et le sous‐groupe 2 des enfants dont l’apprentissage s’est 
effectué par la méthode analytique. 
  Voici les données qui sont reprises dans le fichier EXCEL DSUPP07 : 
 

                                                            
1
Gross, J.S., Weight modification and eating disorders in adolescent boys and girls, unpublished doctoral 
dissertation, University of Vermont, 1985. 

Problèmes statistiques et utilisation de logiciels  ‐ Page 6 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

GROUPE Année1 Année2 Année3


Mesure1 Mesure2 Mesure3 Mesure1 Mesure2 Mesure3 Mesure1 Mesure2 Mesure3
1 20 21 21 32 42 37 32 32 32
1 67 48 29 43 56 48 39 40 41
1 37 31 25 27 28 30 31 33 34
1 42 40 38 37 36 28 19 27 35
1 57 45 32 27 21 25 30 29 29
1 39 39 38 46 54 43 31 29 28
1 43 32 20 33 46 44 42 37 31
1 35 34 34 39 43 39 35 39 42
1 41 32 23 37 51 39 27 28 30
1 39 32 24 30 35 31 26 29 32
2 47 36 25 31 36 29 21 24 27
2 53 43 32 40 48 47 46 50 54
2 38 35 33 38 42 45 48 48 49
2 60 51 41 54 67 60 53 52 50
2 37 36 35 40 45 40 34 40 46
2 59 48 37 45 52 44 36 44 52
2 67 50 33 47 61 46 31 41 50
2 43 35 27 32 36 35 33 33 32
2 64 59 53 58 62 51 40 42 43
2 41 38 34 41 47 42 37 41 46  
 
1. Y a‐t‐il une différence significative de résultat entre les deux groupes ? 
2. Comment interpréter la valeur obtenue pour l’interaction entre les deux facteurs répétitifs 
(l’année et la mesure dans l’année) ? Représenter graphiquement. 
3. Au sein du groupe 1, y a‐t‐il une différence significative entre la 1ère et la 3ème mesure au cours de 
la première année ? Déterminer les moyennes correspondantes. 
 
ESUPP08  
  
  Les données ci‐après listent les tailles (en centimètres) de 28 garçons âgés de 18 ans 
(données reprises de l’étude de Tuddenham & Snyder2) : 
 
TAILLE
179.0 183.5
195.1 178.1
183.7 177.0
178.7 172.9
171.5 188.4
181.8 169.4
172.5 180.2
174.6 189.0
190.4 182.4
173.8 185.8
172.6 180.7
185.2 178.7
178.5 169.6
177.6 166.8  
 
  Ces données sont contenues dans le fichier EXCEL DSUPP08. 
 

                                                            
2
Tuddenham, R.D., Snyder, M.M., Physical Growth of California Boys and Girls from birth to age 18, California 
Publications in Child Development, 1, 183‐364, 1954. 

Problèmes statistiques et utilisation de logiciels  ‐ Page 7 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

1. Déterminez la moyenne, la variance, l’écart‐type et le coefficient de variation. 
2. Déterminez, au niveau d’incertitude 5 %, un intervalle de confiance sur la moyenne. 
3. Quelle est la médiane de cette distribution ? 
4. Déterminer les coefficients d’asymétrie et d’aplatissement. La distribution des valeurs présente‐t‐
elle dès lors une asymétrie gauche ou droite ? 
5. Peut‐on tolérer l’hypothèse que les valeurs de cet échantillon proviennent d’une population de 
distribution normale ?  
 
ESUPP09  
  
  Reaven et Miller3 mesurent quatre variables dans une comparaison entre patients normaux 
et diabétiques. La table ci‐après fournit une partie des données relatives aux patients normaux, 
données contenues dans le fichier EXCEL DSUPP09. 
 
Y1 X1 X2 X3
0,81 356 124 55
0,95 289 117 76
0,94 319 143 105
1,04 356 199 108
1,00 323 240 143
0,76 381 157 165
0,91 350 221 119
... ... ... ...  
 
  Les variables sont 
 
  y1 = poids relatif 
    x1 = intolérance au glucose 
  x2 = réponse de l’insuline à l’absorption orale de glucose 
    x3 = résistance à l’insuline 
 
  On effectue une régression linéaire de la variable y1 sur les variables x1, x2 et x3. 
 
1. Déterminer l’équation de la régression. 
2. Quelle est la matrice des covariances  entre les explicateurs ? 
3. Quel est le coefficient de détermination dans l’échantillon ? Quelle est son estimation dans la 
population ? 
4. Quel poids relatif le modèle prédira‐t‐il à un sujet pour lequel x1 = 321, x2 = 153 et x3 = 72 ? 
 
ESUPP10  
  
  From [ Marascuilo (1977)] 
 
  The data below are derived from a study in which ten girls taking a course in high‐school 
business math were given a test to measure their recall of 7‐digit numbers. The tests were given at 
the end of the 4th, 8th, 12th, and 16th week of the course. 
 

                                                            
3
Reaven, G.M., Miller, R.G., An Attempt to Define the Nature of Chemical Diabetes Using a Multidimensional 
Analysis, Diabetologia, 16, 17‐24. 

Problèmes statistiques et utilisation de logiciels  ‐ Page 8 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

GIRL WEEK4 WEEK8 WEEK12 WEEK16


Amelia 38 30 10 8
Beatrice 32 30 9 5
Carmen 37 33 15 10
Doretta 35 41 22 12
Erzebet 31 33 28 20
Fides 36 20 8 2
Gunilla 29 5 6 1
Hedwig 46 33 32 29
Iolanthe 41 45 28 32
Jocaste 46 40
  27 29
 
  It was hypothesized that, with increased exposure to arithmetic and numbers during the 
taking of business math, digit‐span memory would also increase. 
  The results for each girl are in DSUPP10 EXCEL file. 
  Referring the Friedman test statistic, test the null hypothesis that there are no systematic 
differences between testings on digit‐span scores. 
  What can you conclude ? 
 
ESUPP11  
  
  Dans le cadre d’une action nationale contre le tabagisme, une campagne d’information est 
organisée à l’intention des fumeurs dans l’espoir de les voir réduire ou abandonner leur 
consommation de cigarettes.  
  Pour évaluer l’efficacité de la campagne entreprise, un échantillon de 15 fumeurs est 
constitué et on enregistre le nombre moyen de cigarettes fumées par jour par ces sujets durant la 
semaine précédant et celle suivant la campagne d’avertissement. 
  Voici les données qui figurent dans le fichier EXCEL DSUPP11 : 
 
SUJET 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
AVANT 45 16 20 33 30 19 33 25 26 40 28 36 15 26 32
APRES 43 20 17 30 25 19 34 28 23 41 26 40 16 23 34  
 
  Effectuer le test de Student approprié. Qu’en conclure ? 
 
ESUPP12 
  
 [Juin 2013] Les sujets dont les données figurent dans le fichier EXCEL DSUPP12 ont subi un 
prétest et un posttest à une épreuve portant sur la connaissance de la langue française. 
On souhaite éprouver l’hypothèse de la nullité de la différence « posttest‐prétest » en 
déterminant un intervalle de confiance, au niveau d’incertitude 5 %, sur cette différence. 
 
1. Quel est cet intervalle de confiance ? 
2. Quelle est votre conclusion ? Justifiez. 
   
ESUPP13  
  
  Dans le courant du mois de janvier 1996, les enquêteurs du magazine « Test Achats »4 se sont 
rendus dans des bureaux de la Poste pour y observer différents paramètres. Un de ceux‐ci était 

                                                            
4
Test Achats Magazine, n° 391, p. 9‐18, septembre 1996 

Problèmes statistiques et utilisation de logiciels  ‐ Page 9 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

l’attitude face au client notée sur une échelle ordinale (regroupée) : TB (très bon), B (bon), P 
(passable ou médiocre). En outre, le niveau du bureau de poste (Niveau 1, 2 ou 3) a été pris en 
considération. Les données figurent dans le fichier EXCEL DSUPP13. 
  Voici les données recueillies :  
 
P B TB
Niveau 1 12 14 7
Niveau 2 34 42 23
Niveau 3 25 6 2  
 
1. Y a‐t‐il indépendance entre le niveau du bureau de poste et l’attitude vis‐à‐vis du client ? 
2. Quelle est la valeur du coefficient de Cramer ? 
 
ESUPP14  
  
  Les données ci‐après, qui figurent dans le fichier EXCEL DSUPP14, concernent une 
expérimentation effectuée sur des rats de trois groupes d’âge différents. La variable dépendante est 
le nombre d’essais nécessaire pour une course sans erreur au sein d’un labyrinthe. 
 
90 jours 120 jours 150 jours
25 7 1
26 15 7
33 37 27
55 24 4
19 3 3
33 2 25
6 7 19
41 23 9
18 17 29
31 15 15
18 11 28
6 14 19
24 9 13
23 1 14  
 
1. Existe‐t‐il une différence significative entre les moyennes des nombres d’essais selon l’âge des 
rats ? 
2. Déterminer les différentes sommes de carrés intervenant dans ce modèle. 
3. Utiliser la procédure de Tukey pour comparer les moyennes deux à deux au niveau d’incertitude 5 %. 
Quelle est votre conclusion ? 
 
ESUPP15  
  
  On considère les données ci‐après dans le cadre d’une analyse de variance double croisée où 
la variable critère mesure la performance à la lecture (variable SCORE) et les variables nominales 
explicatives le sexe (garçon ‐ fille) et la méthode de lecture (méthode X ‐ méthode Y et méthode Z). 
  Ces données figurent dans le fichier EXCEL DSUPP15. 
 

Problèmes statistiques et utilisation de logiciels  ‐ Page 10 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

METHODE
SEXE X Y Z
700 480 500
850 460 550
Garçon 820 500 480
640 570 600
920 580 610
900 590 520
880 540 660
Fille 899 560 525
780 570 610
899 555 645  
 
1. Etablir l’équation de la régression de la variable critère SCORE sur les explicateurs catégoriels SEXE 
et METHODE. 
2. Quelle est, dans l’échantillon, la valeur du coefficient de détermination ? 
3. Quel score le modèle prédira‐t‐il à un garçon ayant suivi la méthode Z ? 
 
ESUPP16  
  
  From [ Daniel (1978)] 
 
  A psychology research team administered a test designed to measure neuroticism in four 
groups of subjects who differed on the basis of their smoking habits. The results are shown below 
and the data are in DSUPP16 EXCEL file. 
   
Nonsmokers 7,6 7,7 7,5 7,8 7,6 7,3 7,1 8,0 7,5 8,0
Light smokers 8,9 8,2 8,1 8,0 8,6 8,6 8,6 8,4
Medium smokers 8,0 8,8 8,7 8,6 9,0 8,8 8,5
Heavy smokers 9,9 9,1 9,8 9,8 9,8 9,9 9,6
  9,2
 
Do these data suggest a difference in neuroticism level among the four groups ? Use Kruskal‐Wallis 
test. 
 
ESUPP17  
  
  75 étudiants ont répondu à un questionnaire comprenant 7 questions à choix multiples (une 
seule réponse correcte). 
  Voici la distribution du nombre des réponses correctes enregistrées : 
 
Nombre Fréquence
0 1
1 5
2 8
3 15
4 22
5 12
6 9
7 3  
 
1. Déterminer la moyenne du nombre de réponses correctes. Quelles sont la variance et l’écart‐
type ? 

Problèmes statistiques et utilisation de logiciels  ‐ Page 11 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

2. Quel autre indice central vaut‐il mieux utiliser dans ce cas ? Quelle est sa valeur ? 
3. Donner l’histogramme de cette distribution. 
 
ESUPP18  
  
  Un chercheur échantillonne 12 étudiants ayant effectué leurs études secondaires dans 
l’enseignement officiel et 12 étudiants ayant suivi ces études dans l’enseignement libre. Six étudiants 
de chaque groupe sont en 1er bac en psychologie et les six autres en 1er bac en  sciences appliquées. 
Tous ces étudiants ont été soumis à un test T1 de connaissance de la langue française à l’entrée à 
l’Université et à un second test T2 évaluant cette même connaissance à l’issue des interrogations du 
mois de janvier. 
  Voici les résultats obtenus : 
 
Officiel Libre
T1 T2 T1 T2
s1 12 15 s13 15 17
s2 8 13 s14 13 16
PSYCHOLOGIE s3 14 15 s15 14 15
s4 11 14 s16 12 14
s5 16 16 s17 17 17
s6 10 15 s18 11 15
s7 11 13 s19 12 14
s8 9 12 s20 15 15
SC. APPLIQUEES s9 15 15 s21 13 13
s10 12 14 s22 10 12
s11 13 13 s23 14 12
s12 10 11 s24 15 13  
 
  Les données sont reprises dans le fichier EXCEL DSUPP18. 
 
1. Effectuer l’analyse de variance adéquate et déterminer l’ensemble des effets du modèle. 
2. Commenter les différents effets significatifs obtenus. 
3. Déterminer les valeurs de la statistique et de la probabilité de dépassement obtenues en 
éprouvant l’hypothèse suivante : H0 = Il n’y a pas de différence statistiquement significative entre 
les résultats obtenus, chez les étudiants de 1er bac en psychologie, entre le premier et le 
deuxième testing. 
4. Déterminer les valeurs de la statistique et de la probabilité de dépassement obtenues en 
éprouvant l’hypothèse suivante : H0 = Il n’y a pas de différence statistiquement significative entre 
les résultats obtenus, chez les étudiants de 1er bac en psychologie ayant effectué leurs études 
secondaires dans le réseau officiel, entre le premier et le deuxième testing. 
5. Quelle est la moyenne au deuxième test obtenue par les étudiants de 1er bac en Sciences 
appliquées ayant fait leurs études secondaires dans l’enseignement libre ? 
 
ESUPP19  
  
  From [ Daniel (1978)] 
 

Problèmes statistiques et utilisation de logiciels  ‐ Page 12 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

  Griffiths5 reported data on the extent of coffee‐berry desease on farms not sprayed and 
those sprayed with a fungicide. The results are shown below (and are also in DSUPP19 EXCEL file), in 
terms of percentage infections in test berries. 
 
Unsprayed 6.01 2.48 1.76 5.1 0.75 7.13 4.88
Sprayed 5.68 5.68 16.3 21.46 11.63 44.2 33.3  
 
  Do these data provide sufficient evidence to indicate a difference in population location 
parameters ? Use the Wilcoxon test and determine the p value. 
 
ESUPP20  
  
  On a mesuré les seuils auditifs d’un certain nombre d’hommes et de femmes dans quatre 
conditions expérimentales distinctes (temps de relaxation différents). 
  Effectuer une analyse de variance sur les données ci‐après, qui figurent dans le fichier EXCEL 
DSUPP20, sachant que les huit sous‐échantillons sont indépendants. 
 
Conditions
1 2 3 4
19 21 24 24
Hommes 12 16 18 26
17 17 22 21
20 18 18 17
15 19 15 18
Femmes 15 19 19 19
14 17 16 18
12 14 18 17  
 
1. Le modèle explicatif global est‐il pertinent ? Justifiez. 
2. Quelle est la valeur du coefficient de détermination dans l’échantillon ? 
3. Y a‐t‐il un effet significatif du sexe sur le seuil auditif ? 
4. Quelle est la variable qui prend en compte la plus grande part de la somme des carrés du 
modèle ? Quelle est sa valeur en pourcentage ? 
5. En appliquant le test de Student‐Newman‐Keuls, entre lesquelles des quatre conditions peut‐on 
admettre l’existence d’une différence statistiquement significative ? 
 
ESUPP21  
  
  On effectue la régression linéaire d’une variable Y sur trois variables X1, X2 et X3. Les 
données sont contenues dans le fichier EXCEL DSUPP21. En voici une partie : 
 
Y X1 X2 X3
20 32 64 32
67 43 85 39
37 27 54 31
42 37 74 19
57 27 54 30
,,, ,,, ,,, ,,,  
 

                                                            
5
Griffiths E., Negative Effects of Fungicides in Coffee, Trop.Sci., 14, 788‐795, 1972. 

Problèmes statistiques et utilisation de logiciels  ‐ Page 13 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

1. Quelle est la pertinence du modèle ? Donner la valeur de la statistique F et de sa probabilité de 
dépassement. 
2. Quelle signification faut‐il donner à la tolérance entre X1 et X2 ? Quel effet cette situation a‐t‐elle 
sur le modèle ? Comment y remédier ? 
 
ESUPP22  
  
  Les données ci‐après montrent le nombre moyen de mots de vocabulaire dont jouissent des 
enfants de différents âges. 
  Le fichier EXCEL DSUPP22 contient ces données. 
 
Age Nombre de mots
1.0 3
1.5 22
2.0 272
2.5 446
3.0 896
3.5 1222
4.0 1540
4.5 1870
5.0 2072
6.0 2562  
  
1. Sur l’ensemble de  notre échantillon, quels sont la médiane du nombre de mots lus ? 
2. Etablissez le nuage de points représentant le nombre de mots (en ordonnée) par rapport à l’âge (en 
abscisse). 
3. Déterminez la corrélation de Bravais‐Pearson entre l’âge et le nombre de mots. Qu’en conclure ? 
 
ESUPP23  
  
  Dans une analyse de covariance, un chercheur veut expliquer les scores des sujets de son 
échantillon à un test de rapidité en lecture (variable métrique Y) par la variable nominale GROUPE et 
la variable métrique X5 (test de mémorisation) 
  Les données figurent dans le fichier EXCEL DSUPP23 dont un extrait figure ci‐après : 
 
Groupe X1 X2 X3 X4 X5 Y
Gr1 22 6 52 83,5 10,9 176
Gr1 32 8 20 77 11 200
Gr1 36 7 28 86,5 13,2 171
Gr1 22 11 30 104 22,6 230
Gr1 23 1 40 83 15,2 205
… … … … … … …
Gr2 30 10 167 89 25,6 364
Gr2 41 10 104 81 26,8 245
Gr2 22 8 30 108 8,8 284
Gr2 22 8 44 104 17,4 172
Gr2 20 10 65 87 23,8 198
… … … … … … …  

Problèmes statistiques et utilisation de logiciels  ‐ Page 14 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

1. Le modèle explicatif est‐il statistiquement pertinent ? Justifiez en donnant la statistique et la 
probabilité de dépassement. 
2. Quelles sont les moyennes de la variable Y dans la variable GROUPE ajustées par la présence de la 
covariable X5 ?  
3. Peut‐on tolérer l’hypothèse du parallélisme pour ce modèle ? Justifiez en donnant la probabilité 
de dépassement concernée. 
 
3. ESUPP24 
    
[Juin 2013] On considère la variable GROUPE (codée par A, B, C, D) qui figure dans le fichier 
EXCEL DSUPP24. 
 
1. Quelle est la répartition des effectifs dans les quatre modalités de la variable GROUPE ? 
2. Si on vous demande de calculer la médiane de la variable GROUPE, quelle est votre réponse à 
cette demande ? 
 
ESUPP25  
  
  En décembre 1994, sur la piste de conduite du Driving Know How du VAG Center, 16 
membres de Touring Secours ont été soumis à des tests de conduite après avoir absorbé la même 
quantité d’alcool.  
  Les mesures effectuées figurent dans le tableau ci‐après et dans le fichier EXCEL DSUPP25. 
 
1. Déterminez s’il existe une corrélation significative entre les deux groupes de variables suivantes : 
L’âge et le poids et les deux taux mesurés d’alcoolémie. 
2. Pour chaque taux d’alcoolémie, déterminer s’il existe une différence significative entre les 
hommes et les femmes. 
3. Déterminez l’équation de la régression linéaire de la variable « CONTRÔLE FIN DE REPAS » sur les 
variables AGE et POIDS, respectivement chez les hommes et chez les femmes. 
4. Estimez ponctuellement le nombre de grammes par litre de sang en fin de repas que la régression 
définie au point 3 et effectuée dans le sous‐ensemble des hommes prédit à un sujet âgé de 50 ans 
et pesant 96 kilos.  
5. Quelle est la valeur de la corrélation multiple dans la régression définie au point 3 et effectuée 
dans le sous‐ensemble des femmes ? 
 
CONTRÔLE APRES 4 VERRES EN COURS DE REPAS
(1 mousseux, 1 vin blanc et 2 vins rouge).
CONTRÔLE FIN DE REPAS CONTRÔLE 1H30 PLUS TARD
N° H/F Age Poids g. par litre de sang g. par litre de sang
1 H 39 72 0,27 0,00
2 H 47 110 0,29 0,00
3 H 65 89 0,36 0,29
4 H 42 78 0,38 0,27
5 H 21 78 0,38 0,20
6 H 26 71 0,38 0,29
7 H 51 78 0,43 -
8 H 23 70 0,50 0,31
9 F 51 59 0,54 0,34
10 H 70 80 0,59 -
11 F 31 52 0,61 0,29
12 F 47 63 0,63 0,40
13 F 29 60 0,70 0,49
14 H 71 63 0,72 0,49
15 F 44 52 0,97 0,65
16 F 37 59 1,02 0,81  

Problèmes statistiques et utilisation de logiciels  ‐ Page 15 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

 
ESUPP26  
  
  Les données de la table ci‐dessous, qui figurent dans le fichier EXCEL DSUPP26 ont été 
obtenues dans le cadre d’une étude portant sur les effets de trois poisons distincts et de quatre 
traitements différents sur le temps de survie des rats. 
 
Poison Traitement
A B C D
0,31 0,82 0,43 0,45
1 0,45 1,10 0,45 0,71
0,46 0,88 0,63 0,66
0,43 0,72 0,76 0,62

0,36 0,92 0,44 0,56


2 0,29 0,61 0,35 1,02
0,40 0,49 0,31 0,71
0,23 1,24 0,40 0,38

0,22 0,30 0,23 0,30


3 0,21 0,37 0,25 0,36
0,18 0,38 0,24 0,31
0,23 0,29 0,22 0,33  
 
1. Y a‐t‐il globalement une différence significative entre les quatre traitements ? Si oui, entre quels 
traitements particuliers peut‐on rejeter l’hypothèse d’égalité des moyennes ? 
2. Quelle est la valeur du carré moyen d’interaction ? 
3. Donnez les moyennes des temps de survie aux différents poisons, indépendamment du 
traitement. 
 
ESUPP27  
  
  Les données ci‐après concernent la tendance au suicide dans un échantillon de patients 
névrotiques et psychotiques. 
 
Psychotiques Névrotiques Total
Tendances suicidaires 2 6 8
Pas de tendance suicidaire 18 14 32  
 
1. Quelle est la probabilité de dépassement du test exact de Ficher ? Qu’en conclure ? 
2. Donner la valeur de la corrélation . 
3. Donner le tableau des fréquences attendues sous hypothèse d’indépendance des deux variables 
nominales. 
 
ESUPP28  
  
  On mesure le temps de réponse de sept sujets lorsqu’une lumière leur est envoyée en flash 
dans chaque œil au travers de lentilles de puissance 6/6, 6/18, 6/36 et 6/60 (une lentille de puissance 
x/y signifie que l’œil percevra comme étant à x mètres un objet positionné à y mètres). Les temps de 
réaction sont mesurés en millisecondes. Les données figurent dans le fichier EXCEL DSUPP28. 
 

Problèmes statistiques et utilisation de logiciels  ‐ Page 16 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

Sujet Œil gauche Œil droit


6/6 6/18 6/36 6/60 6/6 6/18 6/36 6/60
1 116 119 116 124 120 117 114 122
2 110 110 114 115 106 112 110 110
3 117 118 120 120 120 120 120 124
4 112 116 115 113 115 116 116 119
5 113 114 114 118 114 117 116 112
6 114 115 94 116 100 99 94 97
7 110 110 105 118 105 105 115 115  
 
1. On demande de tester l’hypothèse d’un effet statistiquement significatif de la puissance de la 
lentille sur le temps de réponse. Justifiez votre conclusion. 
2. Pour chaque œil utilisé, peut‐on admettre l’existence d’une différence significative entre la lentille 
la moins puissante (6/6) et la lentille la plus puissante (6/60) ? 
 
ESUPP29  
  
  Ali et Sweeney6 déterminent les niveaux de protoporphyrine chez 15 travailleurs de 
laboratoire en bonne santé et chez 26 patients admis à l’hôpital pour alcoolisme aigu. 
  Voici les données qui sont contenues dans le fichier EXCEL DSUPP29. 
 
Normal 22 27 47 30 38 78 28 58 72 56 30 39 53 50 36
Alcool1 78 172 286 82 453 513 174 915 84 153 780
Alcool2 37 28 38 45 47 29 34 20 68 12 37 8 76 148 11  
 
  En recourant à la procédure de Kruskal‐Wallis, 
1. Déterminer s’il existe une différence significative entre les trois groupes de sujets. Justifiez. 
2. Existe‐t‐il une différence significative entre les deux groupes d’alcooliques ? Justifiez. 
 
ESUPP30  
  
  Un biologiste désire construire un modèle linéaire expliquant la variable critère « poids » par 
la variable explicative « âge » chez les humains âgés de 10 à 20 ans. De cette population, il extrait un 
échantillon simple et aléatoire d’effectif 25. 
  Les valeurs observées des variables poids et âge, qui sont contenues dans le fichier EXCEL 
DSUPP30 sont respectivement : 
 
Poids 35 40 38 54 73 62 38 47 49 42 57 29 38 67 54 59 49 48 40 53 45 65 73 32 59
Age 13 15 15 18 17 19 11 13 15 16 16 10 12 19 18 17 14 17 18 15 15 16 18 12 13  
 
1. Estimez la régression du poids sur l’âge. 
2. Le modèle explicatif est‐il pertinent ? Pourquoi ? 
3. Estimez ponctuellement la variance du résidu dans la population. 
4. Dans la population, à quel pourcentage peut‐on estimer la part de variance de la variable 
dépendante « poids » prise en compte par l’explicateur « âge » ? 
 
ESUPP31  
  
                                                            
6
Ali, M.A.M., Sweeney, G., Erythrocyte Corproporphyrin and Protoporphyrin in Ethanol‐induced Sideroblastic 
Erythropoiesis, Blood, 43, p. 291‐295, 1974. 

Problèmes statistiques et utilisation de logiciels  ‐ Page 17 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

  From [Howell (1992)] 
 
  In a study of the way children and adults summarize stories, we select 10 fifth graders and 10 
adults. There were further subdivided into equal groups of good and poor readers (on the hypothesis 
that good and poor readers may store or retrieve story information differently). All subjects read 10 
short stories and were asked to summarize the story in their own words immediately after reading it. 
All summaries were content analysed, and the numbers of statements related to settings, goals, and 
inferred dispositions were recorded. 
  The data are collapsed across the 10 stories and are in DSUPP31 EXCEL file. 
 
Age Adults Children
Items Settings Goal Disp. Settings Goal Disp.
Good Readers 8 7 6 5 5 2
5 6 4 7 8 4
5 5 5 7 7 4
7 8 6 6 4 3
6 4 4 4 4 2

Poor Readers 7 6 3 2 2 2
5 3 1 2 0 1
6 6 2 5 4 1
4 4 1 4 4 2
5 5 3 2 2 0  
 
1. Run the appropriate analysis of variance. 
2. Calculate the difference effect between first and third item for adult good readers. 
 
ESUPP32  
  
  Dans le cadre d’une étude sur l’utilisation de l’informatique, la revue Test Achats a publié 
dans son numéro de novembre 1994 le tableau ci‐après qui reprend la liste des différents types de 
logiciels les plus courants en indiquant, d’une part, le pourcentage des utilisateurs interrogés qui les 
possèdent et, d’autre part, le pourcentage de ceux qui les utilisent régulièrement. 
  Voici ces données qui sont contenues dans le fichier EXCEL DSUPP32 : 

Utilisent
Type Possèdent (%) régulièrement (%)

Traitement de textes 93,1 85,8


Utilitaires 82,2 56,1
Tableurs 81,1 60,7
Graphisme 77,7 34,0
Jeux 71,4 49,1
Base de données 70,8 47,7
Logiciels intégrés 47,9 57,0
Agenda 39,3 36,9
Comptabilité 26,6 65,9
Musique 20,2 43,8  
 
1. Déterminez s’il existe une corrélation significative entre le taux de possession et celui 
d’utilisation régulière des logiciels. 
2. Quelle est la valeur de la covariance entre ces deux variables ? 
 

Problèmes statistiques et utilisation de logiciels  ‐ Page 18 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

ESUPP33  
  
  Dans chacune des provinces de Liège et de Namur (codées 1 = Liège ‐ 2 = Namur), on a 
échantillonné quatre écoles secondaires au sein de l’ensemble des établissements scolaires de ce 
niveau d’enseignement. 
  On veut expliquer le score à un test auquel ont été soumis 8 élèves de chaque école par les 
variables nominales « province » et « école ». 
  Voici une présentation partielle des données qui figurent dans le fichier EXCEL DSUPP33 : 
 
PROVINCE 1 1 1 1 … 1 1 1 1 … 2 2 2 2 … 2 2 2 2 …
ECOLE Ecole1 Ecole1 Ecole1 Ecole1 … Ecole2 Ecole2 Ecole2 Ecole2 … Ecole1 Ecole1 Ecole1 Ecole1 … Ecole2 Ecole2 Ecole2 Ecole2 …
TEST 24 32 29 10 … 30 30 26 28 … 12 14 21 10 … 19 11 25 13 …
 
1. Effectuez l’analyse de variance adéquate et déterminer tous les effets intervenant dans ce 
modèle. 
2. Quelle est, dans l’échantillon, la valeur du coefficient de détermination 2 ? 
3. Quelle est la moyenne des résultats de la 3ème école de la Province de Liège ? 
 
ESUPP34  
  
  Le recensement (en centaines de voitures) des ventes automobiles durant le premier 
trimestre de 1995 a fourni le tableau ci‐après. Deux variables sont en présence : Le type de voiture 
(petite, moyenne, familiale, grosse) et le type de carburant (essence ou diesel). 
  Les données figurent dans le fichier EXCEL DSUPP34. 
 
Type de voiture
Petite Moyenne Familiale Grosse
Carburant Diesel 90 342 403 110
Essence 464 427 354 113  
 
1. Déterminer s’il existe une relation statistiquement significative entre le type de voiture et le type 
de carburant. 
2. Quelle est la valeur du coefficient V de Cramer ? 
 
ESUPP35  
  
  Les données ci‐après concernent 20 employés d’une administration dont certains affirment 
que leur meilleur rendement au travail se situe le matin et alors que les autres situent ce moment 
l’après‐midi (affirmations codées 1 = matin ‐ 2 = après‐midi). 
  On mesure sur une échelle de 100 points la qualité du travail produit par chaque employé 
lors de trois matinées. 
  Voici les données qui figurent dans le fichier EXCEL DSUPP35 : 
 
Meilleur moment 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2
Performance 65 80 55 60 55 70 60 70 55 70 40 70 50 40 60 50 40 50 40 60  
 
1. Calculez la corrélation bisérielle de point rpb  entre la performance et la variable dichotomique 
« Moment ». 
2. Interprétez le résultat de l’hypothèse H0 : rpb = 0. 
 

Problèmes statistiques et utilisation de logiciels  ‐ Page 19 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

ESUPP36  
  
  La publication « Flash‐Forem » de janvier 1996 présentait le tableau ci‐après de l’évolution 
des demandeurs d’emploi entre janvier 1987 et janvier 1996 : 
 
Périodes Données brutes
Hommes Femmes Total
janv-96 116 608 141 229 257 837
janv-95 114 899 137 251 252 150
janv-94 112 903 134 136 247 039
janv-93 98 720 124 578 223 298
janv-92 89 526 114 356 203 882
janv-91 81 576 109 998 191 574
janv-90 79 281 104 202 183 483
janv-89 82 117 104 326 186 443
janv-88 91 242 107 541 198 783
janv-87 95 620 112 851
  208 471
 
  Ces données sont partiellement reprises sous une autre forme dans le fichier EXCEL 
DSUPP36. 
 
1. Quelle est la valeur de la corrélation de Pearson entre les variables « Hommes » et « Femmes » ? 
2. En considérant que les demandeurs d’emploi sont appariés par l’année de référence, déterminez 
s’il existe une différence significative entre les hommes et les femmes. 
 
ESUPP37  
  
  Les données ci‐après sont sélectionnées d’une vaste expérience de Snedecor et Cochran7 
relative à l’usage des drogues dans le traitement de la lèpre. 
Les variables dans l’étude sont : 
DROGUE  Deux antibiotiques (A et B) et un contrôle (F) 
PRE    Un score de prétraitement du bacille de la lèpre. 
POST    Un score de post‐traitement du bacille de la lèpre. 
  10 patients sont sélectionnés pour chaque traitement (variable DROGUE) et la variable PRE 
(prétraitement) est utilisée comme covariable. 
  Les données figurent dans le fichier EXCEL DSUPP37. 
 
1. On demande d’effectuer tout d’abord une analyse de variance expliquant la variable 
métrique POST par la variable catégorielle DROGUE. Peut‐on tolérer l’existence d’un effet 
significatif de la variable DROGUE ? Justifiez. 
2. Quelles sont les moyennes de la variable POST dans les trois modalités de la variable 
DROGUE ? 
3. On ajoute ensuite comme explicateur la variable métrique PRE. Le modèle explicatif 
complet à deux explicateurs est‐il pertinent ? Justifiez. 
4. Quelles sont les valeurs des moyennes ajustées i de la variable nominale explicative 
DROGUE près ajustement par la covariable PRE ? 
5. Eprouvez l’hypothèse du parallélisme des droites de régression. Peut‐on tolérer cette 
hypothèse ? Justifiez. 

                                                            
7
Snedecor, G. W. and Cochran, W. G., Statistical Methods, Sixth Edition, Ames: Iowa State University Press, 1967.

Problèmes statistiques et utilisation de logiciels  ‐ Page 20 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

 
ESUPP38  
  
  Un chercheur mène une étude dans 12 établissements d’enseignement secondaire de la 
Communauté française. Il construit deux questionnaires destinés à mesurer, le premier, un indice de 
satisfaction vis‐à‐vis des programmes scolaires, le second, un indice d’autonomie pédagogique du 
chef d’école vis‐à‐vis du caractère normatif des programmes de cours. 
  Les rangs obtenus pour ces deux indices dans les 12 établissements participant à l’expérience 
sont : 
 
Ecole A B C D E F G H I J K L
Satisfaction 1 7 6 2 8 4 10 12 11 5 9 3
Autonomie 12 11 10 9 8 7 6 5 4 3 2 1  
 
  Les données sont contenues dans le fichier EXCEL DSUPP38. 
 
1. Déterminer le coefficient de corrélation de Spearman entre les deux indices. Qu’en conclure ? 
2. Déterminer le coefficient de corrélation de Kendall entre les deux indices. Qu’en conclure ? 
 
ESUPP39 
  
  Un psychologue procède à la passation d’un test visant à mesurer la vitesse de lecture chez 
deux groupes d’enfants de 6 ans. Il effectue ensuite une analyse de variance simple pour déterminer 
si les résultats peuvent être considérés comme significativement différents entre les deux groupes. 
Les données figurent dans le fichier EXCEL DSUPP39. 
 
1. Effectuez l’analyse de variance expliquant la variable métrique TEST par la variable nominale 
GROUPE. Y a‐t‐il un effet significatif de la variable GROUPE ? Justifiez. 
2. Quelle est, dans l’échantillon, la valeur du coefficient de détermination ? 
3. Le chercheur introduit ensuite dans le modèle explicatif la variable métrique PRETEST comme 
covariée. Au niveau de la signification statistique, peut‐il considérer que la variable nominale 
GROUPE produit toujours le même effet sur la variable dépendante ? Justifiez. 
4. Quelle est, dans l’échantillon, la différence entre la valeur du coefficient de détermination relatif 
au modèle explicatif complet et celle du coefficient de détermination du modèle explicatif simple 
(explication par la seule variable nominale sans la covariée) ? 
 
ESUPP40  
  
  On mesure le taux d’activité cérébrale de trente rats. Cette mesure est mise en relation avec 
le temps mis par chaque rat pour sortir d’un labyrinthe connu au travers de cinq expériences 
antérieures et avec une mesure de performance motrice. 
  Voici une partie des données qui sont contenues dans le fichier EXCEL DSUPP40 : 
 

Problèmes statistiques et utilisation de logiciels  ‐ Page 21 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

Sujet Taux Temps Performance


1 0,386 27,0 41
2 0,374 28,2 56
3 0,393 27,7 63
4 0,425 28,0 68
5 0,406 27,2 69
6 0,344 26,2 65
7 0,327 27,5 61
8 0,288 26,7 47
9 0,269 26,5 32
10 0,256 27,7 24
... ... ... ...  
 
1. Effectuez la régression linéaire de la variable TAUX sur les variables TEMPS et PERFORMANCE et 
déterminer l’équation de cette régression. 
2. Le modèle explicatif est‐il pertinent ? Pourquoi ? 
3. Dans l‘échantillon, quelle est, en pourcentage, la proportion de la variance de la variable 
dépendante qui est prise en compte par les variables explicatives ? 
4. Quelle est l’estimation du coefficient de détermination dans la population ? 
5. Comment juger de l’importance relative de l’effet des différentes variables explicatives sur la 
variable dépendante ? 
6. Déterminer la matrice des covariances entre les différentes variables en présence. 
 
ESUPP41  
  
  Des électrodes de cinq types différents sont appliquées aux bras de 15 sujets et on mesure la 
résistance électrique obtenue (en KOhms). On souhaite déterminer si l’effet mesuré est similaire 
pour les différents types d’électrodes. 
  Voici les données qui figurent dans le fichier EXCEL DSUPP41 : 
 
Sujet Type1 Type2 Type3 Type4 Type5
1 500 400 98 200 250
2 660 600 600 75 310
3 250 370 220 250 220
4 135 300 450 430 70
5 27 84 135 190 180
6 100 50 82 73 78
7 105 180 32 58 32
8 90 180 220 34 64
9 200 290 320 280 135
10 15 45 75 88 80
11 160 200 300 300 220
12 250 400 50 50 92
13 170 310 230 20 150
14 66 1000 1050 280 220
  15 107 48 26 45 51  
 
1. Déterminer s’il existe une différence significative entre les différents types d’électrodes. 
2. Existe‐t‐il une différence significative entre les électrodes de Type2 et de Type4 ? Justifiez. 
3. Quelles sont les résistances moyennes relatives à chaque électrode ? 
 

Problèmes statistiques et utilisation de logiciels  ‐ Page 22 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

ESUPP42  
  
  Les données ci‐après sont les temps (en secondes) qui ont été nécessaires aux enfants de 
deux groupes expérimentaux pour compléter un modèle imposé de neuf blocs colorés extrait du 
WISC8. Les deux groupes ont reçu des instructions différentes pour effectuer cette tâche : le groupe A 
a reçu pour instruction de commencer avec une rangée de trois blocs, le groupe B celle de 
commencer avec un « coin » de trois blocs. 
  Voici les données qui sont contenues dans le fichier EXCEL DSUPP42 : 
 
Groupe A 675 510 490 850 317 464 525 298 491 196 268 372 370 739 430 410
Groupe B 342 222 219 513 295 285 408 543 298 494 317 407 290 301 325 360  
 
1. Vérifier si la condition d’homoscédasticité préalable à l’application d’un test t de Student est 
rencontrée. 
2. En effectuant un test de Student avec l’approximation de Satterthwaite, peut‐on conclure à 
l’existence d’une différence significative de résultat entre les deux groupes ? 
3. L’application du test non paramétrique de Wilcoxon aboutit‐il à la même conclusion ? 
 
ESUPP43  
  
  On a recensé les résultats du vote de 180 étudiants lors de l’élection opposant deux 
candidats à la présidence du Cercle de Psychologie et on a obtenu la table suivante : 
 
Candidat A Candidat B
Filles 28 42
Garçons 76 34  
 
1. Dans la présente situation, quel est le test le plus adéquat pour éprouver l’indépendance des deux 
variables nominales ? Justifiez. 
2. Le choix des candidats est‐il indépendant du sexe des électeurs ? Justifiez en donnant la 
probabilité de dépassement du test bilatéral exact ? 
 
ESUPP44  
  
  Les données ci‐après9 ont été collectées dans le cadre d’une étude sur la pression sanguine 
systolique chez des sujets classifiés en fonction de leur usage du tabac ainsi que par rapport à leurs 
antécédents familiaux en termes de problèmes cardiaques et circulatoires. 
  Voici les données qui sont contenues dans le fichier EXCEL DSUPP44 : 
 

                                                            
8
Wechsler Intelligence Scale for Children 
9
  Boniface D.R., Experiment design and statistical methods for behavioural and social research, Chapman and 
Hall, London, 1995.  

Problèmes statistiques et utilisation de logiciels  ‐ Page 23 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

Antécédents Pression sanguine


Non fumeur Ex fumeur Fumeur
Présence 125 114 135
156 107 120
103 134 123
129 140 113
110 120 165
128 115 145
135 120

Absence 114 110 140


110 128 125
91 105 123
136 90 108
105 113
125 160
103
110  
 
  En privilégiant les antécédents comme première variable explicative dans une analyse de 
variance double hiérarchique (sommes de carrés de type I),  
 
1. Déterminez les différents effets significatifs intervenant dans cette analyse de variance double. 
2. Quelle est la valeur du coefficient de détermination 2 dans l’échantillon ? 
3. Quelle est la pression moyenne obtenue chez les fumeurs ayant des antécédents familiaux ? 
 
ESUPP45  
  
  From [ Daniel (1978)] 
 
  Torre et al.10 recorded the changes in rat cerebral and extra‐cerebral (platelet) serotonin (5‐
HT) after intraperitoneal administration of LSD‐25 and 1‐methyl‐d‐lysergic acid butanolamide (UML). 
They also took measurements on 11 controls. The results are shown in table below. Do these data 
provide sufficient evidence to indicate a difference among the three groups ? Use Kruskal‐Wallis test 
and determine the p value. 
  Data are in DSUPP45 EXCEL file. 
 
Controls 340 340 356 386 386 402 402 417 433 495 557
LSD25 294 325 325 340 356 371 385 402
UML 263 309 340 356 371 371 402 417  
 
4. ESUPP46 
  5.  
[Juin 2015] On considère la table de contingence ci‐après qui figure dans le fichier DSUPP46 : 
 
B1 B2 B3
A1 54 34 59
A2 21 75 67  

                                                            
10
Torre M., Bogetto F., Torre E., Effect of LSD‐25 and 1‐Methyl‐d‐Lysergic Acid Butanolamide on Rat Brain and 
Platelet Serotonin Levels, Psychopharmacologia, 36, 117‐122, 1974. 

Problèmes statistiques et utilisation de logiciels  ‐ Page 24 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

 
1. On souhaite déterminer si les deux variables nominales sont indépendantes. Quel test utilisez‐vous en 
l’occurrence ? Quelle est votre conclusion ? Justifiez. 
2. Quelle est, en pourcentages, la répartition des modalités de la variable B au sein de la modalité 
A1 ? 
 
ESUPP47  
  
  Dans une expérience destinée à comparer différentes méthodes d’enseignement de 
l’arithmétique, Wetherill11 divise aléatoirement 45 étudiants en cinq groupes d’effectifs égaux. 
  Deux groupes (A et B) reçoivent un enseignement selon la méthode traditionnelle et les trois 
autres (C, D et E) selon trois méthodes nouvelles distinctes. A l’issue de l’apprentissage, les étudiants 
sont soumis à un test de connaissance arithmétique. 
  Voici les données qui sont contenues dans le fichier EXCEL DSUPP47 : 
 
A B C D E
17 21 28 19 21
14 23 30 28 14
24 13 29 26 13
20 19 24 26 19
24 13 27 19 15
23 19 30 24 15
16 20 28 24 10
15 21 28 23 18
24 16 23   22 20
 
1. Déterminez les moyennes et écart‐types des résultats obtenus aux différentes méthodes. 
2. Peut‐on admettre qu’il existe une différence statistiquement significative entre les résultats 
obtenus par les différents groupes d’étudiants ? 
3. Comparez deux à deux les moyennes obtenues par les cinq groupes. Quels sont les groupes entre 
lesquels on rejette l’égalité de leur moyenne ? 
4. On souhaite comparer la moyenne regroupée des groupes A et B avec la moyenne regroupée des 
groupes D et E. Peut‐on tolérer l’existence d’une différence significative entre les moyennes des 
deux groupements ? Justifiez.  
 
ESUPP48  
  
  Les données du fichier EXCEL DSUPP48 dont une fraction est présentée dans le tableau ci‐
après sont relatives à la criminalité dans les états des U.S.A. en 1960 : 
 

                                                            
11
Wetherill G.B., Elementary statistical methods, Chapman and Hall, London, 1982. 

Problèmes statistiques et utilisation de logiciels  ‐ Page 25 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

Rate Age Ed Ex0 Ex1 LF M N NW U1 U2 W X


79,1 151,0 91,0 58,0 56,0 510,0 950,0 33,0 301,0 108,0 41,0 394,0 261,0
163,5 143,0 113,0 103,0 95,0 583,0 1012,0 13,0 102,0 96,0 36,0 557,0 194,0
57,8 142,0 89,0 45,0 44,0 533,0 969,0 18,0 219,0 94,0 33,0 318,0 250,0
196,9 136,0 121,0 149,0 141,0 577,0 994,0 157,0 80,0 102,0 39,0 673,0 167,0
123,4 141,0 121,0 109,0 101,0 591,0 985,0 18,0 30,0 91,0 20,0 578,0 174,0
68,2 121,0 110,0 118,0 115,0 547,0 964,0 25,0 44,0 84,0 29,0 689,0 126,0
96,3 127,0 111,0 82,0 79,0 519,0 982,0 4,0 139,0 97,0 38,0 620,0 168,0
155,5 131,0 109,0 115,0 109,0 542,0 969,0 50,0 179,0 79,0 35,0 472,0 206,0
85,6 157,0 90,0 65,0 62,0 553,0 955,0 39,0 286,0 81,0 28,0 421,0 239,0
… … … … … … … … … … … … …  
Rate  Crime rate (number of offences known to police per 1 000 000 population 
Age  Age distribution (the number of males aged 14‐24 per 1000 of total state population) 
Ed  Educational level (mean number of years of schooling x 10 of the population aged 25 years and above 
Ex0  Police expenditure (per capita expenditure of police protection by state and local government in 1960) 
Ex1  Police expenditure (as Ex0, but for 1959) 
LF  Labour force participation rate per 1000 civilian urban males in the age group 14‐24 
M  Number of males per 1000 females 
N  State population in hundred thousands   
NW  Number of non‐whites per 1000 
U1  Unemployment rate of urban males per 1000 in the age group 14‐24 
U2  Unemployment rate of urban males per 1000 in the age group 35‐39 
W  Wealth as measured by the median value of transferable goods and assets or family income (in units $10) 
X  Income inequality (number of families per 1000 earning less than the median income) 
 
1. Effectuez une régression multiple sur ces données afin de déterminer si le taux de criminalité peut 
être expliqué de manière pertinente par les autres variables présentes. 
2. Quelles sont les variables explicatives pour lesquelles on peut tolérer l’hypothèse de la nullité de 
leur coefficient dans l’équation de la régression (i = 0) ? 
3. En plaçant le seuil de tolérance à 0.10, y a‐t‐il des variables explicatives susceptibles de présenter 
un effet de colinéarité ? Quelle est la valeur de la corrélation entre ces variables ? 
 
ESUPP49  
  
  Quatre groupes d’élèves de l’enseignement secondaire ont été soumis à un test de 
mémorisation de liste de mots ayant un rapport avec l’informatique. Les résultats à ce test sont 
enregistrés pour chaque groupe dans une variable RESULT (un score de 0 correspondant à un code 
d’absence de l’élève) 
Les données figurent dans le fichier EXCEL DSUPP49 dont un extrait figure ci‐après : 
 
Groupe 1 1 1 1 … 2 2 2 … 3 3 3 …
Result 100,5 102,5 0 107,5 … 115 0 90 … 107,5 0 105 …  
  Construisez un sous‐échantillon des données formé par les élèves qui appartiennent au 
groupe 1 ou au groupe 4 et dont le résultat est ≥ 85 et ≤ 110. 
 
1. Quelle est la valeur du coefficient d’asymétrie de la variable RESULT au sein de ce sous‐échantillon 
et que pouvez‐vous conclure de cette valeur quant à la courbe de distribution des données ? 
2. Quelle est la valeur du coefficient d’aplatissement de la variable RESULT au sein de ce sous‐
échantillon et que pouvez‐vous conclure de cet indice quant à la courbe de distribution des 
données ? 
 

Problèmes statistiques et utilisation de logiciels  ‐ Page 26 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

ESUPP50  
  
  Dans le cadre d’une étude longitudinale dont les résultats figurent dans le schéma d’analyse 
ci‐après, trois mesures (variable MESURE) sont effectuées en cours d’année scolaire sur des élèves de 
l’enseignement primaire. Ces mesures sont réalisées sur les mêmes sujets durant trois années 
consécutives (variable ANNEE). 
  Sachant que deux types de test sont utilisés, chacun sous deux formes qui lui sont spécifiques 
(la variable « forme » étant dès lors subordonnée à la variable « type »), effectuez l’analyse de 
variance adéquate et donnez le tableau de l’ensemble des effets présents dans ce modèle. 
  Les données sont contenues dans le fichier EXCEL DSUPP50. 
 
Année1 Année2 Année3
TYPE FORME Mes1 Mes2 Mes3 Mes1 Mes2 Mes3 Mes1 Mes2 Mes3
1 A 20 21 21 32 42 37 32 32 32
1 A 67 48 29 43 56 48 39 40 41
1 A 37 31 25 27 28 30 31 33 34
1 A 42 40 38 37 36 28 19 27 35
1 A 57 45 32 27 21 25 30 29 29
1 B 39 39 38 46 54 43 31 29 28
1 B 43 32 20 33 46 44 42 37 31
1 B 35 34 34 39 43 39 35 39 42
1 B 41 32 23 37 51 39 27 28 30
1 B 39 32 24 30 35 31 26 29 32
2 A 47 36 25 31 36 29 21 24 27
2 A 53 43 32 40 48 47 46 50 54
2 A 38 35 33 38 42 45 48 48 49
2 A 60 51 41 54 67 60 53 52 50
2 A 37 36 35 40 45 40 34 40 46
2 B 59 48 37 45 52 44 36 44 52
2 B 67 50 33 47 61 46 31 41 50
2 B 43 35 27 32 36 35 33 33 32
2 B 64 59 53 58 62 51 40 42 43
2 B 41 38 34 41 47 42 37 41 46  
 
ESUPP51  
  
Un chercheur veut expliquer les scores des sujets de son échantillon à un test (variable 
métrique SCORE) par les variables nominales « école » (codée 1, 2) et « classe » (codée 1, 2, 3). 
 
1. Traduisez par leurs valeurs numériques correspondantes la décomposition des sommes de carrés
Sg = Sgˆ + Sε . 
2. Quel score le modèle explicatif prédira‐t‐il à un élève appartenant à la classe n° 3 de l’école n° 1 ? 
3. Quelle est, dans ce modèle explicatif, la valeur du coefficient de détermination 2 dans 
l’échantillon ? 
4. Quelle est la valeur de la différence entre cette valeur et celle (toujours dans l’échantillon) du 
coefficient de détermination du modèle où la variable métrique SCORE est expliquée par la seule 
variable nominale « école » ? 
 
Les données figurent dans le fichier EXCEL DSUPP51. 
 

Problèmes statistiques et utilisation de logiciels  ‐ Page 27 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

ESUPP52  
  
Trois mesures (M1, M2 et M3) ont été successivement effectuées par un chercheur sur les 48 
sujets de son échantillon. Les données sont reprises dans le fichier EXCEL DSUPP52. 
Sachant qu’il est souhaité d’utiliser un test paramétrique pour déterminer s’il existe une différence 
statistiquement significative entre ces trois résultats,   
 
1. Quel test pouvez‐vous utiliser ? 
2. Quelle est, en appliquant ce test, la valeur de la statistique obtenue ? Quelle est votre 
conclusion ? Justifiez.  
3. L’hypothèse de sphéricité est‐elle rencontrée. Justifiez en donnant la statistique de Mauchly et la 
probabilité correspondante. 
 
ESUPP53  
  
On considère le schéma expérimental suivant dont les données figurent dans le fichier EXCEL 
DSUPP53 : 
 
      Mesures 
ère ème
      1  Année  2  Année  3ème Année 
Sujets  Sexe  Classe  T1  T2  T3  T4  T5  T6 
s1      ...  ...  ...  ...  ...  ... 
s2                 
s3                 
...                 
 
Six mesures identiques (T1, T2, T3, T4, T5, T6) ont été effectuées sur les mêmes sujets durant 
leur scolarité primaire, deux durant la 1ère année, deux autres au cours de la 2ème année et les deux 
dernières durant la 3ème année dans trois classes comportant chacune le même nombre de filles et de 
garçons. Sachant que la variable nominale « sexe » est codée 1=Fille ‐ 2=Garçon et que la variable 
« classe » est codée par 1, 2, 3, 
 
1. Au niveau d’incertitude 0.05, quels sont les différents effets significatifs de ce modèle ? 
2. Quelle est la valeur de la statistique F relative à l’interaction entre la variable « sexe » et la 
variable temporelle « mesure » (variables Ti) ? 
3. Quelle est la valeur de la probabilité de dépassement relative à l’interaction entre la variable 
« classe » et la variable temporelle « année » ? 
4. Existe‐t‐il, chez les filles de la classe 2, une différence significative entre la première mesure de 
l’année 1 et la première mesure de l’année 2 ? Quelle est la valeur de la probabilité de 
dépassement obtenue dans ce cas ? 
 
ESUPP54 
  
Une analyse de variance simple a été réalisée sur les données du fichier EXCEL DSUPP54 en 
expliquant les résultats à un test (variable métrique TEST) par la variable nominale GROUPE (codée 
« cont »=groupe contrôle – « exp »=groupe expérimental). 
On effectue ensuite une analyse de covariance en faisant intervenir la variable métrique 
PRETEST comme covariable. 
 

Problèmes statistiques et utilisation de logiciels  ‐ Page 28 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

1. Au niveau de la signification statistique, l’effet de la variable GROUPE est‐il resté similaire ? 
Justifiez. 
2. Dans le modèle d’analyse de covariance, quels sont, pour la variable TEST, la valeur observée, la 
valeur prédite et le résidu relatifs au 1er sujet de l’échantillon ? 
3. Quelles sont les moyennes ajustées de la variable TEST dans les modalités de la variable 
GROUPE ? 
4. Eprouvez l’hypothèse de parallélisme. Quelle est votre conclusion ? 
 
ESUPP55  
  
Les données ci‐après concernent une expérimentation effectuée sur des rats de trois groupes 
d’âge différents et représentent le nombre d’essais nécessaire à chacun des rats pour une course 
sans erreur au sein d’un labyrinthe. 
 
90 jours 30 31 39 62 23 39 8 47 22 37 22 8 29 28
120 jours 10 19 43 29 5 3 10 28 21 19 14 18 12 2
150 jours 2 10 32 6 5 30 23 12 34 19 33 23 17 18  
 
On souhaite tester l’hypothèse qu’il existe une différence significative de résultats selon l’âge 
des rats. Sachant que les données sont reprises dans le fichier EXCEL DSUPP55, 
 
1. Quelle analyse paramétrique appliquez‐vous à ce schéma expérimental pour rencontrer cet 
objectif ? 
2. Quelle est la probabilité de dépassement obtenue ? Quelle est votre conclusion ? 
3. Quel test non paramétrique pourrait‐on appliquer à ces données pour tester l’existence d’une 
différence entre les résultats ? Quelles sont les valeurs de la statistique et de la probabilité de 
dépassement obtenue dans ce cas ? Quelle est votre conclusion ? 
 
ESUPP56  
  
202 étudiants ont répondu à un questionnaire comprenant 13 questions à choix multiples 
(une seule réponse correcte). 
Voici la distribution du nombre des réponses correctes enregistrées : 
 
Nombre Fréquence
0 1
1 5
2 6
3 8
4 11
5 15
6 22
7 28
8 33
9 27
10 20
11 15
12 8
13 3  
 
  Les données figurent dans le fichier EXCEL DSUPP56. 
 

Problèmes statistiques et utilisation de logiciels  ‐ Page 29 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

1. Déterminez la moyenne et la variance du nombre de réponses correctes. 
2. Quel autre indice central est‐il préférable d’utiliser dans ce cas ? Quelle est sa valeur ? 
3. Quel est le mode de cette distribution ? 
 
ESUPP57  
  
On considère le tableau de contingence ci‐après : 
 
    Variable U 
    u1  u2 
Variable  v1  11  13 
V  v2  10  6 
 
On veut tester l’indépendance des variables nominales U et V. 
 
1. Quelle est la valeur obtenue pour la statistique chi‐carré de Pearson ? 
2. Quelle est la valeur de la probabilité de dépassement obtenue par le test exact de Fisher 
(bilatéral) ? 
3. Peut‐on conclure à l’indépendance des variables U et V ? Pourquoi ? 
 
ESUPP58  
  
Les données du tableau de contingence ci‐après figurent dans le fichier EXCEL DSUPP58 : 
 
    Variable M 
    m1  m2  m3 
Variable  n1  45  32  51 
N  n2  31  17  25 
 
1. Quelle est la distribution des pourcentages de la variable M au sein de la modalité « n1 » de la 
variable N ? 
2. Quelles sont les fréquences marginales de la variable M ? 
3. Quelle est, sous hypothèse d’indépendance, la valeur théorique attendue pour la cellule située en 
1ère ligne et en 2ème colonne ?  
 
ESUPP59  
  
[Juin 1999] La corrélation bisérielle de point est la corrélation « classique » (de Bravais‐
Pearson) entre une variable métrique et une variable binaire prenant les valeurs 1 et 0. 
A partir des valeurs de la variable SCORE figurant dans le fichier EXCEL DSUPP59, on souhaite créer 
une variable binaire REUSSITE valant 1 si SCORE >= 12 et 0 sinon. 

1. Quelle est la valeur de la corrélation bisérielle de point entre la variable binaire REUSSITE et la 
variable métrique « TEST » figurant dans le même fichier ? 
2. Peut‐on conclure que cette corrélation est significative ? Justifiez. 
 
ESUPP60  
  

Problèmes statistiques et utilisation de logiciels  ‐ Page 30 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

On considère les données ci‐après qui représentent les valeurs de trois variables métriques 
G, G1 et G2 mesurées sur un échantillon de 10 sujets, données qui figurent dans le fichier EXCEL 
DSUPP60. On effectue la régression de la variable G sur les variables G1 et G2 

G G1 G2
139 4,4 0,91
124 5 1,09
129 5,3 0,95
84 5 1,17
144 6,3 1,04
113 1,9 0,81
141 3,5 0,96
136 5,3 1,21
155 6,3 1,05
129 4,2 1,12  

1. Quelle est la valeur de la corrélation multiple ? 
2. On détermine ensuite, pour chacun des 10 sujets, la valeur prédite  Ĝ  par le modèle de régression 
et on calcule la corrélation de Bravais‐Pearson entre G et les valeurs obtenues pour Ĝ . Quelle est la 
valeur obtenue pour cette corrélation ? 
3. Quelle est la propriété de la régression qu’illustrent les deux résultats précédents ? 
 
ESUPP61  
  
[Juin 1999] Le fichier EXCEL DSUPP61 comprend les variables métriques G1, G2, G3 et G4 et 
la variable nominale N3. A partir des valeurs de la variable G1, on souhaite créer une variable binaire 
REUSSITE valant 1 si G1 > 60 et 0 sinon. On teste ensuite, par un chi‐carré, l’indépendance entre cette 
variable REUSSITE et la variable nominale N3 (codée 1, 2, 3). 

1. Quelle est la valeur obtenue pour la statistique de Pearson ? 
2. Quelle est votre conclusion ? Justifiez. 
3. Quelle est, sous hypothèse d’indépendance, la valeur attendue dans la cellule correspondant aux 
modalités « Réussite=1 – N3=2 » ? 
 
ESUPP62  
  
[Juin 2000] En utilisant le fichier EXCEL DSUPP62 qui contient les variables métriques G1, G2, 
G3 et G4, on effectue la régression linéaire de la variable G1 sur les autres variables. 
 
Quelle est la matrice des covariances  entre les explicateurs ? 
 
ESUPP63  
  
[Août 2000] Le fichier EXCEL DSUPP63 comprend la variable métrique SCORE. On souhaite 
créer automatiquement une nouvelle variable RESULT recodant SCORE en suivant la règle ci‐après : 

Si SCORE < 4, RESULT est égal à SCORE +1 
Si SCORE  4 et SCORE <7, RESULT est égal à SCORE + 2 
Si SCORE  7, RESULT est égal à SCORE + 3 

Problèmes statistiques et utilisation de logiciels  ‐ Page 31 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

1. Quelle est la moyenne de la variable RESULT ? 
2. Quelle est la valeur de la corrélation de Pearson entre les variables SCORE et RESULT ? 
 
ESUPP64  
  
[Juin 2000] On considère les données ci‐après qui représentent les valeurs de deux variables 
métriques X1 et X2 mesurées sur un échantillon de 10 sujets, données qui figurent dans le fichier 
EXCEL DSUPP64. On calcule la corrélation de Bravais‐Pearson entre les variables X1 et X2. 

X1 X2
139 9
124 10
129 9
84 11
144 10
113 8
141 9
136 12
155 10
129 11  
 
1. Quelle est la valeur de la corrélation ? 
On crée ensuite deux nouvelles variables XX1 et XX2 qui sont respectivement les variables 
standardisées (ou réduites) de X1 et X2. Pour rappel, Si Y est une variable métrique, les valeurs de 
Y -μ Y
sa variable standardisée (ou réduite) s’obtiennent par la formule   où Y et Y sont la 
σY
moyenne et l’écart‐type de Y. 
2. On calcule ensuite la corrélation entre XX1 et XX2. Quelle est la valeur de cette  corrélation ? 
3. Quelle propriété de la corrélation peut‐on induire des deux résultats précédents ? 
 
ESUPP65  
  
[Septembre 2000] La variable SCORE du fichier EXCEL DSUPP65 reprend les résultats en 
statistique des étudiants de 1ère licence en psychologie lors de la première session de l’année 1998‐
1999. La variable SCORE du fichier EXCEL DSUPP651 reprend de manière similaire les résultats de la 
1ère session pour l’année 1999‐2000. 
 
1. Quelle est la moyenne des résultats en statistique pour l’année 1998‐1999 ? 
2. Quelle est la moyenne des résultats en statistique pour l’année 1999‐2000 ? 
3. Au niveau d’incertitude 5%, y a‐t‐il une différence statistiquement significative entre ces deux 
moyennes ? Expliquez la procédure que vous employez et justifiez. 
 
ESUPP66  
  
De [Howell, 1998] 
 
Le fichier EXCEL DSUPP66 contient les données d’Eysenck12. Le problème consiste en la 
comparaison de quatre groupes de sujets. 

                                                            
12
Eysenck, M.W., Age differences in incidental learning, Developmental Psychology, 1974, 10, 936‐994.

Problèmes statistiques et utilisation de logiciels  ‐ Page 32 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

L’un des groupes se composait de jeunes sujets à qui l’on présentait des mots dans une 
condition qui suscitait un niveau peu élevé de traitement. Un deuxième groupe se composait de 
jeunes sujets à qui l’on donnait une tâche nécessitant le niveau de traitement le plus élevé. Les deux 
autres groupes comprenaient des sujets plus âgés à qui l’on donnait des tâches  requérant un niveau 
de traitement soit peu élevé, soit élevé. 
Les données sont les suivantes : 
 
Jeunes/Peu élevé 8 6 4 6 7 6 5 7 9 7
Jeunes/Elevé 21 19 17 15 22 16 22 22 18 21
Âgés/Peu élevé 9 8 6 8 10 4 6 5 7 7
Âgés/Elevé 10 19 14 5 10 11 14 15 11 11  
 
1. Effectuez une analyse de variance à un critère de classification sur ces données. Quel est le 
résultat obtenu ? 
2. Effectuez ensuite une analyse de variance à un critère de classification en opposant les 
traitements 1 et 3 combinés (n = 20) aux traitements 2 et 4 combinés. A quelle question 
répondez‐vous ? Quelle est votre interprétation ? 
 
ESUPP67  
  
[Septembre 1998] On considère la variable SCORE contenue dans le fichier EXCEL DSUPP67. 
Dans l’échantillon que constituent les données de ce fichier, la variable SCORE a‐t‐elle une 
distribution symétrique, asymétrique gauche ou asymétrique droite ? Pourquoi ? 
 
ESUPP68  
  
De manière à s’assurer de l’efficacité d’un nouvel antidépresseur, dix patients dépressifs sont 
constitués de manière aléatoire en deux groupes. Cinq patients sont placés dans un premier groupe 
où l’antidépresseur leur est administré durant une période de six mois. Les cinq autres patients, 
situés dans le deuxième groupe, reçoivent un placebo durant cette même période. 
On assume l’hypothèse que le niveau de dépression des patients dans les deux groupes était 
égal préalablement à l’expérience. 
Après six mois, le niveau de dépression des patients est mesuré en aveugle par un 
psychologue (qui ne connaît pas les conditions expérimentales auxquelles les sujets ont été soumis). 
Cette mesure s’effectue sur une échelle où les plus hauts scores indiquent les niveaux de dépression 
les plus importants. 
Voici les données qui figurent dans le fichier EXCEL DSUPP68 : 
 
  Groupe 1  11  1  0  2  0 
  Groupe 2  11  11  5  8  4 
 
  Les résultats obtenus indiquent‐ils un effet significatif du nouvel antidépresseur testé ? 
 
ESUPP69  
  
En appliquant le test de Kolmogorov‐Smirnov pour deux échantillons indépendants aux 
données de l’exercice ESUPP68, peut‐on en déduire que la distribution des données dans la 
population dont le premier groupe est extrait est cohérente avec la distribution des données dans la 
population dont le second groupe est extrait ? 
 

Problèmes statistiques et utilisation de logiciels  ‐ Page 33 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

 
ESUPP70  
  
[Juin 2009] On veut expliquer la variable métrique SCORE par la variable nominale GROUPE 
(codée 1, 2, 3, 4). Les  données figurent dans le fichier EXCEL DSUPP70. 
  
1. Quelle est la valeur de la corrélation multiple entre les deux variables ? 
2. Quel est l’intervalle de confiance, au niveau d’incertitude 5 %, sur la moyenne de la variable 
SCORE dans la modalité GROUPE = 3 ? 
 
 
ESUPP71  
  
[Septembre 2010] On considère la variable métrique TEST qui figure dans le fichier EXCEL 
DSUPP71. 
 
1. Quelle est la valeur du coefficient d’asymétrie de cette variable ? Quelle est en conséquence 
l’allure de sa distribution ? 
2. En partant de la variable TEST, on crée une nouvelle variable RECODAGE comme suit : 
Si TEST < 7       RECODAGE = 10 
Si 7  TEST < 10    RECODAGE = 15 
Si 10  TEST < 13    RECODAGE = 20  
 Si TEST  13     RECODAGE = 25 
Quelle est la médiane de la variable RECODAGE ? 
 
ESUPP72  
  
Dickie et al.13 étudient les changements observés chez des patients souffrant d’embolie 
pulmonaire aiguë. 
Le tableau ci‐après montre la pression artérielle pulmonaire (en mm de mercure) chez neuf 
patients avant et 24 heures après application de la thérapie. 
 
Patient 1 2 3 4 5 6 7 8 9
0 heures 33 17 30 25 36 25 31 20 18
24 heures 21 17 22 13 33 20 19 13 9
 
En utilisant le test de Wilcoxon, on souhaite déterminer si les données permettent d’inférer 
que la thérapie utilisée diminue la pression artérielle pulmonaire. 
Les données figurent dans le fichier EXCEL DSUPP72. 
 
ESUPP73  
  
[Juin 2001] On considère les données suivantes qui sont reprises dans le fichier EXCEL 
DSUPP73 : 
 

                                                            
13
Dickie K.J., Kenneth J., de Groot J., Cooley R.N., Bond T.P., Guest M.M., Hemodynamic Effects of Bolus 
Infusion of Urokinase in Pulmonary Thromboelism, Am. Rev. Respir. Dis., 109, pp. 48‐56, 1974. 

Problèmes statistiques et utilisation de logiciels  ‐ Page 34 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

Test1 Test2
Albert 31 38
Bernard 38 37
Charles 41 26
David 40 35
Emile 29 41
Fernand 28 42  
 
1. Déterminez la valeur de la corrélation de Kendall entre les résultats aux deux tests. 
2. Quelle conclusion pouvez‐vous tirer concernant la structure des données à partir de la valeur 
obtenue pour cette statistique ? 
 
ESUPP74  
  
Dans le contexte de l’exercice ESUPP14, on souhaite tester par la méthode des contrastes s’il 
existe une différence significative entre le groupe d’âge « 90 jours » et les deux autres groupes. 
 
1. Quelle est la valeur de la statistique F obtenue dans ce test ? 
2. Au niveau d’incertitude 5 %, peut‐on conclure au caractère significatif de cette différence ?   
 
ESUPP75  
  
Le fichier EXCEL DSUPP75 contient les résultats en statistique (cotés sur 20) des étudiants de 
la 1ère licence en psychologie à la première session de l’examen de l’année académique 2000‐2001. 
 
1. Déterminez la répartition des effectifs des différentes cotes observées. 
2. En ne considérant que les étudiants ayant présenté l’examen (donc en excluant les cotes de 
présence = 0), quel est le pourcentage des étudiants ayant obtenu moins de 12/20 ? 
 
ESUPP76  
  
Lors de l’embauche de pilotes, chaque candidat est soumis à un test psychologique qui le 
classe comme introverti ou extraverti, et à un test d’aptitude au pilotage où il peut être déclaré apte 
ou inapte. 
Voici les données : 
Introverti Extraverti
Apte 14 34
Inapte 31 41
 
  Les résultats suggèrent‐ils une association linéaire entre aptitude au pilotage et type de 
personnalité ? 
 
ESUPP77 
  
Le fichier EXCEL DSUPP77 comprend la variable dichotomique GROUPE (dont les modalités 
sont codées par 1 et 2) et la variable métrique MESURE. On souhaite déterminer si les données des 
deux groupes peuvent être considérées comme provenant d’une même population, c’est‐à‐dire 
comme ayant une distribution identique. 
 

Problèmes statistiques et utilisation de logiciels  ‐ Page 35 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

1. Amédée GENIUS, statisticien médiocre, effectue dans ce but un test de Student entre les deux groupes. 
Quelle la valeur de la probabilité de dépassement obtenue et quelle conclusion va‐t‐il en tirer ? 
2. Vérifiez l’hypothèse en recourant au test de Kolmogorov‐Smirnov pour deux échantillons. Quelle 
conclusion pouvez‐vous tirer ? Justifiez. 
 
ESUPP78 
  
[Juin 2002] Dans une analyse de variance double hiérarchique, un chercheur veut expliquer 
les scores des sujets de son échantillon à un test (variable métrique SCORE) par les variables 
nominales « école » (codée 1=Ecole A, 2=Ecole B) et « classe » (codée dans chaque école par 1, 2, 3). 
Les données sont reprises dans le fichier EXCEL DSUPP78 : 
Explicitez numériquement les différents termes de l’équation d’enrichissement du
modèle hiérarchique Sg =Sgˆ + Sĝ, -Sgˆ +Sε,  
ESUPP79 
  
  Douze mesures de capacité en arithmétique ont été successivement effectuées sur des 
élèves d’école primaire. Trois mesures ont été accomplies durant chacun des deux semestres de 
l’année scolaire et ce, durant deux années consécutives. 
  En outre, ont été pris en considération le sexe des enfants (fille – garçon) et le niveau 
capacitaire (subjectif) attribué aux élèves par leurs enseignants (niveau codé par « faible » – 
« satisfaisant » – « bon » – « très bon ») 
  Les données figurent dans le fichier EXCEL DSUPP79 et le schéma expérimental se présente 
comme suit : 

ANNEE 1 ANNEE 2
Semestre 1 Semestre 2 Semestre 1 Semestre 2
Niveau Sexe Mes1 Mes2 Mes3 Mes4 Mes5 Mes6 Mes7 Mes8 Mes9 Mes10 Mes11 Mes12
bon fille 13 33 50 24 33 48 49 51 54 63 75 85
… … … … … … … … … … … … … …
 
  En ayant effectué l’analyse de variance adéquate, 
 
1. Les effets  ANNEE et SEXE sont‐ils significatifs au niveau d’incertitude 5 % ? Justifiez. 
2. Quelle est la valeur de la statistique F pour l’effet du semestre ? 
3. Y a‐t‐il un effet significatif de la variable NIVEAU sur les résultats ? Justifiez. 
4. Quel score le modèle prédira‐t‐il à une fille lors de la 3ème mesure du 1er semestre de la 2ème 
année, indépendamment de son niveau subjectif de capacité ? 
5. Chez les filles de niveau « très bon », y a‐t‐il une différence significative entre la dernière mesure 
effectuée en fin de chacune des deux années ? 
 
ESUPP80 
  
  Un pédagogue souhaite faire subir un test à des élèves réputés à haut potentiel (surdoués) 
de deux écoles qui accueillent ce type d’enfants dans des classes spécialisées. 
  Voici les données qui figurent dans le fichier EXCEL DSUPP80 : 

Problèmes statistiques et utilisation de logiciels  ‐ Page 36 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

Ecole A Ecole B
Classe1 Classe2 Classe1 Classe2 Classe3
17 16 16 11 10
15 13 13 13 12
18 11 11 17 7
10 12 9 8 11
13 14 15 10 10
14 15 12 12 11
18 16 15 11 9
19 12 13
15 12
14 10
11
12
 
1. Effectuez l’analyse de variance adéquate permettant d’expliquer le score obtenu par les deux 
variables nominales ECOLE et CLASSE. Quelle est la valeur du coefficient de détermination dans 
l’échantillon ?  
2. Y a‐t‐il un gain significatif apporté par la prise en considération de la variable CLASSE ? Justifiez. 
3. En fonction des codages utilisés, comment s’écrirait l’équation du modèle complet en mode sur‐
paramétré ? 
 
ESUPP81 
  
[Juin 2004] On considère le schéma expérimental suivant : 
 
    Année 1  Année 2 
Sujets  Sexe   Score1 
Score2  Score3  Score1  Score2  Score3 
S1  Fille  12 
12  14  13  13  16 
S2  Garçon  11 8  13  11  14  14 
S3  Garçon  11 
14  14  12  16  11 
S4  Fille  14 
15  12  15  16  12 
S5  Fille  13 
14  16  14  15  12 
S6  Fille  15 
13  15  15  16  17 
S7  Garçon  12 9  13  11  14  18 
S8  Fille  10 
8  13  12  13  12 
S9  Garçon  11 
13  16  11  15  16 
s10  Fille  12 
15  15  13  15  14 
 
Sachant que six scores relatifs à des épreuves similaires ont été successivement mesurés sur 
les mêmes sujets d’un échantillon de garçons et de filles de l’enseignement secondaire, les trois 
premiers lors de la première année et les trois autres aux périodes correspondantes de la deuxième 
année, encodez les données dans un fichier permettant à SAS d’effectuer l’analyse statistique 
(paramétrique) adéquate de ces données.  
 
1. Au niveau d’incertitude 0.05, y a‐t‐il un effet significatif des variables ANNEE, SEXE et SCORE ? 
Justifiez. 
2. Quelle est la valeur de la statistique F relative à l’interaction entre la variable « sexe » et la 
variable « score » ? 

Problèmes statistiques et utilisation de logiciels  ‐ Page 37 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

3. Existe‐t‐il chez les filles, une différence significative entre le premier score de l’année 1 et le 
premier score de l’année 2 ? Quelle est la valeur de la probabilité de dépassement obtenue dans 
ce cas ? 
 
ESUPP82 
  
  Un chercheur soumet un groupe de sujets à cinq tests. Les deux premiers tests sont 
administrés au mois de septembre, les trois derniers au mois de décembre. 
Les résultats ont été consignés dans deux fichiers EXCEL, à savoir respectivement les fichiers 
EXCEL DSUPP821 et DSUPP822 dont un extrait figure ci‐après : 
 
NOM TEST1 TEST2 NOM TEST3 TEST4 TEST5
André 13,5 12,5 Daniel 14 11 19,5
Bernard 15,5 12 Georges 12 21
Charles 14,5 10 Ivan 13 12 19
Marc 13,5 Béatrice 15 12 20
Paul 14,5 13 André 15,5 20
Henri 14 12 Emilie 14 13 21
René 15 13,5 Jacques 15,5 13 19,5
Louis 15 13 Gabrielle 14 13 21
Emile 15,5 13,5 Marie 14,5 12,5 20,5
Josiane 15,5 13 Fanny 15 13 20,5
Ovide 15 Pascale 11,5 19
Anne 15,5 13 Fernand 16 12,5 21
Daniel 16 14 Chantal 14,5 12 19
Caroline 15,5 14 Laure 16 12 21,5
Sarah 15,5 13,5 Ophélie 15 12
… … … … … …  
  En examinant les données, le chercheur constate, d’une part, que certains résultats sont 
manquants et, d’autre part, que l’encodage n’a pas été réalisé par ordre alphabétique mais bien 
selon l’ordre chronologique de remise par les sujets des réponses aux tests. 
 
1. Réalisez, via SAS, une fusion cohérente de ces deux fichiers sur base de l’identification des sujets 
(variable NOM). 
2. Déterminez la moyenne de chaque sujet sur l’ensemble des cinq tests. Lorsqu’un (ou plusieurs) 
résultat(s) est(sont) manquant(s) pour un sujet, la moyenne doit s’établir sur les quatre (ou trois, 
ou deux, …) scores obtenus (abstraction faite des scores manquants). 
 
ESUPP83 
  
[Août 2003] On considère ci‐après la distribution des fréquences des modalités d’une 
variable « Appréciation » : 
 
INSUFFISANT   10 
FAIBLE    11 
SATISFAISANT  12 
BIEN      6 
TRES BIEN    2 
 
1. Quel est l’indice central le plus approprié pour décrire cette variable ? 
2. Quelle est ici sa valeur ? 
 

Problèmes statistiques et utilisation de logiciels  ‐ Page 38 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

ESUPP84 
  
  [Août 2014] On souhaite expliquer le comportement de la variable métrique RESULTAT par 
les variables métriques SCORE1 et SCORE2. Les données figurent dans le fichier EXCEL DSUPP84. 
 
1. Donnez, au niveau d’incertitude 5 %, l’intervalle de confiance sur le coefficient de la variable 
explicative SCORE2. 
2. Quelle est, dans la population, l’estimation de la valeur du coefficient de détermination de cette 
régression ? 
 
ESUPP85 
  
  Les résultats de plusieurs études suggèrent une relation inverse entre la sécrétion de cortisol 
et le comportement agressif.  
Pour vérifier cette tendance, une étude de 199714 a comparé les niveaux de cortisol 
plasmatiques de garçons agressifs et non agressifs souffrant d’ADHD (Attention‐Deficit Hyperactivity 
Disorder).  
Après trois jours d’un régime pauvre en monoamines et un jeûne d’une nuit, des échantillons 
de niveau de cortisol plasmatique (en µg/100mL) ont été obtenus après l’insertion d’un cathéter 
dans l’avant‐bras des enfants. 
Le poids des enfants influençant les taux d’hormones présents dans le sang, celui‐ci a été 
introduit dans l’analyse. 
Les données obtenues se trouvent dans le fichier EXCEL DSUPP85. 
Effectuez la régression de la variable TAUX sur la variable GROUPE, avec comme covariée, le 
poids des enfants. 
 
1. Y a‐t‐il une différence entre le taux de cortisol plasmatique des enfants agressifs et non agressifs 
quand le taux est expliqué par la seule variable GROUPE ? Quelle est la moyenne du taux dans 
chacun des deux groupes ? 
2. Quand est‐il lorsqu’on fait intervenir le poids des enfants comme covariable ? Développez. 
3. Dans le modèle de covariance, quel niveau de cortisol le modèle prédira‐t‐il à un garçon ADHD 
agressif ? Même question dans le modèle d’analyse de variance simple ? 
 
ESUPP86 
  
  Une étude française15 a cherché à déterminer l’impact de la prématurité et de 
l’environnement familial sur les performances neurodéveloppementales d’enfants très prématurés 
sans paralysie cérébrale. 
Sur base de certaines caractéristiques, 96 enfants très prématurés (moins de 33 semaines de 
gestation) ont été suivis jusqu'à l’âge de 5 ans. Plusieurs mesures de fonctionnement ont été prises, 
dont le QI et le quotient de développement (évalué par la capacité à dessiner un « bonhomme »). 
Les données de cette étude figurent dans le fichier EXCEL DSUPP86. 

                                                            
14
 Schulz, K.P., Halperin, J.M., Newcorn, S.V., & Gabriel, S. (1997). Plasma cortisol and aggression in boys with 
ADHD. Journal of the American Academy of Child and Adolescent Psychiatry, 36(5) : 605‐609. 

15
Burguet, A., Monnet, E., Roth, P., Hirn, F., Vouaillat, C., Lecourt‐Ducret, M., Fromentin, C., Dornier, L., Helias, 
J., Choulot, M.J., Allemand, H., Maillet, R., & Menget, A. (2000). Neurodevelopmental outcome of premature 
infants born at less than 33 weeks of gestational age, with no cerebral palsy at the age of five years. Archives de 
Pédiatrie, 7(4), 357‐368.  

Problèmes statistiques et utilisation de logiciels  ‐ Page 39 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

Effectuez la régression du quotient de développement sur la prématurité. 
 
1. Quel pourcentage de variance la prématurité explique‐t‐elle du quotient de développement ?  
2. Le modèle est‐il pertinent ? 
3. Quel quotient de développement le modèle prédira‐t‐il à un enfant né après 26,4 semaines de 
gestation ? 
 
ESUPP87 
  
  [Juin 2016] Le fichier EXCEL DSUPP87 comprend les valeurs d’une variable métrique SCORE. 
 
1. On souhaite tester la normalité de la variable métrique SCORE en utilisant le test de Shapiro‐Wilk. 
Quelle est votre conclusion au niveau d’incertitude 5 % ? Justifiez en donnant la statistique et la 
probabilité de dépassement obtenues. 
2. On souhaite comparer cette conclusion avec celle résultant de l’application du test de normalité de 
Kolmogorov‐Smirnov. Quelle concluez‐vous de cette comparaison. Explicitez. 
 
ESUPP88 
  
  Une étude de 200316 a cherché à déterminer si les intérêts et les comportements de 
demande d’aide des parents d’enfants autistes sont différents selon le mode d’apparition des 
symptômes de leur enfant. 
Un questionnaire électronique a été utilisé pour comparer des parents d’enfants avec un 
début non régressif (N=35) et des parents d’enfants avec début régressif (N=10). 
Ce questionnaire a permis de récolter des informations notamment sur le délai d’obtention 
du diagnostic, les préoccupations au sujet du développement de l’enfant et le support perçu des 
pédiatres. 
Les données concernant le délai (en semaines) avant l’obtention du diagnostic se trouvent 
dans le fichier EXCEL DSUPP88. 
 
1. Vérifiez l’hypothèse d’homogénéité des variances entre les deux groupes. 
2. Peut‐on conclure à une différence significative entre les moyennes des deux groupes ?  
3. Que valent ces moyennes ? 
 
ESUPP89 
  
  Une étudiante en psychologie à l’Université de Liège a effectué un stage en neuropsychologie 
de l’enfant ayant pour but de comparer les performances d’enfants de 7 groupes d’âge à des tests 
censés mesurer les capacités d’inhibition. 
Le fichier EXCEL DSUPP89 reprend une partie de ses données concernant la version pour 
enfants du test de Stroop. La variable dépendante est le pourcentage de réponses correctes pour 
tous les items interférents du test. 
On cherche à déterminer si le groupe d’âge a une influence sur ce pourcentage de réponses 
correctes. 
 
1. Les variances des différents groupes sont‐elles homogènes ? 
2. Quel(s) test(s) pourrait‐on alors appliquer ? 

                                                            
16
 Evans, S.P. (2003). Patterns of concern and help‐seeking behaviour among parents of children with autism. 
Dissertation Abstracts‐International Section A :Humanities and Social Sciences, 63(12A) : 4272. 

Problèmes statistiques et utilisation de logiciels  ‐ Page 40 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

3. La correction effectuée amène‐t‐elle à la même conclusion que celui de l’ANOVA simple ? Quelle 
est cette conclusion ? 
 
ESUPP90 
  
[Août 2014] On considère ci‐après la distribution des fréquences des pointures de souliers 
d’homme observée chez un marchand. Elle figure dans le fichier EXCEL DSUPP90. 
 
Pointures   38   18 paires  Pointures   43  11 paires 
39  45 paires      44   8 paires 
40  64 paires      45   6 paires 
41  23 paires      46   3 paires 
42  16 paires 
 
1. Parmi les indices centraux, quel est le plus approprié pour décrire cette distribution de pointures ? 
2. Quelle est ici sa valeur ? 
 
ESUPP91 
  
[Juin 2004] On effectue la régression linéaire de la variable métrique Y sur les variables 
métriques X1, X2, X3. Les données figurent dans le fichier EXCEL DSUPP91. 
 
1. Quelle est, dans la population, l’estimation du coefficient de détermination de la régression ? 
2. Donnez le tableau des covariances entre les variables explicatives X1, X2 et X3. 
 
ESUPP92 
  
[Août 2016] Dans le fichier EXCEL DSUPP92 figure la répartition groupée ci‐après des 
résultats à un examen de statistique. 
 
Cote 0 1 3 4 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Effectifs 24 2 2 1 2 1 3 5 2 6 15 3 14 19 24 3 15 8 7  
1. Sachant qu’il faut exclure les cotes ayant la valeur zéro, quelle est la moyenne des résultats obtenus 
par les étudiants ? 
2. Dans le même contexte, quel est le pourcentage d’étudiants ayant une cote  12 et < 18 ? 
 
ESUPP93 
  
[Août 2008] On considère ci‐après la distribution des fréquences d’une variable P (Poids d’enfants à 
la naissance) : 
 
2.2 kg < P  2.6 kg       8 
2.6 kg < P  3.0 kg     11 
3.0 kg < P  3.4 kg    16 
3.4 kg < P  3.8 kg      9 
3.8 kg < P  4.2 kg      6 
 
1. Parmi les indices centraux, quel est le plus approprié pour décrire cette variable ? 
2. Quelle est ici sa valeur ? 
 

Problèmes statistiques et utilisation de logiciels  ‐ Page 41 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

ESUPP94 
  
[Juin 2009] On souhaite effectuer une régression linéaire d’une variable métrique Y sur les 
variables métriques X1, X2, X3, X4, X5, X6, X7 et X8. Les données sont contenues dans le fichier EXCEL 
DSUPP94. 
 
1. Quelle est la valeur du coefficient de détermination dans l’échantillon ? 
2. En examinant la structure des données de votre échantillon, quelle est la raison qui a généré cette 
valeur du coefficient de détermination, ainsi que l’absence du test du f et de sa probabilité de 
dépassement ? 
 
ESUPP95 
  
[Août 2009] Un psychologue veut tester s’il existe une différence significative de 
performance (mesurée par la variable métrique P) entre quatre groupes de sujets identifiés par la 
variable GROUPE. Pour ce faire, il souhaite utiliser le test non paramétrique de Kruskal‐Wallis. 
  Les données figurent dans le fichier EXCEL DSUPP95. 
 
1. Quelle est la valeur de la statistique obtenue ? 
2. Quelle est votre conclusion ? Justifiez. 
 
ESUPP96 
  
  On considère la variable métrique VALEUR contenue dans le fichier EXCEL DSUPP96. 
 
1. On souhaite tester l’hypothèse de la nullité de la moyenne de cette variable dans la population. 
Quelle est votre conclusion ? Justifiez. 
2. Quel est l’intervalle interquartile de la variable VALEUR ? 
 
ESUPP97 
  
[Juin 2012] Le fichier EXCEL DSUPP97 comprend les valeurs de trois mesures T1, T2 et T3 
effectuées au cours du temps sur les mêmes sujets. On souhaite effectuer sur ces données une 
ANOVA en mesures répétées et éprouver le test de sphéricité. 
 
1. Quel test utilisez‐vous ? 
2. Quelle est la valeur de la statistique obtenue ? Quelle est votre conclusion ? Justifiez. 
3. Quelle est en la circonstance la valeur du  ε de Huynh‐Feld ? 
 
ESUPP98 
  
On considère le fichier EXCEL DSUPP98 comprenant une variable métrique SCORE et une 
variable nominale GROUPE. On souhaite réaliser une analyse de variance simple sur ces données 
expliquant la variable SCORE par la variable GROUPE. 
 
1. Eprouvez l’hypothèse d’homogénéité des variances. Quelle est la valeur de la statistique obtenue 
et sa probabilité de dépassement ? Quelle est votre conclusion ? Justifiez. 
2. Compte tenu de ce résultat, quelle est la valeur du F corrigé de Welch. Quelle est votre 
conclusion ? 

Problèmes statistiques et utilisation de logiciels  ‐ Page 42 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

3. Effectuez une comparaison post hoc entre les moyennes des trois groupes. Quel(s) est(sont) le(s) 
groupe(s) dont la différence des moyennes est significative au niveau d’incertitude 5 % ? 
 
ESUPP99 
  
[Juin 2012] On considère dans le fichier EXCEL DSUPP99 la variable SCORE qui représente le 
résultat à un test de performance mnésique pour quatre groupes indépendants de souris dont les 
résultats sont repris au sein des modalités de la variable GROUPE (codées de 1 à 4). La modalité 1 
correspond aux résultats d’un groupe contrôle alors que les résultats repris dans les modalités 2, 3 et 
4 correspondent aux groupes expérimentaux ayant respectivement reçu une dose de 0, 5 et 10 
mg/kg de thioperamide. On souhaite déterminer s’il y a une différence significative de résultat, au 
niveau d’incertitude 5%, entre le groupe contrôle et l’ensemble des trois groupes expérimentaux.  
 
1. A quelle méthode recourez‐vous dans ce type de situation pour répondre à la question ? 
2. Quelle est, en appliquant ici cette méthode, la valeur de la statistique et de la probabilité de 
dépassement obtenues ? Quelle est votre conclusion ? Justifiez. 
 
ESUPP100 
  
Le fichier EXCEL DSUPP100 reprend les données partielles d'une étude internationale menée 
dans plusieurs pays. Trois pays sont ici envisagés (codés par A, B, C). Dans chacun des pays, un certain 
nombre d'écoles ont été sélectionnées : 3 écoles dans le pays A (codées 1, 2, 3), 4 écoles dans le pays 
B (codées 1, 2, 3, 4) et 2 écoles dans le pays C (codées 1 et 2). 
Un test de performance en lecture a été administré aux élèves de chacune des différentes 
écoles et un score au test a été obtenu pour chacun. 
On demande d’effectuer l’analyse de variance adéquate permettant d’expliquer la variable 
métrique SCORE par les variables nominales PAYS et ECOLE. 
 
1. Le modèle explicatif complet est‐il pertinent ? Justifiez en donnant la statistique et la probabilité 
de dépassement. 
2. Quel score le modèle prédira‐t‐il à un élève de l'école n° 2 du pays B ? Au niveau d’incertitude 5%, 
quel est l’intervalle de confiance sur le score prédit à cet élève ? 
3. Dans l’équation du modèle riche (en mode sur‐paramétré), quel est le coefficient de la variable 
indicatrice relative à l'école n° 1 du pays C ? 
 
ESUPP101 
  
On considère le schéma expérimental figurant ci‐après (données à encoder) : 
Sachant que six résultats relatifs à une même épreuve de test ont été successivement mesurés sur les 
mêmes sujets de deux groupes d’enfants (groupe expérimental – groupe contrôle), les trois premiers 
résultats lors d’une première année et les trois autres aux périodes correspondantes d’une deuxième 
année, encodez ces données dans un fichier permettant à SAS d’effectuer l’analyse statistique 
paramétrique et adéquate de ces données.  
 
1. Au niveau d’incertitude 5 %, les résultats entre les deux années peuvent‐ils être considérés comme 
statistiquement significatifs ? Justifiez votre conclusion en donnant la statistique et la probabilité de 
dépassement obtenues. 
2. L’interaction entre la variable « résultat » et la variable « groupe » est‐elle significative au niveau 
d’incertitude 5 % ? Justifiez en donnant la statistique et la probabilité de dépassement. 

Problèmes statistiques et utilisation de logiciels  ‐ Page 43 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

3. Le résultat obtenu au point précédent est‐il corroboré par l’examen du correctif de Greenhouse‐
Geisser ? Justifiez votre réponse. 
4. Existe‐t‐il dans le groupe « contrôle », une différence significative entre le deuxième résultat de 
l’année 1 et le deuxième résultat de l’année 2 ? Justifiez votre conclusion en donnant la statistique et 
la probabilité de dépassement. 
 
    Année 1  Année 2 
Sujets  Groupe   Result1  Result2  Result3  Result1  Result2  Result3 
S1  Expér  12  12  14  13  13  16 
S2  Contr  8  11  13  11  14  14 
S3  Contr  11  14  14  12  16  11 
S4  Expér  14  15  12  15  16  12 
S5  Expér  13  14  16  14  15  12 
S6  Expér  15  13  15  15  16  17 
S7  Contr  9  12  13  11  14  18 
S8  Expér  10  8  13  12  13  12 
S9  Contr  11  13  16  11  15  16 
S10  Expér  12  15  15  13  15  14 
 

 
ESUPP102 
  
(Données à encoder) On a constitué un échantillon équilibré de filles et de garçons au sein 
duquel trois groupes ont été définis : élèves en avance de scolarité (« Avancé »), élèves en âge 
normal (« Normal »), élèves en retard de scolarité (« Retardé »). Tous les élèves subissent un test 
d’aptitude destiné à mesurer leur niveau de compétence. 
Voici les résultats obtenus suite à la passation de l’épreuve : 

Avancé Normal Retardé


13.5 15 15.5
18.5 14.5 11.1
17.5 15.5 14.5
Garçons 19.5 15 13
14.5 16.7 12.5
16 16 13
15.3 15.5 12.4

Avancé Normal Retardé


11 15.5 15.2
12.5 16 15.4
14.5 17 11.3
Filles 13.5 16.4 13.7
15.5 18.1 11.2
12.2 16.7 10.1
14.5 14.8   13.1
 
Encodez ces données dans un fichier afin qu’elles puissent être lues correctement par SAS. 
Effectuez ensuite une analyse de variance double où la variable « Score au test » est expliquée par les 
variables catégorielles « Genre » et « Groupe ». 
 

Problèmes statistiques et utilisation de logiciels  ‐ Page 44 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

1. Dans le test de la pertinence de ce modèle explicatif, quelle est la valeur de la statistique 
obtenue ? Quelle est votre conclusion ? Justifiez. 
2. Qu’est‐ce que le modèle va prédire comme score à une fille appartenant au groupe « Normal » ? 
Quel est l’intervalle de confiance, au niveau d’incertitude 5 %, sur la valeur prédite ? 
3. Chez les garçons, pouvez‐vous tolérer l’hypothèse de l’homogénéité des variances dans les trois 
groupes définis ? Quel test utilisez‐vous ? Quelle est votre conclusion ? Justifiez en donnant la 
statistique et la probabilité de dépassement.  
 
ESUPP103 
  
(Données à encoder) Un chercheur veut expliquer les scores des sujets de son échantillon à un test 
(variable métrique SCORE) conjointement par la variable catégorielle GROUPE et par la covariable métrique 
INITIAL. Voici les données : 
 
GROUPE INITIAL SCORE GROUPE INITIAL SCORE
1 117.0 16.5 2 128.0 24.0
1 109.0 30.5 2 116.5 29.5
1 117.0 23.5 2 121.5 27.0
1 122.0 32.0 2 109.5 18.5
1 116.0 24.5 2 133.0 34.5
1 123.0 22.0 2 120.0 26.0
1 130.5 32.5 2 129.5 18.5
1 126.5 20.0 2 122.0 18.5
1 113.0 24.5 2 125.0 21.5  
 
Il est demandé d’encoder ces données dans un fichier permettant à SAS d’effectuer les 
traitements adéquats permettant de répondre aux questions ci‐après : 
 
1. Le modèle explicatif global est‐il pertinent ? Justifiez en donnant la statistique et la probabilité de 
dépassement. 
2. Quel est, au niveau d’incertitude 5 %, l’intervalle de confiance sur la moyenne de la variable dépendante 
SCORE pour les sujets appartenant au groupe n° 2 ? 
3. Quelles sont, dans les modalités de la variable GROUPE, les moyennes de la variable SCORE ajustées par 
la covariable INITIAL ? 
4. Dans présent modèle, peut‐on tolérer l’hypothèse du parallélisme ? Justifiez votre conclusion en 
donnant la statistique et la probabilité de dépassement obtenues. 
 
ESUPP104 
  
(Données à encoder) Un magazine publicitaire souhaite déterminer s’il existe chez le lecteur des 
différences de mémorisation entre trois types de présentation publicitaire d’un produit. 
La première publicité est humoristique, la deuxième relativement technique et la troisième est une publicité 
comparative entre plusieurs marques concurrentes. 
273 personnes d’un échantillon aléatoire ont été interrogées pour déterminer la publicité sur le produit 
concerné dont elles se souvenaient. 
Voici les données : Humoristique 73     Technique 93     Comparatif 107  
Les données recueillies sont‐elles compatibles avec une distribution uniforme des mémorisations entre les 
trois types de publicité ? Justifiez en donnant la statistique et la probabilité de dépassement. 
 
    

Problèmes statistiques et utilisation de logiciels  ‐ Page 45 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

   
SOLUTIONS DES EXERCICES SUPPLEMENTAIRES
 
ESUPP01  
 
1. Dans le cadre de cette analyse de variance en mesures répétées, on obtient le tableau de résultats 
suivant : 

 
Il n’y a pas d’effet significatif de la méthode (p = 0.5168 > 0.05). 
2. Il y a un effet très significatif entre l’avant et l’après sevrage (p = < 0.0001), indépendamment de 
la méthode employée. 
3. Globalement, sans tenir compte du moment où la mesure est effectuée, il n’y a pas de différence 
significative entre les trois méthodes. Cependant, l’interaction entre la variable METHODE et la 
variable MOMENT est significative (p = 0.0089). On peut donc en conclure que l’écart des 
différences entre les moyennes « avant » et « après » diffère significativement entre les trois 
méthodes.  
4. Il y a une différence très significative entre les moyennes des scores à la maison et au travail (p < 
0.0001). 
5. L’interaction entre les variables METHODE et LIEU n’est pas significative (p = 0.3457). On peut dès 
lors en conclure que les écarts entre les moyennes des scores à la maison et au travail ne se 
différencient pas de manière significative au sein de chaque méthode. 

Problèmes statistiques et utilisation de logiciels  ‐ Page 46 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

 
ESUPP02 
 
1. rs = 0.97143 
2. tk = 0.88571       p < 0.0001 
 
ESUPP03  
 
1. 

 
2. Y = 3.528923 + 0.068936 X1 
s = 1.425153 
s = 0.030724 
3. Y = 3.512098 + 0.068543 X1 + 0.003406 X2 
 
ESUPP04 
 
1. 13.8924000 
2. 45 % 
 
ESUPP05 
 
1. Le test de Kolmogorov‐Smirnov pour deux échantillons 
2. On obtient une statistique D = 0.3667 et une probabilité de dépassement p = 0.0354 (< 0.05). Ceci 
conduite à rejeter, au niveau d’incertitude 5 %, l’hypothèse que les deux échantillons proviennent 
d’une distribution identique des données. 
 
ESUPP06  
 
La valeur importante de la statistique 2, soit 37.2293, et le caractère très significatif de la probabilité 
de dépassement obtenue (p < 0.0001 donc < 0.05) conduisent à rejeter l’hypothèse d’indépendance 
entre la race des adolescentes interrogées et leur attitude devant le problème pondéral. 
 
ESUPP07  
 
1. La valeur obtenue pour la statistique F (8.54) et la faible valeur de la probabilité de dépassement 
(p = 0.0091 < 0,05) conduisent à rejeter l’hypothèse d’égalité des moyennes entre les deux 
groupes. 
2. On obtient pour cette interaction : F = 27.63 et p = < 0.0001. 

Problèmes statistiques et utilisation de logiciels  ‐ Page 47 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

Cette interaction très significative implique, compte tenu de l’effet significatif des variables 
ANNEE et MESURE, que l’effet (significatif) des différentes mesures au sein des différentes années 
ne se marque pas de manière similaire au sein de chaque année. 
3. La valeur obtenue pour la statistique t (3.38) et la probabilité de dépassement p = 0.0082 (< 0.05) 
conduisent à conclure à une différence significative entre les deux résultats au niveau 
d’incertitude 5 %. 
Les moyennes correspondantes sont : 42.0 et 28.4. 
 
ESUPP08 
  
1. On obtient : 
Moyenne   :  179.1964 
Variance   :  47.66036 
Ecart‐type  :  6.903648   
C.V.   :  3.852559 
 
2. [176.5194 ; 181.8733] 
3. 178.7 
4. Asymétrie  : 0.313756 
Aplatissement :‐0.271276 
La distribution est platycurtique et présente une asymétrie gauche. 
5. Le test de Shapiro‐Wilk fournit la valeur W = 0.982888 avec p = 0.9130 (≥ 0.05), ce qui permet de 
tolérer l’hypothèse de normalité. 
 
ESUPP09  
 
1. y1 = 0.6263902818 + 0.0009082213 x1 – 0.000957133 x2 + 0.0014897378 x3 
2.  

 
3.  = 0.258342    ρ̂  = 0.2054 
4. 0.878966 
 
ESUPP10  
 
La statistique obtenue vaut 23.8800 avec une probabilité de dépassement  p < 0.0001 (et donc < 0.05), 
ce qui amène à rejeter l’hypothèse d’absence de différences systématiques entre les quatre testings.  
On peut en outre vérifier que la valeur obtenue est largement supérieure à la valeur critique donnée par 
la table (7.68) 
 
ESUPP11  
 

Problèmes statistiques et utilisation de logiciels  ‐ Page 48 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

On obtient t = 0.45 avec une probabilité de dépassement p = 0.6597 dont la valeur nettement 
supérieure à 0.05 ne permet pas de rejeter l’hypothèse de l’égalité des moyennes et, dès lors, amène 
à conclure à l’inefficacité de la campagne. 
 
ESUPP12  
 
1. [‐3.9691387 ; 3.2358053] 
2. Il n’y a pas, au niveau d’incertitude 5 %, de différence significative entre les résultats au posttest 
et ceux au prétest puisque l’intervalle de confiance sur la différence des résultats contient la 
valeur 0 (zéro) 
 
ESUPP13  
 
1. La valeur obtenue du 2 = 18.2534 et la probabilité de dépassement p = 0.0011 (< 0.05) amènent 
à rejeter l’hypothèse d’indépendance entre le niveau du bureau de poste et la qualité de 
l’attitude envers le client. 
2. V =  0.2352 
 
ESUPP14  
 
1. On obtient F = 5.15 et p = 0.0103 (< 0,05). On peut donc rejeter l’hypothèse d’égalité des 
moyennes entre les trois groupes d’âge. 
2. Sg = 5894       Sĝ = 1231.857143      Sε = 4662.142857 
3. Il vient : 
 

 
 
On peut donc conclure à une différence significative des moyennes entre le 1er groupe (90 jours) 
et chacun des deux autres tout en tolérant l’égalité de ces moyennes entre le 2ème et le 3ème 
groupe. 
 
ESUPP15  
 
1. Si on désigne par hi. et h.j (i = 1,2 et j = 1,2,3) respectivement les variables indicatrices de ligne et 
de colonne, l’équation du modèle de régression s’écrit : 
SCORE = 786 h1. h.1 + 518 h1. h.2 + 548 h1. h.3 + 871.6 h2. h.1 + 563 h2. h.2 + 592 h2. h.3  

Problèmes statistiques et utilisation de logiciels  ‐ Page 49 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

2. 2 = 0.832848 
3. 548 
 
ESUPP16  
 
H = 27.6178 avec p < 0.0001 (< 0.05). On peut donc admettre une différence significative des 
médianes entre les quatre groupes. 
 
ESUPP17  
 
1. Moyenne = 3.8533333  Variance = 2.4511712    Ecart‐type = 1.5656217 
2. La médiane qui vaut 4 
3.  

 
 
ESUPP18  
 
1. 

Problèmes statistiques et utilisation de logiciels  ‐ Page 50 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

 
2. On observe deux effets significatifs : 
 Un effet du moment du testing    F = 21.06   p = 0,0002 
 Un effet d’interaction entre la faculté et ce moment   F = 6.78   p = 0.0170 
On peut donc en conclure qu’une différence significative entre les résultats observés est liée au 
moment où le test a été effectué, mais que cette différence se marque différemment selon la 
faculté. 
3. t = ‐4.84    p = 0.0005 
4. t = ‐3.40    p = 0.0193 
5. 13.1666667 
 
ESUPP19  
 
En utilisant l’option EXACT du test de Wilcoxon pour échantillons indépendants, on obtient la 
statistique T = 32.0000 et la probabilité de dépassement bilatérale p = 0.0064 (< 0.05). On conclut 
donc au rejet de l’égalité des médianes entre les deux groupes. 
 
ESUPP20  
 
1. L’explication de la variable dépendante par les deux variables nominales croisées fournit : F = 3.50 
avec une probabilité de dépassement p = 0,0099 (< 0,05) qui conduit au rejet de l’hypothèse 2 = 0. 
On peut donc conclure à un effet significatif des deux variables nominales explicatives sur la 
variable dépendante. 
2. Dans l’échantillon, 2 = 0.505370. 
3. F = 9.51 et p = 0.0051 (< 0,05) conduisent à conclure à une différence significative entre hommes 
et femmes. 
4. On obtient successivement : 
Ssexe = 63.28125000  Sconditions = 87.59375000 Sinteraction = 12.34375000 
C’est la variable CONDITIONS qui prend la plus grande part (soit 53.67 %). 
6. Entre la condition 1 et les conditions 3 et 4. 
L’application du test de Newman‐Keuls fournit le tableau suivant : 
 

Problèmes statistiques et utilisation de logiciels  ‐ Page 51 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

 
 
ESUPP21  
 
1. F = 2.41 et p = 0.1045 (≥ 0.05). On doit tolérer l’hypothèse 2 = 0 dans la population et donc 
admettre que les trois variables explicatives X1, X2 et X3 n’ont pas d’effet significatif sur la 
variable dépendante Y. 
2. On obtient : 
 

 
 
La très faible valeur 0.0003… ( < 0.10) de la tolérance entre X1 et X2 indique que ces deux 
variables explicatives sont très corrélées et qu’il y a dès lors phénomène de multi colinéarité. 
Cette situation a pour effet d’augmenter la variabilité des valeurs obtenues pour les coefficients 
de la régression, comme le montre le tableau ci‐après : 
 

 
 
On peut y remédier de plusieurs manières. L’une d’entre elles consiste à abandonner une des 
deux variables explicatives, par exemple X2. 

Problèmes statistiques et utilisation de logiciels  ‐ Page 52 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

En effectuant la régression de la variable Y sur les seules variables X1 et X3, on obtient : 
F = 3.80 et p = 0.0433 (< 0.05) ce qui conduit à rejeter l’hypothèse 2 = 0 ! En outre, comme le 
montre le tableau ci‐après, la variabilité des coefficients de l’équation de régression a nettement 
diminué. 
 

 
 
ESUPP22  
 
1. La valeur médiane du nombre de mots lus est 1059.  
2. Il vient : 
 

 
 
3. On obtient r = 0.99261 avec une probabilité de dépassement p < 0.001 (et donc < 0.05). On peut 
donc en déduire l’existence d’une forte relation linéaire entre les deux variables. 
 
ESUPP23  
 
1. On obtient pour résultats : F = 38.50 et p < 0.0001 (et donc < 0.05), ce qui permet de conclure à la 
pertinence du modèle et de rejeter l’hypothèse 2 = 0 au niveau d’incertitude 5 %. 
2. Les moyennes ajustées sont : Pour Gr1 : 176.906040 et pour GR2 : 233.813660  
3. La probabilité de dépassement obtenue dans le test d’interaction des variables GROUPE et X5 est p = 
0.4384 (≥ 0.05) ce qui permet de tolérer l’hypothèse du parallélisme. 

Problèmes statistiques et utilisation de logiciels  ‐ Page 53 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

 
ESUPP24 
 
1. A : 20     B : 17     C : 14     D : 9 
2. GROUPE est une variable nominale. Par suite, le calcul d’une médiane n’a pas de sens. 
 
ESUPP25 
 
1. En désignant les variables « Contrôle en fin de repas » et « Contrôle 1h30 plus tard » respectivement 
par CFINREP et C1H30, on obtient le tableau suivant : 
 

 
 
qui indique une corrélation significativement différente de zéro entre le poids et les deux taux 
d’alcoolémie. Par contre, les probabilités de dépassement obtenues amènent à tolérer 
l’hypothèse  = 0 entre l’âge et ces mêmes taux. 
2. Pour le contrôle en fin de repas, on obtient : t = 3.73    p = 0.0022  Significatif 
Pour le contrôle 1h30 plus tard, on obtient : t = 2.73    p = 0.0181   Significatif 
3. Dans le sous‐échantillon des hommes : 
CFINREP = 0.7459102322 + 0.0041833224 AGE ‐ 0.0064163676 POIDS 
Dans le sous‐échantillon des femmes : 
CFINREP = 1.409430048 ‐ 0.001910898 AGE  ‐ 0.010231524 POIDS 
4. 0.339 g/litre 
5. 0.26389 
 
ESUPP26 
 
1. Effet significatif : F = 13.81 et p <  0.0001 (< 0.05). 
La comparaison des moyennes par le test de Tukey fournit les résultats suivants : 
 

Problèmes statistiques et utilisation de logiciels  ‐ Page 54 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

 
 
2. 0.04168958 
3. Poison 1 = 0.6175000     Poison 2 = 0.5443750     Poison 3 = 0.2762500 
 
ESUPP27 
 
1. p = 0.2351 (≥0.05). On ne peut pas rejeter l’hypothèse d’indépendance entre les deux variables. 
2.  = ‐0.2500 
3.

 
 

Problèmes statistiques et utilisation de logiciels  ‐ Page 55 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

ESUPP28 
 
1. Il vient pour l’effet de la lentille : F = 2.78 avec une probabilité de dépassement p = 0.0711 dont la 
valeur (≥ 0.05) conduit à tolérer, au niveau d’incertitude 5%, l’hypothèse de la nullité de l’effet de 
la puissance de la lentille sur le temps de réaction. 
2. Pour l’œil gauche : 
t = ‐4.38    p = 0.0047    Très significatif 
Pour l’œil droit : 
t = ‐1.65    p = 0.1497    Non significatif 
 
ESUPP29 
 
1. On obtient H = 23.1182 avec p < 0.0001 (< 0.05). On peut donc conclure à l’existence d’une 
différence significative entre les trois groupes de sujets. 
2. L’utilisation de l’option DSCF fournit une statistique DSCF = 5.8361 avec une probabilité de 
dépassement p = 0.0001 (<0.05) ce qui permet de constater une différence significative entre les 
deux groupes d’alcooliques (codés 2 et 3)) 
 
ESUPP30 
 
1. Poids = ‐ 1.691061160 + 3.372451647 Age 
2. F = 20.50 et p = 0.0002 permettent de rejeter l’hypothèse 2 = 0, soit l’hypothèse que la variable 
« âge » n’expliquerait rien du critère « poids ». 
3. 84.903055 
4. 44.83 % 
 
ESUPP31 
 
1. Il vient 
 

Problèmes statistiques et utilisation de logiciels  ‐ Page 56 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

 
 
2. La comparaison par un t de Student apparié entre le 1er et le 3ème item chez les adultes bons 
lecteurs montre une différence de moyenne de 1.2000 et fournit  les valeurs : 
t = 3.21  p = 0.0327    Effet significatif. 
 
ESUPP32 
 
1. On obtient r = 0.3136 avec p = 0.378, valeur qui ne permet pas de rejeter l’hypothèse d’une 
corrélation nulle entre les deux variables. 
2. 121.3255556 
 
ESUPP33 
 
1. En n’oubliant pas que la variable « école » est ici un facteur aléatoire (= échantillonné), il vient : 
 

 
 
2. 2 = 0.551238 
3. Moyenne = 26.6250000 
 
ESUPP34 
 
1. Une statistique 2 écrasante de 197.3749 avec une probabilité de dépassement p < 0.0001 (< 0.05)  
conduit à rejeter très significativement l’hypothèse d’indépendance entre le type de carburant et le 
type de voiture. 
2. V = 0.2928 
 
ESUPP35 
 
1. rpb = ‐ 0.54038 avec p = 0.0139. 

Problèmes statistiques et utilisation de logiciels  ‐ Page 57 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

2. Par similitude avec les conclusions apportées au calcul d’une corrélation de Bravais‐Pearson, la 
valeur obtenue pour la probabilité de dépassement, soit 0.0139 < 0.05, conduit à rejeter 
l’hypothèse rpb = 0. Il semble donc y avoir une relation significative entre la performance au travail 
le matin et la perception qu’ont les employés de leur moment de meilleur rendement dans la 
journée. 
Pour rappel, le signe de la corrélation n’est pas à considérer. En effet, il dépend uniquement du 
choix arbitraire d’attribution des valeurs de codage à l’une et l’autre des modalités de la variable 
dichotomique. 
 
ESUPP36 
 
1. 0.96427 
2. On obtient une valeur t = ‐19.03 avec p < 0.0001 (<0.005) ce qui conduit au rejet de l’hypothèse 
d’égalité au cours du temps entre les moyennes de demandeurs d’emplois chez les hommes et 
chez les femmes. 
 
ESUPP37 
 
1. On obtient les valeurs F = 3.98 et  p = 0.0305 (< 0.05) qui permet de rejeter, au niveau 
d’incertitude 5%, l’hypothèse de l’absence d’un effet de la variable DROGUE sur la variable 
dépendante POST. 
2. Les moyennes de la variable DROGUE sont : 
 

 
 
3. On obtient les valeurs F = 18.10 et  p < 0.0001 (< 0.05). Le modèle explicatif est donc pertinent au 
niveau d’incertitude 5%. 
4. Les moyennes ajustées sont : 
 

 
 
5. Dans le modèle de covariance avec effet d’interaction entre les explicateurs, l’interaction 
PRE*DROGUE  fournit la valeur de la statistique F = 0.59 et  la probabilité p = 0.5606 supérieure à 
0.05 qui permet de tolérer l’hypothèse de parallélisme. 
 
ESUPP38 
 
1. On obtient rs = ‐0.33566. Cette valeur n’est pas inférieure à la valeur critique de la table pour n = 
12 (soit ‐0.5804) et donc, on ne peut pas rejeter l’hypothèse de la nullité de la corrélation. Notons 

Problèmes statistiques et utilisation de logiciels  ‐ Page 58 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

que la probabilité de dépassement relative au test de Bravais‐Pearson (p = 0.2861) conduit 
également à la même conclusion. 
2. La valeur obtenue pour tk = ‐0.24242 > ‐0.455 (valeur critique de la table pour n = 12) conduit à la 
même conclusion qu’au point 1. 
 
ESUPP39 
 
1. On obtient une valeur de la statistique F = 2.58 avec une probabilité de dépassement p = 0.1135 
(> 0.05) qui conduit à tolérer l’hypothèse d’égalité des moyennes des résultats entre les deux 
groupes. 
2. 2 = 0.042624. 
3. Le modèle d’analyse de covariance fournit comme effet pour la variable GROUPE une statistique F 
= 4.43 avec une probabilité de dépassement p = 0.0398 (< 0.05) qui a fait apparaître un effet 
significatif de la variable GROUPE du fait de la présence de la covariée.
4. 0.396788 – 0.042624 = 0.354164
 
ESUPP40 
 
1. TAUX = 0.5965501599 ‐ 0.0140176047 TEMPS + 0.0030303020 PERFORM 
2. On obtient F = 23.27 avec une probabilité de dépassement p < 0.0001 (<0.05) qui amène à rejeter 
l’hypothèse 2 = 0. 
3. 63.2818 % 
4. 0.6056 
5. En examinant les sommes de carrés de type III : 
 

 
 
Ce tableau montre que la performance a un effet significatif sur la variable dépendante (p < 
0.0001) alors que l’effet de la variable TEMPS est non significatif (p = 0.1413). 
6. On obtient : 
 

 
 
ESUPP41 
 
1. On obtient les valeurs suivantes : F = 2.77 et p = 0.0360 (< 0.05) qui conduisent à rejeter 
l’hypothèse d’égalité des moyennes entre les cinq types d’électrodes. 
Cependant, si on éprouve l’hypothèse de la sphéricité, celle‐ci n’est pas  respectée (on obtient W = 
0.100249 pour une valeur de χ² = 28.559551 et une probabilité de dépassement p = 0.0008). Dès lors, 

Problèmes statistiques et utilisation de logiciels  ‐ Page 59 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

en tenant compte de l’approximation de Greehouse‐Geisser (p=0.0762) ou de Huynh‐Feldt 
(p=0.0651), on doit tolérer l’hypothèse d’égalité des moyennes. 
2. Un test de Student apparié montre une différence significative, au niveau d’incertitude 5 %, entre les 
Type2 et Type 4 puisqu’elle fournit pour résultats : t = 2.19 et p = 0.0456 (<0.05) 
3. Type 1 = 189.0000000 ; Type 2 = 297.1333333 ; Type 3 = 259.2000000 ; Type 4 = 158.2000000 ; Type 5 
= 143.4666667 
 
ESUPP42 
 
1. Le test de Fisher fournit un F = 3.21 avec p = 0.0306 qui conduit à rejeter l’hypothèse d’égalité des 
variances 
2. On obtient une valeur approchée du t égale à 2.23 avec une probabilité de dépassement p = 
0.0353 qui conduit à rejeter l’hypothèse d’égalité des moyennes entre les deux groupes. 
3. Le test de Wilcoxon pour deux échantillons indépendants fournit la statistique S = 315.0000 avec 
une probabilité de dépassement bilatérale « exacte » de p = 0.0549 qui, strictement, ne permet 
pas (de peu il est vrai) de rejeter l’hypothèse d’égalité des médianes entre les deux groupes. 
Notons que la conclusion apportée par l’approximation normale (Z) et celle de l’approximation de 
Student (t) conduisent à la même interprétation. 
 
ESUPP43 
 
1. Le test exact de Fisher puisqu’il s’agit d’un tableau 2 × 2 avec 1 degré de liberté. 
2. On rejette l’hypothèse d’indépendance entre les candidats et le sexe des électeurs puisque la 
probabilité de dépassement bilatérale du test exact de Fisher est p = 0.0002 < 0.05. 
 
ESUPP44 
 
1. On obtient le tableau suivant : 
 

 
 
Il n’y a aucun effet significatif au niveau d’incertitude 5 %. 
2. Dans l’échantillon, 2 = 0.235679. 
3. 126.850000 
 
ESUPP45 
 
Le test de Kruskal‐Wallis fournit les valeurs suivantes : H = 6.2341 et p = 0.0443. Ceci amène, au 
niveau d’incertitude 5%, à rejeter l’hypothèse de l’égalité des médianes entre les trois groupes. 
 
ESUPP46 
 
1. Le test du chi‐carré d’indépendance. On obtient les valeurs 2 = 29.7033 avec une probabilité de 
dépassement p < 0.0001 (< 0.05) qui permettent de  rejeter l’hypothèse d’indépendance entre les deux 
variables catégorielles. 
2. On obtient les pourcentage suivants : 36.73 %  23.13 % 40.14 % 

Problèmes statistiques et utilisation de logiciels  ‐ Page 60 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

 
ESUPP47 
 
1. On obtient : 
 

 
2. La valeur du F (= 15.27) et celle de la probabilité de dépassement p < 0.0001 (< 0.05) conduisent à 
rejeter l’hypothèse d’égalité des moyennes entre les différents groupes. 
3. En appliquant le test « Post Hoc » de Tukey, on peut déterminer les groupes qui diffèrent 
significativement : 
A ‐ C 
B ‐ C 
B ‐ D 
C ‐ E 
D ‐ E 
4. Par la méthode des contrastes, on obtient les valeurs F = 0.46 et p=0.5015 (≥ 0.05) qui conduisent 
à tolérer l’égalité des moyennes entre les groupements AB et DE. 
 
ESUPP48 
 
1. Au niveau de la pertinence du modèle explicatif, on obtient une valeur F = 9.33 et une probabilité 
de dépassement p < 0.0001 (< 0.05) qui amènent à rejeter l’hypothèse 2 = 0 et dès lors, à conclure 
à une influence significative des variables explicatives sur la variable dépendante  « taux ». 
2. EX0, EX1, LF, M, N, NW, U1 et W. 
3. Les variables EX0 (tolérance =0.01057) et EX1 (tolérance = 0.01016). La corrélation entre ces deux 
variables est 0.99359. 
 
ESUPP49 
 
Indice d’asymétrie : ‐0.7571689   → la courbe est asymétrique droite 
Indice d’aplatissement : 1.2555231  → la courbe est leptocur que 
 
ESUPP50 
 
On obtient : 
 

Problèmes statistiques et utilisation de logiciels  ‐ Page 61 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

 
 
ESUPP51 
 
1. La décomposition  Sg = Sgˆ + Sε  donne  52089.97917 = 2937.35417 + 49152.62500 
2. 336.250000 
3. 0.056390 
4. 0.056390 ‐ 0.004579 = 0.051811 
 
ESUPP52 
 
1. L’analyse de variance en mesures répétés 
2. F = 0.40 avec une probabilité de dépassement obtenue p = 0.6703 (≥ 0.05). On doit donc tolérer 
l'hypothèse de l’égalité des trois moyennes de résultats obtenus. 

Problèmes statistiques et utilisation de logiciels  ‐ Page 62 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

3. On doit rejeter l’hypothèse de sphéricité au niveau d’incertitude 5 %. En effet, la statistique du 
test de Mauchly fournit une valeur 2 = 7.1767785 avec une probabilité de dépassement p = 
0.0276 (< 0.05) 
 
ESUPP53 
 
1. Tous les effets dont la probabilité de dépassement est < 0.05, à savoir les effets « classe », 
l’interaction « sexe × classe »,  « année », l’interaction triple « année × sexe × classe », « mesure », 
l’interaction triple « mesure × sexe × classe » et l’interaction quadruple entre toutes les variables 
en présence « année × mesure × sexe ×classe ». 
Néanmoins, si on éprouve l’hypothèse de la sphéricité, l’interaction quadruple n’est plus 
significative (W=0.85 p=0.0395) et fournit, via les correctifs , une probabilité de dépassement 
non significative tant pour Greehouse‐Geisser (p=0.0557) que pour Huynh‐Feldt (p=0.0531).  
2. F = 2.21 
3. p = 0.2281 
4. La valeur du t obtenue (t  = ‐1.53) et la valeur de la probabilité de dépassement p = 0.1705  (≥ 
0.05) conduit à tolérer l’hypothèse de l’égalité des moyennes entre les deux mesures dans le 
sous‐échantillon concerné. 
 
ESUPP54 
 
1. Utilisée comme seul prédicteur dans l’analyse de variance simple, la variable GROUPE fournit 
comme valeurs F = 4.47 et p = 0.0389, apparaissant ainsi comme ayant un effet significatif sur la 
variable dépendante. En présence de la covariée PRETEST, l’effet de la variable GROUPE se 
caractérise par les valeurs F = 3.93 et p = 0.0524 et donc apparaît  comme devenu non significatif 
au niveau d’incertitude 5 %. 
2. Valeur observée : 0.42200000 – valeur prédite : 0.37513085 – résidu : 0.04686915. 
3. Dans le groupe « contrôle » : 0.37770203 – dans le groupe « expérimental » : 0.33591412. 
4. Dans le test du parallélisme, les valeurs obtenues du F = 1.67 et de la probabilité de dépassement 
correspondante p = 0.2015 (≥ 0.05) conduisent à tolérer l’hypothèse d’égalité des pentes des 
droites de régression dans les deux modalités de la variable nominale explicative. 
 
ESUPP55 
 
1. Une analyse de variance simple. 
2. p = 0.0113 (< 0.05). On conclut au rejet de l’égalité des moyennes entre les trois groupes de rats. 
3. L’Analyse de variance de Kruskal‐Wallis. On obtient les valeurs H = 7.9427 et p = 0.0188 (< 0.05) 
qui conduisent à rejeter l’hypothèse testée de l’égalité des médianes des trois groupes. 
 
ESUPP56 
 
1. Moyenne = 7.4009901     variance = 7.5846756 
2. La médiane. Sa valeur est 8. 
3. Mode = 8. 
 
ESUPP57 
 
1. 2 = 1.0693 

Problèmes statistiques et utilisation de logiciels  ‐ Page 63 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

2. p = 0.3487 
3. La probabilité de dépassement étant largement supérieure au seuil fixé (0.05), rien ne permet de 
rejeter l’hypothèse d’indépendance entre les deux variables. 
 
ESUPP58 
 
1. [35.16   25.00   39.84] 
2. [76   49   76] 
3. 31.204 
 
ESUPP59 
 
1. 0.11790 
2. Non car sa probabilité de dépassement p = 0.4248 (supérieure à 0.05) ne permet pas de conclure 
au rejet de l’hypothèse  = 0. 
 
ESUPP60 
 
1. Corrélation multiple = 0.55632 
2. Corrélation (G, Ĝ ) = 0.55632 
3. La conclusion va de soi compte tenu du point 2 ci‐avant : La corrélation multiple (outre d’être la 
racine carrée du coefficient de détermination dans l’échantillon) est aussi, dans une régression 
linéaire, la corrélation de Pearson entre les valeurs de la variable dépendante et les valeurs 
prédites par les variables explicatives. 
 
ESUPP61 
 
1. 1.6000 
2. La probabilité de dépassement p = 0.4493 étant supérieure au niveau d’incertitude de l’épreuve 
(0.05), on doit tolérer l’hypothèse d’indépendance des deux variables. 
3. 5 
 
ESUPP62 
 
 
 
 
 
 = 

 
ESUPP63 
 
1. 6.8666667 
2. 0.99446 
 

Problèmes statistiques et utilisation de logiciels  ‐ Page 64 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

ESUPP64 
 
1. ‐0.09697 
2. ‐0.09697 
3. Ceci illustre le fait que la corrélation entre deux variables ne change pas lorsque les variables sont 
standardisées (moyenne = 0  et écart‐type = 1) 
 
ESUPP65 
 
1. m = 11.7250000 
2. m = 11.5789474 
3. Lors de la lecture de chaque fichier externe, il suffit, lors de l’INPUT de la table SAS, de créer une 
variable ANNEE en lui attribuant respectivement la valeur alphanumérique ‘1998‐1999’ dans le 
premier cas et la valeur ‘1999‐2000’ dans le second. 
Il suffit alors de fusionner les deux tables SAS via l’instruction SET puis d’effectuer sur la table 
fusionnée un test de Student sur base de la variable catégorielle ANNEE et de la variable métrique 
SCORE. 
On obtient les valeurs suivantes : t = 0.23 avec p = 0.8189 qui amènent à tolérer l’égalité des 
moyennes du score entre les deux années. 
 
ESUPP66 
 
1. On obtient comme valeurs F = 53.30 et p < 0.0001 (< 0.05) qui amènent à rejeter l’hypothèse 
d’égalité des moyennes des résultats entre les quatre groupes. 
2. La comparaison porte cette fois sur la différence de résultats entre les niveaux « élevé » et « peu 
élevé » sans tenir compte de l’âge des sujets. Les valeurs obtenues conduisent au rejet de 
l’hypothèse sous épreuve. 
 

 
 
ESUPP67 
 
Le coefficient d’asymétrie a pour valeur  –0.6413611 ce qui indique une asymétrie droite. 
 
ESUPP68 
 
En recourant au test de Wilcoxon pour échantillons indépendants, on obtient pour résultat S = 19 et 
une probabilité de dépassement exacte pour petits échantillons égale à p = 0.0873 qui, au niveau 
d’incertitude 5 %, amène à tolérer l’hypothèse d’égalité des résultats entre les deux groupes. 
 
ESUPP69 
 
On obtient d = 0.8000 avec une probabilité p = 0.0815 (≥ 0.05) qui conduit à tolérer  l’hypothèse sous 
épreuve que les données proviennent de deux distributions identiques. 
 
 

Problèmes statistiques et utilisation de logiciels  ‐ Page 65 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

ESUPP70 
 
1. La corrélation multiple vaut  0.161835 = 0.402287 
2. [18.2793621 ;  22.1206379] 
 
ESUPP71 
 
1. L’indice d’asymétrie vaut 0.2443360. la distribution de la variable TEST est asymétrique gauche. 
2. La médiane de la variable RECODAGE est 10. 
 
ESUPP72 
 
On obtient une statistique S = 18 et une probabilité p = 0.0078 (< 0.05) qui amène à conclure à l’effet 
significatif de la thérapie sur l’abaissement de la pression artérielle pulmonaire. 
 
ESUPP73 
 
1. La valeur obtenue pour la corrélation de Kendall est  tk = ‐1 
2. Toutes les paires dont discordantes. 
 
ESUPP74 
 
1. F = 10.07 
2. La valeur de la probabilité de dépassement p = 0.0029 inférieure à 0.05 amène à rejeter 
l’hypothèse d’égalité des résultats entre le groupe « 90 jours » et les deux autres groupes. 
 
ESUPP75 
 
1.  
Cote 0 2 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Nombre 23 3 2 1 2 10 5 3 6 19 10 7 17 10 14 16 5 2

2. 24.24 % 
 
ESUPP76 
 
Comme le tableau de contingence est de dimension 2  2, il est préférable de se baser sur le test 
exact de Fischer (en bilatéral) 
La valeur de la probabilité obtenue, soit 0.1776 amène tolérer l’hypothèse d’indépendance entre 
l’aptitude au pilotage et le type de personnalité. 
 
ESUPP77 
 
1. Pour le test de Student (approximation de Satherthwaite), on obtient p = 0.3253 (≥ 0.05) qui 
conduit à tolérer l’égalité des moyennes de la variable MESURE entre les deux groupes. 
Amédée GENIUS pourrait en conclure que les deux distributions sont identiques. 

Problèmes statistiques et utilisation de logiciels  ‐ Page 66 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

2. L’application du test de Kolmogorov‐Smirnov fournit une probabilité de dépassement p = 0.0014  
inférieure à 0.05 qui conduit à rejeter l’hypothèse d’égalité des deux distributions. 
 
ESUPP78 
 
722.9833333 = 30.8166667 + (36.0833333 – 30.8166667) + 686.9000000 
 
ESUPP79 
 
1. On obtient : 
ANNEE :  F = 90.71  p < 0.0001 (<0.05)   effet significatif 
SEXE :  F = 0.45   p = 0.5059     effet non significatif 
2. F = 106.50 
3. Pour la variable NIVEAU, on obtient les valeurs suivantes : F = 2.01 avec p = 0.1234 (≥ 0.05) ce qui 
conduite à tolérer l’absence de différence des résultats entre les différents niveaux. 
4. 45.5333333 
5. On obtient comme valeur t = ‐8.43 avec une probabilité de dépassement p = 0.0138 ce qui révèle 
l’existence une différence significative, au niveau d’incertitude 5 %, entre ces deux mesures. 
 
ESUPP80 
 
1. Dans cette analyse de variance double hiérarchique, le coefficient de détermination dans 
l’échantillon est 2 = 0.414732  
2. Non. La probabilité de dépassement p = 0.0665 amène à tolérer l’hypothèse d’absence d’effet 
significatif de la variable CLASSE. 
3. Score = 15.3000000 hA1 + 13.8571429 hA2 + 12.8750000 hB1 + 11.6666667 hB2 + 10.0000000 hB3. 
 
ESUPP81 
 
1. On obtient les résultats suivants : 
ANNEE :  F = 9.36   p = 0.0156 (< 0.05)  effet significatif 
SEXE :  F = 1.26   p = 0.2935 (> 0.05)   effet non significatif 
SCORE  F = 9.45   p = 0.0020 (< 0.05)  effet significatif  
2. F = 4.08 
3. On obtient les valeurs t = ‐3.87 et p = 0.0117 < 0.05 : on peut donc, chez les filles, rejeter 
l’hypothèse d’une égalité du premier score entre les deux années. 
 
ESUPP82 
 
1. En réalisant une fusion parallèle des deux fichiers sur base de la variable NOM, on obtient le 
fichier résultant suivant (extrait) : 

Problèmes statistiques et utilisation de logiciels  ‐ Page 67 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

etc …
2. Pour obtenir pour chaque sujet une moyenne adaptée au nombre de scores obtenus, il suffit de 
créer une nouvelle variable MOYENNE via l’instruction suivante : 
 
Moyenne = MEAN (OF test1-test5)
 
On obtient alors les moyennes souhaitées (ci‐après un extrait du résultat) : 
 

 
etc … 
 

Problèmes statistiques et utilisation de logiciels  ‐ Page 68 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

ESUPP83 
 
1. La médiane 
2. FAIBLE 
 
ESUPP84 
 
1. [‐3.17069218 ; 2.22224377] 
2. ‐0.0327 
 
ESUPP85 
 
1. On obtient F = 0.45 avec une probabilité de dépassement p = 0.5046 supérieure à 0.05 qui ne 
permet pas de rejeter l’hypothèse d’égalité entre les moyennes du taux dans les deux groupes. 
Les moyennes sont : Enfants agressifs : 12.6086957 – Enfants non agressifs : 11.8333333  
2. Dans le modèle de covariance, on obtient les valeurs F = 0.40 et p = 0.6753 (≥ 0.05) qui conduisent 
à tolérer l’hypothèse d’absence d’effet conjoint des deux explicateurs sur la variable dépendante 
TAUX. De plus, chacun des explicateurs présente un effet non significatif sur la variable 
dépendante comme le montre le tableau ci‐après. 
 

   
 
3. Dans le modèle d’analyse de covariance, il prédira la valeur de la moyenne ajustée 12.5342200 et 
dans le modèle d’analyse de variance la valeur 12.6086957. 
 
ESUPP86 
 
1. La prématurité explique 4.0493 % de la variation du quotient de développement. 
2. Le modèle peut être considéré comme pertinent car les valeurs obtenues sont F = 3.97 avec une 
probabilité de dépassement de 0.0493 inférieure au niveau d’incertitude 0.05. 
3. 93.31739. 
 
ESUPP87 
 
1. Pour le test de Shapiro‐Wilk, on obtient la statistique W = 0.951841 avec la probabilité de 
dépassement p = 0.0190 (< 0.05) qui amène à rejeter l’hypothèse de normalité de la variable 
SCORE au niveau d’incertitude 5 %. 
2. Le test de Kolmogorov‐Smirnov fournit, quant à lui, la statistique D = 0.107176 avec p = 0.0856 (≥ 
0.05) qui conduit à la conclusion inverse, à savoir tolérer la normalité des données de cette 
variable SCORE. 
En l’occurrence, la conclusion serait ici de plutôt se référer au résultat du test de Shapiro‐Wilk 
mieux adapté aux échantillons de petite taille. 
 
 
 

Problèmes statistiques et utilisation de logiciels  ‐ Page 69 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

ESUPP88 
 
1. La probabilité de dépassement relative au test sur l’homogénéité des variances dans les deux 
groupes (p = 0.8330 ≥ 0.05) permet de tolérer l’hypothèse d’homogénéité des variances. 
 

 
 
2. Non car t = 0.97 ; p = 0.3386 (≥ 0.05)  
3. m régressif = 4.9000 ; m non régressif = 5.5429 
 
ESUPP89 
 
1. Non, F = 4.58 ; p = 0.0004 < 0.05. 
2. Il faut utiliser l’approximation de Welch ou encore le test non paramétrique de Kruskal‐Wallis. 
3. Oui. L’ANOVA simple (en principe non applicable ici vu le défaut d’homogénéité des variances) 
donnait une valeur du F de 11.74 et une probabilité de dépassement p < 0.0001 (< 0.05), qui 
amènerait à conclure à un effet très significatif de l’âge sur l’inhibition verbale. 
L’approximation de Welch fournit  F = 13.27 et arrive également à une probabilité de 
dépassement extrêmement petite (<0.0001) et le test de Kruskal‐Wallis donne un H de 45.1355 et 
aussi un p < 0.001. 
 
ESUPP90 

1. La médiane. 
2. 40. 
 
ESUPP91 
 
1. 0.5870 
2.   

 
 
ESUPP92 
1. La moyenne vaut 14.2651515 
2. 59.09 % 
 
 
 

Problèmes statistiques et utilisation de logiciels  ‐ Page 70 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

ESUPP93 
 
1. La moyenne. 
2. Il s’agit de calculer la moyenne d’une distribution groupée en intervalles. Dans ce cas, c’est le 
centre de chaque intervalle qui est pris en considération. 
On obtient comme moyenne : 3.152 kg. 
 
ESUPP94 
 
1. 2 = 1. 
2. La régression linéaire impose que le nombre d’observations soit supérieur au nombre de variables 
explicatives, ce qui n’est pas le cas ici. Le modèle ne dispose plus dès lors de degrés de liberté 
pour effectuer le test du F et, de facto, le coefficient de détermination est égale à 1. 
 
ESUPP95 
1. On obtient H = 11.4816 
2. La probabilité de dépassement p = 0.0094 < 0.05 amène à rejeter, au niveau d’incertitude 5 %, 
l’hypothèse d’égalité des médianes des résultats entre les quatre modalités de la variable 
GROUPE. 
 
ESUPP96 
 
1. La moyenne vaut 0.3256667. Le test T fournit les valeurs suivantes : t = 0.85 et p = 0.3999 (≥ 0.05) 
qui amène à tolérer la nullité de la moyenne dans la population. 
Notons que la même conclusion peut s’obtenir par l’examen de l’intervalle de confiance sur la 
moyenne au niveau d’incertitude 5 %, à savoir [‐0.4427783 ; 1.0941116] qui contient la valeur 0. 
2. L’intervalle interquartile de la variable VALEUR est 5.365. 
 
ESUPP97 
 
1. Le test de Mauchly. 
2. La statistique a ici pour valeur W= 0.9588486. La valeur du chi‐carré = 2.4372809 (2 dl) et sa 
probabilité p = 0.2956 > 0.05 amènent à tolérer, au niveau d’incertitude 5 %, l’hypothèse de 
sphéricité. 
3. 0.9921. 
 
ESUPP98 
 
1. Le test de Levene fournit les valeurs suivantes : F = 4.49 avec p = 0.0296. Ceci amène à rejeter 
l’hypothèse d’homogénéité des variances au niveau d’incertitude 5%. 
2. Pour l’approximation de Welch : F = 4.11 avec une valeur de p = 0.0641 (≥ 0.05) 
On doit donc tolérer l’hypothèse d’égalité des moyennes entre les trois groupes. 
Ceci est en contradiction avec les résultats de l’analyse de variance initiale qui donnait pour 
résultats F = 5.31 et p = 0.0181 (<0.05), résultats qui auraient conduit à rejeter l’hypothèse 
d’égalité des moyennes entre les groupes. 
3. Le test de Tukey fournit le résultat suivant : 
 

Problèmes statistiques et utilisation de logiciels  ‐ Page 71 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

 
 
qui indique une différence significative, au niveau d’incertitude 5 %, entre le groupe A et le 
groupe B. 
 
ESUPP99 
 
1. La méthode des contrastes. 
2. On obtient F = 0,105257 et p = 0,746819 ce qui conduite à tolérer, au niveau d’incertitude 5%, 
l’hypothèse d’égalité des moyennes entre le groupe contrôle et l’ensemble des trois groupes 
expérimentaux. 
 
ESUPP100 
 
1. Dans ce modèle d’analyse de variance double hiérarchique, on obtient pour le modèle complet les 
valeurs F = 2.37et p = 0.0300 (<00.05) qui permettent de rejeter l’hypothèse de l’absence d’effet 
des deux variables nominales sur la variable SCORE. Le modèle est donc pertinent. 
2. Un score égal à la moyenne des scores de l’école 2 du pays B, à savoir 21.2. L’intervalle de 
confiance sur cette moyenne est [18.9788439 ; 23.4211561] 
3. 16.6 
 
ESUPP101 
 
1. Au niveau d’incertitude 5%, on peut rejeter l’hypothèse d’égalité des résultats entre les deux 
années vu la statistique F = 9.36 avec une probabilité de dépassement p = 0.0156 < 0.05. 
2. Cette interaction peut apparaître significative vu l’obtention de la statistique F = 4.08 avec une 
probabilité p = 0.0369 <0.05. 
3. Non. La vérification (implicite) du test de sphéricité amène une application du correctif de 
Greenhouse‐Geisser donnant une probabilité de dépassement p = 0.0647 ≥ 0.05 et donc une 
interaction estimée non significative. 
4. Oui. On peut conclure à une différence significative des deux résultats vu la statistique t = ‐9.00 et une 
probabilité de dépassement p = 0.0029 < 0.05. 
 
 

Problèmes statistiques et utilisation de logiciels  ‐ Page 72 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 


Problèmes statistiques et utilisation de logiciels – Exercices supplémentaires 

ESUPP102 
 
1. La statistique obtenue est F = 7.54 avec une probabilité de dépassement p <.0001 (et donc < 0.05). Le 
modèle explicatif est donc statistiquement pertinent au niveau d’incertitude 5%. 
2. Pour une fille du groupe « Normal », le modèle va prédire la valeur 16.3571 (en se limitant à 4 
décimales) et l’intervalle de confiance est [15.3684 : 17.3458] 
3. Le test de Levene fournit les résultats suivants : F = 3.77 et p = 0.0430 < 0.05. Au niveau d’incertitude 5 %, 
on doit donc rejeter l’hypothèse de l’homogénéité des variances chez les garçons. 
 
ESUPP103 
 
1. Le modèle explicatif n’est pas pertinent car on doit tolérer, au niveau d’incertitude 5 %, l’hypothèse que 
les deux explicateurs n’expliquent pas significativement le comportement de la variable dépendante 
SCORE. En effet, On obtient les valeurs F = 0.38 avec une probabilité de dépassement p = 0.6926 ≥ 0.05. 
2. En se limitant à 4 décimales, cet intervalle de confiance est [19.9248 ; 28.5197] 
3. Les moyennes ajustées sont 25.3898 et 23.9435. 
4. Le test sur l’interaction de la variable catégorielle GROUPE et de la covariable INITIAL fournit les valeurs 
F = 0.16 et p = 0.6943 ≥ 0.05. Le caractère non significatif de cette interaction permet de tolérer 
l’hypothèse du parallélisme. 
 
ESUPP104 
 
On obtient pour résultats : 2 = 6.4182 avec 2 degrés de liberté et une probabilité de dépassement p = 
0.0404 (< 0.05) qui conduit à rejeter l’hypothèse d’une distribution uniforme de la mémorisation entre les 
trois types de publicité. 

Problèmes statistiques et utilisation de logiciels  ‐ Page 73 ‐  F.P. Pérée –  Version 8.2.4 ‐ 2018 

Vous aimerez peut-être aussi