Vous êtes sur la page 1sur 60

Universit Joseph Fourier, Grenoble I

Licence Sciences et Technologies 2


e
anne
STA230 : Mthodes Statistiques pour la Biologie
Exercices de Statistique
http ://ljk.imag.fr/membres/Bernard.Ycart/STA230/
Chaque thme commence par un rappel de cours et un exercice corrig. Les cal-
culs ont t eectus en utilisant un logiciel ; cause des erreurs darrondis, il peut y
avoir des dirences mineures avec les calculs eectus partir des tables de valeurs
statistiques.
Table des matires
1 Donnes et Modles 2
1.1 Distributions empiriques . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Probabilits et probabilits conditionnelles . . . . . . . . . . . . . . . . 5
1.3 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Loi hypergomtrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 Loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6 Approximation dune loi binomiale par une loi normale . . . . . . . . . 14
2 Estimation paramtrique 18
2.1 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2 Intervalles de conance pour un chantillon gaussien . . . . . . . . . . . 19
2.3 Int. de conf. dune esprance pour un grand chantillon . . . . . . . . . 24
2.4 Int. de conf. dune probabilit pour un grand chantillon . . . . . . . . 25
3 Tests statistiques 27
3.1 Rgle de dcision, seuil et p-valeur . . . . . . . . . . . . . . . . . . . . . 27
3.2 Tests sur un chantillon . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3 Comparaison de deux chantillons indpendants . . . . . . . . . . . . . 40
3.4 Test du khi-deux dajustement . . . . . . . . . . . . . . . . . . . . . . . 45
3.5 Test du khi-deux de contingence . . . . . . . . . . . . . . . . . . . . . . 49
4 Rgression linaire 52
4.1 Droite de rgression et prdiction ponctuelle . . . . . . . . . . . . . . . 52
4.2 Intervalles de conance et de prdiction . . . . . . . . . . . . . . . . . . 54
4.3 Tests sur une rgression . . . . . . . . . . . . . . . . . . . . . . . . . . 57
STA230 Exercices de Statistique UJF Grenoble
1 Donnes et Modles
1.1 Distributions empiriques
Soit (x
1
, . . . , x
n
) un chantillon, cest--dire les valeurs numriques prises par un
mme caractre sur un ensemble de n individus.
Les modalits sont les valeurs prises.
La moyenne empirique est x =
1
n
n

i=1
x
i
.
La variance empirique est s
2
x
=
_
1
n
n

i=1
x
2
i
_
x
2
.
Lcart-type empirique est la racine carre de la variance empirique.
Un chantillon centr et rduit a pour moyenne 0 et pour variance 1. Pour centrer
et rduire un chantillon, on retranche la moyenne toutes les modalits, puis on
les divise par lcart-type.
La frquence empirique dun intervalle est le rapport du nombre de valeurs prises
dans cet intervalle, au nombre total dindividus.
La mdiane est la plus petite modalit telle quau moins 50% des valeurs prises
soient infrieures.
Le premier quartile est la plus petite modalit telle quau moins 25% des valeurs
prises soient infrieures.
Le dernier quartile est la plus petite modalit telle quau moins 75% des valeurs
prises soient infrieures.
On considre quun caractre est continu quand toutes les valeurs prises sont
distinctes ou presque. Quand pour la plupart des modalits plusieurs individus
ont la mme valeur, le caractre est discret.
Exercice 1.1.1. On donne les eectifs par ge, de mres non fumeuses laccouchement.
ge 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
eectif 7 8 9 10 12 3 2 5 4 5 2 4 2 0 1
1. Quelles sont les modalits ?
Les modalits sont les entiers de 21 35.
2. Sagit-il dun caractre discret ou continu?
Compte tenu de la prcision des donnes, plusieurs individus prennent la mme
modalit (sont considrs comme ayant le mme ge). Il sagit donc dun caractre
discret.
3. Calculer les frquences empiriques des modalits.
Pour obtenir les frquences empiriques, on divise les eectifs par le nombre total
dindividus, soit ici 74.
2
STA230 Exercices de Statistique UJF Grenoble
ge 21 22 23 24 25 26 27
frquence
7
74
8
74
9
74
10
74
12
74
3
74
2
74
val. arrondie 0.095 0.108 0.122 0.135 0.162 0.041 0.027
28 29 30 31 32 33 34 35
5
74
4
74
5
74
2
74
4
74
2
74
0
74
1
74
0.068 0.054 0.068 0.027 0.054 0.027 0 0.014
4. Reprsenter les frquences empiriques sur un diagramme en btons.
Le diagramme en btons consiste tracer un segment vertical au-dessus de chaque
modalit, de longueur proportionnel le leectif ou la frquence empirique.
20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
0.16
0.18
0.20
5. Calculer la moyenne, la variance et lcart-type empiriques de lchantillon.
Pour calculer la moyenne empirique on eectue lopration :
x =
1
74
_
721 + 822 + + 034 + 135
_
= 25.662 .
Lge moyen dans cet chantil lon est de 25 ans et 8 mois environ.
Pour calculer la variance empirique on eectue lopration :
s
2
x
=
1
74
_
721
2
+ 822
2
+ + 034
2
+ 135
2
_
(25.662)
2
= 12.683 .
Lcart-type est la racine carre de la variance :
s
x
=

12.683 = 3.561 ,
soit environ 3 ans et 7 mois.
6. Calculer les valeurs de la fonction de rpartition empirique.
Les valeurs de la fonction de rpartition empirique sont les frquences cumules.
ge 21 22 23 24 25 26 27
frq. cum.
7
74
15
74
24
74
34
74
46
74
49
74
51
74
val. arrondie 0.095 0.203 0.324 0.459 0.622 0.662 0.689
3
STA230 Exercices de Statistique UJF Grenoble
28 29 30 31 32 33 34 35
56
74
60
74
65
74
67
74
71
74
73
74
73
74
74
74
0.757 0.811 0.878 0.905 0.959 0.986 0.986 1
7. Quelle est la frquence empirique de lintervalle [22 ; 25] ?
Cest la somme des frquences empiriques des modalits 22, 23, 24, 25, ou bien
la dirence de valeurs de la fonction de rpartition empirique F(25) F(21),
soit 39/74 0.527. Plus de la moiti des femmes de lchantil lon sont ges de
22 25 ans.
8. Reprsenter graphiquement la fonction de rpartition empirique. Dterminer gra-
phiquement la mdiane et les quartiles de lchantillon.
20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
La mdiane est 25 ans ; le premier quartile est 23 ans, le dernier quartile est 28
ans.
9. Comparer dune part la moyenne avec la mdiane, dautre part lcart-type avec
les distances entre la mdiane et les quartiles.
La moyenne est suprieure la mdiane, ce qui est normal pour une distribution
qui est tire vers la droite. Pour la mme raison, lcart entre le dernier quartile
et la mdiane est suprieur lcart entre la mdiane et le premier quartile. Les
deux sont infrieurs lcart-type : cest le cas pour la plupart des distributions,
quelles soient symtriques ou non.
Exercice 1.1.2. On donne les eectifs par ge, de mres fumeuses laccouchement.
ge 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
eectif 5 5 4 3 3 5 1 4 3 2 3 2 1 1 1
1. Quelles sont les modalits ?
2. Sagit-il dun caractre discret ou continu?
4
STA230 Exercices de Statistique UJF Grenoble
3. Calculer les frquences empiriques des modalits.
4. Reprsenter les frquences empiriques sur un diagramme en btons.
5. Calculer la moyenne, la variance et lcart-type empiriques de lchantillon.
6. Calculer les valeurs de la fonction de rpartition empirique.
7. Quelle est la frquence empirique de lintervalle [22 ; 25] ?
8. Reprsenter graphiquement la fonction de rpartition empirique. Dterminer la
mdiane et les quartiles de lchantillon.
9. Comparer dune part la moyenne avec la mdiane, dautre part lcart-type avec
les distances entre la mdiane et les quartiles.
Exercice 1.1.3. On considre lchantillon statistique (1, 0, 2, 1, 1, 0, 1, 0, 0).
1. Quelle est sa moyenne empirique ?
2. Quelle est sa variance empirique ?
3. Quel chantillon centr et rduit peut-on lui associer ?
4. Si vous deviez proposer un modle pour ces donnes : choisiriez-vous un modle
discret ou un modle continu?
Exercice 1.1.4. On considre lchantillon statistique
(1.2, 0.2, 1.6, 1.1, 0.9, 0.3, 0.7, 0.1, 0.4) .
1. Quelle est sa moyenne empirique ?
2. Quelle est sa variance empirique ?
3. Quel chantillon centr et rduit peut-on lui associer ?
4. Si vous deviez proposer un modle pour ces donnes : choisiriez-vous un modle
discret ou un modle continu?
1.2 Probabilits et probabilits conditionnelles
La probabilit dun vnement dans une population est la proportion des individus
pour lesquels lvnement est ralis.
La probabilit conditionnelle de A sachant B est la proportion dindividus pour
lesquels A est ralis parmi ceux pour lesquels B lest aussi. Cest le rapport de
la probabilit de A et B la probabilit de B :
P[A| B] =
P[A et B]
P[B]
.
La formule des probabilits totales donne la probabilit dun vnement A en
fonction des probabilits conditionnelles sachant un autre vnement B et son
contraire B :
P[A] = P[A| B] P[B] +P[A| B] P[B] .
5
STA230 Exercices de Statistique UJF Grenoble
La formule de Bayes permet dchanger lordre des probabilits conditionnelles :
P[B| A] =
P[A| B] P[B]
P[A| B] P[B] +P[A| B] P[B]
.
Exercice 1.2.1. Dans un levage de moutons, on estime que 30% sont atteints par une
certaine maladie. On dispose dun test pour cette maladie. Si un mouton nest pas
atteint, il a 9 chances sur 10 davoir une raction ngative au test ; sil est atteint, il a 8
chances sur 10 davoir une raction positive. On soumet tous les moutons de llevage
au test.
Pour tout lexercice, on note M lvnement le mouton est malade et T lvnement
le mouton a une raction positive au test. Lnonc donne :
P[M] = 0.3 , P[T | M] = 0.9 , P[T | M] = 0.8 .
1. Quelle est la probabilit quun mouton de cet levage ne soit pas malade ?
P[M] = 1 P[M] = 1 0.3 = 0.7 .
2. Quelle est la probabilit conditionnelle quun mouton ait une raction positive
au test sachant quil nest pas malade ?
P[T | M] = 1 P[T | M] = 1 0.9 = 0.1 .
3. Quelle est la probabilit quun mouton ne soit pas malade et ait une raction
positive au test ?
P[T et M] = P[T | M] P[M] = 0.1 0.7 = 0.07 .
4. Quelle proportion des moutons de llevage ragit positivement au test ?
On peut utiliser la formule des probabilits totales ou raisonner directement, en
distinguant, parmi les moutons ayant ragi positivement, ceux qui sont malades
de ceux qui ne le sont pas.
P[T] = P[T et M] +P[T et M]
= P[T | M] P[M] +P[T | M] P[M]
= 0.8 0.3 + 0.1 0.7 = 0.24 + 0.07 = 0.31 .
5. Quelle est la probabilit quun mouton soit malade, sachant quil a ragi positi-
vement ?
6
STA230 Exercices de Statistique UJF Grenoble
On peut utiliser directement la formule de Bayes ou bien la retrouver comme suit.
P[M| T] =
P[T et M]
P[T]
=
P[T | M] P[M]
P[T | M] P[M] +P[T | M] P[M]
=
0.8 0.3
0.8 0.3 + 0.1 0.7
0.774 .
6. Quelle est la probabilit quun mouton ne soit pas malade, sachant quil a ragi
ngativement ?
On peut utiliser directement la formule de Bayes ou bien la retrouver comme suit.
P[M| T] =
P[T et M]
P[T]
=
P[T | M] P[M]
P[T | M] P[M] +P[T | M] P[M]
=
0.9 0.7
0.9 0.7 + 0.2 0.3
0.913 .
Exercice 1.2.2. Une plante comporte 3 espces, htive, normale ou tardive. On sait que
la plante peut tre soit naine, soit grande. Dans un lot de plantes issues de 1000 graines,
on a dnombr 600 naines, 200 tardives, 300 htives naines, 250 normales grandes, 100
tardives grandes. On considre la plante issue dune graine choisie au hasard.
1. Quelle est la probabilit quelle soit htive ? normale ? tardive ? naine ? grande ?
2. On observe une plante naine. Quelle est la probabilit quelle soit htive ? nor-
male ? tardive ?
3. On observe une plante grande. Quelle est la probabilit quelle soit htive ? nor-
male ? tardive ?
4. On observe une plante htive. Quelle est la probabilit quelle soit naine ? grande ?
Exercice 1.2.3. Dans un lot de pices fabriques, il y a 5% de pices dfectueuses. On
contrle les pices, mais le mcanisme de contrle est alatoire. Si la pice est bonne,
elle est accepte avec une probabilit gale 0.96 ; si la pice est mauvaise, elle est
refuse avec probabilit 0.98. On choisit au hasard une pice que lon contrle.
1. Quelle est la probabilit que cette pice soit refuse ?
2. Quelle est la probabilit que cette pice soit bonne, sachant quelle est refuse ?
7
STA230 Exercices de Statistique UJF Grenoble
3. Quelle est la probabilit que cette pice soit mauvaise sachant quelle est accep-
te ?
4. Quelle est la probabilit quil y ait une erreur dans le contrle (une bonne pice
est refuse ou une mauvaise est accepte) ?
Exercice 1.2.4. Voici la rpartition en pourcentages des dirents groupes sanguins en
France.
Groupe O A B AB
Facteur
Rhsus + 37.0 38.1 6.2 2.8
Rhsus 7.0 7.2 1.2 0.5
1. Dterminer la distribution de probabilit des quatre groupes O, A, B, AB dans
lensemble de la population.
2. Dterminer la distribution de probabilit des quatre groupes parmi les individus
de rhsus positif.
3. Dterminer la distribution de probabilit des quatre groupes parmi les individus
de rhsus ngatif.
4. Si on choisit au hasard un individu de groupe O, quelle est la probabilit quil
soit de rhsus ngatif ? Mme question pour un individu de groupe B.
1.3 Loi binomiale
Au cours de n expriences rptes indpendamment, la variable alatoire X gale
au nombre de ralisations dun mme vnement de probabilit p, suit la loi bi-
nomiale de paramtres n et p.
La variable X peut prendre toutes les valeurs entires entre 0 et n.
Pour tout entier k entre 0 et n, la variable X prend la valeur k avec la probabilit :
P[X = k] =
_
n
k
_
p
k
(1 p)
nk
,
o
_
n
k
_
=
n!
k!(n k)!
=
n (n1) (nk+1)
k (k 1) 3 2 1
est le nombre de manires de choisir k objets parmi n.
Lesprance de X est np, sa variance est np(1 p).
Exercice 1.3.1. On sait par exprience quune certaine opration chirurgicale a 90% de
chances de russir. On sapprte raliser lopration sur 5 patients. Soit X la variable
alatoire gale au nombre de russites de lopration sur les 5 tentatives.
8
STA230 Exercices de Statistique UJF Grenoble
1. Quel modle proposez-vous pour X ?
En supposant que les rsultats (succs ou chec) des 5 oprations soient indpen-
dants entre eux, le nombre de succs suit la loi binomiale de paramtres 5 et 0.9.
La variable alatoire X prend ses valeurs dans lensemble {0, 1, 2, 3, 4, 5}, et pour
tout entier k dans cet ensemble :
P[X = k] =
_
5
k
_
0.9
k
0.1
5k
.
2. Quelle est la probabilit que lopration rate les 5 fois ?
P[X = 0] = 0.1
5
= 0.00001 .
3. Quelle est la probabilit que lopration rate exactement 3 fois ?
P[X = 2] =
_
5
2
_
0.9
2
0.1
3
= 0.0081 .
4. Quelle est la probabilit que lopration russisse au moins 3 fois ?
P[X 3] = P[X = 3] +P[X = 4] +P[X = 5]
=
_
5
3
_
0.9
3
0.1
2
+
_
5
4
_
0.9
4
0.1
1
+
_
5
5
_
0.9
5
0.1
0
= 0.0729 + 0.32805 + 0.59049 = 0.99144 .
Exercice 1.3.2. Quand un chasseur tire sur un lapin sans dfense, il a une chance sur
10 de le toucher.
1. Deux chasseurs tirent indpendamment sur le mme lapin. Calculer la probabilit
que :
(a) aucun ne le touche ;
(b) un seul chasseur le touche ;
(c) les deux chasseurs le touchent.
2. Quatre chasseurs tirent indpendamment sur le mme lapin.
(a) Quelle est la loi de probabilit du nombre de coups de fusils reus par la
pauvre bte ? Donner lesprance et la variance de cette loi.
(b) Quelle est la probabilit que le lapin reoive au plus 2 coups de fusil ?
(c) Quelle est la probabilit que le lapin reoive au moins 2 coups de fusil ?
3. Dix chasseurs tirent indpendamment sur le mme lapin.
(a) Quelle est la probabilit que le lapin conserve ltanchit de sa fourrure ?
9
STA230 Exercices de Statistique UJF Grenoble
(b) Quelle est la probabilit que le lapin soit immangeable (sil a reu au moins
5 coups de fusil).
Exercice 1.3.3. Lors dune sance didentication, on propose 6 tmoins de dsigner
un coupable parmi 4 suspects, dont vous faites partie.
1. Si chacun des 6 tmoins choisissait au hasard, quelles seraient vos chances :
(a) de ntre jamais dsign ?
(b) dtre dsign exactement une fois ?
(c) dtre dsign deux fois ou plus ?
2. Il se trouve que 2 des 6 tmoins vous ont dsign comme le coupable. Par rfrence
au rsultat de la question 1 (c), pensez-vous que le juge pourra attribuer cela au
hasard?
3. Et si 4 des 6 tmoins vous avaient dsign ?
1.4 Loi hypergomtrique
Dans un ensemble de N lments, parmi lesquels m sont marqus, on en choisit au
hasard n distincts. La variable alatoire X gale au nombre dlments marqus
parmi lchantillon de n suit la la loi hypergomtrique de paramtres N, m, n.
Dans le cas o n m et n N m, X peut prendre toutes les valeurs entires
entre 0 et n.
Pour tout entier k entre 0 et n, X prend la valeur k avec probabilit :
P[X = k] =
_
m
k
__
Nm
nk
_
_
N
n
_
.
Lesprance de X est nm/N.
Exercice 1.4.1. Un groupe dtudiants est compos de 18 lles et de 11 garons. On
choisit au hasard dans ce groupe un chantillon de 5 personnes. Soit X la variable
alatoire gale au nombre de lles dans cet chantillon.
1. Quel modle proposez-vous pour X ?
La loi de X est la loi hypergomtrique de paramtres N = 29 (nombre total
dindividus), m = 18 (les individus marqus sont les l les) et n = 5 (la tail le
de lchantillon extrait). Les valeurs prises sont les entiers de 0 5. Pour tout
entier k = 0, 1 . . . , 5, on a :
P[X = k] =
_
18
k
__
11
5k
_
_
29
5
_
.
10
STA230 Exercices de Statistique UJF Grenoble
2. Donner lesprance de X.
Lesprance de X est 5 18/29 3.1. Cest la tail le de lchantil lon, multiplie
par la proportion de lles dans le groupe.
3. Calculer la probabilit que lchantillon ne contienne que des lles.
P[X = 5] =
_
18
5
_
_
29
5
_
0.072 .
4. Calculer la probabilit que lchantillon contienne au moins une lle.
On doit calculer P[X 1]. On pourrait calculer P[X = 1] + P[X = 2] + P[X =
3] +P[X = 4] +P[X = 5], mais il est plus rapide de calculer 1 P[X = 0], ce qui
revient au mme :
P[X 1] = 1 P[X = 0] = 1
_
11
5
_
_
29
5
_
0.996 .
5. Calculer la probabilit que lchantillon contienne exactement 3 lles.
P[X = 3] =
_
18
3
__
11
2
_
_
29
5
_
0.378 .
Exercice 1.4.2. Dans chacune des situations suivantes, on donnera la loi de probabilit
de la variable alatoire X et son esprance. On calculera la probabilit que X soit gal
0, puis la probabilit que X soit suprieur ou gal 2.
1. la belote, huit cartes sont distribues chacun des quatre joueurs. Soit X le
nombre das que reoit un joueur donn.
2. la belote, les quatre joueurs jouent par quipes de deux. Soit X le nombre de
piques dune quipe donne.
3. Au bridge, treize cartes sont distribues chacun des quatre joueurs. Soit X le
nombre de gures (valet, dame ou roi) dun joueur donn.
4. Au loto, vous avez coch 6 numros sur une grille qui en comporte 49. Soit X le
nombre de bons numros sur votre grille.
1.5 Loi normale
Si on na pas de logiciel disposition, on lit dans les tables pour la loi N(0, 1) :
les valeurs de la fonction de rpartition F : pour une valeur de x la table
retourne la probabilit p = P[X x] = F(x).
les valeurs de la fonction quantile F
1
: pour une probabilit p la table retourne
la valeur de x = F
1
(p) telle que p = P[X x].
11
STA230 Exercices de Statistique UJF Grenoble
La densit de la loi N(0, 1) est symtrique :
P[X x] = P[X x] .
Si une variable alatoire X suit la loi N(,
2
), alors (X )/

2
suit la loi
N(0, 1). Ainsi :
P[a X b] = P
_
a

2

X

2

b

2
_
= F
_
b

2
_
F
_
a

2
_
,
o F est la fonction de rpartition de la loi N(0, 1).
Si X et Y sont deux variables alatoires indpendantes, de lois respectives
N(
x
,
2
x
) et N(
y
,
2
y
), alors X +Y suit la loi N(
x
+
y
,
2
x
+
2
y
) et XY suit
la loi N(
x

y
,
2
x
+
2
y
).
Exercice 1.5.1. La taille X des hommes en France est modlise par une loi normale
N(172, 196) (unit : le cm).
1. Quelle proportion de franais a une taille infrieure 160 cm?
P[X < 160] = P
_
X 172

196
<
160 172

196
_
= F(0.857) = 1F(0.857) = 0.1957 ,
o F dsigne (comme dans tout lexercice) la fonction de rpartition de la loi
N(0, 1).
2. Quelle proportion de franais mesure plus de deux mtres ?
P[X > 200] = P
_
X 172

196
>
200 172

196
_
= 1 F(2) = 0.02275 .
3. Quelle proportion des franais mesure entre 165 et 185 centimtres ?
P[165 < X < 185] = P
_
165 172

196
<
X 172

196
<
185 172

196
_
= F(0.928) F(0.5) = 0.8234 0.3085 = 0.5149 .
4. Si on classait dix mille franais choisis au hasard par ordre de taille croissante,
quelle serait la taille du 9000-ime ?
La question revient trouver la tail le tel le que 90% des franais aient une tail le
infrieure, savoir le quantile dordre 0.9, ou encore le neuvime dcile. Soit x
cette taille.
P[X < x] = P
_
X 172

196
<
x 172

196
_
= 0.9
12
STA230 Exercices de Statistique UJF Grenoble
Donc
x172

196
est la valeur de la fonction quantile de la loi N(0, 1) au point 0.9,
savoir 1.2816. On en dduit :
x = 172 + 1.2816

196 190 cm.


5. La taille Y des franaises est modlise par une loi normale N(162, 144) (en cen-
timtres). Quelle est la probabilit pour quun homme choisi au hasard soit plus
grand quune femme choisie au hasard ?
Si X dsigne la taille de lhomme et Y la tail le de la femme, supposes indpen-
dantes, alors X Y suit la loi normale N(10, 340). La probabilit que X soit
suprieure Y est la probabilit que la dirence soit positive :
P[X Y > 0] = P
_
(X Y ) 10

340
>
0 10

340
_
= 1 F(0.5423) = 0.7062 .
Exercice 1.5.2. Soit X une variable alatoire de loi N(0, 1).
1. Exprimer laide de la fonction de rpartition de X, puis calculer laide de la
table les probabilits suivantes.
(a) P[X > 1.45]
(b) P[1.65 X 1.34]
(c) P[|X| < 2.05]
2. Dterminer la valeur de u dans les cas suivants.
(a) P[X < u] = 0.63
(b) P[X u] = 0.63
(c) P[|X| < u] = 0.63
Exercice 1.5.3. Soit X une variable alatoire suivant la loi N(0, 1). On pose Y =
2X 3.
1. Quelle est la loi de Y ?
2. Calculer P[Y < 4].
3. Calculer P[2 < Y < 3].
Exercice 1.5.4. Soit X une variable alatoire de loi N(3, 25).
1. Exprimer laide de la fonction de rpartition de la loi N(0, 1), puis calculer
laide de la table les probabilits suivantes.
(a) P[X < 6]
(b) P[X > 2]
(c) P[1 X 1.5]
2. Dterminer la valeur de u dans les cas suivants.
13
STA230 Exercices de Statistique UJF Grenoble
(a) P[X < u] = 0.63
(b) P[X > u] = 0.63
(c) P[|X 3| u] = 0.63
Exercice 1.5.5. Dans un pays donn, le taux de cholestrol srique dun individu pris
au hasard est modlis par une loi normale avec une moyenne de 200 mg/100 mL et
un cart-type de 20 mg/100 mL.
1. Quelle est la probabilit quun individu pris au hasard dans ce pays ait un taux
de cholestrol infrieur 160 mg/100 mL?
2. Quelle proportion de la population a un taux de cholestrol compris entre 170 et
230 mg/100 mL?
3. Dans un autre pays, le taux moyen de cholestrol srique est de 190 mg/100 mL,
pour le mme cart-type. Reprendre les questions prcdentes.
4. On choisit un individu au hasard dans le premier pays, puis dans le second. Quelle
est la probabilit que le premier individu ait un taux suprieur au second?
Exercice 1.5.6. La taille dun pi de bl dans un champ est modlise par une variable
alatoire X de loi normale N(15, 36) (unit : le cm).
1. Quelle est la probabilit pour quun pi ait une taille infrieure 16 cm?
2. On admet quil y a environ 15 millions dpis dans le champ, donner une estima-
tion du nombre dpis de plus de 20 cm.
3. Quelle est la probabilit pour que 10 pis prlevs dans le champ aient tous leur
taille dans lintervalle [16 ; 20] ?
4. On suppose que la taille dun pi de bl dun autre champ est modlise par une
variable alatoire Y de loi normale N(10, 16) et que X et Y sont des variables
indpendantes. Quelle est la probabilit pour quun pi pris dans le premier champ
soit plus grand quun pi pris dans le second?
1.6 Approximation dune loi binomiale par une loi normale
Pour n assez grand, on peut approcher la loi binomiale B(n, p) par la loi normale
N(np, np(1 p)), qui a la mme esprance et la mme variance.
Dans ces conditions, si X suit la loi B(n, p), on calcule la probabilit que X se
trouve dans lintervalle [a, b] par :
P[a X b] = P
_
_
a np
_
np(1 p)

X np
_
np(1 p)

b np
_
np(1 p)
_
_
F
_
_
b np
_
np(1 p)
_
_
F
_
_
a np
_
np(1 p)
_
_
,
o F est la fonction de rpartition de la loi N(0, 1).
14
STA230 Exercices de Statistique UJF Grenoble
Exercice 1.6.1. On sait par exprience quune certaine opration chirurgicale a 90% de
chances de russir. Cette opration est ralise dans une clinique 400 fois chaque anne.
Soit N le nombre de russites dans une anne. On utilisera lapproximation normale
pour N.
1. Calculer lesprance et la variance de N.
Lesprance vaut 400 0.9 = 360, la variance vaut 400 0.9 0.1 = 36.
2. Calculer la probabilit que la clinique russisse au moins 345 oprations dans
lanne.
P[N 345] = P
_
N 360

36

345 360

36
_
= 1 F(2.5) = F(2.5) = 0.9938 .
3. Calculer la probabilit que la clinique rate plus de 28 oprations dans lanne.
P[N 372] = P
_
N 360

36

372 360

36
_
= F(2) = 0.9772 .
4. Lassurance accepte de couvrir un certain nombre doprations rates : ce nombre
na que 1% de chances dtre dpass. Quel est-il ?
Soit n le nombre doprations rates cherch. Le nombre doprations russies est
400n. Il vrie P[N 400n] = 0.01. Or :
P[N 400n] = P
_
N 360

36

400 n 360

36
_
= F
_
40 n

36
_
= 0.01 .
Le nombre
40n

36
est le quantile dordre 0.01 de la loi normale N(0, 1), savoir
2.3236. Donc :
40 n

36
= 2.3263 = n = 40 + 2.3263

36 54 .
On peut aussi raisonner sur le nombre doprations rates R = 400N. Il suit la
loi binomiale B(400, 0.1), que lon peut approcher par la loi normale N(40, 36).
15
STA230 Exercices de Statistique UJF Grenoble
Le nombre cherch est tel que P[R > n] = 0.01.
P[R > n] = P
_
R 40

36
>
n 40

36
_
= 1 F
_
n 40

36
_
= F
_
40 n

36
_
= 0.01 .
Bien sr, le rsultat est le mme.
Exercice 1.6.2. On value 0.4 la probabilit quune personne en ge dtre vaccine
contre la grippe demande eectivement ltre. Sur une population de 150000 personnes
en ge dtre vaccines, soit N le nombre de personnes qui demanderont ltre.
1. Quel modle proposez-vous pour N ?
2. Si on prpare 60500 vaccins, quelle est la probabilit quil ny en ait pas susam-
ment ?
3. Calculer le nombre m de vaccins quil faudrait prvoir pour que la probabilit
den manquer soit gale 0.1.
Exercice 1.6.3. Un restaurant servant des repas uniquement sur rservation, dispose
de 50 places. La probabilit quune personne ayant rserv ne vienne pas est 1/5. On
note N le nombre de repas servis un jour donn. On utilisera lapproximation normale
pour N.
1. Si le patron accepte 50 rservations, quelle est la probabilit quil serve plus de
45 repas ?
2. Sil accepte 55 rservations, quelle est la probabilit quil se retrouve dans une
situation embarassante ?
Exercice 1.6.4. On suppose quil y a une probabilit gale 0.1 dtre contrl lors-
quon prend le tramway. Mr A. fait 700 voyages par an. On utilisera lapproximation
normale pour le nombre de contrles.
1. Quelle est la probabilit que Mr A. soit contrl entre 60 et 80 fois dans lanne ?
2. Mr A. est en fait un fraudeur et voyage toujours sans ticket. Sachant que le prix
dun ticket est de 1 euro, quelle amende minimale la rgie de transports devrait-
elle xer pour que le fraudeur ait, sur une priode dune anne, une probabilit
suprieure 0.75 dtre perdant ?
Exercice 1.6.5. Entre Grenoble et Valence TGV, deux bus de 50 places font le trajet le
vendredi 16h10. On estime que le nombre de personnes se prsentant pour eectuer
le trajet est en moyenne de 80 avec un cart-type de 10. On utilise lapproximation
normale pour ce nombre.
16
STA230 Exercices de Statistique UJF Grenoble
1. Calculer la probabilit que les deux autobus soient pleins.
2. Lun des deux bus part de la gare, lautre part de la place Victor Hugo : les
voyageurs choisissent au hasard lun ou lautre, mais ne peuvent pas changer si
le bus quils ont choisi est plein. Supposons que 90 voyageurs veuillent aller de
Grenoble Valence. Quelle est la probabilit que lun dentre eux ne trouve pas
de place ?
3. Avec les hypothses de la question prcdente, quelle devrait tre la taille mi-
nimale des bus pour que la probabilit de refuser un voyageur soit infrieure
0.05 ?
Exercice 1.6.6. On admet quen moyenne, un passager qui a achet un billet davion,
se prsente lenregistrement avec probabilit 0.9. Un avion comporte 200 places.
1. Si la compagnie accepte 220 rservations, quelle est la probabilit quelle doive
refuser des passagers ?
2. Combien de rservations peut-elle accepter au maximum pour que la probabilit
de refuser un passager soit infrieure ou gale 0.01 ?
17
STA230 Exercices de Statistique UJF Grenoble
2 Estimation paramtrique
2.1 Estimation ponctuelle
Pour un paramtre inconnu, un estimateur est une fonction des donnes, qui
prend des valeurs proches de ce paramtre. Il est sans biais si son esprance est
gale au paramtre. Il est convergent si la probabilit quil prenne des valeurs
distance au plus du paramtre, tend vers 1 quand la taille de lchantillon tend
vers linni.
La frquence empirique dun vnement est un estimateur sans biais et convergent
de la probabilit de cet vnement.
La moyenne empirique dun chantillon est un estimateur sans biais et convergent
de lesprance thorique des variables.
La variance empirique dun chantillon est un estimateur convergent de la va-
riance thorique des variables. On obtient un estimateur sans biais en multipliant
la variance empirique par n/(n1), o n est la taille de lchantillon.
Exercice 2.1.1. On considre lchantillon statistique (1, 0, 2, 1, 1, 0, 1, 0, 0) .
1. Calculer sa moyenne et sa variance empiriques.
On trouve :
x =
6
9
=
2
3
et s
2
x
=
4
9
.
2. En supposant que les donnes de cet chantillon sont des ralisations dune va-
riable de loi inconnue, donner une estimation non biaise de lesprance et de la
variance de cette loi.
La moyenne empirique (2/3) est une estimation non biaise de lesprance. On
obtient une estimation non biaise de la variance en multipliant s
2
x
par 9/8 : on
trouve 1/2.
3. On choisit de modliser les valeurs de cet chantillon par une loi binomiale B(2, p).
Utiliser la moyenne empirique pour proposer une estimation ponctuelle pour p.
Lesprance de la loi B(2, p) est 2p. El le est estime par la moyenne empirique
(ici : 2/3). Donc la probabilit p peut tre estime par :
2/3
2
=
1
3
.
4. Avec le mme modle, utiliser la variance empirique pour proposer une autre
estimation de p.
La variance de la loi B(2, p) est 2p(1 p). El le est estime par 1/2. On obtient
une estimation de p en rsolvant lquation 2p(1 p) = 1/2, dont la solution est
p = 1/2.
18
STA230 Exercices de Statistique UJF Grenoble
5. On choisit de modliser les valeurs de cet chantillon par une loi de Poisson P(),
qui a pour esprance . Quelle estimation ponctuelle proposez-vous pour ?
On estime par la moyenne empirique, 2/3.
Exercice 2.1.2. On considre lchantillon statistique
(1, 3, 2, 3, 2, 2, 0, 2, 3, 1) .
1. En supposant que les variables de cet chantillon sont des ralisations dune
variable de loi inconnue, donner une estimation non biaise de lesprance et de
la variance de cette loi.
2. On choisit de modliser les valeurs de cet chantillon par une loi binomiale B(3, p).
Utiliser la moyenne empirique pour proposer une estimation ponctuelle pour p.
Exercice 2.1.3. On considre lchantillon statistique
(1.2, 0.2, 1.6, 1.1, 0.9, 0.3, 0.7, 0.1, 0.4) .
1. On choisit de modliser les valeurs de cet chantillon par une loi uniforme sur
lintervalle [0, ]. Quelle estimation ponctuelle proposez-vous pour ?
2. On choisit de modliser les valeurs de cet chantillon par une loi normale N(,
2
).
Quelle estimation ponctuelle proposez-vous pour et
2
?
2.2 Intervalles de conance pour un chantillon gaussien
Un chantillon gaussien est un n-uplet (X
1
, . . . , X
n
) de variables alatoires ind-
pendantes et de mme loi normale N(,
2
). On note :
X =
1
n
n

i=1
X
i
et S
2
=
_
1
n
n

i=1
X
2
i
_
X
2
,
la moyenne et la variance empiriques de lchantillon.
Si la variance thorique
2
est connue, on obtient un intervalle de conance de
niveau 1 pour par :
_
X u

n
; X + u

n
_
,
o u

est le quantile dordre 1/2 de la loi normale N(0, 1).


Si la variance thorique
2
est inconnue, on obtient un intervalle de conance de
niveau 1 pour par :
_
X t

S
2

n 1
; X + t

S
2

n 1
_
,
o t

est le quantile dordre 1/2 de la loi de Student de paramtre n1.


19
STA230 Exercices de Statistique UJF Grenoble
Si la variance thorique
2
est inconnue, on obtient un intervalle de conance de
niveau 1 pour
2
par :
_
nS
2
v

;
nS
2
u

_
,
o u

est le quantile dordre /2 de la loi de khi-deux de paramtre n1, et v

est son quantile dordre 1/2.


Exercice 2.2.1. La force de compression dun type de bton est modlise par une
variable gaussienne desprance et de variance
2
. Lunit de mesure est le psi (pound
per square inch). Dans les questions de 1. 4., on supposera la variance
2
connue et
gale 1000. Sur un chantillon de 12 mesures, on a observ une moyenne empirique
de 3250 psi.
1. Donner un intervalle de conance de niveau 0.95 pour .
Ici, = 0.05 et 1 /2 = 0.975. Le quantile dordre 0.975 de la loi N(0, 1) est
1.96. Lintervalle de conance est :
_
3250 1.96

1000

12
; 3250 + 1.96

1000

12
_
= [3232 ; 3268] .
Il est inutile de donner plus de chires que nen a la moyenne empirique. On
arrondit la borne infrieure par dfaut, la borne suprieure par excs ; ainsi lar-
rondi ne peut quagrandir linterval le, et on est assur que le niveau de conance
de lintervalle donn est au moins gal 0.95.
2. Donner un intervalle de conance de niveau 0.99 pour . Comparer sa largeur
avec celle de lintervalle prcdent.
Ici, = 0.01 et 1/2 = 0.995.Le quantile dordre 0.995 de la loi N(0, 1) est
2.5758. Lintervalle de conance est :
_
3250 2.5758

1000

12
; 3250 + 2.5758

1000

12
_
= [3226 ; 3274] .
Lintervalle est plus large que le prcdent. Plus la probabilit que la moyenne
appartienne lintervalle est grande (0.99 au lieu de 0.95), plus cet interval le
doit tre large. Si on veut avoir plus conance dans linterval le, il faut accepter
quil soit moins prcis.
3. Si avec le mme chantillon on donnait un intervalle de conance de largeur 30
psi, quel serait son niveau de conance ?
La largeur de lintervalle de conance de niveau 1 est :
2u

1000

12
.
20
STA230 Exercices de Statistique UJF Grenoble
Si cette largeur est gale 30, on obtient :
u

=
30

12
2

1000
= 1.6432 .
Cette valeur est le quantile dordre 0.9498 = 1/2 de la loi N(0, 1). Donc
= 0.1003 et 1 = 0.8997.
4. On souhaite maintenant estimer avec une prcision de 15 psi, avec un niveau
de conance de 0.95. Quelle taille minimum doit avoir lchantillon?
Pour un chantillon de taille n, La prcision de linterval le de conance de niveau
0.95 est :
1.96

1000

n
.
Si elle est gale 15, on obtient :
n =
_
1.96

1000
15
_
2
= 17.07 .
Lchantillon doit donc tre de tail le 18 au moins.
5. La variance thorique est dsormais suppose inconnue. On dispose de la donne
suivante (sur le mme chantillon de taille 12) :
12

i=1
x
2
i
= 126761700 .
Donnez pour un intervalle de conance de niveau 0.95 et comparez-le avec celui
de la question 1, puis un intervalle de conance de niveau 0.99 et comparez-le
avec celui de la question 2.
La variance estime est :
s
2
=
1
12
126761700 (3250)
2
= 975 .
Le quantile dordre 0.975 de la loi de Student T (n1) est 2.201, le quantile dordre
0.995 est 3.106. Lintervalle de conance de niveau 0.95 est :
_
3250 2.201

975

11
; 3250 + 2.201

975

11
_
= [3229 ; 3271] .
Lintervalle de conance de niveau 0.99 est :
_
3250 3.106

975

11
; 3250 + 3.106

975

11
_
= [3220 ; 3280] .
21
STA230 Exercices de Statistique UJF Grenoble
niveau de conance gal, et bien que la variance estime soit infrieure la va-
riance thorique, lintervalle de conance calcul avec la loi de Student (variance
suppose inconnue) est plus large, donc moins prcis, que celui calcul avec la loi
normale (variance connue). Cela tient au fait que les lois de Student sont plus
disperses que la loi normale N(0, 1) : linterval le contenant 95% des valeurs pour
la loi T (11) est [2.201 ; +2.201], au lieu de [1.96 ; +1.96] pour la loi N(0, 1).
Il est raisonnable de sattendre une moins grande prcision quand on dispose
de moins dinformation sur le modle.
6. Donner un intervalle de conance de niveau 0.95 pour la variance, et pour lcart-
type.
Le quantile dordre 0.025 pour la loi de khi-deux X
2
(11) est u

= 3.816. Le
quantile dordre 0.975 est v

= 21.92. Linterval le de conance de niveau 0.95


pour la variance est :
_
12 975
21.92
;
12 975
3.816
_
= [533 ; 3067] .
En prenant la racine carre des deux bornes, on obtient un interval le de conance
pour lcart-type :
_
_

12 975
21.92
;

12 975
3.816
_
_
= [23.1 ; 55.4] .
Les intervalles de conance pour la variance ou lcart-type pour de petits chan-
til lons sont en gnral trs imprcis.
Exercice 2.2.2. On a mesur le poids de raisin produit par pied sur 10 pieds pris au
hasard dans une vigne. On a obtenu les rsultats suivants exprims en kilogrammes :
2.4 3.4 3.6 4.1 4.3 4.7 5.4 5.9 6.5 6.9 .
On modlise le poids de raisin produit par une souche de cette vigne par une variable
alatoire de loi N(,
2
).
1. Calculer la moyenne et la variance empiriques de lchantillon.
2. Donner un intervalle de conance de niveau 0.95 pour .
3. Donner un intervalle de conance de niveau 0.95 pour
2
.
4. On suppose dsormais que lcart-type des productions par pied est connu et gal
1.4. Donner un intervalle de conance de niveau 0.95 pour .
5. Quel nombre de pieds au minimum devrait-on observer pour estimer au niveau
de conance 0.99 avec une prcision de plus ou moins 500 grammes ?
Exercice 2.2.3. Une tude faite sur la vitesse coronarienne a donn les rsultats sui-
vants sur 18 individus :
22
STA230 Exercices de Statistique UJF Grenoble
75, 77, 78, 77, 77, 72, 72, 72, 70, 71, 69, 69, 68, 66, 64, 66, 62, 61.
On modlise les valeurs de cet chantillon par une variable alatoire de loi normale
N(,
2
), o et
2
sont deux paramtres a priori inconnus.
1. Calculer la moyenne et la variance de lchantillon.
2. Calculer les intervalles de conance de aux niveaux 0.95, 0.98 et 0.99.
3. Calculer les intervalles de conance de
2
aux niveaux 0.95, 0.98 et 0.99.
4. Que seraient les intervalles de conance de , si on supposait que la variance
2
tait connue et gale 26 ?
Exercice 2.2.4. Un laboratoire utilise un appareil de mesure optique destin mesurer
la concentration des solutions de uorescene. Les rsultats des mesures sont modliss
par une variable alatoire normale dont lesprance est gale la concentration relle
de la solution, et lcart-type, garanti par le constructeur, est connu : = 0.05.
1. On eectue 9 mesures partir dune solution donne. La moyenne empirique des
9 mesures est 4.38 mg/l. Donner un intervalle de conance pour la concentration
relle de la solution, au niveau de conance 0.99.
2. Pour le mme chantillon, quel est le niveau de conance de lintervalle
[4.36 ; 4.40] ?
3. Quelle devrait tre la taille de lchantillon pour connatre la concentration relle
de la solution, au niveau de conance 0.99, avec une prcision de 0.01 mg/l ?
4. Sur le mme chantillon de 9 mesures, on a observ un cart-type empirique de
0.08 mg/l. Donner un intervalle de conance pour lcart-type rel, de niveau de
conance 0.99. Que pensez-vous de la garantie du constructeur ?
5. Reprendre la premire question, en supposant cette fois que lcart-type de la loi
des mesures est inconnu, et estim par lcart-type empirique.
Exercice 2.2.5. Pour tudier la pourriture des pommes de terre, un chercheur injecte
13 pommes de terre des bactries qui causent cette pourriture. Il mesure ensuite la
surface pourrie (en mm
2
) sur ces 13 pommes de terre. Il obtient une moyenne empirique
de 7.84 mm
2
pour une variance empirique de 14.13. On modlise la surface pourrie dune
pomme de terre par une loi normale N(,
2
).
1. Calculer un intervalle de conance pour au niveau 0.95 puis 0.99.
2. Calculer un intervalle de conance pour
2
au niveau 0.95 puis 0.99.
Exercice 2.2.6. On dsire estimer la production dune nouvelle espce de pommier. On
modlise la production dun pommier de cette espce par une loi normale desprance
et dcart-type inconnus.
1. Sur un chantillon de 15 pommiers, on a observ une rcolte moyenne de 52 kg
avec un cart-type de 5 kg. Donner un intervalle de conance pour la production
moyenne des pommiers de cette espce, de niveau 0.95, puis 0.99.
2. Donner un intervalle de conance pour lcart-type , de niveau 0.95.
23
STA230 Exercices de Statistique UJF Grenoble
2.3 Int. de conf. dune esprance pour un grand chantillon
Pour un grand chantillon, on obtient un intervalle de conance de niveau approch
1 pour lesprance par :
_
X u

S
2

n
; X + u

S
2

n
_
,
o u

est le quantile dordre 1/2 de la loi normale N(0, 1).


Exercice 2.3.1. On a eectu 90 mesures de concentration dune solution de uores-
cene. On a observ une moyenne empirique de 4.38 mg/l et un cart-type empirique de
0.08 mg/l. Donner un intervalle de conance pour la concentration relle de la solution,
au niveaux de conance 0.95 et 0.99.
Le quantile dordre 0.975 de la loi N(0, 1) est 1.96. Linterval le de conance de niveau
0.95 est :
_
4.38 1.96
0.08

90
; 4.38 + 1.96
0.08

90
_
= [4.363 ; 4.397] .
Le quantile dordre 0.995 de la loi N(0, 1) est 2.5758. Linterval le de conance de niveau
0.99 est :
_
4.38 2.5758
0.08

90
; 4.38 + 2.5758
0.08

90
_
= [4.358 ; 4.402] .
Exercice 2.3.2. On dsire estimer la production dune nouvelle espce de pommier.
Sur un chantillon de 80 pommiers, on observe une rcolte moyenne de 51.5 kg, avec
un cart-type de 4.5 kg. Donner un intervalle de conance pour la production moyenne
des pommiers de cette espce, de niveau 0.95, puis 0.99.
Exercice 2.3.3. On a mesur la longueur en millimtres de 152 ufs de coucou, et
obtenu une moyenne empirique de 40.8 mm, pour une variance empirique de 14.7
mm
2
. Donner un intervalle de conance pour la longueur moyenne dun uf de coucou,
au niveau de conance 0.95, puis 0.98, puis 0.99.
Exercice 2.3.4. On a mesur la longueur de 150 coquilles de noix et obtenu une
moyenne empirique de 27.6 mm, pour un cart-type empirique de 3.7 mm. Donner
un intervalle de conance pour la longueur moyenne dune coquille de noix, au niveau
de conance 0.99, puis 0.999.
Exercice 2.3.5. On administre des somnifres deux groupes de malades A et B
comprenant 50 et 100 individus. Le groupe A reoit un nouveau somnifre, le groupe
B reoit lancien. Les patients du groupe A ont dormi 7.82 heures en moyenne avec
un cart-type de 0.24 h; ceux du groupe B ont dormi 6.75 heures en moyenne avec un
cart-type de 0.30 h.
24
STA230 Exercices de Statistique UJF Grenoble
1. Calculer lintervalle de conance pour le nombre moyen dheures de sommeil dun
patient recevant le nouveau somnifre, aux niveaux 0.90, puis 0.95 et 0.99.
2. Mme question pour un patient recevant lancien somnifre.
3. Pensez-vous que le nouveau somnifre soit plus ecace que lancien?
2.4 Int. de conf. dune probabilit pour un grand chantillon
Pour un grand chantillon binaire, on obtient un intervalle de conance de niveau
approch 1 pour la probabilit de lvnement par :
_
_
X u

_
X(1 X)

n
; X + u

_
X(1 X)

n
_
_
,
o n est la taille de lchantillon, X est la frquence empirique de lvnement et u

est le quantile dordre 1/2 de la loi normale N(0, 1).


Exercice 2.4.1. An dtudier linuence des rayons X sur la spermatognse de Bom-
byx Mori, on a irradi des mles au deuxime jour et au quatrime jour du stade
larvaire ; ces mles ont t accoupls avec des femelles non irradies. On a compt le
nombre dufs fertiles dans la ponte des femelles, et on a obtenu 4998 ufs fertiles
pour 5646 ufs rcolts en tout. On a aussi accoupl des mles et des femelles non
irradis, avec un rsultat de 5834 ufs fertiles sur 6221 ufs rcolts.
1. Donner un intervalle de conance de niveau 0.95 pour la proportion dufs fertiles
aprs irradiation des mles.
La frquence empirique des ufs fertiles aprs irradiation des mles est :
F =
4998
5646
= 0.885 .
Lintervalle de conance de niveau 0.95 est :
_
_
0.885 1.96
_
0.885(1 0.885)

5646
; 0.885 + 1.96
_
0.885(1 0.885)

5646
_
_
= [0.876 ; 0.894] .
2. Donner un intervalle de conance de niveau 0.95 pour la proportion dufs fertiles
de couples non irradis.
La frquence empirique des ufs fertiles parmi les couples non irradis est :
F =
5834
6221
= 0.938 .
25
STA230 Exercices de Statistique UJF Grenoble
Lintervalle de conance de niveau 0.95 est :
_
_
0.938 1.96
_
0.938(1 0.938)

6221
; 0.938 + 1.96
_
0.938(1 0.938)

6221
_
_
= [0.931 ; 0.944] .
3. Que pensez-vous de linuence de lirradiation sur la fertilit des ufs ?
Les deux intervalles de conance ont une intersection vide ; la proportion dufs
fertiles est donc signicativement plus basse pour les mles irradis.
Exercice 2.4.2. On a observ un chantillon de taille n = 500 dadolescents de 15 ans,
dans lequel 210 prsentent un surpoids. Soit p la proportion dadolescents de 15 ans
qui prsentent un surpoids. Donner un intervalle de conance pour p, aux niveaux de
conance 0.95 et 0.99.
Exercice 2.4.3. Une clinique a propos une nouvelle opration chirurgicale, et a connu
40 checs, sur 200 tentatives. On note p le pourcentage de russite de cette nouvelle
opration.
1. Quelle estimation de p proposez-vous ?
2. En utilisant lapproximation normale, donner un intervalle de conance pour p
de niveau de conance 0.95.
3. Combien doprations la clinique devrait-elle raliser pour connatre le pourcen-
tage de russite avec une prcision de plus ou moins 1%, au niveau de conance
0.95 ?
26
STA230 Exercices de Statistique UJF Grenoble
3 Tests statistiques
3.1 Rgle de dcision, seuil et p-valeur
Dans un test, lhypothse nul le H
0
est celle dont on choisit de matriser la pro-
babilit de rejet tort. Cest celle laquelle on tient le plus, celle quil serait le
plus dangereux ou le plus coteux de rejeter tort.
Le seuil du test, encore appel risque de premire espce est la probabilit de
rejeter H
0
tort :
P
H
0
[ Rejet de H
0
] = .
La statistique de test est une fonction des donnes, dont on connat la distribution
de probabilit sous lhypothse nulle H
0
.
La rgle de dcision spcie, en fonction des valeurs de la statistique de test, dans
quel cas on rejette lhypothse H
0
.
Un test peut tre :
bilatral si la rgle de dcision est :
Rejet de H
0
T / [l, l

]
(rejet des valeurs trop grandes ou trop petites). On convient habituellement de
choisir l et l

de sorte que P
H
0
[T < l] = P
H
0
[T > l

] = /2.
unilatral si la rgle de dcision est :
Rejet de H
0
T < l
(rejet des valeurs trop petites),
ou bien :
Rejet de H
0
T > l
(rejet des valeurs trop grandes).
La p-valeur est le seuil pour lequel la valeur observe de la statistique de test
serait la limite de la rgion de rejet. Cest la probabilit sous H
0
que la statistique
de test soit au-del de la valeur dj observe.
Le risque de deuxime espce est la probabilit daccepter H
0
tort, o encore
la probabilit daccepter H
0
quand lhypotse alternative H
1
est vraie :
P
H
1
[ accepter H
0
] = .
La puissance du test est 1. Cest la probabilit de rejeter H
0
en ayant raison.
Exercice 3.1.1. Chez un individu adulte, le logarithme du dosage en d-dimres, variable
que nous noterons X, est modlis par une loi normale desprance et de variance

2
. La variable X est un indicateur de risque cardio-vasculaire : on considre que chez
les individus sains, vaut 1, alors que chez les individus risque, vaut 0. Dans les
deux cas, la valeur de
2
est la mme : 0.09.
27
STA230 Exercices de Statistique UJF Grenoble
1. Le Dr. House ne souhaite pas alarmer inutilement ses patients. Quelles hypo-
thses H
0
et H
1
choisira-t-il de tester ? Donner la rgle de dcision pour son test,
au seuil de 1%, et au seuil de 5%.
Si Dr. House ne veut pas alarmer inutilement un patient, lhypothse quil consi-
dre comme dangereux de rejeter tort est que celui-ci nest pas risque, donc
que sa variable X (la statistique de test) a pour esprance 1. Son hypothse H
0
est donc = 1 (le patient ne prsente pas de risque), quil teste contre H
1
:
= 0 (le patient prsente un risque). Il choisira de rejeter des valeurs trop leves
de X. La rgle de dcision sera donc :
Rejet de H
0
X > l ,
o :
P
H
0
[X > l] = .
Sous lhypothse H
0
, la statistique de test X suit la loi N(1, 0.09), donc
X(1)

0.09
suit la loi N(0, 1). Une rgle de dcision quivalente est :
Rejet de H
0

X (1)

0.09
>
l (1)

0.09
.
Donc
l(1)

0.09
est la valeur qui a probabilit dtre dpasse pour une variable de
loi N(0, 1) : 1.6449 pour = 0.05, 2.3263 pour = 0.01. Au seuil 0.05 la rgle
de dcision du test est :
Rejet de H
0

X (1)

0.09
> 1.6449
X > 1.6449

0.09 + (1) = 0.5065 .


On dclare que le patient prsente un risque cardio-vasculaire quand son dosage
en d-dimres est suprieur 0.5065.
Au seuil 0.01 la rgle de dcision du test est :
Rejet de H
0

X (1)

0.09
> 2.3263
X > 2.3263

0.09 + (1) = 0.3021 .


Plus le seuil est faible, moins la rgle de dcision rejette dindividus risque :
ce qui doit se produire pour rejeter = 1 au seuil 0.01 est plus extraordinaire
quau seuil 0.05.
2. Calculer le risque de deuxime espce et la puissance des tests de la question
prcdente.
28
STA230 Exercices de Statistique UJF Grenoble
Le risque de deuxime espce est la probabilit de rejeter H
1
tort. Sous lhypo-
thse H
1
, = 0, la variable X suit la loi N(0, 0.09).
Pour le test de seuil 0.05, la probabilit daccepter H
0
tort (dclarer tort quun
patient ne prsente pas de risque) est :
= P
H
1
[X 0.5065] = P
H
1
_
X 0

0.09

0.5065 0

0.09
_
Or sous lhypothse H
1
,
X0

0.09
suit la loi N(0, 1). Nous devons donc calculer la
probabilit, pour une variable de loi N(0, 1) de tomber en-dessous de
0.50650

0.09
=
1.6885 : cest la valeur de la fonction de rpartition de la loi N(0, 1) au point
1.6885, savoir 0.0457. La puissance est :
1 = 1 0.0457 = 0.9543 .
Pour le test de seuil 0.01, le raisonnement est le mme, en remplaant la valeur
limite 0.5065 par 0.3021. On trouve un risque de deuxime espce gal 0.1570
et une puissance gale 0.8430.
Quand on abaisse le seuil, on diminue le risque de rejeter H
0
tort, mais on
augmente aussi le risque de laccepter tort, et on diminue la puissance. Pour
le test de seuil 0.01, la probabilit que le mdecin se trompe en dclarant quun
patient nest pas risque est de lordre de 16%.
3. Un patient prsente une valeur de X gale 0.46. Calculer la p-valeur du test
du Dr. House.
La p-valeur est le seuil pour lequel 0.46 serait la valeur limite. Au vu des rsultats
de la premire question, comme 0.46 est entre 0.5065 et 0.3021, la p-valeur
est comprise entre 0.05 et 0.01. El le est gale la probabilit sous H
0
, que la
variable X soit suprieure 0.46.
P
H
0
[X > 0.46] = P
H
0
_
X (1)

0.09
>
0.46 (1)

0.09
_
= P
H
0
_
X (1)

0.09
> 1.8
_
.
Or sous H
0
,
X(1)

0.09
suit la loi N(0, 1). La probabilit cherche est 1 F(1.8), o
F est la fonction de rpartition de la loi N(0, 1), savoir 0.0359.
4. Le Dr. Cuddy a pour point de vue quil vaut mieux alarmer tort un patient
plutt que de ne pas lavertir dun risque rel. Quelles hypothses H

0
et H

1
choisira-t-elle de tester ? Donner la rgle de dcision pour son test, au seuil de
1%, et au seuil de 5%.
Si Dr. Cuddy ne veut pas manquer un patient risque, lhypothse quel le consi-
dre comme dangereux de rejeter tort est que celui-ci est risque, donc que sa
variable X (la statistique de test) a pour esprance 0. Son hypothse H

0
est donc
= 0 (le patient prsente un risque), quel le teste contre H

1
: = 1 (le patient
29
STA230 Exercices de Statistique UJF Grenoble
ne prsente pas de risque). El le choisira de rejeter des valeurs trop basses de X.
La rgle de dcision sera donc :
Rejet de H

0
X < l

,
o :
P
H

0
[X < l

] = .
Sous lhypothse H

0
, la statistique de test X suit la loi N(0, 0.09), donc
X0

0.09
suit
la loi N(0, 1). Une rgle de dcision quivalente est :
Rejet de H

0

X 0

0.09
<
l

0.09
.
Donc
l

0.09
est la valeur telle quune variable de loi N(0, 1) tombe en-dessous avec
probabilit : 1.6449 pour = 0.05, 2.3263 pour = 0.01. Au seuil 0.05 la
rgle de dcision du test est :
Rejet de H
0

X 0

0.09
< 1.6449
X < 1.6449

0.09 + 0 = 0.4935 .
Le Dr. Cuddy dclare que le patient ne prsente pas de risque cardio-vasculaire
quand son dosage en d-dimres est infrieur 0.4935.
Au seuil 0.01 la rgle de dcision du test est :
Rejet de H

0

X 0

0.09
< 2.3263
X < 2.3263

0.09 + 0 = 0.6980 .
5. Selon le seuil, pour quelles valeurs de X les deux mdecins seront-ils daccord?
Si X < min{l, l

}, Le Dr. House accepte H


0
, le Dr. Cuddy rejette H

0
. Dans les
deux cas, la conclusion pour le patient est la mme : il nest pas risque.
linverse, si X > max{l, l

} le Dr. House rejette H


0
, le Dr. Cuddy accepte H

0
et
la conclusion est identique : le patient est risque.
Les conclusions des deux mdecins dirent pour les patients dont la valeur de X
se situe entre l et l

.
Au seuil 0.05 les valeurs limites des deux tests sont l = 0.5065 et l

0.4935.
Pour un patient dont la variable X est entre 0.5065 et 0.4935 (par exemple
0.5), le Dr. House dclare quil est risque (il rejette H
0
), le Dr.Cuddy dclare
quil nest pas risque (elle rejette H

0
).
30
STA230 Exercices de Statistique UJF Grenoble
Au seuil 0.01, les valeurs limites sont l = 0.3021 et l

= 0.6980. Pour un
patient dont la variable X est entre 0.6980 et 0.3021 (par exemple 0.5), le
Dr. House dclare quil nest pas risque (il accepte H
0
), le Dr. Cuddy dclare
quil est risque (elle accepte H

0
).
6. Donner la rgle de dcision du test de seuil 0.05, pour lhypothse nulle H

0
: =
1 contre lhypothse alternative H

1
: = 1.
Il sagit ici dun test bilatral. La rgle de dcision sera donc :
Rejet de H

0
X / [l
1
, l
2
] ,
o :
P
H

0
[ X / [l
1
, l
2
] ] = 0.05 .
Sous lhypothse H

0
, la statistique de test X suit la loi N(1, 0.09), donc
X(1)

0.09
suit la loi N(0, 1). Une rgle de dcision quivalente est :
Rejet de H

0

X (1)

0.09
/
_
l
1
(1)

0.09
;
l
2
(1)

0.09
_
.
Lintervalle
_
l
1
(1)

0.09
;
l
2
(1)

0.09
_
doit contenir 95% des valeurs dune variable suivant
la loi N(0, 1). On choisit linterval le centr en 0 : [1.96 ; +1.96]. Donc :
l
1
(1)

0.09
= 1.96 = l
1
= (1) 1.96

0.09 = 1.588 ,
et :
l
2
(1)

0.09
= +1.96 = l
2
= (1) + 1.96

0.09 = 0.412 ,
Au seuil 0.05 la rgle de dcision du test est :
Rejet de H
0
X / [1.588 ; 0.412] .
On dclare que le patient prsente un dosage signicativement dirent de 1
quand sa variable X est soit infrieure 1.588, soit suprieure 0.488.
7. Un patient prsente une valeur de X gale 0.46. Calculer la p-valeur du test
de la question prcdente.
La p-valeur est le seuil pour lequel la valeur observe serait limite de la rgion de
rejet. Cette rgion de rejet est centre en 1. Lautre valeur limite devrait donc
tre 1 (0.46 (1)) = 1.54.
31
STA230 Exercices de Statistique UJF Grenoble
La p-valeur est la probabilit suivante.
P
H

0
[X / [1.54 ; 0.46] ]
= P
H

0
_
X (1)

0.09
/
_
1.54 (1)

0.09
;
0.46 (1)

0.09
_ _
= P
H

0
_
X (1)

0.09
/ [1.8 ; +1.8]
_
.
Sous lhypothse H

0
, la variable
X(1)

0.09
suit la loi N(0, 1) : la probabilit cherche
est 0.0719. La p-valeur que lon trouve est le double de cel le du test unilatral de
la question 3.
Exercice 3.1.2. Une machine emballer est cense produire des paquets de 1 kg. Le
poids rel des paquets est modlis par une variable alatoire suivant une loi normale
dont lcart-type vaut 20 g. Par contre, il est possible de rgler le poids moyen des
paquets.
1. Le responsable de la production dcide de ne pas mettre la vente les paquets
dont le poids scarterait trop de la valeur nominale de 1 kg. Quelles hypothses
H
0
et H
1
doit-il tester ? tablir la rgle de dcision de ce test aux seuils de 5%
et 1%.
2. Le patron de lusine prtend que les paquets mis la vente sont souvent trop
lourds, ce qui fait perdre de largent lusine. Quelles hypothses H
0
et H
1
le
responsable de production doit-il tester ? tablir la rgle de dcision de ce test
aux seuils de 5% et 1%.
3. On pse un paquet de 1018 grammes. Quelle est la p-valeur du test de la question
prcdente ? Quelle est la p-valeur du test de la question 1 ?
4. Une association de consommateurs accuse lusine de mettre la vente des paquets
de poids trop faible. Quelles hypothses H
0
et H
1
le responsable de production
doit-il tester ? tablir la rgle de dcision de ce test aux seuils de 5% et 1%.
5. On pse un paquet de 982 grammes. Quelle est la p-valeur du test de la question
prcdente ? Quelle est la p-valeur du test de la question 1. ?
Exercice 3.1.3. Une concentration en paractamol de plus de 150 mg par kilogramme
de poids corporel est considre comme dangereuse. Les mesures de paractamol dans
les tests sanguins sont modlises par une variable alatoire de loi normale N(,
2
).
Lcart-type, li la procdure de test est suppos connu et gal 5 mg.
1. Donner les hypothses et la rgle de dcision du test dcidant, au seuil de 5%,
si un patient court un risque, au vu du rsultat dun test sanguin (vous tes un
docteur prudent).
32
STA230 Exercices de Statistique UJF Grenoble
2. Un patient montrant des signes dempoisonnement au paractamol arive lh-
pital. On eectue un test sanguin et on trouve une concentration de 140 mg.
Donner la p-valeur du test de la question prcdente. Doit-on considrer que ce
patient court un risque ?
Exercice 3.1.4. Soit X lindice de pollution mesur prs dune usine. On modlise X
par une loi N(,
2
). On admet que lcart-type est connu, et vaut 4. Les normes
xent 30 lindice moyen de pollution maximal.
1. Le directeur de lusine souhaite montrer que celle-ci est aux normes. Quelles
hypothses H
0
et H
1
doit-il tester ? tablir la rgle de dcision de ce test aux
seuils de 5% et 1%.
2. Une association cologiste veut dmontrer que lusine est hors-normes. Quelles
hypothses H

0
et H

1
doit-elle tester ? tablir la rgle de dcision de ce test aux
seuils de 5% et 1%.
3.2 Tests sur un chantillon
On note :
X =
1
n
n

i=1
X
i
et S
2
=
_
1
n
n

i=1
X
2
i
_
X
2
la moyenne et la variance empiriques de lchantillon. Lesprance de la loi inconnue
est , sa variance est
2
. Les statistiques de test utiliser et leur loi de probabilit sous
lhypothse nulle H
0
sont les suivantes.
Test de valeurs de lesprance, chantillon gaussien,
2
connu.
H
0
: =
0
; T =

n
_
X
0

2
_
suit la loi normale N(0, 1) .
Test de valeurs de lesprance, chantillon gaussien,
2
inconnu.
H
0
: =
0
; T =

n1
_
X
0

S
2
_
suit la loi de Student T (n 1) .
Test de valeurs de la variance, chantillon gaussien,
2
inconnu.
H
0
:
2
=
2
0
; T = n
_
S
2

2
0
_
suit la loi de khi-deux X
2
(n 1) .
Test de valeurs de lesprance, grand chantillon,
2
connu ou non.
H
0
: =
0
; T =

n
_
X
0

S
2
_
suit la loi normale N(0, 1) .
33
STA230 Exercices de Statistique UJF Grenoble
Test de valeurs dune probabilit, chantillon binaire de grande taille.
H
0
: p = p
0
; T =

n
_
_
X p
0
_
p
0
(1 p
0
)
_
_
suit la loi normale N(0, 1) .
Exercice 3.2.1. Chez un individu adulte, le logarithme du dosage en d-dimres, variable
que nous noterons X, est modlis par une loi normale desprance et de variance
2
.
La variable X est un indicateur de risque cardio-vasculaire : on considre que chez les
individus sains, vaut 1, alors que chez les individus risque, vaut 0. On souhaite
tudier linuence de la consommation dhuile dolive sur le risque cardio-vasculaire.
1. On a fait suivre un rgime base dhuile dolive un groupe de 13 patients,
prcdemment considrs comme risque. Aprs le rgime, on a mesur la valeur
de X pour chaque patient, et obtenu une moyenne empirique de 0.15. On sup-
pose
2
connu et gal 0.09. Donner la rgle de dcision du test de H
0
: = 0
contre H
1
: = 1, au seuil de 5%. Quelle est la p-valeur correspondant
0.15 ? Quelle est votre conclusion ? Calculer le risque de deuxime espce et la
puissance du test.
On se trouve dans le cas dun chantil lon gaussien avec variance connue, et on
construit un test sur la valeur de lesprance. La statistique de test est :
T =

13
X 0

0.09
.
Sous lhypothse H
0
, T suit la loi normale N(0, 1). On rejette lhypothse H
0
quand T prend des valeurs trop basses. Au seuil de 5% la valeur limite est
1.6449. La rgle de dcision est :
Rejet de H
0
T < 1.6449 X < 0.1369 .
Pour X = 0.15, la statistique du test prend la valeur 1.8028, la p-valeur
correspondante est 0.0357. Au seuil de 5% on rejette H
0
, cest--dire quon dclare
quil y a eu une amlioration signicative. Mais un seuil infrieur 3.57%, on
ne peut pas rejeter H
0
.
Sous lhypothse H
1
,

13
X(1)

0.09
suit la loi N(0, 1). Le risque de deuxime espce
est la probabilit daccepter H
0
tort, savoir :
= P
H
1
[X > 0.1369]
= P
H
1
_

13
X (1)

0.09
>

13
0.1369 (1)

0.09
_
= P
H
1
_

13
X (1)

0.09
> 10.3732
_
0 .
34
STA230 Exercices de Statistique UJF Grenoble
Le risque de deuxime espce est trs proche de 0 (infrieur 10
20
), et la puis-
sance trs proche de 1.
2. Pour le mme groupe de 13 patients, on a observ un cart-type empirique gal
0.37. Donner la rgle de dcision du test de H
0
:
2
= 0.09, contre H
1
:
2
= 0.09,
au seuil de 5%. Quelle est votre conclusion?
Il sagit de tester une valeur de la variance pour un chantil lon gaussien. La
statistique de test est :
T = 13
S
2
0.09
.
Sous lhypothse H
0
, elle suit la loi de khi-deux de paramtre 12. On souhaite un
test bilatral, donc une rgle de dcision qui carte les valeurs trop basses ou trop
hautes.
Rejet de H
0
T / [l, l

] ,
o l et l

sont les quantiles dordre 0.025 et 0.975 de la loi de khi-deux de paramtre


12 : l = 4.4038 et l

= 23.3367. Ici, la statistique de test prend la valeur 19.7744.


Cest une valeur leve, mais pas susamment pour rejeter lhypothse que la
variance thorique est de 0.09.
3. En supposant la variance inconnue, et en utilisant lestimation de la question
prcdente, donner la rgle de dcision du test de H
0
: = 0, contre H
1
: < 0,
au seuil de 5%. Quelle est votre conclusion?
On se trouve dans le cas dun chantil lon gaussien avec variance inconnue, et on
construit un test sur la valeur de lesprance. La statistique de test est :
T =

12
X 0

S
2
.
Sous lhypothse H
0
, T suit la loi de Student T (12). On rejette lhypothse H
0
quand T prend des valeurs trop basses. Au seuil de 5% la valeur limite est
1.7823. La rgle de dcision est :
Rejet de H
0
T < 1.7823 .
Pour X = 0.15 et

S
2
= 0.37, la statistique du test T prend la valeur 1.4044,
donc on ne peut pas rejeter H
0
(la p-valeur correspondante est 0.0928), cest--
dire quon dclare quil ny a pas eu damlioration signicative.
4. On reprend lexprience sur un groupe de 130 patients, pour lesquels on observe
une moyenne empirique de 0.12 et un cart-type de 0.32. Donner la rgle de
dcision du test de H
0
: = 0 contre H
1
: < 0, au seuil de 5%. Quelle est la
p-valeur correspondant 0.12 ? Quelle est votre conclusion?
On doit maintenant tester une valeur de lesprance pour un grand chantil lon.
35
STA230 Exercices de Statistique UJF Grenoble
La statistique de test est :
T =

130
X 0

S
2
.
Sous lhypothse H
0
, T suit la loi normale N(0, 1). On rejette lhypothse H
0
quand T prend des valeurs trop basses. Au seuil de 5% la valeur limite est
1.6449. La rgle de dcision est :
Rejet de H
0
T < 1.6449 .
Pour X = 0.12 et

S
2
= 0.32, la statistique du test prend la valeur 4.2757, la
p-valeur correspondante est proche de 10
5
. On peut donc conclure sans hsiter
que pour ce groupe de patients, le dosage moyen est signicativement infrieur
0.
5. On avait mesur le dosage en d-dimres des 130 patients avant le rgime.
lissue du rgime, le dosage a baiss pour 78 patients, mont pour 52 patients.
Construire un test permettant de dcider si le rgime base dhuile dolive a
amlior ltat dune proportion signicative des patients. Avec les observations
dont vous disposez, quelle est la p-valeur de ce test, quelle est votre conclusion?
Notons p la probabilit que le rgime base dhuile dolive amliore ltat du
patient, cest--dire fasse baisser son dosage en d-dimres. Si le rgime navait
pas deet, les uctuations du dosage seraient purement alatoires et il y aurait
autant daugmentations que de diminutions : la proportion damliorations serait
de 50%. Nous devons donc tester, pour un grand chantil lon binaire, lhypothse
H
0
: p = 0.5, contre H
1
: p > 0.5. La statistique de test est :
T =

n
X 0.5
_
0.5(1 0.5)
.
Sous lhypothse H
0
, la statistique de test suit la loi normale N(0, 1). Ici X est
la proportion observe damliorations, savoir 78/130. La statistique de test
prend la valeur 2.2804, la p-valeur correspondante (probabilit quune variable
de loi N(0, 1) dpasse 2.2804) est 0.0113. Au seuil de 5% on peut conclure que
lamlioration est signicative, mais pas tout fait au seuil de 1%.
Exercice 3.2.2. Une machine emballer est cense produire des paquets de 1 kg. Le
poids rel des paquets est modlis par une variable alatoire suivant une loi normale
dont lcart-type vaut 20 g. Il est possible de rgler le poids moyen des paquets. Pour
contrler que la machine est bien rgle, on prlve un chantillon de 10 paquets que
lon pse pour calculer la moyenne empirique de leurs poids.
1. Soit H
0
lhypothse : le poids moyen est de 1 kg. Construire un test au seuil
1%, de H
0
contre lhypothse H
1
: le poids moyen est dirent de 1 kg. Calculer
la p-valeur de ce test, pour un chantillon sur lequel on a observ une moyenne
empirique de 1011 grammes.
36
STA230 Exercices de Statistique UJF Grenoble
2. Reprendre la question prcdente pour lhypothse H
1
: le poids moyen est
suprieur 1 kg.
3. Reprendre les deux questions prcdentes pour un chantillon de 100 paquets, de
poids moyen 1005 g.
4. Sur un chantillon de 10 paquets, on a observ un poids moyen de 1011 g, avec un
cart-type empirique de 32 grammes. Au seuil de 1%, cette observation est-elle
compatible avec la valeur de 20 g donne pour lcart-type thorique ?
5. Pour lchantillon de la question prcdente, en supposant la variance inconnue,
peut-on dire que les paquets sont signicativement trop lourds en moyenne au
seuil de 1%?
Exercice 3.2.3. Une concentration en paractamol de plus de 150 mg par kilogramme
de poids corporel est considre comme dangereuse. Les mesures de paractamol dans
les tests sanguins sont modlises par une variable alatoire de loi normale N(,
2
).
Lcart-type, li la procdure de test est suppos connu et gal 5 mg. Par scurit,
on eectue 4 tests, dont les rsultats sont supposs tre des ralisations indpendantes
de la mme loi normale. N(,
2
).
1. Donner les hypothses et la rgle de dcision du test dcidant, au seuil de 5%,
si un patient court un risque, au vu de ses 4 rsultats (vous tes un docteur
prudent).
2. Sur un certain patient, les 4 tests ont donn des concentrations en paractamol
de 140, 133, 148, 144. Calculer la p-valeur du test de la question prcdente. Ce
patient court-il un risque ?
3. partir de cette question, lcart-type est suppos inconnu. Donner la statistique
de test et la rgle de dcision du test dcidant, au seuil de 5%, si un patient court
un risque, au vu de ses 4 rsultats.
4. Pour le patient de la question 2, donner un intervalle contenant la p-valeur du
test de la question prcdente. Quelle est votre conclusion?
Exercice 3.2.4. Dans une population donne, le poids des nouveaux-ns est modlis
par une loi normale. Dans lensemble de la population, lcart-type des poids la
naissance est de 380 g. Le poids moyen dun nouveau-n dont la mre ne fume pas est
de 3400 g. An dtudier leet du tabac sur le poids dun nouveau-n, on relve le
poids de 30 nouveau-ns dont les mres fument et on obtient une moyenne empirique
de 3240 g, avec un cart-type de 426 g.
1. En supposant que lcart-type de lchantillon est connu et gal celui de len-
semble de la population, donner la p-valeur du test permettant de dcider, si
les nouveaux-ns de lchantillon sont signicativement plus lgers en moyenne.
Quelle est votre conclusion, au seuil de 5%?
2. En supposant lcart-type inconnu, donner une statistique de test et une rgion
de rejet, pour tester les mmes hypothses qu la question prcdente. Quelle
est votre conclusion ?
37
STA230 Exercices de Statistique UJF Grenoble
3. Lcart-type observ est-il signicativement suprieur celui de lensemble de la
population?
4. Reprendre la question 1. avec un chantillon de 300 nouveaux-ns, pour lesquels
on a observ un poids moyen de 3340 g.
Exercice 3.2.5. On dispose de lchantillon suivant, de 15 longueurs dufs de coucou
(exprimes en millimtres) :
19.8, 22.1, 21.5, 20.9, 22.0, 21.0, 22.3, 21.0, 20.3, 20.9, 22.0, 22.0, 20.8, 21.2, 21.0 .
On donne :

x
i
= 318.8 et

x
2
i
= 6782.78 .
On modlise la longueur dun uf de coucou par une loi normale N(,
2
).
1. Calculer la moyenne empirique et la variance empirique de cet chantillon.
2. Tester lhypothse H
0
:
2
= 0.5 contre H
1
:
2
= 0.5, au seuil de 5%.
3. Tester lhypothse H
0
: = 21 contre H
1
: > 21, au seuil de 5%.
4. Donner un encadrement de la p-valeur pour le test de la question prcdente.
Exercice 3.2.6. A la suite dun traitement sur une varit de rongeurs, on prlve un
chantillon de 10 animaux et on les pse. On obtient les poids en grammes suivants :
83 , 81 , 84 , 80 , 85 , 87 , 89 , 84 , 82 , 80 .
On donne :

x
i
= 835 et

x
2
i
= 69801 .
On sait que les rongeurs non traits ont un poids moyen de 87.6 g. On modlise le
poids dun rongeur trait par loi normale.
1. Au seuil de 5%, tester lhypothse le traitement na pas deet sur le poids
moyen contre le traitement diminue le poids moyen.
2. Donner un encadrement de la p-valeur pour le test de la question prcdente.
Exercice 3.2.7. Une socit de location de voiture met en place une exprience an
de trancher entre deux types de pneus. Onze voitures sont conduites sur un parcours
prcis avec des pneus de type A. Les pneus sont alors remplacs par ceux de type B et
les voitures sont de nouveau conduites sur le mme parcours. Les consommations en
litres pour 100 km des voitures en question sont modlises par une loi normale. Voici
les observations :
Voiture 1 2 3 4 5 6 7 8 9 10 11
Pneus A 4.2 4.7 6.6 7 6.7 4.5 5.7 6 7.4 4.9 6.1
Pneus B 4.1 4.9 6.2 6.9 6.8 4.4 5.7 5.8 6.9 4.9 6
38
STA230 Exercices de Statistique UJF Grenoble
1. En admettant que les dirences de consommation observes suivent une loi nor-
male, quelle statistique de test proposez-vous ?
2. Quelles hypothses allez-vous tester pour dcider si les pneus ont un eet sur la
consommation?
3. Quelles hypothses allez-vous tester pour dcider si les pneus de type B sont
signicativement meilleurs en moyenne ?
4. Au seuil de 5% quelles sont vos conclusions ?
Exercice 3.2.8. Neuf malades prsentant des symptmes danxit reoivent un tran-
quillisant. On value ltat du malade avant et aprs traitement par un indice que le
mdecin traitant calcule daprs les rponses une srie de questions. Si le traitement
est ecace, lindice doit diminuer. Les valeurs observes de cet indice sur les 9 patients
sont les suivantes :
Avant 1.83 0.5 1.62 2.48 1.68 1.88 1.55 3.06 1.3
Aprs 0.88 0.65 0.59 2.05 1.06 1.29 1.06 3.14 1.29
1. En modlisant les valeurs des indices par une loi normale, quelle statistique de
test proposez-vous ?
2. Donner un encadrement de la p-valeur pour le test permettant de dcider si le
tranquillisant apporte une amlioration signicative en moyenne. Quelle est votre
conclusion?
Exercice 3.2.9. Une usine doit livrer des baguettes dont la longueur est modlise par
une loi normale desprance 40 mm. Les baguettes sont inutilisables si elles sont plus
petites que 39 mm ou plus grandes que 41 mm, et lusine garantit que moins de 1%
des baguettes livres le sont.
1. En supposant que la machine produit des baguettes la bonne longueur en
moyenne, quel doit tre lcart-type des longueurs pour que 1% des baguettes
seulement soient inutilisables ?
2. Sur un chantillon de 15 baguettes, on a observ une moyenne empirique de 40.3
mm, avec un cart-type de 0.6 mm. Lcart-type observ est-il signicativement
suprieur lcart-type thorique de la question prcdente ?
3. Les baguettes sont elles signicativement trop longues en moyenne ?
4. Un client se plaint davoir reu 112 baguettes inutilisables sur un lot de 10000.
A-t-il raison de se plaindre ?
Exercice 3.2.10. Le pourcentage des femmes de 35 ans prsentant des rides est de
25%. Sur 200 femmes de 35 ans ayant suivi un traitement antirides, on a observ que
40 avaient des rides. Au risque de 5%, peut-on dire que le traitement est ecace ?
39
STA230 Exercices de Statistique UJF Grenoble
Exercice 3.2.11. Pour une certaine maladie, on dispose dun traitement satisfaisant
dans 70% des cas. Un laboratoire propose un nouveau traitement et arme quil donne
satisfaction plus souvent que lancien traitement. Sur 200 malades ayant suivi ce nou-
veau traitement, on a observ une gurison pour 148 dentre eux. En tant quexpert
charg dautoriser la mise sur le march de ce nouveau traitement, que concluez-vous ?
Exercice 3.2.12. Voici le tableau des frquences en France des principaux groupes
sanguins :
Groupe O A B AB
Facteur
Rhsus + 0.370 0.381 0.062 0.028
Rhsus 0.070 0.072 0.012 0.005
Le centre de transfusion sanguine de Pau a observ la rpartition suivante sur 5000
donneurs.
Groupe O A B AB
Facteur
Rhsus + 2291 1631 282 79
Rhsus 325 332 48 12
On souhaite rpondre statistiquement aux questions ci-dessous. Dans chaque cas, on
calculera la valeur prise par la statistique du test, on donnera la p-valeur, et on conclura.
1. Le type O+ est-il signicativement plus frquent Pau ?
2. Parmi les individus de rhsus positif, la frquence du groupe O est-elle signica-
tivement dirente Pau?
3. Parmi les individus de groupe O, la frquence du rhsus positif est elle signica-
tivement plus leve Pau ?
3.3 Comparaison de deux chantillons indpendants
Pour le premier chantillon :
X =
1
n
x
nx

i=1
X
i
et S
2
x
=
_
1
n
x
nx

i=1
X
2
i
_
X
2
,
lesprance de la loi inconnue est
x
, sa variance est
2
x
.
Pour le second chantillon :
Y =
1
n
y
ny

j=1
Y
j
et S
2
Y
=
_
_
1
n
y
ny

j=1
Y
2
j
_
_
Y
2
,
lesprance de la loi inconnue est
y
, sa variance est
2
y
.
Les statistiques de test utiliser et leur loi de probabilit sous lhypothse nulle H
0
sont les suivantes.
40
STA230 Exercices de Statistique UJF Grenoble
Test de Fisher : comparaison des variances, chantillon gaussien.
H
0
:
2
x
=
2
y
; T =
nx
nx1
S
2
x
ny
ny1
S
2
y
suit la loi de Fisher F(n
x
1, n
y
1) .
Si T < 1, changer le rle de X et Y (ce qui revient remplacer T par 1/T) et
comparer au quantile dordre 1 /2 de la loi de Fisher F(n
x
1, n
y
1)).
Test de Student : comparaison des esprances, chantillon gaussien.
H
0
:
x
=
y
; T =

n
x
+ n
y
2
_
1
nx
+
1
ny
X Y
_
n
x
S
2
x
+ n
y
S
2
y
,
suit la loi de Student T (n
x
+ n
y
2), si
x
=
y
.
Test de comparaison des esprances, grands chantillons.
H
0
:
x
=
y
; T =
X Y
_
S
2
x
nx
+
S
2
y
ny
suit la loi normale N(0, 1) .
Exercice 3.3.1. On dsire savoir si, chez les individus qui consomment rgulirement de
lhuile dolive, le risque cardio-vasculaire est diminu. On utilise pour cela le logarithme
du dosage en d-dimres, modlis par une loi normale. Sur un chantillon de 9 individus
consommant de lhuile darachide, on a observ une moyenne de 0.78, avec un cart-
type de 0.27. Sur un chantillon de 13 individus consommant de lhuile dolive, on a
observ une moyenne de 0.97, avec un cart-type de 0.32.
1. Tester lhypothse dgalit des variances au seuil 0.05.
Il sagit dappliquer le test de Fisher pour valuer si la dirence entre les va-
riances observes des deux chantil lons est signicative ou non. On calcule la
statistique du test de Fisher. Si on met au numrateur la variance la plus faible,
on obtient :
T =
9
8
0.27
2
13
12
0.32
2
= 0.7393 .
On doit tester H
0
:
x
=
y
contre H
1
:
x
=
y
. Cest donc un test bilatral :
il rejette les valeurs lextrieur de linterval le [l, l

], o l et l

sont les quantiles


dordre 0.025 et 0.975 de la loi de T sous H
0
, qui est la loi de Fisher F(8, 12). Or
le quantile dordre 0.025 de la loi F(8, 12) est linverse du quantile dordre 0.975 de
la loi F(12, 8). Il est donc plus simple dchanger le rle de X et Y , ce qui revient
calculer 1/T = 1.3526. Cette valeur doit tre compare au quantile dordre 0.975
de la loi de Fisher de paramtres 12 et 8 (et non pas 8 et 12 puisquon a d
changer X et Y ). Cette valeur limite est 4.1997. La valeur observe 1.3526 est
infrieure, donc on accepte lhypothse dgalit des variances au seuil de 5%.
41
STA230 Exercices de Statistique UJF Grenoble
2. Au seuil de 0.05, quel test proposez-vous pour dcider si lhuile dolive abaisse
signicativement le risque cardio-vasculaire ? Quelle est votre conclusion? Donner
un encadrement de la p-valeur.
Le fait davoir accept lhypothse dgalit des variances justie lapplication du
test de Student dgalit des esprances. En notant X la variable logarithme du
dosage en d-dimres chez un individu consommant de lhuile darachide, et Y
la mme variable chez les individus consommant de lhuile dolive, on souhaite
tester :
H
0
:
x
=
y
contre H
1
:
x
>
y
.
On utilise pour cela la statistique de test :
T =

n
x
+ n
y
2
_
1
nx
+
1
ny
X Y
_
n
x
S
2
x
+ n
y
S
2
y
,
dont on rejettera les valeurs trop hautes.
Rejet de H
0
T > l .
La valeur limite l est telle quune variable de loi de Student de paramtre 9+13
2 = 20 soit suprieure avec probabilit 0.05, soit l = 1.7247. La statistique du test
de Student prend la valeur 1.3055, donc on ne rejette pas lhypothse H
0
dgalit
des esprances : la diminution observe en moyenne nest pas signicative au seuil
de 5%. La p-valeur est la probabilit quune variable suivant la loi de Student
T (20) soit suprieure 1.3055. Sur la table, 1.3055 est entre les quantiles dordre
0.8 et 0.9, proche du quantile dordre 0.9. La p-valeur cherche est donc comprise
entre 0.1 et 0.2. La valeur numrique est 0.1033.
3. On eectue des dosages sur 110 individus consommant de lhuile darachide, pour
lesquels on observe une moyenne de 0.82, avec un cart-type de 0.29, et sur 130
individus consommant de lhuile dolive, pour lesquels on observe une moyenne
de 0.93, avec un cart-type de 0.31. Calculer la p-valeur du test permettant de
dcider si lamlioration est signicative. Au seuil de 0.05, que concluez-vous ?
Il sagit dun test de comparaison des esprances pour de grands chantil lons. La
statistique de test est :
X Y
_
S
2
x
nx
+
S
2
y
ny
,
qui suit la loi N(0, 1) sous lhypothse H
0
. Or el le prend la valeur 2.8366. La p-
valeur est la probabilit pour une variable de loi N(0, 1) de dpasser 2.8366, soit
0.0023. tout seuil infrieur 0.23% (et bien sr en particulier aux seuils de
5% et 1%), on rejette H
0
, donc on dcide que lhuile dolive amliore de manire
signicative le risque cardio-vasculaire.
42
STA230 Exercices de Statistique UJF Grenoble
Exercice 3.3.2. On tudie lactivit de lenzyme srique PDE, en fonction de dirents
facteurs dans lespce humaine. Les rsultats sont exprims en unit internationale par
litre de srum. Chez deux groupes de femmes, enceintes ou non, on obtient les rsultats
suivants :
non enceinte 1.5 1.6 1.4 2.9 2.2 1.8 2.7 1.9
enceinte 4.2 5.5 4.6 5.4 3.9 5.4 2.7 3.9
non enceinte 2.2 2.8 2.1 1.8 3.7 1.8 2.1
enceinte 4.1 4.1 4.6 3.9 3.5
(Indications numriques :

x
i
= 32.5,

x
2
i
= 75.83,

y
i
= 55.8,

y
2
i
= 247.32).
1. Prciser les hypothses de modlisation.
2. Tester lhypothse dgalit des variances au seuil de 5%.
3. Peut-on armer que lactivit de lenzyme srique PDE est signicativement
dirente chez les femmes enceintes et chez les femmes non enceintes ?
4. Peut-on armer que lactivit de lenzyme srique PDE est signicativement
suprieure chez les femmes enceintes ?
Exercice 3.3.3. Les QI de 9 enfants dun quartier dune grande ville ont pour moyenne
empirique 107 et cart-type empirique 10. Les QI de 12 enfants dun autre quartier ont
pour moyenne empirique 112 et cart-type empirique 9.
1. Prciser les hypothses de modlisation.
2. Tester lgalit des variances au seuil de 5%.
3. Les QI des enfants du deuxime quartier sont-il signicativement suprieurs en
moyenne ceux des enfants du premier quartier ? Donner un encadrement de la
p-valeur du test correspondant.
Exercice 3.3.4. Les tensions maximales des muscles gastrocnmiens (exprimes en g)
de la grenouille varient selon que ces muscles sont normaux ou dnervs. Lors dune
exprience faite sur 10 grenouilles, on a relev les mesures suivantes :
Muscles normaux 75 96 32 41 50 39 59 45 30
Muscles dnervs 53 67 32 29 35 27 37 30 21
1. Prciser les hypothses de modlisation.
2. Tester lhypothse dgalit des variances au seuil de 5%.
3. Au seuil de 5%, peut-on armer que la tension maximale moyenne est dirente
pour les muscles normaux et pour les muscles dnervs ? Donner un encadrement
de la p-valeur de ce test.
43
STA230 Exercices de Statistique UJF Grenoble
Exercice 3.3.5. Au cours dune tude destine comparer diverses mthodes dchan-
tillonnage de sols forestiers, on a mesur les teneurs en K
2
0, dune part pour 20 chan-
tillons de terre prlevs individuellement, et dautre part pour 10 chantillons mlangs
obtenus chacun partir de 25 terres direntes. On a obtenu pour les chantillons in-
dividuels :

x
i
= 259.2 et

x
2
i
= 3662.08 ,
et pour les chantillons mlangs :

y
i
= 109.2 et

y
2
i
= 1200.8 .
On sattend ce que les deux mthodes dchantillonnage donnent des variances trs
direntes. Justier cela intuitivement et vriez le par le test de Fisher.
Exercice 3.3.6. Pour dterminer le poids moyen dun pi de bl appartenant deux
varits, on procde 9 peses pour chaque varit. On donne les moyennes et variances
empiriques des deux chantillons :
x = 170.7 ; y = 168.5 ; s
2
x
= 432.90 ; s
2
y
= 182.70 .
1. Prciser les hypothses de modlisation.
2. Tester au seuil de 5% lhypothse dgalit des variances.
3. Donner un encadrement de la p-valeur pour le test permettant de dcider si les
deux varits sont signicativement direntes. Quelle est votre conclusion?
Exercice 3.3.7. Dans une cooprative agricole, on dsire tester leet dun engrais sur
la production de bl. Pour cela, on choisit 200 lots de terrain de mme supercie. La
moiti de ces lots est traite avec lengrais, et lautre ne lest pas. Les rcoltes en tonnes
obtenues pour les 100 lots non traits donnent

x
i
= 61.6,

x
2
i
= 292.18 et pour les
lots traits

y
i
= 66.8,

y
2
i
= 343.48.
Tester lhypothse lengrais nest pas ecace contre lengrais est ecace aux
seuils 0.01 et 0.05.
Exercice 3.3.8. Dans un chantillon de 300 personnes, prlev dans la population dune
ville A, il y en a 36 qui fument au moins deux paquets de cigarettes par jour. Dans une
autre ville B et pour un chantillon de 100 personnes, on trouve 8 personnes qui fument
au moins deux paquets de cigarettes par jour. On veut tester H
0
: il ny a aucune
dirence entre les deux villes contre H
1
: il y a plus de personnes qui fument au
moins deux paquets de cigarettes par jour dans la ville A que dans la ville B.
1. On note p
A
(resp. p
B
) la proportion dindividus qui fument au moins deux pa-
quets de cigarettes dans la ville A (resp. B). Quelles variables proposez-vous pour
modliser le problme ? Donner leurs esprances et leurs variances en fonction de
p
A
et p
B
.
44
STA230 Exercices de Statistique UJF Grenoble
2. Quel test proposez-vous pour dcider sil y a signicativement plus de gros fu-
meurs dans la ville A que dans la ville B?
3. Donnez la p-valeur de ce test pour les donnes de lnonc. Quelle est votre
conclusion?
Exercice 3.3.9. Soit p
A
la probabilit de gurison dune maladie donne grce un
traitement A. Un groupe de 50 malades est soumis ce traitement et 28 gurissent.
Un autre traitement B permet de soigner cette maladie, avec probabilit p
B
. Sur 60
malades soumis ce nouveau traitement, 38 gurissent.
1. Quel test proposez-vous pour dcider si le nouveau traitement est meilleur que
lancien?
2. Donnez la p-valeur de ce test pour les donnes de lnonc. Quelle est votre
conclusion?
3.4 Test du khi-deux dajustement
On note r le nombre de classes. Pour i = 1, . . . , r, on note n
i
leectif observ de la
classe i, et np
i
son eectif thorique.
La statistique du test du khi-deux est :
T =
r

i=1
(n
i
np
i
)
2
np
i
.
Sous lhypothse nulle o le modle thorique est le bon, T suit la loi du khi-deux
de paramtre d = r1k :
r est le nombre de classes,
k est le nombre de paramtres qui ont t estims partir des donnes pour
tablir la distribution thorique.
Le test sapplique un grand chantillon (n 50). Les eectifs thoriques de
chaque classe doivent tre assez grands (np
i
8). On peut tre amen regrouper
des classes pour satisfaire la seconde condition.
Exercice 3.4.1. On eectue le croisement entre des pois eurs blanches et des pois
eurs rouges. On obtient en deuxime gnration sur 600 plantes les eectifs suivants :
Phnotype Rouge Rose Blanc
Eectif 141 325 134
On a form ensuite 150 bouquets de 4 plantes, parmi lesquels on a observ le nombre
de plantes eurs blanches. Les eectifs ont t les suivants.
Nbre. eurs blanches 0 1 2 3 4
Eectif 53 68 23 4 2
45
STA230 Exercices de Statistique UJF Grenoble
1. Donner les proportions thoriques de la rpartition mendlienne pour les trois
couleurs. Calculer la statistique de test pour le test du khi-deux. Donner un
encadrement de la p-valeur. Quelle est votre conclusion?
Notons R lallle induisant la couleur rouge et B lal lle induisant la couleur
blanche. On suppose que les phnotypes eurs rouges, eurs roses et eurs
blanches correspondent respectivement aux gnotypes RR, RB et BB. Si on
croise deux individus de gnotypes respectifs RR et BB, on obtient forcment des
individus de gnotype RB la premire gnration. la seconde gnration, on
obtiendra thoriquement un quart de gnotypes RR, la moiti de gnotypes RB
et un quart de gnotypes BB; on devrait donc observer thoriquement un quart
de plantes eurs rouges, la moiti eurs roses, et un quart eurs blanches.
Les eectifs thoriques correspondants sont 150, 300, 150.
La statistique de test du khi-deux prend la valeur :
T =
(141 150)
2
150
+
(325 300)
2
300
+
(134 150)
2
150
= 4.33 .
Cette valeur doit tre compare aux quantiles de la loi du khi-deux de paramtre
3 1 = 2. La p-valeur est la probabilit quune variable suivant la loi X
2
(2)
dpasse 4.33. Daprs la table, el le est comprise entre 0.1 et 0.2. La valeur exacte
est 0.1147. On accepte lhypothse dadquation de la loi observe avec la loi
thorique.
2. Quel modle thorique proposez-vous pour le nombre de plantes eurs blanches
sur un bouquet de 4 ? Eectuez un regroupement en classes appropri. Calculer
la statistique de test pour le test du khi-deux. Donner un encadrement de la p-
valeur. Quelle est votre conclusion?
Si les bouquets sont forms au hasard, la loi du nombre de plantes eurs blanches
sur un bouquet de 4 est la loi binomiale de paramtres 4 (le nombre total de
plantes) et 1/4 (la proportion thorique de plantes eurs blanches). Pour i =
0, . . . , 4, leectif thorique du nombre de bouquets avec k plantes eurs blanches
est :
np
i
= 150
_
4
k
_
_
1
4
_
k
_
3
4
_
4k
.
Nbre. eurs blanches 0 1 2 3 4
Eectif observ 53 68 23 4 2
Eectif thorique 47.46 63.28 31.64 7.03 0.59
Pour atteindre un eectif thorique au moins gal 8 dans chaque classe, on peut
regrouper les 3 dernires classes.
Nbre. eurs blanches 0 1 2, 3, 4
Eectif observ 53 68 29
Eectif thorique 47.46 63.28 39.26
46
STA230 Exercices de Statistique UJF Grenoble
La statistique de test du khi-deux prend la valeur 3.6786. La p-valeur est la proba-
bilit quune variable suivant la loi X
2
(2) dpasse 3.6786. Sur la table, la p-valeur
est entre 0.1 et 0.2. La valeur exacte est 0.1589. On accepte lhypothse dadqua-
tion de la loi observe avec la loi thorique.
3. Soit p la proportion observe de plantes eurs blanches. Pour les bouquets de
4 plantes, tester ladquation de la distribution observe avec la loi binomiale
B(4, p) : calculer la statistique de test et donner un encadrement de la p-valeur.
Le nombre total de plantes eurs blanches est de 134, leur proportion est donc
de p = 134/600 0.2233. On calcule maintenant les eectifs thoriques par
rapport la loi binomiale B(4, p).
Nbre. eurs blanches 0 1 2, 3, 4
Eectif observ 53 68 29
Eectif thorique 54.59 62.78 32.64
La statistique de test du khi-deux prend la valeur 0.8855. Puisquon a estim un
paramtre pour tablir la distribution thorique, le paramtre de la loi du khi-
deux est 3 1 1 = 1. Sur la table, la p-valeur est entre 0.3 et 0.4, la valeur
exacte est 0.3467. On accepte lhypothse dadquation de la loi observe avec la
loi thorique.
Exercice 3.4.2. Voici le tableau des frquences en France des principaux groupes san-
guins :
Groupe O A B AB
Facteur
Rhsus + 0.370 0.381 0.062 0.028
Rhsus 0.070 0.072 0.012 0.005
Le centre de transfusion sanguine de Pau a observ la rpartition suivante sur 5000
donneurs.
Groupe O A B AB
Facteur
Rhsus + 2291 1631 282 79
Rhsus 325 332 48 12
On souhaite rpondre statistiquement aux questions ci-dessous. Dans chaque cas, on
crira le tableau des distributions observe et thorique, on calculera la valeur prise
par la statistique du test, on donnera un encadrement de la p-valeur, et on concluera.
1. La rpartition paloise des 8 types groupe-rhsus est-elle dirente de la rpartition
nationale ?
2. La rpartition paloise des rhsus est-elle dirente de la rpartition nationale ?
47
STA230 Exercices de Statistique UJF Grenoble
3. Parmi les individus de groupe O, la rpartition paloise des rhsus est-elle dirente
de la rpartition nationale ?
4. Parmi les individus de rhsus positif, la rpartition paloise des groupes est-elle
dirente de la rpartition nationale ?
5. Parmi les individus de rhsus ngatif, la rpartition paloise des groupes est-elle
dirente de la rpartition nationale ?
Exercice 3.4.3. On a demand 162 tudiant(e)s destimer le temps mensuel en heures
quils passent prparer la cuisine :
Heures [0 ; 5[ [5 ; 10[ [10 ; 15[ 15
tudiants 63 49 19 31
Des tudes antrieures dans lensemble de la population ont permis dtablir la rpar-
tition suivante :
Heures [0 ; 5[ [5 ; 10[ [10 ; 15[ 15
Proportion 40% 35% 15% 10%
Tester ladquation de la distribution observe avec la distribution connue. Donner un
encadrement de la p-valeur. Quelle est votre conclusion?
Exercice 3.4.4. On sintresse au temps de sommeil dun enfant de douze ans et sur un
chantillon de taille n = 50 on a observ les temps de sommeil (exprims en heures).
On donne

x
i
= 424 et

x
2
i
= 3828, ainsi que la rpartition en classes suivante :
Class 8 ]8 ; 9] ]9 ; 10] > 10
Number 19 12 9 10
1. Il est gnralement admis que le temps de sommeil dun enfant de cet ge suit
la loi normale N(9, 3). Raliser le test dadquation de la distribution observe
avec cette hypothse thorique. Donner la valeur prise par la statistique de test,
un encadrement de la p-valeur et votre conclusion.
2. Calculer la moyenne empirique x et la variance empirique s
2
. Reprendre la ques-
tion prcdente en remplaant la loi N(9, 3) par la loi N(x, s
2
).
Exercice 3.4.5. Une tude biomtrique faite sur la longueur dufs de coucou a donn
les rsultats suivants. On donne : n = 152,

x
i
= 6200,

x
2
i
= 255200, ainsi que la
rpartition en classes suivante :
classe < 32 [32; 34[ [34; 36[ [36; 38[ [38; 40[ [40; 42[ [42; 44[ [44; 46[ [46; 48[ 48
eectif 2 7 6 18 25 40 23 20 6 5
1. Des tudes antrieures avaient montr que les longueurs dufs de coucou suivent
une loi normale desprance 40 et dcart-type 4. Raliser le test dadquation de
la distribution observe avec cette hypothse thorique. Donner la valeur prise
par la statistique de test, un encadrement de la p-valeur et votre conclusion.
2. Calculer la moyenne empirique x et la variance empirique s
2
. Reprendre la ques-
tion prcdente en remplaant la loi N(40, 4
2
) par la loi N(x, s
2
).
48
STA230 Exercices de Statistique UJF Grenoble
3.5 Test du khi-deux de contingence
Cest un cas particulier du test du khi-deux dajustement, qui permet de tester
lindpendance de deux caractres discrets.
La table de contingence prsente les eectifs conjoints. la ligne i, colonne j, on
trouve n
ij
, qui est le nombre dindividus dans la classe i pour le premier caractre
et dans la classe j pour le second. Si le nombre de modalits des deux caractres
sont r et s, la table a r lignes et s colonnes.
Les eectifs marginaux sont les sommes par ligne ou par colonne de la table de
contingence ; n
i
=

j
n
ij
est le nombre total dindividus dans la classe i pour le
premier caractre ; n
j
=

i
n
ij
est le nombre total dindividus dans la classe j
pour le second caractre. Le nombre total dindividus est n =

i
n
i
=

j
n
j
.
La statistique du test est :
T = n
_
_
1 +
r

i=1
s

j=1
n
2
ij
n
i
n
j
_
_
.
Sous lhypothse nulle o les deux caractres sont indpendants, T suit la loi du
khi-deux de paramtre d = (r1)(s1).
Exercice 3.5.1. Le centre de transfusion sanguine de Pau a observ la rpartition
suivante sur 5000 donneurs.
Groupe O A B AB
Facteur
Rhsus + 2291 1631 282 79
Rhsus 325 332 48 12
1. Complter la table de contingence par les eectifs marginaux.
Lnonc donne les eectifs conjoints. Il sut de les sommer pour avoir les ef-
fectifs marginaux.
Groupe O A B AB Total
Facteur
Rhsus + 2291 1631 282 79 4283
Rhsus 325 332 48 12 717
Total 2616 1963 330 91 5000
2. Calculer la valeur prise par la statistique du test du khi-deux de contingence.
On calcule :
T = 5000
_
1 +
2291
2
2616 4283
+ +
12
2
717 91
_
= 18.5104 .
49
STA230 Exercices de Statistique UJF Grenoble
3. Au seuil de 1% que concluez-vous ?
Sous lhypothse dindpendance, la statistique de test suit la loi de khi-deux de
paramtre (4 1)(2 1) = 3. Le quantile dordre 0.99 de cette loi est 11.3449.
Comme 18.5104 est suprieur, on conclut quil y a dpendance entre le groupe
sanguin et le rhsus, au vu de ces donnes. La p-valeur exacte est de 0.000345.
Exercice 3.5.2. Les rsultats observs de lvolution dune certaine maladie la suite
de lemploi de lun ou lautre des traitements A et B pour 1000 patients gurent dans
le tableau ci-dessous :
Eet Gurison Amlioration Etat stationnaire
Traitement
A 280 210 110
B 220 90 90
1. Complter cette table de contingence.
2. Calculer la valeur prise par la statistique du khi-deux de contingence pour cette
table.
3. Donner un encadrement de la p-valeur pour le test du khi-deux de contingence.
Diriez-vous que les traitements A et B sont signicativement dirents quant
leur ecacit ?
Exercice 3.5.3. On a observ pendant dix ans 240 individus. Parmi-ceux-ci :
110 ont consomm de lhuile darachide
25 ont consomm de lhuile dolive et ont eu des problmes cardio-vasculaires
78 ont consomm de lhuile darachide et nont eu aucun problme.
1. crire la table de contingence correspondant ces observations.
2. Calculer la valeur prise par la statistique du khi-deux de contingence pour ce
tableau.
3. Donner un encadrement de la p-valeur pour le test du khi-deux de contingence.
Diriez-vous que le risque cardio-vasculaire est indpendant du type dhuile con-
somme ?
Exercice 3.5.4. Lobservation dun couple (X, Y ) de variables physiologiques pour les
100 individus dune population a conduit, aprs choix de deux classes pour X et de
trois classes pour Y , la table de contingence suivante :
Y 1 2 3 Total
X
1 4 11 7 22
2 16 39 23 78
Total 20 50 30 100
50
STA230 Exercices de Statistique UJF Grenoble
1. Calculer la valeur prise par la statistique du khi-deux de contingence.
2. Donner un encadrement de la p-valeur pour le test du khi-deux de contingence.
Quelle est votre conclusion?
Exercice 3.5.5. la suite du mme traitement dune certaine maladie, pour 70 patients
jeunes, on a observ 40 cas damlioration et pour 100 patients gs, on en a observ
50.
1. crire la table de contingence correspondant ces observations.
2. Calculer la valeur prise par la statistique du khi-deux de contingence.
3. Donner un encadrement de la p-valeur pour le test du khi-deux de contingence.
Diriez-vous que leet du traitement dpend de lge du patient ?
Exercice 3.5.6. On considre la table de contingence suivante concernant 592 femmes
rparties selon la couleur de leurs yeux et celle de leurs cheveux :
Cheveux Bruns Chtains Roux Blonds
Yeux
Marrons 68 119 26 7
Noisette 15 54 14 10
Verts 5 29 14 16
Bleus 20 84 17 94
1. Complter cette table de contingence.
2. Calculer la valeur prise par la statistique du khi-deux de contingence.
3. Donner un encadrement de la p-valeur pour le test du khi-deux de contingence.
Diriez-vous quil y a indpendance entre la couleur des yeux et celle des cheveux ?
51
STA230 Exercices de Statistique UJF Grenoble
4 Rgression linaire
4.1 Droite de rgression et prdiction ponctuelle
Les donnes sont n couples de rels. La premire coordonne est un caractre consi-
dr comme dterministe et explicatif. Le second est considr comme alatoire et
expliquer. On calcule :
la moyenne du caractre explicatif : x =
1
n
n

i=1
x
i
la moyenne du caractre expliquer : y =
1
n
n

i=1
y
i
la variance du caractre explicatif : s
2
x
=
1
n
n

i=1
x
2
i
x
2
la variance du caractre expliquer : s
2
y
=
1
n
n

i=1
y
2
i
y
2
la covariance des deux caractres : c
xy
=
1
n
n

i=1
x
i
y
i
x y
le coecient de corrlation : r
xy
=
c
xy
_
s
2
x
s
2
y
.
la pente de la droite de rgression linaire : a =
c
xy
s
2
x
lordonne lorigine :

b = y a x
la variance estime :
2
=
n
n 2
s
2
y
(1 r
2
xy
)
la prdiction dune ordonne pour une abscisse x

donne : y

= a x

b .
Exercice 4.1.1. Pour mesurer la dpendance entre lge et le risque cardio-vasculaire,
on a observ 12 patients, pour lesquels on dispose de lge en annes (variable X), et
du logarithme du dosage en d-dimres (variable Y ). On donne les quantits suivantes :

x
i
= 596 ;

x
2
i
= 32435 ;

y
i
= 5.2 ;

y
2
i
= 4.3 ;

x
i
y
i
= 188.58 .
1. Calculer le coecient de corrlation linaire de X et Y .
On trouve :
x = 49.667 ; y = 0.43333 ; s
2
x
= 236.139 ; s
2
y
= 0.17056 ;
c
xy
= 5.8072 ; r
xy
= 0.91506 .
Le fait que r
xy
soit proche de 1 indique une forte corrlation.
2. Calculer lquation de la droite de rgression linaire de Y sur X.
On trouve :
a = 0.02459 ;

b = 1.6548 .
52
STA230 Exercices de Statistique UJF Grenoble
Lquation de la droite de rgression linaire est y = 0.02459 x 1.6548. El le est
croissante (a > 0) car la corrlation est positive : le logarithme du dosage en
d-dimres tend augmenter avec lge.
3. Calculer la variance estime de la rgression.
On trouve
2
= 0.0333.
4. Quelle valeur de Y prvoyez-vous pour un individu de 60 ans ?
La valeur prdite pour x

= 60 est y

= 0.02459 60 1.6548 = 0.1792.


Exercice 4.1.2. On tudie la pollution de lair dans 41 villes amricaines par la variable
Y , mesurant le volume de SO
2
dans lair en micro-grammes par m
3
, en fonction de
la temprature moyenne annuelle X, exprime en degrs Fahrenheit. On donne les
rsultats numriques suivants :

x
i
= 2286 ;

y
i
= 1232 ;

x
2
i
= 129549 ;

y
2
i
= 59050 ;

x
i
y
i
= 74598 .
1. Calculer le coecient de corrlation linaire de X et Y .
2. Donner lquation de la droite de rgression de Y par rapport X.
3. Quelle valeur de Y prdisez-vous pour une ville o la temprature moyenne est
de 60

F?
Exercice 4.1.3. Dans le cadre de travaux de recherche sur la dure de la saison de vg-
tation en montagne, des stations mtorologiques sont installes direntes altitudes.
La temprature moyenne (variable Y en degrs Celsius) ainsi que laltitude (variable
X en mtres) de chaque station donnes dans le tableau ci-dessous :
altitude 1040 1230 1500 1600 1740 1950 2200 2530 2800 3100
temprature 7.4 6 4.5 3.8 2.9 1.9 1 1.2 1.5 4.5
On donne :

x
i
= 19690;

y
i
= 20.3;

x
2
i
= 42925500;

y
2
i
= 162.41;

x
i
y
i
= 17671 .
1. Calculer le coecient de corrlation linaire.
2. Calculer les estimations des paramtres a, b et
2
pour la rgression linaire de
Y sur X.
3. Quelle temprature moyenne prvoyez-vous 1100 m?
Exercice 4.1.4. On souhaite vrier si la prise de poids dun jeune mouton en un an
(variable Y en kilogrammes) dpend de son poids initial (variable X galement en
kilogrammes). Sur 10 moutons, on donne les rsultats suivants :

x
i
= 406 ;

y
i
= 423 ;

x
2
i
= 16570 ;

y
2
i
= 18057 ;

x
i
y
i
= 17280 .
53
STA230 Exercices de Statistique UJF Grenoble
1. Calculer le coecient de corrlation linaire.
2. Estimer les paramtres a, b et
2
pour la rgression linaire de Y sur X.
3. Selon ce modle combien un mouton de poids initial 50 kg devrait-il prendre de
poids ? Mme question pour un mouton de 30 kg.
Exercice 4.1.5. Le volume dair expir Y est une mesure standard du fonctionnement
pulmonaire. Pour identier une population possdant un fonctionnement pulmonaire
anormal, il faut tablir un modle pour le volume dair expir dans une population
normale. Pour cela, on mesure le volume Y en litres et la taille X en centimtres sur
12 garons gs de 10 15 ans.
On obtient les rsums numriques suivants :

x
i
= 1872 ;

y
i
= 32.3 ;

x
2
i
= 294320 ;

y
2
i
= 93.11 ;

x
i
y
i
= 5156.20 .
1. Calculer le coecient de corrlation.
2. Calculer les estimations des coecients de la droite de rgression linaire de Y
sur X et de la variance.
3. Quel volume dair devrait expirer un garon mesurant 1.60 m?
Exercice 4.1.6. On veut prdire la hauteur H dun arbre en fonction de son diamtre
D. Pour faire une rgression linaire, on eectue un changement de variable en posant
Y = ln(H) et X = ln(D). Voici les mesures faites sur 5 arbres :
X 1.61 1.20 0.97 0.51 0.42
Y 2.22 2.27 2.38 2.60 2.65
On donne :

x
i
= 4.71 ;

y
i
= 12.12 ;

x
2
i
= 5.4095 ;

y
2
i
= 29.5282 ;

x
i
y
i
= 11.0458 .
1. Donner le coecient de corrlation linaire entre X et Y .
2. Donner lquation de la droite de rgression de Y par rapport X.
3. Donner la hauteur prvue dun arbre de diamtre 0.7.
4.2 Intervalles de conance et de prdiction
Les intervalles donns dans ce qui suit sont de niveau 1, et t

dsigne le quantile
dordre 1/2 de la loi de Student T (n2).
Intervalle de conance pour la pente a :
_
_
a t

_

2
ns
2
x
_
_
.
54
STA230 Exercices de Statistique UJF Grenoble
Intervalle de conance pour ax

+ b :
_
_
ax

b t

_

2
(s
2
x
+ (x

x)
2
)
ns
2
x
_
_
.
Intervalle de prdiction pour Y

= ax

+ b + E :
_
_
ax

b t

_

2
((n+1)s
2
x
+ (x

x)
2
)
ns
2
x
_
_
.
Exercice 4.2.1. Pour mesurer la dpendance entre lge et le risque cardio-vasculaire,
on a observ 12 patients, pour lesquels on dispose de lge en annes (variable X), et
du logarithme du dosage en d-dimres (variable Y). On donne les quantits suivantes :

x
i
= 596 ;

x
2
i
= 32435 ;

y
i
= 5.2 ;

y
2
i
= 4.3 ;

x
i
y
i
= 188.58 .
1. Donner un intervalle de conance de niveau 0.99 pour la pente de la droite de
rgression linaire.
Le quantile dordre 0.995 de la loi de Student de paramtre 12 2 = 10 est 3.169.
Lintervalle de conance est [0.0137 ; 0.0355].
2. Donner un intervalle de conance de niveau 0.99 pour lordonne lorigine de
la droite de rgression linaire.
On obtient un intervalle de conance pour b en posant x

= 0 dans la for-
mule donnant lintervalle de conance pour ax

+ b. Linterval le cherch est


[2.2195 ; 1.0900].
3. Donner un intervalle de conance de niveau 0.99 pour la valeur moyenne de Y
parmi les individus de 60 ans.
On cherche un intervalle de conance pour ax

+ b, avec x

= 60. Linterval le
est [0.380 ; 0.022 ].
4. Donner un intervalle de prdiction de niveau 0.99 pour la valeur de Y chez un
individu de 60 ans particulier.
On cherche un intervalle de prdiction pour Y

= ax

+ b + E, avec x

= 60.
Lintervalle est [0.791 ; 0.433 ]. Attention ne pas confondre :
estimer la valeur moyenne des dosages en d-dimres chez les individus de 60
ans
prdire la valeur du dosage en d-dimres chez un individu de 60 ans en parti-
culier.
Dans le second cas, linterval le est forcment plus large que dans le premier.
Exercice 4.2.2. On tudie la pollution de lair dans 41 villes amricaines par la variable
Y , mesurant le volume de SO
2
dans lair en micro-grammes par m
3
, en fonction de
55
STA230 Exercices de Statistique UJF Grenoble
la temprature moyenne annuelle X, exprime en degrs Fahrenheit. On donne les
rsultats numriques suivants :

x
i
= 2286,

y
i
= 1232,

x
2
i
= 129549,

y
2
i
= 59050,

x
i
y
i
= 74598 .
1. Donner un intervalle de conance de niveau 0.95 pour la pente et lordonne
lorigine de la droite de rgression.
2. Donner un intervalle de conance de niveau 0.95 pour la valeur moyenne de Y
dans les villes o la temprature est de 60

F.
3. Donner un intervalle de prdiction de niveau 0.95 pour la valeur de Y dans une
ville o la temprature est de 60

F.
Exercice 4.2.3. Dans le cadre de travaux de recherche sur la dure de la saison de
vgtation en montagne, des stations mtorologiques sont installes direntes alti-
tudes. La temprature moyenne (en degrs Celsius) ainsi que laltitude (en mtres) de
chaque station sont donnes dans le tableau ci-dessous :
altitude 1040 1230 1500 1600 1740 1950 2200 2530 2800 3100
temprature 7.4 6 4.5 3.8 2.9 1.9 1 1.2 1.5 4.5
On donne :

x
i
= 19690;

y
i
= 20.3;

x
2
i
= 42925500;

y
2
i
= 162.41;

x
i
y
i
= 17671 .
1. Donner un intervalle de conance de niveau 0.95 pour la pente et lordonne
lorigine de la droite de rgression.
2. Donner un intervalle de conance de niveau 0.95 pour la temprature moyenne
1100 m.
3. Donner un intervalle de prdiction de niveau 0.95 pour la temprature moyenne
dun endroit situ 1100 m.
Exercice 4.2.4. On souhaite vrier si la prise de poids dun jeune mouton en un an
(variable Y en kilogrammes) dpend de son poids initial (variable X galement en
kilogrammes). Sur 10 moutons, on donne les rsultats suivants :

x
i
= 406 ;

y
i
= 423 ;

x
2
i
= 16570 ;

y
2
i
= 18057 ;

x
i
y
i
= 17280 .
1. Donner un intervalle de conance de niveau 0.99 pour la pente et lordonne
lorigine de la droite de rgression.
2. Donner un intervalle de conance de niveau 0.99 pour le gain de poids moyen des
moutons de 30 kg.
3. Donner un intervalle de prdiction de niveau 0.99 pour le gain de poids dun
mouton de 30 kg.
56
STA230 Exercices de Statistique UJF Grenoble
Exercice 4.2.5. Le volume dair expir Y est une mesure standard du fonctionnement
pulmonaire. Pour identier une population possdant un fonctionnement pulmonaire
anormal, il faut tablir un modle pour le volume dair expir dans une population
normale. Pour cela, on mesure le volume Y en litres et la taille X en centimtres sur
12 garons gs de 10 15 ans.
On obtient les rsums numriques suivants :

x
i
= 1872 ;

y
i
= 32.3 ;

x
2
i
= 294320 ;

y
2
i
= 93.11 ;

x
i
y
i
= 5156.20 .
1. Donner un intervalle de conance de niveau 0.99 pour la pente et lordonne
lorigine de la droite de rgression.
2. Donner un intervalle de conance de niveau 0.99 pour le volume dair expir en
moyenne par les garons de 1.60 m.
3. Donner un intervalle de prdiction de niveau 0.99 pour le volume dair expir par
un garon de 1.60 m.
Exercice 4.2.6. On veut prdire la hauteur H dun arbre en fonction de son diamtre
D. Pour faire une rgression linaire, on eectue un changement de variable en posant
Y = ln(H) et X = ln(D). Voici les mesures faites sur 5 arbres.
X 1.61 1.20 0.97 0.51 0.42
Y 2.22 2.27 2.38 2.60 2.65
On donne :

x
i
= 4.71,

y
i
= 12.12,

x
2
i
= 5.4095,

y
2
i
= 29.5282,

x
i
y
i
= 11.0458.
1. Donner un intervalle de conance de niveau 0.95 pour la pente et lordonne
lorigine de la droite de rgression.
2. Donner un intervalle de conance de niveau 0.95 pour la hauteur moyenne des
arbres de diamtre 0.7.
3. Donner un intervalle de prdiction de niveau 0.95 pour la hauteur dun arbre de
diamtre 0.7.
4.3 Tests sur une rgression
Sous lhypothse H
0
, le modle est Y = ax+b+E, o E suit la loi normale N(0,
2
).
Les paramtres a, b et
2
sont inconnus. On les estime par a,

b et
2
. Pour tester des
valeurs particulires, on utilise les rsultats suivants, donnant la loi des statistiques de
test sous H
0
.

ns
2
x

2
_
a a
_
suit la loi de Student T (n 2).
57
STA230 Exercices de Statistique UJF Grenoble

_
ns
2
x

2
(s
2
x
+ (x

x)
2
)
_
ax

b ax

b
_
suit la loi de Student T (n 2).

_
ns
2
x

2
((n + 1)s
2
x
+ (x

x)
2
)
_
Y

ax

b
_
suit la loi de Student T (n 2).
(n 2)

2

2
suit la loi du khi-deux X
2
(n2).
Le test de pertinence ou de validit de la rgression consiste tester H
0
: a = 0
contre H
1
: a = 0, en utilisant le premier des rsultats prcdents. On conclut que la
rgression est pertinente en rejetant H
0
.
Exercice 4.3.1. Pour mesurer la dpendance entre lge et le risque cardio-vasculaire,
on a observ 12 patients, pour lesquels on dispose de lge en annes (variable X), et
du logarithme du dosage en d-dimres (variable Y). On donne les quantits suivantes :

x
i
= 596 ;

x
2
i
= 32435 ;

y
i
= 5.2 ;

y
2
i
= 4.3 ;

x
i
y
i
= 188.58 .
1. Tester la pertinence de la rgression au seuil de 1%.
Il sagit dun test bilatral de H
0
: a = 0 contre H
1
: a = 0. La statistique de
test est :
T =

ns
2
x

2
A .
Sous lhypothse H
0
, T suit la loi de Student de paramtre 10. La rgle de dcision
est :
Rejet de H
0
= T / [t

; +t

] ,
o t

est le quantile dordre 1/2 de la loi de Student T (10), savoir 3.169. Ici,
la valeur prise par T est 7.177. On rejette H
0
, donc on dclare que la rgression
est pertinente.
2. Des tudes prcdentes avaient donn une dpendance linaire entre lge et le
dosage en d-dimres sous la forme Y = 0.02x 2. Tester au seuil de 1% si les
valeurs de a et b prcdemment admises peuvent tre conserves.
Nous testons dabord H
0
: a = 0.02 contre H
1
: a = 0.02. La statistique de test
est :
T =

ns
2
x

2
(A 0.02) .
El le prend la valeur 1.341 qui est dans linterval le [3.169 ; +3.169]. Donc on
accepte H
0
(on dclare que la valeur estime de a nest pas signicativement
loigne de 0.02).
Nous testons maintenant H
0
: b = 2 contre H
1
: b = 2. La statistique de test
est :
T =

_
ns
2
x

2
(s
2
x
+ (0 x)
2
)
(

b (2)) .
58
STA230 Exercices de Statistique UJF Grenoble
El le prend la valeur 1.935 qui est dans linterval le [3.169 ; +3.169]. Donc on ac-
cepte H
0
(on dclare que la valeur estime de b nest pas signicativement loigne
de 2).
Au total les deux tests acceptent les valeurs antrieures de a et b.
3. Un patient de 60 ans prsente une valeur de Y gale 0.14 : est-ce inquitant ?
Nous testons ici une valeur de Y

= ax

+b +E, avec x

= 60. La statistique de
test est :
T =

_
ns
2
x

2
((n + 1)s
2
x
+ (x

x)
2
)
(Y

ax

b) .
El le prend la valeur 5.028. Cette valeur est suprieure au quantile dordre 0.0005
de la loi T (10), elle est donc anormalement leve (par rapport aux donnes
fournies).
4. Tester au seuil de 1% lhypothse H
0
:
2
= 0.03 contre H
1
:
2
> 0.03.
La statistique de test est :
10

2
0.03
.
Sous lhypothse H
0
, T suit la loi du khi-deux de paramtre 10. Au seuil de 1%,
on rejette les valeurs suprrieures au quantile dordre 0.99 de la loi X
2
(10),
savoir 23.21. Ici, T prend la valeur 11.09, donc on accepte H
0
.
Exercice 4.3.2. On tudie la pollution de lair dans 41 villes amricaines par la variable
Y , mesurant le volume de SO
2
dans lair en micro-grammes par m
3
, en fonction de
la temprature moyenne annuelle X, exprime en degrs Fahrenheit. On donne les
rsultats numriques suivants :

x
i
= 2286,

y
i
= 1232,

x
2
i
= 129549,

y
2
i
= 59050,

x
i
y
i
= 74598 .
1. Tester la pertinence de la rgression au seuil de 5%.
2. Tester H
0
: a = 3 contre H
1
: a < 3, au seuil de 5%.
3. Si vous deviez xer une limite maximale de pollution pour une ville dont la
temprature moyenne est de 60 degrs, qui ne soit dpasse que dans 5% des cas,
quelle limite choisiriez-vous ?
Exercice 4.3.3. Dans le cadre de travaux de recherche sur la dure de la saison de
vgtation en montagne, des stations mtorologiques sont installes direntes alti-
tudes. La temprature moyenne (en degrs Celsius) ainsi que laltitude (en mtres) de
chaque station sont donnes dans le tableau ci-dessous :
altitude 1040 1230 1500 1600 1740 1950 2200 2530 2800 3100
temprature 7.4 6 4.5 3.8 2.9 1.9 1 1.2 1.5 4.5
59
STA230 Exercices de Statistique UJF Grenoble
On donne :

x
i
= 19690;

y
i
= 20.3;

x
2
i
= 42925500;

y
2
i
= 162.41;

x
i
y
i
= 17671 .
1. Tester la pertinence de la rgression au seuil de 1%.
2. Dans un endroit situ 1100 mtres daltitude, on a relev une temprature
moyenne de 3.2 degrs. Au seuil de 1%, diriez-vous que cette temprature est
anormalement basse ?
Exercice 4.3.4. On souhaite vrier si la prise de poids dun jeune mouton en un an
(variable Y en kilogrammes) dpend de son poids initial (variable X galement en
kilogrammes). Sur 10 moutons, on donne les rsultats suivants :

x
i
= 406 ;

y
i
= 423 ;

x
2
i
= 16570 ;

y
2
i
= 18057 ;

x
i
y
i
= 17280 .
1. Tester la pertinence de la rgression au seuil de 1%.
2. La sagesse populaire dit que le poids dun mouton doit doubler en un an. Au
seuil de 1%, pouvez-vous conrmer ?
3. Un mouton de poids initial 30 kg, na pris que 20 kg au bout dun an. Au seuil
de 1%, est-ce inquitant ?
Exercice 4.3.5. Le volume dair expir Y est une mesure standard du fonctionnement
pulmonaire. Pour identier une population possdant un fonctionnement pulmonaire
anormal, il faut tablir un modle pour le volume dair expir dans une population
normale. Pour cela, on mesure le volume Y en litres et la taille X en centimtres sur
12 garons gs de 10 15 ans.
On obtient les rsums numriques suivants :

x
i
= 1872 ;

y
i
= 32.3 ;

x
2
i
= 294320 ;

y
2
i
= 93.11 ;

x
i
y
i
= 5156.20 .
1. Tester la pertinence de la rgression au seuil de 1%.
2. Un garon mesurant 1.60 m expire 2.1 litres : est-ce alarmant ?
Exercice 4.3.6. On veut prdire la hauteur H dun arbre en fonction de son diamtre
D. Pour faire une rgression linaire, on eectue un changement de variable en posant
Y = ln(H) et X = ln(D). Voici les mesures faites sur 5 arbres.
X 1.61 1.20 0.97 0.51 0.42
Y 2.22 2.27 2.38 2.60 2.65
On donne :

x
i
= 4.71,

y
i
= 12.12,

x
2
i
= 5.4095,

y
2
i
= 29.5282,

x
i
y
i
= 11.0458.
1. Tester la pertinence de la rgression au seuil de 5%.
2. On a abattu un arbre de diamtre 0.7 qui mesurait 20 m. tait-il anormalement
grand?
60