Cours Stat S4 PDF

Licence 2-S4 SI-MASS
Anne 2015
Cours de Statistiques infrentielles

Pierre DUSART
Chapitre
Lois statistiques
1.1
Introduction
Nous allons voir que si une variable alatoire suit une certaine loi, alors ses ralisations (sous forme
dchantillons) sont encadres avec des probabilits de ralisation. Par exemple, lorsque lon a une norme
urne avec une proportion p de boules blanches alors le nombre de boules blanches tires sur un chantillon de taille n est parfaitement dfini. En pratique, la frquence observe varie autour de p avec des
probabilits fortes autour de p et plus faibles lorsquon sloigne de p.
Nous allons chercher faire linverse : linfrence statistique consiste induire les caractristiques inconnues dune population partir dun chantillon issu de cette population. Les caractristiques de
lchantillon, une fois connues, refltent avec une certaine marge derreur possible celles de la population.
1.1.1
Fonction de rpartition
La densit de probabilit p(x) ou la fonction de rpartition F (x) dfinissent la loi de probabilit dune
variable alatoire continue X. Elles donnent lieu aux reprsentations graphiques suivantes :
Figure 1.1 fonction rpartition

La fonction de distribution cumule F (x) exprime la probabilit que X nexcde pas la valeur x :
F (x) = P (X x).
De mme, la probabilit que X soit entre a et b (b > a) vaut
P (a < X < b) = F (b) F (a).
1.1.2
CHAPITRE 1. LOIS STATISTIQUES
Grandeurs observes sur les chantillons
Lesprance E(X) dune variable alatoire discrte X est donne par la formule
X
E(X) =
xi P (xi ).
i
Lesprance est galement appele moyenne et note dans ce cas X .

2
Sa variance X
est lesprance des carrs des carts avec la moyenne :
X
X
2
X
= E[(X X )2 ] =
(xi X )2 P (xi ) =
x2i P (xi ) 2X .
i
Son cart-type X est la racine positive de la variance.
1.2
1.2.1
Lois usuelles
Loi normale ou loi de Gauss
Une variable alatoire relle X suit une loi normale (ou loi gaussienne, loi de Laplace-Gauss) desprance
et dcart type (nombre strictement positif, car il sagit de la racine carre de la variance 2 ) si cette
variable alatoire relle X admet pour densit de probabilit la fonction p(x) dfinie, pour tout nombre
rel x, par :
1 x 2
1
p(x) = e 2 ( ) .
2
Une telle variable alatoire est alors dite variable gaussienne.
Une loi normale sera note de la manire suivante N (, ) car elle dpend de deux paramtres (la
moyenne) et (lcart-type). Ainsi si une variable alatoire X suit N (, ) alors
E(X) =
et
V (X) = 2 .
Lorsque la moyenne vaut 0, et lcart-type vaut 1, la loi sera note N (0, 1) et sera appele loi normale
2
standard. Sa fonction caractristique vaut et /2 . Seule la loi N (0, 1) est tabule car les autres lois (cest-dire avec dautres paramtres) se dduise de celle-ci laide du thorme suivant : Si Y suit N (, )
alors Z = Y suit N (0, 1).
On note la fonction de rpartition de la loi normale centre rduite :
(x) = P (Z < x)
avec Z une variable alatoire suivant N (0, 1).
Proprits et Exemples : (x) = 1 (x),
(0) = 0.5,
(1.645) 0.95,
(1.960) 0.9750
Pour |x| < 2, une approximation de peut tre utilise ; il sagit de son dveloppement de Taylor
lordre 5 au voisinage de 0 :

1
x3
x5
(x) 0.5 +
x
+
.
6
40
2
Inversement, partir dune probabilit, on peut chercher la borne pour laquelle cette probabilit est
effective.
Cours Proba-Stat / Pierre DUSART
Notation : on notera z/2 le nombre pour lequel

P (Z > z/2 ) = /2
lorsque la variable alatoire suit la loi normale standard.
risque 0.01
valeur critique z/2 2.58
coefficient de scurit c 99%
0.02
2.33
98%
0.05 0.10
1.96 1.645
95% 90%
A laide des proprits de la loi normale standard, on remarque que le nombre z/2 vrifie galement
P (Z < z/2 )
P (Z < z/2 )
P (z/2 < Z < z/2 )
P (|Z| > z/2 )
La somme de deux variables gaussiennes indpendantes est elle-mme une variable gaussienne (stabilit) :
Soient X et Y deux variables alatoires indpendantes suivant respectivement
les lois N (1 , 1 ) et
p
N (2 , 2 ). Alors, la variable alatoire X + Y suit la loi normale N (1 + 2 , 12 + 22 ).
1.2.2
Loi du 2 (khi-deux)
Dfinition 1 Soit Z1 , Z2 , .P
. . , Z une suite de variables alatoires indpendantes de mme loi N (0, 1).
Alors la variable alatoire i=1 Zi2 suit une loi appele loi du Khi-deux degrs de libert, note
2 ().
Proposition 1.2.1
1. Sa fonction caractristique est (1 2it)/2 .
2. La densit de la loi du 2 () est

1
x/21 ex/2 pour x > 0
2/2 (/2)
f (x) =
0 sinon.
R
o est la fonction Gamma dEuler dfinie par (r) = 0 xr1 ex dx.
3. Lesprance de la loi du 2 () est gale au nombre de degrs de libert et sa variance est 2.
4. La somme de deux variables alatoires indpendantes suivant respectivement 2 (1 ) et 2 (2 ) suit
aussi une loi du 2 avec 1 + 2 degrs de libert.
Preuve Calculons la fonction caractristique de Z 2 lorsque Z suit N (0, 1).
Z
2
2
2
1
(t) = E(eitZ ) =
eitz ez /2 dz
2
Z
2
1
1
e 2 (12it)z dz
=
2
Z
1 2
1
e 2 u /2
=
dz en posant u = (1 2it)1/2 z
2 (1 2it)1/2
(t)
(1 2it)1/2
Maintenant pour la somme de variables Zi2 indpendantes, on a

(t) = (1 2it)/2 .
Montrons maintenant que la fonction de densit est correcte. Pour cela, calculons la fonction caractristique partir de la densit :
(t)
E(e
itx
eitx
)=
0
=
=
=
1
/2
2 (/2)
x/21 ex/2 dx
2/2 (/2)
x(1/2it)x dx
Z +
1
1
u/21 eu du
2/2 (/2) (1/2 it)(1/2 it)/21 0
Z +
1
1
u/21 eu du
2/2 (/2) (1/2 it)/2 0
{z
}
|
en posant u = (1/2 it)x
=(/2)
(t)
1
(1 2it)/2
2
Calculons maintenant lesprance et la variance. Selon la dfinition de la loi
Pdu 2 , chaque variable
2
Zi suit la loi normale centre rduite. Ainsi E(Zi ) = V ar(Zi ) = 1 et E( i=1 Zi ) = . De mme,
2 2
V (Zi r) = E(Zi4 ) (E(Z
P i )) 2= 4 1. On sait que pour une loi normale centre rduite 4 = 3 donc
2
V ar(Zi ) = 2 et V ar( i=1 Zi ) = 2.
La dernire proposition est vidente de par la dfinition de la loi du 2 .

Fonction inverse : on peut trouver une tabulation de la fonction rciproque de la fonction de rpartition
de cette loi dans une table (en annexe) ou sur un logiciel tableur :
7 2;
(Fonction KHIDEUX.inverse(; )),
cest--dire la valeur de 2; telle que P (2 () > 2; ) = .

Exemple : Pour = 0.990 et = 5, 2 = 0.554 = 20.99;5 .
Figure 1.2 fonction 2 inverse
1.2.3
Loi de Student
Dfinition 2 Soient Z et Q deux variables alatoires indpendantes telles que Z suit N (0, 1) et Q suit
2 (). Alors la variable alatoire
Z
T =p
Q/
suit une loi appele loi de Student degrs de libert, note St().
Proposition 1.2.2
1. La densit de la loi de la loi de Student degrs de libert est

1 ( +1
1
2 )
f (x) =
.
(/2) (1 + x2 /) +1
2
2. Lesprance nest pas dfinie pour = 1 et vaut 0 si 2. Sa variance nexiste pas pour 2 et
vaut /( 2) pour 3.
3. La loi de Student converge en loi vers la loi normale centre rduite.
Remarque : pour = 1, la loi de Student sappelle loi de Cauchy, ou loi de Lorentz.
1.2.4
Loi de Fisher-Snedecor
Dfinition 3 Soient Q1 et Q2 deux variables alatoires indpendantes telles que Q1 suit 2 (1 ) et Q2

suit 2 (2 ) alors la variable alatoire
Q1 /1
F =
Q2 /2
suit une loi de Fisher-Snedecor (1 , 2 ) degrs de libert, note F (1 , 2 ).
Proposition 1.2.3 La densit de la loi F (1 , 2 ) est
2
( 1 +
2 )
f (x) =
(1 /2)(2 /2)
Son esprance nexiste que si 2 3 et vaut

Proposition 1.2.4
1
2
1 /2
2
2 2 .
x1 /21
(1 +
1 +2
1
2
2 x)
si x > 0
(0 sinon).
Sa variance nexiste que si 2 5 et vaut
1. Si F suit une loi de Fisher F (1 , 2 ) alors
1
F
222 (1 +2 2)
1 (2 2)2 (2 4) .
suit une loi de Fisher F (2 , 1 ).
2. Si T suit une loi de Student degrs de libert alors T suit une loi de Fisher F (1, ).
1.2.5
Fonctions inverses et Tableur
Loi
Gauss
Khi-Deux
Student
Fisher
Notation
N (0, 1)
2 ()
St()
F (1 , 2 )
Variable
Fct Rpartition
V. critique
Z
K2
T
F
loi.normale.standard(z)
khideux(k; ; 1)
loi.normale.standard.inverse(1 )
Loi.student(t; ; 1)
z
2;
t;
Fonction inverse
Loi.f(f ; 1 ; 2 ))
f;1 ,2
inverse.Loi.f(; 1 ; 2 ))
khideux.inverse(; ; 1)
Loi.student.inverse(; )
Chapitre
Convergences
2.1
2.1.1
Convergence en probabilit
Ingalits utiles
Ingalit de Markov simplifie

Soit Y une v.a.r., g une fonction croissante et positive ou nulle sur lensemble des rels, vrifiant g(a) > 0,
alors
E(g(Y ))
.
a > 0, P (|Y | a)
g(a)
Preuve
Z
E(g(Y ))
g(y)f (y)dy =
g(y)f (y)dy +
|Y |<a
g(y)f (y)dy
g(y)f (y)dy
|Y |a
car g est positive ou nulle
|Y |a
Z
g(a)
f (y)dy
car g est croissante
|Y |a
= g(a)P (|Y | a)
Ainsi E(g(Y )) g(a)P (|Y | a).
Rappel : Ingalit de Bienaym-Chebyshev
Soit X une variable alatoire admettant une esprance E(X) et de variance finie 2 (lhypothse de
variance finie garantit lexistence de lesprance).
Lingalit de Bienaym-Chebychev snonce de la faon suivante : pour tout rel strictement positif,
P (|X E(X)| )
2
.
2
Preuve Voir Cours S3 ou prendre Y = |X E(X)| , a = et g(t) = t2 dans lingalit de Markov.
10
2.1.2
CHAPITRE 2. CONVERGENCES
Convergence en probabilit
Dfinition 4 (Convergence en probabilit) On considre une suite (Xn ) dune v.a. dfinie sur ,
X une autre v.a. dfinie sur .
On dit que la suite (Xn ) converge en probabilit vers une constante relle ` si
> 0, lim P (|Xn `| > ) = 0.
n
On dit que la suite (Xn ) converge en probabilit vers X si

> 0, lim P (|Xn X| > ) = 0.
n
Exemple de la loi binomiale : On ralise n expriences indpendantes et on suppose que lors de

chacune de ces expriences, la probabilit dun vnement appel succs est p. Soit Sn le nombre de
succs obtenus lors de ces n expriences. La variance alatoire Sn , somme de n variables de Bernoulli
indpendantes, de mme paramtre p, suit une loi binomiale : Sn , B(n, p).
On sintresse alors la variable alatoire Snn , proportion de succs sur n expriences, a donc pour
esprance E( Snn ) = p et pour variance V ( Snn ) = n12 V (Sn ) = p(1p)
. Comme p(1p) atteint son maximum
n
lorsque p = 1/2, on a ainsi p(1 p) 1/4. En appliquant lingalit de Bienaym-Chebyshev, il vient
P (|Sn /n p| )
1
p(1 p)
.
n2
4n2
1
Ainsi pour tout > 0, il existe > 0 (plus prcisment > 4n
2 ) tel que P (|Sn /n p| ) < ou
Sn
encore limn P (|Sn /n p| ) = 0. La variable alatoire n converge en probabilit vers p.
Thorme 2.1.1 Soit (Xn ) une suite de variables alatoires sur le mme espace probabilis (, P ) admettant des esprances et des variances vrifiant
lim E(Xn ) = `
et lim V (Xn ) = 0,
n
alors les (Xn ) convergent en probabilit vers `.

Preuve Soit > 0. Posons E(Xn ) = ` + un avec lim un = 0. Alors il existe N N tel que :
n N |un | < /2
et donc partir du rang N ,
(2.1)
|Xn E(Xn )| < /2 |Xn `| < ,

car |Xn `| = |Xn E(Xn ) + E(Xn ) `| |Xn E(Xn )| + |E(Xn ) `|.
Limplication (2.1) peut tre encore crite sous la forme
|Xn `| |Xn E(Xn )| /2.
Par consquent, en utilisant lingalit de Bienaym-Chebyshev,
P (|Xn `| ) P (|Xn E(Xn )| /2)
V (Xn )
,
(/2)2
qui tend vers 0 quand n tend vers linfini.

Consquence : Pour que (Xn ) converge en probabilit vers X, il suffit que E(Xn X) 0 et V (Xn X)
0 lorsque n (la dmonstration passe par lingalit de Bienaym-Chebychev).
11
2.1.3
Convergence en moyenne quadratique
Dfinition 5 Une suite de v.a.r. (Xn )nN converge en moyenne quadratique vers une v.a.r. X si
lim E((Xn X)2 ) = 0.
Proprits :
1. La convergence en moyenne quadratique entrane la convergence en probabilit.
2. Pour les (Xn ) sont des variables alatoires desprance et de variance finies, si E(Xn ) et
V ar(Xn ) 0 alors Xn converge en moyenne quadratique vers .
Preuve
1. On applique lingalit de Markov avec Y = |Xn X| , a = 2 et g(t) = t2 . Il suffit
ensuite de remarquer que P (|Xn X|2 > 2 ) = P (|Xn X| > ) et utiliser lhypothse que
lim E((Xn X)2 ) = 0.
2. lim E((Xn )2 ) = lim E(Xn2 ) 2E(X) + 2 = lim E(Xn2 ) E(Xn )2 = lim V (Xn ) = 0.
2.1.4
Loi faible des grands nombres
Thorme 2.1.2 Soit (Xn ) une suite de variables alatoires indpendantes sur le mme espace
Pn probabilis (, P ) ayant une mme esprance mathmatique ` et des variances vrifiant limn n12 i=1 i2 = 0.
On pose Sn = X1 + + Xn alors Snn converge en probabilit vers `.
Si on considre une suite de variables alatoires (Xn ) indpendantes dfinies sur un mme espace probabilis, ayant mme esprance et mme variance finie notes respectivement E(X) et V (X). La loi faible des
grands nombres stipule que, pour tout rel strictement positif, la probabilit que la moyenne empirique
Sn
Sn
n sloigne de lesprance dau moins , tend vers 0 quand n tend vers linfini. La moyenne n converge
en probabilit vers lesprance commune E(X).
Preuve On a E(Sn /n) = ` et lim V (Sn /n) = lim n12
2.1.1, Sn /n converge en probabilit vers `.
2.2
i2 = 0 par hypothse. Ainsi par le thorme
Convergence en loi
Dfinition 6 Soient (Xn ) et X des variables alatoires sur un mme espace probabilis (, P ), de foncL
tions de rpartition respectives Fn et F ; on dit que les (Xn ) convergent vers X en loi (et on note Xn X)
si en tout point x o F est continue, les Fn (x) convergent vers F (x).
Proprits : (admises)
P
1. La convergence en probabilit entrane la convergence en loi. (Xn X) (Xn X)

2. Si les (Xn ) et X sont des variables alatoires discrtes, alors Xn converge en loi vers X si et
seulement si
x R, lim P (Xn = x) = P (X = x).
n
Preuve Il sagit de montrer que si (Xn )n converge en probabilit vers X, la suite (FXn )n converge vers
FX (respectivement pralablement notes Fn et F ). On utilise le lemme suivant : soient A, B des variables
alatoires relles, c un rel et > 0. Alors on a lingalit
P (A c) B( c + ) + P (|A B| > ),
12
car
P (A C)
P (A c B c + ) + P (A c B > c + )
P (A c|B c + ) P (B c + ) + P (A c B > c)
P (B c + ) + P (A B > )
P (B c + ) + P (|A B| > )
car P (|) 1
car P (|A B| > ) = P (A B > ) + P (A B < ) P (A B < )
De ce lemme, il vient respectivement pour (A = Xn , c = x, B = X) puis (A = X, c = x , B = Xn )

P (Xn x) P (X x + ) + P (|Xn X| > )
(2.2)
P (Xn x) P (X x ) + P (|Xn X| > )
(2.3)
Passons la dmontration proprement dite. Soit x un point o F est continue. Soit > 0. Par continuit
de FX en x, il existe > 0 tel que |FX (x + ) FX (x)| < /2 et |FX (x ) FX (x)| < /2. Pour cet ,
de part la convergence de (Xn )n vers X, il existe n0 tel que, pour tout n n0 ,
P (|Xn X| > ) < /2.
Ainsi par (2.2),
FXn (x) FX (x)
FX (x + ) + P (|Xn X| > ) FX (x)

FX (x + ) FX (x) + P (|Xn X| > ) < /2 + /2 =
et par (2.3),
FXn (x) FX (x) FX (x ) FX (x) P (|Xn X| > )
/2 /2 =
Donc > 0, n0 tel que n n0 , |FXn (x) FX (x)| < .

Proposition 2.2.1 (Convergence de la loi hypergomtrique vers la loi binomiale) Soit (XN )
une suite de variables alatoires sur un mme espace probabilis, de loi hypergomtrique : XN ,
H(N, n, p) o n et p sont supposs constants. Alors (XN ) convergent en loi, quand N tend vers linfini, vers X de loi binomiale B(n, p) (mmes valeurs de paramtres).
Preuve La probabilit ponctuelle de XN est
P (XN = k) =
nk
k
CN
p CN q
n
CN
Lorsque N tend vers linfini avec n constant,

n
CN
=
1
n1 1
Nn
N (N 1) (N n + 1)
= N n (1 ) (1
)
n!
N
N n!
n!
car (1 m
N ) 1 lorsque N tend vers linfini. De mme, lorsque N tend vers linfini avec p et k fixes, alors
k
CN
p
(N p)k
k!
Finalement,
P (XN = k)
et
nk
CN
(1p)
(N (1 p))nk
.
(n k)!
pk (1 p)nk n!
= Cnk pk (1 p)nk ,
k!(n k)!
ce qui correspond la probabilit ponctuelle dune variable alatoire qui suit la loi binomiale B(n, p).
13
Cest pour cela que lorsque la population (de taille N ) est trs grande, on peut assimiler la loi dune
variable alatoire comptant le nombre de russite sur un tirage sans remise (loi hypergomtrique) une
loi binomiale (tirage avec remise).
Proposition 2.2.2 (Convergence de la loi binomiale vers une loi de Poisson) Soit (Xn ) une
suite de variables alatoires binomiales sur un mme espace probabilis : pour tout n, Xn suit B(n, pn ).
On suppose que limn+ pn = 0 et limn+ npn = . Alors (Xn ) convergent en loi, quand n tend vers
linfini, vers une loi de Poisson de paramtre .
Preuve Pour k fix,
P (Xn = k)
=
=
n(n 1) (n k + 1) k
pn (1 pn )nk
k!
(npn )k
1
k1
(1 pn )n (1 ) (1
)(1 pn )k
k!
n
n
On cherche la limite de (1pn )n = exp(n ln(1pn )) = exp(n ln(1npn /n)). Comme limn+ npn = , on
pose npn = + n avec limn+ n = 0 et ainsi ln(1 npn /n) /n donc limn+ (1 pn )n = e .
k
Comme k est fix, limn+ (1 n1 ) (1 k1
=1
n )(1 pn )
Ainsi
lim P (Xn = k) = e
n+
k
,
k!
ce qui correspond la probabilit ponctuelle dune variable alatoire qui suit une loi de Poisson P(). Il
sagit donc dune convergence en loi en appliquant le point 2 des proprits.
Corollaire 2.2.3 (Application pratique) On peut remplacer B(n, p) par P() avec = np pour n
trs grand (n > 50) et p trs petit (p < 0, 1).
2.3
2.3.1
Convergence des fonctions caractristiques

Continuit
Thorme 2.3.1 (thorme de continuit de Levy) Soit (Xn ) une suite de variables alatoires de
fonctions caractristiques Xn et X une variable alatoire de fonction caractristique X , toutes sur un
mme espace probabilis. Si les (Xn ) convergent en loi vers X alors la suite de fonctions (Xn ) converge
uniformment vers X sur tout intervalle [a, a].
Inversement si les (Xn ) convergent vers une fonction dont la partie relle est continue en 0, alors
est la fonction caractristique dune variable alatoire X vers laquelle les Xn convergent en loi.
On peut le rsumer ainsi :
L
{t R; Xn (t) X (t)} {Xn X}
2.3.2
Thorme central limite
Corollaire 2.3.2 (Thorme central limite) Soit une suite (Xn ) de variables alatoires dfinies sur
le mme espace de probabilit, suivant la mme loi D et dont lesprance et lcart-type communes
existent et soient finis ( 6= 0). On suppose que les (Xn ) sont indpendantes.
Considrons la somme
n
Sn = X1 + + Xn . Alors lesprance de Sn est n et son cart-type vaut n et Sn
converge en loi
n
vers une variable alatoire normale centre rduite.
14
Preuve Posons Yi =
Xi
.
n
Alors
t
Yi (t) = Xi (t) = Xi ( )
n
n
Pour t fix, lorsque n tend vers linfini, t n est infiniment petit. Ecrivons le dveloppement limit, au
voisinage de 0, de la fonction caractristique dune variable alatoire W :
W (u)
W (0) + u 0W (0) +
1 + i u E(W )
u2 00
(0) + u2 (u)
2 W
u2
E(W 2 ) + u2 (u)
2
En posant W = Xi , u = t/( n), on a E(W ) = E(Xi ) = 0 et E(W 2 ) = E((Xi )2 ) = V (Xi ) =

2 do
t
1
1
t2
t2
Xi ( ) = 1 2 2 + (t3 / 3 n) = 1
+ i (n)
2 n
n
2n n
n
avec limn+ i (n) = 0.
Maintenant, posons Zn =
Sn
n
n
Pn
i=1
Yi .
Lindpendance des Xn entrane celle des Yi et ainsi

Zn (t)
n
Y
Yi (t)
i=1
=
et limn+ Zn (t) = et
/2
exp
n
X
1
t2
+ i (n))
ln n(1
2n
n
i=1
qui est la fonction caractristique de N (0, 1).
Ce thorme tablit une proprit gnrale, qui va justifier limportance considrable de la loi normale,
la fois comme modle pour dcrire des situations pratiques, mais aussi comme outil thorique. Il snonce
ainsi :
Soit X1 , ..., Xi , ..., Xn , une suite de n variables alatoires indpendantes, de moyennes 1 , ..., i , ..., n ,
et de variances s1 2 , ..., si 2 , ..., sn 2 , et de lois de probabilit quelconques,
leur somme suit une
Pn
Pn loi qui,
lorsque n augmente, tend vers une loi normale de moyenne = i=1 i et de variance s2 = i=1 si 2 . Il
y a une seule condition restrictive, cest que les variances soient finies et quaucune ne soit prpondrante
devant les autres.
La loi normale comme modle : prenons lexemple du fonctionnement dun tour dusinage du bois. Le
rglage du tour a pour but dobtenir des pices prsentant une cote bien dfinie ; mais on sait que de
multiples causes perturbatrices agissent au cours de lusinage dune pice : vibrations, usures, variations de
courant ... Or si les causes perturbatrices sont nombreuses, si leurs effets interviennent de faon additive,
enfin si la dispersion provoque par chacune delles reste faible par rapport la dispersion totale, alors le
thorme central limite signifie quon doit observer une fluctuation globale trs voisine de la loi normale.
Et, comme ce mcanisme dintervention de causes perturbatrices est trs rpandu dans la nature, il en
rsulte que la loi normale occupe en statistique une place privilgie.
2.3.3
convergence de P vers N
Corollaire 2.3.3 Soit (Xn ) une suite de variables alatoires suivants des lois de Poisson de paramtres
n n
converge en loi vers N (0, 1).
n . Si limn+ n = , alors X
15
Preuve On utilise la fonction caractristique de la loi de Poisson de paramtre :

X (t) = e(cos t+i
sin t1)
En utilisant les proprits de la fonction caractristique (aX (t) = (at) et X+b (t) = eitb X (t)), il vient
(cos t +i sin t 1) i t ()
X (t) = eit e(cos t+i sin t1) puis X

(t) = e
e
. Or, lorsque tend vers
linfini, 1/ est au voisinage de 0 et
cos(t/ ) 1 (t/ 2 ) + 1 ()
sin(t/ ) (t/ ) + 1 ()
avec lim () = 0. Ou encore le dveloppement de lexposant avec 1/ au voisinage de 0 est
eit/
Ainsi
(it)2
1
it
+ ().
1= +
2
(cos(t/ ) + i sin(t/ ) 1) i t t2 /2
et X
(t) et
/2
, fonction caractristique de N (0, 1).
Application pratique : Pour suffisamment grand (disons > 1000), la distribution normale de moyenne
et de variance est une excellente approximation de la distribution de Poisson de paramtre . Si
est plus grand que 10, alors la distribution normale est une bonne approximation si une correction de
continuit est applique, cest--dire P (X x) lorsque x est un entier positif ou nul est remplac par
P (X x + 0, 5).
2.3.4
convergence de B vers N
Corollaire 2.3.4 (Thorme de Moivre-Laplace) Soit (Xn ) une suite de variables alatoires telles
np
que (Xn ) B(n, p). Alors Xnnpq
converge en loi vers la variable centre rduite Z N (0, 1) ou encore
Xn converge en loi vers N (np, npq).

Preuve On rappelle que lon a dfini une variable de Bernoulli comme une variable qui prend la valeur
1 avec la probabilit p, et la valeur 0 avec la probabilit (1 p), et montr que sa moyenne est gale p
et sa variance p(1 p). Or on peut considrer une variable binomiale comme la somme de n variables
de Bernoulli. Il rsulte du thorme central limite que, si n est suffisamment grand (en pratique partir
de n = 50), la loi binomiale peut tre approxime par une loi normale de moyenne np et de variance
np(1 p). Cest pourquoi les tables de la loi binomiale sarrtent gnralement n = 50.
Application pratique : on peut assimiler une loi binomiale une loi normale ds que np > 15 et nq > 15
ou n > 30, np > 5, nq > 5.
2.3.5
Correction de continuit
Pour un meilleur rsultat, une correction de continuit peut tre applique, cest--dire P (X x) lorsque
x est un entier positif ou nul est remplac par P (X x + 0, 5). Cela permet galement de diffrencier
P (X x) de P (X < x) lorsque lon approche une loi discrte par une loi continue.
16
Chapitre
Echantillonnage, Estimations
3.1
Echantillonnage
Nous allons tudier comment se comporte un chantillon (lments pris au hasard) dans une population
dont on connat les caractristiques statistiques (lois,...) dune variable considre X. Dans ce cas, prendre
un chantillon alatoire de taille n consiste considrer n ralisations de X ou encore considrer n variables
alatoires X1 , . . . , Xn indpendantes, de mme loi que X.
Dfinition 7 Soit X une variable alatoire sur un rfrentiel . Un chantillon de X de taille n est un
n-uplet (X1 , . . . , Xn ) de variables alatoires indpendantes de mme loi que X. La loi de X sera appele
loi mre. Une ralisation de cet chantillon est un n-uplet de rels (x1 , . . . , xn ) o Xi () = xi .
3.1.1
Moyenne et variance empiriques
Dfinition 8 On appelle statistique sur un n-chantillon une fonction de (X1 , . . . , Xn ).

Dfinition 9 On appelle moyenne de lchantillon ou moyenne empirique, la statistique note X
dfinie par
n
1X
X=
Xi .
n i=1
Proposition 3.1.1 Soit X une variable alatoire de moyenne et dcart-type . On a :
E(X) = ,
V (X) =
2
.
n
De plus, par le thorme central limite, X converge en loi vers N (, n ) lorsque n tend vers linfini.
Preuve
1X
Xi
n i=1
1X
1X
E(Xi ) =
= .
n i=1
n i=1
Et, en raison de lindpendance des Xi ,

!
n
n
n
1X
1 X
1 X 2
n 2
2
V
Xi = 2
V (Xi ) = 2
= 2 =
.
n i=1
n i=1
n i=1
n
n
18
CHAPITRE 3. ECHANTILLONNAGE, ESTIMATIONS
Thorme 3.1.2 Toute somme de variables alatoires normales indpendantes

est une variable alatoire
normale. Ainsi, si X , N (, ) alors pour toute valeur de n, X , N (, / n).
Preuve Il suffit de dmontrer le rsultat avec deux variables alatoires, lextension se faisant de proche
en proche. On suppose X1 et X2 indpendantes de lois respectives N (1 , 1 ) et N (2 , 2 ). On obtient le
rsultat sur la somme en utilisant les fonctions caractristiques (voir cours S3).
Dfinition 10 On appelle Variance empirique, la statistique note S2 (X) dfinie par
n
1X
S2 :=
(Xi X)2 .
n i=1
Proposition 3.1.3 Soit X une variable alatoire dcart-type et de moment centr dordre 4, 4 . On
a:

n1
n1 2
,
V (S2 ) =
(n 1)4 (n 3) 4 .
E(S2 ) =
3
n
n
De plus, lorsque n tend vers linfini, V (S2 )
4 3
.
n
Preuve
n
1X
(Xi X)2
n i=1
1X
[(Xi ) (X )]2
n i=1
n
n
X
1X
2
(Xi )2 (X )
(Xi ) + (X )2
n i=1
n
i=1
1X
(Xi )2 2(X )2 + (X )2
n i=1
1X
(Xi )2 (X )2
n i=1
Do
n
E(S2 ) =
2
n1 2
1X
V (Xi ) V (X) = 2
=
.
n i=1
n
n
Preuve Dmontrons lautre galit. On rappelle les notations : les Xi suivent la loi normale N (, ) et
les moments centrs dordre k sont dfinis par
k = E((X )k ).
Ainsi 1 = 0 et 2 = 2 . On peut crire S2 sous la forme
n
1X 2
2
S2 =
Xi X .
n i=1
(3.1)
19
Dautre part,
X
(Xi Xj )2
X
(Xi2 2Xi Xj + Xj2 )
i,j
i,j
Xi2 2
i,j
2n
XX
i
n
X
i=1
n
X
2n
2n S2
Xi2 2
Xi Xj +
XX
i
Xi
Xj2
Xj
Xi2 2(nX)(nX)
i=1
(Xi Xj )
par (3.1).
i,j
On peut donc calculer la variance de S2 en utilisant la relation suivante :

V ar(S2 ) = cov(S2 , S2 ) =
X
1
cov((Xi Xj )2 , (Xk Xl )2 ).
(2n2 )2
i,j,k,l
On calcule alors les diffrentes covariances selon la forme des facteurs :

de la forme cov((Xi Xj )2 , (Xk Xl )2 ) avec i, j, k, l tous diffrents,
de la forme cov((Xi Xj )2 , (Xk Xj )2 ) avec i, j, k diffrents,
de la forme cov((Xi Xj )2 , (Xi Xj )2 ) avec i, j diffrents.
On remarque que si i = j ou k = l, alors on obtient une covariance avec zro (de la forme cov(0, (Xk
Xl )2 )) ou cov((Xi Xj )2 , 0) qui est nulle.
Commenons par le calcul de cov((Xi Xj )2 , (Xi Xj )2 ) avec i 6= j.
cov((Xi Xj )2 , (Xi Xj )2 ) = E((Xi Xj )4 ) [E((Xi Xj )2 )]2 .
On introduit la moyenne dans le calcul de lesprance :
(Xi Xj )4
[(Xi ) (Xj )]4
(Xi )4 4(Xi )(Xj )3 + 6(Xi )2 (Xj )2 4(Xi )3 (Xj )

+(Xj )4
E (Xi Xj )
(Xi Xj )2
2
E (Xi Xj )
24 83 1 + 622
24 + 6 4
[(Xi ) (Xj )]2
(Xi )2 2(Xi )(Xj ) + (Xj )2
22 = 2 2 .
car 1 = 0 et 2 = 2 .
Ainsi, pour i 6= j,
cov((Xi Xj )2 , (Xi Xj )2 ) = 24 + 2 4 .
Continuons par le calcul de cov((Xi Xj )2 , (Xk Xj )2 ) avec i, j, k diffrents.
cov((Xi Xj )2 , (Xk Xj )2 )
= E((Xi Xj )2 (Xk Xj )2 ) [E((Xi Xj )2 )E((Xk Xj )2 ]

= E((Xi Xj )2 (Xk Xj )2 ) (2 2 )2 .
20
(Xi Xj )2 (Xk Xj )2

= (Xi )2 2(Xi )(Xj ) + (Xj )2 (Xk )2 2(Xk )(Xj ) + (Xj )2
=
(Xi )2 (Xk )2 2(Xi )(Xj )(Xk )2 + (Xj )(Xk )2

2(Xi )2 (Xk )(Xj ) + 4(Xi )(Xk )(Xj )2 2(Xk )(Xj )3
+(Xi )2 (Xj )2 2(Xi )(Xj )3 + (Xj )4
3(2 )2 + 4
Ainsi, pour i, j, k diffrents,

cov((Xi Xj )2 , (Xk Xj )2 ) = 4 4 .
Le dernier cas est rapidement calcul : si i, j, k, l sont diffrents, alors, par indpendance des Xi ,
cov((Xi Xj )2 , (Xk Xl )2 ) = 0.
Il reste compter le nombre de termes dans chaque cas prsent.
cov((Xi Xj )2 , (Xk Xl )2 ) est un terme de la forme cov(Xi Xj )2 , (Xi Xj )2 ) lorsque (k = i, l = j)
ou (k = j, l = i) avec i 6= j, soit 2n(n 1) termes.
cov((Xi Xj )2 , (Xk Xl )2 ) est un terme de la forme cov(Xi Xj )2 , (Xk Xj )2 ) lorsque (l = j ou
l = i) et k, i, j diffrents ou (k = i ou k = j) et l, i, j diffrents, soit (2 + 2)n(n 1)(n 2) termes.
X
cov
2n(n 1)(24 + 2 4 ) + 4n(n 1)(n 2)(4 4 )

n3 4
4n(n 1)2 4
n1
i,j,k,l
Corollaire 3.1.4
3.1.2
2 2
n S
4 4
converge en loi vers N (0, 1) lorsque n tend vers linfini.
Frquence
Soit (Xi )i=1..n un chantillon alatoire de taille n ayant une loi de Bernoulli de paramtre p comme loi
mre. Alors
X1 + + Xn
F =
n
est la frquence de la valeur 1 dans lchantillon et nF suit une loi binomiale de paramtres n et p. Ainsi
et
E(F ) = p
V ar(F ) =
Donc, quand n tend vers linfini, F converge en loi vers N (p,
pq
.
n
p pq
n
).
En effet,

E(F ) = E

V ar(F ) = V ar
1X
Xi
n
1X
Xi
n
(ind)
1X
E(Xi ) = p.
n i=1
1 X
npq
pq
V ar(Xi ) = 2 =
.
n2
n
n
21
On peut aussi recalculer la variance par le thorme de Knig :

V ar(F )
=
=
(ind)
E(F 2 ) E(F )2
X 2 !
1
E
Xi
p2
n
1 X 2 X X
E
Xi +
Xi Xj p2
n2
i
i j6=i
XX
1 X
E(Xi2 ) +
E(Xi Xj ) p2
n2
i
i j6=i
XX
1 X
E(Xi2 ) +
E(Xi ) E(Xj ) p2
n2
i
i
j6=i
=
V ar(F )

1
np + n(n 1)p2 p2
2
n
p(1 p)
n
car E(Xi2 ) = 02 (1 p) + 12 p = p,
Exercice : Montrer que E( F (1 F ) ) = pq(1 1/n).
3.2
Estimation paramtrique ponctuelle
Cette fois il sagit destimer certaines caractristiques statistiques de la loi (moyenne, variance, fonction
de rpartition) au travers dune srie dobservations x1 , x2 , . . . , xn . Cest la problmatique inverse de
lchantillonnage.
partir des caractristiques dun chantillon, que peut-on dduire des caractristiques de
la population dont il est issu ?
Lestimation consiste donner des valeurs approximatives aux paramtres dune population laide dun
chantillon de n observations issues de cette population. On peut se tromper sur la valeur exacte, mais
on donne la meilleure valeur possible que lon peut supposer.
3.2.1
Estimateur ponctuel
On souhaite estimer un paramtre dune population (cela peut tre sa moyenne , son cart-type ,
une proportion p. Un estimateur de est une statistique T (donc une fonction de (X1 , . . . , Xn )) dont la
ralisation est envisage comme une bonne valeur du paramtre . On parle destimation de associe
cet estimateur la valeur observe lors de lexprience, cest--dire la valeur prise par la fonction au point
observ (x1 , . . . , xn ).
Exemple : pour estimer lesprance E(X) de la loi de X, un estimateur naturel est la moyenne empirique
X qui produit une estimation x, moyenne descriptive de la srie des valeurs observes.
22
3.2.2
Qualit dun estimateur
Dfinition 11 On appelle biais de T pour la valeur

b (T ) = E(T ) .
Un estimateur T est dit sans biais si E(T ) = .
Dfinition 12 Un estimateur T est dit convergent si E(T ) tend vers lorsque n tend vers linfini. Il
sera dit consistant si T converge en probabilit vers lorsque n tend vers linfini.
Thorme 3.2.1 Si T est convergent et de variance tendant vers 0 lorsque n tend vers linfini alors T
est consistant.
Preuve On a, pour tous rels et > 0,
|T | > |T E(T )| > | E(T )|.
Si lim E(T ) = , alors partir dun certain rang N , on a | E(T )| <
P (|T |) > )
2.
Ainsi
P (|T E(T )| > | E(T )|)

P (|T E(T )| > /2)
4
Var(T ) (par Bienaym-Chebishev)
2
borne suprieure qui tend vers 0 lorsque n tend vers linfini.

De faon gnrale, on peut crire
T = (T E(T )) + (E(T ) )
ainsi
la grandeur T E(T ) reprsente les fluctuations de T autour de sa moyenne
et E(T ) reprsente lerreur systmatique (biais).
Dfinition 13 La qualit dun estimateur se mesure galement par lerreur quadratique moyenne
(ou risque quadratique) dfinie par E((T )2 ).
Thorme 3.2.2 Soit T un estimateur du paramtre tudier. On a :
E((T )2 ) = Var(T ) + [E(T ) ]2 .
Preuve
E([T ]2 )
= E([T E(T ) + E(T ) ]2 )

= E([T E(T )]2 ) + E([E(T ) ]2 ) + 2E([T E(T )][E(T ) ])
= V ar(T ) + (E(T ) )2
car E(T E(T )) = 0.
Remarque : Entre deux estimateurs sans biais, le meilleur sera celui dont la variance est minimale (on
parle defficacit).
Remarque : Le critre derreur quadratique moyenne nest pas parfait mais il est prfr dautres critres
qui semblent plus naturels comme lerreur absolue moyenne E(|T |) car il sexprime en fonction de
notions simples comme le biais et la variance et est relativement facile manipuler analytiquement.
23
3.2.3
Quelques estimateurs classiques
1. X est un estimateur sans biais de la moyenne . Son estimation x est la moyenne observe dans
une ralisation de lchantillon.
2. S2 est un estimateur consistant de 2 (mais biais).
n 2
n
e2 o e
3. S 2 = n1
S est un estimateur sans biais et consistant de 2 . Son estimation est s2 = n1
est lcart-type observ dans une ralisation de lchantillon.
4. Si p est la frquence dun caractre, F constitue un estimateur sans biais et consistant de p. Son
estimation est note f .
Pn
Remarque : Si la moyenne de X est connue, T = n1 i=1 (Xi )2 est un meilleur estimateur de 2
que S 2 . (Preuve en TD)
3.2.4
Estimation par la mthode du maximum de vraisemblance
Soit X une variable alatoire relle de loi paramtrique (discrte ou continue), dont on veut estimer le
paramtre . Alors on dfinit une fonction f telle que :

f (x)
si X est une v.a. continue de densit f
f (x; ) =
P (X = x) si X est une v.a. discrte de probabilit ponctuelle P
Dfinition 14 On appelle fonction de vraisemblance de pour une ralisation (x1 , . . . , xn ) dun
chantillon, la fonction de :
L(x1 , . . . , xn ; ) = f (x1 , . . . , xn ; ) =
n
Y
f (xi ; ).
i=1
Dfinition 15 La mthode consistant estimer par la valeur qui maximise L (vraisemblance) sappelle
mthode du maximum de vraisemblance.
= sup L()}.
= { / L()
Ceci est un problme doptimisation. On utilise gnralement le fait que si L est drivable et si L admet
un maximum global en une valeur, alors la drive premire sannule en et que la drive seconde est
ngative.
Rciproquement, si la drive premire sannule en = et que la drive seconde est ngative en = ,
alors est un maximum local (et non global) de L(x1 , ..., xi , ..., xn ; ). Il est alors ncessaire de vrifier
quil sagit bien dun maximum global. La vraisemblance tant positive et le logarithme nprien une
fonction croissante, il est quivalent et souvent plus simple de maximiser le logarithme nprien de la
vraisemblance (le produit se transforme en somme, ce qui est plus simple driver).
Ainsi en pratique :
1. La condition ncessaire
L(x1 , , xn ; )
=0
ou
ln L(x1 , , xn ; )
=0
permet de trouver la valeur .

2. = est un maximum local si la condition suffisante est remplie au point critique :
2 L(x1 , , xn ; )
() 0
2
ou
2 ln L(x1 , , xn ; )
() 0.
2
24
Exemple 1 : Avec une loi discrte

On souhaite estimer le paramtre dune loi de Poisson partir dun n-chantillon. On a f (x; ) =
x
P (X = x) = e x! . La fonction de vraisemblance scrit
L(x1 , . . . , xn ; ) =
n
Y
n
Y
xi
xi
= en
.
xi !
x!
i=1 i
i=1
Il est plus simple dutiliser le logarithme, la vraisemblance tant positive :

ln L(x1 , . . . , xn ; ) = ln en + ln
n
Y
xi
i=1
xi !
= n +
n
X
ln
i=1
n
n
X
X
xi
= n + ln
xi
ln (xi !).
xi !
i=1
i=1
La drive premire
ln L(x1 , , xn ; )
= n +
=
sannule pour
Pn
i=1
xi
Pn
i=1
xi
. La drive seconde
2 ln L(x1 , , xn ; )
=
2
Pn
i=1
2
xi
Pn
i
est toujours ngative ou nulle. Ainsi lestimation donne par = i=1
= X conduit un estimateur
n
= x. Il est normal de retrouver la moyenne empirique qui est le
du maximum de vraisemblance gal
meilleur estimateur possible pour le paramtre (qui reprsente aussi lesprance dune loi de Poisson).
Exemple 2 : Avec une loi continue

On souhaite estimer les paramtres et dune loi normale partir dun n-chantillon.
La loi normale N (, ) a pour fonction densit
f (x; , ) = f(,) (x) =

1
(x )2
exp
.
2 2
2
Ecrivons la fonction de vraisemblance pour une ralisation dun chantillon de n variables indpendantes :
f (x1 , . . . , xn ; , ) =
n
Y

f (xi ; , ) =
i=1
1
2 2
n/2
Pn

2
i=1 (xi )
exp
.
2 2
Pn
Pn
Pn
Or (thorme de Knig) i=1 (xi )2 = i=1 (xi x + x )2 = i=1 (xi x)2 + n(x )2 , o x
reprsente la moyenne de lchantillon. Ainsi la fonction de vraisemblance peut tre crite sous la forme

f (x1 , . . . , xn ; , ) =
ln L =

ln
1
2 2
1
2 2
n/2
n/2
Pn

2
2
i=1 (xi x) + n(x )
exp
.
2 2
Pn
i=1 (xi
x)2 + n(x )2
2 2
!
=0
On obtient donc lestimateur par le maximum de vraisemblance de lesprance :
=x=
n
X
i=1
xi /n.
2n(x )
2 2
25
Pour le second paramtre, on calcule

Pn
Pn

2
2
2
2
n
1
i=1 (xi x) + n(x )
i=1 (xi x) + n(x )
ln L =
ln
+
2
2
3
2
2
2
Donc
2 =
n
X
(xi
)2 /n
i=1
que lon peut traduire par
2 =
1X
(xi x)2 .
n i=1
On vrifie que cest bien des maxima locaux :

2 ln L
= n/ 2 0
2
2 ln L
3 X
= n/ 2 4 ( (xi x)2 + n(x )2 ).
2
Au point
,
3
2 ln L
(
) = n/
2 4 (n
2 + n(x )2 ) 0.
2
La mthode fournit un estimateur non biais de la moyenne (E(

) = ) mais par contre, lestimateur de
n
2 ). Nanmoins lestimateur est asymptotiquement sans biais.
la variance est biais (E(
2 ) = n1
26
Chapitre
Intervalles de confiance
Au lieu de se donner une fonction (estimateur) qui donne une estimation ponctuelle dun paramtre,
on cherche un intervalle dans lequel se trouve le paramtre tudi avec une probabilit contrle (et
gnralement grande).
4.1
Estimation dune proportion par intervalle de confiance
On considre une population telle que pour le caractre observ la proportion p dune certaine catgorie
est inconnue. On souhaite estimer cette proportion p de cette population partir dun chantillon de taille
n dont la frquence de la catgorie tudie est f . Soit F la variable alatoire qui chaque chantillon de
taille n associe la frquence du nombre dlments
p qui appartiennent la catgorie choisie. On sait que F
suit approximativement la loi N (p; ) avec = pq/n, pour n suffisamment grand (n > 30). On dispose
de
r
f (1 f )
0
=
n
lcart type associ la frquence f de lchantillon de taille n. On se sert de lestimation ponctuelle de
puisque p est inconnue :
r
r
r
r
n
f (1 f )
n
f (1 f )
0
=
=
=
.
n1
n
n1
n1
Donc la variable alatoire Z dfinie par :
F p
suit approximativement une loi normale centre rduite N (0; 1). On cherche un intervalle de confiance
de la proportion p, cest--dire un intervalle tel que la probabilit que la proportion p nappartienne pas
cet intervalle soit gale o [0; 1]. On appelle cet intervalle de confiance avec le risque ou avec
le coefficient de confiance c = 1 . Le risque que lon prend dire que p appartient cet intervalle est
donc de ou encore la probabilit que p nappartienne pas cet intervalle est le risque .
Z=
Dterminons cet intervalle de confiance : On rappelle que lon a dfini z/2 comme tant la valeur telle
que
P (Z > z/2 ) = /2
o Z suit N (0; 1). A laide des proprits de la loi normale centre rduite, on a P (Z < z/2 ) = /2 et
P (z/2 < Z < z/2 ) = 1 2 2 = 1 .
28
CHAPITRE 4. INTERVALLES DE CONFIANCE
P (z/2 < Z < z/2 ) = 1

F p
< z/2 = 1
P (z/2 < F p < z/2 ) = 1

P
z/2 <
P (F z/2 < p < F + z/2 ) = 1

!
r
r
f (1 f )
f (1 f )
P F z/2
< p < F + z/2
=1
n1
n1
Lintervalle de confiance de la proportion p avec un coefficient de confiance de 1 est :
"
#
r
r
f (1 f )
f (1 f )
.
; f + z/2
f z/2
n1
n1
Remarque : lorsque n est grand, la diffrence entre n et n 1 devient ngligeable, aussi la formule devient
#
"
r
r
f (1 f )
f (1 f )
f z/2
; f + z/2
.
n
n
Cest la formule la plus couramment utilise.
On peut encore simplifier : Avec un risque = 5%, et f 0.5, la formule peut tre approche par

1
1
f ;f + .
n
n
4.2
Moyenne
On considre une variable alatoire X suivant N (, ) et X1 , ..., Xn , n variables indpendantes et de mme

loi que X. On rappelle que les dfinitions de la moyenne empirique et la variance empirique corrige (ou
modifie) sont respectivement donnes par :
n
X=
1X
Xi
n i=1
et S 2 =
1 X
(Xi X)2 .
n 1 i=1
Soit z/2 le nombre rel positif tel que P (z/2 < Z < z/2 ) = 1 . Daprs la proposition 3.1.1, on
sait que la variable alatoire X suit la loi normale N (; / n) do

1
=
=
=
P (z/2 < Z < z/2 )

X
< z/2 )
/ n

P X z/2 / n < < X + z/2 / n
P (z/2 <
Lintervalle de confiance pour la moyenne dune population de variance 2 connue est donn par
x z/2 < < x + z/2

n
n

soit I = x z/2 ; x + z/2 .

n
n
Cet intervalle reste valable lorsque la variance est inconnue et lchantillon trs grand.
29
Proposition 4.2.1 La variable
(n1)S 2
2
suit une loi du 2 = n 1 degrs de libert.
Preuve (partielle) Dans la preuve de la proposition 3.1.3, on obtient

n
n
X
X
(Xi )2 =
(Xi X)2 + n(X )2 .
i=1
i=1
En divisant par 2 , on obtient

2
n
X
Xi
i=1
Pn
i=1 (Xi
2
X)2

+
/ n
2
.
Le premier terme est une somme de carrs de variables indpendantes suivant N (0, 1), le deuxime vaut
(n1)S 2
et le dernier est un carr dune variable suivant N (0, 1) daprs la proposition 3.1.1 sur la moyenne
2
empirique. En supposant lindpendance (admise) des variables X et S 2 , on peut crire cette galit en
2
terme de fonctions caractristiques, o est la fonction caractristique de (n1)S
et o la fonction
2
caractristique de la loi du 2 est utilise (Proposition 1.2.1) :

1
1 2it
n/2

= (t)
ou encore

(t)
Ainsi, daprs la proposition 1.2.1,
(n1)S 2
2
1
1 2it
1
1 2it
1/2
,
(n1)/2
.
Lorsquon ne dispose que de n observations dune population de distribution normale dcart-type inconnu,
cet intervalle est modifi. En effet, on se base sur la moyenne de lchantillon et lcart-type estim de
X
,
la population pour donner un intervalle de confiance sur la moyenne de la population. On a S/
n
St(n 1) (loi de Student n 1 degrs de libert) car cette variable peut scrire sous la forme dun
2
produit, en posant Q = (n1)S
,
2
r
X
X
Q
=
/
,
n1
S/ n
/ n
variable suivant une loi de Student daprs la dfinition 2 du Chapitre 1.
Ainsi cet intervalle est donn par :
s
s
x t/2 < < x + t/2
n
n
o t/2 = t/2;(n1) cest--dire que ce nombre sera lu dans la distribution de Student au risque /2 avec
= n 1 degrs de libert.
4.3
Variance
On considre la variance empirique modifie S 2 . Daprs la proposition 4.2.1, on sait que

(n 1)S 2
, 2 (n 1).
2
(Loi du 2 = n 1 ddl)
30
CHAPITRE 4. INTERVALLES DE CONFIANCE
De plus, P (21/2 < 2 < 2/2 ) = 1 , Do

21/2 < (n 1)
S2
< 2/2
2
= P
= P
(n 1)s2
(n 1)s2
2
<
<
2/2
21/2

1
o 2/2 = 2/2;(n1) sera lu dans la table de 2 avec = n 1 degrs de libert. On cherchera donc les

valeurs telles que P K 2 > 2/2;(n1) = /2, et P K 2 < 21/2;(n1) = /2.
Chapitre
Notion de test dhypothse

La description de la ralit en statistiques se fait laide de variables qui sont des colonnes de valeurs
numriques. On se pose souvent la question de comparer ces variables, de tester si elles sont gales ou
diffrentes, de savoir si on peut considrer quelles correspondent ou non une mme population [sousjacente], si elles correspondent une distribution donne, si elles sont conformes un modle prcis etc.
sachant que ces variables et leurs donnes ne correspondent qu un chantillon de valeurs.
Etant donn quon ne peut jamais tre sr que le rsultat des calculs correspond la ralit, les
statisticiens et statisticiennes ont dvelopp un cadre danalyse qui permet de prendre de telles dcisions
tout en disposant dune estimation du risque de ces dcisions.
Les tests dhypothses ont pour buts de
clarifier et dfinir le cadre rigoureux de ces tudes,
fournir un formalisme prcis pour toutes les situations,
savoir si les diffrences mises en jeu sont importantes (significatives pour un seuil donn) ou non.
5.1
Hypothse nulle, risques de premire et deuxime espce
Le cadre mathmatique est celui des vnements probabiliss o lhypothse, la comparaison de dpart
est convertie en un vnement intgr un modle probabiliste rfutable. On distingue en gnral deux
hypothses seulement : la premire, galement nomme hypothse nulle, note H0 est celle o justement
la diffrence est considre comme nulle (on dira en fait non significative, par rapport un seuil dfini
plus loin comme risque de premire espce) ; la seconde, complmentaire de la premire, regroupant tous
les autres cas, est nomme hypothse alternative et parfois note H1 .
Une hypothse doit spcifier une valeur, disons 0 pour un paramtre de la population. On testera donc
H0 : = 0 .
Une possibilit classique pour lhypothse alternative est
H1 : 6= 0 ,
qui teste chaque ct de lgalit (on parlera de test bilatral).
Mais on peut crire galement un autre choix dhypothse :
H0 : 0 ,
parfois not encore H0 : = 0
32
CHAPITRE 5. NOTION DE TEST DHYPOTHSE
et lhypothse alternative correspondante sera

H1 : < 0 ,
qui teste un seul ct de lgalit (on parlera de test unilatral).
Le dernier cas est facile trouver : H0 : 0 et H1 : > 0 (unilatral galement).
On peut soit rejeter lhypothse nulle, soit ne pas la rejeter alors quen fait, soit cette hypothse est
vraie soit elle ne lest pas ce qui oblige utiliser un tableau 4 cases qui rsume lensemble des couples
(dcisions/ralit) :
Dcision / Ralit
ne pas rejeter H0
rejeter H0
H0 est vraie
Vrai Positif
Faux Ngatif
H0 est fausse
Faux Positif
Vrai Ngatif
Ex (Test de grossesse) : Dans le cadre dun test de grossesse par autodiagnostic, un rsultat est qualifi
de faux ngatif lorsquil indique que la personne ntes pas enceinte, bien que la fcondation ait eu
lieu. A linverse un test positif erron -beaucoup plus rare- indique un dbut de grossesse, alors quil nen
est rien.
Les cas VN (Rejeter H0 quand elle est Fausse) et VP (Ne pas rejeter H0 quand elle est Vraie) sont des
bonnes dcisions. Par contre, FN (Rejeter H0 quand elle est Vraie) est nomme erreur de premire
espce et FP (Ne pas rejeter H0 quand elle est Fausse) est nomme erreur de deuxime espce. A
chacune de ces erreurs, on associe un risque li la probabilit de la dcision : on le nomme pour FP,
pour FN. Il ny a aucune raison de supposer ces risques quivalents et souvent on prend = 5% (ou
1% quand on veut tre plus strict) alors quil est "habituel" de prendre 0.20 pour . La probabilit de
rejeter H0 alors quelle est vraie vaut et est appel niveau du test (ou seuil). La probabilit de rejeter
une fausse hypothse nulle est (1 ) qui est appele la puissance du test.
Il faut bien comprendre que les tests dhypothse ne permettent pas daccepter H0 mais seulement de
rejeter H0 . Ne pas rejeter H0 ne signifie pas que H0 est vraie mais seulement que la probabilit quelle
soit fausse est trs petite. On nest donc en fait jamais vraiment totalement sr de rien.
Ce qui nous donne en tableau :
non rejet de H0
rejet de H0
H0 est vraie
cohrent
Erreur type I (rejet tort) : risque
H0 est fausse
Erreur type II (non rejet tort) : risque
cohrent
Dans le cadre de tests statistiques, on doit dcider si on peut considrer par exemple que 0.21 et 0.22 sont
proches, si 15% et 20% peuvent tre considrs comme peu loigns etc., la loi statistique de la diffrence
entre ces lois tant suppose connue, tabule et consultable.
5.2
Mcanique des tests dhypothse
Pour raliser un test dhypothse, il y a un enchanement strict dactions effectuer. Cela commence par
la formulation de lhypothse dans le domaine considr (mdical, conomique, social...) et sa traduction
en vnements probabilistes lis H0 . On doit ensuite considrer la statistique dcart (la loi thorique
de la diffrence) et choisir un seuil (alpha) de dcision. On doit ensuite calculer la valeur de la statistique
dcart pour les valeurs observes puis comparer la valeur thorique de la statistique dcart pour le
seuil choisi et en dduire si on refuse H0 ou non. Enfin, le calcul (ou la lecture) de la p-value associ
au dpassement de la valeur de la statistique dcart permet de conclure de faon fine sur le fait que la
diffrence est significative ou non.
Le fait de Ne pas rejeter H0 au risque sera parfois confondu par la suite avec On accepte H0 par
abus de langage, le risque ntant pas considr pour ce cours.
Chapitre
Test dindpendance
6.1
Test dindpendance de deux variables qualitatives
Dans la plupart des tests que nous venons de prsenter, on suppose toujours les valeurs de lchantillon
indpendantes. Cest une condition ncessaire. Il est donc souvent utile de vrifier cette hypothse par
un test. Ce test met en place une variable alatoire qui suit une loi du 2 , aussi ce test est appel Test
dindpendance du 2 .
Ce test permet de contrler lindpendance de deux caractres dans une population donne.
On dispose de deux variables alatoires X et Y , les valeurs possibles de X sont rparties en l modalits
(ou classes) X1 , . . . , Xl , celles de Y en k modalits Y1 , . . . , Yk . Pour chaque intersection de modalits Xi
et Yj , un effectif ni,j est observ. Ainsi
k
l X
X
n=
ni,j .
i=1 j=1
Hypothse teste H0 : Les variables X et Y sont indpendantes .

Droulement du test : On cre le tableau des effectifs qui est un tableau double-entre. A lintersection
de la P
i-me ligne et de la j-ime colonne, on crit leffectif ni,jP. On calcule les effectifs marginaux :
Si = j ni,j est la somme des termes sur la i-me ligne, Tj = i ni,j est la somme des termes sur la
j-ime colonne.
Yj
..
.
Xi
ni,j
..
.
Tj
On calcule les effectifs thoriques :
Ci,j =
Remarque : Sous lhypothse H0 , on a Ci,j = ni,j .
Si
n
Si Tj
.
n
On calcule la valeur de la variable de test :

2c =
X (ni,j Ci,j )2
.
Ci,j
i,j
34
CHAPITRE 6. TEST DINDPENDANCE
On cherche la valeur critique 2 dans la table de la loi du 2 = (l 1) (k 1) degrs de libert.

Dcision : si 2c < 2 , on accepte lhypothse H0 , sinon on la rejette.
Vrification a posteriori des conditions dapplication : il faut Ci,j 5 pour tous i, j.
Exemple : Pour comparer lefficacit de deux mdicaments agissant sur la mme maladie, mais aux prix
trs diffrents, la Scurit Sociale a effectu une enqute sur les gurisons obtenues en suivant chacun des
traitements. Les rsultats sont consigns dans le tableau suivant :
Gurisons
Non Gurisons
Mdicament
48
6
Gnrique
158
44
Les effectifs marginaux sont les suivants :

Mdicament
48
6
54
Gurisons
Aucun Effet
Gnrique
158
44
202
206
50
256
Les effectifs thoriques sont :

Gurisons
Non Gurisons
Mdicament
20654
256
5054
256
54
On calcule 2c =
(4843,45)2
43,45
(158162,55)2
162,55
(610,55)2
10,55
Gnrique
206202
256
50202
256
202
+
(4439,45)2
39,45
206
50
256
3, 1.
La variable de test 2c vaut approximativement 3,1, alors que la valeur critique, pour un niveau de risque
de 5%, est 3,84 (on explore la table du 2 un degr de libert). On peut donc raisonnablement estimer ici
que le taux de gurison ne dpend pas du prix du mdicament et se poser des questions sur lopportunit
de continuer vendre le mdicament cher.
6.2
Test dindpendance de deux variables quantitatives : test de

corrlation nulle
Soit r le coefficient de corrlation de lchantillon compos de n paires dobservations extrait de populations gaussiennes. Il sagit de tester lhypothse nulle :
H0 : = 0 (corrlation nulle entre les populations)
au risque . On peut montrer sous H0 que la variable alatoire T =
On calculera donc
R
n2
1R2
suit une loi de Student
r n2
t=
,
1 r2
puis on cherchera la valeur t ou t/2 dans la table de loi t de Student = n 2 degrs de libert tel
que
P (Tn2 > t/2 ) = /2
et on adoptera la rgle de dcision suivante :
35
Si lhypothse alternative est H1 : 6= 0 (cas bilatral) : rejet de H0 au risque si t 6] t/2 ; t/2 [

avec = n 2 degrs de libert.
Si lhypothse alternative est H1 : > 0 (cas unilatral) : rejet de H0 au risque si t > t avec
Si lhypothse alternative est H1 : < 0 (cas unilatral) : rejet de H0 au risque si t < t avec
36
CHAPITRE 6. TEST DINDPENDANCE
Chapitre
Tests de conformit en loi

7.1
7.1.1
Cas gnral
Test dadquation du 2
Soit X une variable alatoire de loi L (le plus souvent inconnue). On souhaite tester lajustement de cette
loi une loi connue L0 (Poisson, Exponentielle, normale, etc) retenue comme tant un modle convenable.
On teste donc lhypothse H0 : L = L0 contre lhypothse H1 : L =
6 L0 .
Les n P
observations de X sont partages en k classes. On dsigne par Oi leffectif observ de la classe i.
Ainsi i Oi = n.
Pour chaque classe, leffectif thorique est dfini :
Ci = n p(X Classei /X , L0 ).
Classe
Effectif observ
Effectif thorique
1
O1
C1
2
O2
C2
i
Oi
Ci
k
Ok
Ck
2
Pk
i)
On calcule la valeur 2c = i=1 (Oi C
. On compare cette valeur la valeur thorique 2 lue dans la
Ci
table du 2 = k 1 r degrs de libert o r est le nombre de paramtres de la loi L0 quil a fallu
estimer. (Exemples : r = 0 si la loi est connue ou impose, r = 1 pour une loi de Poisson, r = 2 pour une
loi normale sans autre prcision)
On rejette H0 lorsque 2c > 2 .

Exemple : Un pisciculteur possde un bassin qui contient trois varits de truites : communes, saumones
et arc-en-ciel. Il voudrait savoir sil peut considrer que son bassin contient autant de truites de chaque
varit. Pour cela, il effectue, au hasard 399 prlvements avec remise et obtient les rsultats suivants :
Varits
Effectifs
commune
145
saumone
118
arc-en-ciel
136
On cherche savoir sil y a quirpartition des truites entre chaque espce cest--dire on suppose de L0
est la loi uniforme, une probabilit de 1/3 pour chaque classe (soit Ci = 399 13 = 133).
38
CHAPITRE 7. TESTS DE CONFORMIT EN LOI
Varits
Effectifs Oi
Effectifs Ci
commune
145
133
saumone
118
133
arc-en-ciel
136
133
On obtient
(118 133)2
(136 133)2
(145 133)2
+
+
2.84
133
133
133
La valeur thorique lue dans la table du 2 au risque de 5% avec = 3 1 0 = 2 degrs de libert vaut
5.99.
2c =
On ne peut rejeter lhypothse que son bassin contient autant de truites de chaque varit car 2c < 2 .
7.1.2
Test de Kolmogorov-Smirnov
Comme prcdemment, lobjectif est dtablir la plausibilit de lhypothse selon laquelle lchantillon
a t prlev dans une population ayant une distribution donne. Le test de Kolmogorov est "nonparamtrique" : il ne place aucune contrainte sur la distribution de rfrence, et ne demande pas quelle
soit connue sous forme analytique (bien que ce soit pourtant le cas le plus courant).
Etant donns :
1. Un chantillon de taille n dobservations dune variable,
2. Et une fonction de rpartition de rfrence F (x),
le test de Kolmogorov teste lhypothse H0 selon laquelle lchantillon a t prlev dans une population
de fonction de rpartition F (x).
Pour cela, il calcule sur lchantillon une quantit D, appele "statistique de Kolmogorov", dont la
distribution est connue lorsque H0 est vraie. La statistique de Kolmogorov-Smirnov Dn est dfinie par
Dn = sup |Fn (x) F (x)|,
xR
o Fn (x) est la proportion des observations dont la valeur est infrieure ou gale x (fonction de rpartition empirique).
Figure 7.1 Test de Kolmogorov-Smirnov

Une valeur leve de D est une indication que la distribution de lchantillon sloigne sensiblement de la
distribution de rfrence F (x), et quil est donc peu probable que H0 soit correcte. Plus prcisment,

P
c
sup |Fn (x) F (x)| >
n
x

n (c) = 2
+
X
(1)r1 exp(2r2 c2 )
r=1
39
pour toute constante c > 0. Le terme (c) vaut 0.05 pour c = 1.36. Pour n > 100, la valeur critique du
test est approximativement de la forme cn . Les valeurs usuelles de c en fonction de sont :
c
Si Dn >
c ,
n
0.20
0.10
1.073 1.223
0.05
1.358
0.02
0.01
1.518 1.629
on rejette H0 .
Exemple : http://www.jybaudot.fr/Inferentielle/kolmogorov.html
Une nouvelle clientle trangre est attendue dans une station balnaire. Afin de mieux connatre leurs
gots, des brasseurs ont command une tude de march. En dbut de saison, on demande vingt de ces
nouveaux touristes de donner leur prfrence parmi cinq types de bires, de la moins amre (bire 1) la
plus amre (bire 5). A laide dun test de K-S, le charg dtudes dcide de comparer les rsultats avec
une loi uniforme, cest--dire une situation o chaque bire aurait eu la prfrence de quatre rpondants.
Les rsultats de lenqute sont les suivants :
13251224122133245112
On se fixe un risque derreur de 5%. Lhypothse H0 tester est celle de lgalit avec une loi uniforme.
Rsumons les carts entre observations et rpartition uniforme :
Classe
1
2
3
4
5
Effectif
6
7
3
2
2
Uniforme
4
4
4
4
4
Cumul rel
0,30
0,65
0,80
0,90
1,00
Cumul thorique
0,20
0,40
0,60
0,80
1,00
D
0,10
0,25
0,20
0,10
0,00
La distance la plus leve stablit d = 0, 25.
On calcule pour n = 20 et = 5% la valeur de c/ 20 = 0, 303. Bien que ces touristes semblent prfrer
les bires les moins amres, on ne peut pas rejeter lhypothse selon laquelle ils nont pas de prfrence
particulire.
7.2
Test de normalit
Les tests prcdents sont des tests gnraux sappliquant sur nimporte quelle loi. Lorsque la loi tester
est la loi normale, on parle de test de normalit.
On cherche se dterminer entre :
H0 : les donnes suivent une loi normale.
H1 : les donnes ne suivent pas une loi normale.
7.2.1
Mthodes graphiques : Droite de Henry
La droite de Henry est une mthode pour visualiser les chances qua une distribution dtre gaussienne.
Elle permet de lire rapidement la moyenne et lcart type dune telle distribution.
Principe : On reprsente les quantiles thoriques en fonction des quantiles observs (Diagramme Q-Q).
Si X est une variable gaussienne de moyenne x et de variance 2 et si Z est une variable de loi normale
centre rduite, on a les galits suivantes :

X x
xi x
P (X < xi ) = P
<
= P (Z < yi ) = (yi )
40
o yi =
xi x
.
(on note la fonction de rpartition de la loi normale centre rduite).
Pour chaque valeur xi de la variable X, on peut calculer P (X < xi ) puis en dduire, laide dune table
de la fonction , yi tel que (yi ) = P (X < xi ).
Si la variable est gaussienne, les points de coordonnes (xi ; yi ) sont aligns sur la droite dquation
y = xx
.
Exemple numrique : Lors dun examen not sur 20, on obtient les rsultats suivants :
10% des candidats ont obtenu moins de 4
On cherche dterminer si la distribution des notes est gaussienne, et, si oui, ce que valent son esprance
et son cart type.
On connat donc 4 valeurs xi , et, pour ces 4 valeurs, on connat P (X < xi ).
En utilisant la table Table de la fonction de rpartition de la loi normale centre rduite, on dtermine
les yi correspondants :
xi P (X < xi ) = (yi )
yi
4
0, 10
1, 282
8
0, 30
0, 524
12
0, 60
0, 253
16
0, 80
0, 842
Figure 7.2 Droite de Henry

Les points paraissent aligns. La droite coupe laxe des abscisses au point dabscisse 11 et le coefficient
directeur est 0.18 environ, ce qui donnerait un cart type de 1/0.18 = 5, 6.
Cela laisse penser que la distribution est gaussienne de paramtres = 11 et = 5.6.
Remarque : On peut faire de mme en comparant sur un graphique les probabilits cumules thoriques
et les probabilits cumules empiriques (comparaison des fonctions de rpartition : Diagramme P-P). On
est alors dans une sorte de validation type Kolmogorov-Smirnov mais graphique.
41
7.2.2
Test Jarque-Bera (ou test de Bowman-Shelton)
Le test de Jarque-Bera est un test de normalit. On pose

3
X
S =E
Coefficient dasymtrie : Moment dordre 3 dune variable centre-rduite

4
X
K =E
Kurtosis : Moment dordre 4 dune variable centre-rduite
On rappelle quune loi normale a un coefficient dasymtrie = 0 et une kurtosis = 3. On peut traduire
les hypothses sous la forme :
H0 : S = 0 et K = 3
H1 : S 6= 0 ou K 6= 3.
On remarque ainsi que sil y a rejet, le test ne permet pas den connatre la raison principale (asymtrie
ou applatissement).
On calcule
JB =
n
6
S2 +
(K 3)2
4

,
o n est le nombre dobservations. Il faut que n soit suffisamment grand (n > 50).
La statistique JB suit asymptotiquement une loi du 2 2 degrs de libert. Si les donnes suivent une
loi normale, le test sapproche alors de 0 et on accepte (ne rejette pas) H0 au seuil .
42
Chapitre
Test sur les pourcentages

8.1
Relation test et intervalles de confiance
Un test correspond construire un intervalle de confiance autour dune valeur partir dun chantillon
et de regarder si sa valeur suppose sous H0 est finalement dans cet intervalle, construit partir dun
certain risque. La valeur intressante pour un test est le risque pris pour rejeter H0 . Cela permet de
sassurer de la pertinence (vraisemblabilit) de H0 ou de H1 . Les lois qui interviennent dans les calculs
sont les mmes mais au lieu de construire un intervalle de confiance pour chaque risque pris, on compare
une partie fixe (calcule partir des observations) avec une partie ne dpendant que du risque pris.
8.2
Test de conformit
Soit pr la proportion (valeur connue) possdant le caractre considr dans une population de rfrence.
Il sagit de tester si la proportion p dune autre population, dont on a extrait un chantillon de taille n
et observ une frquence f pour ce caractre, correspond celle dune population de rfrence, soit
H0
: p = pr
H1
: p 6= pr
On considre F la variable alatoirequi suit les frquences

observes dans les chantillons. Sous H0 , la

q
pr (1pr )
.
loi de F peut tre approche par N pr ,
n
On se fixe le risque que p 6= pr , ce qui revient rechercher un intervalle I centr sur pr tel que
P (p 6 I) = 1 cest--dire
p
r
P z/2 < q
< z/2 = 1 .
pr (1pr )
n
On teste donc si la valeur calcule
f pr
z=q
pr (1pr )
n
appartient lintervalle ] z/2 ; z/2 [.
44
CHAPITRE 8. TEST SUR LES POURCENTAGES
Figure 8.1 test bilatral pour = 5%

Dcision : on accepte H0 si z ] z/2 ; z/2 [ au risque et on rejette H0 sinon.
Lorsque une partie de lhypothse H1 est a priori carter (non sens, impossibilit), alors le risque ne
rpartit plus de chaque ct de lingalit mais est rparti sur une seule partie (on parle alors de test
unilatral). On teste donc uniquement H0 : p = pr contre H1 : p > pr , ou H0 : p = pr contre H1 : p < pr .
on rejettera H0 lorsque p sera bien plus grand que pr ou respectivement p sera bien plus petit que pr .
Les hypothses considres sont donc dans un cas :
H0
: p = pr
H1
: p > pr
ce qui revient rechercher un intervalle I tel que
F pr
P q
pr (1pr )
n
On compare donc la valeur calcule
< z = 1 .
f pr
z=q
pr (1pr )
n
avec une valeur z lue dans la table de lcart-rduit (lire au risque 2).
Dcision : on accepte H0 si z ]0; z [ au risque et on rejette H0 sinon (z > z ).
Figure 8.2 test unilatral pour = 5%

Les hypothses considres sont donc dans un second cas :
H0
: p = pr
H1
: p < pr
ce qui revient rechercher un intervalle I tel que
p
r
= 1 .
P z < q
pr (1pr )
n
45
On compare donc la valeur calcule z =
q f pr
pr (1pr )
n
avec une valeur z lue dans la table de lcart-rduit
(lire au risque 2, et mettre un signe moins)
Dcision : on accepte H0 si z ] z ; 0[ au risque et on rejette H0 sinon (z < z ).
Figure 8.3 test unilatral pour = 5%

Exemples :
1. test bilatral (Un test bilatral rejette les valeurs trop cartes) On dsire tester le chiffre annonc
de 20% des personnes qui coutent une certaine mission radiophonique correspond la ralit. Une
sondage de 1000 auditeurs donne une proportion de 0.1875.
H0
: p = 0.2
H1
: p 6= 0.2
On choisit un test bilatral car on na aucune ide du pourcentage rel. (z 0.99)

2. test unilatral droite (Un test unilatral droite rejette les valeurs trop grandes de la statistique
de test) Un magicien prtend quil peut souvent deviner distance la couleur dune carte tire
au hasard dun jeu de cartes bien battu et comportant des cartes de deux couleurs diffrentes en
nombre gal. Sur un chantillon de taille 100, la magicien a obtenu 64 succs. Quel niveau de risque
prend-t-on pour dclarer que le magicien nest pas un imposteur ?
H0
: p = 0.5
H1
: p > 0.5
(z 2.8)
3. test unilatral gauche (Un test unilatral gauche rejette les valeurs trop petites) On sait que
la grippe touche 30% dune population lors dune pidmie. Pour tester lefficacit dun vaccin
antigrippal, on vaccine pralablement 300 personnes. A la fin de la saison grippale, on dnombre
cinquante personnes qui ont t atteintes par la grippe parmi les vaccins. Ce rsultat permet-il
dapprcier lefficacit du vaccin ?
H0
: p = 0.3
H1
: p < 0.3
(z 5.04)
8.3
Test dhomognit
Soit X une variable qualitative prenant deux modalits (succs X = 1, chec X = 0) observe sur deux
populations et deux chantillons indpendants extraits de ces deux populations. On observe une frquence
f1 dans la population 1 de taille n1 et f2 dans la population 2 de taille n2 .
46
On fait lhypothse que les deux chantillons proviennent de deux populations dans lesquelles les probabilits de succs sont identiques.
H0
: p1 = p2
H1
: p1 6= p2
La distribution
dchantillonnage de la frquence de succs dans
p la population 1, F1 converge en loi vers
p
N (p1 ; p1 q1 /n1 ) et de mme F2 converge en loi vers N (p2 ; p2 q2 /n2 ) (On rappelle que nF suit la loi
binomiale de paramtres (n, p)). Comme F1 et F2 sont deux variables alatoires indpendantes, on a
E(F1 F2 )
= E(F1 ) E(F2 ) = p1 p2
p1 q1
p2 q2
V (F1 F2 ) = V (F1 ) + V (F2 ) =
+
n1
n2
Dans les conditions dapproximation de
B par N
q (n1 p1 , n1 q1, n2 p2 , n2 q2 > 5 et n1 , n2 > 30), la variable
alatoire F1 F2 suit la loi normale N p1 p2 ; pn1 q11 + pn2 q22 et ainsi la variable normale centre rduite
Z=
(F1 F2 ) (p1 p2 )
q
p1 q1
p2 q 2
n1 + n2
devient sous H0 ,
Z=r
F1 F2
.

1
1
pq n1 + n2
La valeur p, probabilit du succs commune aux deux populations nest en ralit pas connue. On lestime
partir des rsultats observs sur les deux chantillons :
p =
n 1 f1 + n 2 f2
n1 + n2
o f1 et f2 reprsentent les frquences observes respectivement pour lchantillon 1 et pour lchantillon

2.
Une valeur observe z de la variable alatoire Z est calcule de la faon suivante :
z=r
f1 f2

pq n11 +
1
n2
avec q = 1 p.
Cette valeur sera compare avec la valeur seuil z lue sur la table de la loi normale centre rduite N (0; 1)
pour un risque derreur fix.
Dcision :
si z ]z/2 ; z/2 [, lhypothse H0 est accepte : les deux chantillons sont extraits de deux populations
ayant mme probabilit de succs p.
si z > z/2 ou z < z/2 (ou encore z 6] z/2 ; z/2 [) lhypothse H0 est rejete au risque derreur
: les deux chantillons sont extraits de deux populations ayant des probabilits de succs diffrentes
respectivement p1 et p2 .
Remarque : on peut aussi tester un seul ct de lingalit (H0 restant p1 = p2 ) : on calcule de la mme
faon
f1 f2
z=r

pq n11 + n12
puis on dcide et conclut selon le cas
47
Si lhypothse alternative est H1 : p1 > p2 (cas unilatral) : rejet de H0 au risque si z > z .

Si lhypothse alternative est H1 : p1 < p2 (cas unilatral) : rejet de H0 au risque si z < z .
Exemple : on veut tester limpact de lassiduit aux travaux dirigs dans la russite lexamen de statistique.
Nbre dheures en TD
Nbre dtudiants
Nbre dtudiants ayant russi lexamen
groupe 1
18 h
180
126
groupe 2
30 h
150
129
Quen concluez-vous ?
On choisit un test unilatral car on suppose que la russite est meilleure avec plus dheures de TD. Ainsi
on teste lhypothse : H0 : p1 = p2 contre H1 : p1 < p2 .
Calculs :
z=r
f1 f2

pq n11 +
1
n2
= 3, 45 avec p = 0, 773
Dcision : avec = 0, 05, la valeur thorique, lue dans la table de lcart centr rduit, vaut z = 1, 64
(il sagit dun test unilatral). Comme z < z , H0 est rejete au risque derreur 0,05.
On peut regarder le risque critique, cest--dire le risque minimal quil faut prendre pour rejeter H0 . La
valeur z = 3, 45 correspond une probabilit critique 0, 001 (p-value).
Comme < 0, 001, le risque derreur de type I, cest--dire de rejeter H0 alors quelle est vraie, est trs
faible. On peut donc rejeter lhypothse H0 avec un risque pratiquement nul de se tromper.
Comme espr, le taux de russite est significativement plus grand lorsque lassiduit aux TD est plus
lev.
48
Chapitre
Tests sur Moyennes et Variances

9.1
9.1.1
Test sur les moyennes

Test de conformit
On se donne un chantillon de n observations extrait dune population gaussienne de moyenne . On

souhaite tester cette moyenne vis--vis de la valeur 0 . Le test de conformit dune moyenne relatif
lhypothse nulle
H0 : = 0
sera ralis en utilisant la moyenne x et lcart-type estim s. On a
T =
X 0
suit une loi de Student = n 1 degrs de libert.
S/ n
On calcule donc la valeur

t=
x 0
.
s/ n
Dcision :
Si lhypothse alternative est H1 : 6= 0 (cas bilatral) : rejet de H0 au risque si t 6] t/2 ; t/2 [
Si lhypothse alternative est H1 : > 0 (cas unilatral) : rejet de H0 au risque si t > t avec
Si lhypothse alternative est H1 : < 0 (cas unilatral) : rejet de H0 au risque si t < t avec
Pour la dcision, il y a deux faons de procder :
Soit on dfinit un risque a priori : on utilise assez systmatiquement un risque = 5% dans beaucoup
de domaines (biologie, mdecine). On labaisse si ncessaire aprs (dans le cas o une erreur de type I
pourrait avoir des consquences juges graves)
Soit on se dcide sur le risque a posteriori : la plupart des logiciels de statistique donne le risque
minimal quil faut prendre pour rejeter H0 . On note par valeur p (en anglais : p-value), le plus petit
niveau de risque auquel on rejette lhypothse nulle. En dautres termes, la valeur p est la probabilit
de commettre une erreur de premire espce, cest--dire de rejeter tort lhypothse nulle et donc
dobtenir un faux ngatif. Par exemple dans le cas dun test bilatral,

x 0

p-value = 2P > tp/2 | H0 : = 0 .
s/ n
50
CHAPITRE 9. TESTS SUR MOYENNES ET VARIANCES
La rgle de dcision en sera simplifie : H0 sera rejete lorsque p-value < .

Si la variance de la population est connue, lcart-type estim est remplac par sa vraie valeur et la valeur
thorique est lue dans la table de lcart rduit au lieu de la table de Student (cela correspond un degr
de libert infini). Dans ce cas,
Z=
On comparera z =
X 0
suit la loi normale centre rduite.
/ n
une valeur lue dans la table de lcart rduit.
x
0
/ n
Dcision :
Si lhypothse alternative est H1 : 6= 0 (cas bilatral) : rejet de H0 au risque si z 6] z/2 ; z/2 [.
Si lhypothse alternative est H1 : > 0 (cas unilatral) : rejet de H0 au risque si
.
Si lhypothse alternative est H1 : < 0 (cas unilatral) : rejet de H0 au risque si
.
Dans le dernier cas, la valeur p sera

x 0
< tp | H0 : = 0
p-value = P
/ n
Exemple :
Une compagnie de vente de licences de nouveaux logiciels e-commerce fait la publicit que les entreprises
utilisant ce logiciel peuvent obtenir, en moyenne pendant la premire anne, un rendement de 10% sur
leurs investissements initiaux. Les rendements affichs pour un chantillon alatoire de 10 de ces franchises
pour la premire anne de fonctionnement sont les suivants :
6, 1
9, 2
11, 5
8, 6
12, 1
3, 9
8, 4
10, 1
9, 4
8, 9
En supposant que les rendements de la population sont normalement distribus, tester laffirmation de
la compagnie. (n = 10, x = 8.82, s = 2.4, t = 1.55, p-value = LOI.STUDENT(1.55 ; 9 ;2)=0.1546). On
accepte H0 au risque = 5% car p-value . On a considr quil sagit dun test bilatral (ce qui peut
tre contestable ici). Avec le test unilatral (H1 : r < 10%), on rejette 10% (p-valeur 8%).
9.1.2
Test dhomognit : populations indpendantes
On sintresse la diffrence entre les moyennes 1 et 2 au sein de deux populations au travers de deux
chantillons indpendants.
On suppose que les deux chantillons, respectivement de n1 et n2 observations, sont extraits de populations
gaussiennes qui ont une variance (inconnue) commune 2 cest--dire 12 = 22 = 2 . On testera cette
galit de variance si elle ne peut tre suppose.
On considre la variable qui suit les diffrences entre X1 et X2 . Elle suit une loi normale de moyenne
(1 2 ) et de variance
V (X1 X2 ) = V (X1 ) + V (X2 ) =
Ainsi
Z=
12
2
2
2
+ 2 =
+
.
n1
n2
n1
n2
(X1 X2 ) (1 2 )
q
suit la loi normale centre rduite.
2
2
n1 + n2
Lorsque la variance commune est inconnue, on lestime par

s2 =
(n1 1)s21 + (n2 1)s22

.
n1 + n2 2
51
Le test dhypothse utilisera alors une loi t de Student :

T =
(X1 X2 ) (1 2 )
q
suit une loi de Student = n1 + n2 2 degrs de libert.
S 1 + 1
n1
n2
Lhypothse nulle (lhypothse tester) et lalternative sont les suivantes :

H0 : 1 = 2
La statistique t est la suivante :
ou
1 2 = 0
(x1 x2 )
t= q
,
s n11 + n12
Dcision :
Si lhypothse alternative est H1 : 1 6= 2 (cas bilatral) : rejet de H0 au risque si t 6] t/2 ; t/2 [
o t/2 sera lu avec = n1 + n2 2 degrs de libert.
Si lhypothse alternative est H1 : 1 > 2 (cas unilatral) : rejet de H0 au risque si
.
Si lhypothse alternative est H1 : 1 < 2 (cas unilatral) : rejet de H0 au risque si
.
Dans le cas o les variances sont inconnues mais supposes diffrentes, le test reste le t de Student avec
un degr de libert gal
2
2
s1 /n1 + s22 /n2
= 2 2
.
2 2
s1
s2
/(n
1)
+
/(n
1)
1
2
n1
n2
On comparera
t=
(x1 x2 ) (1 2 )
q 2
s22
s1
n1 + n2
au risque avec une valeur t ou t/2 selon le cas (test unilatral ou bilatral) lue avec degrs de
libert.
9.1.3
Test dhomognit : populations apparies
On observe un chantillon de n paires dobservations que lon notera (x1 , y1 ), , (xn , yn ), extraites de
populations de moyennes X et Y . Soit
D =X Y
et SD les variables alatoires respectivement de la moyenne observe et de lcart-type estim des diffrences entre les paires des chantillons.
On suppose que la distribution des diffrences est gaussienne.
On se ramne tester une moyenne observe et une moyenne thorique : lhypothse nulle sera
H0 : X Y = D0
et la variable
D D0
suit une distribution t de Student = n 1 degrs de libert.
SD / n
On calculera
t=
Dcision :
d D0
.
sD / n
52
Si lhypothse alternative est H1 : X Y 6= D0 (cas bilatral) : rejet de H0 au risque si t 6

] t/2 ; t/2 [ avec = n 1 degrs de libert.
Si lhypothse alternative est H1 : X Y > D0 (cas unilatral) : rejet de H0 au risque si t > t
Si lhypothse alternative est H1 : X Y < D0 (cas unilatral) : rejet de H0 au risque si t < t
9.2
9.2.1
Test sur les variances

Test de conformit
Il sagit dune comparaison dune variance exprimentale et dune variance thorique, ou encore de ltude
de linfluence dun facteur A sur une population P et sur un chantillon.
Dans la population, on connat la variance 02 des valeurs.
Soit un chantillon E de taille n. On calcule dans cet chantillon, la moyenne x et la variance s2 exprimentales.
Hypothse nulle : H0 : 2 = 02 (la variance exprimentale de lchantillon est conforme celle de la
population)
Hypothse alternative
H1 : 2 6= 02 (test bilatral)
H1 : 2 > 02 (test unilatral)
H1 : 2 < 02 (test unilatral)
Sous lhypothse que la distribution des donnes dans la population est normale, la variable alatoire
Y2 =
n1 2
S
02

On calcule y 2 =
de libert.
n1 2
2 s
et on compare cette valeur une valeur lue dans la table du 2 = n 1 degrs
Dcision
Dans le cas dun test bilatral,
. Si n 30 (la table ne contient pas des degrs de libert suprieurs 30), on cherche a tel que
P (2 < a) = /2 (ou P (2 a) = 1 /2 et b tel que P (2 b) = /2. Ainsi
Figure 9.1 Loi 2 : Zones de rejet de lhypothse nulle

Si y 2 6]a; b[, on rejette H0 (la variance exprimentale nest pas conforme la variance thorique :
la variance exprimentale est diffrente de celle de la population).
Sinon H0 nest pas rejete. Rien ne permet de dire que la variance exprimentale nest pas conforme
la variance de la population.
53
. Si n > 30, la variable alatoire

22 2 1 suit peu prs une loi normale centre rduite.
pZ =
On rejettera H0 lorsque z = 2y 2 2n 3 6] z/2 , z/2 [.
Si H1 : 2 > 02 , on cherche b tel que P (2 b) = . Si y 2 > b, on rejette H0 : la variance exprimentale
est suprieure celle de la population.
Si H1 : 2 < 02 , on cherche a tel que P (2 a) = . Si y 2 < a, on rejette H0 : la variance exprimentale
est infrieure celle de la population.
Exemple : Une socit produit des dispositifs lectriques grs par un contrle thermostatique. Lcarttype de la temprature laquelle ces contrles fonctionnent ne devrait en ralit pas excder 2.0 degrs.
Pour un chantillon alatoire de 20 de ces commandes, lcart-type dun chantillon alatoire de tempratures dexploitation tait 2.36 degrs. Effectuer un test au seuil de 5 % de lhypothse nulle selon
laquelle lcart-type de population est 2.0 contre lalternative selon laquelle cet cart est en ralit plus
grand (Vous noncerez et supposerez les hypothses ncessaires au test)
(2c = 26.45, 2 = 30.14 ; on ne peut pas rejeter H0 )
9.2.2
Test dhomognt
Ce test est ncessaire pour valider lhypothse dgalit des variances du paragraphe 9.1.2.
On souhaite comparer les variances de deux populations P1 et P2 . On dispose de deux chantillons. Soit
s21 la variance dun chantillon alatoire de n1 observations extrait dune population gaussienne P1 de
variance 12 . On dispose indpendamment dun deuxime chantillon alatoire de taille n2 et de variance
s21 extrait dune population gaussienne P2 de variance 22 . Alors la variable alatoire
F =
S12 /12
S22 /22
suit une distribution F , construite comme le rapport de deux variables alatoires suivant chacune une loi
du 2 , avec un degr de libert au dnominateur gal (n1 1) et un degr de libert au dnominateur
gal (n2 1). On notera F1 ,2 avec 1 = n1 1 et 2 = n2 1.
Soit H0 lhypothse nulle 12 = 22 . Sous H0 (lorsque les variances des populations sont gales), la variable
alatoire devient
S2
F = 12 .
S2
Ainsi, on calcule le rapport
f=
s21
.
s22
Dans les applications pratiques, pour comparer correctement avec les valeurs thoriques limites de la
table F , on sarrange pour que ce rapport soit suprieur 1 en changeant le rle des deux chantillons
si ncessaire.
Dcision
Si H1 : 12 > 22 , on cherche f tel que P (F(n1 1,n2 1) f ) = . Si f > f , on rejette H0 .
Si H1 : 12 6= 22 , on cherche f/2 tel que P (F(n1 1,n2 1) f/2 ) = /2. Si f > f/2 , on rejette H0 (la
rgle semble tre une rgle pour un test unilatral mais il sagit bien dun test bilatral au risque , le
complmentaire tant test avec la rgle du rapport f > 1).
Exemple : On suppose que le total des ventes dune socit devrait varier plus dans une industrie o la
concurrence des prix est active que dans un duopole avec la collusion tacite.
Dans une tude de lindustrie de production de marchandises, il a t constat que, sur une priode de
quatre ans de concurrence active des prix, la variance du total des ventes dune compagnie tait de 114,09.
Au cours des sept annes suivantes, dans laquelle on peut supposer collusion tacite, la variance tait de
54
16,08. Supposons que les donnes peuvent tre considres comme un chantillon alatoire indpendant
de deux distributions normales. Tester au seuil de 5 %, lhypothse nulle selon laquelle les deux variances
de population sont gales contre lhypothse alternative que la variance du total des ventes est plus leve
dans les annes de concurrence active des prix.
(f = 7.095 ; f = 4.76 (1 = 3, 2 = 6) =INVERSE.LOI.F(0,05 ;3 ;6) ; H0 rejete)
Exercice : (ronces) La taille des feuilles de ronces ont t mesures pour voir si il y a une diffrence entre
la taille des feuilles qui poussent en plein soleil et celles qui poussent lombre. Les rsultats sont les
suivants (Largeur des feuilles en cm)
Soleil
Ombre
6.0
6.5
4.8
5.5
5.1
6.3
5.5
7.2
4.1
6.8
5.3
5.5
x1 = 5.05 s1 = 0.59 n1 = 8
x2 = 6.15 s2 = 0.65 n2 = 8
s = 0.62 t = 3.55 t/2 = 2.145
4.5
5.9
5.1
5.5
Chapitre
10
Rgion critique, risque

Ref : Statistique, exercices corrigs, Tome 3, Christian Labrousse
Soit une variable alatoire X dont la loi de probabilit L(X) dpend dun paramtre . La densit de
probabilit est f (xi , ). Le paramtre inconnu peut prendre deux valeurs 0 et 1 .
On dispose dun chantillon de la variable alatoire X de taille n : x1 , x2 , , xn . Cet chantillon peut
tre reprsent par un point M de coordonnes (x1 , x2 , , xn ).
Les hypothses H0 et H1 peuvent tre caractrises
par les fonctions de vraisemblance :
Qn
Pour H0 , L0 (M ) = L(x1 , x2 , . . . , xn , 0 ) = Qi=1 f (xi , 0 );
n
Pour H1 , L1 (M ) = L(x1 , x2 , . . . , xn , 1 ) = i=1 f (xi , 1 ).
La rgion critique 0 est dfinie par et . Or
Z
= P (dcider H1 /H0 vraie) = P (M 0 /H0 vraie) =
L0 (M )dM ;
Z 0
L1 (M )dM ;
= P (dcider H0 /H1 vraie) = P (M 6 0 /H1 vraie) =
0
Principe de la mthode de Neyman et Pearson.

On fixe le risque de premire espce = 0 . Parmi toutes les rgions critiques possibles, on choisit
celle qui minimise le risque de seconde espce , ou encore qui maximise la quantit 1 = , appele
puissance du test. Or,
Z
Z
= 1 =1
L1 (M )dM =
L1 (M )dM,
0
0
Z
L1 (M )
=
L0 (M )dM.
0 L0 (M )
Construction pratique de la rgion critique 0 . A chaque point de Rn est attach lindicateur
r(M ) =
L1 (M )
.
L0 (M )
Pour maximiser , on recherche les points M tels que

r(M ) C,
CHAPITRE 10. RGION CRITIQUE, RISQUE
56
soit
L1 (M )
L0 (M )
C ou encore
L0 (M )
L1 (M )
1
C
= k.
La rgion critique 0 est dfinie, selon un test de Neyman et Pearson, par le rapport des fonctions de
vraisemblance associes aux deux hypothses H0 et H1 . La constante k = 1/C est dtermine par
Z
L0 (M )dM = .
r(M )C
Remarquons que les risques et sont antagonistes car plus 0 est petit, plus 0 est grand, et rciproquement.
Exemple (Dcision par test de Neyman et Pearson) : On se propose de tester la qualit dun lot important
de pices mcaniques. Soit X une caractristique alatoire de ces pices dont la loi de probabilit est une
loi normale de moyenne m et dcart-type = 4. A la suite derreurs survenant lors de la fabrication de
ces pices, on ignore si m gale 20 ou si m gale 22. On doit nanmoins prendre une dcision. Pour cela
on prlve dans un lot un chantillon alatoire de 25 pices. Quelle dcision doit-on prendre ?
Solution. Lchantillon (x1 , x2 , . . . , xn ) est de taille n = 25. Soit x la moyenne de cet chantillon.
Construisons un test selon la mthode de Neyman et Pearson. Soit 0 la rgion critique dfinie par :
L0 (M )
k,
L1 (M )
o L0 (M ) et L1 (M ) sont les fonctions de vraisemblance, associes respectivement aux hypothses H0 et
H1 :
H0
: m = m0 = 20
H1
: m = m1 = 22.
La densit de probabilit f (x, m) dune loi normale, de moyenne m et dcart-type est :

1
(x m)2
f (x, m) =
exp
.
2 2
2
La fonction de vraisemblance L0 (M ) est :
L0 (M ) = f (x1 , m0 ) f (x2 , m0 ) f (xn , m0 ),
soit

L0 (M ) =
n
n
1 X
exp 2
(xi m0 )2
2 i=1
!
.
La fonction de vraisemblance L1 (M ) est :

L1 (M ) = f (x1 , m1 ) f (x2 , m1 ) f (xn , m1 ),
soit

L1 (M ) =
n
n
1 X
exp 2
(xi m1 )2
2 i=1
!
.
Formons le rapport :
(
" n
#)
n
X
L0 (M )
1 X
2
2
= exp 2
(xi m1 )
(xi m0 )
.
L1 (M )
2 i=1
i=1
La rgion critique, tant dfinie par
L0 (M )
k,
L1 (M )
57
lest encore par

loge
Il vient ici :
soit
L0 (M )
loge k.
L1 (M )
" n
#)
n
X
1 X
2
2
loge exp 2
(xi m1 )
(xi m0 )
loge k,
2 i=1
i=1
n
n
X
X
(xi m1 )2
(xi m0 )2 2 loge k.
i=1
i=1
En dveloppant les sommations :

n(m21 m20 ) + 2(nx)(m0 m1 ) 2 loge k,
soit
n(m0 m1 )[2x (m0 + m1 )] 2 loge k.
La quantit (m0 m1 ) est ngative :
m0 m1 = 20 22 = 2.
Il est alors ncessaire de changer le sens de lingalit, en isolant la moyenne x de lchantillon :
2x (m0 + m1 )
do
x
2 2 loge k
,
n(m0 m1 )
m0 + m1
2
loge k +
.
n(m0 m1 )
2
Dsignons cette dernire quantit par . Avec les donnes numriques :

m0 = 20 m1 = 22 = 4 n = 25,
la rgion critique 0 est dtermine par :
x , avec = 21 0.32 loge k.
La quantit sappelle le seuil critique.
La loi de probabilit de la moyenne x de lchantillon alatoire est une loi normale de moyenne m0 ou
m1 et dcart-type
4
4
= =
5
n
25
Dsignons par f (x) la densit de probabilit correspondante.
La rgle de dcision, du test de Neyman et Pearson est :
dcider H0 (m = m0 = 20), si M 6 0 ;
dcider H1 (m = m1 = 22), si M 0 .
Pour que M appartienne 0 , il faut que la moyenne x soit suprieure ou gale :
x 21 0.32 loge k.
58
Lerreur de premire espce est gale la probabilit de dcider H1 , alors que lhypothse H0 est vraie :
= P ({dcider H1 / H0 vraie});
= P ({M 0 / H0 vraie});
= P ({M 0 / m = m0 = 20});
= P ({x / m = 20}).
La loi de probabilit de X tant la loi N (m; 54 ), faisons le changement de variable

X moyenne
,
cart-type
Z=
soit :
X m
Z=
do
=
X 20
4
5
4
z + 20;
5
La variable alatoire Z suit la loi N (0; 1).

Selon le principe de la mthode de Neyman, fixons = 0 = 0.05 :
Z
= 0, 05 =
z
ou encore
0, 95 =
2
1
eU /2 dU,
2
2
1
eU /2 dU = (z ).
2
Dans la table intgrale de la loi N (0; 1), on trouve

(z = 1.65) = 0, 9505.
Il vient alors z = 1.65. Nous dterminons le seuil critique :
4
(1.65) + 20,
5
21, 32.
La rgion critique 0 est donc dtermine par :

x = 21, 32.
La rgle de dcision est ainsi :
si x < 21.32, on dcide H0 (m = m0 = 20) ;
si x 21.32, on dcide H1 (m = m1 = 22).
Calculons la puissance du test :
= 1 ,
o est lerreur de seconde espce :
Z
2
1
eU /2 dU = ().
2
59
La loi de probabilit correspondante tant N (22; 45 ), il vient :

z
22
4
5
21.32 22
,
0.8
0.85,
do la valeur de :
(0.85) = 1 (0.85) = 1 0.8023,
0.1977
le risque de seconde espce est :

0.20.
La puissance du test est :
0.80.
A titre indicatif, dterminons la constante k :
= 21 0.32 loge k = 21.32,
loge k =
soit
21 21.32
= 1,
0.32
k = e1 = 0.368.
La rgion critique 0 est ainsi dfinie par :

L0 (M )
0, 368.
L1 (M )
60
Chapitre
11
Tests non paramtriques

Contrairement aux tests paramtriques qui ncessitent que les donnes soient issues dune distribution
paramtre, les tests non paramtriques ne font aucune hypothse sur la distribution sous-jacente des
donnes. On les qualifie souvent de tests distribution free. Ltape pralable consistant estimer les
paramtres des distributions avant de procder au test dhypothse proprement dit nest plus ncessaire
(test de conformit en loi). En contrepartie, ils sont moins puissants que les tests paramtriques lorsque
les hypothses sur les donnes peuvent tre valides.
Lorsque les donnes sont quantitatives, les tests non paramtriques transforment les valeurs en rangs.
Lappellation tests de rangs est souvent rencontre. Lorsque les donnes sont qualitatives, seuls les tests
non paramtriques sont utilisables.
11.1
Test de Mann-Whitney
Le test de Mann-Whitney est un test non paramtrique qui permet de tester si deux chantillons issus
de populations indpendantes ont mme moyenne. Les valeurs doivent tre numriques (i.e. pouvoir tre
ordonnes). Il ne ncessite pas de connatre les valeurs des chantillons mais leurs rangs. On suppose donc
toujours que lon dispose de deux chantillons x1 , . . . , xn et y1 , . . . , ym issus de variables numriques ou
ordinales indpendantes, de lois respectives LX et LY . On teste H0 : LX = LY ou encore par rapport
aux fonctions de distribution H0 : FX = FY .
Le test de Mann-Whitney compte le nombre de couples pour lesquels Xi < Yj . Lalternance des Xi et
des Yj devrait tre assez rgulire sous H0 . On aura des doutes sur H0 si les Yj sont plutt plus grands
que les Xi , ou plus petits ou plus frquents dans une certaine plage de valeurs.
Statistique du test de Mann-Whitney :
Un,m =
n X
m
X
1{x<y} (Xi , Yj ),
i=1 j=1
o 1{x<y} (Xi , Yj ) vaut 1 si Xi < Yj , 0.5 si Xi = Yj et 0 sinon.

Cest le nombre de termes Yj suprieurs la mdiane de X Y .
On comptera, pour chaque valeur xi du premier chantillon, le nombre de valeurs yj du deuxime chantillon telles que yj xi (On comptera 0.5 pour chaque yj est gal xi ). On notera U1 cette valeur
obtenue partir du premier chantillon et U2 la valeur trouve en changeant les rles des chantillons.
Seule la plus petite des deux valeurs trouves sera compare aux tables.
62
CHAPITRE 11. TESTS NON PARAMTRIQUES
On peut galement calculer cette statistique en considrant la somme R1 de tous les rangs aprs ordonnancement des observations de la premire population. On a alors
U1 = R1
n1 (n1 + 1)
.
2
On aura de mme,
n2 (n2 + 1)
2
o R2 est la somme des rangs du deuxime chantillon.
U2 = R2
En sachant que R1 + R2 = N (N + 1)/2 avec N = n1 + n2 , on trouve que

U1 + U2 = n1 n2 .
Cela permet de vrifier le calcul des valeurs U1 , U2 ou de calculer lune partir de lautre.
Rgle de dcision : dans le cas dun test bilatral, on prend u = min(u1 , u2 ). On rejette H0 si u [0, m ]
avec m donn par la table de Mann et Whitney.
En supposant lhypothse nulle que les positions centrales des deux populations sont les mmes, la variable
U de Mann-Whitney vrifie
n1 n2
n1 n2 (n1 + n2 + 1)
Var(U ) =
.
2
12
Ainsi pour des chantillons de grande taille, la distribution de la variable alatoire
E(U ) =
Z=q
n1 n2
2
n1 n2 (n1 +n2 +1)

12
est approximativement la loi normale centre rduite.

Remarques : Le test de Mann-Whitney a donc le mme objectif quun autre test didentit important, le
"Test du Chi-2 didentit", dans sa version pour variable numrique. Si les populations sont supposes
normales et de mme variance, le test T aura la prfrence.
Le test de Kruskal-Wallis peut tre peru comme une extension du test de Mann-Whitney plus de deux
chantillons (de mme que ANOVA univarie est une extension du test t plus de deux chantillons).
Exemple : La taille des feuilles de ronces ont t mesures pour voir si il y a une diffrence entre la taille
des feuilles qui poussent en plein soleil et celles qui poussent lombre. Les rsultats sont les suivants
(Largeur des feuilles en cm)
Soleil
Ombre
6.0
6.5
4.8
5.5
5.1
6.3
5.5
7.2
4.1
6.8
5.3
5.5
4.5
5.9
5.1
5.5
Valeurs ordonnes
E1
E2
rang
rang moyen
4.1
4.5
4.8
5.1
5.1
5.3
1
1
2
2
3
3
4
4.5
5
4.5
6
6
5.5
7
8.5
5.5
8
8.5
5.5
9
8.5
5.5
10
8.5
5.9
11
11
6.0
12
12
U1
8 + 8 + 8 + 8 + 8 + 8 + 6.5 + 4 = 58.5
U2
1.5 + 1.5 + 1.5 + 1 + 0 + 0 + 0 + 0 = 5.5
R1
1 + 2 + 3 + 4.5 + 4.5 + 6 + 8.5 + 12 = 41.5
R2
8.5 + 8.5 + 8.5 + 11 + 13 + 14 + 15 + 16 = 94.5
6.3
13
13
6.5
14
14
6.8
15
15
7
16
16
63
Dans tous les cas, on obtient la valeur U = min(U1 , U2 ) = 5.5.

Ensuite on utilise la table de Mann-Whitney au risque de 5% (n1 = 8, n2 = 8), pour obtenir une valeur
m = 13.
On rejettera lhypothse nulle si U est infrieure la valeur m . Dans le cas de lexemple, comme U < m ,
on rejette H0 . La diffrence entre la taille des feuilles lombre et au soleil est donc significative au risque
= 5%.
11.2
Test de Wilcoxon (Wilcoxon signed rank test)
Le test de Wilcoxon est un test non paramtrique qui permet de tester si deux populations apparies ont
mme moyenne en se basant sur deux chantillons.
Sur les N paires observes, il reste quun chantillon de n diffrences non nulles (on enlve les lments
de diffrence nulle)
Soient di (pour i = 1 n) les diffrences entre chaque paire dobservations. Nous classons les rangs des
valeurs absolues de ces diffrences. La statistique de Wilcoxon tient compte uniquement des rangs des
observations.
La statistique de rangs signs de Wilcoxon scrit :
X
X
W = min(
ri ,
ri ).
di >0
di <0
Rgle de dcision : On ne peut rejeter H0 si W ]W/2 , W1/2 [ avec W1/2 = n(n + 1)/2 W/2 . Les
tables ne donnent que W/2 : on rejette H0 lorsque W < W/2 dans le cas bilatral.
Dans le cas des grands chantillons, lorsque n est suprieur 25, il peut tre dmontr que la somme
des rangs est pratiquement normale ; on utilise alors lapproximation normale
W
Z=q
n(n+1)
4
N (0, 1).
n(n+1)(2n+1)
24
Remarque : Il existe dautres tests. Par exemple, le test des signes nutilise que linformation sur la
direction des diffrences entre paires. Si nous pouvons prendre en compte, en plus, la grandeur des
diffrences, un test plus puissant peut tre utilis : le test de Wilcoxon donne plus de poids une paire
qui montre une large diffrence entre les deux conditions, qu une paire ayant une faible diffrence. Cela
implique que lon puisse dire quel membre dune paire est plus grand que lautre (donner le signe de la
diffrence), mais aussi que lon puisse ranger les diffrences en ordre croissant.
Exemple : Un chantillon alatoire de dix tudiants est consult pour noter, dans un test laveugle, la
qualit de deux types de bire, lune locale, lautre importe. Les notes sont sur une chelle de 1 (pas bon)
10 (excellent). Utiliser le test de Wilcoxon pour tester lhypothse nulle la distribution des diffrences
entre paires est centre sur zro contre lhypothse alternative "La population des tudiants buveurs de
bires prfre la catgorie dimportation.
Etudiant
A
B
C
D
E
Locale
2
3
7
8
7
Import
6
5
6
8
5
Etudiant
F
G
H
I
J
Locale
4
3
4
5
6
Import
8
9
6
4
9
64
Diffrences : -4 ; -2 ; 1 ; 0 ; 2 ; -4 ; -6 ; -2 ; 1 ; -3
Tri
rang
rang moyen
ri > 0
ri < 0
0
-
1
1
1,5
1,5
1
2
1,5
1,5
-2
3
4
4
2
4
4
4
-2
5
4
-3
6
6
-4
7
7,5
-4
8
7,5
-6
9
9 Ainsi W = min(7, 38) = 7
7,5
7,5
On a W0.05 = 8 (test unilatral).
11.3
Test de Corrlation de rang de Spearman
Pour valider lexistence dun lien entre deux variables, on ralise ordinairement une rgression linaire
simple, voire une rgression non linaire. La qualit du lien suppos est mesure par le coefficient de
corrlation (dit de Pearson ). Cependant, il existe des situations pour lesquelles une mesure de la
corrlation sur les valeurs est inadapte. Si les variables sont ordinales, discrtes, ou si des valeurs extrmes
risquent de biaiser les rsultats, ou encore que les valeurs en elles-mmes nont que peu dimportance, ou
enfin quelles ne suivent pas une loi normale, il nous reste un joker : les corrlations des rangs.
On nutilise alors pas les VALEURS des observations dans les calculs mais leur RANG.
Le rang de chaque lment dans la srie croissante de X et de Y sera calcul. On calcule ensuite le
coefficient de corrlation rs entre la srie des rangs de X et la srie des rangs de Y . On peut retrouver
cette valeur ainsi :
1. calculer la diffrence de classement di pour chaque couple de valeur (rxi , ryi ).
2. la valeur rs sera donne par
n
X
6
rs = 1
d2 .
n(n2 1) i=1 i
La variable Rs sous lhypothse dindpendance des deux variables a pour esprance E(Rs ) = 0 et pour
1
variance V (Rs ) = n1
.
s E(Rs )
= Rs n 1 suit la loi normale centre rduite. Si n 30, les valeurs
Si n > 30 alors Z = R
V (Rs )
thoriques sont donnes dans la table du coefficient r de Spearman.

Exemple : Placez les enfants dans une classe, par ordre ascendant en fonction de leur taille, en prenant
note du rang de chaque enfant (premier, deuxime, troisime, etc.), du plus court au plus grand. Vous
les placez ensuite en fonction de leur poids, puis vous prenez note de leur rang. Est-ce que chaque enfant
occupe le mme rang, dans chacune des mesures ? Peut-tre que oui, dans lensemble, bien quun enfant
court puisse galement tre au-dessus de son poids ou quun enfant grand, tre, lui aussi, en-dessous de son
poids, ce qui les classerait dans un rang diffrent pour chaque variable. La corrlation des rangs dmontre
le degr de correspondance entre le classement hirarchique dun chantillonnage dobservations sur deux
variables. Les formules de Kendall ou Spearman sont les varits communes de ce type de corrlations,
car elles donnent toutes les deux une valeur de -1,0 (classement inverse parfait) 0,0 (aucun accord)
+1,0 (classement identique des deux variables).
On ordonne la taille et le poids sur 10 enfants. On obtient les rsultats suivants :
Enfant n
Taille
Poids
1
1
5
2
5
3
3
3
9
4
8
10
5
10
2
6
4
1
7
2
6
8
7
8
9
6
7
On trouve rs = 0, 07. On accepte H0 : indpendance des deux caractres.
10
9
4
65
Table de Mann-Whitney
Rfrence : Table A5.07 : Critical Values for the Wilcoxon/Mann-Whitney Test (U)
n1
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
n2
0
0
0
0
1
1
1
1
1
2
2
2
2
0
1
1
2
2
3
3
4
4
5
5
6
6
7
7
8
0
1
2
3
4
4
5
6
7
8
9
10
11
11
12
13
14
0
1
2
3
5
6
7
8
9
11
12
13
14
15
17
18
19
20
1
2
3
5
6
8
10
11
13
14
16
17
19
21
22
24
25
27
7
8 9 10 11 12

0 0 0 0 1
1
2 2 3 3 4
3
4 4 5 6 7
5
6 7 8 9 11
6
8 10 11 13 14
8 10 12 14 16 18
10 13 15 17 19 22
12 15 17 21 23 26
14 17 20 23 26 29
16 19 23 26 30 33
18 22 26 29 33 37
20 24 28 33 37 41
22 26 31 36 40 45
24 29 34 39 44 49
26 31 37 42 47 53
28 34 39 45 51 57
30 36 42 48 55 61
32 38 45 52 58 65
34 41 48 55 62 69
13
1
4
8
12
16
20
24
28
33
37
41
45
50
54
59
63
67
72
76
14
1
5
9
13
17
22
26
31
36
40
45
50
55
59
64
67
74
78
83
15
1
5
10
14
19
24
29
34
39
44
49
54
59
64
70
75
80
85
90
16 17

1
2
6
6
11 11
15 17
21 22
26 28
31 34
37 39
42 45
47 51
53 57
59 63
64 67
70 75
75 81
81 87
86 93
92 99
98 105
18 19 20
2
2
2
7
7
8
12 13 13
18 19 20
24 25 27
30 32 34
36 38 41
42 45 48
48 52 55
55 58 62
61 65 69
67 72 76
74 78 83
80 85 90
86 92 98
93 99 105
99 106 112
106 113 119
112 119 127
Bilatral = .05 (Unilatral = .025)
n1
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
n2
0
0
0
0
0
1
1
1
2
2
2
2
3
3
0
0
1
1
2
2
3
3
4
5
5
6
6
7
8
6
7

0
0
0
1
1
1
2
3
1
3
4
2
4
6
3
5
7
4
6
9
5
7 10
6
9 12
7 10 13
7 11 15
8 12 16
9 13 18
10 15 19
11 16 21
12 17 22
13 18 24
1
2
4
6
7
9
11
13
15
17
18
20
22
24
26
28
30
0
1
3
5
7
9
11
13
16
18
20
22
24
27
29
31
33
36
10
0
2
4
6
9
11
13
16
18
21
24
26
29
31
34
37
39
42
11
0
2
5
7
10
13
16
18
21
24
27
30
33
36
39
42
45
46
12
1
3
6
9
12
15
18
21
24
27
31
34
37
41
44
47
51
54
13
1
3
7
10
13
17
20
24
27
31
34
38
42
45
49
53
56
60
14
1
4
7
11
15
18
22
26
30
34
38
42
46
50
54
58
63
67
Bilatral = .01 (Unilatral = .005)
15
2
5
8
12
16
20
24
29
33
37
42
46
51
55
60
64
69
73
16
2
5
9
13
18
22
27
31
36
41
45
50
55
60
65
70
74
79
17
2
6
10
15
19
24
29
34
39
44
49
54
60
65
70
75
81
86
18
2
6
11
16
21
26
31
37
42
47
53
58
64
70
75
81
87
92
19
0
3
7
12
17
22
28
33
39
45
51
56
63
69
74
81
87
93
99
20
0
3
8
13
18
24
30
36
42
46
54
60
67
73
79
86
92
99
105
66
Table de Wilcoxon
Critical Values of the Wilcoxon Signed Ranks
n
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
Test bilatral
= 0.05 = 0.01
0
2
3
0
5
1
8
3
10
5
13
7
17
9
21
12
25
15
29
19
34
23
40
27
46
32
52
37
58
42
65
48
73
54
81
61
89
68
98
75
107
83
116
91
126
100
137
109
Test unilatral
= 0.05 = 0.01
0
2
3
0
5
1
8
3
10
5
13
7
17
9
21
12
25
15
30
19
35
23
41
27
47
32
53
37
60
43
67
49
75
55
83
62
91
69
100
76
110
84
119
92
130
101
140
110
151
120
Ref : http://facultyweb.berry.edu/vbissonnette/tables/wilcox_t.pdf
Calcul des valeurs sur : http://comp9.psych.cornell.edu/Darlington/wilcoxon/wilcox0.htm
67
Table du coefficient de rang de Spearman
Valeurs critiques pour un test unilatral utilisant .

n
5%
4 1.000
5 .900
6 .829
7 .714
8 .643
9 .600
10 .564
11 .536
12 .503
13 .484
14 .464
15 .446
16 .429
17 .414
1%
1.000
.943
.893
.833
.783
.745
.709
.678
.648
.626
.604
.582
.566
n
18
19
20
21
22
23
24
25
26
27
28
29
30
40
5%
.401
.391
.380
.370
.361
.353
.344
.337
.331
.324
.318
.312
.306
.264
1%
.550
.535
.522
.509
.497
.486
.476
.466
.457
.449
.441
.433
.425
.368
Les donnes de la table sont les plus petites valeurs de (jusqu 3 dcimales) qui correspondent une probabilit
5% (ou 1%) sur un seul ct. La valeur observe est significative si elle est suprieure ou gale la valeur de la
table. Le niveau de signification exact ne dpasse jamais la valeur nominale (5% ou 1%). La table peut galement
tre utilise pour les valeurs critiques 10% et 2% dun test bilatral. Ltoile indique que la signification associe
au risque propos ne peut tre calcule dans ce cas.
Valeurs critiques pour un test bilatral utilisant .

n
5%
4
5 1.000
6 .886
7 .786
8 .738
9 .700
10 .648
11 .618
12 .587
13 .560
14 .538
15 .521
16 .503
17 .488
1%
1.000
.929
.881
.883
.794
.755
.727
.703
.679
.654
.635
.618
n
18
19
20
21
22
23
24
25
26
27
28
29
30
40
5%
.472
.460
.447
.436
.425
.416
.407
.398
.390
.383
.375
.368
.362
.313
1%
.600
.584
.570
.556
.544
.532
.521
.511
.501
.492
.483
.475
.467
.405
Les donnes de la table sont les plus petites valeurs de (jusqu 3 dcimales) qui correspondent une probabilit
5% (ou 1%) sur les deux cts. La valeur observe est significative si elle est suprieure ou gale la valeur de la
table. Le niveau de signification exact ne dpasse jamais la valeur nominale (5% ou 1%). La table peut galement
tre utilise pour les valeurs critiques 2.5% et 0.5% dun test unilatral. Ltoile indique que la signification
associe au risque propos ne peut tre calcule dans ce cas.
Ref : http://www.answers.com/topic/critical-values-for-spearman-s-rank-correlation-coefficient
Annexe
Exercice : Montrons que
F ) converge en probabilit vers p(1 p).

P
Calculons dans un premier temps E(( Xi )2 ).
n
n1 F (1
X

E (
Xi )2 )
=
n
X
E(Xi2 )
n
X
i=1
i=1
n
X
n
X
E(Xi ) +
i=1
n
X
i6=j
X
E
Xi Xj
i=1
E(Xi ) +
n X
X
car Xi = 0 ou 1
j6=i
E(Xi )E(Xj )
car Xi , Xj indpendantes.
i=1 j6=i
i=1
X

E (
Xi )2 )
=
X
E
Xi Xj
np + n(n 1)p2 .
Calculons maintenant E(F (1 F )).

E

1X
1X
Xi (1
Xi )
=
n
n
=
Donc
n
n
X
X
X
1
1
E
Xi
Xi
Xj )
n
n i=1
j=1
n
n
X
X
1
1
(np) 2 (E
Xi
Xj )
n
n
i=1
j=1

1
1
2
p 2 (np + n(n 1)p ) = p(1 p) 1
n
n
F ) est un estimateur sans biais de p(1 p).

2
Pour calculer E [F (1 F ) pq(1 1/n)] , nous avons besoin de quelques calculs intermdiaires : on
a dj vu
X
E((
Xi )2 ) = np + n(n 1)p2 ,
n
n1 F (1
on aura besoin de E((
Xi )3 ), de E((
Xi )4 ) et de E([F (1 F )]2 ).
69
n
n X
n X X
X

X
X
X
E (
Xi )3 )
=
E(Xi3 ) +
E(Xi2 )E(Xj ) +
E(Xi )E(Xj )E(Xk )
i=1
X

E (
Xi )4 )
=
i=1 j6=i
3
np + n(n 1)p + n(n 1)(n 2)p .
n
X
E(Xi4 ) +
i=1
n X
X
E(Xi2 )E(Xj2 ) +
n X X
X
E(Xi2 )E(Xj )E(Xk )
i=1 j6=i k6=i,j

n X
X
X X
E(Xi )E(Xj )E(Xk )E(Xl )
i=1 j6=i k6=i,j l6=i,j,k
np + n(n 1)(n 2)p3 + 2n(n 1)p2 + n(n 1)(n 2)(n 3)p4 .
E([F (1 F )]2 )
et
E(Xi3 )E(Xj ) +
i=1 j6=i
n X
X
i=1 j6=i
i=1 j6=i k6=i,j
E((
1X
1X
Xi )2 (1
Xi )2 )
n i=1
n i=1
E((
1X
2X
1X
Xi )2 (1
Xi +
Xi )2 )
n i=1
n i=1
n i=1
E((
n
n
n
1 X
2 X
1 X
2
3
(
X
)
(
X
)
+
(
Xi )4 )
i
i
n2 i=1
n3 i=1
n4 i=1
lim E([F (1 F )]2 ) = p2 2p3 + p4 .
n+
Maintenant

2 !
1
E
F (1 F ) pq(1 )
n

1
1
= E [F (1 F )]2 2p(1 p)(1 )F (1 F ) + [p(1 p)(1 )]2
n
n

2

1
= E [F (1 F )]2 p(1 p)(1 )
n
Ainsi

2
lim E [F (1 F ) pq(1 1/n)] = p2 2p3 + p4 [p(1 p)(1 1/n)]2 = 0.
n+
Donc
n
n1 F (1
F ) converge en probabilit vers p(1 p).
Table des matires
1 Lois statistiques
1.1
1.2
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.1
Fonction de rpartition
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.2
Grandeurs observes sur les chantillons . . . . . . . . . . . . . . . . . . . . . . . .
Lois usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1
Loi normale ou loi de Gauss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.2
Loi du 2 (khi-deux) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.3
Loi de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.4
Loi de Fisher-Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.5
Fonctions inverses et Tableur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Convergences
2.1
Convergence en probabilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1
Ingalits utiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.2
Convergence en probabilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
2.1.3
Convergence en moyenne quadratique . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.1.4
Loi faible des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.2
Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.3
Convergence des fonctions caractristiques . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
2.3.1
Continuit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
2.3.2
Thorme central limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
2.3.3
convergence de P vers N
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
2.3.4
convergence de B vers N
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.3.5
Correction de continuit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
3 Echantillonnage, Estimations
17
71
3.1
3.2
Echantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
3.1.1
Moyenne et variance empiriques
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
3.1.2
Frquence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
Estimation paramtrique ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
3.2.1
Estimateur ponctuel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
3.2.2
Qualit dun estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
3.2.3
Quelques estimateurs classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
3.2.4
Estimation par la mthode du maximum de vraisemblance . . . . . . . . . . . . . .
23
4 Intervalles de confiance
27
4.1
Estimation dune proportion par intervalle de confiance . . . . . . . . . . . . . . . . . . .
27
4.2
Moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
4.3
Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
5 Notion de test dhypothse
31
5.1
Hypothse nulle, risques de premire et deuxime espce . . . . . . . . . . . . . . . . . . .
31
5.2
Mcanique des tests dhypothse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
6 Test dindpendance
33
6.1
Test dindpendance de deux variables qualitatives . . . . . . . . . . . . . . . . . . . . . .
33
6.2
Test dindpendance de deux variables quantitatives : test de corrlation nulle . . . . . . .
34
7 Tests de conformit en loi

7.1
7.2
37
Cas gnral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
7.1.1
Test dadquation du . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
7.1.2
Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
Test de normalit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
7.2.1
Mthodes graphiques : Droite de Henry . . . . . . . . . . . . . . . . . . . . . . . .
39
7.2.2
Test Jarque-Bera (ou test de Bowman-Shelton) . . . . . . . . . . . . . . . . . . . .
41
8 Test sur les pourcentages
43
8.1
Relation test et intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
8.2
Test de conformit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
8.3
Test dhomognit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
9 Tests sur Moyennes et Variances

9.1
49
Test sur les moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
9.1.1
Test de conformit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
9.1.2
Test dhomognit : populations indpendantes . . . . . . . . . . . . . . . . . . .
50
72
TABLE DES MATIRES
9.1.3
9.2
Test dhomognit : populations apparies . . . . . . . . . . . . . . . . . . . . . .
51
Test sur les variances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
9.2.1
Test de conformit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
9.2.2
Test dhomognt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
10 Rgion critique, risque
55
11 Tests non paramtriques
61
11.1 Test de Mann-Whitney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
11.2 Test de Wilcoxon (Wilcoxon signed rank test) . . . . . . . . . . . . . . . . . . . . . . . . .
63
11.3 Test de Corrlation de rang de Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
Table de Mann-Whitney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
Table de Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
Table du coefficient de rang de Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
68
Dure : 12h de cours
12 h TD + 6h TP
TP
TP
TP
TP
n1
n2
n3
n4
:
:
:
:
Tests de normalit
Tests moyennes, pourcentages
Test non-paramtriques.
Sur le risque

Cours Stat S4 PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Stat S4 PDF

Transféré par

Droits d'auteur :

Formats disponibles

Licence 2-S4 SI-MASS

Cours de Statistiques infrentielles

Figure 1.1 fonction rpartition

CHAPITRE 1. LOIS STATISTIQUES

Grandeurs observes sur les chantillons

Lesprance est galement appele moyenne et note dans ce cas X .

Son cart-type X est la racine positive de la variance.

Cours Proba-Stat / Pierre DUSART

Notation : on notera z/2 le nombre pour lequel

P (z/2 < Z < z/2 )

P (|Z| > z/2 )

Maintenant pour la somme de variables Zi2 indpendantes, on a

CHAPITRE 1. LOIS STATISTIQUES

en posant u = (1/2 it)x

La dernire proposition est vidente de par la dfinition de la loi du 2 .

(Fonction KHIDEUX.inverse(; )),

cest--dire la valeur de 2; telle que P (2 () > 2; ) = .

Figure 1.2 fonction 2 inverse

Cours Proba-Stat / Pierre DUSART

1. La densit de la loi de la loi de Student degrs de libert est

Dfinition 3 Soient Q1 et Q2 deux variables alatoires indpendantes telles que Q1 suit 2 (1 ) et Q2

Son esprance nexiste que si 2 3 et vaut

Sa variance nexiste que si 2 5 et vaut

1. Si F suit une loi de Fisher F (1 , 2 ) alors

suit une loi de Fisher F (2 , 1 ).

Fonctions inverses et Tableur

CHAPITRE 1. LOIS STATISTIQUES

Ingalit de Markov simplifie

car g est positive ou nulle

car g est croissante

Preuve Voir Cours S3 ou prendre Y = |X E(X)| , a = et g(t) = t2 dans lingalit de Markov.

On dit que la suite (Xn ) converge en probabilit vers X si

Exemple de la loi binomiale : On ralise n expriences indpendantes et on suppose que lors de

alors les (Xn ) convergent en probabilit vers `.

|Xn E(Xn )| < /2 |Xn `| < ,

qui tend vers 0 quand n tend vers linfini.

Cours Proba-Stat / Pierre DUSART

Convergence en moyenne quadratique

Loi faible des grands nombres

i2 = 0 par hypothse. Ainsi par le thorme

1. La convergence en probabilit entrane la convergence en loi. (Xn X) (Xn X)

car P (|A B| > ) = P (A B > ) + P (A B < ) P (A B < )

De ce lemme, il vient respectivement pour (A = Xn , c = x, B = X) puis (A = X, c = x , B = Xn )

P (Xn x) P (X x ) + P (|Xn X| > )

FX (x + ) + P (|Xn X| > ) FX (x)

Donc > 0, n0 tel que n n0 , |FXn (x) FX (x)| < .

Lorsque N tend vers linfini avec n constant,

Cours Proba-Stat / Pierre DUSART

Convergence des fonctions caractristiques

{t R; Xn (t) X (t)} {Xn X}

Thorme central limite

En posant W = Xi , u = t/( n), on a E(W ) = E(Xi ) = 0 et E(W 2 ) = E((Xi )2 ) = V (Xi ) =

Lindpendance des Xn entrane celle des Yi et ainsi

qui est la fonction caractristique de N (0, 1).

Cours Proba-Stat / Pierre DUSART

Preuve On utilise la fonction caractristique de la loi de Poisson de paramtre :

X (t) = eit e(cos t+i sin t1) puis X

linfini, 1/ est au voisinage de 0 et

avec lim () = 0. Ou encore le dveloppement de lexposant avec 1/ au voisinage de 0 est

, fonction caractristique de N (0, 1).

Xn converge en loi vers N (np, npq).

Moyenne et variance empiriques

Dfinition 8 On appelle statistique sur un n-chantillon une fonction de (X1 , . . . , Xn ).