Vous êtes sur la page 1sur 65

COURS DE STATISTIQUES

INFERENTIELLES
Licence deconomie et de gestion
Laurence GRAMMONT
Laurence.Grammont@univ-st-etienne.fr
http://www.univ-st-etienne.fr/maths/CVLaurence.html
September 19, 2003
2
Contents
1 Rappels 5
1.1 Statistique descriptive . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1 Statistique descriptive univariee . . . . . . . . . . . . . . . 5
1.1.2 Statistique descriptive bivariee . . . . . . . . . . . . . . . 7
1.2 Rappels de probabilite . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1 Espace probabilisable, espace probabilise . . . . . . . . . . 8
1.2.2 Variables aleatoires . . . . . . . . . . . . . . . . . . . . . . 9
1.2.3 Independance . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Notions de convergence de v.a . . . . . . . . . . . . . . . . . . . . 11
1.4 Lois discr`etes usuelles . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.1 La loi binomiale B(n, p) . . . . . . . . . . . . . . . . . . . 12
1.4.2 La loi hypergeometrique H(N, n, p) . . . . . . . . . . . . 13
1.4.3 La loi de Poisson T(m) . . . . . . . . . . . . . . . . . . . 13
1.5 Lois continues usuelles . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5.1 La loi normale (Laplace-Gauss) ^(, ) . . . . . . . . . . 14
1.5.2 La loi du Khi-deux `a n degres de liberte (
2
n
) . . . . . . . 16
1.5.3 La loi de Student `a n degres de liberte (T
n
) . . . . . . . . 17
1.5.4 La loi de Fischer-Snedecor (T(n
1
, n
2
)) . . . . . . . . . . . 18
2 Introduction `a la statistique inferentielle 19
2.1 Generalites sur linference statistique . . . . . . . . . . . . . . . . 19
2.1.1 Denitions . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.2 Les probl`emes `a resoudre . . . . . . . . . . . . . . . . . . 20
2.1.3 Echantillon, realisation dechantillon, statistiques . . . . . 21
2.2 Quelques statistiques classiques . . . . . . . . . . . . . . . . . . . 23
2.2.1 La moyenne empirique et la variance empirique . . . . . . 23
2.2.2 Lois de probabilite des statistiques

X et S
2
. . . . . . . . 24
2.2.3 Frequence empirique F . . . . . . . . . . . . . . . . . . . 27
3 Estimation 29
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2 Generalites sur les estimateurs . . . . . . . . . . . . . . . . . . . 30
3.3 Estimation ponctuelle des param`etres usuels . . . . . . . . . . . . 31
3.3.1 Estimation de la moyenne . . . . . . . . . . . . . . . . . 31
3
4 CONTENTS
3.3.2 Estimation de la variance dune population Gaussienne . 31
3.3.3 Estimation dune proportion . . . . . . . . . . . . . . . . 33
3.4 Intervalle de conance . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4.1 Generalites . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4.2 Intervalle de conance pour une moyenne . . . . . . . . . 34
3.4.3 Intervalle de conance pour la variance dune variable
gaussienne . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.4.4 Intervalle de conance pour une proportion . . . . . . . . 39
4 Tests de conformite 41
4.1 Generalites sur les tests statistiques . . . . . . . . . . . . . . . . . 41
4.2 Generalites sur les tests de conformite . . . . . . . . . . . . . . . 42
4.3 Tests de conformite sur une moyenne . . . . . . . . . . . . . . . . 42
4.3.1 Cas dune variable Gaussienne . . . . . . . . . . . . . . . 42
4.3.2 Cas dun echantillon de grande taille . . . . . . . . . . . . 46
4.4 Tests de conformite sur une variance dune v.a Gaussienne . . . . 46
4.5 Tests de conformite sur une proportion . . . . . . . . . . . . . . . 49
4.6 Tests de choix entre deux valeurs du param`etre . . . . . . . . . . 50
5 Tests de comparaison 51
5.1 Generalites sur les tests de comparaison . . . . . . . . . . . . . . 51
5.2 Tests de comparaison de deux moyennes . . . . . . . . . . . . . 51
5.2.1 Cas o` u
1
et
2
sont connus . . . . . . . . . . . . . . . . . 52
5.2.2 Cas o` u
1
et
2
sont inconnus avec
1
=
2
et n
1
et n
2
< 30 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.3 Cas o` u
1
et
2
sont inconnus et n
1
et n
2
> 30 . . . . . . 54
5.3 Tests de comparaison de deux variances . . . . . . . . . . . . . 55
5.4 Tests de comparaison de deux proportions . . . . . . . . . . . . 56
6 Tests du Khi-deux 59
6.1 Tests dadequation `a une loi theorique . . . . . . . . . . . . . . . 59
6.2 Tests dindependance de deux caract`eres . . . . . . . . . . . . . . 61
6.3 Tests dhomogeneite (dune v.a X) . . . . . . . . . . . . . . . . . 62
Chapter 1
Rappels
1.1 Statistique descriptive
Cest une methode de description et non une theorie. Elle permet de decrire et
non dexpliquer.
1.1.1 Statistique descriptive univariee
: ensemble dindividus (population)
M: ensemble de modalites
x : M variable statistique
ex :
_
_
_
= / = etudiant en AES
M = m, b, v, n
x() = couleur des yeux de
Soit C
1
, . . . , C
k
une partition de M en k classes.

classes freq. abs. freq. rel. freq. cumul.


C
1
n
1
(nb.ind. C
1
) f
1
=
n
1
N
F
1
= f
1
C
2
n
2
f
2
=
n
2
N
F
2
= F
1
+f
2
.
.
.
C
k
n
k
f
k
=
n
k
N
F
k
= F
k1
+f
k
= 1
N = card

a) cas discret : C
i
= x
i

b) cas continu : C
i
= [e
i1
, e
i
[ et lon pose x
i
=
1
2
(e
i1
+e
i
)
5
6 CHAPTER 1. RAPPELS
denition(mode): C
j
est la classe modale (mode) ssi i 1, . . . , k
f
j
f
i
denition (moments):
a) moments dordre p centres en 0:
M
p
=
k

i=1
f
i
x
p
i
x = M
1
=
k

i=1
f
i
x
i
moyenne de x
a) moments dordre p centres en x:
m
p
=
k

i=1
f
i
(x
i
x)
p
V (x) = m
2
=
k

i=1
f
i
(x
i
x)
2
variance de x (= M
2
x
2
)
denition (courbe de distribution):
a) cas discret
F(x) =

{i/x
i
x}
f
i
b) cas continu
F(x) =
_

_
0 si x e
0
F
i1
+
f
i
e
i
e
i1
(x e
i1
) si x [e
i1
, e
i
[
1 si x e
k
representation graphique
frequences relatives : diagramme en batons pour les variables
discr`etes ou diagramme circulaire (secteurs proportionnels aux frequences)
ou diagramme `a bandes pour les variables qualitatives.
histogramme pour les variables continues :
[e
i1
, e
i
[ h
i
=
f
i
e
i
e
i1
(surface de lhistogramme =1)
denition (indices):
a) indices centraux (ou param`etres de la tendance centrale)
1.1. STATISTIQUE DESCRIPTIVE 7
La moyenne x = represente globalement le caract`ere de x (resume
en une seule valeur la grandeur typique dun ensemble de donnees ;
montre une tendance centrale).
La mediane /e est denie par F(/e) = 1/2.
Le mode /
0
est la valeur x
i
t.q. P(x = x
i
) soit maximale.
b) indices de dispersion
=
_
V (x) mesure de letendue du caract`ere x.
Quantiles: `a l 2 on associe l 1 quantiles Q
1
, . . . , Q
l1
t.q.
F(Q
j
) = j/l, j = 1, . . . , l 1
c)
1
=
m
3

3
= indice de dissymetrie
(< 0 si x concentre `a droite de x, > 0 si x concentre `a gauche de x)
d)
2
=
m
4

4
3 = indice daplatissement
1.1.2 Statistique descriptive bivariee
2 variables statistiques x, y denies sur
interet : si on peut expliquer y par x
C
1
, . . . , C
k
classes de x
D
1
, . . . , D
l
classes de y
D
1
D
2
. . . D
l
C
1
n
11
n
12
. . . n
1l
n
1
C
2
n
21
n
22
. . . n
2l
n
2
C
k
n
k1
n
k2
. . . n
kl
n
k
n
1
n
2
. . . n
l
n
ij
= eectifs = card /x() C
i
et y() D
j
= nb.
dindividus de C
i
D
j
f
ij
= frequences relatives
f
ij
=
n
ij
N
N =

i,j
n
ij
eectifs marginaux frequences marginales
n
i
=
l

j=1
n
ij
(cardC
i
) f
i
=
n
i
N
n
j
=
k

i=1
n
ij
(cardD
j
) f
j
=
n
j
N
8 CHAPTER 1. RAPPELS
denition (indices centraux et de dispersion):
x =
k

i=1
f
i
x
i
y =
l

j=1
f
j
y
j
V (x) =
k

i=1
f
i
(x
i
x)
2
V (y) =
l

j=1
f
j
(y
j
y)
2

x
=
_
V (x)
y
=
_
V (y)
denition (indices de correlation):
cov(x, y) =
k

i=1
l

j=1
f
ij
(x
i
x)(y
j
y) covariance
(x, y) =
cov(x, y)

y
coe. de correlation
y = ax +b, a =
cov(x, y)
V (x)
, b = y a x droite de regression lineaire
1.2 Rappels de probabilite
1.2.1 Espace probabilisable, espace probabilise
Une experience aleatoire denit un ensemble dev`enements possibles appele
univers.
denition : On appelle tribu sur tout sous-ensemble T de T() tel que
(1) T
(2) Si A T alors

A T
(3) A
n
T, on a
n
A
n
T
(, T) est un espace probabilisable.
denition Soit (, T) est un espace probabilisable. On appelle probabilite
sur (, T) toute application P de T dans [0, 1] telle que
(1) P() = 1
(2) Pour toute famille (A
n
)
nIN
delements deux `a deux disjoints de T, on a
P(
n
A
n
) =

n
P(A
n
)
(, T, P) est un espace probabilise.
P est appelee loi de probabilite.
Si est ni, la tribu T est le plus souvent egale `a lensemble des parties de
(T()). Par contre si = IR, T(IR) poss`ede beaucoup trop delements pour
denir une axiomatique coherente.
Rappelons quelques proprietes elementaires :
A, B T() P(A B) = P(A) +P(B) P(A B)
A, B T() P(A[B) =
P(A B)
P(A)
1.2. RAPPELS DE PROBABILIT

E 9
Formule de Bayes Soient (B
i
)
i=1,..,n
une partition de en elements de T
et A T, on a
P(B
j
[A) =
P(A[B
j
)P(B
j
)

i
P(A[B
i
)P(B
i
)
1.2.2 Variables aleatoires
denition Soit (, T, P) un espace probabilise. On appelle variable aleatoire
X toute application de dans (E, B) un espace probabilisable qui verie
A B, X
1
(A) T
denition Soit (, T, P) un espace probabilise. On appelle loi de proba-
bilite de la variable aleatoire X lapplication P
X
denie sur B par
A B, P
X
(A) = P(X
1
(A))
Fonction de repartition : F : IR [0, 1]
x F(x) = P(X x) (F est une fonction croissante)
(elle associe `a x la probabilite de trouver une valeur inferieure `a x)
Dans la suite v.a sera labreviation de variable aleatoire.
Quelques generalites sur les lois discr`etes
denition Une variable aleatoire est discr`ete (v.a.d) si elle est numerique (
E = IR) et si lensemble de ses valeurs est denombrable X() = x
1
, . . . , x
N

ou x
n
n IN.
Une variable aleatoire discr`ete est denie par
Ses valeurs x
1
, . . . , x
N
ou x
n
n IN
Ses probabilites p
i
= P(X = x
i
)
Esperance dune v.a.d
E(X) =
i=N

i=1
p
i
x
i
Variance dune v.a.d
V (X) =
i=N

i=1
p
i
x
2
i
E(X)
2
Soient X et Y des v.a.d. dont les valeurs sont respectivement x
1
, .., x
N
et
y
1
, .., y
M
. On notera p
i
= P(X = x
i
) et q
j
= P(Y = y
j
).
denition On appelle variable conditionnelle X sachant Y = y
j
notee
X[Y = y
j
la v.a.d dont les valeurs sont x
1
, .., x
N
et les probabilites sont
P(X = x
i
[Y = y
j
)
On note p
ij
= P(X = x
i
Y = y
j
).
10 CHAPTER 1. RAPPELS
denition L esperance conditionnelle de X sachant Y = y
j
est la quantite
E(X[Y = y
j
) =
N

i=1
x
i
P(X = x
i
[Y = y
j
)
Theor`eme de lesperance conditionnelle
E(X) =
M

j=1
E(X[Y = y
j
)P(Y = y
j
)
Quelques generalites sur les lois continues
Une v.a est dite continue si sa fonction de repartition est continue.
une loi de proba continue est totalement denie soit par sa fonction de
repartition, soit par sa fonction densite de probabilite.
fonction densite de probabilite: f, positive,
_

f(t)dt = 1
fonction de repartition F(x) =
_
x

f(t)dt
Proprietes:
_

_
E(X) =
_
+

tf(t)dt
V (X) =
_
+

t
2
f(t)dt [E(X)]
2
Soient X et Y des v.a.c. dont les densites sont respectivement f et g et
dont la loi conjointe est denie par la densite h (qui est une fonction de deux
variables ).
denition La densite conditionnelle de X par rapport `a Y = y est la
fonction denie
f
X|Y
(x, y) =
h(x, y)
g(y)
denition L esperance conditionnelle de X par rapport `a Y = y est la
quantite
E(X[Y ) =
_
+

xf
X|Y
(x, y)dx
Si X est integrable, E(X[Y ) est une variable aleatoire en y.
Theor`eme de lesperance conditionnelle
E(X) ==
_
+

E(X[Y )g(y)dy
1.3. NOTIONS DE CONVERGENCE DE V.A 11
1.2.3 Independance
denition Soient (, T, P) un espace probabilise et A, B T. A et B sont
deux ev`enements independants ssi
P(A B) = P(A) P(B)
Soient X et Y deux v.a.d telles que X() = x
1
, . . . , x
N
, Y () =
y
1
, . . . , y
M

X et Y sont independantes si
i, j P(X = x
i
Y = y
j
) = P(X = x
i
) P(Y = y
j
).
Soient X et Y deux v.a.c de fonction densite respectivement f et g et de
fonction densite conjointe h.
X et Y sont independantes si
x, y h(x, y) = f(x) g(y).
1.3 Notions de convergence de v.a
denition Soit (X
n
)
nIN
une suite de v.a on dit que (X
n
) converge en proba-
bilite vers la v.a X (X
n
X en probabilite) ssi
, , N, (n N) P([X
n
X[ > ) <
ou plus simplement lim
n
P([X
n
X[ > ) = 0.
Loi faible des grands nombres

Soient X
1
, . . . , X
n
, n v.a independantes,
soient
i
= E(X
i
) ,
2
i
= V (X
i
),

X =
1
n
n

i=1
X
i
Si
1
n
n

i=1

i
et
1
n
2
n

i=1

2
i
0 quand n
alors

X en probabilite
(P[[

X [ > ] 0 quand n ).
Corollaire de la loi faible des grands nombres

Soient X
1
, . . . , X
n
, n v.a independantes, de meme loi
Si = E(X
i
)
alors

X en probabilite.
denition on dit que (X
n
) converge en loi vers la v.a X
(X
n
X en loi ) ssi
x, F
n
(x) F(x)
F
n
(x) et F(x) etant les fonctions de repartition de X
n
et X.
12 CHAPTER 1. RAPPELS
La convergence en probabilite implique la convergence en loi mais la
reciproque est fausse.
Theor`eme de limite centrale

Soient (X
1
, X
2
, . . . , X
n
) n v.a. independantes de meme loi, de meme esperance
et de meme ecart type .
Posons S
n
= X
1
+X
2
+. . . +X
n
. Alors:
E(S
n
) = n
V (S
n
) = n
2
S
n
n

n
^(0, 1) en loi quand n (S
n
^(n,

n) quand n )
Exemple: Convergence de la loi binomiale (somme de n lois de Bernouilli)
vers la loi normale.
1.4 Lois discr`etes usuelles
1.4.1 La loi binomiale B(n, p)
La loi de Bernouilli B(1, p)
On realise une experience aleatoire qui a deux resultats possibles : soit le succ`es
qui a un probabilite p de se realiser, soit lechec qui a une probabilite q=1-p. La
variable aleatoire X= nombre de succ`es obtenus suit la loi de Bernouilli notee
B(1, p) et denie par :
P : 0, 1 [0, 1]
P(X = 0) = 1 p et P(X = 1) = p
Proprietes:
_
_
_
si X B(1, p) alors
E(X) = p
V (X) = pq
La loi binomiale B(n, p)
On realise n fois successivement et dune mani`ere independante une experience
aleatoire qui a deux resultats possibles, le succ`es ( associe au resultat pour lequel
nous voulons determiner la probabilite) qui a une probabilite p de se realiser et
lechec qui a une probabilite q = 1 p de se realiser. La v.a X = nombre de
succ`es obtenus au cours des n epreuves suit la loi binomiale notee B(n, p) denie
par:
P : 0, 1, . . . , n [0, 1]
k P(X = k) = C
k
n
p
k
(1 p)
nk
, C
k
n
=
n!
k!(n k)!
(qui represente la probabilite dobtenir k succ`es en n essais)
ex: lancement dune pi`ece de monnaie (pile ou face); qualite dun produit
(bon ou defectueux); sondage electoral (pour ou contre);...
1.4. LOIS DISCR
`
ETES USUELLES 13
Proprietes:
_

_
si X B(n, p) alors
E(X) = np
V (X) = npq
si X
1
B(n
1
, p) et X
2
B(n
2
, p) alors, si ces 2 v.a. sont independantes,
Y = X
1
+X
2
B(n
1
+n
2
, p)
remarque: Une variable binomiale est la somme de n variables de Bernouilli
independantes.
X B(n, p); X = X
1
+. . . +X
n
, X
i
B(1, p)
1.4.2 La loi hypergeometrique H(N, n, p)
Dans une population de taille N, on a deux types delements, N
1
elements de
type I et N
2
elements de type II. On eectue n tirages sans remise (=prel`evement
dun seul coup de n elements). La v.a. discr`ete X = nombre delements de type
I obtenus apr`es les n tirages suit la loi hypergeometrique notee H(N, n, p) avec
p =
N
1
N
, denie par
P : 0, 1, . . . , n [0, 1]
k P(X = k) =
C
k
N
1
C
nk
N
2
C
n
N
avec N
1
= Np, N
2
= Nq
Proprietes:
_

_
si X H(N, n, p) alors
E(X) = np
V (X) =
N n
N 1
npq
Convergence de la loi hypergeometrique vers la loi binomiale

Si N avec N
1
/N et N
2
/N restant nis
H(N, n, p) B(n, p) en loi.
(en pratique n/N < 10%).
1.4.3 La loi de Poisson T(m)
Elle convient `a la description d ev`enements dont les chances de realisation
sont faibles.
ex: nb doccurences dun ev`enement dans un certain laps de temps ou dans
une region donnee (nb. daccidents/semaine sur une autoroute; nb. dappels
telephoniques dans un intervalle de temps; nb. de naissances/ annee dans une
petite municipalite...)
14 CHAPTER 1. RAPPELS
La probabilite dobserver exactement k occurrences dun certain ev`enement
dans une unite de temps ou de region si X T(m), est donnee par:
P(X = k) =
e
m
m
k
k!
o` u m = nb. moyen doccurences.
Proprietes:
_

_
si X T(m) alors
E(X) = m
V (X) = m
si X
1
T(m
1
) et X
2
T(m
2
), X
1
, X
2
independantes, alors
Y = X
1
+X
2
T(m
1
+m
2
)
generalisation: Z = X
1
+X
2
+. . . +X
n
T(m
1
+m
2
+. . . +m
n
)
exemple: Parmi la production de pi`eces dune machine, 4% sont defectueuses.
On prel`eve un echantillon de 100 pi`eces. X= nb. de pi`eces defectueuses dans
cet echantillon.
a) P(X = 0) =? ; X H(N, 100, 0.04) B(100, 0.04) T(m), m =
100 0.04 = 4
P(X = 0) = 0.0183
b) P(X < 10) = P(X 9) = 0.9919 (tables)
c) P(X > 5) = 1 P(X 5) = 1 0.7852 = 0.2148
Convergence de la loi binomiale vers la loi de Poisson

Soit X B(n, p) alors , si n grand et p petit


on peut approximer la loi binomiale par une loi de Poisson
T(m), m = np.
(il sagit dune convergence en loi)
(en pratique n > 50, p < 0.1)
1.5 Lois continues usuelles
1.5.1 La loi normale (Laplace-Gauss) ^(, )
IR, IR

+
Cest la plus importante des lois de probabilite continues. Des questions
tant theoriques que pratiques font appel `a cette loi (souvent loi limite). His-
toriquement elle apparat vers 1773 comme la forme limite de la loi binomiale
(Abraham de Moivre). Gauss en 1809 et Laplace en 1812 lui donn`erent sa forme
denitive.
denition (fonction densite): Une v.a. suit une loi de Laplace-Gauss de
param`etres et si sa fonction densite est:
f(t) =
1

2
e

1
2
(
t

)
2
pour t IR
1.5. LOIS CONTINUES USUELLES 15
X ^(, )
fonction de repartition
F(x) =
_
x

2
e

1
2
(
t

)
2
dt
Proprietes:
_
_
_
si X ^(, ) alors
E(X) =
V (X) =
2
La loi normale centree reduite

Soit X ^(, ) alors


U =
X

^(0, 1) loi normale centree reduite


f
U
(t) =
1

2
e

1
2
t
2
(X = U +)
remarque: La loi normale centree reduite est tabulee et la formule ci-dessus
(U =
X

) permet un calcul rapide des probabilites.


Exemple:
a)

X ^(, )
P(a < X < b) = P(
a

<
X

<
b

) = P(
a

< U <
b

)
numerique : = 2, = 0.5, a = 1.7, b = 2.1
P(1.7 < X < 2.1) = P(0.6 < U < 0.2)
b)

U ^(0, 1)
si P(U < a), a > 0 est connue, alors
P(U < a) = 1 P(U < a);
P(a < U < a) = P(U < a) P(U < a)
= P(U < a) [1 P(U < a)] = 2P(U < a) 1;
numerique : a = 1.87
P(U < 1.87) = 0.9693;
P(U < 1.87) = 1 0.9693 = 0.0307;
P(1.87 < U < 1.87) = 0.9693 0.0307 = 0.9386 (= 2 0.9693 1 = 0.9386).
16 CHAPTER 1. RAPPELS
Additivite ( v.a. independantes)

Soient X
1
^(
1
,
1
) et X
2
^(
2
,
2
) independantes, alors
X
1
+X
2
^(
1
+
2
,
_

2
1
+
2
2
)
generalisation : a)X
i
^(
i
,
i
), i = 1, . . . , n independantes
n

i=1
X
i
^(
n

i=1

i
,

_
n

i=1

2
i
)
b) X
i
^(, ), i = 1, . . . , n independantes
1
n
(X
1
+. . . +X
n
) ^(,

n
)
Convergence de la loi binomiale vers la loi normale

Soit X B(n, p) alors


X np

npq
^(0, 1) en loi quand n
ou bien B(n, p) ^(np,

npq) (n )
Ceci signie que lorsque n est assez grand, on peut approximer la
loi binomiale par la loi normale; en pratique p [0.1, 0.9], n > 30.
Dans certains ouvrages, on trouve la condition np(1 p) > 9 ou
np , nq > 5.
Convergence de la loi de Poisson vers la loi normale

Soit X T(m) alors si m


X m

m
^(0, 1) en loi
Lapproximation est tr`es satisfaisante pour m > 18.
1.5.2 La loi du Khi-deux `a n degres de liberte (
2
n
)
elle joue un role important dans les tests statistiques.
on obtient une valeur
2
n
en additionnant des nombres au carre, donc cette
valeur ne peut pas etre negative
laspect de la courbe dune distribution
2
n
variera selon le nombre de
degres de liberte n qui est le seul param`etre de cette distribution.
denition: Soient X
1
, . . . , X
n
n v.a. independantes t.q. X
i
^(0, 1) i.
Alors
X
2
1
+. . . +X
2
n

2
n
remarque: la fonction densite de probabilite de
2
n
est
f

2
n
(t) = c
n
t
n/21
e
t/2
1.5. LOIS CONTINUES USUELLES 17
o` u c
n
sont t.q.
_
IR
f

2
n
(t)dt = 1.
si n > 2 alors le mode = n 2 (mode = valeur pour laquelle la courbe
atteint son maximum)
Proprietes:
_
_
_
si X
2
n
(mode = n 2, n > 2) alors
E(X) = n
V (X) = 2n
Convergence de la loi
2
n
vers la loi normale (approximation)

Soit X
2
n
alors
X n

2n
^(0, 1) en loi quand n
ou bien
2
n
^(n,

2n) n
(en pratique n > 30)
Additivite ( v.a. independantes)

Soient X
1

2
n
1
, . . . , X
k

2
n
k
independantes
Alors Z = X
1
+. . . +X
k

2
n
avec n = n
1
+. . . +n
k
1.5.3 La loi de Student `a n degres de liberte (T
n
)
Elle joue un role important dans lestimation par intervalle de conance. Elle
est symetrique, de moyenne nulle et depend dun param`etre n appele nombre
de degres de liberte.
Laspect de la courbe variera selon le nombre de degres de liberte n (de
facon generale, elle est plus aplatie que ^(0, 1) et quand n augmente (n > 30)
les 2 courbes se confondent)
denition: Soient X ^(0, 1), Y
2
n
v.a. independantes. Alors
Z =
X
_
Y/n
t
n
remarque: la fonction densite de probabilite de t
n
est
f
t
n
(t) = c
n
(1 +
t
2
n
)
(n+1)/2
o` u c
n
sont t.q.
_
IR
f
t
n
(t)dt = 1.
Proprietes:
_

_
si X t
n
alors
E(X) = 0 , n > 1
V (X) =
n
n 2
, n > 2
18 CHAPTER 1. RAPPELS
Convergence de la loi Student vers la loi normale (approximation)

Soit X t
n
alors
X ^(0, 1) en loi quand n
(en pratique n > 30)
1.5.4 La loi de Fischer-Snedecor (T(n
1
, n
2
))
loi continue
denition: Soient Y
1

2
n
1
et Y
2

2
n
2
, 2 v.a. independantes. Alors
F =
Y
1
/n
1
Y
2
/n
2
T(n
1
, n
2
)
(loi de Fischer-Snedecor `a n
1
et n
2
degres de liberte)
remarque: la fonction densite de probabilite de T(n
1
, n
2
) est
f
F
(t) = c
n
1
,n
2
t
n
1
/21
(n
1
t +n
2
)
(n
1
+n
2
)/2
, t > 0
2 param`etres: n
1
, n
2
Proprietes:
_

_
si F T(n
1
, n
2
) alors
E(F) =
n
1
n
2
2
, n
2
> 2
V (F) =
2n
2
2
(n
1
+n
2
2)
n
1
(n
2
2)
2
(n
2
4)
, n
2
> 4
Chapter 2
Introduction `a la statistique
inferentielle
2.1 Generalites sur linference statistique
2.1.1 Denitions
population, echantillon
population = ensemble dunites statistiques
(poulets, etudiants inscrits en AES en 1996, rmes commerciales ...)
recensement = observer toutes les unites de la population
echantillon = sous-ensemble de la population etudiee
(joueurs de foot = population
equipe de St-Etienne = echantillon)
sondage = observer les unites de lechantillon (il aboutit, on le verra
plus tard, `a une distribution experimentale)
en statistique, on decrit ces groupes dunites (population ou echantillon)
`a laide de mesures ou caracteristiques (eectif, moyenne, ecart-type, pourcent-
age...)
_
_
_
_
_
_
_
_
mesures ou caracteristiques utilisees pour decrire une population
sappellent PARAMETRES.
mesures ou caracteristiques utilisees pour decrire un echantillon
sappellent realisations (ou observations) de STATISTIQUES.
19
20CHAPTER 2. INTRODUCTION
`
A LA STATISTIQUE INF

ERENTIELLE
Linference statistique
C est lensemble des methodes permettant de tirer des conclusions sur un groupe
determine `a partir des donnees provenant dun echantillon choisi dans cette
population.
2.1.2 Les probl`emes `a resoudre
Question 1
exemple: Le responsable de la diusion dun produit fait un sondage
pour connatre la depense moyenne par dierentes categories socio-
professionnelles de la population francaise pour ce type dachat. Il
fera ainsi une estimation de cette depense moyenne. Il peut aussi
vouloir connatre la precision de cette estimation.
Ainsi, les statistiques sont utilisees pour ESTIMER les param`etres.
Un premier probl`eme qui se pose est donc de faire des
estimations ponctuelles
estimations par intervalle de conance
et fera lobjet du chapitre 3.
Question 2
exemple: En mati`ere de controle de qualite, on souhaite lors de la
reception dechantillons de pi`eces mecaniques comparer le taux de
dechets observes par rapport `a la norme xee de mani`ere `a refuser
le lot si son le taux de dechets depasse la norme.
Dans la plupart des situations reelles, la valeur du param`etre est inconnue,
mais il arrive que lon ait une idee du param`etre et quon puisse formuler une
HYPOTHESE concernant la valeur de celui-ci. Les observations peuvent con-
rmer ou inrmer lhypoth`ese formulee. Il arrive souvent que la dierence entre
la valeur de la statistique dechantillon et la valeur hypothetique du param`etre
ne soit ni petite ni grande, de sorte que la decision `a prendre ne simpose pas
delle meme. Il faut donc denir les crit`eres qui permettent la prise de decision.
Ce sont les TESTS DE CONFORMITE (chapitre 4).
Question 3
Les personnes qui decident sont souvent interessees `a determiner si deux pop-
ulations donnees sont semblables ou nettement dierentes par rapport `a une
caracteristique particuli`ere.
ex.1: un medecin peut vouloir determiner si la reponse `a un certain
medicament (experimental) di`ere dun groupe `a un autre.
2.1. G

EN

ERALIT

ES SUR LINF

ERENCE STATISTIQUE 21
ex.2: un acheteur peut vouloir comparer la duree de vie dun certain
produit provenant de 2 fournisseurs. dierents
Ce sont les TESTS DE COMPARAISON (chapitre 5).
Question 4
Dautres probl`emes peuvent se poser, par exemple de savoir si une population
donnee suit une loi de probabilite particuli`ere connue.
Ce sont les TESTS DAJUSTEMENT (analytique) qui permettent de verier
la qualite de lajustement de la population etudiee `a une loi normale, binomiale,
de Poisson ou encore uniforme.
Ils ont pour but detablir sil est plausible que lechantillon (aleatoire) provi-
enne dune population dont la loi de probabilite aurait ete celle speciee (chapitre
6).
Question 5
Il est interessant de savoir, dans certaines situations, si 2 caract`eres qualitatifs
sont independants. Les TESTS DINDEPENDANCE seront traites dans le
chapitre 6.
Question 6
On peut vouloir savoir si plusieurs populations sont homog`enes par rapport `a
un certain caract`ere. Les TESTS DHOMOGENEITE seront traites dans le
chapitre 6).
2.1.3 Echantillon, realisation dechantillon, statistiques
On veut, `a partir dun echantillon de la population, deduire des informations
sur cette population. Le probl`eme qui se pose alors est le suivant: comment
choisir une partie de la population qui reproduit le plus d`element possible ses
caracteristiques. Cest le probl`eme de lechantillonnage.
Prel`evement dun echantillon (echantillonnage)
1. Echantillonnages sur la base des methodes empiriques
La Methode des quotas (respect de la composition de la population pour
certains crit`eres) est la plus utilisee.
2. Echantillonnages aleatoires
Quand la probabilite de selection de chaque element de la population
est determinee avant meme que lechantillon soit choisi.
Il permet de juger objectivement la valeur des estimations.
Echantillonnage aleatoire simple on tire au hasard et avec remise les
unites dans la population concernee.
22CHAPTER 2. INTRODUCTION
`
A LA STATISTIQUE INF

ERENTIELLE
Echantillonnage stratie
Subdiviser dabord la population en sous-ensembles (strates) relative-
ment homog`enes.
Extraire de chaque strate un echantillon aleatoire simple.
Regrouper tous ces echantillons.
Echantillonnage par grappes
Choisir un echantillon aleatoire dunites qui sont elles-memes des sous-
ensembles de la population (grappes).
(ex : diviser la ville en quartiers; un certain nombre de quartiers sont
choisis pour faire partie de lechantillon; on fait lenquete aupr`es de toutes
les familles residant dans ces quartiers).
Modelisation de lechantillonnage aleatoire simple
Dans la suite, on traite le cas de lechantillonnage aleatoire simple, car les con-
cepts fondamentaux et les formules importantes decoulent de cette methode.
Ce type dechantillonnage consiste `a extraire un echantillon de taille n dans une
population de taille N par des tirages aleatoires equiprobables et independants
(tirages avec remise). On introduit le mod`ele suivant :
Soit = w
1
, . . . , w
N
la population constituee delements appeles unites dobservation.
Soit X le caract`ere que lon voudrait etudier sur lensemble de cette population.
X
k
, le resultat aleatoire du k i`em tirage, est une v.a qui suit la meme loi que
X. On note x
k
le resultat du k i`em tirage.
On note (X
1
, . . . , X
n
) les resultats aleatoires de ces tirages.
denition: (X
1
, . . . , X
n
) sont n v.a. independantes et de meme loi (celle
de X); il est appele n-echantillon ou echantillon de taille n de X.
Apr`es tirage au sort,(X
1
, . . . , X
n
) prend les valeurs (x
1
, . . . , x
n
)
denition: La realisation unique (x
1
, . . . , x
n
) de lechantillon (X
1
, . . . , X
n
)
est lensemble des valeurs observees.
denition: Une statistique Y sur un echantillon (X
1
, . . . , X
n
) est une v.a.,
fonction mesurable des X
k
; Y = f(X
1
, . . . , X
n
).
Apr`es realisation, la v.a. Y (statistique) prend la valeur f(x
1
, . . . , x
n
).
Les statistiques sont utilisees pour estimer les caracteristiques de la popu-
lation totale. Les statistiques les plus utilisees sont la moyenne empirique, la
variance empirique, la frequence empirique.
2.2. QUELQUES STATISTIQUES CLASSIQUES 23
2.2 Quelques statistiques classiques
Rappels
E(aX +b) = aE(X) +b
E(X +Y ) = E(X) +E(Y )
V (aX +b) = a
2
V (X)
V (X) = E(X
2
) [E(X)]
2
= E([X E(X)]
2
)
si X, Y independantes,
V (X +Y ) = V (X) +V (Y )
2.2.1 La moyenne empirique et la variance empirique
Posons E(X) = , V (X) =
2
(inconnues)
denition : On appelle moyenne empirique de lechantillon (X
1
, . . . , X
n
)
de X, la statistique

X =
1
n
n

i=1
X
i
.
Sa realisation est x =
1
n
n

i=1
x
i
(qui est la moyenne de lechantillon) aussi
appelee moyenne observee.
(on verra plus tard que

X estimera lesperance E(X))
Proprietes:
_
E(

X) =
V (

X) =
1
n

2
Calculons
E(

X) = E(
1
n
n

i=1
X
i
) =
1
n
n

i=1
E(X
i
) =
1
n
n

i=1
E(X) = E(X) =
V (

X) = V (
1
n
n

i=1
X
i
) =
1
n
2
V (
n

i=1
X
i
) =
1
n
2
n

i=1
V (X
i
) =
1
n
2
n

i=1
V (X)
=
nV (X)
n
2
=
1
n
V (X) =
1
n

2
denition : On appelle variance empirique de lechantillon (X
1
, . . . , X
n
)
de X , la statistique
S
2
=
1
n
n

i=1
(X
i


X)
2
=
1
n
(
n

i=1
X
2
i
)

X
2
.
24CHAPTER 2. INTRODUCTION
`
A LA STATISTIQUE INF

ERENTIELLE
Sa realisation est s
2
=
1
n
n

i=1
(x
i
x)
2
(qui est la variance de lechantillon), aussi
appelee variance observee.
Proprietes:
_
E(S
2
) =
n 1
n

2
Calculons
E(S
2
) = E(
1
n
n

i=1
(X
i


X)
2
) = E(
1
n
n

i=1
X
2
i


X
2
)
=
1
n
E(
n

i=1
X
2
i
) E(

X
2
) =
1
n
n

i=1
E(X
2
i
) E(

X
2
)
=
1
n
n

i=1
[V (X
i
) + (E(X
i
))
2
] [V (

X) + (E(

X))
2
]
=
1
n
n

i=1
[V (X) + (E(X))
2
]
1
n

2
= V (X) + (E(X))
2

1
n

2
=
2
+
2

1
n

2
= (1
1
n
)
2
=
n 1
n

2
2.2.2 Lois de probabilite des statistiques

X et S
2
Theor`eme limite centrale (pour lechantillon) (rappel):
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
Soit X une v.a. t.q. E(X) = , V (X) =
2
,= 0
Soit (X
1
, . . . , X
n
) un n- echantillon de X

X =
1
n
(X
1
+. . . +X
n
)
Alors

X
/

n
^(0, 1) pour n
(loi approximative)
(ou bien

X ^(,

n
) pour n )
2 cas `a etudier:
a) la taille n de lechantillon est grande
b) X suit une loi gaussienne
a) Taille n grande
(dapr`es le thm. limite centrale)
1)

X
/

n
suit approximativement ^(0, 1)
2.2. QUELQUES STATISTIQUES CLASSIQUES 25

X
/

n
^(0, 1) pour n
ou bien

X suit approximativement ^(,


n
) (en pratique n > 30)
exercice Soit un lot de 500 chocolats. Le poids dun chocolat est une v.a.
telle que = 5g et = 0.5g. Quelle est la probabilite quune bote de 50
chocolats issus de ce lot ait un poids total superieur `a 260g?
solution
Lechantillon etant grand (n = 50 > 30) et on peut appliquer la
premi`ere formule:

X ^(5,
0.5

50
) approximativement
on pose T = 50

X; cette nouvelle v.a. suit approximativement:
T ^(50 5,
50 0.5

50
) = ^(250, 0.5

50)
calculons
P(T > 260) = P(U >
260250
0.5

50
) = P(U > 2.83)
= 1 P(U < 2.83) = 1 0.9977
b) Echantillon gaussien
Soit X ^(, )
(dapr`es ladditivite pour des v.a. suivant des lois normales)
1)

X ^(,

n
)
ou bien

X
/

n
^(0, 1)
Attention!!!!!
cest une loi exacte et non une approximation comme dans le cas
dun echantillon de grande taille o` u la loi nest pas connue.
2)
n

2
S
2

2
n1
3)

X

S
2
/

n 1
t
n1
26CHAPTER 2. INTRODUCTION
`
A LA STATISTIQUE INF

ERENTIELLE
U =

X
/

n
^(0, 1)
Y =
nS
2

2

2
n1
et alors
Z =
U
_
Y/(n 1)
t
n1
calculons Z : Z =

X
/

n

1
_
nS
2

2
(n1)
=

X
_
S
2
n1
exercice On prel`eve 25 pi`eces dans une production industrielle. Une etude
prealable a montre que le diam`etre de ces pi`eces suivait une loi gaussienne
de moyenne 10mm et decart-type 2mm. Entre quelles valeurs a-t-on 85% de
chances de trouver lecart-type de ces pi`eces?
solution
pour commencer, il faut determiner et t.q.
0.85 = P( <
nS
2

2
< ) = P(
nS
2

2
< ) P(
nS
2

2
< )
= 1 P(
nS
2

2
> ) [1 P(
nS
2

2
> )]
= P(
nS
2

2
> ) P(
nS
2

2
> )
on sait que
nS
2

2

2
251
=
2
24
et alors on cherche dans la table du

2
n
`a 24 degres de liberte les valeurs et comme suit:
_
P(
nS
2

2
> ) = 0.90
P(
nS
2

2
> ) = 0.05
(choix du aux tables)
on trouve:
_
= 15.659
= 36.415
et alors
P(15.659 <
25S
2
2
2
< 36.415) = 0.85
P(2.5054 < S
2
< 5.8264) = 0.85
P(1.58 < S < 2.41) = 0.85
Attention: il ne faut pas confondre lecart-type de lechantillon, note s, valeur
observee de la statistique S (les calculs ont ete faits pour cette statistique S),
avec le PARAMETRE ecart-type sur la population, note , de la loi normale
qui etait connu dans ce probl`eme!
2.2. QUELQUES STATISTIQUES CLASSIQUES 27
2.2.3 Frequence empirique F
Soit une population comportant deux modalites A et B. Soit la proportion
dindividus de la population possedant la modalite A. 1 est donc la proportion
des individus de la population possedant la modalite B.
On extrait de la population un echantillon de taille n. Soit K
n
la v.a qui
represente le nombre dindividus dans lechantillon ayant la modalite A.
denition: La v.a. F =
K
n
n
sappelle frequence empirique.
Sa realisation f est la proportion dindividus dans lechantillon ayant la
modalite A.
Proprietes:
_

_
K B(n, ) donc
E(F) =
V (F) =
(1 )
n
Loi de probabilite pour F
F ^(,
_
(1 )
n
)
d`es que n > 30, [0.1, 0.9]. On trouve aussi n > 5, n(1) > 5
ou les seules conditions n > 5, n(1 ) > 5)
(loi approximative).
F
_
(1)
n
^(0, 1)
28CHAPTER 2. INTRODUCTION
`
A LA STATISTIQUE INF

ERENTIELLE
Chapter 3
Estimation
3.1 Introduction
La distribution exacte dune variable X modelisant le caract`ere qui interesse
le statisticien (taux de pollution dune rivi`ere, depenses des menages pour le
logement...) est generalement partiellement connue. Souvent la loi de X depend
dun param`etre inconnu. On cherche `a se faire une idee sur ce param`etre `a partir
des donnees observees sur lechantillon.
Attribuer au param`etre une valeur numerique unique est une ESTIMATION
PONCTUELLE. Pour ce faire, on choisit une statistique dont la valeur est, apr`es
tirage aleatoire de lechantillon, lestimation du param`etre. Cette statistique est
lESTIMATEUR.
Mais quelles sont les chances pour que cette estimation ponctuelle soit ex-
acte? Plutot que destimer un param`etre `a laide dun seul nombre, il ar-
rive frequemment que lon fasse lestimation en donnant un INTERVALLE de
valeurs. Un INTERVALLE DESTIMATION (ou de CONFIANCE) est deni
de telle sorte que lon puisse armer avec un degre de conance xe que le
param`etre vise se trouve dans cet intervalle.
Nous nous interesserons dans ce chapitre `a lestimation des principales car-
acteristiques (ou param`etres) dune v.a dans une population, `a savoir la moyenne,
la variance et la frequence.
Notations
les param`etres `a estimer seront notes par des lettres grecques minuscules
: moyenne
: ecart-type

2
: variance
: proportion
les realisations dechantillon seront notees par des lettres latines minuscules
29
30 CHAPTER 3. ESTIMATION
x
1
, . . . , x
n
: valeur de lechantillon
x : moyenne de lechantillon
s : ecart-type de lechantillon
s
2
: variance de lechantillon
p : proportion dans lechantillon
les estimateurs ( v.a. ou statistiques) seront notes par des majuscules

X
S
2
F
3.2 Generalites sur les estimateurs
Soit X une v.a. dont la loi depend dun param`etre inconnu .
Soit (X
1
, . . . , X
n
) un n-echantillon de X et (x
1
, . . . , x
n
) sa realisation. Il
sagit destimer le param`etre .
denition : Un ESTIMATEUR de sera une statistique T = f(X
1
, . . . , X
n
)
et sa realisation sera notee t = f(x
1
, . . . , x
n
)
Pour un meme param`etre, il peut y avoir plusieurs estimateurs possibles
(ex: Le param`etre dune loi de Poisson admet comme estimateurs possibles
la moyenne empirique et la variance empirique). Pour pouvoir choisir, il faut
denir les qualites qui font quun estimateur sera meilleur.
On appelle erreur destimation: T .
Celle-ci peut se decomposer de la facon suivante:
T = T E(T) +E(T)
Le terme T E(T) traduit la uctuation de T autour de son esperance
et le terme E(T) = B(T) represente lerreur systematique et sappelle
BIAIS de lESTIMATEUR
denition (estimateur sans biais):
Un estimateur T de est dit sans biais si
E(T) = , (ou bien B(T) = 0)
exemple : La moyenne empirique est un estimateur sans biais du param`etre
dune loi de Poisson. La variance empirique est estimateur biaise du meme
param`etre .
En eet, E(

X) = , E(S
2
) =
n 1
n
car E(X) = V (X) = .
3.3. ESTIMATION PONCTUELLE DES PARAM
`
ETRES USUELS 31
denition :
Un estimateur T de est dit asymptotiquement sans biais si E(T)
pour n .
denition :
Un estimateur
_
sans biais
asymptotiquement sans biais
_
est dit convergent si V (T)
0 pour n .
denition :
Soient T et T

deux estimateurs sans biais de . T est dit plus ecace que


T

si
V (T) V (T

)
denition :
Lestimateur sans biais et de variance minimale est appele estimateur ecace.
3.3 Estimation ponctuelle des param`etres usuels
3.3.1 Estimation de la moyenne
Soit X une v.a dont on veut estimer la moyenne (ou esperance) = E(X) `a
partir dun n-echantillon (X
1
, . . . , X
n
) de X.
On ne suppose rien sur la loi de X.
theor`eme

X =
1
n
(X
1
+. . . +X
n
) , la moyenne empirique, est un estimateur ecace
de .
car sans biais E(

X) = et de plus V (

X) =
V (X)
n
0 pour
n , et T, un autre estimateur de , V (T) > V (

X).
x est la realisation de

X et donc une estimation ecace de
3.3.2 Estimation de la variance dune population Gaussi-
enne
Soit X une v.a qui suit une loi normale ^(, ). On veut estimer la variance

2
de X.
a) connue
theor`eme :
T
2
=
1
n
n

i=1
(X
i
)
2
est un estimateur ecace de
2
32 CHAPTER 3. ESTIMATION
en eet,
E(T
2
) = E(
1
n
n

i=1
(X
i
)
2
) = E(
1
n
n

i=1
X
2
i
2
1
n
n

i=1
X
i
+
2
)
=
1
n
E(
n

i=1
X
2
i
) 2
1
n
n

i=1
E(X
i
) +
2
=
1
n
n

i=1
E(X
2
i
)
2
=
1
n
n

i=1
[V (X
i
) + (E(X
i
))
2
]
2
=
2
+
2

2
=
2
donc sans biais
V (T
2
) = V (
1
n
n

i=1
(X
i
)
2
) =
1
n
2
V (
n

i=1
(X
i
)
2
)
=
1
n
2
n

i=1
V ((X
i
)
2
) =
1
n
2
n

i=1
[E((X
i
)
4
) (E((X
i
)
2
))
2
] = . . . 0
b) inconnue
theor`eme :
S
2
=
1
n
n

i=1
(X
i


X)
2
, cest-`a-dire la variance empirique, est un estimateur
biaise de
2
, mais asymptotiquement sans biais.
en eet,
E(S
2
) =
n 1
n

2
B(S
2
) = E(S
2
)
2
= (1
1
n
)
2
=
1
n

2
V (S
2
) 0 pour n
theor`eme :
(S

)
2
=
n
n 1
S
2
=
1
n 1
n

i=1
(X
i


X)
2
est un estimateur sans biais de
2
en eet,
E((S

)
2
) =
n
n 1
E(S
2
) =
n
n 1
n 1
n

2
=
2
donc sans biais
n grand, E(S
2
) E((S

)
2
) et on pref`ere S
2
n petit, on pref`ere (S

)
2
3.3. ESTIMATION PONCTUELLE DES PARAM
`
ETRES USUELS 33
3.3.3 Estimation dune proportion
Soit une population ayant des individus possedant une certaine caracteristique
A. On veut estimer `a partir dun echantillon de taille n la proportion dindividus
possedant cette caracteristique A. Soit K la v.a qui represente le nombre dindividus
dans lechantillon possedant la caracteristique A.
theor`eme :
La frequence empirique F = K/n est lestimateur ecace de .
E(F) =
E(X
1
) +. . . +E(X
n
)
n
= donc F est un estimateur sans biais de

V (F) =
V (X
1
) +. . . +V (X
n
)
n
2
=
n(1 )
n
2
=
(1 )
n
donc F est un es-
timateur convergent de
Exemples destimations ponctuelles
Exercice 1: (estimation dune moyenne, dun ecart-type)
Lors dun concours radiophonique, on note X: le nb. de reponses recues
chaque jour. On suppose X ^(, ). Durant 10 jours on a obtenu:
x
i
200 240 190 150 220 180 170 230 210 210 . Donner une es-
timation ponctuelle de ,
2
.
solution
n = 10

X =
1
10
(X
1
+. . . +X
10
) est un estimateur de
sa realisation x =
1
10
(x
1
+. . . +x
10
) =
2000
10
= 200 est une estimation ponctuelle,
ecace de
on est dans le cas o` u la moyenne nest pas connue (cas b))
S
2
=
1
10
(X
2
1
+. . . +X
2
10
) (

X)
2
est un estimateur biaise de
2
sa realisation s
2
=
1
10
(x
2
1
+. . . +x
2
10
) x
2
= 40700 40000 = 700 est une
estimation ponctuelle, biaise de
2
(S

)
2
=
n
n 1
S
2
=
10
9
S
2
est un estimateur sans biais de
2
sa realisation (s

)
2
=
10
9
s
2
=
10
9
700 = 778 est une estimation ponctuelle,
sans biais de
2
Exercice 2: (estimation dune proportion)
Dans une population detudiants AES, on a preleve independamment 2
echantillons de taille n
1
= 120, n
2
= 150. On constate que 48 etudiants du
1-er echantillon et 66 du 2-`eme ont une formation scientique secondaire. Soit
la proportion detudiants ayant suivi une formation scientique. Calculer 3
estimations ponctuelles de .
34 CHAPTER 3. ESTIMATION
solution
F =
K
n
; f
1
=
48
120
= 0.4, f
2
=
66
150
= 0.44, f
3
=
48 + 66
120 + 150
= 0.422
3.4 Intervalle de conance
3.4.1 Generalites
Il est plus realiste et plus interessant de fournir une estimation du type
t
1
< < t
2
plutot que decrire s`echement = t, car on sait que la valeur estimee t di`ere
toujours de la valeur exacte du param`etre recherche, . Il est donc souhaitable
de donner la precision de lestimation en acceptant de faire une erreur sur
celle-ci.
denition:
Soit X une v.a. dont la loi depend dun param`etre inconnu ; on appelle
INTERVALLE DE CONFIANCE pour de niveau 1 (ou de seuil ), un
intervalle qui a la probabilite 1 de contenir la vraie valeur de .
[t
1
, t
2
] est un intervalle de conance de niveau 1 pour signie
P(t
1
< < t
2
) = 1
(plus le niveau de conance est eleve, plus la certitude est grande que la methode
destimation produira une estimation contenant la vraie valeur de )
les niveaux de conance les plus frequemment utilises sont 90%, 95%, 99%
est appele le seuil (le risque); on choisira dans la plupart des cas un
intervalle `a risques symetriques, c-a-d t.q.
P( < t
1
) =

2
, P( > t
2
) =

2
remarque: Si on augmente le niveau de conance 1 , on augmente la
longueur de lintervalle.
3.4.2 Intervalle de conance pour une moyenne
a) cas o` u n, la taille de lechantillon, est petite n < 30
On suppose que X ^(, ).
On distingue deux cas connu et inconnu.
a-1) connu


X ^(,

n
) dapr`es un resultat du chapitre 2
3.4. INTERVALLE DE CONFIANCE 35
(ou bien

X
/

n
^(0, 1))
On se xe le risque et on cherche dans la table de la loi normale la valeur
u
1

2
telle que
P(u
1

2
<

X
/

n
< u
1

2
) = 1

P(

X
/

n
< u
1

2
) = 1 /2
u
1

2
est le fractile dordre 1

2
de la loi normale centree reduite.
P(u
1

2
<

X
/

n
< u
1

2
) = 1

P(

X u
1

n
< <

X +u
1

n
) = 1
Conclusion : si x est une realisation de

X, lintervalle de conance de
de seuil est
I = [ x u
1

n
, x +u
1

n
]
exemple: n = 15, = 3.75, = 5%,

15
i=1
x
i
= 2400 alors x =
2400/15 = 160, u
1

2
= 1.96 car P(U < 1.96) = 0.025
on suppose X gaussienne et on obtient lintervalle de conance:
[160 1.96
3.75

15
, 160 + 1.96
3.75

15
] = [158.10, 161.90]
a-2) inconnu

X
S

n 1
t
n1
dapr`es le chapitre 2.
On cherche dans la table de la loi de Student, etant xe, la valeur
t
n1(1

2
)
telle que
P(t
n1(1

2
)
<

X
S/

n 1
< t
n1(1

2
)
) = 1

P(

X
S/

n 1
< t
n1(1

2
)
) = 1 /2.
36 CHAPTER 3. ESTIMATION
On a
P(t
n1(1

2
)
<

X
S/

n 1
< t
n1(1

2
)
) = 1

P(

X t
n1(1

2
)
S

n 1
< <

X +t
n1(1

2
)
S

n 1
) = 1
Conclusion : si x est une realisation de

X et s une realisation de S,
lintervalle de conance de de seuil est
I = [ x t
n1(1

2
)
s

n 1
, x +t
n1(1

2
)
s

n 1
]
exemple n = 30,

30
i=1
x
i
= 1673,

30
i=1
x
2
i
= 98285, = 10% alors
x = 55.77, s
2
= 165.87, s = 12.88, t
29(10%)
= 1.699
I = [55.77 1.699
12.88

29
, 55.77 + 1.699
12.88

29
] = [51.71, 59.83]
b) cas o` u n, la taille de lechantillon, est grande n > 30
Il nest plus necessaire de supposer que X est Gaussienne.
b-1) connu
Dapr`es le chapitre 2

X
/

n
^(0, 1) pour n
La demarche est la meme que dans a-1)
Conclusion : Si x est une realisation de

X et si s une realisation de S,
lintervalle de conance de de seuil est
I = [ x u
1

n
, x +u
1

n
]
b-2) inconnu
On peut prendre comme intervalle de conance celui de la section a-2). On
peut egalement utiliser lapproximation suivante :

X
S

n
^(0, 1) .
On se xe lerreur et on cherche dans la table de la loi normale la valeur
3.4. INTERVALLE DE CONFIANCE 37
u
1

2
telle que
P(u
1

2
<

X
S/

n
< u
1

2
) = 1

P(

X
S/

n
< u
1

2
) = 1 /2.
On a
P(u
1

2
<

X
S/

n
< u
1

2
) = 1

P(

X u
1

2
S

n
< <

X +u
1

2
S

n
) = 1
Conclusion : si x est une realisation de

X et s une realisation de S,
lintervalle de conance de de seuil est
I = [ x u
1

2
s

n
, x +u
1

2
s

n
]
remarque: Plus n est grand, plus I est petit (car 1/

n ou bien 1/

n 1
est petit) et donc meilleure est la precision de lestimation.
3.4.3 Intervalle de conance pour la variance dune vari-
able gaussienne
On suppose que X ^(, ).
a) connue (peu frequent)
T
2
=
1
n
n

i=1
(X
i
)
2
est un estimateur ecace de
2
(voir estimation
ponctuelle); sa realisation est t
2
=
1
n
n

i=1
(x
i
)
2
. Comme
X
i

^(0, 1),
nT
2

2
=
n

i=1
(
X
i

)
2
est une somme de n v.a. independantes qui suivent la loi
normale ^(0, 1) et donc
nT
2

2

2
n
Lerreur etant xee, on cherche dans la table
2
n
les valeurs k
n(1

2
)
et
k
n(1/2)
telles que
P(k
n(

2
)
<
n

2
T
2
< k
n(1

2
)
) = 1 (1)

38 CHAPTER 3. ESTIMATION
_

_
P(
nT
2

2
< k
n(1

2
)
) = 1 /2
P(
nT
2

2
< k
n(

2
)
) = /2
(1) P(
nT
2
k
n(1

2
)
<
2
<
nT
2
k
n(

2
)
) = 1
Conclusion : si t
2
est une realisation de T
2
, lintervalle de conance de
2
de seuil est
I = [
nt
2
k
n(1

2
)
,
nt
2
k
n(

2
)
]
lintervalle de conance pour au seuil est
I = [t

n
k
n(1

2
)
, t

n
k
n(

2
)
]
exemple:
n = 10, = 6,
10

i=1
x
2
i
= 402, = 5%
alors
t
2
= 40.2 36 = 4.2, k
10(0.025)
= 20.5, k
10(0.975)
= 3.25
I = [
10 4.2
20.5
,
10 4.2
3.25
] = [2.05, 12.92]
b) inconnue
On a
nS
2

2

2
n1
On cherche dans la table
2
n1
les valeurs k
n1(1

2
)
et k
n1(

2
)
telles que
P(k
n1(

2
)
<
n

2
S
2
< k
n1(1

2
)
) = 1 (1)

_
P(
nS
2

2
< k
n1(

2
)
) = /2
P(
nS
2

2
< k
n1(1

2
)
) = 1 /2
(1) P(
nS
2
k
n1(1

2
)
<
2
<
nS
2
k
n1(

2
)
) = 1
Conclusion : si s
2
est une realisation de S
2
, lintervalle de conance de
2
de seuil est
3.4. INTERVALLE DE CONFIANCE 39
I = [
ns
2
k
n1(1

2
)
,
ns
2
k
n1(

2
)
]
lintervalle de conance pour au seuil est
I = [s

n
k
n1(1

2
)
, s

n
k
n1(

2
)
]
remarque: Si dans les tables du
2
n
ou de t
n
vous ne trouvez pas les valeurs
correspondantes `a /2 et `a 1 /2, on prendra un risque asymetrique.
ATTENTION `a ne pas confondre S avec T et x avec
exemple:
n = 30,
30

i=1
x
i
= 1683,
30

i=1
x
2
i
= 98295, = 10%
alors
x = 55.77, s
2
= 165.87, k
29(0.05)
= 42.6, k
29(0.95)
= 17.7
I = [
30 165.87
42.6
,
30 165.87
17.7
] = [116.81, 281.14]
3.4.4 Intervalle de conance pour une proportion
on sait que F =
K
n
est un estimateur de o` u est la proportion de la
population possedant le caract`ere considere.
F ^(,
_
(1 )
n
) pour n, n(1 ) > 5
( ou les autres conditions citees en 2.2.3)
ou bien
F
_
(1)
n
^(0, 1) pour n, n(1 ) > 5
On cherche dans la table de ^(0, 1) la valeur u
1

2
telle que
P(u
1

2
<
F
_
(1
n
< u
1

2
) = 1

P(
F
_
(1
n
< u
1

2
) = 1 /2.
40 CHAPTER 3. ESTIMATION
On a
P(u
1

2
<
F
_
(1
n
< u
1

2
) = 1

P(F u
1

2
_
(1 )
n
< < F +u
1

2
_
(1 )
n
) = 1
probl`eme: (1 ) est inconnu !!!
solution 1 : methode par estimation de lecart-type
on remplace
_
(1 )
n
par
_
f(1 f)
n
, f etant la valeur observee de F
(estimation de ) et on a
I = [f u
1

2
_
f(1 f)
n
, f +u
1

2
_
f(1 f)
n
]
solution 2: methode de lellipse (moins classique, mais plus rigoureuse)
P(u
1

2
_
(1
n
< F < u
1

2
_
(1
n
) = 1
P([ F[ < u
1

2
_
(1
n
) = 1
P(( F)
2
u
2
1

2
(1
n
< 0) = 1
P(
2
(1 +
u
2
1

2
n
) (2F +
u
2
1

2
n
) +F
2
< 0) = 1
On cherche les racines
1
et
2
de lequation ( F)
2
u
2
1

2
(1
n
= 0 ,
en connaissant u
1

2
et f, la valeur observee de F
I = [
1
,
2
]
Chapter 4
Tests de conformite
4.1 Generalites sur les tests statistiques
Un test statistique est un mecanisme visant `a trancher entre deux hypoth`eses
`a partir de resultats observes sur un ou plusieurs echantillon(s). On formule
une hypoth`ese de depart, appelee hypoth`ese nulle et souvent notee (H
0
) et il
sagit de decider si on rejette ou non cette hypoth`ese par opposition `a un contre-
hypoth`ese appelee hypoth`ese alternative et souvent notee (H
1
).
On ne pourra jamais conclure avec certitude dans un test statistique. Il y
aura toujours des erreurs de decision. Pour eectuer le test statistique, il faudra
choisir un certain risque derreur qui est la probabilite de se tromper en prenant
la decision retenue. Il existe deux types derreurs :
On appelle erreur de premi`ere esp`ece ou erreur de type I, notee , la proba-
bilite de rejeter (H
0
) alors quelle est vraie. est aussi appele niveau ou seuil de signication.
On appelle erreur de deuxi`eme esp`ece ou erreur de type II, notee , la
probabilite daccepter (H
0
) alors quelle est fausse.
on appelle puissance du test pour (H
1
) la probabilite de retenir (H
1
) alors
quelle est vraie (= 1 ).
Mecanisme des tests
Il sagit dabord de formuler les hypoth`eses (H
0
) et (H
1
).
On choisit en general le risque de type I , . (souvent donne dans lenonce).
On determine la variable de decision Z (qui est une statistique) dont on
connat la loi si (H
0
) est vraie.
On calcul la region critique ou region de rejet W qui est lensemble des
valeurs de Z qui conduiront `a rejeter (H
0
). Ainsi, si est xe, W est determine
par = P[Z W avec (H
0
) vraie ] . Le complementaire de W est appele
region dacceptation. Les points de jonction entre les deux regions sont les
points critiques.
41
42 CHAPTER 4. TESTS DE CONFORMIT

E
On calcul la valeur de Z `a partir de lobservation de lechantillon.
Conclusion du test : acceptation ou rejet de (H
0
) selon que la valeur de Z
est ou non dans la region dacceptation.
4.2 Generalites sur les tests de conformite
Soit X une v.a dont la loi depend dun param`etre inconnu .
(H
0
) =
0
,
0
etant une valeur numerique. (H
1
) peut etre de 3 types :
- (H
1
) ,=
0
test bilateral
- (H
1
) >
0
test unilateral `a droite
- (H
1
) <
0
test unilateral `a gauche.
Choix de la variable de decision Z qui est lestimateur de ou une fonction
simple de lestimateur de .
Calcul de la region critique :
= P[decider (H
1
)alors que (H
0
) est vraie]
= P[Z W alors que =
0
].
a) tests bilateraux
On peut chercher W sous la forme ] , z
1
[ ]z
2
, [ (

W =
[z
1
, z
2
]).
Ainsi P[z
1
Z z
2
avec =
0
] = 1
b) tests unilateraux `a droite
On peut chercher W sous la forme ]z, [.
Ainsi P[Z > z avec =
0
] =
c) tests unilateraux `a gauche
On peut chercher W sous la forme ] , z[.
Ainsi P[Z < z avec =
0
] =
On traitera egalement (dans la section 4.6) les tests de choix entre
deux valeurs du param`etre:
(H
0
) =
0
contre (H
1
) =
1
o` u
0
et
1
sont des valeurs
numeriques.
4.3 Tests de conformite sur une moyenne
4.3.1 Cas dune variable Gaussienne
On supposera que X ^(, ).
On veut tester lhypoth`ese
(H
0
) =
0
,
0
etant une valeur numerique contre
4.3. TESTS DE CONFORMIT

E SUR UNE MOYENNE 43


(H
1
) ,=
0
ou >
0
ou <
0
.
On se xe , le risque de type I et on connat la taille de lechantillon.
a) cas connu
On prend comme variable de decision

X [ou Z =

X
/

n
].
Si =
0
alors

X
0
/

n
^(0, 1)
Calcul de la region critique et conclusion du test.
a-1) test bilateral (H
1
) ,=
0
On cherche la region dacceptation sous la forme [x
1
, x
2
], intervalle symetrique
autour de
0
.
Soit u
1

2
le reel determine comme habituellement dans la table de la loi
normale (P(u
1

2
< U < u
1

2
) = 1 avec U ^(0, 1) ).
Ainsi, si =
0
alors P(
0
u
1

n
<

X <
0
+u
1

n
) = 1
(on remplace U par

X
0
/

n
).
Lintervalle dacceptation pour

X au risque est
I
accept
= [
0
u
1

n
,
0
+u
1

n
]
Conclusion :
Si x , la realisation de

X, I
accept
, on ne peut rejeter (H
0
) ,
sinon, on rejette (H
0
).
Remarque Si on choisit comme variable de decision Z, lintervalle dacceptation
pour Z au risque est [u
1

2
; u
1

2
] . Si z, la realisation de Z, [u
1

2
; u
1

2
],
on ne rejette pas (H
0
). Sinon, on la rejette.
a-2) test unilateral `a droite (H
1
) >
0
On cherche la region critique sous la forme [x
1
, +[.
Soit u
1
le reel determine dans la table de la loi normale tel que P(U < u
1
) = 1
avec U ^(0, 1).
Ainsi, si =
0
alors P(

X >
0
+u
1

n
) =
(on remplace U par

X
0
/

n
)
La region critique (ou intervalle de rejet) pour

X au risque est
I
rejet
= [
0
+u
1

n
, +[
44 CHAPTER 4. TESTS DE CONFORMIT

E
Conclusion :
Si x , la realisation de

X, I
rejet
, on rejette (H
0
) ,
sinon, on ne la rejette pas.
Remarque Si on choisit comme variable de decision Z, lintervalle dacceptation
pour Z au risque est [u
1
; +] . Si z, la realisation de Z , [u
1
; +[,
on rejette (H
0
). Sinon, on ne la rejette pas.
a-3) test unilateral `a gauche (H
1
) <
0
On cherche la region critique sous la forme ] , x
1
].
Soit u
1
le reel determine dans la table de la loi normale tel que P(U < u
1
) = 1
avec U ^(0, 1). On a donc P(U < u
1
) = .
Ainsi, si =
0
alors P(

X <
0
u
1

n
) = (on remplace U par

X
0
/

n
)
La region de rejet pour

X au risque est
I
rejet
=] ,
0
u
1

n
]
Conclusion :
Si x , la realisation de

X, I
rejet
, on rejette (H
0
) ,
sinon, on ne la rejette pas.
Remarque Si on choisit comme variable de d ] : u
1
] . Si z, la
realisation de Z , ] : u
1
], on rejette (H
0
). Sinon, on ne la rejette
pas.
b) cas inconnu
On prend comme variable de decision

X [ou Z =

X
S/

n 1
].
Si =
0
alors

X
0
S/

n 1
t
n1
Calcul de la region critique et conclusion du test.
b-1) test bilateral (H
1
) ,=
0
On cherche la region dacceptation sous la forme [x
1
, x
2
], intervalle symetrique
autour de
0
.
Soit t
n1(1

2
)
le reel determine comme habituellement dans la table de t
n1
(P(t
n1(1

2
)
< T < t
n1(1

2
)
) = 1 avec T t
n1
).
Ainsi, si =
0
alors P(
0
t
n1(1

2
)
S

n 1
<

X <
0
+t
n1(1

2
)
S

n 1
) = 1
(on remplace T par

X
0
S/

n 1
).
4.3. TESTS DE CONFORMIT

E SUR UNE MOYENNE 45


Lintervalle dacceptation pour

X au risque est
I
accept
= [
0
t
n1(1

2
)
s

n 1
,
0
+t
n1(1

2
)
s

n 1
]
Conclusion :
Si x , la realisation de

X, I
accept
, on ne peut rejeter (H
0
) ,
sinon, on rejette (H
0
).
Remarque Si on choisit comme variable de decision Z, lintervalle dacceptation
pour Z au risque est [t
n1(1

2
)
; t
n1(1

2
)
] . Si z, la realisation de Z ,
[t
n1(1

2
)
; t
n1(1

2
)
], on ne rejette pas (H
0
). Sinon, on la rejette.
b-2) test unilateral `a droite (H
1
) >
0
On cherche la region critique sous la forme [x
1
, +[.
Soit t
n1(1)
le reel determine dans la table de t
n1
tel que P(T < t
n1(1)
) = 1
avec T t
n1
.
Ainsi, si =
0
alors P(

X >
0
+t
n1(1)
S

n 1
) = (on remplace T
par

X
0
S/

n 1
)
La region de rejet pour

X au risque est
I
rejet
= [
0
+t
n1(1)
s

n 1
, +[
Conclusion :
Si x , la realisation de

X, I
rejet
, on rejette (H
0
) ,
sinon, on ne la rejette pas.
Remarque Si on choisit comme variable de decision Z, lintervalle de rejet
pour Z au risque est [t
n1(1)
, +] . Si z, la realisation de Z , ] :
u
1
], on rejette (H
0
). Sinon, on ne la rejette pas.
b-3) test unilateral `a gauche (H
1
) <
0
On cherche la region critique sous la forme ] , x
1
].
On a P(T < t
n1(1)
) = .
Ainsi, si =
0
alors P(

X <
0
t
n1(1)
S

n 1
) = .
La region de rejet pour

X au risque est
I
rejet
=] ,
0
t
n1(1)
s

n 1
]
Conclusion :
Si x , la realisation de

X, I
rejet
, on rejette (H
0
) ,
sinon, on ne la rejette pas.
46 CHAPTER 4. TESTS DE CONFORMIT

E
Remarque Si on choisit comme variable de decision Z, lintervalle de rejet
pour Z au risque est [ : t
n1(1)
] . Si z, la realisation de Z , [ :
t
n1(1)
], on rejette (H
0
). Sinon, on ne la rejette pas.
4.3.2 Cas dun echantillon de grande taille
(Ce qui signie en pratique n > 30)
a) cas connu
Quand n est grand, on peut considerer que si =
0
,

X
0

n
^(0, 1) .
Tous les resultats du paragraphe 4.3.1 a) sont valables.
b) cas inconnu
Quand n est grand, on peut considerer que si =
0
,

X
0
S

n
^(0, 1) .
Il faut reprendre les resultats du paragraphe 4.3.1 b) en remplacant n 1
par n , t
n1(1)
par u
1
et t
n1(1

2
)
par u
1

2
.
test bilateral : Lintervalle dacceptation pour

X au risque est
I
accept
= [
0
u
1/2
s

n
,
0
+u
1/2
s

n
]
test unilateral `a droite : Lintervalle de rejet pour

X au risque est
I
rejet
= [
0
+u
1
s

n
, +]
test unilateral `a gauche : Lintervalle de rejet pour

X au risque est
I
rejet
= [,
0
u
1
s

n
]
4.4 Tests de conformite sur une variance dune
v.a Gaussienne
On suppose X ^(, ).
On veut tester lhypoth`ese
(H
0
)
2
=
2
0
,
2
0
etant une valeur numerique. contre
(H
1
)
2
,=
2
0
ou
2
>
2
0
ou
2
<
2
0
.
On se xe , le risque de type I et on connat la taille de lechantillon.
a) cas connu
4.4. TESTS DE CONFORMIT

E SUR UNE VARIANCE DUNE V.AGAUSSIENNE47


On prend comme variable de decision T
2
==
1
n
n

i=1
(X
i
)
2
[ou Z =
nT
2

2
].
Si
2
=
2
0
alors
nT
2

2

2
n
Calcul de la region critique et conclusion du test.
a-1) test bilateral (H
1
)
2
,=
2
0
On cherche la region dacceptation sous la forme [t
1
, t
2
].
Soit k
n(/2)
et k
n(1/2)
les reels determines dans la table de la loi
2
n
tels
que
_

_
P(
nT
2

2
< k
n(1

2
)
) = 1 /2
P(
nT
2

2
< k
n(

2
)
) = /2
Si
2
=
2
0
, on a donc P(k
n(/2)
<
n

2
0
T
2
< k
n(1/2)
) = 1
do` u P(

2
0
n
k
n(

2
)
< T
2
<

2
0
n
k
n(1

2
)
) = 1
Lintervalle dacceptation pour T
2
au risque est
I
accept
= [

2
0
n
k
n(

2
)
,

2
0
n
k
n(1

2
)
]
Conclusion :
Si t
2
, la realisation de T
2
, I
accept
, on ne peut rejeter (H
0
) ,
sinon, on rejette (H
0
).
Remarque Si est tel que lon ne peut determiner k
n(/2)
et k
n(1/2)
,
on cherche lintervalle dacceptation sous la forme [k

1
, k

2
] determines dans la
table de la loi
2
n
tels que P(
n

2
0
T
2
> k

2
) =
2
et P(
n

2
0
T
2
< k

1
) =
1
avec
=
1
+
2
donc I
accept
= [

2
0
n
k

1
,

2
0
n
k

2
]
a-2) test unilateral `a droite (H
1
)
2
>
2
0
On cherche la region critique sous la forme [t
1
, +[.
Soit k
n(1)
le reel determine dans la table de la loi
2
n
par P(
n

2
0
T
2
< k
n(1)
) = 1
La region critique (ou intervalle de rejet) pour T
2
au risque est
I
rejet
= [

2
0
n
k
n(1)
, +[
Conclusion :
Si t
2
, la realisation de T
2
, I
rejet
, on rejette (H
0
) ,
48 CHAPTER 4. TESTS DE CONFORMIT

E
sinon, on ne rejette pas (H
0
).
a-3) test unilateral `a gauche (H
1
) <
0
On cherche la region critique sous la forme ] , t
1
].
Soit k
n()
le reel determine dans la table de la loi
2
n
par P(
n

2
0
T
2
< k
n()
) =
La region critique (ou intervalle de rejet) pour T
2
au risque est
I
rejet
= [,

2
0
n
k
n()
]
Conclusion :
Si t
2
, la realisation de T
2
, I
rejet
, on rejette (H
0
) ,
sinon, on ne rejette pas (H
0
).
Remarque Si on choisit comme variable de decision Z, lintervalle dacceptation
pour Z au risque pour un test bilateral est I
accept
= [k
n(

2
)
, k
n(1

2
)
] lintervalle
de rejet pour Z au risque pour un test unilateral `a droite et `a gauche est re-
spectivement I
rejet
= [k
n(1)
, +] et I
rejet
= [, k
n()
]
b) cas inconnu
On a
nS
2

2

2
n1
On reprend les resultats de a) en remplacant T
2
par S
2
et
2
n
par
2
n1
.
Resume
Intervalle dacceptation pour S
2
dans un test bilateral
I
accept
= [

2
0
n
k
n1(

2
)
,

2
0
n
k
n(1

2
)
]
Intervalle de rejet pour S
2
dans un test unilateral `a droite
I
rejet
= [

2
0
n
k
n1(1)
, +]
Intervalle dacceptation pour S
2
dans un test unilateral `a gauche
I
rejet
= [,

2
0
n
k
n1()
]
4.5. TESTS DE CONFORMIT

E SUR UNE PROPORTION 49


4.5 Tests de conformite sur une proportion
Soit la proportion de la population possedant le caract`ere considere. On veut
tester lhypoth`ese
On veut tester lhypoth`ese
(H
0
) =
0
,
0
etant une valeur numerique. contre
(H
1
) ,=
0
ou >
0
ou <
0
.
On prend comme variable de decision F = K/n.
Si =
0
F ^(
0
,
_

0
(1
0
)
n
) (approximation)
On se xe , le risque de type I et on connat la taille de lechantillon.
Calcul de la region critique et conclusion du test
a) Test bilateral ,=
0
On cherche un intervalle symetrique autour de
0
. On cherche dans la table
de ^(0, 1) la valeur u
1

2
telle que
P(u
1

2
<
F
0
_

0
(1
0
n
< u
1

2
) = 1

P(
F
0
_

0
(1
0
n
< u
1

2
) = 1 /2
Lintervalle dacceptation pour F au risque est
I = [
0
u
1

2
_

0
(1
0
)
n
,
0
+u
1

2
_

0
(1
0
)
n
]
Conclusion :
Si f , la realisation de F, I
accept
, on ne peut pas rejeter (H
0
) ,
sinon, on rejette (H
0
).
b) Test unilateral `a droite >
0
On cherche dans la table de ^(0, 1) la valeur u
1
telle que P(
F
0
_

0
(1
0
n
< u
1
) = 1
Lintervalle de rejet pour F au risque est
I = [
0
+u
1
_

0
(1
0
)
n
, +]
Conclusion :
Si f , la realisation de F, I
rejet
, on rejette (H
0
) ,
50 CHAPTER 4. TESTS DE CONFORMIT

E
sinon, on ne rejette pas (H
0
).
c) Test unilateral `a gauche <
0
On a P(
F
0
_

0
(1
0
n
< u
1
) =
Lintervalle de rejet pour F au risque est donc
I = [,
0
u
1
_

0
(1
0
)
n
]
Conclusion :
Si f , la realisation de F, I
rejet
, on rejette (H
0
) ,
sinon, on ne rejette pas (H
0
).
4.6 Tests de choix entre deux valeurs du param`etre
On presentera ici un test dhypoth`ese un peu dierent dans sa formulation mais
dont les etapes sont essentiellement les memes que celles des tests de conformite
dej`a vus. On presentera deux types de probl`emes.
Soit X une v.a qui depend dun param`etre inconnu. Le probl`eme est de
choisir entre deux valeurs numeriques
0
et
1
du param`etre .
(H
0
) =
0
contre
(H
1
) =
1
.
premier type de test
Le risque de type I est donne, ainsi que la taille de lechantillon.
Calcul de la region critique W, Z etant la variable de decision.
a) Si
1
>
0
W = [

, +[ avec P(Z >



avec =
0
) = .
b) Si
1
<
0
W =] ,

] avec P(Z <

avec =
0
) = .
Calcul du risque de deuxi`eme esp`ece = P(accepter(H
0
)alors que (H
1
)est vraie)
a) = P(Z <

avec =
1
).
b) = P(Z >

avec =
1
).
deuxi`eme type de test
On suppose que les risques et sont donnes et on veut determiner la region
critique et la taille de lechantillon.
On peut faire le premier type de test avec la moyenne, la variance et la
proportion. On fera le deuxi`eme test sur la moyenne dun grand echantillon et
sur la proportion.
Chapter 5
Tests de comparaison
5.1 Generalites sur les tests de comparaison
On consid`ere deux variables aleatoires X
1
et X
2
denies sur deux populations
P
1
et P
2
respectivement. Ces v.a dependent dun param`etre inconnu
1
et
2
respectivement.
On veut tester lhypoth`ese
(H
0
)
1

2
= 0
contre
(H
1
)
1

2
,= 0 ou
1

2
> 0 ou
1

2
< 0.
On choisit le risque .
On dispose dun n
1
-echantillon de X
1
et dun n
2
-echantillon de X
2
qui four-
nissent respectivement T
1
un estimateur de
1
et T
2
un estimateur de
2
.
On determine la variable de decision Z qui est une fonction de T
1
et T
2
,
et dont on connat la loi de probabilite si (H
0
) est vraie.
etant connu, on calcule la region critique ou la region dacceptation
comme dans le chapitre precedent.
On calcule la valeur z de Z `a partir des resultats des echantillons.
Si z I
rejet
, on rejette (H
0
) avec un risque de se tromper.
Sinon, on ne peut rejeter (H
0
).
5.2 Tests de comparaison de deux moyennes
Soient deux populations P
1
et P
2
et deux v.a X
1
et X
2
denies respectivement
sur P
1
et P
2
, X
1
et X
2
etant independantes.
On pose
1
= E(X
1
) ,
2
= E(X
2
) ,
1
= (X
1
) ,
2
= (X
2
).
On dispose dun n
1
-echantillon de X
1
qui donne une moyenne x
1
et un ecart
type s
1
et dun n
2
-echantillon de X
2
qui donne une moyenne x
2
et un ecart type
s
2
.
On veut tester lhypoth`ese
(H
0
)
1

2
= 0
51
52 CHAPTER 5. TESTS DE COMPARAISON
contre
(H
1
)
1

2
,= 0 ou
1

2
> 0 ou
1

2
< 0.
On choisit le risque .
5.2.1 Cas o` u
1
et
2
sont connus
On supposera que X
1
^(
1
,
1
) et X
2
^(
2
,
2
) ou que n
1
, n
2
> 30.
On prend comme variable de decision Z =

X
1


X
2

2
1
n
1
+

2
2
n
2
.
Si
1

2
= 0, alors

X
1


X
2

2
1
n
1
+

2
2
n
2
^(0, 1)
a) test bilateral
1

2
,= 0
On cherche un intervalle dacceptation centre en 0. Soit u
1

2
le reel determine
comme habituellement dans la table de la loi centree reduite ^(0, 1).
Lintervalle dacceptation pour Z au risque est
I
accept
= [u
1

2
, +u
1

2
]
Conclusion :
Si z =
x
1
x
2
_

2
1
n
1
+

2
2
n
2
, la realisation de Z, I
accept
, on ne peut rejeter (H
0
)
; sinon, on rejette (H
0
).
b) test unilateral `a droite
1

2
> 0
Soit u
1
le reel determine comme habituellement dans la table de la loi
centree reduite ^(0, 1).
Lintervalle de rejet pour Z au risque est
I
rejet
= [u
1
, +[
Conclusion :
Si z =
x
1
x
2
_

2
1
n
1
+

2
2
n
2
, la realisation de Z, I
rejet
, on rejette (H
0
) au risque
de se tromper; sinon, on ne peut pas rejeter (H
0
).
c) test unilateral `a gauche
1

2
< 0
Soit u
1
le reel determine comme habituellement dans la table de la loi
centree reduite ^(0, 1).
Lintervalle de rejet pour Z au risque est
5.2. TESTS DE COMPARAISON DE DEUX MOYENNES 53
I
rejet
=] , u
1
]
Conclusion :
Si z =
x
1
x
2
_

2
1
n
1
+

2
2
n
2
, la realisation de Z, I
rejet
, on rejette (H
0
) au risque
de se tromper; sinon, on ne peut pas rejeter (H
0
).
5.2.2 Cas o` u
1
et
2
sont inconnus avec
1
=
2
et n
1
et
n
2
< 30
On supposera que X
1
^(
1
,
1
) et X
2
^(
2
,
2
).
On prend comme variable de decision Z =

X
1


X
2

n
1
S
2
1
+n
2
S
2
2
n
1
+n
2
2
_
1
n
1
+
1
n
2
.
Si
1

2
= 0,

X
1


X
2

n
1
S
2
1
+n
2
S
2
2
n
1
+n
2
2
_
1
n
1
+
1
n
2
t
n
1
+n
2
1
a) test bilateral
1

2
,= 0
On cherche un intervalle dacceptation centre en 0. Soit t
1/2
le reel
determine dans la table de la loi de student t
n
1
+n
2
1
tel que P(t
1/2
<
Z < t
1/2
) = 1 ( P(Z < t
1/2
) = 1 /2) .
Lintervalle dacceptation pour Z au risque est
I
accept
= [t
1/2
, +t
1/2
]
Conclusion :
Si z =
x
1
x
2

n
1
s
2
1
+n
2
s
2
2
n
1
+n
2
2
_
1
n
1
+
1
n
2
, la realisation de Z, I
accept
, on ne
peut pas rejeter (H
0
) ,
sinon, on rejette (H
0
).
b) test unilateral `a droite
1

2
> 0
Soit t
1
le reel determine dans la table de la loi de student t
n
1
+n
2
1
tel que
P(Z < t
1
) = 1 .
Lintervalle de rejet pour Z au risque est
I
rejet
= [t
1
, +[
Conclusion :
54 CHAPTER 5. TESTS DE COMPARAISON
Si z =
x
1
x
2

n
1
s
2
1
+n
2
s
2
2
n
1
+n
2
2
_
1
n
1
+
1
n
2
, la realisation de Z, I
rejet
, on rejette
(H
0
) au risque de se tromper ,
sinon, on ne peut pas rejeter (H
0
).
c) test unilateral `a gauche
1

2
< 0
Lintervalle de rejet pour Z au risque est
I
rejet
=] , t
1
]
Conclusion :
Si z =
x
1
x
2

n
1
s
2
1
+n
2
s
2
2
n
1
+n
2
2
_
1
n
1
+
1
n
2
, la realisation de Z, I
rejet
, on rejette
(H
0
) au risque de se tromper ,
sinon, on ne peut pas rejeter (H
0
).
5.2.3 Cas o` u
1
et
2
sont inconnus et n
1
et n
2
> 30
On prend comme variable de decision Z =

X
1


X
2

S
2
1
n
1
1
+
S
2
2
n
2
1
.
Si
1

2
= 0, alors

X
1


X
2

S
2
1
n
1
1
+
S
2
2
n
2
1
^(0, 1)
a) test bilateral
1

2
,= 0
On cherche un intervalle dacceptation centre en 0. Soit u
1

2
le reel determine
comme habituellement dans la table de la loi centree reduite ^(0, 1).
Lintervalle dacceptation pour Z au risque est
I
accept
= [u
1

2
, +u
1

2
]
Conclusion :
Si z =
x
1
x
2
_
s
2
1
n
1
1
+
s
2
2
n
2
1
, la realisation de Z, I
accept
, on ne peut rejeter
(H
0
) ,
sinon, on rejette (H
0
).
b) test unilateral `a droite
1

2
> 0
Soit u
1
le reel determine comme habituellement dans la table de la loi
centree reduite ^(0, 1).
Lintervalle de rejet pour Z au risque est
5.3. TESTS DE COMPARAISON DE DEUX VARIANCES 55
I
rejet
= [u
1
, +[
Conclusion :
Si z =
x
1
x
2
_
s
2
1
n
1
1
+
s
2
2
n
2
1
, la realisation de Z, I
rejet
, on rejette (H
0
) au
risque de se tromper ,
sinon, on ne peut pas rejeter (H
0
).
c) test unilateral `a gauche
1

2
< 0
Soit u
1
le reel determine comme habituellement dans la table de la loi
centree reduite ^(0, 1).
Lintervalle de rejet pour Z au risque est
I
rejet
=] , u
1
]
Conclusion :
Si z =
x
1
x
2
_
s
2
1
n
1
1
+
s
2
2
n
2
1
, la realisation de Z, I
rejet
, on rejette (H
0
) au
risque de se tromper ,
sinon, on ne peut pas rejeter (H
0
).
5.3 Tests de comparaison de deux variances
Soient deux v.a independantes X
1
^(
1
,
1
) et X
2
^(
2
,
2
).
On dispose dun n
1
-echantillon de X
1
qui donne un ecart type s
1
et dun
n
2
-echantillon de X
2
qui donne un ecart type s
2
.
On veut tester lhypoth`ese
(H
0
)
2
1

2
2
= 0
contre
(H
1
)
2
1

2
2
,= 0.
On choisit le risque .
On choisit comme variable de decision, la statistique Z =
n
1
S
2
1
n
1
1
n
2
S
2
2
n
2
1
Si
2
1

2
2
= 0, alors
Z =
n
1
S
2
1
n
1
1
n
2
S
2
2
n
2
1
T(n
1
1, n
2
1)
56 CHAPTER 5. TESTS DE COMPARAISON
Pour calculer la region critique, on determine dans la table de la loi de
Fischer-Snedecor T(n
1
1, n
2
1) les reels f
/2
et f
1/2
tels que
_
P(Z < f
1/2
) = 1 /2
P(Z < f
/2
) = /2
( P(f
1/2
< Z < f
/2
) = 1 ).
Lintervalle dacceptation au risque est
I
accept
= [f
1/2
, f
/2
]
Conclusion
Si z =
n
1
s
2
1
n
1
1
n
2
s
2
2
n
2
1
, la realisation de Z , I
accept
, on accepte (H
0
); sinon on
rejette (H
0
).
Remarque importante
Si est tel que lon ne puisse pas lire dans la table de Fischer-Snedecor les
valeurs f
/2
et f
1/2
, on cherchera un intervalle dacceptation pour Z de la
forme [f

1
, f

2
], f

1
etant denie par P(Z < f

1
) =
1
et f

2
etant denie par
P(Z > f

2
) =
2
avec =
1
+
2
.
5.4 Tests de comparaison de deux proportions
Soient
1
la proportion dindividus possedant le caract`ere considere A dans la
population P
1
et
2
la proportion dindividus possedant le meme caract`ere dans
la population P
2
.
On dispose dun n
1
- echantillon de P
1
et un n
2
- echantillon de P
2
. Soient F
1
la frequence empirique associee `a lechantillon de P
1
et F
2
la frequence empirique
associee `a lechantillon de P
2
.
On veut tester lhypoth`ese
(H
0
)
1
=
2
contre
(H
1
)
1
,=
2
ou
1
>
2
ou
1
<
2
.
On choisit le risque de type I .
Choix de variable de decision :
Si
1
=
2
(= )
Z =
F
1
F
2
_
(1 )(
1
n
1
+
1
n
2
)
^(0, 1).
PROBL
`
EME : est inconnu !!!
On remplace par f =
n
1
f
1
+n
2
f
2
n
1
+n
2
. Ainsi
5.4. TESTS DE COMPARAISON DE DEUX PROPORTIONS 57
Z =
F
1
F
2
_
f(1 f)(
1
n
1
+
1
n
2
)
^(0, 1).
a) test bilateral
1
,=
2
On cherche un intervalle dacceptation centre en 0. Soit u
1

2
le reel determine
comme habituellement dans la table de la loi centree reduite ^(0, 1).
Lintervalle dacceptation pour Z au risque est
I
accept
= [u
1

2
, +u
1

2
]
Conclusion :
Si z =
f
1
f
2
_
f(1 f)(
1
n
1
+
1
n
2
)
, la realisation de Z, I
accept
, on ne peut
rejeter (H
0
) ,
sinon, on rejette (H
0
).
b) test unilateral `a droite
1
>
2
Soit u
1
le reel determine comme habituellement dans la table de la loi
centree reduite ^(0, 1).
Lintervalle de rejet pour Z au risque est
I
rejet
= [u
1
, +[
Conclusion :
Si z , la realisation de Z, I
rejet
, on rejette (H
0
) au risque de se
tromper ,
sinon, on ne peut pas rejeter (H
0
).
c) test unilateral `a gauche
1
<
2
Soit u
1
le reel determine comme habituellement dans la table de la loi
centree reduite ^(0, 1).
Lintervalle de rejet pour Z au risque est
I
rejet
=] , u
1
]
Conclusion :
Si z , la realisation de Z, I
rejet
, on rejette (H
0
) au risque de se
tromper ,
sinon, on ne peut pas rejeter (H
0
).
58 CHAPTER 5. TESTS DE COMPARAISON
Chapter 6
Tests du Khi-deux
6.1 Tests dadequation `a une loi theorique
On a un phenom`ene aleatoire represente par une v.a notee X. Generalement,
on ne connat ni la forme de la loi de probabilite suivie par ce phenom`ene,
ni les param`etres de cette loi. Pour remedier `a cette ignorance, on tire un n-
echantillon que lon analyse selon les methodes de statistiques descriptives. Cela
nous permettra de choisir parmi les lois de probabilite classiques (binomiale,
de Poisson, normale,..) celle qui semble etre le plus proche de la distribution
experimentale induite par lechantillon.
On estime ensuite, `a partir des resultats observes sur lechantillon, les param`etres
de cette loi theorique choisie pour modeliser le phenom`ene aleatoire.
Mais il subsiste toujours des ecarts entre la loi theorique ainsi determinee et
la distribution issue du sondage.
Si ces ecarts ne sont pas trop grands, on conclura quils sont dus au hasard
et lhypoth`ese selon laquelle le phenom`ene suit la loi theorique choisie ne pourra
pas etre refusee; sinon, on conclura que le phenom`ene ne suit pas la loi theorique
retenue.
Ce qui prec`ede resume le principe des tests dhypoth`eses concernant la va-
lidite de lajustement dune distribution experimentale issue dun sondage `a une
loi theorique.
On veut tester lhypoth`ese selon laquelle la v.a X suit une loi Q.
Lhypoth`ese sera donc
(H
0
) X suit la loi Q
contre
(H
1
) X ne suit pas la loi Q.
Il sagit de determiner la variable de decision.
Pour cela on dispose de n observations ou realisations de cette v.a. Ces
observations peuvent etre groupees en k classes ou modalites notees C
1
, . . . , C
k
.
A chaque classe C
i
correspond un EFFECTIF OBSERVE note n
i
.
La distribution experimentale peut etre mise sous la forme :
59
60 CHAPTER 6. TESTS DU KHI-DEUX
classes de X eectifs observes
C
1
n
1
C
2
n
2
.
.
.
.
.
.
C
k
n
k
total n =
i=k

i=1
n
i
Ecart entre une distribution experimentale et une loi theorique
Si X Q, on peut calculer la probabilite de la classe C
i
, notee p
i
(p
i
= P(X
C
i
)) car on connat Q.
denition On appelle EFFECTIF THEORIQUE le produit np
i
.
( Ce nest pas forcement un entier).
denition Lecart entre la distribution theorique et experimentale est mesure
par la distance
d =
i=k

i=1
(n
i
np
i
)
2
np
i
A cette distance d, on associe la statistique D dont la realisation est d:
D =
i=k

i=1
(N
i
np
i
)
2
np
i
, N
i
etant la v.a qui compte leectif de la classe C
i
et
dont la realisation est n
i
.
On choisira comme variable de decision D.
Si X Q, alors
i=k

i=1
(N
i
np
i
)
2
np
i

2
kr1
o` u r est le nombre de param`etres de la loi Q qui ont ete estimes et k, le nombre
de classes de X.
On choisit le risque de type I et on va rejeter (H
0
) si lecart D est trop
grand. Ainsi, on choisira la zone de rejet de la forme [d

, +[. On determine
dans la table de
2
kr1
, le reel k
kr1(1)
tel que P(D < k
kr1(1)
) = 1.
6.2. TESTS DIND

EPENDANCE DE DEUX CARACT


`
ERES 61
conclusion
Si d [k
kr1(1)
, +[ on rejette (H
0
) avec le risque de se tromper;
sinon on ne la rejette pas.
6.2 Tests dindependance de deux caract`eres
Soient X et Y deux variables aleatoires denies sur la meme population
mesurant deux caract`eres (X et Y peuvent etre des variables qualitatives).
X : M, M etant un ensemble de modalites divise en k classes C
1
, C
2
, . . . , C
k
.
Y : M

, M

etant un ensemble de modalites divise en l classes D


1
, D
2
, . . . , D
l
.
On veut savoir sil existe une liaison signicative entre X et Y .
On veut tester lhypoth`ese
(H
0
) X et Y sont independantes
contre
(H
1
) X et Y ne sont pas independantes.
Il sagit de determiner la variable de decision.
Pour cela, on dispose dun echantillon de X et dun echantillon de Y dont
les resultats peuvent se mettre sous la forme du tableau de contingence suivant
:
D
1
D
2
. . . D
l
Eectifs des C
i
C
1
n
11
n
12
.
.
. n
1l
n
1
C
2
n
21
n
22
.
.
. n
2l
n
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
C
k
n
k1
n
k2
.
.
. n
kl
n
k
Eectif desD
j
n
1
n
2
.
.
. n
l
n
avec n
j
=
i=k

i=1
n
ij
et n
i
=
j=l

j=1
n
ij
et n =
i=k

i=1
j=l

j=1
n
ij
.
Si (H
0
) est vraie, alors
P((X C
i
) (X D
j
)) = P(X C
i
) P(Y D
j
) i, j.
Comme on ne connat pas les probabilites theoriques de X et Y , on peut
traduire cette propriete par :
f
ij
= f
i
f
j
i, j (1)
avec f
ij
=
n
ij
n
, f
i
=
n
i
n
, f
j
=
n
j
n
denition On appelle EFFECTIF THEORIQUE la quantite t
ij
=
n
i
n
j
n
62 CHAPTER 6. TESTS DU KHI-DEUX
On a (1) n
ij
= t
ij
i, j
(eectif theorique =
total de la ligne total de la colonne
n
).
On denit la quantite d =
i=k

i=1
j=l

j=1
(n
ij
t
ij
)
2
t
ij
. Il est naturel de decider que
si d est trop grande, on rejette (H
0
).
On choisit comme variable de decision la v.a D associee `a d.
Si (H
0
) est vraie,
i=k

i=1
j=l

j=1
(N
ij
T
ij
)
2
T
ij

2
(k1)(l1)
o` u T
ij
et N
ij
sont les v.a dont les realisations sont respectivement t
ij
et n
ij
.
Le risque de type I, , etant xe, n calcule la region critique en determinant
le reel k
(k1)(l1)
(1 ) dans la table du
2
correspondante tel que P(D <
k
(k1)(l1)
(1 )) = 1 .
conclusion
Si d [k
(k1)(l1)
(1), +[ on rejette (H
0
) avec le risque de se tromper;
sinon on ne la rejette pas.
Remarque Tous les eectifs doivent etre superieurs `a 5. Si ce nest pas
le cas, il faut regrouper les classes (ceci est egalement valable pour les tests
dadequation et ceux dhomogeneite).
6.3 Tests dhomogeneite (dune v.a X)
On consid`ere r populations P
1
, P
2
, . . . , P
r
chacune divisees en k classes distinctes
C
1
, C
2
, . . . , C
k
selon une meme variable aleatoire X.
Denition : On dira que les populations sont homog`enes si la distribution
est la meme dans les r populations.
On veut tester lhypoth`ese
(H
0
) les r populations sont homog`enes
contre
(H
1
) les r populations ne sont pas homog`enes.
Mais comment traduire cette hypoth`ese ? On note p
ij
la probabilite de la
classe C
j
dans la population P
i
. Les r populations sont homog`enes si les p
ij
ne
dependent pas de la population P
i
ce qui se traduit par
(H
0
) p
ij
= p
j
i = 1, . . . , r j = 1, . . . , k avec
j=k

j=1
p
j
= 1
Mais les p
j
sont inconnus puisque lon ne connat pas la loi de probabilite
theorique de X (p
j
= P(X C
j
)).
6.3. TESTS DHOMOG

EN

EIT

E (DUNE V.A X) 63
On a `a notre disposition un echantillon de X dans chacune des r populations
dont les resultats peuvent se mettre sous la forme du tableau de contingence
suivant :
C
1
C
2
. . . C
k
Taille des echantillons
P
1
n
11
n
12
.
.
. n
1k
n
1
P
2
n
21
n
22
.
.
. n
2k
n
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
P
r
n
r1
n
r2
.
.
. n
rk
n
r
Eectif desC
j
n
1
n
2
.
.
. n
k
n
avec n
j
=
i=r

i=1
n
ij
et n
i
=
j=k

j=1
n
ij
et n =
i=r

i=1
j=k

j=1
n
ij
.
On estimera naturellement le param`etre p
j
par la proportion correspondante
dans lechantillon : p
j

n
j
n
Ainsi si (H
0
) est vraie, leectif theorique de la classe C
j
dans la population
P
i
est `a peu pr`es t
ij
= n
i
p
j
=
n
i
n
j
n
On denit la quantite d =
i=k

i=1
j=l

j=1
(n
ij
t
ij
)
2
t
ij
. Il est naturel de decider que
si d est trop grand, on rejette (H
0
).
On choisit comme variable de decision la v.a D associee `a d.
Si (H
0
) est vraie,
i=k

i=1
j=l

j=1
(N
ij
T
ij
)
2
T
ij

2
(k1)(r1)
o` u T
ij
et N
ij
sont les v.a dont les realisations sont respectivement t
ij
et n
ij
.
Le risque de type I, , etant xe, on calcule la region critique en determinant
le reel k
(k1)(r1)
(1 ) dans la table du
2
correspondante tel que P(D <
k
(k1)(r1)
(1 )) = 1 .
conclusion
Si d [k
(k1)(r1)
(1), +[ on rejette (H
0
) avec le risque de se tromper;
sinon on ne la rejette pas.
Remarque Les notations sont les memes que dans les tests dindependance,
mais les signications de ces notations sont dierentes.
64 CHAPTER 6. TESTS DU KHI-DEUX
Bibliography
[1] B. Goldfarb et C. Pardoux
Introduction `a la methode statistique
Dunod.
65

Vous aimerez peut-être aussi