Vous êtes sur la page 1sur 63

UNIVERSITÉ MOULAY ISMAIL

ÉCOLE NATIONALE SUPÉRIEURE


D’ARTS ET METIERS- MEKNÈS

COURS DE
MODELISATION STATISTIQUE.

Pr. Houda BARKOUKI

Année universitaire : 2023/2024


Contents

1 Rappels des probabilités pour la statistique 5

1.1 Rappel des lois de probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.1.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.1.1.1 Fonction de répartition d’une loi discrète . . . . . . . . . . . . . . . . . . . . . . . . 5

1.1.1.2 Fonction de répartition d’une loi continue . . . . . . . . . . . . . . . . . . . . . . . 6

1.1.1.3 Espérance et variance dans le cas discret . . . . . . . . . . . . . . . . . . . . . . . . 6

1.1.1.4 Espérance et variance dans le cas continu . . . . . . . . . . . . . . . . . . . . . . . 6

1.1.2 Principales lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1.2.1 Loi de Bernoulli B(p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1.2.2 Loi binomiale B(n, p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1.2.3 Loi de Poisson P(λ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1.3 Principales lois continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1.3.1 Loi uniforme U([a, b]) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1.3.2 Loi exponentielle E(λ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.1.3.3 Loi normale N (m, σ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.1.3.4 Loi normale centrée réduite N (0, 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.1.3.5 Loi du khi-deux χ2n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1
Contents

1.1.4 Relations entre les principales lois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.1.5 Couple de v.a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.1.5.1 Cas discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.1.5.2 Cas continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.1.5.3 Lois conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.1.5.4 Caractéristique d’un couple (X, Y) . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.2 Convergence et approximations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.2.1 Théorème Central Limite (TCL) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.2.2 Approximations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.3 Échantillonnage et estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.3.1 Distribution d’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.3.1.1 Distribution d’échantillonnage de la moyenne . . . . . . . . . . . . . . . . . . . . . 14

1.3.1.2 Distribution d’échantillonnage d’une variance . . . . . . . . . . . . . . . . . . . . . 14

1.3.1.3 Distribution d’échantillonnage d’une proportion . . . . . . . . . . . . . . . . . . . . 14

1.3.1.4 Lois et lois limites de distributions d’échantillonnage . . . . . . . . . . . . . . . . . 14

1.3.2 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.3.2.1 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.3.2.2 Estimation par intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . . 17

2 Tests d’hypothèse 19

2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.2 Techniques de base pour tester les hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.2.1 Choix de l’hypothèse à tester . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.2.1.1 Hypothèse nulle et hypothèse alternative . . . . . . . . . . . . . . . . . . . . . . . . 21

2.2.1.2 La nature du test (unilatéral ou bilatéral) . . . . . . . . . . . . . . . . . . . . . . . 21

2
Contents

2.2.2 Risques d’erreur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.2.2.1 Risque d’erreur du première espèce α . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.2.2.2 Risque d’erreur du deuxième espèce β . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.2.2.3 La puissance d’un test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.2.3 Choix d’un test statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.2.4 Choix de la région critique ou la zone d’acceptation . . . . . . . . . . . . . . . . . . . . . . . 24

2.2.5 Règle de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.2.5.1 Règle de décision 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.2.5.2 Règle de décision 2 : p-valeur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.3 Tests statistiques paramétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.3.1 Tests de conformité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.3.1.1 Comparaison de moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.3.1.2 Comparaison de deux variances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.3.1.3 Comparaison de deux proportions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.3.2 Tests d’homogénéité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.3.2.1 Comparaison de variances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.3.2.2 Comparaison de deux moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

2.3.2.3 Comparaison de deux proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3 TESTS KHI-DEUX 50

3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.1.1 Principe du test χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.1.2 Statistique du test χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.1.3 Zone critique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.1.4 règle de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3
Contents

3.1.5 Condition d’application du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.2 Test d’ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.2.1 Principe du test et formulation des hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.2.1.1 Formulation des hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.2.1.2 Tableaux de contingence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.2.2 Statistique du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

3.2.3 Zone critique et règle de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

3.3 Test d’homogénéité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.3.1 Principe du test et formulation des hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.3.1.1 Formulation des hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.3.1.2 Tableaux de contingence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.3.2 Statistique de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

3.3.3 Zone critique et règle de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

3.4 Test d’indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3.4.1 Principe du test et formulation des hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3.4.1.1 Formulation des hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3.4.1.2 Tableaux de contingence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3.4.2 Statistique du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

3.4.3 Zone critique et règle de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4
Rappels des probabilités pour la statistique
1
Ce chapitre énonce quelques résultats de base du calcul des probabilités utiles pour la statistique. Les notions sont
présentées sans aucune démonstration. Les détails ont été déjà vus dans le cours de Probabilités du quatrième
semestre, et aussi le cours de statistique mathématique du cinquième semestre.

1.1 Rappel des lois de probabilités

En théorie des probabilités et en statistique, une loi de probabilité décrit le comportement aléatoire d’un phénomène
dépendant du hasard. Elle est dite continue ou discrète, selon qu’elle définit une probabilité pour une variable
continue ou discrète.

1.1.1 Généralités

1.1.1.1 Fonction de répartition d’une loi discrète

Si X est une variable aléatoire discrète telle que X(Ω) = {x1 , ..., xn }, sa fonction de répartition est définie par

5
Chapter 1. Rappels des probabilités pour la statistique

X
FX (x) = P (X ≤ x) = P (X = xi )
xi ∈X(Ω), xi ≤x

1.1.1.2 Fonction de répartition d’une loi continue

Si X est une variable aléatoire continue de densité f, sa fonctionZ de répartition est définie par
x
FX (x) = P (X ≤ x) = f (t)dt
−∞


On a alors P (X > x) = 1 − FX (x) et sa densité vaut f (x) = FX (x).

1.1.1.3 Espérance et variance dans le cas discret

Si X est une variable aléatoire discrète, on a :


k
X
E(X) = xi p(xi )
i=1
Xk
E(X 2 ) = xi 2 p(xi )
i=1
V (X) = E(X 2 ) − E(X)2

1.1.1.4 Espérance et variance dans le cas continu

Si X est une variable aléatoire continue de densité f, on a :

Z +∞
E(X) = xf (x)
−∞
Z +∞
E(X 2 ) = x2 f (x)
−∞
V (X) = E(X 2 ) − E(X)2

6
Chapter 1. Rappels des probabilités pour la statistique

1.1.2 Principales lois discrètes

1.1.2.1 Loi de Bernoulli B(p)

•X(Ω) = {0, 1}, paramètre p

• P(X=1)=p, P(X=0)=(1-p)

• E(X)=p, V(X)=p(1-p)

1.1.2.2 Loi binomiale B(n, p)

•X(Ω) = {0, . . . , n}, paramètre n et p

•P (X = k) = Cnk pk (1 − p)n−k

• E(X)=np, V(X)=np(1-p)

1.1.2.3 Loi de Poisson P(λ)

•X(Ω) = N, paramètre λ

•E(X) = V (X) = λ

λk e−λ
•P (X = k) =
k!

1.1.3 Principales lois continues

1.1.3.1 Loi uniforme U([a, b])

•X(Ω) = [a, b], paramètres a et b

 1 si x ∈ [a, b],

•f (x) = b−a
 0 sinon



 0 si x < a,
 x−a
•F (x) = si a ≤ x ≤ b,
 b−a

1 si x > b

7
Chapter 1. Rappels des probabilités pour la statistique

a+b (b − a)2
•E(X) = , V (X) =
2 12

1.1.3.2 Loi exponentielle E(λ)

•X(Ω) = R+ , paramètre λ
(
λe−λx si x > 0,
•f (x) =
0 sinon
(
1 − e−λx si x > 0,
•F (x) =
0 sinon

1 1
•E(X) = , V (X) = 2
λ λ

1.1.3.3 Loi normale N (m, σ)

•X(Ω) = R, paramètres m (moyenne) et σ (écart-type)

(x − m)2
1 −
•f (x) = √ e 2σ 2
σ 2π
(x − m)2
1 Rx −
•F (x) = √ −∞
e 2σ 2 dx
σ 2π
• E(X)=m, V(X)=σ 2

1.1.3.4 Loi normale centrée réduite N (0, 1)

•X(Ω) = R, paramètres m=0 et σ = 1

−(x)2
1
•f (x) = √ e 2

−x2
Rx 1
•F (x) = −∞
√ e 2 dx

• E(X)=0, V(X)=1

8
Chapter 1. Rappels des probabilités pour la statistique

1.1.3.5 Loi du khi-deux χ2n

•X(Ω) = R+ , paramètres n (degré de liberté)

• E(X)=n, V(X)=2n

Loi de Student Tn

•X(Ω) = R, paramètres n (degré de liberté)

• E(X)=0 pour n > 1, V(X)=n/(n-2) pour n > 2

1.1.4 Relations entre les principales lois


Pn
• Si les variables Xi suivent une loi B(p) et sont indépendantes, alors la variable Y = i=1 Xi suit une loi B(n,p).
Pn
• Si les variables Xi suivent une loi P(λi ) et sont indépendantes, alors la variable Y = i=1 Xi suit une loi
P
P( λi ).
X −m
• Si la variable X suit une loi N (m, σ), alors la variable Y = suit une loi N (0, 1).
σ
• Si X1 , . . . , Xn sont indépendantes et Xi ∼ N (0, 1) pour tout i ∈ {1, . . . , n}, alors Z = X12 + . . . + Xn2 ∼ χ2n .
√ X
• Si X ∼ N (0, 1), Y suit une loi de χ2n à n degrés de liberté et X et Y sont indépendantes, alors Z = n√
Y
suit une loi de Student à n degrés de liberté.

• Soit X une variable aléatoire de loi χ2n et Y une variable aléatoire de loi χ2m . Si X et Y sont indépendantes,
X/n mX
alors Z = = est de loi de Fisher-Snedecor à (n,m) degrés de liberté (de paramètres n et m). On note
Y /m nY
X ∼ F (n, m).

1.1.5 Couple de v.a

Définition

Un couple de variables aléatoires sur (Ω, F, P ) est un couple (X, Y ), où X et Y sont des variables aléatoires
réelles sur (Ω, F, P ).

9
Chapter 1. Rappels des probabilités pour la statistique

1.1.5.1 Cas discret

ˆ Loi conjointe: La loi conjointe ou loi du couple (X, Y ) est l’ensemble des couples
{((xi , yj ), pi,j ), (i, j) ∈ I × J}
où
pi,j = P ((X = xi ) ∩ (Y = yj )) = P ((X, Y )−1 ({(xi , yj )})).
P
avec pij ≥ 0 pour tout (i, j) ∈ I × J et (i,j)∈I×J pij = 1.

ˆ Lois marginales (de X et de Y):


X X
pi. := P (X = xi ) = p(xi ) = P ((X = xi ) ∩ (Y = yj )) = pij
j∈J j∈J

et

X X
p.j := P (Y = yj ) = P (yj ) = P ((X = xi ) ∩ (Y = yj )) = pij .
i∈I i∈I

ˆ Indépendance: X et Y sont indépendantes si:


pi,j = pi. × p.j , ∀(i, j) ∈ (I × J).

1.1.5.2 Cas continue

ˆ Loi conjointe: La loi du vecteur (X, Y) est donnée pas sa fonction de densité f(X,Y ) (x, y) telle que
R
f(X,Y ) (x, y) ≥ 0 et R f (x, y)dxdy = 1.
Ou bien par sa fonction de répartition F(X,Y ) (x, y)
Z xtelle
Z yque:
F(X,Y ) (x, y) = f(X,Y ) (x, y)dxdy.
−∞ −∞

ˆ Lois marginales:

 R
 fX (x) = R f(X,Y ) (x, y)dy,

 R
fY (y) = f(X,Y ) (x, y)dx,

R

ˆ Indépendance: X et Y sont indépendantes si:


f(X,Y ) (x, y) = fX (x).fY (y)
ou bien
F(X,Y ) (x, y) = FX (x).FY (y)

1.1.5.3 Lois conditionnelles

On définit les lois conditionnelles par

10
Chapter 1. Rappels des probabilités pour la statistique

pij pij
P (X = xi /Y = yj ) = =
p(yj ) p.j

pij pij
P (Y = yj /X = xi ) = =
p(xi ) pi.

1.1.5.4 Caractéristique d’un couple (X, Y)

1. Espérance mathématique :
XX
ˆ Cas discret: E(X · Y ) = xi yj × p(xi , yj ).
i∈I j∈J

ˆ Cas continue: E(X · Y ) =


R
R
x.yf(X,Y ) dxdy.

2. Covariance d’un couple de variables aléatoires : la covariance d’un couple de variables aléatoires est un
paramètre permettant d’étudier le sens de la relation entre deux variables. C’est l’espérance mathématique
des produits des écarts par rapport aux espérances. Elle est définit par :

cov(X, Y ) = E[(X − E(X))(Y − E(Y ))] = E(X · Y ) − E(X)E(Y )

Si X et Y sont deux variables indépendantes, alors leur covariance est nulle. En effet, on a alors :

E(X · Y ) = E(X) · E(Y ) = E(X)E(Y ),


La réciproque, cependant, n’est pas toujours vraie. Il est en effet possible que X et Y ne soient pas
indépendantes, et que leur covariance soit nulle. Des variables aléatoires dont la covariance est nulle sont
dites non corrélées (absence de liaison linéaire).
Cov(X, Y ) > 0 indique l’existence d’une relation linéaire positive entre X et Y.
Cov(X, Y ) < 0 indique l’existence d’une relation linéaire négative entre X et Y.
Propriétés :
Soient X et Y deux v.a :

ˆ V (X + Y ) = V (X) + V (Y ) + 2Cov(X, Y )
ˆ V (X − Y ) = V (X) + V (Y ) − 2Cov(X, Y )
ˆ cov(X,X)=V(X)
ˆ Si X et Y sont indépendantes, alors Cov(X,Y)=0 et on :
– E(X · Y ) = E(X) × E(Y )
– V (X + Y ) = V (X − Y ) = V (X) + V (Y )

11
Chapter 1. Rappels des probabilités pour la statistique

3. Coefficient de corrélation linéaire: le coefficient de corrélation linéaire, désigné par r, a pour objet de mesurer
le degré de la relation linéaire entre deux variables X et Y.
Cov(X, Y )
r(X, Y ) = p
V (X)V (Y )
Cette définition montre que le coefficient de corrélation linéaire possède le même signe que la covariance et
qu’il est toujours compris entre -1 et 1.
−1 ≤ r(X, Y ) ≤ 1

Propriétés :

ˆ Plus r(X, Y ) est proche de 1 plus la relation est forte positive.


ˆ Plus r(X, Y ) est proche de -1 plus la relation est forte négative.
ˆ Plus r(X, Y ) est proche de 0 plus la relation est faible.
ˆ Si X et Y sont indépendantes alors r(X, Y ) = 0. Le réciproque n’est pas toujours vrai.

1.2 Convergence et approximations

1.2.1 Théorème Central Limite (TCL)

Soit {Xn }n≥1 une suite de variables aléatoires réelles indépendantes et de même loi (iid), d’espérance E(X) =
p
E(Xi ) = m et d’écart-type σ(X) = σ(Xi ) = V ar(X) = σ pour tout i = 1, ..., n.

Soit Sn = X1 + . . . + Xn . Alors
Sn − E(Sn ) Sn − n.m L
= √ −−−−→ N (0, 1)
σ(Sn ) n.σ n→+∞

Autrement dit,

X̄ − m L
σ −−−−→ N (0, 1)
n→+∞

n
n
1X Sn
avec X̄ = Xi = .
n i=1 n
 
1 Pn σ
Plus précisément, pour n assez grand X̄ = Xi est approximativement de loi N m, √ .
n i=1 n

12
Chapter 1. Rappels des probabilités pour la statistique

1.2.2 Approximations

• Si n ≥ 30 et np < 5, on peut approcher une loi B(n,p) par une loi P(λ), avec λ = np.
p
• Si n ≥ 30, np ≥ 5 et n(1 − p) ≥ 5, alors on peut approcher une loi B(n,p) par une loi N (np, np(1 − p)).

• Si λ est assez grand, on peut approcher une loi P(λ) par une loi N (λ, λ).

• Si n est assez grand, on peut approcher une loi χ2n par une loi N (n, 2n).

• Si n est assez grand, on peut approcher une loi Tn par une loi N (0, 1).

1.3 Échantillonnage et estimation

1.3.1 Distribution d’échantillonnage

Pour résoudre les problèmes d’estimation de paramètres inconnus, il faut tout d’abord étudier les distributions
d’échantillonnage, c’est à dire la loi de probabilité suivie par l’estimateur.

Remarque:

En théorie de l’estimation, il s’agit de distinguer soigneusement entre trois concepts différents :

1. les paramètres de la population comme l’espérance m dont la valeur est certaine mais souvent inconnue
(symbolisés par des lettres grecques).

2. les paramètres de l’échantillon comme la moyenne empirique x̄ dont la valeur est incertaine mais connue
(symbolisés par des minuscules).

3. les distributions d’échantillonnage (variables aléatoires des paramètres de l’échantillon), comme la moyenne
aléatoire X̄ dont la valeur est incertaine puisque aléatoire mais dont la loi de probabilité est souvent connue
(symbolisées par des majuscules).

Soit X une variable aléatoire étudiée sur une population. Soit (X1 , X2 , . . . , Xn ) un échantillon aléatoire non
exhaustif (les v.a sont indépendantes et de même loi(i.i.d)) et (x1 , x2 , . . . , xn ) un échantillon aléatoire empirique.

13
Chapter 1. Rappels des probabilités pour la statistique

1.3.1.1 Distribution d’échantillonnage de la moyenne

On construit la variable aléatoire X, telle que


n
X1 + X2 + . . . + Xi + . . . + Xn 1X
X̄ = = Xi
n n i=1

X̄ est la distribution d’échantillonnage de la moyenne.


1 Pn
x̄ = xi est une réalisation de la v.a X̄.
n i=1

1.3.1.2 Distribution d’échantillonnage d’une variance

La variable aléatoire S 2 telle que


n
2 1X
S = (Xi − X̄)2
n i=1
est la distribution d’échantillonnage de la variance.
1 Pn
s2 = 2 2
i=1 (xi − x̄) est une réalisation de la variable aléatoire S .
n

1.3.1.3 Distribution d’échantillonnage d’une proportion

K
On construit la variable aléatoire F = = X̄ avec K est la v.a possédant comme valeurs le nombre d’individus,
n
avec le caractère étudié, dans chaque échantillon.

La v.a F est la distribution d’échantillonnage de la proportion p.


k
f= est une réalisation de la v.a F.
n

1.3.1.4 Lois et lois limites de distributions d’échantillonnage

En fonction de la nature de la variable aléatoire continue X, de la taille de l’échantillon n et de la connaissance


que nous avons sur le paramètre σ 2 , les distributions d’échantillonnage X̄, S 2 et F peuvent suivre ou converger vers
différentes loi.

1. Si X de loi inconnue et la taille de l’échantillon n est assez grande (n ≥ 30), on se trouve dans les conditions
du Théorème Central Limite et on a:
X̄ − m
ˆ Si σ est connu, √ suit la loi normale centrée réduite N (0, 1).
σ/ n

14
Chapter 1. Rappels des probabilités pour la statistique

X̄ − m
ˆ Si σ est inconnu, suit la loi normale centrée réduite N (0, 1).
S

n−1
F −p
ˆ r suit la loi normale centrée réduite.
pq
n
S 2 − σ2
ˆ r suit la loi normale centrée réduite, avec m4 = E((X − m)4 ).
4
m4 − σ
n
2. Si X ∼ N (m, σ), on a ∀n ≥ 1:
  
X̄ − m σ
ˆ σ suit la loi N (0, 1) X̄ ∼ N m, √ (σ 2 connue).
√ n
n
X̄ − m
ˆ suit la loi Tn−1 (σ 2 inconnue).
S

n−1
nT 2
ˆ suit la loi χ2n (m connue).
σ2
nS 2
ˆ suit la loi χ2n−1 (m inconnue).
σ2
• Lorsque n ≥ 30, la loi Student converge vers une loi normale centrée réduite.

1.3.2 Estimation

Soient X1 , X2 , . . . , Xn , n réalisations indépendantes de la variable aléatoire X (discrète ou continue) et θ un


paramètre inconnu associé à la loi de probabilité suivi par X, un estimateur du paramètre θ est une variable
aléatoire Θ fonction des Xi :
Θ = f (X1 , X2, . . . , Xn )

Si on considère n observations x1 , x2 , . . . , xn , l’estimateur Θ fournira une estimation de θ notée également θ̂ :


θ̂ = f (x1 , x2 , . . . , xn )

L’estimation a donc pour objectif de déterminer les valeurs inconnues des paramètres de la population (p, m, σ 2 )
ou (proportion, espérance, variance) à partir des données de l’échantillon (f, x, s2 ).

certaine probabilité.

15
Chapter 1. Rappels des probabilités pour la statistique

1.3.2.1 Estimation ponctuelle

L’estimation d’un paramètre quelconque θ est dite ponctuelle si l’on associe une seule valeur à θ̂ à partir des données
observables sur un échantillon aléatoire. Pour construire une estimation ponctuelle d’un paramètre inconnu θ, on
peut utilise la méthode du maximum de vraisemblance ou la méthode des moments (voir cours statistique
mathématique).

Pour les paramètres usuelles, on a:

Espérance de X:

La moyenne empirique X̄ constitue le meilleur estimateur de m=E(X):


n
1X
X̄ = Xi
n i=1

Pour une réalisation donnée (x1 , . . . , xn ) d’un échantillon aléatoire, une estimation m̂ de l’espérance m est donnée
par :
n
1X
m̂ = x̄ = xi
n i=1

Variance de X:

• Cas où l’espérance m est connu : La variance observée T 2 constitue le meilleur estimateur de σ 2 = V (X),
lorsque l’espérance m est connue :

n
2 1X
T = (Xi − m)2
n i=1

Pour une réalisation donnée (x1 , . . . , xn ) d’un échantillon aléatoire, une estimation σ̂ 2 de la variance σ 2 est donné
par :

n
2 1X
σ̂ = (xi − m)2
n i=1

• Cas où l’espérance m n’est pas connu :

La variance empirique corrigée S ∗2 , constitue le meilleur estimateur de σ 2 lorsque l’espérance m est inconnu.
n
∗2 n 2 1 X
S = S = (Xi − X̄)2
n−1 n − 1 i=1
1 Pn
avec S 2 = (Xi − X̄)2 est la variance empirique.
n i=1
Pour une réalisation donnée (x1 , . . . , xn ) d’un échantillon aléatoire, une estimation σ̂ 2 de la variance σ 2 lorsque

16
Chapter 1. Rappels des probabilités pour la statistique

l’espérance est inconnue est donnée par :


n
2 ∗2 n 2 1 X
σ̂ = s = s = (xi − x̄)2
n−1 n − 1 i=1

Proportion :

La distribution d’échantillonnage de la proportion, notée F, constitue le meilleur estimateur de p, proportion de


la population :
K
F =
n

k
La fréquence observée f = dans un échantillon de taille n est une estimation de p, proportion de la population:
n
p̂ = f

1.3.2.2 Estimation par intervalle de confiance

L’estimation par intervalle associe à un échantillon aléatoire, un intervalle [θ̂1 , θ̂2 ] qui recouvre θ̂ avec une certaine
probabilité.

Cet intervalle est appelé l’intervalle de confiance du paramètre θ car la probabilité que θ dont la valeur est
inconnue se trouve compris entre θ1 et θ2 est égale à 1 − α, le coefficient de confiance

P (θ1 ≤ θ ≤ θ2 ) = 1 − α

Son complément α correspond au coefficient de risque qui vérifie


P (θ ∈/ [θ1 , θ2 ]) = α

Intervalle de confiance de m=E(X):

• X ∼ N (m, σ) et σ connu:

 
σ σ
I(m) = X̄ − z1−α/2 √ , X̄ + z1−α/2 √
n n

• X ∼ N (m, σ) et σ inconnu:

 
S S
I(m) = X̄ − t1−α/2 √ , X̄ + t1−α/2 √
n−1 n−1

avec z1−α/2 et t1−α/2 sont les quantiles d’ordre 1 − α/2 de la loi N (0, 1) et la loi Tn−1 , respectivement.

17
Chapter 1. Rappels des probabilités pour la statistique

• Lorsque n ≥ 30, la loi Student converge vers une loi normale centrée réduite. Ainsi t1−α/2 ≈ z1−α/2 .

• Si X de loi inconnue et n ≥ 30: 


S S
I(m) = X̄ − z1−α/2 √ , X̄ + z1−α/2 √ , si (σ inconnu)
n−1 n−1

et

 
σ σ
I(m) = X̄ − z1−α/2 √ , X̄ + z1−α/2 √ , si (σ connu)
n n

• Si X suit de loi inconnue et n < 30 :


X̄ − m X̄ − m
La loi de probabilité suivie par √ et √ ne sont pas connues.
S/ n − 1 σ/ n

Intervalle de confiance d’une variance :

• X ∼ N (m, σ) et m connue :

" #
nT 2 nT 2
I(σ 2 ) = ,
χ21−α/2 χ2α/2

avec χ21−α/2 et χ2α/2 sont les quantiles d’ordre 1 − α/2 et α/2, respectivement de la loi χ2n .

• X ∼ N (m, σ) et m inconnue :

" #
nS 2 nS 2
I(σ 2 ) = ,
χ21−α/2 χ2α/2

avec χ21−α/2 et χ2α/2 sont les quantiles d’ordre 1 − α/2 et α/2, respectivement de la loi χ2n−1 .

Intervalle de confiance d’une


" proportionr : Si n est assez grand r et np, nq#≥ 5, on a:
F (1 − F ) F (1 − F )
F − z1−α/2 , F + z1−α/2 .
n n

18
Tests d’hypothèse
2
2.1 Introduction

Un test d’hypothèse est un procédé d’inférence permettant de contrôler (accepter ou rejeter), à partir de l’étude d’un
ou plusieurs échantillons aléatoires, la validité d’hypothèses relatives à une ou plusieurs populations. Autrement
dit, il permet de déterminer, avec une probabilité donnée, si les différences constatées au niveau des échantillons
peuvent être imputables au hasard ou si elles sont suffisamment importantes pour signifier que les échantillons
proviennent de populations vraisemblablement différentes.

En fonction de l’hypothèse testée, plusieurs types de tests peuvent être réalisés :

1. Les tests destinés à vérifier si un échantillon peut être considéré comme extrait d’une population donnée,
vis-à-vis d’un paramètre comme la moyenne, la variance ou la fréquence observée (tests de conformité).
Exemple :
• Est-ce que le taux de glucose moyen mesuré dans un échantillon d’individus est conforme au taux de glucose
moyen connu dans la population ?

2. Les tests destinés à comparer plusieurs populations à l’aide d’un nombre équivalent d’échantillons (tests
d’égalité ou d’homogénéité).
Exemple :

19
Chapter 2. Tests d’hypothèse

• Y a-t-il une différence entre le taux de glucose moyen mesuré pour deux échantillons d’individus ayant reçu
des traitements différents ?

3. Les tests destinés à vérifier si un échantillon peut être considéré comme extrait d’une population donnée par
rapport à sa distribution observée (tests d’ajustement).
Exemple :
• Est ce que la durée de vie d’un équipement électrique obéit approximativement à une loi exponentielle ?

4. Les tests destinés à tester l’indépendance entre deux caractères, généralement qualitatifs (tests d’indépendance
Exemple :
• Est-ce que la distribution des fréquences génotypiques observées pour un locus donné est indépendante du
sexe des individus ?.

Pour répondre à ces questions, on doit formuler des hypothèses statistiques qui sont alors acceptées ou rejetées au
vu des résultats numériques obtenus lors de la réalisation de n expériences indépendantes.

Un test est donc un procédé permettant de décider si une hypothèse donnée, notée généralement H0 , peut être
considérée comme vraie ou fausse. Notons cependant qu’aucune décision statistique ne peut être prise avec une
certitude absolue; quelle que soit la conclusion, le risque de se tromper existe toujours.

2.2 Techniques de base pour tester les hypothèses

Les étapes à suivre pour tester une hypothèse sont:

1. définir l’hypothèse nulle, notée H0 , à contrôler, et l’hypothèse alternative, notée H1 .

2. choisir un test statistique ou une statistique (dite aussi la fonction discriminante du test) pour contrôler
H0 ,

3. définir la loi de probabilité de la statistique sous l’hypothèse ≪ H0 est réalisée ≫,

4. définir le niveau de signification du test α et la la zone d’acceptation associée (ou région critique).

5. calculer, à partir des données fournies par l’échantillon, une valeur de la statistique S sous l’hypothèse H0 .

6. prendre une décision concernant l’hypothèse posée et faire une interprétation biologique.

20
Chapter 2. Tests d’hypothèse

2.2.1 Choix de l’hypothèse à tester

Dans tous les domaines, on est amené à prendre des décisions sur une activité risquée au vu de résultats d’expériences
ou d’observation de phénomènes dans un contexte incertain. Par exemple :

ˆ essais thérapeutiques: décider si un nouveau traitement médical est meilleur qu’un ancien au vu du résultat
de son expérimentation sur des malades.

ˆ finance : au vu du marché, décider si on doit ou pas se lancer dans une opération financière donnée.

ˆ santé : décider s’il faut vacciner toute une population contre grippe A.

ˆ Contrôle de qualité : décider si une production vérifie des certaines normes.

Dans chaque cas, le problème de décision consiste à trancher, au vu d’observations, entre une hypothèse appelée
hypothèse nulle, notée H0 , et une autre hypothèse dite hypothèse alternative, notée H1 . En général, on suppose
qu’une et une seule de ces deux hypothèses est vraie. Un test d’hypothèses est une procédure qui permet de choisir
entre ces deux hypothèses.

2.2.1.1 Hypothèse nulle et hypothèse alternative

L’hypothèse nulle notée H0 est l’hypothèse que l’on désire contrôler : elle consiste à dire qu’il n’existe pas
de différence entre les paramètres comparés ou que la différence observée n’est pas significative et est due aux
fluctuations d’échantillonnage.

L’hypothèse alternative notée H1 est la négation de H0 , elle est équivalente à dire ≪ H0 est fausse ≫ . La
décision de rejeter H0 signifie que H1 est réalisée ou H1 est vraie.

2.2.1.2 La nature du test (unilatéral ou bilatéral)

La nature de H0 détermine la façon de formuler H1 et par conséquence la nature unilatérale ou bilatérale du test.

On parle de test bilatéral lorsque l’hypothèse alternative se ”décompose en deux parties”. Par exemple si H0
consiste à dire que la population estudiantine avec une fréquence de fumeurs p est représentative de la population
globale avec une fréquence de fumeurs p0 , on pose alors : H0 : p = p0 et H1 : p ̸= p0 . Le test sera bilatéral car,
pour l’hypothèse alternative, on considère que la fréquence p peut être supérieure ou inférieure à la fréquence p0 .
α
La région critique en vert correspond à une probabilité de part et d’autre de la courbe.
2
On parle de test unilatéral lorsque l’hypothèse alternative se ”compose d’une seule partie”. Par exemple si
l’on fait l’hypothèse alternative que la fréquence de fumeurs dans la population estudiantine p est supérieure à la

21
Chapter 2. Tests d’hypothèse

fréquence de fumeurs dans la population p0 , on pose alors H0 : p = p0 et H1 : p > p0 . Le test sera unilatéral à
droite car on considère que la fréquence p ne peut être que supérieure à la fréquence p0 . La région critique en vert
(à droite) correspond à une probabilité α.

Il aurait été possible également d’avoir : H0 : p = p0 et H1 : p < p0 . Dans ce cas, le test sera unilatéral à
gauche.

2.2.2 Risques d’erreur

Dans un problème de décision, on peut toujours se tromper de deux manières différentes et par conséquent deux
types d’erreurs sont possibles :

22
Chapter 2. Tests d’hypothèse

2.2.2.1 Risque d’erreur du première espèce α

Le risque d’erreur α est la probabilité que la valeur expérimentale ou calculée de la statistique S appartienne à la
région critique si H0 est vrai. Dans ce cas H0 est rejetée et H1 est considérée comme vraie (rejet à tort).

Le risque α de première espèce est celui de rejeter H0 alors qu’elle est vraie :
α = P( rejeter H0 /H0 vraie)
ou accepter H1 alors qu’elle est fausse
α = P (accepter H1 /H1 f ausse)

2.2.2.2 Risque d’erreur du deuxième espèce β

Le risque d’erreur β est la probabilité que la valeur expérimentale ou calculée de la statistique n’appartienne pas à
la région critique si H1 est vrai. Dans ce cas H0 est acceptée et H1 est considérée comme fausse.

Le risque β de deuxième espèce est celui d’accepter H0 alors qu’elle est fausse :
β = P (accepter H0 /H0 f ausse) ou P (accepter H0 /H1 vraie)
ou rejeter H1 alors qu’elle est vraie
β = P (rejeter H1 /H1 vraie)

Les conséquences de ces deux erreurs peuvent être d’importances diverses. En général, une des erreurs est plus
grave que l’autre :

ˆ essais thérapeutiques : on peut adopter un nouveau traitement moins efficace, voire pire que l’ancien (erreur
β), ou se priver d’un nouveau traitement plus efficace que l’ancien (erreur α).

ˆ finance : si on décide à tort que l’on peut lancer l’opération, on risque de perdre beaucoup d’argent (erreur
β); si on décide à tort de ne pas lancer l’opération, on peut se priver d’un bénéfice important (erreur α).

ˆ santé : on peut dépenser des milliards d’euros en vaccins inutiles (erreur α) ou subir une pandémie grave à
large échelle (erreur β).

A toute décision correspond une probabilité de décider juste et une probabilité de se tromper : le risque α ou le
risque β.

Malheureusement, on ne peut pas contrôler les deux erreurs à la fois.

Dans la pratique, on va donc considérer que l’une des deux erreurs est plus importante que l’autre (erreur β),
et tâcher d’éviter que cette erreur se produise. Il est alors possible que l’autre erreur survienne (erreur α). Par
exemple, dans le cas de la santé, on fait en général tout pour éviter de subir une pandémie grave, quitte à prendre
le risque de dépenser des milliards d’euros en vaccins inutiles.

23
Chapter 2. Tests d’hypothèse

Remarque :

Le risque de première espèce α est choisi à priori par l’expérimentateur et jamais en fonction des données. Plus
les conséquences de l’erreur sont grave, plus α sera choisi petite.

2.2.2.3 La puissance d’un test

La puissance d’un test est définie par :

1 − β = P (rejeter H0 /H0 f ausse) = P (accepter H1 /H1 vraie)

Les différentes situations que l’on peut rencontrer dans le cadre des tests d’hypothèse sont résumées dans le
tableau suivant :

Décision/Réalité H0 vraie H0 fausse


Non rejet de H0 correct manque de puissance
risque de second espèce β
Rejet de H0 Rejet à tort puissance du test
risque de première espèce α 1−β

2.2.3 Choix d’un test statistique

Ce choix dépend de la nature des données, du type d’hypothèse que l’on désire contrôler, des affirmations que l’on
peut admettre concernant la nature des populations étudiées (normalité, égalité des variances) et d’autres critères
que nous préciserons.

Un test statistique ou une statistique est une fonction des variables aléatoires représentant l’échantillon dont la
valeur numérique obtenue pour l’échantillon considéré permet de distinguer entre H0 vraie et H0 fausse.

2.2.4 Choix de la région critique ou la zone d’acceptation

Connaissant la loi de probabilité suivie par la statistique S sous l’hypothèse H0 , il est possible d’établir une valeur
seuil, Sseuil de la statistique pour une probabilité donnée appelée le niveau de signification α (pourcentage de risque)
du test. La région critique Rc , ou encore la zone de rejet de l’hypothèse H0 correspond à l’ensemble des valeurs
telles que : P (S ∈ Rc ) = α.

La région de non rejet de H0 , ou encore appelée zone d’acceptation notée Iacc , est la région complémentaire de
la région critique Rc . Elle correspond à l’ensemble des valeurs telles que P (S ∈ Iacc ) = 1 − α

24
Chapter 2. Tests d’hypothèse

Selon la nature unilatérale ou bilatérale du test, la définition de la région critique varie.

2.2.5 Règle de décision

Après avoir formulé les hypothèses, choisi le seuil de signification, déterminé la statistique appropriée et défini
la région critique, il vous faudra énoncer formellement la règle de décision du test. Cette règle doit stipuler
clairement la conclusion appropriée selon les résultats échantillonnaux obtenus.

Il existe deux stratégies pour prendre une décision en ce qui concerne un test d’hypothèse : la première stratégie
fixe à priori la valeur du seuil de signification α et la seconde établit la valeur de la probabilité critique αobs à
posteriori.

2.2.5.1 Règle de décision 1

Sous l’hypothèse ≪ H0 est vraie ≫ et pour un seuil de signification α fixé

ˆ si la valeur de la statistique Scal , calculée à partir d’un échantillon, appartient à la région critique (ou
n’appartient pas à la zone d’acceptation) alors l’hypothèse H0 est rejetée au risque d’erreur α et l’hypothèse
H1 est acceptée;

25
Chapter 2. Tests d’hypothèse

ˆ si la valeur de la statistique Scal n’appartient pas à la région critique (ou appartient à la zone d’acceptation)
alors l’hypothèse H0 est acceptée.

Remarque : Le choix du niveau de signification ou risque α est lié aux conséquences pratiques de la décision ; en
général on choisira α = 0, 05; 0, 01 ou 0, 001.

2.2.5.2 Règle de décision 2 : p-valeur

La valeur de p ou la p-valeur (p-value) est déterminée en fonction de la statistique du test calculée à partir de
l’échantillon, de la distribution présumée et du type de test réalisé (bilatéral ou unilatéral).

Elle consiste à déterminer la probabilité critique αobs telle que P (Scal ∈ RC) = αobs :

ˆ si αobs ≥ α, on ne rejette pas l’hypothèse H0 car le risque d’erreur de rejeter H0 alors qu’elle est vrai est trop
important;

ˆ si αobs < α l’hypothèse H0 est rejetée car le risque d’erreur de rejeter H0 alors qu’elle est vrai est très faible.

2.3 Tests statistiques paramétriques

Les tests statistiques paramétriques ont pour objectif de vérifier des hypothèses relatives à un paramètre d’une loi
de probabilité. Dans cette partie, on va voir deux types de tests paramétriques : les tests de conformité et les tests
d’homogénéité.

2.3.1 Tests de conformité

Les tests de conformité sont destinés à vérifier si un échantillon peut être considéré comme extrait d’une population
donnée ou représentatif de cette population, vis-à-vis d’un paramètre comme la moyenne, la variance ou la fréquence
observée.

2.3.1.1 Comparaison de moyenne

Le but est de tester si la moyenne µ d’une population est statistiquement égale à une valeur hypothétique, notée
µ0 . On suppose que la variable X est de loi N (µ, σ). On distingue trois types de tests :

1ère étape : formulation des hypothèses

26
Chapter 2. Tests d’hypothèse

•H0 : µ = µ0 et H1 : µ ̸= µ0 pour un test bilatéral

•H0 : µ = µ0 et H1 : µ > µ0 pour un test unilatéral à droite

•H0 : µ = µ0 et H1 : µ < µ0 pour un test unilatéral à gauche

2ème étape : Détermination de la statistique du test

ˆ On détermine la statistique qui convient pour ce test. Ici, l’estimateur de la moyenne µ est X̄.

ˆ On détermine la loi de probabilité de X̄, en se plaçant sous l’hypothèse H0 . Pour tester cette hypothèse, il
existe deux statistiques : la variance σ de la population de référence est connue (test normale) ou cette variance
est inconnue et il faut l’estimer (test de student).

1er cas : Variance de la population connue


σ
ˆ X̄ ∼ N (µ, √ ).
n
σ
ˆ Sous H0 est vraie, on a X̄ ∼ N (µ0 , √ ).
n

X̄ − µ0
ˆ On pose Z = σ . La variable Z est appelée fonction discriminante du test ou la statistique du test.

n

ˆ Z ∼ N (0, 1).

3ème étape : Détermination de la région critique ou la zone d’acceptation

Pour un risque α donné, on détermine la zone d’acceptation Iacc vérifiant P (Z ∈ Iacc ) = 1 − α, c.à.d il faut
déterminer dans la table de la loi normale centrée réduite la valeur z1−α/2 ou z1−α (quantiles d’ordre 1 − α/2 et
1 − α de la loi N (0, 1), respectivement), selon la nature du test, tel que :

ˆ P (|Z| ≤ z1−α/2 ) = 1 − α, pour un test bilatéral. La zone d’acceptation Iacc est :


Iacc = [−z1−α/2 , z1−α/2 ]

ˆ P (Z ≥ −z1−α ) = 1 − α pour un test unilatéral à gauche. La zone d’acceptation Iacc est :


Iacc = [−z1−α , +∞[

ˆ P (Z ≤ z1−α ) = 1 − α pour un test unilatéral à droite. La zone d’acceptation Iacc est :


Iacc =] − ∞, z1−α ]

27
Chapter 2. Tests d’hypothèse

4ème étape : Conclusion et prise de la décision d’un test

ˆ On calcule une valeur zcal prise par la variable aléatoire Z dans un échantillon, telle que
x̄ − µ0
zcal = σ

n

ˆ Selon la valeur zcal , on a deux cas :

1. Si zcal ∈
/ Iacc , on dira que l’écart-réduit observé est statistiquement significatif au seuil α. Cet écart est
anormalement élevé et ne permet pas d’accepter H0 . Donc, on rejette H0 .

2. Si zcal ∈ Iacc , on dira que l’écart- réduit observé n’est pas significatif au seuil α. Cet écart est imputable aux
fluctuations d’échantillonnage. Donc, on accepte H0 .

Exemples :

Exemple 1 : Votre emploi consiste à vérifier la production d’une machine fabriquant des milliers de boulons à
l’heure. Cette machine, lorsqu’elle est bien réglée, produit des boulons dont le diamètre est égal à 14.00mm. Le
diamètre moyen µ est donc de 14.00mm si tout fonctionne bien. Les boulons dont le diamètre s’éloigne trop de
cette moyenne, dans un sens ou dans l’autre, sont inutilisables. On sait, par expérience, que σ = 0.15mm et que
les diamètres des boulons se distribuent selon la loi normale.

Chaque heure, vous devez prélever un échantillon aléatoire de 6 boulons pour vérifier le réglage de la machine.
Voici les résultats que vous avez obtenu à votre dernière vérification (le diamètre est en mm):

14.15 13.85 13.95 14.20 14.30 14.35


Au seuil de signification de 0.01, devez-vous conclure que la machine est bien réglé?

Solution :

1. Les hypothèses sont :

H0 : µ = 14.00mm
H0 : µ ̸= 14.00mm
Le test est bilatéral car il suffit que la moyenne échantillonnale soit significativement trop grande ou trop
petite pour que l’hypothèse nulle soit rejetée.

2. La statistique :
On sait que la population est distribuée selon une loi normale avec σ connu. Donc :

28
Chapter 2. Tests d’hypothèse

X̄ − µ0
Z= σ

n
suit la loi N (0, 1).

3. La zone d’acceptation :
Puisqu’il s’agit d’un test bilatéral, la zone d’acceptation Iacc est telle que :

Iacc = [−z1−α/2 , z1−α/2 ]


avec z1−α/2 vérifie
P (−z1−α/2 ≤ Z ≤ z1−α/2 ) = 1 − α = 0.99

Ce qui donne, en utilisant la table de la loi normale centrée réduite, z1−α/2 = 2.58. Donc :
Iacc = [−2.58, 2.58]

4. Conclusion et prise de la décision du test :


On a
14.15 + 13.85 + 13.95 + 14.20 + 14.30 + 14.35
x̄ = = 14.1333mm
6
Donc :

x̄ − µ0 14.1333 − 14.00
zcal = σ = √ = 2.18
√ 0.15/ 6
n
Puisque zcal ∈ Iacc , on doit accepter H0 et conclure que la machine est bien réglée (la différence observée n’est
pas significative et est due aux fluctuations d’échantillonnage).

Exemple 2 : M. Maltais, directeur d’une brasserie, veut s’assurer que le volume moyen des cannettes produites
est bien de 341 ml. Si le volume moyen est significativement inférieur à 341 m, les clients ((et divers agences de
surveillance) vont sûrement porter plainte et faire de la mauvaise publicité à la brasserie. A cause du format de
la cannette, c’est impossible que le volume moyen sont significativement supérieur à 341 ml. La moyenne d’un
échantillon de 36 cannettes est de 332 ml. En supposant que σ = 6ml, effectuer le test d’hypothèse approprié avec
un seuil de risque α = 0.01.

Solution :

1. Les hypothèses sont :

H0 : µ = 341ml
H0 : µ < 341ml

29
Chapter 2. Tests d’hypothèse

Il est clair, dans cette situation, que le directeur rejettera l’hypothèse nulle uniquement s’il juge que la
moyenne échantillonnale est significativement inférieure à 341 ml, le test est donc unilatéral à gauche.

2. La statistique :
Puisque n = 36 > 30, Donc :

X̄ − µ0
Z= σ

n
suit la loi N (0, 1).

3. La zone d’acceptation :
Puisqu’il s’agit d’un test unilatéral à gauche, la zone d’acceptation Iacc est telle que :

Iacc = [−z1−α , +∞[


avec z1−α vérifie
P (Z ≥ −z1−α/2 ) = 1 − α = 0.99

Ce qui donne, en utilisant la table de la loi normale centrée réduite, z1−α = 2.33. Donc :
Iacc = [−2.33, +∞[

4. Conclusion et prise de la décision du test :


On a :

x̄ − µ0 332 − 341
Zcal = σ = 6/√36 = −9

n
Puisque zcal ∈
/ Iacc , le directeur doit rejeter H0 et améliorer son procédé de remplissage des cannettes.

Exemple 3 : M. Eugène Boucher, distributeur de rince-bouche, affirme qu’il en coûte, en moyenne, 13.25
dollars pour manipuler une commande d’un détaillant. Mme Minnie Malle, contrôleuse de la compagnie, craint
que le coût moyen soir supérieur à ce qu’affirme M. Boucher. Elle a l’intention de prendre les mesures nécessaires
pour réduire le coût moyen s’il s’avère trop élevé, mais n’élèvera pas la voix si la moyenne est inférieure aux 13.25
dollars mentionnés. La moyenne d’un échantillon aléatoire de 100 commandes est de 13.35 dollars. En supposant
que σ = 0.50 dollars, effectuez un test approprié à un seuil de signification de 0.01.

Solution :

1. Les hypothèses sont :

H0 : µ = 13.25

30
Chapter 2. Tests d’hypothèse

H0 : µ > 13.25

Il s’agit d’un test unilatéral à droite, seule une moyenne échantillonnale significativement supérieure à la
valeur de µ spécifiée en H0 conduira au rejet de l’hypothèse nulle.

2. La statistique :
Puisque n = 100 > 30, Donc :

X̄ − µ0
Z= σ

n
suit la loi N (0, 1).

3. La zone d’acceptation :
Puisqu’il s’agit d’un test unilatéral à droite, la zone d’acceptation Iacc est telle que :

Iacc =] − ∞, z1−α ]
avec z1−α vérifie
P (Z ≤ z1−α ) = 1 − α = 0.95

Ce qui donne, en utilisant la table de la loi normale centrée réduite, z1−α = 2.33. Donc :
Iacc =] − ∞, 2.33]

4. Conclusion et prise de la décision du test :


On a :

x̄ − µ0 13.35 − 13.25
Zcal = σ = 0.50/√100 = 2.00

n
Puisque zcal ∈ Iacc , Mme Malle accepte l’affirmation de M. Boucher au seuil de signification de 0.01 (H0 est
acceptée).

2èm cas : Variance de la population inconnue

1. La démarche est la même que pour le 1er cas (variance connue) mais la variance de la population n’étant pas
connue, elle est remplacée par son estimateur non biaisé:
n
S ∗2 = S2
n−1
X̄ − µ0
On obtient donc comme statistique T = qui suit une loi de Student à n-1 degrés de liberté (sous
S

n−1
H0 ).

31
Chapter 2. Tests d’hypothèse

2. On calcule une valeur tcal prise par la variable aléatoire T dans un échantillon, telle que
x̄ − µ0
tcal = s

n−1
3. On définie la zone d’acceptation Iacc selon la nature du test :
ˆ Pour un test bilatéral, la zone d’acceptation est
Iacc = [−t1−α/2 , t1−α/2 ]
avec t1−α/2 est le quantile d’ordre 1 − α/2 de la loi Student d’ordre n-1 vérifiant P (|T | ≤ t1−α/2 ) = 1 − α.
ˆ Pour un test unilatéral à gauche, la zone d’acceptation est
Iacc = [−t1−α , +∞[
avec t1−α est le quantile d’ordre 1 − α de la loi Student d’ordre n-1 vérifiant P (T ≥ −t1−α ) = 1 − α.
ˆ Pour un test unilatéral à droite, la zone d’acceptation est
Iacc =] − ∞, t1−α ]
avec t1−α vérifiant P (T ≤ t1−α ) = 1 − α.

4. On prend une décision de la même manière que le 1er cas.

Remarque :

X̄ − µ0 X̄ − µ0
1. Si la variable aléatoire X étudiée est de loi inconnue et Si n < 30, la loi de et σ n’est pas
S √
√ n
n−1
connue.
X̄ − µ0 X̄ − µ0
2. Si X de loi inconnue et n ≥ 30, on a et σ sont de loi normale centrée réduite et on applique
S √
√ n
n−1
la même procédure que les cas précédents.

3. Si n ≥ 30, la variable de Student T converge vers une loi normale centrée réduite.

Exemple : Revenons au premier exemple du 1er cas (variance connue) et changeons un peu les données du
problème. Le diamètre moyen µ des boulons produits par la machine doit toujours être égal à 14.00 mm et aucune
variation importante dans le diamètre ne peut être tolérée ni dans un sens ni dans l’autre. Cette fois, supposons
que l’écart-type σ est inconnu. Que faire dans une telle situation?

Il faudra estimer σ à l’aide de l’écart-type échantillonnal s, en utilisant les résultats obtenus lors de la dernière
vérification (le diamètre est en mm):
14.15 13.85 13.95 14.20 14.30 14.35
Au seuil de signification de 0.01, arrivons nous à la même conclusion que précédemment? (la machine est bien
réglée)

Solution :

32
Chapter 2. Tests d’hypothèse

1. Les hypothèses sont :

H0 : µ = 14.00mm
H0 : µ ̸= 14.00mm

2. La statistique :
Nous avons un petit échantillon (n=6 < 30) et σ inconnu. Nous devons supposer que la distribution des
diamètres est une distribution normale et utiliser la loi de Student. Ce qui donne :

X̄ − µ0
T =
S

n−1
suit une loi de Student à n-1 degrés de liberté.

3. La zone d’acceptation :
Puisqu’il s’agit d’un test bilatéral, la zone d’acceptation Iacc est telle que :

Iacc = [−t1−α/2 , t1−α/2 ]


avec t1−α/2 est la valeur lue dans la table de la loi de Student pour un risque α = 0.01 et 5 (n-1) degrés de
liberté. Ce qui donne t1−α/2 = 4.0321. Donc :
Iacc = [−4.0321, 4.0321]

4. Conclusion et prise de la décision du test :


On a
14.15 + 13.85 + 13.95 + 14.20 + 14.30 + 14.35
x̄ = = 14.1333mm
6
et

6
1X
s2 = (xi − x̄)2
n i=1
donc

x̄ − µ0
tcal = s = 1.66

n−1
Puisque tcal ∈ Iacc , nous devons donc conclure, comme dans l’exemple du 1er cas, que la machine est bien
réglé et ne nécessite aucun ajustement.

Remarque : Dans l’exemple du 1er cas, nous étions bien près de rejeter H0 , mais pas cette fois, cela vient du
fait que la distribution de Student est plus aplatie que la distribution normale.

33
Chapter 2. Tests d’hypothèse

2.3.1.2 Comparaison de deux variances

Considérons une variable aléatoire X de loi N (m, σ). Le but est de tester si la variance d’une population σ 2 peut
être égale à une valeur proposée σ02 .

1ère étape : formulation des hypothèses

•H0 : σ 2 = σ02 contre H1 : σ 2 ̸= σ02 pour un test bilatéral

•H0 : σ 2 = σ02 contre H1 : σ 2 > σ02 pour un test unilatéral à droite

•H0 : σ 2 = σ02 contre H1 : σ 2 < σ02 pour un test unilatéral à gauche

1er cas : moyenne de la population connue

2 ème étape : Détermination de la statistique du test


1 Pn
•T 2 = (Xi − µ)2 est un bon estimateur de σ 2 dans ce cas.
n i=1
nT 2
• Sous H0 , on a T = suit une loi de χ2n
σ02

3 ème étape : Détermination de la zone d’acceptation

Pour un risque α donné, on a :

ˆ Pour un test bilatéral, on cherche χ2α/2 et χ21−α/2 telle que P (χ2α/2 ≤ T ≤ χ21−α/2 ) = 1 − α, où χ2α/2 et χ21−α/2
sont les quantiles d’ordre α/2 et 1 − α/2, respectivement, de la loi χ2n .

ˆ Pour un test unilatéral à gauche, on cherche χ2α telle que P (T ≥ χ2α ) = 1 − α, où χ2α est le quantile d’ordre α
de la loi χ2n .

ˆ Pour un test unilatéral à droite, on cherche χ21−α telle que P (T ≤ χ21−α ) = 1 − α, où χ21−α est le quantile d’ordre
1 − α de la loi χ2n .

Après on détermine la zone d’acceptation Iacc de la façon suivante :

ˆ Pour un test bilatéral : Iacc = [χ2α/2 , χ21−α/2 ]

ˆ Pour un test unilatéral à gauche : Iacc = [χ2α , +∞[

ˆ Pour un test unilatéral à droite : Iacc = [0, χ21−α ]

34
Chapter 2. Tests d’hypothèse

4 ème étape : Conclusion et prise de la décision du test

ˆ On calcule une valeur tcal prise par la variable aléatoire T dans un échantillon, telle que
n  2
X xi − µ
tcal =
i=1
σ0

ˆ Selon la valeur tcal , on a deux cas :

1. Si tcal ∈
/ Iacc on rejette H0 .

2. Si tcal ∈ Iacc on accepte H0 .

2èm cas : Moyenne de la population inconnue

2 ème étape : Détermination de la statistique du test


n
•S ∗2 = S 2 est un bon estimateur de σ 2 dans ce cas.
n−1
(n − 1)S ∗2 nS 2
• Sous H0 , on a S = = suit une loi de χ2n−1 .
σ02 σ02

3 ème étape : Détermination de la zone d’acceptation

Pour un risque α donné, on a :

ˆ Pour un test bilatéral : Iacc = [χ2α/2 , χ21−α/2 ]

ˆ Pour un test unilatéral à gauche : Iacc = [χ2α , +∞[

ˆ Pour un test unilatéral à droite : Iacc = [0, χ21−α ]

avec χ2α/2 , χ21−α/2 et χ2α sont les quantiles d’ordre α/2, 1 − α/2 et α de la loi χ2n−1 , respectivement.

4 ème étape : Conclusion et prise de la décision du test

ˆ On calcule une valeur s̃cal prise par la variable aléatoire S dans un échantillon, telle que
ns2
s̃cal = 2
σ0

ˆ Selon la valeur s̃cal , on a deux cas :

1. Si s̃cal ∈
/ Iacc on rejette H0 .

2. Si s̃cal ∈ Iacc on accepte H0 .

35
Chapter 2. Tests d’hypothèse

2.3.1.3 Comparaison de deux proportions

On veut vérifier si la proportion p d’une population est statistiquement égale à une proportion donnée p0 . On
suppose que la taille de l’échantillon est suffisamment grande de sorte que les conditions np, nq ≥ 5 soient vérifiées.

1ère étape : formulation des hypothèses

•H0 : p = p0 contre H1 : p ̸= p0 pour un test bilatéral

•H0 : p = p0 contre H1 : p > p0 pour un test unilatéral à droite

•H0 : p = p0 contre H1 : p < p0 pour un test unilatéral à gauche

2ème étape : Détermination de la statistique du test

ˆ F est un bon estimateur de p.


r
pq
ˆ On a n ≥ 30, np ≥ 5 et nq ≥ 5, donc on a F ∼ N (p, ).
n

F − p0
ˆ Sous l’hypothèse H0 , on a Z = r ∼ N (0, 1) (avec q0 = (1 − p0 )).
p0 q 0
n

3ème étape : Détermination de la zone d’acceptation

On cherche dans la table de la loi normale centrée réduite la valeur z1−α ou z1−α/2 , selon la nature du test
(unilatéral ou bilatéral). On a:

ˆ Pour un test bilatéral, on a Iacc = [−z1−α/2 , z1−α/2 ].

ˆ Pour un test unilatéral à gauche. On a Iacc = [−z1−α , +∞[.

ˆ Pour un test unilatéral à droite. On a Iacc =] − ∞, z1−α ].

4ème étape : Conclusion et prise de la décision d’un test

ˆ On calcule une valeur zcal prise par la variable aléatoire Z dans un échantillon, telle que
f − p0
zcal = r
p0 q0
n

ˆ Selon la valeur zcal , on a deux cas :

36
Chapter 2. Tests d’hypothèse

1. Si la valeur zcal ne se trouve pas dans la zone d’acceptation, on dira que l’écart-réduit observé est statistique-
ment significatif au seuil α. Cet écart est anormalement élevé et ne permet pas d’accepter H0 . Donc, on
rejette H0 .

2. Si la valeur zcal se trouve dans la zone d’acceptation, on dira que l’écart- réduit observé n’est pas significatif
au seuil α. Cet écart est imputable aux fluctuations d’échantillonnage. Donc, on accepte H0 .

Exemple :

Un journal régional affirme que 25% des élèves du collégial lisent quotidiennement un journal. Un échantillon
aléatoire de 200 élèves du collégial a montré que 45 de ceux-ci lisent un journal chaque jour. Testez l’exactitude de
l’affirmation de ce journal avec un seuil de signification de 0.05.

Solution :

1. Les hypothèses sont :

H0 : p = 25%
H1 : p ̸= 25%

2. La statistique :
La taille de l’échantillon est suffisamment grande pour qu’on puisse utiliser la distribution de la loi normale
dans le calcul de la statistique et la zone d’acceptation. On a :

F − p0
Z=r
p0 q0
n
suit la loi normale centrée réduite.

3. La zone d’acceptation :
Puisqu’il s’agit d’un test bilatéral, la zone d’acceptation Iacc est telle que :

Iacc = [−z1−α/2 , z1−α/2 ]

avec z1−α/2 vérifie


P (−z1−α/2 ≤ Z ≤ z1−α/2 ) = 1 − α = 0.95

Ce qui donne, en utilisant la table de la loi normale centrée réduite, zα/2 = 1.96. Donc :
Iacc = [−1.96, 1.96]

4. Conclusion et prise de la décision du test :

37
Chapter 2. Tests d’hypothèse

On a :

f − p0 22.5% − 25%
zcal = r =r = −0.806
p0 q0 0.25 × 0.75
n 200
45
avec f = × 100 = 22.5%.
200
Puisque zcal ∈ Iacc , il n’y a aucune évidence statistiques permettant de rejeter l’affirmation du journal régional.

2.3.2 Tests d’homogénéité

Les tests d’homogénéité sont destinés à comparer deux populations en comparant deux d’échantillons qui sont
extraits de ces deux populations, vis à vis un paramètre comme la moyenne, la variance et la proportion.

2.3.2.1 Comparaison de variances

Principe de test :

Soit X un caractère observé sur 2 populations suivant une loi normale et soient deux échantillons indépendants
extraits de ces deux populations.

On veut tester si les deux échantillons proviennent de 2 populations dont les variances sont égales.

Formulation des hypothèses:

1. •H0 : σ12 = σ22 H1 : σ12 ̸= σ22 test bilatéral.

38
Chapter 2. Tests d’hypothèse

2. •H0 : σ12 = σ22 H1 : σ12 > σ22 test unilatéral à droite.

3. •H0 : σ12 = σ22 H1 : σ12 < σ22 test unilatéral à gauche.

Statistique du test :

La statistique associée au test de comparaison de deux variances correspond au rapport des deux variances
estimées.

Sous H0 : σ12 = σ22 , on a

n1
S2
S1∗2
n1 − 1 1
F = = n2
S2∗2 S2
n2 − 1 2
suit une loi de Fisher-Snedecor à (n1 − 1, n2 − 1) degrés de liberté, avec S1∗2 > S2∗2 car le rapport des variances
doit être toujours supérieur à 1.

Application et décision :

ˆ On calcule une valeur de la statistique F (fobs ) telle que :

s∗2
1
fobs = .
s∗2
2

ˆ Pour le test 1), on rejette H0 si fobs ≥ f α.


n1 −1,n2 −1,1−
2
ˆ Pour le test 2), on rejette H0 si fobs ≥ fn1 −1,n2 −1,α .

ˆ Pour le test 3), on rejette H0 si fobs ≤ −fn1 −1,n2 −1,α .

Remarque : Pour l’application de ce test, il est impératif que X ∼ N (µ, σ) et que les deux échantillons soient
indépendants.

Exemple :

Lors d’une expérience pédagogique, on s’intéresse à l’effet comparé de deux pédagogies des mathématiques chez
deux groupes de 10 sujets :

• pédagogie traditionnelle (p1)

• pédagogie moderne (p2)

On note la performance à une épreuve de combinatoire.

39
Chapter 2. Tests d’hypothèse

Avant d’appliquer un test de comparaison de moyennes, on veut s’assurer que l’on peut supposer les variances
égales dans les populations parentes. Procéder à un test de comparaison de variances permettant de s’en assurer
avec un seuil de signification de 5%.

Solution

1. Les hypothèses sont :

H0 : σ1 = σ2
H1 : σ1 ̸= σ2

2. Statistique et prise de décision :


• On a
n1 2
s
s∗2
1 n1 − 1 2 2.413
fobs = = n2 = = 1.30
s∗2
2 s21 1.863
n2 − 1
• On cherche la valeur fseuil dans la table de la loi de Fisher-Snedecor pour un risque d’erreur α = 5% fixé et
(9, 9) degrés de liberté. On trouve fseuil = 3.18.
•fseuil > fobs , donc l’hypothèse H0 est retenue et les deux variances sont égales.

2.3.2.2 Comparaison de deux moyennes

C’est pour vérifier, à l’aide de données échantillonnales, s’il existe une différence statistique significative entre les
moyennes des deux populations. L’hypothèse nulle est donc :H0 : µ2 = µ2 . L’hypothèse alternative se construit
selon la nature du test.

40
Chapter 2. Tests d’hypothèse

Formulation des hypothèses:

1. •H0 : µ21 = µ22 H1 : µ21 ̸= µ22 test bilatéral.

2. •H0 : µ21 = µ22 H1 : µ21 > µ22 test unilatéral à droite.

3. •H0 : µ21 = µ22 H1 : µ21 < µ22 test unilatéral à gauche.

Il existe plusieurs statistiques associées à la comparaison de deux moyennes en fonction de la nature des données.

1. Les variances des populations sont connues :


Statistique du test :
ˆ Soit X̄1 et X̄2 les distributions d’échantillonnage de la moyenne dans la population 1 et la population 2,
σ1 σ2
respectivement. On a X̄1 ∼ N (µ1 , √ ) et X̄2 ∼ N (µ2 , √ ).
n1 n2
ˆ X̄1 et X̄2 étant deux variables aléatoires indépendantes, nous pouvons établir la loi de probabilité de la
variable aléatoire à étudier D = X̄1 − X̄2 . En utilisant les propriétés de l’espérance et la variance, on obtient
:

E(D) = E(X̄1 − X̄2 ) = E(X̄1 ) − E(X̄2 ) = µ1 − µ2


σ2 σ2
V (D) = V (X̄1 − X̄2 ) = V (X̄1 ) + V (X̄2 ) = 1 + 2
n1 n2
r 2
σ1 σ22
ˆ Sachant que la variable aléatoire D suit une loi N (µ1 − µ2 , + ), nous pouvons établir la variable Z
n1 n2
centrée réduite telle que :
(X̄1 − X̄2 ) − (µ1 − µ2 )
Z= r 2
σ1 σ22
+
n1 n2
ˆ Sous l’hypothèse H0 : µ1 = µ2 avec σ1 et σ2 connues,
X̄1 − X̄2
Z=r 2 ∼ N (0, 1)
σ1 σ22
+
n1 n2
Application et décision :
ˆ On calcule une valeur zcal de la variable aléatoire Z, telle que :
x̄1 − x̄2
zcal = r 2
σ1 σ22
+
n1 n2
ˆ On cherche la valeur zseuil dans la table de la loi normale centrée réduite (selon la nature du test) pour un
risque d’erreur α fixé, et on définie la zone d’acceptation Iacc .
ˆ Si zcal ∈ Iacc , l’hypothèse H0 est acceptée: les deux échantillons sont extraits de deux populations ayant
même espérance.

41
Chapter 2. Tests d’hypothèse

ˆ Si zcal ∈
/ Iacc , l’hypothèse H0 est rejetée au risque d’erreur α : les deux échantillons sont extraits de deux
populations ayant des espérances différentes µ1 et µ2 .
Remarque : Pour l’application de ce test, il est impératif que X ∼ N (µ, σ) pour les échantillons de taille
n < 30 et que les deux échantillons soient indépendants.
Exemple :
Une chaı̂ne de magasin possède les succursales A et B. Ces dernières années, la succursale A a investi plus
d’argent que la succursale B pour promouvoir la vente d’un certain article. La chaı̂ne veut maintenant
déterminer si cette publicité a entrı̂né des ventes plus élevées à la succursale A. Pour un échantillon de
36 jours, le nombre moyen d’articles vendus quotidiennement fut de 170 à la succursale A, tandis qu’à la
succursale B cette moyenne, pour un échantillon de 36 jours, fut de 165. En supposant que σA2 = 36 et
σB2 = 25, que pouvons-nous conclure, à partir d’un test effectué à un seuil de signification de 5%?
Solution :

(a) Les hypothèses sont :

H0 : µA = µB
H1 : µA > µB
La chaine veut savoir si le rendement de la succursale A est supérieur à celui de B, elle doit effectuer
donc un test unilatéral à droite.
(b) La statistique :
Les échantillons sont de tailles suffisamment grandes pour qu’on puisse utiliser la distribution de la loi
normale. On a :

X̄A − X̄B
Z=r 2
σA σB2
+
n1 n2
suit la loi normale centrée réduite N (0, 1).
(c) La zone d’acceptation :
Puisqu’il s’agit d’un unilatéral à droite, la zone d’acceptation Iacc est telle que :

Iacc =] − ∞, z1−α ]
avec z1−α vérifie
P (Z ≤ z1−α ) = 1 − α = 0.95
Ce qui donne, en utilisant la table de la loi normale centrée réduite, z1−α = 1.64. Donc :
Iacc =] − ∞, 1.64]
(d) Conclusion et prise de la décision du test :
On a :

42
Chapter 2. Tests d’hypothèse

x̄A − x̄B 170 − 165


zcal = r 2 2
=r = 3.84
σA σB 36 25
+ +
n1 n2 36 36
Puisque zcal ∈
/ Iacc , il y a une évidence statistique permettant de rejeter l’hypothèse H0 et croire que la
succursale A vent plus d’articles que la succursale B.

2. Les variances des populations sont inconnues :


Si les variances des populations ne sont pas connues, il faut considérer trois cas selon les tailles des échantillons
et l’égalité ou non des variances.
1er cas : Cas des grands échantillons (n1 et n2 ≥ 30)
La statistique du test :
ˆ La statistique utilisée est la même que pour le cas où les variances sont connues, juste on remplaces σ12 et
σ22 par leurs estimateurs non biaisés :
n1 n2
S1∗2 = S12 et S2∗2 = S2
n1 − 1 n2 − 1 2
. On obtient

X̄1 − X̄2
Z=r suit une loi normale centrée réduite N (0, 1)
S12 S22
+
n1 − 1 n2 − 1
ˆ On calcule une valeur de la variable aléatoire Z, notée, zcal telle que :
x̄1 − x̄2
zcal = r 2
s1 s22
+
n1 − 1 n2 − 1
ˆ On cherche la valeur zseuil (selon la nature du test) dans la table de la loi normale centrée réduite pour un
risque d’erreur α fixé, et on définie la zone d’acceptation Iacc .
ˆ Si zcal ∈ Iacc , l’hypothèse H0 est acceptée: les deux échantillons sont extraits de deux populations ayant
même espérance.
ˆ Si zcal ∈
/ Iacc , l’hypothèse H0 est rejetée au risque d’erreur α : les deux échantillons sont extraits de deux
populations ayant des espérances différentes µ1 et µ2 .
Remarque : Pour l’application de ce test, il est impératif que X ∼ N (µ, σ) et que les deux échantillons
soient indépendants et de grandes tailles.
2ème cas : Cas des petits échantillons (n1 et/ou n2 inférieurs à 30) et variances égales
Statistique du test
ˆ Les variances des populations n’étant pas connues, on fait l’hypothèse que les deux populations présentent
la même variance.
H0 : σ12 = σ22 = σ 2
et construit une statistique T qui suit la loi Student (comme le cas d’une seule population).

43
Chapter 2. Tests d’hypothèse

ˆ On a
X̄1 − X̄2
Z=r 2
σ1 σ22
+
n1 n2
suit la loi normale centrée réduite N (0, 1).
Et
n1 S12 n2 S22
U= + 2
σ12 σ2
suit la loi χ2n1 +n2 −2 à cause de l’indépendance. Donc la variable T telle que:
Z X̄1 − X̄2
T =r = s
U 1 1

n1 S12 + n2 S22

n1 + n2 − 2 +
n1 n2 n1 + n2 − 2

suit la loi Student à n1 + n2 − 2 degrés de liberté.


Application et décision
L’hypothèse testée est la suivante :
ˆ On calcule une valeur de la variable aléatoire T, notée, tcal telle que :
x̄1 − x̄2
tcal = s
n1 s21 + n2 s22
 
1 1
+
n1 + n2 − 2 n1 n2

ˆ On cherche la valeur tseuil dans la table de Student pour un risque d’erreur α fixé et (n1 + n2 − 2) degrés
de liberté, et on calcule la zone d’acceptation Iacc .
ˆ Si tcal ∈ Iacc , l’hypothèse H0 est acceptée: les deux échantillons sont extraits de deux populations ayant
même espérance.
ˆ Si tcal ∈
/ Iacc , l’hypothèse H0 est rejetée au risque d’erreur α : les deux échantillons sont extraits de deux
populations ayant des espérances différentes µ1 et µ2 .
Remarque : Pour l’application de ce test, il est impératif que X ∼ N (µ, σ) pour les échantillons de taille
< 30, que les deux échantillons soient indépendants et que les deux variances estimées soient égales.
3èm cas : cas des petits échantillons (n1 et/ou n2 < 30) et variances différentes
Lorsque les variances sont inégales et les échantillons de petites tailles, la loi de probabilité suivie par X̄1 − X̄2
n’est pas connue.

Exemples :

Exemple 1. Un psychologue veut, à l’aide d’un test de quotient intellectuel, déterminer s’il existe une différence
significative entre les collégiens et les collégiennes. Le QI moyen d’un échantillon de 40 filles est de 131 avec un
écart type de 14.8; le résultat moyen d’un échantillon de 36 garçon est de 126 avec un écart type de 16.76. Au
seuil de signification de 0.01, existe-t-il une différence? (on suppose que les variances des deux populations sont
différentes)

44
Chapter 2. Tests d’hypothèse

Solution :

1. Les hypothèses sont :

H0 : µf = µg = p
H1 : µf ̸= µg

2. La statistique :
Les tailles des deux échantillons sont suffisamment grandes; on peut donc utiliser la distribution normale pour
faire le test. On a :
X̄f − X̄g
Z=s suit une loi normale centrée réduite N (0, 1)
Sf∗2 Sg∗2
+
nf ng
avec :
nf ng
Sf∗2 = Sf2 et Sg∗2 = Sg2
nf − 1 ng − 1
3. La zone d’acceptation :
Puisqu’il s’agit d’un test bilatéral, la zone d’acceptation Iacc est telle que :

Iacc = [−z1−α/2 , z1−α/2 ]

avec z1−α/2 vérifie


P (−z1−α/2 ≤ Z ≤ z1−α/2 ) = 1 − α = 0.99

Ce qui donne, en utilisant la table de la loi normale centrée réduite, z1−α/2 = 2.58. Donc :
Iacc = [−2.58, 2.58]

4. Conclusion et prise de la décision du test :


On a :
x̄f − x̄g 131 − 126
zcal = s =r = 1.35
Sf2 Sg2 14.82 16.762
+ +
nf − 1 ng − 1 39 35

Puisque zcal ∈ Iacc , on doit conclure qu’il n’y a pas de différence significative (au point de vue du QI).

Exemple 2. La chambre de commerce cherche à attirer de nouvelles industries dans la région. Selon un des
arguments invoqués, le coût de la main-d’oeuvre pour un type particulier d’emploi est plus bas dans la région que
partout ailleurs au pays. Un président de compagnie plutôt sceptique demande à son beau-frère, qui est actuaire,
de vérifier cette affirmation. Il prélève donc, dans cette région, un échantillon de 60 travailleurs (groupe 1) occpant
un emploi type mentionné par la chambre de commerce et s’aperçoit que le salaire moyen est de 7.75 dollars l’heure
avec un écart-type corrigé de 2 dollars l’heure (s∗1 = 2). Un échantillon de 50 travailleurs (groupe 2) provenant

45
Chapter 2. Tests d’hypothèse

d’une autre région a donné une moyenne de 8.25 dollars l’heure avec un écart type corrigé de 1.25 dollars l’heure
(s∗2 = 1.25). A un seuil de signification de 0.01, quelle devra être la conclusion du beau-frère du président?

Solution :

1. Les hypothèses sont :

H0 : µ1 = µ2
H1 : µ1 < µ2

Le beau-frère effectue un test unilatéral à gauche car il veut vérifier l’exactitude de la chambre de commerce
selon laquelle les salaires versés dans cette région sont plus bas que partout ailleurs au pays.
• La statistique :
Les tailles des deux échantillons indépendants sont suffisamment grandes; on peut donc utiliser la distribution
normale pour faire le test. On a :

X̄1 − X̄2
Z = r ∗2
S S ∗2
( 1 + 2 )
n1 n2
suit une loi normale centrée réduite.

2. La zone d’acceptation :
Puisqu’il s’agit d’un test unilatéral à gauche, la zone d’acceptation Iacc est telle que :

Iacc = [−z1−α , +∞[

avec z1−α vérifie


P (Z ≥ −z1−α ) = 1 − α = 0.99

Ce qui donne, en utilisant la table de la loi normale centrée réduite, z1−α/2 = 2.33. Donc :
Iacc = [−2.33, +∞[

3. Conclusion et prise de la décision du test :


On a :
x̄1 − x̄2 7.75 − 8.25
zcal = s = s  = −1.60
s∗2 ∗2 2 2

1 s 2 1.25
+ 2 +
n1 n2 60 50

Puisque zcal ∈ Iacc , H1 est rejeté et les résultats échantillonnaux invalident l’affirmation de la chambre de
commerce à un seuil de 0.01.

46
Chapter 2. Tests d’hypothèse

2.3.2.3 Comparaison de deux proportion

Soit X une variable qualitative prenant deux modalités (succès X=1, échec X=0) observée sur 2 populations et
deux échantillons indépendants extraits de ces deux populations. On fait l’hypothèse que les deux échantillons
proviennent de 2 populations dont les probabilités de succès p1 et p2 sont identiques et on procède comme suit:

formulation des hypothèses :

1. •H0 : p 1 = p2 H1 : p1 ̸= p2 test bilatéral.

2. •H0 : p 1 = p2 H1 : p1 > p2 test unilatéral à droite.

3. •H0 : p 1 = p2 H1 : p1 < p2 test unilatéral à gauche.

Statistique du test :
r r
p1 q1 p2 q 2
ˆ Pour la population 1, on a F1 ∼ N (p1 , ) et pour la population 2, F2 ∼ N (p2 , ) si et seulement si
n1 n2
n1 p1 , n1 q1 , n2 p2 , n2 q2 ≥ 5 et n1 , n2 ≥ 30.

ˆ F1 et F2 étant deux variables aléatoires indépendantes, nous pouvons établir la loi de probabilité de la variable
aléatoire à étudier F1 − F2 , tel que :
E(F1 − F2 ) = E(F1 ) − E(F2 ) = p1 − p2
p1 q1 p 2 q2
V (F1 − F2 ) = V (F1 ) + V (F2 ) = +
n1 n2
 r 
p1 q1 p2 q2
ˆ Sachant que F1 −F2 suit une loi N p1 − p2 , + , nous pouvons établir la variable Z centrée réduite
n1 n2
telle que
(F1 − F2 ) − E(F1 − F2 )
Z= p
V (F1 − F2 )

n1 p1 + n2 p2
ˆ Sous l’hypothèse H0 : p1 = p2 et avec p = on a
n1 + n2

F1 − F2
Z=s   suit la loi N (0, 1)
1 1
p̂q̂ +
n1 n2

ˆ avec p̂ est l’estimateur de la proportion commune aux deux populations, qui n’est en réalité pas connue:
K1 + K2 n1 F 1 + n2 F 2
p̂ = = .
n1 + n2 n1 + n2

Application et décision

47
Chapter 2. Tests d’hypothèse

ˆ On calcule une valeur zcal de la variable aléatoire Z, telle que :


f1 − f2
zcal = s  
1 1
p̂q̂ +
n1 n2
Avec
n1 f 1 + n2 f 2
p̂ = et q̂ = 1 − p̂
n1 + n2

où f1 et f2 représentent les proportions observées respectivement sur l’échantillon 1 et l’échantillon 2.

ˆ On cherche la valeur zseuil dans la table de la loi normale centrée réduite pour un risque d’erreur α fixé, et on
définie la zone d’acceptation Iacc .

ˆ Si zcal ∈ Iacc , l’hypothèse H0 est acceptée: les deux échantillons sont extraits de deux populations ayant la
même proportion p.

ˆ Si zcal ∈
/ Iacc , l’hypothèse H0 est rejetée au risque d’erreur α : les deux échantillons sont extraits de deux
populations ayant des proportions différentes p1 et p2 .

Exemple :

M. Robert, candidat à la prochaine élection, a l’impression que les hommes et les femmes voteront pour lui dans
la même proportion. Parmi les 36 hommes interrogés, 12 ont indiqué qu’ils voteraient pour Robert, tandis que 36%
des femmes d’un échantillon en comptant 50 ont dit qu’elles favoriseraient ce candidat.

L’impression de M. Robert est-elle bien fondée? Effectuez un test à u seuil de signification de 5%.

Solution :

1. Les hypothèses sont :

H0 : pH = pF = p
H1 : pH ̸= pF

Dans ce problème, nous ne nous intéressons qu’à l’égalité ou à la non égalité des pourcentages au sein des
deux groupes, par conséquent, le test est bilatéral.

2. La statistique :
Les tailles des deux échantillons sont suffisamment grandes pour qu’on puisse utiliser la distribution de la loi
normale dans le calcul de la statistique et la zone d’acceptation. On a :

FH − FF
Z=s   suit la loi N (0, 1)
1 1
p(1 − p) +
nH nF

48
Chapter 2. Tests d’hypothèse

La valeur p, proportion commune aux deux populations n’est pas connue. On l’estime à partir des résultats
observés sur les deux échantillons tel que:
nH p̂1 + nF p̂2 nH fH + nF fF
p̂ = =
nH + nF nH + nF
où fH et fF représentent les proportions observées respectivement pour l’échantillon des hommes et pour
l’échantillon des femmes.

3. La zone d’acceptation :
Puisqu’il s’agit d’un test bilatéral, la zone d’acceptation Iacc est telle que :

Iacc = [−z1−α/2 , z1−α/2 ]

avec z1−α/2 vérifie


P (−z1−α/2 ≤ Z ≤ z1−α/2 ) = 1 − α = 0.95

Ce qui donne, en utilisant la table de la loi normale centrée réduite, z1−α/2 = 1.96. Donc :
Iacc = [−1.96, 1.96]

4. Conclusion et prise de la décision du test :


On a :

fH − fF
zcal = s   = −0.25
1 1
p̂q̂ +
nH nF

12 nH fH + nF fF
avec fH = × 100 = 33.33%, fF = 36%, nH = 36, nF = 50 et p̂ = = 0.35
36 nH + nF
Puisque zcal ∈ Iacc , il n’y a aucune évidence statistiques permettant de rejeter l’hypothèse de M. Robert. Il
semble que les deux sexes aient sensiblement la même opinion de Robert.

49
TESTS KHI-DEUX
3
3.1 Introduction

Les tests paramétriques ont pour objet de tirer des conclusions relatives à la valeur des paramètres (moyenne,
fréquence, variance) d’une ou plusieurs populations, sur la base d’informations partielles fournies par un ou plusieurs
échantillons.

La même démarche peut être appliquée pour porter un “ jugement” sur les caractéristiques encore plus générales
de la population : la forme de distribution du caractère étudié, la relation éventuelle entre deux variables et
l’homogénéité de plusieurs population.

Les tests du χ2 (chi-deux, chi-carré, khi-deux ...) sont basés sur la statistique du χ2 proposée par Karl Pearson,
mathématicien britannique du début du XXeme siècle. L’objectif de ces tests est principalement de comparer
les distributions observés et théoriques entre elles. Ces tests peuvent être appliqués à des variables de de nature
qualitative (binaire, nominale, ordinale, quantitative regroupée en classes).

Trois types de test du χ2 peuvent être distingués :

1. Le test du χ2 d’ajustement dont l’objectif est de comparer une distribution observée sur un échantillon à une
distribution théorique (binomiale, Poisson, normale, ...).
Exemple : Soit un échantillon de 100 individus, la distribution observée de l’âge regroupé en classes est-elle

50
Chapter 3. TESTS KHI-DEUX

identique à celle suivant une loi normale?

2. Le test du χ2 d’homogénéité dont l’objectif est de comparer deux ou plusieurs distributions observées sur des
échantillons.
Exemple : Soient trois échantillons de 100 marocains, 100 français et 100 anglais. La distribution observée
de l’âge regroupé en classes est-elle différente entre les échantillons?

3. Le test du χ2 d’indépendance qui est utilisé pour étudier sur un même échantillon la liaison entre deux
variables qualitatives.
Exemple : Soit un échantillon de 100 marocains. Existe-t-il un lien entre le sexe (Homme / Femme) et la
couleur des yeux (Marron, Bleu, Vert, Noir ...) ?

3.1.1 Principe du test χ2

Quelque soit le type de test, le principe consiste à comparer les effectifs observés et théoriques des classes des
distributions. Pour réussir ce test, il faut passer par les étapes suivantes :

1. Formulation de l’hypothèse nulle H0 et l’hypothèse alternative H1

2. Calcul de la statistique du test

3. Détermination de la zone critique

4. Prise de la décision

3.1.2 Statistique du test χ2

Le calcul de la statistique de test reste identique pour les trois types du test χ2 .

Etant donné un tableau de contingence d’effectifs observés ni , on calcule le tableau de contingence d’effectifs
théoriques ti sous H0 est vraie.

Pour un test χ2 en général, on s’intéresse à une expérience aléatoire avec k issues possibles. On sais que sous une
certaine hypothèse H0 , les probabilités d’apparition de ces k issues sont respectivement p1 , . . . , pk (avec ki=1 pi = 1).
P

On fait n expériences identiques et indépendantes et on compte les nombres ni de fois où l’issue i s’est produite.
On a forcément ki=1 ni = n.
P

Le problème est de décider si l’observation de n1 , . . . , nk est compatible avec l’hypothèse H0 que les probabilités
des issues sont p1 , . . . , pk .

51
Chapter 3. TESTS KHI-DEUX

Sous H0 , on s’attend à observer en moyenne ti = npi fois l’issue i. Il s’agit donc de déterminer si les ni sont
significativement proches ou éloignés des ti . On peut alors penser à une région critique de la forme :
Xk
RC = { (ni − ti )2 > Sseuil }
i=1
Pk
Pour déterminer Sseuil , il faut connaitre la loi de probabilité sous H0 de i=1 (Ni − ti )2 , ou d’une variable aléatoire
analogue.

Il est clair que, pour tout i, Ni est de loi Binomiale B(n, pi ), mais les Ni ne sont pas indépendantes. En effet
puisque ki=1 Ni = n, si on connait N1 , . . . , Nk−1 , on connait Nk avec certitude.
P

On dit que le vecteur (N1 , . . . , Nk ) est de loi multinominale M(n, p1 , . . . , pk ). Le test du χ2 est basé sur le
théorème suivant :

Théorème de Pearson

Si (N1 , . . . , Nk ) est de loi M(n, p1 , . . . , pk ) et si ti ≥ 5 pour au moins 80% des cas, alors :

k
X (Ni − ti )2
→ χ2ν en loi
i=1
ti

Intuitivement, on comprend que la grandeur statistique ou l’indicateur d’écart traduise l’écart entre un échantillon
et la distribution théorique est définie par :

k
X (ni − ti )2
χ2obs = (3.1)
i=1
ti

Si l’ajustement était parfait, cette expression du χ2 serait nulle, les effectifs empiriques co¨ıncidant exactement
avec les effectifs théoriques.

En revanche, plus grands sont les écarts entre les effectifs observés et les effectifs théoriques est plus forte sera la
valeur du χ2 .

En outre, comme la quantité (3.1) ne peut pas être négative, le test est nécessairement un test unilatéral droit.

Definition 3.1.1 Le paramètre ν indiçant χ2ν définit le nombre de degrés de liberté. C’est le nom donné au
nombre d’observations linéairement indépendantes qui apparaissent dans une somme de carrés. Autrement dit,
c’est le nombre d’observations aléatoires indépendantes (nombre de termes de la statistique du χ2 ) moins le nombre
de contraintes imposées à ces observations.

Le nombre de contraintes désigne le nombre de relations entre les différentes éléments et le nombre de paramètres
à estimer.

52
Chapter 3. TESTS KHI-DEUX

3.1.3 Zone critique

le principe du test χ2 se base sur l’évaluation de la valeur de χ2obs par rapport à une valeur seuil. Intuitivement,
si χ2obs excède une certaine valeur, notée χ2seuil , cela signifie que les effectifs observés et les effectifs théoriques sont
différents et par conséquent l’hypothése H0 est rejetée.

Pour un risque de première espèce α, la région critique RC conduisant au rejet de l’hypothèse nulle est définie
par :
RC = [χ2seuil , +∞[

avec χ2seuil = χ2ν,α correspond au quantile d’ordre 1 − α de la loi du χ2 à ν degrès de liberté. Donc l’hypothèse
H0 est rejetée pour toutes les valeurs χ2obs vérifiant :

χ2obs ≥ χ2ν,α

3.1.4 règle de décision

D’où la règle de décision suivante :

ˆ Si χ2obs < χ2ν,α , l’hypothèse H0 est acceptée: les différences constatées entre la distribution observée et la
distribution théorique supposée ne sont pas significatifs et elles sont dus aux fluctuations d’échantillonnage.

ˆ Si χ2obs ≥ χ2ν,α , l’hypothèse H0 est rejetée au risque d’erreur α : les différences constatées entre la distribution
observée et la distribution théorique supposée sont significatifs.

3.1.5 Condition d’application du test

Le test χ2 est sensible aux petits effectifs. Aussi, le test est considéré comme applicable lorsque les effectifs
théoriques sont supérieurs ou égaux à 5 pou au moins 80% des cas. En pratique, si cette condition n’est pas
réalisée, la technique consiste à regrouper certaines modalités (ex : regrouper les yeux noirs et les yeux marrons)
afin de, par construction, augmenter la valeurs des effectifs théoriques.

3.2 Test d’ajustement

Pour tester si un échantillon serait tiré d’une population régie par une certaine loi de probabilité telle que la loi
binomiale, la loi de Poisson, la loi normale ou toute autre loi de probabilité.

53
Chapter 3. TESTS KHI-DEUX

3.2.1 Principe du test et formulation des hypothèses

Étant donnée une population décrite par une variable X, un échantillon prélevé dans cette population permet de con-
struire l’histogramme et la courbe des fréquences qui caractérisent la distribution observée de X. Ces représentations
peuvent ressembler à celles d’une loi théorique, toutefois avec certains écarts.

Le test χ2 permet de juger si les écarts constatés entre la distribution observée et la loi théorique d’ajustement
peuvent ou non être imputés au hasard.

3.2.1.1 Formulation des hypothèses

Les hypothèses du test sont les suivantes :

ˆ H0 : “ X suit la loi théorique L”,

ˆ H1 : “ X ne suit pas la loi L”.

3.2.1.2 Tableaux de contingence

La variable observée est :

ˆ soit discrète et prend k valeurs x1 , x2 , . . . , xk

ˆ soit continue et classée en k classes [a0 , a1 [, [a1 , a2 [, . . . , [ak−1 , ak [ de centres respectifs x1 , x2 , . . . , xk−1 , xk .

Les N observations de l’échantillon sont réparties sur les k valeurs de X (si X est discrète) ou sur les k classes de
X (si X est continue). On a les tableaux de contingence d’effectifs observés suivants :

avec
k
X
N= ni = n1 + n2 + . . . + nk .
i=1

D’un manière générale, si on considère que la variable X admet k modalités X1 , . . . , Xk , le tableau de contingence
d’effectifs observés est décrit de la manière suivante :

54
Chapter 3. TESTS KHI-DEUX

Variable X effectifs observés


X1 n1
X2 n2
. .
.
. .
Xk nk
Total N

Sous H0 on note pi la probabilité dite théorique définie par

ˆ pi = P (X = xi /X ∼ L) si X est discrète,

ˆpi = P (X ∈ [ai−1 , ai [/X ∼ L) si X est continue.

Les effectifs théoriques ti de la i-ième classe de X sont simplement obtenus par :

ti = N pi

Par ailleurs, nous pouvons construire un deuxième tableau qui va permettre de regrouper les effectifs théoriques
ti et les effectifs observés ni .

55
Chapter 3. TESTS KHI-DEUX

Variable X effectifs observés effectifs théoriques


X1 n1 t1
X2 n2 t2
. . .
. .
. . .
Xk nk tk
Total N N

3.2.2 Statistique du test

L’indicateur d’écart entre les distributions observées et théoriques définie par :


k
X (ni − ti )2
χ2obs = (3.2)
i=1
ti

3.2.3 Zone critique et règle de décision

Pour un risque de première espèce α, la région critique est définie pour l’ensemble des valeurs χ2obs vérifiant :

χ2obs ≥ χ2ν,α

Le nombre ν de degrés de liberté est égal à:

ˆ ν = k − 1 si les paramètres de la loi d’ajustement L sont donnés.

ˆ ν = k − r − 1 si la loi d’ajustement L comporte r paramètres inconnus.

d’où la règle de décision :

ˆ Si χ2obs < χ2ν,α , on accepte H0 (X ∼ L) .

ˆ Si χ2obs ≥ χ2ν,α , on rejette H0 (X ne suit pas la loi L).

Remarque. Le nombre d’observations par classes ne doit pas être faible, N pi doit être supérieur à 5 pour a
moins 80% des cas. Dans le cas contraire, on regroupe deux ou plusieurs classes adjacentes de façon à réaliser cette
condition. On tient compte de ce regroupement pour le nombre de degrés de liberté.

56
Chapter 3. TESTS KHI-DEUX

3.3 Test d’homogénéité

3.3.1 Principe du test et formulation des hypothèses

Le test du χ2 d’homogénéité est utilisé pour comparer la distribution d’une variable qualitative à p modalités entre
k échantillons de tailles n1 , n2 , . . . , nk .

3.3.1.1 Formulation des hypothèses

Les hypothèses du test du χ2 d’homogénéité sont donc les suivantes :

ˆH0 : Les distributions observées du caractère étudié sont identiques entre les k échantillons observés.

ˆH1 : Les distributions observées du caractère étudié sont différentes entre les k échantillons observés.

3.3.1.2 Tableaux de contingence

Les observations sont regroupées dans un tableau de contingence (tableau des effectifs observés) présentant autant
de lignes que d’échantillons observés (k lignes).

Modalité 1 ... Modalité j ... Modalité p Total


Echant.1 n11 ... n1j ... n1p n1
. . . . . . .
. . . . . . .
Echant.i ni1 ... nij ... nip ni
. . . . . . .
. . . . . . .
Echant.k nk1 ... nkj ... nkp nk
Total m1 ... mj ... mp N

Tout comme dans le cadre général, le test du χ2 d’homogénéité nécessite le calcul des effectifs théoriques tij , sous
l’hypothèse H0 est vraie, selon la formule :
ni × mj
tij =
N
nj
En effet, le taux global de la modalité j est : et donc le nombre théorique des individus de l’échantillon i
N
mj
possédant la modalité j est tij = ni .
N
Ce qui nous permet d’obtenir le tableau de contingence des effectifs théoriques suivant :

57
Chapter 3. TESTS KHI-DEUX

Modalité 1 ... Modalité j ... Modalité p Total


Echant.1 t11 ... t1j ... t1p t1.
. . . . . . .
. . . . . . .
Echant.i ti1 ... tij ... tip ti.
. . . . . . .
. . . . . . .
Echant.k tk1 ... tkj ... tkp tk.
Total t.1 ... t.j ... t.p t.. = N

3.3.2 Statistique de test

Sous H0 , la statistique de test associée au test du χ2 d’homogénéité est définie par la distance mesurant l’écart
entre les deux tableaux.

La distance du χ2obs s’écrit :


k X p
X (nij − tij )2
χ2obs =
i=1 j=1
tij

3.3.3 Zone critique et règle de décision

Pour un risque du premier espèce α, la région critique conduisant au rejet de l’hypothèse nulle est définie par
l’ensemble des valeurs de χ2obs vérifiant

χ2obs ≥ χ2ν,α

avec ν est le nombre de degrés de liberté qui se calcule ainsi

ν = (p − 1) × (k − 1)

D’où la règle de décision :

ˆ Si χ2obs < χ2ν,α , l’hypothèse H0 est acceptée( Les k échantillons observés sont issus de populations ayant la même
distribution du caractère étudié).

ˆ Si χ2obs ≥ χ2ν,α , l’hypothèse H0 est rejetée au risque d’erreur α ( Les k échantillons observés sont issus de
populations ayant des distributions différentes du caractère étudié).

58
Chapter 3. TESTS KHI-DEUX

Remarque. La statistique du χ2 ne peut être calculée que si les effectifs théoriques tij sont supérieurs ou
égaux à 5. Dans le cas contraire, il faut regrouper à la fois toute la ligne et toute la colonne correspond à la case
possédant une valeur tij inférieur à 5.

3.4 Test d’indépendance

3.4.1 Principe du test et formulation des hypothèses

Le test du khi-deux d’indépendance est une hypothèse statistique utilisée pour déterminer l’existence ou non d’une
relation entre deux caractères au sein d’une population.

Exemples :

ˆ Est-ce que l’appartenance politique dépend du sexe?

ˆ Est ce que la présence aux cours magistraux influence sur les notes des étudiants?

ˆ Est ce qu’il y a une relation entre la catégorie d’âge et le type de sport pratiqué?

Voyons comment ce test peut-être utilisé dans le cas d’une distribution à deux caractères.

3.4.1.1 Formulation des hypothèses

On commence par faire l’hypothèse qu’il y a indépendance entre les deux caractères dans la population tel que :

ˆ H0 : les deux caractères sont indépendants.

ˆ H1 : les deux caractères ne sont pas indépendants.

3.4.1.2 Tableaux de contingence

Les données sont structurées sous forme d’un tableau des effectifs observés pour les deux caractères comparés X et
Y avec:

• X est définie par les modalités (Si X qualitatif) ou les valeurs (si X quantitatif) suivants : x1 , . . . , xp .

• Y est définie par les modalités (si Y qualitatif) ou les valeurs (si Y quantitatif) suivants : y1 , . . . , yk .

59
Chapter 3. TESTS KHI-DEUX

X/Y y1 . . . yj . . . yk total
x1 n11 . . . n1j . . . n1k n1.
. . . . .
. . . . .
. . . . .
xi ni1 nij nik ni.
. . . . .
. . . . .
. . . . .
xp np1 npj npk np.
total n.1 n.j n.k n.. = N

Avec:

ˆ ni,j : le nombre d’individus ayant la modalité xi du caractère X et la modalité yj du caractère Y.

ˆ ni. : la somme des effectifs de la ième ligne (nombre d’individus ayant la modalité xi ).

ˆ n.j : la somme des effectifs de jème colonne (nombre d’individus ayant la modalité yj ).

ˆ n.. = N : l’effectif total de la table de contingence.

Sous l’hypothèse H0 , l’effectif attendu tij peut être obtenu de la façon suivante :

On a
P (xi ∩ yj ) = P (xi ) × P (yj ) = pij

Sous H0 : indépendance entre les deux caractères X et Y.

Or pij , p(xi ) et p(yj ) ne sont pas connues donc on peut les remplacer par leurs estimations ponctuelles.

Ce qui donne :

p̂ij = P̂ (xi ) × P̂ (yj )

D’où

ni. n.j tij


fij = × = .
N N N

D’où

60
Chapter 3. TESTS KHI-DEUX

ni. × n.j
tij = N × fij =
N

Sous H0 , le tableau de contingence des effectifs théoriques est définie comme suit.

X/Y y1 . . . yj . . . yk total
x1 t11 . . . t1j . . . t1k t1.
. . . . .
. . . . .
. . . . .
xi ti1 tij tik .
. . . . .
. . . . .
. . . . .
xp tp1 tpj tpk tp.
total t.1 t.j t.k t.. =N

3.4.2 Statistique du test

Le but est alors de tester si la différence entre le tableau des effectifs observés (tableau de contingence) et le tableau
des effectifs théorique obtenu sous l’hypothèse d’indépendance est significative.

L’indicateur d’écart χ2obs s’écrit :


p k
X X (nij − tij )2
χ2obs =
i=1 j=1
tij

3.4.3 Zone critique et règle de décision

De manière similaire au autres test χ2 pour un risque α, la région critique est définie par l’ensemble des valeurs de
χ2obs vérifiant

χ2obs ≥ χ2ν,α

avec ν est le nombre de degrés de liberté qui se calcule ainsi :

ν = (p − 1) × (k − 1)

D’où la règle de décision :

61
Chapter 3. TESTS KHI-DEUX

ˆ Si χ2obs < χ2ν,α , l’hypothèse H0 est acceptée (Les deux caractères étudiés dans la population sont statistiquement
indépendants).

ˆSi χ2obs ≥ χ2ν,α , l’hypothèse H0 est rejetée au risque d’erreur α (il n’y a pas indépendance statistique entre les
deux caractères étudiés dans la population).

62

Vous aimerez peut-être aussi