Cours Modélisation Statistique

UNIVERSITÉ MOULAY ISMAIL
ÉCOLE NATIONALE SUPÉRIEURE

D’ARTS ET METIERS- MEKNÈS
COURS DE
MODELISATION STATISTIQUE.
Pr. Houda BARKOUKI
Année universitaire : 2023/2024

Contents
1 Rappels des probabilités pour la statistique 5
1.1 Rappel des lois de probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1.1 Fonction de répartition d’une loi discrète . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1.2 Fonction de répartition d’une loi continue . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.1.3 Espérance et variance dans le cas discret . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.1.4 Espérance et variance dans le cas continu . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.2 Principales lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.2.1 Loi de Bernoulli B(p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.2.2 Loi binomiale B(n, p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.2.3 Loi de Poisson P(λ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.3 Principales lois continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.3.1 Loi uniforme U([a, b]) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.3.2 Loi exponentielle E(λ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.3.3 Loi normale N (m, σ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.3.4 Loi normale centrée réduite N (0, 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.3.5 Loi du khi-deux χ2n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1
Contents
1.1.4 Relations entre les principales lois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1.5 Couple de v.a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1.5.1 Cas discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.1.5.2 Cas continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.1.5.3 Lois conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.1.5.4 Caractéristique d’un couple (X, Y) . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2 Convergence et approximations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2.1 Théorème Central Limite (TCL) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2.2 Approximations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3 Échantillonnage et estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.1 Distribution d’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.1.1 Distribution d’échantillonnage de la moyenne . . . . . . . . . . . . . . . . . . . . . 14
1.3.1.2 Distribution d’échantillonnage d’une variance . . . . . . . . . . . . . . . . . . . . . 14
1.3.1.3 Distribution d’échantillonnage d’une proportion . . . . . . . . . . . . . . . . . . . . 14
1.3.1.4 Lois et lois limites de distributions d’échantillonnage . . . . . . . . . . . . . . . . . 14
1.3.2 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3.2.1 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3.2.2 Estimation par intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . . 17
2 Tests d’hypothèse 19
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Techniques de base pour tester les hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.1 Choix de l’hypothèse à tester . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.1.1 Hypothèse nulle et hypothèse alternative . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.1.2 La nature du test (unilatéral ou bilatéral) . . . . . . . . . . . . . . . . . . . . . . . 21
2
Contents
2.2.2 Risques d’erreur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.2.1 Risque d’erreur du première espèce α . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.2.2 Risque d’erreur du deuxième espèce β . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.2.3 La puissance d’un test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.3 Choix d’un test statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.4 Choix de la région critique ou la zone d’acceptation . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.5 Règle de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.5.1 Règle de décision 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.5.2 Règle de décision 2 : p-valeur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3 Tests statistiques paramétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3.1 Tests de conformité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3.1.1 Comparaison de moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3.1.2 Comparaison de deux variances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.1.3 Comparaison de deux proportions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.3.2 Tests d’homogénéité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.3.2.1 Comparaison de variances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.3.2.2 Comparaison de deux moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.3.2.3 Comparaison de deux proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3 TESTS KHI-DEUX 50
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.1.1 Principe du test χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.2 Statistique du test χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.3 Zone critique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.1.4 règle de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3
Contents
3.1.5 Condition d’application du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.2 Test d’ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.2.1 Principe du test et formulation des hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2.1.1 Formulation des hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2.1.2 Tableaux de contingence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2.2 Statistique du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2.3 Zone critique et règle de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.3 Test d’homogénéité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3.2 Statistique de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.4 Test d’indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.4.2 Statistique du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4
Rappels des probabilités pour la statistique
1
Ce chapitre énonce quelques résultats de base du calcul des probabilités utiles pour la statistique. Les notions sont
présentées sans aucune démonstration. Les détails ont été déjà vus dans le cours de Probabilités du quatrième
semestre, et aussi le cours de statistique mathématique du cinquième semestre.
1.1 Rappel des lois de probabilités
En théorie des probabilités et en statistique, une loi de probabilité décrit le comportement aléatoire d’un phénomène
dépendant du hasard. Elle est dite continue ou discrète, selon qu’elle définit une probabilité pour une variable
continue ou discrète.
1.1.1 Généralités
1.1.1.1 Fonction de répartition d’une loi discrète
Si X est une variable aléatoire discrète telle que X(Ω) = {x1 , ..., xn }, sa fonction de répartition est définie par
5
Chapter 1. Rappels des probabilités pour la statistique
X
FX (x) = P (X ≤ x) = P (X = xi )
xi ∈X(Ω), xi ≤x
1.1.1.2 Fonction de répartition d’une loi continue
Si X est une variable aléatoire continue de densité f, sa fonctionZ de répartition est définie par
x
FX (x) = P (X ≤ x) = f (t)dt
−∞
′
On a alors P (X > x) = 1 − FX (x) et sa densité vaut f (x) = FX (x).
1.1.1.3 Espérance et variance dans le cas discret
Si X est une variable aléatoire discrète, on a :

k
X
E(X) = xi p(xi )
i=1
Xk
E(X 2 ) = xi 2 p(xi )
i=1
V (X) = E(X 2 ) − E(X)2
1.1.1.4 Espérance et variance dans le cas continu
Si X est une variable aléatoire continue de densité f, on a :
Z +∞
E(X) = xf (x)
−∞
Z +∞
E(X 2 ) = x2 f (x)
−∞
V (X) = E(X 2 ) − E(X)2
6
1.1.2 Principales lois discrètes
1.1.2.1 Loi de Bernoulli B(p)
•X(Ω) = {0, 1}, paramètre p
• P(X=1)=p, P(X=0)=(1-p)
• E(X)=p, V(X)=p(1-p)
1.1.2.2 Loi binomiale B(n, p)
•X(Ω) = {0, . . . , n}, paramètre n et p
•P (X = k) = Cnk pk (1 − p)n−k
• E(X)=np, V(X)=np(1-p)
1.1.2.3 Loi de Poisson P(λ)
•X(Ω) = N, paramètre λ
•E(X) = V (X) = λ
λk e−λ
•P (X = k) =
k!
1.1.3 Principales lois continues
1.1.3.1 Loi uniforme U([a, b])
•X(Ω) = [a, b], paramètres a et b
 1 si x ∈ [a, b],

•f (x) = b−a
 0 sinon


 0 si x < a,
 x−a
•F (x) = si a ≤ x ≤ b,
 b−a

1 si x > b

7
a+b (b − a)2
•E(X) = , V (X) =
2 12
1.1.3.2 Loi exponentielle E(λ)
•X(Ω) = R+ , paramètre λ
(
λe−λx si x > 0,
•f (x) =
0 sinon
(
1 − e−λx si x > 0,
•F (x) =
0 sinon
1 1
•E(X) = , V (X) = 2
λ λ
1.1.3.3 Loi normale N (m, σ)
•X(Ω) = R, paramètres m (moyenne) et σ (écart-type)
(x − m)2
1 −
•f (x) = √ e 2σ 2
σ 2π
(x − m)2
1 Rx −
•F (x) = √ −∞
e 2σ 2 dx
σ 2π
• E(X)=m, V(X)=σ 2
1.1.3.4 Loi normale centrée réduite N (0, 1)
•X(Ω) = R, paramètres m=0 et σ = 1
−(x)2
1
•f (x) = √ e 2
2π
−x2
Rx 1
•F (x) = −∞
√ e 2 dx
2π
• E(X)=0, V(X)=1
8
1.1.3.5 Loi du khi-deux χ2n
•X(Ω) = R+ , paramètres n (degré de liberté)
• E(X)=n, V(X)=2n
Loi de Student Tn
•X(Ω) = R, paramètres n (degré de liberté)
• E(X)=0 pour n > 1, V(X)=n/(n-2) pour n > 2
1.1.4 Relations entre les principales lois

Pn
• Si les variables Xi suivent une loi B(p) et sont indépendantes, alors la variable Y = i=1 Xi suit une loi B(n,p).
Pn
• Si les variables Xi suivent une loi P(λi ) et sont indépendantes, alors la variable Y = i=1 Xi suit une loi
P
P( λi ).
X −m
• Si la variable X suit une loi N (m, σ), alors la variable Y = suit une loi N (0, 1).
σ
• Si X1 , . . . , Xn sont indépendantes et Xi ∼ N (0, 1) pour tout i ∈ {1, . . . , n}, alors Z = X12 + . . . + Xn2 ∼ χ2n .
√ X
• Si X ∼ N (0, 1), Y suit une loi de χ2n à n degrés de liberté et X et Y sont indépendantes, alors Z = n√
Y
suit une loi de Student à n degrés de liberté.
• Soit X une variable aléatoire de loi χ2n et Y une variable aléatoire de loi χ2m . Si X et Y sont indépendantes,
X/n mX
alors Z = = est de loi de Fisher-Snedecor à (n,m) degrés de liberté (de paramètres n et m). On note
Y /m nY
X ∼ F (n, m).
1.1.5 Couple de v.a
Définition
Un couple de variables aléatoires sur (Ω, F, P ) est un couple (X, Y ), où X et Y sont des variables aléatoires
réelles sur (Ω, F, P ).
9
1.1.5.1 Cas discret
Loi conjointe: La loi conjointe ou loi du couple (X, Y ) est l’ensemble des couples
{((xi , yj ), pi,j ), (i, j) ∈ I × J}
où
pi,j = P ((X = xi ) ∩ (Y = yj )) = P ((X, Y )−1 ({(xi , yj )})).
P
avec pij ≥ 0 pour tout (i, j) ∈ I × J et (i,j)∈I×J pij = 1.
Lois marginales (de X et de Y):

X X
pi. := P (X = xi ) = p(xi ) = P ((X = xi ) ∩ (Y = yj )) = pij
j∈J j∈J
et
X X
p.j := P (Y = yj ) = P (yj ) = P ((X = xi ) ∩ (Y = yj )) = pij .
i∈I i∈I
Indépendance: X et Y sont indépendantes si:

pi,j = pi. × p.j , ∀(i, j) ∈ (I × J).
1.1.5.2 Cas continue
Loi conjointe: La loi du vecteur (X, Y) est donnée pas sa fonction de densité f(X,Y ) (x, y) telle que
R
f(X,Y ) (x, y) ≥ 0 et R f (x, y)dxdy = 1.
Ou bien par sa fonction de répartition F(X,Y ) (x, y)
Z xtelle
Z yque:
F(X,Y ) (x, y) = f(X,Y ) (x, y)dxdy.
−∞ −∞
Lois marginales:
 R
 fX (x) = R f(X,Y ) (x, y)dy,

 R
fY (y) = f(X,Y ) (x, y)dx,

R
Indépendance: X et Y sont indépendantes si:

f(X,Y ) (x, y) = fX (x).fY (y)
ou bien
F(X,Y ) (x, y) = FX (x).FY (y)
1.1.5.3 Lois conditionnelles
On définit les lois conditionnelles par
10
pij pij
P (X = xi /Y = yj ) = =
p(yj ) p.j
pij pij
P (Y = yj /X = xi ) = =
p(xi ) pi.
1.1.5.4 Caractéristique d’un couple (X, Y)
1. Espérance mathématique :
XX
Cas discret: E(X · Y ) = xi yj × p(xi , yj ).
i∈I j∈J
Cas continue: E(X · Y ) =

R
R
x.yf(X,Y ) dxdy.
2. Covariance d’un couple de variables aléatoires : la covariance d’un couple de variables aléatoires est un
paramètre permettant d’étudier le sens de la relation entre deux variables. C’est l’espérance mathématique
des produits des écarts par rapport aux espérances. Elle est définit par :
cov(X, Y ) = E[(X − E(X))(Y − E(Y ))] = E(X · Y ) − E(X)E(Y )
Si X et Y sont deux variables indépendantes, alors leur covariance est nulle. En effet, on a alors :
E(X · Y ) = E(X) · E(Y ) = E(X)E(Y ),

La réciproque, cependant, n’est pas toujours vraie. Il est en effet possible que X et Y ne soient pas
indépendantes, et que leur covariance soit nulle. Des variables aléatoires dont la covariance est nulle sont
dites non corrélées (absence de liaison linéaire).
Cov(X, Y ) > 0 indique l’existence d’une relation linéaire positive entre X et Y.
Cov(X, Y ) < 0 indique l’existence d’une relation linéaire négative entre X et Y.
Propriétés :
Soient X et Y deux v.a :
V (X + Y ) = V (X) + V (Y ) + 2Cov(X, Y )
V (X − Y ) = V (X) + V (Y ) − 2Cov(X, Y )
cov(X,X)=V(X)
Si X et Y sont indépendantes, alors Cov(X,Y)=0 et on :
– E(X · Y ) = E(X) × E(Y )
– V (X + Y ) = V (X − Y ) = V (X) + V (Y )
11
3. Coefficient de corrélation linéaire: le coefficient de corrélation linéaire, désigné par r, a pour objet de mesurer
le degré de la relation linéaire entre deux variables X et Y.
Cov(X, Y )
r(X, Y ) = p
V (X)V (Y )
Cette définition montre que le coefficient de corrélation linéaire possède le même signe que la covariance et
qu’il est toujours compris entre -1 et 1.
−1 ≤ r(X, Y ) ≤ 1
Propriétés :
Plus r(X, Y ) est proche de 1 plus la relation est forte positive.

Plus r(X, Y ) est proche de -1 plus la relation est forte négative.
Plus r(X, Y ) est proche de 0 plus la relation est faible.
Si X et Y sont indépendantes alors r(X, Y ) = 0. Le réciproque n’est pas toujours vrai.
1.2 Convergence et approximations
1.2.1 Théorème Central Limite (TCL)
Soit {Xn }n≥1 une suite de variables aléatoires réelles indépendantes et de même loi (iid), d’espérance E(X) =
p
E(Xi ) = m et d’écart-type σ(X) = σ(Xi ) = V ar(X) = σ pour tout i = 1, ..., n.
Soit Sn = X1 + . . . + Xn . Alors
Sn − E(Sn ) Sn − n.m L
= √ −−−−→ N (0, 1)
σ(Sn ) n.σ n→+∞
Autrement dit,
X̄ − m L
σ −−−−→ N (0, 1)
n→+∞
√
n
n
1X Sn
avec X̄ = Xi = .
n i=1 n

1 Pn σ
Plus précisément, pour n assez grand X̄ = Xi est approximativement de loi N m, √ .
n i=1 n
12
1.2.2 Approximations
• Si n ≥ 30 et np < 5, on peut approcher une loi B(n,p) par une loi P(λ), avec λ = np.
p
• Si n ≥ 30, np ≥ 5 et n(1 − p) ≥ 5, alors on peut approcher une loi B(n,p) par une loi N (np, np(1 − p)).
√
• Si λ est assez grand, on peut approcher une loi P(λ) par une loi N (λ, λ).
√
• Si n est assez grand, on peut approcher une loi χ2n par une loi N (n, 2n).
• Si n est assez grand, on peut approcher une loi Tn par une loi N (0, 1).
1.3 Échantillonnage et estimation
1.3.1 Distribution d’échantillonnage
Pour résoudre les problèmes d’estimation de paramètres inconnus, il faut tout d’abord étudier les distributions
d’échantillonnage, c’est à dire la loi de probabilité suivie par l’estimateur.
Remarque:
En théorie de l’estimation, il s’agit de distinguer soigneusement entre trois concepts différents :
1. les paramètres de la population comme l’espérance m dont la valeur est certaine mais souvent inconnue
(symbolisés par des lettres grecques).
2. les paramètres de l’échantillon comme la moyenne empirique x̄ dont la valeur est incertaine mais connue
(symbolisés par des minuscules).
3. les distributions d’échantillonnage (variables aléatoires des paramètres de l’échantillon), comme la moyenne
aléatoire X̄ dont la valeur est incertaine puisque aléatoire mais dont la loi de probabilité est souvent connue
(symbolisées par des majuscules).
Soit X une variable aléatoire étudiée sur une population. Soit (X1 , X2 , . . . , Xn ) un échantillon aléatoire non
exhaustif (les v.a sont indépendantes et de même loi(i.i.d)) et (x1 , x2 , . . . , xn ) un échantillon aléatoire empirique.
13
1.3.1.1 Distribution d’échantillonnage de la moyenne
On construit la variable aléatoire X, telle que

n
X1 + X2 + . . . + Xi + . . . + Xn 1X
X̄ = = Xi
n n i=1
X̄ est la distribution d’échantillonnage de la moyenne.

1 Pn
x̄ = xi est une réalisation de la v.a X̄.
n i=1
1.3.1.2 Distribution d’échantillonnage d’une variance
La variable aléatoire S 2 telle que

n
2 1X
S = (Xi − X̄)2
n i=1
est la distribution d’échantillonnage de la variance.
1 Pn
s2 = 2 2
i=1 (xi − x̄) est une réalisation de la variable aléatoire S .
n
1.3.1.3 Distribution d’échantillonnage d’une proportion
K
On construit la variable aléatoire F = = X̄ avec K est la v.a possédant comme valeurs le nombre d’individus,
n
avec le caractère étudié, dans chaque échantillon.
La v.a F est la distribution d’échantillonnage de la proportion p.

k
f= est une réalisation de la v.a F.
n
1.3.1.4 Lois et lois limites de distributions d’échantillonnage
En fonction de la nature de la variable aléatoire continue X, de la taille de l’échantillon n et de la connaissance

que nous avons sur le paramètre σ 2 , les distributions d’échantillonnage X̄, S 2 et F peuvent suivre ou converger vers
différentes loi.
1. Si X de loi inconnue et la taille de l’échantillon n est assez grande (n ≥ 30), on se trouve dans les conditions
du Théorème Central Limite et on a:
X̄ − m
Si σ est connu, √ suit la loi normale centrée réduite N (0, 1).
σ/ n
14
X̄ − m
Si σ est inconnu, suit la loi normale centrée réduite N (0, 1).
S
√
n−1
F −p
r suit la loi normale centrée réduite.
pq
n
S 2 − σ2
r suit la loi normale centrée réduite, avec m4 = E((X − m)4 ).
4
m4 − σ
n
2. Si X ∼ N (m, σ), on a ∀n ≥ 1:

X̄ − m σ
σ suit la loi N (0, 1) X̄ ∼ N m, √ (σ 2 connue).
√ n
n
X̄ − m
suit la loi Tn−1 (σ 2 inconnue).
S
√
n−1
nT 2
suit la loi χ2n (m connue).
σ2
nS 2
suit la loi χ2n−1 (m inconnue).
σ2
• Lorsque n ≥ 30, la loi Student converge vers une loi normale centrée réduite.
1.3.2 Estimation
Soient X1 , X2 , . . . , Xn , n réalisations indépendantes de la variable aléatoire X (discrète ou continue) et θ un

paramètre inconnu associé à la loi de probabilité suivi par X, un estimateur du paramètre θ est une variable
aléatoire Θ fonction des Xi :
Θ = f (X1 , X2, . . . , Xn )
Si on considère n observations x1 , x2 , . . . , xn , l’estimateur Θ fournira une estimation de θ notée également θ̂ :

θ̂ = f (x1 , x2 , . . . , xn )
L’estimation a donc pour objectif de déterminer les valeurs inconnues des paramètres de la population (p, m, σ 2 )
ou (proportion, espérance, variance) à partir des données de l’échantillon (f, x, s2 ).
certaine probabilité.
15
1.3.2.1 Estimation ponctuelle
L’estimation d’un paramètre quelconque θ est dite ponctuelle si l’on associe une seule valeur à θ̂ à partir des données
observables sur un échantillon aléatoire. Pour construire une estimation ponctuelle d’un paramètre inconnu θ, on
peut utilise la méthode du maximum de vraisemblance ou la méthode des moments (voir cours statistique
mathématique).
Pour les paramètres usuelles, on a:
Espérance de X:
La moyenne empirique X̄ constitue le meilleur estimateur de m=E(X):

n
1X
X̄ = Xi
n i=1
Pour une réalisation donnée (x1 , . . . , xn ) d’un échantillon aléatoire, une estimation m̂ de l’espérance m est donnée
par :
n
1X
m̂ = x̄ = xi
n i=1
Variance de X:
• Cas où l’espérance m est connu : La variance observée T 2 constitue le meilleur estimateur de σ 2 = V (X),
lorsque l’espérance m est connue :
n
2 1X
T = (Xi − m)2
n i=1
Pour une réalisation donnée (x1 , . . . , xn ) d’un échantillon aléatoire, une estimation σ̂ 2 de la variance σ 2 est donné
par :
n
2 1X
σ̂ = (xi − m)2
n i=1
• Cas où l’espérance m n’est pas connu :
La variance empirique corrigée S ∗2 , constitue le meilleur estimateur de σ 2 lorsque l’espérance m est inconnu.
n
∗2 n 2 1 X
S = S = (Xi − X̄)2
n−1 n − 1 i=1
1 Pn
avec S 2 = (Xi − X̄)2 est la variance empirique.
n i=1
Pour une réalisation donnée (x1 , . . . , xn ) d’un échantillon aléatoire, une estimation σ̂ 2 de la variance σ 2 lorsque
16
l’espérance est inconnue est donnée par :

n
2 ∗2 n 2 1 X
σ̂ = s = s = (xi − x̄)2
n−1 n − 1 i=1
Proportion :
La distribution d’échantillonnage de la proportion, notée F, constitue le meilleur estimateur de p, proportion de

la population :
K
F =
n
k
La fréquence observée f = dans un échantillon de taille n est une estimation de p, proportion de la population:
n
p̂ = f
1.3.2.2 Estimation par intervalle de confiance
L’estimation par intervalle associe à un échantillon aléatoire, un intervalle [θ̂1 , θ̂2 ] qui recouvre θ̂ avec une certaine
probabilité.
Cet intervalle est appelé l’intervalle de confiance du paramètre θ car la probabilité que θ dont la valeur est
inconnue se trouve compris entre θ1 et θ2 est égale à 1 − α, le coefficient de confiance
P (θ1 ≤ θ ≤ θ2 ) = 1 − α
Son complément α correspond au coefficient de risque qui vérifie

P (θ ∈/ [θ1 , θ2 ]) = α
Intervalle de confiance de m=E(X):
• X ∼ N (m, σ) et σ connu:

σ σ
I(m) = X̄ − z1−α/2 √ , X̄ + z1−α/2 √
n n
• X ∼ N (m, σ) et σ inconnu:

S S
I(m) = X̄ − t1−α/2 √ , X̄ + t1−α/2 √
n−1 n−1
avec z1−α/2 et t1−α/2 sont les quantiles d’ordre 1 − α/2 de la loi N (0, 1) et la loi Tn−1 , respectivement.
17
• Lorsque n ≥ 30, la loi Student converge vers une loi normale centrée réduite. Ainsi t1−α/2 ≈ z1−α/2 .
• Si X de loi inconnue et n ≥ 30:

S S
I(m) = X̄ − z1−α/2 √ , X̄ + z1−α/2 √ , si (σ inconnu)
n−1 n−1
et

σ σ
I(m) = X̄ − z1−α/2 √ , X̄ + z1−α/2 √ , si (σ connu)
n n
• Si X suit de loi inconnue et n < 30 :

X̄ − m X̄ − m
La loi de probabilité suivie par √ et √ ne sont pas connues.
S/ n − 1 σ/ n
Intervalle de confiance d’une variance :
• X ∼ N (m, σ) et m connue :
" #
nT 2 nT 2
I(σ 2 ) = ,
χ21−α/2 χ2α/2
avec χ21−α/2 et χ2α/2 sont les quantiles d’ordre 1 − α/2 et α/2, respectivement de la loi χ2n .
• X ∼ N (m, σ) et m inconnue :
" #
nS 2 nS 2
I(σ 2 ) = ,
χ21−α/2 χ2α/2
avec χ21−α/2 et χ2α/2 sont les quantiles d’ordre 1 − α/2 et α/2, respectivement de la loi χ2n−1 .
Intervalle de confiance d’une

" proportionr : Si n est assez grand r et np, nq#≥ 5, on a:
F (1 − F ) F (1 − F )
F − z1−α/2 , F + z1−α/2 .
n n
18
Tests d’hypothèse
2
2.1 Introduction
Un test d’hypothèse est un procédé d’inférence permettant de contrôler (accepter ou rejeter), à partir de l’étude d’un
ou plusieurs échantillons aléatoires, la validité d’hypothèses relatives à une ou plusieurs populations. Autrement
dit, il permet de déterminer, avec une probabilité donnée, si les différences constatées au niveau des échantillons
peuvent être imputables au hasard ou si elles sont suffisamment importantes pour signifier que les échantillons
proviennent de populations vraisemblablement différentes.
En fonction de l’hypothèse testée, plusieurs types de tests peuvent être réalisés :
1. Les tests destinés à vérifier si un échantillon peut être considéré comme extrait d’une population donnée,
vis-à-vis d’un paramètre comme la moyenne, la variance ou la fréquence observée (tests de conformité).
Exemple :
• Est-ce que le taux de glucose moyen mesuré dans un échantillon d’individus est conforme au taux de glucose
moyen connu dans la population ?
2. Les tests destinés à comparer plusieurs populations à l’aide d’un nombre équivalent d’échantillons (tests
d’égalité ou d’homogénéité).
Exemple :
19
Chapter 2. Tests d’hypothèse
• Y a-t-il une différence entre le taux de glucose moyen mesuré pour deux échantillons d’individus ayant reçu
des traitements différents ?
3. Les tests destinés à vérifier si un échantillon peut être considéré comme extrait d’une population donnée par
rapport à sa distribution observée (tests d’ajustement).
Exemple :
• Est ce que la durée de vie d’un équipement électrique obéit approximativement à une loi exponentielle ?
4. Les tests destinés à tester l’indépendance entre deux caractères, généralement qualitatifs (tests d’indépendance
Exemple :
• Est-ce que la distribution des fréquences génotypiques observées pour un locus donné est indépendante du
sexe des individus ?.
Pour répondre à ces questions, on doit formuler des hypothèses statistiques qui sont alors acceptées ou rejetées au
vu des résultats numériques obtenus lors de la réalisation de n expériences indépendantes.
Un test est donc un procédé permettant de décider si une hypothèse donnée, notée généralement H0 , peut être
considérée comme vraie ou fausse. Notons cependant qu’aucune décision statistique ne peut être prise avec une
certitude absolue; quelle que soit la conclusion, le risque de se tromper existe toujours.
2.2 Techniques de base pour tester les hypothèses
Les étapes à suivre pour tester une hypothèse sont:
1. définir l’hypothèse nulle, notée H0 , à contrôler, et l’hypothèse alternative, notée H1 .
2. choisir un test statistique ou une statistique (dite aussi la fonction discriminante du test) pour contrôler
H0 ,
3. définir la loi de probabilité de la statistique sous l’hypothèse ≪ H0 est réalisée ≫,
4. définir le niveau de signification du test α et la la zone d’acceptation associée (ou région critique).
5. calculer, à partir des données fournies par l’échantillon, une valeur de la statistique S sous l’hypothèse H0 .
6. prendre une décision concernant l’hypothèse posée et faire une interprétation biologique.
20
2.2.1 Choix de l’hypothèse à tester
Dans tous les domaines, on est amené à prendre des décisions sur une activité risquée au vu de résultats d’expériences
ou d’observation de phénomènes dans un contexte incertain. Par exemple :
essais thérapeutiques: décider si un nouveau traitement médical est meilleur qu’un ancien au vu du résultat
de son expérimentation sur des malades.
finance : au vu du marché, décider si on doit ou pas se lancer dans une opération financière donnée.
santé : décider s’il faut vacciner toute une population contre grippe A.
Contrôle de qualité : décider si une production vérifie des certaines normes.
Dans chaque cas, le problème de décision consiste à trancher, au vu d’observations, entre une hypothèse appelée
hypothèse nulle, notée H0 , et une autre hypothèse dite hypothèse alternative, notée H1 . En général, on suppose
qu’une et une seule de ces deux hypothèses est vraie. Un test d’hypothèses est une procédure qui permet de choisir
entre ces deux hypothèses.
2.2.1.1 Hypothèse nulle et hypothèse alternative
L’hypothèse nulle notée H0 est l’hypothèse que l’on désire contrôler : elle consiste à dire qu’il n’existe pas
de différence entre les paramètres comparés ou que la différence observée n’est pas significative et est due aux
fluctuations d’échantillonnage.
L’hypothèse alternative notée H1 est la négation de H0 , elle est équivalente à dire ≪ H0 est fausse ≫ . La
décision de rejeter H0 signifie que H1 est réalisée ou H1 est vraie.
2.2.1.2 La nature du test (unilatéral ou bilatéral)
La nature de H0 détermine la façon de formuler H1 et par conséquence la nature unilatérale ou bilatérale du test.
On parle de test bilatéral lorsque l’hypothèse alternative se ”décompose en deux parties”. Par exemple si H0
consiste à dire que la population estudiantine avec une fréquence de fumeurs p est représentative de la population
globale avec une fréquence de fumeurs p0 , on pose alors : H0 : p = p0 et H1 : p ̸= p0 . Le test sera bilatéral car,
pour l’hypothèse alternative, on considère que la fréquence p peut être supérieure ou inférieure à la fréquence p0 .
α
La région critique en vert correspond à une probabilité de part et d’autre de la courbe.
2
On parle de test unilatéral lorsque l’hypothèse alternative se ”compose d’une seule partie”. Par exemple si
l’on fait l’hypothèse alternative que la fréquence de fumeurs dans la population estudiantine p est supérieure à la
21
fréquence de fumeurs dans la population p0 , on pose alors H0 : p = p0 et H1 : p > p0 . Le test sera unilatéral à
droite car on considère que la fréquence p ne peut être que supérieure à la fréquence p0 . La région critique en vert
(à droite) correspond à une probabilité α.
Il aurait été possible également d’avoir : H0 : p = p0 et H1 : p < p0 . Dans ce cas, le test sera unilatéral à
gauche.
2.2.2 Risques d’erreur
Dans un problème de décision, on peut toujours se tromper de deux manières différentes et par conséquent deux
types d’erreurs sont possibles :
22
2.2.2.1 Risque d’erreur du première espèce α
Le risque d’erreur α est la probabilité que la valeur expérimentale ou calculée de la statistique S appartienne à la
région critique si H0 est vrai. Dans ce cas H0 est rejetée et H1 est considérée comme vraie (rejet à tort).
Le risque α de première espèce est celui de rejeter H0 alors qu’elle est vraie :
α = P( rejeter H0 /H0 vraie)
ou accepter H1 alors qu’elle est fausse
α = P (accepter H1 /H1 f ausse)
2.2.2.2 Risque d’erreur du deuxième espèce β
Le risque d’erreur β est la probabilité que la valeur expérimentale ou calculée de la statistique n’appartienne pas à
la région critique si H1 est vrai. Dans ce cas H0 est acceptée et H1 est considérée comme fausse.
Le risque β de deuxième espèce est celui d’accepter H0 alors qu’elle est fausse :
β = P (accepter H0 /H0 f ausse) ou P (accepter H0 /H1 vraie)
ou rejeter H1 alors qu’elle est vraie
β = P (rejeter H1 /H1 vraie)
Les conséquences de ces deux erreurs peuvent être d’importances diverses. En général, une des erreurs est plus
grave que l’autre :
essais thérapeutiques : on peut adopter un nouveau traitement moins efficace, voire pire que l’ancien (erreur
β), ou se priver d’un nouveau traitement plus efficace que l’ancien (erreur α).
finance : si on décide à tort que l’on peut lancer l’opération, on risque de perdre beaucoup d’argent (erreur
β); si on décide à tort de ne pas lancer l’opération, on peut se priver d’un bénéfice important (erreur α).
santé : on peut dépenser des milliards d’euros en vaccins inutiles (erreur α) ou subir une pandémie grave à
large échelle (erreur β).
A toute décision correspond une probabilité de décider juste et une probabilité de se tromper : le risque α ou le
risque β.
Malheureusement, on ne peut pas contrôler les deux erreurs à la fois.
Dans la pratique, on va donc considérer que l’une des deux erreurs est plus importante que l’autre (erreur β),
et tâcher d’éviter que cette erreur se produise. Il est alors possible que l’autre erreur survienne (erreur α). Par
exemple, dans le cas de la santé, on fait en général tout pour éviter de subir une pandémie grave, quitte à prendre
le risque de dépenser des milliards d’euros en vaccins inutiles.
23
Remarque :
Le risque de première espèce α est choisi à priori par l’expérimentateur et jamais en fonction des données. Plus
les conséquences de l’erreur sont grave, plus α sera choisi petite.
2.2.2.3 La puissance d’un test
La puissance d’un test est définie par :
1 − β = P (rejeter H0 /H0 f ausse) = P (accepter H1 /H1 vraie)
Les différentes situations que l’on peut rencontrer dans le cadre des tests d’hypothèse sont résumées dans le
tableau suivant :
Décision/Réalité H0 vraie H0 fausse

Non rejet de H0 correct manque de puissance
risque de second espèce β
Rejet de H0 Rejet à tort puissance du test
risque de première espèce α 1−β
2.2.3 Choix d’un test statistique
Ce choix dépend de la nature des données, du type d’hypothèse que l’on désire contrôler, des affirmations que l’on
peut admettre concernant la nature des populations étudiées (normalité, égalité des variances) et d’autres critères
que nous préciserons.
Un test statistique ou une statistique est une fonction des variables aléatoires représentant l’échantillon dont la
valeur numérique obtenue pour l’échantillon considéré permet de distinguer entre H0 vraie et H0 fausse.
2.2.4 Choix de la région critique ou la zone d’acceptation
Connaissant la loi de probabilité suivie par la statistique S sous l’hypothèse H0 , il est possible d’établir une valeur
seuil, Sseuil de la statistique pour une probabilité donnée appelée le niveau de signification α (pourcentage de risque)
du test. La région critique Rc , ou encore la zone de rejet de l’hypothèse H0 correspond à l’ensemble des valeurs
telles que : P (S ∈ Rc ) = α.
La région de non rejet de H0 , ou encore appelée zone d’acceptation notée Iacc , est la région complémentaire de
la région critique Rc . Elle correspond à l’ensemble des valeurs telles que P (S ∈ Iacc ) = 1 − α
24
Selon la nature unilatérale ou bilatérale du test, la définition de la région critique varie.
2.2.5 Règle de décision
Après avoir formulé les hypothèses, choisi le seuil de signification, déterminé la statistique appropriée et défini
la région critique, il vous faudra énoncer formellement la règle de décision du test. Cette règle doit stipuler
clairement la conclusion appropriée selon les résultats échantillonnaux obtenus.
Il existe deux stratégies pour prendre une décision en ce qui concerne un test d’hypothèse : la première stratégie
fixe à priori la valeur du seuil de signification α et la seconde établit la valeur de la probabilité critique αobs à
posteriori.
2.2.5.1 Règle de décision 1
Sous l’hypothèse ≪ H0 est vraie ≫ et pour un seuil de signification α fixé
si la valeur de la statistique Scal , calculée à partir d’un échantillon, appartient à la région critique (ou
n’appartient pas à la zone d’acceptation) alors l’hypothèse H0 est rejetée au risque d’erreur α et l’hypothèse
H1 est acceptée;
25
si la valeur de la statistique Scal n’appartient pas à la région critique (ou appartient à la zone d’acceptation)
alors l’hypothèse H0 est acceptée.
Remarque : Le choix du niveau de signification ou risque α est lié aux conséquences pratiques de la décision ; en
général on choisira α = 0, 05; 0, 01 ou 0, 001.
2.2.5.2 Règle de décision 2 : p-valeur
La valeur de p ou la p-valeur (p-value) est déterminée en fonction de la statistique du test calculée à partir de
l’échantillon, de la distribution présumée et du type de test réalisé (bilatéral ou unilatéral).
Elle consiste à déterminer la probabilité critique αobs telle que P (Scal ∈ RC) = αobs :
si αobs ≥ α, on ne rejette pas l’hypothèse H0 car le risque d’erreur de rejeter H0 alors qu’elle est vrai est trop
important;
si αobs < α l’hypothèse H0 est rejetée car le risque d’erreur de rejeter H0 alors qu’elle est vrai est très faible.
2.3 Tests statistiques paramétriques
Les tests statistiques paramétriques ont pour objectif de vérifier des hypothèses relatives à un paramètre d’une loi
de probabilité. Dans cette partie, on va voir deux types de tests paramétriques : les tests de conformité et les tests
d’homogénéité.
2.3.1 Tests de conformité
Les tests de conformité sont destinés à vérifier si un échantillon peut être considéré comme extrait d’une population
donnée ou représentatif de cette population, vis-à-vis d’un paramètre comme la moyenne, la variance ou la fréquence
observée.
2.3.1.1 Comparaison de moyenne
Le but est de tester si la moyenne µ d’une population est statistiquement égale à une valeur hypothétique, notée
µ0 . On suppose que la variable X est de loi N (µ, σ). On distingue trois types de tests :
1ère étape : formulation des hypothèses
26
•H0 : µ = µ0 et H1 : µ ̸= µ0 pour un test bilatéral
•H0 : µ = µ0 et H1 : µ > µ0 pour un test unilatéral à droite
•H0 : µ = µ0 et H1 : µ < µ0 pour un test unilatéral à gauche
2ème étape : Détermination de la statistique du test
On détermine la statistique qui convient pour ce test. Ici, l’estimateur de la moyenne µ est X̄.
On détermine la loi de probabilité de X̄, en se plaçant sous l’hypothèse H0 . Pour tester cette hypothèse, il
existe deux statistiques : la variance σ de la population de référence est connue (test normale) ou cette variance
est inconnue et il faut l’estimer (test de student).
1er cas : Variance de la population connue

σ
X̄ ∼ N (µ, √ ).
n
σ
Sous H0 est vraie, on a X̄ ∼ N (µ0 , √ ).
n
X̄ − µ0
On pose Z = σ . La variable Z est appelée fonction discriminante du test ou la statistique du test.
√
n
Z ∼ N (0, 1).
3ème étape : Détermination de la région critique ou la zone d’acceptation
Pour un risque α donné, on détermine la zone d’acceptation Iacc vérifiant P (Z ∈ Iacc ) = 1 − α, c.à.d il faut
déterminer dans la table de la loi normale centrée réduite la valeur z1−α/2 ou z1−α (quantiles d’ordre 1 − α/2 et
1 − α de la loi N (0, 1), respectivement), selon la nature du test, tel que :
P (|Z| ≤ z1−α/2 ) = 1 − α, pour un test bilatéral. La zone d’acceptation Iacc est :

Iacc = [−z1−α/2 , z1−α/2 ]
P (Z ≥ −z1−α ) = 1 − α pour un test unilatéral à gauche. La zone d’acceptation Iacc est :

Iacc = [−z1−α , +∞[
P (Z ≤ z1−α ) = 1 − α pour un test unilatéral à droite. La zone d’acceptation Iacc est :

Iacc =] − ∞, z1−α ]
27
4ème étape : Conclusion et prise de la décision d’un test
On calcule une valeur zcal prise par la variable aléatoire Z dans un échantillon, telle que
x̄ − µ0
zcal = σ
√
n
Selon la valeur zcal , on a deux cas :
1. Si zcal ∈
/ Iacc , on dira que l’écart-réduit observé est statistiquement significatif au seuil α. Cet écart est
anormalement élevé et ne permet pas d’accepter H0 . Donc, on rejette H0 .
2. Si zcal ∈ Iacc , on dira que l’écart- réduit observé n’est pas significatif au seuil α. Cet écart est imputable aux
fluctuations d’échantillonnage. Donc, on accepte H0 .
Exemples :
Exemple 1 : Votre emploi consiste à vérifier la production d’une machine fabriquant des milliers de boulons à
l’heure. Cette machine, lorsqu’elle est bien réglée, produit des boulons dont le diamètre est égal à 14.00mm. Le
diamètre moyen µ est donc de 14.00mm si tout fonctionne bien. Les boulons dont le diamètre s’éloigne trop de
cette moyenne, dans un sens ou dans l’autre, sont inutilisables. On sait, par expérience, que σ = 0.15mm et que
les diamètres des boulons se distribuent selon la loi normale.
Chaque heure, vous devez prélever un échantillon aléatoire de 6 boulons pour vérifier le réglage de la machine.
Voici les résultats que vous avez obtenu à votre dernière vérification (le diamètre est en mm):
14.15 13.85 13.95 14.20 14.30 14.35

Au seuil de signification de 0.01, devez-vous conclure que la machine est bien réglé?
Solution :
1. Les hypothèses sont :
H0 : µ = 14.00mm
H0 : µ ̸= 14.00mm
Le test est bilatéral car il suffit que la moyenne échantillonnale soit significativement trop grande ou trop
petite pour que l’hypothèse nulle soit rejetée.
2. La statistique :
On sait que la population est distribuée selon une loi normale avec σ connu. Donc :
28
X̄ − µ0
Z= σ
√
n
suit la loi N (0, 1).
3. La zone d’acceptation :
Puisqu’il s’agit d’un test bilatéral, la zone d’acceptation Iacc est telle que :
Iacc = [−z1−α/2 , z1−α/2 ]

avec z1−α/2 vérifie
P (−z1−α/2 ≤ Z ≤ z1−α/2 ) = 1 − α = 0.99
Ce qui donne, en utilisant la table de la loi normale centrée réduite, z1−α/2 = 2.58. Donc :
Iacc = [−2.58, 2.58]
4. Conclusion et prise de la décision du test :

On a
14.15 + 13.85 + 13.95 + 14.20 + 14.30 + 14.35
x̄ = = 14.1333mm
6
Donc :
x̄ − µ0 14.1333 − 14.00
zcal = σ = √ = 2.18
√ 0.15/ 6
n
Puisque zcal ∈ Iacc , on doit accepter H0 et conclure que la machine est bien réglée (la différence observée n’est
pas significative et est due aux fluctuations d’échantillonnage).
Exemple 2 : M. Maltais, directeur d’une brasserie, veut s’assurer que le volume moyen des cannettes produites
est bien de 341 ml. Si le volume moyen est significativement inférieur à 341 m, les clients ((et divers agences de
surveillance) vont sûrement porter plainte et faire de la mauvaise publicité à la brasserie. A cause du format de
la cannette, c’est impossible que le volume moyen sont significativement supérieur à 341 ml. La moyenne d’un
échantillon de 36 cannettes est de 332 ml. En supposant que σ = 6ml, effectuer le test d’hypothèse approprié avec
un seuil de risque α = 0.01.
Solution :
H0 : µ = 341ml
H0 : µ < 341ml
29
Il est clair, dans cette situation, que le directeur rejettera l’hypothèse nulle uniquement s’il juge que la
moyenne échantillonnale est significativement inférieure à 341 ml, le test est donc unilatéral à gauche.
2. La statistique :
Puisque n = 36 > 30, Donc :
X̄ − µ0
Z= σ
√
n
Puisqu’il s’agit d’un test unilatéral à gauche, la zone d’acceptation Iacc est telle que :
Iacc = [−z1−α , +∞[

avec z1−α vérifie
P (Z ≥ −z1−α/2 ) = 1 − α = 0.99
Ce qui donne, en utilisant la table de la loi normale centrée réduite, z1−α = 2.33. Donc :
Iacc = [−2.33, +∞[

On a :
x̄ − µ0 332 − 341
Zcal = σ = 6/√36 = −9
√
n
Puisque zcal ∈
/ Iacc , le directeur doit rejeter H0 et améliorer son procédé de remplissage des cannettes.
Exemple 3 : M. Eugène Boucher, distributeur de rince-bouche, affirme qu’il en coûte, en moyenne, 13.25
dollars pour manipuler une commande d’un détaillant. Mme Minnie Malle, contrôleuse de la compagnie, craint
que le coût moyen soir supérieur à ce qu’affirme M. Boucher. Elle a l’intention de prendre les mesures nécessaires
pour réduire le coût moyen s’il s’avère trop élevé, mais n’élèvera pas la voix si la moyenne est inférieure aux 13.25
dollars mentionnés. La moyenne d’un échantillon aléatoire de 100 commandes est de 13.35 dollars. En supposant
que σ = 0.50 dollars, effectuez un test approprié à un seuil de signification de 0.01.
Solution :
H0 : µ = 13.25
30
H0 : µ > 13.25
Il s’agit d’un test unilatéral à droite, seule une moyenne échantillonnale significativement supérieure à la
valeur de µ spécifiée en H0 conduira au rejet de l’hypothèse nulle.
2. La statistique :
Puisque n = 100 > 30, Donc :
X̄ − µ0
Z= σ
√
n
Puisqu’il s’agit d’un test unilatéral à droite, la zone d’acceptation Iacc est telle que :
Iacc =] − ∞, z1−α ]
P (Z ≤ z1−α ) = 1 − α = 0.95
Iacc =] − ∞, 2.33]

On a :
x̄ − µ0 13.35 − 13.25
Zcal = σ = 0.50/√100 = 2.00
√
n
Puisque zcal ∈ Iacc , Mme Malle accepte l’affirmation de M. Boucher au seuil de signification de 0.01 (H0 est
acceptée).
2èm cas : Variance de la population inconnue
1. La démarche est la même que pour le 1er cas (variance connue) mais la variance de la population n’étant pas
connue, elle est remplacée par son estimateur non biaisé:
n
S ∗2 = S2
n−1
X̄ − µ0
On obtient donc comme statistique T = qui suit une loi de Student à n-1 degrés de liberté (sous
S
√
n−1
H0 ).
31
2. On calcule une valeur tcal prise par la variable aléatoire T dans un échantillon, telle que
x̄ − µ0
tcal = s
√
n−1
3. On définie la zone d’acceptation Iacc selon la nature du test :
Pour un test bilatéral, la zone d’acceptation est
Iacc = [−t1−α/2 , t1−α/2 ]
avec t1−α/2 est le quantile d’ordre 1 − α/2 de la loi Student d’ordre n-1 vérifiant P (|T | ≤ t1−α/2 ) = 1 − α.
Pour un test unilatéral à gauche, la zone d’acceptation est
Iacc = [−t1−α , +∞[
avec t1−α est le quantile d’ordre 1 − α de la loi Student d’ordre n-1 vérifiant P (T ≥ −t1−α ) = 1 − α.
Pour un test unilatéral à droite, la zone d’acceptation est
Iacc =] − ∞, t1−α ]
avec t1−α vérifiant P (T ≤ t1−α ) = 1 − α.
4. On prend une décision de la même manière que le 1er cas.
Remarque :
X̄ − µ0 X̄ − µ0
1. Si la variable aléatoire X étudiée est de loi inconnue et Si n < 30, la loi de et σ n’est pas
S √
√ n
n−1
connue.
X̄ − µ0 X̄ − µ0
2. Si X de loi inconnue et n ≥ 30, on a et σ sont de loi normale centrée réduite et on applique
S √
√ n
n−1
la même procédure que les cas précédents.
3. Si n ≥ 30, la variable de Student T converge vers une loi normale centrée réduite.
Exemple : Revenons au premier exemple du 1er cas (variance connue) et changeons un peu les données du
problème. Le diamètre moyen µ des boulons produits par la machine doit toujours être égal à 14.00 mm et aucune
variation importante dans le diamètre ne peut être tolérée ni dans un sens ni dans l’autre. Cette fois, supposons
que l’écart-type σ est inconnu. Que faire dans une telle situation?
Il faudra estimer σ à l’aide de l’écart-type échantillonnal s, en utilisant les résultats obtenus lors de la dernière
vérification (le diamètre est en mm):
14.15 13.85 13.95 14.20 14.30 14.35
Au seuil de signification de 0.01, arrivons nous à la même conclusion que précédemment? (la machine est bien
réglée)
Solution :
32
H0 : µ = 14.00mm
H0 : µ ̸= 14.00mm
2. La statistique :
Nous avons un petit échantillon (n=6 < 30) et σ inconnu. Nous devons supposer que la distribution des
diamètres est une distribution normale et utiliser la loi de Student. Ce qui donne :
X̄ − µ0
T =
S
√
n−1
suit une loi de Student à n-1 degrés de liberté.
Iacc = [−t1−α/2 , t1−α/2 ]

avec t1−α/2 est la valeur lue dans la table de la loi de Student pour un risque α = 0.01 et 5 (n-1) degrés de
liberté. Ce qui donne t1−α/2 = 4.0321. Donc :
Iacc = [−4.0321, 4.0321]

On a
14.15 + 13.85 + 13.95 + 14.20 + 14.30 + 14.35
x̄ = = 14.1333mm
6
et
6
1X
s2 = (xi − x̄)2
n i=1
donc
x̄ − µ0
tcal = s = 1.66
√
n−1
Puisque tcal ∈ Iacc , nous devons donc conclure, comme dans l’exemple du 1er cas, que la machine est bien
réglé et ne nécessite aucun ajustement.
Remarque : Dans l’exemple du 1er cas, nous étions bien près de rejeter H0 , mais pas cette fois, cela vient du
fait que la distribution de Student est plus aplatie que la distribution normale.
33
2.3.1.2 Comparaison de deux variances
Considérons une variable aléatoire X de loi N (m, σ). Le but est de tester si la variance d’une population σ 2 peut
être égale à une valeur proposée σ02 .
•H0 : σ 2 = σ02 contre H1 : σ 2 ̸= σ02 pour un test bilatéral
•H0 : σ 2 = σ02 contre H1 : σ 2 > σ02 pour un test unilatéral à droite
•H0 : σ 2 = σ02 contre H1 : σ 2 < σ02 pour un test unilatéral à gauche
1er cas : moyenne de la population connue
2 ème étape : Détermination de la statistique du test

1 Pn
•T 2 = (Xi − µ)2 est un bon estimateur de σ 2 dans ce cas.
n i=1
nT 2
• Sous H0 , on a T = suit une loi de χ2n
σ02
3 ème étape : Détermination de la zone d’acceptation
Pour un risque α donné, on a :
Pour un test bilatéral, on cherche χ2α/2 et χ21−α/2 telle que P (χ2α/2 ≤ T ≤ χ21−α/2 ) = 1 − α, où χ2α/2 et χ21−α/2
sont les quantiles d’ordre α/2 et 1 − α/2, respectivement, de la loi χ2n .
Pour un test unilatéral à gauche, on cherche χ2α telle que P (T ≥ χ2α ) = 1 − α, où χ2α est le quantile d’ordre α
de la loi χ2n .
Pour un test unilatéral à droite, on cherche χ21−α telle que P (T ≤ χ21−α ) = 1 − α, où χ21−α est le quantile d’ordre
1 − α de la loi χ2n .
Après on détermine la zone d’acceptation Iacc de la façon suivante :
Pour un test bilatéral : Iacc = [χ2α/2 , χ21−α/2 ]
Pour un test unilatéral à gauche : Iacc = [χ2α , +∞[
Pour un test unilatéral à droite : Iacc = [0, χ21−α ]
34
4 ème étape : Conclusion et prise de la décision du test
On calcule une valeur tcal prise par la variable aléatoire T dans un échantillon, telle que
n 2
X xi − µ
tcal =
i=1
σ0
Selon la valeur tcal , on a deux cas :
1. Si tcal ∈
/ Iacc on rejette H0 .
2. Si tcal ∈ Iacc on accepte H0 .
2èm cas : Moyenne de la population inconnue
2 ème étape : Détermination de la statistique du test

n
•S ∗2 = S 2 est un bon estimateur de σ 2 dans ce cas.
n−1
(n − 1)S ∗2 nS 2
• Sous H0 , on a S = = suit une loi de χ2n−1 .
σ02 σ02
3 ème étape : Détermination de la zone d’acceptation
Pour un risque α donné, on a :
Pour un test bilatéral : Iacc = [χ2α/2 , χ21−α/2 ]
Pour un test unilatéral à gauche : Iacc = [χ2α , +∞[
Pour un test unilatéral à droite : Iacc = [0, χ21−α ]
avec χ2α/2 , χ21−α/2 et χ2α sont les quantiles d’ordre α/2, 1 − α/2 et α de la loi χ2n−1 , respectivement.
4 ème étape : Conclusion et prise de la décision du test
On calcule une valeur s̃cal prise par la variable aléatoire S dans un échantillon, telle que
ns2
s̃cal = 2
σ0
Selon la valeur s̃cal , on a deux cas :
1. Si s̃cal ∈
/ Iacc on rejette H0 .
2. Si s̃cal ∈ Iacc on accepte H0 .
35
2.3.1.3 Comparaison de deux proportions
On veut vérifier si la proportion p d’une population est statistiquement égale à une proportion donnée p0 . On
suppose que la taille de l’échantillon est suffisamment grande de sorte que les conditions np, nq ≥ 5 soient vérifiées.
•H0 : p = p0 contre H1 : p ̸= p0 pour un test bilatéral
•H0 : p = p0 contre H1 : p > p0 pour un test unilatéral à droite
•H0 : p = p0 contre H1 : p < p0 pour un test unilatéral à gauche
2ème étape : Détermination de la statistique du test
F est un bon estimateur de p.

r
pq
On a n ≥ 30, np ≥ 5 et nq ≥ 5, donc on a F ∼ N (p, ).
n
F − p0
Sous l’hypothèse H0 , on a Z = r ∼ N (0, 1) (avec q0 = (1 − p0 )).
p0 q 0
n
3ème étape : Détermination de la zone d’acceptation
On cherche dans la table de la loi normale centrée réduite la valeur z1−α ou z1−α/2 , selon la nature du test
(unilatéral ou bilatéral). On a:
Pour un test bilatéral, on a Iacc = [−z1−α/2 , z1−α/2 ].
Pour un test unilatéral à gauche. On a Iacc = [−z1−α , +∞[.
Pour un test unilatéral à droite. On a Iacc =] − ∞, z1−α ].
4ème étape : Conclusion et prise de la décision d’un test
On calcule une valeur zcal prise par la variable aléatoire Z dans un échantillon, telle que
f − p0
zcal = r
p0 q0
n
Selon la valeur zcal , on a deux cas :
36
1. Si la valeur zcal ne se trouve pas dans la zone d’acceptation, on dira que l’écart-réduit observé est statistique-
ment significatif au seuil α. Cet écart est anormalement élevé et ne permet pas d’accepter H0 . Donc, on
rejette H0 .
2. Si la valeur zcal se trouve dans la zone d’acceptation, on dira que l’écart- réduit observé n’est pas significatif
au seuil α. Cet écart est imputable aux fluctuations d’échantillonnage. Donc, on accepte H0 .
Exemple :
Un journal régional affirme que 25% des élèves du collégial lisent quotidiennement un journal. Un échantillon
aléatoire de 200 élèves du collégial a montré que 45 de ceux-ci lisent un journal chaque jour. Testez l’exactitude de
l’affirmation de ce journal avec un seuil de signification de 0.05.
Solution :
H0 : p = 25%
H1 : p ̸= 25%
2. La statistique :
La taille de l’échantillon est suffisamment grande pour qu’on puisse utiliser la distribution de la loi normale
dans le calcul de la statistique et la zone d’acceptation. On a :
F − p0
Z=r
p0 q0
n
suit la loi normale centrée réduite.
Iacc = [−z1−α/2 , z1−α/2 ]

P (−z1−α/2 ≤ Z ≤ z1−α/2 ) = 1 − α = 0.95
Ce qui donne, en utilisant la table de la loi normale centrée réduite, zα/2 = 1.96. Donc :
Iacc = [−1.96, 1.96]
37
On a :
f − p0 22.5% − 25%
zcal = r =r = −0.806
p0 q0 0.25 × 0.75
n 200
45
avec f = × 100 = 22.5%.
200
Puisque zcal ∈ Iacc , il n’y a aucune évidence statistiques permettant de rejeter l’affirmation du journal régional.
2.3.2 Tests d’homogénéité
Les tests d’homogénéité sont destinés à comparer deux populations en comparant deux d’échantillons qui sont
extraits de ces deux populations, vis à vis un paramètre comme la moyenne, la variance et la proportion.
2.3.2.1 Comparaison de variances
Principe de test :
Soit X un caractère observé sur 2 populations suivant une loi normale et soient deux échantillons indépendants
extraits de ces deux populations.
On veut tester si les deux échantillons proviennent de 2 populations dont les variances sont égales.
Formulation des hypothèses:
1. •H0 : σ12 = σ22 H1 : σ12 ̸= σ22 test bilatéral.
38
2. •H0 : σ12 = σ22 H1 : σ12 > σ22 test unilatéral à droite.
3. •H0 : σ12 = σ22 H1 : σ12 < σ22 test unilatéral à gauche.
Statistique du test :
La statistique associée au test de comparaison de deux variances correspond au rapport des deux variances
estimées.
Sous H0 : σ12 = σ22 , on a
n1
S2
S1∗2
n1 − 1 1
F = = n2
S2∗2 S2
n2 − 1 2
suit une loi de Fisher-Snedecor à (n1 − 1, n2 − 1) degrés de liberté, avec S1∗2 > S2∗2 car le rapport des variances
doit être toujours supérieur à 1.
Application et décision :
On calcule une valeur de la statistique F (fobs ) telle que :
s∗2
1
fobs = .
s∗2
2
Pour le test 1), on rejette H0 si fobs ≥ f α.

n1 −1,n2 −1,1−
2
Pour le test 2), on rejette H0 si fobs ≥ fn1 −1,n2 −1,α .
Pour le test 3), on rejette H0 si fobs ≤ −fn1 −1,n2 −1,α .
Remarque : Pour l’application de ce test, il est impératif que X ∼ N (µ, σ) et que les deux échantillons soient
indépendants.
Exemple :
Lors d’une expérience pédagogique, on s’intéresse à l’effet comparé de deux pédagogies des mathématiques chez
deux groupes de 10 sujets :
• pédagogie traditionnelle (p1)
• pédagogie moderne (p2)
On note la performance à une épreuve de combinatoire.
39
Avant d’appliquer un test de comparaison de moyennes, on veut s’assurer que l’on peut supposer les variances
égales dans les populations parentes. Procéder à un test de comparaison de variances permettant de s’en assurer
avec un seuil de signification de 5%.
Solution
H0 : σ1 = σ2
H1 : σ1 ̸= σ2
2. Statistique et prise de décision :

• On a
n1 2
s
s∗2
1 n1 − 1 2 2.413
fobs = = n2 = = 1.30
s∗2
2 s21 1.863
n2 − 1
• On cherche la valeur fseuil dans la table de la loi de Fisher-Snedecor pour un risque d’erreur α = 5% fixé et
(9, 9) degrés de liberté. On trouve fseuil = 3.18.
•fseuil > fobs , donc l’hypothèse H0 est retenue et les deux variances sont égales.
2.3.2.2 Comparaison de deux moyennes
C’est pour vérifier, à l’aide de données échantillonnales, s’il existe une différence statistique significative entre les
moyennes des deux populations. L’hypothèse nulle est donc :H0 : µ2 = µ2 . L’hypothèse alternative se construit
selon la nature du test.
40
Formulation des hypothèses:
1. •H0 : µ21 = µ22 H1 : µ21 ̸= µ22 test bilatéral.
2. •H0 : µ21 = µ22 H1 : µ21 > µ22 test unilatéral à droite.
3. •H0 : µ21 = µ22 H1 : µ21 < µ22 test unilatéral à gauche.
Il existe plusieurs statistiques associées à la comparaison de deux moyennes en fonction de la nature des données.
1. Les variances des populations sont connues :

Soit X̄1 et X̄2 les distributions d’échantillonnage de la moyenne dans la population 1 et la population 2,
σ1 σ2
respectivement. On a X̄1 ∼ N (µ1 , √ ) et X̄2 ∼ N (µ2 , √ ).
n1 n2
X̄1 et X̄2 étant deux variables aléatoires indépendantes, nous pouvons établir la loi de probabilité de la
variable aléatoire à étudier D = X̄1 − X̄2 . En utilisant les propriétés de l’espérance et la variance, on obtient
:
E(D) = E(X̄1 − X̄2 ) = E(X̄1 ) − E(X̄2 ) = µ1 − µ2

σ2 σ2
V (D) = V (X̄1 − X̄2 ) = V (X̄1 ) + V (X̄2 ) = 1 + 2
n1 n2
r 2
σ1 σ22
Sachant que la variable aléatoire D suit une loi N (µ1 − µ2 , + ), nous pouvons établir la variable Z
n1 n2
centrée réduite telle que :
(X̄1 − X̄2 ) − (µ1 − µ2 )
Z= r 2
σ1 σ22
+
n1 n2
Sous l’hypothèse H0 : µ1 = µ2 avec σ1 et σ2 connues,
X̄1 − X̄2
Z=r 2 ∼ N (0, 1)
σ1 σ22
+
n1 n2
Application et décision :
On calcule une valeur zcal de la variable aléatoire Z, telle que :
x̄1 − x̄2
zcal = r 2
σ1 σ22
+
n1 n2
On cherche la valeur zseuil dans la table de la loi normale centrée réduite (selon la nature du test) pour un
risque d’erreur α fixé, et on définie la zone d’acceptation Iacc .
Si zcal ∈ Iacc , l’hypothèse H0 est acceptée: les deux échantillons sont extraits de deux populations ayant
même espérance.
41
Si zcal ∈
/ Iacc , l’hypothèse H0 est rejetée au risque d’erreur α : les deux échantillons sont extraits de deux
populations ayant des espérances différentes µ1 et µ2 .
Remarque : Pour l’application de ce test, il est impératif que X ∼ N (µ, σ) pour les échantillons de taille
n < 30 et que les deux échantillons soient indépendants.
Exemple :
Une chaı̂ne de magasin possède les succursales A et B. Ces dernières années, la succursale A a investi plus
d’argent que la succursale B pour promouvoir la vente d’un certain article. La chaı̂ne veut maintenant
déterminer si cette publicité a entrı̂né des ventes plus élevées à la succursale A. Pour un échantillon de
36 jours, le nombre moyen d’articles vendus quotidiennement fut de 170 à la succursale A, tandis qu’à la
succursale B cette moyenne, pour un échantillon de 36 jours, fut de 165. En supposant que σA2 = 36 et
σB2 = 25, que pouvons-nous conclure, à partir d’un test effectué à un seuil de signification de 5%?
Solution :
(a) Les hypothèses sont :
H0 : µA = µB
H1 : µA > µB
La chaine veut savoir si le rendement de la succursale A est supérieur à celui de B, elle doit effectuer
donc un test unilatéral à droite.
(b) La statistique :
Les échantillons sont de tailles suffisamment grandes pour qu’on puisse utiliser la distribution de la loi
normale. On a :
X̄A − X̄B
Z=r 2
σA σB2
+
n1 n2
suit la loi normale centrée réduite N (0, 1).
(c) La zone d’acceptation :
Puisqu’il s’agit d’un unilatéral à droite, la zone d’acceptation Iacc est telle que :
Iacc =] − ∞, z1−α ]
P (Z ≤ z1−α ) = 1 − α = 0.95
Iacc =] − ∞, 1.64]
(d) Conclusion et prise de la décision du test :
On a :
42
x̄A − x̄B 170 − 165

zcal = r 2 2
=r = 3.84
σA σB 36 25
+ +
n1 n2 36 36
Puisque zcal ∈
/ Iacc , il y a une évidence statistique permettant de rejeter l’hypothèse H0 et croire que la
succursale A vent plus d’articles que la succursale B.
2. Les variances des populations sont inconnues :

Si les variances des populations ne sont pas connues, il faut considérer trois cas selon les tailles des échantillons
et l’égalité ou non des variances.
1er cas : Cas des grands échantillons (n1 et n2 ≥ 30)
La statistique du test :
La statistique utilisée est la même que pour le cas où les variances sont connues, juste on remplaces σ12 et
σ22 par leurs estimateurs non biaisés :
n1 n2
S1∗2 = S12 et S2∗2 = S2
n1 − 1 n2 − 1 2
. On obtient
X̄1 − X̄2
Z=r suit une loi normale centrée réduite N (0, 1)
S12 S22
+
n1 − 1 n2 − 1
On calcule une valeur de la variable aléatoire Z, notée, zcal telle que :
x̄1 − x̄2
zcal = r 2
s1 s22
+
n1 − 1 n2 − 1
On cherche la valeur zseuil (selon la nature du test) dans la table de la loi normale centrée réduite pour un
risque d’erreur α fixé, et on définie la zone d’acceptation Iacc .
Si zcal ∈ Iacc , l’hypothèse H0 est acceptée: les deux échantillons sont extraits de deux populations ayant
même espérance.
Si zcal ∈
Remarque : Pour l’application de ce test, il est impératif que X ∼ N (µ, σ) et que les deux échantillons
soient indépendants et de grandes tailles.
2ème cas : Cas des petits échantillons (n1 et/ou n2 inférieurs à 30) et variances égales
Statistique du test
Les variances des populations n’étant pas connues, on fait l’hypothèse que les deux populations présentent
la même variance.
H0 : σ12 = σ22 = σ 2
et construit une statistique T qui suit la loi Student (comme le cas d’une seule population).
43
On a
X̄1 − X̄2
Z=r 2
σ1 σ22
+
n1 n2
suit la loi normale centrée réduite N (0, 1).
Et
n1 S12 n2 S22
U= + 2
σ12 σ2
suit la loi χ2n1 +n2 −2 à cause de l’indépendance. Donc la variable T telle que:
Z X̄1 − X̄2
T =r = s
U 1 1

n1 S12 + n2 S22

n1 + n2 − 2 +
n1 n2 n1 + n2 − 2
suit la loi Student à n1 + n2 − 2 degrés de liberté.

Application et décision
L’hypothèse testée est la suivante :
On calcule une valeur de la variable aléatoire T, notée, tcal telle que :
x̄1 − x̄2
tcal = s
n1 s21 + n2 s22

1 1
+
n1 + n2 − 2 n1 n2
On cherche la valeur tseuil dans la table de Student pour un risque d’erreur α fixé et (n1 + n2 − 2) degrés
de liberté, et on calcule la zone d’acceptation Iacc .
Si tcal ∈ Iacc , l’hypothèse H0 est acceptée: les deux échantillons sont extraits de deux populations ayant
même espérance.
Si tcal ∈
Remarque : Pour l’application de ce test, il est impératif que X ∼ N (µ, σ) pour les échantillons de taille
< 30, que les deux échantillons soient indépendants et que les deux variances estimées soient égales.
3èm cas : cas des petits échantillons (n1 et/ou n2 < 30) et variances différentes
Lorsque les variances sont inégales et les échantillons de petites tailles, la loi de probabilité suivie par X̄1 − X̄2
n’est pas connue.
Exemples :
Exemple 1. Un psychologue veut, à l’aide d’un test de quotient intellectuel, déterminer s’il existe une différence
significative entre les collégiens et les collégiennes. Le QI moyen d’un échantillon de 40 filles est de 131 avec un
écart type de 14.8; le résultat moyen d’un échantillon de 36 garçon est de 126 avec un écart type de 16.76. Au
seuil de signification de 0.01, existe-t-il une différence? (on suppose que les variances des deux populations sont
différentes)
44
Solution :
H0 : µf = µg = p
H1 : µf ̸= µg
2. La statistique :
Les tailles des deux échantillons sont suffisamment grandes; on peut donc utiliser la distribution normale pour
faire le test. On a :
X̄f − X̄g
Z=s suit une loi normale centrée réduite N (0, 1)
Sf∗2 Sg∗2
+
nf ng
avec :
nf ng
Sf∗2 = Sf2 et Sg∗2 = Sg2
nf − 1 ng − 1
Iacc = [−z1−α/2 , z1−α/2 ]

P (−z1−α/2 ≤ Z ≤ z1−α/2 ) = 1 − α = 0.99
Iacc = [−2.58, 2.58]

On a :
x̄f − x̄g 131 − 126
zcal = s =r = 1.35
Sf2 Sg2 14.82 16.762
+ +
nf − 1 ng − 1 39 35
Puisque zcal ∈ Iacc , on doit conclure qu’il n’y a pas de différence significative (au point de vue du QI).
Exemple 2. La chambre de commerce cherche à attirer de nouvelles industries dans la région. Selon un des
arguments invoqués, le coût de la main-d’oeuvre pour un type particulier d’emploi est plus bas dans la région que
partout ailleurs au pays. Un président de compagnie plutôt sceptique demande à son beau-frère, qui est actuaire,
de vérifier cette affirmation. Il prélève donc, dans cette région, un échantillon de 60 travailleurs (groupe 1) occpant
un emploi type mentionné par la chambre de commerce et s’aperçoit que le salaire moyen est de 7.75 dollars l’heure
avec un écart-type corrigé de 2 dollars l’heure (s∗1 = 2). Un échantillon de 50 travailleurs (groupe 2) provenant
45
d’une autre région a donné une moyenne de 8.25 dollars l’heure avec un écart type corrigé de 1.25 dollars l’heure
(s∗2 = 1.25). A un seuil de signification de 0.01, quelle devra être la conclusion du beau-frère du président?
Solution :
H0 : µ1 = µ2
H1 : µ1 < µ2
Le beau-frère effectue un test unilatéral à gauche car il veut vérifier l’exactitude de la chambre de commerce
selon laquelle les salaires versés dans cette région sont plus bas que partout ailleurs au pays.
• La statistique :
Les tailles des deux échantillons indépendants sont suffisamment grandes; on peut donc utiliser la distribution
normale pour faire le test. On a :
X̄1 − X̄2
Z = r ∗2
S S ∗2
( 1 + 2 )
n1 n2
suit une loi normale centrée réduite.
Puisqu’il s’agit d’un test unilatéral à gauche, la zone d’acceptation Iacc est telle que :
Iacc = [−z1−α , +∞[

P (Z ≥ −z1−α ) = 1 − α = 0.99
Iacc = [−2.33, +∞[

On a :
x̄1 − x̄2 7.75 − 8.25
zcal = s = s = −1.60
s∗2 ∗2 2 2

1 s 2 1.25
+ 2 +
n1 n2 60 50
Puisque zcal ∈ Iacc , H1 est rejeté et les résultats échantillonnaux invalident l’affirmation de la chambre de
commerce à un seuil de 0.01.
46
2.3.2.3 Comparaison de deux proportion
Soit X une variable qualitative prenant deux modalités (succès X=1, échec X=0) observée sur 2 populations et
deux échantillons indépendants extraits de ces deux populations. On fait l’hypothèse que les deux échantillons
proviennent de 2 populations dont les probabilités de succès p1 et p2 sont identiques et on procède comme suit:
formulation des hypothèses :
1. •H0 : p 1 = p2 H1 : p1 ̸= p2 test bilatéral.
2. •H0 : p 1 = p2 H1 : p1 > p2 test unilatéral à droite.
3. •H0 : p 1 = p2 H1 : p1 < p2 test unilatéral à gauche.
r r
p1 q1 p2 q 2
Pour la population 1, on a F1 ∼ N (p1 , ) et pour la population 2, F2 ∼ N (p2 , ) si et seulement si
n1 n2
n1 p1 , n1 q1 , n2 p2 , n2 q2 ≥ 5 et n1 , n2 ≥ 30.
F1 et F2 étant deux variables aléatoires indépendantes, nous pouvons établir la loi de probabilité de la variable
aléatoire à étudier F1 − F2 , tel que :
E(F1 − F2 ) = E(F1 ) − E(F2 ) = p1 − p2
p1 q1 p 2 q2
V (F1 − F2 ) = V (F1 ) + V (F2 ) = +
n1 n2
r
p1 q1 p2 q2
Sachant que F1 −F2 suit une loi N p1 − p2 , + , nous pouvons établir la variable Z centrée réduite
n1 n2
telle que
(F1 − F2 ) − E(F1 − F2 )
Z= p
V (F1 − F2 )
n1 p1 + n2 p2
Sous l’hypothèse H0 : p1 = p2 et avec p = on a
n1 + n2
F1 − F2
Z=s suit la loi N (0, 1)
1 1
p̂q̂ +
n1 n2
avec p̂ est l’estimateur de la proportion commune aux deux populations, qui n’est en réalité pas connue:
K1 + K2 n1 F 1 + n2 F 2
p̂ = = .
n1 + n2 n1 + n2
Application et décision
47
On calcule une valeur zcal de la variable aléatoire Z, telle que :

f1 − f2
zcal = s
1 1
p̂q̂ +
n1 n2
Avec
n1 f 1 + n2 f 2
p̂ = et q̂ = 1 − p̂
n1 + n2
où f1 et f2 représentent les proportions observées respectivement sur l’échantillon 1 et l’échantillon 2.
On cherche la valeur zseuil dans la table de la loi normale centrée réduite pour un risque d’erreur α fixé, et on
définie la zone d’acceptation Iacc .
Si zcal ∈ Iacc , l’hypothèse H0 est acceptée: les deux échantillons sont extraits de deux populations ayant la
même proportion p.
Si zcal ∈
populations ayant des proportions différentes p1 et p2 .
Exemple :
M. Robert, candidat à la prochaine élection, a l’impression que les hommes et les femmes voteront pour lui dans
la même proportion. Parmi les 36 hommes interrogés, 12 ont indiqué qu’ils voteraient pour Robert, tandis que 36%
des femmes d’un échantillon en comptant 50 ont dit qu’elles favoriseraient ce candidat.
L’impression de M. Robert est-elle bien fondée? Effectuez un test à u seuil de signification de 5%.
Solution :
H0 : pH = pF = p
H1 : pH ̸= pF
Dans ce problème, nous ne nous intéressons qu’à l’égalité ou à la non égalité des pourcentages au sein des
deux groupes, par conséquent, le test est bilatéral.
2. La statistique :
Les tailles des deux échantillons sont suffisamment grandes pour qu’on puisse utiliser la distribution de la loi
normale dans le calcul de la statistique et la zone d’acceptation. On a :
FH − FF
Z=s suit la loi N (0, 1)
1 1
p(1 − p) +
nH nF
48
La valeur p, proportion commune aux deux populations n’est pas connue. On l’estime à partir des résultats
observés sur les deux échantillons tel que:
nH p̂1 + nF p̂2 nH fH + nF fF
p̂ = =
nH + nF nH + nF
où fH et fF représentent les proportions observées respectivement pour l’échantillon des hommes et pour
l’échantillon des femmes.
Iacc = [−z1−α/2 , z1−α/2 ]

P (−z1−α/2 ≤ Z ≤ z1−α/2 ) = 1 − α = 0.95
Iacc = [−1.96, 1.96]

On a :
fH − fF
zcal = s = −0.25
1 1
p̂q̂ +
nH nF
12 nH fH + nF fF
avec fH = × 100 = 33.33%, fF = 36%, nH = 36, nF = 50 et p̂ = = 0.35
36 nH + nF
Puisque zcal ∈ Iacc , il n’y a aucune évidence statistiques permettant de rejeter l’hypothèse de M. Robert. Il
semble que les deux sexes aient sensiblement la même opinion de Robert.
49
TESTS KHI-DEUX
3
3.1 Introduction
Les tests paramétriques ont pour objet de tirer des conclusions relatives à la valeur des paramètres (moyenne,
fréquence, variance) d’une ou plusieurs populations, sur la base d’informations partielles fournies par un ou plusieurs
échantillons.
La même démarche peut être appliquée pour porter un “ jugement” sur les caractéristiques encore plus générales
de la population : la forme de distribution du caractère étudié, la relation éventuelle entre deux variables et
l’homogénéité de plusieurs population.
Les tests du χ2 (chi-deux, chi-carré, khi-deux ...) sont basés sur la statistique du χ2 proposée par Karl Pearson,
mathématicien britannique du début du XXeme siècle. L’objectif de ces tests est principalement de comparer
les distributions observés et théoriques entre elles. Ces tests peuvent être appliqués à des variables de de nature
qualitative (binaire, nominale, ordinale, quantitative regroupée en classes).
Trois types de test du χ2 peuvent être distingués :
1. Le test du χ2 d’ajustement dont l’objectif est de comparer une distribution observée sur un échantillon à une
distribution théorique (binomiale, Poisson, normale, ...).
Exemple : Soit un échantillon de 100 individus, la distribution observée de l’âge regroupé en classes est-elle
50
Chapter 3. TESTS KHI-DEUX
identique à celle suivant une loi normale?
2. Le test du χ2 d’homogénéité dont l’objectif est de comparer deux ou plusieurs distributions observées sur des
échantillons.
Exemple : Soient trois échantillons de 100 marocains, 100 français et 100 anglais. La distribution observée
de l’âge regroupé en classes est-elle différente entre les échantillons?
3. Le test du χ2 d’indépendance qui est utilisé pour étudier sur un même échantillon la liaison entre deux
variables qualitatives.
Exemple : Soit un échantillon de 100 marocains. Existe-t-il un lien entre le sexe (Homme / Femme) et la
couleur des yeux (Marron, Bleu, Vert, Noir ...) ?
3.1.1 Principe du test χ2
Quelque soit le type de test, le principe consiste à comparer les effectifs observés et théoriques des classes des
distributions. Pour réussir ce test, il faut passer par les étapes suivantes :
1. Formulation de l’hypothèse nulle H0 et l’hypothèse alternative H1
2. Calcul de la statistique du test
3. Détermination de la zone critique
4. Prise de la décision
3.1.2 Statistique du test χ2
Le calcul de la statistique de test reste identique pour les trois types du test χ2 .
Etant donné un tableau de contingence d’effectifs observés ni , on calcule le tableau de contingence d’effectifs
théoriques ti sous H0 est vraie.
Pour un test χ2 en général, on s’intéresse à une expérience aléatoire avec k issues possibles. On sais que sous une
certaine hypothèse H0 , les probabilités d’apparition de ces k issues sont respectivement p1 , . . . , pk (avec ki=1 pi = 1).
P
On fait n expériences identiques et indépendantes et on compte les nombres ni de fois où l’issue i s’est produite.
On a forcément ki=1 ni = n.
P
Le problème est de décider si l’observation de n1 , . . . , nk est compatible avec l’hypothèse H0 que les probabilités
des issues sont p1 , . . . , pk .
51
Sous H0 , on s’attend à observer en moyenne ti = npi fois l’issue i. Il s’agit donc de déterminer si les ni sont
significativement proches ou éloignés des ti . On peut alors penser à une région critique de la forme :
Xk
RC = { (ni − ti )2 > Sseuil }
i=1
Pk
Pour déterminer Sseuil , il faut connaitre la loi de probabilité sous H0 de i=1 (Ni − ti )2 , ou d’une variable aléatoire
analogue.
Il est clair que, pour tout i, Ni est de loi Binomiale B(n, pi ), mais les Ni ne sont pas indépendantes. En effet
puisque ki=1 Ni = n, si on connait N1 , . . . , Nk−1 , on connait Nk avec certitude.
P
On dit que le vecteur (N1 , . . . , Nk ) est de loi multinominale M(n, p1 , . . . , pk ). Le test du χ2 est basé sur le
théorème suivant :
Théorème de Pearson
Si (N1 , . . . , Nk ) est de loi M(n, p1 , . . . , pk ) et si ti ≥ 5 pour au moins 80% des cas, alors :
k
X (Ni − ti )2
→ χ2ν en loi
i=1
ti
Intuitivement, on comprend que la grandeur statistique ou l’indicateur d’écart traduise l’écart entre un échantillon
et la distribution théorique est définie par :
k
X (ni − ti )2
χ2obs = (3.1)
i=1
ti
Si l’ajustement était parfait, cette expression du χ2 serait nulle, les effectifs empiriques co¨ıncidant exactement
avec les effectifs théoriques.
En revanche, plus grands sont les écarts entre les effectifs observés et les effectifs théoriques est plus forte sera la
valeur du χ2 .
En outre, comme la quantité (3.1) ne peut pas être négative, le test est nécessairement un test unilatéral droit.
Definition 3.1.1 Le paramètre ν indiçant χ2ν définit le nombre de degrés de liberté. C’est le nom donné au
nombre d’observations linéairement indépendantes qui apparaissent dans une somme de carrés. Autrement dit,
c’est le nombre d’observations aléatoires indépendantes (nombre de termes de la statistique du χ2 ) moins le nombre
de contraintes imposées à ces observations.
Le nombre de contraintes désigne le nombre de relations entre les différentes éléments et le nombre de paramètres
à estimer.
52
3.1.3 Zone critique
le principe du test χ2 se base sur l’évaluation de la valeur de χ2obs par rapport à une valeur seuil. Intuitivement,
si χ2obs excède une certaine valeur, notée χ2seuil , cela signifie que les effectifs observés et les effectifs théoriques sont
différents et par conséquent l’hypothése H0 est rejetée.
Pour un risque de première espèce α, la région critique RC conduisant au rejet de l’hypothèse nulle est définie
par :
RC = [χ2seuil , +∞[
avec χ2seuil = χ2ν,α correspond au quantile d’ordre 1 − α de la loi du χ2 à ν degrès de liberté. Donc l’hypothèse
H0 est rejetée pour toutes les valeurs χ2obs vérifiant :
χ2obs ≥ χ2ν,α
3.1.4 règle de décision
D’où la règle de décision suivante :
Si χ2obs < χ2ν,α , l’hypothèse H0 est acceptée: les différences constatées entre la distribution observée et la
distribution théorique supposée ne sont pas significatifs et elles sont dus aux fluctuations d’échantillonnage.
Si χ2obs ≥ χ2ν,α , l’hypothèse H0 est rejetée au risque d’erreur α : les différences constatées entre la distribution
observée et la distribution théorique supposée sont significatifs.
3.1.5 Condition d’application du test
Le test χ2 est sensible aux petits effectifs. Aussi, le test est considéré comme applicable lorsque les effectifs
théoriques sont supérieurs ou égaux à 5 pou au moins 80% des cas. En pratique, si cette condition n’est pas
réalisée, la technique consiste à regrouper certaines modalités (ex : regrouper les yeux noirs et les yeux marrons)
afin de, par construction, augmenter la valeurs des effectifs théoriques.
3.2 Test d’ajustement
Pour tester si un échantillon serait tiré d’une population régie par une certaine loi de probabilité telle que la loi
binomiale, la loi de Poisson, la loi normale ou toute autre loi de probabilité.
53
3.2.1 Principe du test et formulation des hypothèses
Étant donnée une population décrite par une variable X, un échantillon prélevé dans cette population permet de con-
struire l’histogramme et la courbe des fréquences qui caractérisent la distribution observée de X. Ces représentations
peuvent ressembler à celles d’une loi théorique, toutefois avec certains écarts.
Le test χ2 permet de juger si les écarts constatés entre la distribution observée et la loi théorique d’ajustement
peuvent ou non être imputés au hasard.
3.2.1.1 Formulation des hypothèses
Les hypothèses du test sont les suivantes :
H0 : “ X suit la loi théorique L”,
H1 : “ X ne suit pas la loi L”.
3.2.1.2 Tableaux de contingence
La variable observée est :
soit discrète et prend k valeurs x1 , x2 , . . . , xk
soit continue et classée en k classes [a0 , a1 [, [a1 , a2 [, . . . , [ak−1 , ak [ de centres respectifs x1 , x2 , . . . , xk−1 , xk .
Les N observations de l’échantillon sont réparties sur les k valeurs de X (si X est discrète) ou sur les k classes de
X (si X est continue). On a les tableaux de contingence d’effectifs observés suivants :
avec
k
X
N= ni = n1 + n2 + . . . + nk .
i=1
D’un manière générale, si on considère que la variable X admet k modalités X1 , . . . , Xk , le tableau de contingence
d’effectifs observés est décrit de la manière suivante :
54
Variable X effectifs observés

X1 n1
X2 n2
. .
.
. .
Xk nk
Total N
Sous H0 on note pi la probabilité dite théorique définie par
pi = P (X = xi /X ∼ L) si X est discrète,
pi = P (X ∈ [ai−1 , ai [/X ∼ L) si X est continue.
Les effectifs théoriques ti de la i-ième classe de X sont simplement obtenus par :
ti = N pi
Par ailleurs, nous pouvons construire un deuxième tableau qui va permettre de regrouper les effectifs théoriques
ti et les effectifs observés ni .
55
Variable X effectifs observés effectifs théoriques

X1 n1 t1
X2 n2 t2
. . .
. .
. . .
Xk nk tk
Total N N
3.2.2 Statistique du test
L’indicateur d’écart entre les distributions observées et théoriques définie par :

k
X (ni − ti )2
χ2obs = (3.2)
i=1
ti
3.2.3 Zone critique et règle de décision
Pour un risque de première espèce α, la région critique est définie pour l’ensemble des valeurs χ2obs vérifiant :
χ2obs ≥ χ2ν,α
Le nombre ν de degrés de liberté est égal à:
ν = k − 1 si les paramètres de la loi d’ajustement L sont donnés.
ν = k − r − 1 si la loi d’ajustement L comporte r paramètres inconnus.
d’où la règle de décision :
Si χ2obs < χ2ν,α , on accepte H0 (X ∼ L) .
Si χ2obs ≥ χ2ν,α , on rejette H0 (X ne suit pas la loi L).
Remarque. Le nombre d’observations par classes ne doit pas être faible, N pi doit être supérieur à 5 pour a
moins 80% des cas. Dans le cas contraire, on regroupe deux ou plusieurs classes adjacentes de façon à réaliser cette
condition. On tient compte de ce regroupement pour le nombre de degrés de liberté.
56
3.3 Test d’homogénéité
Le test du χ2 d’homogénéité est utilisé pour comparer la distribution d’une variable qualitative à p modalités entre
k échantillons de tailles n1 , n2 , . . . , nk .
Les hypothèses du test du χ2 d’homogénéité sont donc les suivantes :
H0 : Les distributions observées du caractère étudié sont identiques entre les k échantillons observés.
H1 : Les distributions observées du caractère étudié sont différentes entre les k échantillons observés.
Les observations sont regroupées dans un tableau de contingence (tableau des effectifs observés) présentant autant
de lignes que d’échantillons observés (k lignes).
Modalité 1 ... Modalité j ... Modalité p Total

Echant.1 n11 ... n1j ... n1p n1
. . . . . . .
. . . . . . .
Echant.i ni1 ... nij ... nip ni
. . . . . . .
. . . . . . .
Echant.k nk1 ... nkj ... nkp nk
Total m1 ... mj ... mp N
Tout comme dans le cadre général, le test du χ2 d’homogénéité nécessite le calcul des effectifs théoriques tij , sous
l’hypothèse H0 est vraie, selon la formule :
ni × mj
tij =
N
nj
En effet, le taux global de la modalité j est : et donc le nombre théorique des individus de l’échantillon i
N
mj
possédant la modalité j est tij = ni .
N
Ce qui nous permet d’obtenir le tableau de contingence des effectifs théoriques suivant :
57
Modalité 1 ... Modalité j ... Modalité p Total

Echant.1 t11 ... t1j ... t1p t1.
. . . . . . .
. . . . . . .
Echant.i ti1 ... tij ... tip ti.
. . . . . . .
. . . . . . .
Echant.k tk1 ... tkj ... tkp tk.
Total t.1 ... t.j ... t.p t.. = N
3.3.2 Statistique de test
Sous H0 , la statistique de test associée au test du χ2 d’homogénéité est définie par la distance mesurant l’écart
entre les deux tableaux.
La distance du χ2obs s’écrit :

k X p
X (nij − tij )2
χ2obs =
i=1 j=1
tij
Pour un risque du premier espèce α, la région critique conduisant au rejet de l’hypothèse nulle est définie par
l’ensemble des valeurs de χ2obs vérifiant
χ2obs ≥ χ2ν,α
avec ν est le nombre de degrés de liberté qui se calcule ainsi
ν = (p − 1) × (k − 1)
D’où la règle de décision :
Si χ2obs < χ2ν,α , l’hypothèse H0 est acceptée( Les k échantillons observés sont issus de populations ayant la même
distribution du caractère étudié).
Si χ2obs ≥ χ2ν,α , l’hypothèse H0 est rejetée au risque d’erreur α ( Les k échantillons observés sont issus de
populations ayant des distributions différentes du caractère étudié).
58
Remarque. La statistique du χ2 ne peut être calculée que si les effectifs théoriques tij sont supérieurs ou
égaux à 5. Dans le cas contraire, il faut regrouper à la fois toute la ligne et toute la colonne correspond à la case
possédant une valeur tij inférieur à 5.
3.4 Test d’indépendance
Le test du khi-deux d’indépendance est une hypothèse statistique utilisée pour déterminer l’existence ou non d’une
relation entre deux caractères au sein d’une population.
Exemples :
Est-ce que l’appartenance politique dépend du sexe?
Est ce que la présence aux cours magistraux influence sur les notes des étudiants?
Est ce qu’il y a une relation entre la catégorie d’âge et le type de sport pratiqué?
Voyons comment ce test peut-être utilisé dans le cas d’une distribution à deux caractères.
On commence par faire l’hypothèse qu’il y a indépendance entre les deux caractères dans la population tel que :
H0 : les deux caractères sont indépendants.
H1 : les deux caractères ne sont pas indépendants.
Les données sont structurées sous forme d’un tableau des effectifs observés pour les deux caractères comparés X et
Y avec:
• X est définie par les modalités (Si X qualitatif) ou les valeurs (si X quantitatif) suivants : x1 , . . . , xp .
• Y est définie par les modalités (si Y qualitatif) ou les valeurs (si Y quantitatif) suivants : y1 , . . . , yk .
59
X/Y y1 . . . yj . . . yk total
x1 n11 . . . n1j . . . n1k n1.
. . . . .
. . . . .
. . . . .
xi ni1 nij nik ni.
. . . . .
. . . . .
. . . . .
xp np1 npj npk np.
total n.1 n.j n.k n.. = N
Avec:
ni,j : le nombre d’individus ayant la modalité xi du caractère X et la modalité yj du caractère Y.
ni. : la somme des effectifs de la ième ligne (nombre d’individus ayant la modalité xi ).
n.j : la somme des effectifs de jème colonne (nombre d’individus ayant la modalité yj ).
n.. = N : l’effectif total de la table de contingence.
Sous l’hypothèse H0 , l’effectif attendu tij peut être obtenu de la façon suivante :
On a
P (xi ∩ yj ) = P (xi ) × P (yj ) = pij
Sous H0 : indépendance entre les deux caractères X et Y.
Or pij , p(xi ) et p(yj ) ne sont pas connues donc on peut les remplacer par leurs estimations ponctuelles.
Ce qui donne :
p̂ij = P̂ (xi ) × P̂ (yj )
D’où
ni. n.j tij

fij = × = .
N N N
D’où
60
ni. × n.j
tij = N × fij =
N
Sous H0 , le tableau de contingence des effectifs théoriques est définie comme suit.
X/Y y1 . . . yj . . . yk total
x1 t11 . . . t1j . . . t1k t1.
. . . . .
. . . . .
. . . . .
xi ti1 tij tik .
. . . . .
. . . . .
. . . . .
xp tp1 tpj tpk tp.
total t.1 t.j t.k t.. =N
3.4.2 Statistique du test
Le but est alors de tester si la différence entre le tableau des effectifs observés (tableau de contingence) et le tableau
des effectifs théorique obtenu sous l’hypothèse d’indépendance est significative.
L’indicateur d’écart χ2obs s’écrit :

p k
X X (nij − tij )2
χ2obs =
i=1 j=1
tij
De manière similaire au autres test χ2 pour un risque α, la région critique est définie par l’ensemble des valeurs de
χ2obs vérifiant
χ2obs ≥ χ2ν,α
avec ν est le nombre de degrés de liberté qui se calcule ainsi :
ν = (p − 1) × (k − 1)
D’où la règle de décision :
61
Si χ2obs < χ2ν,α , l’hypothèse H0 est acceptée (Les deux caractères étudiés dans la population sont statistiquement
indépendants).
Si χ2obs ≥ χ2ν,α , l’hypothèse H0 est rejetée au risque d’erreur α (il n’y a pas indépendance statistique entre les
deux caractères étudiés dans la population).
62

Cours Modélisation Statistique

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Modélisation Statistique

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSITÉ MOULAY ISMAIL

ÉCOLE NATIONALE SUPÉRIEURE

Pr. Houda BARKOUKI

Année universitaire : 2023/2024

1 Rappels des probabilités pour la statistique 5

1.1 Rappel des lois de probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.1.1.1 Fonction de répartition d’une loi discrète . . . . . . . . . . . . . . . . . . . . . . . . 5

1.1.1.2 Fonction de répartition d’une loi continue . . . . . . . . . . . . . . . . . . . . . . . 6

1.1.1.3 Espérance et variance dans le cas discret . . . . . . . . . . . . . . . . . . . . . . . . 6

1.1.1.4 Espérance et variance dans le cas continu . . . . . . . . . . . . . . . . . . . . . . . 6

1.1.2 Principales lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1.2.1 Loi de Bernoulli B(p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1.2.2 Loi binomiale B(n, p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1.2.3 Loi de Poisson P(λ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1.3 Principales lois continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1.3.1 Loi uniforme U([a, b]) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1.3.2 Loi exponentielle E(λ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.1.3.3 Loi normale N (m, σ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.1.3.4 Loi normale centrée réduite N (0, 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.1.3.5 Loi du khi-deux χ2n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.1.4 Relations entre les principales lois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.1.5 Couple de v.a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.1.5.1 Cas discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.1.5.2 Cas continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.1.5.3 Lois conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.1.5.4 Caractéristique d’un couple (X, Y) . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.2 Convergence et approximations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.2.1 Théorème Central Limite (TCL) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.3 Échantillonnage et estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.3.1 Distribution d’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.3.1.1 Distribution d’échantillonnage de la moyenne . . . . . . . . . . . . . . . . . . . . . 14

1.3.1.2 Distribution d’échantillonnage d’une variance . . . . . . . . . . . . . . . . . . . . . 14

1.3.1.3 Distribution d’échantillonnage d’une proportion . . . . . . . . . . . . . . . . . . . . 14

1.3.1.4 Lois et lois limites de distributions d’échantillonnage . . . . . . . . . . . . . . . . . 14

1.3.2.1 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.3.2.2 Estimation par intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.2 Techniques de base pour tester les hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.2.1 Choix de l’hypothèse à tester . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.2.1.1 Hypothèse nulle et hypothèse alternative . . . . . . . . . . . . . . . . . . . . . . . . 21

2.2.1.2 La nature du test (unilatéral ou bilatéral) . . . . . . . . . . . . . . . . . . . . . . . 21

2.2.2 Risques d’erreur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.2.2.1 Risque d’erreur du première espèce α . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.2.2.2 Risque d’erreur du deuxième espèce β . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.2.2.3 La puissance d’un test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.2.3 Choix d’un test statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.2.4 Choix de la région critique ou la zone d’acceptation . . . . . . . . . . . . . . . . . . . . . . . 24

2.2.5 Règle de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.2.5.1 Règle de décision 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.2.5.2 Règle de décision 2 : p-valeur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.3 Tests statistiques paramétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.3.1 Tests de conformité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.3.1.1 Comparaison de moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.3.1.2 Comparaison de deux variances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.3.1.3 Comparaison de deux proportions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.3.2 Tests d’homogénéité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.3.2.1 Comparaison de variances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.3.2.2 Comparaison de deux moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

2.3.2.3 Comparaison de deux proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.1.1 Principe du test χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.1.2 Statistique du test χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.1.3 Zone critique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.1.4 règle de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.1.5 Condition d’application du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

Lois marginales (de X et de Y):

Indépendance: X et Y sont indépendantes si:

Indépendance: X et Y sont indépendantes si:

Cas continue: E(X · Y ) =

Plus r(X, Y ) est proche de 1 plus la relation est forte positive.