Académique Documents
Professionnel Documents
Culture Documents
COURS DE
MODELISATION STATISTIQUE.
1.1.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1
Contents
1.2.2 Approximations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.2 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 Tests d’hypothèse 19
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2
Contents
3 TESTS KHI-DEUX 50
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3
Contents
4
Rappels des probabilités pour la statistique
1
Ce chapitre énonce quelques résultats de base du calcul des probabilités utiles pour la statistique. Les notions sont
présentées sans aucune démonstration. Les détails ont été déjà vus dans le cours de Probabilités du quatrième
semestre, et aussi le cours de statistique mathématique du cinquième semestre.
En théorie des probabilités et en statistique, une loi de probabilité décrit le comportement aléatoire d’un phénomène
dépendant du hasard. Elle est dite continue ou discrète, selon qu’elle définit une probabilité pour une variable
continue ou discrète.
1.1.1 Généralités
Si X est une variable aléatoire discrète telle que X(Ω) = {x1 , ..., xn }, sa fonction de répartition est définie par
5
Chapter 1. Rappels des probabilités pour la statistique
X
FX (x) = P (X ≤ x) = P (X = xi )
xi ∈X(Ω), xi ≤x
Si X est une variable aléatoire continue de densité f, sa fonctionZ de répartition est définie par
x
FX (x) = P (X ≤ x) = f (t)dt
−∞
′
On a alors P (X > x) = 1 − FX (x) et sa densité vaut f (x) = FX (x).
Z +∞
E(X) = xf (x)
−∞
Z +∞
E(X 2 ) = x2 f (x)
−∞
V (X) = E(X 2 ) − E(X)2
6
Chapter 1. Rappels des probabilités pour la statistique
• P(X=1)=p, P(X=0)=(1-p)
• E(X)=p, V(X)=p(1-p)
•P (X = k) = Cnk pk (1 − p)n−k
• E(X)=np, V(X)=np(1-p)
•X(Ω) = N, paramètre λ
•E(X) = V (X) = λ
λk e−λ
•P (X = k) =
k!
1 si x ∈ [a, b],
•f (x) = b−a
0 sinon
0 si x < a,
x−a
•F (x) = si a ≤ x ≤ b,
b−a
1 si x > b
7
Chapter 1. Rappels des probabilités pour la statistique
a+b (b − a)2
•E(X) = , V (X) =
2 12
•X(Ω) = R+ , paramètre λ
(
λe−λx si x > 0,
•f (x) =
0 sinon
(
1 − e−λx si x > 0,
•F (x) =
0 sinon
1 1
•E(X) = , V (X) = 2
λ λ
(x − m)2
1 −
•f (x) = √ e 2σ 2
σ 2π
(x − m)2
1 Rx −
•F (x) = √ −∞
e 2σ 2 dx
σ 2π
• E(X)=m, V(X)=σ 2
−(x)2
1
•f (x) = √ e 2
2π
−x2
Rx 1
•F (x) = −∞
√ e 2 dx
2π
• E(X)=0, V(X)=1
8
Chapter 1. Rappels des probabilités pour la statistique
• E(X)=n, V(X)=2n
Loi de Student Tn
• Soit X une variable aléatoire de loi χ2n et Y une variable aléatoire de loi χ2m . Si X et Y sont indépendantes,
X/n mX
alors Z = = est de loi de Fisher-Snedecor à (n,m) degrés de liberté (de paramètres n et m). On note
Y /m nY
X ∼ F (n, m).
Définition
Un couple de variables aléatoires sur (Ω, F, P ) est un couple (X, Y ), où X et Y sont des variables aléatoires
réelles sur (Ω, F, P ).
9
Chapter 1. Rappels des probabilités pour la statistique
Loi conjointe: La loi conjointe ou loi du couple (X, Y ) est l’ensemble des couples
{((xi , yj ), pi,j ), (i, j) ∈ I × J}
où
pi,j = P ((X = xi ) ∩ (Y = yj )) = P ((X, Y )−1 ({(xi , yj )})).
P
avec pij ≥ 0 pour tout (i, j) ∈ I × J et (i,j)∈I×J pij = 1.
et
X X
p.j := P (Y = yj ) = P (yj ) = P ((X = xi ) ∩ (Y = yj )) = pij .
i∈I i∈I
Loi conjointe: La loi du vecteur (X, Y) est donnée pas sa fonction de densité f(X,Y ) (x, y) telle que
R
f(X,Y ) (x, y) ≥ 0 et R f (x, y)dxdy = 1.
Ou bien par sa fonction de répartition F(X,Y ) (x, y)
Z xtelle
Z yque:
F(X,Y ) (x, y) = f(X,Y ) (x, y)dxdy.
−∞ −∞
Lois marginales:
R
fX (x) = R f(X,Y ) (x, y)dy,
R
fY (y) = f(X,Y ) (x, y)dx,
R
10
Chapter 1. Rappels des probabilités pour la statistique
pij pij
P (X = xi /Y = yj ) = =
p(yj ) p.j
pij pij
P (Y = yj /X = xi ) = =
p(xi ) pi.
1. Espérance mathématique :
XX
Cas discret: E(X · Y ) = xi yj × p(xi , yj ).
i∈I j∈J
2. Covariance d’un couple de variables aléatoires : la covariance d’un couple de variables aléatoires est un
paramètre permettant d’étudier le sens de la relation entre deux variables. C’est l’espérance mathématique
des produits des écarts par rapport aux espérances. Elle est définit par :
Si X et Y sont deux variables indépendantes, alors leur covariance est nulle. En effet, on a alors :
V (X + Y ) = V (X) + V (Y ) + 2Cov(X, Y )
V (X − Y ) = V (X) + V (Y ) − 2Cov(X, Y )
cov(X,X)=V(X)
Si X et Y sont indépendantes, alors Cov(X,Y)=0 et on :
– E(X · Y ) = E(X) × E(Y )
– V (X + Y ) = V (X − Y ) = V (X) + V (Y )
11
Chapter 1. Rappels des probabilités pour la statistique
3. Coefficient de corrélation linéaire: le coefficient de corrélation linéaire, désigné par r, a pour objet de mesurer
le degré de la relation linéaire entre deux variables X et Y.
Cov(X, Y )
r(X, Y ) = p
V (X)V (Y )
Cette définition montre que le coefficient de corrélation linéaire possède le même signe que la covariance et
qu’il est toujours compris entre -1 et 1.
−1 ≤ r(X, Y ) ≤ 1
Propriétés :
Soit {Xn }n≥1 une suite de variables aléatoires réelles indépendantes et de même loi (iid), d’espérance E(X) =
p
E(Xi ) = m et d’écart-type σ(X) = σ(Xi ) = V ar(X) = σ pour tout i = 1, ..., n.
Soit Sn = X1 + . . . + Xn . Alors
Sn − E(Sn ) Sn − n.m L
= √ −−−−→ N (0, 1)
σ(Sn ) n.σ n→+∞
Autrement dit,
X̄ − m L
σ −−−−→ N (0, 1)
n→+∞
√
n
n
1X Sn
avec X̄ = Xi = .
n i=1 n
1 Pn σ
Plus précisément, pour n assez grand X̄ = Xi est approximativement de loi N m, √ .
n i=1 n
12
Chapter 1. Rappels des probabilités pour la statistique
1.2.2 Approximations
• Si n ≥ 30 et np < 5, on peut approcher une loi B(n,p) par une loi P(λ), avec λ = np.
p
• Si n ≥ 30, np ≥ 5 et n(1 − p) ≥ 5, alors on peut approcher une loi B(n,p) par une loi N (np, np(1 − p)).
√
• Si λ est assez grand, on peut approcher une loi P(λ) par une loi N (λ, λ).
√
• Si n est assez grand, on peut approcher une loi χ2n par une loi N (n, 2n).
• Si n est assez grand, on peut approcher une loi Tn par une loi N (0, 1).
Pour résoudre les problèmes d’estimation de paramètres inconnus, il faut tout d’abord étudier les distributions
d’échantillonnage, c’est à dire la loi de probabilité suivie par l’estimateur.
Remarque:
1. les paramètres de la population comme l’espérance m dont la valeur est certaine mais souvent inconnue
(symbolisés par des lettres grecques).
2. les paramètres de l’échantillon comme la moyenne empirique x̄ dont la valeur est incertaine mais connue
(symbolisés par des minuscules).
3. les distributions d’échantillonnage (variables aléatoires des paramètres de l’échantillon), comme la moyenne
aléatoire X̄ dont la valeur est incertaine puisque aléatoire mais dont la loi de probabilité est souvent connue
(symbolisées par des majuscules).
Soit X une variable aléatoire étudiée sur une population. Soit (X1 , X2 , . . . , Xn ) un échantillon aléatoire non
exhaustif (les v.a sont indépendantes et de même loi(i.i.d)) et (x1 , x2 , . . . , xn ) un échantillon aléatoire empirique.
13
Chapter 1. Rappels des probabilités pour la statistique
K
On construit la variable aléatoire F = = X̄ avec K est la v.a possédant comme valeurs le nombre d’individus,
n
avec le caractère étudié, dans chaque échantillon.
1. Si X de loi inconnue et la taille de l’échantillon n est assez grande (n ≥ 30), on se trouve dans les conditions
du Théorème Central Limite et on a:
X̄ − m
Si σ est connu, √ suit la loi normale centrée réduite N (0, 1).
σ/ n
14
Chapter 1. Rappels des probabilités pour la statistique
X̄ − m
Si σ est inconnu, suit la loi normale centrée réduite N (0, 1).
S
√
n−1
F −p
r suit la loi normale centrée réduite.
pq
n
S 2 − σ2
r suit la loi normale centrée réduite, avec m4 = E((X − m)4 ).
4
m4 − σ
n
2. Si X ∼ N (m, σ), on a ∀n ≥ 1:
X̄ − m σ
σ suit la loi N (0, 1) X̄ ∼ N m, √ (σ 2 connue).
√ n
n
X̄ − m
suit la loi Tn−1 (σ 2 inconnue).
S
√
n−1
nT 2
suit la loi χ2n (m connue).
σ2
nS 2
suit la loi χ2n−1 (m inconnue).
σ2
• Lorsque n ≥ 30, la loi Student converge vers une loi normale centrée réduite.
1.3.2 Estimation
L’estimation a donc pour objectif de déterminer les valeurs inconnues des paramètres de la population (p, m, σ 2 )
ou (proportion, espérance, variance) à partir des données de l’échantillon (f, x, s2 ).
certaine probabilité.
15
Chapter 1. Rappels des probabilités pour la statistique
L’estimation d’un paramètre quelconque θ est dite ponctuelle si l’on associe une seule valeur à θ̂ à partir des données
observables sur un échantillon aléatoire. Pour construire une estimation ponctuelle d’un paramètre inconnu θ, on
peut utilise la méthode du maximum de vraisemblance ou la méthode des moments (voir cours statistique
mathématique).
Espérance de X:
Pour une réalisation donnée (x1 , . . . , xn ) d’un échantillon aléatoire, une estimation m̂ de l’espérance m est donnée
par :
n
1X
m̂ = x̄ = xi
n i=1
Variance de X:
• Cas où l’espérance m est connu : La variance observée T 2 constitue le meilleur estimateur de σ 2 = V (X),
lorsque l’espérance m est connue :
n
2 1X
T = (Xi − m)2
n i=1
Pour une réalisation donnée (x1 , . . . , xn ) d’un échantillon aléatoire, une estimation σ̂ 2 de la variance σ 2 est donné
par :
n
2 1X
σ̂ = (xi − m)2
n i=1
La variance empirique corrigée S ∗2 , constitue le meilleur estimateur de σ 2 lorsque l’espérance m est inconnu.
n
∗2 n 2 1 X
S = S = (Xi − X̄)2
n−1 n − 1 i=1
1 Pn
avec S 2 = (Xi − X̄)2 est la variance empirique.
n i=1
Pour une réalisation donnée (x1 , . . . , xn ) d’un échantillon aléatoire, une estimation σ̂ 2 de la variance σ 2 lorsque
16
Chapter 1. Rappels des probabilités pour la statistique
Proportion :
k
La fréquence observée f = dans un échantillon de taille n est une estimation de p, proportion de la population:
n
p̂ = f
L’estimation par intervalle associe à un échantillon aléatoire, un intervalle [θ̂1 , θ̂2 ] qui recouvre θ̂ avec une certaine
probabilité.
Cet intervalle est appelé l’intervalle de confiance du paramètre θ car la probabilité que θ dont la valeur est
inconnue se trouve compris entre θ1 et θ2 est égale à 1 − α, le coefficient de confiance
P (θ1 ≤ θ ≤ θ2 ) = 1 − α
• X ∼ N (m, σ) et σ connu:
σ σ
I(m) = X̄ − z1−α/2 √ , X̄ + z1−α/2 √
n n
• X ∼ N (m, σ) et σ inconnu:
S S
I(m) = X̄ − t1−α/2 √ , X̄ + t1−α/2 √
n−1 n−1
avec z1−α/2 et t1−α/2 sont les quantiles d’ordre 1 − α/2 de la loi N (0, 1) et la loi Tn−1 , respectivement.
17
Chapter 1. Rappels des probabilités pour la statistique
• Lorsque n ≥ 30, la loi Student converge vers une loi normale centrée réduite. Ainsi t1−α/2 ≈ z1−α/2 .
et
σ σ
I(m) = X̄ − z1−α/2 √ , X̄ + z1−α/2 √ , si (σ connu)
n n
• X ∼ N (m, σ) et m connue :
" #
nT 2 nT 2
I(σ 2 ) = ,
χ21−α/2 χ2α/2
avec χ21−α/2 et χ2α/2 sont les quantiles d’ordre 1 − α/2 et α/2, respectivement de la loi χ2n .
• X ∼ N (m, σ) et m inconnue :
" #
nS 2 nS 2
I(σ 2 ) = ,
χ21−α/2 χ2α/2
avec χ21−α/2 et χ2α/2 sont les quantiles d’ordre 1 − α/2 et α/2, respectivement de la loi χ2n−1 .
18
Tests d’hypothèse
2
2.1 Introduction
Un test d’hypothèse est un procédé d’inférence permettant de contrôler (accepter ou rejeter), à partir de l’étude d’un
ou plusieurs échantillons aléatoires, la validité d’hypothèses relatives à une ou plusieurs populations. Autrement
dit, il permet de déterminer, avec une probabilité donnée, si les différences constatées au niveau des échantillons
peuvent être imputables au hasard ou si elles sont suffisamment importantes pour signifier que les échantillons
proviennent de populations vraisemblablement différentes.
1. Les tests destinés à vérifier si un échantillon peut être considéré comme extrait d’une population donnée,
vis-à-vis d’un paramètre comme la moyenne, la variance ou la fréquence observée (tests de conformité).
Exemple :
• Est-ce que le taux de glucose moyen mesuré dans un échantillon d’individus est conforme au taux de glucose
moyen connu dans la population ?
2. Les tests destinés à comparer plusieurs populations à l’aide d’un nombre équivalent d’échantillons (tests
d’égalité ou d’homogénéité).
Exemple :
19
Chapter 2. Tests d’hypothèse
• Y a-t-il une différence entre le taux de glucose moyen mesuré pour deux échantillons d’individus ayant reçu
des traitements différents ?
3. Les tests destinés à vérifier si un échantillon peut être considéré comme extrait d’une population donnée par
rapport à sa distribution observée (tests d’ajustement).
Exemple :
• Est ce que la durée de vie d’un équipement électrique obéit approximativement à une loi exponentielle ?
4. Les tests destinés à tester l’indépendance entre deux caractères, généralement qualitatifs (tests d’indépendance
Exemple :
• Est-ce que la distribution des fréquences génotypiques observées pour un locus donné est indépendante du
sexe des individus ?.
Pour répondre à ces questions, on doit formuler des hypothèses statistiques qui sont alors acceptées ou rejetées au
vu des résultats numériques obtenus lors de la réalisation de n expériences indépendantes.
Un test est donc un procédé permettant de décider si une hypothèse donnée, notée généralement H0 , peut être
considérée comme vraie ou fausse. Notons cependant qu’aucune décision statistique ne peut être prise avec une
certitude absolue; quelle que soit la conclusion, le risque de se tromper existe toujours.
2. choisir un test statistique ou une statistique (dite aussi la fonction discriminante du test) pour contrôler
H0 ,
4. définir le niveau de signification du test α et la la zone d’acceptation associée (ou région critique).
5. calculer, à partir des données fournies par l’échantillon, une valeur de la statistique S sous l’hypothèse H0 .
6. prendre une décision concernant l’hypothèse posée et faire une interprétation biologique.
20
Chapter 2. Tests d’hypothèse
Dans tous les domaines, on est amené à prendre des décisions sur une activité risquée au vu de résultats d’expériences
ou d’observation de phénomènes dans un contexte incertain. Par exemple :
essais thérapeutiques: décider si un nouveau traitement médical est meilleur qu’un ancien au vu du résultat
de son expérimentation sur des malades.
finance : au vu du marché, décider si on doit ou pas se lancer dans une opération financière donnée.
santé : décider s’il faut vacciner toute une population contre grippe A.
Dans chaque cas, le problème de décision consiste à trancher, au vu d’observations, entre une hypothèse appelée
hypothèse nulle, notée H0 , et une autre hypothèse dite hypothèse alternative, notée H1 . En général, on suppose
qu’une et une seule de ces deux hypothèses est vraie. Un test d’hypothèses est une procédure qui permet de choisir
entre ces deux hypothèses.
L’hypothèse nulle notée H0 est l’hypothèse que l’on désire contrôler : elle consiste à dire qu’il n’existe pas
de différence entre les paramètres comparés ou que la différence observée n’est pas significative et est due aux
fluctuations d’échantillonnage.
L’hypothèse alternative notée H1 est la négation de H0 , elle est équivalente à dire ≪ H0 est fausse ≫ . La
décision de rejeter H0 signifie que H1 est réalisée ou H1 est vraie.
La nature de H0 détermine la façon de formuler H1 et par conséquence la nature unilatérale ou bilatérale du test.
On parle de test bilatéral lorsque l’hypothèse alternative se ”décompose en deux parties”. Par exemple si H0
consiste à dire que la population estudiantine avec une fréquence de fumeurs p est représentative de la population
globale avec une fréquence de fumeurs p0 , on pose alors : H0 : p = p0 et H1 : p ̸= p0 . Le test sera bilatéral car,
pour l’hypothèse alternative, on considère que la fréquence p peut être supérieure ou inférieure à la fréquence p0 .
α
La région critique en vert correspond à une probabilité de part et d’autre de la courbe.
2
On parle de test unilatéral lorsque l’hypothèse alternative se ”compose d’une seule partie”. Par exemple si
l’on fait l’hypothèse alternative que la fréquence de fumeurs dans la population estudiantine p est supérieure à la
21
Chapter 2. Tests d’hypothèse
fréquence de fumeurs dans la population p0 , on pose alors H0 : p = p0 et H1 : p > p0 . Le test sera unilatéral à
droite car on considère que la fréquence p ne peut être que supérieure à la fréquence p0 . La région critique en vert
(à droite) correspond à une probabilité α.
Il aurait été possible également d’avoir : H0 : p = p0 et H1 : p < p0 . Dans ce cas, le test sera unilatéral à
gauche.
Dans un problème de décision, on peut toujours se tromper de deux manières différentes et par conséquent deux
types d’erreurs sont possibles :
22
Chapter 2. Tests d’hypothèse
Le risque d’erreur α est la probabilité que la valeur expérimentale ou calculée de la statistique S appartienne à la
région critique si H0 est vrai. Dans ce cas H0 est rejetée et H1 est considérée comme vraie (rejet à tort).
Le risque α de première espèce est celui de rejeter H0 alors qu’elle est vraie :
α = P( rejeter H0 /H0 vraie)
ou accepter H1 alors qu’elle est fausse
α = P (accepter H1 /H1 f ausse)
Le risque d’erreur β est la probabilité que la valeur expérimentale ou calculée de la statistique n’appartienne pas à
la région critique si H1 est vrai. Dans ce cas H0 est acceptée et H1 est considérée comme fausse.
Le risque β de deuxième espèce est celui d’accepter H0 alors qu’elle est fausse :
β = P (accepter H0 /H0 f ausse) ou P (accepter H0 /H1 vraie)
ou rejeter H1 alors qu’elle est vraie
β = P (rejeter H1 /H1 vraie)
Les conséquences de ces deux erreurs peuvent être d’importances diverses. En général, une des erreurs est plus
grave que l’autre :
essais thérapeutiques : on peut adopter un nouveau traitement moins efficace, voire pire que l’ancien (erreur
β), ou se priver d’un nouveau traitement plus efficace que l’ancien (erreur α).
finance : si on décide à tort que l’on peut lancer l’opération, on risque de perdre beaucoup d’argent (erreur
β); si on décide à tort de ne pas lancer l’opération, on peut se priver d’un bénéfice important (erreur α).
santé : on peut dépenser des milliards d’euros en vaccins inutiles (erreur α) ou subir une pandémie grave à
large échelle (erreur β).
A toute décision correspond une probabilité de décider juste et une probabilité de se tromper : le risque α ou le
risque β.
Dans la pratique, on va donc considérer que l’une des deux erreurs est plus importante que l’autre (erreur β),
et tâcher d’éviter que cette erreur se produise. Il est alors possible que l’autre erreur survienne (erreur α). Par
exemple, dans le cas de la santé, on fait en général tout pour éviter de subir une pandémie grave, quitte à prendre
le risque de dépenser des milliards d’euros en vaccins inutiles.
23
Chapter 2. Tests d’hypothèse
Remarque :
Le risque de première espèce α est choisi à priori par l’expérimentateur et jamais en fonction des données. Plus
les conséquences de l’erreur sont grave, plus α sera choisi petite.
Les différentes situations que l’on peut rencontrer dans le cadre des tests d’hypothèse sont résumées dans le
tableau suivant :
Ce choix dépend de la nature des données, du type d’hypothèse que l’on désire contrôler, des affirmations que l’on
peut admettre concernant la nature des populations étudiées (normalité, égalité des variances) et d’autres critères
que nous préciserons.
Un test statistique ou une statistique est une fonction des variables aléatoires représentant l’échantillon dont la
valeur numérique obtenue pour l’échantillon considéré permet de distinguer entre H0 vraie et H0 fausse.
Connaissant la loi de probabilité suivie par la statistique S sous l’hypothèse H0 , il est possible d’établir une valeur
seuil, Sseuil de la statistique pour une probabilité donnée appelée le niveau de signification α (pourcentage de risque)
du test. La région critique Rc , ou encore la zone de rejet de l’hypothèse H0 correspond à l’ensemble des valeurs
telles que : P (S ∈ Rc ) = α.
La région de non rejet de H0 , ou encore appelée zone d’acceptation notée Iacc , est la région complémentaire de
la région critique Rc . Elle correspond à l’ensemble des valeurs telles que P (S ∈ Iacc ) = 1 − α
24
Chapter 2. Tests d’hypothèse
Après avoir formulé les hypothèses, choisi le seuil de signification, déterminé la statistique appropriée et défini
la région critique, il vous faudra énoncer formellement la règle de décision du test. Cette règle doit stipuler
clairement la conclusion appropriée selon les résultats échantillonnaux obtenus.
Il existe deux stratégies pour prendre une décision en ce qui concerne un test d’hypothèse : la première stratégie
fixe à priori la valeur du seuil de signification α et la seconde établit la valeur de la probabilité critique αobs à
posteriori.
si la valeur de la statistique Scal , calculée à partir d’un échantillon, appartient à la région critique (ou
n’appartient pas à la zone d’acceptation) alors l’hypothèse H0 est rejetée au risque d’erreur α et l’hypothèse
H1 est acceptée;
25
Chapter 2. Tests d’hypothèse
si la valeur de la statistique Scal n’appartient pas à la région critique (ou appartient à la zone d’acceptation)
alors l’hypothèse H0 est acceptée.
Remarque : Le choix du niveau de signification ou risque α est lié aux conséquences pratiques de la décision ; en
général on choisira α = 0, 05; 0, 01 ou 0, 001.
La valeur de p ou la p-valeur (p-value) est déterminée en fonction de la statistique du test calculée à partir de
l’échantillon, de la distribution présumée et du type de test réalisé (bilatéral ou unilatéral).
Elle consiste à déterminer la probabilité critique αobs telle que P (Scal ∈ RC) = αobs :
si αobs ≥ α, on ne rejette pas l’hypothèse H0 car le risque d’erreur de rejeter H0 alors qu’elle est vrai est trop
important;
si αobs < α l’hypothèse H0 est rejetée car le risque d’erreur de rejeter H0 alors qu’elle est vrai est très faible.
Les tests statistiques paramétriques ont pour objectif de vérifier des hypothèses relatives à un paramètre d’une loi
de probabilité. Dans cette partie, on va voir deux types de tests paramétriques : les tests de conformité et les tests
d’homogénéité.
Les tests de conformité sont destinés à vérifier si un échantillon peut être considéré comme extrait d’une population
donnée ou représentatif de cette population, vis-à-vis d’un paramètre comme la moyenne, la variance ou la fréquence
observée.
Le but est de tester si la moyenne µ d’une population est statistiquement égale à une valeur hypothétique, notée
µ0 . On suppose que la variable X est de loi N (µ, σ). On distingue trois types de tests :
26
Chapter 2. Tests d’hypothèse
On détermine la statistique qui convient pour ce test. Ici, l’estimateur de la moyenne µ est X̄.
On détermine la loi de probabilité de X̄, en se plaçant sous l’hypothèse H0 . Pour tester cette hypothèse, il
existe deux statistiques : la variance σ de la population de référence est connue (test normale) ou cette variance
est inconnue et il faut l’estimer (test de student).
X̄ − µ0
On pose Z = σ . La variable Z est appelée fonction discriminante du test ou la statistique du test.
√
n
Z ∼ N (0, 1).
Pour un risque α donné, on détermine la zone d’acceptation Iacc vérifiant P (Z ∈ Iacc ) = 1 − α, c.à.d il faut
déterminer dans la table de la loi normale centrée réduite la valeur z1−α/2 ou z1−α (quantiles d’ordre 1 − α/2 et
1 − α de la loi N (0, 1), respectivement), selon la nature du test, tel que :
27
Chapter 2. Tests d’hypothèse
On calcule une valeur zcal prise par la variable aléatoire Z dans un échantillon, telle que
x̄ − µ0
zcal = σ
√
n
1. Si zcal ∈
/ Iacc , on dira que l’écart-réduit observé est statistiquement significatif au seuil α. Cet écart est
anormalement élevé et ne permet pas d’accepter H0 . Donc, on rejette H0 .
2. Si zcal ∈ Iacc , on dira que l’écart- réduit observé n’est pas significatif au seuil α. Cet écart est imputable aux
fluctuations d’échantillonnage. Donc, on accepte H0 .
Exemples :
Exemple 1 : Votre emploi consiste à vérifier la production d’une machine fabriquant des milliers de boulons à
l’heure. Cette machine, lorsqu’elle est bien réglée, produit des boulons dont le diamètre est égal à 14.00mm. Le
diamètre moyen µ est donc de 14.00mm si tout fonctionne bien. Les boulons dont le diamètre s’éloigne trop de
cette moyenne, dans un sens ou dans l’autre, sont inutilisables. On sait, par expérience, que σ = 0.15mm et que
les diamètres des boulons se distribuent selon la loi normale.
Chaque heure, vous devez prélever un échantillon aléatoire de 6 boulons pour vérifier le réglage de la machine.
Voici les résultats que vous avez obtenu à votre dernière vérification (le diamètre est en mm):
Solution :
H0 : µ = 14.00mm
H0 : µ ̸= 14.00mm
Le test est bilatéral car il suffit que la moyenne échantillonnale soit significativement trop grande ou trop
petite pour que l’hypothèse nulle soit rejetée.
2. La statistique :
On sait que la population est distribuée selon une loi normale avec σ connu. Donc :
28
Chapter 2. Tests d’hypothèse
X̄ − µ0
Z= σ
√
n
suit la loi N (0, 1).
3. La zone d’acceptation :
Puisqu’il s’agit d’un test bilatéral, la zone d’acceptation Iacc est telle que :
Ce qui donne, en utilisant la table de la loi normale centrée réduite, z1−α/2 = 2.58. Donc :
Iacc = [−2.58, 2.58]
x̄ − µ0 14.1333 − 14.00
zcal = σ = √ = 2.18
√ 0.15/ 6
n
Puisque zcal ∈ Iacc , on doit accepter H0 et conclure que la machine est bien réglée (la différence observée n’est
pas significative et est due aux fluctuations d’échantillonnage).
Exemple 2 : M. Maltais, directeur d’une brasserie, veut s’assurer que le volume moyen des cannettes produites
est bien de 341 ml. Si le volume moyen est significativement inférieur à 341 m, les clients ((et divers agences de
surveillance) vont sûrement porter plainte et faire de la mauvaise publicité à la brasserie. A cause du format de
la cannette, c’est impossible que le volume moyen sont significativement supérieur à 341 ml. La moyenne d’un
échantillon de 36 cannettes est de 332 ml. En supposant que σ = 6ml, effectuer le test d’hypothèse approprié avec
un seuil de risque α = 0.01.
Solution :
H0 : µ = 341ml
H0 : µ < 341ml
29
Chapter 2. Tests d’hypothèse
Il est clair, dans cette situation, que le directeur rejettera l’hypothèse nulle uniquement s’il juge que la
moyenne échantillonnale est significativement inférieure à 341 ml, le test est donc unilatéral à gauche.
2. La statistique :
Puisque n = 36 > 30, Donc :
X̄ − µ0
Z= σ
√
n
suit la loi N (0, 1).
3. La zone d’acceptation :
Puisqu’il s’agit d’un test unilatéral à gauche, la zone d’acceptation Iacc est telle que :
Ce qui donne, en utilisant la table de la loi normale centrée réduite, z1−α = 2.33. Donc :
Iacc = [−2.33, +∞[
x̄ − µ0 332 − 341
Zcal = σ = 6/√36 = −9
√
n
Puisque zcal ∈
/ Iacc , le directeur doit rejeter H0 et améliorer son procédé de remplissage des cannettes.
Exemple 3 : M. Eugène Boucher, distributeur de rince-bouche, affirme qu’il en coûte, en moyenne, 13.25
dollars pour manipuler une commande d’un détaillant. Mme Minnie Malle, contrôleuse de la compagnie, craint
que le coût moyen soir supérieur à ce qu’affirme M. Boucher. Elle a l’intention de prendre les mesures nécessaires
pour réduire le coût moyen s’il s’avère trop élevé, mais n’élèvera pas la voix si la moyenne est inférieure aux 13.25
dollars mentionnés. La moyenne d’un échantillon aléatoire de 100 commandes est de 13.35 dollars. En supposant
que σ = 0.50 dollars, effectuez un test approprié à un seuil de signification de 0.01.
Solution :
H0 : µ = 13.25
30
Chapter 2. Tests d’hypothèse
H0 : µ > 13.25
Il s’agit d’un test unilatéral à droite, seule une moyenne échantillonnale significativement supérieure à la
valeur de µ spécifiée en H0 conduira au rejet de l’hypothèse nulle.
2. La statistique :
Puisque n = 100 > 30, Donc :
X̄ − µ0
Z= σ
√
n
suit la loi N (0, 1).
3. La zone d’acceptation :
Puisqu’il s’agit d’un test unilatéral à droite, la zone d’acceptation Iacc est telle que :
Iacc =] − ∞, z1−α ]
avec z1−α vérifie
P (Z ≤ z1−α ) = 1 − α = 0.95
Ce qui donne, en utilisant la table de la loi normale centrée réduite, z1−α = 2.33. Donc :
Iacc =] − ∞, 2.33]
x̄ − µ0 13.35 − 13.25
Zcal = σ = 0.50/√100 = 2.00
√
n
Puisque zcal ∈ Iacc , Mme Malle accepte l’affirmation de M. Boucher au seuil de signification de 0.01 (H0 est
acceptée).
1. La démarche est la même que pour le 1er cas (variance connue) mais la variance de la population n’étant pas
connue, elle est remplacée par son estimateur non biaisé:
n
S ∗2 = S2
n−1
X̄ − µ0
On obtient donc comme statistique T = qui suit une loi de Student à n-1 degrés de liberté (sous
S
√
n−1
H0 ).
31
Chapter 2. Tests d’hypothèse
2. On calcule une valeur tcal prise par la variable aléatoire T dans un échantillon, telle que
x̄ − µ0
tcal = s
√
n−1
3. On définie la zone d’acceptation Iacc selon la nature du test :
Pour un test bilatéral, la zone d’acceptation est
Iacc = [−t1−α/2 , t1−α/2 ]
avec t1−α/2 est le quantile d’ordre 1 − α/2 de la loi Student d’ordre n-1 vérifiant P (|T | ≤ t1−α/2 ) = 1 − α.
Pour un test unilatéral à gauche, la zone d’acceptation est
Iacc = [−t1−α , +∞[
avec t1−α est le quantile d’ordre 1 − α de la loi Student d’ordre n-1 vérifiant P (T ≥ −t1−α ) = 1 − α.
Pour un test unilatéral à droite, la zone d’acceptation est
Iacc =] − ∞, t1−α ]
avec t1−α vérifiant P (T ≤ t1−α ) = 1 − α.
Remarque :
X̄ − µ0 X̄ − µ0
1. Si la variable aléatoire X étudiée est de loi inconnue et Si n < 30, la loi de et σ n’est pas
S √
√ n
n−1
connue.
X̄ − µ0 X̄ − µ0
2. Si X de loi inconnue et n ≥ 30, on a et σ sont de loi normale centrée réduite et on applique
S √
√ n
n−1
la même procédure que les cas précédents.
3. Si n ≥ 30, la variable de Student T converge vers une loi normale centrée réduite.
Exemple : Revenons au premier exemple du 1er cas (variance connue) et changeons un peu les données du
problème. Le diamètre moyen µ des boulons produits par la machine doit toujours être égal à 14.00 mm et aucune
variation importante dans le diamètre ne peut être tolérée ni dans un sens ni dans l’autre. Cette fois, supposons
que l’écart-type σ est inconnu. Que faire dans une telle situation?
Il faudra estimer σ à l’aide de l’écart-type échantillonnal s, en utilisant les résultats obtenus lors de la dernière
vérification (le diamètre est en mm):
14.15 13.85 13.95 14.20 14.30 14.35
Au seuil de signification de 0.01, arrivons nous à la même conclusion que précédemment? (la machine est bien
réglée)
Solution :
32
Chapter 2. Tests d’hypothèse
H0 : µ = 14.00mm
H0 : µ ̸= 14.00mm
2. La statistique :
Nous avons un petit échantillon (n=6 < 30) et σ inconnu. Nous devons supposer que la distribution des
diamètres est une distribution normale et utiliser la loi de Student. Ce qui donne :
X̄ − µ0
T =
S
√
n−1
suit une loi de Student à n-1 degrés de liberté.
3. La zone d’acceptation :
Puisqu’il s’agit d’un test bilatéral, la zone d’acceptation Iacc est telle que :
6
1X
s2 = (xi − x̄)2
n i=1
donc
x̄ − µ0
tcal = s = 1.66
√
n−1
Puisque tcal ∈ Iacc , nous devons donc conclure, comme dans l’exemple du 1er cas, que la machine est bien
réglé et ne nécessite aucun ajustement.
Remarque : Dans l’exemple du 1er cas, nous étions bien près de rejeter H0 , mais pas cette fois, cela vient du
fait que la distribution de Student est plus aplatie que la distribution normale.
33
Chapter 2. Tests d’hypothèse
Considérons une variable aléatoire X de loi N (m, σ). Le but est de tester si la variance d’une population σ 2 peut
être égale à une valeur proposée σ02 .
Pour un test bilatéral, on cherche χ2α/2 et χ21−α/2 telle que P (χ2α/2 ≤ T ≤ χ21−α/2 ) = 1 − α, où χ2α/2 et χ21−α/2
sont les quantiles d’ordre α/2 et 1 − α/2, respectivement, de la loi χ2n .
Pour un test unilatéral à gauche, on cherche χ2α telle que P (T ≥ χ2α ) = 1 − α, où χ2α est le quantile d’ordre α
de la loi χ2n .
Pour un test unilatéral à droite, on cherche χ21−α telle que P (T ≤ χ21−α ) = 1 − α, où χ21−α est le quantile d’ordre
1 − α de la loi χ2n .
34
Chapter 2. Tests d’hypothèse
On calcule une valeur tcal prise par la variable aléatoire T dans un échantillon, telle que
n 2
X xi − µ
tcal =
i=1
σ0
1. Si tcal ∈
/ Iacc on rejette H0 .
avec χ2α/2 , χ21−α/2 et χ2α sont les quantiles d’ordre α/2, 1 − α/2 et α de la loi χ2n−1 , respectivement.
On calcule une valeur s̃cal prise par la variable aléatoire S dans un échantillon, telle que
ns2
s̃cal = 2
σ0
1. Si s̃cal ∈
/ Iacc on rejette H0 .
35
Chapter 2. Tests d’hypothèse
On veut vérifier si la proportion p d’une population est statistiquement égale à une proportion donnée p0 . On
suppose que la taille de l’échantillon est suffisamment grande de sorte que les conditions np, nq ≥ 5 soient vérifiées.
F − p0
Sous l’hypothèse H0 , on a Z = r ∼ N (0, 1) (avec q0 = (1 − p0 )).
p0 q 0
n
On cherche dans la table de la loi normale centrée réduite la valeur z1−α ou z1−α/2 , selon la nature du test
(unilatéral ou bilatéral). On a:
On calcule une valeur zcal prise par la variable aléatoire Z dans un échantillon, telle que
f − p0
zcal = r
p0 q0
n
36
Chapter 2. Tests d’hypothèse
1. Si la valeur zcal ne se trouve pas dans la zone d’acceptation, on dira que l’écart-réduit observé est statistique-
ment significatif au seuil α. Cet écart est anormalement élevé et ne permet pas d’accepter H0 . Donc, on
rejette H0 .
2. Si la valeur zcal se trouve dans la zone d’acceptation, on dira que l’écart- réduit observé n’est pas significatif
au seuil α. Cet écart est imputable aux fluctuations d’échantillonnage. Donc, on accepte H0 .
Exemple :
Un journal régional affirme que 25% des élèves du collégial lisent quotidiennement un journal. Un échantillon
aléatoire de 200 élèves du collégial a montré que 45 de ceux-ci lisent un journal chaque jour. Testez l’exactitude de
l’affirmation de ce journal avec un seuil de signification de 0.05.
Solution :
H0 : p = 25%
H1 : p ̸= 25%
2. La statistique :
La taille de l’échantillon est suffisamment grande pour qu’on puisse utiliser la distribution de la loi normale
dans le calcul de la statistique et la zone d’acceptation. On a :
F − p0
Z=r
p0 q0
n
suit la loi normale centrée réduite.
3. La zone d’acceptation :
Puisqu’il s’agit d’un test bilatéral, la zone d’acceptation Iacc est telle que :
Ce qui donne, en utilisant la table de la loi normale centrée réduite, zα/2 = 1.96. Donc :
Iacc = [−1.96, 1.96]
37
Chapter 2. Tests d’hypothèse
On a :
f − p0 22.5% − 25%
zcal = r =r = −0.806
p0 q0 0.25 × 0.75
n 200
45
avec f = × 100 = 22.5%.
200
Puisque zcal ∈ Iacc , il n’y a aucune évidence statistiques permettant de rejeter l’affirmation du journal régional.
Les tests d’homogénéité sont destinés à comparer deux populations en comparant deux d’échantillons qui sont
extraits de ces deux populations, vis à vis un paramètre comme la moyenne, la variance et la proportion.
Principe de test :
Soit X un caractère observé sur 2 populations suivant une loi normale et soient deux échantillons indépendants
extraits de ces deux populations.
On veut tester si les deux échantillons proviennent de 2 populations dont les variances sont égales.
38
Chapter 2. Tests d’hypothèse
Statistique du test :
La statistique associée au test de comparaison de deux variances correspond au rapport des deux variances
estimées.
n1
S2
S1∗2
n1 − 1 1
F = = n2
S2∗2 S2
n2 − 1 2
suit une loi de Fisher-Snedecor à (n1 − 1, n2 − 1) degrés de liberté, avec S1∗2 > S2∗2 car le rapport des variances
doit être toujours supérieur à 1.
Application et décision :
s∗2
1
fobs = .
s∗2
2
Remarque : Pour l’application de ce test, il est impératif que X ∼ N (µ, σ) et que les deux échantillons soient
indépendants.
Exemple :
Lors d’une expérience pédagogique, on s’intéresse à l’effet comparé de deux pédagogies des mathématiques chez
deux groupes de 10 sujets :
39
Chapter 2. Tests d’hypothèse
Avant d’appliquer un test de comparaison de moyennes, on veut s’assurer que l’on peut supposer les variances
égales dans les populations parentes. Procéder à un test de comparaison de variances permettant de s’en assurer
avec un seuil de signification de 5%.
Solution
H0 : σ1 = σ2
H1 : σ1 ̸= σ2
C’est pour vérifier, à l’aide de données échantillonnales, s’il existe une différence statistique significative entre les
moyennes des deux populations. L’hypothèse nulle est donc :H0 : µ2 = µ2 . L’hypothèse alternative se construit
selon la nature du test.
40
Chapter 2. Tests d’hypothèse
Il existe plusieurs statistiques associées à la comparaison de deux moyennes en fonction de la nature des données.
41
Chapter 2. Tests d’hypothèse
Si zcal ∈
/ Iacc , l’hypothèse H0 est rejetée au risque d’erreur α : les deux échantillons sont extraits de deux
populations ayant des espérances différentes µ1 et µ2 .
Remarque : Pour l’application de ce test, il est impératif que X ∼ N (µ, σ) pour les échantillons de taille
n < 30 et que les deux échantillons soient indépendants.
Exemple :
Une chaı̂ne de magasin possède les succursales A et B. Ces dernières années, la succursale A a investi plus
d’argent que la succursale B pour promouvoir la vente d’un certain article. La chaı̂ne veut maintenant
déterminer si cette publicité a entrı̂né des ventes plus élevées à la succursale A. Pour un échantillon de
36 jours, le nombre moyen d’articles vendus quotidiennement fut de 170 à la succursale A, tandis qu’à la
succursale B cette moyenne, pour un échantillon de 36 jours, fut de 165. En supposant que σA2 = 36 et
σB2 = 25, que pouvons-nous conclure, à partir d’un test effectué à un seuil de signification de 5%?
Solution :
H0 : µA = µB
H1 : µA > µB
La chaine veut savoir si le rendement de la succursale A est supérieur à celui de B, elle doit effectuer
donc un test unilatéral à droite.
(b) La statistique :
Les échantillons sont de tailles suffisamment grandes pour qu’on puisse utiliser la distribution de la loi
normale. On a :
X̄A − X̄B
Z=r 2
σA σB2
+
n1 n2
suit la loi normale centrée réduite N (0, 1).
(c) La zone d’acceptation :
Puisqu’il s’agit d’un unilatéral à droite, la zone d’acceptation Iacc est telle que :
Iacc =] − ∞, z1−α ]
avec z1−α vérifie
P (Z ≤ z1−α ) = 1 − α = 0.95
Ce qui donne, en utilisant la table de la loi normale centrée réduite, z1−α = 1.64. Donc :
Iacc =] − ∞, 1.64]
(d) Conclusion et prise de la décision du test :
On a :
42
Chapter 2. Tests d’hypothèse
X̄1 − X̄2
Z=r suit une loi normale centrée réduite N (0, 1)
S12 S22
+
n1 − 1 n2 − 1
On calcule une valeur de la variable aléatoire Z, notée, zcal telle que :
x̄1 − x̄2
zcal = r 2
s1 s22
+
n1 − 1 n2 − 1
On cherche la valeur zseuil (selon la nature du test) dans la table de la loi normale centrée réduite pour un
risque d’erreur α fixé, et on définie la zone d’acceptation Iacc .
Si zcal ∈ Iacc , l’hypothèse H0 est acceptée: les deux échantillons sont extraits de deux populations ayant
même espérance.
Si zcal ∈
/ Iacc , l’hypothèse H0 est rejetée au risque d’erreur α : les deux échantillons sont extraits de deux
populations ayant des espérances différentes µ1 et µ2 .
Remarque : Pour l’application de ce test, il est impératif que X ∼ N (µ, σ) et que les deux échantillons
soient indépendants et de grandes tailles.
2ème cas : Cas des petits échantillons (n1 et/ou n2 inférieurs à 30) et variances égales
Statistique du test
Les variances des populations n’étant pas connues, on fait l’hypothèse que les deux populations présentent
la même variance.
H0 : σ12 = σ22 = σ 2
et construit une statistique T qui suit la loi Student (comme le cas d’une seule population).
43
Chapter 2. Tests d’hypothèse
On a
X̄1 − X̄2
Z=r 2
σ1 σ22
+
n1 n2
suit la loi normale centrée réduite N (0, 1).
Et
n1 S12 n2 S22
U= + 2
σ12 σ2
suit la loi χ2n1 +n2 −2 à cause de l’indépendance. Donc la variable T telle que:
Z X̄1 − X̄2
T =r = s
U 1 1
n1 S12 + n2 S22
n1 + n2 − 2 +
n1 n2 n1 + n2 − 2
On cherche la valeur tseuil dans la table de Student pour un risque d’erreur α fixé et (n1 + n2 − 2) degrés
de liberté, et on calcule la zone d’acceptation Iacc .
Si tcal ∈ Iacc , l’hypothèse H0 est acceptée: les deux échantillons sont extraits de deux populations ayant
même espérance.
Si tcal ∈
/ Iacc , l’hypothèse H0 est rejetée au risque d’erreur α : les deux échantillons sont extraits de deux
populations ayant des espérances différentes µ1 et µ2 .
Remarque : Pour l’application de ce test, il est impératif que X ∼ N (µ, σ) pour les échantillons de taille
< 30, que les deux échantillons soient indépendants et que les deux variances estimées soient égales.
3èm cas : cas des petits échantillons (n1 et/ou n2 < 30) et variances différentes
Lorsque les variances sont inégales et les échantillons de petites tailles, la loi de probabilité suivie par X̄1 − X̄2
n’est pas connue.
Exemples :
Exemple 1. Un psychologue veut, à l’aide d’un test de quotient intellectuel, déterminer s’il existe une différence
significative entre les collégiens et les collégiennes. Le QI moyen d’un échantillon de 40 filles est de 131 avec un
écart type de 14.8; le résultat moyen d’un échantillon de 36 garçon est de 126 avec un écart type de 16.76. Au
seuil de signification de 0.01, existe-t-il une différence? (on suppose que les variances des deux populations sont
différentes)
44
Chapter 2. Tests d’hypothèse
Solution :
H0 : µf = µg = p
H1 : µf ̸= µg
2. La statistique :
Les tailles des deux échantillons sont suffisamment grandes; on peut donc utiliser la distribution normale pour
faire le test. On a :
X̄f − X̄g
Z=s suit une loi normale centrée réduite N (0, 1)
Sf∗2 Sg∗2
+
nf ng
avec :
nf ng
Sf∗2 = Sf2 et Sg∗2 = Sg2
nf − 1 ng − 1
3. La zone d’acceptation :
Puisqu’il s’agit d’un test bilatéral, la zone d’acceptation Iacc est telle que :
Ce qui donne, en utilisant la table de la loi normale centrée réduite, z1−α/2 = 2.58. Donc :
Iacc = [−2.58, 2.58]
Puisque zcal ∈ Iacc , on doit conclure qu’il n’y a pas de différence significative (au point de vue du QI).
Exemple 2. La chambre de commerce cherche à attirer de nouvelles industries dans la région. Selon un des
arguments invoqués, le coût de la main-d’oeuvre pour un type particulier d’emploi est plus bas dans la région que
partout ailleurs au pays. Un président de compagnie plutôt sceptique demande à son beau-frère, qui est actuaire,
de vérifier cette affirmation. Il prélève donc, dans cette région, un échantillon de 60 travailleurs (groupe 1) occpant
un emploi type mentionné par la chambre de commerce et s’aperçoit que le salaire moyen est de 7.75 dollars l’heure
avec un écart-type corrigé de 2 dollars l’heure (s∗1 = 2). Un échantillon de 50 travailleurs (groupe 2) provenant
45
Chapter 2. Tests d’hypothèse
d’une autre région a donné une moyenne de 8.25 dollars l’heure avec un écart type corrigé de 1.25 dollars l’heure
(s∗2 = 1.25). A un seuil de signification de 0.01, quelle devra être la conclusion du beau-frère du président?
Solution :
H0 : µ1 = µ2
H1 : µ1 < µ2
Le beau-frère effectue un test unilatéral à gauche car il veut vérifier l’exactitude de la chambre de commerce
selon laquelle les salaires versés dans cette région sont plus bas que partout ailleurs au pays.
• La statistique :
Les tailles des deux échantillons indépendants sont suffisamment grandes; on peut donc utiliser la distribution
normale pour faire le test. On a :
X̄1 − X̄2
Z = r ∗2
S S ∗2
( 1 + 2 )
n1 n2
suit une loi normale centrée réduite.
2. La zone d’acceptation :
Puisqu’il s’agit d’un test unilatéral à gauche, la zone d’acceptation Iacc est telle que :
Ce qui donne, en utilisant la table de la loi normale centrée réduite, z1−α/2 = 2.33. Donc :
Iacc = [−2.33, +∞[
Puisque zcal ∈ Iacc , H1 est rejeté et les résultats échantillonnaux invalident l’affirmation de la chambre de
commerce à un seuil de 0.01.
46
Chapter 2. Tests d’hypothèse
Soit X une variable qualitative prenant deux modalités (succès X=1, échec X=0) observée sur 2 populations et
deux échantillons indépendants extraits de ces deux populations. On fait l’hypothèse que les deux échantillons
proviennent de 2 populations dont les probabilités de succès p1 et p2 sont identiques et on procède comme suit:
Statistique du test :
r r
p1 q1 p2 q 2
Pour la population 1, on a F1 ∼ N (p1 , ) et pour la population 2, F2 ∼ N (p2 , ) si et seulement si
n1 n2
n1 p1 , n1 q1 , n2 p2 , n2 q2 ≥ 5 et n1 , n2 ≥ 30.
F1 et F2 étant deux variables aléatoires indépendantes, nous pouvons établir la loi de probabilité de la variable
aléatoire à étudier F1 − F2 , tel que :
E(F1 − F2 ) = E(F1 ) − E(F2 ) = p1 − p2
p1 q1 p 2 q2
V (F1 − F2 ) = V (F1 ) + V (F2 ) = +
n1 n2
r
p1 q1 p2 q2
Sachant que F1 −F2 suit une loi N p1 − p2 , + , nous pouvons établir la variable Z centrée réduite
n1 n2
telle que
(F1 − F2 ) − E(F1 − F2 )
Z= p
V (F1 − F2 )
n1 p1 + n2 p2
Sous l’hypothèse H0 : p1 = p2 et avec p = on a
n1 + n2
F1 − F2
Z=s suit la loi N (0, 1)
1 1
p̂q̂ +
n1 n2
avec p̂ est l’estimateur de la proportion commune aux deux populations, qui n’est en réalité pas connue:
K1 + K2 n1 F 1 + n2 F 2
p̂ = = .
n1 + n2 n1 + n2
Application et décision
47
Chapter 2. Tests d’hypothèse
On cherche la valeur zseuil dans la table de la loi normale centrée réduite pour un risque d’erreur α fixé, et on
définie la zone d’acceptation Iacc .
Si zcal ∈ Iacc , l’hypothèse H0 est acceptée: les deux échantillons sont extraits de deux populations ayant la
même proportion p.
Si zcal ∈
/ Iacc , l’hypothèse H0 est rejetée au risque d’erreur α : les deux échantillons sont extraits de deux
populations ayant des proportions différentes p1 et p2 .
Exemple :
M. Robert, candidat à la prochaine élection, a l’impression que les hommes et les femmes voteront pour lui dans
la même proportion. Parmi les 36 hommes interrogés, 12 ont indiqué qu’ils voteraient pour Robert, tandis que 36%
des femmes d’un échantillon en comptant 50 ont dit qu’elles favoriseraient ce candidat.
L’impression de M. Robert est-elle bien fondée? Effectuez un test à u seuil de signification de 5%.
Solution :
H0 : pH = pF = p
H1 : pH ̸= pF
Dans ce problème, nous ne nous intéressons qu’à l’égalité ou à la non égalité des pourcentages au sein des
deux groupes, par conséquent, le test est bilatéral.
2. La statistique :
Les tailles des deux échantillons sont suffisamment grandes pour qu’on puisse utiliser la distribution de la loi
normale dans le calcul de la statistique et la zone d’acceptation. On a :
FH − FF
Z=s suit la loi N (0, 1)
1 1
p(1 − p) +
nH nF
48
Chapter 2. Tests d’hypothèse
La valeur p, proportion commune aux deux populations n’est pas connue. On l’estime à partir des résultats
observés sur les deux échantillons tel que:
nH p̂1 + nF p̂2 nH fH + nF fF
p̂ = =
nH + nF nH + nF
où fH et fF représentent les proportions observées respectivement pour l’échantillon des hommes et pour
l’échantillon des femmes.
3. La zone d’acceptation :
Puisqu’il s’agit d’un test bilatéral, la zone d’acceptation Iacc est telle que :
Ce qui donne, en utilisant la table de la loi normale centrée réduite, z1−α/2 = 1.96. Donc :
Iacc = [−1.96, 1.96]
fH − fF
zcal = s = −0.25
1 1
p̂q̂ +
nH nF
12 nH fH + nF fF
avec fH = × 100 = 33.33%, fF = 36%, nH = 36, nF = 50 et p̂ = = 0.35
36 nH + nF
Puisque zcal ∈ Iacc , il n’y a aucune évidence statistiques permettant de rejeter l’hypothèse de M. Robert. Il
semble que les deux sexes aient sensiblement la même opinion de Robert.
49
TESTS KHI-DEUX
3
3.1 Introduction
Les tests paramétriques ont pour objet de tirer des conclusions relatives à la valeur des paramètres (moyenne,
fréquence, variance) d’une ou plusieurs populations, sur la base d’informations partielles fournies par un ou plusieurs
échantillons.
La même démarche peut être appliquée pour porter un “ jugement” sur les caractéristiques encore plus générales
de la population : la forme de distribution du caractère étudié, la relation éventuelle entre deux variables et
l’homogénéité de plusieurs population.
Les tests du χ2 (chi-deux, chi-carré, khi-deux ...) sont basés sur la statistique du χ2 proposée par Karl Pearson,
mathématicien britannique du début du XXeme siècle. L’objectif de ces tests est principalement de comparer
les distributions observés et théoriques entre elles. Ces tests peuvent être appliqués à des variables de de nature
qualitative (binaire, nominale, ordinale, quantitative regroupée en classes).
1. Le test du χ2 d’ajustement dont l’objectif est de comparer une distribution observée sur un échantillon à une
distribution théorique (binomiale, Poisson, normale, ...).
Exemple : Soit un échantillon de 100 individus, la distribution observée de l’âge regroupé en classes est-elle
50
Chapter 3. TESTS KHI-DEUX
2. Le test du χ2 d’homogénéité dont l’objectif est de comparer deux ou plusieurs distributions observées sur des
échantillons.
Exemple : Soient trois échantillons de 100 marocains, 100 français et 100 anglais. La distribution observée
de l’âge regroupé en classes est-elle différente entre les échantillons?
3. Le test du χ2 d’indépendance qui est utilisé pour étudier sur un même échantillon la liaison entre deux
variables qualitatives.
Exemple : Soit un échantillon de 100 marocains. Existe-t-il un lien entre le sexe (Homme / Femme) et la
couleur des yeux (Marron, Bleu, Vert, Noir ...) ?
Quelque soit le type de test, le principe consiste à comparer les effectifs observés et théoriques des classes des
distributions. Pour réussir ce test, il faut passer par les étapes suivantes :
4. Prise de la décision
Le calcul de la statistique de test reste identique pour les trois types du test χ2 .
Etant donné un tableau de contingence d’effectifs observés ni , on calcule le tableau de contingence d’effectifs
théoriques ti sous H0 est vraie.
Pour un test χ2 en général, on s’intéresse à une expérience aléatoire avec k issues possibles. On sais que sous une
certaine hypothèse H0 , les probabilités d’apparition de ces k issues sont respectivement p1 , . . . , pk (avec ki=1 pi = 1).
P
On fait n expériences identiques et indépendantes et on compte les nombres ni de fois où l’issue i s’est produite.
On a forcément ki=1 ni = n.
P
Le problème est de décider si l’observation de n1 , . . . , nk est compatible avec l’hypothèse H0 que les probabilités
des issues sont p1 , . . . , pk .
51
Chapter 3. TESTS KHI-DEUX
Sous H0 , on s’attend à observer en moyenne ti = npi fois l’issue i. Il s’agit donc de déterminer si les ni sont
significativement proches ou éloignés des ti . On peut alors penser à une région critique de la forme :
Xk
RC = { (ni − ti )2 > Sseuil }
i=1
Pk
Pour déterminer Sseuil , il faut connaitre la loi de probabilité sous H0 de i=1 (Ni − ti )2 , ou d’une variable aléatoire
analogue.
Il est clair que, pour tout i, Ni est de loi Binomiale B(n, pi ), mais les Ni ne sont pas indépendantes. En effet
puisque ki=1 Ni = n, si on connait N1 , . . . , Nk−1 , on connait Nk avec certitude.
P
On dit que le vecteur (N1 , . . . , Nk ) est de loi multinominale M(n, p1 , . . . , pk ). Le test du χ2 est basé sur le
théorème suivant :
Théorème de Pearson
Si (N1 , . . . , Nk ) est de loi M(n, p1 , . . . , pk ) et si ti ≥ 5 pour au moins 80% des cas, alors :
k
X (Ni − ti )2
→ χ2ν en loi
i=1
ti
Intuitivement, on comprend que la grandeur statistique ou l’indicateur d’écart traduise l’écart entre un échantillon
et la distribution théorique est définie par :
k
X (ni − ti )2
χ2obs = (3.1)
i=1
ti
Si l’ajustement était parfait, cette expression du χ2 serait nulle, les effectifs empiriques co¨ıncidant exactement
avec les effectifs théoriques.
En revanche, plus grands sont les écarts entre les effectifs observés et les effectifs théoriques est plus forte sera la
valeur du χ2 .
En outre, comme la quantité (3.1) ne peut pas être négative, le test est nécessairement un test unilatéral droit.
Definition 3.1.1 Le paramètre ν indiçant χ2ν définit le nombre de degrés de liberté. C’est le nom donné au
nombre d’observations linéairement indépendantes qui apparaissent dans une somme de carrés. Autrement dit,
c’est le nombre d’observations aléatoires indépendantes (nombre de termes de la statistique du χ2 ) moins le nombre
de contraintes imposées à ces observations.
Le nombre de contraintes désigne le nombre de relations entre les différentes éléments et le nombre de paramètres
à estimer.
52
Chapter 3. TESTS KHI-DEUX
le principe du test χ2 se base sur l’évaluation de la valeur de χ2obs par rapport à une valeur seuil. Intuitivement,
si χ2obs excède une certaine valeur, notée χ2seuil , cela signifie que les effectifs observés et les effectifs théoriques sont
différents et par conséquent l’hypothése H0 est rejetée.
Pour un risque de première espèce α, la région critique RC conduisant au rejet de l’hypothèse nulle est définie
par :
RC = [χ2seuil , +∞[
avec χ2seuil = χ2ν,α correspond au quantile d’ordre 1 − α de la loi du χ2 à ν degrès de liberté. Donc l’hypothèse
H0 est rejetée pour toutes les valeurs χ2obs vérifiant :
χ2obs ≥ χ2ν,α
Si χ2obs < χ2ν,α , l’hypothèse H0 est acceptée: les différences constatées entre la distribution observée et la
distribution théorique supposée ne sont pas significatifs et elles sont dus aux fluctuations d’échantillonnage.
Si χ2obs ≥ χ2ν,α , l’hypothèse H0 est rejetée au risque d’erreur α : les différences constatées entre la distribution
observée et la distribution théorique supposée sont significatifs.
Le test χ2 est sensible aux petits effectifs. Aussi, le test est considéré comme applicable lorsque les effectifs
théoriques sont supérieurs ou égaux à 5 pou au moins 80% des cas. En pratique, si cette condition n’est pas
réalisée, la technique consiste à regrouper certaines modalités (ex : regrouper les yeux noirs et les yeux marrons)
afin de, par construction, augmenter la valeurs des effectifs théoriques.
Pour tester si un échantillon serait tiré d’une population régie par une certaine loi de probabilité telle que la loi
binomiale, la loi de Poisson, la loi normale ou toute autre loi de probabilité.
53
Chapter 3. TESTS KHI-DEUX
Étant donnée une population décrite par une variable X, un échantillon prélevé dans cette population permet de con-
struire l’histogramme et la courbe des fréquences qui caractérisent la distribution observée de X. Ces représentations
peuvent ressembler à celles d’une loi théorique, toutefois avec certains écarts.
Le test χ2 permet de juger si les écarts constatés entre la distribution observée et la loi théorique d’ajustement
peuvent ou non être imputés au hasard.
soit continue et classée en k classes [a0 , a1 [, [a1 , a2 [, . . . , [ak−1 , ak [ de centres respectifs x1 , x2 , . . . , xk−1 , xk .
Les N observations de l’échantillon sont réparties sur les k valeurs de X (si X est discrète) ou sur les k classes de
X (si X est continue). On a les tableaux de contingence d’effectifs observés suivants :
avec
k
X
N= ni = n1 + n2 + . . . + nk .
i=1
D’un manière générale, si on considère que la variable X admet k modalités X1 , . . . , Xk , le tableau de contingence
d’effectifs observés est décrit de la manière suivante :
54
Chapter 3. TESTS KHI-DEUX
pi = P (X = xi /X ∼ L) si X est discrète,
ti = N pi
Par ailleurs, nous pouvons construire un deuxième tableau qui va permettre de regrouper les effectifs théoriques
ti et les effectifs observés ni .
55
Chapter 3. TESTS KHI-DEUX
Pour un risque de première espèce α, la région critique est définie pour l’ensemble des valeurs χ2obs vérifiant :
χ2obs ≥ χ2ν,α
Remarque. Le nombre d’observations par classes ne doit pas être faible, N pi doit être supérieur à 5 pour a
moins 80% des cas. Dans le cas contraire, on regroupe deux ou plusieurs classes adjacentes de façon à réaliser cette
condition. On tient compte de ce regroupement pour le nombre de degrés de liberté.
56
Chapter 3. TESTS KHI-DEUX
Le test du χ2 d’homogénéité est utilisé pour comparer la distribution d’une variable qualitative à p modalités entre
k échantillons de tailles n1 , n2 , . . . , nk .
H0 : Les distributions observées du caractère étudié sont identiques entre les k échantillons observés.
H1 : Les distributions observées du caractère étudié sont différentes entre les k échantillons observés.
Les observations sont regroupées dans un tableau de contingence (tableau des effectifs observés) présentant autant
de lignes que d’échantillons observés (k lignes).
Tout comme dans le cadre général, le test du χ2 d’homogénéité nécessite le calcul des effectifs théoriques tij , sous
l’hypothèse H0 est vraie, selon la formule :
ni × mj
tij =
N
nj
En effet, le taux global de la modalité j est : et donc le nombre théorique des individus de l’échantillon i
N
mj
possédant la modalité j est tij = ni .
N
Ce qui nous permet d’obtenir le tableau de contingence des effectifs théoriques suivant :
57
Chapter 3. TESTS KHI-DEUX
Sous H0 , la statistique de test associée au test du χ2 d’homogénéité est définie par la distance mesurant l’écart
entre les deux tableaux.
Pour un risque du premier espèce α, la région critique conduisant au rejet de l’hypothèse nulle est définie par
l’ensemble des valeurs de χ2obs vérifiant
χ2obs ≥ χ2ν,α
ν = (p − 1) × (k − 1)
Si χ2obs < χ2ν,α , l’hypothèse H0 est acceptée( Les k échantillons observés sont issus de populations ayant la même
distribution du caractère étudié).
Si χ2obs ≥ χ2ν,α , l’hypothèse H0 est rejetée au risque d’erreur α ( Les k échantillons observés sont issus de
populations ayant des distributions différentes du caractère étudié).
58
Chapter 3. TESTS KHI-DEUX
Remarque. La statistique du χ2 ne peut être calculée que si les effectifs théoriques tij sont supérieurs ou
égaux à 5. Dans le cas contraire, il faut regrouper à la fois toute la ligne et toute la colonne correspond à la case
possédant une valeur tij inférieur à 5.
Le test du khi-deux d’indépendance est une hypothèse statistique utilisée pour déterminer l’existence ou non d’une
relation entre deux caractères au sein d’une population.
Exemples :
Est ce que la présence aux cours magistraux influence sur les notes des étudiants?
Est ce qu’il y a une relation entre la catégorie d’âge et le type de sport pratiqué?
Voyons comment ce test peut-être utilisé dans le cas d’une distribution à deux caractères.
On commence par faire l’hypothèse qu’il y a indépendance entre les deux caractères dans la population tel que :
Les données sont structurées sous forme d’un tableau des effectifs observés pour les deux caractères comparés X et
Y avec:
• X est définie par les modalités (Si X qualitatif) ou les valeurs (si X quantitatif) suivants : x1 , . . . , xp .
• Y est définie par les modalités (si Y qualitatif) ou les valeurs (si Y quantitatif) suivants : y1 , . . . , yk .
59
Chapter 3. TESTS KHI-DEUX
X/Y y1 . . . yj . . . yk total
x1 n11 . . . n1j . . . n1k n1.
. . . . .
. . . . .
. . . . .
xi ni1 nij nik ni.
. . . . .
. . . . .
. . . . .
xp np1 npj npk np.
total n.1 n.j n.k n.. = N
Avec:
ni. : la somme des effectifs de la ième ligne (nombre d’individus ayant la modalité xi ).
n.j : la somme des effectifs de jème colonne (nombre d’individus ayant la modalité yj ).
Sous l’hypothèse H0 , l’effectif attendu tij peut être obtenu de la façon suivante :
On a
P (xi ∩ yj ) = P (xi ) × P (yj ) = pij
Or pij , p(xi ) et p(yj ) ne sont pas connues donc on peut les remplacer par leurs estimations ponctuelles.
Ce qui donne :
D’où
D’où
60
Chapter 3. TESTS KHI-DEUX
ni. × n.j
tij = N × fij =
N
Sous H0 , le tableau de contingence des effectifs théoriques est définie comme suit.
X/Y y1 . . . yj . . . yk total
x1 t11 . . . t1j . . . t1k t1.
. . . . .
. . . . .
. . . . .
xi ti1 tij tik .
. . . . .
. . . . .
. . . . .
xp tp1 tpj tpk tp.
total t.1 t.j t.k t.. =N
Le but est alors de tester si la différence entre le tableau des effectifs observés (tableau de contingence) et le tableau
des effectifs théorique obtenu sous l’hypothèse d’indépendance est significative.
De manière similaire au autres test χ2 pour un risque α, la région critique est définie par l’ensemble des valeurs de
χ2obs vérifiant
χ2obs ≥ χ2ν,α
ν = (p − 1) × (k − 1)
61
Chapter 3. TESTS KHI-DEUX
Si χ2obs < χ2ν,α , l’hypothèse H0 est acceptée (Les deux caractères étudiés dans la population sont statistiquement
indépendants).
Si χ2obs ≥ χ2ν,α , l’hypothèse H0 est rejetée au risque d’erreur α (il n’y a pas indépendance statistique entre les
deux caractères étudiés dans la population).
62