Cours Tests Statistiques L2 Avec Corrections

Cours L2 Tests Statistiques
Professeur Gilles Durrieu
Université Bretagne Sud

Table des matières
Intervalles de fluctuation et de confiance 5

0.1 Intervalles de fluctuation et de confiance . . . . . . . . . . . . . . . . 6
0.1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
0.1.2 Estimateur de la moyenne empirique . . . . . . . . . . . . . . 6
0.1.3 Intervalles de fluctuation d’une proportion . . . . . . . . . . . 7
0.1.4 Intervalle de confiance d’une proportion . . . . . . . . . . . . 10
0.2 Intervalle de confiance d’une moyenne . . . . . . . . . . . . . . . . . . 13
0.2.1 Cas ou la variance σ 2 est connue . . . . . . . . . . . . . . . . 13
0.2.2 Cas ou la variance σ 2 est inconnue . . . . . . . . . . . . . . . 14
0.3 Intervalle de confiance d’une variance . . . . . . . . . . . . . . . . . . 16
0.4 Généralisation à d’autres lois . . . . . . . . . . . . . . . . . . . . . . . 17
Tests d’hypothèses paramétrique 19

0.5 Un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
0.5.1 Test de la moyenne . . . . . . . . . . . . . . . . . . . . . . . . 19
0.5.2 Test de la variance . . . . . . . . . . . . . . . . . . . . . . . . 22
0.5.3 Test d’une proportion . . . . . . . . . . . . . . . . . . . . . . 24
0.6 Deux échantillons indépendants . . . . . . . . . . . . . . . . . . . . . 26
0.6.1 Test de comparaison de 2 moyennes . . . . . . . . . . . . . . . 26
0.6.2 Test de comparaison de 2 variances . . . . . . . . . . . . . . . 32
0.6.3 Test de comparaison de 2 proportions . . . . . . . . . . . . . . 33
0.7 Deux échantillons appariés . . . . . . . . . . . . . . . . . . . . . . . . 33
Tests d’hypothèses non paramétrique 37

0.8 Test U de Mann Whitney . . . . . . . . . . . . . . . . . . . . . . . . 37
0.9 Test de Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
0.10 Tests de Spearman et Kendall . . . . . . . . . . . . . . . . . . . . . . 42
Intervalles de fluctuation et de
confiance
6 Intervalles de fluctuation et de confiance
0.1 Intervalles de fluctuation et de confiance

0.1.1 Introduction
Une expérience aléatoire est une expérience réalisée selon des règles bien définies
mais dont on ne peut pas prédire le résultat de façon certaine. On considère ici le cas
d’une expérience aléatoire qui n’a que deux résultats possibles : succès (on obtient
le résultat espéré) et échec (on n’obtient pas le résultat espéré). On peut donner à
titre d’exemple le jeu de “Pile ou Face”, de la roulette au casino, d’un élection entre
2 candidats, d’un référendum, etc
On note p la probabilité de succès de l’expérience. On répète l’expérience plu-

sieurs fois de façon indépendante. On définit la variable aléatoire Xi comme résultat
de la ième réalisation :
(
1 si la ième réalisation est un succès
Xi (ω) =
0 si la ième réalisation est un un échec
Par conséquent pour chaque i = 1, . . . , n, la variable aléatoire Xi suit une loi de

Bernoulli de paramètre p. On en déduit que pour chaque Xi , i = 1, . . . , n
E(Xi ) = p et Var(Xi ) = p(1 − p).
Le nombre total de succès au bout de n réalisations est donc :

n
X
Sn = Xi .
i=1
Il s’agit d’une variable aléatoire à valeurs dans {0, 1, 2, . . . , n} de loi binomiale de

paramètres n et p car on répète de façon indépendantes n fois la même expérience
de Bernoulli.
Plus le nombre de réalisations n est grand, plus Sn peut prendre des grandes
valeurs. On s’intéresse maintenant à la fréquence de succès sur les n réalisations.
0.1.2 Estimateur de la moyenne empirique

Définition 0.1. On considère des variables aléatoire X1 , X2 , . . . , Xn indépendantes
et de même loi. La moyenne empirique associée, notée X̄n , est définie par :
Pn
i=1 Xi
X̄n = .
n
Dans le cas présent, chaque Xi est le résultat d’une même expérience ayant deux
issus. La moyenne emipirique n’est alors rien d’autre que la fréquence de succès. Il
s’agit d’une variable aléatoire dans {0, n1 , n2 , . . . , 1}.
Propriétés 0.2. Soit X1 , . . . , Xn une suite de variables aléatoires indépendantes et
de même loi, d’espérance mathématique µ et de variance σ 2 finie. Alors X̄n est une
variable aléatoire d’espérance mathématique µ et de variance σ 2 /n.
0.1. Intervalles de fluctuation et de confiance 7
Preuve. Par linéarité de l’espérance mathématique et comme les Xi sont d’espérance

mathématique µ, on a :
n
1X 1
E X̄n = E(Xi ) = × n × µ = µ.
n i=1 n
Par indépendance des variables aléatoires Xi , et comme les Xi sont de même variance
σ 2 , on a :
n
1 X 1 σ2
Var X̄n = 2 Var(Xi ) = 2 × n × σ 2 = .
n i=1 n n
par conséquent, lorsque les variables Xi suivent une loi de Bernoulli de paramère
p, X̄n est une variable aléatoire qui oscille autour de p et dont la variance p(1−p)
n
diminue lorsque n augmente. Ce qui signifie que pour n grand, les oscillations sont
d’amplitude de plus en plus faible.
Corollaire 0.3 (Loi des grands nombres). On considère X1 , . . . , Xn une suite de
variables aléatoires indépendantes et de même loi, tel que E(|X1 |) < +∞. On note
µ = E(X1 ) leur espérance commune. Alors
X̄n converge en probabilité vers µ lorsque n → ∞.
Par conséquent, lorsque les variables aléatoire Xi suivent une loi de Bernoulli de
paramère p, la loi des grands nombres affirment que la fréquence de succès converge
vers la probabilité de succès p lorsque n tend vers l’infini.
Théorème 1 (Théorème centrale limite). On considère une suite de variables aléa-
toires X1 , . . . , Xn indépendantes et de même loi, telle que E(X12 ) < +∞. On note
µ = E(X1 ) et σ 2 = Var(X1 ). On a alors quand n → ∞
√
!
X̄n − µ L
n −→ N (0, 1).
σ
On peut aussi écrire quand n → ∞ :
n
r
L
2
X̄ n − µ −→ N (0, 1),
σ
et alors s
n
L
X̄n − p −→ N (0, 1).
p(1 − p)
Par conséquent, d’après le Théorème (1) , dans la situation où les variables aléatoire
Xi suivent uneqloi de Bernoulli de paramètre p, la fréquence de succès converge vers
n
p à la vitesse p(1−p) .
0.1.3 Intervalles de fluctuation d’une proportion

On considère toujours la situation d’une expérience aléatoire qui n’a que deux
résultats possibles : succès et échec. La probabilité de succès p est supposée
connue. On répète l’expérience n fois et on se demande où se situe la fréquence de
succès en fonction du nombre de réalisations n.
Définition 0.4. Soit X1 , . . . , Xn une suite de variables aléatoires indépendantes

et identiquement distribuées de loi de Bernoulli de paramètre p. Un intervalle de
fluctuation de la fréquence de succès au niveau de confiance (1−α)% est un intervalle
déterministe noté IF = [a, b], avec a, b ∈ R tel que
n o
Pr X̄n ∈ IF = 1 − α,
où α est le risque d’erreur de première espèce. Cette dernière erreur est fixée a priori
et est petite (en pratique α = 5%, α = 1%).
Calcul en utilisant le Théorème Centrale Limite

D’après le Théorème (1), lorsque n → ∞, on a
s
n
L
X̄n − p −→ N (0, 1).
p(1 − p)
Par conséquent, on a asymptotiquement :

( s )
n
Pr −z1−α/2 ≤ X̄n − p ≤ z1−α/2 = 1 − α
p(1 − p)
où z1−α/2 est la valeur critique/valeur théorique associée à une loi N (0, 1). On a
alors quand n → ∞ :
 s s 
 p(1 − p) p(1 − p) 
Pr −z1−α/2 ≤ X̄n − p ≤ z1−α/2 = 1 − α.
n n 
On obtient quand n → ∞ :
 s s 
 p(1 − p) p(1 − p) 
Pr p − z1−α/2 ≤ X̄n ≤ p + z1−α/2 = 1 − α,
 n n 
et donc pour n → ∞, l’intervalle de fluctuation de la fréquence de succès au niveau

de confiance (1 − α)% est :
 s s 
p(1 − p) p(1 − p) 
IF = p − z1−α/2 , p + z1−α/2 . (1)
n n
Remarque 1. Soit la fonction
f (p) = p(1 − p) = p − p2 .
On a
f 0 (p) = 1 − 2p = 0 pour p = 1/2,



f 0 (p) > 0 pour p < 1/2,
 0

f (p) < 0 pour p > 1/2.
et donc pour tout p ∈ [0, 1]
f (p) = p(1 − p) ≤ 1/4.

On a aussi : q
p(1 − p) ≤ 1/2.
Lorsque α = 5%, z1−α/2 = 1.96 et donc
q
1.96 p(1 − p) ≤ 1. (2)
Par conséquent pour α = 5%, on a pour tout p ∈ [0, 1]

 s s  " #
p(1 − p) p(1 − p)  1 1
p − z1−α/2 , p + z1−α/2 ⊆ p − √ ,p + √ .
n n n n
Par conséquent, on a :
( " #)
1 1
Pr X̄n ∈ p − √ , p + √ ≥ 1 − α.
n n
On a donc une “approximation” facile à calculer de l’intervalle de fluctuation IF de

X̄n de niveau de confiance 95% qui est donnée par :
" #
1 1
IF = p − √ , p + √ .
n n
Exercice 1. On considère le cas de la personne qui achète toutes les semaines un

jeu de grattage. La probabilité de succès du jeu est de 10%. Cette personne aimerait
connaitre au niveau de risque 5% qu’elle va être sa fréquence de succès sur une
année.
Correction. Soit Xi la variable aléatoire qui représente le résultat du ième jeu. On

a: (
1 si le jeu est gagnant,
Xi =
0 si le jeu est perdant.
Les variables aléatoire Xi sont indépendantes et de loi de Bernoulli de paramètre
p = 0.1. Par ailleurs, il y a 52 semaines dans une année et donc :
52
X
S52 = Xi
i=1
qui suit une loi binomiale de paramètres n = 52 et p = 0.1.

On sait approcher la loi binomiale B(n, p) par la loi normale N (np, np(1 − p)) pour
n ≥ 30, np ≥ 5 et np(1 − p) ≥ 5.
L’intervalle de fluctuation de la fréquence de succès de niveau confiance 95% est
d’après (1) :
 s s 
p(1 − p) p(1 − p) 
IF = p − z1−α/2 , p + z1−α/2 = [0.018, 0.182].
n n
Exercice 2. Un joueur qui doit choisir au hasard une carte dans un jeu de 32
cartes obtient certains avantages s’il découvre un roi. On constate qu’il a retrouvé
11 fois un roi sur 50 essais. Peut-on présumer, au risque de 5%, que ce joueur est
un tricheur ?
Correction. la probabilité de tirer un roi dans un jeu de 32 cartes est :
4 1
p= = .
32 8
On considère la variable aléatoire Xi (les Xi sont indépendantes et de même moi) :
(
1 avec une probabilité p,
Xi =
0 avec une probabilité (1 − p).
L’intervalle de fluctuation est donnée par (1) :

 s s 
1
1 8
(1 − 81 ) 1
8
(1 − 18 ) 
IF =  − 1.96 , p + 1.96 = [0.033, 0.217].
8 50 50
On sait aussi que la fréquence de succès est :

11
X̄n = = 0.22
50
qui n’est pas dans l’intervalle de fluctuation ci-dessus. Par conséquent, au seuil
α = 5%, le joueur est un tricheur.
0.1.4 Intervalle de confiance d’une proportion

On considère la même expérience aléatoire qui n’a que 2 résultats possibles :
succès et échec. On suppose maintenant que la probabilité de succès p est
inconnue.
On peut penser par exemple à une élection entre 2 participants, à la proportion
de pièces défectueuses dans un lot de grande taille. L’objectif est d’estimer la valeur
de p. On considère un échantillon X1 , . . . , Xn de variables aléatoires indépendantes
de loi de Bernoulli de paramètre p.
Définition 0.5. Soit X1 , . . . , Xn une suite de variables aléatoires indépendantes de
loi de Bernoulli de paramètre p, avec p ∈]0, 1[ inconnu. Un intervalle de confiance
de la probabilité de succès p au niveau de confiance 1 − α est un intervalle aléatoire
IC = [a, b], avec a et b qui dépendent de l’échantillon X1 , . . . , Xn tel que pour tout
p ∈]0, 1[
Pr {p ∈ IC} = 1 − α
où α est le risque d’erreur de première espèce.
Un intervalle de confiance asymptotique pour p au niveau de confiance 1 − α est
une suite d’intervalles aléatoire ICn tel que pour tout p ∈]0, 1[,
lim Pr {p ∈ ICn } = 1 − α
n→∞
Remarque 2. Un candidat naturel pour estimer la probabilité de succès p est la

moyenne empirique X̄n , qui comme vu précédemment, converge en probabilité vers
p lorsque n → ∞. Comme E(X̄n ) = p, l’estimateur X̄n est un estimateur sans biais
de p. On va maintenant déterminer un intervalle de confiance de p.
Méthode 1 : en utilisant le Théorème Centrale Limite. D’après le Théorème

Limite Centrale (1), on a quand n → ∞
X̄n − p L
q −→ N (0, 1)
p(1−p)
n
car
1 p(1 − p)
E(X̄n ) = p et Var(X̄n ) = × n × p(1 − p) = .
n2 n
Par conséquent, on a asymptotiquement
 s s 
 p(1 − p) p(1 − p) 
Pr X̄n − z1−α/2 ≤ p ≤ X̄n + z1−α/2 = 1 − α.
 n n 
q q
p(1−p) p(1−p)
Comme l’intervalle X̄n − z1−α/2 n
, X̄n + z1−α/2 n
dépend de la proba-
bilité de succès p qui est inconnu. Pour α = 5%, z1−α/2 = 1.96 et en utilisant (2),
on obtient :
 s s  " #
p(1 − p) p(1 − p)  1 1
X̄n − z1−α2 , X̄n + z1−α2 ⊆ X̄n − √ , X̄n + √ .
n n n n
D’où pour tout n → ∞, pour tout p ∈]0, 1[, on a :

( " #)
1 1
Pr p ∈ X̄n − √ , X̄n + √ ≥ 0.95.
n n
L’intervalle " #
1 1
X̄n − √ , X̄n + √
n n
est donc un intervalle de confiance asymptotique pour p de niveau de confiance su-
périeur à 95%, quand n → ∞.
Méthode 2 : Comme on ne connait pas p, on ne connait pas non plus la variance

des Xi pour i = 1, . . . , n qui est Var(X1 ) = p(1 − p). Cependant, d’après la loi des
grands nombres, la moyenne empirique X̄n converge vers p. On en déduit que lorsque
n→∞
X̄n (1 − X̄n ) converge en probabilité vers p(1 − p).
Il est alors naturel d’approcher la valeur théorique de la variance p(1−p) par X̄n (1−
X̄n ) pour n → ∞ et d’utiliser cette approximation pour construire un intervalle de
confiance.
Il existe en fait une généralisation du théorème central limite (Théorème de

Slutsky) qui permet d’affirmer que quand n → ∞
s
n L
(X̄n − p) −→ N (0, 1).
X̄n (1 − X̄n )
On a alors quand n → ∞ :
( s )
n
Pr −z1−α/2 ≤ (X̄n − p) ≤ z1−α/2 = 1 − α,
X̄n (1 − X̄n )
et donc
 s s 
 X̄n (1 − X̄n ) X̄n (1 − X̄n ) 
Pr −z1−α/2 ≤ X̄n − p ≤ z1−α/2 = 1 − α.
 n n 
On en déduit quand n → ∞ :
  s s 
 X̄n (1 − X̄n ) X̄n (1 − X̄n ) 
Pr p ∈ X̄n − z1−α/2 , X̄n + z1−α/2 = 1 − α.
n n 
Par conséquent :
 s s 
X̄n (1 − X̄n ) X̄n (1 − X̄n ) 
IC = X̄n − z1−α/2 , X̄n + z1−α/2
n n
est un intervalle de confiance asymptotique pour p de niveau de confiance (1 − α)%.
Exercice 3. Lors d’une enquête d’opinion, on a dénombré 81 personnes satisfaites
d’un produit sur 1681 intérogées. En admettant que les personnes de l’échantillon
ont été prises au hasard dans une population, donner l’intervalle de confiance de la
proportion p de personnes satisfaites dans la population totale, avec un niveau de
confiance de 95%.
Correction. La variable aléatoire Xi pour i = 1, . . . , 1681 est donnée par :
(
1 si la ième personne interrogée est satisfaite,
Xi =
0 si la ième personne interrogée n’est pas satisfaite.
Les variables aléatoires Xi sont supposées indépendantes car les personnes sont
choisies au hasard et suivent la loi de Bernoulli de paramètre p où p est la proportion
de personnes satisfaites dans la population entière. Par conséquent, l’intervalle de
confiance de p de niveau de confiance 95% est donnée par :
 s s 
X̄n (1 − X̄n ) X̄n (1 − X̄n ) 
IC = X̄n − z1−α/2 , X̄n + z1−α/2
n n
Application numérique : α = 5% et donc z1−α/2 = 1.96. On a :
81
X̄n = = 0.048.
1681
et donc
IC = [0.037, 0.059].
0.2. Intervalle de confiance d’une moyenne 13
Exercice 4. On veut connaitre la prévalence d’une maladie chronique dans une po-
pulation donnée. On extrait au hasard un échantillon de taille 400 de cette population
et on observe que 16 personnes sont porteurs de la maladie.
1. Déterminer un intervalle de confiance de la prévalence de la maladie dans la
population, au risque 5%.
2. Quelle doit être la taille minimale de l’échantillon si l’on souhaite une étendue
de l’intervalle de confiance inférieure ou égale à 0.02, toujours au risque 5%.
Correction.
1. Soit la variable aléatoire Xi pour i = 1, . . . , 400 donnée par :
(
1 si le ième individu est malade,
Xi =
0 si le ième individu n’est pas malade.
16
On obtient au seuil α = 5%, IC = [0.02, 0.059] avec X̄n = 400
.
2. Comme l’intervalle de confiance de p au niveau de confiance (1 − α)% est
donnée par :
 s s 
X̄n (1 − X̄n ) X̄n (1 − X̄n ) 
IC = X̄n − z1−α/2 , X̄n + z1−α/2 .
n n
L’étendue (longueur de l’intervalle) de IC est :

s
X̄n (1 − X̄n )
L(IC) = 2 × z1−α/2 .
n
On cherche maintenant à trouver n tel que :
s
X̄n (1 − X̄n )
L(IC) = 2 × z1−α/2 ≤ 0.02.
n
et donc
n ≥ 1536.
0.2 Intervalle de confiance d’une moyenne

On considère un échantillon X1 , . . . , Xn issu aléatoirement d’une population de
loi N (µ, σ 2 ).
0.2.1 Cas ou la variance σ 2 est connue

D’après le Théorème Centrale Limite (1) La statistique
√
!
X̄n − µ
n (3)
σ
suit alors une loi N (0, 1) où Pn

i=1 Xi
X̄n =
n
est l’estimateur de µ. On a alors
√
( ! )
X̄n − µ
Pr −z1−α/2 ≤ n ≤ z1−α/2 = 1 − α
σ
où z1−α2 est le quantile d’ordre 1 − α/2 d’une loi N (0, 1) (à lire sur la Table de la
fonction de répartition de la loi N (0, 1).
On en déduit alors que quand n → ∞ :
( )
σ σ
Pr X̄n − z1−α/2 √ ≤ µ ≤ X̄n + z1−α/2 √ = 1 − α,
n n
où z1−α/2 est la valeur critique/valeur théorique associée à une loi N (0, 1). Par
conséquent, " #
σ σ
IC = X̄n − z1−α/2 √ , X̄n + z1−α/2 √ (4)
n n
est intervalle de confiance de µ de niveau de confiance (1 − α)%.
Remarque 3. Si l’échantillon X1 , . . . , Xn ne provient pas d’une population de loi
N (µ, σ 2 ), il est possible d’utiliser le Théorème Centrale Limite (1) pour n assez
grand. On a alors quand n → ∞
√
!
X̄n − µ L
n −→ N (0, 1).
σ
En pratique, cette “approximation” est utiliisée pour n ≥ 30.
0.2.2 Cas ou la variance σ 2 est inconnue

Le paramètre σ 2 étant inconnu, nous allons l’estimer en sachant que l’espérance
mathématique µ est inconnue. Un estimateur naturel est donné par :
n
1X
Sn2 = (Xi − X̄n )2 . (5)
n i=1
Théorème 2. L’estimateur de la variance empirique Sn2 est un estimateur biaisé et

convergent de σ 2 . Il est assymptotiquement sans biais.
Preuve.
n
!
1X 1 σ2 n−1 2
E(Sn2 ) = E(Xi2 ) − E(X̄n2 ) = (n(µ2 + σ 2 )) − µ2 + = σ .
n i=1 n n n
D’autre part, on peut montrer que :

1 2 1
Var(Sn2 ) = (µ4 − σ 4 ) − 2 (µ4 − 2σ 4 ) + 3 (µ4 − 3σ 4 ) → 0,
n n n
0.2. Intervalle de confiance d’une moyenne 15
avec µk = E((X − µ)k ). L’estimateur est donc convergent. Le résultat précédent et

le Théorème de Slutsky (Probabilité 2, Jean-Yves Ouvrard, p. 347) conduit lorsque
n→∞à !
4
L µ 4 − σ
Sn2 −→ N 0, .
n
Théorème 3. La variance empirique corrigée
n
2 1 X
Sn−1 = (Xi − X̄n )2 (6)
n − 1 i=1
est un estimateur sans biais et convergent de σ 2 .
Cela se montre facilement en remarquant que
2 n
Sn−1 = S2.
n−1 n
Théorème 4. Soit (X1 , . . . , Xn ) un échantillon de taille n de loi N (0, 1). Les va-
riables aléatoires :
√ n
(Xi − X̄n )2 = nSn2 = (n − 1)Sn−1
2
X
nX̄n et
i=1
sont indépendantes et suivent respectivement la loi normale réduite et la loi du χ2

à (n − 1) degrés de liberté.
Nous faisons maintenant le rappel de la loi de Student :
Définition 0.6. Soient X et Y deux variables aléatoires indépendantes suivant
respectivement la loi normale centrée réduite et la loi du χ2 à n degrés de liberté.
La variable aléatoire
X
T =q
Y /n
suit la loi de Student à n degrés de liberté.
Cette variable n’a pas d’espérance pour n = 1 et pas de variance pour n ≤ 2. Sinon
on a E(T ) = 0 et Var(T ) = n/(n − 2).
On en déduit d’après les Théorèmes (3), 4 et la définition (0.6) que la statistique

√
!
X̄n − µ
T = n (7)
Sn−1
suit alors une loi de Student à (n − 1) degrés de liberté.
Le Théorème (8) donne alors l’intervalle de confiance de µ de niveau de confiance
(1 − α)% quand la variance σ 2 est inconnue.
Théorème 5. Lorsque σ 2 est inconnu, un intervalle de confiance de µ au niveau de
confiance (1 − α)% est :
" #
Sn−1 Sn−1
IC = X̄n − t1−α/2,n−1 √ , X̄n + t1−α/2,n−1 √ (8)
n n
où t1−α/2,n−1 est le quantile d’ordre 1 − α/2 de la loi de Student à n − 1 degrés de
liberté (voir table de la loi de Student).
Cela provient de (7).
0.3 Intervalle de confiance d’une variance

loi N (µ, σ 2 ). La statistique
(Xi − µ)2
n 2 n
X Xi −µ X
=
i=1 σ i=1 σ2
suit par définition une loi du χ2 à n degrés de liberté.

En remplaçant µ par son estimateur X̄n , la statistique
2
n
X Xi − X̄n 2
(n − 1)Sn−1
=
i=1 σ2 σ2
suit une loi du χ2 à n − 1 degrés de liberté. Le nombre de degrés de liberté est égale
à n − 1 car on a remplacé µ par son estimateur X̄n . On a donc :
2
( )
(n − 1)Sn−1
Pr χ2α/2,n−1 ≤ 2
≤ χ21−α/2,n−1 = 1 − α.
σ
On en déduit :
 
 (n − 1)S 2 2
(n − 1)Sn−1 
n−1
Pr ≤ σ2 ≤ = 1 − α,
 χ21−α/2,n−1 χ2α/2,n−1 
et par conséquent :
 
2 2
(n − 1)Sn−1 (n − 1)Sn−1
ICσ2 = 2 ,  (9)
χ1−α/2,n−1 χ2α/2,n−1
est un intervalle de confiance de σ 2 de niveau de confiance (1 − α)%.
On en déduit un intervalle de confiance de l’écart type σ de niveau de confiance

(1 − α)% :
v v 
u 2
u (n − 1)Sn−1 2
u (n − 1)Sn−1
u
ICσ = t ,t . (10)
χ21−α/2,n−1 χ2α/2,n−1
v v 
u (n − 1)S 2 u (n − 1)S 2
u u
ICσ = t ,t . (11)
χ21−α/2,n−1 χ2α/2,n−1
n
1 X
S2 = (Xi − m)2 ,
n − 1 i=1
avec
n
1X
m= Xi
n i=1
0.4. Généralisation à d’autres lois 17
0.4 Généralisation à d’autres lois

La loi des grands nombres et le théorème central limite s’appliquent à n’importe
quelle loi ayant un moment d’ordre 2 fini. On peut par conséquent généraliser fa-
cilement la construction d’intervalles de confiance à d’autres paramètres. A titre
d’exemple, on considère une suite de variables aléatoires indépendantes et identi-
quement distribuées de loi exponentielle de paramètre λ > 0 inconnu.
La densité d’une variable aléatoire X de loi exponentielle de paramètre λ > 0

est donnée par (
λ exp(−λx) si x > 0,
fX (x) =
0 sinon.
Nous avons
1
E(X1 ) = ,
λ
et
1
Var(X1 ) =
.
λ2
Pour n → +∞, le Théorème Central Limite (1) donne
√
1 L

nλ X̄n − −→ N (0, 1)
λ
car
σ2 1
Var(X̄n ) = = .
n nλ2
On en déduit que pour n → ∞

√ 1

Pr −z1−α/2 ≤ nλ X̄n − ≤ z1−α/2 = 1 − α,
λ
où z1−α/2 est le quantile d’ordre (1 − α/2) d’une loi N (0, 1). On a donc pour n → ∞
( )
z1−α/2 z1−α/2
Pr − √ + 1 ≤ λX̄n ≤ 1 + √ = 1 − α.
n n
On en déduit que pour n → ∞ :

( ! !)
1 z1−α/2 1 z1−α/2
Pr 1− √ ≤λ≤ 1+ √ = 1 − α.
X̄n n X̄n n
Par conséquent, lorsque n → ∞,

" ! !#
1 z1−α/2 1 z1−α/2
ICλ = 1− √ , 1+ √ (12)
X̄n n X̄n n
est un intervalle de confiance de λ de niveau de confiance (1 − α)%.
Exercice 5. Une entreprise reçoit un lot important de pièces fabriquées en série.

Dans un échantillon de 200 pièces, 15 sont défectueuses.
1. Donner un intervalle de confiance de la proportion p de pièces défectueuses

dans tout le lot au seuil α = 1%.
Soit Xi la variable aléatoire correspondant à l’état de la pièce i (i = 1, . . . , 200)
et p la proportion de pièces défectueuses dans tout le lot. Les pièces sont fabri-
quées en série. On peut donc supposer que chaque pièce a la même probabilité
d’être défectueuse. Les pièces étant aussi choisies au hasard, il est naturel de
supposer que les variables aléatoires Xi (i = 1, . . . , 200) sont indépendantes
et de loi de Bernoulli de paramètre p.
Pour α fixé, l’intervalle de confiance de p de niveau de confiance (1 − α)%
est
 s s 
X̄n (1 − X̄n ) X̄n (1 − X̄n ) 
ICp = X̄n − z1−α/2 , X̄n + z1−α/2 ,
n n
où z1−α/2 est le quantile d’ordre (1 − α/2) d’une loi N (0, 1).

Application numérique : z1−α/2 = z1−0.01/2 = 2.576 et
15
X̄200 = = 0.075.
200
L’intervalle de confiance de p de niveau de confiance 99% est donc
ICp = [0.027, 0.123] .
2. L’entreprise n’accepte la livraison que si la proportion p de pièces défectueuses

est de 5%. Que conclure au niveau du risque 1%.
Si l’entreprise a raison, la valeur de p est égale à 5% et donc son estima-
tion (la moyenne empirique) devrait être, au niveau de confiance 99%, dans
l’intervalle de fluctuation donné dans (1)
 s s 
p(1 − p) p(1 − p) 
IFp = p − z1−α/2 , p + z1−α/2 = [0.010; 0.0897]
n n
avec z1−α/2 = z1−0.01/2 = 2.576 et p = 0.05. Comme X̄200 = 0.075 est dans
l’intervalle de fluctuation IFp , on ne peut donc rejeter l’hypothèse que p =
5%. L’entreprise peut donc prendre au risque 1% la décision d’accepter le lot.
3. En fait, il est plus réaliste de penser que l’entreprise n’accepte la livraison

que si la proportion p de pièces défectueuses est inférieure à 5%. Comment
répondre à cette question ?
Tests d’hypothèses paramétrique
Un test statistique est une procédure qui permet de se prononcer, au vu d’une

ou de plusieurs séquences d’observations, sur la validité d’une hypothèse nulle notée
H0 contre une hypothèse alternative notée HA .Un test statistique est donc un outil
d’aide à la décision.
0.5 Un échantillon
loi N (µ, σ 2 ) ou pouvant être approximés par une loi normale.
0.5.1 Test de la moyenne

Notre objectif est de tester :
H0 : µ = µ0
où µ0 est un réel fixé. En revanche, l’hypothèse alternative peut être une des hypo-
thèses suivantes : HA : µ 6= µ0 (test bilatéral), HA : µ ≤ µ0 (test unilatéral gauche)
ou HA : µ ≥ µ0 (test unilatéral droit).
Cas ou la variance σ 2 est connue. Nous effectuons tout d’abord le test bilatéral
c’est à dire que nous souhaitons tester
H 0 : µ = µ0 contre l’hypothèse alternative HA : µ 6= µ0 ,
où µ0 est un réel fixé.
La statistique
√
!
X̄n − µ X̄n − µ
Z= n = √
σ σ/ n
σ2
suit alors une loi N (0, 1) car E(X̄n ) = µ et Var(X̄n ) = n
.
Sous H0 , la statistique s’écrit
√
!
X̄n − µ0
Z= n
σ
20 Tests d’hypothèses paramétrique
et suit une loi N (0, 1). Pour un risque d’erreur α fixé, on a donc :
n o
Pr −z1−α/2 ≤ Z ≤ z1−α/2 = 1 − α,
où z1−α/2 est le quantile d’ordre 1 − α/2 d’une loi N (0, 1).

Pour un risque d’erreur α fixé, la région de rejet de H0 est donc
i h i h
−∞, −z1−α/2 ∪ z1−α/2 , +∞ , (13)
et la région de non rejet de H0

h i
−z1−α/2 , z1−α/2 . (14)
On calcule alors pour les valeurs de l’échantillon X1 , . . . , Xn la statistique Z, notée

Zcalc , et on rejette H0 si Zcalc est dans l’intervalle (13), au risque α. On ne rejette
pas si Zcalc est dans l’intervalle (14).
Si on considère un test unilatéral droit avec donc une hypothèse alternative

HA : µ > µ0 , on obtient pour un risque d’erreur α fixé
Pr {Z ≤ z1−α } = 1 − α,
où z1−α est le quantile d’ordre (1 − α) d’une loi N (0, 1).

La région de rejet de H0 est
]z1−α , +∞[ , (15)
et la zone de non rejet de H0
]−∞, z1−α ] . (16)
Si on considère un test unilatéral gauche avec donc une hypothèse alternative

HA : µ < µ0 , on obtient pour un risque d’erreur α fixé
Pr {Z ≥ −z1−α } = 1 − α,
où z1−α est le quantile d’ordre (1 − α) d’une loi N (0, 1). La région de rejet de H0
est pour un risque d’erreur α fixé
]−∞, −z1−α [ , (17)

[−z1−α , +∞[ . (18)
0.5. Un échantillon 21
Cas ou la variance σ 2 est inconnue. Comme la variance σ 2 est inconnue, on

va l’estimer en utilisateur l’estimateur de la variance empirique donnée en (6) par :
n
2 1 X
Sn−1 = (Xi − X̄n )2 .
n − 1 i=1
2
Pour rappel, l’estimateur Sn−1 est un estimateur sans biais de la varaiance σ 2 .
D’après (7), la statistique
X̄n − µ
T = √
Sn−1 / n
suit une loi de Student à (n − 1) degrés de liberté.
Nous effectuons tout d’abord le test bilatéral c’est à dire que nous souhaitons
tester
H 0 : µ = µ0 contre l’hypothèse alternative HA : µ 6= µ0 ,
où µ0 est un réel fixé.
Sous l’hypothèse nulle H0 , la statistique de test est

√
!
X̄n − µ0
T = n
Sn−1
Pour un risque d’erreur α fixé, on a donc :

n o
Pr −t1−α/2,n−1 ≤ T ≤ t1−α/2,n−1 = 1 − α,
où t1−α/2,n−1 est le quantile d’ordre 1 − α/2 d’une loi de Student à (n − 1) degrés de

liberté.
La région de rejet est donc
i h i h
−∞, −t1−α/2,n−1 ∪ t1−α/2,n−1 , +∞ , (19)
et la région de non rejet h i

−t1−α/2,n−1 , t1−α/2,n−1 . (20)
On calcule alors pour les valeurs de l’échantillon T , notée Tcalc , et on rejette H0 si
Tcalc est dans l’intervalle (19), au risque α. On ne rejette pas H0 si Tcalc est dans
l’intervalle (20).
Si on considère un test unilatéral et une hypothèse alternative HA : µ > µ0 , on

obtient pour un risque d’erreur α fixé
Pr {T ≤ t1−α,n−1 } = 1 − α,
où t1−α,n−1 est le quantile d’ordre (1 − α) d’une loi de Student à (n − 1). La région

de rejet de H0 est
]t1−α,n−1 , +∞[ , (21)
]−∞, t1−α,n−1 ] . (22)
Si on considère un test unilatéral et une hypothèse alternative HA : µ < µ0 , on

obtient pour un risque d’erreur α fixé
Pr {T ≥ −t1−α,n−1 } = 1 − α.
La région de rejet de H0 est pour un risque d’erreur α fixé
]−∞, −t1−α,n−1 [ , (23)
[−t1−α,n−1 , +∞[ . (24)
Remarque 4. Si l’échantillon X1 , . . . , Xn n’est pas issu d’une population de loi

N (µ, σ 2 ) mais que la taille de l’échantillon n est assez grande (en pratique n > 30),
alors on peut utiliser le Théorème Limite Centrale 1 qui nous permet de dire que
l’estimateur de la moyenne empirique X̄n converge en loi vers une loi N (µ, σ 2 /n).
0.5.2 Test de la variance

On suppose que l’on a un échantillon X1 , . . . , Xn (suite de variables aléatoires
indépendantes et de même loi) issu d’une population de loi normale N (µ, σ 2 ) avec
la variance σ 2 inconnue.
Cas ou l’espérance mathématique µ est connue.

Nous effectuons tout d’abord le test bilatéral c’est à dire que nous souhaitons
tester
H0 : σ 2 = σ02 contre l’hypothèse alternative HA : σ 2 6= σ02 ,
où σ02 est fixé.
La statistique
n 2
X Xi −µ nSn2
=
i=1 σ σ2
2
suit une loi du χ à n degrés de liberté. Sous l’hypothèse H0 , la statistique
n 2
X Xi −µ nSn2
V = =
i=1 σ0 σ02
suit une loi du χ2 à n degrés de liberté.

( )
nS 2
Pr χ2α/2,n ≤ 2n ≤ χ21−α/2,n = 1 − α
σ0
où χ2α/2,n et χ21−α/2,n sont les quantiles d’ordre α/2 et 1 − α/2 d’une loi du χ2 à n
degrés de liberté.
Donc la région de rejet est pour un risque d’erreur α fixé

h h i h
0, χ2α/2,n ∪ χ21−α/2,n , +∞ .
On calcule alors pour les valeurs de l’échantillon, V notée VCalc et on rejette H0

suivant la valeur trouvée au risque d’erreur α si
h h i h
VCalc ∈ 0, χ2α/2,n ∪ χ21−α/2,n , +∞ .
Nous avons le non rejet de H0 au seuil α si

h i
VCalc ∈ χ2α/2,n , χ21−α/2,n .
Nous effectuons maintenant le test unilatéral gauche c’est à dire que nous souhaitons
tester au seuil α l’hypothèse nulle H0 : σ 2 = σ02 contre l’hypothèse alternative
HA : σ 2 < σ02 , où σ02 est fixé.
La région de rejet de H0 est donc :
i h
0, χ2α,n ,
où χ2α,n est le quantile d’ordre α d’une loi du χ2 à n degrés de liberté. La région de

non rejet de H0 est h h
χ2α,n , +∞ .
Nous effectuons maintenant le test unilatéral droit c’est à dire que nous souhai-
tons tester au seuil α l’hypothèse nulle H0 : σ 2 = σ02 contre l’hypothèse alternative
HA : σ 2 > σ02 , où σ02 est fixé.
La région de rejet de H0 est donc pour α fixé
i h
χ21−α,n , +∞ ,
où χ21−α,n est le quantile d’ordre 1−α d’une loi du χ2 à n degrés de liberté. La région
de non rejet de H0 au seuil α fixé est
i h
0, χ21−α,n .
Cas ou l’espérance mathématique µ est inconnue.

Nous effectuons tout d’abord le test bilatéral c’est à dire que nous souhaitons tester
H0 : σ 2 = σ02 contre l’hypothèse alternative HA : σ 2 6= σ02 ,
où σ02 est fixé.

Sous l’hypothèse H0 , la statistique
n
!2
2
?
X Xi − X̄n (n − 1)Sn−1
V = =
i=1 σ0 σ02
suit une loi du χ2 à n − 1 degrés de liberté avec

n
X
Xi
i=1
X̄n = .
n

2
( )
(n − 1)Sn−1
Pr χ2α/2,n−1 ≤ ≤ χ21−α/2,n−1 = 1 − α
σ02
où χ2α/2,n−1 et χ21−α/2,n−1 sont les quantiles d’ordre α/2 et 1 − α/2 d’une loi du χ2 à
n − 1 degrés de liberté.
Donc la région de rejet est pour un risque d’erreur α fixé

h h i h
0, χ2α/2,n−1 ∪ χ21−α/2,n−1 , +∞ .
On calcule alors pour les valeurs de l’échantillon, V ? notée VCalc

?
et on rejette H0 au
risque d’erreur α si
h h i h
?
VCalc ∈ 0, χ2α/2,n−1 ∪ χ21−α/2,n−1 , +∞ .
Nous avons le non rejet de H0 au seuil α si

h i
?
VCalc ∈ χ2α/2,n−1 , χ21−α/2,n−1 .
Nous effectuons maintenant le test unilatéral gauche c’est à dire que nous souhaitons
tester au seuil α l’hypothèse nulle H0 : σ 2 = σ02 contre l’hypothèse alternative
HA : σ 2 < σ02 , où σ02 est fixé.
La région de rejet de H0 est donc :
i h
0, χ2α,n−1 ,
où χ2α,n−1 est le quantile d’ordre α d’une loi du χ2 à n−1 degrés de liberté. La région
de non rejet de H0 est h h
χ2α,n−1 , +∞ .
Nous effectuons maintenant le test unilatéral droit c’est à dire que nous souhai-
tons tester au seuil α l’hypothèse nulle H0 : σ 2 = σ02 contre l’hypothèse alternative
HA : σ 2 > σ02 , où σ02 est fixé.
La région de rejet de H0 est donc pour α fixé
i h
χ21−α,n−1 , +∞ ,
où χ21−α,n−1 est le quantile d’ordre 1 − α d’une loi du χ2 à n − 1 degrés de liberté.

La région de non rejet de H0 au seuil α fixé est
i i
−∞, χ21−α,n−1 .
0.5.3 Test d’une proportion

Le modèle mathématique est le suivant. On dispose d’une population dans la-
quelle chaque individu présente ou non un certain caractère, la proportion d’indivi-
dus présentant le caractère étant notée p, et un échantillon aléatoire X1 , . . . , Xn de
taille n extrait de cette population.
Nous souhaitons tester le test bilatéral
H0 : p = p0 contre l’hypothèse alternative HA : p 6= p0 ,
où p0 ∈]0, 1[ est fixé.

Soit K le nombre d’individu présentant le caractère dans l’échantillon de taille
n, alors la variable aléatoire K sui une loi binomiale de paramètres n et p que l’on
note B(n, p). L’espérance mathématique de K est E(K) = np et la variance de K
est var(K) = np(1 − p).
Un estimateur de p est donné par
K
p̂ = .
n
On a E(p̂) = p et Var(p̂) = p(1−p)

n
. On peut assimiler sin est grand,

np > 5 et
p(1−p)
n(1 − p) > 5 la loi binomiale B(n, p) à une loi normale N p, n .
La statistique de test
p̂ − p0
Z=q
p0 (1−p0 )
n
suit une loi N (0, 1) sous H0 .

Au seuil α, nous avons le rejet de H0 si
|ZCalc | > z1−α/2
et non rejet de H0 si
|ZCalc | ≤ z1−α/2 .
Remarque 5. Dans le cas de petit échantillon, on construit les intervalles de

confiance et le teste d’hypothèse en considérant la loi exacte et donc en considé-
rant la fonction de répartition de la loi binomiale. Si la probabilité de recouvrement
de l’intervalle ne vaut pas exactement 1 − α, on prend l’intervalle ayant la plus pe-
tite probabilité de recouvrement parmi ceux ayant une probabilité de recouvrement
supérieure à 1 − α.
Exercice 6. Ecrire les règles de décision au risque d’erreur α pour les deux tests
unilatéraux.
H 0 : p = p0 contre l’hypothèse alternative HA : p > p0 ,
et
H 0 : p = p0 contre l’hypothèse alternative HA : p < p0 ,
où p0 ∈]0, 1[ est fixé.
Pour le test unilatéral droit (le premier) et le test unilatéral gauche (le second),
la statistique de test est toujours
p̂ − p0
Z=q
p0 (1−p0 )
n
et cette statistique suit une loi N (0, 1) sous H0 . Dans le cas du test unilatéral droit,
au risque d’erreur α fixé, on a le rejet si
ZCalc > z1−α
et le non rejet de H0 si
ZCalc ≤ z1−α
où z1−α est le quantile d’ordre 1 − α d’une loi N (0, 1) et
p̂ − p0
ZCalc = q .
p0 (1−p0 )
n
Dans le cas du test unilatéral gauche, au risque d’erreur α fixé, on a le rejet si
ZCalc < −z1−α
et le non rejet de H0 si
ZCalc ≥ −z1−α
où z1−α est le quantile d’ordre 1 − α d’une loi N (0, 1) et
p̂ − p0
ZCalc = q .
p0 (1−p0 )
n
0.6 Deux échantillons indépendants

0.6.1 Test de comparaison de 2 moyennes
On considère deux échantillons indépendants (X1 , . . . , Xn1 ) et (Y1 , . . . , Yn2 ) qui
suivent respectivement une loi normale N (µ1 , σ12 ) et N (µ2 , σ22 ), µ1 et µ2 sont incon-
nues.
Cas ou les variances sont connues.

On veut ici tester l’hypothèse nulle H0 : µ1 = µ2 contre l’hypothèse alternative
HA : µ1 6= µ2 (test bilatéral) au risque d’erreur de première espèce α ∈ (0, 1).
Les estimateurs de µ1 et µ2 sont respectivement

n1 n2
1 X 1 X
X̄n1 = Xi et Ȳn2 = Yi .
n1 i=1 n2 i=1
Sous l’hypothèse nulle H0 , les statistiques X̄n1 et Ȳn2 suivent respectivement une loi
N (µ1 , σ12 /n1 ) et N (µ2 , σ22 /n2 ).
On en déduit que sous l’hypothèse nulle H0 la statistique
X̄n − Ȳn2
Z= r1
σ12 σ2
n1
+ n22
0.6. Deux échantillons indépendants 27
suit une loi normale centrale réduite N (0, 1) car la variable aléatoire X̄n1 − Ȳn2 suit
sous H0 une loi N (0, σ12 /n1 + σ22 /n2 ).
Pour un risque d’erreur α fixé, on a donc de la même manière que pour un
échantillon (voir Paragraphe (0.5.1)) :
n o
Pr −z1−α/2 ≤ Z ≤ z1−α/2 = 1 − α,

i h i h
−∞, −z1−α/2 ∪ z1−α/2 , +∞ , (25)

−z1−α/2 , z1−α/2 . (26)
On calcule alors pour les valeurs de l’échantillon Z, notée Zcalc , et on rejette H0 si
Zcalc est dans l’intervalle (25) suivant la valeur trouvée, au risque α. On ne rejette
Si on considère un test unilatéral droit avec une hypothèse alternative HA : µ >

µ0 , on obtient pour un risque d’erreur α fixé
Pr {Z ≤ z1−α } = 1 − α,

]z1−α , +∞[ , (27)
]−∞, z1−α ] . (28)
Si on considère un test unilatéral gauche avec une hypothèse alternative HA :
µ < µ0 , on obtient pour un risque d’erreur α fixé
Pr {Z ≥ −z1−α } = 1 − α.
]−∞, −z1−α [ , (29)

[−z1−α , +∞[ . (30)
Cas ou les variances sont inconnues.
On considère deux échantillons (X1 , . . . , Xn1 ) et (Y1 , . . . , Yn2 ) qui suivent res-
pectivement une loi normale N (µ1 , σ12 ) et N (µ2 , σ22 ), µ1 et µ2 sont inconnues et les
variances sont aussi inconnues.

Sous l’hypothèse nulle H0 , X̄n1 − Ȳn2 suit sous H0 une loi N (0, σ12 /n1 + σ22 /n2 )
car
Var X̄n1 − Ȳn2 = Var X̄n1 + Var Ȳn2 = σ12 /n1 + σ22 /n2 .
Les estimateurs de σ12 et σ22 sont respectivement (voir (6)) :
n1 n2
1 X 1 X
Sn21 −1 = (Xi − X̄n1 )2 et Sn22 −1 = (Yi − Ȳn2 )2 .
n1 − 1 i=1 n2 − 1 i=1
Cas 1 : n1 et n2 supérieurs à 30.
Par conséquent, comme la variance est inconnue, il est naturel de l’estimer en

utilisant l’indépendance et les propriétés de la variance par
1 Pn1 1 Pn2
Sn21 −1 Sn22 −1 n1 −1 i=1 (Xi − X̄n1 )2 n2 −1 i=1 (Yi − Ȳn2 )2
Var
d X̄n1 − Ȳn2 = + = + .
n1 n2 n1 n2
(31)
Ainsi, sous l’hypothèse nulle H0 : µ1 = µ2 la statistique
(X̄n − Ȳn2 ) − 0
Z = r 21 2
Sn −1 Sn
2 −1
1
n1
+ n2
suit une loi normale centrée et réduite N (0, 1).

échantillon (voir Paragraphe (0.5.1)) et pour la comparaison de 2 échantillons indé-
pendants avec des variances connues (cas 1) de ce Paragraphe :
n o
Pr −z1−α/2 ≤ Z ≤ z1−α/2 = 1 − α,

i h i h
−∞, −z1−α/2 ∪ z1−α/2 , +∞ , (32)

−z1−α/2 , z1−α/2 . (33)
On calcule alors pour les valeurs de l’échantillon Z, notée Zcalc , et on rejette H0 si
Zcalc est dans l’intervalle (32) suivant la valeur trouvée, au risque α. On ne rejette

Pr {Z ≤ z1−α } = 1 − α,

]z1−α , +∞[ , (34)
]−∞, z1−α ] . (35)
Pr {Z ≥ −z1−α } = 1 − α.
]−∞, −z1−α [ , (36)

[−z1−α , +∞[ . (37)
Cas 2 : n1 ou n2 inférieur à 30 et σ12 = σ22 .
Lorsque les échantillons sont petits (en pratique n1 ou n2 < 30), chacun d’eux ne
fournit plus une bonne estimation de la variance globale. Il convient donc de combi-
ner les 2 estimations Sn21 −1 et Sn22 −1 de σ12 et σ22 des 2 échantillons (X1 , . . . , Xn1 ) et
(Y1 , . . . , Yn2 ) pour obtenir une meilleure approximation de la variance de la popula-
tion. Sous l’hypothèse nulle, les 2 échantillons proviennent de la même population,
les 2 variances estiment donc la variance d’une même population d’origine. On estime
donc la variance commune aux 2 échantillons par
(n1 − 1)Sn21 −1 + (n2 − 1)Sn22 −1
Sp2 = .
(n1 − 1) + (n2 − 1)

Puisque dans ce cas σ12 = σ22 , un estimateur de Var X̄n1 − Ȳn2 est donné par :
1 1

Var
d X̄n1 − Ȳn2 = Sp2 + .
n1 n2
Ainsi, sous l’hypothèse nulle H0 : “µ1 = µ2 ” la statistique
(X̄n − Ȳn ) − 0 (X̄n1 − Ȳn2 ) − 0

T = r 1 2 = r (38)
1 1
2
Sp n1 + n2 Sp n11 + n12
suit une loi de Student à (n1 − 1) + (n2 − 1) = n1 + n2 − 2 degrés de liberté.

échantillon (voir Paragraphe (0.5.1)) et pour la comparaison de 2 échantillons indé-
pendants avec des variances connues de ce Paragraphe :
n o
Pr −t1−α/2,n1 +n2 −2 ≤ T ≤ t1−α/2,n1 +n2 −2 = 1 − α,
où t1−α/2,n1 +n2 −2 est le quantile d’ordre 1 − α/2 d’une loi de Student à n1 + n2 − 2

degrés de liberté.

i h i h
−∞, −t1−α/2,n1 +n2 −2 ∪ t1−α/2,n1 +n2 −2 , +∞ , (39)
et la région de non rejet

h i
−t1−α/2,n1 +n2 −2 , t1−α/2,n1 +n2 −2 . (40)
On calcule alors pour les valeurs de l’échantillon la statistique T , notée Tcalc , et on

rejette H0 si Tcalc est dans l’intervalle (39), au risque α. On ne rejette H0 pas si Tcalc
est dans l’intervalle (40).

Pr {T ≤ t1−α,n1 +n2 −2 } = 1 − α,
où t1−α,n1 +n2 −2 est le quantile d’ordre (1 − α) d’une loi N (0, 1).

]t1−α,n1 +n2 −2 , +∞[ , (41)
]−∞, t1−α,n1 +n2 −2 ] . (42)


Pr {T ≥ −t1−α,n1 +n2 −2 } = 1 − α.
]−∞, −t1−α,n1 +n2 −2 [ , (43)
[−t1−α,n1 +n2 −2 , +∞[ . (44)

Cas 3 : n1 ou n2 inférieur à 30 et σ12 6= σ22 .


Comme évoqué précédemment, un estimateur de Var X̄n1 − Ȳn2 est donné par
(voir détails (31)
1 Pn1 1 Pn2
S2 S2 i=1 (Xi − X̄n1 )2 i=1 (Yi − Ȳn2 )2
Var
d X̄n1 − Ȳn2 = n1 −1 + n2 −1 = n1 −1
+ n2 −1
.
n1 n2 n1 n2
Ainsi, la statistique de test modifiée selon Welch (correction de Welch) sous l’hypo-
thèse nulle H0 est
(X̄n − Ȳn2 ) − 0
T = r 21 2
(45)
Sn −1 Sn
2 −1
1
n1
+ n2
suit une loi de Student à ν degrés de liberté où
2
Sn21 −1 /n1 + Sn22 −1 /n2
ν= 2 2 . (46)
(Sn2 1 −1 ) (Sn2 2 −1 )
n21 (n1 −1)
+ n22 (n2 −1)
Pour un risque d’erreur α fixé, on a donc de la même manière que précédemment :

n o
Pr −t1−α/2,ν ≤ T ≤ t1−α/2,ν = 1 − α,
où t1−α/2,ν est le quantile d’ordre 1 − α/2 d’une loi de Student à ν degrés de liberté
(voir (46)).
i h i h
−∞, −t1−α/2,ν ∪ t1−α/2,ν , +∞ , (47)

−t1−α/2,ν , t1−α/2,ν . (48)
rejette H0 si Tcalc est dans l’intervalle (47) suivant la valeur trouvée, au risque α.
On ne rejette pas H0 si Tcalc est dans l’intervalle (48).
Si on considère un test unilatéral droit avec donc une hypothèse alternative

HA : µ > µ0 , on obtient pour un risque d’erreur α fixé
Pr {T ≤ t1−α,ν } = 1 − α,
où t1−α,ν est le quantile d’ordre (1 − α) d’une loi N (0, 1).

]t1−α,ν , +∞[ , (49)
]−∞, t1−α,ν ] . (50)
rejette H0 si Tcalc est dans l’intervalle (49), au risque α. On ne rejette pas H0 si Tcalc
Si on considère un test unilatéral gauche avec donc une hypothèse alternative

HA : µ < µ0 , on obtient pour un risque d’erreur α fixé
Pr {T ≥ −t1−α,ν } = 1 − α.
]−∞, −t1−α,ν [ , (51)

[−t1−α,ν , +∞[ . (52)
Remarque 6. Le test de Student teste en fait simultanément 2 hypothèses nulles

différentes : l’égalité des moyennes et l’égalité des variances. Cette confusion des
hypothèses s’appelle le problème de Behrens-Fisher. En pratique, on arrondit le
nombre de degrés de liberté à l’entier le plus proche (recommandation d’arrondir à
l’entier inférieur).
0.6.2 Test de comparaison de 2 variances

On veut ici tester l’hypothèse nulle H0 : σ12 = σ22 contre l’hypothèse alternative
HA : σ12 6= σ22 (test bilatéral) au risque d’erreur de première espèce α ∈ (0, 1).
Les estimateurs de σ12 et σ22 sont respectivement (voir (6)) :

n1 n2
1 X 1 X
Sn21 −1 = (Xi − X̄n1 )2 et Sn22 −1 = (Yi − Ȳn2 )2 .
n1 − 1 i=1 n2 − 1 i=1
Les statistiques
(n1 − 1)Sn21 −1
χ21 =
σ12
et
(n2 − 1)Sn22 −1
χ22 =
σ22
suivent une loi du χ2 respectivement à (n1 − 1) et (n2 − 1) degrés de liberté.
La statistique de test qui s’écrit
χ21 /(n1 − 1) Sn21 −1 σ22
F = = ×
χ22 /(n2 − 1) Sn22 −1 σ12
suit sous l’hypothèse nulle H0 : σ12 = σ22 une loi de Fisher-Snedecor de paramètres
(n1 − 1) et (n2 − 1).
0.7. Deux échantillons appariés 33
Pour un risque d’erreur α fixé, on a la région de rejet

h h i h
0, Fα/2,n1 −1,n2 −1 ∪ F1−α/2,n1 −1,n2 −1 , +∞ ,
où Fα/2,n1 −1,n2 −1 et F1−α/2,n1 −1,n2 −1 sont respectivement les quantiles d’ordre α/2 et
1 − α/2 d’une loi de Fisher-Snedecor à (n1 − 1) et (n2 − 1) degrés de liberté.
La région de non rejet de H0 au seuil α fixé est alors
h i
Fα/2,n1 −1,n2 −1 , F1−α/2,n1 −1,n2 −1 .
0.6.3 Test de comparaison de 2 proportions

On veut comparer deux proportions p1 et p2 à partir de deux échantillons. On
considère les estimations f1 et f2 de p1 et p2 associées aux deux échantillons. On veut
tester l’hypothèse nulle H0 : p1 = p2 contre l’hypothèse alternative HA : p1 6= p2 .
On considère la statistique sous l’hypothèse nulle H0
(f1 − f2 ) − 0
Z=q
F (1 − F )(1/n1 + 1/n2 )
avec
n1 f1 + n2 f2
F = .
n1 + n2
La statistique précédente Z suit sous H0 une loi N (0, 1). On en déduit pour un
risque d’erreur α fixé, la région de rejet de H0 est
i h i h
−∞, −z1−α/2 ∪ z1−α/2 , +∞ . (53)
La région de non rejet de H0 est

h i
−z1−α/2 , z1−α/2 . (54)
On calcule alors pour les valeurs de l’échantillon la statistique Z, notée Zcalc , et on

rejette H0 si Zcalc est dans l’intervalle (53), au risque α. On ne rejette pas H0 si Zcalc
0.7 Deux échantillons appariés

Des échantillons appariés sont des échantillons identiques, c’est à dire des échan-
tillons composés d’individus possédant les mêmes caractéristiques. On considère n
couples de variables aléatoires (X1 , Y1 ), . . . , (Xn , Yn ).
Exemple : comparaison des longueurs moyennes (en mm) des humerus droit et
gauche de 10 squelettes de femmes.
Squelette Humerus D Humerus G

1 311 315
2 302 306
3 301 311
4 322 333
5 312 316
6 285 292
7 305 308
8 310 318
9 328 326
10 304 309
L’objectif est de tester au seuil α = 5% (test bilatéral)
H0 : µX = µY contre HA : µX 6= µY .
Dans un premier temps, nous calculons les différences di , i = 1, . . . , n où
di = X i − Yi .
Puis nous déterminons l’estimateur de la moyenne empirique de µd
n
¯ 1X
d= di
n i=1
et l’estimateur de la variance empirique de σd2

n
1 X ¯ 2.
Sd2 = (di − d)
n − 1 i=1
On a aussi :
¯ = σd2
Var(d) .
n
¯ est :
L’estimateur de Var(d)
Sd2
Sd2¯ = .
n
Ceci revient à tester au seuil α = 5% :
H0 : µd = 0 contre HA : µd 6= 0.
Cas 1 : grand échantillon (n ≥ 30).
La statistique de test s’écrit sous H0
d¯ − 0
Z= Sd .
√
n
Cette statistique Z suit sous H0 depuis le Théorème Centrale Limite une loi N (0, 1).
La règle de décision est donc dans le cas bilatéral.
Rejet de H0 au seuil α = 5% si
0.7. Deux échantillons appariés 35
où z1−α/2 est le quantile d’ordre (1 − α/2) d’une loi N (0, 1). Nous avons le non rejet
de H0 sinon.
Cas 2 : petit échantillon (n < 30).

On va supposer que les échantillons sont issues d’une population de la loi normale.
Nous utilisons la statistique
d¯ − 0
t = Sd .
√
n
qui suit sous H0 une loi de Student à n − 1 degrés de liberté.

Règle de décision :
Rejet de H0 au seuil α = 5% si
|tCalc | > t1−α/2,n−1
où t1−α/2,n−1 est le quantile d’ordre (1 − α/2) d’une loi de Student à (n − 1) degrés

de liberté (voir table de Student). Nous avons le non rejet de H0 sinon.
Exercice 7. — Écrire les règles de décision pour les 2 tests unilatéraux.

— Effectuer la comparaison statistique de la taille des humérus au seuil α = 5%.
Correction. On obtient :
d¯ = −5, 4 Sd2 = 14, 267 Sd = 3, 777.
La statistique de test calculée sous H0 est égale

−5, 4 − 0
tCalc = 3, 777 = −4, 52.
√
10
D’après la table de la loi de Student, on obtient au seuil α = 5%
t1−0.05/2,10−1 = t0.975,9 = 2, 2622
Au seuil α = 5%, rejet de H0 . Par conséquent, les longueurs moyennes (en mm) des
humerus droit et gauche de 10 squelettes de femmes sont significativement différentes
au seuil α = 5%.
Tests d’hypothèses non
paramétrique
La quasi totalité des tests utilisés jusqu’à présent supposent que les échantillons
X1 , . . . , Xn sont issus d’une population de loi normale. Cette condition n’étant pas
toujours satisfaite, on étudie des tests qui sont valables même quand la loi n’est pas
normale.
Pour la comparaison des moyennes de 2 échantillons, nous allons découvrir :
1. Lorsque les deux échantillons sont indépendants, le test U de Mann Whitney,
2. Lorsque les deux échantillons sont appariés, le test de Wilcoxon.
Les 2 tests précédents sont dits non paramétriques (pas d’hypothèse de loi) et pas
d’estimation des paramètres tels que l’espérance mathématique et la variance.
Remarque 7. Ces tests n’utilisent pas les observations Xi , i = 1, . . . , n, recueillies
dans les échantillons, mais seulement leurs rangs dans la liste ordonnée de toutes les
valeurs.
0.8 Test U de Mann Whitney

On dispose des observations X dans 2 échantillons indépendants E1 et E2 , de
tailles respectives n1 et n2 . L’objectif est de tester (test bilatéral)
H0 : µ1 = µ2 contre HA : µ1 6= µ2 .
On commence par trier les valeurs obtenues dans la réunion des 2 échantillons par
ordre croissant. Pour chaque Xi issue de E1 , on compte le nombre de valeurs
issues de E2 situées après Xi dans la liste ordonnée (celles qui sont égales à Xi
ne comptent que pour 1/2). On note U1 la somme des nombres ainsi associés aux
différentes valeurs issues de E1 . On fait de même en échangeant les rôles des deux
échantillons, ce qui donne U2 .
Soit la statistique de test
U = min(U1 , U2 )
où
n1 (n1 + 1)
U1 = n1 × n2 + − R1
2
et
n2 (n2 + 1)
U2 = n1 × n2 + − R2
2
38 Tests d’hypothèses non paramétrique
avec n1 la taille de l’échantillon E1 , n2 la taille de l’échantillon E2 , R1 et R2 repré-

sentant la somme des rangs de chacun des échantillons E1 et E2 .
Nous considérons 2 cas :
A) Pour n1 et n2 quelconques, la statistique U suit une loi de Mann et Whitney
à n1 et n2 paramètres. On a le rejet de H0 si UCalc ≤ mα et non rejet de H0
sinon où mα est tel que
Pr {U ≤ mα } = α.
B) Si n1 et n2 sont assez grands (≥ 20), sous H0 , la statistique U suit approxi-
mativement une loi N (µ, σ 2 ) avec
n1 × n2
µ=
2
et
n1 × n2 × (n1 + n2 + 1)
σ2 = .
12
Par conséquent, la statistique
U −µ
Z=
σ
suit une loi N (0, 1). On en déduit au risque d’erreur α le rejet de H0 si
et non rejet de H0 sinon où z1−α/2 est le quantile d’ordre (1 − α/2) d’une loi
N (0, 1).
0.9 Test de Wilcoxon

On dispose de n couples de variables aléatoires (X1 , Y1 ), . . . , (Xn , Yn ) issus d’échan-
tillons appariés E1 et E2 . L’objectif est de tester (test bilatéral)
H0 : µ1 = µ2 contre HA : µ1 6= µ2 .
On calcule les différences entre les valeurs appariés, puis on les classe par ordre
croissant des valeurs absolues, en omettant les différences nulles. On affecte à chaque
différence non nulle son rang dans le classement (ou la moyenne de ses rangs en cas
d’ex-aequo). On note W+ la somme des rangs des différences strictement positives,
W− la somme des rangs des différences strictement négatives. On peut vérifier que :
N (N + 1)
W+ + W− =
2
où N désigne le nombre des différences non nulles et
W = min(W+ , W− ).
Sous H0 , la statistique W suit une loi de Wilcoxon à N paramètres. On considère 2

cas :
0.9. Test de Wilcoxon 39
A) Si N ≤ 25, on lit dans la table de Wilcoxon la valeur critique/valeur théorique

wα,N telle que, sous H0 ,
Pr {W ≥ wα,N } = α.
Au risque d’erreur α fixé, on a le rejet de H0 si W ≥ wα,N et non rejet de H0

sinon.
B) Si N > 25 sous H0 , la statistique W suit approximativement une loi N (µ, σ 2 )
avec
N (N + 1) N (N + 1)(2N + 1)
µ= et σ2 = .
4 24
La statistique
W −µ
Z=
σ
suit alors une loi N (0, 1).
Au risque d’erreur α fixé, on a le rejet de H0 si
et non rejet de H0 sinon.

Remarque 8. Il est préférable d’utiliser un test paramétrique si les condi-
tions d’applications sont vérifiées (normalité des données) plutôt qu’un test
non paramétrique car les tests paramétriques sont plus puissants.
Exercice 8. La concentration d’un produit dans les eaux d’une rivière fait l’objet
d’un contrôle journalier. Les mesures sont effectuées sur des échantillons prélevés
en 2 points 1 et 2 :
Point 1 5,32 5,00 5,14 5,00 5,35 5,17 5,11 5,26
Point 2 5,33 5,13 5,16 5,09 5,49 5,32 5,24 5,23
Existe-t-il au seuil α = 5% une différence significative entre les concentrations aux

points 1 et 2 ?
Il s’agit de tester
H0 : µ1 = µ2 contre HA : µ1 6= µ2 ,
en utilisant le test de Wilcoxon. On a :

Point 1 Point 2 di
5,32 5,33 -0,01
5,00 5,13 -0,13
5,14 5,16 -0,02
5,00 5,09 -0,09
5,35 5,49 -0,14
5,17 5,32 -0,15
5,11 5,24 -0,13
5,26 5,23 0.03
On passe à l’étape de tri par ordre croissant des différences di . On obtient :
di Rang W+ W−
0,01 1 0 1
0,02 2 0 2
0,03 3 3 0
0,09 4 0 4
0,13 5,5 0 5,5
0,13 5,5 0 5,5
1,14 7 0 7
0,15 8 0 8
P
36 3 33
La statistique de test est :
W = min(W+ , W− ).
Application numérique : α = 5%, WCalc = min(3, 33) = 3, w1−α/2,8 = 3. Donc au

seuil α = 5%, rejet de H0 et donc on observe une différence significative entre les
concentrations aux points 1 et 2. Attention dans un tel cas, il faudrait collecter de
nouvelles mesures pour s’assurer de cette différence.
Exercice 9. On considère 2 échantillons C et D :
C D
2 2
3 4
5 5
5 6
7 6
8 7
9 8
10 11
12
Comparer au seuil α = 5% les moyennes des échantillons C et D.

Comme nous avons ici 2 échantillons indépendants. On souhaite tester :
H0 : µ1 = µ2 contre HA : µ1 6= µ2 .
Nous allons utiliser le test U de Mann et Whitney.

0.9. Test de Wilcoxon 41
Observations Rang Ech

2 1,5 C
2 1,5 D
3 3 C
4 4 D
5 6 C
5 6 C
5 6 D
6 8,5 D
6 8,5 D
7 10,5 C
7 10,5 D
8 12,5 C
8 12,5 D
9 14 C
10 15 C
11 16 D
12 17 D
On obtient
R1 = RC = 68, 5 et R2 = RD = 84, 5.
La statistique de test s’écrit :
U = min(U1 , U2 )
où
n1 (n1 + 1)
U1 = n1 × n2 + − R1
2
et
n2 (n2 + 1)
U2 = n1 × n2 + − R2
2
avec n1 = 8 la taille de l’échantillon C, n2 = 9 la taille de l’échantillon D, R1 = 68, 5
et R2 = 84, 5.
Application numérique :
U1 = 39, 5 et U2 = 32, 5.
Au seuil α = 5%, UCalc = min(39, 5; 32, 5) = 32, 5, mα,8,9 = 15 (voir Table U de

Mann-Whitney). Par conséquent, non rejet de H0 au seuil α = 5%.
Exercice 10. Nous mesurons la taille de feuilles (en cm) prélevées sur des plantes.
Voici ci-dessous les données collectées :
Soleil 6 4,8 5,1 5,5 4,1 5,3 4,5 5,1
Ombre 6,5 5,5 6,3 7,2 6,8 5,5 5,9 5,5
Existe-t-il une différence significative au seuil α = 5% entre la taille des feuilles en

plein soleil et à l’ombre ?
Nous avons 2 échantillons indépendants de petites tailles. Afin de tester au seuil

α = 5%
H0 : µ1 = µ2 contre HA : µ1 6= µ2 .
nous utilisons le test U de Mann-Whitney.
Solein Rang S Rang O Ombre

4,1 1
4,5 2
4,8 3
5,1 4,5
5,1 4,5
5,3 6
5,5 8,5
8,5 5,5
8,5 5,5
8,5 5,5
11 5,9
6 12
13 6,3
14 6,5
15 6,8
16 7,2
On obtient après calculs
R1 = RS = 41, 5 R2 = R0 = 94, 5.
et
U1 = 58, 5 U2 = 5, 5.
La statistique de test est alors
UCal = min(94, 5; 5, 5) = 5, 5.
Au seuil α = 5%, mα,8,8 = 13 (Voir Table U de Mann-Whitney). Rejet de H0 au

seuil α = 5%. Par conséquent les feuilles sont significativement différentes dans
l’ombre qu’au soleil.
0.10 Tests de Spearman et Kendall

Voir fascicule du cours distribué.

Cours Tests Statistiques L2 Avec Corrections

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Tests Statistiques L2 Avec Corrections

Transféré par

Droits d'auteur :

Formats disponibles

Cours L2 Tests Statistiques

Professeur Gilles Durrieu

Université Bretagne Sud

Intervalles de fluctuation et de confiance 5

Tests d’hypothèses paramétrique 19

Tests d’hypothèses non paramétrique 37

0.1 Intervalles de fluctuation et de confiance

On note p la probabilité de succès de l’expérience. On répète l’expérience plu-

Par conséquent pour chaque i = 1, . . . , n, la variable aléatoire Xi suit une loi de

E(Xi ) = p et Var(Xi ) = p(1 − p).

Le nombre total de succès au bout de n réalisations est donc :

Il s’agit d’une variable aléatoire à valeurs dans {0, 1, 2, . . . , n} de loi binomiale de

0.1.2 Estimateur de la moyenne empirique

Preuve. Par linéarité de l’espérance mathématique et comme les Xi sont d’espérance

X̄n converge en probabilité vers µ lorsque n → ∞.

0.1.3 Intervalles de fluctuation d’une proportion

Définition 0.4. Soit X1 , . . . , Xn une suite de variables aléatoires indépendantes

Calcul en utilisant le Théorème Centrale Limite

Par conséquent, on a asymptotiquement :

et donc pour n → ∞, l’intervalle de fluctuation de la fréquence de succès au niveau

Remarque 1. Soit la fonction

f (p) = p(1 − p) ≤ 1/4.

Par conséquent pour α = 5%, on a pour tout p ∈ [0, 1]

On a donc une “approximation” facile à calculer de l’intervalle de fluctuation IF de

Exercice 1. On considère le cas de la personne qui achète toutes les semaines un

Correction. Soit Xi la variable aléatoire qui représente le résultat du ième jeu. On

qui suit une loi binomiale de paramètres n = 52 et p = 0.1.

L’intervalle de fluctuation est donnée par (1) :

On sait aussi que la fréquence de succès est :

0.1.4 Intervalle de confiance d’une proportion

Remarque 2. Un candidat naturel pour estimer la probabilité de succès p est la

Méthode 1 : en utilisant le Théorème Centrale Limite. D’après le Théorème

D’où pour tout n → ∞, pour tout p ∈]0, 1[, on a :

Méthode 2 : Comme on ne connait pas p, on ne connait pas non plus la variance

Il existe en fait une généralisation du théorème central limite (Théorème de

L’étendue (longueur de l’intervalle) de IC est :

0.2 Intervalle de confiance d’une moyenne

0.2.1 Cas ou la variance σ 2 est connue

suit alors une loi N (0, 1) où Pn

En pratique, cette “approximation” est utiliisée pour n ≥ 30.

0.2.2 Cas ou la variance σ 2 est inconnue

Théorème 2. L’estimateur de la variance empirique Sn2 est un estimateur biaisé et

D’autre part, on peut montrer que :

avec µk = E((X − µ)k ). L’estimateur est donc convergent. Le résultat précédent et

sont indépendantes et suivent respectivement la loi normale réduite et la loi du χ2

On en déduit d’après les Théorèmes (3), 4 et la définition (0.6) que la statistique

0.3 Intervalle de confiance d’une variance

suit par définition une loi du χ2 à n degrés de liberté.

est un intervalle de confiance de σ 2 de niveau de confiance (1 − α)%.

On en déduit un intervalle de confiance de l’écart type σ de niveau de confiance

0.4 Généralisation à d’autres lois

La densité d’une variable aléatoire X de loi exponentielle de paramètre λ > 0

On en déduit que pour n → ∞ :

Par conséquent, lorsque n → ∞,

est un intervalle de confiance de λ de niveau de confiance (1 − α)%.

Exercice 5. Une entreprise reçoit un lot important de pièces fabriquées en série.

1. Donner un intervalle de confiance de la proportion p de pièces défectueuses

où z1−α/2 est le quantile d’ordre (1 − α/2) d’une loi N (0, 1).

ICp = [0.027, 0.123] .

2. L’entreprise n’accepte la livraison que si la proportion p de pièces défectueuses

3. En fait, il est plus réaliste de penser que l’entreprise n’accepte la livraison

Un test statistique est une procédure qui permet de se prononcer, au vu d’une

0.5.1 Test de la moyenne