Vous êtes sur la page 1sur 15

Tests

statistiques

4.1 Généralités
Dénition 4.1.1 Un test statistique a pour but d'eectuer un choix entre deux hypo-
thèses statistiques concernant une ou plusieurs populations, à partir d'un ou plusieurs
échantillons.
Dénition 4.1.2 Hypothèses.
− L'hypothèse nulle, notée H est celle qui est supposée vraie à priori.
− L'hypothèse alternative, notée H est l'hypothèse complémentaire de H .
0
1 0

Dénition 4.1.3 Risques d'erreurs.


Deux types d'erreurs de décision sont considérées; soient α et β erreurs de première
et de deuxième espèce : α = P(accepter H |H vraie) et β = P(accepter H |H vraie).
1 0 0 1

Résultat du test H0 est vraie H1 est vraie


Accepter H0 1 − α : conance du test β : erreur de deuxième espèce
Accepter H1 α : seul du test 1 − β : puissance du test

Dénition 4.1.4 Statistique


La statistique de test, noté S est une fonction qui résume l'information sur l'échan-
tillon qu'on veut tester. On la choisit de façon à pouvoir calculer sa loi sous H .
T
0

Dénition 4.1.5 Test bilatéral-Test unilatéral − Test bilatéral : il s'applique quand on


cherche une diérence entre deux estimations ou entre une estimation et une valeur donnée
sans prendre en considération le signe de la diérence.
− Test unilatéral : il s'applique quand on cherche à savoir si une estimation est supé-
rieure ou inférieure à une autre estimation ou à une valeur donnée.
Soit X une variable aléatoire dont la loi dépend d'un paramètre inconnu θ.
H0 : θ = θ0 , θ0 étant une valeur numérique.
H1 peut être de trois types :

01
H1 : θ 6= θ0 , test bilatéral.
H1 : θ > θ0 , test unilatéral à droite.
H1 : θ < θ0 , test unilatéral à gauche.

Dénition 4.1.6 Région de rejet


La région de rejet ou région critique est le sous-ensemble W de R des valeurs pour
lesquelles l'hypothèse nulle est rejetée. On appelle W région d'acceptation.
Dénition 4.1.7 La forme de la région de rejet
− Test bilatéral : W =] − ∞; a] ∪ [b; +∞[.

− Test unilatéral à droite : W = [a; +∞[.

− Test unilatéral à gauche : W =] − ∞; b].

Dénition 4.1.8 Probabilité critique


La probabilité critique (ou p-valeur) est la probabilité, sous H , d'obtenir une valeur
de la statistique de test au moins aussi extrême que celle observée.
0

− En pratique, on rejette H lorsque p < α.


0

Exemple : On considère que ST N (0, 1) sous H0 avec α = 5%


1. Pour un test bilatéral, la région de rejet :

W =] − ∞, −z0.975 ] ∪ [z0.975 , +∞[.

Pour un test unilatéral à droite, la région de rejet :

W = [z0.975 , +∞[.

Pour un test unilatéral à gauche, la région de rejet :

W =] − ∞, −z0.975 ].

2
Démarche générale d'un test 1. Choisir les hypothèses à tester H0 et de H1 .
2. Fixer le risque α.
3. Déterminer la statistique (la variable de décision) de test.
4. Calculer la région de rejet en fonction de α et H0 .
5. Calculer la valeur observée de la statistique de test.
6. Conclure : rejet ou acceptation de H0 .

4.2 Tests d'hypothèse à un échantillon


4.2.1 Test sur une moyenne
Soit X une variable aléatoire quantitative. µ : la moyenne de X dans la population.
On veut savoir si la moyenne théorique égale à une certaine valeur µ0 .
On désire faire le test d'hypothèse suivant :

H0 : µ = µ0 ;


H1 : µ 6= µ0 .

1. n < 30. On suppose que X N (µ, σ 2 ).


1.1. σ connue : Sous H0 , la variable de décision (la statistique)
2

3
X̄ − µ0
Z= √ N (0, 1).
σ/ n
L'intervalle d'acceptation (région d'acceptation) est de la forme

W = [−z1− α2 , z1− α2 ].
L'intervalle de rejet est de la forme :
W =] − ∞, −z1− α2 [∪]z1− α2 , +∞[,
où z1− α2 est le quantile d'ordre 1 − α
2
de la loi normale centrée et réduite.
Si z ∈ W , on ne rejette pas H0 , où z est la valeur observée de la variable aléatoire Z
(valeur calculée).
1.2. σ 2 inconnue : Sous H0 , la variable de décision (la statistique)

X̄ − µ0
T = √ Tn−1 .
S 0/ n
L'intervalle d'acceptation est de la forme
h α α i
W = −tn−1 (1 − ), tn−1 (1 − ) .
2 2
L'intervalle de rejet est de la forme :
i α h i α h
W = −∞, −tn−1 (1 − ) ∪ tn−1 (1 − ), +∞ ,
2 2
où tn−1 (1 − 2 ) est le quantile d'ordre 1 − 2 de la loi de Student à (n − 1) degrés de liberté.
α α

Si t ∈ W , on ne rejette pas H0 .
2. On suppose qu'on est en présence d'un échantillon non gaussien de grande taille
(n ≥ 30) :
2.1. σ 2 connue : Sous H0 , la variable de décision

X̄ − µ0
Z= √ N (0, 1).
σ/ n
L'intervalle d'acceptation est de la forme
W = [−z1− α2 , z1− α2 ].
2.2. σ 2 inconnue : Sous H0 , la variable de décision

X̄ − µ0
Z= √ N (0, 1).
S 0/ n
L'intervalle d'acceptation est de la forme
W = [−z1− α2 , z1− α2 ].
Pour les deux cas ; σ 2 connue ou σ 2 inconnue, si z ∈ W , on ne rejette pas H0 ,

4
4.2.2 Test sur une variance d'une variable gaussienne
On suppose que X N (µ, σ 2 ). On désire faire le test d'hypothèse suivant :
H0 : σ 2 = σ02 ;


H1 : σ 2 6= σ02 .

1. µ connue : Sous H0 , la variable de décision :

nT 2
V = χ2n .
σ02
L'intervalle de rejet est de la forme :
h α h i α h
W = 0, χ2n ( ) ∪ χ2n (1 − ), +∞ ,
2 2
où χ2n ( α2 ) et χ2n (1 − α2 ) sont les quantiles d'ordre α2 et 1 − α
2
de la loi du Khi-deux à n
degrés de liberté.
Si v ∈ W , on rejette H0 .
2. µ inconnue : Sous H0 , la variable de décision :

(n − 1)S 02
V = χ2n−1 .
σ02
L'intervalle de rejet est de la forme :
h α h i α h
W = 0, χ2n−1 ( ) ∪ χ2n−1 (1 − ), +∞ ,
2 2
où χ2n−1 ( α2 ) et χ2n−1 ( 1−α
2
) sont les quantiles d'ordre α
2
et 1 − α
2
de la loi du Khi-deux à
n − 1 degrés de liberté.
Si v ∈ W, on rejette H0 .

4.2.3 Test sur une proportion


Soit π la proportion théorique d'individus possédant une certaine caractéristique, dans
une population donnée. On veut la comparer à une proportion π0 de référence. On a
X1 , ..., Xn iid avec Xi B (π), π inconnue. Le meilleur estimateur de π est F = Kn . Si
n ≥ 30, nπ0 ≥ 5, et nπ0 (1 − π0 ) ≥ 5, on peut considerer le test d'hypothèse suivant :

H0 : π = π0 ;


H1 : π 6= π0 .

Sous H0 , la variable de décision (la statistique)

F − π0
Z=q N (0, 1).
π0 (1−π0 )
n

5
L'intervalle d'acceptation est de la forme

W = [−z1− α2 , z1− α2 ].
L'intervalle de rejet est de la forme :

W =] − ∞, −z1− α2 [∪]z1− α2 , +∞[,


où z1− α2 est le quantile d'ordre 1 − α
2
de la loi normale centrée et réduite.
Si z ∈ W , on ne rejette pas H0 .

4.3 Comparaison de deux échantillons


4.3.1 Test de comparaison de deux moyennes : populations indé-
pendantes
On considère deux populations P1 et P2 et deux variables aléatoires X1 et X2 dénies
respectivement sur P1 et P2 avec X1 qX2 . On pose µ1 = E(X1 ), µ2 = E(X2 ), σ12 = σ12 (X1 ),
et σ22 = σ22 (X1 ).
− On dispose d'un n1 -échantillon de X1 dont la moyenne est x̄1 et la variance corrigée
s02
1 .
− On dispose d'un n2 -échantillon de X1 dont la moyenne est x̄2 et la variance corrigée
02
s2 .
On souhaite tester s'il y a une diérence signicative entre les moyennes des deux
populations :
H0 : µ1 = µ2 ;


H1 : µ1 6= µ2 .
1. n1 et/ou n2 < 30 et X1 N (µ1 , σ12 ), X2 N (µ2 , σ22 ).
1.1. σ12 , σ22 connues :
Sous H0 , la variable de décision

X̄1 − X̄2
Z=q 2 N (0, 1).
σ1 σ2
n1
+ n22
L'intervalle d'acceptation est de la forme

W = [−z1− α2 , z1− α2 ],
où z1− α2 est le quantile d'ordre 1 − α
2
de la loi normale centrée et réduite.
Si z ∈ W , on ne rejette pas H0 .
1.2. σ12 , σ22 inconnues et σ12 = σ22 .
Sous H0 , la variable de décision

6
X̄1 − X̄2
T = q T (n1 + n2 − 2),
σ̂ n11 + n12
avec
s
(n1 − 1)Ś12 + (n2 − 1)Ś22
σ̂ =
n1 + n2 − 2
L'intervalle d'acceptation est de la forme
α α
W = [−tn1 +n2 −2 (1 − ), tn1 +n2 −2 (1 − )],
2 2
où tn1 +n2 −2 (1 − α2 ) est le quantile d'ordre 1 − α2 de la loi de Student à (n1 + n2 − 2) degrés
de liberté.
Si t ∈ W , on ne rejette pas H0 .
Remarque : Ce test est connu sous le nom de test T ou test de Student.
1.3. σ12 , σ22 inconnues et σ12 6= σ22 .
Sous H0 , la variable de décision

X̄1 − X̄2
T =q 2 T (m),
Ś1 Ś 2
n1
+ n22
est l'entier le plus proche de
 2
ś21 ś22
n21
+ n22
ś41 ś42
.
n21 (n1 −1)
+ n22 (n2 −1)

L'intervalle d'acceptation est de la forme


α α
W = [−tm (1 − ), tm (1 − )],
2 2
où tm (1 − α2 ) est le quantile d'ordre 1 − α
2
de la loi de Student à m degrés de liberté.
Si t ∈ W , on ne rejette pas H0 .
2. n1 et n2 > 30
2.1. σ12 , σ22 inconnues :
Sous H0 , la variable de décision

X̄1 − X̄2
Z=q 2 N (0, 1).
Ś1 Ś 2
n1
+ n22
L'intervalle d'acceptation est de la forme

W = [−z1− α2 , z1− α2 ],

7
où z1− α2 est le quantile d'ordre 1 − α
2
de la loi normale centrée et réduite.
Si z ∈ W , on ne rejette pas H0 .
2.2. σ12 , σ22 connues :
Sous H0 , la variable de décision

X̄1 − X̄2
Z=q 2 N (0, 1).
σ1 σ2
n1
+ n22
L'intervalle d'acceptation est de la forme

W = [−z1− α2 , z1− α2 ],

Si z ∈ W , on ne rejette pas H0 .

4.3.2 Test de comparaison de deux moyennes : populations ap-


pariées
On dispose d'un échantillon de n observations. Chaque observation étant constituée
d'une paire de valeurs. On considère une nouvelle variable aléatoire D dont les valeurs di
sont obtenues par diérences des paires de valeurs ; di = xi1 − xi2 .
X étant gaussienne, D l'est également dont la moyenne est µD (µD = µ1 − µ2 ) et la
variance σD 2
.
On souhaite tester :

H0 : µD = 0 ;


H1 : µD 6= 0.
Pn
Soit D̄ la moyenne empirique de D : D̄ = 1
n i=1 Di .
n
Soit SD la variance de D : SD = n−1 i=1 (Di − D̄)2 .
2 2 1
P
1. Pour n < 30, Sous H0 , la variable de décision


T = √ T (n − 1)
SD / n
avec n
1 X
D̄ = X̄1 − X̄2 et 2
SD = (Di − D̄)2 .
n − 1 i=1
L'intervalle d'acceptation est de la forme
α α
W = [−tn−1 (1 − ), tn−1 (1 − )],
2 2
où tn−1 (1 − α2 ) est le quantile d'ordre 1 − α2 de la loi de Student à (n − 1) degrés de liberté.
Si t ∈ W , on ne rejette pas H0 .
2. Pour n ≥ 30, et loi quelconque (X non gaussienne), sous H0 , la variable de décision

8

Z= √ N (0, 1).
SD / n
L'intervalle d'acceptation est de la forme

W = [−z1− α2 , z1− α2 ],
où z1− α2 est le quantile d'ordre 1 − α
2
de la loi normale centrée et réduite.
Si z ∈ W , on ne rejette pas H0 .

4.3.3 Test de comparaison de deux variances : populations indé-


pendantes
On considère deux populations P1 et P2 et deux variables aléatoires X1 et X2 dénies
respectivement sur P1 et P2 avec X1 q X2 . On pose µ1 = E(X1 ), µ2 = E(X2 ).
− On dispose d'un n1 -échantillon de X1 dont la moyenne est x̄1 et la variance corrigée
s02
1 .
− On dispose d'un n2 -échantillon de X1 dont la moyenne est x̄2 et la variance corrigée
02
s2 .
Soient X1 N (µ1 , σ12 ) et X2 N (µ2 , σ22 ), n1 ≤ 30 et/ou n2 ≤ 30.
On souhaite tester s'il y a une diérence signicative entre les variances des deux
populations :
H0 : σ12 = σ22 ;


H1 : σ12 6= σ22 .
Sous H0 , la variable de décision :

Ś12
Z= Fn1 −1,n2 −1 ,
Ś22
L'intervalle d'acceptation est de la forme
α α
W = [fn1 −1,n2 −1 ( ), fn1 −1,n2 −1 (1 − )],
2 2
où fn1 −1,n2 −1 ( α2 ) et fn1 −1,n2 −1 (1 − α2 ) sont les quantile d'ordre α
2
et 1 − α
2
de la loi de
Fisher Snédécor à (n1 − 1, n2 − 1) ddl.
Si z ∈ W on conserve H0 .
Remarque importantes :
ś2
− En calculant le rapport z = ś12 , on doit mettre la plus grande variance au numérateur.
2
− Le test de comparaison étant bilatéral, on rejette H0 au seuil de risque α dans les
deux cas suivants :
α α
z ≤ fn1 −1,n2 −1 ( ) ou z ≥ fn1 −1,n2 −1 (1 − ).
2 2

9
4.3.4 Test de comparaison de deux proportions : populations in-
dépendantes
On désire comparer deux proportions inconnues π1 et π2 :

H0 : π1 = π2 ;


H1 : π1 6= π2 .

On dispose de deux échantillons de taille n1 pour π1 qu'on estime par F1 et de taille n2


qu'on estime par F2 . Conditions d'application : n1 , n2 ≥ 30, n1 f1 ≥ 5, n1 (1 − f1 ) ≥ 5, et
n2 f2 ≥ 5, n2 (1 − f2 ) ≥ 5, où f1 et f2 sont les fréquences observées respectivement pour
l'échantillon 1 et pour l'échantillon 2.
Sous H0 , la variable de décision

F1 − F2
Z=q N (0, 1),
F̂ (1 − F̂ )( n11 + 1
n2
)

n1 F1 + n2 F2
F̂ = .
n1 + n2
L'intervalle d'acceptation est de la forme

W = [−z1− α2 , z1− α2 ],
où z1− α2 est le quantile d'ordre 1 − α
2
de la loi normale centrée et réduite.
Si z ∈ W , on ne rejette pas H0 .

4.4 Test du Khi-deux


4.4.1 Comparaison de deux distributions statistiques
On considère un caractère à k valeurs (modalités). La répartition théorique des fré-
quences de ces valeurs : p1 , ..., pk . Sur un échantillon de taille N, les eectifs observés :
o1 , ..., ok . Les eectifs théoriques : thi = N pi . On souhaite tester :
H0 : les deux répartitions théoriques et observées coïncident.
Sous H0 , si les eectifs théoriques vérient thi ≥ 5, la variable de décision est :
k
X (Oi − thi )2
Z= ∼ χ2k−1 ,
i=1
thi
où les Oi sont les variables aléatoires prenant les valeurs (oi sur un échantillon donné.
Pour un risque de première espèce α, l'intervalle de rejet :

W = [χ2k−1 (1 − α), +∞[,

10
où χ2k−1 (1 − α) correspond au quantile d'ordre (1 − α) de la loi du χ2 à (k-1) degrés de
liberté.
− Si z ≤ χ2k−1 (1 − α), alors on conserve (H0 ).
− Si z > χ2k−1 (1 − α) alors on rejette (H0 ).
− La valeur seuil χ2k−1 (1 − α) est lue sur la table du χ2 pour k − 1 ddl et pour un
risque d'erreur α xé.
On souahite tester l'indépendance de deux caractères statistiques X1 et X2 d'une
population. On pose :
H0 : les deux caractères sont indépendants.
Sous H0 , la variable de décision :
k1 Xk2
X (Oij − thij )2
Z= ∼ χ2(k1 −1)(k2 −1) ,
i=1 j=1
thij

où oij , i = 1, ..., k1 , j = 1, ..., k2 des eectifs observés sur un échantillon.


n ×n
thij = i· N ·j : eectifs théoriques, ni· et n·j eectifs marginaux observés.
Pour un risque de première espèce α, la région de rejet :

W = [χ2(k1 −1)(k2 −1) (1 − α), +∞[,


où χ2(k1 −1)(k2 −1) (1−α) correspond au quantile d'ordre (1−α) de la loi du χ2 à (k1 −1)(k2 −1)
degrés de liberté.
− Si z est inférieure à la valeur seuil χ2(k1 −1)(k2 −1) (1 − α), lue sur la table du χ2 pour
(k1 − 1)(k2 − 1) ddl et pour un risque d'erreur α xé alors on conserve (H0 ).
− Si z est supérieure à la valeur seuil χ2(k1 −1)(k2 −1) (1 − α) alors on rejette (H0 ).

11
Annexe

55
12
13
14

Vous aimerez peut-être aussi