Vous êtes sur la page 1sur 11

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE

U.F.R. SEGMI Année universitaire 2019 – 2020


L2 Économie Cours de B. Desgraupes

Méthodes Statistiques

Séance 07: Tests de conformité II

Table des matières


1 Tests sur la fréquence 1
1.1 Le test de proportions . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Le test binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Tests sur la variance 7


2.1 Intervalle de confiance sur la variance . . . . . . . . . . . . . . . 9
2.2 Approximations de la loi du χ2 . . . . . . . . . . . . . . . . . . . 10

3 Table 11

1 Tests sur la fréquence


On utilise les tests de fréquence lorsqu’on étudie une variable statistique X qui
présente deux modalités : 1/0, vrai/faux, pile/face, succès/échec, etc.
On s’intéresse à la proportion de réalisation de l’une des modalités dans
un échantillon et on veut tester si elle est significativement différente d’une
proportion théorique déterminée par avance.

• Exemple
Par exemple, dans le cas d’une naissance, on peut se demander s’il s’agit
d’une fille ou d’un garçon. Si on dénombre k naissances de filles parmi n nais-
k
sances, on calcule la fréquence empirique égale à et on se demande si les
n
observations confirment l’hypothèse d’équiprobabilité des sexes.
On convient de coder la réalisation d’un événement par 1 et celle de son
contraire par 0 : (
1 si succès
X=
0 si échec
Le nombre Sn de succès parmi n réalisations de l’événement est la somme
des Xi pour i = 1, . . . , n :
n
X
Sn = Xi
i=1

1
Si p0 est la vraie probabilité de l’événement, la variable X suit une loi de
Bernoulli de paramètre p0 et la variable Sn suit une loi binomiale B(n, p0 ).
On a la formule suivante pour calculer la probabilité que la somme vaille k :

P (Sn = k) = Cnk pk0 (1 − p0 )n−k

On sait que

E(Sn ) = np0 et Var(Sn ) = np0 (1 − p0 )

Dans ce cas, la fréquence empirique n’est autre que la moyenne empirique


de la variable X :
1
Fn = X̄n = Sn
n

On obtient donc son espérance et sa variance à partir de celles de Sn :


1
E(Fn ) = E(Sn ) = p0
n
1 p0 (1 − p0 )
Var(Fn ) = 2 Var(Sn ) =
n n
r
p0 (1 − p0 )
D’où l’écart-type σ(Fn ) = .
n
Cette fréquence empirique est un estimateur p̂ de la vraie fréquence p0 de
l’événement :
Sn k
p̂ = =
n n

Le théorème central limite permet d’affirmer que, si n est suffisamment


grand, la distribution de la variable centrée réduite
p̂ − p0
Z=r
p0 (1 − p0 )
n
tend vers celle de la loi normale N (0, 1).

1.1 Le test de proportions


Test de proportions
On considère que l’approximation de la loi binomiale par la loi normale est
acceptable si les conditions suivantes sont remplies :

 n ≥ 30

n p0 ≥ 5

n (1 − p0 ) ≥ 5

2
On peut alors construire le test de proportions pour grand échantillon en
prenant comme hypothèse nulle :

H0 : p = p0

p̂ − p0
Sous l’hypothèse H0 , la variable Z = r suit asymptotiquement une
p0 (1 − p0 )
n
loi normale N (0, 1).

Dans le cas d’un test bilatéral au seuil α, on détermine le quantile uα tel que

P (|Z| > uα ) = α

On a déjà vu que uα ≈ 1.96 lorsque α = 5%.

Si la valeur calculée |Z| est supérieure à u, on rejette l’hypothèse de con-


formité : on conclut, dans ce cas, en disant, avec un risque α de se tromper,
que la fréquence observée dans l’échantillon n’est pas conforme à la fréquence
théorique p0 . Sinon, on ne peut pas rejeter l’hypothèse H0 .
• Remarque
Il est important de vérifier, avant d’exécuter ce test, que les conditions
d’application sont bien vérifiées :

n ≥ 30 n p0 ≥ 5 n (1 − p0 ) ≥ 5

• Exemple
Supposons que, dans une maternité, sur 2000 naissances, 960 enfants étaient
des filles. On teste l’hypothèse H0 que p = 1/2 au seuil α = 5%.
La proportion empirique est donc 960/2000 = 48%, inférieure aux 50% at-
tendus. Est-ce significativement différent ?
On calcule la variable de décision:
960/2000 − 0, 5
Z= r = −1.788854
0, 5 × 0, 5
2000
Au seuil α = 5%, la valeur critique est 1,96. La statistique calculée se situe
entre -1,96 et 1,96, ce qui fait qu’on ne peut pas rejeter l’hypothèse H0 .
• Exemple
Une roulette de casino comporte 37 cases : la case 0 est de couleur verte et les
autres, numérotées de 1 à 36, sont alternativement rouges et noires. Un joueur
a remarqué que, sur 300 parties, le zéro était sorti 13 fois. Peut-il conclure, au
seuil 5%, que la roulette est défectueuse ?

3
La probabilité théorique que la case verte sorte est, en supposant l’équiprobabilité
1
de toutes les cases, de p0 = = 0.0270. Cela constitue l’hypothèse H0 .
37
On choisit ici de formuler l’hypothèse alternative sous la forme :

H1 : p 6= p0

Le vert devrait sortir en moyenne 8 fois (300/37 ≈ 8) mais il est sorti 13


fois. Les observations du joueur conduisent à une proportion empirique de
13
p̂ = = 0.04333
300
L’écart-type attendu, sous l’hypothèse H0 , vaut
r r
p0 (1 − p0 ) 0.0270(1 − 0.0270)
= = 0.00935
n 300
Il faut vérifier les conditions d’applicabilité du test. On a bien

 n ≥ 30

n p0 ≥ 5

n (1 − p0 ) ≥ 5

puisque n = 300, n p0 = 300 × 0.0270 = 8.1 ≥ 5 et n (1 − p0 ) = 300 × (1 −


0.0270) = 291.9 ≥ 5.
On calcule donc la statistique de test :
p̂ − p0
Z=r
p0 (1 − p0 )
n
0.04333 − 0.0270
=
0.00935
= 1.7465

La valeur de la statistique Z = 1.7465 est inférieure à la valeur critique 1,96.


On ne peut donc pas rejeter l’hypothèse H0 : l’apparition excessive du vert peut
être simplement l’effet du hasard.

1.2 Le test binomial


Test binomial
Lorsque la taille des échantillons est très petite, on peut envisager de faire
un test exact.
Les tests exacts sont ceux pour lesquels on peut, sous l’hypothèse H0 , calculer
la probabilité exacte d’obtenir les valeurs qui ont été observées.

4
On n’utilise pas de statistique ou de variable de décision. On compare di-
rectement la probabilité de rejeter l’hypothèse au risque α. S’il est très im-
probable, sous l’hypothèse H0 , d’obtenir les données observées alors on rejette
l’hypothèse nulle.
Le test binomial est un test exact utilisé dans le cas d’une variable aléatoire
ayant deux modalités. On va voir son fonctionnement sur un exemple.
Pour un test bilatéral, l’hypothèse nulle est que le nombre d’observations
dans une classe est conforme à une probabilité théorique connue d’avance et
l’hypothèse alternative est que les valeurs observées diffèrent des valeurs atten-
dues.
Pour un test unilatéral, l’hypothèse nulle est que le nombre d’observations
dans une classe est inférieur ou égal à la valeur attendue et l’hypothèse alterna-
tive est qu’il est strictement supérieur.
• Exemple
On joue à pile ou face 15 fois et on obtient 3 faces. Peut-on dire, au seuil
5%, que la pièce est truquée ?
On appelle S la variable aléatoire représentant le nombre de faces.
L’hypothèse H0 est que la pièce est équilibrée autrement dit que la proportion
PF de faces est égale à la proportion PP de piles, donc à 1/2.
L’hypothèse H1 , au vu des résultats obtenus, sera PF < PP .
Donc (
H0 : PF = PP
H1 : PF < PP
C’est un test unilatéral.
Sous l’hypothèse H0 , on connaît la loi de probabilité exacte suivie par la
variable S : c’est la loi binomiale B(15, 1/2) de paramètres n = 15 (nombre
d’expériences) et p0 = 1/2 (probabilité de faces).
Par définition, on a :

P (S = k) = Cnk pk0 (1 − p0 )n−k

On est donc capable de calculer la probabilité exacte qu’il y ait au plus 3


faces :

P (S ≤ 3) = P (S = 0) + P (S = 1) + P (S = 2) + P (S = 3)
= 0.00003 + 0.00046 + 0.0032 + 0.0139
= 0, 01759
≈ 1, 76%

Cette probabilité P (S ≤ 3) représente la p-valeur associée à notre échantil-


lon. Comme elle est inférieure au seuil de 5%, on rejette l’hypothèse H0 et on
considère donc que la pièce est défectueuse.

Si le seuil avait été de 1%, on n’aurait pas pu rejeter l’hypothèse H0 .

5
Voici une représentation graphique des densités de masse de la loi binomiale
B(15, 1/2).

0.15
0.10
0.05

1.76 %
0.00

0 1 2 3 4 5 6 7 8 9 10 12 14

La p-valeur dépend de l’échantillon. Voyons ce qui se passerait si, dans une


autre expérience, le nombre de faces était de 4.
La p-valeur serait alors P (S ≤ 4) :

P (S ≤ 4) = P (S ≤ 3) + P (S = 4)
= 0, 01759 + 0.0417
= 0.05929
≈ 5, 93%

On ne pourrait pas rejeter l’hypothèse H0 . Si on le faisait, on aurait un


risque de se tromper qui serait au moins de 5,93% puisque l’événement qui s’est
produit (à savoir S ≤ 4) a une probabilité de 5,93% avec une pièce correctement
équilibrée.

6
0.15
0.10
0.05

5.92 %
0.00

0 1 2 3 4 5 6 7 8 9 10 12 14

2 Tests sur la variance


Test de variance
Le test de variance permet de tester la valeur de la variance Var(X) d’un
caractère X dans la population au vu de la variance empirique d’un échantillon.
On suppose que la variable est distribuée selon une loi normale.
L’hypothèse H0 est que la variance σ 2 = Var(X) au niveau de la population
a une certaine valeur σ 2 :
H0 : σ 2 = σ02
En notant s2 la variance empirique de l’échantillon, on montre le résultat
suivant :
Sous l’hypothèse H0 , la statistique
n−1 2
Y = s
σ02

suit une loi du χ2 à n − 1 degrés de liberté.


L’intervalle d’acceptation se construit avec les quantiles de la loi du χ2 . Par
exemple, dans le cas d’un test bilatéral au seuil 5%, il faut trouver les bornes a
et b telles que :
α α
P (Y ≤ a) = et P (Y ≥ b) =
2 2

7
• Exemple
Avec un échantillon de taille n = 10, on a n − 1 = 9 degrés de liberté et les
tables de la loi du χ2 donnent les valeurs suivantes pour les quantiles :

a = 2.70 et b = 19.02

Test de variance bilatéral


0.15

χ2(n)
0.10
0.05

95%
0.00

a=2.7 b=19.02

0 5 10 15 20 25

Remarques

1. Noter qu’ici l’intervalle n’est pas symétrique autour de l’espérance.

2. La variance utilisée dans la statistique de ce test est la variance empirique


modifiée (c’est-à-dire l’estimateur sans biais de σ 2 ).

3. Le mode de la loi χ2 (n) vaut n − 2 (pour n > 1). C’est l’abscisse du


maximum sur le graphe précédent.

• Exemple
Une société fabrique un câble en acier trempé galvanisé dont la charge de
rupture est de 210 kg avec une marge de 5 kg. Un contrôle de qualité effectué
sur 10 bobines a conduit aux résultats suivants :
203.70 211.80 201.60 226.00 213.30
201.80 214.90 217.40 215.80 206.90

8
Cet échantillon confirme-t-il la marge annoncée ?
On calcule la moyenne et la variance modifiée de l’échantillon :

X̄ = 211.32 et s2 = 61.357 =⇒ s ≈ 7.83

La statistique du test de variance vaut :


n−1 2 9 × 61.357
Y = s = = 22.088
σ2 25
Cette valeur se trouve dans la région de rejet, à l’extérieur de l’intervalle
[2.70 ; 19.02] trouvé précédemment pour 9 degrés de liberté. On doit donc rejeter
l’hypothèse et considérer, au risque 5% de se tromper, que l’échantillon étudié
présente une variance qui ne correspond pas à la variance annoncée.

2.1 Intervalle de confiance sur la variance

• Intervalle de confiance sur la variance


Par analogie avec les intervalles de confiance sur la moyenne, on peut établir
des intervalles de confiance sur σ 2 .
On part de l’expression
α α
P (Y ≤ a) = et P (Y ≥ b) =
2 2
qui peut aussi s’écrire:
n−1 2
P (a ≤ Y ≤ b) = 1 − α ⇐⇒ P (a ≤ s ≤ b) = 1 − α
σ2
On obtient ainsi l’intervalle :
n−1 2
a≤ s ≤b
σ2
qu’on peut réécrire sous la forme :

(n − 1)s2 (n − 1)s2
≤ σ2 ≤
b a

C’est un intervalle multiplicatif qui encadre la valeur de la variance σ 2 . On


(n − 1)
obtient la borne inférieure en multipliant la variance empirique s2 par
b
(n − 1)
et la borne supérieure en la multipliant par .
a
r L’écart-typer σ est compris entre s multiplié respectivement par les quantités
(n − 1) (n − 1)
et .
b a

9
Avec les données de l’exemple précédent, on a

s2 = 61, 357 n = 10 a = 2, 70 b = 19, 02

On calcule l’intervalle de confiance :


9 × 61, 357 9 × 61, 357
≤ σ2 ≤
19, 02 2, 70
D’où
29.03 ≤ σ 2 ≤ 204.52
Finalement, en prenant les racines carrées,

5.39 ≤ σ ≤ 14.30

On voit que la marge de 5 kg annoncée par le fabriquant n’est pas dans


l’intervalle de confiance à 95%.

2.2 Approximations de la loi du χ2

• Approximations de la loi du χ2
Lorsque la taille de l’échantillon est grande, les quantiles de la loi du χ2 ne
sont pas toujours disponibles dans les tables (car les tables ne vont en général pas
au-delà de 30 degrés de liberté). On peut néanmoins, si n est grand, remplacer
la loi du χ2 par des lois approchantes.
Une loi du χ2 à n degrés de liberté a pour espérance n et pour variance
2n. Si Y ∼ χ2 (n), alors le théorème central limite permet d’affirmer que Z =
Y −n
√ tend en loi vers la loi normale N (0, 1). On construit donc l’intervalle
2n
d’acceptation pour la variable Z avec la loi normale, plutôt que pour la variable
Y avec la loi du χ2 . On obtient ainsi approximativement en notant uc la valeur
critique (uc = 1, 96 si α = 5%):
√ √
n − uc 2n ≤ Y ≤ n + uc 2n

Une autre approximation possible est fournie par le théorème suivant :


Théorème 2.1 (de Fisher). Si Y est une variable aléatoire suivant une loi du
χ2 à n degrés de liberté alors
√ √ L
2Y − 2n − 1 −→ N (0, 1)

lorsque n → +∞.
À partir√de la statistique
√ Y calculée dans le test de variance, on calcule
la quantité 2 Y − 2n − 1 et on voit si elle est dans la région d’acceptation
(fournie par la loi normale) ou pas.

10
On n’utilise ces approximations que si n est grand (pratiquement, n ≥ 30).
L’intérêt de l’approximation de Fisher par rapport au théorème central limite
est qu’elle procure une convergence plus rapide.

√ √
− uc ≤ 2 Y − 2n − 1 ≤ uc
√ √ √
⇐⇒ 2n − 1 − uc ≤ 2 Y ≤ 2n − 1 + uc
1 √ 1 √
⇐⇒ ( 2n − 1 − uc )2 ≤ Y ≤ ( 2n − 1 + uc )2
2 2
La quantité de gauche joue le rôle de la borne a et celle droite celui de la borne
b.

3 Table
Fonction quantile de la loi du χ2
ν\P 0.01 0.025 0.05 0.1 0.9 0.95 0.975 0.99
1 0.000 0.001 0.004 0.016 2.706 3.841 5.024 6.635
2 0.020 0.051 0.103 0.211 4.605 5.991 7.378 9.210
3 0.115 0.216 0.352 0.584 6.251 7.815 9.348 11.345
4 0.297 0.484 0.711 1.064 7.779 9.488 11.143 13.277
5 0.554 0.831 1.145 1.610 9.236 11.070 12.833 15.086
6 0.872 1.237 1.635 2.204 10.645 12.592 14.449 16.812
7 1.239 1.690 2.167 2.833 12.017 14.067 16.013 18.475
8 1.646 2.180 2.733 3.490 13.362 15.507 17.535 20.090
9 2.088 2.700 3.325 4.168 14.684 16.919 19.023 21.666
10 2.558 3.247 3.940 4.865 15.987 18.307 20.483 23.209
11 3.053 3.816 4.575 5.578 17.275 19.675 21.920 24.725
12 3.571 4.404 5.226 6.304 18.549 21.026 23.337 26.217
13 4.107 5.009 5.892 7.042 19.812 22.362 24.736 27.688
14 4.660 5.629 6.571 7.790 21.064 23.685 26.119 29.141
15 5.229 6.262 7.261 8.547 22.307 24.996 27.488 30.578
16 5.812 6.908 7.962 9.312 23.542 26.296 28.845 32.000
17 6.408 7.564 8.672 10.085 24.769 27.587 30.191 33.409
18 7.015 8.231 9.390 10.865 25.989 28.869 31.526 34.805
19 7.633 8.907 10.117 11.651 27.204 30.144 32.852 36.191
20 8.260 9.591 10.851 12.443 28.412 31.410 34.170 37.566

11

Vous aimerez peut-être aussi