Vous êtes sur la page 1sur 26

Cours de

Probabilités et Statistiques
Tome 2

Mathieu Gentes

Année /

IUT d’Orsay - Département Mesures Physiques


Table des matières

IV Echantillonage 5
1 Notion d’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2 Distributions d’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1 Moyenne d’échantillon - variance d’échantillon . . . . . . . . . . . . . . 6
2.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.2 Paramètres descriptifs de la distribution . . . . . . . . . . . . 7
2.2 Proportion d’échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

V Estimation - Intervalles de confiance 11


1 Les estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.1 definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2 Estimateurs usuels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2.1 Cas d’un caractère quantitatif . . . . . . . . . . . . . . . . . . 12
1.2.2 Cas d’un caractère qualitatif . . . . . . . . . . . . . . . . . . . 12
2 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Intervalle de confiance pour une moyenne . . . . . . . . . . . . . . . . . 13
2.2.1 Cas σ connu . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.2 Cas σ inconnu . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3 Intervalle de confiance pour une variance . . . . . . . . . . . . . . . . . 14
2.3.1 Cas µ connu (cas peu fréquent) . . . . . . . . . . . . . . . . . 14
2.3.2 Cas µ inconnu . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4 Intervalle de confiance pour une proportion . . . . . . . . . . . . . . . . 15
3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

VI Tests d’hypothèse 17
1 Introduction aux tests d’hypothèse . . . . . . . . . . . . . . . . . . . . . . . . 17
1.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.3 Fonctionnement d’un test . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4 Exemples de tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2 Tests de conformité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1 Test de conformité d’une moyenne . . . . . . . . . . . . . . . . . . . . . 18
2.1.1 σ est connu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.2 σ est inconnu . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Test de conformité d’une variance . . . . . . . . . . . . . . . . . . . . . 20
2.3 Test de conformité d’une proportion . . . . . . . . . . . . . . . . . . . . 20

3
4 TABLE DES MATIÈRES

3 Tests de comparaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.1 Test de comparaison de deux moyennes . . . . . . . . . . . . . . . . . . 21
3.1.1 σ1 et σ2 connus . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.1.2 σ1 et σ2 inconnus . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Test de comparaison de deux variances . . . . . . . . . . . . . . . . . . 22
3.3 Test de comparaison de deux proportions . . . . . . . . . . . . . . . . . 23
4 Test du Chi-deux d’ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Chapitre IV

Echantillonage

1 Notion d’échantillonnage
Définition 1.1. On considère une population Ω de taille N . On appelle échantillon un sous-
ensemble de cette population. Un échantillon de taille n est donc une liste de n individus
(ω1 , . . . , ωn ) extraits de la population mère.
Exemple. On considère une population constituée de 5 étudiants et on s’intéresse au temps
hebdomadaire consacré par chaque étudiant à l’étude des statistiques.

Etudiant Temps d’étude (h)


A 7
B 3
C 6
D 10
E 4

Ω = {A, B, C, D, E} et N = 5.
Définition 1.2. On appelle échantillonnage le prélèvement d’échantillons. Le rapport t de
l’effectif n de l’échantillon sur l’effectif N de la population dans laquelle il a été prélevé, est
n
appelé taux d’échantillonnage ou fraction de sondage : t = .
N
2
Exemple. On prélève des échantillons de taille 2 : t = = 0, 4.
5
Définition 1.3. On appelle échantillonnage aléatoire un prélèvement de n individus dans
une population mère tel que toutes les combinaisons possibles de n individus aient la même
probabilité d’être prélevés.
Il existe d’autres formes d’échantillonnage, on ne s’intéressera néanmoins qu’à des échan-
tillonnages aléatoires.

Objectif : on cherche à décrire un caractère C qualitatif ou quantitatif présent dans une


population Ω à travers l’étude des résultats obtenus sur un échantillon de taille n.
Exemples.
• Etant donnée une population, on peut s’intéresser aux caractères quantitatifs tels que le poids,
la taille, etc.

5
6 CHAPITRE IV. ECHANTILLONAGE

• Etant donnée une population, on peut s’intéresser aux caractères qualitatifs tels que la couleur
des yeux, la couleur des cheveux, etc.
• Le caractère étudié dans l’exemple initial est le temps hebdomadaire consacré à l’étude des
statistiques.
Définition 1.4. Soit C un caractère quantitatif défini sur une population mère Ω. C est la
réalisation d’une variable aléatoire X définie sur Ω :
X : Ω −→ R
ωi 7−→ xi .
On appelle n-échantillon de valeurs de X la liste des valeurs (x1 , . . . , xn ) observées prises
par X sur un échantillon (ω1 , . . . , ωn ) de la population Ω. Les coordonnées peuvent être considé-
rées comme les valeurs des réalisations d’un vecteur de variables aléatoires (X1 , . . . , Xn ) appelé
n-échantillon de X où les Xi sont de même loi, indépendantes.
X1 est alors la variable aléatoire “valeur du premier élément de l’échantillon”, X2 la variable
aléatoire “valeur du second élément de l’échantillon”, etc.
Exemple. On considère des 2-échantillons (X1 , X2 ). Tableau des 2-échantillons de valeurs
associés.
Définition 1.5. On appelle statistique toute variable aléatoire qui s’écrit à l’aide des variables
aléatoires X1 , . . . , Xn .
n
1X
Exemples. Xi , X = Xi sont des statistiques.
n i=1
Si on extrait plusieurs échantillons de taille n fixée, les résultats que l’on va pouvoir déduire
sont variables car ils dépendent de l’échantillon considéré. On parle de fluctuations d’échan-
tillonnage. Comment dans ce cas tirer des conclusions valables sur la population mère ? On
va pour cela étudier les lois de probabilités qui régissent ces fluctuations.

2 Distributions d’échantillonnage
2.1 Moyenne d’échantillon - variance d’échantillon
2.1.1 Définitions
On considère une population Ω dont les éléments possèdent un caractère quantitatif C qui
est la réalisation d’une variable aléatoire X qui suit une loi de probabilité d’espérance µ et
d’écart-type σ. On suppose que la famille est de taille infinie ou que l’échantillonnage se fait
avec remise.
On prélève un n-échantillon (X1 , . . . , Xn ) de X de valeurs (x1 , . . . , xn ). La moyenne x de
l’échantillon est donnée par
n
x1 + · · · + xn 1X
x= = xi .
n n i=1
Il s’agit de la valeur prise par la variable aléatoire
n
X1 + · · · + Xn 1X
= Xi .
n n i=1
CHAPITRE IV. ECHANTILLONAGE 7

Définition 2.1. On définit la variable aléatoire X, appelée moyenne d’échantillon, par


n
1X
X= Xi .
n i=1

De la même manière, la variance v de l’échantillon (x1 , . . . , xn ) est donnée par


n
1X
v= (xi − x)2 .
n i=1

Il s’agit de la valeur prise par la variable aléatoire


n
1X
V = (Xi − X)2 .
n i=1

Définition 2.2. On définit la variable aléatoire S 2 , appelée variance d’échantillon, par


n
2 1 X n
S = (Xi − X)2 = V.
n − 1 i=1 n−1

2.1.2 Paramètres descriptifs de la distribution


Proposition 2.3.
1. Quelle que soit la loi de X, on a
σ
E(X) = µ V ar(X) = ,
n
n−1 2
E(V ) = σ et E(S 2 ) = σ 2 .
n

2. Si X ∼ N (µ, σ), on a
X −µ
(i) si σ est connu : σ ∼ N (0, 1),

n
X −µ
(ii) si σ n’est pas connu : r ∼ Tn−1 ,
V
n
2
nV (n − 1)S
(iii) 2 = ∼ χ2n−1 .
σ σ2

2.2 Proportion d’échantillon


Il arrive que le caractère à estimer ne soit pas quantitatif mais qualitatif. Dans ce cas, on
recherche la proportion p des individus présentant ce caractère.
La proportion p sera estimée à l’aide des résultats obtenus sur un n-échantillon.

Définition 2.4. La proportion f obtenue dans un n-échantillon est la valeur observée d’une
variable aléatoire F , fréquence d’apparition de ce caractère dans un échantillon de taille n,
appelée proportion d’échantillon ou fréquence statistique.
8 CHAPITRE IV. ECHANTILLONAGE

On peut écrire
K
F = ,
n
où K est la variable aléatoire qui compte le nombre d’apparitions du caractère considéré dans
un échantillon de taille n.
Par définition, K ∼ B(n, p), soit :

E(K) = np et V ar(K) = npq,

d’où la proposition suivante :

Proposition 2.5.
pq
E(F ) = p et V ar(F ) = .
n
 r  Pour n ≥ 30, np ≥ 15 et nq ≥ 15 on peut approcher F par une loi normale
Remarque.
pq
N p, .
n
CHAPITRE IV. ECHANTILLONAGE 9

3 Exercices
Exercice 1. Un commerçant propose à sa clientèle six articles électroménagers. Considérons
la population constituée par ces six articles nommés ωi i = 1 . . . 6.
Soit X le caractère quantitatif “nombre d’unités en stock lors de l’inventaire”. On a :

Ω ω1 ω2 ω3 ω4 ω5 ω6
X 0 1 2 3 0 1

1. Déterminer la loi de probabilité de X. Calculer E(X) et V ar(X).


2. Dans cette population d’effectif N = 6, on tire avec remise des échantillons de taille
n = 2. X1 est le nombre d’unités en stock pour le premier article tiré, X2 le nombre
d’unités en stock pour le second article tiré. On pose :
X1 + X 2
X= .
2
Donner la valeur du taux d’échantillonnage.
Déterminer les valeurs prises par X sur tous les échantillons possibles, en déduire sa loi.
Calculer E(X) et V ar(X) et vérifier les résultats théoriques.

Exercice 2. On considère une population de 5 factures nommées ωi i = 1 . . . 5. On considère


le caractère qualitatif “règlement des factures” qui a deux modalités possibles : “réglée” ou “non
réglée”.
Ω ω1 ω2 ω3 ω4 ω5
X réglée non réglée non réglée réglée non réglée
On tire avec remise des échantillons de taille n = 2. On note F la variable aléatoire
“proportion des factures réglées dans l’échantillon”.
1. Donner la valeur du taux d’échantillonnage.
2. Déterminer les valeurs prises par F sur tous les échantillons possibles.
3. en déduire la loi de F , E(F ), V ar(F ) et vérifier les résultats théoriques.
4. Reprendre l’exercice avec des tirages d’échantillons sans remise.

Exercice 3. Le responsable d’une entreprise a accumulé depuis des années les résultats à un
test d’aptitude à effectuer un certain travail. Il semble plausible de supposer que les résultats
au test d’aptitude sont distribués suivant une loi normale de moyenne µ = 250 et d’écart-type
σ = 10. On fait passer le test à 25 individus de l’entreprise. Quelle est la probabilité pour que
la moyenne de l’échantillon soit comprise entre 146 et 154 ?

Exercice 4. Selon une étude sur le comportement du consommateur, 25% d’entre eux sont
influencés par les marques lors de l’achat d’un produit. Si on interroge 100 consommateurs pris
au hasard, quelle est la probabilité pour qu’au moins 35 d’entre eux se déclarent influencés par
les marques ?
10 CHAPITRE IV. ECHANTILLONAGE
Chapitre V

Estimation - Intervalles de confiance

1 Les estimateurs
Estimer un paramètre c’est en rechercher une valeur approchée à partir des résultats obtenus
sur un échantillon.
Exemple. Estimer la taille moyenne d’une population à partir de la moyenne empirique ob-
tenue sur un échantillon de cette population.

1.1 definitions
Définition 1.1. Un estimateur θ̂ du paramètre inconnu θ est une fonction qui fait correspondre
à une suite d’observations une valeur approchée θ̂n de θ, appelée estimation :

θ̂ : (x1 , . . . , xn ) 7−→ θ̂n = f (x1 , . . . , xn ).

Un estimateur θ̂ est donc une variable aléatoire, on peut en calculer son espérance E(θ̂) et
sa variance V ar(θ̂). Ces quantités vont permettre de déterminer la qualité d’un estimateur du
paramètre θ à estimer.
Un paramètre peut en effet avoir plusieurs estimateurs. Dans le cas de la taille moyenne
d’une population, on peut choisir la moyenne arithmétique, la médiane, etc.
Définition 1.2. On dit que θ̂ est un estimateur sans biais si la moyenne de sa distribution
d’échantillonnage est égale à la valeur θ du paramètre à estimer :

E(θ̂) = θ.

Sinon, on parle d’estimateur biaisé. Pour comparer les estimateurs biaisés, on introduit
la quantité suivante :
Définition 1.3. On appelle biais d’un estimateur θ̂ la quantité

Biais(θ̂) = E(θ̂) − θ.

DESSIN
L’absence de biais n’est pas suffisante pour s’assurer de l’efficacité d’un estimateur. Le
paramètre θ peut d’ailleurs présenter plusieurs estimateurs sans biais. Dans ce cas, c’est la
variance des estimateurs qui permet de les comparer. Si cette variance est élevée, l’estimateur
peut prendre des valeurs très éloignées de la valeur effective du paramètre θ.

11
12 CHAPITRE V. ESTIMATION - INTERVALLES DE CONFIANCE

Définition 1.4. On dit qu’un estimateur sans biais est efficace si sa variance est la plus petite
parmi les variances des estimateurs sans biais. Si θ̂1 est un estimateur de θ, on dit que θ̂1 est
efficace si pour tout estimateur sans biais θ̂2 :
E(θ̂1 ) = E(θ̂2 ) = θ et V ar(θ̂1 ) < V ar(θ̂2 ).
DESSIN
Définition 1.5. Un estimateur θ̂ est convergent si sa distribution tend à se concentrer autour
de la valeur θ à estimer, en d’autres termes si sa variance tend vers zéro lorsque la taille de
l’échantillon augmente :
lim V ar(θ̂) = 0.
n→+∞

1.2 Estimateurs usuels


1.2.1 Cas d’un caractère quantitatif
Soit X une variable aléatoire de moyenne µ et d’écart-type σ définie sur une population
mère Ω. Soit (X1 , . . . , Xn ) un n-échantillon de X.
Propriétés. On a les résultats suivants :
n
1X
1. X = Xi est un estimateur sans biais et convergent de µ.
n i=1
n
1X
2. V = (Xi − X)2 est un estimateur biaisé de la variance σ 2 .
n i=1
n
1 X n
2
3. S = (Xi − X)2 = V est un estimateur sans biais et convergent de la
n − 1 i=1 n−1
variance σ 2 .

1.2.2 Cas d’un caractère qualitatif


On considère un caractère qualitatif d’une population dont on cherche à estimer la propor-
tion p.
Propriété. La proportion d’échantillon F est un estimateur sans biais et convergent de la
proportion p.

2 Intervalles de confiance
Plutôt que de déterminer une valeur approchée d’un paramètre θ obtenue à l’aide d’un
estimateur θ̂, on va rechercher un intervalle dans lequel on sait avec une probabilité satisfaisante
que la valeur de θ s’y trouve.

2.1 Définitions
Définition 2.1. Soit X une variable aléatoire dont la loi dépend d’un paramètre θ. Les in-
tervalles de confiance de risque α pour le paramètre θ, issus des différents n-échantillons
(x1 , . . . , xn ), sont les intervalles [a(x1 , . . . , xn ) ; b(x1 , . . . , xn )] tels qu’une proportion α de ces
intervalles contiennent θ.
CHAPITRE V. ESTIMATION - INTERVALLES DE CONFIANCE 13

Remarques. 1. La quantité 1 − α est appelée niveau de confiance de l’intervalle [a, b] :

P(a ≤ θ̂ ≤ b) = 1 − α.

2. Dans la pratique , on ne dispose bien souvent que d’un seul échantillon qui fournit un
intervalle de confiance [a, b].
3. Le paramètre à estimer est souvent l’espérance ou la variance dans le cas d’un caractère
quantitatif, la proportion dans le cas d’un caractère qualitatif.
Dans la suite à s’attachera à rechercher des intervalles de confiance [a, b] symétriques, c’est
à dire tels que :
α α
P(θ̂ < a) = et P(θ̂ > a) = .
2 2
On détermine ensuite les variables aléatoires An et Bn en fonction de θ̂ telles que :

P(An ≤ θ ≤ Bn ) = 1 − α.

Un intervalle de confiance [a, b] de risque α pour θ, issu d’un n-échantillon (x1 , . . . , xn ) de


valeurs de X, s’obtient alors en calculant :

a = An (x1 , . . . , xn ),
b = Bn (x1 , . . . , xn ).

2.2 Intervalle de confiance pour une moyenne


On se place dans le cas où X suit une loi normale de paramètres µ et σ ou bien dans le cas
où l’on ne connait pas forcément la loi de X mais pour laquelle on dispose d’un échantillon de
taille n > 30. √
Dans le premier cas X ∼ N (µ, σ/ n), dans le second cas X suit approximativement cette
même loi.
On considère un n-échantillon (x1 , . . . , xn ) de valeurs de X. On note
n
x1 + · · · + xn 1 X
m= et s = (xi − m)2 .
n n − 1 i=1

2.2.1 Cas σ connu


 
σ σ
I = m − t1− α2 √ ; m + t1+ α2 √ ,
n n
α
où t1− α2 est le quantile d’ordre 1 − de la loi normale centrée réduite.
2
DESSIN

Démonstration. On sait que X ∼ N (µ, σ/ n), soit encore

X −µ
√ ∼ N (0, 1).
σ/ n
Donc  
X −µ
P −t1− α2 < √ < t1− α2 = 1 − α,
σ/ n
14 CHAPITRE V. ESTIMATION - INTERVALLES DE CONFIANCE

soit  
σ σ
P X − t1− α2 √ < µ < X + t1− α2 √ = 1 − α.
n n

2.2.2 Cas σ inconnu

 
s s
I = m − t1− α2 ,n−1 √ ; m + t1− α2 ,n−1 √ ,
n n
α
où t1− α2 ,n−1 est le quantile d’ordre 1 − de la loi de student à n − 1 degrés de liberté.
2
Remarque. si n > 30, t1− α2 ,n−1 = t1− α2 .

2.3 Intervalle de confiance pour une variance


On se place dans le cas où X suit une loi normale de paramètres µ et σ.

2.3.1 Cas µ connu (cas peu fréquent)

" #
nv nv
I= ; ,
χ21− α (n) χ2α (n)
2 2

α α
où χ21− α (n) et χ2α (n) sont les quantiles d’ordre 1 − et de la loi de chi-deux à n degrés
2 2 2 2
de liberté et
n
1X
v= (xi − µ)2
n i=1

DESSIN

2.3.2 Cas µ inconnu

" #
(n − 1)s2 (n − 1)s2
I= ; ,
χ21− α (n − 1) χ2α (n − 1)
2 2

α α
où χ21− α (n − 1) et χ2α (n − 1) sont les quantiles d’ordre 1 − et de la loi de chi-deux à
2 2 2 2
n − 1 degrés de liberté.
1 √ 2
Remarque. si n > 30, χ2α (n − 1) ≈ tα + 2n − 3 , si bien que l’on choisit :
2
" #
2(n − 1)s2 2(n − 1)s2
I= √ 2 ; √ 2 .
t1− α2 + 2n − 3 t α2 + 2n − 3

D’autre part, la symétrie de la loi normale centrée réduite assure que t α2 = −t1− α2 .
CHAPITRE V. ESTIMATION - INTERVALLES DE CONFIANCE 15

2.4 Intervalle de confiance pour une proportion


r précédent que la proportion d’échantillon F peut être approchée
On a vu dans le chapitre
pq
par une loi normale N (p, ).
n
On en déduit :
" r r #
f (f − 1) f (f − 1)
I = f − t1− α2 ; f + t1− α2 ,
n n

où f est la proportion de l’échantillon analysé.


16 CHAPITRE V. ESTIMATION - INTERVALLES DE CONFIANCE

3 Exercices
Exercice 1. Un horticulteur voulant s’assurer contre les risques de grêle se documente sur le
nombre de jours de grêle les années précédentes.
Les statistiques des dix dernières années dans la région donnent les résultats suivants, où
xi désigne le nombre de jours de grêle par an et ni le nombre d’années où on a observé xi jours
de grêle :
xi 0 1 2 3 4 5 6 ≥7
ni 1 1 2 3 2 0 1 0
Donner une estimation ponctuelle non biaisée de la moyenne théorique et de la variance
théorique du nombre de jours de grêle par an.

Exercice 2. Dans une population d’étudiants en sociologie, on a prélevé indépendamment deux


échantillons de taille n1 = 120 et n2 = 150.
On constate que 48 étudiants de l’échantillon 1 et 66 étudiants de l’échantillon 2 ont une
formation secondaire scientifique.
Soit p la proportion d’étudiants de la population ayant une formation secondaire scientifique.
Calculer trois estimations ponctuelles de p.

Exercice 3. On mesure la force de compression d’un ciment en moulant de petits cylindres et


en mesurant la pression X (exprimée en kg · cm−2 ) à partir de laquelle ils se cassent. Pour 10
cylindres utilisés, on relève les pressions suivantes :

19, 6 19, 9 20, 4 19, 8 20, 5 21, 0 18, 5 19, 7 18, 4 19, 4.

On suppose que X suit une loi de Gauss de moyenne µ et d’écart-type σ.


1. Calculez une estimation ponctuelle non biaisée de µ et de σ 2 .
2. Donnez, pour α = 0, 05, un intervalle de confiance I1 de la moyenne de la population.
3. Donner pour α = 0, 05, un intervalle de confiance pour la variance de la population.
4. En supposant que l’on sache que σ 2 = 0, 69, donnez pour µ un intervalle de confiance I2
de risque 0, 05. Comparez I1 et I2 .

Exercice 4. Dans une entreprise, le montant de la prime annuelle suit une loi normale de
paramètres µ et σ. On considère un échantillon de taille n = 50 et on obtient une moyenne de
130 euros et un écart-type de 28 euros.

Exercice 5. Après avoir fait passer un test noté sur 100 au personnel d’une entreprise, on
choisit un échantillon de taille 20. On suppose que les notes suivent une loi normale de para-
mètres µ et σ. La variance de l’échantillon étant égale à 182, calculer un intervalle de confiance
I pour σ 2 au niveau 95%.

Exercice 6. Après une enquête sur un échantillon de 500 ménages d’une population, on
constate que 405 ménages possèdent une voiture. Estimer par intervalle de confiance au ni-
veau 95% la proportion de ménages possédant une voiture.
Chapitre VI

Tests d’hypothèse

1 Introduction aux tests d’hypothèse


1.1 Principe
On étudie un caractère quantitatif ou qualitatif X d’une certaine population Ω dont une
au moins des valeurs des paramètres décrivant X est inconnue.
On formule une hypothèse sur la valeur de ce paramètre.
On s’interroge sur la pertinence de cette hypothèse en la confrontant aux résultats obtenus
sur un échantillon.
Les distributions d’échantillonnage d’une moyenne, d’une variance et d’une proportion vues
dans le chapitre précédent nous permettrons d’élaborer des tests d’hypothèse.

1.2 Définitions
Définition 1.1. Un test d’hypothèse est une procédure basée sur l’observation d’un ou plu-
sieurs échantillons permettant de faire un choix entre deux hypothèses formulées.
Définition 1.2. L’hypothèse mise en avant dans le cadre d’un test d’hypothèse est notée (H0 ),
appelée hypothèse nulle. Toute autre hypothèse à laquelle on peut la confronter s’appelle
hypothèse alternative, notée (H1 ).
Remarque. C’est l’hypothèse (H0 ) qui est soumise au test et que l’on suppose comme vraie.
La décision d’accepter ou rejeter le test repose sur la confrontation aux valeurs observées sur
un échantillon. L’information contenue dans cet échantillon étant incomplète, toute décision
est associée à prise de risque.
Définition 1.3. On appelle erreur de première espèce l’erreur commise lorsqu’on rejette
l’hypothèse nulle (H0 ) alors que cette dernière est vraie. La probabilité d’une telle erreur s’ap-
pelle risque de première espèce et se note α :
α = P(rejeter (H0 )|(H0 ) vraie).
Remarque. On choisit souvent en pratique α = 0.05 ou α = 0.01.
Définition 1.4. On appelle erreur de seconde espèce l’erreur commise lorsqu’on accepte
l’hypothèse (H0 ) alors que cette dernière est fausse. La probabilité d’une telle erreur s’appelle
risque de seconde espèce et se note β :
β = P(accepter (H0 )|(H0 ) fausse).

17
18 CHAPITRE VI. TESTS D’HYPOTHÈSE

La valeur 1 − β est appelée puissance du test.

La puissance du test correspond à la probabilité de rejeter l’hypothèse (H0 ) sachant que


cette dernière est fausse. Plus β est petit et plus le test sera puissant.
Le test est concluant lorsqu’on qu’on ne commet aucune erreur, ni de première ni de seconde
espèce.

P (H0 ) acceptée (H0 ) refusée


(H0 ) vraie α 1−α
(H0 ) fausse 1−β β

1.3 Fonctionnement d’un test


Pour chaque test, on fera appel à une variable aléatoire de décision T qui suit une certaine
loi théorique. En supposant que l’hypothèse (H0 ) est vraie, on cherche la valeur idéale pour
T . Le risque de première espèce α étant choisi, on détermine une zone de probabilité 1 − α,
généralement un intervalle, contenant cette valeur idéale.

DESSIN

Si la valeur idéale constitue l’une des borne de cette zone, on parle de test unilatéral.
Sinon on parle de test bilatéral. Dans la suite, on s’intéresse surtout aux tests bilatéraux.
Si la valeur de T obtenue en se basant sur les résultats d’un échantillon appartient à la zone
critique de probabilité α, alors l’hypothèse (H0 ) est rejetée, sinon elle est acceptée.

1.4 Exemples de tests


• On compare la valeur d’un paramètre obtenue sur un échantillon à une valeur théorique
connue. L’hypothèse (H0 ) consiste à supposer que ces deux valeurs sont très proches. On parle
de test de conformité.

• On compare les valeurs d’un paramètre obtenues sur deux échantillons. l’Hypothèse (H0 )
consiste à supposer que ces échantillons proviennent d’une même population et que les valeurs
trouvées seront très proches. La différence observée est alors due aux fluctuations d’échantillon-
nage. On parle de test de comparaison.

2 Tests de conformité
Soit X un caractère dont la loi dépend d’un paramètre θ inconnu. Soit θ0 une valeur donnée.
On se donne un niveau de risque α. (
(H0 ) : θ = θ0
On va alors tester (H0 ) contre (H1 ) où au risque de première espèce α.
(H1 ) : θ 6= θ0 ,

2.1 Test de conformité d’une moyenne


On dispose d’un n-échantillon (x1 , . . . , xn ) de valeurs de X. On suppose que X suit une loi
normale de paramètres µ et σ. Soit µ0 une valeur plausible de la moyenne fixée a priori. On
CHAPITRE VI. TESTS D’HYPOTHÈSE 19

teste (H0 ) contre (H1 ) où


(
(H0 ) : µ = µ0
(H1 ) : µ 6= µ0 ,
au risque de première espèce α.
On détermine la variable aléatoire de décision : dans le cas de la moyenne X semble appro-
priée.

2.1.1 σ est connu


Dans ce cas,
X − µ0
U= √ ∼ N (0, 1),
σ/ n
d’où la zone d’acceptation avec un risque de niveau α pour X :
 
σ σ
I = µ0 − t1− α2 √ ; µ0 + t1+ α2 √ ,
n n
α
où t1− α2 est le quantile d’ordre 1 − de la loi normale centrée réduite. On sait en effet que :
2

P(X ∈ I) = 1 − α.

Si la valeur x obtenue sur le n-échantillon considéré appartient à I, alors on accepte (H0 ),


sinon on rejette (H0 ).

2.1.2 σ est inconnu


Dans ce cas,
X − µ0
U= √ ∼ Tn−1 ,
s/ n
d’où la zone d’acceptation avec un risque de niveau α pour X :
 
s s
I = µ0 − t1− α2 ,n−1 √ ; µ0 + t1+ α2 ,n−1 √ ,
n n
α
où t1− α2 ,n−1 est le quantile d’ordre 1 − de la loi de Student à n − 1 degrés de liberté. On sait
2
en effet que :
P(X ∈ I) = 1 − α.
Si la valeur x obtenue sur le n-échantillon considéré appartient à I, alors on accepte (H0 ),
sinon on rejette (H0 ).

Remarque. Attention : l’intervalle que l’on obtient est centrée sur la valeur supposée µ0 , alors
que pour les intervalles de confiance il était centré sur la valeur de la moyenne de l’échantillon
x. Dans le cas des tests, on conclut alors en regardant si cette valeur de x appartient ou non
à notre intervalle centrée sur la valeur supposée µ0 .
20 CHAPITRE VI. TESTS D’HYPOTHÈSE

2.2 Test de conformité d’une variance


On dispose d’un n-échantillon (x1 , . . . , xn ) de valeurs de X. On suppose que X suit une loi
normale de paramètres µ et σ. Soit σ0 une valeur plausible de la variance fixée a priori. On
teste (H0 ) contre (H1 ) où (
(H0 ) : σ = σ0
(H1 ) : σ 6= σ0 ,
au risque de première espèce α.
On détermine la variable aléatoire de décision : dans le cas de la variance S 2 semble appro-
priée. On ne traite ici que la cas où µ est inconnu, le cas où µ est connu étant relativement
peu fréquent.
Dans ce cas,
n−1 2
U= 2
S ∼ χ2n−1 ,
σ0
d’où la zone d’acceptation avec un risque de niveau α pour S 2 :
 2
σ02 2

σ0 2
I= χ α (n − 1) ; χ α (n − 1) ,
n − 1 1− 2 n−1 2
α α
où χ21− α (n − 1) et χ2α (n − 1) sont les quantiles d’ordre 1 − et de la loi de chi-deux à
2 2 2 2
n − 1 degrés de liberté. On sait en effet que :
P(S 2 ∈ I) = 1 − α.
Si la valeur s2 obtenue sur le n-échantillon considéré appartient à I, alors on accepte (H0 ),
sinon on rejette (H0 ).
Remarque. Attention : contrairement à l’intervalle de confiance sur la variance quand la
moyenne est inconnue, pour l’intervalle d’acceptation, les quantiles sont au numérateurs.

2.3 Test de conformité d’une proportion


Soit p la proportion d’individus présentant un certain caractère qualitatif. Soit p0 une valeur
plausible de p, fixée a priori. On teste (H0 ) contre (H1 ) où
(
(H0 ) : p = p0
(H1 ) : p 6= p0 ,
au risque de première espèce α. On détermine la variable aléatoire de décision : la fréquence F
semble appropriée.  r 
pq
On suppose que F suit approximativement une loi N p, .
n
La zone d’acceptation avec un risque de niveau α pour F est :
" r r #
p0 (1 − p0 ) p0 (1 − p0 )
I = p0 − t1− α2 ; p0 + t1− α2 ,
n n
α
où t1− α2 est le quantile d’ordre 1 − de la loi normale centrée réduite. On sait en effet que :
2
P(F ∈ I) = 1 − α.
Si la valeur de la proportion f obtenue sur le n-échantillon considéré appartient à I, alors
on accepte (H0 ), sinon on rejette (H0 ).
CHAPITRE VI. TESTS D’HYPOTHÈSE 21

3 Tests de comparaison
Il est fréquent de comparer des échantillons issus de deux groupes d’individus. On considère
deux variables aléatoires X1 et X2 définies sur chacun de ces groupes et on souhaite tester si
les caractères étudiés suivent la même loi. Les variables aléatoires que nous emploierons pour
ces tests sont la différence des moyennes d’échantillon, le quotient des variances d’échantillon
ou la différence des fréquences d’échantillon. En général, on travaille dans le cas particulier où
les tailles d’échantillons sont supérieures à 30.

3.1 Test de comparaison de deux moyennes


On considère que les variables aléatoires X1 et X2 suivent respectivement des lois normales
N (µ1 , σ1 ) et N (µ2 , σ2 ).
On teste (H0 ) contre (H1 ) où
(
(H0 ) : µ1 = µ2
(H1 ) : µ1 6= µ2 ,
au risque de première espèce α.
On dispose d’un échantillon de taille n1 pour X1 et de taille n2 pour X2 .

3.1.1 σ1 et σ2 connus
On pose
X 1 − X2
T =r 2 ,
σ1 σ22
+
n1 n2
la variable aléatoire de décision du test. L’hypothèse (H0 ) étant supposée vraie, T suit une
loi normale centrée réduite. La zone d’acceptation avec un risque de niveau α pour T est :
 
I = −t1− α2 ; t1− α2 ,
α
où t1− α2 est le quantile d’ordre 1 − de la loi normale centrée réduite. On sait en effet que :
2
P(T ∈ I) = 1 − α.
Si la valeur
x 1 − x2
t= r 2
σ1 σ22
+
n1 n2
obtenue sur les échantillons considérés appartient à I, alors on accepte (H0 ), sinon on rejette
(H0 ).

3.1.2 σ1 et σ2 inconnus
On remplace alors les variances théoriques par les estimateurs sans biais S1 et S2 de ces
variances. La variable de décision s’écrit :
X 1 − X2
T =r 2 .
S1 S22
+
n1 n2
22 CHAPITRE VI. TESTS D’HYPOTHÈSE

Les échantillons étant de tailles supérieures à 30, on peut montrer que T peut être approchée
par une loi normale centrée réduite.
La zone d’acceptation avec un risque de niveau α pour T est à nouveau :
 
I = −t1− α2 ; t1− α2 ,

α
où t1− α2 est le quantile d’ordre 1 − de la loi normale centrée réduite. On sait en effet que :
2

P(T ∈ I) = 1 − α.

Si la valeur
x 1 − x2
t= r 2
s1 s2
+ 2
n1 n2
obtenue sur les échantillons considérés appartient à I, alors on accepte (H0 ), sinon on rejette
(H0 ).

3.2 Test de comparaison de deux variances


On conserve les même notations que précédemment et on teste (H0 ) contre (H1 ) où
(
(H0 ) : σ1 = σ2
(H1 ) : σ1 6= σ2 ,

au risque de première espèce α.


On pose
S12
T = ,
S22

la variable aléatoire de décision du test. Sous l’hypothèse (H0 ), T suit une loi de Fischer-
Snédécor à (n1 − 1, n2 − 1) degrés de liberté. La zone d’acceptation avec un risque de niveau
α pour T est :
 
I = F α2 (n1 − 1, n2 − 1) ; F1− α2 (n1 − 1, n2 − 1) ,
α
où F α2 (n1 − 1, n2 − 1) est le quantile d’ordre de la loi de Fischer-Snédécor. On sait en effet
2
que :
P(T ∈ I) = 1 − α.

Remarque. On a :
1
F α2 (n1 − 1, n2 − 1) = .
F1− α2 (n2 − 1, n1 − 1)

Si la valeur t = s21 /s22 obtenue sur les échantillons considérés appartient à I, alors on accepte
(H0 ), sinon on rejette (H0 ).
CHAPITRE VI. TESTS D’HYPOTHÈSE 23

3.3 Test de comparaison de deux proportions


On considère un caractère qualitatif et on note p1 la proportion d’individus présentant ce
caractère dans une première population-mère, p2 la proportion dans une seconde population-
mère. On souhaite déterminer s’il s’agit d’une même population en ce qui concerne ce caractère.
on teste (H0 ) contre (H1 ) où (
(H0 ) : p1 = p2
(H1 ) : p1 6= p2 ,
au risque de première espèce α.
On suppose que F1 et F2 suivent approximativement des lois normales. Soient f1 et f2 les
fréquences observées sur les deux échantillons. On note
n1 f1 + n2 f2
p̂ = ,
n1 + n2
et on pose
F1 − F2
T =s  ,
1 1
p̂(1 − p̂) +
n1 n2
la variable aléatoire de décision du test. Sous l’hypothèse (H0 ), T suit approximativement une
loi normale centrée réduite.
La zone d’acceptation avec un risque de niveau α pour T est à nouveau :
 
I = −t1− α2 ; t1− α2 ,
α
où t1− α2 est le quantile d’ordre 1 − de la loi normale centrée réduite. On sait en effet que :
2
P(T ∈ I) = 1 − α.

Si la valeur
f1 − f2
t= s  
1 1
p̂(1 − p̂) +
n1 n2
obtenue sur les échantillons considérés appartient à I, alors on accepte (H0 ), sinon on rejette
(H0 ).

4 Test du Chi-deux d’ajustement


Soit X une variable aléatoire définie sur une population-mère Ω. On dispose d’un échantillon
de valeurs (x1 , . . . , xn ) et on souhaite tester si la distribution expérimentale observée correspond
à une distribution théorique donnée.
On définit sur Ω k événements E1 , . . . , Ek formant un système complet d’événements, c’est-
à-dire :
k
[
(i) Ω = Ei ,
i=1
(ii) ∀ i 6= j, Ei ∩ Ej = ∅.
24 CHAPITRE VI. TESTS D’HYPOTHÈSE

Dans le modèle théorique, on note p1 , . . . , pk les probabilités de ces événements.


Sur l’échantillon (x1 , . . . , xn ), on note n1 , . . . , nk les effectifs observés de ces événements. On
va les comparer aux effectifs théoriques obtenus pour un échantillon de taille n : ces effectifs
valent np1 , . . . , npk .

On teste
(H0 ) : la distribution observée est conforme à la distribution théorique choisie, contre
(H1 ) : la distribution observée n’est pas conforme à la distribution théorique choisie,
au risque de première espèce α.

• Décision concernant le test :

On considère la variable aléatoire de décision :


k
X (Ni − npi )2
χ2c = ,
i=1
npi

où Ni est la variable aléatoire qui compte l’effectif observé de l’événement Ei sur un échantillon
donné : Ni (x1 , . . . , xn ) = ni .
Sous l’hypothèse (H0 ), la variable aléatoire χ2c suit une loi du χ2 à k − 1 − r degrés de
liberté où r est le nombre de paramètres à estimer éventuellement pour connaître la distribution
théorique.
On impose à la zone d’acceptation d’être un intervalle ayant 0 pour borne inférieure, donc
on pose :
I = 0, χ21−α (k − 1 − r) ,
 

où χ21−α (k − 1 − r) est le quantile d’ordre 1 − α de la loi du χ2 à k − 1 − r degrés de liberté.

DESSIN

On note χ20 la valeur prise par χ2c sur l’échantillon :


k
X (ni − npi )2
χ20 = .
i=1
npi

Si χ20 ∈ I, alors l’hypothèse (H0 ) est acceptée, sinon elle est rejetée.

Remarque. On exige que les effectifs observés ni pour chaque événement soient ≥ 5. Si ce
n’est pas le cas, on fusionne deux ou plusieurs événements.
CHAPITRE VI. TESTS D’HYPOTHÈSE 25

5 Exercices
Exercice 1. Les spécifications d’un médicament indiquent que chaque comprimé doit contenir
en moyenne 1.5 g de substance active. 100 comprimés sont choisis au hasard dans la production,
puis analysés. Les mesures xi en g des quantités de substance active étant trop nombreuses on
donne leur somme et la somme de leurs carrés :
100
X 100
X
xi = 155 et x2i = 248.
i=1 i=1

Peut-on dire que la production respecte l’indication mentionnée pour α = 0.05 , α = 0.08 ?
Exercice 2. Sur 4000 naissances, on relève 2065 garçons. Cette observation est-elle conforme
à l’hypothèse selon laquelle la probabilité d’avoir un garçon à la naissance est de 0.5 ? Utilisez
successivement α = 0.05 puis α = 0.01.
Exercice 3. Dans une entreprise, deux machines conditionnent le même produit. Pour la
première, le poids du produit après conditionnement suit une loi normale de paramètres µ1 et
σ1 . Pour la seconde, il suit une loi normale de paramètres µ2 et σ2 . Sachant que σ1 = 5g et
σ2 = 7g, on prélève un échantillon de taille n1 = 10 de produits conditionnés par la première
machine et un échantillon de taille n2 = 20 de produits conditionnés par la seconde machine.
On obtient les valeurs suivantes : m1 = 1003g et m2 = 995g.
Tester l’hypothèse (H0 ) : µ1 = µ2 contre l’hypothèse (H1 ) : µ1 6= µ2 , au risque 0.02.
Exercice 4. Dans deux IUT Mesures Physiques, les notes de statistiques des étudiants d’al-
ternance 2de année suivent des lois normales dont les écart-types sont σ1 et σ2 . Un échantillon
n1 de 10 notes d’étudiants de l’IUT 1 a donné un écart-type de 5. Un échantillon n2 de 25
notes d’étudiants de l’IUT 2 a donné un écart-type de 3.
Tester l’hypothèse (H0 ) : σ1 = σ2 contre l’hypothèse (H1 ) : σ1 6= σ2 , au risque 0.05.
Exercice 5. Dans une population, soit p1 la proportion de femmes possédant le bac et p2 la
proportion d’hommes possédant le bac. Le tableau suivant correspond à la répartition de 200
individus choisis au hasard dans la population :
Femmes Hommes
possèdent le bac 32 26
ne possèdent pas le bac 64 78
Tester l’hypothèse (H0 ) : p1 = p2 contre l’hypothèse (H1 ) : p1 6= p2 , au risque 0.05.
Exercice 6. En 2003, la répartition (en pourcentage) des PME d’une région suivant six sec-
teurs industriels était la suivante :
secteur A 33% secteur D 14%
secteur B 22% secteur E 10%
secteur C 17% autres 4%
En 2010, on considère un échantillon de 200 PME dans la même région. On obtient la
répartition suivante :
secteur A 70 secteur D 24
secteur B 52 secteur E 14
secteur C 30 autres 10
Peut-on considérer que dans cette région l’environnement industriel n’a pas changé entre
2003 et aujourd’hui (au risque 0.05) ?
26 CHAPITRE VI. TESTS D’HYPOTHÈSE

Exercice 7. On donne la répartition de 75 jeunes arbres suivant leur taille en cm :

classes ]85 ; 90] ]90 ; 95] ]95 ; 100] ]100 ; 105] ]105 ; 110] ]110 ; 115] ]115 ; 120]
effectifs 3 15 22 18 12 3 2

Peut-on admettre, au risque de première espèce α = 0.05, l’hypothèse selon laquelle la taille
des arbres étudiés suit une loi normale ?

Vous aimerez peut-être aussi