Académique Documents
Professionnel Documents
Culture Documents
Cours Echantillonnage Et Estimation S3
Cours Echantillonnage Et Estimation S3
Année Universitaire
2020-2021
par
Raby GUERBAZ
Chapitre 1
L’usage s’est établi de noter la fonction de répartition d’une variable normale centrée
réduite par le symbole Φ. En clair
Z a
Φ(a) = P(X ≤ a) = f (x)dx.
−∞
Remarque : Comme la loi Normale est continue alors, Φ(a) = P(X ≤ a) = P(X < a).
Proposition 3. Soit X une variable aléatoire de loi normale N (0, 1), alors
1
Pr. Raby Guerbaz Université Hassan II
2
Pr. Raby Guerbaz Université Hassan II
Figure 1.4 – P(Z < −1) = φ(−1) est l’aire sous la courbe de f
Ceci est vrai pour les inégalités strictes ( < au lieu ≤) car la loi N(0,1) est continue.
La fonction de répartition de la loi normale est déficile à exploité sous sa forme intégral,
par suite on fait recourt à l’utilisation des tables statistiques.
Remarque : φ(a) = P(Z < a) est l’aire comprit entre la courbe de la densité f de Z,
l’axe des absisses et la droite vérticale x = a.
Propriétés :
– La loi normale N (0, 1) est symétrique autour de 0. C à d φ(−a) = 1 − φ(a)
– Soit X de loi normale N (µ, σ), alors le mode=mediane = moyenne=µ.
– 95% des valeurs de la loi normale N (0, 1) sont concentrées dans l’intervalle [µ −
3σ, µ + 3σ].
3
Pr. Raby Guerbaz Université Hassan II
FX (a) = P(X ≤ a)
X −µ a−µ
= P( )≤ )
σ σ
a−µ
= Φ( )
σ
Application : Soit X une variable aléatoire de loi N (3, 2). Pour calculer la probabilité
P(3 ≤ X ≤ 7), on procède comme suit : Soit Z la variable aléatoire Z = X−3 2
. Comme
X ∼ N (µ, σ) alors par la proposition précédente Z ∼ N (0, 1). En plus
3−3 X −3 7−3
P(3 ≤ X ≤ 7) = P( ≤ ≤ )
2 2 2
= P(0 ≤ Z ≤ 2)
= φ(2) − φ(0).
On utilise maintenant la table de la loi centrée et réduite qui donne les valeurs de φ.
On a vu dans le chapitre précédent que les lois discrètes tendent les une vers les autres
sous certaines conditions de type la taille de la population est grande.
4
Pr. Raby Guerbaz Université Hassan II
Définition 6. Soient X1 , ..., Xn n variables aléatoires indépendantes de loi normale N (0, 1).
Alors
X12 + X22 + X32 + ... + Xn2
suit une loi Khi-deux de n degrés de liberté. Cette loi est notée χ2(n) , et elle possède la
fonction de densité suivante
f (x) = Cn xn/2−1 e−x/2 ,
R
ou Cn est telle que R f (x)dx = 1.
Propriétés :
1. Si n > 2, alors le mode de la loi χ2(n) est égal à n − 2.
2. E(X) = n et V ar(X) = 2n.
3. Additivités : Soient X1 ∼ χ2(n1 ) ,...,Xk ∼ χ2(nk ) k variables aléatoires indépendantes,
alors
X = X1 + X2 + ... + Xk
suit une χ2(n) de degré de libérté n = n1 + n2 + ... + nk .
Proposition 7. Soit X une variable aléatoire de loi χ2(n) , alors, quand n devient grand
(n → +∞),
X −n
√ −→ N (0, 1),
2n
5
Pr. Raby Guerbaz Université Hassan II
ou bien
√
X ≈ N (n, 2n).
(en pratique l’approximation est satisfaisante quand n > 30)
fF (n1 ,n2 ) (x) = cn1 ,n2 tn1 /2−1 (n1 t + n2 )(n1 +n2 )/2 , t > 0.
6
Pr. Raby Guerbaz Université Hassan II
7
Chapitre 2
Echantillonnage et Estimation :
L’ échantillonnage à l’aveuglette
est une technique simple et peu coûteuse. Cet échantillonnage n’est pas normalement
représentatif de la population cible, parce qu’on ne sélectionne des unités d’échantillonnage
dans son cas que si on peut y avoir facilement et commodément accès. Les reporters des
stations de télévision sont, en outre, souvent à la recherche de soi-disant interviews de
gens de la rue pour déterminer comment la population perçoit un enjeu ou une question.
Au volentariat
C’est une des méthodes les plus utilisées actuellement sur le marché des médicaments.
Les compagnies pharmaceutiques sont les pionnières en la matière. Les unités statistiques
décident de faire partie de l’étude de leur propre gré.
8
Pr. Raby Guerbaz Université Hassan II
Définition 11. Une base de sondage est une liste des individus à partir de laquelle on
prélève un échantillon. Cette liste détermine la population observée. L’annuaire téléphonique
est un bon exemple de base de sondage.
Définition 12. Un échantillonnage est dit non exhaustif si tout élément extrait de la
population, pour effectuer l’échantillonnage, est remis dans cette population après avoir
relevé de ses caractéristiques. Sinon l’échantillonnage est exhaustif.
Remarque 2.1.1. Notez qu’en pratique, il est plus courant de prélever un échantillon sans
remise mais dans la plupart des applications, on a affaire à de très grandes populations.
En pareil cas, la probabilité que la même unité statistique soit sélectionnée plus d’une fois
est très faible. Il n’y aura alors pratiquement plus de différence entre les deux méthodes
9
Pr. Raby Guerbaz Université Hassan II
Echantillonnage systématique
C’ est une technique où les unités statistiques sont choisis à intervalle régulier dans la
base de sondage.
1. Numéroter les unités statistiques de 1 à N.
2. Calculer l’intervalle de sélection que l’on appelle aussi le pas de sondage. On le cal-
cule en divisant la taille totale de la population obsérvée par la taille de l’échantillon
recherchée k = Nn .
3. Tirer au hasard une unité statistique entre la première et la k ime unité. Par exemple
la ieme unité avec 1 ≤ i ≤ k.
4. Pour complèter l’échantillon, on choisit la (i+k)ime unité, et la (i+2k)ime .....jusqu’a
(i + (n − 1)k)ime . On constitut ainsi un échantillon de taille (n-1+1=n) unités.
Il consiste à choisir des groupes (toute une grappe de raisin) plutôt que de choisir des
unités statistiques isolées (un seul raisin).
Définition 13. Une grappe est un sous-ensemble non homogènes de la population défini
selon la proximité. Il est plus facile de faire une liste des groupes et de choisir au hasard
parmi ces dizaines de groupes et d’interroger toutes les unités statistiques du groupe.
Par exemple : un groupe d’élèves faisant partie de la même classe, des habitants du
même immeuble, des habitants du même quartier ou même des équipes sportives d’une
ligne amateur.
Echantillonnage statifié
10
Pr. Raby Guerbaz Université Hassan II
Définition 14. Les startes sont des sous-ensembles de la population ayant des caractéristiques
communes. Donc ce sont des groupes homogènes.
Par exemple, on peut classer des individus par leurs âges , regrouper des produits par leur
types, des étudiants par diplôme préparé, des entreprises pas secteur d’activité.
Définition 15. X1 , ..., Xn sont n v.a. indépendantes et de même loi (celle de X) ; il est
appelé n-échantillon ou échantillon de taille n de X. Après tirage au sort, (X1 , ..., Xn )
prend les valeurs (x1 , ..., xn ).
La réalisation unique (x1 , ..., xn ) de l’échantillon (X1 , ..., Xn ) est l’ensemble des valeurs
observées.
11
Pr. Raby Guerbaz Université Hassan II
Définition 16. Une statistique Y sur un échantillon (X1 , ..., Xn ) est une v.a., fonction
mesurable des Xk ; Y = f (X1 , ..., Xn ). Après réalisation, la v.a. Y (statistique) prend la
valeur f (x1 , ..., xn ).
Remarque 2.2.1. La moyenne empirique est une variable aléatoire qui prend des valeurs
différentes sur chaque échantillon. Ces valeurs sont dites : moyennes observées.
Exemple : 1) La taille des marocains suit une loi normale N (1, 6; 0, 2). Alors la taille
0,2
moyenne de 8 personnes prise au hasard X suit une loi normale N (1, 6; √ 8
).
2) Dans une entreprise A, les salaires sont distribués suivant une loi inconnue de moyenne
10000 et d’écart type 1200 DH. Alors la moyenne des salaires de 150 salariés pris au hasard
suit une loi normale N (10000, √1200
150
).
12
Pr. Raby Guerbaz Université Hassan II
Exemple : On suppose que la distribution des salaires dans une entreprise est telle
que 20 % touchent moins que 2000 DH. On tire un échantillon de 1000 salariés, alors
par le théorème central limite ( comme n > 30, np > 5, et n(1 − p) > 5) la proportion
pb des salariés
q parmi les 1000 qui touchent moins que 2000 DH suit une loi Normale
0,2×0,8
N (0, 2, 1000
).
n
!
1X
E(S 2 ) = E (Xi − X)2
n i=1
n
1 X 2
= E X − E(X)2
n i=1 i
n
1X
= E(Xi2 ) − E(X)2
n i=1
On obtient
σ2
E(Xi2 ) = σ 2 + µ2 , et E(X)2 = + µ2 ,
n
13
Pr. Raby Guerbaz Université Hassan II
On remplace en haut,
1 σ2
E(S 2 ) = n(σ 2 + µ2 ) − ( + µ2 )
n n
1 2
= (1 − )σ .
n
Comme 1 − n1 < 1 ; alors E(S 2 ) < σ 2 .
Interprétation : En moyenne, la variance dans l’échantillon est plus faible que dans la
population-mère.
2
Proposition 20. Si le caractère X à étudier suit une loi normale N (µ, σ) alors n Sσ2 suit
une loi de khi-deux à (n-1) degrés de liberté, notée χ2(n−1) .
2
Attention, si X n’est pas normale, il n’est pas du tout sûr que n Sσ2 suive, même ap-
proximativement, une loi du khi-deux. Nous n’avons pas ici l’analogue du théorème central
limite.
Interprétation : Le fait que la taille de la population est petite et le tirage est effectué
sans remise rend les résultats plus précis car la variance est plus petite.
14
Pr. Raby Guerbaz Université Hassan II
l’échnatillon. Une question naturelle se pose : Quelle est l’estimation la plus bonne ? Et
bonne dans quel sense ?
Les paramètres à estimer seront notés les par des lettres grecques minuscules
– µ pour la moyenne de la population.
– σ pour l’écart type de la population.
– σ 2 pour la variance de la population.
– p pour la proportion dans la population.
Les estimateurs ( v.a. ou statistiques) seront notés par des majuscules
– X pour la moyenne empirique.
– S 2 pour la variance de la population.
– pb pour la proportion empirique.
Les réalisations d’échantillon seront notées par des lettres latines minuscules
– x pour la moyenne de l’échantillon.
– s pour l’écart type de l’échantillon.
– σ 2 pour la variance de l’échantillon.
– f pour la proportion dans l’échantillon.
Définition 21. Un estimaeur T = f (X1 , ..., Xn ) d’un paramètre θ est une statistique, et
sa réalisation f (x1 , ..., xn ) sera appelée estimation ponctuelle de θ.
Définition 23. 1. Si le biais B(T ) est nul ( E(T ) = θ), alors on dit que T est un
estimateur sans biais.
2. Si le biais B(T ) est positif, ( E(T ) > θ), alors l’estimateur surestime la valeur
du paramètre.
3. Si le biais B(T ) est négatif, ( E(T ) < θ), alors l’estimateur sousestime la valeur
du paramètre.
15
Pr. Raby Guerbaz Université Hassan II
Exemple : Soit X une variable aléatoire qui suit une loi de Poisson de paramètre λ,
alors
E(X) = V ar(X) = λ.
On désire estimer λ, on tire un échantillon (X1 , X2 , ..., Xn ) de taille n de même loi que X.
1. Nous avons E(X) = E(X) = λ, alors la moyenne empirique X est un estimateur
sans biais du paramètre λ d’une loi de Poisson.
2. Cependant E(S 2 ) = (n−1)
n
V ar(X) = (n−1)
n
λ < λ. Par suite la variance empirique S 2
est estimateur biaisé du même paramètre. Le biais est négatif (B(S 2 ) = − n1 ,) alors
l’estimateur sousestime la valeur du paramètre.
En effet, l’etimateur X est sans biais car E(X) = µ. De plus il est convergeant car
V ar(X)
V ar(X) = → 0, quand n tend vers l’infinit.
n
On peut montrer qu’il est de variance minimale.
16
Pr. Raby Guerbaz Université Hassan II
En effet,
n
1X n−1 2
E(Se2 ) = E(Xi − X)2 = σ .
n j=1 n
Alors pour corriger le biais on prend l’estimateur
n e2
S2 = S .
n−1
On remarque que
n n n−1 2
E(S 2 ) = E(S 2 ) = σ = σ2.
n−1 n−1 n
Proposition 27. La statistique ( la variance corrigée )
n
2 n 1 X
Ś = S2 = (Xi − X)2
n−1 n − 1 j=1
17
Pr. Raby Guerbaz Université Hassan II
K
Proposition 28. La fréquence empirique pb = n
est l’estimateur efficace de p.
En effet, pb = Kn est un estimateur sans biais car, comme X1 , X2 , ..., Xn sont des variables
de Bernoulli, alors
E(X1 ) + E(X2 ) + ... + E(Xn )
p) =
E(b
n
p + p + ... + p
=
n
n×p
= = p.
n
En plus pb est un estimateur convergeant, car
V ar(X1 ) + V ar(X2 ) + ... + V ar(Xn )
V ar(b
p) =
n2
p(1 − p) + p(1 − p) + ... + p(1 − p)
=
n2
p(1 − p)
= .
n
alors V ar(bp) −→ 0, quand n → +∞.
Exemple d’application : On s’interesse à la proportion p des étudiants ayant un
Baccalauréat Sciences-économiques inscrit en S4 à la FSJES Aı̈n Sebaâ. On a prélevé
indépendamment deux échantillons de tailles n1 = 120 et n2 = 150. On constate que 48
étudiants du premier échantillon et 66 du second ont une un bac Sciences économiques.
Calculer 3 estimations ponctuelles de p.
Solution : Une première estimation utilise le premier échantillon de taille 120. Comme 48
étudiants parmi les 120 sont scientifiques, alors une première estimation ponctuelle de la
48
proportion est f1 = 120 = 0, 4. La deuxième estimation est calculée à partir du deuxième
66
échantillon f2 = 150 =. Maintenant, en regroupant les deux échantillons, on construit un
échantillon de taille 270. Sur cet échantillon on trouve 114 étudiants Scientifiques, alors
48+66
la fréquence des scientifiques dans l’échantillon global est f3 = 120+150 = 114
270
.
18
Pr. Raby Guerbaz Université Hassan II
Dire qu’on aie sur à 95 % que la durée moyenne d’attente des clients dans une grande
distribution est entre 1 minute et 3 minutes, revient à dire que [1 ; 3] est un intervalle de
confiance pour la durée moyenne d’attente avec un niveau de confiance de 95 %.
Autrement dit, P(1 < µ < 3) = 0, 95).
Remarque 2.4.1. Plus le niveau de confiance est élevé, plus la certitude est grande que
la méthode d’estimation produira une estimation contenant la vraie valeur de θ).
– Les niveaux de confiance les plus utilisés sont 90%, 95% et 99%.
– α est appelé le seuil ou le risque, et 1 − α est le niveau de confiance.
Il faut que le caractère quantitatif X étudié ( Salaire, loyer, PIB,...) suit une loi normale
N (µ, σ). On distingue de cas :
a) L’écart type σ est connu : On se fixe le risque α et on cherche dans la table de la
loi normale la valeur u1−α , telle que
X −µ
P −u1− α2 ≤ √ ≤ u1− α2 = 1 − α,
σ/ n
Ceci est équivalent à
σ σ
P X − u1− 2 √ ≤ µ ≤ X + u1− 2 √
α α = 1 − α,
n n
u1− α2 est le fractile d’ordre 1 − α2 de la loi normale centrée réduite.
Résultat : Si x est une réalisation de X, l’intervalle de confiance de la moyenne µ de
seuil 1 − α est
σ σ
IC = x − u1− α2 √ ≤ µ ≤ x + u1− α2 √
n n
b) L’écart type σ est inconnu : Si l’écart type σ est inconnu, alors on l’estime par
celui de l’échantillon corrigé noté s. Mais dans ce cas on a recours à une nouvelle loi de
probabilité : La loi de Student.
19
Pr. Raby Guerbaz Université Hassan II
X −µ
√S
n
Par suite
S S
P X − tn−1 √ ≤ µ ≤ X + tn−1 √ = 1 − α.
n n
En remplaçant x et S par leurs valeurs calculées sur l’échantillon, on obtient l’intervalle
de confiance sur la moyenne µ :
s s
IC = x − tn−1 √ , x + tn−1 √
n n
Lorsque la taille n de l’échantillon est grande (pratiquement dès que n > 30), on
appliquera les formules de l’intervalle de confiance sur µ, même si l’échantillon n’est pas
issu d’une population normale. En effet, le théorème central limite nous permet de dire
20
Pr. Raby Guerbaz Université Hassan II
21
Pr. Raby Guerbaz Université Hassan II
σ s q
−n
de confiance on multiplie seulement √ et √ par le facteur N N −1
.
n n
C’est à dire " r r #
σ N −n σ N −n
x − u√ , x + u√
n N −1 n N −1
" r r #
s N −n s N −n
x − u√ , x + u√
n N −1 n N −1
" r r #
s N −n s N −n
x − tn−1 √ , x + tn−1 √
n N −1 n N −1
N −n
Remarque 2.4.3. Si N est très grand devant n, le facteur d’exhaustivité devient
N −1
proche de 1, donc on le néglige. On principe, on juge N grand par rapport à n, si le taux de
sondage n/N < 5% ; c’est à dire si l’échantillon constitue moins de 5% de la population.
(n−1)×S 2
En plus σ2
suit une loi khi-deux de (n-1) degrés de libérté. On écrit
(n − 1) × S 2
∼ χ2n−1 .
σ2
Soient k1− α2 et k α2 les quantiles d’ordre 1 − α/2 et α/2 de la loi χ2n−1 . C’est à dire
(n − 1) × S 2 (n − 1) × S 2
P ≤ k α2 = α/2, et P ≤ k1− α2 = 1 − α/2
σ2 σ2
Alors
(n − 1)S 2
P k α2 < < k1− α2 = F (k1− α2 ) − F (k α2 )
σ2
= 1 − α/2 − α/2
= 1 − α.
22
Pr. Raby Guerbaz Université Hassan II
et par suite un intervalle de confiance pour l’ecart type σ est donné par
" √ √ #
s n−1 s n−1
p ; p .
k1− α2 k α2
Exemple : Si 37 personnes ont voté pour le candidat aux élections, sur 136 électeurs
sondé, les bornes d’un intervalle de confiance sur p la proportion des élécteurs dans tout
le pays qui voteront pour ce candidat, au niveau de confiance 0.95, est dans comprie entre
" r r #
f (1 − f ) f (1 − f )
f −u , f +u
n n
37
avec u = 1, 96, et f = 136
.
23
Pr. Raby Guerbaz Université Hassan II
On trouve ainsi la taille de l’échantillon n imposée par la contrainte budgétaire. Mais est
ce que cet échantillon est suffisant pour représenter la population entière ? ? ? ! ! ! !. Aucun
moyen de répondre.
Cependant une deuxième approche ( Plus rationnelle) consiste à utiliser la marge d’erreur
tolérée ( la précision de l’étude) pour calculer la taille minimale de l’échantillon afin qu’il
représente la population.
24
Pr. Raby Guerbaz Université Hassan II
Exemple : Un magasin réalise un chiffre d’affaire d’au moins 1000 euros et d’au plus
2000 euros par jour. Pour estimer le chiffre d’affaire moyen on peut utiliser un écart type
de
2000 − 1000
σ= = 250 euros
4
Donc pour une marge erreur maximale e = 25 euros et un niveau de confiance de 95%, la
taille de l’échantillon doit être
2
1, 96 × 250
n≥ = 384, 16.
e
Alors il faut éffectuer l’étude sur 385 jours pour estimer le chiffre d’affaire moyen avec une
marge d’erreur petite e=25 euros. Une étude très précise demande une taille d’échantillon
très grande.
De la même manière que dans le cas de la moyenne, si l’on se fixe la marge d’erreur e
à ne pas dépasser (avec une probabilité 1 − α), on cherche n tel que
r
f (1 − f )
u = e.
n
ou bien
u2 f (1 − f )
n= .
e2
Mais comme on n’a pas encore tiré l’échantillon, la fréquence dans l’échantillon est incon-
nue. Alors comment peut-on procéder ?
25
Pr. Raby Guerbaz Université Hassan II
Premier cas : Si l’on n’a au préalable aucune information sur f, on prend la valeur de f
qui nous donne la plus grande taille d’échantillon n. Ceci est réalisé si f (1 − f ) prend sa
valeur maximale qui est 0,25.
En effet, pour chercher la valeur de f qui maximise la fonction g(f ) = f (1 − f ) = f − f 2 ,
on dérive la focntion g, on obtient g 0 (f ) = 1 − 2f , et g 0 (f ) = 0 si f = 1/2 = 0, 5
En conclusion, la valeur maximale de f (1 − f ) est atteinte en f = 0, 5. ( f (1 − f ) =
0, 25 = 1/4)
Résultat : La taille d’échantillon est donnée par la formule
u2 × 0, 25 u2
n= = .
e2 4e2
Exemple : Pour mener une enquête ( un sondage ) tel que le pourcentage soit connu
(estimé) avec une marge d’erreur maximale de 10%, et ce pour un niveau de confiance de
95%, il faut interroger au moins
1, 96 × 0, 25
n≥ = 96
(0, 1)2
Deuxième cas : Si on sait à l’avance que la proportion qu’on désir estimer est inférieur
à 0,5. Par si on sait que la proportion ne peut pas dépasser 23%, alors la taille de
l’échantillon qu’il faut prendre est
1, 96 × 0, 23 × 0, 77
n≥
(0, 1)2
Troisième cas : Si on sait à l’avance que la proportion qu’on désir estimer est supperieur
à 0,5. Par si on sait que la proportion dépasse 80 %, alors la taille de l’échantillon qu’il
faut prendre est
1, 96 × 0, 8 × 0, 2
n≥
(0, 1)2
26
Pr. Raby Guerbaz Université Hassan II
Si la proportion des pièces défectueuses dans l’échantillon de taille 60 est de 77%, alors
un intervalle de confiance pour la proportion dans la population de taille 5000 est
" r r r r #
0, 77 × 0, 23 5000 − 60 0, 77 × 0, 23 5000 − 60
0, 77 − 1, 96 × ; 0, 77 + 1, 96 × ×
60 5000 − 1 60 5000 − 1
A partir de la marge d’erreur e on calcul toujours les tailles d’échantillons. Dans le cas de
la moyenne la marge d’erreur est :
r
σ N −n
e = u√
n N −1
Exemple : Sur une population de 5000 habitant, on veut estimer une proportion avec une
marge d’erreur de 10% et un niveau de confiance de 95%. Donnez la taille de l’échantillon
nécessaire ?
Solution : On calcul la taille de l’échantillon sans prendre en compte la taille de la
population
u2 (1, 96)2
n= 2 = = 97
4e 4(0, 1)2
et maintenant on corrige
n = ...
27
Chapitre 3
Tests d’hypothèse :
Un test statistique est un mécanisme visant à trancher entre deux hypothèses à partir de
résultats observés sur un ou plusieurs échantillon(s). On formule une hypothèse de départ,
appelée hypothèse nulle et souvent notée (H0 ) et il s’agit de décider si on rejette ou non
cette hypothèse par opposition à une contre-hypothèse appelée hypothèse alternative et
souvent notée (H1 ).
Exemple : Un contrôleur de réception a reçu un lot de pièces sensées être de 5 mm de
diamètre ; mais il se demande si, par suite d’un étiquetage douteux, on ne lui a pas livré
par erreur des pièces de 6 mm de diamètre.
On sait que la machine fournie une légères variation et que le diamètre des pièces est en
fait distribué selon une loi normale N(m ; 0, 6). Le problème est de savoir si on a bien
m = 5, et pas plutôt m = 6.
1. Si une pièce prise au hasard dans le lot mesure exactement 5 mm, est-on sûr que le
lot est bon ?
2. Si elle fait exactement 5.8 mm, est-on sûr que le lot est mauvais ?
3. Est-ce la même chose si, sur 10 pièces prises au hasard, on a un diamètre moyen de
5.8 mm ?
4. A partir de quelle valeur du diamètre moyen peut on dire que le lot est mauvais ?
Procédure des tests d’hypothèse Pour réaliser un test d’hypothèse, il y a un enchai-
nement strict d’actions à effectuer. Cela commence par la formulation de l’hypothèse dans
le domaine considéré (médical, économique, social...) et sa traduction en événèments pro-
babilistes liés à H0 . On doit ensuite considérer la statistique d’écart (la loi théorique de
la différence) et choisir un seuil (alpha) de décision. On calcule la valeur de la statistique
d’écart pour nos valeurs puis il faut la comparer à la valeur théorique de la statistique
d’écart pour le seuil choisi ( α = 5% par exemple )et en déduire si on accepte H0 ou
non. Enfin, le calcul (ou la lecture) de la ”p-value” associé au dépassement de la valeur
28
Pr. Raby Guerbaz Université Hassan II
de la statistique d’écart permet de conclure de façon fine sur le fait que la différence est
significative ou non.
σ X −µ
X ∼ N (µ, √ ), on peut aussi écrire Z = ∼ N (0, 1).
n √σ
n
29
Pr. Raby Guerbaz Université Hassan II
(
H0 : µ = µ0
H1 : µ > µ0
On considère comme variable de décision X. La région critique ( de rejet ) du test est
de la forme :
Irejet =]c, +∞[,
ou la frontière de la région critique aura pour expression :
σ
c = µ0 + z1−α √ .
n
et on détermine la valeur de z1−α à partir de la table de la loi normale centrée et réduite
tel que φ(z1−α ) = 1 − α.
Conclusion du test : Si x, la valeur de la moyenne sur l’échantillon, appartient à la
zone de rejet, alors on rejette (H0 ), sinon, on ne la rejette pas (on accepte H0 ).
30
Pr. Raby Guerbaz Université Hassan II
X − µ0
Z= ,
√σ
n
Ierejet =] − ∞, −z1−α [.
a) Test bilateral :
Les hypothèses du test se présentent sous la forme :
(
H0 : µ = µ0
H1 : µ 6= µ0
On considère comme variable de décision X. La région d’acceptation du test comme
un intervalle symètrique autour de µ0 de la forme :
Iaccept = [c1 , c2 ],
ou :
La marge d0 erreur e e
z }| { z }| {
σ σ
c1 = µ 0 − z1− α2 √ et c2 = µ0 + z1− α2 √
n n
et on détermine la valeur de z1− α2 à partir de la table de la loi normale centrée et réduite
tel que φ(z1− α2 ) = 1 − α2 = N iveau de conf
2
iance+1
comme dans les intervalles de confiance.
Conclusion du test : Si x, la valeur de la moyenne sur l’échantillon, appartient à la
zone d’acceptation ( x ∈ [c1 , c2 ],) alors on accepte (H0 ), sinon, on rejette H0 .
X − µ0
Z=
√σ
n
31
Pr. Raby Guerbaz Université Hassan II
A) Cas ou σ est inconnu : La démarche est la même que pour le test précédent mais
la variance de la population n’étant pas connue, elle est estimée par la variance corrigée
S 2 . La variable X étudiée au niveau de la population suit une loi normale N (µ, σ) avec σ
inconnu.
X − µ0
T = suit une loi de Student de (n-1) degrés de liberté.
√S
n
X − µ0
T =
√S
n
32
Pr. Raby Guerbaz Université Hassan II
X − µ0
T =
√S
n
33
Pr. Raby Guerbaz Université Hassan II
c) Test bilateral :
Les hypothèses du test se présentent sous la forme :
(
H0 : µ = µ0
H1 : µ 6= µ0
On considère comme variable de décision X. La région d’acceptation du test comme
un intervalle sypetrique autour de µ0 de la forme :
Iaccept = [c1 , c2 ],
ou :
La marge d0 erreur e e
z }| { z }| {
s s
c1 = µ0 − t(n−1,1− α2 ) √ et c2 = µ0 + t(n−1,1− α2 ) √
n n
et on détermine la valeur de t(n−1,1− α2 ) à partir de la table de Student comme pour les
intervalles de confiance.
Conclusion du test : Si x, la valeur de la moyenne sur l’échantillon, appartient à la
zone d’acceptation ( x ∈ [c1 , c2 ],) alors on accepte (H0 ), sinon, on rejette H0 .
X − µ0
T =
√S
n
34
Pr. Raby Guerbaz Université Hassan II
si σ 2 = σ02 , alors
nT 2
P kn(α/2) < 2 < kn(1−α/2) = 1 − α
σ0
Alors
σ02 kn(α/2) σ 2 kn(1−α/2)
P < T2 < 0 = 1 − α.
n n
L’intervalle d’acceptation pour T 2 au risque α est
2
σ0 kn(α/2) σ02 kn(1−α/2)
Iaccept = ,
n n
Conclusion :
Si t2 , la réalisation de T 2 ∈ Iaccept , on accept (H0 ), sinon, on rejette (H0 ).
a) Pour Unilatéral à droite : H1 de la forme σ > σ02 .
On cherche la région critique sous la forme ]t1 , +∞[.
Soit kn,(1−α) le réel déterminé dans la table de la loi χ2n par
2
nT
P < kn,(1−α) = 1 − α.
σ02
35
Pr. Raby Guerbaz Université Hassan II
.
L’intervalle de rejet pour Z au risque α, pour une test unilateral à droite et à gauche est
respectivement
[kn,(1−α) , +∞[ et ] − ∞, kn,α ].
B ) cas ou la moyenne µ est inconnue : On a
(n − 1)S 2
∼ χ2n−1 .
σ2
On reprend les résultats de a) en remplaçant T 2 par S 2 et χ2n par χ2n−1 .
Résumé :
Intervalle d’acceptation pour S 2 dans un test bilatéral :
2
σ02
σ0
Iaccept = kn−1, α2 ; kn−1,1− α2 .
n−1 n−1
σ02
Irejet = −∞, kn−1,α .
n−1
36
Pr. Raby Guerbaz Université Hassan II
On q
prend comme variable de décision pb. Si p = p0 , alors la loi de pb est normale
N (p0 , p0 (1−p
n
0)
).
On se fixe α, le risque de type 1 et on connait la taille de l’échantillon.
On détérmine la région critique du test :
(a) Test bilateral p 6= p0
L’intervalle d’acceptation pour pb au risque α est
" r r #
p0 (1 − p0 ) p0 (1 − p0 )
Iaccept = p0 − u1−α/2 ; p0 + u1−α/2 .
n n
Conclusion :
Si la fréquence f sur l’échantillon, appartient à Iaccept , on accept (H0 ), sinon, on rejette
(H0 ).
(a) Test Unilateral à droite p > p0
L’intervalle de rejet de pb au risque α est
# r #
p0 (1 − p0 )
Irejet = p0 + u1−α ; 1 .
n
Conclusion :
Si la fréquence f sur l’échantillon, appartient à Irejet , on rejette (H0 ) en faveur de H1 ,
sinon, on accepte (H0 ).
(a) Test Unilateral à gauche p < p0
L’intervalle de rejet de pb au risque α est
" r "
p0 (1 − p0 )
Irejet = 0, p0 − u1−α .
n
Conclusion :
Si la fréquence f sur l’échantillon, appartient à Irejet , on rejette (H0 ) en faveur de H1 ,
sinon, on accepte (H0 ).
Ce type de test est appelé souvent : test d’une hypothèse simple contre une
hypothèse simple.
Soit X une variable aléatoire qui dépend d’un paramètre θ inconnu. Le problème est de
choisir entre deux valeurs numériques θ0 et θ1 du paramètre θ.
(
H0 : θ = θ0
H1 : θ = θ1
37
Pr. Raby Guerbaz Université Hassan II
Le risque de type I est donné, ainsi que la taille de l’échantillon. Calcul de la région
critique W, Z étant la variable de décision. Si θ1 > θ0 le test est traité le la même manière
qu’un test unilateral à droite.
Alors la région de rejet est de la forme Irejet = [θ0 + e, ∞[.
Conclusion : Si θ1 ∈ Irejet , alors on rejette (H0 ) en faveur de H1 et on dit que θ = θ1 .
Sinon on accepte (H0 ) est on décide que θ = θ0 .
Le seuil de signification d’un test statistique est le plus petit risque pour lequel la
valeur observée de la statistique du test permet le rejet de H0 . En anglais, le seuil de
signification se nomme ”p-value”. Il s’agit d’une quantité qui est toujours calculée dans
les logiciels spécialisés qui permettent d’effectuer des tests d’hypothèses.
Règle de décision en fonction du seuil de signification αs : Si le risque suppérieur au
seuil de signification, alors on rejette H0 . (Voir la solution de l’examen de l’année dernière)
38
Pr. Raby Guerbaz Université Hassan II
Remarque 3.3.1. Il n’est pas possible de calculer la puissance d’un test si on ne spécifie
pas préciséement H1 . Par exemple, on ne peut pas effectuer des calculs sous l’alternative
µ > 11000. Il faut spécifier une valeur simple, par exemple µ = 13000F r.
On dispose d’un échantillon de taille n1 issu de la population 1 qui donne une moyenne x1
et un écart type s1 et un deuxième échantillon de taille n2 de la population 2 qui donne
une moyenne x2 et un écart type s2 .
39
Pr. Raby Guerbaz Université Hassan II
Si µ1 = µ2 , alors
X − X2
q1 2 ∼ N (0, 1)
σ1 σ22
n1
+ n2
(a) test bilatéral µ1 6= µ2 : Soit u1−α/2 le réel déterminé comme habituellement dans
la table de la loi centrée réduite N (0, 1).
L’intervalle d’acceptation pour Z au risque α est
Iaccept = −u1−α/2 ; +u1−α/2
Conclusion : Si
x1 − x2
z=q 2 ∈ Iaccept .
σ1 σ22
n1
+ n2
on accepte H0 , sinon on rejette H0 en faveure de H1 .
(b) test Unilatéral à droite µ1 > µ2 : Soit u1−α le réel déterminé comme habituelle-
ment dans la table de la loi centrée réduite N (0, 1).
L’intervalle de rejet est de la forme
Irejet = [u1−α ; ∞[
Conclusion : Si
x −x
q 1 2 2 2 ∈ Irejet .
σ1 σ
n1
+ n22
on rejette H0 , sinon on accepte H0 .
(c) test Unilatéral à gauche µ1 < µ2 : Soit u1−α le réel déterminé comme habituel-
lement dans la table de la loi centrée réduite N (0, 1).
L’intervalle de rejet est de la forme
Conclusion : Si
x −x
q 1 2 2 2 ∈ Irejet .
σ1 σ
n1
+ n22
on rejette H0 , sinon on accepte H0 .
40
Pr. Raby Guerbaz Université Hassan II
Si µ1 = µ2 , alors
X − X2
q 12 ∼ N (0, 1)
s1 s22
n1
+ n2
Conclusion : Si
x1 − x2
z=q 2 ∈ Iaccept .
s1 s22
n1
+ n2
Irejet = [u1−α ; ∞[
Conclusion : Si
x −x
q 1 2 2 2 ∈ Irejet .
s1 s
n1
+ n22
on rejette H0 , sinon on accepte H0 .
(c) test Unilatéral à gauche µ1 < µ2 :
Soit u1−α le réel déterminé comme habituellement dans la table de la loi centrée réduite
N (0, 1).
L’intervalle de rejet est de la forme
41
Pr. Raby Guerbaz Université Hassan II
Conclusion : Si
x −x
q 1 2 2 2 ∈ Irejet .
s1 s
n1
+ n22
on rejette H0 , sinon on accepte H0 .
Si µ1 = µ2 , alors
X1 − X2
q q ∼ tn1 +n2 −1
n1 s21 +n2 s22 1 1
n1 +n2 −2 n1
+ n2
Conclusion : Si
x1 − x2
z=q q ∈ Iaccept .
n1 s21 +n2 s2
2
1 1
n1 +n2 −2 n1
+ n2
Irejet = [t1−α ; ∞[
Conclusion : Si
x1 − x2
q q ∈ Irejet .
n1 s21 +n2 s22 1 1
n1 +n2 −2 n1
+ n2
42
Pr. Raby Guerbaz Université Hassan II
Soit u1−α le réel déterminé comme habituellement dans la table de la loi de Student de
degrés de liberté n1 + n2 − 1
L’intervalle de rejet est de la forme
Conclusion : Si
x1 − x2
q q ∈ Irejet .
n1 s21 +n2 s2
2
1 1
n1 +n2 −2 n1
+ n2
Conclusion : Si
s21
f= ∈ Iaccept .
s22
43
Pr. Raby Guerbaz Université Hassan II
F1 − F2
Z=p ∼ N (0, 1).
p(1 − p) n11 + 1
n2
n1 f 1 + n2 f 2
f= .
n1 + n2
Alors, la statistique de test devient
F1 − F2
Z=p ∼ N (0, 1).
f (1 − f ) n11 + 1
n2
44
Pr. Raby Guerbaz Université Hassan II
Conclusion : Si
f1 − f2
z=p ∈ Iaccept .
f (1 − f ) n11 + 1
n2
Irejet = [u1−α ; ∞[
Conclusion : Si
f1 − f2
p ∈ Irejet .
f (1 − f ) n11 + 1
n2
Conclusion : Si
f1 − f2
p ∈ Irejet .
f (1 − f ) n11 + 1
n2
45