Vous êtes sur la page 1sur 12

Estimation et tests d'hypothèses

Chapitre 4 - Cours de Probabilités Statistique - SMC4

10 décembre 2021
Table des matières
0.1 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
0.1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . 1
0.1.2 Généralités . . . . . . . . . . . . . . . . . . . . . . . . 2
0.1.3 Intervalle de conance d'une moyenne . . . . . . . . . 2
0.1.4 Intervalle de conance d'une fréquence . . . . . . . . . 3
0.2 Tests d'hypothèses : . . . . . . . . . . . . . . . . . . . . . . . . 4
0.2.1 Exemple introductif : . . . . . . . . . . . . . . . . . . . 4
0.2.2 Principe du test . . . . . . . . . . . . . . . . . . . . . . 6
0.2.3 Test de conformité . . . . . . . . . . . . . . . . . . . . 7
0.2.4 Test de homogénéité . . . . . . . . . . . . . . . . . . . 8
0.2.5 Test du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . 9

0.1 Estimation

0.1.1 Introduction
Le problème de l'estimation statistique est le suivant : on cherche à
connaître les valeurs de certaines caractéristiques d'une variable aléatoire
grâce à des observations réalisées sur un échantillon. Un grand nombre de
problèmes statistiques consistent en la détermination de la moyenne, ou la
proportion, on y apporte généralement deux types de réponses :
1. On produit une valeur qui semble être la meilleure possible : on parle alors
d'estimation ponctuelle.
2. On produit un intervalle de valeurs possibles, compatibles avec les observa-
tions. C'est la notion d'intervalle de conance ou d'estimation par intervalle.

1
0.1.2 Généralités
On dispose d'une population totale de paramètres généralement incon-
nus : taille N , moyenne m, écart-type σ . De cette population est extrait un
échantillon de taille n, et de moyenne X supposée connue.
L'estimation d'un paramètre inconnu, par une fonction des valeurs de l'echan-
tillon, appelée "estimateur", ne constitue qu'une approximation, c'est pour
cela que certaines conditions sont requises pour l'estimateur :
-) La convergence : c'est le cas quand, lorsque la taille de l'échantillon n, en
croissant tend vers N , l'estimateur tend vers la vraie valeur à estimer.
-) L'absence de biais : il doit être sans bias, c'est le cas quand la moyenne de
toutes les estimations, obtenues à partir de tous les échantillons possibles de
taille n, est égale à la vraie valeur théorique à estimer .
A titre d'exemple, X est un estimateur de m, il possède bien ces deux qua-
lités, il est donc considéré comme un 'bon' estimateur.

Cependant, une estimation ponctuelle, quelque soit sa qualité, ne coincide


généralement jamais avec la vraie valeur inconnue, qu'elle est sensée estimer,
c'est pour cela qu'on cherche à déterminer un intervalle ( qu'on appelle In-
tervalle de Conance) où la vraie valeur inconnue à estimer a le maximum
de chance d'y appartenir, c'est ce qu'on appelle "faire une estimation par
intervalle" .

0.1.3 Intervalle de conance d'une moyenne


Pour un risque α donné,(en général α = 0,1 ;0.05 ;0.01), déterminons un
intervalle I , tel que la probabilité pour que la vraie valeur soit dedans est
égale 1 − α.

Cas d'un tirage avec remise (échantillon non exhaustif)


a) Cas où n ≥ 30
σ σ
I =]X − Uα √ , X + Uα √ [
n n
où Uα est déterminé à partir de la table de la loi normale.

2
b) Cas où n ≤ 30
Même intervalle, sauf que Uα est déterminé à partir de la table de la loi de
Student.

Cas d'un tirage sans remise (échantillon exhaustif)


r
σ σ N −n
mêmes résultats, en remplaçant √ par √ ; examiner les cas
n n N −1
n ≥ 30, et le cas n ≤ 30.
Remarque : Si σ est inconnu, alors on l'estimera par S ∗ , où
n
1 X
S ∗2 = (Xi − X)2
n − 1 i=1

Exemples :
1) Dans une fabrication portant sur 50000 articles, un sondage sur 400 ar-
ticles a donné un poids moyen par article de 200g avec un écart-type de 50g.
Estimer le poids moyen dans la fabrication, au seuil de conance de 95 %.
(voir TD, éxercice 1, série 3).
2) Un dosage de sucre dans une solution eectuée sur 8 prélèvements pro-
venant d'une même fabrication, a donné les résultats suivants, exprimés en
g/l :
19,5 - 19,7 - 19,8 - 20,2 - 20,2 - 20,3 - 20,4 - 20,8 .
Entre quelles limites varie la concentration moyenne de la fabrication, au
risque de 5 % (voir TD, éxercice 2, série 3). ?

0.1.4 Intervalle de conance d'une fréquence


On considère une population à deux caractères, A et son contraire A, de
proportions inconnues p, et 1 − p, supposées inconnues. De cette population,
est extrait un échantillon de taille n. Soit f la proportion du caractère A
dans l'échantillon. f est une estimation de p.

3
Cas d'un tirage avec remise (échantillon non exhaustif)
Dans ce cas l'intervalle de conance est :
p p
f (1 − f ) f (1 − f )
I =]f − Uα √ , f + Uα √ [
n n

où Uα est déterminé à partir de la table de la loi normale.

Cas d'un tirage sans remise ( échantillon exhaustif )


Dans ce cas l'intervalle de conance est :
p √ p √
f (1 − f ) N − n f (1 − f ) N − n
I =]f − Uα √ √ , f + Uα √ √ [
n N −1 n N −1
où Uα est déterminé à partir de la table de la loi normale.

Exemples :
Dans une école de 1OOO élèves, un sondage sur une classe de 35 élèves a per-
mis de constater que 7 d'entre eux avaient une légère infection contagieuse.
Estimer la proportion d'enfants atteints dans l'école au risque de 5% (voir
TD, éxercice 3, série 3).

0.2 Tests d'hypothèses :

Illustrons la problématique du test par un exemple concret :

0.2.1 Exemple introductif :


Le taux d'apparition d'un concert chez une population est supposé égal
à p = 26%. Un nouveau traitement a été essayé sur un échantillon de 80
personnes a révélé que 18 d'entre eux ont développé ce type de cancer. Peut

4
on conclure, au vu de cette expérience, que ce nouveau traitement est ecace
dans le traitement du cancer ?
Sur le plan statistique, deux hypothèses s'opposent :

H0 (L'hypothèse nulle) consiste à armer que le traitement n'a pas eu


d'eet sur la maladie, ce qui se traduirait par :
18
H0 : =p
80
H1 (L'hypothèse alternative) qui consiste à dire que le traitement a eu
un eet sur la maladie, ce qui se traduirait par :
18
H0 : >p
80
18
Si c'est H0 qui est retenu, la diérence observée entre et p ne serait
80
due qu'au hasard, ou plus exactement aux uctuations d'échantillonnage.

L'hypothèse retenue, en n de compte, sera basée sur l'idée suivante :


-) si p appartient à l'intervalle de conance de niveau α, déterminé à partir
18
de la valeur observée f = , on dira la diérence entre f et p n'est pas si-
80
gnicative, et donc L'hypothèse retenue est H0 , avec un risque de se tromper
égal à α .
-) sinon c'est H1 qui est retenue .

Dire que p appartient à l'intervalle de conance de niveau α, déterminé


18
à partir de la valeur observée f = est équivalent à dire que (le critère du
80
test) :
f −p
∈ [−Uα , Uα ]
√σ
n
où Uα est déterminé à partir de la table de la loi Normale, pour les grands
échantillons ( n ≥ 30 ), ou la loi de Student, pour les petits échantillons (
n ≤ 30 ).

Par la suite, le critère du test dépendra de la nature du test, et le choix


de l'hypothèse à retenir dépendra de l'appartenance ou non, de sa valeur à
l'intervalle [−Uα , Uα ].

5
0.2.2 Principe du test
Dénition 1 : Un test est la donnée de deux hypothèses contraires :
H0 : hypothèse nulle.
H1 : hypothèse alternative.

Dénition 2 : Une statistique T , est une fonction des variables aléa-


toires représentants l'échantillon dont la valeur numérique obtenue pour
l'échantillon permet de distinguer entre H0 vraie, et H0 fausse. La loi de
T est supposée connue sous H0 .

Connaissant la loi de probabilité suivie par la statistique T sous l'hypo-


thèse H0 , il est possible d'établir une valeur seuil, Tα seuil de la statistique,
pour une probabilité donnée appelée "le niveau de signication du test" :
α.

Dénition 3 : La région critique correspond à l'ensemble de valeurs


telle que
T > Tα
et le niveau de signication est telle que : P (T > Tα ) = α, avec P (T ≤ Tα ) =
1 − α.

Il existe deux stratégies pour prendre une décision en ce qui concerne un


test d'hypothèses : La première xe a priori la valeur du seuil de signication
α, et la deuxième établit la valeur de la probabilité critique observé αobs à
posteriori .

Règle de décision 1 :
Sous l'hypothèse "H0 vraie", et pour un seuil de signication α xé :
-) si la valeur Tobs de la statistique T , calculée à partir de l'échantillon ob-
servé, est supérieur à la valeur seuil Tα , (Tobs > Tα ) , alors H0 est rejetée,
au risque d'erreur α, et l'hypothèse H1 est acceptée.
-) sinon, H0 est acceptée.

Règle de décision 2 :
La probabilité critique αobs telle que P (T ≥ Tobs ) est évaluée.
-) si la valeur αobs ≥ 0.05, alors H0 est rejetée, car le risque d'erreur d'accep-
ter H0 est trop important, et l'hypothèse H1 est donc acceptée.

6
-) sinon, H0 est acceptée.

0.2.3 Test de conformité


Comparaison d'une moyenne observée à une moyenne théorique
Etant donné un échantillon de taille n, de moyenne X , peut il être consi-
déré comme représentatif de la population mère de moyenne m et d'écart-type
σ?

Le critère du test dans ce cas est :


X −m
T =
√σ
n

Si σ est inconnu, il sera estimé par S ∗ (voir paragraphe 1.3.2 ci-dessus).


L'hypothèse H0 : "X = m" sera retenu si T ∈ [−Uα , Uα ], où Uα est dé-
terminé à partir de la table de la loi Normale, pour les grands échantillons (
n ≥ 30 ), ou la loi de Student, pour les petits échantillons ( n < 30 ).

Exemple : 40 moteurs représentant un échantillon d'une certaine fabri-


cation ont fonctionné en moyenne pendant 260 jours, sans problème. Peut on
considérer que cet échantillon comme appartenant à la fabrication habituelle,
si dans celle-ci, le nombre de jours pendant lesquels un moteur a fonctionné
sans problème suit une loi Normale de moyenne 240 jours, et d'écart-type 50
jours. (voir TD, éxercice 4, série 3).

Comparaison d'une fréquence observée à une fréquence théorique


On dispose un échantillon de taille n, où la fréquence d'apparition d'un
certain caractère est f , est il représentatif d'une population mère, où la fré-
quence d'apparition de ce caractère est p ?
Le critère du test dans ce cas est :
f −p
T =q
p(1−p)
n

7
L'hypothèse H0 : "f = p" sera retenu si T ∈ [−Uα , Uα ], où Uα est déter-
miné à partir de la table de la loi Normale, pour les grands échantillons (
n ≥ 30 ), ou la loi de Student, pour les petits échantillons ( n < 30 ).

Exemple : Le taux d'écoute d'un certain programme de télévision est


supposé constant et égal à 15 %. A la suite d'une nouvelle présentation, un
sondage limité à 80 téléspectateurs a révélé que 18 d'entre eux ont suivi ce
programme. Peut on dire que la nouvelle présentation ait inuencé le public,
au seuil de 5 % ?(voir TD, éxercice 5, série 3).

0.2.4 Test de homogénéité


Comparaison de deux moyennes observées
On dispose de deux échantillons de moyennes respectives X 1 et X 2 . Il
s'agit de déterminer si ces deux échantillons proviennent d'une même popu-
lation mère (homogénéité), ou non. Dans le cas de deux populations mères
diérentes, on supposera que les paramètres sont m1 et σ1 pour la première
population, m2 et σ2 pour la deuxième population.
Le critère du test est :
X1 − X2
T =q 2
σ1 σ2
n1
+ n22
La loi utilisée pour ce critère dépend des tailles des échantillons :
-) Si n1 et n2 ≥ 30, on utilise la loi Normale N (0, 1).
-) Si n1 ou n2 ≤ 30, on utilise la loi de Student de paramètre n1 + n2 − 2.
Si σi est inconnu, il sera estimé par Si∗ (voir paragraphe 1.3.2 ci-dessus).

Exemple : Deux lycées diérents ont obtenu au cours d'une épreuve du


baccalauréat les résultats suivant :
Lycée Nb d'élèves Note moyenne Ecart-type
A 65 13,2 1,8
B 85 12,5 1,6
Ces résultats ont-ils une diérence signicative au risque de 1 % ? (voir
TD, éxercice 6, série 3)

8
Comparaison de deux fréquences observées
On note f1 et f2 les fréquences d'apparition d'un certain caractère dans
deux échantillons 1 et 2, extraits respectivement de deux populations de pa-
ramètres (pA , pB ). Il s'agit de déterminer si ces deux échantillons proviennent
de deux populations ayant la même proportion du caractère observé. Deux
hypothèses s'opposent :
H0 : pA = pB = p
contre :
H1 : pA 6= pB
Le critère du test est :
f2 − f1
T =q
p(1 − p)( n11 + 1
n2
)

Dans le cas où p est inconnu, il sera estimé par :


n1 f 1 + n2 f 2
p=
n1 + n2
Le test se conclut de la même façon que précédemment.

Exemple : Au cours de deux livraisons diérentes, on a relevé 48 articles


défectueux parmi les 800 constituant la première livraison, et 32 articles dé-
fectueux parmi les 400 constituant la deuxième livraison. Les deux pourcen-
tages d'articles défectueux observés diérents-ils d'une manière signicative,
au seuil de 5% ?(voir TD, éxercice 7, série 3).

0.2.5 Test du χ2
On reprend la présentation du χ2 faite dans le chapitre précédent, les
notations sont les mêmes .

Les données
On considère dans ce paragraphe deux variables qualitatives, X , et Y
observées simultanément sur n individus, leurs modalités respectives sont
x1 , ..., xl , ...xr et y1 , ..., yh , ...yc . Le plus souvent ces données sont présentées
dans un tableau, de dimension rxc, appelé "table de contingence", son terme

9
générique nlh est le nombre d'individus ayant, à la fois, la modalité xl de X ,
et yh de Y .
y1 ... yh ... yc sommes
x1 n11 ... n1h ... n1c n1.
.. .. .. .. ..
. . ... . ... . .
xl nl1 ... nlh ... nlc nl.
.. .. .. .. ..
. . ... . ... . .
xr nr1 ... nrh ... nrc nr.
sommes n.1 ... n.h ... n.c n

Les quantités nl. , l = 1, ..., r et nP appelés les eectifs


.h , h = 1, ..., c sontP
marginaux
P , ils sont Pdénis par nl. = h=1,c nlh et n.h = l=1,r nlh , et il véri-
ent l=1,r nl. = h=1,c n.h = n .

Propriété préliminaire
On peut établir l'équivalence des trois propriétés suivantes :
i) tous les prols-lignes sont égaux.
ii) tous les prols-colonnes sont égaux .
iii) ∀(l, h)∀ ∈ {1, ..., r}x{1, ..., c} :
nl. n.h
nlh =
n
Si une table de contingence vérie ces trois propriétés, on peut alors dire
qu'il n'existe aucune forme de liaison entre les deux variables considérées
X et Y . Il apparaît donc naturel, que la la mesure de la liaison va se faire
en évaluant l'écart entre la situation observée et l'état de non liaison qu'on
dénit par iii) .

Dénition du Khi-deux
En conséquence, pour mesurer la liaison sur une table de contingence, on
utilise donc l'indice appelé "Khi-deux", dénit par :

2 r c {nlh − nl.nn.h }2
χ = Σl=1 Σh=1 nl. n.h
n

10
Le coecient χ2 est toujours positif ou nul et il est d'autant plus grand que
la liaison est forte. Le seuil de signication α (risque) étant xé, on utilise la
table de la loi du χ2 pour déterminer la valeur de χ2α , et on applique la règle
de décision suivante :

1)χ2 ≤ χ2α , l'hypothèse H0 est retenue .


2)χ2 > χ2α , l'hypothèse H0 est rejetée.

H0 étant l'hypothèse d'absence de liaison entre les deux variables X et Y .

Exemple : Deux établissements A et B ont obtenu les résultats qui


suivent. Tester aux seuils 10% et 5% l'hypothèse qu'il n'y a pas de dié-
rence signicative entre les résultats obtenus par les deux établissements.
reçus admissibles Eliminés Total
Etablissement A 75 53 32 160
Etablissement B 140 62 38 240
215 115 70 400
(voir TD, exercice 8, série 3).

11

Vous aimerez peut-être aussi