Vous êtes sur la page 1sur 16

Chapitre 3

Th orie des estimateurs et tests d’hypoth ses

1. Définitions
1.1 La théorie des estimateurs
La théorie de l’estimation se divise en deux parties : l’estimation ponctuelle et l’estimation
par intervalle de confiance.
- L’estimation ponctuelle évalue le paramètre inconnu de la population à l’aide d’une
seule statistique calculée à partir de l’information fournie par l’échantillon.
- L’estimation par intervalle de confiance permet de construire un intervalle qui, avec
une certaine probabilité, contient la vraie valeur du paramètre inconnu
i) Définition
Considérons une variable aléatoire dont la densité de probabilité est , dépend d’un
paramètre inconnu .
Soient , ,…, les valeurs prises par dans un échantillon de taille .
Toute statistique =� , ,…, utilisée pour estimer est appelée « estimateur de »
et noté ̂.
Toute valeur =� , ,…, de cet estimateur ̂ est appelée « estimation ».

ii) Propriétés d’un bon estimateur


 Estimateur sans biais
est un estimateur sans biais du paramètre , si =
Remarque :
- Le biais d’un estimateur est la quantité = −
- Un estimateur de est dit asymptotiquement sans biais si lim →+∞ =
 Estimateur convergent
est un estimateur convergent s’il converge en probabilité vers , c'est-à-dire
∀� > , lim →+∞ � | − |<� =
Remarque :
∀ ℕ∗ , = lim →+∞ = , alors est convergent.
 Estimateur efficace

1
Un estimateur est efficace s’il est sans biais = et si sa variance est égale à sa

borne inférieure = , avec est appelée la quantité d’information rapportée par


� �

l’échantillon définie par :


� �
= [ � � , ,…, , ] =− [ � � , ,…, , ]
� �
Avec � , ,…, , =∏= ,
Remarque :
′ ′
Soient deux estimateurs sans biais de , et dit plus efficace que si :

<

1.2 Tests statistiques


Un test statistique est une procédure basée sur une fonction des observations (une statistique)
d’un ou plusieurs échantillons, et conduisent à rejeter avec un certain risque d’erreur, une
hypothèse généralement appelée hypothèse nulle et notée : . Celle-ci porte sur la population
d’où est issu l’échantillon ou sur les lois de probabilités considérées comme représentant cette
population.

i) Tests paramétriques
Dans un test paramétrique, l’hypothèse nulle porte sur la valeur d’un ou plusieurs paramètres
de la population-mère : : =

ii) Hypothèse alternative


C’est l’hypothèse que l’on oppose à l’hypothèse nulle. On la note . Elle peut être simple
: = ou composite : ≠ .

iii) Erreur de première espèce


C’est l’erreur qu’on commet lorsqu’on rejette l’hypothèse nulle alors que celle-ci est vraie. La
probabilité d’une telle erreur s’appelle risque de première espèce et se note .
=� / =� é /

iv) Erreur de seconde espèce


C’est l’erreur qu’on commet lorsqu’on ne rejette pas l’hypothèse nulle alors que celle-ci est
fausse. La probabilité d’une telle erreur s’appelle erreur de seconde espèce et se note .
=� / =� é /

2
v) Puissance d’un test
La puissance d’un test est la probabilité de rejeter quand elle est fausse. On la note .
=� / = −� é / = −
La puissance d’un test est une mesure de l’efficacité de ce test. Un test est considéré d’autant
plus précis que sa puissance est grande.

2. Tests sur la position et la dispersion pour deux échantillons indépendants


Le problème qui consiste à comparer la position (médiane ou moyenne) de deux échantillons
est un problème très courant. Il se pose par exemple, lorsqu’on veut vérifier l’efficacité d’un
traitement médical, comparer le rendement de deux méthodes de marketing…
Il existe deux types de tests :
- Les tests paramétriques basés sur une hypothèse de normalité de la variable d’intérêt
ou de l’estimateur considéré.
- Les tests non paramétriques (ou libres de distribution) reposant sur des propriétés des
statistiques d’ordre comme dans le test du signe ou le test des rangs signés de
Wilcoxon. Ces tests sont utilisés quand on étudie des petits échantillons pour lesquels
on ne peut/veut pas faire d’hypothèse sur la distribution de la variable d’intérêt.
2.1 Tests paramétriques
Nous allons nous restreindre aux tests de comparaison de deux groupes.

2.1.1 Test sur une différence de moyennes


1er cas : les variances sont connues
Considérons un test sur la différence de moyennes de deux populations de variances connues
au niveau . Lorsque ces deux populations sont normales ou lorsque ces populations sont
quelconques et > > .
̅ −̅ − −
Statistique utilisée : ↝� ,
� �
√ +
� �

Hypothèse nulle : : − =
Hypothèse alternative …………………………….Région critique
� �
i) : − < ……………………… ̅ − ̅ < − �√ +

� �
ii) : − > ……………………… ̅ − ̅ > �√ +

3
� �
̅ − ̅ <− �/ √ +
iii) : − ≠ ………………………
� �
̅ − ̅ > �/ √ +
{
̅ − ̅ est la différence observée des moyennes échantillonnales.

�/ et � sont les fractiles d’ordre / et lus dans la table de la loi Normale.


2ème cas : les variances sont inconnues mais supposées égales
̅ −̅ − −
Statistique utilisée : ↝ −
� − � + � − �
√� +� √ � +� −

Hypothèse nulle : : − =
Hypothèse alternative …………………………….Région critique
− � + − �
i) : − < … … … … … … ̅ − ̅ < − �√ + √
+ −

− � + − �
ii) : − > ………………… ̅ − ̅ > �√ + √
+ −

− � + − �
̅ − ̅ <− �/ √ + √
+ −
iii) : − ≠ …………………
− � + − �
̅ − ̅ > �/ √ + √
+ −
{
�/ et � sont les fractiles d’ordre / et lus dans la table de la loi de Student.

Remarque : si + − > on approxime la loi de Student par la loi Normale centrée


̅ −̅ − −
réduite : ↝� ,
� − � + � − �
√ � +� √ � +� −

Hypothèse nulle : : − =
Hypothèse alternative …………………………….Région critique
− � + − �
i) : − < ……………… ̅ − ̅ < − �√ + √
+ −

− � + − �
ii) : − > ………………… ̅ − ̅ > �√ + √
+ −

− � + − �
̅ − ̅ <− �/ √ + √
+ −
iii) : − ≠ …………………
− � + − �
̅ − ̅ > �/ √ + √
+ −
{
3ième cas : les variances sont inconnues et inégales

4
̅ −̅ − −
Statistique utilisée : ↝ + −
� �
√ +
� �

Hypothèse nulle : : − =
Hypothèse alternative …………………………….Région critique
� �
i) : − < … … … … … … … … … ̅ − ̅ < − �√ +

� �
ii) : − > ……………………… ̅ − ̅ > �√ +

� �
̅ − ̅ <− �/ √ +
iii) : − ≠ ………………………
� �
̅ − ̅ > �/ √ +
{
Remarque : si + − > on approxime la loi de Student par la loi Normale Centrée
̅ −̅ − −
Réduite : ↝� ,
� �
√ +
� �

Hypothèse nulle : : − =
Hypothèse alternative …………………………….Région critique
� �
i) : − < ……………………… ̅ − ̅ < − �√ +

� �
ii) : − > ……………………… ̅ − ̅ > �√ +

� �
̅ − ̅ <− �/ √ +
iii) : − ≠ ………………………
� �
̅ − ̅ > �/ √ +
{

2.1.2 Test sur un rapport de variances



Considérons un test sur le rapport des variances de deux populations normales au niveau .



Statistique utilisée : � ↝ℱ − , −


Hypothèse nulle : :� =

Hypothèse alternative…………………….Région critique

5
� �
i) : < ……………………… <ℱ −� − , −
� �

� �
ii) : � > … … … … … … … … … > ℱ� − , −



<ℱ −�/ − , −

iii) :� ≠ ………………………{

> ℱ�/ − , −

sont les variances empiriques observées à partir des échantillons tirés.


ℱ −� , ℱ� , ℱ −�/ et ℱ�/ sont lus dans la table de Fischer.

2.1.3 Test sur une différence de proportions


Pour > > , on tire deux échantillons sont tirés de deux populations normales
indépendantes.
̅ − ̅ − −
Statistique utilisée : � −� � −�
↝� ,
√ +
� �

̅ ̅ sont les proportions observées dans les échantillons. Soit ̅ la valeur commune
̅ + ̅
inconnue de ̅ ̅ ; ̅= +
.
̅ − ̅ − −
La statistique devient : ↝� ,
√ ̅ − ̅

+

Hypothèse nulle : : − =
Hypothèse alternative……………………………….Région critique

i) : > ……………………… ̅ − ̅ > �√ ̅ − ̅ +

ii) : < ……………………… ̅ − ̅ < − �√ ̅ − ̅ +

̅ − ̅ > �/ √ ̅ − ̅ +
: ≠ ………………………
̅ − ̅ <− �/ √ ̅ − ̅ +
{

6
2.1.4 Applications
Exercice 1
Deux équipes A et B utilisent un grand nombre de sportifs.
Soit X (respectivement Y) la variable aléatoire qui, à chaque joueur de l’équipe A
(respectivement B), associe son âge exprimé en années. On suppose que X et Y sont distribués
normalement, de paramètres inconnus et de même variance. X  N (m x ,  ) et Y  N (m y ,  )

Un échantillon aléatoire de 21 personnes est choisi parmi les joueurs de chaque équipe.
21
Pour la première équipe, on observe : X  24 et  ( X i  X ) 2  405 .
i 1

21
Pour la deuxième équipe, on observe : Y  22 et  (Y iY ) 2  320 .
i 1

Tester, au seuil de 1%, si les deux variables X et Y ont les mêmes valeurs centrales.

Exercice 2
Un atelier de réparation cherche à établir si la proportion de pièces détachées commandées est
plus élevée chez un fournisseur étranger (P1) que chez un fournisseur local (P2).
L’observation réalisée sur un échantillon aléatoire extrait des livraisons de chaque fournisseur
a permis de calculer :
Pour l’entrepreneur étranger : n1 = 90 et F1 = 0,8.
Pour l’entrepreneur local : n2 = 70 et F2 = 0,6.
Fi est la proportion de pièces détachées commandées, i = 1,2.
Tester au seuil de signification de 1% l’hypothèse :
H 0 : p1  p 2

Contre H 1 : p1  p 2

2.2 Tests non paramétriques


Contrairement aux tests paramétriques qui nécessitent que les données soient issues d’une distribution
paramétrée, les tests non paramétriques ne font aucune hypothèse sur la distribution sous-jacente des
données. On les qualifie souvent de tests « distribution free ». L’étape préalable consistant à estimer
les paramètres des distributions avant de procéder au test d’hypothèse proprement dit n’est plus
nécessaire (test de conformité en loi). En contrepartie, ils sont moins puissants que les tests
paramétriques lorsque les hypothèses sur les données peuvent être validées.

7
Lorsque les données sont quantitatives, les tests non paramétriques transforment les valeurs en rangs.
L’appellation tests de rangs est souvent rencontrée. Lorsque les données sont qualitatives, seuls les
tests non paramétriques sont utilisables.
2.2.1 Test de signe
Le test de signe s’applique dans le cas où la distribution de la population est symétrique. On
cherche à tester :
:� = � :� =� :� = �
{ ou encore { ou encore {
:� ≠ � :� < � :� > �
Pour effectuer ce test, on remplace chaque valeur de l’échantillon plus grande que � par (+)
et chaque valeur plus petite que � par (-) et on ignore les valeurs de l’échantillon égales à � .
Les hypothèses du test deviennent alors :

: = : = : =
{ ou encore { ou encore {
: ≠ : < : >

Règle de décision
Pour n < 30, on utilise la loi Binomiale et on a la règle de décision suivante :

� /
≠ …………….→ < < , avec { �
� /

< …………… → < , avec /� < /

> …………… → > , avec /� > /

est une variable binomiale de paramètre n – nombre d’observations pour lesquelles

�=� = .

Exemple:
Les résultats suivants représentent le poids des appelés à un casting publicitaire observé sur
un échantillon supposé normal de 25 jeunes hommes de 20 ans exprimé en kg :
68 – 62 – 78 – 82 – 85 – 93 – 71 – 79 – 82 – 91 – 77 – 73 – 81 – 88 – 66 – 71 – 75 – 76 – 61 –
66 – 73 – 70 – 75 – 70 – 79.
Au seuil de signification = %, utiliser le test de signe pour confronter l’hypothèse
:� = contre l’hypothèse :� > .

:� =
On cherche à tester {
:� >

8
De plus, il s’agit d’un test de signe. On remplace chaque valeur supérieure à 80 par (+) et
chaque valeur inférieure par (-). On obtient :
---+++--++--++-----------
Les hypothèses du test peuvent être formulées comme suit :

: =
{
: >

Soit la variable aléatoire qui représente le nombre de signe (+).


suit une distribution binomiale de paramètre = = (sous
���
La région critique est déterminée par la valeur tel que : � >

���
Soit � > = . . → =

Le nombre de signe (+) observé est = < = → On décide c'est-à-dire


l’hypothèse que le poids moyen des jeunes est � =

2.2.2 Test de rang


Supposons qu’on est en présence de deux populations dont on tire deux échantillons de tailles
respective . On cherche à tester les hypothèses :
:� é ℎ
{
:� é ℎ é
Soient :
* : la somme des rangs du premier échantillon.
+
* = + −

= �� =
Sous , est une variable aléatoire avec { + +
= �� =

Si de plus, , la distribution de U est approximativement normale de


paramètres �� et �� . On écrit alors ↝ � �� , �� .
On utilise un test bilatéral, on cherche :� / = −
Comme ↝ � �� , �� , on en déduit que :
= �� − �⁄ �� et = �� + �⁄ ��

Règle de décision :

9
Soit la valeur observée à partir de l’échantillon tiré. Si , on accepte

; autrement, on rejette cette hypothèse.

Exemple:
On étudie la taille des habitants, hommes et femmes, dans une certaine ville.
L’observation exprimée en cm a porté sur 12 hommes et 14 femmes.
Hommes : 157, 169, 173, 178, 162, 186, 161, 171, 169, 170,175 et 171.
Femmes : 178, 171, 166, 167, 158, 161, 173, 181, 180, 169, 161, 160, 163 et 162.
Au niveau de signification de 5%, peut-on affirmer qu’il y a une différence de taille entre les
hommes et les femmes ?

Nous avons deux échantillons de tailles respectives = = .


On cherche à tester :
: é ℎ ê
{
: é ℎ é
On utilise un test de rangs :
Observation 157 158 160 161 161 161 162 162 163
Origine H F F F F H F H F
Rang 1 2 3 4 4 4 7 7 9

166 167 169 169 169 170 171 171 171


F F F H H H H H F
10 11 12 12 12 15 16 16 16

173 173 175 178 178 180 181 186


F H H H F F F H
19 19 21 22 22 24 25 26

La somme des rangs du premier échantillon est donnée par :


= + + + + + + + + + + + =
La valeur observée par la statistique U est donnée par :
+ +
= + − = ∗ + − =


�� = = =

+ + ∗ + +
�� = √ =√ = ,

10
Les valeurs critiques sont données par :
= �� − �⁄ �� = − . ∗ . = .

= �� + �⁄ �� = + . ∗ . = .

Règle de décision :
On rejette On accepte On rejette
45.89 122.1024
= [ . ; . ] → On accepte l’hypothèse nulle c'est-à-dire qu’il n’y a pas
de différence significative entre les tailles des hommes et des femmes.
2.2.3 Test de Mann-Whitney
Ce test compte le nombre de couples pour lesquels < . L’alternance des et des
devrait être assez régulière sous . l’hypothèse alternative pourrait être que les sont plus
grands que les , ou plus petits ou plus fréquents dans une certaine plage de valeurs.
La statistique du test de Mann-Whitney :
<
, =∑= ∑ = { < }( , ), où { < } ={ . =

On peut également calculer cette statistique en considérant la somme de tous les rangs
après ordonnancement des observations de la première population. On a alors :
+
= −
+
De même pour = − , avec est la somme des rangs du deuxième échantillon.
� �+
Sachant que + = avec � = + , on trouve que + = .

Règle de décision :
Dans le cas d’un test bilatéral, on prend = min , .
On rejette si [ , � ], avec � donné par la table de Mann et Whitney.
En supposant l’hypothèse nulle que les positions centrales des deux populations sont les
mêmes, la variable U de Mann-Whitney vérifie :
+ +
= et = .

Ainsi, pour des échantillons de grande taille, la distribution de la variable aléatoire =


� �
�−
suit approximativement la loi Normale centrée réduite.
√� � � +� +

11
2.2.4 Test de Wilcoxon
Ce test est une extension du test des signes et de rangs. Il est utilisé pour comparer deux
échantillons qui ne peuvent se distinguer que par un glissement de leur position. De plus, pour
effectuer ce test, on suppose que la dispersion des deux échantillons est comparable.
Sur les N paires observées, il ne reste qu’un échantillon de n différences non nulles (on
élimine les éléments de différence nulle)
Soit ∀ = ,…, les différences entre chaque paire d’observations. Nous classons les
rangs des valeurs absolues de ces différences. La statistique de Wilcoxon tient compte
uniquement des rangs des observations.
La statistique de rangs signés de Wilcoxon s’écrit :

= ∑ ,∑
�> �<

Règle de décision :
+
Dans un test bilatéral, on accepte ] �⁄ , −�⁄ [ ; avec −�⁄ = − �⁄

Les tables ne donnent que les valeurs de �⁄ .

On rejette si < �⁄ dans un test unilatéral.

Dans le cas des grands échantillons, lorsque > , il peut être démontré que la somme des
� �+

rangs est pratiquement normale et on approxime par la variable suivante : = 4
.
√� � � +� +
4

Exemple :
Un échantillon aléatoire de 10 étudiants est consulté pour noter, dans un test à l’aveugle, la
qualité de deux types de boissons gazeuses, l’une locale et l’autre importée. Les notes sont sur
une échelle de 1 (pas bon) à 10 (excellent).
Utiliser le test de Wilcoxon pour tester l’hypothèse nulle « la distribution des différences entre
paires est centrée sur 0 » contre l’hypothèse alternative « la population des étudiants buveurs
de boissons gazeuses préfère la catégorie de l’importation »
Etudiant A B C D E F G H I J
Locale 2 3 7 8 7 4 3 4 5 6
Importée 6 5 6 8 5 8 9 6 4 9
Différence -4 -2 1 0 2 -4 -6 -2 -1 3

12
Tri 0 1 1 -2 2 -2 -3 -4 -4 -6
Rang 1 2 3 4 5 6 7 8 9
Rang 1.5 1.5 4 4 4 6 7.5 7.5 9
moyen
> 1.5 1.5 4
< 4 4 6 7.5 7.5 9

Ainsi, = min ; =
De plus, . 5 = (test unilatéral)

3. Tests sur échantillons appariés


L'appariement est en réalité plus large que le seul schéma "avant-après". Il est efficace à partir du
moment où nous réunissons les deux conditions suivantes : les individus dans chaque paire se
ressemblent le plus possible, ou appartiennent à une même entité statistique (un ménage, des jumeaux,
etc.) ; les paires d'observations sont très différentes les unes des autres.

Test sur la différence des moyennes test d’homogénéité


On observe un échantillon de paires d’observations que l’on notera , ,…, , ,
extraites de populations de moyennes � et � . Soient ̅ = ̅ − ̅ et � les variables aléatoires
respectivement de la moyenne et de l’écart-type estimé des différences entre les paires des
échantillons. On suppose que la distribution des différences est Normale.
On cherche à tester une moyenne observée et une moyenne théorique : l’hypothèse nulle sera
̅ −�

donc : :� − � = ; et la statistique = � ↝ −
� /√

Hypothèse alternative Rejet de

:� − � ≠ …………………… → ]− � , � [

:� − � > …………………… → > �

:� − � < …………………… → < − �

Exemple :
Considérons une étude sur l’efficacité de deux traitements pharmaceutiques A et B
administrés à des patients d’un laboratoire médical au niveau = . . Cinq patients ont été
choisis, les résultats sont donnés dans le tableau suivant :
Patient 1 2 3 4 5
= − 1.8 -3.9 -0.9 0.1 2.3

13
. − . − . + . + .
̅= ∑ = =− .

� = ∑ −̅

= [ . + . + − . + . + − . + . + . + .

+ . + . ]= .
̅ .
= = = .
� /√
√ . ⁄

. 5 − = = . d’après la table de la loi de Student


< . 5 ⇒ on accepte ⇒ Le traitement A est aussi efficace que le traitement B au niveau
= . .

14
15
16

Vous aimerez peut-être aussi