Vous êtes sur la page 1sur 194

Statistique inférentielle

Fadoua BADAOUI

18 février 2019

Fadoua BADAOUI (INSEA) Inférence 18 février 2019 1 / 194


Overview
1 Statistiques d'Échantillonnage

Introduction

Loi de la moyenne d'un échantillon

2 Estimation ponctuelle et par intervalles

Méthodes d'estimation

Qualités d'un estimateur

Estimation par intervalles

3 Tests d'hypothèses

Introduction et méthodes

Exemples de tests usuels

Tests uniformément plus puissants


Fadoua BADAOUI (INSEA) Inférence 18 février 2019 2 / 194
Chap 1 :Introduction

Un aspect important de l'inférence statistique consiste à obtenir des

estimations ables des caractéristiques d'une population à partir d'un

échantillon extrait de cette population. C'est un problème de décision

concernant des paramètres tels que :

l'espérance mathématique notée m ou µ (pour un caractère

mesurable),

la variance ou l'écart-type notée s,

la proportion p (pour un caractère dénombrable).

Fadoua BADAOUI (INSEA) Inférence 18 février 2019 3 / 194


Introduction

Par exemple, pour évaluer la proportion de consommateurs favorables à un

nouveau produit on devrait interroger tous les consommateurs. Cela

pourrait s'avérer très coûteux voire impossible. Grâce aux méthodes

statistiques il est possible d'avoir une idée assez précise sur cette proportion

en interrogeant seulement une partie de la population des consommateurs.


Cette partie de la population est appelée échantillon.

Fadoua BADAOUI (INSEA) Inférence 18 février 2019 4 / 194


Introduction

Figure  échantillonnage

Fadoua BADAOUI (INSEA) Inférence 18 février 2019 5 / 194


Dénition

Faire de l'inférence statistique sur un paramètre θ consiste à :

Estimer θ, c'est donner une valeur approchée de ce paramètre, à partir

des résultats obtenus sur un échantillon aléatoire extrait de la

population. Ces estimations peuvent revêtir deux formes :

soit une valeur unique, l'estimation ponctuelle, ou valeur la plus


probable que prendra θ,
soit un ensemble de valeurs appartenant à un intervalle, l'estimation
par intervalle de conance. Un intervalle de conance doit avoir de 
grandes chances  de contenir la vraie valeur de θ, il est toujours
associé à un risque d'erreur α.
Eectuer des tests d'hypothèses sur θ.
Fadoua BADAOUI (INSEA) Inférence 18 février 2019 6 / 194
Introduction

Dénition
Une population est l'ensemble des éléments qui forme le champs d'analyse

d'une étude particulière.

Dans l'exemple de la population des consommateurs ci-dessus, l'attitude

d'un individu envers le nouveau produit est une variable aléatoire (v.a.) qui

peut être modélisée par


1

si l'individu est en faveur du nouveau produit
X =

0 sinon.

Fadoua BADAOUI (INSEA) Inférence 18 février 2019 7 / 194


Échantillonnage

Notons au passage que la proportion p de consommateurs favorables au

nouveau produit est égale à P{X = 1}. D'une manière générale, chaque

individu de la population peut être associé à une v.a. décrivant la

caractéristique objet de l'étude.

Du fait que ces individus appartiennent à la même population, les v.a.

associées sont identiquement distribuées selon une loi de probabilité

dépendant d'un paramètre θ∈R (ou Rd ) que l'étude cherche à déterminer.

Fadoua BADAOUI (INSEA) Inférence 18 février 2019 8 / 194


Échantillonnage

Dénition
Les v.a. X1 , . . . , Xn constituent un échantillon aléatoire de taille n (ou un

n-échantillon) si elles sont indépendantes et identiquement distribuées.

On dit que x1 , . . . , xn est un n-échantillon observé si, pour tout 1 ≤ i ≤ n,


xi est une réalisation de Xi .

Grâce à l'indépendance de X1 , . . . , Xn , la fonction densité (ou masse) de

probabilité fX du vecteur X = (X1 , . . . , Xn ) est donnée par

n
Y
∀(x1 , . . . , xn ) ∈ Rn , fX (x1 , . . . , xn ) = f (xi ).
i=1

Fadoua BADAOUI (INSEA) Inférence 18 février 2019 9 / 194


Dénition
Soit X1 , . . . , Xn un échantillon aléatoire et soit T : Rn −−−−→ R (ou Rd )
une fonction qui ne dépend pas du paramètre θ. La v.a. aléatoire

Y = T (X) est appelée statistique.

Exemple
les quantités
X1 + . . . + Xn 1
et S2 = (Xi − X )2
X
X =
n n−1

sont deux statistiques. Les quantités


x1 + . . . + xn 1
et s2 = (xi − x)2
X
x=
n n−1

sont des valeurs observées de ces statistiques. M


Fadoua BADAOUI (INSEA) Inférence 18 février 2019 10 / 194
Dénition
Les statistiques X et S2 s'appellent respectivement la moyenne et la
variance de l'échantillon.

Voici quelques propriétés de ces statistiques.

Proposition
Soient x1 , . . . , xn des nombres réels et x leur moyenne. Alors

n n
(xi − x)2 = (xi − x)2 .
X X
min
x∈R
i=1 i=1

n n
(n − 1)s 2 = (xi − x)2 = xi2 − nx 2 .
X X
(1)
i=1 i=1

Fadoua BADAOUI (INSEA) Inférence 18 février 2019 11 / 194


Démonstration.

Pour la première assertion, on a

n n
(xi − x)2 = (xi − x + x − x)2
X X

i=1 i=1
n n n
2
(x − x)2
X X X
= (xi − x) + 2(x − x) (xi − x) +
i=1 i=1 i=1
| {z }
=0
n
(xi − x)2 + n(x − x)2
X
=
i=1

Pour montrer la deuxième assertion, il sut de développer

− x)2
Pn Pn
i=1 (x et de remarquer que i=1 xi = nx .
Fadoua BADAOUI (INSEA) Inférence 18 février 2019 12 / 194
Proposition
Soit X1 , . . . , Xn un échantillon issu d'une loi de moyenne µ et de variance

σ 2 < ∞. Alors

σ2
1- E[X ] = µ, 2- Var (X ) = , et 3- E[S 2 ] = σ 2 .
n

Fadoua BADAOUI (INSEA) Inférence 18 février 2019 13 / 194


Table of Content
1 Statistiques d'Échantillonnage

Introduction

Loi de la moyenne d'un échantillon

2 Estimation ponctuelle et par intervalles

Méthodes d'estimation

Qualités d'un estimateur

Estimation par intervalles

3 Tests d'hypothèses

Introduction et méthodes

Exemples de tests usuels

Tests uniformément plus puissants


Fadoua BADAOUI (INSEA) Inférence 18 février 2019 14 / 194
Loi de la moyenne d'un échantillon

Considérons un échantillon X1 , . . . , Xn issu d'une loi de moyenne µ et de


σ
variance σ2. Nous savons que µX = µ et σX = √ .
n

Théorème
Si l'échantillon X1 , . . . , Xn est issu d'une loi normale N (µ, σ 2 ), alors

σ2
1- La v. a. X suit la loi normale N (µ, ).
n
S2
n
1 X
2- La v. a. (n − 1) = (Xi − X )2 suit la loi de khi-deux à n−1
σ2 σ2
i=1
degrés de liberté.

√ X −µ
3- La v. a. T = n suit une loi de student à n−1 degrés de
S
liberté. On note : T ∼ t(n − 1).

Fadoua BADAOUI (INSEA) Inférence 18 février 2019 15 / 194


Loi de la moyenne d'un échantillon

Remarque
En particulier, si l'échantillon X1 , . . . , Xn est issu d'une loi normale
N (µ, σ 2 ), alors
X −µ
σ = Z ∼ N (0, 1).

n

Fadoua BADAOUI (INSEA) Inférence 18 février 2019 16 / 194


Le théorème central limite (TCL)

En pratique, la loi mère de l'échantillon X1 , . . . , Xn n'est pas totalement

connue. Le résultat suivant permet d'approcher la loi de X.


Théorème
[TCL] Soit (Xn )n une suite de v.a. indépendantes et de même loi de

σ 2 < ∞.
Pn
moyenne µ et de variance Posons Sn = i=1 Xi , alors

n√ X − µ o
∀x ∈ R, lim P n ≤ x = P{Z ≤ x}.
n→∞ σ

Fadoua BADAOUI (INSEA) Inférence 18 février 2019 17 / 194


Le théorème central limite (TCL)

Remarque
Sous les hypothèses du Théorème 2, le TCL conduit souvent à faire,
pour n assez grand, l'approximation suivante :
n√ X − µ √ x − µ o
∀x ∈ R, P{X1 + . . . + Xn ≤ x} = P n ≤ n n
σ σ
n √ xn − µ o
'P Z ≤ n .
σ

En pratique on considère souvent que n est assez grand dès que


n ≥ 30 .

Fadoua BADAOUI (INSEA) Inférence 18 février 2019 18 / 194


Le théorème central limite (TCL)

Exemple
Soit X une v.a. qui suit une loi Binômiale(n, p). Nous savons que X
peut s'écrire comme somme de n v.a. indépendantes et de même loi de
B ernoulli(P ), i.e. X = X1 + . . . + Xn . D'où, si n ≥ 30,
n X − np x − np o
∀x ∈ R, P{X ≤ x} = P p ≤p
np(1 − p) np(1 − p)
n x − np o
'P Z ≤ p .
np(1 − p) M

Fadoua BADAOUI (INSEA) Inférence 18 février 2019 19 / 194


Le théorème central limite (TCL)
Remarque
Si on connaît σ et on observe X , on peut utiliser Z pour faire de
l'inférence concernant µ car ce paramètre est le seul inconnu dans ce
cas. Cependant, lorsque σ est inconnu, l'utilisation de Z devient
impossible. Student (W.S Gosset, 1900) a proposé dans ce cas d'utiliser
plutôt la statistique T suivante :

n
(X −µ) √
T = √ σ
= n (X S−µ) ∼ t(n − 1)
S 2 /σ 2

qui est le rapport de deux v.a. indépendantes, la première étant la v.a.


Z de loi N (0, 1) et la seconde est la racine carrée de la v.a. S 2 /σ 2 et qui
est distribuée comme la variable χ2n−1 /(n − 1).
Fadoua BADAOUI (INSEA) Inférence 18 février 2019 20 / 194
Table of Content
1 Statistiques d'Échantillonnage

Introduction

Loi de la moyenne d'un échantillon

2 Estimation ponctuelle et par intervalles

Méthodes d'estimation

Qualités d'un estimateur

Estimation par intervalles

3 Tests d'hypothèses

Introduction et méthodes

Exemples de tests usuels

Tests uniformément plus puissants


Fadoua BADAOUI (INSEA) Inférence 25 février 2019 21 / 194
Estimation ponctuelle et par intervalles

Ce chapitre comporte trois parties. Dans la première partie nous présentons

les deux méthodes classiques d'estimation, à savoir la méthode des

moments ( MM) et la méthode du maximum de vraisemblance (MMV).


Les qualités des estimateurs feront l'objet de la deuxième partie du

chapitre, la dernière partie est consacrée à l'estimation ensembliste.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 22 / 194


Estimation paramétrique

Dans de nombreuses situations, un estimateur peut être trouvé d'une

manière naturelle. Il en est ainsi lorsque le paramètre est, par exemple, une

moyenne ou une proportion. Notons toutefois, que dans des cas compliqués,

l'intuition ne sut pas pour trouver des estimateurs. Deux méthodes

classiques d'estimation, à savoir la méthode des moments ( MM) et la


méthode du maximum de vraisemblance ( MMV) sont les plus utilisées.
Ces méthodes, comme toute autre méthode d'estimation, ne garantissent

rien en ce qui concerne l'ecacité des estimateurs qu'elles fournissent.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 23 / 194


Introduction

Comme nous l'avons mentionné ci-dessus, il est parfois facile de trouver un

estimateur en se ant à l'intuition. Par exemple la moyenne de l'échantillon

est intuitivement un raisonnable estimateur pour la moyenne de la

population. Mais une méthodologie, permettant de trouver des estimateurs,

reste nécessaire pour faire face à des situations plus complexes.

Notations : Lorsqu'une loi de probabilité dépend d'un paramètre θ, on


notera f (x; θ) au lieu de fX (x). On notera également Pθ {.}, Eθ [.],
Varθ (.) . . . etc. pour souligner que la loi de probabilité utilisée dépend de θ.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 24 / 194


Méthode des moments

Les origines de cette méthode remontent à Karl Pearson (1894). Elle est

essentiellement basée sur la loi des grands nombres :

Dénition
Considérons l'échantillon X1 , . . . , Xn , On appelle estimateur de θ obtenu

par la méthode des moments la solution θbp du système :

Pn
Xik
i=1
n = E[X k ] pour tout k ∈ {1, . . . , p}

On remplace ensuite les moments E[X k ] par leur estimateurs respectifs


Pn
i=1 Xik
Mk = n . Les p solutions su système, constituent les estimateurs des

moments des p paramètres.

où p = dim(θ).
Fadoua BADAOUI (INSEA) Inférence 25 février 2019 25 / 194
Exemple
Soit X1 , . . . , Xn un échantillon issu d'une loi de probabilité dont la
densité est donnée par

f (x; θ) = θ x θ−1 I]0,1[ (x), avec θ > 0.

On a Z 1 Z 1
θ
E[X1 ] = x f (x; θ)dx = x θx θ−1 dx = .
0 0 θ+1
Ainsi θ = g (µ) = µ/(1 − µ) et donc son estimateur par la MM est
θb = X /(1 − X ) M

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 26 / 194


Exemple
Soit X1 , . . . , Xn un échantillon issu de la loi normale N (µ, σ 2 ). On a
E[X1 ] = µ et E[X12 ] = σ 2 + µ2 . Posons θ = (θ1 , θ2 ) = (µ, σ 2 ) et
considérons la fonction g : (x1 , x2 ) 7→ (x1 , x22 − x12 ). Selon les notations
ci-dessus, puisque θ = g (E[X1 ], E[X12 ]), son estimateur par la MM est
donné par θb = g (M1 , M2 ), i.e.

θb1

=X
1
Xi2 − (X )2 .

θb Pn
2 = n i=1 M

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 27 / 194


Exemple
Si X1 , . . . , Xn sont indépendantes et de même loi exponentielle exp(λ),
1
E[X1 ] = 1/λ. Donc l'estimateur de λ par la MM est λ = X
. M
Exemple
Si X1 , . . . , Xn sont indépendantes et de même loi gamma Γ(α, β),
E[X ] = α/β et Var [X ] = α/β 2 . On en déduit facilement que :

[E[X ]]2
β= E[X ]
Var [X ] et α = Var [X ]

Donc EMM de α et β sont :


2
βb = X
S2
et αb = X
S2 M

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 28 / 194


La méthode du maximum de vraisemblance

La méthode du maximum de vraisemblance (MMV) est de loin la méthode

la plus utilisée pour exhiber des estimateurs. Rappelons qu'étant donné un

échantillon issu d'une loi dont la pdf (ou pmf ) est f (x, θ), on appelle

 fonction de vraisemblance la quantité

Qn
L(x1 , . . . , xn , θ) = i=1 f (xi ; θ).

On appelle estimateur du maximum de vraisemblance la statistique

θMV = T (X1 , . . . , Xn ), telle que :

L(θMV ) = maxθ L(θ)

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 29 / 194


La méthode du maximum de vraisemblance

An de bien comprendre la motivation derrière la MMV, considérons un

échantillon X1 , . . . , Xn issu d'une loi de probabilité discrète de fmp

f (x; θ) = Pθ {X1 = x} où θ est un paramètre inconnu. L'idée qui est à

l'origine de cette méthode est la suivante : Si l'on observe (x1 , . . . , xn ) c'est

que la Pθ {(X1 , . . . , Xn ) = (x1 , . . . , xn )} doit être assez grande.

On prend alors comme estimateur de θ celui qui maximise cette probabilité.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 30 / 194


La méthode du maximum de vraisemblance

Dénition
On cherche la valeur de fonction des observations (x1 , . . . , xn ) qui assure

la plus grande probabilité d'avoir ces observations.

Dénition
Si la fonction de vraisemblance est continue et deux fois dérivable par

rapport au paramètre θ, alors l'estimateur du maximum de vraisemblance

θMV est solution du système :

( ∂L
∂θ )θMV = 0
2
( ∂∂ 2Lθ )θMV < 0

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 31 / 194


Exemple
Soit θ ∈]0, 1[ la probabilité de succès d'une expérience à deux issues
possibles. On répète cette expérience n fois de manière à obtenir un
échantillon x1 , . . . , xn . On a f (x; θ) = P{X1 = x} = θx (1 − θ)1−x , avec
x = 0 ou 1. L'estimateur θb de θ par la MMV est obtenu en maximisant,
par rapport à θ, la quantité
n
L(x , θ) = P{(X1 , . . . , Xn ) = (x1 , . . . , xn )} = θxi (1−θ)1−xi = θnx (1−θ)n(1−
Y

i=1

où x = (x1 , . . . , xn ). En dérivant L(x , θ) par rapport à θ on obtient


dL(x , θ)
L0 (x , θ) = = nxθnx−1 (1 − θ)n(1−x) − n(1 − x)θnx (1 − θ)n(1−x)−1 .
dθ M

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 32 / 194


Exemple
En posant L0 (x , θ) = 0 on obtient
 nx n(1 − x) 
θnx (1 − θ)n(1−x) − = 0,
θ 1−θ

et puisque 0 < θ < 1, on en déduit


nx n(1 − x)
− = 0,
θ 1−θ

ce qui donne θ = x . L'estimateur de θ par la MMV est alors θb = X . M

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 33 / 194


Dénition
Soient X = (X1 , . . . , Xn ) un échantillon issu d'une loi dont la fdp (fmp) est

f (x; θ) et x = (x1 , . . . , xn ) une valeur observée de X. Pour x xé, on note

b x)
θ( la valeur de θ qui maximise, la fonction de θ, L(x , θ) =
Qn
f (xi , θ).
i=1

La statistique θ(X)
b est appelée l'estimateur de maximum de vraisemblance

(EMV) de θ.

Remarque
Lorsque le paramètre θ est un élément de Rd , i.e. θ = (θ1 , . . . , θd ) ∈ Rd ,
la MMV consiste à résoudre le système
∂ ln L(x , θ)
= 0, pour i = 1 . . . d.
∂θi

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 34 / 194


Exemple
Soit X1 , . . . , Xn un échantillon issu de la loi de probabilité N (µ, σ 2 ).
Posons θ = (µ, σ 2 ), l'EMV de θ s'obtient en résolvant le système
∂ ln L(x , θ)


 =0
∂µ





 ∂ ln L(x , θ)




=0
∂σ 2
1
On obtient, θb = (X , − X )2 ).
Pn
i=1 (Xi M
n

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 35 / 194


Exemple
Soit X1 , . . . , Xn un échantillon dont la densité est donnée par :
1
f (x; θ) = I]0,θ[ (x), θ > 0.
θ

La fonction de vraisemblance est donnée par


n
1 1 n n
L(x , θ) =
Y
I]0,θ[ (xi ) = I]0,θ[ (max xi ) I]0,∞[ (min xi ).
θn θn i=1 i=
i=1

1 n n
L(x , θ) = I]0,θ[ (max xi ) I]0,∞[ (min xi ) n'est pas dérivable au point
θn i=1 i=
n
max xi . Il n'est donc pas possible d'utiliser la dérivée pour trouver le
i=1
1
point qui maximise la fonction. Mais comme θ 7−→ est décroissante
θn
sur ]0, ∞[, la fonction de vraisemblance est maximale en θ = maxni= xi .
n
Donc l'estimateur du MMV pour θ est θb = max Xi .
i= M
Fadoua BADAOUI (INSEA) Inférence 25 février 2019 36 / 194
Table of Content
1 Statistiques d'Échantillonnage

Introduction

Loi de la moyenne d'un échantillon

2 Estimation ponctuelle et par intervalles

Méthodes d'estimation

Qualités d'un estimateur

Estimation par intervalles

3 Tests d'hypothèses

Introduction et méthodes

Exemples de tests usuels

Tests uniformément plus puissants


Fadoua BADAOUI (INSEA) Inférence 25 février 2019 37 / 194
Qualités d'un estimateur

Comme un échantillon ne peut donner qu'une information partielle sur la

population, les estimations ainsi obtenues seront inévitablement entachées

d'erreurs que l'on doit minimiser autant que possible

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 38 / 194


Qualités d'un estimateur

Il est évident qu'un estimateur θb de θ n'est pas unique. En approximant θ


par θb, on commet une erreur aléatoire qui vaut θb − θ. L'idéal serait que

cette v.a. ait une moyenne nulle et une variance nulle. On aimerait donc

disposer de critères pour choisir le meilleur estimateur.

 
C1- La moyenne de l'erreur est nulle, i.e. E θb − θ = 0.

C2- La variance de l'erreur est minimale, i.e. si θb0 est un autre estimateur

de θ alors
   
Var θb0 − θ ≥ Var θb − θ .

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 39 / 194


Dénition
Soit θb un estimateur de θ, on appelle biais de θb la quantité

b θb = E θb − θ .
  

sans biais si E b(θ)


 
On dit que θb est un estimateur b = 0.

Dénition
Un estimateur θbn est dit asymptotiquement sans biais pour de θ si

limn→+∞ E(θbn ) = θ

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 40 / 194


Estimateur Sans Biais

Exemple : contrôle de qualité


Une machine fabrique une proportion θ inconnue de pièces défectueuses

que l'on désire estimer. Pour cela, on prélève d'une façon indépendante n
pièces et on observe un échantillon X1 , . . . , Xn où chaque xi prend la valeur

1 si la pièce est défectueuse et 0 sinon.

Les v.a. sont i.i.d. de loi B ernoulli(p). L'Estimateur de Maximum de

Vraisemblance de θ est X et E[X ] = θ, d'où X est un ESB de θ.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 41 / 194


Exemple
Soient X1 , . . . , Xn n v.a. i.i.d.∼N(µ, σ 2 )
Pn
X = i=1
N
Xi
est un estimateur sans biais de µ.
(Xi −X )2
Pn
S2 = i=1
(n−1) est un estimateur sans biais de σ 2 .
n'est pas un estimateur sans biais de µ.
Pn
i=1 Xi

(Xi − X )2 n'est pas un estimateur sans biais de σ 2 .


Pn
i=1 M

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 42 / 194


Nous sommes donc à la recherche d'estimateurs sans biais et de variance

minimale.

Comme nous l'avons mentionné auparavant, si l'on a à choisir entre deux

estimateurs θb1 et θb2 d'un paramètre θ, on choisira celui qui est sans biais et

si les deux sont sans biais on choisira celui dont la variance est la plus

petite.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 43 / 194


Qualités d'un estimateur

La question qui se pose alors est la suivante : existe t-il un meilleur

estimateur et, si oui, comment le trouver ?

Dénition
Soit θb un estimateur de θ, on dit que c'est l'Estimateur Sans Biais de

Variance Minimale (ESBVM) s'il est sans biais et tel que pour tout autre

estimateur θb0 de θ on a b ≤ Var (θb0 ).


Var (θ)

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 44 / 194


Estimateur Sans Biais de Variance Minimale

Dénition
Soit θb un estimateur de θ, on dit que θb est un Estimateur Sans Biais de

Variance Minimale (ESBVM) s'il est sans biais et tel que pour tout autre

estimateur θb0 de θ on a b ≤ Var (θb0 ).


Var (θ)

Proposition
Si un ESBVM existe, il est unique (p.s.)

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 45 / 194


Estimateur Sans Biais de Variance Minimale

Démonstration.
Si θb1θb2 sont deux ESBVM de θ, alors Var (θb1 ) = Var (θb2 ) = v . D'autre
et

b3 = θ1 + θ2 est un ESB de θ et Var (θb3 ) = v (1 + ρ), où


b b
part θ
2 2
Cov (θb1 , θb2 )
ρ= . Si ρ < 1 alors Var (θ
b3 ) < v , ce qui est impossible. Donc
v
ρ = 1 et par conséquent Var (θb1 − θb2 ) = 0. D'où θb1 = θb2 p.s.

Le résultat suivant est un premier pas dans la recherche d'un ESBVM.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 46 / 194


Estimateur Sans Biais de Variance Minimale

Exercice
Soit X1 , . . . , Xn un échantillon issu de la loi U niforme[0, θ] où θ0
inconnue.

1 Donner l'estimateur T de θ par la méthode des moments.

2 Calculer Var (T )
3 L'estimateur S = S(X1 , . . . , Xn ) = max(X1 , . . . , Xn )
1 S est-il sans biais ?
2 En déduire un ESB de θ, qu'on note U .
3 Calculer Var (U)
4 Comparer T et U .
Fadoua BADAOUI (INSEA) Inférence 25 février 2019 47 / 194
Dénitions & concepts
Dénition :Modèle statistique paramétrique
On appelle modèle statistique paramétrique de paramètre θ∈Θ pour un

certain espace de dimension ni Θ le couple (X , Pθ ), où X est l'espace des

valeurs de x, v.a. du modèle, et Pθ la loi de probabilité de x.

Exemple
Une expérience consiste à recueillir les durées de vie de n ampoules

X = (x1 , . . . , xn ) supposées i.i.d de loi exponentielle de paramètre λ  0.

∀i, xi ∈ R+ : l'espace des observations.

Chaque xi ∼ exp(λ) tel que {Pθ = exp(λ), λ  0}

Le modèle (X , {Pθ = exp(λ), λ  0}) est appelé modèle statistique.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 48 / 194


Statistique

On considère un échantillon de taille n de la variable X = (x1 , . . . , xn ). Une

statistique est une fonction mesurable T des variables aléatoires Xi :

T (x1 , . . . , xn )
Exemple : Modèle des ampoules
Soit le modèle statistique (R , {exp(λ), λ  0}) .
+

Pn
t(x) = i=1 (xi ) est une statistique, avec xi ∼ exp(λ), λ  0
Donc t ∼ Γ(n, λ)
Le modèle image (R+ , {Γ(n, λ), λ  0})

Rq : Il existe des statistiques qui résument les observation tout en

conservant l'intégralite de l'information sur θ : la statistique exhaustive.


Fadoua BADAOUI (INSEA) Inférence 25 février 2019 49 / 194
Statistique exhaustive

Dénition
Soit T (X) une statistique. On dit que c'est une statistique exhaustive
pour θ si la loi conditionnelle de X sachant T (X) ne dépend pas de θ.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 50 / 194


Statistique exhaustive

Exemple :
Une chaîne de production produit des pièces qui peuvent être défectueuses

avec probabilité θ ∈]0, 1[ inconnue. Chaque pièce peut donc être

représentée par une v.a. de Bernoulli qui prend la valeur 1 si la pièce est

défectueuse et 0 sinon avec les probabilités respectives θ et 1 − θ.


Un contrôleur de qualité prélève n pièces, et obtient un échantillon

X1 , . . . , Xn . Notons que pour tout i , Xi ∼ B ernoulli(θ).


Pn
Montrer que la statistique T = i=1 Xi est une statistique exhaustive

pour θ.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 51 / 194


Statistique exhaustive

Solution :
En utilisant l'indépendance et le fait que la somme de k v.a. de Bernoulli

indépendantes est une v.a. Binômiale, on a

P{X1 = x1 , . . . , Xn = xn , T = t}
P{X = (x1 , . . . , xn )| T = t} =
P{T = t}
t 6= ni=1 xi . Supposons que
P
Le numérateur est nul pour tout
Pn
t= i=1 xi , alors
Qn
= xi }
Qn xi 1−xi
i=1 P{Xi 1 i=1 θ (1 − θ)
P{X = (x1 , . . . , xn )| T = t} = = t
P{T = t} {n θt (1 − θ)n−t
1
= ,
{tn
Fadoua BADAOUI (INSEA) Inférence 25 février 2019 52 / 194
Statistique exhaustive

Proposition
Soient fX et fT les fdp de X et T respectivement. La statistique T est

exhaustive pour θ si, et seulement si, pour tout x ∈ Rn , le rapport


fX (x )
( quand il est bien déni) ne dépend pas de θ.
fT (T (x ))

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 53 / 194


Statistique exhaustive

Démonstration.
Pour des raisons de clarté nous démontrons la proposition dans le cas de

lois discrètes. Remarquons que, pour tout x ∈ Rn , on a


{X = x } ⊂ {T (X) = T (x )}. D'où

P{X = x , T (X) = T (x )}
P{X = x | T (X) = T (x )} =
P{T (X) = T (x )}
P{X = x }
=
P{T (X) = T (x )}
f (x )
= X .
fT (T (x ))

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 54 / 194


Statistique exhaustive

Théorème
[Théorème de Factorisation] Supposons que fX , la fdp de X existe. Alors la

statistique T = T (X) est exhaustive si, et seulement si, il existe une

fonction h qui ne dépend pas de θ et une fonction g telles que

∀x ∈ Rn fX (x ) = g (T (x )) h(x ) (2)

Remarque
Les fonctions g et h qui interviennent dans l'équation ( 2) ne sont pas
uniques.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 55 / 194


Statistique exhaustive

Exemple
Soit X1 , . . . , Xn un échantillon issu d'une loi normale N (µ, σ 2 ), avec σ 2
connue.
− µ)2
Pn
1 i=1 (xi
fX (x ) = √ exp − (Par indépendance)
(σ 2π)n 2σ 2

nµ2 xi2
Pn Pn
1 µ i=1 xi i=1
= √ exp exp − 2 exp −
(σ 2π)n σ2 2σ 2σ 2

nµ2
Pn
µ i=1 xi
En choisissant g (T (x )) = exp − 2 exp , on constate que
2σ σ2
T (X) = i=1 Xi est une statistique exhaustive pour µ.
Pn
M

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 56 / 194


Statistique exhaustive

Exemple
Soit X1 , . . . , Xn un échantillon issu de la loi U niforme[0, θ], i.e.
1
fX1 (x) = I[0,θ] (x). La fdp de X = (X1 , . . . , Xn ) est alors donnée par
θ
n
1 1 n n
fX (x ) =
Y
I[0,θ] (xi ) = I]−∞,θ] (max xi ) I[0,∞[ (min xi ).
θn θn i=1 i=1
i=1

La statistique T (X) = maxni=1 Xi est alors une statistique exhaustive


pour θ. M

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 57 / 194


Statistique exhaustive

Remarque :
Dans tous ces exemples, les statistiques exhaustives sont des fonctions

réelles de l'échantillon. Toute l'information sur θ est résumée dans

T (X) ∈ R. Dans d'autres situations, au lieu d'une seule fonction réelle,

plusieurs sont nécessaires pour résumer toute l'information sur le paramètre

θ. Dans un tel cas, une statistique exhaustive est un vecteur

T(X) = (T1 (X), . . . , Tp (X)) ∈ Rp . Il en est souvent ainsi lorsque le


paramètre est un vecteur θ = (θ1 , . . . , θq ), le cas de la loi normale

N (µ, σ 2 ), avec µ et σ2 inconnues.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 58 / 194


Statistique exhaustive

Exemple
Soit X1 , . . . , Xn un échantillon issu d'une loi normale N (µ, σ 2 ) avec µ
et σ 2 inconnues. Dans ce cas, on a θ = (µ, σ 2 ) et
− µ)2
Pn
1 i=1 (xi
fX (x ) = √ exp −
(σ 2π)n 2σ 2

xi2 − 2µ ni=1 xi − nµ2


P Pn
1 i=1
= √ exp −
(σ 2π)n 2σ 2

nµ2 h µ X n n
1 1 X
xi2
i
= √ exp − 2 exp − 2 xi − 2
(σ 2π)n 2σ σ 2σ
i=1 i=1

En choisissant T(X) = (T1 (X), T2 (X)) = ( Xi2 ), on a


Pn Pn
i=1 Xi , i=1

bien une statistique exhaustive pour θ. M


Fadoua BADAOUI (INSEA) Inférence 25 février 2019 59 / 194
Statistique exhaustive
Remarque
Si T est une statistique exhaustive pour θ, alors pour toute fonction
bijective g , g (T ) est aussi une statistique exhaustive pour θ.
En eet, si T est une statistique exhaustive pour θ, alors

P{X = (x1 , . . . , xn )| g (T ) = t 0 } = P{X = (x1 , . . . , xn )| T = g −1 (t 0 )}

est indépendante de θ.

Remarque
 x y − x 2 /n 
Pour tout entier n > 1, la fonction g : (x, y ) 7→ , est une
n n−1
bijection. La statistique g (T(X)) = (X , S 2 ) est exhaustive pour θ.
Fadoua BADAOUI (INSEA) Inférence 25 février 2019 60 / 194
Famille exponentielle

Dénition
Un ensemble de fdp ou fpm de paramètre θ est une famille exponentielle
si ses éléments s'écrivent

k
X 
f (x) = h(x) c(θ) exp wi (θ) ti (x) ,
i=1

où h et c sont des fonctions réelles positives, les fonctions ti ne dépendent

pas de θ et les fonctions wi ne dépendent pas de x.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 61 / 194


Famille exponentielle

Théorème
SoitX1 , . . . , Xn un échantillon dont f est la fdp commune. Si f est un

élément d'une famille exponentielle, i.e.

k
X 
f (x) = h(x) c(θ) exp wi (θ) ti (x) .
i=1

Alors
n
X n
X 
T (X) = t1 (Xj ), . . . , tk (Xj )
j=1 j=1

est une statistique exhaustive pour θ.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 62 / 194


Exercice

Exercice :
Montrez que X appartient à la famille exponentielle et donnez une

statistique exhaustive pour θ, dans les cas suivants :

1 x ∼ B ernoulli(p), θ = p
2 x ∼ exp(λ), θ = λ  0
3 x ∼ N (µ, σ 2 ), θ = (µ, σ)

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 63 / 194


Estimateur Sans Biais de Variance Minimale

Théorème
[Rao-Blackwell] Soient T une statistique exhaustive et W un estimateur

sans biais pour θ. Alors, quand ça existe, E[W |T ] est un estimateur sans

biais pour θ et on a Var (E[W |T ]) ≤ Var (W ).

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 64 / 194


Estimateur Sans Biais de Variance Minimale

Démonstration :
Il est évident que E[W |T ] est un ESB pour θ. Avant de prouver l'inégalité

rappelons les propriétés suivantes. Pr tte v.a. X1 et X2 on a


h i
E E[X2 |X1 ] = E[X2 ]. "th de l'espérance totale"

Var (X2 ) = E[Var (X2 |X1 )] + Var [E(X2 |X1 )] "th de la variance totale"

 X


 x2 P(X2 = x2 |X1 = x1 ), pr le cas discret.

x2 ∈X2 (Ω)
E[X2 |X1 = x1 ] = Z (3)

x2 f (x2 |x1 ), pr

le cas continue.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 65 / 194


Estimateur Sans Biais de Variance Minimale

T ∗ = E W |T et µ = E[W ].
 
Posons

D'après le "th de l'espérance totale"

E[T ∗ ] = E[E W |T ] = E W = µ, W
   
est un ESB.

D'après le "th de la variance totale"

  
Var (W )=Var (E W |T ) + E Var (W |T )]

∗) + E Var (W |T )]  Var (T ∗ )

=Var (T

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 66 / 194


Estimateur Sans Biais de Variance Minimale

Remarque :
Nous pouvons donc nous restreindre, dans la recherche du meilleur

estimateur, aux estimateurs sans biais qui sont fonctions de statistiques

exhaustives. Autrement dit, lorsqu'on a un estimateur sans biais il est

toujours possible de l'améliorer en le conditionnant par rapport à une

statistique exhaustive.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 67 / 194


Statistique complète

Dénition
Une statistique T est dite complète si, pour toute fonction g

Eθ [g (T )] = 0, ∀θ =⇒ Pθ {g (T ) = 0} = 1, ∀θ.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 68 / 194


Statistique complète

Exemple
Soit X1 , . . . , Xn un échantillon issu d'une loi uniforme sur ]0, θ[. D'après
le théorème de factorisation, la statistique T = X(n) est exhaustive pour
θ. Sa fdp est donnée par

nt n−1 θ−n

si 0 < t < θ
fT (θ) =
sinon.

0

Soit g une fonction telle que Eθ [g (T )] = 0, pour tout θ > 0. M

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 69 / 194


Suite exemple

En dérivant par rapport à θ, on a

d d θ
Z
0 = E [g (T )] = g (t)) nt n−1 θ−n dt
dθ θ dθ 0
d d
Z θ  Z θ
= θ−n n g (t) t n−1 dt + θ−n n g (t) t n−1 d
dθ 0 dθ 0
d
n−1

−n −n n
= θ n g (θ) θ + θ θ Eθ [g (T )]
dθ | {z }
=0
−1
=θ n g (θ).

Comme nθ−1 6= 0, on déduit que

Eθ [g (T )] = 0, ∀θ =⇒ g (θ) = 0, ∀θ,

et donc que T est complète.


Fadoua BADAOUI (INSEA) Inférence 25 février 2019 70 / 194
Statistique complète

Exercice :
Soit X = (x1 , . . . , xn ) un échantillon i.i.d de B ernoulli(θ).
T = ni=1 Xi est une statistique exhaustive pour θ = p .
P
Soit

Montrer que T est une statistique complète.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 71 / 194


Statistique exhaustive et complète

Théorème
Soit X1 , . . . , Xn un échantillon issu d'une famille exponentielle dont la fdp

est de la forme

p
X 
f (x) = h(x) c(θ) exp wi (θ) ti (x) , θ ∈ Θ.
i=1
P 
T (X) =
P
Alors, la statistique i t1 (Xi ), . . . , i tp (Xi ) est exhaustive et

complète.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 72 / 194


Statistique exhaustive et complète

Exemple
Soit X1 , . . . , Xn un échantillon issu d'une loi N (µ, σ 2 ). Nous avons déjà
montré que la statistique T(X) = (T1 (X), T2 (X)) = (X , S 2 ) est
exhaustive pour θ = (µ, σ 2 ). D'après le théorème ci-dessus, elle est
également complète. M

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 73 / 194


Estimateur Sans Biais de Variance Minimale

Théorème
[Lehmann-Scheé] Soit T une statistique exhaustive et complète pour θ, et
soit U un estimateur sans biais pour θ. Alors, E[U|T ] est l'ESBVM pour θ.

Démonstration.
Soit V un estimateur sans biais pour θ. On a alors E[U] = E[V ] = θ et
h i
donc E E[U|T ] − E[V |T ] = 0. Comme T est une statistique complète,

on a E[U|T ] − E[V |T ] = 0 p.s. D'après le théorème de Rao-Balckwell, on


   
a Var (V ) ≥ Var E[V |T ] = Var E[U|T ] .

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 74 / 194


Estimateur Sans Biais de Variance Minimale

Corollaire :
Pour trouver un estimateur optimal, il sut de trouver un estimateur sans

biais fonction d'une statistique exhaustive et complète.

Exemple
Soit X1 , . . . , Xn un échantillon issu d'une loi de Bernoulli(θ). On sait
n
que T = Xi est une statistique exhaustive et complète pour θ.
X

i=1
D'après le Corollaire, X est l'ESBVM pour θ. M

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 75 / 194


Exemple
Soit X1 , . . . , Xn un échantillon issu d'une loi de P oisson(λ). On désire
n
trouver, s'il existe, l'ESBVM pour θ = e−λ . On sait que T = Xi est
X

i=1
une statistique exhaustive et complète pour λ et que U = I{0} (X1 ) est
un estimateur sans biais pour θ qui n'est pas fonction de T . Pour
obtenir l'ESBVM pour θ, on calculera E[U|T ]. Soit t ∈ {0, 1, 2, . . . , n},
P{X1 =0, ni=2 Xi =t}
P
E[U|T = t] = P{X1 = 0|T = t} = P{T =t}
(n−1)t λt
× e e−ntλ = (1 − n1 )t .
−(n−1)λ
=θ n t λt
1
Ainsi E[U|T ] = 1 − T est l'ESBVM pour θ.
n M

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 76 / 194


Estimateur Sans Biais de Variance Minimale

Remarque :
Il n'est pas facile de trouver directement l'ESBVM quand il existe. Le

résultat suivant nous donne une borne inférieure pour l'ensemble des

variances des estimateurs sans biais. Ainsi , si l'ESBVM existe, c'est celui

dont la variance et égale à cette borne inférieure.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 77 / 194


Borne de Cramer-Rao et estimateurs ecaces

Sous certaines conditions de régularité, à la fois pour la famille étudiée et

pour l'estimateur sans biais considéré, on peut montrer que sa variance ne

peut descendre au-dessous d'un certain seuil qui est fonction de θ. Ce seuil,

appelé borne de Cramer-Rao, est intrinsèque à la forme de la densité (ou de

la fonction de probabilité) f (x; θ). L'intéret de ce résultat est que, si l'on

trouve un estimateur sans biais dont la variance atteint ce seuil, alors il est

le meilleur possible parmi les estimateurs sans biais réguliers.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 78 / 194


Estimateur Sans Biais de Variance Minimale

Théorème
[Cramér-Rao]

Soit X1 , . . . , Xn un échantillon issu d'une loi dont la fdp est

f (x ; θ) = f (x1 , . . . , xn ; θ), et soit T un estimateur sans biais pour θ de


X
dimension 1. Sous certaines conditions de régularité on a nécessairement,

pour tout θ∈Θ :


1
 
Var T ≥ .
I (θ)
h

2 i
La quantité I (θ) = E ∂θ ln f (X; θ) s'appelle  l'Information de Fisher

de l'échantillon.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 79 / 194


Estimateur Sans Biais de Variance Minimale
Note :
Les conditions de régularité, dans le cas continu, sont les suivantes :

a- I (θ) existe pour tout θ ∈ Θ.

b- la dérivée par rapport à θ d'une intégrale sur la densité conjointe

d
Z Z Z Z

··· f (x ; θ) dx = ··· f (x ; θ) dx ,
dθ ∂θ

peut s'obtenir en dérivant à l'intérieur de l'intégrale.

c- la dérivée par rapport à θ de Eθ [T ] peut s'obtenir en dérivant à

l'intérieur de l'intégrale correspondante.

d- le support de f (x; θ) est indépendant de θ.


Fadoua BADAOUI (INSEA) Inférence 25 février 2019 80 / 194
Estimateur Sans Biais de Variance Minimale

Remarque

a- Si un estimateur sans biais pour θ atteint la borne de Cramer-Rao,


on dit qu'il est ecace.
b- Comme les v.a. X1 , . . . , Xn sont de même loi, on a
h 2 i h 2 i
∂ ∂
E ∂θ ln f (X; θ) = nE ∂θ ln f (X1 ; θ) .

c- Le résultat est énoncé dans le cas de v.a. continues mais il est


également valable pour le cas de v.a. discrètes en remplaçant les
signes intégrales par les signes sommes.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 81 / 194


Estimateur Sans Biais de Variance Minimale

Le résultat suivant simplie les calculs.

Proposition
Si f (x; θ) est telle que

d ∂
Z
i ∂ h ∂  i
E ln f (X; θ) = ln f (x ; θ) f (x ; θ) dx ,
dθ ∂θ ∂θ ∂θ

alors
h ∂ 2 i h ∂2 i
E ln f (X1 ; θ) = −E ln f (X1 ; θ)
∂θ ∂θ2

On montre que ce résultat s'applique lorsqu'il s'agit de fdp appartenant à

une famille exponentielle.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 82 / 194


Estimateur Sans Biais de Variance Minimale

Démonstration.

∂ f (X ;θ)
Posons : U= ∂θ ln f (X ; θ) = ∂θ
f (X ;θ)

R f (x;θ) R ∂ ∂
R
On a : E[U] = ∂θ
f (x;θ) f (x; θ)dx = ∂θ f (x; θ)dx = ∂θ f (x; θ)dx = 0
puisque cette intégrale est égale à la constante 1. De plus :
∂2 ∂2
∂2

f (X ;θ)f (X ;θ)−[ ∂θ f (X ;θ)]2 f (X ;θ) ∂
f (X ;θ)
∂θ2
ln f (X ; θ) = ∂θ 2
[f (X ;θ)]2
= ∂θ 2
f (X ;θ) − [ ∂θf (X ;θ) ]2
∂2
2 f (X ;θ)2
∂ ∂θ 2
d'où : E[ ∂θ 2 ln f (X ; θ)] = E[ f (X ;θ) ] − E[U ]
∂2
f (X ;θ) R ∂2 ∂2
E[ ∂θf2(X ;θ) ] = ∂θ
R
Or : 2 f (x; θ)dx = ∂θ 2 f (x; θ)dx = 0.
ce qui démontre la relation.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 83 / 194


Estimateur Sans Biais de Variance Minimale
Exemple
Soit X1 , . . . , Xn un échantillon issu d'une loi de Poisson de paramètre λ.
D'après la proposition (loi de Poisson est famille exponentielle), on a :
h ∂ Yn 2 i h ∂2 i h ∂2 e−λ λX1 i
E ln f (Xi , λ) = −nE ln f (X1 , λ) = −nE ln
∂λ ∂λ2 ∂λ2 X1 !
i=1
h ∂2 i
= −nE (−λ + X 1 ln λ − ln X 1 !)
∂λ2
h X i n
1
= −nE − 2 = .
λ λ

Ainsi tout estimateur sans biais W de λ est tel que Var (W ) ≥ λn . Or X


est un estimateur sans biais pour λ avec Var (X ) = λn , donc c'est
l'ESBVM. M
Fadoua BADAOUI (INSEA) Inférence 25 février 2019 84 / 194
Estimateur Sans Biais de Variance Minimale

Exemple
Dans le cas d'une loi normale N (µ, σ 2 ), nous avons déjà vu que µb = X
et σc2 = S sont des estimateurs sans biais. Sont-ils de variances
minimales ?
h ∂ n 2 i h ∂2 i
avec θ = (µ, σ 2 )
Y
E ln f (Xi ; θ) = −nE ln f (X1 ; θ)
∂µ ∂µ2
i=1
h ∂2  1 (X1 − µ)2 i n
= −nE 2
ln √ − 2
= 2
∂µ σ 2π 2σ σ
σ2
Ainsi la variance de tout estimateur sans biais de µ est ≥ n . Or X est
2
un estimateur sans biais pour µ de variance σ
n , donc c'est l'ESBVM. M
Fadoua BADAOUI (INSEA) Inférence 25 février 2019 85 / 194
Table of Content
1 Statistiques d'Échantillonnage

Introduction

Loi de la moyenne d'un échantillon

2 Estimation ponctuelle et par intervalles

Méthodes d'estimation

Qualités d'un estimateur

Estimation par intervalles

3 Tests d'hypothèses

Introduction et méthodes

Exemples de tests usuels

Tests uniformément plus puissants


Fadoua BADAOUI (INSEA) Inférence 25 février 2019 86 / 194
Estimation par intervalles

La notion d'estimation par intervalle est aussi connue sous le nom de

méthode d'intervalles de conance. Il s'agit de déterminer, à partir d'un

estimateur du paramètre, un ensemble aléatoire dont la probabilité de

contenir le paramètre est xée d'avance.

Dans ce qui suit, X = (X1 , . . . , Xn ) est un échantillon aléatoire issu d'une

loi dépendant du paramètre θ∈R dont nous cherchons à établir une région

de conance.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 87 / 194


Estimation par intervalles

Dénition
Soit b(θ) une fonction de θ. On appelle région de conance pour b(θ) de

niveau de conance 1 − α, α ∈]0, 1[, tout ensemble aléatoire C(X) ⊆ R tel


que

Pθ b(θ) ∈ C(X) = 1 − α.


En pratique on choisit souvent pour le coecient de conance

1 − α = 0.90 ou 0.95, ou 0.99, ce qui correspond à α égale à 0.1, 0.05 ou

0.01 respectivement.

Dans ce qui suit nous allons établir des intervalles de conance dans les
cas les plus fréquemment rencontrés dans la pratique.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 88 / 194


Intervalle de conance pour la moyenne d'une loi normale

Soit X = (X1 , ..., Xn ) un échantillon issu de la loi normale N (µ, σ 2 ).


Considérons le problème d'estimation par intervalle du paramètre µ.
La Dénition précédente peut être formulée comme suit :
 
Soient l(X) et L(X) deux statistiques. L'intervalle aléatoire l(X), L(X)
est un intervalle de conance, de niveau (1 − α), pour la moyenne µ si

n o
P l(X) ≤ µ ≤ L(X) = 1 − α.

Les statistiques l(X) et L(X) sont respectivement les limites de conance


inférieure et supérieure pour µ. Notre objectif est donc de les déterminer.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 89 / 194


Nous savons que la variable aléatoire

√ X −µ
n = Z ∼ N (0, 1).
σ

La loi normale standard étant tabulée, il est alors possible de déterminer

pour tout α ∈ [0, 1], le réel zα (appelé le (1 − α)−quantile de la loi

normale standard) vériant


P Z ≥ zα = α.

Il est ainsi clair que


P z1−α/2 ≤ Z ≤ zα/2 = 1 − α.

Comme la loi de Z est symétrique, on a z1−α/2 = −zα/2 .


Fadoua BADAOUI (INSEA) Inférence 25 février 2019 90 / 194
Ainsi on a

 n √ X −µ o
P −zα/2 ≤ Z ≤ zα/2 = P −zα/2 ≤ n ≤ zα/2
σ
n σ σ o
= P X − zα/2 √ ≤ µ ≤ X + zα/2 √
n n
= 1 − α.

On en déduit que

h σ σ i
X − √ zα/2 , X + √ zα/2
n n

est un intervalle de conance, de niveau 1 − α, pour µ lorsque σ2 est

connue.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 91 / 194


Exemple
On suppose que la durée de vie, en heures, d'une lampe électrique est
une v.a. normale de moyenne µ inconnue et de variance σ 2 = 152 . Un
échantillon de n = 20 ampoules a révélé une durée de vie moyenne de
15 heures. Construire un intervalle de conance de niveau 0.95 pour µ.M

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 92 / 194


Cas où la variance σ 2 est inconnue

Considérons maintenant le problème d'estimation par intervalle du

paramètre µ σ 2 est inconnue.


lorsque
√ X −µ S2
Nous savons que n ∼ N (0, 1), (n − 1) 2 ∼ χ2n−1 et que X et S 2
σ σ
√ X −µ
sont indépendantes. Ainsi la variable aléatoire tn−1 = n suit la loi
S
de Student à n − 1 degrés de liberté.

Les lois de Student étant tabulées, il est possible de trouver pour tout

α ∈]0, 1[, les valeurs tn−1, α où le réel tn−1, α est tel que

P{tn−1 ≥ tn−1, α } = α.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 93 / 194


Cas où la variance σ 2 est inconnue

Le réel tn−1, α est appelé le (1 − α)−quantile de la loi de Student à n−1


degrés de liberté. On a

P{tn−1, 1−α/2 ≤ tn−1 ≤ tn−1, α/2 } = 1 − α. (4)

Comme la loi de Student est symétrique, on a tn−1, α = −tn−1, 1−α , et

donc (4) devient

P{−tn−1, α/2 ≤ tn−1 ≤ tn−1, α/2 } = 1 − α.

Notre objectif ici est donc de déterminer les statistiques l(X) et L(X) telles

que

P{l(X) ≤ µ ≤ L(X)} = 1 − α.
Fadoua BADAOUI (INSEA) Inférence 25 février 2019 94 / 194
Cas où la variance σ 2 est inconnue

Ainsi pour α ∈ [0, 1] xé, on a

√ X −µ
 
P −tn−1, α/2 ≤ n ≤ tn−1, α/2 = 1 − α,
S

ou encore

 
S S
P X − √ tn−1, α/2 ≤ µ ≤ X + √ tn−1, α/2 = 1 − α.
n n

Donc l'intervalle aléatoire

 
S S
X − √ tn−1, α/2 , X + √ tn−1, α/2
n n

est un intervalle de conance de niveau (1 − α) pour µ.


Fadoua BADAOUI (INSEA) Inférence 25 février 2019 95 / 194
Exemple
On suppose que la durée de vie, en heures, d'une lampe électrique est
une v.a. normale de moyenne µ et de variance σ 2 inconnues. Un
échantillon de n = 20 ampoules a révélé une durée de vie moyenne de
x = 643 heures avec un écart type s = 16.
Construire un intervalle de conance de niveau 0.95 pour µ. M

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 96 / 194


Intervalle de conance pour la variance d'une loi normale

Soit X = (X1 , ..., Xn ) un échantillon issu de la loi normale N (µ, σ 2 ).


Supposons dans un premier temps que la moyenne µ est connue. La

statistique

n
1
S̃ 2 = (Xi − µ)2
X
n
i=1

est un estimateur sans biais pour σ2. Comme X1 , ..., Xn sont indépendantes

et comme (Xi − µ)/σ suit la loi normale standard N (0, 1), on a bien

S̃ 2
n = χ2n . (5)
σ2

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 97 / 194


Pour tout α ∈ [0, 1], on note χ2n, α le (1 − α)−quantile de χ2n , i.e.

P χ2n ≥ χ2n, α = α.


Avec ces notations nous avons donc

P{χ2n, 1−α/2 ≤ χ2n ≤ χ2n, α/2 } = 1 − α. (6)

De (5) et (6) on peut déduire que

nS̃ 2
P{χ2n, 1−α/2 ≤ ≤ χ2n, α/2 } = 1 − α,
σ2

et donc

nS̃ 2 nS̃ 2
( )
P 2 ≤ σ2 ≤ 2 = 1 − α.
χn, α/2 χn, 1−α/2

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 98 / 194


Ainsi l'intervalle aléatoire

h nS̃ 2 nS̃ 2 i
,
χ2n, α/2 χ2n, 1−α/2

est un intervalle de conance, de niveau 1 − α, pour σ2 quand µ est

connue.

En pratique, on est souvent devant une situation où µ et σ2 sont

inconnues. Dans ce cas, par un raisonnement analogue à celui ci-dessus, on

montre que l'intervalle aléatoire

h (n − 1)S 2 (n − 1)S 2 i
,
χ2n−1, α/2 χ2n−1, 1−α/2

est un intervalle de conance, de niveau 1 − α, pour σ2 lorsque µ est

inconnue.
Fadoua BADAOUI (INSEA) Inférence 25 février 2019 99 / 194
I. C. pour la moyenne d'une loi quelconque

Soit X = (X1 , . . . , Xn ) un échantillon issu d'une loi de probabilité de

moyenne µ et de variance σ2. Supposons dans un premier temps que σ2 est

connue. D'après le TCL, pour n assez grand, on a

√ X −µ
∀x ∈ R, P{ n ≤ x} ' P{Z ≤ x}. (7)
σ

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 100 / 194


I. C. pour la moyenne d'une loi quelconque

Remarque

- En pratique, n ≥ 30 est souvent susamment grand pour que


l'expression 7 soit valide.
- De l'expression 7, on peut déduire que l'on a
√ X −µ
P{a ≤ n ≤ b} ' P{a ≤ Z ≤ b}.
σ

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 101 / 194


I. C. pour la moyenne d'une loi quelconque

Ainsi, lorsque n ≥ 30, un intervalle de conance approximatif de niveau

(1 − α) pour µ est donné par


h σ σ i
X − √ zα/2 , X + √ zα/2 .
n n
Si σ2 est inconnue, on l'approche par son estimateur sans biais S 2. On

montre que,

√ X −µ
∀x ∈ R, P{ n ≤ x} ' P{Z ≤ x}.
s
Ainsi pour n ≥ 30, un intervalle de conance approximatif de niveau

(1 − α), pour µ, est donné par

h S S i
X − √ zα/2 , X + √ zα/2 .
n n
Fadoua BADAOUI (INSEA) Inférence 25 février 2019 102 / 194
Exemple
Un manufacturier produit une nouvelle peinture dont il veut déterminer
le temps moyen de séchage µ. Un échantillon de 36 surfaces de tailles
égales a révélé un temps moyen de séchage x = 66.3 mn avec un
écart-type s = 8.4 mn. Construire un intervalle de conance de niveau
1 − α = 0.90 pour µ. M

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 103 / 194


Ici α = 0.10 et d'après la table de la loi normale on a zα/2 ' 1.64. Un

intervalle de conance approximatif de niveau 0.90 pour µ est donné par

8.4 8.4
h i
66.3 −√ 1.64 , 66.3 +√ 1.64 = [64.0, 68.6]
36 36

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 104 / 194


Intervalle de conance pour une proportion

Soit X = (X1 , . . . , Xn ) un échantillon issu d'une loi de B ernoulli(p). Nous

savons que pb = X est un estimateur sans biais pour p. Le TCL permet de

construire l'intervalle de conance approximatif de niveau (1 − α), pour p,


donné par

p p
h pb(1 − pb) pb(1 − pb) i
pb − √ zα/2 , pb + √ zα/2 .
n n

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 105 / 194


Exemple
Avant de décider de commercialiser un nouveau produit, le directeur de
marketing décide de conduire une étude pour estimer la proportion p de
consommateurs qui seraient favorables à ce nouveau produit. L'étude a
montré que sur les 400 personnes interrogées, 140 se sont déclarées
favorables au nouveau produit.
Construire un intervalle de conance de niveau de conance 0.80 pour pM.

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 106 / 194


140
Nous avons α = 0.20, n = 400 et pb = = 0.35. D'après la table de la
400
loi normale on a zα/2 ' 1.28. Un intervalle approximatif de niveau de

conance 0.80 pour p est donné par


p p
h 0.35(1 − 0.35) 0.35(1 − 0.35) i
0.35− √ 1.28 , 0.35+ √ 1.28 = [0.32, 0.38].
400 400

Fadoua BADAOUI (INSEA) Inférence 25 février 2019 107 / 194


IC pour la diérence de deux moyennes

Soient X = (X1 , ..., Xm ) un échantillon issu d'une loi de moyenne µX et de

variance σX2 , et Y = (Y1 , ..., Yn ) un échantillon issu d'une loi de moyenne

µY et de variance σY2 . On suppose que les deux échantillons sont

indépendants.

Cas de deux lois normales


Supposons ici que les deux échantillons sont respectivement issus des lois

N (µX , σX2 ) et N (µY , σY2 ).

Fadoua BADAOUI (INSEA) Inférence 3 mai 2019 108 / 194


Cas où les variances σX2 et σY2 sont connues

Il est clair que, la statistique X −Y est un estimateur sans biais pour

µX − µY et que

σX2 σY2
 
X − Y ∼ N µ X − µY , + .
m n

Il s'ensuit que la variable aléatoire

X − Y − (µX − µY )
Z= q ∼ N (0, 1), d'où
σX2 σY2
m + n
 
 
X −Y −(µX −µY )
P −zα/2 ≤ r ≤ zα/2 = 1 − α,
σ2 σ2
X Y
 
m
+ n

Fadoua BADAOUI (INSEA) Inférence 3 mai 2019 109 / 194


Cas où les variances σX2 et σY2 sont connues

ou encore,
 s s 
 2
σX σ 2 2
σX σ 2 
P X −Y − + Y zα/2 ≤ µX − µY ≤ X − Y + + Y zα/2 =
 m n m n 

Ainsi le plus court intervalle de conance de niveau (1 − α) pour la

diérence µX − µY quand les variances σX2 et σY2 sont connues est donné

par

s s
h σX2 σ2 σX2 σ2 i
(X − Y ) − + Y zα/2 , (X − Y ) + + Y zα/2 .
m n m n

Fadoua BADAOUI (INSEA) Inférence 3 mai 2019 110 / 194


Cas où les variances sont inconnues mais égales
(Échantillons de petites tailles)

On suppose ici que σY2 = σX2 = σ 2 , où σ2 est aussi inconnue. Dans ce cas
1
σ2 SX2 = − X )2
Pm
possède au moins deux estimateurs : i=1 (Xi et
m−1
1
SY2 = − Y )2 .
Pn
i=1 (Yi En combinant les deux échantillons on
n−1
obtient un meilleur estimateur appelé l'estimateur unié sans biais de σ 2 ,
noté
2
Suni et donné par
é

2 (m − 1)SX2 + (n − 1)SY2
Sunié = .
n+m−2

Fadoua BADAOUI (INSEA) Inférence 3 mai 2019 111 / 194


Cas où les variances sont inconnues mais égales
(Échantillons de petites tailles)

Remarque
On a
n+m−2 2
Sunié ∼ χ2m+n−2 ,
σ2
2σ 4
d'où E[ S2unié ] = σ 2 et 2
Var (Sunié )= m+n−2 .

2
D'où Var (Sunié ) ≤ min(VarSX2 , VarSY2 ).

Cela exprime que, en tant qu'estimateur sans biais de σ 2 , Sunié


2 est
meilleur que SX2 et SY2 .

Fadoua BADAOUI (INSEA) Inférence 3 mai 2019 112 / 194


D'autre part X −Y est le meilleur estimateur sans biais pour µX − µY . De

plus la diérence

σ2 σ2
 
X − Y ∼ N µX − µY , + ,
m n
et est indépendante de
2
Sunié. Par conséquent, la v.a.
(X − Y ) − (µX − µY )
q = tn+m−2 suit la loi de Student à m+n−2 degrés
Sunié m1 + n1
de liberté. D'où
( r )
1 1

P (µX − µY ) − (X − Y ) ≤ tm+n−2, α/2 + Sunié = 1 − α.

m n
Ainsi
r
1 1
h i
(X − Y ) ± Sunié + tm+n−2, α/2 .
m n

Fadoua BADAOUI (INSEA) Inférence 3 mai 2019 113 / 194


Exemple
La contenance en nicotine d'une cigarette est supposée suivre une loi
normale de moyenne µ et de variance σ 2 . Une étude a été conduite pour
comparer la contenance en nicotine des cigarettes de marque A et celle
des cigarettes de marque B. Un échantillon de m = 10 cigarettes de
marque A a révélé une moyenne de 3.1 mg avec un écart type de 0.5
mg, alors q'un échantillon de n = 8 cigarettes de marque B a révélé une
moyenne de 2.7 mg avec un écart type de 0.7 mg. En supposant
l'égalité des variances des deux populations, construire un intervalle de
niveau de conance 0.95 pour la diérence µA − µB des contenances
moyennes des deux marques. M

Fadoua BADAOUI (INSEA) Inférence 3 mai 2019 114 / 194


On a α = 0.05 et tm+n−2,α/2 = 2.119. d'autre part, l'estimateur unié est

donné par :

s
(10 − 1)(0.5)2 + (8 − 1)(0.7)2
Sunié = = 0.596,
10 + 8 − 2

Un intervalle de niveau de conance 0.95 pour la diérence µA − µ B est

alors donné par :


r r
1 1 1 1
h i
(3.1 − 2.7) − 0.596 + 2.119 , (3.1 − 2.7) + 0.596 + 2.119
10 8 10 8

=[-0.199,0.999].

Fadoua BADAOUI (INSEA) Inférence 3 mai 2019 115 / 194


Cas où les variances sont inconnues et diérentes (Éch. de
grandes tailles)

Supposons que σX2 et σY2 sont inconnues, diérentes et que

min(n, m) ≥ 30. On a σX2 ' SX2 et σY2 ' SY2 . D'où, par le TCL on a

(X − Y ) − (µX − µY )
q ' Z.
SX2 /m + SY2 /n
Ainsi un intervalle de conance de niveau (1 − α) pour la diérence

µX − µY de deux moyennes des lois normales, lorsque σX2 et σY2 ne sont

pas proportionnelles et lorsque min(m, n) ≥ 30 , est donné par

s s
h S2
X S2
Y SX2 S2 i
(X − Y ) − + zα/2 , (X − Y ) + + Y zα/2 .
m n m n
Fadoua BADAOUI (INSEA) Inférence 3 mai 2019 116 / 194
Cas de deux lois qlcq (Éch. de grandes tailles)

Dans ce cas, on doit faire appel aux théorèmes limites. On supposera alors

que m et n sont assez grands pour que les approximations soient justiées.

Cas où les variances σX2 et σY2 sont connues : D'après le TCL on a


(X − Y ) − (µX − µY )
q ' Z.
σX2 /m + σY2 /n

Ainsi un intervalle de conance de niveau 1 −α pour (µX − µY ), lorsque

min(m, n) ≥ 30 , est donné par

s s
h σX2 σ2 σX2 σ2 i
(X − Y ) − + Y zα/2 , (X − Y ) + + Y zα/2 .
m n m n

Fadoua BADAOUI (INSEA) Inférence 3 mai 2019 117 / 194


Cas de deux lois qlcq (Éch. de grandes tailles)

Cas où les variances sont inconnues : Pour min(m, n) assez grand on

a σX2 ' SX2 et σY2 ' SY2 et par le TCL

(X − Y ) − (µX − µY )
q ' Z.
SX2 /m + SY2 /n

Ainsi un intervalle de conance approximatif de niveau 1 −α pour

(µX − µY ), lorsque ≥ 30 , est donné par

s s
h S2
X S2
Y SX2 SY2 i
(X − Y ) − + zα/2 , (X − Y ) + + z .
m n m n α/2

Fadoua BADAOUI (INSEA) Inférence 3 mai 2019 118 / 194


IC pour la diérence de deux proportions

Soient X = (X1 , ..., Xm ) un échantillon issu d'une loi de B ernoulli(pX ) et

Y = (Y1 , ..., Yn ) un échantillon issu d'une loi de B ernoulli(pY ). On suppose

que les deux échantillons sont indépendants.

On montre que pour n assez grand, on a

(X − Y ) − (pX − pY )
q ' Z.
X (1 − X )/m + Y (1 − Y )/n
Ainsi un intervalle de conance approximatif de niveau 1 −α pour

(pX − pY ), lorsque min(m, n) ≥ 30 , est donné par

s
h X (1 − X ) Y (1 − Y ) i
(X − Y ) ± + zα/2 .
m n
Fadoua BADAOUI (INSEA) Inférence 3 mai 2019 119 / 194
Exemple
Un sondage a montré que 132 des 200 électeurs et 90 des 150 électrices
interrogés préfèrent le candidat A. Notons pH et pF les proportions des
électeurs respectivement chez les hommes et chez les femmes qui sont
favorables au candidat A. Construire un intervalle de conance de
niveau 0.99 pour pH − pF . M

Fadoua BADAOUI (INSEA) Inférence 3 mai 2019 120 / 194


132 90
Nous avons pc
H = = 0.66, pc
F = = 0.60, α = 0.01 et
200 150
Zα/2 = 2.575. D'où un intervalle de conance approximatif de niveau 0.99

pour pH − pF donné par

r
h (0.66)(0.34) (0.60)(0.40) i
(0.66 − 0.60) ± + 2.575
200 150

Après calcul on obtient, [−0.074, 0.194]

Fadoua BADAOUI (INSEA) Inférence 3 mai 2019 121 / 194


IC pour le quotient des variances de deux lois normales.

Avec les notations et les conditions précédentes, la variable aléatoire


SX2 /σX2
= Fm−1,n−1 suit la loi de Fisher à m − 1 et n−1 degrés de liberté.
SY2 /σY2
Son (1 − α)−quantile Fm−1,n−1, α est tel que

P{Fm−1,n−1 ≥ Fm−1,n−1, α } = α

σY2 SX2
 
Il s'ensuit que P Fm−1,n−1, 1−α/2 ≤ 2 2 ≤ Fm−1,n−1, α/2 = 1−α.
σX SY
σY2
On en déduit un intervalle de conance de niveau (1 − α) pour est
σX2
donné par
h S2 S2 i
Fm−1,n−1, 1−α/2 Y2 , Fm−1,n−1, α/2 Y2 .
SX SX
Fadoua BADAOUI (INSEA) Inférence 3 mai 2019 122 / 194
IC pour une diérence de moyennes : Échantillons appariés

Dans ce paragraphe nous nous intéressons aux diérences de moyennes

lorsque les échantillons ne sont pas indépendants. Nous illustrons cette

situation par l'exemple suivant.

Fadoua BADAOUI (INSEA) Inférence 3 mai 2019 123 / 194


Exemple

Pour tester l'ecacité d'un programme de formation visant à réduire le

temps d'accomplissement d'une certaine tâche, on a choisi six ouvriers au

hasard puis on a relevé les temps (en mn) qu'ils ont mis pour accomplir

cette tâche. Les six ouvriers ont ensuite suivi le programme de formation

puis on a relevé les temps mis pour accomplir la même tâche.

Notons µ1 et µ2 les temps moyens mis par un ouvrier pour accomplir la

tâche en question respectivement avant et après le programme de

formation.

Fadoua BADAOUI (INSEA) Inférence 3 mai 2019 124 / 194


Les résultats de cette expérience sont donnés dans le tableau suivant :

Ouvrier N
◦ 1 2 3 4 5 6

Temps avant la formation (en mn) :X 6.0 5.0 7.0 6.2 6.0 6.4

Temps après la formation (en mn) :Y 5.4 5.2 6.5 5.9 6.0 5.8

(D = X −Y) 0.6 -0.2 0.5 0.3 0.0 0.6

Les échantillons X1 , . . . , X6 et Y1 , . . . , Y6 ne sont pas indépendants, et par

conséquent les techniques des paragraphes précédents ne s'appliquent pas.

On considère plutôt l'échantillon D1 , . . . , D6 , où Di = Xi − Yi , pour

construire un intervalle de conance pour µD = µ1 − µ2 et on applique

alors les techniques que nous avons déjà développées dans le cas d'un seul

échantillon.
Fadoua BADAOUI (INSEA) Inférence 3 mai 2019 125 / 194
IC pour une diérence de moyennes : Échantillons appariés

Pour les données du tableau ci-dessus, étant donnée la taille de

l'échantillon, nous avons besoin de supposer que l'échantillon D1 , . . . , D6


est issu d'une loi
2 ).
N (µD , σD Ainsi un intervalle de conance de niveau

(1 − α) est donné par

6
SD SD 1
SD2 = (Di − D)2 .
X
D − √ t5,α/2 , D + √ t5,α/2 , où
6 6 5
i=1

Remarque
Dans le cas d'échantillons de grandes tailles (n ≥ 30), le TCL permet de
passer à l'hypothèse de normalité pour l'échantillon D1 , . . . , Dn .

Fadoua BADAOUI (INSEA) Inférence 3 mai 2019 126 / 194


Table of Content
1 Statistiques d'Échantillonnage

Introduction

Loi de la moyenne d'un échantillon

2 Estimation ponctuelle et par intervalles

Méthodes d'estimation

Qualités d'un estimateur

Estimation par intervalles

3 Tests d'hypothèses

Introduction et méthodes

Exemples de tests usuels

Tests uniformément plus puissants


Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 127 / 194
Tests d'hypothèses

Aux chapitres précédents nous avons vu comment un échantillon peut être

utilisé pour estimer un paramètre. Dans ce chapitre nous allons voir

comment un échantillon peut aider à prendre une décision concernant la

valeur d'un paramètre. Pour illustrer cela, nous introduisons l'exemple

suivant

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 128 / 194


Exemple
La durée de vie d'une ampoule est une v.a. de loi N (µ, σ 2 ). Les
ampoules fabriquées selon un certain procédé ont une durée de vie
moyenne de 600 heures avec un écart type de 10 heures. Un nouveau
procédé est sensé allonger la durée de vie moyenne. Ci-dessous sont les
durées de vie de 10 ampoules fabriquées selon le nouveau procédé :

510; 614; 780; 603; 512; 501; 534; 603; 788; 650.

À partir de ces données peut-on conclure que le nouveau procédé


améliore la durée de vie moyenne des ampoules ? L'objectif d'un test
d'hypothèse est de répondre à ce genre de question.

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 129 / 194


Dénition
Soit θ∈Θ un paramètre d'une loi de probabilité et Θ0 et Θ1 deux

sous-ensembles disjoints de Θ tels que Θ0 ∪ Θ1 = Θ. Les assertions

H0 : θ ∈ Θ0 et H1 : θ ∈ Θ1 sont appelées respectivement l' hypothèse


nulle et l'hypothèse alternative.
Un test d'hypothèse ou test statistique est une démarche conduisant à

élaborer une règle de décision permettant de faire un choix entre les deux

hypothèses statistiques H0 et H1 .
• L'hypothèse nulle H0 . C'est l'hypothèse selon laquelle on xe a priori la

valeur d'un paramètre.

• L'hypothèse alternative H1 . On peut choisir pour cette hypothèse

n'importe quelle hypothèse compatible avec le problème étudié, mais

diérente de H0 .
Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 130 / 194
Reconsidérons l'exemple de la durée de vie des ampoules fabriquées selon

un nouveau procédé.

On cherche à tester l'hypothèse H0 : µ ≤ 600 versus H1 : µ > 600.


L'échantillon fournit la statistique X qui est un estimateur sans biais pour

µ. Une procédure naturelle de décision consisterait à rejeter H0 lorsque

X > C, où C est une constante à déterminer.

La décision qui sera prise dépend donc de l'échantillon observé. Elle est

donc assujettie à l'erreur.Le tableau ci-dessous résume la situation

H0 vraie H0 fausse

Rejeter H0 Mauvaise décision Bonne décision

Accepter H0 Bonne décision Mauvaise décision

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 131 / 194


Dénition
On appelle erreur de première espèce ou erreur de type 1 la décision de
rejeter H0 alors qu'elle est vraie. La décision de ne pas rejeter H0
alors qu'elle est fausse s'appelle l'appelle erreur de deuxième espèce ou
erreur de type 2.

Dénition
Les probabilités des erreurs de première et deuxième espèce sont notées

• α = P{Rejeter H0 |H0 est vraie} > 0, et

• β = P{Ne pas rejeter H0 |H0 est fausse} > 0.

Elles s'appellent respectivement risque de première espèce et risque de

deuxième espèce.

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 132 / 194


La décision idéale est celle où ces deux risques seraient nuls, i.e.

α = β = 0. Mais cela est, sauf dans des situations triviales, impossible.

Comme il est impossible de contrôler en même temps α et β, on xe α et

on cherche la décision pour laquelle β est minimum. C'est cette approche

que nous allons développer dans ce chapitre.

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 133 / 194


Méthodes

La situation générale est celle où l'échantillon est issu d'une population

dont la loi dépend d'un paramètre θ ∈ Θ ⊂ Rd , d ∈ N, et on cherche à

conclure que θ ∈ Θ0 ou θ ∈ Θ1 , où Θ0 ⊂ Θ et Θ1 ⊂ Θ sont

complémentaires.

Dénition
Les hypothèses  H0 : θ ∈ Θ0  et  H1 : θ ∈ Θ1 , où Θ0 et Θ1 sont deux

sous-ensembles complémentaires de Θ, s'appellent respectivement

l'hypothèses nulle et l'hypothèses alternative.

Lorsque Θi est réduit à un seul élément, on dit que Hi est une hypothèse

simple, sinon Hi est une hypothèse composite (pour i = 0, 1).

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 134 / 194


Méthodes

C'est l'utilisateur qui dénit l'hypothèse nulle et l'alternative, l'approche

que nous adoptons ici consiste à convenir que l'erreur de première espèce

est plus grave que l'erreur de deuxième espèce et donc il est préférable de

contrôler α (la probabilité de l'erreur de première espèce).

En pratique, les valeurs les plus courantes de α sont 0.10, 0.05 et 0.01. La

valeur de α représente le risque d'erreur de première espèce que l'utilisateur

est prêt à courir.

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 135 / 194


Critères pour choisir H0
Le choix de H0 peut être dicté par des raisons telles que :

1- On ne veut pas abandonner trop souvent l'hypothèse H0 qui est

solidement établie et n'a jamais été contredite auparavant.

2- H0 est une hypothèse à laquelle on tient particulièrement (pour des

raisons qui peuvent être subjectives.)

3- H0 correspond à une hypothèse de prudence : Pour tester l'ecacité

d'un nouveau vaccin, il est prudent de choisir une hypothèse H0


défavorable au nouveau produit.

4- H0 est la seule hypothèse facile à formuler. Par exemple, pour tester

µ = µ0 contre µ 6= µ0 il est clair que seule H0 : µ = µ0 permet

d'eectuer des calculs.

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 136 / 194


Méthodes

Après avoir xé α et déni l'hypothèse nulle H0 et l'alternative H1 , on

dénit un procédé selon lequel on rejette ou accepte l'hypothèse nulle. On

dit qu'on a construit un  test d'hypothèses.


Dénition
Un test d'hypothèses est une procédure, basée sur l'échantillon observé

x1 , . . . , xn , qui permet de déterminer un sous ensemble R de Rn tel que

Si (x1 , . . . , xn ) ∈ R alors on décide de rejeter H0 et d'accepter H1 , et

Si /R
(x1 , . . . , xn ) ∈ alors on décide de rejeter H1 et d'accepter H0 .

L'ensemble R est appelé  région critique  ou  région de rejet  .

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 137 / 194


Exemple
Considérons des lampes à incandescence dont la durée de vie est une
variable aléatoire gaussienne de moyenne m = 1000h et d'écart-type
s = 100h. Un ingénieur propose un nouveau procédé de fabrication qui
doit améliorer cette durée de vie moyenne et la rendre égale à 1075h.
Deux hypothèses sont en présence :
soit m = 1000 h est une hypothèse encore vraie et le nouveau
procédé n'a pas modié de façon signicative la durée de vie des
lampes,
soit m = 1075 et le nouveau procédé a apporté une réelle
amélioration.

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 138 / 194


suite de l'exemple

On suppose que la durée de vie des lampes suit une loi normale de même

écart-type s, égal à 100, sous les deux hypothèses. Le meilleur estimateur

de l'espérance mathématique est la statistique X , moyenne d'un

échantillon de taille n. C'est la variable de décision utilisée pour construire

le test. On décide de contrôler un échantillon de taille n = 25 lampes

fabriquées suivant le nouveau procédé.

Les deux hypothèses en présence sont :

H0 : m = m0 = 1000heures
H1 : m = m1 = 1075heures

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 139 / 194


Suite exemple

Si le risque de première espèce α est égal à 5%, la région critique, de rejet

de H0 , est dénie par : Pr (R/H0 ) = 0.05 c'est-à-dire P(X > d) = 0.05


Soit Z la variable aléatoire centrée réduite associée à X :

d−1000
P(X > d) = p(Z  20 ) = 0.05
d−1000
20 = 1.6449 =⇒ d = 1033h

 Règles de décision :

X ≥ 1033 heures, on rejette H0


X ≺ 1033 heures, on garde H0 .
 L'échantillon a donné pour la statistique X la valeur 1 050 heures. On

doit donc rejeter l'hypothèse H0 , et accepter l'hypothèse H1 .


Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 140 / 194
Méthodes

Notations
La fonction φ(x) = IR (x), dénie à partir de la région critique d'un test,

s'appelle la fonction test. Par abus de langage on notera par φ le test et sa

fonction test.

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 141 / 194


Dénition
Considérons le test d'hypothèses H0 : θ ∈ Θ0 contre H1 : θ ∈ Θ1 dont la

région critique est R, et soit α ∈ [0, 1].


On dit que c'est un test de  niveau  α si

sup Pθ {(X1 , . . . , Xn ) ∈ R} ≤ α.
θ∈Θ0

Lorsqu'il y a égalité, on dit que c'est un test de  taille  α.

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 142 / 194


Élaboration d'un test et démarche à suivre

Pour élaborer un test statistique, il faut :

Formuler de façon précise les hypothèses H0 et H1 ,

Fixer, avant l'expérience, le risque α de première espèce, c'est-à-dire le

risque de rejeter l'hypothèse H0 alors qu'elle est vraie,

Préciser les conditions d'application du test : forme de la loi de

probabilité de la population étudiée, taille de l'échantillon, variance

connue ou inconnue...

Choisir la statistique la mieux adaptée en fonction des caractéristiques

de la population étudiée et donner sa loi de probabilité sous les deux

l'hypothèses, ces lois doivent être diérentes,

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 143 / 194


Déterminer la région critique ou région de rejet de l'hypothèse H0 au

prot de l'hypothèse H1 et en déduire la règle de décision :

•R région critique conduisant au rejet de H0 : Pr (R/H0 ) = α,


•R région de non-rejet donc d'acceptation de H0 :

Pr (R/H0 ) = (1 − α).
On en déduit la valeur du risque de deuxième espèce β :

Pr (R/H1 ) = (1 − β)

Calculer eectivement la valeur numérique t de la variable de décision

en utilisant les résultats apportés par l'échantillon,

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 144 / 194


donner les conclusions du test :

• si t ∈ R, on rejette l'hypothèse H0 au prot de l'hypothèse H1 sans

conclure que l'hypothèse H0 est fausse, mais elle a une forte

probabilité de l'être, le test est signicatif,

• si t ∈ R, on ne peut pas rejeter l'hypothèse H0 donc on garde cette

hypothèse, le test n'est pas signicatif.

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 145 / 194


Table of Content
1 Statistiques d'Échantillonnage

Introduction

Loi de la moyenne d'un échantillon

2 Estimation ponctuelle et par intervalles

Méthodes d'estimation

Qualités d'un estimateur

Estimation par intervalles

3 Tests d'hypothèses

Introduction et méthodes

Exemples de tests usuels

Tests uniformément plus puissants


Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 146 / 194
Exemples de tests usuels

Tests sur les moyennes : Dans ce paragraphe nous présentons les tests
les plus usuels concernant la moyenne d'une population.

Supposons que nous voulons tester, au niveau α ∈]0, 1[, l'hypothèse nulle

µ = µ0 contre l'une des alternatives µ 6= µ0 , µ > µ0 ou µ < µ0 en nous

basant sur un échantillon X1 , . . . , Xn .

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 147 / 194


Cas d'un échantillon issu d'une loi N (µ, σ 2 ) où la variance
σ 2 est connue

Le TRV conduit à une région critique basée sur la statistique test


√ X − µ0
n . Le tableau suivant résume les diérents cas de gures que
σ
nous venons d'évoquer :

H0 H1 Rejeter H0 lorsque
√ |x − µ0 |
µ = µ0 µ 6= µ0 n > zα/2
σ
√ x − µ0
µ = µ0 µ > µ0 n > zα
σ
√ x − µ0
µ = µ0 µ < µ0 n < −zα
σ

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 148 / 194


Cas d'un échantillon issu d'une loi N (µ, σ 2 ) où la variance
σ 2 est inconnue

Dans ce cas, comme d'habitude, on remplace σ2 par son estimateur dans la

statistique test. Si la taille de l'échantillon est petite n < 30, on remplace

zα par tn−1,α . Sinon, on garde zα .

H0 H1 Rejeter H0 lorsque
√ |x − µ0 |
µ = µ0 µ 6= µ0 n > tn−1,α/2
s
√ x − µ0
µ = µ0 µ > µ0 n > tn−1,α
s
√ x − µ0
µ = µ0 µ < µ0 n < −tn−1,α
s

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 149 / 194


Cas d'un échantillon issu d'une loi N (µ, σ 2 ) où la variance
σ 2 est inconnue

Remarque
Il est possible de remplacer µ = µ0 par µ ≤ µ0 de l'hypothèse nulle
dans la deuxième ligne du tableau ( ou par µ ≥ µ0 dans la troisième
ligne du tableau) sans rien changer à la décision. Cette remarque reste
valable pour tous les tableaux de ce genre qui vont suivre.

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 150 / 194


Exemple
On suppose que la durée de vie d'un pneu d'une certaine marque est
une v.a. qui suit une loi N (µ, σ 2 ). Un échantillon de 100 pneus de ladite
marque a révélé une durée de vie moyenne de x = 21431 km avec un
écart-type de s = 1295 km.
Tester au niveau α = 0.05 les hypothèse H0 : µ ≥ 22000 contre
H1 : µ < 22000. M

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 151 / 194


√ x − µ0
On rejette H0 si 100 < −z0.05 . Or z0.05 ' 1.64, et
s
√ x − µ0 √ 21431 − 22000
100 = 100 = −4.39.
s 1295
Conclusion : On rejette l'hypothèse H0 : µ ≥ 22000.

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 152 / 194


Cas d'un échantillon de grande taille issu d'une loi qlcq

Lorsque la taille de l'échantillon est assez grande (n ≥ 30), on n'a pas

besoin de supposer que l'échantillon provient d'une loi normale. En eet,


√ X − µ0
grâce au TCL, on a n ' Z, où σ
e désigne σ ou son estimateur S
σ
e
selon que la variance est connue ou inconnue. Le tableau suivant résume les

diérents cas de gures :

H0 H1 Rejeter H0 lorsque
√ |x − µ0 |
µ = µ0 µ 6= µ0 n > zα/2
σ̃
√ x − µ0
µ = µ0 µ > µ0 n > zα
σ̃
√ x − µ0
µ = µ0 µ < µ0 n < −zα
σ̃

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 153 / 194


Tests de comparaison de moyennes de deux populations de
lois normales

Pour comparer les moyennes de deux populations, on dispose d'un

échantillon X1 , . . . , Xm issu d'une première population de loi N (µ1 , σ12 ) et

d'un échantillon Y1 , . . . , Yn issu d'une deuxième population de loi

N (µ2 , σ22 ). On supposera en plus que les deux échantillons sont

indépendants. Supposons que nous voulons tester, au niveau α ∈]0, 1[,


l'hypothèse nulle µ1 − µ2 = 0 contre l'une des alternatives µ1 − µ2 6= 0,
µ1 − µ2 > 0 ou µ1 − µ2 < 0. Les tableaux suivants résument les diérents

cas de gure :

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 154 / 194


Tests de comparaison de moyennes de deux populations de
lois normales

Cas où σ12 et σ22 sont connues :

H0 H1 Rejeter H0 lorsque

|x − y |
µ1 − µ 2 = 0 µ1 − µ2 6= 0 q > zα/2
σ12 /m + σ22 /n
x −y
µ1 − µ 2 = 0 µ1 − µ 2 > 0 q > zα
σ12 /m + σ22 /n
x −y
µ1 − µ 2 = 0 µ1 − µ 2 < 0 q < −zα
σ12 /m + σ22 /n

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 155 / 194


Tests de comparaison de moyennes de deux populations de
lois normales

Cas où σ12 = σ22 = σ 2 inconnue :

H0 H1 Rejeter H0 lorsque

|x − y |
µ1 − µ2 = 0 µ1 − µ2 6= 0 p > tm+n−2,α/2
Sunié 1/m + 1/n
x −y
µ1 − µ2 = 0 µ1 − µ2 > 0 p > tm+n−2,α
Sunié 1/m + 1/n
x −y
µ1 − µ2 = 0 µ1 − µ2 < 0 p < −tm+n−2,α
Sunié 1/m + 1/n

(m − 1)SX2 + (n − 1)SY2
r
où Sunié = est l'écart-type unié.
m+n−2
Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 156 / 194
Cas de deux populations de lois qlcq : Éch. de grandes tailles

Pour comparer les moyennes de deux populations de lois quelconques, on

dispose d'un échantillon X1 , . . . , Xm issu d'une première population de

moyenne µ1 et de variance σ12 et d'un échantillon Y1 , . . . , Yn issu d'une

deuxième population de moyenne µ2 et de variance σ22 . On supposera en

plus que les deux échantillons sont indépendants.

Supposons que nous voulons tester, au niveau α ∈]0, 1[, l'hypothèse nulle

µ1 − µ2 = 0 contre l'une des alternatives µ1 − µ2 6= 0, µ1 − µ2 > 0 ou

µ1 − µ2 < 0. D'après le TCL, sous l'hypothèse nulle, on a


x −y
q ' Z , avec σ̃i qui dénote l'écart-type de la i ème
σ˜1 2 /m + σ˜2 2 /n
population, de l'échantillon associé ou encore l'écart-type unié.

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 157 / 194


Cas de deux populations de lois qlcq : Éch. de grandes tailles

Le tableau suivant résume les diérents cas de gure :

H0 H1 Rejeter H0 lorsque

|x − y |
µ1 − µ2 = 0 µ1 − µ2 6= 0 q > zα/2
σ˜1 2 /m + σ˜2 2 /n
x −y
µ1 − µ2 = 0 µ1 − µ 2 > 0 q > zα
σ˜1 2 /m + σ˜2 2 /n
x −y
µ1 − µ2 = 0 µ1 − µ 2 < 0 q < −zα
2
σ˜1 /m + σ˜2 /n 2

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 158 / 194


Exemple
Supposons que l'on s'intéresse à la contenance en nicotine pour deux
marques de cigarettes. Un échantillon de 50 cigarettes de marque A a
révélé une moyenne x A = 2.61 mg avec un écart-type sA = 0.12 mg,
alors qu'un échantillon de 40 cigarettes de marque B a révélé une
moyenne x B = 2.38 mg avec un écart-type sB = 0.14 mg. Tester, au
niveau de signication α = 0.05, les hypothèses H0 : µA − µB = 0 contre
H1 : µA − µB 6= 0. M

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 159 / 194


|x − x B |
On rejette H0 si q A > z0.05/2 = 1.96. Or le terme gauche de
sA2 /50 + sB2 /40
cette inégalité est égal à 1.08. Donc on ne doit pas rejeter H0 .

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 160 / 194


Tests sur les variances

Supposons que nous voulons tester, au niveau α ∈]0, 1[, l'hypothèse nulle

σ = σ0 contre l'une des alternatives σ 6= σ0 , σ > σ0 ou σ < σ0 et que pour

cela, nous disposons d'un échantillon X1 , . . . , Xn issu d'une loi N (µ, σ 2 ).


Le tableau suivant résume les diérents cas de gure :

H0 H1 Rejeter H0 lorsque

(n − 1)S 2
σ = σ0 σ 6= σ0 > χ2n−1,α/2 ou < χ2n−1,1−α/2
σ02
(n − 1)S 2
σ = σ0 σ > σ0 > χ2n−1,α
σ02
(n − 1)S 2
σ = σ0 σ < σ0 < χ2n−1,1−α
σ02

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 161 / 194


Remarque
Ici on a supposé que µ est inconnue. Dans le cas où µ est connue, on
remplace (n − 1)S 2 par (Xi − µ)2 et χ2n−1 par χ2n .
Pn
i=1

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 162 / 194


Exemple
L'épaisseur d'une composante, d'un semi-conducteur est une dimension
très importante que l'on suppose suivre une loi N (µ, σ 2 ). Elle est
considérée acceptable si sa variation reste inférieure à 0.36. Un
échantillon de 18 composantes a révélé une variance s 2 = 0.68. Tester,
au niveau de signication α = 0.05, les hypothèses H0 : σ 2 ≤ 0.36 contre
H1 : σ 2 > 0.36. M

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 163 / 194


(n − 1)s 2
On rejette H0 si > χ2n−1,α = 27.587. Or le premier terme de
σ0 )2
17(0.68)
cette inégalité est égal à = 32.1, donc on rejette H0 .
0.36

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 164 / 194


Comparaison de deux variances

Nous avons vu, lors des tests de comparaison de deux moyennes, comment

l'égalité ou l'inégalité des variances intervient dans la détermination de la

statistique test. Dans ce paragraphe nous allons développer les tests de

comparaison de deux variances.

Supposons que nous voulons tester, au niveau α ∈]0, 1[, l'hypothèse nulle

σ1 = σ2 contre l'une des alternatives σ1 6= σ2 , σ1 > σ2 ou σ1 < σ2 et que

pour cela, nous disposons d'un échantillon X1 , . . . , Xm issu d'une loi

N (µ1 , σ12 ) et d'un échantillon Y1 , . . . , Yn issu d'une loi N (µ2 , σ22 ) que l'on

suppose indépendants.

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 165 / 194


Comparaison de deux variances

Le tableau suivant résume les diérents cas de gure :

H0 H1 Rejeter H0 lorsque

S12
σ1 = σ2 σ1 6= σ2 > Fm−1,n−1,α/2 ou < Fm−1,n−1,1−α/2
S22
S12
σ1 = σ2 σ1 > σ2 > Fm−1,n−1,α
S22
S12
σ1 = σ2 σ1 < σ2 < Fm−1,n−1,1−α
S22

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 166 / 194


Tests sur les proportions

Dans ce paragraphe nous présentons les tests les plus usuels concernant p
la probabilité de succès dans une expérience à deux issues possibles :

Succès et échec.

Supposons que nous voulons tester, au niveau α ∈]0, 1[, l'hypothèse nulle

p = p0 contre l'une des alternatives p 6= p0 , p > p0 ou p < p0 en nous

basant sur un échantillon X1 , . . . , Xn issu d'une loi de B ernoulli(p ).

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 167 / 194


Tests sur les proportions

Le tableau suivant résume les diérents cas de gures :

H0 H1 Rejeter H0 lorsque
√ |b
p − p0 |
p = p0 p 6= p0 n p > Zα/2
p0 (1 − p0 )
√ pb − p0
p = p0 p > p0 n p > Zα
p0 (1 − p0 )
√ pb − p0
p = p0 p < p0 n p < −Zα
p0 (1 − p0 )

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 168 / 194


Exemple
Une compagnie de fabrication de détergent arme qu'au moins 20% de
la population des consommateurs achètent le détergent de marque A.
Tester cette armation au niveau α = 0.01 sachant que parmi les 200
personnes choisies au hasard, 30 ont déclaré acheter la marque A.
Soit p la vraie proportion des consommateurs qui achètent le détergent
de marque A. Pour vérier les dires de la compagnie, on va tester
l'hypothèse H0 : p ≥ 0.20 contre l'alternative H1 : p < 0.20. M

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 169 / 194


√pb − p0 58
On rejette H0 n p
si < −Zα avec n = 200, pb = ,
p0 (1 − p0 ) 200
p0 = 0.20, α = 0.01 et Zα = 2.33. Les calculs montrent que
√ pb − p0
n p = −1.77 > −Zα et donc on ne rejette pas H0 .
p0 (1 − p0 )

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 170 / 194


Comparaison de deux proportions

Dans ce paragraphe nous allons construire des tests qui permettent de

comparer deux proportions.

Supposons que l'on dispose de deux échantillons indépendants X1 , . . . , Xm


issu d'une loi de B ernoulli(p1 ) et Y1 , . . . , Yn issu d'une loi de B ernoulli(p2 )
pour tester, au niveau α ∈]0, 1[, l'hypothèse nulle p1 = p2 contre l'une des

alternatives p1 6= p2 , p1 > p2 ou p1 < p2 .

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 171 / 194


Comparaison de deux proportions

Le tableau suivant résume les diérents cas de gures :

H0 H1 Rejeter H0 lorsque
|pb1 − pb2 |
p1 = p2 p1 6= p2 p > Zα/2
pb12 (1 − pb12 )(1/n + 1/m)
pb1 − pb2 ,
p1 = p2 p1 > p2 p > Zα
pb12 (1 − pb12 )(1/n + 1/m)
pb1 − pb2
p1 = p2 p1 < p2 p < −Zα
pb12 (1 − pb12 )(1/n + 1/m)
mpb1 + npb2
où pb12 = .
m+n

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 172 / 194


Exemple
Un organisme de prévention des accidents de la circulation mène une
étude dans le but de montrer que l'utilisation de la ceinture de sécurité
est plus fréquente chez les femmes que chez les hommes. Un échantillon
de 792 automobilistes choisis au hasard a révélé les données suivantes :
Homme Femme
Met la ceinture 131 148
Ne met pas la ceinture 283 230
Notons p1 et p2 les proportions d'hommes et de femmes qui mettent
leur ceinture de sécurité en conduisant. M

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 173 / 194


On teste alors l'hypothèse H0 : pH − pF ≤ 0 contre H0 : pH − pF > 0 au

niveau α = 0.05.
pb − pb2
On rejette l'hypothèse H0 si p 1 > Zα . Or on a
pb12 (1 − pb12 )

131 148 279 pb − pb2


pb1 = , pb2 = , pc
12 = , d'où p 1 = −0.16.
414 378 792 pb12 (1 − pb12 )

Comme Zα = 1.64, On ne rejette pas H0 .

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 174 / 194


Cas des échantillons appariés

Remarque
Dans le cas de deux échantillons appariés, on se ramène au cas d'un
seul échantillon en considérant l'échantillon des diérences.

Fadoua BADAOUI (INSEA) Inférence 7 mai 2019 175 / 194


Table of Content
1 Statistiques d'Échantillonnage

Introduction

Loi de la moyenne d'un échantillon

2 Estimation ponctuelle et par intervalles

Méthodes d'estimation

Qualités d'un estimateur

Estimation par intervalles

3 Tests d'hypothèses

Introduction et méthodes

Exemples de tests usuels

Tests uniformément plus puissants


Fadoua BADAOUI (INSEA) Inférence 17 mai 2019 176 / 194
Puissance de test

Il est usuel de noter :

Le risque de première espèce la valeur α (la probabilité de rejeter H0


alors qu'elle est vraie) telle que : P(X ∈ R|H0 )

Le risque de deuxième espèce la valeur β (la probabilité d'accepter H0


alors que H1 est vraie) telle que : P(X ∈ R|H1 )

Dénition
On appelle puissance d'un test la probabilité de rejeter H0 alors qu'elle est

eectivement fausse soit, dans les notations précédentes : P(X ∈ R|H1 ) .

La puissance, qui est la capacité à détecter qu'une hypothèse nulle est

fausse, n'est rien d'autre que 1 − β.


Fadoua BADAOUI (INSEA) Inférence 17 mai 2019 177 / 194
Exemple
Considérons des lampes à incandescence dont la durée de vie est une
variable aléatoire gaussienne de moyenne m = 1000h et d'écart-type
s = 100h. Un ingénieur propose un nouveau procédé de fabrication qui
doit améliorer cette durée de vie moyenne et la rendre égale à 1075h.
On décide de contrôler un échantillon de n = 25 lampes fabriquées
suivant le nouveau procédé. Deux hypothèses sont en présence :
soit m = 1000 h est une hypothèse encore vraie et le nouveau
procédé n'a pas modié de façon signicative la durée de vie des
lampes,
soit m = 1075 et le nouveau procédé a apporté une réelle
amélioration.
Fadoua BADAOUI (INSEA) Inférence 17 mai 2019 178 / 194
Suite exemple

Si le risque de première espèce α est égal à 5%, la région critique, de rejet

de H0 , est dénie par : Pr (R/H0 ) = 0.05 c'est-à-dire P(X > d) = 0.05


Soit Z la variable aléatoire centrée réduite associée à X :

d−1000
P(X > d) = p(Z  20 ) = 0.05
d−1000
20 = 1.6449 =⇒ d = 1033h

 Règles de décision :

X ≥ 1033 heures, on rejette H0


X ≺ 1033 heures, on garde H0 .
 L'échantillon a donné pour la statistique X la valeur 1 050 heures. On

doit donc rejeter l'hypothèse H0 , et accepter l'hypothèse H1 .


Fadoua BADAOUI (INSEA) Inférence 17 mai 2019 179 / 194
Suite exemple

Le risque β de deuxième espèce est déni par :

β = P(X < d|H1 )


1033−1075
β = P(X < 1033) = p(Z < 20 = −2.10)

D'où β = 0, 0179.
La probabilité de refuser H1 alors que cette hypothèse est vraie est donc

égale à 0, 0179, elle est assez faible ; la puissance du test est égale à 0, 9821.

Fadoua BADAOUI (INSEA) Inférence 17 mai 2019 180 / 194


Dénition
Un test est dit sans biais si sa puissance est supérieure ou égale à son

risque α, telle que

1 − β ≥ α.

Dénition
Soit C une classe de tests pour tester H0 : θ ∈ Θ0 contre H1 : θ ∈ Θ1 . Et

soient φ1 , φ2 ∈ C deux tests et π1 et π2 leurs fonctions puissance

respectives, π : θ ∈ Θ 7→ Pθ {(X1 , . . . , Xn ) ∈ R} ∈ [0, 1].


On dit que φ1 est plus puissant que φ2 si ∀θ ∈ Θ1 , π1 (θ) ≥ π2 (θ).
Un test φ∈C est uniformément le plus puissant (UPP) dans C s'il est plus

puissant que tout autre élément de C.

Fadoua BADAOUI (INSEA) Inférence 17 mai 2019 181 / 194


Exemple

On veut vérier que le pourcentage p de pièces défectueuses dans un lot de

plusieurs milliers de pièces n'excède pas 3%. On prélève un échantillon de

n = 200 pièces et on adopte la règle de décision suivante, en désignant par

K le nombre de pièces défectueuses dans l'échantillon prélevé :

 si K ≤ 10 le lot est accepté,

 si K ≥ 11 le lot est refusé.

Fadoua BADAOUI (INSEA) Inférence 17 mai 2019 182 / 194


Suite exemple

 Risque de première espèce associé à cette règle de décision :

α = P(refuserH0 |H0 vraie) = P(K ≥ 11|p0 = 0, 03)

La variable K suit la loi binomiale B(n; p) avec n = 200 et p = p0 = 0, 03


sous H0 et p = p1 > 0, 03 sous H1 .
On peut utiliser l'approximation normale, en eet :

E (K ) = 6 et Var (K ) = 200 × 0, 03 × 0, 97 = 5, 82 = (2, 41)2

α = P(11 ≤ K ≤ 200) = Pr (10, 5 < K < 200, 5) (avec la correction de

continuité)

P( 102,,541−6 < Z < 20,5−6


2,41 ) = 0, 031 = α
Fadoua BADAOUI (INSEA) Inférence 17 mai 2019 183 / 194
Suite exemple

 Risque de deuxième espèce :

β = P(refuserH1 |H1 vraie) = P(0 ≤ K ≤ 10|p > 0, 03)


p
La loi limite de la variable K est la loi normale N(200p; 200p(1 − p)).

β = P( √ 0,5−np < Z < √10,5−np )


200p(1−p) 200p(1−p)

(avec la correction de continuité).

Fadoua BADAOUI (INSEA) Inférence 17 mai 2019 184 / 194


Suite exemple

On remarque que le test est d'autant plus puissant que p  0, 03.


Si on observe un pourcentage de pièces défectueuses p = 0, 08, on trouve

β = 0, 076 (risque d'accepter le lot) et donc 1 − β = 0, 924.

Fadoua BADAOUI (INSEA) Inférence 17 mai 2019 185 / 194


Théorème ( Lemme de Neyman-Pearson)
Pour tester les hypothèses simples H0 : θ = θ 0 contre H1 : θ = θ 1 ,
considérons le test de taille α et dont la région critique R vérie

x ∈ R

si f (x , θ1 ) > k f (x , θ0 )
(8)
/R
x ∈ f (x , θ1 ) < k f (x , θ0 )

si

où k ≥0 est une constante et f (x , θ) est la fdp. Alors,

a- (Susance) Tout test de taille α dont la région critique vérie (8) est
UPP dans l'ensemble des tests de niveau α.

b- (Nécessité) S'il existe un test de taille α dont la région critique vérie


(8) avec k > 0, alors tout test UPP de niveau α est de taille α et

admet une région critique qui vérie (8) sauf sur un négligeable.

Fadoua BADAOUI (INSEA) Inférence 17 mai 2019 186 / 194


Corollaire
Consiérons les hypothèses simples du théorème précédent, et soit

T = T (X) une statistique exhaustive pour θ et g (t, θ) sa fdp. Alors tout

test de taille α qui est basé sur T et de région critique S est UPP de
niveau α si 
t ∈ S

si g (t, θ1 ) > k g (t, θ0 )
(9)
t ∈

/S si g (t, θ1 ) < k g (t, θ0 )

où k ≥0 est une constante.

Fadoua BADAOUI (INSEA) Inférence 17 mai 2019 187 / 194


Exemple
Soit X1 , . . . , Xn un échantillon issu d'une loi normale N (µ, σ 2 ), avec σ
connu. Soient les hypothèses H0 : µ = µ0 versus H1 : µ = µ1 , avec
µ1 > µ0 .
Le test φ = IR , de région critique R = {(x1 , . . . , xn ) ∈ Rn : x > c}, est
UPP au niveau α. M

Fadoua BADAOUI (INSEA) Inférence 17 mai 2019 188 / 194


Familles à rapport de vraisemblance monotone

Dénition
Une famille de f.d.p. {g (t, θ) : t ∈ R, θ ∈ Θ ⊂ R} est dite  à rapport de
vraisemblance monotone (RVM) si, pour tout θ1 < θ2 , la fonction
g (t, θ2 )
est croissante en t sur ∪2i=1 {t ∈ R : g (t, θi ) > 0}.
g (t, θ1 )

Fadoua BADAOUI (INSEA) Inférence 17 mai 2019 189 / 194


Familles à rapport de vraisemblance monotone

Exemple
Soient X1 , . . . , Xn un échantillon issu d'une loi de Poisson de paramètre
θ et θ1  θ.
x
θ i exp(−θ1 )
1
Qn
i=1
Pn
f (X1 ,...,Xn ;θ1 )
f (X1 ,...,Xn ;θ) = xi !
Qn θxi exp(−θ) = exp −(θ1 − θ)( θθ1 ) i=1 xi =T (X )=λ
i=1 xi !

On calcule la dérivée par rapport à λ qui est croissante en T (X )


D'où la loi de poisson est une famille à RVM. M

Fadoua BADAOUI (INSEA) Inférence 17 mai 2019 190 / 194


Théorème
Si Θ⊂R et si ω(θ) est croissante en θ alors toute famille exponentielle de

la forme f (x, θ) = C (θ)h(x) exp(ω(θ)T (x)) est a rapport de vraisemblance

monotone en T (x).

Exemple
Soient X1 , . . . , Xn un échantillon issu d'une loi de Bernoulli de
paramètre θ = p .

θ
P(X = x) = exp(x ln( 1−θ ) + ln(1 − θ))

On sait que T (X ) est une statistique exhaustive pour θ.


1
On a ω(θ) = ln( 1−θ
θ 0
) ⇒ ω (θ) = θ(1−θ) >0
Donc ω(θ) est monotone et B(θ = p) est une famille à RVM. M
Fadoua BADAOUI (INSEA) Inférence 17 mai 2019 191 / 194
Théorème
Soient les hypothèses H0 : θ ≤ θ0 contre H1 : θ > θ 0 , et soit T une

statistique exhaustive pour θ de fdp g (t, θ) et telle que la famille

{g (t, θ) : θ ∈ Θ} est à RVM. Alors pour tout t0 , le test dont la région

critique est donnée par R={T> t0 } est UPP au niveau α = Pθ0 {T > t0 }.

Remarque
Il est clair que par raisonnement analogue, on peut montrer que pour
tout t0 , le test de région critique R={T< t0 } est UPP au niveau
α = Pθ0 {T < t0 } pour tester H0 : θ ≥ θ0 contre H1 : θ < θ0 .

Fadoua BADAOUI (INSEA) Inférence 17 mai 2019 192 / 194


Exemple
Soit X = (X1 , ..., Xn ) un échantillon issu de la loi normale N (µ, σ 2 ),
avec σ est inconnue.
La loi N (µ, σ 2 ) est à RVM et = T (X ) est exhaustive pour
Pn
i=1 xi

θ = µ. On considére le test H0 : µ ≤ µ0 contre H1 : µ > µ0 .


D'aprés le Th de N.P ⇒ ∃ un test UPP de région critique
W = {T (X )>k}.

n k
α = Pθ0 {T > k} = Pθ0 {X > kn } = Pθ0 {Z > σ (n − µ0 )} = α

où Z = n
σ (X − µ0 ) ∼ N ( 0 , 1 )

n k
P{Z ≤ σ (n − µ0 )} = 1 − α
√ √
n k
σ (n − µ0 ) = U1−α ⇔ k = nσU1−α + nµ0

Donc W = {X ≥ µ0 + σU√1n−α }. M
Fadoua BADAOUI (INSEA) Inférence 17 mai 2019 193 / 194
Exemple
Soit X1 , . . . , Xn un échantillon issu de la loi exponentielle de moyenne µ
1
(i.e. f (x, θ) = θe−θx I[0,∞[ (x), où θ =
> 0). Déterminer, s'il existe, le
µ
test UPP au niveau α pour tester H0 : µ ≥ µ0 vs H1 : µ < µ0 . Notons
que cela reviens à tester H0 : θ ≤ θ0 vs H1 : θ > θ0 . La fonction de
vraisemblance est f (x1 , . . . , xn , θ) = θn I[0,∞[ (xi ) e−θ xi . La loi de
Y  P

l'échantillon appartient donc à une famille à rapport de vraisemblance


monotone. De plus la statistique T (x1 , . . . , xn ) = xi est exhaustive
X

pour θ. D'après le théorème précédent le test dont la région critique est


R = {(x1 , . . . , xn ) ∈ Rn : T = T (x1 , . . . , xn ) > t0 }, où t0 est un réel tel
que Pθ0 {T > t0 } = α, est UPP au niveau α. M

Fadoua BADAOUI (INSEA) Inférence 17 mai 2019 194 / 194

Vous aimerez peut-être aussi