Vous êtes sur la page 1sur 26

Statistique inférentielle

L2 UFRMI

Armel Fabrice Yodé


Laboratoire de Mathématiques Appliquées et Informatique (L.M.A.I.)

UFR Mathématique et Informatique

Université de Cocody-Abidjan, Côte d'Ivoire

yafevrard@yahoo.fr
2
Table des matières

1 Introduction 5
1.1 Echantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1 Échantillon . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.2 Modèles statistiques . . . . . . . . . . . . . . . . . . . 6
1.2 Vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Moments empiriques . . . . . . . . . . . . . . . . . . . . . . . 8
2 Estimation ponctuelle 11
2.1 Estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Propriétés des estimateurs . . . . . . . . . . . . . . . . . . . . 11
2.2.1 Biais et risque quadratique . . . . . . . . . . . . . . . . 11
2.2.2 Propriétés asymptotiques . . . . . . . . . . . . . . . . . 12
2.3 Information de Fisher et borne de Cramer-Rao . . . . . . . . . 13
2.4 Methode du maximum de vraisemblance . . . . . . . . . . . . 14
2.5 Méthode des moments . . . . . . . . . . . . . . . . . . . . . . 17
2.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3 Estimation par intervalle de conance 19
3.1 Dénitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2 Intervalles de conance d'une moyenne . . . . . . . . . . . . . 20
3.2.1 Intervalle de conance bilatéral de la moyenne lorsque
X est gaussienne . . . . . . . . . . . . . . . . . . . . . 20
3.2.1.1 Cas où σ 2 n'est pas connue . . . . . . . . . . 20
3.2.2 Intervalle de conance de la moyenne lorsque X n'est
pas gaussienne . . . . . . . . . . . . . . . . . . . . . . 21
3.3 Intervalle de conance d'une proportion . . . . . . . . . . . . . 21
3.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4 Tests d'hypothèses 23
4.1 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.2 Principe des tests . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.3 Mécanisme des tests . . . . . . . . . . . . . . . . . . . . . . . 24
4.4 La p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3
4 TABLE DES MATIÈRES

4.5 Lemme de Neyman-Pearson . . . . . . . . . . . . . . . . . . . 25


4.6 Idée de construction d'un test d'hypothèses . . . . . . . . . . . 25
4.7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Chapitre 1
Introduction

1.1 Echantillonnage
1.1.1 Échantillon
Soit X une variable aléatoire réelle (discrète ou continue) dont la loi de
probabilité dépend d'un paramètre inconnu θ inconnu. L'objectif de la statis-
tique inférentielle est d'obtenir des informations sur le paramètre inconnu θ à
partir d'un échantillon de X .
Dénition 1. Un échantillon de X de taille n est un n-uplet (X1 , . . . , Xn )
de variables aléatoires indépendantes distribuées de même loi que X . Une
réalisation de cet échantillon est un n-uplet de réels (x1 , . . . , xn ) où Xi (ω) = xi .
La statistique inférentielle a pour objectif d'avoir des informations sur le para-
mètre inconnu θ en se basant sur (X1 , . . . , Xn ). On part de l'échantillon pour
avoir une meilleure connaissance du général.
On considère deux situations diérentes conduisant à un échantillon :
- la répétition d'une expérience aléatoire
Exemple 1. On lance n fois une pièce. On note
si le lancer i est pile
(
1
Xi =
0 si lancer i est face.

S'il s'agit de la même pièce et qu'on ne modie pas la manière dont on


lance, alors on peut dire que les Xi sont indépendantes et identiquement
distribuées de loi commune la loi de Bernoulli B(1, θ). Le paramètre θ
représente la probabilité du succès, c'est à dire la probabilité d'obtenir
pile.
- la considération d'un échantillon au sein d'une population

5
6 CHAPITRE 1. INTRODUCTION

Exemple 2. Deux candidats Kouko et Yao sont en présence d'une élec-


tion. n personnes sont tirées au hasard parmi les électeurs et interrogées
sur leurs intentions de vote. On note
si l'individu i vote Kouko
(
1
Xi =
0 si l'individu i vote Yao.
Les valeurs observées sont considérées comme étant les réalisations de
variables aléatoires X1 , . . . , Xn indépendantes et identiquement distri-
buées selon la distribution nale des voix, c'est à dire la loi de Bernoulli
B(1, θ). Le paramètre θ représente la probabilité du succès, c'est à dire
la probabilité de voter pour Kouko.

1.1.2 Modèles statistiques


Dénition 2. nOn appelle modèle
o statistique la donnée d'une famille de lois
de probabilité Pθ , θ ∈ Θ ⊂ Rd ; Θ est appelé espace des paramètre.
Étant donné une loi de probabilité Pθ , θ ∈ Θ, on dénit une fonction
f : R × Θ → R+
fθ (x) si X est une v.a.r. continue de densité fθ (·)
(
(x, θ) 7→ f (x, θ) =
Pθ (X = x) si X est une v.a.r. discrète

Exemple 3.
n o
1. Modèle de Bernouilli : B(1, θ), θ ∈ Θ =]0, 1[⊂ R ; elle
modélise le comportement d'une quantité qui ne peut prendre que deux
valeurs. On a
f (x, θ) = θ(1 − θ)1I{0,1} (x).
n o
2. Modèle gaussien : N (µ, σ 2 ), θ = (µ, σ 2 ) ∈ Θ = R × R∗+ ⊂ R2 ; elle
est la loi d'observations quantitatives qui résultent de la combinaison
de nombreux eets. On
1  1 
f (x, µ, σ 2 ) = √exp − 2 (x − µ)2 .
2πσ 2σ
n o
3. Modèle exponentiel : E(θ), θ ∈ Θ = R+ ⊂ R ; la loi exponentielle est

beaucoup utilisée dans les études médicales ou dans les études de abi-
lité, pour modéliser les durées de survie (à une aection grave, comme
un cancer) ou celles avant la prochaine panne (prochain pneu crevé sur
une voiture, prochaine défaillance d'une machine sur une chaîne indus-
trielle). On a
f (x, θ) = θe−θx 1IR+ (x).
1.2. VRAISEMBLANCE 7
n o
4. Modèle de Poisson : P(θ), θ ∈ Θ = R∗+ ⊂ R , la loi de Poisson permet
de modéliser les événements rares. On a
θx
f (x, θ) = e−θ 1IN (x).
x!
Dénition 3. Le support de Pθ est l'ensemble
{x : f (x, θ) > 0} .

Dénition 4. Si toutes les lois Pθ , θ ∈ Θ ont un support commun alors le mo-


dèle est dit homogène. Cela signie que pour chaque θ ∈ Θ, {x : f (x, θ) > 0}
ne dépend pas de θ.

Exemple 4. n 1. oLe modèle de Bernouilli est un modèle homogène car son


support 0, 1 est indépendant de θ.
2. Le modèle uniforme {U[0,θ] , θ > 0} n'est pas homogène. En eet, la den-
1
sité de la loi uniforme sur [0, θ] étant f (x, θ) = 1I[0,θ] (x), son support
θ
[0, θ] dépendant du paramètre.

Dénition 5. Le modèle statistique {Pθ , θ ∈ Θ} est identiable lorsque


l'application θ 7−→ Pθ est injective.

1.2 Vraisemblance
On considère un échantillon (X1 , . . . , Xn ) issu de la loi de probabilité Pθ
avec θ ∈ Θ.

Dénition 6. La vraisemblance de l'échantillon observé (x1 , . . . , xn ) est don-


née par
n
Y
L(x1 , . . . , xn , θ) = f (xi , θ).
i=1

Exemple 5. 1. La vraisemblance de (x1 , . . . , xn ) issu d'une loi de Ber-


nouilli est :
n
θxi (1 − θ)1−xi 1I{0,1} (xi )
Y
L(x1 , . . . , xn , θ) =
i=1
 θ Pni=1 xi
= (1 − θ) n
1I{0,1}n (x1 , . . . , xn )
1−θ
8 CHAPITRE 1. INTRODUCTION

2. La vraisemblance de (x1 , . . . , xn ) issu d'une loi exponentielle est


n
θ exp(−θxi )1IR∗+ (xi )
Y
L(x1 , . . . , xn , θ) =
i=1
 n 
xi 1I(R∗+ )n (x1 , . . . , xn ).
X
n
= θ exp − θ
i=1

1.3 Moments empiriques


Soit (X1 , . . . , Xn ) un échantillon issu d'une loi admettant pour esperance
µ et pour variance σ 2 .

Dénition 7. On appelle moyenne empirique de l'échantillon (X1 , . . . , Xn ) la


variable aléatoire X n dénie par
n
1X
Xn = Xi .
n i=1

Proposition 1. L'espérance et la variance de X n sont respectivement E[X n ] = µ


σ2
et var(X n ) = .
n
Démonstration. La linéarité de l'espérance et l'identique distribution des va-

riables Xi impliquent
h1 Xn i
E[X n ] = E Xi
n i=1
n
1X
= E[Xi ]
n i=1
= µ.

L'indépendance et l'identique distribution des variables Xi impliquent


n
1 X 
var(X n ) = var Xi
n i=1
n
1 X
= var(Xi )
n2 i=1
σ2
= .
n
1.3. MOMENTS EMPIRIQUES 9
Voici quelques résultats concernant le comportement asymptotique de la
moyenne empirique X n . Le premier résultat est la loi des grands nombres
nous montre que X n se rapproche de la moyenne théorique lorsque la taille de
l'échantillon devient grande.
Théorème 1. Soit X1 , . . . , X n des variables aléatoires indépendantes et iden-

tiquement distribuées de moyenne µ et de variance σ 2 < ∞. Alors, nous avons

P
X n −→ µ.

Le second théorème appelé le Théorème central limite nous montre que X n


tend à être une gaussienne lorsque la taille de l'échantillon devient grande.
Théorème 2. Soit X1 , . . . , X n des variables aléatoires indépendantes identi-

quement distribuées de moyenne µ ∈ R et de variance σ 2 > 0. Alors, nous

avons √
n(X n − µ) L
−→ N (0, 1).
σ
En pratique, à partir de n > 30, on peut approximer la loi de la moyenne
σ2
empirique par la loi normale N (m, ). Ce résultat donne une explication du
n
rôle important que joue la loi normale en Statistique.
D'une façon beaucoup plus générale, le résultat suivant nous donne le com-
portement asymptotique de g(Yn ) lorsque Yn est asymptotiquement normal :
C'est la delta-méthode.
Théorème 3. Si la suite de variables aléatoires (Yn ) est asymptotiquement

normale, telle qu'il existe y et σy2 avec


n(Yn − y) −→ N (0, σy2 )

et si g est une fonction de classe C1 alors g(Yn ) est asymptotiquement normal

√ 0
n(g(Yn ) − g(y)) −→ N (0, σy2 (g (y))2 ).

Dénition 8. On appelle variance empirique de l'échantillon (X1 , . . . , Xn ) la


statistique dénie par
n
2 1X
V = (Xi − X)2 .
n i=1

Exercice 1. Montrer que :


n−1 2
E[Vn2 ] = σ .
n
10 CHAPITRE 1. INTRODUCTION

Dénition 9. On appelle variance empirique modiée de l'échantillon (X1 , . . . , Xn )


la statistique Sn2 dénie par
n
1 X
Sn2 = (Xi − X)2 .
n − 1 i=1

Remarque 1. On vérie aisément que


E[Sn2 ] = σ 2 .

De façon plus générale, on peut dénir les moments empiriques d'ordre k.


Dénition 10. On appelle moment empirique d'ordre k de l'échantillon (X1 , . . . , Xn )
la statistique Mkn dénie par
n
1X k
Mkn = X .
n i=1 i

La moyenne empirique est le moment empirique d'ordre 1 : X n = M1n .


Dénition 11. On appelle moment empirique centré d'ordre k de l'échantillon
(X1 , . . . , Xn ) la statistique Vkn dénie par
n
1X
Vkn = (Xi − X n )k .
n i=1

La variance empirique est le moment centré d'ordre 2.


Le dernier résultat de cette section nous donne quelques propriétés carac-
téristiques d'un vecteur gaussien.
Théorème 4. Soit (X1 , . . . , Xn ) un échantillon issu d'une loi normale N (µ, σ2 )
avec µ∈R et σ 2 > 0. Alors nous avons :

1. Sn2 et Xn sont indépendantes

σ2
 
2. X n ,→ N µ, .
n
(n − 1)Sn2
3. ,→ χ2 (n − 1)
σ2
√ 
n Xn − µ
4. ,→ T (n − 1).
Sn
Chapitre 2
Estimation ponctuelle
On considère un échantillon (X1 , . . . , Xn ) issu d'une loi de probabilité Pθ
où θ ∈ Θ ⊆ R est un paramètre inconnu. Le but de ce chapitre est d'esti-
mer g(θ) où g est une fonction dénie sur R à valeurs dans R en se basant
sur cet échantillon (X1 , . . . , Xn ). L'estimation consiste à donner des valeurs
approximatives à g(θ) à l'aide de l'échantillon.

2.1 Estimateurs
Dénition 12. Un estimateur de g(θ) est toute variable aléatoire Tn = T (X1 , . . . , Xn )
construite uniquement à partir de l'échantillon (X1 , . . . , Xn ). En particulier, il
ne doit pas dépendre de quantités inconnues.
Une estimation de g(θ) est la valeur de Tn que l'on peut calculer en remplaçant
(X1 , . . . , Xn ) par sa réalisation (x1 , . . . , xn ).

2.2 Propriétés des estimateurs


2.2.1 Biais et risque quadratique
Dénition 13. Le biais d'un estimateur Tn de g(θ) est déni par
bn (θ) = Eθ (Tn ) − g(θ).
Le biais de l'estimateur est la moyenne des écarts systématiques entre Tn
et g(θ). L'absence d'un écart systématique entre Tn et g(θ) se traduit par un
biais nul.
Dénition 14. Un estimateur Tn de g(θ) est dit sans biais lorsque pour tout
θ∈Θ
Eθ (Tn ) = g(θ).
Dans le cas contraire, l'estimateur Tn est dit biaisé.

11
12 CHAPITRE 2. ESTIMATION PONCTUELLE

Dénition 15. Un estimateur Tn de g(θ) est dit asymptotiquement sans biais


lorsque pour tout θ,
n→+∞
Eθ (Tn ) −→ g(θ).

Dénition 16. Pour un estimateur Tn de g(θ), le risque quadratique moyen


est déni par

R(Tn , θ) = Eθ (Tn − g(θ))2


= varθ (Tn ) + (bn (θ))2

Dénition 17. Soient Tn∗ et Tn∗∗ deux estimateurs de g(θ). Tn∗ est préférable
à Tn∗∗ si
R(Tn∗ , θ) ≤ R(Tn∗∗ , θ) ∀θ ∈ Θ.

Remarque 2. Pour un estimateur sans biais Tn de g(θ), le risque quadratique


moyen est déni par
R(Tn , θ) = varθ (Tn )

2.2.2 Propriétés asymptotiques


Lorsque la taille de l'échantillon est susamment grande, il est souhaitable
que Tn se rapproche de g(θ).

Dénition 18. Tn est un estimateur convergent (ou consistant) de g(θ) si

Tn −→ g(θ) lorsque n → +∞.


P

Interprétation : On a la garantie qu'à un rang n assez grand et avec grande


probabilité, Tn soit proche du paramètre de g(θ).

Dénition 19. Un estimateur Tn de g(θ) est dit asymptotiquement normal si


√ L
n (Tn − g(θ)) −→ N (0, σθ2 ) n → +∞

où σθ2 est à déterminer.

Interprétation : La normalité asymptotique est une propriété plus précise


qui indique que la uctuation de l'estimateur autour de g(θ) est approximati-
vement normale :
σθ2
 
L
Tn ≈ N g(θ), .
n
2.3. INFORMATION DE FISHER ET BORNE DE CRAMER-RAO 13
2.3 Information de Fisher et borne de Cramer-
Rao
On considère un échantillon (X1 , . . . , Xn ) issu d'une loi de probabilité Pθ
de densité f (·, θ) avec θ ∈ Θ ⊂ R. On note
n
Y
L(X1 , . . . , Xn , θ) = f (Xi , θ).
i=1

Pour mesurer l'information contenue dans un un échantillon (X1 , . . . , Xn ),


Fisher a déni la quantité d'information.
Dénition 20. Dans un modèle régulier, on appelle information de Fisher au
point θ apportée par l'échantillon (X1 , . . . , Xn ) la quantité
∂ 2 ln(L(X1 , . . . , Xn , θ))
 
In (θ) = −Eθ
∂θ2

Dénition 21. Le modèle statistique {Pθ , θ ∈ Θ ⊂ R} est dit régulier si


(i) le modèle est homogène
(ii) on peut dériver l'application θ 7−→ f (x, θ)dx est deux fois dérivable
R +∞
−∞
sous le signe d'intégration.
(iii) In (θ) > 0 pour tout θ ∈ Θ.

Exemple 6. Soit l'échantillon (X1 , . . . , Xn ) issu d'une loi de Bernouilli B(1, θ)


avec θ ∈]0, 1[. Le modèle de Bernouilli {B(1, θ), θ ∈]0, 1[} est régulier. La
vraisemblance
 θ Pni=1 Xi
n
L(X1 , . . . , Xn , θ) = (1 − θ)
1−θ
La log-vraisemblance est
n
X n
X
ln L(X1 , . . . , Xn , θ) = Xi ln(θ) + (n − Xi ) ln(1 − θ)
i=1
Pn Pi=1
∂ 2 ln L(X1 , . . . , Xn , θ) − i=1 Xi n − ni=1 Xi
2
= −
∂θ θ2 (1 − θ)2

Ainsi, nous avons :


∂ 2 ln L(X1 , . . . , Xn , θ)
 
n
I(θ) = −Eθ 2
= .
∂θ θ(1 − θ)
14 CHAPITRE 2. ESTIMATION PONCTUELLE

Le résultat suivant indique que le risque quadratique d'un estimateur sans


biais (i.e. sa variance) ne peut être inférieure à une certaine borne qui dépend
de l'information de Fisher.
Théorème 5. Soit Tn un estimateur sans biais de g(θ). Alors, nous avons

 2
∂g(θ)
∂θ
varθ (Tn ) ≥ .
In (θ)
 2
∂g(θ)
∂θ
La borne BRC(θ) = est appelée borne de Cramer-Rao. Si g(θ) = θ,
In (θ)
la borne de Cramer-Rao devient

1
BRC(θ) = .
In (θ)
Dénition 22. Un estimateur Tn est dit ecace si
- Tn est sans biais
 2
∂g(θ)
∂θ
- varθ (Tn ) = .
In (θ)
Remarque 3. - Un estimateur ecace est de variance minimale.
- Un estimateur peut être sans biais, de variance minimale, mais ne pas
atteindre la borne de Cramer-Rao, donc ne pas être ecace.
Exemple 7. Soit l'échantillon (X1 , . . . , Xn ) issu d'une loi de Bernouilli B(1, θ)
avec θ ∈]0, 1[. Montrons que X n est un estimateur ecace de θ. En eet,
- X n est un estimateur sans biais
θ(1 − θ) 1
- varθ (X n ) = = .
n In (θ)

2.4 Methode du maximum de vraisemblance


La vraisemblance de l'échantillon (X1 , . . . , Xn ) au point θ est donnée par
n
Y
Ln (X1 , . . . , Xn , θ) = f (Xi , θ).
i=1

La méthode du maximum de vraisemblance consiste à prendre comme estima-


teur de θ la valeur de θ qui rend maximale la vraisemblance Ln (X1 , . . . , Xn , θ).
Remarque 4. - L'estimateur du maximum de vraisemblance n'existe pas
toujours : la maximisation se fait sur un ouvert.
2.4. METHODE DU MAXIMUM DE VRAISEMBLANCE 15
- La vraisemblance n'est pas a priori dérivable en tout point θ ∈ Θ.
- Il n'y a aucune raison pour que l'estimateur du maximum de vraisem-
blance soit sans biais.
- L'estimateur du maximum de vraisemblance n'a aucune raison d'être
unique.
Puisque la fonction logarithme est croissante, sous certaines conditions, l'es-
timateur du maximum de vraisemblance est aussi le maximum du logarithme
de la vraisemblance Ln (X1 , . . . , Xn , θ) :
n
X
ln(Ln (X1 , . . . , Xn , θ)) = ln(f (Xi , θ).
i=1

Si la vraisemblance θ 7−→ Ln (X1 , . . . , Xn , θ) est deux fois dérivable et si elle


admet un maximum global en une valeur, alors l'estimateur du maximum de
vraisemblance θ̂n est solution du système
∂ ln(Ln (X1 , . . . , Xn , θ))


 (θ̂n ) = 0


 ∂θ

2
 ∂ ln(Ln (X1 , . . . , Xn , θ)) (θ̂ ) < 0.



n
∂θ2
Exemple 8. Soit l'échantillon (X1 , . . . , Xn ) issu d'une loi de Bernouilli B(1, θ)
avec θ ∈]0, 1[. La vraisemblance de (x1 , . . . , xn ) issu d'une loi de Bernouilli est :
n
θxi (1 − θ)1−xi 1I{0,1} (xi )
Y
L(x1 , . . . , xn , θ) =
i=1
 θ Pni=1 xi
= (1 − θ) n
1I{0,1}n (x1 , . . . , xn ).
1−θ
Pour tout (x1 , . . . , xn ) ∈ {0, 1}n , la log-vraisemblance est donnée
n
X n
X
ln L(x1 , . . . , xn , θ) = xi ln(θ) + (n − xi ) ln(1 − θ)
i=1 i=1
Pn n
n − ni=1 xi
P
∂ ln L(x1 , . . . , xn , θ) i=1 xi 1X
= − = 0 ⇐⇒ θ = xi = xn
∂θ θ (1 − θ) n i=1
∂ 2 ln L(x1 , . . . , xn , θ) −nxn n − nxn
(x n ) = 2 − < 0.
∂θ2 xn (1 − xn )2
L'estimateur du maximum de vraisemblance de θ est donné par
θ̂n = X n .
16 CHAPITRE 2. ESTIMATION PONCTUELLE

Étude des propriétés de θ̂n .


1. D'après la loi des grands nombres, X n est un estimateur convergent de
θ.
2. D'après le Théorème Central limite X n est asymptotiquement normal :

n(X n − θ) −→ N (0, θ(1 − θ)).

3. D'après l'exemple 7, X n est un estimateur ecace de θ.


Exemple 9. Soit un échantillon (X1 , . . . , Xn ) issu d'une loi exponentielle de
paramètre θ > 0. La vraisemblance de (x1 , . . . , xn ) est
n
θ exp(−θxi )1IR∗+ (xi )
Y
L(x1 , . . . , xn , θ) =
i=1
 n 
xi 1I(R∗+ )n (x1 , . . . , xn ).
X
n
= θ exp − θ
i=1

Pour tout (x1 , . . . , xn ) ∈ (R∗+ )n , on a


n
X
ln(L(x1 , . . . , xn , θ)) = n ln(θ) − θ xi
i=1

n
∂ ln L(x1 , . . . , xn , θ) n X 1
= − xi = 0 ⇐⇒ θ =
∂θ θ i=1
xn
∂ 2 ln L(x1 , . . . , xn , θ)  1 
= −nx2n < 0.
∂θ2 xn
L'estimateur du maximum de vraisemblance de θ est donné par
1
θ̂n = .
Xn

Étude des propriétés de θ̂n .


1. D'après la loi des grands nombres, on a :
1
X n −→ .
θ
Comme, l'application x 7→ 1
x
est continue sur R∗+ , alors
1
−→ θ.
Xn
2.5. MÉTHODE DES MOMENTS 17
2. D'après le Théorème Central limite X n est asymptotiquement normal :
√  1  1
n Xn − −→ N 0, 2 .
θ θ

Comme, l'application g : x 7→ x1 est dérivable sur R∗+ et g (x) = − x12 ,


0

on obtient par la delta-méthode :


√  1 0 2

n(g(X n ) − g(1/θ)) −→ N 0, 2 (g (1/θ)) .
θ
c'est à dire
√  1 
n − θ −→ N (0, θ2 ).
Xn

3. θ̂n est un estimateur biaisé de θ. Il ne peut donc pas être ecace.


Remarque 5. Ces deux exemples ci-dessus nous donnent une idée des propriétés
de l'estimateur du maximum de vraisemblance.
1. L'estimateur du maximum de vraisemblance θ̂n est asymptotiquement
sans biais.
2. Pour n assez grand, la variance de l'estimateur du maximum de vrai-
1
semblance θ̂n est proche de . Puisqu'il est asymptotiquement sans
In (θ)
biais, on dit alors que θ̂n est asymptotiquement ecace.
3. Des propriétés ci-dessus, on a Eθ (θ̂n ) −→ θ et var(θ̂n ) −→ 0. On en
déduit que θ̂n est convergent, c'est à dire que,

θ̂n −→ θ ∀θ∈Θ

lorsque n → +∞.
4. L'estimateur du maximum de vraisemblance θ̂n est asymptotiquement
normal.

2.5 Méthode des moments


Supposons qu'il existe deux fonctions h et q telles que

q(θ) = Eθ (h(X)).

La méthode des moments consiste à remplacer les moments par leurs estima-
teurs empiriques.
18 CHAPITRE 2. ESTIMATION PONCTUELLE

Dénition 23. L'estimateur par la méthode des moments θn∗ (s'il existe) est
solution de l'équation :
n
1X
q(θ) = h(Xi ).
n i=1

Si q est bijective alors, l'estimateur par la méthode des moments est donné
par :
n
1 X 
θn∗ =q −1
h(Xi ) .
n i=1

Exemple 10. Soit un échantillon (X1 , . . . , Xn ) issu d'une loi exponentielle de


paramètre θ > 0. On sait que
1
Eθ (X1 ) = .
θ
Un estimateur par la méthode des moments est solution de :
n
1 1X 1
= Xi ⇐⇒ θn∗ = .
θ n i=1 Xn

2.6 Exercices
Exercice 1. Soit une variable aléatoire X distribuée selon la loi gamma Γ(n, λ)
où n est un entier naturel supérieur ou égal à 3 et λ est un paramètre stric-
tement positif. On suppose que le paramètre n est connu et le paramètre λ
inconnu.
1. Déterminer l'estimateur du maximum de vraisemblance λ̂ de λ.
2. Montrer que
n
E(λ̂) = λ.
n−1
Conclure.
3. Calculer la borne de Cramer-Rao pour l'estimation sans biais de λ.
4. L'estimateur λ̂ est-il ecace ?
Exercice 2. Soit une variable aléatoire X distribuée selon la loi binomiale
B(n, p) avec n ∈ N∗ et p ∈]0, 1[. On suppose que le paramètre n est connu et
le paramètre p inconnu.
1. Déterminer l'estimateur du maximum de vraisemblance p̂ de p.
2. Calculer la borne de Cramer-Rao pour l'estimation sans biais de p.
3. Montrer que l'estimateur du maximum de vraisemblance calculé est
ecace.
Chapitre 3
Estimation par intervalle de
conance
En estimation ponctuelle, on ne propose qu'une seule valeur pour le pa-
ramètre d'intérêt. Il n'y a quasiment aucune chance que cette valeur soit la
vraie valeur. L'objectif de ce chapitre est de proposer une fourchette de valeurs
possibles, tout un intervalle, ni trop gros, pour qu'il soit assez informatif, ni
trop petit, pour qu'on soit raisonnablement sûr qu'il contienne la vraie valeur.

3.1 Dénitions
Dénition 24. Soit α ∈]0, 1[ ; on appelle intervalle de conance pour le
paramètre θ de niveau de conance égale à 1 − α, un intervalle aléatoire
I(X1 , . . . , Xn ) ⊂ Θ tel que
Pθ (I(X1 , . . . , Xn ) 3 θ) = 1 − α.
Dénition 25. On dira que un intervalle aléatoire I(X1 , . . . , Xn ) est un in-
tervalle de conance pour le paramètre θ de niveau de conance asymptotique
égale à 1 − α si
lim Pθ (I(X1 , . . . , Xn ) 3 θ) = 1 − α.
n→+∞

Lorsque
I(X1 , . . . , Xn ) = [Tn∗ (X1 , . . . , Xn ), Tn∗∗ (X1 , . . . , Xn )]
où Tn∗ (X1 , . . . , Xn ) et Tn∗∗ (X1 , . . . , Xn ) sont des statistiques à valeurs dans Θ,
on parle d'intervalle de conance bilatéral. Dans le cas où
I(X1 , . . . , Xn ) = [Tn∗ (X1 , . . . , Xn ), +∞[
ou
I(X1 , . . . , Xn ) =] − ∞, Tn∗ (X1 , . . . , Xn )],

19
20 CHAPITRE 3. ESTIMATION PAR INTERVALLE DE CONFIANCE
on parle d'intervalle de conance unilatéral.
Remarque 6. À α xé, l'intervalle de conance est d'autant meilleur que sa

longueur est petite.


Dénition 26. Soit X une variable aléatoire réelle de fonction de répartition
F (x) = P(X ≤ x). Pour α ∈]0, 1[, on appelle quantile (ou fractile) d'ordre α
de la loi de X le nombre
qα = inf {x ∈ R, F (x) ≥ α} .
Lorsque la fonction de répartition F est continue et strictement croissante, elle
est inversible d'inverse F −1 et pour tout α ∈]0, 1[, on a qα = F −1 (α).

3.2 Intervalles de conance d'une moyenne


On considère une population de taille N sur laquelle l'on observe un ca-
ractère quantitatif X . Nous notons m et σ 2 respectivement la moyenne et la
variance du caractère X pour la population. On suppose que m est incon-
nue. L'objectif est de proposer un intervalle de conance pour m en se basant
sur un échantillon (X1 , . . . , Xn ). La variable aléatoire Xi donne la mesure du
caractère X sur l'individu i.
On désigne par X̄n et Sn2 respectivement la moyenne empirique et la va-
riance empirique modiée de l'échantillon.

3.2.1 Intervalle de conance bilatéral de la moyenne lorsque


X est gaussienne
L'intervalle de conance de niveau 1 − α pour la moyenne inconnue m
quand la variance σ 2 est connue, est
h t1− α σ t1− α σ i
X̄n − √ 2 , X̄n + √ 2
n n
α
ù q1− α2 est le quantile d'ordre 1 − de la loi normale N (0, 1).
2

3.2.1.1 Cas où σ2 n'est pas connue


Dans ce cas on estime σ 2 par la variance empirique modiée Sn2 . L'intervalle
de conance pour la moyenne inconnue m quand la variance σ 2 est inconnue,
est h t1− α2 Sn t1− α Sn
i
X̄n − √ , X̄n + √2
n n
α
où t1− α2 est le quantile d'ordre 1 − de la loi de Student à n − 1 degrés de
2
liberté.
3.3. INTERVALLE DE CONFIANCE D'UNE PROPORTION 21
3.2.2 Intervalle de conance de la moyenne lorsque X
n'est pas gaussienne
L'intervalle de conance pour la moyenne inconnue m quand la variance
σ 2 est inconnue, est
h z1− α Sn z1− α Sn i
X̄n − √2 , X̄n + √2
n n
α
où z1− α2 est le quantile d'ordre 1 − de la loi normale centrée réduite.
2

3.3 Intervalle de conance d'une proportion


On considère un échantillon (X1 , . . . , Xn ) issu de la loi de Bernouilli B(1, θ),
θ ∈]0, 1[. L'intervalle de conance pour une proportion p de niveau de conance
1 − α est :
s s
h X n (1 − X n ) X n (1 − X n ) i
X n − z1− α2 , X n + z1− α2
n n
α
où z1− α2 est le quantile d'ordre 1 − de la loi normale centrée réduite.
2

3.4 Exercices
Exercice 1. On a pesé 10 palettes de briques de la même fabrication et on
a obtenu les résultats suivants (kilogrammes) : 759, 750, 755, 756, 761, 765,
770, 752, 760, 767. On admet que ces résultats sont issus d'une population
distribuée selon une loi normale d'espérance µ et de variance σ 2 inconnues.
1. Construire un intervalle de conance pour µ de niveau de conance
0.90.
2. Quel niveau de conance choisir pour avoir un intervalle de conance
deux fois plus étroit que celui obtenu avec une conance de 0.90 ?
Exercice 2. La force de compression d'un type de béton est modélisée par
une variable gaussienne d'espérance µ et de variance σ 2 . L'unité de mesure est
le psi (pound per square inch). On supposera la variance σ 2 connue et égale à
1000. Sur un échantillon de 12 mesures, on a observé une moyenne empirique
de 3250 psi.
1. Donner un intervalle de conance de niveau 0.95 pour µ. Donner un
intervalle de conance de niveau 0.99 pour µ. Comparer les longueurs
des intervalles puis interpréter.
22 CHAPITRE 3. ESTIMATION PAR INTERVALLE DE CONFIANCE

2. Si avec le même échantillon on donnait un intervalle de conance de


longueur 30 psi, quel serait son niveau de conance ?
3. On souhaite maintenant estimer µ avec une précision de ±15 psi, avec
un niveau de conance de 0.95. Quelle taille minimum doit avoir l'échan-
tillon ?
Exercice 3.Lors d'une étude statistique portant sur un échantillon de 600
employés d'une entreprise, 450 employés sont favorables à la réduction du
temps de travail avec réduction de salaire.
1. Déterminer un intervalle de conance pour la proportion des employés
de l'entreprise qui sont favorables à cette réforme, avec un niveau de
conance de 95%, 98% et 99%. Interpréter.
2. A quel risque d'erreur correspond l'intervalle [72%, 78%] ?
3. Quelle taille d'échantillon aurait-il fallu choisir pour réduire cet inter-
valle de moitié ?
Chapitre 4
Tests d'hypothèses

4.1 Exemples
- Contrôle de qualité : au vu du nombre d'objets défectueux produits par
une machine, on doit décider si ce nombre est conforme à une certaine
norme, décider si la machine est à remplacer ou pas.
- Essais thérapeutiques : décider si un nouveau traitement médical est
meilleur qu'un ancien au vu du résultat de son expérimentation sur des
malades.

4.2 Principe des tests


Un test est un mécanisme qui permet de trancher au vu d'observations,
entre une hypothèse dite nulle et notée H0 , et une alternative notée H1 . Les
deux hypothèses H0 et H1 sont telles que une et une seule est vraie.
Dans un problème de test, l'on peut commettre deux types d'erreur :
• erreur de première espèce : rejeter H0 alors que H0 est vraie
• erreur de deuxième espèce : rejeter H1 alors que H1 est vraie.
Les conséquences de ces deux erreurs peuvent être d'importances diverses :
- contrôle de qualité : si on décide à tort que la machine n'est pas aux
normes, on engagera des dépenses inutiles de réparation ou de change-
ment de matériel ; si on décide à tort qu'elle est aux normes, on risque de
produire de mauvaises pièces, ce qui peut aboutir à un mécontentement
des clients, voire à des problèmes de sécurité.
- essais thérapeutiques : on peut adopter un nouveau traitement moins
ecace, voire pire que l'ancien, ou se priver d'un nouveau traitement
plus ecace que l'ancien.

23
24 CHAPITRE 4. TESTS D'HYPOTHÈSES

Dénition 27. On appelle risque de première espèce la probabilité de rejeter


H0 alors que H0 est vraie. Le seuil du test notée α est le plus gros risque de
première espèce ; la probabilité de rejeter H0 alors que H0 est vraie ne doit pas
dépasser α.
Dénition 28. On appelle risque de deuxième espèce la probabilité de rejeter
H1 alors que H1 est vraie.
Dénition 29. On appelle puissance du test pour H1 la probabilité d'accepter
H1 alors qu'elle est vraie.
L'idéal serait de diminuer les deux risques d'erreur en même temps. Malheu-
reusement, on montre qu'ils varient en sens inverse. Dans la pratique des tests
statistiques, il est de règle de se xer α, ce qui fait jouer à H0 un rôle préémi-
nent.
Un test est déterminé par sa région critique W qui constitue un sous-ensemble
des valeurs possibles de l'échantillon (X1 , . . . , Xn ). Lorsque (x1 , . . . , xn ) sont
des valeurs observées de cet échantillon,
- si (x1 , . . . , xn ) ∈ W , alors on rejette H0 et on accepte H1 ;
- si (x1 , . . . , xn ) 6∈ W , alors on accepte H0 et on rejette H1 .

4.3 Mécanisme des tests


1. Formulation des hypothèses H0 et H1 .
2. Choix du seuil du test α.
3. Détermination de la statistique de test T dont on connaît la loi si H0
est vraie.
4. Calcul de la région critique W (en utilisant T ). Si α est xé, W est
déterminée par
α = P (W |H0 vraie) = PH0 (W ).

Le complémentaire de W est appelé région d'acceptation.


5. Conclusion du test : rejet ou acceptation de H0 selon que l'on soit ou
non dans la région critique.
6. Calcul de la puissance ou du risque de deuxième espèce.

4.4 La p-value
En pratique, plutôt que de calculer la région critique en fonction de α, on
prefère donner un seuil critique de α∗ appelée p-value, qui est telle que
4.5. LEMME DE NEYMAN-PEARSON 25
- si α∗ < α, on rejette H0 ;
- si α < α∗ , on accepte H0 .
Les logiciels statistiques calculent et présentent les p-valeurs qui sont diciles
à obtenir sans moyen de calcul approprié. Si la p-value est faible, on rejette
H0 , sinon on accepte H0 .

4.5 Lemme de Neyman-Pearson


Soit un échantillon (X1 , . . . , Xn ) issu d'une loi de probabilité Pθ où θ est
un paramètre inconnu. Une hypothèse est dite simple si elle est réduite à un
singleton. Un test entre deux hypothèses simples se traduit par

H0 : θ = θ0
H1 : θ = θ1

avec θ0 6= θ1 . Introduisons la vraisemblance


n
Y
L(X1 , . . . , Xn , θ) = f (Xi , θ).
i=1

Théorème 6. de Neyman-Pearson

Pour tout α ∈]0, 1[, il existe une constante K>0 telle que la région critique

du test est donnée par

 
L(X1 , . . . , Xn , θ1 )
W = ≥K
L(X1 , . . . , Xn , θ0 )

où K est déterminée par

Pθ0 (W ) = α.

4.6 Idée de construction d'un test d'hypothèses


Pour construire un test d'hypothèses portant sur la valeur d'un paramètre
θ, l'on peut se er au bon sens. Si on connaît un estimateur θ̂n de θ, on pourrait
procéder de la facon suivante : soit θ0 une valeur possible de θ.
• Test de H0 : θ ≤ θ0 contre H1 : θ > θ0 .
On rejette H0 si θ̂n est "trop grand" i.e. la région critique est
n o
W = θ̂n > lα .
26 CHAPITRE 4. TESTS D'HYPOTHÈSES

• Test de H0 : θ ≥ θ0 contre H1 : θ ≤ θ0 .
On rejette H0 si θ̂n est "trop petit" i.e. la région critique est
n o
W = θ̂n < lα .
• Test de H0 : θ = θ0 contre H1 : θ 6= θ0 .
On rejette H0 si θ̂n − θ0 est "trop grand" i.e. la région critique est

n o
W = θ̂n − θ0 > lα .

• Test de Hn0 : θ = θo0 contre H1 : θ = θ1 .


- W = θ̂n > lα si θ1 > θ0
n o
- W = θ̂n < lα si θ1 < θ0 .
Pour déterminer lα , il faut résoudre l'équation
Pθ0 (W ) = α.

4.7 Exercices
Exercice 1. On veut comparer la proportion p des naissances masculines à
celle des naissances féminines grâce un échantillon de 900 naissances. On a
observé 477 garçons. Tester l'hypothèse H0 : p = 0.5 contre H1 : p > 0.5 au
seuil α = 0.05.
Exercice 2. On désire tester si la durée de vie moyenne d'un tube électro-
nique est égale à 1600 heures ou si elle est plutôt inférieure à cette valeur. Les
observations sur un échantillon de taille 16 suivent une loi normale N (µ, 900).
La moyenne estimée est X̄16 = 1590.
1. Donner les hypothèses nulle H0 et alternative et H1 .
2. Quelle est la région critique du test ?
3. Peut-on rejeter H0 au seuil de α = 1% ?
4. Calculer l'erreur de deuxième espèce et la puissance du test pour µ =
1570.
Exercice 3. Un fabricant de pneus prétend que la durée de vie moyenne d'un
nouveau type de pneus est supérieure à 25000 miles sous certaines conditions.
Un échantillon aléatoire de 15 pneus est étudié. La moyenne et l'écart-type ob-
tenus sont respectivement de 27000 et 5000 miles. En supposant que la durée de
vie d'un pneu est distribuée normalement, peut-on conclure que l'armation
du fabricant est valide ?
Exercice 4. La machine 1 a produit 96 pièces dont 12 défectueuses. La ma-
chine 2 a produit 55 pièces dont 10 défectueuses. Peut-on en conclure que la
machine 1 est signicativement plus performante que la machine 2 ?

Vous aimerez peut-être aussi