Vous êtes sur la page 1sur 125

Estimation paramétrique

Probabilités et Statistiques Estimation paramétrique 1 / 125


On suppose donné le modèle statistique paramétrique
(X , A, (Pθ )θ∈Θ ). On cherche à estimer les paramètres inconnus θ du
modèle ou encore une valeur numérique de θ à partir des données
observées sur un échantillon. On suppose que le modèle est
identifiable c-à-d l’application θ −→ Pθ est injective
(θ1 6= θ2 ⇒Pθ1 6= Pθ2 ) ceci signifie qu’il n’y a qu’une seule
éventualité vraie c-à-d une seule valeur correcte de θ

Probabilités et Statistiques Estimation paramétrique 2 / 125


Estimateurs sans biais

Définition
Soit Tn un estimateur de g(θ) admettant un moment d’ordre 1. On
appelle biais de l’estimateur Tn par rapport à g(θ) la quantité

B(Tn , θ) = Eθ (Tn − g(θ)).

L’estimateur Tn est dit sans biais (ou non-biaisé) si B(Tn , θ) = 0 ou


encore Eθ (Tn ) = g(θ), il est dit asymptotiquement sans biais si
limn−→+∞ B(Tn , θ) = 0.

Probabilités et Statistiques Estimation paramétrique 3 / 125


Estimateurs sans biais

Soit Tn un estimateur sans biais de θ. Ainsi, si on répète plusieurs fois


l’expérience, la moyenne des estimations est égale à θ.
Exemple
Soit (X1 , · · · , Xn ) un n−échantillon de loi Pθ d’espérance mθ . Alors
n
1X
Xn = Xi
n i=1

est un estimateur sans biais de mθ . En effet, d’après la linéarité de


l’espérence, on a
n
1X nmθ
E(X n ) = E(Xi ) = = mθ .
n i=1 n

Probabilités et Statistiques Estimation paramétrique 4 / 125


Estimateurs sans biais

Le fait qu’un estimateur soit sans biais ne veut pas dire que cet
estimateur soit de bonne qualité. En effet, ce n’est qu’une indication
en moyenne. L’intérêt est surtout que cette notion permet de définir
une classe d’estimteurs celle des estimateurs sans biais.
Remarque
Soient Tn un estimateur du paramètre θ et ϕ une fonction continue de
R dans R. Si l’estimateur Tn est sans biais, ceci n’implique pas que
l’estimateur ϕ(Tn ) de ϕ(θ) est sans biais.

Probabilités et Statistiques Estimation paramétrique 5 / 125


Risque quadratique d’un estimateur

Définition
Soit Tn un estimateur de g(θ) ∈ R admettant un moment d’ordre 2.
On appelle risque quadratique de l’estimateur Tn la fonction RTn
définie par  
RTn (θ) = Eθ (Tn − g(θ))2

Un estimateur Tn de g(θ) est dit meilleur qu’un estimateur Sn de


g(θ) si
RTn (θ) ≤ RSn (θ).

RTn (θ) mesure l’erreur que l’on fait si on estime g(θ) par Tn , c’est à
dire la précision de l’estimateur Tn . Elle doit être la plus petite
possible.

Probabilités et Statistiques Estimation paramétrique 6 / 125


Risque quadratique d’un estimateur
Exemple
Soit (X1 , · · · , Xn ) un n−échantillon de loi N (θ, 1). Alors
n
1X
Xn = Xi
n i=1

est un estimateur sans biais de θ. Comme l’échantillon est gaussien,


alors X n est de loi N (θ, √1n ) et par suite Vθ (X n ) = n1 . Ainsi le
risque quadratique de X n est
1
RX n (θ) = .
n
Or X1 peut être considéré comme estimateur sans biais de θ avec
RX1 (θ) = 1. Ainsi,
RX n (θ) ≤ RX1 (θ)
et donc X n est meilleur que X1 .
Probabilités et Statistiques Estimation paramétrique 7 / 125
Exemple
Soit (X1 , · · · , Xn ) un n−échantillon de loi U[0, θ] où θ ∈ R∗+ et de
densité
1
f (x, θ) = 1[0,θ] (x)
θ
On considère les estimateurs suivants
n+1
 
T1 = 2X n et T2 = max Xi
n 1≤i≤n

On a Eθ (T1 ) = 2Eθ (X n ) = 2 2θ = θ et donc T1 est sans biais. On


pose Y = max1≤i≤n Xi . Soit y ∈ R.

Pθ (Y ≤ y) = Pθ (X1 ≤ y, · · · , Xn ≤ y)
n
Y
= Pθ (Xi ≤ y)
i=1
= (Pθ (X1 ≤ y))n
y n
0 si y ≤ 0, θ , si 0 ≤ y ≤ θ, 1 si y > θ
Probabilités et Statistiques Estimation paramétrique 8 / 125
Risque quadratique d’un estimateur
Exemple
Donc Y admet pour densité la fonction
n n−1
g(y, θ) = y 1[0,θ] (y)
θn
et
Z θ
n n
Eθ (Y ) = n
y dy
θ
0
n

= θ
n+1
et donc
n+1
 
Eθ (T2 ) = Eθ (Y ) = θ
n
et par suite T2 est un estimateur sans biais de θ.
D’autre part, on a

Probabilités et Statistiques 4
Estimation paramétrique θ2 9 / 125
Risque quadratique d’un estimateur

Exemple
R θ n n+1  
n
Comme Eθ (Y 2 ) = 0 θ n y dy = 2
n+2 θ , alors

n+1 2
 
Vθ (T2 ) = Vθ (Y )
n
2 !
n+1 2 n n
    
2
= θ − θ2
n n+2 n+1
θ2
=
n(n + 1)
Par conséquent
Vθ (T2 ) 3
= ≤1
Vθ (T1 ) n+1
et par suite T2 est meilleur que T1 .

Probabilités et Statistiques Estimation paramétrique 10 / 125


Risque quadratique d’un estimateur

Proposition
Soit Tn un estimateur de θ admettant un moment d’ordre 2. Alors

RTn (θ) = Vθ (Tn ) + (Eθ (Tn ) − θ)2 .

En particulier si Tn est un estimateur sans biais de θ, on a


RTn (θ) = Vθ (Tn ).

Probabilités et Statistiques Estimation paramétrique 11 / 125


Risque quadratique d’un estimateur

Démonstration
Par linéarité de l’espérance, on a :
 
RTn (θ) = Eθ (Tn − θ)2
 
= Eθ (Tn − Eθ (Tn ) + Eθ (Tn ) − θ)2
 
= Eθ (Tn − Eθ (Tn ))2
+ 2Eθ ((Tn − Eθ (Tn ))(Eθ (Tn ) − θ)) + (Eθ (Tn ) − θ)2
= Vθ (Tn ) + (Eθ (Tn ) − θ)2 .

et donc si Tn est sans biais alors Eθ (Tn ) = θ et par suite


RTn (θ) = Vθ (Tn ).

Probabilités et Statistiques Estimation paramétrique 12 / 125


Risque quadratique d’un estimateur

Définition
Soit Tn un estimateur de θ admettant un moment d’ordre 2. Un
estimateur sans biais Tn de θ est dit de variance minimum si pour tout
autre estimateur sans biais Sn , on a Vθ (Tn ) ≤ Vθ (Sn ).

Proposition
Soit Tn un estimateur sans biais de θ admettant un moment d’ordre 2
pour tout θ ∈ Θ. Alors Tn est un estimateur sans biais de variance
minimum de θ si et seulement si pour toute variable Sn centrée et
admettant un moment d’ordre 2 pour tout θ ∈ Θ, on a

Eθ (Sn Tn ) = 0.

Probabilités et Statistiques Estimation paramétrique 13 / 125


Risque quadratique d’un estimateur
Démonstration
Condition suffisante. Soit Y un estimateur sans biais de θ admettant
un moment d’ordre 2 pour tout θ ∈ Θ :
 
V(Y ) = Eθ (Y − θ)2
 
= Eθ (Y − Tn + Tn − θ)2
 
= Eθ (Y − Tn )2 + 2Eθ ((Y − Tn )(Tn − θ)) + Vθ (Tn )
 
= Eθ (Y − Tn )2 + Vθ (Tn )
≥ V(Tn )

puisque
Eθ ((Y − Tn )(Tn − θ)) = Eθ (Tn (Y − Tn )) − θEθ (Y − Tn ) = 0 car
Sn = Y − Tn vérifie Eθ (Sn ) = 0 et admet un moment d’ordre 2 tel
que Eθ (Sn Tn ) = 0, et que Eθ (Y − Tn )2 ≥ 0.
Probabilités et Statistiques Estimation paramétrique 14 / 125
Risque quadratique d’un estimateur

Démonstration
Condition nécessaire : Si Eθ (S) = 0, alors pour tout α ∈ R, on a

V(Tn + αS) ≥ V(Tn )

puisque Tn est de variance minimum et que Eθ (Tn + αS) = θ. Or

V(Tn + αS) = V(Tn ) + α2 V(S) + 2αCov(Tn , S).

L’inégalité précédente, qui équivaut à α2 Vθ (S) + 2αCov(Tn , S) ≥ 0


pour tout α ∈ R ne peut avoir lieu que si
Cov(Tn , S) = Eθ (STn ) = 0. En effet pour a >  0,
2 b
f (x) = ax + 2bx ≥ 0 si et seulement si f − a ≥ 0 ou encore
2
− ba ≥ 0 d’où b = 0.

Probabilités et Statistiques Estimation paramétrique 15 / 125


Estimateur convergent

Pour un n−échantillon (X1 , · · · , Xn ) de loi de Bernoulli de parmètre


θ, la variable aléatoire égale à la moyenne empirique
X n = n1 ni=1 Xi est un estimateur de θ. C’est une variable aléatoire
P

qui prend ses valeurs dans [0, 1]. Si n grand, elle prend avec une forte
probabilité des valeurs proches de θ, d’après la loi des grands
nombres. Quel que soit le modèle et le paramètre à estimer, prendre
des valeurs proches de ce paramètre au moins pour un grand
échantillon est la qualité principale que l’on attend d’un estimateur.
En toute rigueur, on doit considérer une suite d’estimateurs (Tn ), où
pour tout n ∈ N, Tn est une variable fonction de l’échantillon
(X1 , · · · , Xn ). Par abus de langage, on appelle encore estimateur
cette suite, et on étudie sa convergence.

Probabilités et Statistiques Estimation paramétrique 16 / 125


Estimateur convergent

Définition
Soit (Tn )n∈N une suite d’estimateurs de θ.
1 La suite (Tn )n∈N est dite convergente (consistante) si pour tout
θ∈Θ

Tn −→ θ
(Tn converge en probabilité vers θ : pour tout ε > 0,
limn−→+∞ Pθ (|Tn − θ| > ε) = 0).
2 La suite (Tn )n∈N est dite fortement convergente (fortement
consistante) si pour tout θ ∈ Θ

θ P −p.s
Tn −→ θ

(Tn converge presque sûrement vers θ).

Probabilités et Statistiques Estimation paramétrique 17 / 125


Estimateur convergent

Définition
1 La suite (T )
n n∈N est dite consistante en moyenne quadratique si
pour tout θ ∈ Θ
 
lim Eθ (Tn − θ)2 = 0
n→+∞

Probabilités et Statistiques Estimation paramétrique 18 / 125


Estimateur convergent

Un estimateur convergent s’écarte donc du paramètre θ avec une


faible probabilité, si la taille de l’échantillon est assez grande. Dans la
pratique, elle indique que Tn est situé, avec une probabilité proche de
1, dans un voisinage aussi petit que l’on veut de θ pourvu que la taille
de l’échantillon soit assez grande. C’est une propriété plus importante
que l’absence de biais, car si nous sommes satisfait de savoir que Tn
est centré sur θ pour toute valeur de n, nous devons aussi exiger que la
variabilité autour de θ diminue en fonction de la taille de l’échantillon.

Probabilités et Statistiques Estimation paramétrique 19 / 125


Estimateur convergent

Exemple
Soit (X1 , · · · , Xn ) un n−échantillon de loi Pθ et d’Espérance θ.
L’estimateur
n
1X
Xn = Xi
n i=1
est convergent d’après la loi faible des grands nombres. Pour tout
ε > 0 fixé, aussi petit soit-il la probabilité que X n n’appartienne pas
à l’intervalle [θ − ε, θ + ε] tend vers 0 quand n tend vers l’infini.

Probabilités et Statistiques Estimation paramétrique 20 / 125


Estimateur convergent

Remarque
Si limn−→+∞ RTn (θ) = 0 alors l’estimateur sans biais Tn est
convergent. En effet, d’après l’inégalité de Bienaymé-Tchebytchev,
appliquée à la variable aléatoire Tn , on a

Eθ (Tn − θ)2 Vθ (Tn )


P (|Tn − θ| > ε) ≤ =
ε2 ε2
d’où le résultat.

Probabilités et Statistiques Estimation paramétrique 21 / 125


Estimateur convergent

Définition
Soit (Tn )n∈N une suite d’estimateurs de θ. On dit que Tn est un
estimateur asypmtotiquement normal si pour tout θ ∈ Θ
√ loi
n(Tn − θ) −→ N (0, Σ(θ))

où Σ(θ) est une matrice de covariance.

Proposition
Soit Tn un estimateur convergent du paramètre θ et ϕ une fonction
continue de Θ dans Rk . Alors ϕ(Tn ) est un estimateur convergent de
ϕ(θ).

Si le paramètre θ s’exprime comme une fonction continue de E(X),


alors l’image de X n par cette fonction est un estimateur convergent
de θ.
Probabilités et Statistiques Estimation paramétrique 22 / 125
Estimateur convergent

Exemple
La loi Pθ est la loi uniforme sur ]0, θ], où le paramètre θ est inconnu.
La moyenne empirique X n est un estimateur convergent de
l’espérance de la loi qui vaut θ/2. Donc Tn = 2X n est un estimateur
convergent de θ. Mais X suit la loi uniforme sur ]0, θ], alors
E(log(X)) vaut log(θ) − 1. Toujours d’après la loi des grands
nombres
log(X1 ) + · · · + log(Xn )
n
est un estimateur convergent de log(θ) − 1, donc l’estimateur :

log(X1 ) + · · · + log(Xn )
 
Sn = exp +1
n
est encore un estimateur convergent de θ.

Probabilités et Statistiques Estimation paramétrique 23 / 125


Information de Fisher
Soit le modèle statistique (X , A, Pθ : θ ∈ Θ). On appelle hypothèses
usuelles les 4 hypothèses suivantes :
H1 Θ est ouvert de Rd .
H2 Le support des lois {x ∈ X : f (x, θ) > 0} est indépendant de θ.
H3 Pour tout x ∈ X la fonction θ −→ f (x, θ) est de classe C 2 sur
Θ. En particulier le vecteur de dimension d × 1 contenant les
dérivées premières est noté
 ∂ log f (x,θ) 
∂θ1

gradθ log f (x, θ) =  .. 
 . 

∂ log f (x,θ)
∂θd

existe ainsi que la matrice Hessienne de dimension d × d


!
∂ 2 f (x, θ)
∂θi ∂θj 1≤i,j≤d

Probabilités et Statistiques Estimation paramétrique 24 / 125


Information de Fisher

∂f (x,θ) ∂ 2 f (x,θ)
H4 Les fonctions ∂θi et ∂θi ∂θj sont intégrbles pour tout θ ∈ Θ
| ∂f∂θ
(x,θ)
R
et pour tout i, j ∈ {1, · · · d} ( X i
|dx < ∞ et
2
| ∂∂θfi(x,θ)
R
RX ∂θj |dx < ∞). De plus pour tout B borélien l’intégrale
B f (x, θ)dx est au moins deux fois dérivable sous le signe
d’intégration et on peut permuter intégration et dérivation :

∂ ∂f (x, θ)
Z Z
f (x, θ)dx = dx; j = 1, · · · d
∂θj B B ∂θj

∂2 ∂ 2 f (x, θ)
Z Z
f (x, θ)dx = dx; i, j ∈ {1, · · · d}
∂θi ∂θj B B ∂θi ∂θj

Probabilités et Statistiques Estimation paramétrique 25 / 125


Information de Fisher

Définition
Si les hypothèses H1 − H4 sont vérifiées, on dit que le modèle est
régulier.

Remarque
Dans le cas discret l’hypothèses H − 4 s’écrit sous la forme
suivante : ∀B ∈ X
∂ P P ∂f (x,θ)
∂θi x∈B f (x, θ) = x∈B ∂θi
∂2 P P ∂ 2 f (x,θ)
∂θi ∂θj x∈B f (x, θ) = x∈B ∂θi ∂θj

Probabilités et Statistiques Estimation paramétrique 26 / 125


Information de Fisher

Définition
On appelle score le vecteur aléatoire S(X, θ) définit par
 ∂ log f (X,θ) 
∂θ1

S(X, θ) = gradθ log f (X, θ) =  .. 

. 

∂ log f (X,θ)
∂θd

df (X,θ)
d log f (X,θ)
pour d = 1, S(X, θ) = dθ = dθ
f (X,θ) .

Remarque
Le vecteur aléatoire S(X, θ) dépend de θ, ce n’est pas donc un
estimateur.

Probabilités et Statistiques Estimation paramétrique 27 / 125


Information de Fisher

Exemple
Soit X une variable aléatoire de loi Poisson P(θ). L’espace des
paramètres Θ = R∗+ et l’espace des résultats est X = N. Dans ce
modèle la loi de probabilité est
θx 1
f (x, θ) = e−θ = e−θ exp(x log(θ))
x! x!
Le vecteur score est donc
d log f
S(X, θ) = (X, θ)

comme log f (x, θ) = −θ + x log θ − log(x!) alors

X
S(X, θ) = −1 +
θ

Probabilités et Statistiques Estimation paramétrique 28 / 125


Information de Fisher

Théorème
1 Le score est un vecteur aléatoire centré

E(S(X, θ)) = 0Rd

2 Le vecteur score est additif : soient X et Y deux variables


aléatoires indépendantes associées aux modèles statistiques
(X , Pθ ) et (Y, Qθ ). Alors S(X, θ) et S(Y, θ) sont indépendants,
de plus

S((X, Y ), θ) = S(X, θ) + S(Y, θ) θ ∈ Θ

((X, Y )est associé au modèles statistique (X × Y, Pθ ⊗ Qθ ))

Probabilités et Statistiques Estimation paramétrique 29 / 125


Information de Fisher

Démonstration
Pour tout θ ∈ Θ et pour tout i = 1, · · · , d, on a

∂ log f (X, θ)
 
Eθ =0
∂θi
En effet, on a

∂ log f (X, θ) ∂(log f (x, θ))


  Z
Eθ = dPθ (x)
∂θi X ∂θi
∂(log f (x, θ))
Z
= f (x, θ)dx
X ∂θi
∂f (x, θ)
Z
= dx
X ∂θi

Probabilités et Statistiques Estimation paramétrique 30 / 125


Information de Fisher

Démonstration
or d’après l’hypothèse [H4],

∂f (x, θ) ∂ ∂
Z Z
dx = f (x, θ)dx = 1=0
X ∂θi ∂θi X ∂θi
et donc
E(S(X, θ)) = E(gradθ log(f (x, θ))) = 0Rd
Par définition, on a

S((X, Y ), θ) = gradθ log(f(X,Y ) ((x, y), θ))

or X et Y sont indépendantes et donc


f(X,Y ) ((x, y), θ) = fX (x, θ)fY (y, θ) ou encore
log(f(X,Y ) ((x, y), θ)) = log(fX (x, θ)) + log(fY (y, θ)).

Probabilités et Statistiques Estimation paramétrique 31 / 125


Information de Fisher
Démonstration
Ainsi pour i = 1, · · · , d, on a

∂ log(f(X,Y ) ((x, y), θ)) ∂ log(fX (x, θ)) ∂ log(fY (y, θ))
= +
∂θi ∂θi ∂θi
et donc S((x, y), θ) = S(x, θ) + S(y, θ) ou encore

S((X, Y ), θ) = S(X, θ) + S(Y, θ)

De plus comme X et Y sont indépendantes alors S(X, θ) et S(Y, θ)


sont indépendants puisque la loi de S(X, θ) est l’image de la loi de X
par l’application S : X −→ S(X, θ).

Conséquence
Soit (X1 , · · · , Xn ) un n−échantillions de même loi que X alors
n
X
S(X1 , · · · , Xn , θ) = S(Xi , θ)
Probabilités et Statistiques i=1
Estimation paramétrique 32 / 125
Information de Fisher

Définition
Dans un modèle régulier, on appelle information de Fisher du modèle
au point θ (apporté par X sur θ) la matrice de covariance du score
S(X, θ) donnée par
 
I(θ) = Vθ (S(X, θ)) = Eθ S(X, θ)(S(X, θ))t =
!!
∂ log f (X, θ) ∂ log f (X, θ)

∂θi ∂θj 1≤i,j≤d

lorsque cette quantité est bien définie (L’espérance est prise par
rapport à Pθ , pour θ fixé).

Probabilités et Statistiques Estimation paramétrique 33 / 125


Information de Fisher

Définition
Pour d = 1,
2 !
d log f (X, θ)

I(θ) = Vθ (S(X, θ)) = Eθ =


df (X,θ)
!2 

Eθ  
f (X, θ)

Probabilités et Statistiques Estimation paramétrique 34 / 125


Information de Fisher

Remarque
Pour un modèle régulier, l’information de Fisher est une matrice
symétrique positive comme étant la matrice de covariance du vecteur
aléatoire centré S(X, θ)

I(θ) = Vθ (S(X, θ))


!!
∂ log f (X, θ) ∂ log f (X, θ)
= covθ ,
∂θi ∂θj 1≤i,j≤d
!!
∂ log f (X, θ) ∂ log f (X, θ)
= Eθ
∂θi ∂θj 1≤i,j≤d

Probabilités et Statistiques Estimation paramétrique 35 / 125


Information de Fisher

Théorème
Dans un modèle régulier , on a la relation suivante
!!
∂ 2 log f (X, θ)
I(θ) = − Eθ = −Eθ (Hθ2 (log f (X, θ)))
∂θi ∂θj 1≤i,j≤d

Cette expression de I(θ) est plus simple à manipuler que celle de la


définition, en effet il est plus simple de dériver puis d’intégrer que
d’élever au carré puis d’intégrer.
Par dérivation, on a
!
∂ 2 log f (X, θ) ∂ 1 ∂f (X, θ)
=
∂θi ∂θj ∂θi f (X, θ) ∂θj
1 ∂ 2 f (X, θ) 1 ∂f (X, θ) ∂f (X, θ)
= − 2
f (X, θ) ∂θi θj f (X, θ) ∂θi ∂θj

Probabilités et Statistiques Estimation paramétrique 36 / 125


Information de Fisher
et donc
! !
∂ 2 log f (X, θ) 1 ∂ 2 f (X, θ)
Eθ = Eθ −
∂θi ∂θj f (X, θ) ∂θi θj
!
1 ∂f (X, θ) ∂f (X, θ)
Eθ 2
f (X, θ) ∂θi ∂θj
or
!
1 ∂ 2 f (X, θ) 1 ∂ 2 f (x, θ)
Z
Eθ = f (x, θ)dx
f (X, θ) ∂θi ∂θj X f (x, θ) ∂θi ∂θj
∂ 2 f (x, θ)
Z
= dx
X ∂θi θj
∂2 ∂2
Z
= f (x, θ)dx = 1=0
∂θi ∂θj X ∂θi ∂θj

Probabilités et Statistiques Estimation paramétrique 37 / 125


Information de Fisher

ainsi
! !
∂ 2 log f (X, θ) 1 ∂f (X, θ) ∂f (X, θ)
Eθ = −Eθ
∂θi ∂θj f 2 (X, θ) ∂θi ∂θj
!
1 ∂f (X, θ) 1 ∂f (X, θ)
= −Eθ
f (X, θ) ∂θi f (X, θ) ∂θj
!
∂ log f (X, θ) ∂ log f (X, θ)
= −Eθ
∂θi ∂θj

Probabilités et Statistiques Estimation paramétrique 38 / 125


Information de Fisher

Remarque
Dans un modèle régulier, l’information de Fisher I(θ) ≥ 0 pour tout
θ ∈ Θ.

Théorème
Pour un modèle régulier, l’information de Fisher est additive : si X et
Y sont deux variables aléatoires indépendantes dans des modèles
paramétriques au paramètre θ commun alors

I(X,Y ) (θ) = IX (θ) + IY (θ)

(c’est la variance d’une somme de scores indépendants).

Probabilités et Statistiques Estimation paramétrique 39 / 125


Information de Fisher

Par définition, on a S((X, Y ), θ)) = S(X, θ) + S(Y, θ) Or X et Y


sont indépendantes et donc S(X, θ) et S(Y, θ) sont indépendants et
par suite

I(X,Y ) (θ) = Vθ (S(X, θ)) + Vθ (S(Y, θ)) = IX (θ) + IY (θ)

Conséquence
Soit (X1 , · · · , Xn ) un n−échantillions de même loi que X de matrice
d’information IX (θ) = I(θ) alors, on a la relation suivante :

In (θ) = Vθ (S(X1 , · · · , Xn ), θ) = nI(θ)

Probabilités et Statistiques Estimation paramétrique 40 / 125


Information de Fisher
Exemple
Soit X une variable aléatoire de loi Poisson P(θ). L’espace des
paramètres Θ = R∗+ et l’espace des résultats est X = N. Dans ce
modèle la loi de probabilité est
θx 1
f (x, θ) = e−θ = e−θ exp(x log(θ))
x! x!
Le vecteur score est donc
d log f
S(X, θ) = (X, θ)

comme log f (x, θ) = −θ + x log θ − log(x!) alors

X
S(X, θ) = −1 +
θ
et donc
Probabilités et Statistiques Estimation paramétrique 41 / 125
Information de Fisher

Exemple

I(θ) = Eθ (S 2 (X, θ))


2 !
X

= Eθ −1 +
θ
1 
2

= Eθ (X − θ)
θ2
1
= Vθ (X)
θ2
1
=
θ
Soit (X1 , · · · , Xn ) un n−échantillions de loi de Poisson alors
n
In (θ) = nI(θ) =
θ

Probabilités et Statistiques Estimation paramétrique 42 / 125


Information de Fisher

Exemple
Soit X une v.a.r de loi N (m, σ) (i.e θ = (θ1 , θ2 ) = (m, σ 2 ) et donc
de densité
1 1
 
f (x, θ) = √ exp − 2 (x − m)2
σ 2π 2σ

d’où
1 1 1
log(f (x, θ)) = − log(2π) − log(σ 2 ) − 2 (x − m)2
2 2 2σ
Comme f est de classe C 2 par rapport à m et σ 2 alors les dérivées
seconde de f sont données par
∂ 2 log(f (x,θ) 2

∂m2
= − σ12 , ∂ log(f (x,θ)
∂(σ 2 )2
= 2σ1 4 − σ16 (x − m)2

Probabilités et Statistiques Estimation paramétrique 43 / 125


Information de Fisher
Exemple
∂ 2 log(f (x, θ)) 1
= − 4 (x − m)
∂m∂(σ 2 ) σ
et par suite !
∂ 2 log(f (X, θ)) 1
−E =
∂m2 σ2
!
∂ 2 log(f (X, θ)) 1
−E =
∂(σ 2 )2 2σ 4
!
∂ 2 log(f (X, θ))
−E =0
∂m∂(σ 2 )
Ainsi la matrice d’information est :
!
1
σ2
0
I(θ) = 1
0 2σ 4
Probabilités et Statistiques Estimation paramétrique 44 / 125
Information de Fisher
Exemple
Soit (X1 , · · · , Xn ) un n-échantillions de loi appartenant à une
famille exponentielle et de densité
r
X
f (x, λ) = K(λ)h(x) exp( λj Tj (x))
j=1

où K est de classe C 2 . Alors


r
X
log(f (x, λ)) = log(K(λ)) + log(h(x)) + λj Tj (x)
j=1

On pose A(λ) = − log K(λ), par suite

∂ log(f (x, λ)) ∂A(λ)


=− + Tj (x)
∂λj ∂λj

et donc
Probabilités et Statistiques Estimation paramétrique 45 / 125
Information de Fisher

Exemple

 ∂A(λ) 
T1 (X)
 
 ∂λ. 1   ..
S(X, λ) = gradθ log f (X, λ) = − 
 .. +
 .


∂A(λ) Tr (X)
∂λr

De plus
∂ 2 f (x, λ) ∂ 2 A(λ)
=−
∂λi ∂λj ∂λi ∂λj
et par suite
!! !
∂ 2 f (x, λ) ∂ 2 A(λ)
I(λ) = − Eλ =
∂λi ∂λj 1≤i,j≤r
∂λi ∂λj 1≤i,j≤r

= Hλ2 (A)(λ)

Probabilités et Statistiques Estimation paramétrique 46 / 125


Information de Fisher

Information et exhaustivité
Proposition
Dans un modèle régulier, pour tout statistique T, on a
IT (θ) ≤ In (θ)
et IT (θ) = In (θ) ⇐⇒ T est exhaustive

Propriétés intuitives sur l’information apportée par un


échantillon
Remarque
L’information de Fisher associée au n-échantillions (X1 , · · · , Xn )
est nIX1 (θ) si IX1 (θ) est l’information de Fisher associée à X1 .

Remarque
L’information de Fisher en θ, n’est pas celle en g(θ).

Probabilités et Statistiques Estimation paramétrique 47 / 125


Information de Fisher

Borne de Rao-Cramer
Soit le modèle statistique (X , A, Pθ : θ ∈ Θ).
On suppose les hypothèses H1 − H4 sont vérifiées et de plus on
suppose
H5 Pour tout θ ∈ Θ la matrice d × d d’information de Fisher I(θ)
existe et elle est symétrique et définie positive.

Probabilités et Statistiques Estimation paramétrique 48 / 125


Information de Fisher

Borne de Rao-Cramer
Définition
Un estimateur T (X1 , · · · , Xn ) de g(θ) est
R
dit régulier dans un
modèle régulier si Vθ (T (X)) < +∞ et X n T (x)f (x, θ)dx est
dérivable par rapport à θ sous le symbole d’intégration :

∂Eθ (T (X)) ∂ ∂f (x, θ)


Z Z
= T (x)f (x, θ)dx = T (x) dx
∂θi ∂θi Xn Xn ∂θi

Probabilités et Statistiques Estimation paramétrique 49 / 125


Information de Fisher
Borne de Rao-Cramer
On suppose que Θ ⊂ R. Soit g : Θ −→ R une application de classe
C 1.
Théorème
On suppose que les hypothèses H1 − H5 sont vérifiés. Si
Tn (X1 , · · · , Xn ) est un estimateurs sans biais de g(θ), alors
1
dg(θ)
= cov(Tn (X1 , · · · , Xn ), S(X1 , · · · , Xn , θ))

2 La variance de l’estimateur Tn (X1 , · · · , Xn ) est telle que :

V(Tn (X1 , · · · , Xn )) ≥

dg(θ) 2
 
2
(cov(Tn (X1 , · · · , Xn )), S(X1 , · · · , Xn , θ)) dθ
=
In (θ) In (θ)

Probabilités et Statistiques Estimation paramétrique 50 / 125


Information de Fisher

Borne de Rao-Cramer
Par définition, l’information de Fisher est le nombre réel défini par
2 !
d log f (X, θ)

I(θ) = Eθ

Comme T (X) est un estimateur sans biais de g(θ), on a


Z
E(T (X)) = g(θ) = T (x)f (x, θ)dx
Xn

Probabilités et Statistiques Estimation paramétrique 51 / 125


Information de Fisher

Borne de Rao-Cramer
En dérivant par rapport à θ, on a :

dg(θ) d
Z
= T (x)f (x, θ)dx
dθ dθ Xn
df (x, θ)
Z
= T (x) dx
Xn dθ
d log f (x, θ)
Z
= T (x) f (x, θ)dx
ZX
n dθ
= T (x)S(x, θ)f (x, θ)dx
Xn
= E(T (X)S(X, θ))

Probabilités et Statistiques Estimation paramétrique 52 / 125


Information de Fisher
Borne de Rao-Cramer
Comme E(S(X, θ)) = 0, alors dg(θ)
dθ = cov(T (X), S(X, θ)) Par suite
d’après l’inégalité de Cauchy-Schwarz, on a
2
dg(θ)

= (cov(T (X), S(X, θ)))2 ≤ V(T (X))V(S(X, θ))

= V(T (X))In (θ)
et donc 2
dg(θ) 1

V(T (X)) ≥
dθ In (θ)

Remarque
Dans le cas où g est l’identité, on a
  1
Eθ (T (X1 , · · · Xn ) − θ)2 ≥
In (θ)
Probabilités et Statistiques Estimation paramétrique 53 / 125
Information de Fisher

Borne de Rao-Cramer
Remarque
Soit Tn un estimateur sans biais de θ. On dit que Tn est efficace si

V(Tn ) = (In (θ))−1

Remarque
Soit Tn un estimateur sans biais de θ. Si Tn est efficace alors il est à
variance minimum.

Probabilités et Statistiques Estimation paramétrique 54 / 125


Méthode de substition

On suppose que l’on dispose d’un estimateur Tn de θ ∈ Θ. Soit


φ : Θ −→ φ(Θ) une fonction. On peut alors construire un estimateur
de φ(θ) en substituant θ par Tn à savoir φ(Tn ). La méthode des
moments est la plus naturelle puisqu’elle se justifie par la loi des
grands nombres, pour estimer des paramètres définis à partir des
moments centrés ou non centrés.

Probabilités et Statistiques Estimation paramétrique 55 / 125


Méthode des moments

Définition
Soit (X1 , · · · , Xn ) un n−échantillon de loi Pθ admettant des
moments jusqu’à l’ordre r. On note mi = Eθ (X1i ), Pour tout
i ∈ {1, · · · r}. on appelle moment empirique d’ordre i, la variable
aléatoire
n
1X
i
Xn= Xi
n k=1 k

qui est un estimateur du moment mi (θ) = Eθ (X1i ).

Comme les paramètres d’une loi de probabilité sont reliés aux


momemts centrés ou non centrés, on peut donc en général les obtenir
en fonctions des r premiers moments. Ainsi, on estime les r premiers
moments par les moments empiriques et on en déduit les estimateurs
des paramètres en résolvant un système de p équations à p inconnues
(en général ce système n’est pas linéaire).

Probabilités et Statistiques Estimation paramétrique 56 / 125


Méthode des moments

Remarque
De même g(X 1 n , · · · , X r n ) un estimateur de g(m1 (θ), · · · , mr (θ))
sera obtenu par. Ainsi
1 La moyenne empirique
n
1X
Xn = Xk
n k=1

est un estimateur sans biais et convergent de m1 (θ) = Eθ (X1 ).


2 Le moment empirique d’ordre 2
n
1X
X2 n = X2
n k=1 k

est un estimateur sans biais et convergent de m2 (θ) = Eθ (X12 ).

Probabilités et Statistiques Estimation paramétrique 57 / 125


Méthode des moments
Remarque
D’après ce qui précède
n n
1X 1X
Sn02 = Xk2 − (X n )2 = (Xk − X n )2
n k=1 n k=1

est un estimateur convergent de V(X1 ) = E(X12 ) − (E(X1 ))2 . Mais


ce n’est pas un estimateur sans biais. En effet,
  1  
E (X n )2 = 2
Eθ (X1 + · · · + Xn )2
n  
n n X
1 X X
= Eθ  X 2 + Xi Xj i
n2 i=1 i=1 i6=j
n n X
1 X   1 X
= Eθ Xi2 + Eθ (Xi Xj )
n2 i=1
n2 i=1 i6=j

Probabilités et Statistiques Estimation paramétrique 58 / 125


Méthode des moments

Remarque
Comme X1 , · · · , Xn sont indépendantes et de même loi donc

Eθ (Xi Xj ) = Eθ (Xi )Eθ (Xj ) = (Eθ (X1 ))2

Eθ (X12 )

  n(n − 1)
E (X n ) 2
= + 2
(Eθ (X1 ))2
n n
et par suite

Eθ (X12 )

    n−1
E Sn02 = Eθ (X12 ) − − (Eθ (X1 ))2
n n
n−1 
= Eθ (X12 ) − (Eθ (X1 ))2
n
n−1
= V(X1 )
n

Probabilités et Statistiques Estimation paramétrique 59 / 125


Méthode des moments

Remarque
Soient (X1 , · · · , Xn ) un n−échantillon de loi Pθ et ϕ une fonction
continue de R dans R telle que ϕ(Xi ) admet un moment d’ordre 1.
Alors E(ϕ(Xi )) peut être estimeé par la moyenne empirique de
l’échantillon (ϕ(X1 ), · · · , ϕ(Xn )) :
n
1X
ϕ(X)n = ϕ(Xi ).
n i=1

Si le paramètre θ s’exprime en fonction de E(ϕ(Xi )), on peut donc en


déduire un estimateur de θ. Inversement si E(X) = ϕ(θ) où ϕ est une
fonction bijective alors l’estimateur de θ par la méthode des moments
est θbn = ϕ−1 (Xn ).

Probabilités et Statistiques Estimation paramétrique 60 / 125


Méthode des moments

Exemple
Soit (X1 , · · · , Xn ) un n−échantillon de loi uniforme sur {1, · · · , θ}
telle que pour tout x ∈ {1, · · · , θ}, P(Xi = x) = 1θ . Ainsi, on a

θ
X i θ(θ + 1) θ+1
E(Xi ) = = = .
i=1
θ 2θ 2

L’estimateur de θ est alors Tn = 2X n − 1 ce qui est clairement un


mauvais estimateur, en particulier si maxi Xi > 2X n − 1 puisque
θ ≥ maxi Xi .

Probabilités et Statistiques Estimation paramétrique 61 / 125


Méthode des moments

Proposition
Soit (X1 , · · · , Xn ) un n−échantillon de loi Pθ d’espérance m et de
variance σ 2 .
La moyenne empirique X n = n1 nk=1 Xk
P
1

est un estimateur sans biais de la moyenne m. De plus X n est


meilleur que tout autre estimateur sans biais linéaire
Yn = nk=1 ak Xk .
P

1 n
La variance empirique Sn2 = n−1 k=1 (Xk − X n )
2
P
2

est un estimateur sans biais de la variance σ 2 .

Probabilités et Statistiques Estimation paramétrique 62 / 125


Méthode des moments
Proposition
1 La moyenne et la variance empiriques sont des estimateurs
consistants de m et σ 2 respectivement : pour tout θ ∈ Θ, on a
P P
θ
X n −→ m et Sn2 −→
θ
σ2.

2 La variable aléatoire
!
Xn − m √ Xn − m
= n
√σ σ
n

suit approximativement la loi normale N (0, 1).


3 La variable aléatoire
S 2 − σ2
pn
V(Sn2 )
suit approximativement la loi normale N (0, 1).
Probabilités et Statistiques Estimation paramétrique 63 / 125
Méthode des moments
Démonstration
Il est clair que X n est sans biais. Soit Yn = nk=1 ak Xk un
P

estimateur sans biais de m donc Eθ (Yn ) = nk=1 ak m = m et par


P
Pn
suite k=1 ak = 1. Ainsi
n
!
X
RY (θ) = V(Y ) = V ak Xk
k=1
n n
! !
X X
= a2k Vθ (X1 ) = a2k σ 2
k=1 k=1

Or nk=1 ak = 1 et donc nk=1 a2k ≥ n1 avec égalité si et seulement si


P P

ak = n1 pour tout k ∈ {1, · · · n}. En effet, on a


n  2
X 1
ak − ≥0
k=1
n
 
Pn 2ak
d’où + et 1Statistiques
a2 −Probabilités ≥ 0 ouEstimation
encoreparamétrique 64 / 125
Méthode des moments

Démonstration
 
Pn 2ak 1 Pn 2 1
d’où k=1 a2k − n + n2
≥ 0 ou encore 2
k=1 ak − n + n ≥ 0,
ainsi nk=1 a2k ≥ 1
P
n et
de plus il y a égalité si et seulement si
ak − n1 = 0 pour tout k ∈ {1, · · · n}.
Un calcul simple montre que
n
X
(n − 1)Sn2 = (Xk − m)2 − n(X n − m)2 .
k=1
Pn 2

Or Eθ k=1 (Xk − m) = nVθ (X1 ) et
  1
Eθ n(X n − m)2 = nV(X n ) = n nVθ (X1 )
n2
et donc Eθ (Sn2 ) = Vθ (X1 ) = σ 2 .

Probabilités et Statistiques Estimation paramétrique 65 / 125


Méthode des moments

Démonstration
La loi forte des grands nombres s’applique : pour tout θ ∈ Θ
P −p.s
(X n − m)2 −→
θ
n−→+∞ 0

θ P −p.s
puisque X n − m −→ n−→+∞ 0 et
n
1X Pθ −p.s
(Xk − m)2 −→ 2
n−→+∞ σ .
n k=1

n−1 2 Pθ −p.s P −p.s


et donc n Sn −→ σ 2 et par suite Sn2 −→
θ
σ2.

Probabilités et Statistiques Estimation paramétrique 66 / 125


Méthode des moments
Remarque
Soit (X1 , · · · , Xn ) un n−échantillon de loi Pθ d’espérance m et de
variance σ 2 . Si m est connue alors
n
1X
σn2 = (Xk − m)2
n k=1

est un estimateur sans biais de σ 2 . Dans ce cas σn2 est meilleur que
Sn2 . On a
n−1
cov(X n , σn2 ) = E((X − E(X))3 )
n

Remarque
p
On peut estimer l’ecart-type
p σppar l’estimateur Sn2 mais il n’est pas
2 E(Sn2 ) (on n’a pas de résultat
sans biais puisque E( Sp n ) 6=
général sur la qualité de Sn2 ) .
Probabilités et Statistiques Estimation paramétrique 67 / 125
Maximum de vraisemblance

Estimateurs du maximum de vraisemblance


Etant donné un n−échantillon observé (x1 , · · · , xn ) et une loi de
probabilité Pθ , la vraisemblance quantifie la probabilité que les
observations proviennent effectivement d’un échantillon (théorique)
de la loi Pθ . Prenons l’exemple de 10 lancers de pièce. L’échantillon
binaire observé est par exemple

0, 1, 1, 0, 1, 1, 1, 0, 0, 1.

Pour un échantillon de taille 10 de loi de Bernoulli de paramètre p, la


probabilité d’une telle réalisation est p6 (1 − p)4 . Voici quelques
valeurs numérique,

Probabilités et Statistiques Estimation paramétrique 68 / 125


Maximum de vraisemblance

Estimateurs du maximum de vraisemblance

p 0,2 0,3 0,4 0,5 0,6


p6 (1 − p)4 2, 6.10−5 1, 8.10−4 5, 3.10−4 9, 8.10−4 1, 2.10−3

p 0,7 0, 8
p6 (1 − p)4 9, 5.10−4 4, 2.10−4

Il est naturel de choisir comme estimation de p, celle pour laquelle la


probabilité de l’échantillon observé est la plus forte, à savoir ici
p = 0, 6.

Probabilités et Statistiques Estimation paramétrique 69 / 125


Maximum de vraisemblance
Estimateurs du maximum de vraisemblance
Définition
Soit (X , A, Pθ : θ ∈ Θ) un modèle statstique où Θ est un ouvert non
vide de R. Soit X une v.a de loi Pθ et de densité f (x, θ). Pour tout
x ∈ X (réalisation de X) on appelle vraisemblance associé à x
l’application
L(x, .) : Θ −→ R∗+
θ −→ L(x, θ) = f (x, θ)

Conséquence
1 Si X est discrète. Pour tout x ∈ X ,

L(x, θ) = f (x, θ) = Pθ (X = x)
2 Si X est v.a de densité fθ . Pour tout x ∈ X ,
L(x, θ) = f (x, θ) = fθ (x)
Probabilités et Statistiques Estimation paramétrique 70 / 125
Maximum de vraisemblance

Estimateurs du maximum de vraisemblance


Définition
Soit (X1 , · · · , Xn ) un n−échantillon de loi Pθ . On appelle
vraisemblance associé à la réalisation (x1 , · · · , xn ) de l’échantillon
(X1 , · · · , Xn ), l’application

L(x1 , · · · , xn , .) : Θ −→ R+
n
Y
θ −→ L(x1 , · · · , xn , θ) = f (xi , θ)
i=1

Un estimateur T (X1 , · · · , Xn ) de θ à valeurs dans Θ est appelé


estimateur du maximum de vraisemblance (EMV) si

L(x1 , · · · , xn , T (x1 , · · · , xn )) = sup L(x1 , · · · , xn , θ).


θ∈Θ

Probabilités et Statistiques Estimation paramétrique 71 / 125


Maximum de vraisemblance

Estimateurs du maximum de vraisemblance


Conséquence
( Q
n
fθ (xi ) si Pθ est absolument continue d
L(x1 , · · · , xn , θ) = Qi=1
n
i=1 Pθ (Xi = xi ) si Pθ est discrète

Une réalisation de l’estimateur T (X1 , · · · , Xn ) est une valeur de θ


qui maximise la vraisemblance ou encore, une valeur de θ qui rend
l’échantillon obtenu le plus probable. Soit (X1 , · · · , Xn ) un
n−échantillon de loi Pθ discrète. Donc la probabilité que
l’échantillon (X1 , · · · , Xn ) ait pour réalisation l’échantillon observé
(x1 , · · · , xn ) est le produit des probabilités pour que Xi prenne la
valeur xi , à savoir

L(x1 , · · · , xn , θ) = Pθ (X1 = x1 ) · · · Pθ (Xn = xn ).

Probabilités et Statistiques Estimation paramétrique 72 / 125


Maximum de vraisemblance

Estimateurs du maximum de vraisemblance


Conséquence
Ainsi, L(x1 , · · · , xn , θ) est soit la probabilité conjointe
P(X1 = x1 , · · · , Xn = xn ) du n-uplet (X1 , · · · , Xn ) soit sa densité
fθ (x1 , · · · , xn ) = ni=1 fθ (xi ) si elles sont absolument continues. De
Q

plus, la probabilité et la densité dans la défintion de la vraisemblance


sont fonctions des observations (x1 , · · · , xn ) dépendant du paramètre
θ. A l’inverse la fonction vraisemblance est considérée comme
fonction de θ dépendant des observations (ce qui permet, par exemple
de dériver cette fonction par rapport à θ).

Probabilités et Statistiques Estimation paramétrique 73 / 125


Maximum de vraisemblance
Estimateurs du maximum de vraisemblance
Exemple
Soit (X1 , · · · , Xn ) un n−échantillon de loi uniforme sur l’intervalle
[0, θ] de densité fθ (x) = 1θ I[0,θ] (x)
La vraisemblance est alors définie par
n n
Y 1 Y
L(x1 , · · · , xn , θ) = fθ (xi ) = I (xi )
i=1
θn i=1 [0,θ]
1
= I n (x1 , · · · , xn )
θn [0,θ]
1
= I (x)
θn [0≤Inf (xi )≤max(xi )≤θ]
1
= I (x)I[max(xi )≤θ] (x)
θn [0≤Inf (xi )]
1
= I (θ)
θn [max(xi ),+∞[
Probabilités et Statistiques Estimation paramétrique 74 / 125
Maximum de vraisemblance
Estimateurs du maximum de vraisemblance
Exemple
Vue comme fonction de θ, la vraisemblance est nulle si θ est inférieur
à la plus grande des valeurs observées, elle vaut θ1n sinon. Elle est
donc maximale pour

θbn = max(x1 , · · · , xn )

Pour la plupart des probabilités usuelles, l’estimateur de maximum de


vraisemblance est défini de façon unique et se calcule explicitement.
Sur le plan théorique, il présente de nombreux avantages. Sous des
hypothèses vérifiées par de nombreux modèles courants, on démontre
qu’il est asymptotiquement sans biais et convergent. On démontre de
plus que sa variance est minimale. La méthode du maximum de
vraisemblance est donc théoriquement la meilleure des méthodes
d’estimation.

Probabilités et Statistiques Estimation paramétrique 75 / 125


Maximum de vraisemblance

Estimateurs du maximum de vraisemblance


Remarque
Ainsi la méthode de maximum de vraisemblance consiste à prendre
comme estimateur T (X1 , · · · , Xn ) tel que

L(x1 , · · · , xn , T (x1 , · · · , xn )) ≥ sup L(x1 , · · · , xn , θ) ∀θ ∈ Θ


θ∈Θ

Une réalisation de T (X1 , · · · , Xn ) est une valeur de θ qui maximise


la vraisemblance ou encore une valeur de θ qui rend l’échantillon
observé le plus probable.

Probabilités et Statistiques Estimation paramétrique 76 / 125


Maximum de vraisemblance

Calcul des estimateurs de maximum de vraisemblance


On suppose que (X1 , · · · , Xn ) prend ses valeurs dans un ensemble
qui ne depend pas de l’ensemble Θ. On suppose les hypothèses
H1 − H3 sont vérifiées :
Alors θbn l’estimateur du maximum de vraisemblance de θ est solution
du système
  
∂L
 ∂θ
 =0
 θ=θbn
 
 ∂2L

<0

∂θ2 θ=θbn

Or L(x1 , · · · , xn , θ) > 0 pour tout θ ∈ Θ il est plus facile d’utiliser le


logarithme de la vraisemblance log L(x1 , · · · , xn , θ), puisque la
vraisemblance est un produit de probabilités d’événements ou de
densités qui peut être assez compliqué à dériver et le logarithme de la
vraisemblance est une somme qui est plus facile à calculer.

Probabilités et Statistiques Estimation paramétrique 77 / 125


Maximum de vraisemblance
Calcul des estimateurs de maximum de vraisemblance
∂L
1 la fonction log est croissante et de classe C ∞ et ∂ log
∂θ
L
= ∂θ
L et
donc
∂L ∂ log L
= 0 si et seulement si = 0.
∂θ ∂θ
2 par dérivation successive on a
∂L
∂ log L ∂2L 2
∂ 2 log L ∂θ
∂θ
L ∂θ2
L − ( ∂L
∂θ )
2 ∂ L
∂θ2
L ( ∂L
∂θ )
2
= = = = −
∂θ2 ∂θ ∂θ L2 L2 L2
!
∂2L
∂ 2 log L
 
∂θ 2
et donc ∂θ2
= L et par suite
θ=θbn
θ=θbn
! !
∂2L ∂ 2 log L
< 0 si et seulement si < 0.
∂θ2 θ=θbn
∂θ2 θ=θbn

Probabilités et Statistiques Estimation paramétrique 78 / 125


Maximum de vraisemblance

Calcul des estimateurs de maximum de vraisemblance


Ainsi
 
∂L ∂ log L
 ∂θ = 0  ∂θ = 0

 

 2  si et seulement si  2 
 ∂∂θL2 <0  ∂ log2 L <0

 

θ=θbn ∂θ θ=θbn

Probabilités et Statistiques Estimation paramétrique 79 / 125


Maximum de vraisemblance

Calcul des estimateurs de maximum de vraisemblance


Exemple
( estimation du paramètre d’une loi de Poisson)
Soit (X1 , · · · , Xn ) un n−échantillions de loi de poisson P(θ)

θx
P(X = x) = e−θ .
x!
On se propose d’estimer le paramètre inconnu θ. L’ensemble des
observations possibles est Nn et le paramètre inconnu est θ ∈]0, +∞[.
Ainsi si (x1 , · · · , xn ) ∈ Nn est l’échantillon observé, alors
Pn
θ k=1 xk
L(x1 , · · · , xn , θ) = e−nθ Qn
k=1 xk !
Pn
Alors log L(x1 , · · · , xn , θ) = −nθ + ( k=1 xk ) log(θ) − constante

Probabilités et Statistiques Estimation paramétrique 80 / 125


Maximum de vraisemblance
Calcul des estimateurs de maximum de vraisemblance
Exemple
( estimation du paramètre d’une loi de Poisson)
d’où Pn
∂ log L xk
= −n + k=1 =0
∂θ θ
d’où elle s’annule pour θbn = xn . La dérivée seconde est
Pn
∂ 2 log L k=1 xk θbn
=− = −n
∂θ2 θ2 θ2
!
∂ 2 log L n
= − Pn <0
∂θ2 θ=θbn k=1 xk

Il s’agit donc bien d’un maximum, et par suite Tn = X n est


l’estimateur de maximum de vraisemblance de θ.

Probabilités et Statistiques Estimation paramétrique 81 / 125


Maximum de vraisemblance
Calcul des estimateurs de maximum de vraisemblance
Exemple
( estimation de l’espérance d’une loi normale N (m, σ) , où σ est
connu)
Soit (X1 , · · · , Xn ) un n−échantillon de loi normale N (m, σ) , où σ
est connu et de densité
1 (x−m)2
fm (x) = √ e− 2σ2 .
σ 2π
On se propose d’estimer le paramètre inconnu m connaissant σ.
L’ensemble des observations possibles est Rn et le paramètre inconnu
est m ∈ R. Ainsi si (x1 , · · · , xn ) ∈ Rn est un échantillon observé,
alors Pn 2
(2π)−n/2 − k=1 (x2k −m)
L(x1 , · · · , xn , m) = e 2σ
σn

Probabilités et Statistiques Estimation paramétrique 82 / 125


Maximum de vraisemblance

Calcul des estimateurs de maximum de vraisemblance


Exemple
( estimation de l’espérance d’une loi normale N (m, σ) , où σ est
connu) P n
(x −m)2
LogL(x1 , · · · , xn , m) = −n log(σ) − k=12σ2k + constante
d’où Pn
∂L (xk − m)
= k=1 2 =0
∂m σ
d’où m
b n = xn . D’autre part, on a

∂ 2 log L n
2
=− 2
∂m σ

Probabilités et Statistiques Estimation paramétrique 83 / 125


Maximum de vraisemblance

Calcul des estimateurs de maximum de vraisemblance


Exemple
( estimation de l’espérance d’une loi normale N (m, σ) , où σ est
connu)
et par suite !
∂ 2 log L
<0
∂m2 m=mb n

Il s’agit donc bien d’un maximum, et par suite Tn = X n est


l’estimateur de maximum de vraisemblance de m.

Probabilités et Statistiques Estimation paramétrique 84 / 125


Propriétés des estimateurs du MV
Proposition
Soit θbn l’EMV de θ. Si Tn est un estimateur exhaustive de θ, alors θbn
est fonction de T .

D’aprés le critètre de factorisation, on peut trouver deux fonctions g et


h telles que

Ln (θ) = f (x1 , · · · , xn ) = h(x1 , · · · , xn )g(T (x1 , · · · , xn ), θ)

et donc

max Ln (θ) = h(x1 , · · · , xn ) max g(T (x1 , · · · , xn ), θ)


θ∈Θ θ∈Θ

et par conséquent l’EMV θbn qui satisfait par définition

g(T (x1 , · · · , xn ), θbn ) ≥ g(T (x1 , · · · , xn ), θ), ∀θ ∈ Θ

ne dépend que de T (X1 , · · · , Xn ).


Probabilités et Statistiques Estimation paramétrique 85 / 125
Propriétés des estimateurs du MV

Remarque
L’EMV lui même n’est pas forcément exhaustive. En effet, soit X une
v.a de loi U[θ, 2θ] de densité
1
f (x, θ) = 1[θ,2θ] (x)
θ
La vraisemblance d’un n−échnatillon (X1 , · · · , Xn ) de même loi que
X est donc
1
Ln (θ) = 1θ≤inf 1≤i≤n Xi ≤sup1≤i≤n Xi ≤2θ
θn
La statistique (inf 1≤i≤n Xi , sup1≤i≤n Xi ) est exhaustive minimale
pour θ.

Probabilités et Statistiques Estimation paramétrique 86 / 125


Propriétés des estimateurs du MV

Remarque
D’autre part, l’EMV θbn est donnée par définition par la valeur
sup1≤i≤n Xi
 
θ∈ , inf Xi
2 1≤i≤n

qui minimise θn et donc qui maximise Ln (θ) (on remarque que


sup1≤i≤n Xi
2 ≤ inf 1≤i≤n Xi presque sûrement). On déduit que l’EMV
est
sup1≤i≤n Xi
θbn =
2
et que θbn ne peut être exhaustive pour θ.

Probabilités et Statistiques Estimation paramétrique 87 / 125


Propriétés des estimateurs du MV
Proposition
Sous les hypothèses H1 − H4 , si θ0 est la vraie valeur du paramètre
θ, alors il existe une suite θbn des solutions de l’equation de
vraisemblance qui converge p.s vers θ0 :
p.s
θbn −→ θ0

On dit que l’EMV est consistant.

Proposition
Sous les hypothèses H1 − H5 , on a pour toute solution θbn de
p.s
l’equation de vraisemblance telle que θbn −→ θ0 où θ0 est la vraie
valeur du paramètre θ, alors
√ loi
n(θbn − θ0 ) −→ N (O, I −1 )
On dit que l’EMV est aymptotiquement efficace.
Probabilités et Statistiques Estimation paramétrique 88 / 125
Vecteurs gaussiens

Définition
Une v.a (X1 , · · · , Xd ) à valeurs dans Rd est dite vecteur gaussien si
pour tout (a1 , · · · , ad ) ∈ Rd la v.a réelle di=1 ai Xi est de loi
P

normale.
Conséquence
Soit (X1 , · · · , Xd ) un vecteur gaussien. Alors chaque composante Xk
est une v.a réelle de loi normale.

Probabilités et Statistiques Estimation paramétrique 89 / 125


Vecteurs gaussiens

Théorème
Soit X = (X1 , · · · , Xd ) une v.a à valeurs dans Rd d’espérance
m = (m1 , · · · , md ) et de matrice de covariance ΣX .
Alors X est un vecteur gaussien ssi sa fonction caractéristique est
donnée par
1
ΦX (s1 , · · · , sd ) = eihs,mi− 2 hs,ΣX si
   
s1 m1
pour tout s =  .  où m =  . 
   
sd md

Probabilités et Statistiques Estimation paramétrique 90 / 125


Vecteurs gaussiens

Proposition
Soit X = (X1 , · · · , Xd ) un vecteur gaussien à valeurs dans Rd
d’espérance m = (m1 , · · · , md ). X admet une densité sur Rd ssi
sa matrice de covariance ΣX est inversible. Dans ce cas, on a :
1 −1
fX (x1 , · · · , xd ) = d√
1
e− 2 h(x−m),ΣX (x−m)i
  (2Π) 2 
det ΣX 
m1 x1
où m =  .  et x =  . 
   
md xd

Probabilités et Statistiques Estimation paramétrique 91 / 125


Echantillons gaussiens

Définition
Soit (X1 , · · · , Xn ) un échantillon de la loi normale N (0, 1).
On appelle loi du "Khi-deux" à n degrés de libertés, la loi de la
variable aléatoire réelle

Un = X12 + · · · + Xn2 .

On la note χ2 (n). Elle est aussi la loi Gamma de paramètres ( n2 , 12 ) et


admet pour densité
 n
1 2
2 1 n
f n , 1 (x) = e− 2 x x 2 −1 1R+ (x).
2 2 Γ( n2 )

Probabilités et Statistiques Estimation paramétrique 92 / 125


Echantillons gaussiens

Définition
Soit (X1 , · · · , Xn ) un échantillon de la loi normale N (0, 1).
On appelle loi de Student à n degrés de libertés, la loi de

nY
τn = q
X12 + · · · + Xn2

où X1 , · · · , Xn , Y sont des variables aléatoires indépendantes de


même loi N (0, 1). On la note t(n). Sa densité est donnée par
!− n+1
Γ( n+1
2 ) x2 2
fτn (x) = n √ 1+ .
Γ( 2 ) nπ n

Probabilités et Statistiques Estimation paramétrique 93 / 125


Echantillons gaussiens

Définition
On appelle loi de Fisher à n et m degrés de libertés, notée F (n, m),
la loi de la variable aléatoire réelle
Un /n mUn
F = =
Vm /m nVm

où Un et Vm sont des variables aléatoires indépendantes de loi


respectivement χ2 (n) et χ2 (m). Sa densité est donnée par
n m n
Γ( n+m
2 )n m
2 2 x 2 −1
f (x) = n+m 1R+ .

Γ( n2 )Γ( m
2 ) (m + nx) 2

Probabilités et Statistiques Estimation paramétrique 94 / 125


Echantillons gaussiens

Remarque
1 La loi de χ2 (n) est la loi Gamma de paramètres ( n2 , 21 ), on a
ainsi
E(Un ) = n et V(Un ) = 2n
Il y a des tables de la loi χ2 (n) pour
√ n ≤ 30.√Dans les
applications on peut admettre que 2Un − 2n − 1 suit
approximativement la loi N (0, 1).
2 Soit la variable aléatoire tn de loi de student à n degrés de
libertés, on a alors
n
E(tn ) = 0, ∀n ≥ 2 et V(tn ) = , ∀n ≥ 3.
n−2

Probabilités et Statistiques Estimation paramétrique 95 / 125


Echantillons gaussiens

Remarque
La densité de la loi de Student tend vers la densité de la loi normale
N (0, 1) lorsque n tend vers +∞. Il y a des tables de la loi de Student
pour n ≤ 30 ; pour n > 30, dans les applications, on peut admettre
que tn suit approximativement la loi N (0, 1).

Probabilités et Statistiques Estimation paramétrique 96 / 125


Echantillons gaussiens
Proposition
Soit (X1 , · · · , Xn ) un échantillon de la loi normale N (m, σ) et soient
n n
1X 2 1 X
Xn = Xk , Sn = (Xk − X n )2 .
n k=1 n − 1 k=1

Alors, on a
Pn
1 La variable X n = 1
n k=1 Xk suit la loi normale N (m, √σn ) ou

n
encore σ (X n − m) suit la loi normale N (0, 1).
1 Pn
2 La variable n−1 S 2 = n−1
σ2 n σ 2 n−1 k=1 (Xk − X n )
2 suit la loi du
χ2 (n − 1).
3 Les variables aléatoires X n et Sn2 sont indépendantes.

 
X√n −m
4 La variable aléatoire Tn = n 2
suit la loi de Student à
Sn
(n − 1) degrés de liberté.
Probabilités et Statistiques Estimation paramétrique 97 / 125
Echantillons gaussiens

Démonstration
1) Le vecteur X = (X1 , · · · , Xn ) est gaussien puisque ses
composantes sont de loi normales et indépendantes, donc X n qui est
une combinaison linéaire des composantes de X est une variable
2
aléatoire de loi normale de paramètres E(X n ) = m et V(X n ) = σn .
2)On pose Xk = σYk + m où Yk est de loi normale N (0, 1) et donc
Z = √1n nk=1 Yk est aussi de loi normale. Ainsi, on a
P

σ
Xn = √ Z + m
n
n
n−1 2 X
S n = Yk2 − Z 2 .
σ2 k=1

Probabilités et Statistiques Estimation paramétrique 98 / 125


Echantillons gaussiens

Démonstration
Soit maintenant A la matrice orthogonale n × n dont les éléments de
la première ligne sont tous égaux à √1n et soit U = AY où Y est le
vecteur gaussien de composantes Yk .
Le vecteur U est gaussien et sa première composante U1 vaut Z.
Puisque A est orthogonale, on a ||Y ||2 = ||U ||2 et donc
Pn 2 Pn 2
k=1 Yk = k=1 Uk . Ainsi,

n
n−1 2 2 2
X
Sn = ||Y || − Z = Uk2 .
σ2 k=2

Enfin ΣU = ΣAY = AΣY At = AIAt = I où I est la matrice


identité. Les composantes de U sont donc indépendantes et de loi
N (0, 1). Cela entraîne que n−1 S 2 = nk=2 Uk2 suit la loi χ2 (n − 1),
P
σ2 n √
et que cette variables est indépendantes de X n = nU1 .

Probabilités et Statistiques Estimation paramétrique 99 / 125


Echantillons gaussiens

Démonstration
3) On a
√ Xn − m 1
Tn = n−1 .
√σ
q
n−1 2
n S
σ2 n

Tn suit donc la loi tn−1 d’après 1), 2) et 3).

Probabilités et Statistiques Estimation paramétrique 100 / 125


Intervalle de confiance

Soit (X1 , · · · , Xn ) un n−échantillon de loi Pθ sur R où θ ∈ Θ. On


suppose que Θ ⊂ R mais tout ce qui va suivre peut être généralisée
dans le cas Θ ⊂ Rk . On estime le paramètre réel inconnu θ par
l’estimateur T (X1 , · · · , Xn ) dont pour une réalisation (x1 , · · · , xn )
de l’échantillon (X1 , · · · , Xn ) fournit une estimation ponctuelle
T (x1 , · · · , xn ) de θ. Cette estimation n’est pas reproductible (puisque
pour une autre réalisation (x01 , · · · , x0n ) de l’échantillon on obtient
une autre estimation T (x01 , · · · , x0n ) du paramètre θ) et on n’a aucune
idée de sa précision et l’erreur T (X1 , · · · , Xn ) − θ commise en
remplaçant θ par T est à la fois aléatoire et dépendante du paramètre
inconnu θ.

Probabilités et Statistiques Estimation paramétrique 101 / 125


Intervalle de confiance

Le risque quadratique est une mesure "deterministe" de cette erreur


(ou plutôt de son carré), mais il dépend encore de la valeur inconnue
θ. Donc plutôt que d’estimer θ par une seule valeur T (x1 , · · · , xn ),
on préfère donner un ensemble de valeurs vraisemblable de θ. On
utilise pour cela, la notion de "fourchette d’estimation" ou encore la
notion d’intervalle de confiance qui a une forte probabilité de contenir
la vraie valeur du paramètre θ. Cet intervalle est choisi de manière à
contrôler par un niveau de confiance, les chances que le résultat aurait
d’être confirmé si on renouvelait l’expérience.

Probabilités et Statistiques Estimation paramétrique 102 / 125


Intervalle de confiance

Définition
Soit α ∈ [0, 1] donné. On appelle intervalle de confiance de niveau de
confiance (1 − α) pour le paramètre θ un intervalle Iα (dépendant de
l’observation) qui a la probabilité 1 − α de contenir la vraie valeur
du paramètre θ
Pθ (θ ∈ Iα ) = 1 − α

Remarque
La probabilité (1 − α) est appelée niveau de confiance ou seuil de
confiance (le plus souvent fixé à 0.9, 0.95,0.99 ou 0.999).

Probabilités et Statistiques Estimation paramétrique 103 / 125


Construction pratique

Soit (X1 , · · · , Xn ) un n−échantillon de loi µθ et Tn un estimateur de


θ, on prendra le meilleur estimateur possible. On cherche à déterminer
(si possible) des fonctions t1 et t2 de θ telles que

P (t1 (θ) ≤ Tn ≤ t2 (θ)) = 1 − α

Or cette démarche ne va pas toujours aboutir car le calcul de t1 (θ) et


t2 (θ) est très complexe. Le probléme est que la loi de Tn dépend du
paramètre θ, alors que α est un réel fixé à l’avance qui ne doit pas
dépendre de θ. Donc on ne peut déterminer t1 (θ) et t2 (θ) ne
dépendant que des observations que si la loi de Tn ne dépend pas de θ,
ce qui n’est pas toujours le cas. Ainsi, pour trouver un intervalle de
confiance, la méthode la plus efficace consiste à chercher une fonction
pivotale φ(Tn , θ), c’est à dire une variable aléatoire fonction à la fois
du paramètre θ et des observations (X1 , · · · , Xn ), dont la loi qu’on
espère connue ne dépend pas de θ.

Probabilités et Statistiques Estimation paramétrique 104 / 125


Construction pratique

Ainsi la détermination de l’intervalle de confiance de θ consiste à


déterminer les réels aα et bα tels que

P (aα ≤ φ(Tn , θ) ≤ bα ) = 1 − α

Le problème revient à inverser cet intervalle et donc à déterminer les


valeurs a = a(Tn ) et b = b(Tn ) telles que

P (a(Tn ) ≤ θ ≤ b(Tn )) = 1 − α

Mais le choix de aα et bα reste arbitraire puisque seule une équation


permet de les déterminer soit P (aα ≤ φ(Tn , θ) ≤ bα ) = 1 − α ou
encore par passage au compémentaire

P ((φ(Tn , θ) < aα ) ∪ (φ(Tn , θ) > bα )) = 1 − (1 − α) = α

Probabilités et Statistiques Estimation paramétrique 105 / 125


Construction pratique

ou encore

P(φ(Tn , θ) < aα ) + P(φ(Tn , θ) > bα ) = α

ou P(b(Tn ) < θ) + P(a(Tn ) > θ) = α


Posons α1 = P(b(Tn ) < θ) et α2 = P(a(Tn ) > θ). Ainsi, si α1 et α2
sont non nuls, l’intervalle est bilatéral.

Probabilités et Statistiques Estimation paramétrique 106 / 125


Construction pratique

Remarque
En raison de la signification concrète du paramètre θ, on peut être
amené à construire un intervalle unilatéral de la forme

(a(Tn ) > θ) avec α1 = 0 et α2 = α

(b(Tn ) < θ) avec α1 = α et α2 = 0.


Dans le cas d’une loi symétrique, on construira un intervalle bilatéral
symétrique
α
α1 = α2 = .
2

Probabilités et Statistiques Estimation paramétrique 107 / 125


Construction pratique

Exemple
Etant donné un n−échantillon (X1 , · · · , Xn ), on peut construire des
intervalles de confiances à niveau 1 − α donné de la moyenne et de la
variance à l’aide de la moyenne empirique X n et de la variance
empirique Sn2 . La loi de l’échantillon est la loi de Bernoulli B(θ) avec
θ ∈]0, 1[. On se propose de déterminer un intervalle de confiance de
niveau 1 − α pour le paramétre θ qui est l’espérance de la loi B(θ).

Probabilités et Statistiques Estimation paramétrique 108 / 125


Construction pratique

Exemple
1 En appliquant l’inégalité de Bienaymé-Tchebytchev :
  θ(1 − θ) 1
Pθ |X n − θ| > a ≤ 2
≤ =α
na 4na2
d’où
1
 
Pθ |X n − θ| ≤ √ ≥1−α
4nα
1 1
ainsi l’intervalle [X n − √4nα , X n + √4nα ] est donc un
intervalle de confiance de niveau d’au moins 1 − α pour θ.
2 En appliquant le théorème central limite, (ce qui fournit un
intervalle meilleur à un niveau donné):

pour n suffisamment
n(X n −θ)
grand (nθ ≥ 5 et n(1 − θ) ≥ 5 ), √ suit
θ(1−θ)
approximativement la loi normale N (0, 1)

Probabilités et Statistiques Estimation paramétrique 109 / 125


Construction pratique

Exemple
d’où √ !
n(X n − θ)
P | p | ≤ bα =1−α
θ(1 − θ)
or
√ !
n(X n − θ)
P | p | ≤ bα ' φN (0,1) (bα ) − φN (0,1) (−bα )
θ(1 − θ)

= 2φN (0,1) (bα ) − 1


où φN (0,1) est la fonction de répartition de la loi N (0, 1).
Ainsi φN (0,1) (bα ) = 1 − α2 et on en déduit la valeur de bα à l’aide de
la table de la loi N (0, 1).

Probabilités et Statistiques Estimation paramétrique 110 / 125


Construction pratique

Exemple
Pour obtenir l’intervalle de confiance, on résoud en θ l’inégalité
suivante
θ(1 − θ)
(X n − θ)2 ≤ b2α
n
! !
b2 b2 2
ou encore 1+ α θ2 − 2X n + α θ + Xn ≤ 0
n n

Probabilités et Statistiques Estimation paramétrique 111 / 125


Construction pratique

Exemple
or le discriminant
!2 !
b2 2 b2
∆= 2X n + α − 4X n 1+ α =
n n
!
b2α b2α
+ 4X n (1 − X n ) >0
n n
l’équation admet donc deux solutions distinctes et l’intervalle de
confiance de niveau
" 1 − α pour θ est défini par ces deux solutions
#
b2 b2
p p
2 2
nX n + α −b b2α /4+nX n −nX n nX n + α +b b2α /4+nX n −nX n
α α
2
n+b2α
, 2
n+b2α

Probabilités et Statistiques Estimation paramétrique 112 / 125


Construction pratique

Exemple
p 2
2bα b2α /4+nX n −nX n
La longueur de cet intervalle est L = n+b2α
.
2 2
On peut vérifier que L ≤ n+b bα 2
2 , car bα /4 + nX n − nX n ≤ bα4+n
et
α
ainsi calculer la valeur minimale de n permettant d’obtenir des
intervalles de longueur inférieure à une constante donnée.
Pour simplifier les calculs on procède à une nouvelle approximation

Probabilités et Statistiques Estimation paramétrique 113 / 125


Construction pratique

Exemple
1 On remplace θ(1 − θ) par sa valeur maximale 41 , ainsi on a


 
P |X n − θ| ≤ √ ≥1−α
2 n

et l’intervalle de confiance de niveau 1 − α pour θ est donc


bα bα
 
Xn − √ , Xn + √ .
2 n 2 n

2 On remplace θ(1 − θ) par X n (1 − X n ) et on obtient l’intervalle


de confiance de niveau 1 − α pour θ
 s s 
X n − bα
X n (1 − X n ) X n (1 − X n ) 
, X n + bα .
n n

Probabilités et Statistiques Estimation paramétrique 114 / 125


Intervalle de confiance pour les paramètres de loi
normale

Soit (X1 , · · · , Xn ) n−échantillon de loi normale N (m, σ), on peut


construire des intervalles de confiance à niveau 1 − α donné de la
moyenne et de la variance à l’aide des estimateurs X n et Sn2 de m et
de la variance σ 2 dont les lois explicites sont connues et caculables .

Probabilités et Statistiques Estimation paramétrique 115 / 125


Intervalle de confiance pour les paramètres de loi
normale
La loi de l’échantillon est la loi normale N (m, σ) où σ est connu. On
se propose de déterminer un intervalle de confiance pour m
connaisant σ. On estime θ par l’estimateur de la moyenne

empirique
σ n
X n de loi N (m, √n ). Ainsi la fonction pivotale est σ (X n − m) et
suit la loi symétrique normale N (0, 1). Ce qui permet de déterminer
un intervalle de confiance tel que
√ !
n
P | (X n − m)| ≤ bα = 1 − α
σ
or
√ !
n
P | (X n − m)| ≤ bα ' FN (0,1) (bα ) − FN (0,1) (−bα )
σ

= 2FN (0,1) (bα ) − 1


Probabilités et Statistiques Estimation paramétrique 116 / 125
Intervalle de confiance pour les paramètres de loi
normale

Ainsi FN (0,1) (bα ) = 1 − α2 et on en déduit la valeur de bα à l’aide de


la table de la loi N (0, 1). Par suite

σ σ
 
X n − bα √ , X n + bα √
n n

est un intervalle de confiance de niveau (1 − α) pour m.

Probabilités et Statistiques Estimation paramétrique 117 / 125


Intervalle de confiance pour les paramètres de loi
normale

La loi de l’échantillon est la loi normale N (m, σ) où σ est inconnu.


On se propose de déterminer un intervalle de confiance pour m. On
estime m par l’estimateur de la moyenne empirique X n et σ 2 par
l’estimateur
n
1 X
Sn2 = (Xi − X n )2 .
n − 1 i=1
√ 2
Les statistiques σn (X n − m) et (n − 1) Sσn2 sont indépendantes et de
lois respectives normale N (0, 1) et Khi-deux χ2 (n − 1) à (n − 1)
degrè de liberté . Ainsi la fonction pivotale
!
√ Xn − m
n p
Sn2

suit la loi symétrique de student à n − 1 degrés de liberté.

Probabilités et Statistiques Estimation paramétrique 118 / 125


Intervalle de confiance pour les paramètres de loi
normale

Ce qui permet de déterminer un intervalle de confiance tel que


!
√ (X n − m)
P | n p 2 | ≤ cα =1−α
Sn

et on en déduit la valeur de cα à l’aide des tables de la loi t(n − 1) (ou


de la loi N (0, 1) si n > 30). Par suite
" p p #
S2 S2
X n − cα √ n , X n + cα √ n
n n

est un intervalle de confiance de m de niveau 1 − α.

Probabilités et Statistiques Estimation paramétrique 119 / 125


Intervalle de confiance pour les paramètres de loi
normale
La loi de l’échantillon est la loi normale N (m, σ) où m est connu. On
se propose de déterminer un intervalle de confiance pour σ 2
connaissant m. On estime σ 2 par l’estimateur sans biais
n
1X
σn2 = (Xi − m)2 .
n i=1

La fonction pivotale
nσn2
σ2
suit la loi de χ2 (n) qui n’est pas symétrique, ce qui permet de
déterminer un intervalle
!
nσ 2
P aα ≤ 2n ≤ bα =1−α
σ

Probabilités et Statistiques Estimation paramétrique 120 / 125


Intervalle de confiance pour les paramètres de loi
normale

par passage au compémentaire on a


!
nσ 2 nσ 2
P (aα ≥ 2n ) ∪ ( 2n ≥ bα ) =α
σ σ
ou encore
! !
nσn2 nσn2
P ≤ a α + P ≥ bα =α
σ2 σ2

Il y a une infinité defaçon de choisir aα et bα de sorte que


2
P aα ≤ nσ σ2
n
≤ bα soit égale à 1 − α.

Probabilités et Statistiques Estimation paramétrique 121 / 125


Intervalle de confiance pour les paramètres de loi
normale

On montre que les valeurs pour lesquelles bα − aα est minimum (on


cherche à obtenir l’intervalle de confiance le plus étroit possible) sont
telles que
! !
nσn2 α nσn2 α
P ≤ aα = et P ≥ bα = .
σ2 2 σ2 2

Les tables de la loi de χ2 (n) permettent de déterminer aα et bα . Par


suite " #
nσn2 nσn2
,
bα aα
est un intervalle de confiance de σ 2 de niveau 1 − α.

Probabilités et Statistiques Estimation paramétrique 122 / 125


Intervalle de confiance pour les paramètres de loi
normale
La loi de l’échantillon est la loi normale N (m, σ) où m est inconnu.
On se propose de déterminer un intervalle de confiance pour σ 2 . On
estime σ 2 l’estimateur sans biais
n
1 X
Sn2 = (Xi − X n )2 .
n − 1 i=1
2
De plus (n−1)S
σ2
n
suit la loi de χ2 (n − 1) ce qui permet de déterminer
un intervalle
!
(n − 1)Sn2
P aα ≤ ≤ bα =1−α
σ2
par passage au compémentaire on a
!
(n − 1)Sn2 (n − 1)Sn2
P (aα ≥ ) ∪ ( ≥ bα ) =α
σ2 σ2

Probabilités et Statistiques Estimation paramétrique 123 / 125


Intervalle de confiance pour les paramètres de loi
normale

ou encore
! !
(n − 1)Sn2 (n − 1)Sn2
P ≤ a α + P ≥ bα =α
σ2 σ2

Soient α1 , α2 tels que α1 + α2 = α, les tables de la loi de χ2 (n − 1)


permettent de déterminer aα et bα tels que
! !
(n − 1)Sn2 (n − 1)Sn2
P ≤ aα = α1 et P ≥ bα = α2 .
σ2 σ2

Par suite " #


(n − 1)Sn2 (n − 1)Sn2
,
bα aα
est un intervalle de confiance de σ 2 de niveau 1 − α.
Probabilités et Statistiques Estimation paramétrique 124 / 125
Intervalle de confiance pour les paramètres de loi
normale

Pour la variance σ 2 de la loi normale N (m, σ) avec


θ = (m, σ) ∈ R × R∗+ (moyenne et variance inconnues), la variable
aléatoire (n−1)
σ2
Sn2 suit la loi du
χ2 (n − 1), les tables de la loi χ2 (n − 1) permettent de déterminer
aα/2 et a1−α/2 tels que
α α
P(χ2n−1 < aα/2 ) = et P(χ2n−1 < a1−α/2 ) = 1 −
2 2
h i
et d’en déduire l’intervalle a(n−1) Sn2 , (n−1) 2
aα/2 Sn , (lorsque n > 30, on
p √ 1−α/2

utilise que 2χ2n − 2n − 1 suit approximativement la loi N (0, 1)).

Probabilités et Statistiques Estimation paramétrique 125 / 125

Vous aimerez peut-être aussi