Académique Documents
Professionnel Documents
Culture Documents
1 Introduction
En théorie des probabilités, le phénomène aléatoire est souvent décrit selon une distribu-
tion connue. Or dans les problèmes concrets, la distribution de la v.a. est souvent inconnue,
ou bien même si on connaı̂t la classe de la distribution son paramètre est inconnu.
Un des premiers problèmes des statistiques est de déterminer la distribution ou le pa-
ramètre. On dispose d’une observation x à valeurs dans un espace mesurable (X , A) (souvent
(R, B(R)) ou (Rd , B(Rd )), d ∈ N∗ ). La modélisation statistique consiste à faire l’hypothèse
que cette observation x est la réalisation X(ω) d’une certaine variable aléatoire X à valeurs
dans (X , A) . Soit. X une application mesurable de (Ω, F, P) à valeurs dans (X , A), la loi
de X, notée LX la mesure image de P par X c’est à dire LX est une probabilité sur (X , A) :
1
Définition 2 Dans le modèle statistique (X , A, X, Pθ , θ ∈ Θ) on appelle statistique toute
v.a. de la forme Φ(X) où Φ est une application mesurable de (X , A) dans (G, G).
Définition 4 Lorsque Θ est un sous ensemble de Rd , on dit que le modèle est paramétrique.
Sinon le modèle est dit non paramétrique.
Exemples :
1. L’exemple qu’on a vu avec Θ = [0, 1] le modèle est paramétrique.
2. Voici un exemple typique de modèle non paramétrique. On a un n-échantillon d’une
v.a. X à valeurs dans (R, B(R)) et on veut estimer LX la loi de X. Dans ce cas il
convient de prendre Θ = {des lois de probabilités sur(R, B(R))} et le modèle est non
paramétrique.
Dans la suite, sauf précision du contraire le modèle est paramétrique.
Définition 5
Un modèle statistique (X , A, X, Pθ , θ ∈ Θ) est dit dominé s’il existe une mesure σ-finie µ sur
(X , A) tel que
∀θ ∈ Θ, Pθ << µ.
Rappels
1. Une mesure µ sur (X , A) est dite σ-finie, s’il existe une suite (An )n∈N d’éléments de
A de mesure finie, µ(An ) < +∞, pour tout n ∈ N, telle que X = ∪n∈N An .
2. Soient µ et ν deux mesures sur l’espace (X , A). On dit que ν est absolument continue
par rapport à µ et on écrit ν << µ si
µ(A) = 0 ⇒ ν(A) = 0
pour tout A ∈ A.
3. Théorème de Radon-Nikodym : soient µ et ν deux mesures finies sur un espace mesuré
(X , A). Si ν est absolument continue par rapport à µ,R alors il existe une fonction
positive f ∈ L1 (X , µ) telle que, ∀A ∈ A, ν(A) = A f (x) dµ(x). La fonction f
dν
s’appelle la densité et on note f = dµ .
Conséquences :
1. Dans un modèle dominé, ∀θ ∈ Θ, Pθ << µ. Alors il existe des densités de probabilité
telles que f (θ, x) = dP
dµ
θ
(x), ∀θ ∈ Θ et ∀x ∈ X . L’étude du modèle, des (Pθ )θ∈Θ , revient
à l’étude des densités de probabilité (f (θ, x), x ∈ X )θ∈Θ .
2
2. Dans le modèle d’échantillonage (X n , A⊗n , (X1 , · · · , Xn ), P⊗n
θ , θ ∈ Θ) de X, le modèle
⊗n
est dominé par µ et
n
dP⊗n Y
θ
(x 1 , · · · , xn ) = f (θ, xi ), ∀(x1 , · · · , xn ) ∈ X n .
dµ⊗n i=1
Remarques :
1. Dans la définition ci-dessus, on confond la statistique T avec l’application Φ qui la
définit, on prend T = Φ.
2. Un estimateur dans un modèle n-échantillon dépend souvent de n et on le note Tn .
3
3. Soit T un estimateur de θ, la quantité Eθ (T ) − θ s’appelle le biais.
4. De la même façon on définit l’estimateur de q(θ) avec q est une fonction connue.
5. L’estimateur T de q(θ) est dit sans biais si, ∀θ ∈ Θ, Eθ (T ) = q(θ).
6. Un estimateur Tn de q(θ) est dit asymptotiquement sans biais si, ∀θ ∈ Θ, Eθ (Tn ) −→
n→+∞
q(θ).
7. Soit T un estimateur pour q(θ), on suppose que q : Θ −→ R, on appelle risque
quadratique la fonction RT : Θ −→ R qui θ 7→ RT (θ) = Eθ [(T − q(θ))2].
8. Lorsqu’on compare deux estimateurs S et T de q(θ) de même biais, on dit que S est
meilleur de T si ∀θ ∈ Θ, RS (θ) ≤ RT (θ).
Modèle exponentiel
la statistique privilège.
2 Exhaustivité
On considère le modèle statistique (X , A, X, Pθ , θ ∈ Θ).
4
Explications sur l’espérance conditionnelle Eθ (f (X)|T ) est une variable aléatoire elle
est définie par les deux conditions suivantes :
1. la v.a. Y = Eθ (f (X)|T ) est de la forme Y = h(T ) avec h est une fonction mesurable.
On note souvent h(t) = Eθ (f (X)|T = t).
2. Pour toute fonction mesurable g ≥ 0, on a Eθ (f (X)g(T )) = Eθ (Y g(T )).
Dans le cas ou T est une v.a. discrète à valeurs dans l’ensemble {ti , i ∈ I ⊂ N}, on a
X Eθ (f (X)1{T =ti } )
Eθ (f (X)|T ) = 1{T =ti } .
i∈I
Pθ (T = ti )
E (f (X)1 )
{T =ti }
La première condition est clairement vérifiée avec h(ti ) = θ Pθ (T =ti)
. Pour la deuxième
condition, on écrit
X X
Eθ (f (X)g(T )) = Eθ (f (X)g(T )1{T =ti } ) = g(ti )Eθ (f (X)1{T =ti } )
i∈I i∈I
X
= g(ti )h(ti )Pθ (T = ti ) = Eθ (h(T )g(T )).
i∈I
Pθ ({x}) = Pθ (X = x) = Pθ (X = x, T = T (x))
= Pθ (X = x|T = T (x))Pθ (T = T (x)).
dPθ h̃(x)
∀θ ∈ Θ, (x) = qθ (T (x))h(x), avec, h(x) = .
dµ µ({x})
” ⇐= ” Supposons que dP dµ
θ
(x) = qθ (T (x))h(x), ∀θ ∈ Θ. On veut montrer l’exhaustivité. Il
s’agit de montrer que ∀x, y, Pθ (X = x|T = y) ne dépend pas de θ. Or,
Pθ (X = x, T = y)
Pθ (X = x|T = y) = .
Pθ (T = y)
5
Au numérateur si T (x) 6= y, Pθ (X = x, T = y) = 0 et si T (x) = y,
Pθ (X = x, T = y) = Pθ (X = x) = Pθ ({x}) = µ({x})qθ (T (x))h(x) = µ({x})qθ (y)h(x).
Pour le dénominateur en décomposant suivant les valeurs prises par X et en développant les
mêmes calculs qu’au numérateur on obtient
X X
Pθ (T = y) = Pθ (X = z, T = y) = µ({z})qθ (y)h(z).
z∈X z∈X , T (z)=y
ne dépend pas de θ.
Définition 11 Une statistique T est dite complète si pour toute fonction mesurable g telle
g(T ) soit intégrable on a l’implication
(∀θ ∈ Θ, Eθ (g(T )) = 0) =⇒ (g(T ) = 0, Pθ p.s., ∀θ ∈ Θ)
6
Preuve : Soit S 0 un estimateur sans biais de q(θ), son amélioré de Rao-Blackwell M 0 =
Eθ (S 0 |T ) est aussi sans biais et de variance plus petite V arθ (M 0 ) ≤ V arθ (S 0 ). Maintenant la
v.a. M 0 − M = Eθ (S 0 |T ) − Eθ (S|T ) = g(T ) avec g()˙ une certain fonction déterministe, vérifie
la condition suivante
Supposant que α(Θ) P contient un ouvert P non vide alors la statistique privilège T définie par
T (x1 , · · · , xn ) = ( ni=1 T1 (xi ), · · · , ni=1 Tr (xi )) est une statistique exhaustive et complète.
avec h(x1 , · · · , xn ) = ni=1 h(xi ) et qθ (y1 , · · · , yr ) = (β(θ))n exp (α(θ).y) où y = (y1 , · · · , yr )
Q
et α(θ) = (α1 (θ), · · · , αr (θ)).
• Pour la complétude si Eθ (g(T )) = 0, ∀θ ∈ Θ. On a alors, pour tout θ ∈ Θ
Z
g(T (x1 , · · · , xn ))(β(θ))n h(x1 , · · · , xn ) exp (α(θ).T (x1 , · · · , xn )) dx1 · · · dxn = 0
Rn
Comme α(Θ) contient un ouvert non vide de Rr donc g(y) = 0, µT (dy) p.p.. Cela nous
permet de conclure que g(T ) = 0, Pθ p.s. et donc la statistique T est complète.
7
Exemple : On considère le modèle exponentiel du n-échantillon associé à X de loi de
x
X = N, Θ =]0, +∞[, Pθ (X = x) = e−θ θx! . En prenant µ
Poisson de Paramètre θ > 0. On a P
la mesure de comptage sur X , µ = x∈N δx on trouve
n n
Y θ xi 1 X
L(θ, (x1 , · · · , xn )) = e−θ = e−nθ Qn exp(ln(θ) xi ).
i=1
xi ! i=1 xi ! i=1
Pn
On T = i=1 Xi est la statistique privilège. Comme α(θ) = ln(θ) et Θ =]0, +∞[ alors
α(Θ) = R contient un ouvert non vide et on peut appliquer la proposition précédente pour
déduire que T est une statistique exhaustive et complète. On peut donc appliquer le théorème
de Lehmann-Sheffe comme exemple pour estimer q(θ) = e−θ et on voudrait un estimateur
sans biais et de variance minimale. On commence par l’estimateur S = 1{X1 =0} , S est sans
biais car
Eθ (S) = Pθ (X1 = 0) = e−θ = q(θ), ∀θ ∈ Θ.
Le théorème de Lehmann-Sheffe dit que si on prend M = Eθ (S|T ) alors M est une estimateur
E (S1 =t} )
sans biais et de variance minimale. Il reste à calculer Eθ (S|T ) = f (T ) avec f (t) = θPθ (T{T=t) .
t
On sait T ∼ P(nθ) donc Pθ (T = t) = e−nθ (nθ)
t!
. Maintenant pour le numérateur, on trouve