Vous êtes sur la page 1sur 8

Université de Rouen

1ère année du Master MFA-AIMAF


Cours de Statistiques 1, Mohamed Ben Alaya

Chapitre 1 : Méthodologie Statistique

Dans ce chapitre on abordera la notion de modèle statistique, d’estimateur, de risque quadra-


tique, de modèle exponentiel et la notion de statistique exhaustive (critère de factorisation,
théorème de Rao-Blackwell et théorème de Lehmann-Scheffe).

1 Introduction
En théorie des probabilités, le phénomène aléatoire est souvent décrit selon une distribu-
tion connue. Or dans les problèmes concrets, la distribution de la v.a. est souvent inconnue,
ou bien même si on connaı̂t la classe de la distribution son paramètre est inconnu.
Un des premiers problèmes des statistiques est de déterminer la distribution ou le pa-
ramètre. On dispose d’une observation x à valeurs dans un espace mesurable (X , A) (souvent
(R, B(R)) ou (Rd , B(Rd )), d ∈ N∗ ). La modélisation statistique consiste à faire l’hypothèse
que cette observation x est la réalisation X(ω) d’une certaine variable aléatoire X à valeurs
dans (X , A) . Soit. X une application mesurable de (Ω, F, P) à valeurs dans (X , A), la loi
de X, notée LX la mesure image de P par X c’est à dire LX est une probabilité sur (X , A) :

LX (A) = P(X ∈ A), ∀A ∈ A.

Définition 1 On appelle modèle statistique ou expérience la famille (X , A, X, Pθ , θ ∈ Θ) où


X est une v.a. à valeurs dans (X , A), Θ est ensemble des paramètres θ et pour tout θ ∈ Θ,
Pθ est la loi de X donc une probabilité sur (X , A). Le statisticien fait l’hypothèse que x est
la réalisation de X(ω) par X tirée selon Pθ avec un certain paramètre θ.

Exemple : Soit N ≥ n deux entiers fixés. On considère N machines comportant une


proportion θ de machines défectueuses. On extrait au hasard n machines et on compte le
nombre x de machines défectueuses parmi ces n machines. On a θ ∈ [0, 1] = Θ, le nombre x
est la réalisation d’une v.a. X(ω) = x, X = {0, 1, · · · , n} et A est la tribu triviale A = P(Ω).
Il s’agit de la loi hypergéométrique,
θN (1−θ)N
 
x n−x
Pθ (X = x) = N

n

— θN est le nombre de machines défectueuses.


— (1 − θ)N est le nombre de machines non défectueuses.
— Nn est le nombre de choix de n machines parmi N .
— θN

x
est le nombre de choix de x machines défectueuses parmi θN .
(1−θ)N

— n−x est le nombre de choix de n − x machines non défectueuses parmi (1 − θ)N .

1
Définition 2 Dans le modèle statistique (X , A, X, Pθ , θ ∈ Θ) on appelle statistique toute
v.a. de la forme Φ(X) où Φ est une application mesurable de (X , A) dans (G, G).

Définition 3 Dans le modèle statistique (X , A, X, Pθ , θ ∈ Θ) on appelle un échantillon de


X (ou bien un n-échantillon) la famille (X1 , · · · , Xn ) avec les (Xi )1≤i≤n sont indépendants
de même loi que X. On appelle modèle d’échantillonage associé le modèle
(X n , A⊗n , (X1 , · · · , Xn ), P⊗n
θ , θ ∈ Θ).

Définition 4 Lorsque Θ est un sous ensemble de Rd , on dit que le modèle est paramétrique.
Sinon le modèle est dit non paramétrique.

Exemples :
1. L’exemple qu’on a vu avec Θ = [0, 1] le modèle est paramétrique.
2. Voici un exemple typique de modèle non paramétrique. On a un n-échantillon d’une
v.a. X à valeurs dans (R, B(R)) et on veut estimer LX la loi de X. Dans ce cas il
convient de prendre Θ = {des lois de probabilités sur(R, B(R))} et le modèle est non
paramétrique.
Dans la suite, sauf précision du contraire le modèle est paramétrique.

Définition 5
Un modèle statistique (X , A, X, Pθ , θ ∈ Θ) est dit dominé s’il existe une mesure σ-finie µ sur
(X , A) tel que
∀θ ∈ Θ, Pθ << µ.

Rappels
1. Une mesure µ sur (X , A) est dite σ-finie, s’il existe une suite (An )n∈N d’éléments de
A de mesure finie, µ(An ) < +∞, pour tout n ∈ N, telle que X = ∪n∈N An .
2. Soient µ et ν deux mesures sur l’espace (X , A). On dit que ν est absolument continue
par rapport à µ et on écrit ν << µ si

µ(A) = 0 ⇒ ν(A) = 0

pour tout A ∈ A.
3. Théorème de Radon-Nikodym : soient µ et ν deux mesures finies sur un espace mesuré
(X , A). Si ν est absolument continue par rapport à µ,R alors il existe une fonction
positive f ∈ L1 (X , µ) telle que, ∀A ∈ A, ν(A) = A f (x) dµ(x). La fonction f

s’appelle la densité et on note f = dµ .

Conséquences :
1. Dans un modèle dominé, ∀θ ∈ Θ, Pθ << µ. Alors il existe des densités de probabilité
telles que f (θ, x) = dP

θ
(x), ∀θ ∈ Θ et ∀x ∈ X . L’étude du modèle, des (Pθ )θ∈Θ , revient
à l’étude des densités de probabilité (f (θ, x), x ∈ X )θ∈Θ .

2
2. Dans le modèle d’échantillonage (X n , A⊗n , (X1 , · · · , Xn ), P⊗n
θ , θ ∈ Θ) de X, le modèle
⊗n
est dominé par µ et
n
dP⊗n Y
θ
(x 1 , · · · , xn ) = f (θ, xi ), ∀(x1 , · · · , xn ) ∈ X n .
dµ⊗n i=1

Définition 6 Un modèle statistique (X , A, X, Pθ , θ ∈ Θ) est identifiable si Pθ 6= Pθ0 dès que


θ 6= θ0 .

Exemple : L’exemple du sondage est identifiable.

Problèmes statistiques courants :


1. Problème de test : il y a deux éventualités dans une seule est vraie, il s’agit de choisir
une de ces deux éventualités.
2. Estimation ponctuelle : dans le problème paramétrique l’éventualité est représentée
par le paramètre θ, le problème est de choisir une valeur de θ.
3. Estimation ensembliste : au lieu de donner une valeur de θ, on donne une région, un
sous ensemble de Θ.

Des points de vu statistiques : Il y a deux points de vu pour aborder ces problèmes.


1. L’optique classique et l’optique bayesienne : dans l’optique bayesienne on suppose
qu’on a un modèle paramétrique (X , A, X, Pθ , θ ∈ Θ), Θ ⊂ Rd et qu’on dispose
d’une loi à priori sur Θ, dans l’optique classique il n’y a pas de loi à priori.
2. L’optique asymptotique et l’optique à distance finie : dans l’optique asymptotique on
dispose d’un n-échantillon et on juge les qualités des méthodes en faisant tendre n
vers vers l’infini.

Définition 7 Un estimateur de θ, noté par T ou θ̂ est une statistique à valeurs dans


Θ. Dans le modèle n-échantillon associé à X, (X n , A⊗n , (X1 , · · · , Xn ), P⊗n
θ , θ ∈ Θ), T =
n ⊗n
T (X1 , · · · , Xn ) avec T est une fonction mesurable de (X , A ) à valeurs dans (Θ, B(Θ))
qui à (x1 , · · · , xn ) 7→ T (x1 , · · · , xn ).

Remarques :
1. Dans la définition ci-dessus, on confond la statistique T avec l’application Φ qui la
définit, on prend T = Φ.
2. Un estimateur dans un modèle n-échantillon dépend souvent de n et on le note Tn .

Définition 8 Soit Tn un estimateur de θ dans un modèle de n-échantillon de X.


P
1. On dit que Tn est convergent ou consistant si, ∀θ ∈ Θ, Tn −→ θ, sous Pθ .
n→+∞
p.s.
2. On dit que Tn est fortement convergent ou fortement consistant si, ∀θ ∈ Θ, Tn −→ θ,
n→+∞
sous Pθ .

3
3. Soit T un estimateur de θ, la quantité Eθ (T ) − θ s’appelle le biais.
4. De la même façon on définit l’estimateur de q(θ) avec q est une fonction connue.
5. L’estimateur T de q(θ) est dit sans biais si, ∀θ ∈ Θ, Eθ (T ) = q(θ).
6. Un estimateur Tn de q(θ) est dit asymptotiquement sans biais si, ∀θ ∈ Θ, Eθ (Tn ) −→
n→+∞
q(θ).
7. Soit T un estimateur pour q(θ), on suppose que q : Θ −→ R, on appelle risque
quadratique la fonction RT : Θ −→ R qui θ 7→ RT (θ) = Eθ [(T − q(θ))2].
8. Lorsqu’on compare deux estimateurs S et T de q(θ) de même biais, on dit que S est
meilleur de T si ∀θ ∈ Θ, RS (θ) ≤ RT (θ).

Modèle exponentiel

Définition 9 Un modèle statistique (X , A, X, Pθ , θ ∈ Θ) est dit exponentiel s’il est do-


miné par une mesure σ-finie µ et s’il existe des fonctions mesurables réelles (Tj (x))1≤j≤r ,
(αj (θ))1≤j≤r , r ≥ 1, h(x) > 0, β(θ) > 0 telles que ∀x ∈ X et ∀θ ∈ Θ
r
!
dPθ X
f (θ, x) = (x) = β(θ)h(x) exp αj (θ)Tj (x) .
dµ j=1

La famille des probabilités {Pθ , θ ∈ Θ} est dite une famille exponentielle.

Remarque : Pour le modèle n-échantillon associé à X, on a ∀(x1 , · · · , xn ) ∈ X n et ∀θ ∈ Θ


n r n
!
dPθ⊗n Y X X
(x1 , · · · , xn ) = (β(θ))n h(xi ) exp αj (θ) Tj (xi ) .
dµ⊗n i=1 j=1 i=1

Donc le modèle n-échantillon est aussi exponentiel. On appelle la statistique


n
X n
X
T (x1 , · · · , xn ) = ( T1 (xi ), · · · , Tr (xi ))
i=1 i=1

la statistique privilège.

2 Exhaustivité
On considère le modèle statistique (X , A, X, Pθ , θ ∈ Θ).

Définition 10 Une statistique est dite exhaustive si ∀θ ∈ Θ, la loi conditionnelle Pθ (.|T ) ne


dépend pas de θ i.e. pour toute fonction mesurable f ≥ 0, Eθ (f (X)|T ) ne dépend pas de θ.

4
Explications sur l’espérance conditionnelle Eθ (f (X)|T ) est une variable aléatoire elle
est définie par les deux conditions suivantes :
1. la v.a. Y = Eθ (f (X)|T ) est de la forme Y = h(T ) avec h est une fonction mesurable.
On note souvent h(t) = Eθ (f (X)|T = t).
2. Pour toute fonction mesurable g ≥ 0, on a Eθ (f (X)g(T )) = Eθ (Y g(T )).
Dans le cas ou T est une v.a. discrète à valeurs dans l’ensemble {ti , i ∈ I ⊂ N}, on a
X Eθ (f (X)1{T =ti } )
Eθ (f (X)|T ) = 1{T =ti } .
i∈I
Pθ (T = ti )

E (f (X)1 )
{T =ti }
La première condition est clairement vérifiée avec h(ti ) = θ Pθ (T =ti)
. Pour la deuxième
condition, on écrit
X X
Eθ (f (X)g(T )) = Eθ (f (X)g(T )1{T =ti } ) = g(ti )Eθ (f (X)1{T =ti } )
i∈I i∈I
X
= g(ti )h(ti )Pθ (T = ti ) = Eθ (h(T )g(T )).
i∈I

Théorème 1 (Théorème de factorisation) Soit (X , A, X, Pθ , θ ∈ Θ) un modèle statis-


tique dominé par une mesure σ-finie µ. Une condition nécessaire et suffisante pour qu’une
statistique T soit exhaustive est la densité
dPθ
(x) = qθ (T (x))h(x), ∀θ ∈ Θ,

pour des fonctions mesurables qθ ≥ 0 et h ≥ 0.

Preuve : Seulement dans le cas discret.


dPθ
” =⇒ ” Si T est exhaustive, on va montrer que dµ
(x) s’écrit en cette forme. L’espace est
dPθ Pθ ({x})
discret donc dµ
(x) = µ({x})
et

Pθ ({x}) = Pθ (X = x) = Pθ (X = x, T = T (x))
= Pθ (X = x|T = T (x))Pθ (T = T (x)).

T est exhaustif Pθ (X = x|T = T (x)) ne dépend pas de θ, on pose h̃(x) = Pθ (X = x|T =


T (x)) et on définit qθ (y) = Pθ (T = y). Alors, Pθ ({x}) s’écrit h̃(x)qθ (T (x)). On a alors

dPθ h̃(x)
∀θ ∈ Θ, (x) = qθ (T (x))h(x), avec, h(x) = .
dµ µ({x})

” ⇐= ” Supposons que dP dµ
θ
(x) = qθ (T (x))h(x), ∀θ ∈ Θ. On veut montrer l’exhaustivité. Il
s’agit de montrer que ∀x, y, Pθ (X = x|T = y) ne dépend pas de θ. Or,

Pθ (X = x, T = y)
Pθ (X = x|T = y) = .
Pθ (T = y)

5
Au numérateur si T (x) 6= y, Pθ (X = x, T = y) = 0 et si T (x) = y,
Pθ (X = x, T = y) = Pθ (X = x) = Pθ ({x}) = µ({x})qθ (T (x))h(x) = µ({x})qθ (y)h(x).
Pour le dénominateur en décomposant suivant les valeurs prises par X et en développant les
mêmes calculs qu’au numérateur on obtient
X X
Pθ (T = y) = Pθ (X = z, T = y) = µ({z})qθ (y)h(z).
z∈X z∈X , T (z)=y

En simplifiant qθ (y) au numérateur et au dénominateur, on obtient le résultat voulu à savoir


µ({x})h(x)
Pθ (X = x|T = y) = 1{y=T (x)} P ,
z∈X , T (z)=y µ({z})h(z)

ne dépend pas de θ.


Définition 11 Une statistique T est dite complète si pour toute fonction mesurable g telle
g(T ) soit intégrable on a l’implication
(∀θ ∈ Θ, Eθ (g(T )) = 0) =⇒ (g(T ) = 0, Pθ p.s., ∀θ ∈ Θ)

Exemple Modèle binomiale : Pθ ∼ B(N, θ), Θ = [0, 1], X = {0, · · · , N }, la statistique


T
PN= X estNcomplète. En effet, soit g une fonction mesurable, PNsupposons que Eθ (g(T )) =
N −x N θ x
 x
x=0 g(x) x θ (1 − θ) = 0, ∀θ ∈ Θ. Soit alors, ∀θ ∈ [0, 1], x=0 g(x) x ( 1−θ ) = 0. Ceci
nous permet de conclure que g(x) = 0 pour tout x ∈ X et que g(T ) = 0, Pθ p.s., ∀θ ∈ Θ.


Théorème 2 (Rao-Blackwell) Soient S un estimateur et T une statistique exhaustive


alors la statistique M = Eθ (S|T ), θ ∈ Θ est un estimateur de même biais que S et de
variance inférieure ou égale à S.

Preuve : M est bien un estimateur car T est exhaustive. Eθ (M ) = Eθ (S), découle de


la définition de l’espérance conditionnelle. En effet, pour toute fonction mesurable g ≥ 0,
on a Eθ (Sg(T )) = Eθ (M g(T )) et il suffit de prendre g = 1 pour voir que S et M ont le
même biais. Maintenant pour comparer les variances comme V arθ (S) = Eθ (S 2 ) − (Eθ (S))2 ,
V arθ (M ) = Eθ (M 2 ) − (Eθ (M ))2 et les deux estimateurs ont le même biais. Il suffit de
comparer les moments d’ordre deux. Par l’inégalité de Cauchy-Schwarz
(Eθ (S|T ))2 ≤ Eθ (S 2 |T ), Pθ − p.s.
Dans ce cas Eθ (M 2 ) ≤ Eθ (Eθ (S 2 |T )) = Eθ (S 2 ) et donc V arθ (M ) ≤ V arθ (S).


Théorème 3 (Lehmann-Scheffe) Soit S un estimateur sans biais de q(θ). Supposons que


T est une statistique exhaustive et complète alors M = Eθ (S|T ), θ ∈ Θ, est l’unique estima-
teur sans biais de variance minimale de q(θ).

6
Preuve : Soit S 0 un estimateur sans biais de q(θ), son amélioré de Rao-Blackwell M 0 =
Eθ (S 0 |T ) est aussi sans biais et de variance plus petite V arθ (M 0 ) ≤ V arθ (S 0 ). Maintenant la
v.a. M 0 − M = Eθ (S 0 |T ) − Eθ (S|T ) = g(T ) avec g()˙ une certain fonction déterministe, vérifie
la condition suivante

∀θ ∈ Θ, Eθ (g(T )) = Eθ (M 0 − M ) = Eθ (M 0 ) − Eθ (M ) = q(θ) − q(θ) = 0.

Comme la statistique T est complète, on déduit que g(T ) = 0, Pθ − p.s., ∀θ ∈ Θ. C’est à


dire M 0 = M , Pθ − p.s. et donc V arθ (M ) ≤ V arθ (S 0 ), donc de variance minimale. L’unicité
sera prouvé dans le chapitre 2.

Proposition 1 On considère le modèle exponentiel du n-échantillon associé à X, où ∀θ ∈


Θ ⊂ Rr , r ≥ 1, et ∀(x1 , · · · , xn ) ∈ X n
n r n
!
⊗n
def dPθ
Y X X
L(θ, (x1 , · · · , xn )) = (x1 , · · · , xn ) = (β(θ))n h(xi ) exp αj (θ) Tj (xi ) .
dµ⊗n i=1 j=1 i=1

Supposant que α(Θ) P contient un ouvert P non vide alors la statistique privilège T définie par
T (x1 , · · · , xn ) = ( ni=1 T1 (xi ), · · · , ni=1 Tr (xi )) est une statistique exhaustive et complète.

Preuve : • L’exhaustivité n’utilise cette hypothèse sur α(Θ) car

L(θ, (x1 , · · · , xn )) = qθ (T (x1 , · · · , xn ))h(x1 , · · · , xn )

avec h(x1 , · · · , xn ) = ni=1 h(xi ) et qθ (y1 , · · · , yr ) = (β(θ))n exp (α(θ).y) où y = (y1 , · · · , yr )
Q
et α(θ) = (α1 (θ), · · · , αr (θ)).
• Pour la complétude si Eθ (g(T )) = 0, ∀θ ∈ Θ. On a alors, pour tout θ ∈ Θ
Z
g(T (x1 , · · · , xn ))(β(θ))n h(x1 , · · · , xn ) exp (α(θ).T (x1 , · · · , xn )) dx1 · · · dxn = 0
Rn

On pose T (x1 , · · · , xn ) = (y1 , · · · , yr ) = y et on note µT (dy) la mesure image de h(x)dx par


T (x) avec x = (x1 , · · · , xn ). On déduit que pour tout θ ∈ Θ
Z
g(y) exp (α(θ).y) µT (dy) = 0.
Rr

Comme α(Θ) contient un ouvert non vide de Rr donc g(y) = 0, µT (dy) p.p.. Cela nous
permet de conclure que g(T ) = 0, Pθ p.s. et donc la statistique T est complète.

7
Exemple : On considère le modèle exponentiel du n-échantillon associé à X de loi de
x
X = N, Θ =]0, +∞[, Pθ (X = x) = e−θ θx! . En prenant µ
Poisson de Paramètre θ > 0. On a P
la mesure de comptage sur X , µ = x∈N δx on trouve
n n
Y θ xi 1 X
L(θ, (x1 , · · · , xn )) = e−θ = e−nθ Qn exp(ln(θ) xi ).
i=1
xi ! i=1 xi ! i=1
Pn
On T = i=1 Xi est la statistique privilège. Comme α(θ) = ln(θ) et Θ =]0, +∞[ alors
α(Θ) = R contient un ouvert non vide et on peut appliquer la proposition précédente pour
déduire que T est une statistique exhaustive et complète. On peut donc appliquer le théorème
de Lehmann-Sheffe comme exemple pour estimer q(θ) = e−θ et on voudrait un estimateur
sans biais et de variance minimale. On commence par l’estimateur S = 1{X1 =0} , S est sans
biais car
Eθ (S) = Pθ (X1 = 0) = e−θ = q(θ), ∀θ ∈ Θ.
Le théorème de Lehmann-Sheffe dit que si on prend M = Eθ (S|T ) alors M est une estimateur
E (S1 =t} )
sans biais et de variance minimale. Il reste à calculer Eθ (S|T ) = f (T ) avec f (t) = θPθ (T{T=t) .
t
On sait T ∼ P(nθ) donc Pθ (T = t) = e−nθ (nθ)
t!
. Maintenant pour le numérateur, on trouve

Eθ (S1{T =t} ) = Eθ (1{X1 =0} 1{T =t} ) = Pθ (X1 = 0, T = t)


ind
= Pθ (X1 = 0, X2 + · · · + Xn = t) = Pθ (X1 = 0)Pθ (X2 + · · · + Xn = t)
t
−θ −(n−1)θ ((n − 1)θ)
= e e .
t!
On obtient f (t) = ( n−1
n
)t et l’estimateur optimal est donné par M = ( n−1
n
)T . On remarque
que f ne dépend pas de θ.

Vous aimerez peut-être aussi