Académique Documents
Professionnel Documents
Culture Documents
Ouazza Ahmed
2022-2023
1 / 78
Plan
2 Ch II : Estimation ponctuelle
2 / 78
Chapitre I:
3 / 78
Introduction
4 / 78
Introduction
Statistique descriptive
Lorsqu’on dispose une base de données, il convient de synthétiser et de
résumer l’information contenue dans ces données. On utilise pour cela des
représentations des données sous forme de tableaux, de graphiques ou
d’indicateurs numériques comme la moyenne, la variance, la corrélation,...
Cette phase est connue sous le nom de statistique descriptive.
5 / 78
Introduction
Statistique descriptive
⇒ Lorsqu’on étude une seule variable, on parle de statistique descriptive
univariée,
⇒ Lorsqu’on étude deux variables simultanément, on parle de statistique
descriptive bivariée,
⇒ Lorsqu’on considère p variables, on parle de statistique descriptive
multidimensionnelle (analyse des données).
6 / 78
Introduction
Statistique inférentielle
Son but est d’étendre (d’inférer) les propriétés constatées sur l’échantillon à la
population toute entière, et de valider ou d’infirmer des hypothèses.
7 / 78
Introduction
Principe de base de l’inférence
L’opération de "remontée" de l’échantillon à la population est appelée
inférence statistique.
9 / 78
Modèle Statistique - Échantillon
Modèle Statistique
Soit X1 , · · · , Xn n variables aléatoires
Les données dont on dispose sont des réalisations de ces variables aléatoires;
elles sont notées x1 , · · · , xn
Si on considère l’expérience aléatoire qui consiste à recueillir une observation
x de la variable aléatoire X, alors:
X est supposée être à valeurs dans un espace X
Généralement, on ne connait pas la loi de probabilité P de X
Hypothèse fondamentale:
On suppose que la loi de probabilité P appartient à une famille P de lois de
probabilités possibles.
10 / 78
Modèle Statistique - Échantillon
Modèle Statistique
Définition 0.1
On appelle modèle statistique tout triplet (X, A, P) où
• X est l’espace des observations, c-à-d l’ensemble de tous les résultats
possibles de l’expérience
• A est une tribu sur X
• P est une famille de probabilités sur (X, A)
11 / 78
Modèle Statistique - Échantillon
Exemple 1
Soit X ∼ B(p) donc le modèle associé à une observation de X est (X, A, P)
Avec X = {0, 1} , A = P ({0, 1}) , P = {B(p), p ∈]0, 1[}
Exemple 2
Soit X ∼ N (µ, σ 2 ) donc le modèle associé à une observation de X est
(X, A, P)
Avec X = R , A = B(R) , P = {N (µ, σ2), µ ∈ R, σ ∈ R?+}
12 / 78
Modèle Statistique - Échantillon
13 / 78
Modèle Statistique - Échantillon
Échantillon
14 / 78
Modèle Statistique - Échantillon
Échantillon
Définition 0.2
Un échantillon de taille n (ou n-échantillon) est une suite X1 , · · · , Xn de n
P
variables aléatoires indépendantes, de même loi (iid).
15 / 78
Modèle Statistique - Échantillon
16 / 78
Modèle Statistique - Échantillon
Modèle paramétrique
Définition 0.3
• Si la loi de X appartient à une famille de lois indexables par un nombre fini
de paramètres, le modèle est dit paramétrique. On note alors
P R
P = { θ , θ ∈ Θ} où Θ ⊂ p est l’espace des paramètres.
• Si la famille d’appartenance de la loi de X n’est pas indexable par un
nombre fini de paramètres, on parle alors de modèle non paramétrique
Avec:
• Pθ est la loi de probabilité correspondant à la valeur θ du paramètre.
• Θ est l’espace paramétrique (dans lequel θ peut prendre sa valeur).
• p est la dimension du paramètre (pour p = 1, on parle de paramètre
unidimensionnel, pour p > 1, on parle de paramètre multidimensionnel ou
vectoriel).
17 / 78
Modèle Statistique - Échantillon
Exemple
P
• Si est une loi normale N (µ, σ 2 ), alors on est dans un cadre paramétrique
R R
bidimensionel, avec Θ = {(µ, σ 2 ), µ ∈ , σ ∈ ?+ }
P
• Si on considère un modèle où peut être n’importe quelle loi de probabilité
continue, alors on est dans un cadre non paramétrique.
18 / 78
Modèle Statistique - Échantillon
Modèle identifiable:
Définition 0.4
Le modèle statistique paramétrique (X, B, Pθ , θ ∈ Θ) est dit identifiable si
l’application θ P
θ est injective.
19 / 78
Modèle Statistique - Échantillon
Exemple 1:
Soit ε1 , · · · , εn n variables aléatoires iid avec εi ∼ N (0, σε2 )
On pose Xk = aebk + εk ; k = 1, · · · , n
Le modèle associé est { Rn, B(Rn), P⊗n
θ , θ = (a, b, σε ) ∈ R × R × R+ }
2 ?
D’où
{ Pθ , θ ∈ Θ} n’est pas identifiable pour n = 1.
Exemple 2:
20 / 78
Modèle Statistique - Échantillon
Modèle dominé:
Définition 0.5
P
Le modèle statistique (X, B, θ , θ ∈ Θ) est dominé s’il existe une mesure
P P
σ-finie µ telle que θ est absolument continue par rapport à µ. ( θ µ)
Remarque:
P
• Si (X, B, θ , θ ∈ Θ) est dominé, alors il existe f (., θ) densité de Pθ par
rapport à µ tel que
P P
Z Z
θ = d θ= f (x, θ)dµ(x); ∀θ ∈ Θ
B B
(D’après Radon-Nikodyn)
Pθ , θ ∈ Θ} est dominée.
On dit aussi la famille {
• La mesure dominante µ n’est pas unique.
21 / 78
Vraisemblance - Définition d’une statistique
22 / 78
Vraisemblance - Définition d’une statistique
Vraisemblance:
P
Soit (X, B, θ , θ ∈ Θ) un modèle statistique dominé par la mesure µ σ-finie,
P
d θ = f (., θ)dµ
Définition 0.6
On appelle vraisemblance au point x ∈ X l’application θ f (x, θ)
Remarque:
P
• Si le modèle est d’échantillonnage:(Xn , B⊗n , ⊗n
θ , θ ∈ Θ),
Qnla
vraisemblance au point x est l’application, θ L(x, θ) = i=1 f (xi , θ) ;
x = (x1 , · · · , xn ) ∈ Xn
Interprétation:
• Le terme de vraisemblance s’interprète en remarquant que plus L(x, θ) est
grand, plus la probabilité d’observer x est grande.
• Si X est dénombrable et Pθ µ, alors L(x, θ) = Pθ ({x}) , x ∈ X
23 / 78
Vraisemblance - Définition d’une statistique
Définition 0.7
P
Soit (X, B, θ , θ ∈ Θ) un modèle statistique, une statistique S est une
application mesurable de (X, B) vers (Y , F).
Remarque:
P
• Si (Xn , B⊗n , ⊗n θ , θ ∈ Θ) est un modèle d’échantillonnage, une statistique
S sur (Xn , B⊗n ) est une fonction mesurable de n variables aléatoires
X1 , · · · , Xn associées au modèle.
• S une statistique ⇔ ∃g mesurable telle que S = g(X1 , · · · , Xn )
• Une statistique ne doit pas dépendre de θ.
• La statistique S est une variable aléatoire.
24 / 78
Vraisemblance - Définition d’une statistique
Exemple:
25 / 78
Exhaustivité - Complétude - Modèles
exponentiels
26 / 78
Exhaustivité - Complétude - Modèles exponentiels
Exhaustivité:
Définition 0.8
P
Soit X1 , · · · , Xn un échantillon de taille n, Xi ∼ θ , i = 1, · · · , n ,θ ∈ Θ
P
et S une statistique définie sur (Xn , B⊗n , ⊗n θ , θ ∈ Θ)
27 / 78
Exhaustivité - Complétude - Modèles exponentiels
Exemple:
Soit X1 , · · · , Xn n variables aléatoires iid avec Xi ∼ B(θ), θ ∈]0, 1[, on
associé alors le modèle ({0, 1}n , P ({0, 1}n ), B ⊗n (θ), θ ∈]0, 1[)
n
X
On pose S = Xi , alors S est une statistique car S = g(X1 , · · · , Xn ) et g
i=1
est mesurable avec g(x1 , · · · , xn ) = ni=1 xi où x1 , · · · , xn ∈ {0, 1}
P
28 / 78
Exhaustivité - Complétude - Modèles exponentiels
La statistique S est exhaustive, en effet:
P (X1 = x1 , · · · , Xn = xn , S = s)
P (X1 = x1 , · · · , Xn = xn /S = s) =
P (S = s)
n
X
avec s = xi
i=1
Puisque
P (X1 = x1 , · · · , Xn = xn , S = s) = P (X1 = x1 , · · · , Xn = xn )
P (X1 = x1 , · · · , Xn = xn )
donc P (X1 = x1 , · · · , Xn = xn /S = s) =
P (S = s)
Pn
Or S = i=1 Xi ∼ B(n, θ)
29 / 78
Exhaustivité - Complétude - Modèles exponentiels
donc
n
Y
P (Xi = xi )
P (X1 = x1 , · · · , Xn = xn )
= i=1
P (S = s) Cns θs (1 − θ)n−s
P P
xi
θ (1 − θ)n− xi
=
Cns θs (1 − θ)n−s
θs (1 − θ)n−s
= s s
Cn θ (1 − θ)n−s
1
= s
Cn
Théorème 0.1
Soit X1 , · · · , Xn n variables aléatoires iid, Xi ∼ Pθ , θ ∈ Θ.
On suppose que le modèle (X, B, Pθ , θ ∈ Θ) associé est dominé par µ
P
σ-finie ( θ µ)
La statistique S = S(X1 , · · · , Xn ) est exhaustive si et seulement s’il existe
deux fonctions mesurables gθ et h telles que:
L(x, θ) = gθ (S(x))h(x) , x = (x1 , · · · , xn ), ∀θ ∈ Θ
Exemple 1:
Soit X1 , · · · , Xn n variables aléatoires iid de loi exponentielle, Xi ∼ E (λ),
R
donc θ = λ ∈ ?+ .
Le modèle associe est ( Rn, B(Rn), E (λ)⊗n, λ ∈ R?+)
31 / 78
Exhaustivité - Complétude - Modèles exponentiels
Pn
On pose S(X) = i=1 Xi ,
S est une statistique exhaustive, en effet:
L(x1 , · · · , xn , θ) = ni=1 f (xi , θ)
Q
λe−λxi si xi ≥ 0
avec f (xi , λ) =
0 si xi < 0
Donc
n
Y n
Y
L(x1 , · · · , xn , θ) = f (xi , θ) = λe−λxi
i=1 i=1
n −λ n
P
=λ e i=1 xi
= λn e−λS(x)
= gλ (S(x))h(x)
Avec gλ (S(x)) = λn e−λS(x) et h(x) = 1
D’où S est une statistique exhaustive.
32 / 78
Exhaustivité - Complétude - Modèles exponentiels
33 / 78
Exhaustivité - Complétude - Modèles exponentiels
Liberté:
Définition 0.9
Une statistique S est libre si la loi de S est indépendante de θ c-à-d
P P
S = S ∀θ 6= θ 0
θ θ0
Remarque:
Si S = c avec (c ∈ R) alors S est libre.
Exemple:
Soit X1 , · · · , Xn n variables aléatoires iid avec Xi ∼ N (0, σ 2 ), σ 2 > 0
n n
1X 1X
On pose X = 2
Xi et Sx = (Xi − X)2
n n
i=1 i=1
Remarque:
Une statistique S définie sur un modèle (X, B, Pθ , θ ∈ Θ) complet est
complète.
Exemple:(Voir TD)
35 / 78
Exhaustivité - Complétude - Modèles exponentiels
Modèle exponentiel:
Définition 0.12
P
Un modèle (X, B, θ , θ ∈ Θ), Θ ⊂ Rk , k ≥ 1 est exponentiel si et seulement
P
si ∃ µ mesure σ-finie telle que θ µ et
k
X
f (x, θ) = C(θ)h(x) exp Qj (θ)Tj (x) , ∀x ∈ X, ∀θ ∈ Θ
j=1
36 / 78
Exhaustivité - Complétude - Modèles exponentiels
Remarques:
• T = (T1 , · · · , Tk ) est une statistique exhaustive, T est dite statistique
privilégie. (Grâce au théorème de factorisation f (x, θ) = gθ (T (x))h(x)
• Si (X, B, P⊗n
θ , θ ∈ Θ) est exponentiel, alors le modèle d’échantillonnage
(Xn , B⊗n , Pθ , θ ∈ Θ) est exponentiel.
37 / 78
Exhaustivité - Complétude - Modèles exponentiels
Exemple:
On considère la loi de poisson P(θ) de paramètre θ, alors la famille
{P(θ), θ > 0} est exponentielle, en effet:
f (x, θ) = Pθ (X = x) = exp(−θ) θx! , x ∈ N
x
1
donc f (x, θ) = exp(−θ) exp(x log θ) x!
1
On pose C(θ) = exp(−θ), h(x) = x! , Q(θ) = log θ, T (x) = x
alors f (x, θ) = C(θ)h(x) exp(Q(θ)T (x))
D’où la famille {P(θ), θ > 0} est exponentielle.
Exercice:
Vérifier que les lois: Binomiale, de Poisson, normale font partie de la famille
exponentielle.
38 / 78
Chapitre II:
Estimation ponctuelle
39 / 78
Estimateur
Problématique
Pθ , θ ∈ Θ), Θ ⊂ Rk ,
On dispose de n observations X1 , · · · , Xn de loi (
k≥1
Problème:
Fournir une évaluation sur la vraie valeur du paramètre θ (plus généralement
de g(θ), avec g : Θ → D) à partir des observations X1 , · · · , Xn .
Exemple:
Soit X1 , · · · , Xn n observations de loi Pθ
n
1X
On pose Eθ (Xi ) = g(θ) alors X = Xi est un estimateur de g(θ).
n
i=1
40 / 78
Estimateur
Remarque:
• Tn est un estimateur si et seulement si Tn à valeurs dans g(Θ) et
Tn = h(X1 , · · · , Xn ), avec h est une fonction mesurable.
• Une estimation de g(θ) est h(x1 , · · · , xn ) où x1 , · · · , xn sont des
réalisations de X1 , · · · , Xn
41 / 78
Estimateur
Notion de biais
Définition 0.14
• On appelle biais de l’estimateur Tn pour le paramètre g(θ) la quantité
• Soit Eθ (||Tn ||) < +∞, on appelle estimateur sans biais (e.s.b) de g(θ) un
estimateur Tn tel que Bθ (Tn ) = 0, ∀θ ∈ Θ, sinon on parle d’estimateur
biaisé.
• Si l’estimateur Tn est biaisé, mais que Bθ (Tn ) → 0 quand n → +∞, on dit
que Tn est asymptotiquement sans biais pour g(θ).
42 / 78
Estimateur
Estimateurs consistants (convergents)
Définition 0.15
Soit Tn un estimateur de g(θ),
On dit que Tn est consistant (ou convergent) pour g(θ) s’il converge en
probabilité vers g(θ). (Tn −→ g(θ))
P
donc
1) X est un estimateur sans biais et convergent de µ.
2) S 2 est un estimateur biaisé mais asymptotiquement sans biais de σ 2 .
3) Sc2 est un estimateur sans biais de σ 2 .
4) S 2 et Sc2 sont des estimateurs convergents de σ 2 .
Exercice: Vérifier ces quatre propriétés.
45 / 78
Méthodes d’estimation
46 / 78
Méthodes d’estimation
Soit Θ un ouvert de Rk (k ≥ 1)
X1 , · · · , Xn n variables aléatoires iid de loi Pθ , θ ∈ Θ
On considère:
µm (θ) = E(X1m ) , θ ∈ Θ , m ≥ 1
avec µm (θ) est le moments d’ordre m (théorique).
n
1X m
et Um = Xi est le moment empirique d’ordre m.
n
i=1
47 / 78
Méthodes d’estimation
Remarque:
θn? = θn? (X1 , · · · , Xn )
48 / 78
Méthodes d’estimation
Exemple:
Soit X1 , · · · , Xn n v.a iid avec Xi ∼ N (µ, σ 2 ), µ ∈ R,σ>0
On a θ = (µ, σ 2 ) ∈ R×R
?
+
On cherche à estimer θ par la méthode des moments.
D’une part, on a:
µ1 (θ) = Eθ (X1 ) = µ
µ2 (θ) = Eθ (X12 ) = Vθ (X1 ) + [Eθ (X1 )]2 = σ 2 + µ2
d’autre part:
U1 = n1 Pni=1 Xi
P
U2 = n1 ni=1 Xi2
Pour trouver θ? on résout le système suivant:
µ = n1 ni=1 X
P
µ1 (θ) = U1 Pi
⇒
µ2 (θ) = U2 σ 2 + µ2 = n1 ni=1 Xi2
49 / 78
Méthodes d’estimation
Donc
?
θ? = (µ? , σ 2 )
avec
? 1 Pn 2
µ? = X et σ 2 = n
2
i=1 Xi − X = S2
D’où θ? = (X, S 2 ) est l’estimateur de θ par la méthode des moments.
Exercice:
Soit X1 , · · · , Xn iid de loi uniforme sur [a, b], a < b et θ = (a, b) ∈ R2 .
Donner l’estimateur de θ par la méthode des moments.
50 / 78
Méthodes d’estimation
P
Soit (X, B, θ , θ ∈ Θ) un modèle statistique dominé par une mesure µ
R
σ-finie, Θ ⊂ k , k ≥ 1.
f (., θ) =
P
d θ
dµ
Soit x ∈ X, la vraisemblance en x est l’application θ L(x, θ) = f (x, θ).
Si le modèle est d’échantillonnage (Xn , B⊗n ,
n
P⊗n
θ , θ ∈ Θ) alors
Y
L(x1 , · · · , xn , θ) = f (xi , θ)
i=1
51 / 78
Méthodes d’estimation
Exemple introductif
L’estimateur du maximum de vraisemblance joue un rôle important en
statistique inférentielle. Avant de procéder à une construction générale,
considérons tout d’abord un exemple élémentaire.
On lance une pièce de monnaie 10 fois, on suppose que la probabilité d’avoir
pile est p (inconnue) avec 0 < p < 1.
Le résultat de l’expérience est le suivant: (0, 1, 1, 0, 1, 1, 1, 0, 0, 1) avec
1 = pile et 0 = f ace.
Soit X1 , · · · , X10 iid de loi B(1, p) alors
1 si le i-ème tirage est pile
Xi =
0 sinon
avec P (Xi = 1) = p
52 / 78
Méthodes d’estimation
La probabilité d’observer nos données s’écrit:
= p6 (1 − p)10−6
53 / 78
Méthodes d’estimation
Conclusion
L’idée de chercher la valeur de θ qui rend maximale la vraisemblance est
naturelle : en effet, cette valeur particulière de θ permet de maximiser la
probabilité d’obtenir les observations réalisées.
54 / 78
Méthodes d’estimation
Définition 0.17
On appelle estimateur du maximum de vraisemblance (EMV) de θ le point
θ(x)
b qui satisfait:
L(x, θ(x))
b = max L(x, θ)
θ∈Θ
c-à-d
θ(x)
b = arg max L(x, θ)
θ∈Θ
55 / 78
Méthodes d’estimation
Remarque
• Si le modèle est d’échantillonnage (Xn , B⊗n , ⊗n P
θ , θ ∈ Θ) et X1 , · · · , Xn
P
n v.a.r iid associées au modèle, avec Xi ∼ θ alors l’EMV de θ est
b 1 , · · · , Xn ) qui vérifie
θb = θ(X
L(X1 , · · · , Xn , θ(X
b 1 , · · · , Xn )) = max L(X1 , · · · , Xn , θ)
θ∈Θ
• L’EMV n’existe pas toujours et s’il existe il n’est pas forcément unique.
• Si S = S(X1 , · · · , Xn ) est une statistique exhaustive, alors l’EMV de θ ne
dépend que de S(X1 , · · · , Xn ).
• Si g est mesurable , l’EMV de g(θ) est g(θbn ), avec θbn est EMV de θ.
56 / 78
Méthodes d’estimation
Exemple
Soit X1 , · · · , Xn n v.a iid de loi de Poisson P(θ), avec θ > 0,
N
X1 , · · · , Xn ∈ .
On a
n
Pθ (X = xi)
Y
L(x1 , · · · , xn , θ) =
i=1
n
Y θ xi
= e−θ
xi !
i=1
1 P
= e−nθ θ xi
x1 !...xn !
= g(S(x1 , · · · , xn ))h(x1 , · · · , xn )
n
X
On remarque que S(X1 , · · · , Xn ) = Xi est une statistique exhaustive.
i=1
57 / 78
Méthodes d’estimation
1 P
max L(x1 , · · · , xn , θ) = max e−nθ θ xi
θ>0 x1 !...xn ! θ>0
?
On pose L (x1 , · · · , xn , θ) = log L(x1 , · · · , xn , θ)
Donc maximiser L(x1 , · · · , xn , θ) revient à maximiser L? (x1 , · · · , xn , θ)
n
Y n
X
L? (x1 , · · · , xn , θ) = (− log xi !) − nθ + xi log θ
i=1 i=1
dL? 1 Pn
dθ (x1 , · · · , xn , θ) = −n + θ i=1 xi =0
n
1X
⇒θ= xi
n
i=1
2 ? Pn
Puisque ddθL2 (x1 , · · · b 1 , · · · , xn ) =
, xn , θ) < 0 donc θ(x 1
n i=1 xi
maximise L? (x1 , · · ·, xn , θ)
b 1 , · · · , Xn ) = 1 Pn Xi est l’EMV de θ
D’où θ(X n i=1
58 / 78
Méthodes d’estimation
Exercice
59 / 78
Méthodes d’estimation
Méthode Delta
an (Tn − θ) −→ N (0, σ 2 )
L
avec an → +∞.
Alors, g(Tn ) converge en probabilité vers g(θ) et
60 / 78
Méthodes d’estimation
61 / 78
Comparaison des estimateurs - Optimalité
62 / 78
Comparaison des estimateurs - Optimalité
Définition 0.18
L’erreur quadratique moyenne d’un estimateur T de g(θ), tel que
Eθ (||T ||2 ) < +∞ est:
63 / 78
Comparaison des estimateurs - Optimalité
Remarque:
• EQM (T ) mesure la précision d’un estimateur et on cherchera à la
minimiser.
• Si θ ∈ Θ ⊂ R, alors
EQM (T ) = Eθ (|T − g(θ)|2 )
= Eθ (|T − Eθ (T ) + Eθ (T ) − g(θ)|2 )
= Eθ (|T − Eθ (T )|2 ) + (Eθ (T ) − g(θ))2
= Vθ (T ) + (Bθ (T ))2
64 / 78
Comparaison des estimateurs - Optimalité
Relation de préférence
Définition 0.19
Soient T1 et T2 deux estimateurs de g(θ) de carré intégrables.
• On dit que T1 est préférable à T2 , et on écrit T1 < T2 , si et seulement si
EQM (T1 ) ≤ EQM (T2 ) , ∀θ ∈ Θ
• T1 est strictement préférable à T2 si et seulement si
∃θ ∈ Θ , EQM (T1 ) < EQM (T2 )
Remarque
• ” < ” est une relation d’ordre partiel (car on peut trouver deux estimateurs
incomparables)
• Si T1 et T2 sont deux e.s.b de g(θ) alors T1 < T2 si et seulement si
Vθ (T1 ) ≤ Vθ (T2 )
65 / 78
Comparaison des estimateurs - Optimalité
66 / 78
Comparaison des estimateurs - Optimalité
Estimateur UMVU
Définition 0.20
Un estimateur T de carré intégrable de g(θ) est uniformément à variance
minimale (UMVU) si et seulement si T est un e.s.b de g(θ) et ∀S e.s.b de g(θ)
de carré intégrable on a T < S
c-à-d Vθ (T ) ≤ Vθ (S) , ∀θ ∈ Θ
Remarque
• UMVU = Optimal
Théorème 0.3 (Lehmann-Scheffé)
Si S est une statistique exhaustive complète et T est e.s.b de carré intégrable
de g(θ), alors l’estimateur Tb = E(T /S) est UMVU.
67 / 78
Information de Fisher - Inégalité de Cramer-Rao
68 / 78
P
Soit (X, B, θ , θ ∈ Θ) un modèle statistique, g : Θ → D. On suppose que le
modèle est dominé par µ σ-finie.
Avant de définir l’information de Fisher et de donner l’inégalité de
Cramer-Rao, on suppose les hypothèses suivantes (dans le cas où Θ ⊂ Rp)
H1) Θ est un ouvert de Rp et ∀θ ∈ Θ, ∀x ∈ X, f (x, θ) > 0
∂f ∂f t
H2) gradθ (f ) = ( ∂θ 1
, · · · , ∂θ p
) existe
R
H3) ∀θR ∈ Θ, on peut dériver deux fois f (x, θ)dx par rapport à θ sous le
signe .
Dans le cas réel où Θ ⊂ R, ces hypothèses deviennent:
H1) Θ est un ouvert de R et ∀θ ∈ Θ, ∀x ∈ X, f (x, θ) > 0
∂f
H2) gradθ (f ) = ∂θ existe
R
H3) ∀θR ∈ Θ, on peut dériver deux fois f (x, θ)dx par rapport à θ sous le
signe .
Dans la suite on suppose que toutes ces hypothèses sont vérifiées.
69 / 78
Information de Fisher - Inégalité de Cramer-Rao
" 2 # Z 2
∂ ln f (X, θ) ∂ ln f (x, θ)
I(θ) = Eθ = f (x, θ)dµ(x)
∂θ ∂θ
70 / 78
Information de Fisher - Inégalité de Cramer-Rao
• On appelle fonction score la fonction S : X × Θ → R telle que:
∂ ln f (x, θ)
S(x, θ) =
∂θ
Donc on a: I(θ) = Eθ [S(X, θ)2 ]
• Si le domainede définition dela loi de l’échantillon ne dépend pas de θ, on
∂ 2 ln f (X, θ)
a: I(θ) = −Eθ
∂θ2
• I(θ) ≥ 0 , ∀θ
• Si X1 , · · · , Xn iid de loi Pθ , alors In(θ) = I(X ,··· ,X )(θ) = nI(θ)
1 n
(avec
IXi (θ) = I(θ))
Remarque:
Cette propriété est vraie si le support de Pθ ne dépend pas de θ.
• In (θ) = IT (θ) si et seulement si T est exhaustive.
• IT (θ) = 0 si et seulement si T est libre.
71 / 78
Cas multidimensionnel: Θ ⊂ Rp
• Fonction de score:
La fonction score est définie par : S : X × Θ → R p telle que:
∂ ln f (x,θ)
∂θ1
..
S(x, θ) = gradθ ln(f (x, θ)) =
.
∂ ln f (x,θ)
∂θp
Dans ce cas on peut montrer, sous certaines hypothèses, que l’élément (i, j)
de la matrice I(θ) est donnée par:
2
∂ ln(f (X, θ))
Iij (θ) = −Eθ
∂θi ∂θj
72 / 78
Information de Fisher - Inégalité de Cramer-Rao
Inégalité de Cramer-Rao
Soit Tn un e.s.b de g(θ), on suppose que 0 < I(θ) < +∞ et g dérivable. Le
résultat fondamental suivant donne une borne sur la variance de Tn :
73 / 78
Information de Fisher - Inégalité de Cramer-Rao
Théorème 0.4 (Inégalité de C.R)
• Cas réel: Θ ⊂ R, g(Θ) ⊂ R
Soit Tn un e.s.b de g(θ) de carré intégrable, alors
(g 0 (θ))2
Vθ (Tn ) ≥
In (θ)
Définition 0.22
Un estimateur Tn est dit efficace si
75 / 78
Information de Fisher - Inégalité de Cramer-Rao
Remarques:
• Dans le cas réel, Tn est efficace si
(g 0 (θ))2
Vθ (Tn ) = = BF (θ)
In (θ)
• Dans le cas où X ne dépend pas de θ, les seuls modèles qui admettent des
estimateurs efficaces sont les modèles exponentiels.
• Si Tn n’est pas efficace mais VBθF(T(θ)
n)
→ 1 quand n → +∞, on dit que
l’estimateur Tn est asymptotiquement efficace.
76 / 78
Information de Fisher - Inégalité de Cramer-Rao
Exemple:
Soit X1 , · · · , Xn n v.a iid, Xi ∼ N (µ, σ 2 ) avec σ connue. On pose θ = µ.
1. Calculer In (θ).
2. Donner l’EMV T de µ et déterminer sa distribution.
3. Calculer l’information de Fisher pour T : IT (θ)
4. Déduire que la statistique T est exhaustive.
77 / 78
Chapitre III:
78 / 78