Vous êtes sur la page 1sur 78

Inférence Statistique

Ouazza Ahmed

Institut National de Statistique et d’Economie Appliquée (INSEA)

2022-2023

1 / 78
Plan

1 Ch I : Introduction à l’inférence statistique

2 Ch II : Estimation ponctuelle

3 Ch III: Estimation par intervalle de confiance

4 Ch IV: Tests Statistiques

2 / 78
Chapitre I:

Introduction à l’inférence statistique

3 / 78
Introduction

4 / 78
Introduction

Statistique descriptive VS Statistique inférentielle

Statistique descriptive
Lorsqu’on dispose une base de données, il convient de synthétiser et de
résumer l’information contenue dans ces données. On utilise pour cela des
représentations des données sous forme de tableaux, de graphiques ou
d’indicateurs numériques comme la moyenne, la variance, la corrélation,...
Cette phase est connue sous le nom de statistique descriptive.

5 / 78
Introduction

Statistique descriptive
⇒ Lorsqu’on étude une seule variable, on parle de statistique descriptive
univariée,
⇒ Lorsqu’on étude deux variables simultanément, on parle de statistique
descriptive bivariée,
⇒ Lorsqu’on considère p variables, on parle de statistique descriptive
multidimensionnelle (analyse des données).

6 / 78
Introduction

Statistique inférentielle
Son but est d’étendre (d’inférer) les propriétés constatées sur l’échantillon à la
population toute entière, et de valider ou d’infirmer des hypothèses.

Contrairement à la statistique descriptive, des hypothèses probabilistes sont


ici nécessaires : elle suppose un modèle probabiliste.
L’estimation ponctuelle ou par intervalle de confiance et la théorie des tests
d’hypothèses (paramétriques et non paramétriques) constituent une partie
principale de la statistique inférentielle.

7 / 78
Introduction
Principe de base de l’inférence
L’opération de "remontée" de l’échantillon à la population est appelée
inférence statistique.

L’inférence statistique suppose de prendre en compte l’aspect aléatoire des


données.
L’idée de base est ainsi de considérer les observations comme issues d’un
phénomène aléatoire.
L’inférence statistique s’appuie donc sur des outils probabilistes.
8 / 78
Modèle Statistique - Échantillon

9 / 78
Modèle Statistique - Échantillon

Modèle Statistique
Soit X1 , · · · , Xn n variables aléatoires
Les données dont on dispose sont des réalisations de ces variables aléatoires;
elles sont notées x1 , · · · , xn
Si on considère l’expérience aléatoire qui consiste à recueillir une observation
x de la variable aléatoire X, alors:
X est supposée être à valeurs dans un espace X
Généralement, on ne connait pas la loi de probabilité P de X
Hypothèse fondamentale:
On suppose que la loi de probabilité P appartient à une famille P de lois de
probabilités possibles.

10 / 78
Modèle Statistique - Échantillon

Modèle Statistique

Définition 0.1
On appelle modèle statistique tout triplet (X, A, P) où
• X est l’espace des observations, c-à-d l’ensemble de tous les résultats
possibles de l’expérience
• A est une tribu sur X
• P est une famille de probabilités sur (X, A)

La définition d’un modèle statistique repose donc sur une hypothèse


concernant la famille d’appartenance de la loi de X

11 / 78
Modèle Statistique - Échantillon

Exemple 1
Soit X ∼ B(p) donc le modèle associé à une observation de X est (X, A, P)
Avec X = {0, 1} , A = P ({0, 1}) , P = {B(p), p ∈]0, 1[}

Exemple 2
Soit X ∼ N (µ, σ 2 ) donc le modèle associé à une observation de X est
(X, A, P)
Avec X = R , A = B(R) , P = {N (µ, σ2), µ ∈ R, σ ∈ R?+}

12 / 78
Modèle Statistique - Échantillon

• Le modèle est dit discret lorsque X est fini ou dénombrable.


Alors A est la tribu formée par l’ensemble des parties de X: A = P (X)
• Le modèle est dit continu lorsque X ⊂ Rp et que ∀P ∈ P, P admet une
R
densité dans p
Dans ce cas, A est la tribu des boréliens de X : A = B(X)

Dans l’exemple 1, le modèle est discret


Dans l’exemple 2, le modèle est continu

13 / 78
Modèle Statistique - Échantillon

Échantillon

14 / 78
Modèle Statistique - Échantillon

Échantillon

Définition 0.2
Un échantillon de taille n (ou n-échantillon) est une suite X1 , · · · , Xn de n
P
variables aléatoires indépendantes, de même loi (iid).

Le n-échantillon définit un vecteur aléatoire (X1 , · · · , Xn ) de loi P⊗n


Si M = (X, A, P) est le modèle statistique pour une observation, donc le
modèle associé à un n-échantillon est le modèle produit :
P
Mn = (Xn , An , { ⊗n })
avec An une tribu sur Xn

15 / 78
Modèle Statistique - Échantillon

Les modèles associés à un n-échantillon dans les exemples précédents sont:


Pour l’exemple 1:
Xn = {0, 1}n , An = P ({0, 1}n ) et P ⊗n = {B(p)⊗n , p ∈]0, 1[}
Pour l’exemple 2:
Xn = Rn , An = B(Rn) et P ⊗n = {N (µ, σ2)⊗n, µ ∈ R, σ ∈ R?+}

16 / 78
Modèle Statistique - Échantillon
Modèle paramétrique

Définition 0.3
• Si la loi de X appartient à une famille de lois indexables par un nombre fini
de paramètres, le modèle est dit paramétrique. On note alors
P R
P = { θ , θ ∈ Θ} où Θ ⊂ p est l’espace des paramètres.
• Si la famille d’appartenance de la loi de X n’est pas indexable par un
nombre fini de paramètres, on parle alors de modèle non paramétrique

Avec:
• Pθ est la loi de probabilité correspondant à la valeur θ du paramètre.
• Θ est l’espace paramétrique (dans lequel θ peut prendre sa valeur).
• p est la dimension du paramètre (pour p = 1, on parle de paramètre
unidimensionnel, pour p > 1, on parle de paramètre multidimensionnel ou
vectoriel).
17 / 78
Modèle Statistique - Échantillon

Un modèle paramétrique associé à un n-échantillon sera donc noté:

Mn = {Xn , B(Xn ), P⊗n


θ , θ ∈ Θ}

⇒ Ce modèle est appelé modèle d’échantillonnage.

Exemple

P
• Si est une loi normale N (µ, σ 2 ), alors on est dans un cadre paramétrique
R R
bidimensionel, avec Θ = {(µ, σ 2 ), µ ∈ , σ ∈ ?+ }
P
• Si on considère un modèle où peut être n’importe quelle loi de probabilité
continue, alors on est dans un cadre non paramétrique.

18 / 78
Modèle Statistique - Échantillon

Modèle identifiable:
Définition 0.4
Le modèle statistique paramétrique (X, B, Pθ , θ ∈ Θ) est dit identifiable si
l’application θ P
θ est injective.

(On dit aussi que la famille { Pθ , θ ∈ Θ} est identifiable)


Donc le modèle est identifiable:
si Pθ = Pθ 0
0 0
⇒ θ = θ ou si θ 6= θ ⇒ Pθ 6= Pθ 0

19 / 78
Modèle Statistique - Échantillon
Exemple 1:
Soit ε1 , · · · , εn n variables aléatoires iid avec εi ∼ N (0, σε2 )
On pose Xk = aebk + εk ; k = 1, · · · , n
Le modèle associé est { Rn, B(Rn), P⊗n
θ , θ = (a, b, σε ) ∈ R × R × R+ }
2 ?

On a Xk ∼ Pθ avec Pθ = N (aebk , σε2)


Pour n = 1 le modèle n’est pas identifiable, en effet:
0 0
Soit θ = (a, c, σε2 ) et θ = (aec , 0, σε2 ) donc θ 6= θ ,
mais Pθ = N (aec, σε2) et Pθ 0 = N (aec , σε2 ) donc Pθ = Pθ 0

D’où
{ Pθ , θ ∈ Θ} n’est pas identifiable pour n = 1.
Exemple 2:
20 / 78
Modèle Statistique - Échantillon
Modèle dominé:
Définition 0.5
P
Le modèle statistique (X, B, θ , θ ∈ Θ) est dominé s’il existe une mesure
P P
σ-finie µ telle que θ est absolument continue par rapport à µ. ( θ  µ)

Remarque:
P
• Si (X, B, θ , θ ∈ Θ) est dominé, alors il existe f (., θ) densité de Pθ par
rapport à µ tel que

P P
Z Z
θ = d θ= f (x, θ)dµ(x); ∀θ ∈ Θ
B B

(D’après Radon-Nikodyn)
Pθ , θ ∈ Θ} est dominée.
On dit aussi la famille {
• La mesure dominante µ n’est pas unique.
21 / 78
Vraisemblance - Définition d’une statistique

22 / 78
Vraisemblance - Définition d’une statistique
Vraisemblance:
P
Soit (X, B, θ , θ ∈ Θ) un modèle statistique dominé par la mesure µ σ-finie,
P
d θ = f (., θ)dµ
Définition 0.6
On appelle vraisemblance au point x ∈ X l’application θ f (x, θ)

Remarque:
P
• Si le modèle est d’échantillonnage:(Xn , B⊗n , ⊗n
θ , θ ∈ Θ),
Qnla
vraisemblance au point x est l’application, θ L(x, θ) = i=1 f (xi , θ) ;
x = (x1 , · · · , xn ) ∈ Xn
Interprétation:
• Le terme de vraisemblance s’interprète en remarquant que plus L(x, θ) est
grand, plus la probabilité d’observer x est grande.
• Si X est dénombrable et Pθ  µ, alors L(x, θ) = Pθ ({x}) , x ∈ X
23 / 78
Vraisemblance - Définition d’une statistique

Définition d’une statistique:

Définition 0.7
P
Soit (X, B, θ , θ ∈ Θ) un modèle statistique, une statistique S est une
application mesurable de (X, B) vers (Y , F).

Remarque:
P
• Si (Xn , B⊗n , ⊗n θ , θ ∈ Θ) est un modèle d’échantillonnage, une statistique
S sur (Xn , B⊗n ) est une fonction mesurable de n variables aléatoires
X1 , · · · , Xn associées au modèle.
• S une statistique ⇔ ∃g mesurable telle que S = g(X1 , · · · , Xn )
• Une statistique ne doit pas dépendre de θ.
• La statistique S est une variable aléatoire.

24 / 78
Vraisemblance - Définition d’une statistique

Exemple:

Soit X1 , · · · , Xn n variables aléatoires.


• On définit µk par: µk = n1 ni=1 Xik ; k = 1, 2, ...
P

µk sont des statistiques appelées moments empiriques d’ordre k


• (X(1) , · · · , X(n) ) est une statistique appelée statistique d’ordre

25 / 78
Exhaustivité - Complétude - Modèles
exponentiels

26 / 78
Exhaustivité - Complétude - Modèles exponentiels

Exhaustivité:

Définition 0.8
P
Soit X1 , · · · , Xn un échantillon de taille n, Xi ∼ θ , i = 1, · · · , n ,θ ∈ Θ
P
et S une statistique définie sur (Xn , B⊗n , ⊗n θ , θ ∈ Θ)

S est exhaustive si et seulement si la loi conditionnelle de X1 , · · · , Xn


sachant S ne dépend pas de θ,
ou d’une façon équivalente:
Eθ ((X1 , · · · , Xn )/S) est indépendante de θ.

27 / 78
Exhaustivité - Complétude - Modèles exponentiels

Exemple:
Soit X1 , · · · , Xn n variables aléatoires iid avec Xi ∼ B(θ), θ ∈]0, 1[, on
associé alors le modèle ({0, 1}n , P ({0, 1}n ), B ⊗n (θ), θ ∈]0, 1[)
n
X
On pose S = Xi , alors S est une statistique car S = g(X1 , · · · , Xn ) et g
i=1
est mesurable avec g(x1 , · · · , xn ) = ni=1 xi où x1 , · · · , xn ∈ {0, 1}
P

28 / 78
Exhaustivité - Complétude - Modèles exponentiels
La statistique S est exhaustive, en effet:

P (X1 = x1 , · · · , Xn = xn , S = s)
P (X1 = x1 , · · · , Xn = xn /S = s) =
P (S = s)
n
X
avec s = xi
i=1
Puisque
P (X1 = x1 , · · · , Xn = xn , S = s) = P (X1 = x1 , · · · , Xn = xn )
P (X1 = x1 , · · · , Xn = xn )
donc P (X1 = x1 , · · · , Xn = xn /S = s) =
P (S = s)
Pn
Or S = i=1 Xi ∼ B(n, θ)

29 / 78
Exhaustivité - Complétude - Modèles exponentiels

donc
n
Y
P (Xi = xi )
P (X1 = x1 , · · · , Xn = xn )
= i=1
P (S = s) Cns θs (1 − θ)n−s
P P
xi
θ (1 − θ)n− xi
=
Cns θs (1 − θ)n−s
θs (1 − θ)n−s
= s s
Cn θ (1 − θ)n−s
1
= s
Cn

qui est indépendante de θ


D’où la statistique S est exhaustive.
30 / 78
Exhaustivité - Complétude - Modèles exponentiels
Critère de factorisation:

Théorème 0.1
Soit X1 , · · · , Xn n variables aléatoires iid, Xi ∼ Pθ , θ ∈ Θ.
On suppose que le modèle (X, B, Pθ , θ ∈ Θ) associé est dominé par µ
P
σ-finie ( θ  µ)
La statistique S = S(X1 , · · · , Xn ) est exhaustive si et seulement s’il existe
deux fonctions mesurables gθ et h telles que:
L(x, θ) = gθ (S(x))h(x) , x = (x1 , · · · , xn ), ∀θ ∈ Θ

Exemple 1:
Soit X1 , · · · , Xn n variables aléatoires iid de loi exponentielle, Xi ∼ E (λ),
R
donc θ = λ ∈ ?+ .
Le modèle associe est ( Rn, B(Rn), E (λ)⊗n, λ ∈ R?+)
31 / 78
Exhaustivité - Complétude - Modèles exponentiels
Pn
On pose S(X) = i=1 Xi ,
S est une statistique exhaustive, en effet:
L(x1 , · · · , xn , θ) = ni=1 f (xi , θ)
Q

λe−λxi si xi ≥ 0

avec f (xi , λ) =
0 si xi < 0
Donc
n
Y n
Y
L(x1 , · · · , xn , θ) = f (xi , θ) = λe−λxi
i=1 i=1
n −λ n
P
=λ e i=1 xi

= λn e−λS(x)
= gλ (S(x))h(x)
Avec gλ (S(x)) = λn e−λS(x) et h(x) = 1
D’où S est une statistique exhaustive.
32 / 78
Exhaustivité - Complétude - Modèles exponentiels

Exemple 2: Loi uniforme sur ]0, θ[ avec θ > 0

33 / 78
Exhaustivité - Complétude - Modèles exponentiels
Liberté:

Définition 0.9
Une statistique S est libre si la loi de S est indépendante de θ c-à-d
P P
S = S ∀θ 6= θ 0
θ θ0

Remarque:
Si S = c avec (c ∈ R) alors S est libre.
Exemple:
Soit X1 , · · · , Xn n variables aléatoires iid avec Xi ∼ N (0, σ 2 ), σ 2 > 0
n n
1X 1X
On pose X = 2
Xi et Sx = (Xi − X)2
n n
i=1 i=1

Monter que la statistique T = rX est libre.


2
Sx
n−1
34 / 78
Exhaustivité - Complétude - Modèles exponentiels
Complétude:

Définition 0.10 (Modèle complet)


P
Un modèle (X, B, θ , θ ∈ Θ) est completRsi et seulement si
P
∀θ ∈ Θ, ∀g : X → T mesurable telle que X g(x)d θ (x) = 0 Alors g = 0
Pθ − ps

Définition 0.11 (Statistique complète)


P
Une statistique S définie sur (X, B, θ , θ ∈ Θ)
R est complète si et seulement si
P
∀θ ∈ Θ, ∀g mesurable telle que Eθ [g(S)] = g(x)d Sθ (x) = 0 Alors
g=0 P S − ps
θ

Remarque:
Une statistique S définie sur un modèle (X, B, Pθ , θ ∈ Θ) complet est
complète.
Exemple:(Voir TD)
35 / 78
Exhaustivité - Complétude - Modèles exponentiels

Modèle exponentiel:

Définition 0.12
P
Un modèle (X, B, θ , θ ∈ Θ), Θ ⊂ Rk , k ≥ 1 est exponentiel si et seulement
P
si ∃ µ mesure σ-finie telle que θ  µ et
 
k
X
f (x, θ) = C(θ)h(x) exp  Qj (θ)Tj (x) , ∀x ∈ X, ∀θ ∈ Θ
j=1

avec h ≥ 0 , Tj mesurable, C(θ) et Qj (θ) sont des applications de θ,


C(θ) ≥ 0.
(On dit aussi que la famille { Pθ , θ ∈ Θ} est exponentielle).

36 / 78
Exhaustivité - Complétude - Modèles exponentiels

Remarques:
• T = (T1 , · · · , Tk ) est une statistique exhaustive, T est dite statistique
privilégie. (Grâce au théorème de factorisation f (x, θ) = gθ (T (x))h(x)
• Si (X, B, P⊗n
θ , θ ∈ Θ) est exponentiel, alors le modèle d’échantillonnage
(Xn , B⊗n , Pθ , θ ∈ Θ) est exponentiel.

37 / 78
Exhaustivité - Complétude - Modèles exponentiels

Exemple:
On considère la loi de poisson P(θ) de paramètre θ, alors la famille
{P(θ), θ > 0} est exponentielle, en effet:
f (x, θ) = Pθ (X = x) = exp(−θ) θx! , x ∈ N
x

1
donc f (x, θ) = exp(−θ) exp(x log θ) x!
1
On pose C(θ) = exp(−θ), h(x) = x! , Q(θ) = log θ, T (x) = x
alors f (x, θ) = C(θ)h(x) exp(Q(θ)T (x))
D’où la famille {P(θ), θ > 0} est exponentielle.
Exercice:

Vérifier que les lois: Binomiale, de Poisson, normale font partie de la famille
exponentielle.
38 / 78
Chapitre II:

Estimation ponctuelle

39 / 78
Estimateur

Problématique
Pθ , θ ∈ Θ), Θ ⊂ Rk ,
On dispose de n observations X1 , · · · , Xn de loi (
k≥1
Problème:
Fournir une évaluation sur la vraie valeur du paramètre θ (plus généralement
de g(θ), avec g : Θ → D) à partir des observations X1 , · · · , Xn .
Exemple:
Soit X1 , · · · , Xn n observations de loi Pθ
n
1X
On pose Eθ (Xi ) = g(θ) alors X = Xi est un estimateur de g(θ).
n
i=1

40 / 78
Estimateur

Soit X1 , · · · , Xn n observations de loi ( Pθ , θ ∈ Θ), Θ ⊂ Rk et g : Θ → D


Définition 0.13
Un estimateur Tn de g(θ) est une statistique associée à X1 , · · · , Xn à valeurs
dans g(Θ).

Remarque:
• Tn est un estimateur si et seulement si Tn à valeurs dans g(Θ) et
Tn = h(X1 , · · · , Xn ), avec h est une fonction mesurable.
• Une estimation de g(θ) est h(x1 , · · · , xn ) où x1 , · · · , xn sont des
réalisations de X1 , · · · , Xn

41 / 78
Estimateur

Notion de biais

Définition 0.14
• On appelle biais de l’estimateur Tn pour le paramètre g(θ) la quantité

Bθ (Tn ) = Eθ (Tn ) − g(θ)

• Soit Eθ (||Tn ||) < +∞, on appelle estimateur sans biais (e.s.b) de g(θ) un
estimateur Tn tel que Bθ (Tn ) = 0, ∀θ ∈ Θ, sinon on parle d’estimateur
biaisé.
• Si l’estimateur Tn est biaisé, mais que Bθ (Tn ) → 0 quand n → +∞, on dit
que Tn est asymptotiquement sans biais pour g(θ).

42 / 78
Estimateur
Estimateurs consistants (convergents)

Définition 0.15
Soit Tn un estimateur de g(θ),
On dit que Tn est consistant (ou convergent) pour g(θ) s’il converge en
probabilité vers g(θ). (Tn −→ g(θ))
P

c-à-d si ∀θ ∈ Θ, ∀ε > 0, lim


n→∞
P(|Tn − g(θ)| > ε) = 0
Critères de convergence d’un estimateur
• Si Tn est un estimateur sans biais de g(θ) et si V (Tn ) → 0 quand n → +∞,
alors Tn est un estimateur convergent pour g(θ).
• Si Tn est un estimateur asymptotiquement sans biais de g(θ) et si
V (Tn ) → 0 quand n → +∞, alors Tn est un estimateur convergent pour g(θ).
43 / 78
Estimateur
Exemple
Soit {Rn, B(Rn), P⊗n θ , θ ∈ Θ ⊂ R } un modèle d’échantillonnage,
k

tel que la loi de probabilité Pθ admette pour espérance µ < +∞ et pour


variance 0 < σ 2 < +∞.
Soit X1 , · · · , Xn n v.a associées à ce modèle.
On pose:
n
1X
X= Xi (moyenne empirique)
n
i=1
n
1 X
S2 = (Xi − X)2 (variance empirique)
n
i=1
n
1 X
Sc2 = (Xi − X)2 (variance empirique corrigée)
n−1
i=1
44 / 78
Estimateur

donc
1) X est un estimateur sans biais et convergent de µ.
2) S 2 est un estimateur biaisé mais asymptotiquement sans biais de σ 2 .
3) Sc2 est un estimateur sans biais de σ 2 .
4) S 2 et Sc2 sont des estimateurs convergents de σ 2 .
Exercice: Vérifier ces quatre propriétés.

45 / 78
Méthodes d’estimation

46 / 78
Méthodes d’estimation

1) Méthode des moments

Soit Θ un ouvert de Rk (k ≥ 1)
X1 , · · · , Xn n variables aléatoires iid de loi Pθ , θ ∈ Θ
On considère:
µm (θ) = E(X1m ) , θ ∈ Θ , m ≥ 1
avec µm (θ) est le moments d’ordre m (théorique).
n
1X m
et Um = Xi est le moment empirique d’ordre m.
n
i=1

47 / 78
Méthodes d’estimation

Estimer θ par la méthode des moments consiste à:


Définition 0.16
Un estimateur de θ par la méthode des moments est solution en θ du système
d’équations suivant:


 µ1 (θ) = U1
 µ2 (θ) = U2

..


 .
µm (θ) = Um

La solution quand elle existe sera notée θn?

Remarque:
θn? = θn? (X1 , · · · , Xn )

48 / 78
Méthodes d’estimation
Exemple:
Soit X1 , · · · , Xn n v.a iid avec Xi ∼ N (µ, σ 2 ), µ ∈ R,σ>0
On a θ = (µ, σ 2 ) ∈ R×R
?
+
On cherche à estimer θ par la méthode des moments.
D’une part, on a:

µ1 (θ) = Eθ (X1 ) = µ
µ2 (θ) = Eθ (X12 ) = Vθ (X1 ) + [Eθ (X1 )]2 = σ 2 + µ2
d’autre part:
U1 = n1 Pni=1 Xi
 P
U2 = n1 ni=1 Xi2
Pour trouver θ? on résout le système suivant:
µ = n1 ni=1 X
  P
µ1 (θ) = U1 Pi

µ2 (θ) = U2 σ 2 + µ2 = n1 ni=1 Xi2
49 / 78
Méthodes d’estimation

Donc
?
θ? = (µ? , σ 2 )
avec
? 1 Pn 2
µ? = X et σ 2 = n
2
i=1 Xi − X = S2
D’où θ? = (X, S 2 ) est l’estimateur de θ par la méthode des moments.
Exercice:
Soit X1 , · · · , Xn iid de loi uniforme sur [a, b], a < b et θ = (a, b) ∈ R2 .
Donner l’estimateur de θ par la méthode des moments.

50 / 78
Méthodes d’estimation

2) Méthode de maximum de vraisemblance

P
Soit (X, B, θ , θ ∈ Θ) un modèle statistique dominé par une mesure µ
R
σ-finie, Θ ⊂ k , k ≥ 1.

f (., θ) =
P
d θ

Soit x ∈ X, la vraisemblance en x est l’application θ L(x, θ) = f (x, θ).
Si le modèle est d’échantillonnage (Xn , B⊗n ,
n
P⊗n
θ , θ ∈ Θ) alors
Y
L(x1 , · · · , xn , θ) = f (xi , θ)
i=1

51 / 78
Méthodes d’estimation

Exemple introductif
L’estimateur du maximum de vraisemblance joue un rôle important en
statistique inférentielle. Avant de procéder à une construction générale,
considérons tout d’abord un exemple élémentaire.
On lance une pièce de monnaie 10 fois, on suppose que la probabilité d’avoir
pile est p (inconnue) avec 0 < p < 1.
Le résultat de l’expérience est le suivant: (0, 1, 1, 0, 1, 1, 1, 0, 0, 1) avec
1 = pile et 0 = f ace.
Soit X1 , · · · , X10 iid de loi B(1, p) alors

1 si le i-ème tirage est pile
Xi =
0 sinon
avec P (Xi = 1) = p

52 / 78
Méthodes d’estimation
La probabilité d’observer nos données s’écrit:

L(x1 , · · · , x10 ; p) = Pp(X1 = x1, · · · , X10 = x10)


10
Pp(Xi = xi)
Y
=
i=1
P P
xi
=p (1 − p)10− xi

= p6 (1 − p)10−6

Question: Quelle valeur de p maximise la probabilité d’observer les données


?
Ainsi, on calcule la probabilité d’observer nos données pour différentes
valeurs de p.
p 0.2 0.3 0.4 0.5 0.6 0.7 0.8
Pp 2, 6.10−5 1, 3.10−4 5, 3.10−4 9, 8.10−4 1, 2.10−3 9, 2.10−4 4, 2.10−4

53 / 78
Méthodes d’estimation

La probabilité d’observer l’échantillon est maximum pour p = 0.6. Donc il


P
est vraisemblable (il y a une forte chance) que l’échantillon provient de 0.6
c-à-d quand p = 0.6

Conclusion
L’idée de chercher la valeur de θ qui rend maximale la vraisemblance est
naturelle : en effet, cette valeur particulière de θ permet de maximiser la
probabilité d’obtenir les observations réalisées.

54 / 78
Méthodes d’estimation

Définition 0.17
On appelle estimateur du maximum de vraisemblance (EMV) de θ le point
θ(x)
b qui satisfait:
L(x, θ(x))
b = max L(x, θ)
θ∈Θ

c-à-d
θ(x)
b = arg max L(x, θ)
θ∈Θ

55 / 78
Méthodes d’estimation

Remarque
• Si le modèle est d’échantillonnage (Xn , B⊗n , ⊗n P
θ , θ ∈ Θ) et X1 , · · · , Xn
P
n v.a.r iid associées au modèle, avec Xi ∼ θ alors l’EMV de θ est
b 1 , · · · , Xn ) qui vérifie
θb = θ(X

L(X1 , · · · , Xn , θ(X
b 1 , · · · , Xn )) = max L(X1 , · · · , Xn , θ)
θ∈Θ

• L’EMV n’existe pas toujours et s’il existe il n’est pas forcément unique.
• Si S = S(X1 , · · · , Xn ) est une statistique exhaustive, alors l’EMV de θ ne
dépend que de S(X1 , · · · , Xn ).
• Si g est mesurable , l’EMV de g(θ) est g(θbn ), avec θbn est EMV de θ.

56 / 78
Méthodes d’estimation
Exemple
Soit X1 , · · · , Xn n v.a iid de loi de Poisson P(θ), avec θ > 0,
N
X1 , · · · , Xn ∈ .
On a
n
Pθ (X = xi)
Y
L(x1 , · · · , xn , θ) =
i=1
n
Y θ xi
= e−θ
xi !
i=1
1 P
= e−nθ θ xi
x1 !...xn !
= g(S(x1 , · · · , xn ))h(x1 , · · · , xn )
n
X
On remarque que S(X1 , · · · , Xn ) = Xi est une statistique exhaustive.
i=1
57 / 78
Méthodes d’estimation

1 P
max L(x1 , · · · , xn , θ) = max e−nθ θ xi
θ>0 x1 !...xn ! θ>0
?
On pose L (x1 , · · · , xn , θ) = log L(x1 , · · · , xn , θ)
Donc maximiser L(x1 , · · · , xn , θ) revient à maximiser L? (x1 , · · · , xn , θ)
n
Y n
X
L? (x1 , · · · , xn , θ) = (− log xi !) − nθ + xi log θ
i=1 i=1
dL? 1 Pn
dθ (x1 , · · · , xn , θ) = −n + θ i=1 xi =0
n
1X
⇒θ= xi
n
i=1
2 ? Pn
Puisque ddθL2 (x1 , · · · b 1 , · · · , xn ) =
, xn , θ) < 0 donc θ(x 1
n i=1 xi
maximise L? (x1 , · · ·, xn , θ)
b 1 , · · · , Xn ) = 1 Pn Xi est l’EMV de θ
D’où θ(X n i=1
58 / 78
Méthodes d’estimation

Exercice

Soit X1 , · · · , Xn n v.a.r iid de loi normale N (µ, σ 2 ) avec µ ∈ R et σ ∈ R?+


On pose θ = (µ, σ 2 )
Donner l’EMV de θ.

59 / 78
Méthodes d’estimation

Méthode Delta

Cette méthode est utilisée lorsqu’on dispose un estimateur asymptotiquement


normal d’un paramètre θ. Soit g une fonction de classe C 1 .
On suppose que Tn est un estimateur de θ tel que:

an (Tn − θ) −→ N (0, σ 2 )
L

avec an → +∞.
Alors, g(Tn ) converge en probabilité vers g(θ) et

an (g(Tn ) − g(θ)) −→ N (0, σ 2 [g 0 (θ)]2 )


L

60 / 78
Méthodes d’estimation

Dans le cas multivarié, on a le résultat suivant:


R
On considère Tn un vecteur aléatoire de k et Σ une matrice de covariance.
On suppose que:
an (Tn − θ) −→ N (0, Σ)
L
avec an → +∞.
Alors, pour toute fonction g de classe C 1 , g(Tn ) converge en probabilité vers
g(θ) et
an (g(Tn ) − g(θ)) −→ N (0, Jg (θ)ΣJg (θ)t )
L

où Jg (θ) est la matrice Jacobienne de g calculée en θ.

61 / 78
Comparaison des estimateurs - Optimalité

62 / 78
Comparaison des estimateurs - Optimalité

Erreur Quadratique Moyenne EQM

Définition 0.18
L’erreur quadratique moyenne d’un estimateur T de g(θ), tel que
Eθ (||T ||2 ) < +∞ est:

EQM (T ) = Eθ (||T − g(θ)||2 )

avec ||.|| désigne la norme euclidienne.

63 / 78
Comparaison des estimateurs - Optimalité

Remarque:
• EQM (T ) mesure la précision d’un estimateur et on cherchera à la
minimiser.
• Si θ ∈ Θ ⊂ R, alors
EQM (T ) = Eθ (|T − g(θ)|2 )
= Eθ (|T − Eθ (T ) + Eθ (T ) − g(θ)|2 )
= Eθ (|T − Eθ (T )|2 ) + (Eθ (T ) − g(θ))2
= Vθ (T ) + (Bθ (T ))2

avec Bθ (T ) est le biais de l’estimateur T .


Donc si T est e.s.b alors EQM (T ) = Vθ (T )

64 / 78
Comparaison des estimateurs - Optimalité
Relation de préférence

Définition 0.19
Soient T1 et T2 deux estimateurs de g(θ) de carré intégrables.
• On dit que T1 est préférable à T2 , et on écrit T1 < T2 , si et seulement si
EQM (T1 ) ≤ EQM (T2 ) , ∀θ ∈ Θ
• T1 est strictement préférable à T2 si et seulement si
∃θ ∈ Θ , EQM (T1 ) < EQM (T2 )

Remarque
• ” < ” est une relation d’ordre partiel (car on peut trouver deux estimateurs
incomparables)
• Si T1 et T2 sont deux e.s.b de g(θ) alors T1 < T2 si et seulement si
Vθ (T1 ) ≤ Vθ (T2 )
65 / 78
Comparaison des estimateurs - Optimalité

Amélioration d’un estimateur


Soit (X, B, Pθ , θ ∈ Θ) un modèle statistique, on cherche à estimer g(θ) avec
g connue.
Théorème 0.2 (Rao-Blackwell)
Si S est une statistique exhaustive pour g(θ) et si T est e.s.b de carré
intégrable de g(θ), alors Tb = E(T /S) est un e.s.b de g(θ) et est préférable à
T c-à-d EQM (Tb) ≤ EQM (T ) , ∀θ ∈ Θ

66 / 78
Comparaison des estimateurs - Optimalité
Estimateur UMVU

Définition 0.20
Un estimateur T de carré intégrable de g(θ) est uniformément à variance
minimale (UMVU) si et seulement si T est un e.s.b de g(θ) et ∀S e.s.b de g(θ)
de carré intégrable on a T < S
c-à-d Vθ (T ) ≤ Vθ (S) , ∀θ ∈ Θ

Remarque

• UMVU = Optimal
Théorème 0.3 (Lehmann-Scheffé)
Si S est une statistique exhaustive complète et T est e.s.b de carré intégrable
de g(θ), alors l’estimateur Tb = E(T /S) est UMVU.

67 / 78
Information de Fisher - Inégalité de Cramer-Rao

68 / 78
P
Soit (X, B, θ , θ ∈ Θ) un modèle statistique, g : Θ → D. On suppose que le
modèle est dominé par µ σ-finie.
Avant de définir l’information de Fisher et de donner l’inégalité de
Cramer-Rao, on suppose les hypothèses suivantes (dans le cas où Θ ⊂ Rp)
H1) Θ est un ouvert de Rp et ∀θ ∈ Θ, ∀x ∈ X, f (x, θ) > 0
∂f ∂f t
H2) gradθ (f ) = ( ∂θ 1
, · · · , ∂θ p
) existe
R
H3) ∀θR ∈ Θ, on peut dériver deux fois f (x, θ)dx par rapport à θ sous le
signe .
Dans le cas réel où Θ ⊂ R, ces hypothèses deviennent:
H1) Θ est un ouvert de R et ∀θ ∈ Θ, ∀x ∈ X, f (x, θ) > 0
∂f
H2) gradθ (f ) = ∂θ existe
R
H3) ∀θR ∈ Θ, on peut dériver deux fois f (x, θ)dx par rapport à θ sous le
signe .
Dans la suite on suppose que toutes ces hypothèses sont vérifiées.
69 / 78
Information de Fisher - Inégalité de Cramer-Rao

Définition 0.21 (cas réel: Θ ⊂ R)


On appelle l’information de Fisher I(θ) apportée par un l’échantillon sur le
paramètre θ la quantité suivante (si elle existe):

" 2 # Z  2
∂ ln f (X, θ) ∂ ln f (x, θ)
I(θ) = Eθ = f (x, θ)dµ(x)
∂θ ∂θ

70 / 78
Information de Fisher - Inégalité de Cramer-Rao
• On appelle fonction score la fonction S : X × Θ → R telle que:
∂ ln f (x, θ)
S(x, θ) =
∂θ
Donc on a: I(θ) = Eθ [S(X, θ)2 ]
• Si le domainede définition dela loi de l’échantillon ne dépend pas de θ, on
∂ 2 ln f (X, θ)
a: I(θ) = −Eθ
∂θ2
• I(θ) ≥ 0 , ∀θ
• Si X1 , · · · , Xn iid de loi Pθ , alors In(θ) = I(X ,··· ,X )(θ) = nI(θ)
1 n
(avec
IXi (θ) = I(θ))
Remarque:
Cette propriété est vraie si le support de Pθ ne dépend pas de θ.
• In (θ) = IT (θ) si et seulement si T est exhaustive.
• IT (θ) = 0 si et seulement si T est libre.
71 / 78
Cas multidimensionnel: Θ ⊂ Rp
• Fonction de score:
La fonction score est définie par : S : X × Θ → R p telle que:
 ∂ ln f (x,θ) 
∂θ1
 .. 
S(x, θ) = gradθ ln(f (x, θ)) = 
 . 

∂ ln f (x,θ)
∂θp

• Matrice d’information de Fisher:


La matrice d’information de Fisher est une matrice carrée d’ordre p définie
par :
I(θ) = E S(X, θ)(S(X, θ))t
 

Dans ce cas on peut montrer, sous certaines hypothèses, que l’élément (i, j)
de la matrice I(θ) est donnée par:
 2 
∂ ln(f (X, θ))
Iij (θ) = −Eθ
∂θi ∂θj
72 / 78
Information de Fisher - Inégalité de Cramer-Rao

Inégalité de Cramer-Rao
Soit Tn un e.s.b de g(θ), on suppose que 0 < I(θ) < +∞ et g dérivable. Le
résultat fondamental suivant donne une borne sur la variance de Tn :

73 / 78
Information de Fisher - Inégalité de Cramer-Rao
Théorème 0.4 (Inégalité de C.R)
• Cas réel: Θ ⊂ R, g(Θ) ⊂ R
Soit Tn un e.s.b de g(θ) de carré intégrable, alors

(g 0 (θ))2
Vθ (Tn ) ≥
In (θ)

• Cas multidimensionnel: Θ ⊂ Rp, g(Θ) ⊂ Rp


Dans ce cas on a la matrice:

Covθ (Tn ) − Jg (θ)In (θ)−1 (Jg (θ))t

est définie positive.


∂gi
avec Covθ (Tn ) est matrice de covariance de Tn et Jg (θ) = ( ∂θ j
)1≤i≤k;1≤j≤p
est la matrice jacobienne de g.
74 / 78
Information de Fisher - Inégalité de Cramer-Rao

La partie de droite est appelée borne inférieure de l’inégalité de Cramer-Rao,


notée BF (θ).
Estimateur efficace

Définition 0.22
Un estimateur Tn est dit efficace si

Covθ (Tn ) = Jg (θ)In (θ)−1 (Jg (θ))t , ∀θ ∈ Θ

75 / 78
Information de Fisher - Inégalité de Cramer-Rao

Remarques:
• Dans le cas réel, Tn est efficace si

(g 0 (θ))2
Vθ (Tn ) = = BF (θ)
In (θ)

• Dans le cas où X ne dépend pas de θ, les seuls modèles qui admettent des
estimateurs efficaces sont les modèles exponentiels.
• Si Tn n’est pas efficace mais VBθF(T(θ)
n)
→ 1 quand n → +∞, on dit que
l’estimateur Tn est asymptotiquement efficace.

76 / 78
Information de Fisher - Inégalité de Cramer-Rao

Exemple:
Soit X1 , · · · , Xn n v.a iid, Xi ∼ N (µ, σ 2 ) avec σ connue. On pose θ = µ.
1. Calculer In (θ).
2. Donner l’EMV T de µ et déterminer sa distribution.
3. Calculer l’information de Fisher pour T : IT (θ)
4. Déduire que la statistique T est exhaustive.

77 / 78
Chapitre III:

Estimation par intervalle de confiance

78 / 78

Vous aimerez peut-être aussi