Cours Inférence ch1 Et ch2 - Ouazza - 22-23

Inférence Statistique
Ouazza Ahmed
Institut National de Statistique et d’Economie Appliquée (INSEA)
2022-2023
1 / 78
Plan
1 Ch I : Introduction à l’inférence statistique
2 Ch II : Estimation ponctuelle
3 Ch III: Estimation par intervalle de confiance
4 Ch IV: Tests Statistiques
2 / 78
Chapitre I:
Introduction à l’inférence statistique
3 / 78
Introduction
4 / 78
Introduction
Statistique descriptive VS Statistique inférentielle
Statistique descriptive
Lorsqu’on dispose une base de données, il convient de synthétiser et de
résumer l’information contenue dans ces données. On utilise pour cela des
représentations des données sous forme de tableaux, de graphiques ou
d’indicateurs numériques comme la moyenne, la variance, la corrélation,...
Cette phase est connue sous le nom de statistique descriptive.
5 / 78
Introduction
Statistique descriptive
⇒ Lorsqu’on étude une seule variable, on parle de statistique descriptive
univariée,
⇒ Lorsqu’on étude deux variables simultanément, on parle de statistique
descriptive bivariée,
⇒ Lorsqu’on considère p variables, on parle de statistique descriptive
multidimensionnelle (analyse des données).
6 / 78
Introduction
Statistique inférentielle
Son but est d’étendre (d’inférer) les propriétés constatées sur l’échantillon à la
population toute entière, et de valider ou d’infirmer des hypothèses.
Contrairement à la statistique descriptive, des hypothèses probabilistes sont

ici nécessaires : elle suppose un modèle probabiliste.
L’estimation ponctuelle ou par intervalle de confiance et la théorie des tests
d’hypothèses (paramétriques et non paramétriques) constituent une partie
principale de la statistique inférentielle.
7 / 78
Introduction
Principe de base de l’inférence
L’opération de "remontée" de l’échantillon à la population est appelée
inférence statistique.
L’inférence statistique suppose de prendre en compte l’aspect aléatoire des

données.
L’idée de base est ainsi de considérer les observations comme issues d’un
phénomène aléatoire.
L’inférence statistique s’appuie donc sur des outils probabilistes.
8 / 78
Modèle Statistique - Échantillon
9 / 78
Modèle Statistique
Soit X1 , · · · , Xn n variables aléatoires
Les données dont on dispose sont des réalisations de ces variables aléatoires;
elles sont notées x1 , · · · , xn
Si on considère l’expérience aléatoire qui consiste à recueillir une observation
x de la variable aléatoire X, alors:
X est supposée être à valeurs dans un espace X
Généralement, on ne connait pas la loi de probabilité P de X
Hypothèse fondamentale:
On suppose que la loi de probabilité P appartient à une famille P de lois de
probabilités possibles.
10 / 78
Modèle Statistique
Définition 0.1
On appelle modèle statistique tout triplet (X, A, P) où
• X est l’espace des observations, c-à-d l’ensemble de tous les résultats
possibles de l’expérience
• A est une tribu sur X
• P est une famille de probabilités sur (X, A)
La définition d’un modèle statistique repose donc sur une hypothèse

concernant la famille d’appartenance de la loi de X
11 / 78
Exemple 1
Soit X ∼ B(p) donc le modèle associé à une observation de X est (X, A, P)
Avec X = {0, 1} , A = P ({0, 1}) , P = {B(p), p ∈]0, 1[}
Exemple 2
Soit X ∼ N (µ, σ 2 ) donc le modèle associé à une observation de X est
(X, A, P)
Avec X = R , A = B(R) , P = {N (µ, σ2), µ ∈ R, σ ∈ R?+}
12 / 78
• Le modèle est dit discret lorsque X est fini ou dénombrable.

Alors A est la tribu formée par l’ensemble des parties de X: A = P (X)
• Le modèle est dit continu lorsque X ⊂ Rp et que ∀P ∈ P, P admet une
R
densité dans p
Dans ce cas, A est la tribu des boréliens de X : A = B(X)
Dans l’exemple 1, le modèle est discret

Dans l’exemple 2, le modèle est continu
13 / 78
Échantillon
14 / 78
Échantillon
Définition 0.2
Un échantillon de taille n (ou n-échantillon) est une suite X1 , · · · , Xn de n
P
variables aléatoires indépendantes, de même loi (iid).
Le n-échantillon définit un vecteur aléatoire (X1 , · · · , Xn ) de loi P⊗n

Si M = (X, A, P) est le modèle statistique pour une observation, donc le
modèle associé à un n-échantillon est le modèle produit :
P
Mn = (Xn , An , { ⊗n })
avec An une tribu sur Xn
15 / 78
Les modèles associés à un n-échantillon dans les exemples précédents sont:

Pour l’exemple 1:
Xn = {0, 1}n , An = P ({0, 1}n ) et P ⊗n = {B(p)⊗n , p ∈]0, 1[}
Pour l’exemple 2:
Xn = Rn , An = B(Rn) et P ⊗n = {N (µ, σ2)⊗n, µ ∈ R, σ ∈ R?+}
16 / 78
Modèle paramétrique
Définition 0.3
• Si la loi de X appartient à une famille de lois indexables par un nombre fini
de paramètres, le modèle est dit paramétrique. On note alors
P R
P = { θ , θ ∈ Θ} où Θ ⊂ p est l’espace des paramètres.
• Si la famille d’appartenance de la loi de X n’est pas indexable par un
nombre fini de paramètres, on parle alors de modèle non paramétrique
Avec:
• Pθ est la loi de probabilité correspondant à la valeur θ du paramètre.
• Θ est l’espace paramétrique (dans lequel θ peut prendre sa valeur).
• p est la dimension du paramètre (pour p = 1, on parle de paramètre
unidimensionnel, pour p > 1, on parle de paramètre multidimensionnel ou
vectoriel).
17 / 78
Un modèle paramétrique associé à un n-échantillon sera donc noté:
Mn = {Xn , B(Xn ), P⊗n

θ , θ ∈ Θ}
⇒ Ce modèle est appelé modèle d’échantillonnage.
Exemple
P
• Si est une loi normale N (µ, σ 2 ), alors on est dans un cadre paramétrique
R R
bidimensionel, avec Θ = {(µ, σ 2 ), µ ∈ , σ ∈ ?+ }
P
• Si on considère un modèle où peut être n’importe quelle loi de probabilité
continue, alors on est dans un cadre non paramétrique.
18 / 78
Modèle identifiable:
Définition 0.4
Le modèle statistique paramétrique (X, B, Pθ , θ ∈ Θ) est dit identifiable si
l’application θ P
θ est injective.
(On dit aussi que la famille { Pθ , θ ∈ Θ} est identifiable)

Donc le modèle est identifiable:
si Pθ = Pθ 0
0 0
⇒ θ = θ ou si θ 6= θ ⇒ Pθ 6= Pθ 0
19 / 78
Exemple 1:
Soit ε1 , · · · , εn n variables aléatoires iid avec εi ∼ N (0, σε2 )
On pose Xk = aebk + εk ; k = 1, · · · , n
Le modèle associé est { Rn, B(Rn), P⊗n
θ , θ = (a, b, σε ) ∈ R × R × R+ }
2 ?
On a Xk ∼ Pθ avec Pθ = N (aebk , σε2)

Pour n = 1 le modèle n’est pas identifiable, en effet:
0 0
Soit θ = (a, c, σε2 ) et θ = (aec , 0, σε2 ) donc θ 6= θ ,
mais Pθ = N (aec, σε2) et Pθ 0 = N (aec , σε2 ) donc Pθ = Pθ 0
D’où
{ Pθ , θ ∈ Θ} n’est pas identifiable pour n = 1.
Exemple 2:
20 / 78
Modèle dominé:
Définition 0.5
P
Le modèle statistique (X, B, θ , θ ∈ Θ) est dominé s’il existe une mesure
P P
σ-finie µ telle que θ est absolument continue par rapport à µ. ( θ µ)
Remarque:
P
• Si (X, B, θ , θ ∈ Θ) est dominé, alors il existe f (., θ) densité de Pθ par
rapport à µ tel que
P P
Z Z
θ = d θ= f (x, θ)dµ(x); ∀θ ∈ Θ
B B
(D’après Radon-Nikodyn)
Pθ , θ ∈ Θ} est dominée.
On dit aussi la famille {
• La mesure dominante µ n’est pas unique.
21 / 78
Vraisemblance - Définition d’une statistique
22 / 78
Vraisemblance:
P
Soit (X, B, θ , θ ∈ Θ) un modèle statistique dominé par la mesure µ σ-finie,
P
d θ = f (., θ)dµ
Définition 0.6
On appelle vraisemblance au point x ∈ X l’application θ f (x, θ)
Remarque:
P
• Si le modèle est d’échantillonnage:(Xn , B⊗n , ⊗n
θ , θ ∈ Θ),
Qnla
vraisemblance au point x est l’application, θ L(x, θ) = i=1 f (xi , θ) ;
x = (x1 , · · · , xn ) ∈ Xn
Interprétation:
• Le terme de vraisemblance s’interprète en remarquant que plus L(x, θ) est
grand, plus la probabilité d’observer x est grande.
• Si X est dénombrable et Pθ µ, alors L(x, θ) = Pθ ({x}) , x ∈ X
23 / 78
Définition d’une statistique:
Définition 0.7
P
Soit (X, B, θ , θ ∈ Θ) un modèle statistique, une statistique S est une
application mesurable de (X, B) vers (Y , F).
Remarque:
P
• Si (Xn , B⊗n , ⊗n θ , θ ∈ Θ) est un modèle d’échantillonnage, une statistique
S sur (Xn , B⊗n ) est une fonction mesurable de n variables aléatoires
X1 , · · · , Xn associées au modèle.
• S une statistique ⇔ ∃g mesurable telle que S = g(X1 , · · · , Xn )
• Une statistique ne doit pas dépendre de θ.
• La statistique S est une variable aléatoire.
24 / 78
Exemple:
Soit X1 , · · · , Xn n variables aléatoires.

• On définit µk par: µk = n1 ni=1 Xik ; k = 1, 2, ...
P
µk sont des statistiques appelées moments empiriques d’ordre k

• (X(1) , · · · , X(n) ) est une statistique appelée statistique d’ordre
25 / 78
Exhaustivité - Complétude - Modèles
exponentiels
26 / 78
Exhaustivité - Complétude - Modèles exponentiels
Exhaustivité:
Définition 0.8
P
Soit X1 , · · · , Xn un échantillon de taille n, Xi ∼ θ , i = 1, · · · , n ,θ ∈ Θ
P
et S une statistique définie sur (Xn , B⊗n , ⊗n θ , θ ∈ Θ)
S est exhaustive si et seulement si la loi conditionnelle de X1 , · · · , Xn

sachant S ne dépend pas de θ,
ou d’une façon équivalente:
Eθ ((X1 , · · · , Xn )/S) est indépendante de θ.
27 / 78
Exemple:
Soit X1 , · · · , Xn n variables aléatoires iid avec Xi ∼ B(θ), θ ∈]0, 1[, on
associé alors le modèle ({0, 1}n , P ({0, 1}n ), B ⊗n (θ), θ ∈]0, 1[)
n
X
On pose S = Xi , alors S est une statistique car S = g(X1 , · · · , Xn ) et g
i=1
est mesurable avec g(x1 , · · · , xn ) = ni=1 xi où x1 , · · · , xn ∈ {0, 1}
P
28 / 78
La statistique S est exhaustive, en effet:
P (X1 = x1 , · · · , Xn = xn , S = s)
P (X1 = x1 , · · · , Xn = xn /S = s) =
P (S = s)
n
X
avec s = xi
i=1
Puisque
P (X1 = x1 , · · · , Xn = xn , S = s) = P (X1 = x1 , · · · , Xn = xn )
P (X1 = x1 , · · · , Xn = xn )
donc P (X1 = x1 , · · · , Xn = xn /S = s) =
P (S = s)
Pn
Or S = i=1 Xi ∼ B(n, θ)
29 / 78
donc
n
Y
P (Xi = xi )
P (X1 = x1 , · · · , Xn = xn )
= i=1
P (S = s) Cns θs (1 − θ)n−s
P P
xi
θ (1 − θ)n− xi
=
Cns θs (1 − θ)n−s
θs (1 − θ)n−s
= s s
Cn θ (1 − θ)n−s
1
= s
Cn
qui est indépendante de θ

D’où la statistique S est exhaustive.
30 / 78
Critère de factorisation:
Théorème 0.1
Soit X1 , · · · , Xn n variables aléatoires iid, Xi ∼ Pθ , θ ∈ Θ.
On suppose que le modèle (X, B, Pθ , θ ∈ Θ) associé est dominé par µ
P
σ-finie ( θ µ)
La statistique S = S(X1 , · · · , Xn ) est exhaustive si et seulement s’il existe
deux fonctions mesurables gθ et h telles que:
L(x, θ) = gθ (S(x))h(x) , x = (x1 , · · · , xn ), ∀θ ∈ Θ
Exemple 1:
Soit X1 , · · · , Xn n variables aléatoires iid de loi exponentielle, Xi ∼ E (λ),
R
donc θ = λ ∈ ?+ .
Le modèle associe est ( Rn, B(Rn), E (λ)⊗n, λ ∈ R?+)
31 / 78
Pn
On pose S(X) = i=1 Xi ,
S est une statistique exhaustive, en effet:
L(x1 , · · · , xn , θ) = ni=1 f (xi , θ)
Q
λe−λxi si xi ≥ 0

avec f (xi , λ) =
0 si xi < 0
Donc
n
Y n
Y
L(x1 , · · · , xn , θ) = f (xi , θ) = λe−λxi
i=1 i=1
n −λ n
P
=λ e i=1 xi
= λn e−λS(x)
= gλ (S(x))h(x)
Avec gλ (S(x)) = λn e−λS(x) et h(x) = 1
D’où S est une statistique exhaustive.
32 / 78
Exemple 2: Loi uniforme sur ]0, θ[ avec θ > 0
33 / 78
Liberté:
Définition 0.9
Une statistique S est libre si la loi de S est indépendante de θ c-à-d
P P
S = S ∀θ 6= θ 0
θ θ0
Remarque:
Si S = c avec (c ∈ R) alors S est libre.
Exemple:
Soit X1 , · · · , Xn n variables aléatoires iid avec Xi ∼ N (0, σ 2 ), σ 2 > 0
n n
1X 1X
On pose X = 2
Xi et Sx = (Xi − X)2
n n
i=1 i=1
Monter que la statistique T = rX est libre.

2
Sx
n−1
34 / 78
Complétude:
Définition 0.10 (Modèle complet)

P
Un modèle (X, B, θ , θ ∈ Θ) est completRsi et seulement si
P
∀θ ∈ Θ, ∀g : X → T mesurable telle que X g(x)d θ (x) = 0 Alors g = 0
Pθ − ps
Définition 0.11 (Statistique complète)

P
Une statistique S définie sur (X, B, θ , θ ∈ Θ)
R est complète si et seulement si
P
∀θ ∈ Θ, ∀g mesurable telle que Eθ [g(S)] = g(x)d Sθ (x) = 0 Alors
g=0 P S − ps
θ
Remarque:
Une statistique S définie sur un modèle (X, B, Pθ , θ ∈ Θ) complet est
complète.
Exemple:(Voir TD)
35 / 78
Modèle exponentiel:
Définition 0.12
P
Un modèle (X, B, θ , θ ∈ Θ), Θ ⊂ Rk , k ≥ 1 est exponentiel si et seulement
P
si ∃ µ mesure σ-finie telle que θ µ et
 
k
X
f (x, θ) = C(θ)h(x) exp  Qj (θ)Tj (x) , ∀x ∈ X, ∀θ ∈ Θ
j=1
avec h ≥ 0 , Tj mesurable, C(θ) et Qj (θ) sont des applications de θ,

C(θ) ≥ 0.
(On dit aussi que la famille { Pθ , θ ∈ Θ} est exponentielle).
36 / 78
Remarques:
• T = (T1 , · · · , Tk ) est une statistique exhaustive, T est dite statistique
privilégie. (Grâce au théorème de factorisation f (x, θ) = gθ (T (x))h(x)
• Si (X, B, P⊗n
θ , θ ∈ Θ) est exponentiel, alors le modèle d’échantillonnage
(Xn , B⊗n , Pθ , θ ∈ Θ) est exponentiel.
37 / 78
Exemple:
On considère la loi de poisson P(θ) de paramètre θ, alors la famille
{P(θ), θ > 0} est exponentielle, en effet:
f (x, θ) = Pθ (X = x) = exp(−θ) θx! , x ∈ N
x
1
donc f (x, θ) = exp(−θ) exp(x log θ) x!
1
On pose C(θ) = exp(−θ), h(x) = x! , Q(θ) = log θ, T (x) = x
alors f (x, θ) = C(θ)h(x) exp(Q(θ)T (x))
D’où la famille {P(θ), θ > 0} est exponentielle.
Exercice:
Vérifier que les lois: Binomiale, de Poisson, normale font partie de la famille
exponentielle.
38 / 78
Chapitre II:
Estimation ponctuelle
39 / 78
Estimateur
Problématique
Pθ , θ ∈ Θ), Θ ⊂ Rk ,
On dispose de n observations X1 , · · · , Xn de loi (
k≥1
Problème:
Fournir une évaluation sur la vraie valeur du paramètre θ (plus généralement
de g(θ), avec g : Θ → D) à partir des observations X1 , · · · , Xn .
Exemple:
Soit X1 , · · · , Xn n observations de loi Pθ
n
1X
On pose Eθ (Xi ) = g(θ) alors X = Xi est un estimateur de g(θ).
n
i=1
40 / 78
Estimateur
Soit X1 , · · · , Xn n observations de loi ( Pθ , θ ∈ Θ), Θ ⊂ Rk et g : Θ → D

Définition 0.13
Un estimateur Tn de g(θ) est une statistique associée à X1 , · · · , Xn à valeurs
dans g(Θ).
Remarque:
• Tn est un estimateur si et seulement si Tn à valeurs dans g(Θ) et
Tn = h(X1 , · · · , Xn ), avec h est une fonction mesurable.
• Une estimation de g(θ) est h(x1 , · · · , xn ) où x1 , · · · , xn sont des
réalisations de X1 , · · · , Xn
41 / 78
Estimateur
Notion de biais
Définition 0.14
• On appelle biais de l’estimateur Tn pour le paramètre g(θ) la quantité
Bθ (Tn ) = Eθ (Tn ) − g(θ)
• Soit Eθ (||Tn ||) < +∞, on appelle estimateur sans biais (e.s.b) de g(θ) un
estimateur Tn tel que Bθ (Tn ) = 0, ∀θ ∈ Θ, sinon on parle d’estimateur
biaisé.
• Si l’estimateur Tn est biaisé, mais que Bθ (Tn ) → 0 quand n → +∞, on dit
que Tn est asymptotiquement sans biais pour g(θ).
42 / 78
Estimateur
Estimateurs consistants (convergents)
Définition 0.15
Soit Tn un estimateur de g(θ),
On dit que Tn est consistant (ou convergent) pour g(θ) s’il converge en
probabilité vers g(θ). (Tn −→ g(θ))
P
c-à-d si ∀θ ∈ Θ, ∀ε > 0, lim

n→∞
P(|Tn − g(θ)| > ε) = 0
Critères de convergence d’un estimateur
• Si Tn est un estimateur sans biais de g(θ) et si V (Tn ) → 0 quand n → +∞,
alors Tn est un estimateur convergent pour g(θ).
• Si Tn est un estimateur asymptotiquement sans biais de g(θ) et si
V (Tn ) → 0 quand n → +∞, alors Tn est un estimateur convergent pour g(θ).
43 / 78
Estimateur
Exemple
Soit {Rn, B(Rn), P⊗n θ , θ ∈ Θ ⊂ R } un modèle d’échantillonnage,
k
tel que la loi de probabilité Pθ admette pour espérance µ < +∞ et pour

variance 0 < σ 2 < +∞.
Soit X1 , · · · , Xn n v.a associées à ce modèle.
On pose:
n
1X
X= Xi (moyenne empirique)
n
i=1
n
1 X
S2 = (Xi − X)2 (variance empirique)
n
i=1
n
1 X
Sc2 = (Xi − X)2 (variance empirique corrigée)
n−1
i=1
44 / 78
Estimateur
donc
1) X est un estimateur sans biais et convergent de µ.
2) S 2 est un estimateur biaisé mais asymptotiquement sans biais de σ 2 .
3) Sc2 est un estimateur sans biais de σ 2 .
4) S 2 et Sc2 sont des estimateurs convergents de σ 2 .
Exercice: Vérifier ces quatre propriétés.
45 / 78
Méthodes d’estimation
46 / 78
1) Méthode des moments
Soit Θ un ouvert de Rk (k ≥ 1)
X1 , · · · , Xn n variables aléatoires iid de loi Pθ , θ ∈ Θ
On considère:
µm (θ) = E(X1m ) , θ ∈ Θ , m ≥ 1
avec µm (θ) est le moments d’ordre m (théorique).
n
1X m
et Um = Xi est le moment empirique d’ordre m.
n
i=1
47 / 78
Estimer θ par la méthode des moments consiste à:

Définition 0.16
Un estimateur de θ par la méthode des moments est solution en θ du système
d’équations suivant:


 µ1 (θ) = U1
 µ2 (θ) = U2

..


 .
µm (θ) = Um

La solution quand elle existe sera notée θn?
Remarque:
θn? = θn? (X1 , · · · , Xn )
48 / 78
Exemple:
Soit X1 , · · · , Xn n v.a iid avec Xi ∼ N (µ, σ 2 ), µ ∈ R,σ>0
On a θ = (µ, σ 2 ) ∈ R×R
?
+
On cherche à estimer θ par la méthode des moments.
D’une part, on a:

µ1 (θ) = Eθ (X1 ) = µ
µ2 (θ) = Eθ (X12 ) = Vθ (X1 ) + [Eθ (X1 )]2 = σ 2 + µ2
d’autre part:
U1 = n1 Pni=1 Xi
P
U2 = n1 ni=1 Xi2
Pour trouver θ? on résout le système suivant:
µ = n1 ni=1 X
P
µ1 (θ) = U1 Pi
⇒
µ2 (θ) = U2 σ 2 + µ2 = n1 ni=1 Xi2
49 / 78
Donc
?
θ? = (µ? , σ 2 )
avec
? 1 Pn 2
µ? = X et σ 2 = n
2
i=1 Xi − X = S2
D’où θ? = (X, S 2 ) est l’estimateur de θ par la méthode des moments.
Exercice:
Soit X1 , · · · , Xn iid de loi uniforme sur [a, b], a < b et θ = (a, b) ∈ R2 .
Donner l’estimateur de θ par la méthode des moments.
50 / 78
2) Méthode de maximum de vraisemblance
P
Soit (X, B, θ , θ ∈ Θ) un modèle statistique dominé par une mesure µ
R
σ-finie, Θ ⊂ k , k ≥ 1.
f (., θ) =
P
d θ
dµ
Soit x ∈ X, la vraisemblance en x est l’application θ L(x, θ) = f (x, θ).
Si le modèle est d’échantillonnage (Xn , B⊗n ,
n
P⊗n
θ , θ ∈ Θ) alors
Y
L(x1 , · · · , xn , θ) = f (xi , θ)
i=1
51 / 78
Exemple introductif
L’estimateur du maximum de vraisemblance joue un rôle important en
statistique inférentielle. Avant de procéder à une construction générale,
considérons tout d’abord un exemple élémentaire.
On lance une pièce de monnaie 10 fois, on suppose que la probabilité d’avoir
pile est p (inconnue) avec 0 < p < 1.
Le résultat de l’expérience est le suivant: (0, 1, 1, 0, 1, 1, 1, 0, 0, 1) avec
1 = pile et 0 = f ace.
Soit X1 , · · · , X10 iid de loi B(1, p) alors

1 si le i-ème tirage est pile
Xi =
0 sinon
avec P (Xi = 1) = p
52 / 78
La probabilité d’observer nos données s’écrit:
L(x1 , · · · , x10 ; p) = Pp(X1 = x1, · · · , X10 = x10)

10
Pp(Xi = xi)
Y
=
i=1
P P
xi
=p (1 − p)10− xi
= p6 (1 − p)10−6
Question: Quelle valeur de p maximise la probabilité d’observer les données

?
Ainsi, on calcule la probabilité d’observer nos données pour différentes
valeurs de p.
p 0.2 0.3 0.4 0.5 0.6 0.7 0.8
Pp 2, 6.10−5 1, 3.10−4 5, 3.10−4 9, 8.10−4 1, 2.10−3 9, 2.10−4 4, 2.10−4
53 / 78
La probabilité d’observer l’échantillon est maximum pour p = 0.6. Donc il

P
est vraisemblable (il y a une forte chance) que l’échantillon provient de 0.6
c-à-d quand p = 0.6
Conclusion
L’idée de chercher la valeur de θ qui rend maximale la vraisemblance est
naturelle : en effet, cette valeur particulière de θ permet de maximiser la
probabilité d’obtenir les observations réalisées.
54 / 78
Définition 0.17
On appelle estimateur du maximum de vraisemblance (EMV) de θ le point
θ(x)
b qui satisfait:
L(x, θ(x))
b = max L(x, θ)
θ∈Θ
c-à-d
θ(x)
b = arg max L(x, θ)
θ∈Θ
55 / 78
Remarque
• Si le modèle est d’échantillonnage (Xn , B⊗n , ⊗n P
θ , θ ∈ Θ) et X1 , · · · , Xn
P
n v.a.r iid associées au modèle, avec Xi ∼ θ alors l’EMV de θ est
b 1 , · · · , Xn ) qui vérifie
θb = θ(X
L(X1 , · · · , Xn , θ(X
b 1 , · · · , Xn )) = max L(X1 , · · · , Xn , θ)
θ∈Θ
• L’EMV n’existe pas toujours et s’il existe il n’est pas forcément unique.
• Si S = S(X1 , · · · , Xn ) est une statistique exhaustive, alors l’EMV de θ ne
dépend que de S(X1 , · · · , Xn ).
• Si g est mesurable , l’EMV de g(θ) est g(θbn ), avec θbn est EMV de θ.
56 / 78
Exemple
Soit X1 , · · · , Xn n v.a iid de loi de Poisson P(θ), avec θ > 0,
N
X1 , · · · , Xn ∈ .
On a
n
Pθ (X = xi)
Y
L(x1 , · · · , xn , θ) =
i=1
n
Y θ xi
= e−θ
xi !
i=1
1 P
= e−nθ θ xi
x1 !...xn !
= g(S(x1 , · · · , xn ))h(x1 , · · · , xn )
n
X
On remarque que S(X1 , · · · , Xn ) = Xi est une statistique exhaustive.
i=1
57 / 78
1 P
max L(x1 , · · · , xn , θ) = max e−nθ θ xi
θ>0 x1 !...xn ! θ>0
?
On pose L (x1 , · · · , xn , θ) = log L(x1 , · · · , xn , θ)
Donc maximiser L(x1 , · · · , xn , θ) revient à maximiser L? (x1 , · · · , xn , θ)
n
Y n
X
L? (x1 , · · · , xn , θ) = (− log xi !) − nθ + xi log θ
i=1 i=1
dL? 1 Pn
dθ (x1 , · · · , xn , θ) = −n + θ i=1 xi =0
n
1X
⇒θ= xi
n
i=1
2 ? Pn
Puisque ddθL2 (x1 , · · · b 1 , · · · , xn ) =
, xn , θ) < 0 donc θ(x 1
n i=1 xi
maximise L? (x1 , · · ·, xn , θ)
b 1 , · · · , Xn ) = 1 Pn Xi est l’EMV de θ
D’où θ(X n i=1
58 / 78
Exercice
Soit X1 , · · · , Xn n v.a.r iid de loi normale N (µ, σ 2 ) avec µ ∈ R et σ ∈ R?+

On pose θ = (µ, σ 2 )
Donner l’EMV de θ.
59 / 78
Méthode Delta
Cette méthode est utilisée lorsqu’on dispose un estimateur asymptotiquement

normal d’un paramètre θ. Soit g une fonction de classe C 1 .
On suppose que Tn est un estimateur de θ tel que:
an (Tn − θ) −→ N (0, σ 2 )
L
avec an → +∞.
Alors, g(Tn ) converge en probabilité vers g(θ) et
an (g(Tn ) − g(θ)) −→ N (0, σ 2 [g 0 (θ)]2 )

L
60 / 78
Dans le cas multivarié, on a le résultat suivant:

R
On considère Tn un vecteur aléatoire de k et Σ une matrice de covariance.
On suppose que:
an (Tn − θ) −→ N (0, Σ)
L
avec an → +∞.
Alors, pour toute fonction g de classe C 1 , g(Tn ) converge en probabilité vers
g(θ) et
an (g(Tn ) − g(θ)) −→ N (0, Jg (θ)ΣJg (θ)t )
L
où Jg (θ) est la matrice Jacobienne de g calculée en θ.
61 / 78
Comparaison des estimateurs - Optimalité
62 / 78
Erreur Quadratique Moyenne EQM
Définition 0.18
L’erreur quadratique moyenne d’un estimateur T de g(θ), tel que
Eθ (||T ||2 ) < +∞ est:
EQM (T ) = Eθ (||T − g(θ)||2 )
avec ||.|| désigne la norme euclidienne.
63 / 78
Remarque:
• EQM (T ) mesure la précision d’un estimateur et on cherchera à la
minimiser.
• Si θ ∈ Θ ⊂ R, alors
EQM (T ) = Eθ (|T − g(θ)|2 )
= Eθ (|T − Eθ (T ) + Eθ (T ) − g(θ)|2 )
= Eθ (|T − Eθ (T )|2 ) + (Eθ (T ) − g(θ))2
= Vθ (T ) + (Bθ (T ))2
avec Bθ (T ) est le biais de l’estimateur T .

Donc si T est e.s.b alors EQM (T ) = Vθ (T )
64 / 78
Relation de préférence
Définition 0.19
Soient T1 et T2 deux estimateurs de g(θ) de carré intégrables.
• On dit que T1 est préférable à T2 , et on écrit T1 < T2 , si et seulement si
EQM (T1 ) ≤ EQM (T2 ) , ∀θ ∈ Θ
• T1 est strictement préférable à T2 si et seulement si
∃θ ∈ Θ , EQM (T1 ) < EQM (T2 )
Remarque
• ” < ” est une relation d’ordre partiel (car on peut trouver deux estimateurs
incomparables)
• Si T1 et T2 sont deux e.s.b de g(θ) alors T1 < T2 si et seulement si
Vθ (T1 ) ≤ Vθ (T2 )
65 / 78
Amélioration d’un estimateur

Soit (X, B, Pθ , θ ∈ Θ) un modèle statistique, on cherche à estimer g(θ) avec
g connue.
Théorème 0.2 (Rao-Blackwell)
Si S est une statistique exhaustive pour g(θ) et si T est e.s.b de carré
intégrable de g(θ), alors Tb = E(T /S) est un e.s.b de g(θ) et est préférable à
T c-à-d EQM (Tb) ≤ EQM (T ) , ∀θ ∈ Θ
66 / 78
Estimateur UMVU
Définition 0.20
Un estimateur T de carré intégrable de g(θ) est uniformément à variance
minimale (UMVU) si et seulement si T est un e.s.b de g(θ) et ∀S e.s.b de g(θ)
de carré intégrable on a T < S
c-à-d Vθ (T ) ≤ Vθ (S) , ∀θ ∈ Θ
Remarque
• UMVU = Optimal
Théorème 0.3 (Lehmann-Scheffé)
Si S est une statistique exhaustive complète et T est e.s.b de carré intégrable
de g(θ), alors l’estimateur Tb = E(T /S) est UMVU.
67 / 78
Information de Fisher - Inégalité de Cramer-Rao
68 / 78
P
Soit (X, B, θ , θ ∈ Θ) un modèle statistique, g : Θ → D. On suppose que le
modèle est dominé par µ σ-finie.
Avant de définir l’information de Fisher et de donner l’inégalité de
Cramer-Rao, on suppose les hypothèses suivantes (dans le cas où Θ ⊂ Rp)
H1) Θ est un ouvert de Rp et ∀θ ∈ Θ, ∀x ∈ X, f (x, θ) > 0
∂f ∂f t
H2) gradθ (f ) = ( ∂θ 1
, · · · , ∂θ p
) existe
R
H3) ∀θR ∈ Θ, on peut dériver deux fois f (x, θ)dx par rapport à θ sous le
signe .
Dans le cas réel où Θ ⊂ R, ces hypothèses deviennent:
H1) Θ est un ouvert de R et ∀θ ∈ Θ, ∀x ∈ X, f (x, θ) > 0
∂f
H2) gradθ (f ) = ∂θ existe
R
H3) ∀θR ∈ Θ, on peut dériver deux fois f (x, θ)dx par rapport à θ sous le
signe .
Dans la suite on suppose que toutes ces hypothèses sont vérifiées.
69 / 78
Définition 0.21 (cas réel: Θ ⊂ R)

On appelle l’information de Fisher I(θ) apportée par un l’échantillon sur le
paramètre θ la quantité suivante (si elle existe):
" 2 # Z 2
∂ ln f (X, θ) ∂ ln f (x, θ)
I(θ) = Eθ = f (x, θ)dµ(x)
∂θ ∂θ
70 / 78
• On appelle fonction score la fonction S : X × Θ → R telle que:
∂ ln f (x, θ)
S(x, θ) =
∂θ
Donc on a: I(θ) = Eθ [S(X, θ)2 ]
• Si le domainede définition dela loi de l’échantillon ne dépend pas de θ, on
∂ 2 ln f (X, θ)
a: I(θ) = −Eθ
∂θ2
• I(θ) ≥ 0 , ∀θ
• Si X1 , · · · , Xn iid de loi Pθ , alors In(θ) = I(X ,··· ,X )(θ) = nI(θ)
1 n
(avec
IXi (θ) = I(θ))
Remarque:
Cette propriété est vraie si le support de Pθ ne dépend pas de θ.
• In (θ) = IT (θ) si et seulement si T est exhaustive.
• IT (θ) = 0 si et seulement si T est libre.
71 / 78
Cas multidimensionnel: Θ ⊂ Rp
• Fonction de score:
La fonction score est définie par : S : X × Θ → R p telle que:
 ∂ ln f (x,θ) 
∂θ1
 .. 
S(x, θ) = gradθ ln(f (x, θ)) = 
 . 

∂ ln f (x,θ)
∂θp
• Matrice d’information de Fisher:

La matrice d’information de Fisher est une matrice carrée d’ordre p définie
par :
I(θ) = E S(X, θ)(S(X, θ))t

Dans ce cas on peut montrer, sous certaines hypothèses, que l’élément (i, j)
de la matrice I(θ) est donnée par:
2
∂ ln(f (X, θ))
Iij (θ) = −Eθ
∂θi ∂θj
72 / 78
Inégalité de Cramer-Rao
Soit Tn un e.s.b de g(θ), on suppose que 0 < I(θ) < +∞ et g dérivable. Le
résultat fondamental suivant donne une borne sur la variance de Tn :
73 / 78
Théorème 0.4 (Inégalité de C.R)
• Cas réel: Θ ⊂ R, g(Θ) ⊂ R
Soit Tn un e.s.b de g(θ) de carré intégrable, alors
(g 0 (θ))2
Vθ (Tn ) ≥
In (θ)
• Cas multidimensionnel: Θ ⊂ Rp, g(Θ) ⊂ Rp

Dans ce cas on a la matrice:
Covθ (Tn ) − Jg (θ)In (θ)−1 (Jg (θ))t
est définie positive.

∂gi
avec Covθ (Tn ) est matrice de covariance de Tn et Jg (θ) = ( ∂θ j
)1≤i≤k;1≤j≤p
est la matrice jacobienne de g.
74 / 78
La partie de droite est appelée borne inférieure de l’inégalité de Cramer-Rao,

notée BF (θ).
Estimateur efficace
Définition 0.22
Un estimateur Tn est dit efficace si
Covθ (Tn ) = Jg (θ)In (θ)−1 (Jg (θ))t , ∀θ ∈ Θ
75 / 78
Remarques:
• Dans le cas réel, Tn est efficace si
(g 0 (θ))2
Vθ (Tn ) = = BF (θ)
In (θ)
• Dans le cas où X ne dépend pas de θ, les seuls modèles qui admettent des
estimateurs efficaces sont les modèles exponentiels.
• Si Tn n’est pas efficace mais VBθF(T(θ)
n)
→ 1 quand n → +∞, on dit que
l’estimateur Tn est asymptotiquement efficace.
76 / 78
Exemple:
Soit X1 , · · · , Xn n v.a iid, Xi ∼ N (µ, σ 2 ) avec σ connue. On pose θ = µ.
1. Calculer In (θ).
2. Donner l’EMV T de µ et déterminer sa distribution.
3. Calculer l’information de Fisher pour T : IT (θ)
4. Déduire que la statistique T est exhaustive.
77 / 78
Chapitre III:
Estimation par intervalle de confiance
78 / 78

Cours Inférence ch1 Et ch2 - Ouazza - 22-23

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Inférence ch1 Et ch2 - Ouazza - 22-23

Transféré par

Droits d'auteur :

Formats disponibles

Inférence Statistique

Institut National de Statistique et d’Economie Appliquée (INSEA)

1 Ch I : Introduction à l’inférence statistique

3 Ch III: Estimation par intervalle de confiance

4 Ch IV: Tests Statistiques

Introduction à l’inférence statistique

Statistique descriptive VS Statistique inférentielle

Contrairement à la statistique descriptive, des hypothèses probabilistes sont

L’inférence statistique suppose de prendre en compte l’aspect aléatoire des

La définition d’un modèle statistique repose donc sur une hypothèse

• Le modèle est dit discret lorsque X est fini ou dénombrable.

Dans l’exemple 1, le modèle est discret

Le n-échantillon définit un vecteur aléatoire (X1 , · · · , Xn ) de loi P⊗n

Les modèles associés à un n-échantillon dans les exemples précédents sont:

Un modèle paramétrique associé à un n-échantillon sera donc noté:

Mn = {Xn , B(Xn ), P⊗n

⇒ Ce modèle est appelé modèle d’échantillonnage.

(On dit aussi que la famille { Pθ , θ ∈ Θ} est identifiable)

On a Xk ∼ Pθ avec Pθ = N (aebk , σε2)

Définition d’une statistique:

Soit X1 , · · · , Xn n variables aléatoires.

µk sont des statistiques appelées moments empiriques d’ordre k

S est exhaustive si et seulement si la loi conditionnelle de X1 , · · · , Xn

qui est indépendante de θ

Exemple 2: Loi uniforme sur ]0, θ[ avec θ > 0

Monter que la statistique T = rX est libre.

Définition 0.10 (Modèle complet)

Définition 0.11 (Statistique complète)

avec h ≥ 0 , Tj mesurable, C(θ) et Qj (θ) sont des applications de θ,

Soit X1 , · · · , Xn n observations de loi ( Pθ , θ ∈ Θ), Θ ⊂ Rk et g : Θ → D

Bθ (Tn ) = Eθ (Tn ) − g(θ)

c-à-d si ∀θ ∈ Θ, ∀ε > 0, lim

tel que la loi de probabilité Pθ admette pour espérance µ < +∞ et pour

1) Méthode des moments

Estimer θ par la méthode des moments consiste à:

La solution quand elle existe sera notée θn?

2) Méthode de maximum de vraisemblance

L(x1 , · · · , x10 ; p) = Pp(X1 = x1, · · · , X10 = x10)

Question: Quelle valeur de p maximise la probabilité d’observer les données

La probabilité d’observer l’échantillon est maximum pour p = 0.6. Donc il

Soit X1 , · · · , Xn n v.a.r iid de loi normale N (µ, σ 2 ) avec µ ∈ R et σ ∈ R?+

Cette méthode est utilisée lorsqu’on dispose un estimateur asymptotiquement

an (g(Tn ) − g(θ)) −→ N (0, σ 2 [g 0 (θ)]2 )

Dans le cas multivarié, on a le résultat suivant:

où Jg (θ) est la matrice Jacobienne de g calculée en θ.

Erreur Quadratique Moyenne EQM

EQM (T ) = Eθ (||T − g(θ)||2 )

avec ||.|| désigne la norme euclidienne.

avec Bθ (T ) est le biais de l’estimateur T .

Amélioration d’un estimateur

Définition 0.21 (cas réel: Θ ⊂ R)

• Matrice d’information de Fisher:

• Cas multidimensionnel: Θ ⊂ Rp, g(Θ) ⊂ Rp

Covθ (Tn ) − Jg (θ)In (θ)−1 (Jg (θ))t

est définie positive.

La partie de droite est appelée borne inférieure de l’inégalité de Cramer-Rao,

Covθ (Tn ) = Jg (θ)In (θ)−1 (Jg (θ))t , ∀θ ∈ Θ

Estimation par intervalle de confiance

Vous aimerez peut-être aussi