Académique Documents
Professionnel Documents
Culture Documents
Anne Philippe
1
Programme
1. Estimation ponctuelle dans un modèle paramétrique : Méthode
des moments, Maximum de vraisemblance, delta-méthode,
propriétés asymptotiques.
2
Introduction
chapitre 1
3
Problème de mesures
Pour mesurer une quantité inconnue θ
Exemple : une distance, un poids ou une température etc…
Remarque :
4
Définitions
1) x1, . . . , xn sont les données ou les observations d’une expérience
dont le résultat est aléatoire.
Exemples :
ℱ = {Pθ , θ ∈ Θ}
2 2 +
ℱ = { (μ, σ ) , θ = (μ, σ ) ∈ ℝ × ℝ } modèle gaussien
+
ℱ = { (θ) , θ ∈ ℝ } modèle de 6Poisson
𝒫
𝒩
𝒩
Problème de mesures : Modèle 1
Toutes les mesures sont réalisées de façon indépendante
dans les mêmes conditions
2
Si (ϵ1, . . . , ϵn) ⊥ ϵ0 et ϵ0 ∼ (0,τ ) alors
2 2
{τ
T τ + σ si i=j
X∼ n((θ, . . . , θ) , Σ) avec Σi,j = 2
si i≠j
ps
Propriétés de X̄n: (X̄n) = θ attention X̄n
n→∞
θ + ϵ0 📝
𝔼
𝒩
𝒩
8
Estimateur ponctuel
n
Soit X = (X1, . . . , Xn) un n-échantillon à valeurs dans (E , ℰn)
(n)
On suppose que la loi de X appartient à ℱn = {Pθ , θ ∈ Θ}
(n)
c’est à dire il existe θ0 ∈ Θ tel que PX = P
θ 0
9
Espace probabilisé
(Ω, , ℙ) espace probabilisé, la loi de X est définie
∫
−1
par PX(A) = ℙ(X (A)) et (g(X)) = g(X)dℙ si
1
g(X) ∈ L
Dans un modèle paramétrique on introduit une
famille d’espaces probabilisés (Ω, , ℙθ)θ∈Θ
(n) −1
À θ fixé, la loi de X est P (A) = ℙθ(X (A)) = ℙθ(X ∈ A)
θ
∫
et g(X)dℙθ = θ(g(X))
𝔼
𝔼
𝒜
𝒜
10
Cas continu
∫A
(n)
ℙθ(X ∈ A) = fθ (x) dx
On a
∫En
(n)
θ (g(X)) = g(x) fθ (x) dx
𝔼
11
Cas discret
Si la loi de X est discrète, on définit le modèle par une
(n)
famille ℱn = {p , θ ∈ Θ}
θ
On a
(n) (n)
ℙθ(X = x) = ℙθ(X1 = x1, . . . , Xn = xn) = pθ (x1, . . . , xn) = pθ (x)
(n)
∑
ℙθ(X ∈ A) = pθ (x)
x∈A
𝔼
(n)
∑n
θ (g(X)) = g(x) pθ (x)
x∈E
12
Les qualités d’un estimateur : le biais
(n)
ℱn = {Pθ , θ ∈ Θ} le modèle paramétrique
̂
Soit X = (X1, . . , Xn) un n-échantillon et θn un estimateur de θ
̂
On dit que θn est un estimateur sans biais de θ
̂
si pour tout θ ∈ Θ on a θ(θn) = θ
̂
On dit que θn est un estimateur asymptotiquement sans biais de
θ
si pour tout θ ∈ Θ on a ̂
(θ )
n→∞
θ
θ n
𝔼
𝔼
𝔼
13
Les qualités d’un estimateur : la consistance
̂
On dit que θn est un estimateur fortement consistant de θ
si pour tout θ ∈ Θ on a θn ̂ n→∞
θ
P.S.
̂
On dit que θn est un estimateur (faiblement) consistant de θ
si pour tout θ ∈ Θ on a θn̂ n→∞
θ
proba
2 ̂
Pour tout θ ∈ Θ on a EQn(θ) = bn(θ) + Varθ(θn) (var+biais2)
̂
Proposition : Si θn est un estimateur asymptotiquement
̂
sans biais de θ et si Varθ(θn) ̂
0 pour tout θ ∈ Θ alors θn
n→∞
2
est un estimateur consistant au sens L de θ
𝔼
15
Vitesse de Convergence
̂
On suppose que θn un estimateur consistant de θ
̂
Proposition : Si ∀θ ∈ Θ αn(θn − θ)
n→∞
Z et Z est non
loi
̂
dégénérée alors θn est un estimateur αn− consistant
16
Modèle exponentiel
Soit X = (X1, . . , Xn) un n-échantillon iid suivant la loi
exponentielle
−xθ
ℱ = {ℰxp(θ) , θ ∈ Θ} : la densité est fθ(x) = θe R +(x)
n
(n) n −θ ∑i=1 xi
et f (x1, . . . , xn) =θ e R+n (x1, . . . , xn)
θ
̂ n 1
θn = n = est un estimateur de θ qui est
∑i=1 Xi X̄n
asymptotiquement sans biais, fortement consistant et
2
n− consistant. De plus il est consistant au sens L .
📝
𝕀
𝕀
17
Reparamétrisation
(n)
Soit X = (X1, . . , Xn) un n-échantillon suivant PX ∈ {Pθ , θ ∈ Θ}
̂ ̂
Si θn est consistant et h est continue sur Θ alors λn est
consistant
̂ 1 ̂
Si θn est αn-consistant et h est C alors λn est αn-consistant
19
Rappel sur les convergences
proba proba
(2) Si Xn X et h continue alors h(Xn) h(X)
loi loi
(3) Si Xn X et P(X ∈ C(h)) = 1 alors h(Xn) h(X)
proba proba
- Cas particulier : Si Yn y et y ∈ C(h) alors h(Yn) h(y)
en dim(E) =1
loi loi
Xn X Xn + Yn X+y loi
Si alors et Xn /Yn X/y si y ≠ 0
proba loi
Yn y < Xn, Yn > < X, y > loi
XnYn Xy
p p
Soit (Xn)n des vecteurs aléatoires (X1 ∈ R ) et x ∈ R une constante.
∇h1(x)
(αn)n une suite déterministe tel que αn → ∞
Dh(x) = ⋮
Si αn(Xn − x)
loi p k 1
X et h : R → R est C au voisinage de x ∇hk(x)
( ∂x1 ∂xp )
∂ ∂
loi ∇= , ⋯,
alors αn(h(Xn) − h(x)) Dh(x) X
21
Estimateur par injection
Construction
TCL
Consistance forte
22
Vraisemblance
Chapitre 2
23
1- Définition
24
Contexte
(A) X = (X1, . . . , Xn) est un n-échantillon de variables aléatoires de
loi PX
B. Modèle discret :
(n)
V(θ) = fθ (X1, . . . , Xn) ∀θ ∈ Θ
27
Calcul de vraisemblance
Modèle exponentiel iid : pour tout θ>0
n
n −θ ∑i=1 Xi
V(θ) = θ e
n
∑
L(θ) = n log(θ) − θ Xi
i=1
∑ ∑
L(θ) = − nθ + log(θ) Xi − log(Xi !)
i=1 i=1
28
Théorème de séparabilité
Hypothèses de régularité
(n) (n)
HR-0 [identifiabilité] Si f = f η alors θ=η
θ
(n)
HR-1 Toutes les lois f , θ ∈ Θ ont le même support
θ
(n)
HR-2 (X1, . . Xn) ∼ fθ avec θ0 ∈ Θ et Θ ouvert. [θ0 est la vraie valeur du paramètre]
0
( fθ0(Xi) )
fθ(Xi) fθ(Xi) 1
Si (X1, . . Xn) sont iid et les variables aléatoires et log sont Lθ
fθ0(Xi) 0
29
Estimateur du maximum de vraisemblance (EMV)
Définition :
Soit X un n-échantillon et V sa vraisemblance.
̂
MV
Si θ n existe alors pour tout θ∈Θ ̂
MV
on a V(θ n ) ≥ V(θ)
autrement dit θ n̂
MV
= argmaxθ∈Θ V(θ).
n
n
−θ ∑i=1 Xi MV 1
V(θ) = θ e et θn =
X̄n
Modèle de Poisson iid
n
−nθ ∑i=1 Xi
e θ MV
V(θ) = et θn = X̄n
X1 ! . . . Xn !
Modèle Gamma iid : on n’a pas de forme explicite de l’estimateur.
32
📝
Consistance
Théorème (Admis): On suppose que les hypothèse HR-0-1-2 sont
vérifiées. Si (X1, . . Xn) sont iid et si la vraisemblance est dérivable
par rapport à θ alors l’équation de vraisemblance définie par
T
( ∂θ1 ∂θp )
∂ ∂
∇V(θ) = 0 (ou ∇L(θ) = 0) avec ∇ = ....
̂ ̂
admet une solution θn telle que θn θ0.
proba
33
2-Information de Fisher
34
Conditions de Fisher
On complète les conditions de régularité HR
(n) 2
HR-3 θ↦ fθ (x) est une fonction C sur Θ pour tout x
∫ ∫
(n)
HR-4 θ↦ fθ (x) dx est deux fois dérivable sous le signe et les
Définition on dit que le modèle est régulier s’il vérifie les hypothèses HR-0
à HR-4 (aussi appelées conditions de Fisher).
Remarque
si X1, . . . Xn sont iid alors il suffit de vérifier les hypothèses HR pour n=1
35
Propriétés d’un modèle régulier
Cas particulier dim(Θ) = 1
Si le modèle est régulier, la variable aléatoire
∂ (n)
log( fθ (X)) vérifie les propriétés suivantes
∂θ
( ∂θ )
∂ (n)
Eθ log( fθ (X)) = 0
( ∂θ ) (( ∂θ ))
2
∂ (n) ∂ (n)
Varθ log( fθ (X)) = Eθ log( fθ (X))
( ∂θ )
2
∂ (n)
= − Eθ 2
log( f θ
(X))
36
📝
Information de Fisher
On définit l’information de Fisher pour des modèles réguliers
(( ∂θ ))
2
∂ (n)
In(θ) = Eθ log( fθ (X))
( ∂θ ) ( )
2
∂ (n) ∂ (n)
In(θ) = − Eθ log( f θ
(X)) = Varθ log( f θ
(X))
2 ∂θ
37
Proposition Si X1, . . , Xn est un n-échantillon de variables
aléatoires iid et si le modèle est régulier alors
In(θ) = nI1(θ)
Toutes les observations apportent la même information. 📝
38
Cas multivarié : dim(Θ) = d > 1
Pour un modèle régulier multivarié L’information de
Fisher est une matrice
(( ∂θi ) ( ∂θj ))
∂ (n) ∂ (n)
In(i, j) = Eθ log( fθ (X)) log( fθ (X))
( ∂θiθj )
2
∂ (n)
In(i, j) = − Eθ log( fθ (X))
39
propriétés
In(θ) = nI1(θ)
40
Famille exponentielle
(n)
Définition : Une famille de loi {fθ , θ
∈ θ} est une famille
exponentielle s’il existe quatre fonctions η, q, K, H telles que pour
d n
tout θ ∈ Θ ⊂ R et x ∈ E
{0
η(θ)∙K(x) + H(x) + q(θ)
(n) e pour tout x∈S
fθ (x) =
sinon
2 2
La famille des lois gaussiennes {N(0,σ ) : σ > 0} est
une famille exponentielle
42
📝
Forme canonique
On peut reparamétriser la densité de la famille
exponentielle en fonction de λ = η(θ)
{0
λ∙K(x) + H(x) + q̃(λ)
(n) e pour tout x∈S
gλ (x) =
sinon
(n)
{gλ , λ ∈ Λ} constitue une famille exponentielle dite
canonique.
43
R gularit dans une famille exponentielle
2 2
Application {N(0,σ ) : σ > 0} définit un modèle régulier 📝
44
é
é
2- Optimalité asymptotique
45
Convergence du MV
Rappel : si X1, . . . Xn sont iid suivant un modèle régulier alors
l’équation de vraisemblance définie par ∇V(θ) = 0 admet une
solution θn̂ telle que θn̂ θ0.
proba
46
📝
Efficacité asymptotique
Théorème (Admis) Soit X1, . . . Xn sont iid suivant un modèle
régulier tel que
2
∂ 1
log f (X
θ 1 ) ≤ M(θ ,
0 1X ) ∈ L ∀θ ∈ (θ0)
∂θ 2
2 2 −1
Si n(θn − θ0) N(0,σ (θ0)) alors σ (θ0) ≥ I (θ0)
loi
̂
n(θn − θ) −1
N(0,I (θ))
loi
𝒱
47
Amélioration d’un estimateur n consistant
n
1 ∂
∑
On définit pour tout θ ∈ Θ : hn(θ) = log( fθ(Xi))
n i=1 ∂θ
Théorème :
loi
Sous les hypothèses du Th TCL-MV si n(Yn − θ) Z avec Z non
hn(Yn)
dégénérée alors δn = Yn − est un estimateur
h′n(Yn)
asymptotiquement efficace.

48
📝
Reparamétrisation
Soit g : θ ↦ Λ une bijection.
Théorème d’invariance :
Si l’estimateur du MV ̂
ML
θn est asymptotiquement efficace et
g ̂
ML
est un difféomorphisme alors g(θ n ) est l’estimateur du
MV de g(θ), et il est asymptotiquement efficace.
49
Optimalité
Chapitre 3
50
-1-
Amélioré de Rao Blackwell
51
Exhaustivité
(n)
Soit X1, . . Xn ∼ Pθ avec θ∈Θ
Autrement dit
Ou
n
Exemple Si X1, . . Xn sont iid suivant une loi de Poisson alors
∑
Xi est exhaustive 📝
i=1
52
Théorème de Factorisation
la statistique Sn = Sn(X1, . . Xn) est exhaustive
si et seulement si
📝
53
Estimateur du MV et statistique exhaustive
Soit Sn une statistique exhaustive
D’après le théorème de factorisation
∇L(θ) = O ⇔ ∇log(hθ(Sn)) = 0
Conclusion si l’estimateur du maximum de vraisemblance existe il est
de la forme
θ n̂
MV
= ψ(Sn)
1
Soit (X,Y) des variables aléatoires appartenant à L
4. Si E(g(X)f(Y) | Y) = f(Y)E(g(X) | Y)
5. Si 2
(X, Y) ∈ L alors var(E(X | Y)) = var(X) − E(var(X | Y)) 📝
55
Théorème de Rao Blackwell
Soit Sn une statistique exhaustive
2. θ n̂
RB
est un estimateur sans biais du paramètre θ
̂ 2 ̂
RB ̂
3. Si θn ∈ L pour tout θ ∈ Θ alors θ n est meilleur que θn au sens L 2
Définition : θ n̂
RB
est l'estimateur de Rao Blackwell ou l’amélioré de θn̂ par Rao
Blackwell
∑
Sn = Xi est une statistique exhaustive
i=1
57
Statistique totale
(n)
Soit X = (X1, . . Xn) ∼ Pθ avec θ∈Θ
(Eθ(h(Sn)) = 0, ∀θ ∈ Θ) ⇒ (h(x) = 0, ∀x ∈ θ ∀θ ∈ Θ)
c
où θ vérifie Pθ(Sn ∈ θ ) =0
𝒮
𝒮
𝒮
58
Exemple -1-
Modèle idd suivant la loi de Poisson : la statistique exhaustive
n
∑
Sn = Xi est aussi une statistique totale
i=1
1
En effet soit h telle que h(Sn) ∈ L et Eθ(h(Sn)) = 0.
Cette série entière est nulle pour tout θ > 0 donc tous ses coefficients sont
i
h(i)n
nuls = ∀i ∈ N autrement dit la fonction h est nulle sur N,
i!
Comme le support de la loi de Sn est N pour tout θ > 0, Sn est totale
59
Exemple -2-
n
∑
Modèle idd suivant la loi exponentielle : la statistique Sn = Xi est exhaustive et totale
i=1
n
n
(n) n −n ∑i=1 xi
∑
On a fθ (x1, . . . , xn) =θ e , donc d’après le théorème de factorisation Sn = Xi est exhaustive
i=1
1
Soit h telle que h(Sn) ∈ L et Eθ(h(Sn)) = 0. La loi de Sn est la loi Γ(n, θ)
∞ −xθ n−1 n ∞
e x θ
∫0 ∫0
n−1 −xθ
Eθ(h(Sn)) = h(x) dx = 0 ∀θ > 0 ⇔ h(x)x e dx = 0 ∀θ > 0
Γ(n)
n−1 n−1
La transformation de Laplace de x ↦ h(x)x est nulle sur R*
+ Donc x ↦ h(x)x est nulle sur
−xθ n−1 n
e x θ
∫ ∫ c
⊂ ℛ+ tel que dx = 1 et Pθ(Sn ∈ c
)= dx = 0
Γ(n)
n
∑
Sn = Xi est bien une statistique totale
i=1
𝒮
𝒮
𝒮
60
𝒮
Famille exponentielle (suite)
∑
(Admis) La statistique exhaustive Kn(X) = K(xi) est aussi
i=1
une statistique totale
61
Théorème d’unicité
(n)
Soit X = (X1, . . Xn) ∼ Pθ avec θ ∈ Θ et Sn une statistique
exhaustive totale
(1) (2)
Autrement dit si θn et θn sont des estimateurs sans biais
(1) (2)
de θ ∈ Θ alors E(θn | Sn) = E(θn | Sn) ps
📝
62
Théorème d’Optimalité
(n)
Soit X = (X1, . . Xn) ∼ Pθ avec θ ∈ Θ et Sn une statistique
exhaustive totale
63
-2-
2
Optimalité L
64
Théorème d’Optimalité
(n)
Soit X = (X1, . . Xn) ∼ Pθ avec θ∈Θ
Proposition
θn = E(θn | Sn)
66
Borne de Cramer Rao
Théorème
(n)
Soit X = (X1, . . Xn) ∼ Pθ avec θ ∈ Θ ⊂ R. On suppose que le modèle est régulier.
P k
Extension dans g : R ↦ R . On note Dg = ( ∇g1, . . . , ∇gk) avec ∇ le gradient
t −1
La matrice var(gn̂ ) − Dg(θ)In(θ) Dg(θ) est définie positive
68


Remarque Soit θn un estimateur sans biais de θ
RB −1
Si Sn est exhaustive totale et si var(θn ) > In (θ)
Alors il n’existe pas d’estimateur efficace du
paramètre θ
69
Quelles fonctions de g(θ) peuvent être estimées efficacement ?
∂ n
gn̂ − g(θ) = λ(θ) log( f θ (X))
∂θ
Conclusion si g ne vérifie pas la condition ci dessus il
n’existe pas d’estimateur efficace

70
Applications
71
Intervalle de confiance
Chapitre 4
72
Définitions
(n)
Soit X = (X1, . . Xn) ∼ Pθ avec θ∈Θ
On fixe α ∈ (0,1/2)
est un sous ensemble aléatoire Rn(X1, . . . Xn) de Θ qui vérifie la propriété suivante, pour tout θ ∈ Θ
Pθ(Rn(X1, . . . Xn) ∋ θ) ≥ 1 − α ∀θ ∈ Θ
Remarques :
Autrement dit
73
Définitions (suite)
Le coefficient de confiance de Rn(X1, . . . Xn) est défini par
si Pθ(Rn(X1, . . . Xn) ∋ θ) = 1 − α ∀θ ∈ Θ
74
Modèle binomiale
X = (X1, . . Xn) iid suivant la loi
de Bernoulli de paramètre θ
1
En prenant ϵ = , on a
4nα
Pθ(θ ∈ [X̄n − ϵ ; X̄n + ϵ]) ≥ 1 − α
75
Modèle gaussien
X = (X1, . . Xn) iid suivant la loi de gaussienne de moyenne θ et de
variance 1
([ n ] )
q1−α/2 q1−α/2
On a Pθ X̄n − ; X̄n + ∋θ =1−α
n
[ n ]
q1−α/2 q1−α/2
X̄n − ; X̄n + est un intervalle de niveau exact 1−α
n
76
Fonction pivotale
n
Définition : On dit que la fonction h : E × Θ ↦ R est une
fonction pivotale si la loi de h(X, θ) ne dépend pas de θ
− +
Il existe cn , cn tel que pour tout θ∈Θ
− +
Pθ(h(X, θ) ∈ [cn , cn ]) ≥1−α
− +
cn , cn dépendent ni de X ni de θ
77
Construction de la région de confiance
On construit ℓn(α) < un(α) tels que
Hn(un(α)) − Hn(ℓn(α)) ≥ 1 − α
1) Hn(un(αβ)) − Hn(ℓn(αβ)) = 1 − α
donc la région de confiance est de niveau exact 1−α
[Mn(1 − α + β) ] avec
−1/n −1/n
Les intervalles ; Mn β
β ∈ [0,α] sont des intervalles de niveau 1 − α
81
Échantillon Gaussien
X = (X1, . . Xn) iid suivant la loi de gaussienne de moyenne μ et de
2
variance σ
n n
−1 2 2
∑ ∑
On pose X̄n = n Xi et Sn = (Xi − X̄n)
i=1 i=1
Théorème
2
Les variables aléatoires X̄n et Sn sont indépendantes
( n)
2
σ
La loi de X̄n est la loi gaussienne X̄n ∼ N μ ;
2
2
Sn 2
La loi de Rn(σ ) = est la loi du χ à (n-1) degrés de liberté (ddl)
σ2
82
Notation
2 à n ddl
loi N(0,1) Student à n ddl χ
83
Échantillon Gaussien
IC pour la moyenne
Tn(μ) est une fonction pivotale pour la moyenne d’un l’échantillon
gaussien
IC pour la variance
2
Rn(σ ) est une fonction pivotale pour la variance d’un
l’échantillon gaussien
2 2
[ xn−1(1 − α + β) xn−1(β) ]
2
Sn Sn
Pour tout β ∈ [0,α] σ ∈ ;
On observe que le
choix optimal de β est
différent de α/2 = 2.5 %
(trait en noir) mais il
converge vers cette valeur
86
Échantillon Gaussien
2
Région de confiance pour (μ, σ )
( σ )
X̄n − μ
Soit q>0 tel que Pθ ∈ [−q; q] = 1−α
(σ )
Sn
q1, q2 tels que Pθ
2
∈ [q1; q2] = 1−α
2
Comme X̄n et Sn sont indépendante on a
2
( σ )
X̄n − μ Sn
Pθ ∈ [−q; q] ∈ [q1; q2] = 1 − α
σ 2
87
La région définit par les contraintes
2 2 2
[ q2 q1 ]
2
Sn Sn 2
n(X̄ n − μ)
σ ∈ ; et σ ≥
q 2
HIN =
nhI
~ 2
q
non
¥
,
% ,
-
Sila ,
n >
u
Tn
88
Niveau asymptotique
n→∞
∀θ ∈ Θ Pθ(Rn(X) ∋ θ) 1−α
89
Exemple
2
Soit X1, . . . Xn iid L On note μ = E(X1)
n
1 loi 2 1 2
n∑
On a hn(X, μ) = n(X̄n − μ) N(0,1) avec σn = (Xi − X̄n)
σn̂ i=1
hn(X, μ) est une fonction asymptotiquement pivotale
[ n]
σn̂ σn̂
μ ∈ X̄n − q(1 − α/2) ; X̄n + q(1 − α/2) est un intervalle
n
de confiance de niveau asymptotique 1 − α
90
Niveau exact
SoitRn(X) une région de confiance pour le paramètre θ de
niveau asymptotique 1 − α
91
Modèle régulier -1-
̂
MV
L’estimateur du maximum de vraisemblance θ n est
asymptotiquement efficace : ̂
MV loi −1
n(θ n − θ) N(0,I (θ))
n ̂
MV
I(θ)(θ n − θ) est asymptotiquement pivotale
Donc n ̂
MV
I(θ)(θ n
− θ) ∈ [−q(1 − α/2] ; q(1 − α/2]] définit une
région de confiance de niveau asymptotique 1 − α
92
Modèle régulier -2-
̂
MV
L’estimateur du maximum de vraisemblance θ n est
consistant donc si I est une fonction continue alors
n I(θ n )(θ n̂
̂
MV MV
− θ) est asymptotiquement pivotale
̂
MV q(1 − α/2) ̂
MV q(1 − α/2)
Donc θ∈ θn − ; θn + définit un
̂
nI(θn )
MV ̂
nI(θn )
MV
93
méthode -1- Estimation de la variance
̂
On considère θn un estimateur de θ tel que
̂
n(θn − θ)
loi 2
N(0,σ (θ))
n
2
Méthode 1 : si σ est une fonction continue alors (θn̂ − θ)
̂
σ(θn)
est une fonction asymptotiquement pivotale et
̂ ̂
[ ]
̂ q(1 − α/2)σ(θ )
n ̂ q(1 − α/2)σ(θn)
θ ∈ θn − ; θn +
n n
définit un intervalle de confiance de niveau asymptotique 1−α
94
méthode -2- Delta méthode
On considère θn̂ un estimateur de θ tel que
̂ loi 2
n(θn − θ) N(0,σ (θ))
1
Méthode 2 : on considère une fonction g de classe C telle que
[ ] ([ ])
q(1 − α/2) q(1 − α/2) q(1 − α/2) q(1 − α/2)
g(θ) ∈ g(θn̂ ) − ; g(θn̂ ) + ou θ∈g −1
g(θn̂ ) − ; g(θn̂ ) +
n n n n
95

Tests d’hypothèses
Chapitre 5
96
Définition
97
Objectif
(n)
Soit X = (X1, . . Xn) ∼ Pθ avec θ∈Θ
H0 : θ ∈ Θ0 contre H1 : θ ∈ Θ1
H0 est désignée comme l'hypothèse nulle
Si on décide que θ ∈ Θ0, on dit que l’on accepte H0 (on rejette H1)
99
Règle de décision
On teste les hypothèses H0 contre H1
(n) n
On a X = (X1, . . Xn) ∼ Pθ un échantillon à valeurs dans E
n
Un test de H0 contre H1 est une région C⊂E appelée région
critique telle que
100
Remarque
L’objectif serait de sélectionner une région critique qui minimise les
probabilités de ces erreurs.
Cela est généralement impossible car les probabilités de ces erreurs ont
souvent un effet de balancier.
n
C = E on rejette toujours H0 donc la proba de l’erreur de type I est 1
et la proba de l’erreur de type II est nulle
α = sup Pθ(X ∈ C)
θ∈Θ0
c
Pour tout θ ∈ Θ1 on veut minimiser la probabilité Pθ(X ∈ C )
ce qui est équivalent à maximiser Pθ(X ∈ C)
102
Puissance
Définition :
La puissance de la région critique C est une fonction définie sur
Θ1 par pC(θ) = Pθ(X ∈ C) pour tout θ ∈ Θ1.
pC1(θ) ≥ pC2(θ)
αn = sup Pθ(X ∈ C) → α (n → ∞)
θ∈Θ0
pn(θ) = Pθ(X ∈ C) → 1
104
Notation
On utilise la notation Pθ( ⋅ | H0) pour indiquer que θ ∈ ΘO
105
Exemple
X = (X1, . . Xn) ∼ B(θ) la loi binomiale de paramètre θ la proba de succès
∑
Une région critique intuitive : on rejette H0 en faveur de H1 si Xi ≤ K
i=1
n
∑
On choisit K afin de contrôler le niveau : P1/2( Xi ≤ K) ≤ α
i=1
n
∑
La puissance sera p(θ) = Pθ( Xi ≤ K) pour tout θ < 1/2
i=1
106
Fonction de répartition
∑
de Sn = Xi
i
n=20 sous H0 θ = 1/2
on fixe le niveau α = 5%
on ne peut pas trouver de test
de niveau 5%
La puissance est
p(θ) = Pθ(Sn ≤ 5) pour tout p<1/2
107
Comparaison des puissances
108
Tests du maximum de vraisemblance
109
Contexte
Dans cette partie, on suppose que
l’estimateur du MV θ = θ ̂
̂ MV
existe et les hypothèses qui
assurent la consistance et l’efficacité asymptotique sont
satisfaites
V(θ0)
Λn =
V(θ)̂
On a Λn ≤ 1 pour tout θ0
111
Exemple 1
On suppose que les observations sont iid suivant la loi exponentielle
de paramètre 1/θ et on teste H0 θ = θ0 contre H1 θ ≠ θO
On a
112
📝
𝛂
Exemple 2
On suppose que les observations sont iid suivant la loi gaussienne
2 2
N(θ, σ ) où σ est connue.
On teste H0 θ = θ0 contre H1 θ ≠ θO
2 2
( σ/ n ) ( σ/ n )
V(θ0) X̄ − θ0 X̄ − θ0
Λn = ≤ C ⇔ − 2 log(Λ) = ≥ C′ et suit une loi
V(θ)̂
2
du χ (1)
( σ/ n )
X̄ − θ0
On rejette H0 (on accepte H1) si ≥ x1(1 − α)
📝

113
𝛂
Version asymptotique
Théorème 1 (admis)
2 loi 2
V(θ0 )
χL = − 2 log(Λn) χ (1) avec Λn =
V(θ)̂
on teste H0 θ = θ0 contre H1 θ ≠ θO
Règle de décision
2
On rejette H0 ( on accepte H1) si χL ≥ x1(1 − α)
114
Alternative : test de Wald
Théorème 2
2
χW ̂ θ̂ − θ )
= nI(θ)( 2 loi 2
χ (1) avec I l’info de Fisher
0
On teste H0 θ = θ0 contre H1 θ ≠ θO
Règle de décision
2
On rejette H0 ( on accepte H1) si χW ≥ x1(1 − α)
Propriétés :
116
Définition de l’optimalité
Un test C de niveau est sans biais si sa puissance vérifie
pC(θ) = Pθ(X ∈ C) ≥ α pour tout θ ∈ Θ1
On dit qu’un test C est uniformément le plus puissant parmi les
tests de niveau au plus (UPP( )) si pour tout test C* de niveau
au plus , sup Pθ(X ∈ C*) ≤ α, on a pC(θ) ≥ pC*(θ) pour tout θ ∈ Θ1
θ∈Θ0
R = {Z > C}
On fixe un niveau α
Puis on détermine C pour que le
test soit de niveau exact α ou
au plus α
119
Théorème de Neyman Pearson
On suppose que Θi = {θi} pour i=0,1
On teste θ = θ0 contre θ = θ1
Autrement dit
S’il existe Kα tel que Pθ0(Z > Kα) = α alors pour tout test
n
C⊂E tq Pθ0(C) ≤ α on a Pθ1(Z > Kα) ≥ Pθ1(C)
120
📝
𝛂
Corollaire
On teste θ = θ0 contre θ = θ1
V(θ1)
1. Si la loi de Z = est continue alors il existe un test du
V(θ0)
rapport de vraisemblance de niveau et UPP( )
V(θ1)
2. Si la loi de Z = est discrète à valeur dans F et si
V(θ0)
α ∈ {Pθ0(Z > z) , z ∈ F} alors il existe un test du rapport de
vraisemblance de niveau et UPP( )
On dit que {Pθ0(Z > z) , z ∈ F} est l’ensemble des niveaux admissibles
121
𝛂
𝛂
𝛂
𝛂
Famille exponentielle
On suppose que la loi de X appartient à une famille exponentielle
θ∙K(x) + H(x) + q(θ)
canonique {e : θ ∈ Θ}
On teste θ = θ0 contre θ = θ1
122
📝
𝛂
𝛂
En pratique
V(θ1)
On cherche la forme de la région critique du test de Neyman Pearson Z = >K
V(θ0)
une fonction de (X1, . . . Xn) : T(X1, . . . Xn) < et/ou > constantes
Cette étape nécessite la connaissance de la loi de T(X1, . . . Xn) sous H0 c’est a dire si le
paramètre est égal à θ0
3 situations :
∑
La région critique est de la forme log(Xi(1 − Xi)) > K
i=1
n
∑
K est le quantile d’ordre 1 − α de la loi de Tn = log(Xi(1 − Xi)) lorsque θ = θ0
i=1
On observe Tn = − 42.08
Question :
125
Approximation par simulation :
Méthode de Monte Carlo
On répète B (grand ) les deux états suivantes :
sim sim
[1] On simule un échantillon X1 , . . . , Xn iid suivant la loi beta(1,1) (H0)
sim sim sim
∑
[2] On calcule Tn = log(Xi (1 − Xi ))
126
theta0 = 1
n=20
127
Approximation de Monte Carlo
σ0 ( n )
n Tn 1 loi
On applique le TCL : − m0 = (Tn − nm0) N(0,1)
nσ0
on pose N ∼ N(0,1)
( ) ( )
1 1 1
Pθ0(Tn > K) = Pθ0 (Tn − nm0)) > (K − nm0) ≈P N> (K − nm0) =1−α
nσ0 nσ0 nσ0
1
⇒ (K − nm0) ≈ q1−α et donc K ≈ nm0 + nσ0q1−α
nσ0 129
2 situations
Situation 1
130
Suite situation 2
On simule un échantillon de taille B iid
suivant la loi de log(X1(1 − X1)) avec θ = θ0 n=20
theta0 = 1
On approche m0 par la moyenne et σ0 par Y.beta = rbeta(10000,theta0,theta0)
l’écart type de l’échantillon Y = log(Y.beta*(1-Y.beta))
m0 = mean(Y)
sigma0 = sd(Y)
On calcule K = − 39.58419
K = n*m0 +qnorm(.95) *sigma0/sqrt(n)
Cette approximation est valide pour n
grand
132
Définitions
T1 : H0 θ = θ0 contre H1 θ > θO
T2 : H0 θ ≤ θ0 contre H1 θ > θO
T3 : H0 θ = θ0 contre H1 θ < θO
T4 : H0 θ ≥ θ0 contre H1 θ < θO
133
rapport de vraisemblance monotone.
Définition
(n)
Une famille paramétrique {fθ (X1, . . . , Xn), ∀θ ∈ Θ} est une
famille à rapport de vraisemblance monotone en
U(X1, . . . , Xn) si pour tout θ1 > θ2 il existe h croissante tel que
V(θ1)
= hθ1,θ2(U(X1, . . . , Xn))
V(θ2)
Exemple
θ∙K(x) + H(x) + q(θ)
une famille exponentielle canonique {e : θ ∈ Θ}
est une famille à rapport de vraisemblance monotone
134
📝
Test unilatéral UPP( )
Théorème On suppose
(n)
1. {fθ (X1, . . . , Xn),
∀θ ∈ Θ} est une famille à rapport de vraisemblance
monotone en U(X1, . . . , Xn)
A. Pour les tests unilatéraux T1 et T2, le test {U(X1, . . Xn) > Cα} avec
Pθ0(U(X1, . . , Xn) > Cα) = α est un test de niveau et UPP( )
B. Pour les tests unilatéraux T3 et T4 le test {U(X1, . . Xn) < Dα} avec
Pθ0(U(X1, . . , Xn) < Dα) = α est un test de niveau et UPP( )
135
𝛂
𝛂
𝛂
𝛂
𝛂
Test sur la moyenne θ d’un échantillon gaussien
de variance connue
2 2
On considère des observations iid suivant la loi N(θ, σ ) avec σ
connue
{ n }
σq1−α
X̄n > θ0 + est un test de niveau et UPP( )
{ n}
σqα
B. Pour les tests unilatéraux T3 et T4 le test X̄n < θ0 +
{ n }
σq1−α/2
Le test | X̄n − θ0 | > est un test de niveau 📝
137
𝛂
𝛂
𝛂
Tests avec paramètre de
nuisance
138
P
Dans cette partie on suppose queΘ ⊂ R et on veut
effectuer un test sur une coordonnée de θ
Ou inversement
139
Dans cette partie, on suppose que la loi des observations
appartient à une famille exponentielle canonique
T3 : H0 θi = θ0 contre H1 θi ≠ θ0
142
𝛂
𝛂
2
Application pour les échantillons gaussiens N(μ, σ )
La famille des lois gaussienne est une famille
exponentielle
1
− 2
n 2 μ
∑i=1 Xi + 2
n
∑i=1 Xi 1 2 2
−nμ /(2σ )
fθ(X) = e 2σ σ e
( 2πσ)2
μ n
(K2)
∑i=1 Xi
( ∑i=1 Xi )
σ2 K1
avec θ= −1
et K(X) = n 2
=
2σ 2
2 2
Si σ = σ0
n
1 2 1 1 2 2
∑
alors la loi de W = (Xi − X̄n ) = (K2 − K1 ) ∼ χ (n − 1) (La loi ne dépend pas
σ0 i=1
2 σ0
2 n
de μ)
W = g(K1, K2) est une fonction linéaire croissante par rapport à la 2 ème
coordonnée 144
2 2 2 2
1) T1 : σ ≤ σ0 contre σ > σ0
n
2 2
∑
Le test de région critique (Xi − X̄n) > σ0 xn−1(1 − α) est de niveau α et
i=1
UPPSB(α)
2 2 2 2
2) T2 : σ ≥ σ0 contre σ < σ0
n
2 2
∑
Le test de région critique (Xi − X̄n) < σ0 xn−1(α) est de niveau α et
i=1
UPPSB(α)
2 2 2 2
3) T3 : σ = σ0 contre
σ ≠ σ0
Le test de région critique
n n
2 2 2 2
∑ ∑
(Xi − X̄n) < σ0 xn−1(α/2) ∪ (Xi − X̄n) > σ0 xn−1(1 − α/2)
i=1 i=1
est de niveau α et UPPSB(α) 145
Test sur la moyenne
T1 : μ ≤ 0 contre μ > 0 est équivalent θ1 ≤ 0 contre θ1 > 0
n
X̄n 2 2 1 2
∑
Si μ = 0 (θ1 = 0) alors Tn = n ∼ Student(n − 1) avec Sn = (Xi − X̄n) = K2 − K1
Sn2 i=1
n
n−1
146
1) T1 : μ ≤ 0 contre μ > 0 est équivalent θ1 ≤ 0 contre θ1 > 0
Sn
La test de région critique X̄n > tn−1(1 − α) est de niveau α et UPPSB(α)
n n−1
Sn
La test de région critique X̄n < tn−1(α) est de niveau α et UPPSB(α)
n n−1
3) Tester μ ≤ μ0 contre μ > μ0 est équivalent à T1 sur l’échantillon X1 − μ0, . . . , Xn − μ0 X̄n → X̄n − μo et
Sn → Sn
148
Test et Pvalue
149
C’est une présentation alternative des résultats d’un test
alors
Pvalue = 1 − F0(Tn(X1, . . . , Xn))
151
{Tn(X1, . . , , Xn) < cα} avec cα le quantile
Si le test s’écrit
d’ordre α de la Loi de fonction de répartition F0
Si le test s’écrit
{Tn(X1, . . , , Xn) < cα/2} ∪ {Tn(X1, . . , , Xn) > c1−α/2}
152
153