Académique Documents
Professionnel Documents
Culture Documents
par
Jean-Philippe TURCOTTE
UNIVERSITÉ DE SHERBROOKE
ii
SOMMAIRE
iii
d'échelle. Des liens entre ces deux problèmes seront énoncés et nous trouverons des condi-
tions sur la famille de densités étudiée pour trouver des estimateurs minimax. Quelques
exemples concluront cette section. Finalement, le chapitre 5 est l'intégrale de l'article
déposé en collaboration avec Tatsuya Kubokawa, Éric Marchand et William E. Straw-
derman, concernant l'ensemble du problème étudié dans ce mémoire, à savoir l'estimation
par densité prédictive dans un espace paramétrique restreint.
iv
REMERCIEMENTS
Je tiens d'abord à remercier mes directeurs de maîtrise. En premier lieu, M. Éric Mar-
chand pour sa disponibilité, sa compréhension, son soutien et pour tout ce que j'ai pu
apprendre durant les deux dernières années, mais aussi M. William E. Strawderman pour
son aide et le temps qu'il m'a consacré. Je voudrais aussi remercier tous mes confrères
et consoeurs de travail pour les discussions mathématiques et le soutien. Merci au dé-
partement de mathématiques de l'Université de Sherbrooke et au Fonds de recherche du
Québec Nature et technologies (FRQNT) pour leur aide nancière. Finalement, un merci
tout spécial à ma famille pour m'avoir épaulé et encouragé, en particulier mon copain
Michaël.
Jean-Philippe Turcotte
Sherbrooke, décembre 2012
v
TABLE DES MATIÈRES
SOMMAIRE iii
REMERCIEMENTS v
TABLE DES MATIÈRES vi
LISTE DES FIGURES viii
NOTATION xi
INTRODUCTION 1
CHAPITRE 1 Préliminaires 3
1.1 Dénitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
vi
2.2 Estimateur de Bayes empirique . . . . . . . . . . . . . . . . . . . . . . . 14
5.1.1 Preamble . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
vii
5.3 Location and scale families : minimaxity and improvements on q̂ BI . . . . 74
CONCLUSION 96
BIBLIOGRAPHIE 97
viii
LISTE DES FIGURES
3.1 Estimateur de Bayes pour la loi a priori π(θ) = 0, 41{−5}∪{5} (θ)+0, 21{0} (θ)
et pour la loi normale (vx = vy = 1) avec observation x = 2, 5. . . . . . . 34
3.2 Estimateur de Bayes pour la loi a priori uniforme sur [−5, 5] pour la loi
normale (vx = vy = 1) avec observation x = 2 . . . . . . . . . . . . . . . 35
3.3 Estimateur de Bayes pour la loi a priori uniforme sur [−5, 5] pour la loi
normale (vx = vy = 1) avec observation x = 100 . . . . . . . . . . . . . . 36
3.4 Diérence des risques (lois a priori uniforme sur [−5, 5] et sur les réels avec
vx = vy = 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.5 Estimateur de Bayes pour la loi a priori uniforme sur les réels positifs pour
la loi normale (vx = vy = 1) avec observation x = −2 . . . . . . . . . . . 39
3.6 Diérence relative des risques (loi a priori uniforme sur les réels positifs
et sur les réels avec vx = vy = 1) . . . . . . . . . . . . . . . . . . . . . . . 40
ix
4.2 Diérence relative des risques pour la loi exponentielle avec σ = 1 et x = 2. 51
4.4 Diérence relative des risques pour estimateurs de Bayes sous loi a priori
1
1 + (β)
β R
et sous loi a priori β1 1]0,1] (β) pour loi Gamma (α1 = α2 = 1). . . 59
x
NOTATION
θ : Paramètre d'intérêt
δ : Estimateur
p(·), q(·) : Fonctions de densités
pb : Densité prédictive
π(·) : Densité de la loi a priori du paramètre θ
δπ , θbπ : Estimateurs de Bayes du paramètre θ associés à la loi a priori π
pbπ : Estimateur de Bayes de la densité p(·) associé à la loi a priori π
mπ (·) : Densité marginale sous la loi a priori π
LKL : Fonction de perte Kullback-Leibler
LQ : Fonction de perte quadratique
RKL : Fonction de risque Kullback-Leibler
RQ : Fonction de risque quadratique
∆(·) : Diérence entre les risques de deux estimateurs
rπ : Risque de Bayes associé à la loi a priori π
p : Dimension
∇ : Gradient
∇· : Divergence
∇2 : Laplacien
φ(·) : Densité d'une loi normale
Φ(·) : Répartition d'une loi normale
1D (·) : Fonction constante égale à 1 sur l'espace D
xi
INTRODUCTION
Dans le domaine de la statistique, l'estimation est un domaine très utile pour comprendre
le monde qui nous entoure et prédire de futurs événements. Plusieurs statisticiens se sont
penchés sur l'estimation de paramètres de position ou d'échelle tels que la moyenne ou
la variance d'une variable X de loi normale.
Ainsi, nous consacrerons nos eorts sur l'estimation de la fonction de densité d'une va-
riable Y dans le cadre paramétrique à partir d'une observation X . Nous débuterons par
se choisir une fonction de perte mesurant l'erreur d'une estimation. La perte Kullback-
Leibler jouera un rôle important dans ce mémoire. Elle possède des propriétés intéres-
santes que nous démontrerons.
1
Par la suite, pour mieux comprendre l'estimation par densité prédictive et établir des
liens, nous réviserons plusieurs résultats concernant l'estimation ponctuelle du paramètre
d'intérêt sous la perte quadratique. En particulier, nous rappellerons les résultats concer-
nant l'ecacité de l'estimateur de James-Stein qui domine l'estimateur usuel X . De plus,
nous établirons des conditions sur la loi a priori pour qu'ils conduisent à un estimateur
minimax.
2
CHAPITRE 1
Préliminaires
Ce chapitre fait un rappel des dénitions concernant l'inférence bayésienne et des pro-
priétés de la perte Kullback-Leibler qui sera utilisée dans ce mémoire.
1.1 Dénitions
Tout au long de ce mémoire, nous faisons référence à certaines notions d'inférence sta-
tistique. Pour mieux comprendre ce dont on parle, voici quelques dénitions auxquelles
on fait référence. Nous travaillons avec un modèle statistique X ∼ pθ , où θ ∈ Θ avec
Θ un espace paramétrique. Nous dénotons par δ des estimateurs, par δ(x) des estimés
fonctions de l'observation X = x et par L(θ, δ(X)) la perte mesurant l'erreur de notre
estimation.
3
Une propriété utile pour choisir un estimateur est la minimaxité.
Dénition 1.1.2. Pour un problème d'estimation avec risque R(θ, δ), un estimateur
δ0 est minimax s'il minimise le risque maximal en θ, c'est-à-dire si sup R(θ, δ0 ) =
θ
inf sup R(θ, δ).
δ θ
Nous souhaiterons à plusieurs reprises comparer deux estimateurs dans un même contexte.
Qu'est-ce qui ferait qu'un estimateur serait plus performant qu'un autre relativement au
risque déni ?
Dénition 1.1.3. Un estimateur δ domine un autre estimateur δ pour une perte L(θ, δ)
1 2
Dénition 1.1.4. Pour une loi a priori π(θ) sur le paramètre θ et pour la perte L(θ, δ),
l'estimateur δπ de θ est un estimateur de Bayes s'il minimise la perte espérée a posteriori
E θ|X [L(θ, δ)].
La classe des estimateurs de Bayes peut être agrandie en généralisant le concept d'esti-
mateur de Bayes.
Dénition 1.1.5. Un estimateur δ 0 est dit Bayes par extension lorsqu'il existe une suite
de lois a priori propres {πm }m≥1 telle que lim rπm (δπm ) = lim rπm (δ0 ) < ∞ où rπm (δ) =
m→∞ m→∞
E [R(θ, δ)] est le risque intégré de Bayes pour la loi a priori πm et où δπm est l'estimateur
θ
Il a été démontré qu'il existe un lien entre la minimaxité d'un estimateur et le fait qu'il
soit un estimateur de Bayes, comme le souligne le théorème suivant.
4
Théoreme 1.1.6. Un estimateur de Bayes par extension δ dont le risque est R(θ, δ ) = c
0 0
Or, pour ce même , il existe une valeur m0 ≥ 1 tel que c ≤ rπm0 (δπm0 ) + ,
Ainsi, on peut considérer ces dénitions et ces résultats au cours de ce travail lorsqu'ils
sont utiles.
Quels sont les critères d'une bonne fonction de perte ? Quelles caractéristiques peuvent
être avantageuses ? Pour commencer, nous voulons qu'elle soit positive et qu'elle soit
5
nulle pour une estimation qui s'avère exacte. Aussi, il est préférable qu'elle soit dénie
de façon intrinsèque, c'est-à-dire que si on procède à un changement de variables par une
fonction strictement monotone, il n'y ait pas d'impact sur la perte ou sur le choix de
l'estimateur.
Z
p(y) p(Y )
LKL (p, pb) = p(y)log( )dµ(y) = E Y [log( )],
pb(y) pb(Y )
Cette perte considère la distance entre les deux densités en chaque point y à travers leur
vraisemblance. Notons aussi que cette fonction de perte peut être décrite par l'expression :
Z
pb(y) pb(y)
LKL (p, pb) = p(y)( − log( ) − 1)dy, (1)
p(y) p(y)
ce qui laisse présager qu'il y a un lien direct entre cette fonction de perte et la perte
entropie ρ(t) = t − log(t) − 1 où t = pb(y)
p(y)
. On peut donc interpréter cette perte comme la
perte entropie moyenne pondérée par la fonction de densité de Y .
Démonstration. (i) Comme la fonction −log est stictement convexe sur ]0, ∞[, on peut
déduire le résultat suivant par l'inégalité de Jensen :
6
L(p, pb) = E Y [log( pp(y)
b(y)
)]
p(y)
≥ −log(E Y [ p(y) ])
b
R pb(y)
= −log( p(y) p(y) )
= −log(1)
= 0,
Remarque 1.2.2. On peut aussi déduire le résultat du fait que la perte entropie est
toujours positive ou nulle. Ainsi, la perte Kullback-Leibler qu'on peut exprimer sous la
forme L(p, pb) = p(y)( pp(y)
R b(y)
− log( pp(y)
b(y)
) − 1)dy (voir notes non publiées de Marchand ) [17]
a la même propriété.
et Y1 = h(Y ) ∼ pY1 (·) où h(·) est strictement monotone. Soient pbY et pbY1 des estimateurs
de pY et pY1 respectivement. Alors, L(pY , pbY ) = L(pY1 , pbY1 ) où pbY1 est la densité de
Y10 = h(Y 0 ) avec Y 0 ∼ pb(·).
Démonstration. On a :
7
p (Y )
L(pY1 (·), pbY1 (·)) = E Y1 [log( pbYY1 (Y11 ) )]
1
|(h−1 (Y 0 −1
|pY (h (Y1 ))
= E Y1 [log( |(h−1 (Y11 ))
))0 |b
pY (h−1 (Y1 ))
)]
p (Y )
= E Y [log( pbYY (Y ) )]
= L(pY (·), pbY (·)).
Problème (∗)
Soient X|θ ∼ p (·|θ) et Y |θ ∼ p (·|θ) indépendantes. Nous tentons d'estimer
sous la perte Kullback-Leibler p (·|θ) à partir d'une ou plusieurs observations
X Y
arrive qu'on utilise une loi a priori non informative lorsqu'aucune information
sur θ n'est disponible.
Pour le problème d'estimation ponctuelle de θ sous la perte quadratique L(θ, δ(x)) =
kθ − δ(x)k2 , on remarque que l'estimateur de Bayes associé à une loi a priori π est E[θ|X]
si E[kθk2 |X] < ∞, car cet estimateur minimise, pour tout x, l'espérance a posteriori de
la perte. Ce résultat naturel se rencontre aussi pour le problème ∗ , comme démontré ()
[1]).
dans Aitchison (
Proposition 1.2.4. Pour le problème (∗), l'estimateur de BayesR pb (·; X) est la densité π
Démonstration. L'estimateur de Bayes associé à une loi a priori π sur θ est celui qui
minimise, pour tout x, l'espérance a posteriori de la perte. On a :
8
π(θ|x)p(y|θ) log( pp(y|θ)
RR
E θ|X=x [LKL (θ, pb)] = b(y|x)
)dν(θ)dµ(y)
Y Θ R
pb(y|x) R
= C − p(y|x) log( p(y|x) )dµ(y) + p(y|x) log(p(y|x))dµ(y)
Y
R Y
≥ C + p(y|x) log(p(y|x))dµ(y)
Y
Pour la perte L2 , on a :
RR
E θ|X=x [L2 (θ, pb)] = π(θ|x)(p(y|θ) − pb(y|x))2 dν(θ)dµ(y)
Y
RΘR RR
= π(θ|x)p(y|θ)2 dν(θ)dµ(y) − 2 π(θ|x)p(y|θ)b
p(y|x)dν(θ)dµ(y)
Y Θ
RR Y Θ
+ p(y|x)2 dν(θ)dµ(y)
π(θ|x)b
Y Θ R R
= C − 2 p(y|x)b p(y|x)dµ(y) + pb(y|x)2 dµ(y)
Y Y
perte a posteriori.
et θ ∼ N (µ, vθ Ip ).
On trouve à partir de ces informations que X ∼ Np (µ, (vθ + vx )Ip ). Ainsi, la loi de θ|X
est dénie par la densité suivante :
9
vθ +vx 2
1
p e
−1
2 vθ vx kθ− vxvθµ+v θx
+vx k
−
e
1
2(vθ +vx )
kx−µk2
(4π 2 vθ vx ) 2
π(θ|x) = − 1 kx−µk2
1 2(vθ +vx )
p e
(2π(vθ +vx )) 2
v +vx v µ+v x 2
vθ +vx p −1 θ θ− xv +v θ
= ( 2πv θ vx
) e 2 2 vθ vx θ x .
Finalement, par un développement similaire à celui utilisé pour trouver la densité mar-
ginale de X et à celui détaillé dans l'Exemple 3.1.2, on a que pb(·|x) ∼ Np (µ(x), (v(x) +
vy )Ip ).
Ce résultat est intéressant, car on peut établir des parallèles avec l'estimation ponctuelle
de θ sous la perte quadratique kδ − θk2 . D'abord, il est à remarquer que µ(x) est l'esti-
mateur de Bayes de θ sous la perte quadratique kd − θk2 avec la même loi a priori. Ainsi,
l'estimateur de Bayes de p(·|θ) est la densité d'une loi normale de moyenne µ(x) et de
variance supérieure à la variance vy . Aussi, en choisissant µ = 0 et vθ → ∞, on en déduit
l'estimateur de Bayes généralisé pbU (·|x) ∼ Np (x, (vx + vy )Ip ). Finalement, on sait que ces
estimateurs pb(·|x) ∼ Np (µ(x), (v(x) + vy )Ip ) sont admissibles, car ils sont des estimateurs
de Bayes uniques avec un risque intégré de Bayes rπ ni.
θ y e−θ θ x e−θ
R∞
0 y! x!
dθ
pbπ (y|x) = R ∞ θx e−θ
R∞0 x!
dθ
x+y e−2θ dθ
1 0R θ
= y! ∞ x −θ
0 θ e dθ
x+y
P (x+y)! θx+y−i −2θ ∞
[− (x+y−i)! 2i+1
e ]θ=0
1 i=0
= y! x
x!
θx−i e−θ ]∞
P
[− (x−i)! θ=0
i=0
x+y
( 12 )x+y+1 1{0,1,2,...} (y).
= y
10
On reconnaît ici la fonction de masse d'une loi binomiale négative où y représente le
nombre d'échecs obtenus avant qu'on obtienne le (x + 1)e succès et où la probabilité de
succès est de 12 .
Ainsi, les notions décrites dans ce chapitre seront utilisées pour présenter les résultats
principaux de ce mémoire. On étudiera la minimaxité et la dominance de certains esti-
mateurs. La perte Kullback-Leibler sera utilisée dans le cadre du problème d'estimation
par densité prédictive.
11
CHAPITRE 2
Estimation de Stein
Dans cette section, nous nous attarderons au problème d'estimation ponctuelle d'un
paramètre de position θ sous la perte quadratique LQ (θ, δ) = kθ − δk2 à partir d'un
ensemble d'observations. Bien que la moyenne échantillonnale tirée d'une loi normale avec
moyenne θ et matrice de variance-covariance Ip soit sans biais, minimax et l'estimateur
du maximum de vraisemblance, il a été démontré par Stein ( [21]) et par James et Stein
[10]), que cet estimateur est inadmissible pour des dimensions p ≥ 3, c'est-à-dire qu'il
(
existe un estimateur dont le risque est inférieur ou égal sur l'espace paramétrique avec
une inégalité stricte en au moins un point.
Nous aborderons plus précisément ce problème à partir d'une population de loi multi-
normale Np (θ, σ 2 Ip ) où σ 2 est connue. Nous disposons d'un échantillon X1 , X2 , ..., Xn .
Puisque X est une statistique exhaustive de loi Np (θ, σn Ip ), on peut considérer une seule
2
Dans ce contexte, l'estimateur de James-Stein est donné par δJS (X) = (1 − kXk
p−2
2 )X . Pour
Nous savons que E[(X − θ)0 θ] = 0, ce qui nous suggère que ces deux vecteurs sont en
moyenne orthogonaux. Nous savons aussi que E[kXk2 ] = pσ 2 +kθk2 , ce qui pourrait nous
faire croire que X est un estimateur trop long de θ dans le sens où E[kXk2 ] > kθk2 . La
projection (1 − a)X de θ sur X serait donc une meilleure approximation. Considérons Y
comme dans la gure 2.1. En supposant que X − θ et θ soient vraiment orthogonaux et
que kXk2 mesure vraiment pσ 2 + kθk2 , nous avons d'un côté :
13
kY k2 = kX − θk2 − a2 kXk2
= pσ 2 − a2 kXk2
et de l'autre
Dans ce cas, la loi a posteriori de θ|X = x est une loi normale de moyenne b
σ 2 +b
X =
(1 − σσ2 +b )X . Il s'agit de l'estimateur de Bayes pour la perte quadratique LQ . Il reste donc
2
14
2.3 Résultats de dominance
Les deux sous-sections précédentes nous ont proposé des estimateurs de la forme (1 −
aσ 2
kXk2
)X pour un paramètre de position θ qui semblent plus appropriés que X . Nous
retraçons ici le résultat à l'eet que l'estimateur X est dominé pour la perte quadratique
LQ par ces estimateurs, soient celui obtenu par l'approche géométrique et l'autre obtenu
par l'approche Bayes empirique.
Nous avons besoin du résultat suivant de Stein ( [22]). Nous dirons qu'une fonction f (x)
est faiblement diérentiable s'il existe une fonction ψ(x) ∈ L1 (R) telle que f (x) =
Rx p
ψ(x)dx. De plus, la divergence d'une fonction f (x) est ∇ · f (x) = ∂
.
P
∂xi
f (x)
a i=1
R∞ x2
E[Xg(X)] = √1 xg(x)e− 2 dx
−∞ 2π
x2 R∞ x2
= √1 ([−g(x)e− 2 ]∞ + g 0 (x)e− 2 dx)
2π x→−∞ −∞
0
= E[g (X)],
15
E[X 0 g(X)] = E[
P
P Xi gi (X)]
= P E[Xi gi (X)]
= E[ ∂ g (X)]
P ∂x∂ i i
= E[ ∂xi gi (X)]
= E[∇ · g(X)].
Le théorème qui suit a bouleversé les croyances sur l'estimateur X intuitif et considéré
ecace pour une moyenne, car il est minimax, sans biais et estimateur du maximum de
vraisemblance.
2
aσ 2
R(θ, δa ) = Eθ [ (1 − kXk2
)X − θ ]
2 X (X−θ) 0
2 4 1 2
= Eθ [kX − θk ] + a σ Eθ [ kXk 2 ] − 2aσ Eθ [
kXk2
]
p
(Xi −θ)
1
= pσ 2 + a2 σ 4 Eθ [ kXk 2
Eθ [ XiP
P
2 ] − 2aσ p ]
i=1 Xj2
j=1
p
1 Xi
= pσ 2 + a2 σ 4 Eθ [ kXk 4
Eθ [ dxd i
P
2 ] − 2aσ p ]
Xj2
P
i=1
j=1
p
Xj2 −2Xi2
P
p
1
= pσ 2 + a2 σ 4 Eθ [ kXk 4
Eθ [ j=1P
P
2 ] − 2aσ p ]
i=1 ( Xj2 )2
j=1
2 2
1 pkXk −2kXk
= pσ 2 + a2 σ 4 Eθ [ kXk 4
2 ] − 2aσ Eθ [
(kXk2 )2
]
2 4 2 1
= pσ + σ (a − 2a(p − 2))Eθ [ kXk2 ].
16
Comme a2 − 2a(p − 2) = a(a − 2(p − 2)) est négatif pour 0 < a < 2(p − 2), on peut
conclure que δa (X) domine X pour a dans cet intervalle. De plus, ce polynôme atteint
son minimum en a = p − 2.
kXk2
Finalement, lorsque θ = 0, σ2
a pour distribution une loi du khi-deux avec p degrés de
liberté et le risque est donc de :
σ2 (p − 2)2
R(0, δp−2 ) = pσ 2 − σ 2 (p − 2)2 E[ 2 ] = σ 2
(p − ) = 2σ 2
kXk p − 2
.
Finalement, le risque minimal de l'estimateur δp−2 (X) est uniquement atteint pour θ = 0,
car R(θ, δp−2 (X)) = pσ 2 − σ 4 (p − 2)2 Eθ [ kXk
1
2 ] est monotone croissante en kθk.
Tel que décrit par Brandwein et Strawderman ( [3]), les deux généralisations qui suivent
sont à remarquer.
17
2.4 Estimateurs de Bayes : Résultats de minimaxité
Démonstration. On a :
2
R(θ, δ) = E[kX + σ 2 g(X) − θk ]
= E[kX − θk2 ] + σ 4 E[kg(X)k2 ] + 2σ 2 E[g(X)0 (X − θ)]
= pσ 2 + σ 4 E[kg(X)k2 + 2∇ · g(X)],
Lemme 2.4.3. ([22],[23]) Si θ suit une loi a priori π(θ) telle que la marginale m(·)
existe, alors l'estimateur de Bayes est de la forme δπ (X) = X + σ 2 ∇m(X)
m(X)
.
Démonstration. On a :
18
∇m(X) = [ δxδ i f (x|θ)π(θ)dθ]i=1...p
R
= [ − (xiσ−θ i)
R
2 f (x|θ)π(θ)dθ]i=1...p
= [− σ2 m(x) + m(x)
xi
σ2
E θ|X [θi ]]i=1...p
= m(X)
σ2
(−X + δπ (X))
∇m(X)
⇒ δπ (X) = X + σ 2 .
m(X)
Γ( p2 )
tout x0 ∈ Rp et pour tout r > 0, on a φ(x0 ) ≥ φ(x)dUSr,x0 (x), où Sr,x0 =
R
p p
−1
(2π) 2 r 2
Sr,x0
{x ∈ R : kx − x0 k = r} est la sphère de rayon r centrée en x0 et USr,x0 est la mesure
p
Théoreme 2.4.6. ([22],[23]) Si θ suit√ une loi a priori π(θ) telle que lapmarginale m(·)
2
∇ m(X)
existe, alors R(θ, δπ ) = pσ 2 + 4σ 4 E[ √ ] et δπ est donc minimax si m(X) est une
m(X)
fonction superharmonique.
19
2
∇m(X) ∇m(X) k∇m(X)k2 2 2
m(X)
+ 2∇ · m(X)
= m(X)2
+ 2 m(X)∇ m(X)−k∇m(X)k
m(X)2
2m(X)∇2 m(X)−k∇m(X)k2
= m(X)2
.
√
4∇2
√ m(X) = √ 4
p
∇ ·∇ m(X)
m(X) m(X)
= √4 ∇ · ( ∇m(X)
√ )
m(X) 2 m(X)
√ ∇m(X)
m(X)∇2 m(X)−∇m(X)· √
= √ 2
m(X)
2 m(X)
m(X)
2m(X)∇2 m(X)−k∇m(X)k2
= m(X)2
.
Le résultat suivant nous assure de la minimaxité d'un estimateur de Bayes dès que la loi
a priori π(θ) est superharmonique ou dès que la loi marginale de X est superharmonique.
Proposition 2.4.7. Soit une loi a priori π(·) superharmonique telle que la marginale
mX (·) existe. Alors mX (·) est superharmonique et mX (·) est superharmonique.
p
R
∇2x mX (x) = R∇2x fX|θ (x)π(θ)dθ
= R ∇x · (∇x fX|θ (x))π(θ)dθ
= ∇x · [− 2σ1 2 (2(xi − θi ))fX|θ (x)]pi=1 π(θ)dθ
p 2
(− σ12 + (xi −θ i)
R P
= σ4
)fX|θ (x)π(θ)dθ
i=1
= − σp2 mX (x) + 1
σ4
E θ [(θ − X)0 (θ − X)π(θ)] (où θ ∼ N (x, σ 2 ))
p
− σp2 mX (x) + σ12 E θ [ (π(θ) + (θi − Xi ) δθδ i π(θ))] (par le Lemme de Stein)
P
=
i=1
1 θ 0
= σ 2 E [(θ − X) ∇ θ π(θ)]
= 1
σ2
E θ [∇2θ π(θ)] (par le Lemme de Stein)
≤ 0.
20
Ainsi, π(θ) superharmonique ⇒ mX (x) superharmonique.
p
∂ X
π(θ) = −2kθi ( θi2 )−k−1 .
∂xi i=1
21
Ainsi, le Laplacien équivaut à :
p p p
∇2 π(θ) = θi2 )−k−1 + 4k(k + 1)θi2 ( θi2 )−k−2 )
P P P
(−2k(
i=1 i=1 i=1
p p
−2k
θi2 1)θi2 )
P P
= p
P 2 k+2 ( − 2(k +
i=1 ( θ i ) i=1
i=1
p p
−2k
(p θi2 θi2 )
P P
= p − 2(k + 1)
θi2 )k+2
P
( i=1 i=1
i=1
−2k
= p (p − 2(k + 1)).
θi2 )k+1
P
(
i=1
22
CHAPITRE 3
Multinormale
Problème (∗∗)
Considérons le problème où on cherche à estimer la fonction de densité d'une
variable aléatoire Y ∼ N (θ, v I ) à partir de l'observation de X ∼ N (θ, v I )
pour prédire un futur comportement de Y . Les variances v et v sont connues.
p y p p x p
x y
23
La perte utilisée est la perte de Kullback-Leibler.
Nous comparerons l'ecacité d'un estimateur par substitution avec l'estimateur de Bayes
découlant de lois a priori non informatives. Nous établirons aussi des liens avec des
problèmes où il y a une contrainte sur le paramètre θ.
Or, si on n'a aucune information sur la distribution de θ, quelle loi a priori peut-on
choisir ? Voilà la question qui rend certains statisticiens sceptiques. Nous considérerons
des lois a priori non-informatives pour éviter toute subjectivité du statisticien. De telles
lois sont présentées au chapitre 3 du livre de Robert ( [20]).
Dénition 3.1.1. Une loi a priori dont la mesure de l'ensemble total est innie mais
conduisant à une loi a posteriori de mesure 1 est dite impropre.
Les lois impropres sont souvent utilisées dans le domaine de la statistique bayésienne, car
elles possèdent, mais pas toujours, de bonnes propriétés fréquentistes. Elles représentent
souvent des choix par défaut ou appropriés lorsqu'il n'y a pas d'information a priori
explicite.
Exemple 3.1.2. Dans le cadre du problème (∗∗), en imposant la loi a priori uniforme
sur les réels et en considérant que l'estimateur de Bayes se calcule comme énoncé dans
le chapitre 1, on obient :
24
−1
R 1
−1
kθ−xk2 1 ky−θk2
pbU (y|x) = p e 2vx p e y
2v
dθ
(2πvx ) 2 (2πvy ) 2
−1
1
R 1 (vy kxk +vx kyk +(vx +vy )kθk2 −2(vy x+vx y)0 θ)
2 2
= p p e x y
2v v
dθ
(2π) 2 (2πvx vy ) 2
−(vx +vy ) v x+v y v kxk2 +v kyk2
1
R vx +vy p (kθk2 −2( yv +vx )0 θ+ y v +vx )
= p ( 2πv x vy
)2 e 2vx vy x y x y dθ
(2π(vx +vy )) 2
2 kyk2 +2v v x0 y
v 2 kxk2 +vx
−(vx +vy ) vy kxk2 +vx kyk2 x y
1 ( − y )
2vx vy vx +vy (vx +vy )2
= p e
(2π(vx +vy )) 2
2
R vx +vy p −(vx +vy ) θ−
vy x+vx y
· ( 2πvx vy
) 2 e 2vx vy vx +vy
dθ
2 2 2 2 2 2 0
−(vx +vy ) (vx +vy )vy kxk +(vx +vy )vx kyk −vy kxk −vx kyk +2vx vy x y
1 2vx vy (vx +vy )2
= p e
(2π(vx +vy )) 2
−1
1 ky−xk2
= p e 2(vx +vy ) ,
(2π(vx +vy )) 2
|θ)
R(θ, pbc ) = E X,Y [log( pbp(Y
c (Y |X)
)]
2
p kY −Xk2
= E X,Y [log(c 2 ) − kY2v
−θk
y
+ 2cvy
]
p vx +vy
= 2 (log(c) − 1 + cvy )
minimisé en c = vx +vy
vy
.
25
Cet estimateur, minimisant le risque sous la perte Kullback-Leibler parmi les estimateurs
de la classe dénie plus tôt, a pour eet d'augmenter la variance de la fonction de densité.
Au lieu de conserver la variance vy de la variable Y , elle additionne la variance vx de
la variable X . Cette ination est due à l'incertitude sur le paramètre θ, interprétable
comme une correction par la substitution du paramètre θ par X .
Pour le problème d'estimation par densité prédictive sous la perte Kullback-Leibler, quelle
est la performance des estimateurs par substitution où on ne fait que remplacer le pa-
ramètre inconnu dans la fonction de densité par un estimateur ? Les résultats suivants
apportent une réponse.
Corollaire 3.1.4. Dans le cadre du problème (∗∗), l'estimateur pb (y|x) domine l'es-
U
On remarque en eet que la diérence des risques de ces deux estimateurs peut s'exprimer
comme suit :
où la dernière inégalité est aisément justiable par l'analyse de la fonction f (x) = log(x+
1) − x qui est strictement décroissante sur ]0, ∞[ avec f (0) = 0.
Ainsi, pour X et Y suivant des lois normales de même moyenne θ inconnue et de matrices
de variances-covariances connues vx Ip et vy Ip , l'estimateur de Bayes pour la densité de Y |θ
26
découlant de la loi a priori uniforme sur les réels domine l'estimateur par substitution
pour la perte Kullback-Leibler. Ce résultat se généralise lorsqu'on observe n variables
provenant de la même loi que X en remarquant que X , statistique exhaustive de cet
ensemble de vecteurs aléatoires observés, suit une loi normale de moyenne θ et de variance
vx
n p
I et peut être considérée comme l'unique observation dans la démonstration.
Le prochain résultat nous donne une raison de plus de prendre en considération l'estima-
teur pbU .
Théoreme 3.1.5. ([2],[8]) Dans le cadre du problème (∗∗), l'estimateur pb U est minimax
pour la perte Kullback-Leibler.
Si nous réussissons à démontrer que pbU est un estimateur de Bayes par extension à risque
constant, nous pourrons conclure qu'il est minimax. Pour ce faire, nous avons besoin du
lemme suivant.
Lemme 3.1.6. ([8]) Dans le cadre du problème (∗∗), on a pour tout π(θ), pb (y|x) = π
mπ,W (w) vy X+vx Y
pb (y|x),
mπ,X (x) U
où W = vx +vy
, mπ,W (·) est la densité marginale de W et mπ,X (·) est
la densité marginale de X .
Démonstration. On a :
R
pπ (x, y) = p(x|θ)p(y|θ)π(θ)dθ
kx−θk2 ky−θk2
R 1 − 1 −
= p e 2vx p e 2vy
π(θ)dθ
(2πvx ) 2 (2πvy ) 2
ky−xk2 kw−θk2
− 2(v +v )
1 1
e−
R
= p e x y p 2vw π(θ)dθ
(2π(vx +vy )) 2 (2πvw ) 2
= pbU (y|x)mπ (w).
Par ce lemme, on aurait pu retrouver l'estimateur de Bayes présenté dans l'Exemple 1.2.5
en remarquant que mπ,X (·) ∼ Np (µ, (vx + vθ )Ip ) et mπ,W (·) ∼ Np (µ, (vw + vθ )).
27
Revenons au Théorème 3.1.5 à démontrer :
R
pU ) − rπn (b
rπn (b pπn ) = R πn (θ)(RKL (θ, pbU ) − RKL (θ, pbπn ))dθ
= R Rπn (θ)(E[log(mπn (W ))] − E[log(mπRn (X))])dθ
R
= πn (θ)p(w|θ)log(mπn (w))dwdθ − πn (θ)p(x|θ)log(mπn (x))dxdθ,
1 2
où mπn (z) = 1
p e− 2(v+n) kzk .
(2π(v+n)) 2
Il est aisé de vérier que l'intérieur de chaque intégrale est O( n1p ), car on a :
Ainsi, chaque intégrale tend vers 0 lorsque n tend vers l'inni. Donc, pbU est Bayes par
extension. De plus, par la Proposition 3.1.3, on sait que pbU a un risque constant pour la
perte Kullback-Leibler. Par le Théorème 1.1.6, il est minimax.
domine l'estimateur pb2 (·|x) ∼ Np (x, cIp ) si et seulement si δ(X) domine X comme esti-
mateur de θ ∈ C sous la perte kθ − δk2 .
28
Démonstration. On a :
p 1 2
(2πc)− 2 e− 2c kY −Xk
R(θ, pb1 ) − R(θ, pb2 ) = E X,Y [log( p 1 2 )]
(2πc)− 2 e− 2c kY −δ(X)k
= 1
2c
E X,Y [kY − δ(X)k − kY − Xk2 ].
2
Le prochain corollaire a été démontré par Komaki ( [11]). En voici une autre démonstra-
tion.
29
Démonstration. (a) Soit Z ∼ Np (θ, vIp ) et posons Z ∗ = Z−θ
√
v
. On a :
∗ √
∂
∂v
E Z [log(mπ (Z))] = ∂
∂v
E Z [log(mπ ( vZ ∗ + θ))]
√
∗ ∂ m ( vZ ∗ +θ)
= E Z [ ∂vmπ (π√vZ ∗ +θ) ]
où
∂ √
√ 2
− 1 k vz ∗ +θ−tk
( vz ∗ ∂ 1
R
∂v
+ θ) = ∂v p e 2v π(t)dt
(2πv) 2 √
0
p
− 12 (− v12 kθ − tk2 − v2v z ∗ (θ − t)))f (z|t)π(t)dt
R
= (− 2v
R p 1 √ ∗ 2 √ ∗0
= (− + 2 (kz − vz − tk + vz (θ − t)))f (z|t)π(t)dt
R 2v 2v √ 0 √ 0
= p
(− 2v + 2v12 (kz − tk2 + v kz ∗ k2 − 2 vz ∗ (z − t) + vz ∗ (θ − t)))
f (z|t)π(t)dt
√ ∗0
R vzp (θ −
+
1
t)))f (z|t)π(t)dt
2 ∗ 2
√ ∗0
= (−
R 2v + 2v 2 (kz − tk − v kz k − vz (θ − t)))f (z|t)π(t)dt
p 2 2
= R (− 2v + 2v2 (kz − tk − kz − θk − (z − θ)0 (θ − t)))f (z|t)π(t)dt
1
= p
(− 2v + 2v12R(kz − tk2 − (z − θ)0 (z − t)))f (z|t)π(t)dt
= ∂
∂v π
m (z) − 2v12 (z − θ)0 (z − t)f (z|t)π(t)dt.
Ainsi,
∂ √ δ
Z∗ m ( vZ ∗ +θ) m (Z) (Z−θ)0
E [ ∂v π√
mπ ( vZ ∗ +θ)
] = E Z [ δvmπ π(Z) − 2v 2
(Z − E T |Z [T ])]
δ 0
m (Z)
= E Z [ δvmπ π(Z) − (Z−θ) 2v 2
(Z − (Z + v ∇m π (Z)
mπ (Z)
))]
δ
m π (Z) 1 ∇m (Z)
= E Z [ δvmπ (Z) + 2v v∇ · mππ(Z) ]
δ 2 2
m (Z)
= E Z [ δvmπ π(Z) + 21 mπ (Z)∇ mmπ (Z)−k∇m
π (Z)
2
π (Z)k
]
∇ 2 m (Z) m (Z)∇ 2 m (Z)−k∇m (Z)k2
1
= E Z [ 2mπ (Z) + 2
π π π
mπ (Z)2
π
]
m (Z)∇ 2 m (Z)− 1 k∇m (Z)k2
π π π
= EZ [ mπ (Z)2
2
]
1 v v
= − 2v2 (RQ (θ, Z) − RQ (θ, θπ,v )), b
30
(b) D'un côté, nous avons :
vx vx vx
RQ (θ, δ1 ) 1 RQ (θ, δ1 )
Z
1 1 vx 1
2
RQ (θ, δ1 )dv = ( − ) =
2 vw v 2 vw vx 2vy
et
Z vx Z vx
1 1 v 1 p p vx + vy
2
RQ (θ, X)dv = dv = log( ).
2 vw v 2 vw v 2 vy
D'un autre côté, la diérence des risques de ces deux estimateurs nous donne :
2 2
E X,Y [log( pbpbU1 )] = E X,Y [− p2 log( vxv+v
y
y
) + kY −δ2v1 (X)k
y
kY −Xk
− 2(v x +vy )
]
vx +vy
= − 2 log( vy ) + 2vy (E [kY − θk ] + E [kδ1 (X) − θk2 ]) −
p 1 X,Y 2 X,Y p
2
vx
RQ (θ,δ1 )
= − p2 log( vxv+v
y
y
)+ 2vy
.
Ce résultat est très intéressant, puisqu'il nous permet de faire des parallèles entre l'esti-
mation par densité prédictive et l'estimation ponctuelle. De (a), nous pouvons conclure
qu'un estimateur de Bayes découlant d'une loi a priori π(θ) domine l'estimateur de Bayes
découlant de la loi a priori uniforme sur les réels pbπ ∼ Np (x, (vx + vy )Ip ) si l'estimateur
de Bayes sous cette loi π pour le problème d'estimation ponctuelle de θ avec perte qua-
dratique et variance connue v domine l'estimateur δ(X) = X pour tout vw ≤ v ≤ vx .
De plus, on peut conclure à nouveau de (a) que l'estimateur pbU est inadmissible pour
p ≥ 3, car l'estimateur X de θ est inadmissible sous la perte quadratique pour p ≥ 3,
comme discuté dans l'article de Komaki ( [11]).
De (b), on peut considérer le cas particulier où on compare l'estimateur par substitution
pb1 ∼ Np (x, vy Ip ) avec l'estimateur pbU . On a :
31
Z vx
1 1 p vx vx
RKL (θ, pb1 ) − RKL (θ, pbU ) = 2
(pvx − pv)dv = ( − log( ) − 1),
2 vw v 2 vw vw
Finalement, on peut combiner les deux résultats pour comparer un estimateur de Bayes
avec un estimateur par substitution, deux estimateurs de Bayes ou deux estimateurs par
substitution. En particulier, on peut armer que, parmi les estimateurs par substitution,
celui qui substitue le paramètre θ par l'estimateur de James-Stein ou tout autre esti-
mateur minimax de la forme X + g(X) du chapitre 2 domine celui qui substitue θ par
l'estimateur X pour p ≥ 3.
Corollaire 3.2.2. Dans le cadre du problème (∗∗), un estimateur de Bayes est minimax
si la loi a priori π(θ) est superharmonique.
Exemple 3.2.3. Dans le cadre du problème (∗∗) avec p ≥ 3 et pour la loi a priori
π(θ) = 1
kθk2k
où 0 ≤ k ≤ p
2
− 1, l'estimateur de Bayes associé pbπ est minimax. On a
démontré la superharmonicité de cette loi a priori dans l'Exemple 2.4.9.
32
3.3 Estimation avec contrainte
Supposons que la seule information que nous possédions à propos du paramètre de posi-
tion θ soit qu'il appartient à un sous-ensemble non vide A de Rp . Existe-t-il un estimateur
dominant pbU pour θ ∈ A ? Regardons quel type d'estimateurs de Bayes nous obtenons
dans certains cas particuliers.
pφ−m,vx (x)
pbπ (y|x) = φ
pφ−m,vx (x)+pφm,vx (x)+(1−2p)φ0,vx (x) −m,vy
(y)+ pφ−m,v (x)+pφpφ m,vx (x)
m,vx (x)+(1−2p)φ0,vx (x)
φm,vy (y)+
x
(1−2p)φ0,vx (x)
φ (y).
pφ−m,vx (x)+pφm,vx (x)+(1−2p)φ0,vx (x) 0,vy
33
0.25
Estimateur de Bayes
0.20
0.15
0.10
0.05
0.00
-4 -2 0 2 4 6 8 10
y
Figure 3.1 Estimateur de Bayes pour la loi a priori π(θ) = 0, 41{−5}∪{5} (θ) + 0, 21{0} (θ)
et pour la loi normale (vx = vy = 1) avec observation x = 2, 5.
La densité prédictive est inuencée par l'incertitude sur la valeur de θ, mais ajuste les
poids en considérant la probabilité p.
34
de l'estimation ponctuelle sous la perte quadratique et l'estimation par densité prédictive
sous la perte Kullback-Leibler représentée dans cet exemple.
Exemple 3.3.2. Toujours dans le cas unidimensionnel, considérons la loi a priori uni-
forme sur [−m, m] de densité π(θ) = 1
1
2m [−m,m]
(θ) pour m > 0. Considérant le résultat
vy X+vx Y
du Lemme 3.1.6 et le fait que X|θ ∼ Np (θ, vx Ip ) et W |θ = vx +vy
∼ Np (θ, vw ) où
vx vy
vw = vx +vy
, on a alors pour estimateur de Bayes :
0.4
Estimateur de Bayes
Estimateur par substitution
0.3
0.2
0.1
0.0
-2 0 2 4 6 8
y
Figure 3.2 Estimateur de Bayes pour la loi a priori uniforme sur [−5, 5] pour la loi
normale (vx = vy = 1) avec observation x = 2
35
En comparant l'estimateur par substitution et l'estimateur de Bayes, on voit clairement
que ce dernier est inuencé par l'incertitude sur la valeur de θ. Malgré la contrainte,
la variance présente dans la densité de Bayes est supérieure à celle de l'estimateur par
substitution.
0.4
Estimateur de Bayes
0.3
0.2
0.1
0.0
0 2 4 6 8 10
y
Figure 3.3 Estimateur de Bayes pour la loi a priori uniforme sur [−5, 5] pour la loi
normale (vx = vy = 1) avec observation x = 100
Dans ce graphe, malgré qu'on ait observé x = 100, la densité prédictive n'est pas centrée
en cette valeur, considérant que −5 ≤ θ ≤ 5. Ainsi, l'estimateur de Bayes pour la loi a
priori uniforme sur l'intervalle [−5, 5] a une moyenne bornée par 5, comme on peut le
voir dans la gure ci-haut.
36
0.4 Différence relative des risques
0.3
0.2
0.1
0.0
-0.1
-4 -2 0 2 4
Θ
Figure 3.4 Diérence des risques (lois a priori uniforme sur [−5, 5] et sur les réels avec
vx = vy = 1)
Le graphe de la gure 3.4, comme le démontre le prochain théorème, illustre le fait que
l'estimateur de Bayes associé à la loi a priori uniforme sur l'intervalle [−5, 5] domine l'es-
timateur pbU pour −5 ≤ θ ≤ 5. En eet, la diérence des risques de ces deux estimateurs
est toujours positive dans cet intervalle.
37
∆(θ) = R(θ, pbU ) − R(θ, pbπU )
= E W [log(Φ( m−W
√
vw
) − Φ( −m−W
√
vw
))] − E X [log(Φ( m−X
√
vx
) − Φ( −m−X
√
vx
))]
= E [log(Φ( √vw − Z) − Φ( √vw − Z)) − log(Φ( √vx − Z) − Φ( −m−θ
Z m−θ −m−θ m−θ √
vx
− Z))],
√ √
où on a eectué les changements de variables w = vw z + θ et x = vx z + θ pour
prendre l'espérance sur une normale centrée et réduite. Or, comme vx > vw , alors on a
m−θ
√
vx
−Z < m−θ
√
vw
− Z et −m−θ
√
vx
−Z > −m−θ
√
vw
− Z pour tout θ ∈ [−m, m]. La diérence des
risques est alors positive, car les fonctions log et Φ sont strictement croissantes.
Exemple 3.3.4. Toujours dans le cas unidimensionnel, considérons la loi a priori im-
propre π(θ) = 1R+ (θ). Par le Lemme 3.1.6, on a alors pour estimateur de Bayes :
Φ( √wvw ) y−x
pb(y|x) = φ( √ )
Φ( √xvx ) vx
+ vy
38
0.35 Estimateur de Bayes
0.30
0.25
0.20
0.15
0.10
0.05
0.00
-2 0 2 4
y
Figure 3.5 Estimateur de Bayes pour la loi a priori uniforme sur les réels positifs pour
la loi normale (vx = vy = 1) avec observation x = −2
Dans la gure 3.5, on remarque que malgré qu'on eut observé une valeur x négative,
la densité prédictive s'en tient aux densités à moyenne positive considérant le domaine
d'appartenance du paramètre θ. La moyenne de cette densité prédictive est alors bornée
par 0, peu importe l'observation.
39
0.4
Différence relative des risques
0.3
0.2
0.1
0.0
-0.1
0 1 2 3 4 5
Θ
Figure 3.6 Diérence relative des risques (loi a priori uniforme sur les réels positifs et
sur les réels avec vx = vy = 1)
Une fois de plus, on remarque dans la gure 3.6 la dominance de l'estimateur de Bayes
pour cette loi a priori sur l'estimateur pbU pour θ ≥ 0. La gure illustre que la diérence
des risques entre ces deux estimateurs est positive sur les réels positifs. Démontrons ce
résultat.
40
Démonstration. On a :
où le même changement de variable que dans le Théorème 3.1.6 a été eectué. Comme
vx > vw , alors Z + √θ
vx
≤Z+ √θ
vw
pour tout θ ≥ 0. La diérence des risques est alors
positive, car les fonctions log et Φ sont croissantes.
On peut généraliser ce résultat de dominance aux ensembles convexes avec intérieur non-
vide et au cas multidimensionnel.
et s = 1 −x
θ√
vx
et où C1 = { √1vw (s − θ) − z : s ∈ C} et C2 = { √1vx (s − θ) − z : s ∈ C}.
Ainsi, si C2 ⊂ C1 , l'intégrande est positive pour tout z ∈ Rp . Il sut donc de montrer
que C2 ⊂ C1 .
Soit c1 ∈ √1 (C
vx
− θ). Alors, il existe un c ∈ C tel que c1 = √1 (c
vx
− θ). On peut en
√ √
déduire que c1 = √1 (c0
vw
− θ) où c0 =
v
√ wc
vx
+ (1 −
v
√ w )θ
vx
. Comme vw < vx , c0 est une
combinaison convexe de c et θ qui sont tous deux éléments de C . Ainsi, c1 ∈ √1 (C
vw
− θ).
Donc, C2 ⊂ C1 et ∆(θ) > 0.
41
Voici une autre démonstration du Théorème 3.3.6 utilisant le Théorème 3.2.1 et un ré-
sultat de Hartigan ( [9]).
Démonstration. Nous savons, par le Théorème 3.2.1, que pour le problème d'estimation
par densité prédictive et pour la perte Kullback-Leibler, la diérence des risques entre
l'estimateur pbU et pbπC peut s'exprimer comme suit :
Z vx
1 1 v v
(R (θ, X) − RQ (θ, θbπC ,v ))dv.
2 vw v2 Q
Le résultat étant démontré pour le problème d'estimation par densité prédictive sous la
perte Kullback-Leibler, on peut déduire un résultat similaire pour l'estimation ponctuelle
sous la perte quadratique donnant une autre démonstration du résultat de Hartigan.
sous la perte quadratique, l'estimateur de Bayes découlant d'une loi a priori uniforme sur
un ensemble convexe C avec intérieur non vide domine X .
42
pour θ ∈ C et pour tout vx , vw positifs, on peut donc en déduire que RQ
v
(θ, X) −
v
RQ (θ, θbπC ,v ) est positif presque partout.
En résumé, nous avons trouvé, dans le cadre de la loi normale, un estimateur pbU possé-
dant des propriétés de minimaxité et de dominance. Un lien entre l'estimation ponctuelle
et l'estimation par densité prédictive a été établi, ce qui nous a conduit à de meilleurs
estimateurs, notamment lorsque le paramètre θ subit une contrainte. Ce mémoire ajoute
alors une meilleure compréhension du problème lorsque l'espace paramétrique est res-
treint.
43
CHAPITRE 4
contrainte
Une grande partie de ce chapitre est adaptée de l'article de Kubokawa, Marchand, Straw-
derman et Turcotte [14]. Cette contribution de recherche, à paraître dans le Journal of
Multivariate Analysis est reproduite au chapitre 5. Nous élaborerons sur le problème
d'estimation par densité prédictives pour des familles de lois à paramètres de position
et d'échelle où le paramètre doit respecter une contrainte. Quelques illustrations seront
présentées.
44
à un sous-ensemble des réels. Nous nous concentrerons sur les conditions nécessaires à la
famille de densités de la variable aléatoire, conditions qui étaient respectées au chapitre
3 dans le cas de la loi normale.
Supposons de plus que θ est restreint à l'intervalle [b, ∞[ et que la condition suivante est
satisfaite :
y.
45
∂ q0 (y−θ)
∂y
( q0 (y) ) ≥ 0
⇒ q00 (y − θ)q0 (y) − q0 (y − θ)q00 (y) ≥ 0
q00 (y−θ) q 0 (y)
⇒ q0 (y−θ)
≥ q00 (y) .
Z 0 Z 0
p0 (x + w − θ)q00 (y + w − θ)dw p0 (x + w)q0 (y + w)dw
−∞ −∞
Z 0 Z 0
≥ p0 (x + w − θ)q0 (y + w − θ)dw p0 (x + w)q00 (y + w)dw.
−∞ −∞
R −θ R0
−∞
p0 (x + w)q00 (y + w)dw p0 (x + w)q00 (y + w)dw
R −θ ≥ R−∞
0 .
−∞
p0 (x + w)q0 (y + w)dw p (x + w)q0 (y + w)dw
−∞ 0
Z −θ Z −θ
−p0 (x−θ)q00 (y−θ) p0 (x+w)q0 (y+w)dw+p0 (x−θ)q0 (y−θ) p0 (x+w)q00 (y+w)dw.
∞ ∞
−θ
q00 (y + w) q00 (y − θ)
Z
p0 (x − θ)q0 (y − θ) p0 (x + w)q0 (y + w)( − )dw.
−∞ q0 (y + w) q0 (y − θ)
Or, (i) nous assure que la quantité intégrée est positive ou nulle pour tout w ∈ [−∞, −θ],
ce qui conclut la démonstration.
46
Passons maintenant au résultat principal de cette section concernant les estimateurs
de Bayes lorsque l'espace paramétrique est restreint. Nous adaptons la méthode IERD
(Integral expression for risk dierence) de Kubokawa ( [12],[13]) pour en faire une dé-
monstration élégante.
Théoreme 4.1.2. [14] Supposons la condition (∗) respectée et π(θ) = 1 [b,∞[ (θ). Alors,
l'estimateur de Bayes pbπ (·|x) est minimax pour θ ≥ b. De plus, pbπ (·|x) et pbU (·|x) ont des
risques égaux si et seulement si θ = b.
Pour faire la démonstration de ce théorème, nous avons besoin d'un résultat connu sur
la covariance.
Lemme 4.1.3. Soient X une variable aléatoire, g(·) et h(·) deux fonctions croissantes
telles que E[g(X)h(X)], E[g(X)] et E[h(X)] existent. Alors, Cov(g(X), h(X)) ≥ 0 avec
égalité stricte ssi g(·) où h(·) est constante avec probabilité un.
Comme la variable aléatoire Y = (h(X1 ) − h(X2 ))(g(X1 ) − g(X2 )) est toujours positive
ou nulle, alors E[Y ] = Cov(h(X), g(X)) ≥ 0. En particulier, on a que E[Y ] = 0 ssi g(·)
ou h(·) est constante avec probabilité 1.
47
R (θ, pbU (·|x)) − RKL (θ, pbπ (·|x))
∆(θ) = RRKL
= p0 (x − θ)q0 (y − θ)(log(b pπ (y|x)) − log(b
pU (y|x)))dxdy.
Or, on a :
R∞ R∞
q (y−a)p (x−a)da q0 (y−a)p0 (x−a)da
pU (y|x)) = log( 0 R0∞ p0 (x−a)da
pπ (y|x)) − log(b
log(b 0
) − log( −∞R ∞ p0 (x−a)da )
0 −∞
R ∞
t q 0 (y−a)p0 (x−a)da
R0 d
= −∞ dt (log( R ∞ ))dt
R0 t p0 (x−a)da
= −∞ ( R ∞ p0 (x−a)da − R ∞ p0 (x−a)q00(y−t)
p 0 (x−t) p 0 (x−t)q
(y−a)da
)dt.
t t
En posant x = x − t et y = y − t, on obtient :
R0
−∞ p0 (x+w)q0 (Y +w)dw
Cov(Aθ (Y |x), R0 − 1) ≥ 0
R0 −∞ p0 (x+w)dwq0 (Y ) R0
Y −∞ p0 (x+w)q0 (Y +w)dw Y Y −∞ p0 (x+w)q0 (Y +w)dw
⇒ E [Aθ (Y |x)( R0 − 1)] ≥ E [Aθ (Y |x)]E [ R0 − 1].
−∞ p0 (x+w)dwq0 (Y ) −∞ p0 (x+w)dwq0 (Y )
R0
X Y Y −∞ p0 (X+w)q0 (Y +w)dw
∆(θ) ≥ E [E [Aθ (y|x)]E [ R0 − 1]]
−∞ p0 (X+w)dwq0 (Y )
= 0,
où la dernière égalité est due à une inversion des intégrales et à un changement de variable
dans la deuxième espérance.
48
R0
−∞ p0 (X+w)q0 (Y +w)dw
De plus, on peut remarquer que nous avons égalité ssi Aθ (Y |X) ou R0 −1
−∞ p0 (X+w)dwq0 (Y )
est constante avec probabilité 1 (voir Lemme 4.1.3), ce qui se produit ssi θ = 0, car, dans
ce cas, A0 (y|x) = 1.
Remarque 4.1.4. On peut étendre ce résultat pour θ ∈]−∞, c]. En eet, les changements
de variables Y = −X et θ0 = −θ mènent, pour des estimateurs de Bayes équivalents, à
des risques égaux. De plus, on a que θ0 est un paramètre de position pour la variable Y .
Pour illustrer les résultats de cette section, voici un exemple respectant les conditions du
contexte décrites au début de ce chapitre.
1 − (t−θ)
fT |θ (t) = e σ 1(θ,∞) (t).
σ
L'estimateur de Bayes découlant de la loi a priori non informative π(θ) = 1R (θ) est :
R∞ 1 −σ 1 (x−θ+y−θ)
−∞ σ 2 e 1(θ,∞) (x)1(θ,∞) (y)dθ
pbU (y|x) = R ∞ 1 − 1 (x−θ)
−∞ e 1(θ,∞) (x)dθ
σ
R min(x,y) 1 −σ1 (x+y−2θ)
−∞ σ
e σ dθ
= Rx −σ1 (x−θ)
−∞ e dθ
1 min(x,y)
[ 12 e− σ (x+y−2θ) ]θ→−∞
= 1
[σe− σ (x−θ) ]x θ→−∞
1 − σ1 (x+y−2 min(x,y))
= 2σ
e
1 − σ1 |x−y|
= 2σ
e ,
qui se trouve à être la densité d'une variable aléatoire de loi de Laplace avec paramètre
d'échelle σ .
D'un autre côté, si on restreint le paramètre θ aux réels positifs, l'estimateur de Bayes
découlant de la loi a priori π(θ) = 1[0,∞[ (θ) est :
49
R∞ 1 −σ 1 (x−θ+y−θ)
e 1(θ,∞) (x)1(θ,∞) (y)dθ
0 σ2
pbπ (y|x) = R ∞ 1 − 1 (x−θ)
0 σe 1(θ,∞) (x)dθ
σ
1 min(x,y)
[ 12 e− σ (x+y−2θ) ]θ=0
= 1
[σe− σ (x−θ) ]x θ=0
1 1
1 e− σ (x+y−2 min(x,y)) −e− σ (x+y)
= 2σ − x 1 (0,∞) (y)
1−e σ
−σ1 |x−y| −σ1 (x+y)
1 e −e
= x 1 (0,∞)(y).
2σ 1−e− σ
y x
pour y ≥ x
( 1 −σ
e (1 +
2σ y
eσ )
pbπ (y|x) = y
1 e σ −e− σ
x
2σ e σ −1
pour 0 < y < x
0.6
0.5
0.4
0.3
0.2
0.1
0.0
-1 0 1 2 3 4 5
y
Bayes sous loi a priori uniforme sur réels
Bayes sous loi a priori uniforme sur réels positifs
50
La gure 4.1 illustre les densités prédictives associées aux lois a priori uniforme sur les
réels et uniforme sur les réels positifs. On remarque que lorsque le paramètre θ est restreint
aux réels positifs, la densité l'est aussi. De plus, cette densité présente des similitudes
avec la densité d'une variable aléatoire de Laplace. La densité prédictive associée à la loi
a priori uniforme sur les réels en est un exemple.
Pour σ = 1, la diérence des risques de ces deux estimateurs est représentée par le
graphique suivant :
0.25
Différence relative des risques
0.20
0.15
0.10
0.05
0.00
0 1 2 3 4 5
Θ
Figure 4.2 Diérence relative des risques pour la loi exponentielle avec σ = 1 et x = 2.
On voit ici une application directe du Théorème 4.1.2. Pour θ ∈ [0, ∞[, l'estimateur de
Bayes découlant de la loi a priori uniforme sur les réels positifs domine l'estimateur de
Bayes découlant de la loi a priori uniforme sur les réels.
51
Le Théorème 4.1.2 peut aussi s'appliquer au problème du Théorème 3.3.6 avec le convexe
C =]0, ∞[. Il s'agit là d'une troisième démonstration de ce théorème dans le cadre uni-
varié, puisque la fonction de densité d'une loi normale respecte la condition (∗).
Démonstration. Dans le chapitre 1, nous avons montré que les deux problèmes sont équi-
valents pour une transformation h(y) strictement monotone sur Y . Montrons le résultat
pour ce cas particulier où h(y) = log(y) en appliquant les mêmes tranformations sur X
et sur θ.
52
0 0
pT 0 |X (t0 ) = et pbπ (et |X)
0
pθR(x)qθ (et )π(θ)dθ
R
0
= et pθ (x)π(θ)dθ
R x0 0 0 0 0 0
e pθ (ex )et qθ (et )π(eθ )eθ dθ0
= R 0
x x 0 θ 0 θ0 0
R 0 e0 p0 θ (e0 )π(e )e dθ
pθ0 (x )qθ0 (t )π 0 (θ0 )dθ0
= R 0
pθ0 (x0 )π 0 (θ0 )dθ0
,
qui est l'estimateur de Bayes du deuxième problème. La perte respective de ces deux
estimateurs est la même, comme démontré à la Proposition 1.2.3.
53
4.3 Cas particulier : Loi Gamma
Dans cette section, nous analyserons plus particulièrement le cas de la loi Gamma en
illustrant la performance de certains estimateurs.
Proposition 4.3.1. La performance d'un estimateur par substitution pb (·|x) ∼ Gamma(α , δ (x)) 1 2 1
Démonstration. On a :
|β)
RKL (θ, pb1 ) = E X,Y [log( pbp(Y
1 (Y |X)
)]
Y
α −1 − β δ1 (X)α2 Γ(α2 )
= E X,Y [log( Yβ α22 Γ(α
e
2) − Y )]
Y α2 −1 e δ1 (X)
1
= E X,Y [Y ( δ1 (X) − β1 ) + α2 log( δ1 (X)
β
)]
X β β
= α2 E [ δ1 (X) − log( δ1 (X) ) − 1],
car E[Y ] = α2 β .
Corollaire 4.3.2. Dans le problème déni plus tôt avec α > 1, l'estimateur par substi-
1
tution pb1 (·|x) ∼ Gamma(α2 , α1x−1 ) est le meilleur parmi les estimateurs par substitution
de la forme pb(·|x) ∼ Gamma(α2 , ax) sous la perte Kullback-Leibler.
54
β β
Eβ [LE (β, aX)] = Eβ [ aX − log( aX ) − 1]
1
= a(α1 −1) + log(a) + Eβ [ Xβ ] − 1,
car Eβ [ X1 ] = 1
(α1 −1)β
. Aussi, puisque X
β
∼Gamma(α1 , 1) (indépendante de β ) et que
E[| log(X)|] < ∞, on obtient un minimum en a = 1
α1 −1
.
La proposition suivante nous donne des formes closes pour, respectivement, l'estima-
teur de Bayes sous une loi a priori impropre non-informative et pour une loi a priori
quelconque.
y
− −x
R∞ y α2 −1 e β xα1 −1 e β 1
0 β α2 Γ(α2 ) β α1 Γ(α1 ) β
dβ
pb0 (y|x) = −
R ∞ xα1 −1 e β 1
x
0 β α1 Γ(α1 ) β
dβ
1 y α2 −1 xα1 −1 R ∞
( x+y ) 1 2 Γ(α )Γ(α ) 0 tα1 +α2 −1 e−t dt
α +α
= 1
1R 2
∞ α −1 −t
t 1 e dt
xΓ(α1 ) 0
Γ(α1 +α2 ) 1 y α2 −1 y −(α1 +α2 )
= ( )
Γ(α1 )Γ(α2 ) x x
(1 + ) x
,
55
y
− −x
R∞ y α2 −1 e β xα1 −1 e β
0 α α
β 2 Γ(α2 ) β 1 Γ(α1 )
π(β)dν(β)
pbπ (y|x) = mX (x)
Γ(α1 +α2 ) y α2 −1 xα1 −1 mZ (z)
= Γ(α1 )Γ(α2 ) (x+y)α1 +α2 −1 mX (x)
mZ (z)
= pb0 (y|x) xz m X (x)
.
Il est à remarquer que la fonction de densité en (a) est une fonction de densité de Fisher
avec paramètre d'échelle α1 x
α2
et degrés de liberté 2α1 et 2α2 , car la fonction de densité
d'une variable aléatoire Z suivant une loi de Fisher de degrés de liberté d1 et d2 est :
d1 d2 d1
Γ( d21 + d22 ) d12 d22 y 2 −1
fZ (z) = d1 d .
Γ( 2 )Γ( d22 ) (d1 y + d2 ) 21 + 22
d
la fonction F α,1 (·) est la fonction de survie d'une loi gamma de paramètres α et 1. Ce
résultat se prouve en remarquant que, pour T |β de loi Gamma(α, β) :
t
1
tα e− β
Z
t · mT (t) = 1]0,∞[ (t)dβ = F α,1 (t)
0 β α+1 Γ(α)
(z + 1)e−z x
pbπ (y|x) = pb0 (y|x) −x
1]0,∞[ (x)1]0,∞[ (z) = (x + y + 1)e−y 1(]0,∞[)2 (x, y).
e (x + y)2
56
0.8
0.6
0.4
0.2
0.0
0 1 2 3 4
y
Bayes sous loi a priori 1Β sur réels positifs
Bayes sous loi a priori 1Β sur @0,1D
Figure 4.3 Estimateurs de Bayes pour loi Gamma (α1 = α2 = 1 avec observation x = 1).
La gure 4.3 illustre les estimateurs de Bayes associés aux lois a priori non informatives
π(β) = β1 1R+ (β) et π(β) = β1 1]0,1] (β). Lorsque β est restreint à ]0, 1], cette restriction est
prise en considération dans l'estimateur. Il est construit avec un paramètre d'échelle plus
petit.
La question revient. Est-ce que cet estimateur domine l'estimateur de Bayes découlant
de la loi a priori non informative π0 (β) = β1 1R+ (β) ? C'est ce que le prochain théorème
tente de démontrer.
Théoreme 4.3.4. Dans le cadre du problème énoncé au début de cette section, l'esti-
mateur de Bayes découlant de la loi a priori non informative π(β) = 1
1 (β)
β ]0,c]
avec
57
c < ∞ domine l'estimateur de Bayes découlant de la loi a priori non informative π0 (β) =
1
1 + (β)
β R
pour β ∈]0, c].
Démonstration. On sait, à partir des résultats démontrés plus tôt (Théorème 4.1.2 et
Proposition 4.2.1), que cette dominance est assurée pour tout α1 , α2 .
Mais, peut-on le démontrer directement ? Le théorème nous dit que ∆(β) ≥ 0 pour
tout β ∈]0, c], mais nous n'avons pas, pour l'instant, de démonstration générale directe.
Cependant, nous en avons une pour α1 = α2 = 1.
F α1 +α2 ,1 (Z)
∆(β) = E X,Y [log( F α1 ,1 (X)
)]
0
= E T [log(F α1 +α2 ,1 (βT ))] − E T [log(F α1 ,1 (βT 0 ))],
Une condition susante serait de montrer que la fonction H(α) = EαT [log(F α,1 (βT ))] est
croissante en α pour tout β ∈]0, 1]. Or, il est aisé de remarquer que lim+ ∆(β) = 0. Notons
β→0
de plus que ∆(1) = 0, car dans ce cas, F α1 +α2 ,1 (T ) ∼ U (0, 1) et F α1 ,1 (T 0 ) ∼ U (0, 1).
Donc, une condition susante est la concavité de ∆(β) en β pour tout α1 , α2 . Pour
α1 = α2 = 1, on a que
T
H(1) = E1,1 [log(e−βT ] = E1,1
T
[−βT ] = −β,
58
n−1 n−1
T
X (βT )k T
X (βT )k
H(n) = En,1 [log( ) − βT ] = En,1 [log( )] − nβ,
k=0
k! k=0
k!
T
H(2) = E2,1 [log(1 + βT )] − 2β.
Ainsi, ] − 1 et δ2
] < 0.
δ T −T 2
T T
δβ
(H(2) − H(1)) = E2,1 [ 1+βT δβ 2
(H(2) − H(1)) = E2,1 [ (1+βT )2
Donc, dans ce cas particulier, ∆(β) est concave en β . Si on ajoute cette information au
fait que lim+ ∆(β) = 0 et que ∆(1) = 0, alors on a dominance de l'estimateur pbπ sur pb0
β→0
pour la perte Kullback-Leibler, car ∆(β) doit être positif ou nul sur ]0, 1].
0.20
0.15
0.10
0.05
0.00
Figure 4.4 Diérence relative des risques pour estimateurs de Bayes sous loi a priori
1
1 + (β) et sous loi a priori β1 1]0,1] (β) pour loi Gamma (α1 = α2 = 1).
β R
59
On constate à l'observation de cette gure que la dominance est assurée pour β dans
l'intervalle d'appartenance. Le gain relatif se situe aux alentours de 20 % à son maximum.
60
CHAPITRE 5
Constraints
Abstract
This paper is concerned with estimation of a predictive density with parametric constraints
under Kullback-Leibler loss. When an invariance structure is embedded in the problem,
general and unied conditions for the minimaxity of the best equivariant predictive den-
sity estimator are derived. These conditions are applied to check minimaxity in various
61
restricted parameter spaces in location and/or scale families. Further, it is shown that
the generalized Bayes estimator against the uniform prior over the restricted space is
minimax and dominates the best equivariant estimator in a location family when the pa-
rameter is restricted to an interval of the form [a0 , ∞). Similar ndings are obtained for
scale parameter families. Finally, the presentation is accompanied by various observations
and illustrations, such as normal, exponential location, and gamma model examples.
5.1 Introduction
5.1.1 Preamble
62
(B) whether the Bayes estimator q̂ U
with respect to the truncated (onto the restricted
parameter space) right Haar invariant measure improves upon uniformly on q̂ BI .
Part (A) requires an invariance structure which we will expand on in Section 2. Point es-
timation unrestricted parameter space versions of (A), with armative answers in many
situations, date back to Girshick and Savage (1951), Kiefer (1957), Hora and Buehler
(1966, 1967), among others. Point estimation restricted parameter versions of (A) and
(B), with armative answers, date back to Katz (1961) who showed under squared error
loss that the Bayes estimator with respect to the at prior on [0, ∞), for normal models
with mean µ and known variance, dominates the best equivariant estimator and is mini-
max for the restricted parameter space µ ∈ [0, ∞). There are several related results in the
literature (e.g., Farrell, 1964 ; Kubokawa, 2004 ; Marchand and Strawderman, 2005A,B ;
Tsukuma and Kubokawa, 2008) for restricted (unbounded) parameter spaces, with a
quite general minimax result given recently by Marchand and Strawderman (2012). As
further illustrated by the work of Casella and Strawderman (1981), Marchand and Perron
(2001), Hartigan (2004), Marchand and Strawderman (2004), Kubokawa (2005A,B), and
van Eeden (2006) among others, frequentist properties like minimaxity of best equivariant
estimators, restricted maximum likelihood estimators or Bayesian estimators depend on
the model, the loss, but also intimately on the nature of the parametric restriction.
Predictive density estimation addresses the challenging and ambitious problem of estima-
ting the whole distribution of a future observation Y . This has become a eld of active
study with early ndings due to Aitchison (1975). In particular, for Gaussian models
under Kullback-Leibler loss, fascinating connections with Stein estimation have been de-
veloped, as recently reviewed by George, Liang, and Xu (2012), and as expanded upon
below in subsection 1.3.
In this paper, we investigate minimaxity of the best equivariant predictive density es-
timator in location and/or scale families with parametric constraints under Kullback-
63
Leibler loss. In Section 5.2, we treat a setup with a general invariance structure given
by Hora and Buehler (1966, 67), where the parameter space is restricted to a subset of
multi-dimensional Euclidean space. Using similar arguments as in Girshick and Savage
(1951), we derive unied conditions under which the best equivariant estimator is mini-
max. These conditions are available for both restricted and non-restricted cases, and in
a sense, the minimaxity result is an extension of ndings by Liang and Barron (2004),
who showed minimaxity when the parameter space is unrestricted. Minimaxity under
parametric constraints for a given type of problem can thus be tested by checking those
unied conditions.
Section 5.3 deals with a location or scale family. In Section 5.3.1, minimaxity of the best
location equivariant estimator is veried under a one-sided restriction of the location
parameter in a location family. In section 3.2, we make use of a novel variation of the IERD
method introduced by Kubokawa (1994A,B) and Kubokawa and Saleh (1998) to prove
that the generalized Bayes estimator against the uniform prior over the restricted space
dominates the best location equivariant estimator if the target density to be predicted
has a monotone likelihood ratio property. It is interesting to note that the density of
the observation does not have to have a monotone likelihood ratio and need not be of
the same family as the target density. Analogous ndings for scale parameter families
are obtained in Section 5.3.3. Various other observations, detailed examples for normal,
exponential and gamma models, and a non-minimaxity result for a compact interval
restriction, complement the presentation.
64
5.1.3 Brief review of previous ndings for normal models
Liang and Barron (2004) showed that fˆBI (y − x|vx , vy ) is minimax. Concerning the
admissibility of fˆBI (y − x|vx , vy ) in the case of normal distributions, Komaki (2001)
showed that it is inadmissible when p ≥ 3, namely, it is improved on by a generalized
Bayes estimator against a shrinkage prior. Brown, George and Xu (2008) showed that it
is admissible when p = 1, 2. These are noteworthy results in the sense that the so called
Stein inadmissibility result in point estimation is inherited by the problem of estimation
of a predictive normal density function. George, Liang and Xu (2006) extended Komaki's
result, and along with Brown, George and Xu (2008), showed that several decision-
theoretic results for point estimation of a multivariate normal mean with a known variance
still hold for the predictive density estimation problem. Kato (2009) succeeded in deriving
a minimax and improved generalized Bayes predictive density estimator in the case of
unknown variance.
65
Brown, George and Xu (2008) derived an interesting identity which expresses the rela-
tionship between point estimation and predictive density estimation. Let RQ
v
b ) be
(µ, µ
the risk function of a point estimator µ b (z) under a normal distribution Np (µ, vI),
b=µ
namely, Z
v
RQ (µ, µ
b) = µ(z) − µk2 f (z − µ|v)dz,
kb
for vw = vx vy /(vx + vy ). This implies that dominance properties in point estimation can
be automatically inherited by predictive density estimation. An essential point in the
above identity is that in the normal distribution, the following representation due to
George, Liang and Xu (2006) holds :
mπ (W ; vw ) ˆBI
fˆπ (y|x, vx , vy ) = f (y|x, vx , vy ), (5.1.5)
mπ (X; vx )
Identity (5.1.4) can be applied when the parameter space θ is restricted to a convex
cone C , or more generally to a convex set. In the framework of point estimation under
a constraint and squared error loss, Hartigan (2004) proved that X is improved on by
the generalized Bayes estimator against the uniform prior over C , and Tsukuma and
Kubokawa (2008) showed that X is minimax under the constraint. As developed in
Fourdrinier et al . (2011), combining these results and the identity (5.1.4) implies that
these properties hold for the estimation of the predictive density.
The inferences are valid for normal distributions where key property (5.1.4) can be de-
rived from the equality (5.1.5). The equality (5.1.5) holds under normality with known
66
variances, but it does not hold in the case of unknown variances. Thus, it is not clear
whether a decision-theoretic property in point estimation is inherited by estimation of the
predictive density under normality with unknown variances or for another distribution.
(A1) There exist a group G and a measurable space (G, B ) on which there exists a left
G
Each g ∈ G induces a one-to-one transformation g from Θ onto itself dened by Pgθ (gA) =
Pθ (A) for any A ∈ BX × BY and any θ ∈ Θ. The induced space G = {g : g ∈ G} is
measurable.
67
(A4) There exist conditional probability density functions p(g −1
θ tx |ux ) and q(gθ−1 ty |uy )
given ux and uy such that for all A ∈ BX , B ∈ BY ,
Z
Pθ [A] = p(gθ−1 tx |ux )px (ux )γ(dtx )γx (dux ),
ZA
Pθ [B] = q(gθ−1 ty |uy )qy (uy )γ(dty )γy (duy ),
B
This is a right invariant Haar measure. Since γ(·) is left invariant, it is noted that γ(hdg) =
γ(dg) and γ((dg)h) = ∆(h)γ(dg) for h, g ∈ G, where ∆(·) is a modular function.
Now we can set up the problem of estimating the joint predictive density q(gθ−1 ty |uy ) qy (uy )
based on (tx , ux ). When we estimate qθ by a density q̂(ty |uy , tx , ux )qy (uy ), we evaluate the
performance using the Kullback-Leibler (KL) divergence in (5.1.2) and we may write
RKL (θ, q̂) = E[LKL (θ, q̂(·|·, tx , ux )] = E ux ,uy [RKL (θ, q̂|ux , uy )], (5.2.1)
where E ux ,uy [·] is the expectation with respect to the marginal distribution of (ux , uy ),
and RKL (θ, q̂|ux , uy ) is the conditional risk function given (ux , uy ) equal to
Z
RKL (θ, q̂|ux , uy ) = p(gθ−1 tx |ux )γ(dtx )
q(gθ−1 ty |uy )
nZ o
× −1
q(gθ ty |uy ) log γ(dty ) . (5.2.2)
q̂(ty |uy , tx , ux )
68
This demonstrates that estimation of the joint density function q(gθ−1 ty |uy )qy (uy ) can
be reduced to that of estimating the conditional density function q(gθ−1 ty |uy ) as long as
estimators of the form q̂(ty |uy , tx , ux )qy (uy ) are considered.
Since the problem has an invariance structure, we can derive the best equivariant esti-
mator. Conditional predictive density equivariant estimators under the transformation G
satisfy
q̂(gty |uy , gtx , ux ) = q̂(ty |uy , tx , ux ) for all g ∈ G,
Proposition 5.2.1. Assume conditions (A1) to (A4). Then, the best equivariant esti-
mator of q(gθ−1 ty |uy ) is given by
Z
q̂ BI
(t−1
x ty |uy , ux ) = p(t|ux ) q(tt−1
x ty |uy ) γ(dt)
alternative rewriting
R
p(tx |ux )q(tx s|uy )γ(dtx )
Z Z
RKL (q̂I |ux , uy ) = p(tx |ux )q(tx s|uy )γ(dtx ) log γ(ds)
q̂I (s|uy , ux )
Z Z
q(tx s|uy )
+ p(tx |ux )q(tx s|uy ) log R γ(dtx ) γ(ds),
p(tx |ux )q(tx s|uy )γ(dtx )
it is seen that the best equivariant predictive density estimator is
Z
q̂ BI
(s|uy , ux ) = p(t|ux )q(ts|uy )γ(dt). (5.2.5)
69
Making the transformation t = g −1 tx , we see that
As seen from the form in (5.2.3), the best equivariant estimator is the generalized Bayes
predictive density estimator against the right invariant measure ν(dg). Liang and Barron
x ty |uy , ux ) is minimax if the
(2004) showed that the best equivariant estimator q̂ BI (t−1
group G is amenable, namely, if there is a sequence of probability measures γj (·) on G
that is asymptotically invariant in the sense that limj→∞ {ψ(ag) − ψ(a)}γj (da) = 0
R
for every g ∈ G and every bounded measurable function ψ on G. However, the best
equivariant estimator is not necessarily minimax when the parameter space is restricted.
We now provide unied conditions for the minimaxity of the best equivariant predictive
density estimator. Although the conditions can be applied to both cases that parameters
are restricted and non-restricted, they lead to new ndings in restricted cases only, since
minimaxity in non-restricted cases follows from the result of Liang and Barron (2004).
(A6) There exist sequences of subsets P (⊂ P ) and one-to-one functions h (·) between
k k
(A6-1) ∪ ∞
k=k0 Pk = P for some k0 ≥ 1.
70
(A6-2) Let V (P ) = R k ν(dgθ ). Let γk (·) be an induced measure dened by γk (A) =
Pk
where f (·) > 0, ξk = hk (gθ ), I(·) is the indicator function, and limk→∞ ai,k = limk→∞ bi,k =
limk→∞ ck = 0 for i = 1, . . . , r.
some k1 ≥ 1 and
Pk∗ ⊂ {[h−1 −1
k (ξ)] g; g ∈ Pk }.
Théoreme 5.2.2. Assume conditions (A1) to (A6-3). Then, the best equivariant esti-
x ty |uy , ux ) is minimax in estimation of the conditional density q(gθ ty |uy )
mator q̂ BI (t−1 −1
Proof. We can show this theorem along the same lines as in Kubokawa (2004) who
modied the method of Girshick and Savage (1951). Consider the sequence of prior dis-
tributions given by
Since rk (πk , q̂kπ |ux , uy ) ≤ rk (πk , q̂ BI |ux , uy ) = R0 (ux , uy ), it is sucient to show that
lim inf k→∞ rk (πk , q̂kπ |ux , uy ) ≥ R0 (ux , uy ). Making the transformations sx = gθ−1 tx and
71
sy = gθ−1 ty yields
q(sy |uu )
Z Z Z
1
rk (πk , q̂kπ |ux , uy ) = p(sx |ux )q(sy |uy ) log π
ν(dgθ )
V (Pk ) Pk q̂k (gθ sy |uy , gθ sx , ux )
× γ(dsx )γ(dsy )ν(dgθ ), (5.2.7)
Now, make the transformation g1 = gθ−1 g with ν(dg) = ∆(gθ )ν(dg1 ) in order to rewrite
q̂kπ (gθ sy |uy , gθ sx , ux ) as
g1 ∈ {[h−1 −1
k (ξk )] g; g ∈ Pk } ≡ P̃k (ξk ).
72
For ξ ∈ Ik,ε , from (A6-3), it can be seen that q̂ (h π
k
−1 −1
k (ξ)sy |uy , hk (ξ)sx , ux ) → q̂ BI (t−1
x ty |uy , ux )
Z Z Z
1
lim inf rk (πk , q̂kπ |ux , uy ) ≥ r lim inf I(ξ ∈ Ik,ε ) p(sx |ux )q(sy |uy )
k→∞ 2 k→∞
q(sy |uy )
× lim inf log π −1 γ(dsx )γ(dsy )dξ
k→∞ q̂k (hk (ξ)sy |uy , h−1k (ξ)sx , ux )
Z
1
= r dξ
2 |−1+ε,1−ε|r
q(sy |uy )
Z Z
× p(sx |ux )q(sy |uy ) log BI −1 γ(dsx )γ(dsy )
q̂ (tx ty |uy , ux )
=(1 − ε)r R(θ, q̂ BI (t−1 r
x ty |uy , ux )) = (1 − ε) R0 (ux , uy )
From the arbitrariness of ε > 0, it follows that lim inf k→∞ rk (πk , q̂kπ |ux , uy ) ≥ R0 (ux , uy ),
completing the proof of Theorem 5.2.2.
In the above proof, the Bayes risk is given by rk (πk , q̂kπ ) = E ux ,uy [rk (πk , q̂kπ |ux , uy )]. It
is easy to see that rk (πk , q̂kπ ) ≤ E ux ,uy [rk (πk , q̂ BI |ux , uy )] = E ux ,uy [R0 (ux , uy )]. On the
other hand, Fatou's lemma is used to evaluate the Bayes risk as lim inf k→∞ rk (πk , q̂kπ ) ≥
E ux ,uy [lim inf k→∞ rk (πk , q̂kπ |ux , uy )] ≥ E ux ,uy [R0 (ux , uy )]. Thus, we get the following co-
rollary.
Corollaire 5.2.3. Assume conditions (A1) to (A6-3). Then, the best equivariant esti-
mator q̂ BI (t−1
x ty |uy , ux )qy (uy ) is minimax for the estimation of the joint density q(gθ ty |uy )qy (uy )
−1
As we will show in various situations, Theorem 5.2.2 includes both non-restricted and res-
tricted cases and thus provides a unied result for the minimaxity of the best equivariant
estimator.
73
5.3 Location and scale families : minimaxity and im-
provements on q̂BI
We rst deal with the estimation of a density with a restricted location parameter.
Let X = (X1 , . . . , Xn1 ) be a random variable having a density f (x − µ) for x − µ =
(x1 − µ, . . . , xn1 − µ), and let Y = (Y1 , . . . , Yn2 ) be a random variable having a density
g(y − µ) for y − µ = (y1 − µ, . . . , yn2 − µ), where the location parameter is restricted to
the one-sided parameter space
A = {µ | µ ≥ a0 } for known a0 .
Let ux = (x2 −x1 , . . . , xn1 −x1 ) and uy = (y2 −y1 , . . . , yn2 −y1 ) be the maximal invariants.
The location models are expressed as p(x1 − µ|ux ) = f (x1 − µ, ux + x1 − µ)/px (ux )
and q(y1 − µ|uy ) = g(y1 − µ, uy + y1 − µ)/qy (uy ) for px (ux ) = f (t, ux + t)dt and
R
When the parameter µ is not restricted, it follows from (5.2.3) that the best equiva-
riant estimator for predicting the density q(y1 − µ|uy )qy (uy ) is q̂ BI (y|x) = q̂ BI (y1 −
x1 |uy , ux )qy (uy ), where
R∞
p(x1 − a|ux )q(y1 − a|uy )da
q̂ BI (y1 − x1 |uy , ux ) = −∞
R∞ , (5.3.1)
−∞
p(x1 − a|ux )da
which is minimax without the restriction A. When µ is restricted to A, we can show the
minimaxity of q̂ BI (y|x).
74
Take ξk = hk (µ) = (2/k)(µ − a0 ) − 1. Then, hk (Pk ) = [−1, 1], γk (dξk ) = (k/2)dξk
and
R
hk (Pk )
f (ξk )γk (dξk )/V (Pk ) = (1/2)
R
[−1,1]
f (ξ)dξ , which satises condition (A6-2).
For any ξ ∈ [−1 + ε, 1 − ε], it is noted that µ = h−1
k (ξ) = a0 + (k/2)(ξ + 1), so that
{[h−1 −1
k (ξ)] g; g ∈ Pk } = {µ − a0 − (k/2)(ξ + 1); a0 < µ < a0 + k} = (−(k/2)(ξ +
1), (k/2)(1 − ξ)) ⊃ (−(k/2)ε, (k/2)ε) ≡ Pk∗ . Since limk→∞ Pk∗ = R, condition (A6-3) is
satised, and the minimaxity of q̂ BI is established.
Although the best equivariant predictive density is minimax, it is not reasonable from a
Bayesian or optimization perspective because the prior distribution is taken over whole
the space of µ. This suggests that the unrestricted uniform prior Bayes predictive den-
sity is likely to be inadmissible and may be improved upon by other (necessarily mi-
nimax) predictive densities. A reasonable alternative is the generalized Bayes predic-
tive density against the uniform prior over the restricted space A, given by q̂ U (y|x) =
q̂ U (y1 , |x1 , uy , ux )qy (uy ), where
R∞
p(x1 − a|ux )q(y1 − a|uy )da
q̂ U (y1 |x1 , uy , ux ) = a0
R∞ . (5.3.2)
a0
p(x 1 − a|u x )da
We will indeed establish the minimaxity of the uniform prior Bayes predictive density
q̂ U (y|x) under the following logconcavity or increasing monotone likelihood ratio pro-
perty :
(C1) The density q(y − µ|u ) is a continuously dierentiable function such that q(y −
1 y 1
Lemme 5.3.2. Assume that q(y −µ|u ) satises condition (C1). Dene A(y |x , u , u , µ)
1 y 1 1 x y
by
R0
p(x1 + w − µ|ux )q(y1 + w − µ|uy )dw
A(y1 |x1 , ux , uy , µ) = −∞
R0 . (5.3.3)
−∞
p(x 1 + w|ux )q(y 1 + w|u y )dw
75
(i) q (y |u )/q(y |u ) is nonincreasing in y , where q (y |u ) = ∇
0
1 y 1 y 1
0
1 y y1 q(y1 |uy ) for ∇y1 =
∂/∂y1 ;
Proof. Property (i) follows from the fact that ∇ {q(y − µ|u )/q(y |u )} ≥ 0. For
establishing (ii), we shall show that ∇ A(y |x , u , u , µ) ≥ 0 under assumption (C1).
y1 1 y 1 y
y1 1 1 x y
which is rewritten as
Z −µ
p(x1 − µ|ux )q(y1 − µ|uy ) p(x1 + w|ux )q(y1 + w|uy )
−∞
n q 0 (y + w|u ) q 0 (y − µ|u ) o
×
1 y
−
1 y
dw. (5.3.6)
q(y1 + w|uy ) q(y1 − µ|uy )
From property (i), note that ∇ y1 q(y1 |uy )/q(y1 |uy ) is nonincreasing in y1 . Hence, the
integrand in (5.3.6) is not negative, and the inequality (5.3.5) holds. This proves Lemma
5.3.2.
76
Using this lemma, we prove the following theorem.
Théoreme 5.3.3. Assume condition (C1). Then, the uniform prior Bayes predictive
density q̂ U (y|x) is minimax under the restriction µ ≥ a0 . The risks of q̂ U (·) and q̂ BI (·)
coincide if and only if µ = a0 .
Proof. Let a0 = 0 without any loss generality. Since q̂ BI (y|x) is a minimax estimator
with a constant risk, we shall show that q̂ U (y|x) improves on q̂ BI (y|x). From (5.2.1), it
is sucient to show the improvement in terms of the conditional risk (5.2.2). The IERD
method developed by Kubokawa (1994A,B) is useful for the purpose. The conditional
risk dierence of the two predictive densities q̂ BI (y|x) and q̂ U (y|x) is written as
Observe that
77
Replacing t with w, we can get the expression
R0
p(x + w − µ|ux )q(y + w − µ|uy )dw
ZZ
−∞
∆(µ) = p(x|ux )
R0
−∞
p(x + w|ux )q(y + w|uy )dw
R0
n p(x + w|ux )q(y + w|uy )dw o
× −∞ R 0 − q(y|uy ) dxdy
−∞
p(x + w|ux )dw
ZZ Z
= p(x|ux ) A(y|x, ux , uy , µ)
n 0 p(x + w|ux )q(y + w|uy )dw
R
o
× −∞ R0 − 1 q(y|uy ) dy dx.
−∞
p(x + w|ux )dwq(y|uy )
Denote an expectation with the density q(y|uy ) by Eq [·]. From Lemma 5.3.2, it follows that
A(y|x, ux , uy , µ) is nondecreasing in y for µ > 0. Since q(y+w|uy )/q(y|uy ) is nondecreasing
in y , it is seen that B(y|x, ux , uy ) is nondecreasing in y . Thus, for µ > 0
R0
p(x + w|ux )q(y + w|uy )dw
Z n o
−∞
A(y|x, ux , uy , µ) R0 − 1 q(y|uy )dy
−∞
p(x + w|ux )dwq(y|uy )
=Eq [A(Y |x, ux , uy , µ)B(Y |x, ux , uy )]
where the inequality in (5.3.7) follows from the well known covariance inequality since
both functions A(y|x, ux , uy , µ) and B(y|x, ux , uy ) are nondecreasing in y (see Wijsman
(1984) for example). Since q(y|uy )dy = 1, it follows that
R R
q(y + w|uy )dy =
R0 R
−∞
p(x + w|ux ) q(y + w|uy )dydw
R0 − 1 = 0,
−∞
p(x + w|ux )dw
78
Other improvements on q̂BI
Theorem 5.3.3 establishes a general comparison between the generalized Bayes estimator
q̂ U and the best equivariant estimator q̂ BI , with the former dominating the latter under
the simple condition that q be logconcave. It is of interest to seek classes of other domina-
ting procedures. Although we will not explore this issue in depth here, it is nevertheless
pertinent to make the following observation which generates many other dominating pro-
cedures. The next result follows from the strict concavity of the log function on (0, ∞),
or alternatively from the strict convexity with respect to q̂ of the loss LKL (qθ , q̂).
The above result implies directly that convex linear combinations of q̂BI and q̂U do-
minate q̂BI in the context of Theorem 5.3.3 by taking q̂0 = q̂1 = q̂ BI and q̂2 = q̂ U .
Finally, since Theorem 5.3.3 applies for the conditional risks, the weights can be made
to depend on the maximal invariants ux and uy and it thus follows that estimators
α(ux , uy )q̂ U (y|x1 , uy , ux )qy (uy ) + (1 − α(ux , uy ))q̂ BI (y|x1 , uy , ux )qy (uy ) with α(·, ·) ∈ (0, 1)
are also minimax.
Examples
Exemple 5.3.5. (normal models) The results above apply to the particular setup :
X|µ ∼ N(µ, σX
2
), Y |µ ∼ N(µ, σY2 ), (5.3.8)
with the restriction µ ≥ a0 . Namely, Theorem 5.3.1 tells us that q̂ BI (·|X) ∼ N(X, σX
2
+σY2 )
remains minimax under the restriction µ ≥ a0 , while Theorem 5.3.3 implies that the
generalized Bayes estimator q̂ U is also minimax, and dominates q̂ BI under the restriction
µ ≥ a0 . Figure 1 compares the risks of these two estimators for a0 = 0, σX
2
= 1, σY2 = 1.
79
RKl (µ,q̂ BI )−RKl (µ,q̂ U )
The curve measures the relative dierence in risks (i.e., RKl (µ,q̂ BI )
). Observe
that the risks coincide indeed at the lower boundary of the parameter space and at µ = ∞
and that the gains are appreciable, particularly around one standard deviation from the
boundary where they uctuate around 40%.
0.4
Relative improvement in risks
0.3
0.2
0.1
0.0
0 1 2 3 4
Μ
Figure 5.1 Relative dierence in risks between q̂ BI and q̂ U (normal model with µ ≥
2
0, σX = σY2 = 1)
For the specic normal case illustrated here, the above dominance and minimax results
are not new and were previously obtained through a dierent route by Fourdrinier et al.
(2011) by methods which are also applicable for the multivariate case. Interestingly, yet
another proof of the dominance result can be derived by a more direct and instructive
approach. We now expand on this, considering the more general problem µ ∈ [a0 , a0 + m),
with m = ∞ corresponding to the lower bounded case and setting hereafter a0 = 0 without
loss of generality. Making use of (5.1.5), the uniform Bayes estimator q̂ U with respect to
the at prior on [0, m) is given by
2
mU (W ; σW ) BI
q̂ U (Y |X) = 2
q̂ (Y |X)
mU (X; σX )
( W )
Φ( σW ) − Φ( Wσ−m )
= W
q̂ BI (Y |X) ,
Φ( σXX ) − Φ( X−m
σX
)
with W =d (σY2 X + σX
2 2
Y )/(σX + σY2 ) ∼ N(µ, σW
2
) for σW
2 2 2
= (σX 2
σY )/(σX + σY2 ). Conse-
80
quently, the dierence in risks may be expressed as
q̂ U (Y |X)
BI U X,Y
∆(µ) = RKL (µ, q̂ ) − RKL (µ, q̂ ) = E log BI
q̂ (Y |X)
X,Y W W −m X X −m
= E log Φ( ) − Φ( ) − log Φ( ) − Φ( ) .
σW σW σX σX
Here, set W 0 = W/σW ∼ N(µ/σW , 1), X 0 = X/σX ∼ N(µ/σX , 1) and observe that
W 0 =d X 0 + δ , with δ = µ(1/σW − 1/σX ) ≥ 0 for µ ≥ 0 with equality i µ = 0, given that
σW < σX . Hence,
X0 0 0 m 0 0 m
∆(µ) = E log Φ(X + δ) − Φ(X + δ − ) − log Φ(X ) − Φ(X − ) ≥ 0,
σW σX
for all µ ∈ [0, m], since Φ(·) is strictly increasing on R and x0 +δ ≥ x0 and x0 +δ−m/σW ≤
x0 − m/σX for all x0 ∈ R, and with equality occurring only if µ = 0 and m = ∞. We have
thus shown directly that the uniform Bayes procedure q̂ U dominates q̂ BI for the normal
model in (5.3.8) with the restriction µ ∈ [a0 , a0 + m). This oers an alternative to Four-
drinier et al.'s proof. Notwithstanding this development (as well as the next Remark), the
search for ecient Bayesian procedures under a compact interval constraint which merits
further study will not be pursued here. Recent advances for point estimation versions of
this problem were obtained by Kubokawa (2005B), as well as Marchand and Payandeh
(2011).
81
Paired with the above, Lemma 5.3.4 implies that the predictive density estimator 12 q̂ U 1 +
1 U2
2
q̂ dominates q̂ BI strictly for µ ∈ [a0 , a0 + m] ;
Consequently, as in the rst paragraph of this Remark, q̂ BI cannot be minimax for
µ ∈ [a0 , a0 + m] when q satises condition (C1).
Exemple 5.3.7. The results of this section also apply to Exponential location models with
X1 , . . . , Xn1 , Y1 , . . . , Yn2 i.i.d. Exp(µ, σ), µ ≥ 0 and known σ , with density σ −1 exp{−(t −
µ)/σ}1(µ,∞) (t). Here the order statistics X(1) and Y(1) form a sucient statistic, and we
can take σ = 1 without loss of generality, so that it suces to consider the setup
n1 n2 −n2 |x−y|
q̂ BI (y|x) = e 1[x,∞) (y) + e−n1 |x−y| 1(−∞,x) (y) ,
n1 + n2
and
We next consider estimation of the predictive density with a restricted scale parameter.
Let X = (X1 , . . . , Xn1 ) be a positive random variable having a density σ −n1 f (σ −1 x) for
σ −1 x = (σ −1 x1 , . . . , σ −1 xn1 ), and let Y = (Y1 , . . . , Yn2 ) be a random variable having a
density σ −n2 g(σ −1 y) for σ −1 y = (σ −1 y1 , . . . , σ −1 yn2 ), where the scale parameter is lower
bounded belonging to the restricted parameter space
82
Let tx = |x1 |, ux = (x1 /|x1 |, x2 /|x1 |, . . . , xn1 /|x1 |) and ty and uy are dened simi-
larly. The joint densities σ −n1 f (σ −1 x)dx and σ −n2 g(σ −1 y)dy are expressed as, respecti-
vely, p(σ −1 tx |ux )px (ux )γ(dtx )γx (dux ) and q(σ −1 ty |uy )qy (uy )γ(dty )γy (duy ), where γ(dσ) =
dσ/σ , and px (ux ) and qy (uy ) are marginal densities of ux and uy .
Note that σ −1 tx = exp{log tx − log σ} and d log tx = dtx /tx . Since the restriction B
is written as log σ > log b0 , all the results given in the previous subsection hold for
the restricted scale problem. The results corresponding to Theorems 5.3.1 and 5.3.3 are
described below.
When the parameter σ is not restricted, it follows from (5.2.3) that the best equivariant es-
x ty |uy , ux )qy (uy ),
timator for predicting the density q(σ −1 ty |uy )qy (uy ) is q̂ BI (y|x) = q̂ BI (t−1
where R∞
p(b−1 tx |ux )q(b−1 ty |uy )b−1 db
q̂ BI
(t−1
x ty |uy , ux )
= R∞ 0
, (5.3.10)
0
p(b−1 tx |ux )b−1 db
which is minimax without the restriction B . Even if σ is restricted on B , the minimaxity
of q̂ BI (y|x) still holds.
Although the best equivariant predictive density is minimax, it is not reasonable because
the prior distribution is taken over whole the space of σ . This suggests that q̂ BI is likely
to be inadmissible and to be improved upon by other (minimax) predictive densities. A
reasonable choice is the generalized Bayes predictive density against the invariant prior
over the restricted space B , given by q̂ U (y|x) = q̂ U (ty |tx , uy , ux )qy (uy ), where
R∞
p(b−1 tx |ux )q(b−1 ty |uy )b−1 db
q̂ U (ty |tx , uy , ux ) = b0
R∞
−1 t |u )b−1 db
. (5.3.11)
b0
p(b x x
To establish the minimaxity of the invariant prior Bayes predictive density q̂ U (y|x), we
assume the following condition analogous to (C1) :
(C2) The density q(σ −1 ty |uy ) is a continuously dierentiable function such that the
ratio of the densities q(σ −1 ty |uy )/q(b−1
0 ty |uy ) is nondecreasing in ty for σ > b0 .
83
Théoreme 5.3.9. Assume condition (C2). Then, the Bayes predictive density q̂ (y|x) U
is minimax under the restriction σ ≥ b0 , and the risks of q̂ U and q̂ BI coincide if and only
if σ = b0 .
Lemma 5.3.2 used for proving Theorem 5.3.3 is expressed in the scale case as follows :
(i) ty {∇ty q(ty |uy )}/q(ty |uy ) is nonincreasing in ty , where ∇ty = ∂/∂ty .
We can show Theorem 5.3.9 directly using Lemma 5.3.10, though we have here applied
Theorem 5.3.3 to the scale case. We conclude this section with an application to Gamma
models.
with α1 , α2 known, and the lower bound restriction σ ≥ b0 (> 0). We have assumed without
loss of generality that the samples for X and Y are of size one by suciency of the
sums in such Gamma models. Evaluating (5.3.10) and (5.3.11), we obtain the elegant
representations
Γ(α1 + α2 ) 1 y α2 −1 y
q̂ BI (y|x) = ( ) (1 + )−(α1 +α2 ) 1(0,∞) (y) ,
Γ(α1 ) Γ(α2 ) x x x
and
U BI
F̄α1 +α2 ( x+y
b0
)
q̂ (y|x) = q̂ (y|x) ,
F̄α1 ( bx0 )
84
where F̄γ (·) is the survival function of a Gamma(γ, 1) distribution. Observe that q̂ BI is
the density of a Fisher distribution with scale parameter α2
α1
x, and shape parameters 2α2
(d.f. numerator) and 2α1 (d.f. denominator), while q̂ U is a skewed version of q̂ BI .
The ndings of this section apply. First, q̂ BI is minimax for the unrestricted parameter
space and remains minimax in presence of the lower bound b0 on the scale parameter.
Second, since Gamma densities form a family with an increasing monotone likelihood
ratio, condition (C2) is satised and the Bayes procedure q̂ U
dominates q̂ BI by virtue of
Theorem 5.3.9. Finally, we point out that analogous results hold here for the case where
the scale parameter σ is upper bounded, say σ ∈ (0, c0 ). In such cases, we consider the
transformed problem with X 0 = X and Y 0 = 1
Y
and consider the setup of Theorem 5.3.9
with b0 = 1
c0
, pθ being the density of X 0 and qθ being the density of Y 0 . Since inverse
Gamma distributions have logconcave densities as well, and the Kullback-Leibler loss is
intrinsic, Theorem 5.3.9 indeed applies.
In this section, we treat location-scale families with location and/or scale parameters
constrained, and investigate minimaxity of the best equivariant estimators using Theorem
5.2.2.
We begin with the univariate case. Let X = (X1 , . . . , Xn1 ) be a random variable having
a density σ −n1 f ((x − µ)/σ) for (x − µ)/σ = ((x1 − µ)/σ, . . . , (xn1 − µ)/σ), and let
Y = (Y1 , . . . , Yn2 ) be a random variable having a density σ −n2 g((y−µ)/σ) for (y−µ)/σ =
((y1 − µ)/σ, . . . , (yn2 − µ)/σ), where the location and scale parameters are restricted to
the space
85
where a0 , b0 and c0 are constants such that b0 ≥ 0 and −∞ ≤ a0 , c0 < ∞. The unrestricted
case is described by b0 = c0 = 0 and a0 = −∞. Let tx = (|x2 − x1 |, x1 ), ux = ((x2 −
x1 )/|x2 − x1 |, . . . , (xn1 − x1 )/|x2 − x1 |) and let ty and uy be dened similarly. Let G =
R+ × R and dene the product by (a, b)(σ, µ) = (aσ, aµ + b). This implies that (σ, µ)−1 =
(1/σ, −µ/σ) and (σ, µ)−1 (|x2 − x1 |, x1 ) = (|x2 − x1 |/σ, (x1 − µ)/σ). Then, σ −n1 f ((x −
µ)/σ)dx and σ −n2 g((y − µ)/σ)dy are expressed as p((σ, µ)−1 tx |ux )px (ux )γ(dtx )γx (dux )
and q((σ, µ)−1 ty |uy )qy (uy )γ(dty )γy (duy ), respectively, where γ(d(σ, µ)) = (dµdσ)/σ 2 .
When the parameters are not restricted, it follows from (5.2.3) that the best equivariant
predictive density estimator of q((σ, µ)−1 tx |uy )qy (uy ) is given by q̂ BI (t−1
x ty , uy |ux ) =
and where ν(d(b, a)) = (dadb)/b2 . Using Theorem 5.2.2, we analyze the question of
minimaxity of the best equivariant estimator under the restriction C .
[1] Case of a 0 > −∞ and b 0 >0 . This case implies that both µ and σ are restricted
from one side.
Théoreme 5.4.1. Assume that a 0 and b0 satisfy that a0 > −∞ and b0 > 0. Then, the
best equivariant estimator q̂ BI (t−1
x ty , uy |ux ) is minimax in the estimation of the predictive
density under the restricted parameter space C relative to the LKL -loss, and the minimax
risk is given by R0 = R((σ, µ), q̂ BI ).
86
(2/ log dk ) log(σ/b0 )−1 and ξ2 = (2/k)(µ−a0 −c0 σ)−1. Letting ξ = (ξ1 , ξ2 ) = hk ((σ, µ)),
we see that hk (Pk ) = [−1, 1]2 , γk (dξ) = {(k log dk )/4}dξ and hk (Pk ) f (ξk )γk (dξ)/V (Pk ) =
R
k (ξ)] (σ, µ); (σ, µ) ∈ Pk } = {(σ/b, (µ − a)/b); (σ, µ) ∈ Pk } and σ/b, (µ − a)/b satisfy
{[h−1 −1
the inequalities
Note that 1 − ξi > ε and 1 + ξi > ε for i = 1, 2. The rst inequality is satised by
< σ/b < dk , which can be expanded to (0, ∞) as k → ∞ if dk → ∞ as k → ∞.
−ε/2 ε/2
dk
Also, the second inequality is satised by
Since dk satises the condition (a) or (b), it can be seen that the lower end point of
(µ − a)/b goes to −∞, and the upper point goes to ∞. This veries condition (A6-3),
and the minimaxity of q̂ BI is established.
[2] Case of a 0 = −∞ and b 0 >0 . Although we can show the minimaxity directly by
the same arguments as in the proof of Theorem 5.4.1, we here give a simple proof based
on Theorem 5.3.8. Since µ is not restricted and the problem is invariant under a location
transformation, we can consider location equivariant estimators, which depend on x1 and
y1 through y1 − x1 . Thus, the risk function of the location equivariant estimator does not
depend on µ. Then, the problem can be reduced to the estimation in the scale family
87
with the restriction σ > b0 . Hence from Theorem 5.3.8, it follows that best equivariant
estimator is minimax. This is summarized as follows.
Théoreme 5.4.2. Assume that µ is not restricted, but σ is restricted to σ > b . Then, the 0
[3] Case of a 0 > −∞ and b 0 = 0 . This case implies that µ is restricted as µ > a0
and σ is not restricted. By considering x0 = x − a0 , we can set a0 = 0 without loss of
generality and the problem becomes invariant (as in the previous case) under a scale
transformation. We are thus led to the following.
Théoreme 5.4.3. Assume that σ is not restricted, but µ is such that µ ≥ a . Then, the 0
Concerning the estimation of the predictive density, we have already seen that the best
location equivariant estimator q̂ BI (Example 5.3.5 and Remark 5.3.6) is generally not
minimax for estimating a location parameter bounded to a compact interval. However,
the result of Kubokawa (2005) suggests minimaxity in the case of an unknown scale, and
the following theorem shows that this suggestion is correct.
Let us consider the following restriction under the same location-scale families as treated
in the previous subsection :
Théoreme 5.4.4. Assume that (µ, σ) is restricted to D. Then, the best equivariant esti-
mator q̂ BI (t−1
x ty , uy |ux ) is minimax for the estimation of the predictive density under the
88
Proof. We shall check conditions (A6)-(A6-3) in Theorem 5.2.2. In this case, P =
{(σ, µ)|a1 < µ < a2 , 0 < σ < b0 }, Pk = {(σ, µ)|a1 < µ < a2 , b0 /k < σ < b0 } for
kb0 > 1, and V (Pk ) = (a2 − a1 ) log k . Take ξ1 = (2/ log k) log(σ/b0 ) + 1 and ξ2 = {2/(a2 −
a1 )}{µ − (a1 + a2 )/2}. Letting ξ = (ξ1 , ξ2 ) = hk ((σ, µ)), we see that hk (Pk ) = [−1, 1]2 ,
γk (dξ) = {(a2 − a1 ) log k)/4}dξ and hk (Pk ) f (ξk )γk (dξ)/V (Pk ) = (1/4) [−1,1]2 f (ξ)dξ ,
R R
which satises condition (A6-2). For any ξ ∈ [−1 + ε, 1 − ε]2 , let (b, a) = h−1
k (ξ). Then,
Note that minimaxity still holds under the restriction D0 = {(σ, µ)|a1 < µ < a2 , 0 < σ}.
However, we could not show minimaxity for the restriction D1 = {(σ, µ)|a1 < µ <
a2 , b0 < σ}, since we cannot take a sequence so that the lower and upper bounds of
(µ − a)/b can be expanded to the whole real line in the proof of Theorem 5.4.4. We
conjecture that the best equivariant estimator is not minimax under the restriction D1 .
From Kubokawa (2005), we also guess that the best equivariant estimator is not minimax
for the restriction {(σ, µ)|a1 < µ/σ < a2 , σ > 0}.
89
and σ −1 (ty − µ) and σ −1 sy are dened similarly.
Combining the arguments as in the proof of theorem 2.1 in Tsukuma and Kubokawa
(2008) and the proof of Theorem 5.4.3, we can show the minimaxity of the best equivariant
estimator.
Théoreme 5.4.5. Assume that (σ, µ) is restricted to the polyhedral convex cone M 1
with unrestricted unknown scale σ . Then, the best equivariant estimator is minimax in
the estimation of the predictive density under the restricted parameter space.
where η = (η1 , . . . , ηp )0 for ηi = log σi , and B and α are the same as dened in M1 . This
restriction means that η is restricted on the polyhedral convex cone and includes the
positive orthant restriction σi ≥ 1, i = 1, . . . , p, the simple order restriction σ1 ≤ σ2 ≤
· · · ≤ σp and the tree order restriction σ1 ≤ σi , i = 2, . . . , k .
Since µ is not restricted and the problem is invariant under location transformations, we
can consider location equivariant estimators, which depend on tx and ty through ty − tx .
Thus, the risk function of the location equivariant estimator does not depend on µ.
Then, the problem can be reduced to estimation in the scale family with the restriction
Bη ≤ α. Hence from the arguments as in the proof of Tsukuma and Kubokawa (2008),
it follows that the best equivariant estimator is minimax.
90
Théoreme 5.4.6. Assume that (σ, µ) is restricted into the polyhedral convex cone M 2
with unrestricted location parameters µ. Then, the best equivariant estimator is minimax
in the estimation of the predictive density under the restricted parameter space.
For lower (or upper) bounded location or scale parameter problems, we have introduced
a novel adaptation of Kubokawa's IERD technique to show that the generalized Bayes
procedure q̂ U with respect to the truncation of the right Haar invariant measure onto
the restricted parameter space dominates q̂ BI and is thus minimax. These ndings are
analogous to various point estimation results previously established. It seems plausible,
but more research is required, that similar minimax results and q̂ BI -q̂ U comparisons hold
for other choices of loss, such as for α-divergence losses (e.g., Csiszár, 1967 ; Corcuera and
Guummole, 1999). Finally, further analysis of the eciency of Bayes estimators for other
restricted parameter spaces, such as for univariate compact interval restrictions (see the
end of Example 5.3.5), represent challenging and interesting problems for further research.
91
Acknowledgments
The authors are grateful to the Associate Editor and referees for their valuable com-
ments and helpful suggestions. Tatsuya Kubokawa's research is supported in part by
Grant-in-Aid for Scientic Research Nos. 19200020 and 21540114 from the Japan Society
for the Promotion of Science, Eric Marchand's research is supported in part by the Natu-
ral Sciences and Engineering Research Council of Canada, and William Strawderman's
research is partially supported by a grant from the Simons Foundation (#209035).
92
Bibliographie
[4] Corcuera, J. M. and Giummole, F. (1999). A generalized Bayes rule for prediction.
Scandinavian Journal of Statistics, 26, 265-279.
[5] Csiszár, I. (1967). Information-type measures of dierence of probability distribu-
2
tions and indirect obsevations. Studia Sci. Math. Hungary, , 299-315.
[6] Farrell, R.H. (1964). Estimators of a location parameter in the absolutely conti-
nuous case. Annals of Mathematical Statistics, 35, 949-998.
[7] Fourdrinier, D., Marchand, É., Righi, A. and Strawderman, W.E. (2011). On impro-
ved predictive density estimation with parametric constraints. Electronic Journal
5
of Statistics, , 172-191.
[8] George, E. I., Liang, F. and Xu, X. (2006). Improved minimax predictive densities
under Kullback-Leibler loss. Annals of Statistics, 34, 78-91.
[9] George, E. I., Liang, F. and Xu, X. (2012). From minimax shrinkage estimation to
minimax shrinkage prediction. Statistical Science, 27, 82-94.
[10] Girshick, M.A. and Savage, L.J. (1951). Bayes and minimax estimates for quadratic
loss functions. In Proc. Second Berkeley Symp. Math. Statist. Probab., , 53-74. 1
University of California Press, Berkeley.
93
[11] Hartigan, J. (2004). Uniform priors on convex sets improve risk. Statistics & Pro-
bability Letters, 67, 285-288.
[12] Hora, R.B., and Buehler, R.J. (1966). Fiducial theory and invariant estimation.
Annals of Mathematical Statistics, 37, 643-656.
[13] Hora, R.B., and Buehler, R.J. (1967). Fiducial theory and invariant prediction.
Annals of Mathematical Statistics, 38, 795-801.
[14] Kato, K. (2009). Improved prediction for a multivariate normal distribution with
unknown mean and variance. Annals of the Institute of Statistical Mathematics,
61, 531-542.
[15] Katz, M. (1961). Admissible and minimax estimates of parameters in truncated
spaces. Annals of Mathematical Statistics, 32, 136-142.
[16] Kiefer, J. (1957). Invariance, minimax sequential estimation, and continuous time
processes. Annals of Mathematical Statistics, 28, 573-601.
[17] Komaki, F. (2001). A shrinkage predictive distribution for multivariate normal
observables. Biometrika, 88, 859-864.
[18] Kubokawa, T. (1994A). A unied approach to improving equivariant estimators.
Annals of Statistics, 22, 290-299.
[19] Kubokawa, T. (1994B). Double shrinkage estimation of ratio of scale parameters.
Annals of the Institute of Statistical Mathematics, 46, 95-119.
[20] Kubokawa, T. (2004). Minimaxity in estimation of restricted parameters. Journal
of the Japanese Statistical Society, 34, 229-253.
[21] Kubokawa, T. (2005A). Estimation of a mean of a normal distribution with a
bounded coecient of variation. Sankhyā, 67, 499-525.
[22] Kubokawa, T. (2005B). Estimation of bounded location and scale parameters. Jour-
nal of the Japanese Statistical Society, 35, 221-249.
[23] Kubokawa, T. and Saleh, A.K.MD.E. (1998). Estimation of location and scale pa-
rameters under order restrictions. Journal of Statistical Research, 28, 41-51.
[24] Lehmann, E.L. and Casella, G. (1998). Theory of Point Estimation. Springer-
Verlag, 2nd edition.
94
[25] Liang, F. and Barron, A. (2004). Exact minimax strategies for predictive density
estimation, data compression, and model selection. IEEE Trans. Inform. Theory,
50, 2708-2726.
[26] Marchand, É., and Payandeh Najafabadi, A.T. (2011). Bayesian improvements of a
MRE estimator of a bounded location parameter. Electronic Journal of Statistics,
5, 1495-1502.
[27] Marchand, É. and Perron, F. (2001). Improving on the MLE of a bounded normal
mean. Annals of Statistics, 29, 1078-1093.
[28] Marchand, É. and Strawderman, W.E. (2004). Estimation in restricted parameter
spaces : A review. Festschrift for Herman Rubin, IMS Lecture Notes-Monograph
Series, 45, 21-44.
[29] Marchand, É., and Strawderman, W. E. (2005A). On improving on the minimum
risk equivariant estimator of a location parameter which is constrained to an interval
or a half-interval. Annals of the Institute of Statistical Mathematics, 57, 129-143.
[30] Marchand, É., and Strawderman, W. E. (2005B). On improving on the minimum
risk equivariant estimator of a scale parameter under a lower bound constraint.
Journal of Statistical Planning and Inference, 134, 90-101.
[31] Marchand, É., and Strawderman, W.E. (2012). A unied minimax result for res-
tricted parameter spaces. Bernoulli, 18, 635-643.
[32] Tsukuma, H. and Kubokawa, T. (2008). Stein phenomenon in estimation of means
restricted to a polyhedral convex cone. Journal of Multivariate Analysis, 99, 141-
164.
[33] van Eeden, C. (2006). Restricted parameter space problems - Admissibility and mi-
nimaxity properties. Lecture Notes in Statistics, 188, Springer.
[34] Wijsman, R.A. (1985). A useful inequality on ratios of integrals, with application to
maximum likelihood estimation. Journal of the American Statistical Association,
80, 472-475.
95
CONCLUSION
Nous avons trouvé, tout au long de ce mémoire, pour la perte Kullback-Leibler, les lois a
priori utilisées et les familles de densités étudiées pour trouver de bons estimateurs pour
la fonction de densité d'une variable aléatoire, notamment selon le critère du minimax,
ou dominant des estimateurs naturels (tels les estimateurs par substitution), qui sont
équivariants, etc. Des liens ont été faits entre l'estimation ponctuelle et l'estimation par
densité prédictive, notamment pour le cas de la loi multinormale et de la loi gamma.
Finalement, nous avons trouvé des conditions sur la famille de lois de la variable aléatoire
Y |θ pour obtenir un estimateur de Bayes minimax lorsque l'espace paramétrique de θ
(paramètre de position ou d'échelle) est restreint. Des avenues possibles de recherche
pourraient considérer des espaces paramétriques de la forme [a, b] où a > −∞ et b < ∞,
des familles de densités qui ne sont pas à rapport de vraisemblance monotone croissantes
ou des espaces paramétriques non convexes. Le cas multivarié a été travaillé au chapitre
3 et dans les résultats généraux, mais il serait intéressant de trouver d'autres exemples
que ceux illustrés dans ce mémoire pour mieux comprendre l'ampleur des résultats. On
pourrait penser aux lois sphériques et elliptiques. D'autres pertes que la perte Kullback-
Leibler pourraient aussi être étudiées.
96
Bibliographie
[4] Brown, L., George, E. et Xu, X. (2008). Admissible predictive density estimation. The
Annals of Statistics, 36, 1156-1170.
[5] Casella, G. et Lehmann, E.L. (1998). Theory of point estimation. Springer Texts in
Statistics
[6] Casella, G. et Strawderman, W.E. (1981). Estimating a bounded normal mean. The
9
Annals of Statistics, , 870-878.
[7] Fourdrinier, D., Marchand, É., Righi, A. et Strawderman, W.E. (2011). On improved
predictive density estimation with parametric constraints. Electronic Journal of Statis-
5
tics, , 172-191.
[8] George, E., Liang, F. et Xu, X. (2006). Improved minimax predictive densities under
Kullback-Leibler loss. The Annals of Statistics, 34, 78-91.
[9] Hartigan, J.A. (2004). Uniform priors on convex sets improve risk. Statistics & Pro-
bability Letters, 67, 285-288.
97
[10] James, W. et Stein, C. (1961). Estimation with quadratic loss. Proc. Third Berkeley
1
Symp. Math. Statist. Probab., , 361-380.
[11] Komaki, F. (2001). A shrinkage predictive distribution for multivariate normal ob-
servables. Biometrika, 88, 859-864.
[12] Kubokawa, T. (1994A). A unied approach to improving equivariant estimators. The
Annals of Statistics, 22, 290-299.
[13] Kubokawa, T. (1994B). Double shrinkage estimation of ratio of scale parameters.
Annals of the Institute of Statistical Mathematics, 46, 95-119.
[14] Kubokawa, T., Marchand, É., Strawderman, W.E. et Turcotte, J.P. (2012). Mini-
maxity in predictive estimation with parametric constraints. Rapport de recherche #110,
Département de mathématiques, Université de Sherbrooke.
[21] Stein, C. (1956). Inadmissibility of the ususal estimator of the mean of a multivariate
1
normal distribution. Proc. Third Berkeley Symp. Math. Statist. Probab., , 197-206.
98
[22] Stein, C. (1981). Estimation of the mean of a multivariate normal distribution. The
9
Annals of Statistics, , 1135-1151.
[23] Strawderman, W.E. (2003). On minimax estimation of a normal mean vector for ge-
neral quadratic loss. Festschrift for Constance van Eeden, IMS Lecture Notes-Monograph
Series, 42, 3-14.
99