Vous êtes sur la page 1sur 110

Estimation par densités prédictives

par

Jean-Philippe TURCOTTE

mémoire présenté au Département de mathématiques

en vue de l'obtention du grade de maître ès sciences (M.Sc.)

FACULTÉ DES SCIENCES

UNIVERSITÉ DE SHERBROOKE

Sherbrooke, Québec, Canada, février 2013


Le , le jury suivant a accepté ce mémoire dans sa version
nale.

Directeur : M. Éric Marchand


Département de mathématiques

Codirecteur : M. William E. Strawderman


Rutgers University
Président-raporteur: M. Hugo Larochelle
Département d'informatique

Évaluateur interne : Ernest Monga


Département de mathématiques

ii
SOMMAIRE

L'inférence statistique est un domaine complexe et en constante évolution. Ce mémoire


traitera de l'inférence sur la fonction de densité d'une variable aléatoire. Nous parti-
rons de plusieurs résultats connus et développerons une analyse de ces résultats dans le
cadre paramétrique avec une approche bayésienne. Nous nous aventurerons aussi dans
les problèmes avec espace paramétrique restreint. L'objectif du travail est de trouver
les meilleurs estimateurs possibles considérant l'information a priori et l'observation de
variables tirées d'une densité faisant intervenir le paramètre.

Le chapitre 1 traitera de notions d'inférence bayésienne, de choix de perte évaluant


la performance d'un estimateur et possédant des propriétés recherchées. Le chapitre 2
concernera l'estimation ponctuelle du paramètre. En particulier, nous aborderons l'esti-
mateur de James-Stein et trouverons des conditions susantes pour la minimaxité et la
dominance d'estimateurs en remarquant la forme particulière de ceux-ci. Une condition
remontera même à la loi a priori utilisée. Le chapitre 3 établira des liens entre l'esti-
mation ponctuelle et l'estimation par densité prédictive pour le cas multinormal. Des
conditions seront aussi établies pour la minimaxité et la dominance. Nous comparerons
nos estimateurs à l'estimateur de Bayes découlant d'une loi a priori non informative et
démontrerons les résultats par des exemples. Le chapitre 4 considérera le problème dans
un cadre plus général où le paramètre d'intérêt pourra être un paramètre de position ou

iii
d'échelle. Des liens entre ces deux problèmes seront énoncés et nous trouverons des condi-
tions sur la famille de densités étudiée pour trouver des estimateurs minimax. Quelques
exemples concluront cette section. Finalement, le chapitre 5 est l'intégrale de l'article
déposé en collaboration avec Tatsuya Kubokawa, Éric Marchand et William E. Straw-
derman, concernant l'ensemble du problème étudié dans ce mémoire, à savoir l'estimation
par densité prédictive dans un espace paramétrique restreint.

iv
REMERCIEMENTS

Je tiens d'abord à remercier mes directeurs de maîtrise. En premier lieu, M. Éric Mar-
chand pour sa disponibilité, sa compréhension, son soutien et pour tout ce que j'ai pu
apprendre durant les deux dernières années, mais aussi M. William E. Strawderman pour
son aide et le temps qu'il m'a consacré. Je voudrais aussi remercier tous mes confrères
et consoeurs de travail pour les discussions mathématiques et le soutien. Merci au dé-
partement de mathématiques de l'Université de Sherbrooke et au Fonds de recherche du
Québec Nature et technologies (FRQNT) pour leur aide nancière. Finalement, un merci
tout spécial à ma famille pour m'avoir épaulé et encouragé, en particulier mon copain
Michaël.

Jean-Philippe Turcotte
Sherbrooke, décembre 2012

v
TABLE DES MATIÈRES

SOMMAIRE iii
REMERCIEMENTS v
TABLE DES MATIÈRES vi
LISTE DES FIGURES viii
NOTATION xi
INTRODUCTION 1
CHAPITRE 1  Préliminaires 3
1.1 Dénitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 Choix de perte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

CHAPITRE 2  Estimation de Stein 12


2.1 Approche géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

vi
2.2 Estimateur de Bayes empirique . . . . . . . . . . . . . . . . . . . . . . . 14

2.3 Résultats de dominance . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.4 Estimateurs de Bayes : Résultats de minimaxité . . . . . . . . . . . . . . 18

CHAPITRE 3  Densités prédictives pour la loi Multinormale 23


3.1 Résultats de minimaxité et de dominance . . . . . . . . . . . . . . . . . . 24

3.2 Lien entre l'estimation par densité prédictive et l'estimation ponctuelle . 29

3.3 Estimation avec contrainte . . . . . . . . . . . . . . . . . . . . . . . . . . 33

CHAPITRE 4  Estimation pour des familles à paramètre de position et


d'échelle sous contrainte 44
4.1 Cas d'un paramètre de position sous contrainte . . . . . . . . . . . . . . 44

4.2 Cas d'un paramètre d'échelle sous contrainte . . . . . . . . . . . . . . . . 52

4.3 Cas particulier : Loi Gamma . . . . . . . . . . . . . . . . . . . . . . . . . 54

CHAPITRE 5  Minimaxity in Predictive Density Estimation with Pa-


rametric Constraints 61
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.1.1 Preamble . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.1.2 Outline of Paper . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

5.1.3 Brief review of previous ndings for normal models . . . . . . . . 65

5.2 General conditions for minimaxity . . . . . . . . . . . . . . . . . . . . . 67

vii
5.3 Location and scale families : minimaxity and improvements on q̂ BI . . . . 74

5.3.1 Minimaxity for location families . . . . . . . . . . . . . . . . . . . 74

5.3.2 Improvements on the best equivariant estimator q̂ BI . . . . . . . . 75

5.3.3 Case of a scale family . . . . . . . . . . . . . . . . . . . . . . . . . 82

5.4 Estimation in location-scale families . . . . . . . . . . . . . . . . . . . . . 85

5.4.1 Non-bounded case . . . . . . . . . . . . . . . . . . . . . . . . . . 85

5.4.2 Bounded case . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

5.4.3 Multidimensional case . . . . . . . . . . . . . . . . . . . . . . . . 89

5.5 Concluding remarks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

CONCLUSION 96
BIBLIOGRAPHIE 97

viii
LISTE DES FIGURES

2.1 Illustration géométrique de l'estimation du paramètre θ à partir de l'ob-


servation X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.1 Estimateur de Bayes pour la loi a priori π(θ) = 0, 41{−5}∪{5} (θ)+0, 21{0} (θ)
et pour la loi normale (vx = vy = 1) avec observation x = 2, 5. . . . . . . 34

3.2 Estimateur de Bayes pour la loi a priori uniforme sur [−5, 5] pour la loi
normale (vx = vy = 1) avec observation x = 2 . . . . . . . . . . . . . . . 35

3.3 Estimateur de Bayes pour la loi a priori uniforme sur [−5, 5] pour la loi
normale (vx = vy = 1) avec observation x = 100 . . . . . . . . . . . . . . 36

3.4 Diérence des risques (lois a priori uniforme sur [−5, 5] et sur les réels avec
vx = vy = 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.5 Estimateur de Bayes pour la loi a priori uniforme sur les réels positifs pour
la loi normale (vx = vy = 1) avec observation x = −2 . . . . . . . . . . . 39

3.6 Diérence relative des risques (loi a priori uniforme sur les réels positifs
et sur les réels avec vx = vy = 1) . . . . . . . . . . . . . . . . . . . . . . . 40

4.1 Densités prédictives pour la loi exponentielle avec σ = 1 et x = 2. . . . . 50

ix
4.2 Diérence relative des risques pour la loi exponentielle avec σ = 1 et x = 2. 51

4.3 Estimateurs de Bayes pour loi Gamma (α1 = α2 = 1 avec observation


x = 1). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.4 Diérence relative des risques pour estimateurs de Bayes sous loi a priori
1
1 + (β)
β R
et sous loi a priori β1 1]0,1] (β) pour loi Gamma (α1 = α2 = 1). . . 59

5.1 Relative dierence in risks between q̂ BI and q̂ U (normal model with µ ≥


2
0, σX = σY2 = 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

x
NOTATION

θ : Paramètre d'intérêt
δ : Estimateur
p(·), q(·) : Fonctions de densités
pb : Densité prédictive
π(·) : Densité de la loi a priori du paramètre θ
δπ , θbπ : Estimateurs de Bayes du paramètre θ associés à la loi a priori π
pbπ : Estimateur de Bayes de la densité p(·) associé à la loi a priori π
mπ (·) : Densité marginale sous la loi a priori π
LKL : Fonction de perte Kullback-Leibler
LQ : Fonction de perte quadratique
RKL : Fonction de risque Kullback-Leibler
RQ : Fonction de risque quadratique
∆(·) : Diérence entre les risques de deux estimateurs
rπ : Risque de Bayes associé à la loi a priori π
p : Dimension
∇ : Gradient
∇· : Divergence
∇2 : Laplacien
φ(·) : Densité d'une loi normale
Φ(·) : Répartition d'une loi normale
1D (·) : Fonction constante égale à 1 sur l'espace D

xi
INTRODUCTION

Dans le domaine de la statistique, l'estimation est un domaine très utile pour comprendre
le monde qui nous entoure et prédire de futurs événements. Plusieurs statisticiens se sont
penchés sur l'estimation de paramètres de position ou d'échelle tels que la moyenne ou
la variance d'une variable X de loi normale.

Or, si l'objectif est de prédire de futurs comportements de la variable, ne serait-il pas


mieux d'estimer la fonction de densité au complet, plutôt que de se restreindre à esti-
mer un paramètre ? Dans ce cas, comment peut-on dénir la notion de distance entre
l'estimation et la densité réelle ?

Ajoutons à ce problème l'information a priori du paramètre. Par exemple, si on sait que


la moyenne d'une variable aléatoire est strictement positive, comment gère-t-on cette
information à travers notre réexion ? La statistique bayésienne fournira des pistes de ré-
ponses quant aux meilleurs estimateurs, tout en permettant le plus d'objectivité possible
par le choix de lois a priori non informatives.

Ainsi, nous consacrerons nos eorts sur l'estimation de la fonction de densité d'une va-
riable Y dans le cadre paramétrique à partir d'une observation X . Nous débuterons par
se choisir une fonction de perte mesurant l'erreur d'une estimation. La perte Kullback-
Leibler jouera un rôle important dans ce mémoire. Elle possède des propriétés intéres-
santes que nous démontrerons.

1
Par la suite, pour mieux comprendre l'estimation par densité prédictive et établir des
liens, nous réviserons plusieurs résultats concernant l'estimation ponctuelle du paramètre
d'intérêt sous la perte quadratique. En particulier, nous rappellerons les résultats concer-
nant l'ecacité de l'estimateur de James-Stein qui domine l'estimateur usuel X . De plus,
nous établirons des conditions sur la loi a priori pour qu'ils conduisent à un estimateur
minimax.

La troisième partie de ce mémoire concernera le problème d'estimation par densité pré-


dictive dans le cas particulier de la loi multinormale. Plusieurs estimateurs seront com-
parés et des résultats similaires à ceux du problème d'estimation ponctuelle pourront
être trouvés. Nous regarderons ensuite ce qui se produit lorsque l'espace paramétrique
est restreint à partir d'exemples particuliers. Des lois a priori impropres seront à l'étude
dans ce contexte.

Finalement, la restriction de l'espace paramétrique peut s'appliquer dans un cadre plus


général que la loi multinormale. Nous étudierons donc l'ecacité des estimateurs pour des
paramètres de position et d'échelle. Nous nous demanderons quelles sont les conditions
nécessaires à imposer sur la famille de densités de Y pour mener à des résultats de
dominance et de minimaxité. Des exemples cloront cette partie.

2
CHAPITRE 1

Préliminaires

Ce chapitre fait un rappel des dénitions concernant l'inférence bayésienne et des pro-
priétés de la perte Kullback-Leibler qui sera utilisée dans ce mémoire.

1.1 Dénitions

Tout au long de ce mémoire, nous faisons référence à certaines notions d'inférence sta-
tistique. Pour mieux comprendre ce dont on parle, voici quelques dénitions auxquelles
on fait référence. Nous travaillons avec un modèle statistique X ∼ pθ , où θ ∈ Θ avec
Θ un espace paramétrique. Nous dénotons par δ des estimateurs, par δ(x) des estimés
fonctions de l'observation X = x et par L(θ, δ(X)) la perte mesurant l'erreur de notre
estimation.

Dénition 1.1.1. Pour un problème d'estimation d'un paramètre θ ou d'une fonction


paramétrique g(θ) par un estimateur δ avec fonction de perte L(θ, δ), la fonction de risque
est dénie par R(θ, δ) = E X|θ [L(θ, δ(X))].

3
Une propriété utile pour choisir un estimateur est la minimaxité.

Dénition 1.1.2. Pour un problème d'estimation avec risque R(θ, δ), un estimateur
δ0 est minimax s'il minimise le risque maximal en θ, c'est-à-dire si sup R(θ, δ0 ) =
θ
inf sup R(θ, δ).
δ θ

Nous souhaiterons à plusieurs reprises comparer deux estimateurs dans un même contexte.
Qu'est-ce qui ferait qu'un estimateur serait plus performant qu'un autre relativement au
risque déni ?

Dénition 1.1.3. Un estimateur δ domine un autre estimateur δ pour une perte L(θ, δ)
1 2

si R(θ, δ1 ) ≤ R(θ, δ2 ) pour tout θ avec inégalité stricte pour au moins un θ.

Dans le cadre d'inférence bayésienne, on utilise l'information détenue sur le paramètre


inconnu θ pour lui associer une fonction de densité π(θ). Le paramètre est alors considéré
comme une variable aléatoire.

Dénition 1.1.4. Pour une loi a priori π(θ) sur le paramètre θ et pour la perte L(θ, δ),
l'estimateur δπ de θ est un estimateur de Bayes s'il minimise la perte espérée a posteriori
E θ|X [L(θ, δ)].

La classe des estimateurs de Bayes peut être agrandie en généralisant le concept d'esti-
mateur de Bayes.

Dénition 1.1.5. Un estimateur δ 0 est dit Bayes par extension lorsqu'il existe une suite
de lois a priori propres {πm }m≥1 telle que lim rπm (δπm ) = lim rπm (δ0 ) < ∞ où rπm (δ) =
m→∞ m→∞
E [R(θ, δ)] est le risque intégré de Bayes pour la loi a priori πm et où δπm est l'estimateur
θ

de Bayes pour la loi a priori πm .

Il a été démontré qu'il existe un lien entre la minimaxité d'un estimateur et le fait qu'il
soit un estimateur de Bayes, comme le souligne le théorème suivant.

4
Théoreme 1.1.6. Un estimateur de Bayes par extension δ dont le risque est R(θ, δ ) = c
0 0

(constant) pour tout θ est minimax.

Démonstration. Supposons que δ0 ne soit pas minimax. Alors,

⇒ ∃δ1 : sup R(θ, δ1 ) < c


θ

⇒ ∃ > 0 : sup R(θ, δ1 ) +  < c.


θ

Or, pour ce même , il existe une valeur m0 ≥ 1 tel que c ≤ rπm0 (δπm0 ) + ,

⇒ sup R(θ, δ1 ) < rπm0 (δπm0 ),


θ

ce qui n'est pas possible.

Ainsi, on peut considérer ces dénitions et ces résultats au cours de ce travail lorsqu'ils
sont utiles.

1.2 Choix de perte


Dans le cadre de ce mémoire, nous faisons face à un problème d'estimation de la fonction
de densité p(·) d'une variable ou d'un vecteur aléatoire Y par une densité prédictive pb(·).
Pour mesurer l'ecacité d'une telle estimation, nous devons tout d'abord dénir une
fonction de perte.

Quels sont les critères d'une bonne fonction de perte ? Quelles caractéristiques peuvent
être avantageuses ? Pour commencer, nous voulons qu'elle soit positive et qu'elle soit

5
nulle pour une estimation qui s'avère exacte. Aussi, il est préférable qu'elle soit dénie
de façon intrinsèque, c'est-à-dire que si on procède à un changement de variables par une
fonction strictement monotone, il n'y ait pas d'impact sur la perte ou sur le choix de
l'estimateur.

Voilà pourquoi la fonction de perte de Kullback-Leibler, introduite dans ( [15]), semble


un choix judicieux pour la suite de ce mémoire. Elle se dénit comme suit :

Z
p(y) p(Y )
LKL (p, pb) = p(y)log( )dµ(y) = E Y [log( )],
pb(y) pb(Y )

où µ une mesure σ -nie sur l'espace échantillonnal de Y sous-ensemble de Rp , p(·) est la


densité à estimer, pb(·) est un estimateur de p(·) qui sont toutes deux absolument continues
par rapport à la mesure µ, et où l'espérance est prise par rapport à p.

Cette perte considère la distance entre les deux densités en chaque point y à travers leur
vraisemblance. Notons aussi que cette fonction de perte peut être décrite par l'expression :

Z
pb(y) pb(y)
LKL (p, pb) = p(y)( − log( ) − 1)dy, (1)
p(y) p(y)

ce qui laisse présager qu'il y a un lien direct entre cette fonction de perte et la perte
entropie ρ(t) = t − log(t) − 1 où t = pb(y)
p(y)
. On peut donc interpréter cette perte comme la
perte entropie moyenne pondérée par la fonction de densité de Y .

Proposition 1.2.1. La fonction de perte de Kullback-Leibler (i) est positive ou nulle et


(ii) est nulle lorsque pb ≡ p presque partout.

Démonstration. (i) Comme la fonction −log est stictement convexe sur ]0, ∞[, on peut
déduire le résultat suivant par l'inégalité de Jensen :

6
L(p, pb) = E Y [log( pp(y)
b(y)
)]
p(y)
≥ −log(E Y [ p(y) ])
b
R pb(y)
= −log( p(y) p(y) )
= −log(1)
= 0,

avec égalité si et seulement si pb(y)


p(y)
est constant avec probabilité un. Donc, L(p, pb) = 0 ⇔
pb(y) ≡ p(y) presque partout sur le support de p(y).

Remarque 1.2.2. On peut aussi déduire le résultat du fait que la perte entropie est
toujours positive ou nulle. Ainsi, la perte Kullback-Leibler qu'on peut exprimer sous la
forme L(p, pb) = p(y)( pp(y)
R b(y)
− log( pp(y)
b(y)
) − 1)dy (voir notes non publiées de Marchand ) [17]
a la même propriété.

La perte utilisée dans ce mémoire possède la caractéristique d'être intrinsèque, c'est-à-


dire qu'elle est dénie à partir de la distribution d'échantillonnage. Cette propriété la
rend invariante aux changements de variables strictement monotones, ce qui n'est pas le
cas, entre autres, de la perte quadratique. Un changement de variables ne conduit pas à
une estimation diérente, comme énoncé dans la prochaine proposition. Une étude des
pertes intrinsèques est discutée dans Robert ( [19]).
Proposition 1.2.3. Dans le cadre de l'estimation multidimensionnelle, soient Y ∼ p (·) Y

et Y1 = h(Y ) ∼ pY1 (·) où h(·) est strictement monotone. Soient pbY et pbY1 des estimateurs
de pY et pY1 respectivement. Alors, L(pY , pbY ) = L(pY1 , pbY1 ) où pbY1 est la densité de
Y10 = h(Y 0 ) avec Y 0 ∼ pb(·).

Démonstration. On a :

7
p (Y )
L(pY1 (·), pbY1 (·)) = E Y1 [log( pbYY1 (Y11 ) )]
1
|(h−1 (Y 0 −1
|pY (h (Y1 ))
= E Y1 [log( |(h−1 (Y11 ))
))0 |b
pY (h−1 (Y1 ))
)]
p (Y )
= E Y [log( pbYY (Y ) )]
= L(pY (·), pbY (·)).

À partir de maintenant, nous considérons le problème paramétrique suivant :

Problème (∗)
Soient X|θ ∼ p (·|θ) et Y |θ ∼ p (·|θ) indépendantes. Nous tentons d'estimer
sous la perte Kullback-Leibler p (·|θ) à partir d'une ou plusieurs observations
X Y

de X considérant qu'on dispose d'une loi a priori π pour le paramètre θ ∈ R . Il


Y
p

arrive qu'on utilise une loi a priori non informative lorsqu'aucune information
sur θ n'est disponible.
Pour le problème d'estimation ponctuelle de θ sous la perte quadratique L(θ, δ(x)) =
kθ − δ(x)k2 , on remarque que l'estimateur de Bayes associé à une loi a priori π est E[θ|X]
si E[kθk2 |X] < ∞, car cet estimateur minimise, pour tout x, l'espérance a posteriori de
la perte. Ce résultat naturel se rencontre aussi pour le problème ∗ , comme démontré ()
[1]).
dans Aitchison (

Proposition 1.2.4. Pour le problème (∗), l'estimateur de BayesR pb (·; X) est la densité π

conditionnelle de Y |X = x (dite prédictive) donnée par pY |X (y) = p(y|θ)π(θ|x)dν(θ), où


π(θ|x) est la densité a posteriori de θ étant donné x et par rapport à une mesure σ -nie ν .
Le résultat est le même si on considère plutôt la perte L2 (θ, pb) = (p(y|θ)− pb(y|x))2 dµ(y).
R

Démonstration. L'estimateur de Bayes associé à une loi a priori π sur θ est celui qui
minimise, pour tout x, l'espérance a posteriori de la perte. On a :

8
π(θ|x)p(y|θ) log( pp(y|θ)
RR
E θ|X=x [LKL (θ, pb)] = b(y|x)
)dν(θ)dµ(y)
Y Θ R
pb(y|x) R
= C − p(y|x) log( p(y|x) )dµ(y) + p(y|x) log(p(y|x))dµ(y)
Y
R Y
≥ C + p(y|x) log(p(y|x))dµ(y)
Y

par l'inégalité de Jensen appliquée à la fonction − log(·) avec égalité si et seulement si


pb(·|x) ≡ p(·|x) presque partout et où p(y|x) = p(y|θ)π(θ|x)dν(θ).
R
Θ

Pour la perte L2 , on a :

RR
E θ|X=x [L2 (θ, pb)] = π(θ|x)(p(y|θ) − pb(y|x))2 dν(θ)dµ(y)
Y
RΘR RR
= π(θ|x)p(y|θ)2 dν(θ)dµ(y) − 2 π(θ|x)p(y|θ)b
p(y|x)dν(θ)dµ(y)
Y Θ
RR Y Θ
+ p(y|x)2 dν(θ)dµ(y)
π(θ|x)b
Y Θ R R
= C − 2 p(y|x)b p(y|x)dµ(y) + pb(y|x)2 dµ(y)
Y Y

On cherche donc à minimiser, pour tout y : −2p(y|x)b


p(y|x) + pb(y|x)2 . En dérivant, on
obtient : −2p(y|x) +2b
p(y|x), ce qui est nul ssi pb(y|x) = p(y|x). Puisque la dérivée seconde
vaut toujours 2, pb(y|x) = p(y|x) = π(θ|x)p(y|θ)dθ est donc la quantité qui minimise la
R

perte a posteriori.

Voici deux premiers exemples d'estimateurs de Bayes sous la perte Kullback-Leibler :

Exemple 1.2.5. Considérons le problème (∗) où X|θ ∼ N (θ, v I ), Y |θ ∼ N (θ, v I )


p x p p y p

et θ ∼ N (µ, vθ Ip ).

On trouve à partir de ces informations que X ∼ Np (µ, (vθ + vx )Ip ). Ainsi, la loi de θ|X
est dénie par la densité suivante :

9
vθ +vx 2
1
p e
−1
2 vθ vx kθ− vxvθµ+v θx
+vx k

e
1
2(vθ +vx )
kx−µk2

(4π 2 vθ vx ) 2
π(θ|x) = − 1 kx−µk2
1 2(vθ +vx )
p e
(2π(vθ +vx )) 2
v +vx v µ+v x 2
vθ +vx p −1 θ θ− xv +v θ
= ( 2πv θ vx
) e 2 2 vθ vx θ x .

Donc, θ|X = x ∼ Np (µ(x), v(x)Ip ) où µ(x) = vx µ+vθ x


vθ +vx
et v(x) = vθ vx
vθ +vx
.

Finalement, par un développement similaire à celui utilisé pour trouver la densité mar-
ginale de X et à celui détaillé dans l'Exemple 3.1.2, on a que pb(·|x) ∼ Np (µ(x), (v(x) +
vy )Ip ).

Ce résultat est intéressant, car on peut établir des parallèles avec l'estimation ponctuelle
de θ sous la perte quadratique kδ − θk2 . D'abord, il est à remarquer que µ(x) est l'esti-
mateur de Bayes de θ sous la perte quadratique kd − θk2 avec la même loi a priori. Ainsi,
l'estimateur de Bayes de p(·|θ) est la densité d'une loi normale de moyenne µ(x) et de
variance supérieure à la variance vy . Aussi, en choisissant µ = 0 et vθ → ∞, on en déduit
l'estimateur de Bayes généralisé pbU (·|x) ∼ Np (x, (vx + vy )Ip ). Finalement, on sait que ces
estimateurs pb(·|x) ∼ Np (µ(x), (v(x) + vy )Ip ) sont admissibles, car ils sont des estimateurs
de Bayes uniques avec un risque intégré de Bayes rπ ni.

Exemple 1.2.6. Dans le cadre du problème (∗), si X|θ ∼Poisson(θ), Y |θ ∼Poisson(θ)


et que la loi a priori de θ est la loi impropre π(θ) = 1]0,∞[ (θ), on obtient pour densité
prédictive :

θ y e−θ θ x e−θ
R∞
0 y! x!

pbπ (y|x) = R ∞ θx e−θ
R∞0 x!

x+y e−2θ dθ
1 0R θ
= y! ∞ x −θ
0 θ e dθ
x+y
P (x+y)! θx+y−i −2θ ∞
[− (x+y−i)! 2i+1
e ]θ=0
1 i=0
= y! x
x!
θx−i e−θ ]∞
P
[− (x−i)! θ=0
i=0
x+y
( 12 )x+y+1 1{0,1,2,...} (y).

= y

10
On reconnaît ici la fonction de masse d'une loi binomiale négative où y représente le
nombre d'échecs obtenus avant qu'on obtienne le (x + 1)e succès et où la probabilité de
succès est de 12 .

Ainsi, les notions décrites dans ce chapitre seront utilisées pour présenter les résultats
principaux de ce mémoire. On étudiera la minimaxité et la dominance de certains esti-
mateurs. La perte Kullback-Leibler sera utilisée dans le cadre du problème d'estimation
par densité prédictive.

11
CHAPITRE 2

Estimation de Stein

Dans cette section, nous nous attarderons au problème d'estimation ponctuelle d'un
paramètre de position θ sous la perte quadratique LQ (θ, δ) = kθ − δk2 à partir d'un
ensemble d'observations. Bien que la moyenne échantillonnale tirée d'une loi normale avec
moyenne θ et matrice de variance-covariance Ip soit sans biais, minimax et l'estimateur
du maximum de vraisemblance, il a été démontré par Stein ( [21]) et par James et Stein
[10]), que cet estimateur est inadmissible pour des dimensions p ≥ 3, c'est-à-dire qu'il
(
existe un estimateur dont le risque est inférieur ou égal sur l'espace paramétrique avec
une inégalité stricte en au moins un point.

Nous aborderons plus précisément ce problème à partir d'une population de loi multi-
normale Np (θ, σ 2 Ip ) où σ 2 est connue. Nous disposons d'un échantillon X1 , X2 , ..., Xn .
Puisque X est une statistique exhaustive de loi Np (θ, σn Ip ), on peut considérer une seule
2

observation sans perte de généralité.

Dans ce contexte, l'estimateur de James-Stein est donné par δJS (X) = (1 − kXk
p−2
2 )X . Pour

p ≥ 3, cet estimateur domine X uniformément en θ ∈ Rp . Puisque X est minimax (voir


Casella et Lehmann ( [5])), tout estimateur dominant X est aussi minimax.
12
Nous élaborerons donc sur ce résultat célèbre et décrirons certains aspects décrits dans la
littérature, notamment en ce qui concerne des conditions pour qu'un estimateur δ(X) =
X + g(X) domine X . Nous identierons aussi des conditions de dominance applicables
aux estimateurs bayésiens. Cette présentation est adaptée de Strawderman ( [23]).

2.1 Approche géométrique


Considérons la gure suivante.

Figure 2.1  Illustration géométrique de l'estimation du paramètre θ à partir de l'obser-


vation X .

Nous savons que E[(X − θ)0 θ] = 0, ce qui nous suggère que ces deux vecteurs sont en
moyenne orthogonaux. Nous savons aussi que E[kXk2 ] = pσ 2 +kθk2 , ce qui pourrait nous
faire croire que X est un estimateur trop long de θ dans le sens où E[kXk2 ] > kθk2 . La
projection (1 − a)X de θ sur X serait donc une meilleure approximation. Considérons Y
comme dans la gure 2.1. En supposant que X − θ et θ soient vraiment orthogonaux et
que kXk2 mesure vraiment pσ 2 + kθk2 , nous avons d'un côté :

13
kY k2 = kX − θk2 − a2 kXk2
= pσ 2 − a2 kXk2
et de l'autre

kY k2 = kθk2 − (1 − a)2 kXk2


= kXk2 − pσ 2 − (1 − a)2 kXk2

En égalant ces deux expressions, on obtient : a = pσ 2


kXk2
et θb = (1 − a)X = (1 − kXk
pσ 2
2 )X .

Cet estimateur serait donc plus approprié intuitivement.

2.2 Estimateur de Bayes empirique


Partons toujours du problème où on cherche à estimer un vecteur paramétrique θ à partir
d'une variable aléatoire X ∼ Np (θ, σ 2 Ip ). Supposons de plus que nous disposons de la loi
a priori telle que θ ∼ Np (0, bIp ) où la constante σ 2 est connue alors que b ne l'est pas.

Dans ce cas, la loi a posteriori de θ|X = x est une loi normale de moyenne b
σ 2 +b
X =
(1 − σσ2 +b )X . Il s'agit de l'estimateur de Bayes pour la perte quadratique LQ . Il reste donc
2

à estimer la valeur de b. Comme (X − θ)|θ ∼ Np (0, σ 2 Ip ), X − θ est indépendant de θ.


On peut en conclure que X = X − θ + θ a pour distribution marginale une loi normale
de moyenne 0 et de matrice de variance-covariance (σ 2 + b)Ip . On peut ainsi souligner
kXk2
que b+σ 2
∼ χ2 (p) (Chi-deux avec p degrés de liberté). De là, on peut utiliser le résultat
suivant : E[ kXk . Donc, comme b est inconnu, on peut approximer l'estimateur
b+σ 2 1
2] = p−2
2
(1 − σσ2 +b )X par qui est un estimateur de Bayes empirique correspondant
2
(1 − (p−2)σ
kXk2
)X
à δJS (X).

14
2.3 Résultats de dominance
Les deux sous-sections précédentes nous ont proposé des estimateurs de la forme (1 −
aσ 2
kXk2
)X pour un paramètre de position θ qui semblent plus appropriés que X . Nous
retraçons ici le résultat à l'eet que l'estimateur X est dominé pour la perte quadratique
LQ par ces estimateurs, soient celui obtenu par l'approche géométrique et l'autre obtenu
par l'approche Bayes empirique.

Nous avons besoin du résultat suivant de Stein ( [22]). Nous dirons qu'une fonction f (x)
est faiblement diérentiable s'il existe une fonction ψ(x) ∈ L1 (R) telle que f (x) =
Rx p
ψ(x)dx. De plus, la divergence d'une fonction f (x) est ∇ · f (x) = ∂
.
P
∂xi
f (x)
a i=1

Lemme 2.3.1. ([22],[23]) (Lemme de Stein) Soit X ∼ N (θ, σ I ) et g(x) : R


p
2
p
p
7→ Rp
une fonction faiblement diérentiable telle que E[kg(X)k2 ] < ∞. Alors, E[(X−θ)g(X)] =
σ 2 E[∇ · g(X)].

Démonstration. Considérons d'abord le cas unidimensionnel où X ∼ N (0, 1) et g(x) :


R 7→ R. L'intégration par parties nous donne :

R∞ x2
E[Xg(X)] = √1 xg(x)e− 2 dx
−∞ 2π
x2 R∞ x2
= √1 ([−g(x)e− 2 ]∞ + g 0 (x)e− 2 dx)
2π x→−∞ −∞
0
= E[g (X)],

car E[|g(X)|] < ∞. Le cas où X ∼ Np (0, Ip ) et où g(X) : Rp 7→ Rp se prouve en utilisant


ce dernier résultat. On remarque que

15
E[X 0 g(X)] = E[
P
P Xi gi (X)]
= P E[Xi gi (X)]
= E[ ∂ g (X)]
P ∂x∂ i i
= E[ ∂xi gi (X)]
= E[∇ · g(X)].

Finalement, le résultat pour X ∼ Np (θ, σ 2 Ip ) s'obtient en eectuant le changement de


variable Y = X−θ
σ
.

Le théorème qui suit a bouleversé les croyances sur l'estimateur X intuitif et considéré
ecace pour une moyenne, car il est minimax, sans biais et estimateur du maximum de
vraisemblance.

Théoreme 2.3.2. [8] Soit X ∼ N (θ, σ I ). Pour p ≥ 3, l'estimateur δ (X) = (1 −


p
2
p a
aσ 2
kXk2
)X de θ domine l'estimateur X pour 0 < a < 2(p − 2) et pour la perte quadratique
kδ − θk2 . De plus, δp−2 (X) est celui qui minimise le risque de cette classe. Ce minimum
est uniquement atteint en θ = 0 et vaut 2σ 2 , car le risque est croissant en kθk.

Démonstration. À l'aide du Lemme 2.3.1, on a :

2
aσ 2
R(θ, δa ) = Eθ [ (1 − kXk2
)X − θ ]
2 X (X−θ) 0
2 4 1 2
= Eθ [kX − θk ] + a σ Eθ [ kXk 2 ] − 2aσ Eθ [
kXk2
]
p
(Xi −θ)
1
= pσ 2 + a2 σ 4 Eθ [ kXk 2
Eθ [ XiP
P
2 ] − 2aσ p ]
i=1 Xj2
j=1
p
1 Xi
= pσ 2 + a2 σ 4 Eθ [ kXk 4
Eθ [ dxd i
P
2 ] − 2aσ p ]
Xj2
P
i=1
j=1
p
Xj2 −2Xi2
P
p
1
= pσ 2 + a2 σ 4 Eθ [ kXk 4
Eθ [ j=1P
P
2 ] − 2aσ p ]
i=1 ( Xj2 )2
j=1

2 2
1 pkXk −2kXk
= pσ 2 + a2 σ 4 Eθ [ kXk 4
2 ] − 2aσ Eθ [
(kXk2 )2
]
2 4 2 1
= pσ + σ (a − 2a(p − 2))Eθ [ kXk2 ].

16
Comme a2 − 2a(p − 2) = a(a − 2(p − 2)) est négatif pour 0 < a < 2(p − 2), on peut
conclure que δa (X) domine X pour a dans cet intervalle. De plus, ce polynôme atteint
son minimum en a = p − 2.
kXk2
Finalement, lorsque θ = 0, σ2
a pour distribution une loi du khi-deux avec p degrés de
liberté et le risque est donc de :

σ2 (p − 2)2
R(0, δp−2 ) = pσ 2 − σ 2 (p − 2)2 E[ 2 ] = σ 2
(p − ) = 2σ 2
kXk p − 2
.

Finalement, le risque minimal de l'estimateur δp−2 (X) est uniquement atteint pour θ = 0,
car R(θ, δp−2 (X)) = pσ 2 − σ 4 (p − 2)2 Eθ [ kXk
1
2 ] est monotone croissante en kθk.

Tel que décrit par Brandwein et Strawderman ( [3]), les deux généralisations qui suivent
sont à remarquer.

(i) Le résultat tient pour un changement d'origine. Si on considère la variable Y = X −θ0 ,


2
l'estimateur δp−2 (Y ) = (1 − (p−2)σ
kY k2
)Y de θ − θ0 domine Y avec un risque minimal de 2σ 2
2
en θ−θ0 = 0. On peut donc conclure que l'estimateur δ(X) = θ0 +(1− kX−θ
(p−2)σ
0k
2 )(X −θ0 ) de

θ domine X avec un risque minimal de 2σ 2 en θ = θ0 , car R(θ − θ0 , δp−2 ) = R(θ, δp−2 + θ0 )


pour tout θ ∈ Rp . Cette généralisation est utile lorsqu'on a une idée de la valeur de θ.

(ii) Sachant que θ appartient à un sous-espace linéaire V de Rp de dimension s, on


peut considérer la projection de X sur ce sous-espace additionné à l'estimateur de Stein
appliquée à la projection de X sur le sous-espace orthogonal au premier. Le risque minimal
est de σ 2 (s + 2). Il faut par contre que p − s ≥ 3. Lindley ( [16]) propose un estimateur
de ce type où V = {θ : θ1 = θ2 = ... = θp }.

17
2.4 Estimateurs de Bayes : Résultats de minimaxité

Considérons toujours le problème où X ∼ Np (θ, σ 2 Ip ) et où on cherche à estimer ponctuel-


lement le paramètre θ sous la perte quadratique L(θ, δ) = kδ − θk2 . Nous nous concentre-
rons ici sur les estimateurs de Bayes. Leur forme particulière nous permettra de trouver
des conditions de minimaxité.

Lemme 2.4.1. ([22],[23]) Pour un estimateur de la forme δ(X) = X +σ g(X), le risque


2

est égal à R(θ, δ) = pσ 2 + E[σ 4 (kg(X)k2 + 2∇ · g(X))]. Ainsi, si kg(x)k2 + 2∇ · g(x) ≤ 0


pour tout x ∈ Rp , alors δ(X) est minimax, car le risque est uniformément inférieur au
risque de X qui est de pσ 2 .

Démonstration. On a :

2
R(θ, δ) = E[kX + σ 2 g(X) − θk ]
= E[kX − θk2 ] + σ 4 E[kg(X)k2 ] + 2σ 2 E[g(X)0 (X − θ)]
= pσ 2 + σ 4 E[kg(X)k2 + 2∇ · g(X)],

par le Lemme 2.3.1.

Exemple 2.4.2. L'estimateur de James-Stein δ p−2 (X)


(p−2)σ 2
= (1 −kXk2
)X est un exemple
du type d'estimateur décrit plus haut. Dans ce cas, on a g(X) p−2
= − kXk 2 X.

Le prochain lemme illustre la forme particulière d'un estimateur de Bayes.

Lemme 2.4.3. ([22],[23]) Si θ suit une loi a priori π(θ) telle que la marginale m(·)
existe, alors l'estimateur de Bayes est de la forme δπ (X) = X + σ 2 ∇m(X)
m(X)
.

Démonstration. On a :

18
∇m(X) = [ δxδ i f (x|θ)π(θ)dθ]i=1...p
R

= [ − (xiσ−θ i)
R
2 f (x|θ)π(θ)dθ]i=1...p
= [− σ2 m(x) + m(x)
xi
σ2
E θ|X [θi ]]i=1...p
= m(X)
σ2
(−X + δπ (X))

∇m(X)
⇒ δπ (X) = X + σ 2 .
m(X)

Le dénition suivante est utile pour comprendre le Théorème 2.4.6.

Dénition 2.4.4. Une fonction continue φ : R → R est dite superharmonique si pour


p

Γ( p2 )
tout x0 ∈ Rp et pour tout r > 0, on a φ(x0 ) ≥ φ(x)dUSr,x0 (x), où Sr,x0 =
R
p p
−1
(2π) 2 r 2
Sr,x0
{x ∈ R : kx − x0 k = r} est la sphère de rayon r centrée en x0 et USr,x0 est la mesure
p

uniforme sur cette sphère.

Remarque 2.4.5.  La quantité p p


(2π) 2 r 2 −1
Γ( p2 )
correspond à l'aire de la sphère Sr,x0 .
 Pour une fonction superharmonique, on peut armer qu'en tout point, la valeur de la
fonction est supérieure ou égale à la moyenne des valeurs de la fonction sur une sphère
autour de ce point de rayon arbitraire.
 Une dénition équivalente lorsque les dérivées partielles d'ordre 2 existent serait qu'une
p
∂2
fonction φ est superharmonique si ∇2 φ = φ(x) ≤ 0, où ∇2 = ∇ · ∇ correspond
P
∂x2 i
i=1
au Laplacien.

Théoreme 2.4.6. ([22],[23]) Si θ suit√ une loi a priori π(θ) telle que lapmarginale m(·)
2
∇ m(X)
existe, alors R(θ, δπ ) = pσ 2 + 4σ 4 E[ √ ] et δπ est donc minimax si m(X) est une
m(X)
fonction superharmonique.

Démonstration. En regard des deux lemmes précédents, on sait que R(θ, δπ ) = pσ 2 +


σ 4 E[kg(X)k2 + 2∇ · g(X)] où g(X) = ∇m(X)
m(X)
. Remarquons que l'intérieur de l'espérance
est alors égale à :

19
2
∇m(X) ∇m(X) k∇m(X)k2 2 2

m(X)
+ 2∇ · m(X)
= m(X)2
+ 2 m(X)∇ m(X)−k∇m(X)k
m(X)2
2m(X)∇2 m(X)−k∇m(X)k2
= m(X)2
.

Mais, d'un autre côté, nous avons :


4∇2
√ m(X) = √ 4
p
∇ ·∇ m(X)
m(X) m(X)
= √4 ∇ · ( ∇m(X)
√ )
m(X) 2 m(X)
√ ∇m(X)
m(X)∇2 m(X)−∇m(X)· √
= √ 2
m(X)
2 m(X)

m(X)
2m(X)∇2 m(X)−k∇m(X)k2
= m(X)2
.

Le résultat suivant nous assure de la minimaxité d'un estimateur de Bayes dès que la loi
a priori π(θ) est superharmonique ou dès que la loi marginale de X est superharmonique.

Proposition 2.4.7. Soit une loi a priori π(·) superharmonique telle que la marginale
mX (·) existe. Alors mX (·) est superharmonique et mX (·) est superharmonique.
p

Démonstration. Supposons π(·) superharmonique. Alors, on a :

R
∇2x mX (x) = R∇2x fX|θ (x)π(θ)dθ
= R ∇x · (∇x fX|θ (x))π(θ)dθ
= ∇x · [− 2σ1 2 (2(xi − θi ))fX|θ (x)]pi=1 π(θ)dθ
p 2
(− σ12 + (xi −θ i)
R P
= σ4
)fX|θ (x)π(θ)dθ
i=1
= − σp2 mX (x) + 1
σ4
E θ [(θ − X)0 (θ − X)π(θ)] (où θ ∼ N (x, σ 2 ))
p
− σp2 mX (x) + σ12 E θ [ (π(θ) + (θi − Xi ) δθδ i π(θ))] (par le Lemme de Stein)
P
=
i=1
1 θ 0
= σ 2 E [(θ − X) ∇ θ π(θ)]
= 1
σ2
E θ [∇2θ π(θ)] (par le Lemme de Stein)
≤ 0.

20
Ainsi, π(θ) superharmonique ⇒ mX (x) superharmonique.

Or, on a aussi que :

mX (x) = ∇ · [ δxδ i mX (x)]pi=1


p p
∇2
= ∇·[ √ 1 δ
mX (x)]pi=1
2 mX (x) δxi
p
δ2
(− √ 1 ( δ mX (x))2 + √ 1
P
= 3 δxi 2 mX (x))
i=1 4 (mX (x)) 2 mX (x) δxi
p
− √ 1
( δ mX (x))2 + √ 1 ∇2 mX (x)
P
=
i=1 4 (mX (x))3 δxi 2 mX (x)
= √ 1 (2mX (x)∇2 mX (x) − k∇mX (x)k2 )
4 (mX (x))3
≤ 0.

Ainsi, mX (x) superharmonique ⇒ mX (x) superharmonique.


p

Voici donc une condition susante pour obtenir un estimateur minimax.

Corollaire 2.4.8. Dans le cadre du problème d'estimation ponctuelle d'un paramètre θ


à partir d'une observation X|θ ∼ N (θ, σ 2 Ip ) sous la perte quadratique LQ , une condition
susante pour obtenir un estimateur minimax est que la loi a priori π(θ) soit superhar-
monique.

Démonstration. En combinant les résultats du Théorème 2.4.6 et du Corollaire 2.4.8, on


obtient le résultat.

Exemple 2.4.9. Considérons la famille de lois de la forme π(θ) = 1


kθk2k
où k ≥ 0. On a
alors :

p
∂ X
π(θ) = −2kθi ( θi2 )−k−1 .
∂xi i=1

21
Ainsi, le Laplacien équivaut à :

p p p
∇2 π(θ) = θi2 )−k−1 + 4k(k + 1)θi2 ( θi2 )−k−2 )
P P P
(−2k(
i=1 i=1 i=1
p p
−2k
θi2 1)θi2 )
P P
= p
P 2 k+2 ( − 2(k +
i=1 ( θ i ) i=1
i=1
p p
−2k
(p θi2 θi2 )
P P
= p − 2(k + 1)
θi2 )k+2
P
( i=1 i=1
i=1
−2k
= p (p − 2(k + 1)).
θi2 )k+1
P
(
i=1

Ainsi, π(θ) est superharmonique si k ≤ p


2
− 1. On peut donc conclure que, pour p ≥ 3 et
k ≤ p2 −1, l'estimateur de Bayes associé à cette loi a priori est minimax et par conséquent
admissible pour la perte Kullback-Leibler.

En conclusion, il a été démontré, à partir de résultats tirés de la littérature et dans le


cadre du problème d'estimation ponctuelle d'un paramètre θ à partir d'une observation
X|θ ∼ N (θ, σ 2 Ip ) sous la perte quadratique, que l'estimateur X n'est pas le meilleur
choix lorsque p ≥ 3. Il est dominé par l'estimateur de James-Stein et une grande classe
d'estimateurs de la forme X + g(X) et ces estimateurs dominant X sont minimax. Une
condition susante a de plus été trouvée pour obtenir un estimateur minimax, à savoir
que la loi a priori π(θ) soit superharmonique.

22
CHAPITRE 3

Densités prédictives pour la loi

Multinormale

Dans ce chapitre, nous nous attarderons principalement à l'estimation d'une densité de


loi normale, aux conditions de minimaxité, de dominance ainsi qu'aux liens reliant ce
problème au problème d'estimation ponctuelle abordé au chapitre 2. Le développement
de la section 3.2 est tiré des travaux de George, Liang et Xu ( [8]) et de Brown, George
et Xu ( [4]). Le développement de la section 3.3, quant à lui, présente des résultats de
Fourdrinier, Marchand, Righi et Strawderman ([7]) ainsi que de George, Liang et Xu
([8]). Les contributions de ce mémoire se situent au niveau de l'estimation pour un espace
paramétrique restreint, des exemples illustrés et de l'assemblage de plusieurs résultats
connus.

Problème (∗∗)
Considérons le problème où on cherche à estimer la fonction de densité d'une
variable aléatoire Y ∼ N (θ, v I ) à partir de l'observation de X ∼ N (θ, v I )
pour prédire un futur comportement de Y . Les variances v et v sont connues.
p y p p x p

x y

23
La perte utilisée est la perte de Kullback-Leibler.
Nous comparerons l'ecacité d'un estimateur par substitution avec l'estimateur de Bayes
découlant de lois a priori non informatives. Nous établirons aussi des liens avec des
problèmes où il y a une contrainte sur le paramètre θ.

3.1 Résultats de minimaxité et de dominance


Tout d'abord, si on dispose d'une loi a priori de θ (paramètre inconnu) absolument
continue par rapport à la mesure de Lebesgue, on a vu dans la Proposition 1.2.4 que
l'estimateur de Bayes pour la perte Kullback-Leibler est pb(y|x) = p(y|θ)π(θ|x)dθ.
R

Or, si on n'a aucune information sur la distribution de θ, quelle loi a priori peut-on
choisir ? Voilà la question qui rend certains statisticiens sceptiques. Nous considérerons
des lois a priori non-informatives pour éviter toute subjectivité du statisticien. De telles
lois sont présentées au chapitre 3 du livre de Robert ( [20]).
Dénition 3.1.1. Une loi a priori dont la mesure de l'ensemble total est innie mais
conduisant à une loi a posteriori de mesure 1 est dite impropre.

Les lois impropres sont souvent utilisées dans le domaine de la statistique bayésienne, car
elles possèdent, mais pas toujours, de bonnes propriétés fréquentistes. Elles représentent
souvent des choix par défaut ou appropriés lorsqu'il n'y a pas d'information a priori
explicite.

Exemple 3.1.2. Dans le cadre du problème (∗∗), en imposant la loi a priori uniforme
sur les réels et en considérant que l'estimateur de Bayes se calcule comme énoncé dans
le chapitre 1, on obient :

24
−1
R 1
−1
kθ−xk2 1 ky−θk2
pbU (y|x) = p e 2vx p e y
2v

(2πvx ) 2 (2πvy ) 2
−1
1
R 1 (vy kxk +vx kyk +(vx +vy )kθk2 −2(vy x+vx y)0 θ)
2 2
= p p e x y
2v v

(2π) 2 (2πvx vy ) 2
−(vx +vy ) v x+v y v kxk2 +v kyk2
1
R vx +vy p (kθk2 −2( yv +vx )0 θ+ y v +vx )
= p ( 2πv x vy
)2 e 2vx vy x y x y dθ
(2π(vx +vy )) 2
2 kyk2 +2v v x0 y
v 2 kxk2 +vx
−(vx +vy ) vy kxk2 +vx kyk2 x y
1 ( − y )
2vx vy vx +vy (vx +vy )2
= p e
(2π(vx +vy )) 2
2
R vx +vy p −(vx +vy ) θ−
vy x+vx y
· ( 2πvx vy
) 2 e 2vx vy vx +vy

2 2 2 2 2 2 0
−(vx +vy ) (vx +vy )vy kxk +(vx +vy )vx kyk −vy kxk −vx kyk +2vx vy x y
1 2vx vy (vx +vy )2
= p e
(2π(vx +vy )) 2
−1
1 ky−xk2
= p e 2(vx +vy ) ,
(2π(vx +vy )) 2

qui est la densité d'une loi normale de moyenne x et de matrice de variances-covariances


(vx +vy )Ip . On aurait pu retrouver cette densité en considérant le problème de l'Exemple 1.2.5.
Il sut de prendre µ = 0 et de faire tendre vθ vers l'inni pour retrouver la loi a priori
uniforme sur les réels. Dans ce cas particulier, on a que µ(X) = X et que v(X) = vx ,
ce qui nous conduit à la fonction de densité ci-haut. Nous ferons dorénavant référence à
cette densité par la notation pbU (y|x).

Le résultat suivant appuie l'idée qu'il s'agit d'un bon estimateur.

Proposition 3.1.3. Pour le problème (∗∗), parmi la classe d'estimateurs {bp(y|x) ∼


N (x, cvy Ip )}, pbU est celui qui minimise le risque pour tout θ ∈ Rp .

Démonstration. Comme Y − X|θ ∼ Np (0, (vx + vy )Ip ), on a :

|θ)
R(θ, pbc ) = E X,Y [log( pbp(Y
c (Y |X)
)]
2
p kY −Xk2
= E X,Y [log(c 2 ) − kY2v
−θk
y
+ 2cvy
]
p vx +vy
= 2 (log(c) − 1 + cvy )

minimisé en c = vx +vy
vy
.

25
Cet estimateur, minimisant le risque sous la perte Kullback-Leibler parmi les estimateurs
de la classe dénie plus tôt, a pour eet d'augmenter la variance de la fonction de densité.
Au lieu de conserver la variance vy de la variable Y , elle additionne la variance vx de
la variable X . Cette ination est due à l'incertitude sur le paramètre θ, interprétable
comme une correction par la substitution du paramètre θ par X .

Pour le problème d'estimation par densité prédictive sous la perte Kullback-Leibler, quelle
est la performance des estimateurs par substitution où on ne fait que remplacer le pa-
ramètre inconnu dans la fonction de densité par un estimateur ? Les résultats suivants
apportent une réponse.

Corollaire 3.1.4. Dans le cadre du problème (∗∗), l'estimateur pb (y|x) domine l'es-
U

timateur par substitution pb0 (y|x) ∼ Np (x, vy Ip ), où x est l'estimateur du maximum de


vraisemblance de θ et où pb0 (·|x) est l'estimateur du maximum de vraisemblance de p(·|y).

Démonstration. Le résultat découle de la Proposition 3.1.3.

On remarque en eet que la diérence des risques de ces deux estimateurs peut s'exprimer
comme suit :

∆(θ) = R(θ, pbU ) − R(θ, pb0 )


= p2 (log( vxv+vy
y
) − 1 + 1) − p2 (log(1) − 1 + vx +vy
vy
)
= p2 (log( vvxy + 1) − vvxy )
< 0,

où la dernière inégalité est aisément justiable par l'analyse de la fonction f (x) = log(x+
1) − x qui est strictement décroissante sur ]0, ∞[ avec f (0) = 0.

Ainsi, pour X et Y suivant des lois normales de même moyenne θ inconnue et de matrices
de variances-covariances connues vx Ip et vy Ip , l'estimateur de Bayes pour la densité de Y |θ

26
découlant de la loi a priori uniforme sur les réels domine l'estimateur par substitution
pour la perte Kullback-Leibler. Ce résultat se généralise lorsqu'on observe n variables
provenant de la même loi que X en remarquant que X , statistique exhaustive de cet
ensemble de vecteurs aléatoires observés, suit une loi normale de moyenne θ et de variance
vx
n p
I et peut être considérée comme l'unique observation dans la démonstration.

Le prochain résultat nous donne une raison de plus de prendre en considération l'estima-
teur pbU .

Théoreme 3.1.5. ([2],[8]) Dans le cadre du problème (∗∗), l'estimateur pb U est minimax
pour la perte Kullback-Leibler.

Si nous réussissons à démontrer que pbU est un estimateur de Bayes par extension à risque
constant, nous pourrons conclure qu'il est minimax. Pour ce faire, nous avons besoin du
lemme suivant.

Lemme 3.1.6. ([8]) Dans le cadre du problème (∗∗), on a pour tout π(θ), pb (y|x) = π
mπ,W (w) vy X+vx Y
pb (y|x),
mπ,X (x) U
où W = vx +vy
, mπ,W (·) est la densité marginale de W et mπ,X (·) est
la densité marginale de X .

Démonstration. On a :

R
pπ (x, y) = p(x|θ)p(y|θ)π(θ)dθ
kx−θk2 ky−θk2
R 1 − 1 −
= p e 2vx p e 2vy
π(θ)dθ
(2πvx ) 2 (2πvy ) 2
ky−xk2 kw−θk2
− 2(v +v )
1 1
e−
R
= p e x y p 2vw π(θ)dθ
(2π(vx +vy )) 2 (2πvw ) 2
= pbU (y|x)mπ (w).

Par ce lemme, on aurait pu retrouver l'estimateur de Bayes présenté dans l'Exemple 1.2.5
en remarquant que mπ,X (·) ∼ Np (µ, (vx + vθ )Ip ) et mπ,W (·) ∼ Np (µ, (vw + vθ )).

27
Revenons au Théorème 3.1.5 à démontrer :

Démonstration. Considérons la suite de lois a priori πn (θ) ∼ Np (0, nIp ). Ainsi,

R
pU ) − rπn (b
rπn (b pπn ) = R πn (θ)(RKL (θ, pbU ) − RKL (θ, pbπn ))dθ
= R Rπn (θ)(E[log(mπn (W ))] − E[log(mπRn (X))])dθ
R
= πn (θ)p(w|θ)log(mπn (w))dwdθ − πn (θ)p(x|θ)log(mπn (x))dxdθ,

1 2
où mπn (z) = 1
p e− 2(v+n) kzk .
(2π(v+n)) 2

Il est aisé de vérier que l'intérieur de chaque intégrale est O( n1p ), car on a :

kθk2 kz−θk2 kzk2


πn (θ)p(z|θ)log(mπn (z)) = 1
p e− 2n
1
p e− 2vz log( 1
p e− 2(vz +n) )
(2πn) 2 (2πvz ) 2 (2π(vz +n)) 2
kθk2 2
− p
= C e p2n (− 2(vkzk z +n)
+ log((2π(vz + n))− 2 ))
n2 2
C kzk 1
≤ p (−
2(vz +n)
+ p )
n2 (2π(vz +n)) 2
C 1
≤ p p
n 2 (2πn) 2
C
= np
.

Ainsi, chaque intégrale tend vers 0 lorsque n tend vers l'inni. Donc, pbU est Bayes par
extension. De plus, par la Proposition 3.1.3, on sait que pbU a un risque constant pour la
perte Kullback-Leibler. Par le Théorème 1.1.6, il est minimax.

En résumé, l'estimateur pbU est minimax et domine l'estimateur par substitution pb ∼


Np (x, vy Ip ). Par contre, cet estimateur n'est pas toujours admissible, comme le démontre
les prochains résultats.

Lemme 3.1.7. Dans le cadre du problème (∗∗), l'estimateur pb (·|x) ∼ N (δ(x), cI ) 1 p p

domine l'estimateur pb2 (·|x) ∼ Np (x, cIp ) si et seulement si δ(X) domine X comme esti-
mateur de θ ∈ C sous la perte kθ − δk2 .

28
Démonstration. On a :

p 1 2
(2πc)− 2 e− 2c kY −Xk
R(θ, pb1 ) − R(θ, pb2 ) = E X,Y [log( p 1 2 )]
(2πc)− 2 e− 2c kY −δ(X)k
= 1
2c
E X,Y [kY − δ(X)k − kY − Xk2 ].
2

Le prochain corollaire a été démontré par Komaki ( [11]). En voici une autre démonstra-
tion.

Corollaire 3.1.8. Dans le cadre du problème (∗∗), pb U est inadmissible pour p ≥ 3.

Démonstration. Comme démontré dans le Théorème 2.3.2, on peut trouver un estimateur


de Bayes δπ qui domine l'estimateur X pour p ≥ 3. Ainsi, par le Lemme 3.1.7, pbU est
inadmissible pour p ≥ 3.

3.2 Lien entre l'estimation par densité prédictive et


l'estimation ponctuelle
Le chapitre 2 concernant l'estimation ponctuelle ne fut pas élaboré sans objectif. Dans
cette section, nous tenterons d'établir le lien qui unit les deux problèmes d'estimation et
ainsi retrouver des résultats similaires dans les deux cas. Le premier théorème met en
relation le risque quadratique et le risque Kullback-Leibler.

Théoreme 3.2.1. ([4],[7]) Dans le cadre du problème (∗∗) et considérant v w = vx vy


vx +vy
,
R vx
(a) Si θ ∼ π(θ), alors RKL (θ, pbU ) − RKL (θ, pbπ ) = 1
2
1
vw v 2
v
(RQ (θ, X) v
− RQ (θ, θbπ,v ))dv où
θbπ,v est l'estimateur de Bayes de θ sous la perte quadratique et sous la loi a priori π(·).
(b) Pour un estimateur par substitution pb1 ∼ Np (δ1 (X), vy Ip ), on a RKL (θ, pb1 )−RKL (θ, pbU ) =
1 vx 1 vx
(θ, X))dv .
R v
2 vw v 2
(RQ (θ, δ1 ) − RQ

29
Démonstration. (a) Soit Z ∼ Np (θ, vIp ) et posons Z ∗ = Z−θ

v
. On a :

∗ √

∂v
E Z [log(mπ (Z))] = ∂
∂v
E Z [log(mπ ( vZ ∗ + θ))]

∗ ∂ m ( vZ ∗ +θ)
= E Z [ ∂vmπ (π√vZ ∗ +θ) ]

∂ √
√ 2
− 1 k vz ∗ +θ−tk
( vz ∗ ∂ 1
R
∂v
+ θ) = ∂v p e 2v π(t)dt
(2πv) 2 √
0
p
− 12 (− v12 kθ − tk2 − v2v z ∗ (θ − t)))f (z|t)π(t)dt
R
= (− 2v
R p 1 √ ∗ 2 √ ∗0
= (− + 2 (kz − vz − tk + vz (θ − t)))f (z|t)π(t)dt
R 2v 2v √ 0 √ 0
= p
(− 2v + 2v12 (kz − tk2 + v kz ∗ k2 − 2 vz ∗ (z − t) + vz ∗ (θ − t)))
f (z|t)π(t)dt
√ ∗0
R vzp (θ −
+
1
t)))f (z|t)π(t)dt
2 ∗ 2
√ ∗0
= (−
R 2v + 2v 2 (kz − tk − v kz k − vz (θ − t)))f (z|t)π(t)dt
p 2 2
= R (− 2v + 2v2 (kz − tk − kz − θk − (z − θ)0 (θ − t)))f (z|t)π(t)dt
1

= p
(− 2v + 2v12R(kz − tk2 − (z − θ)0 (z − t)))f (z|t)π(t)dt
= ∂
∂v π
m (z) − 2v12 (z − θ)0 (z − t)f (z|t)π(t)dt.

Ainsi,

∂ √ δ
Z∗ m ( vZ ∗ +θ) m (Z) (Z−θ)0
E [ ∂v π√
mπ ( vZ ∗ +θ)
] = E Z [ δvmπ π(Z) − 2v 2
(Z − E T |Z [T ])]
δ 0
m (Z)
= E Z [ δvmπ π(Z) − (Z−θ) 2v 2
(Z − (Z + v ∇m π (Z)
mπ (Z)
))]
δ
m π (Z) 1 ∇m (Z)
= E Z [ δvmπ (Z) + 2v v∇ · mππ(Z) ]
δ 2 2
m (Z)
= E Z [ δvmπ π(Z) + 21 mπ (Z)∇ mmπ (Z)−k∇m
π (Z)
2
π (Z)k
]
∇ 2 m (Z) m (Z)∇ 2 m (Z)−k∇m (Z)k2
1
= E Z [ 2mπ (Z) + 2
π π π
mπ (Z)2
π
]
m (Z)∇ 2 m (Z)− 1 k∇m (Z)k2
π π π
= EZ [ mπ (Z)2
2
]
1 v v
= − 2v2 (RQ (θ, Z) − RQ (θ, θπ,v )), b

où T est de même loi que θ.

Puisque cette dernière expression correspond à ∂


∂v
E Z [log(mπ (Z))] , on peut déduire que
1 vx 1
R v v
2 vw v 2
(RQ (θ, X)−RQ (θ, θbπ,v ))dv = E W [log(mπ (W ))]−E X [log(mπ (X))] = RKL (θ, pbU )−
RKL (θ, pbπ ).

30
(b) D'un côté, nous avons :

vx vx vx
RQ (θ, δ1 ) 1 RQ (θ, δ1 )
Z
1 1 vx 1
2
RQ (θ, δ1 )dv = ( − ) =
2 vw v 2 vw vx 2vy

et

Z vx Z vx
1 1 v 1 p p vx + vy
2
RQ (θ, X)dv = dv = log( ).
2 vw v 2 vw v 2 vy

D'un autre côté, la diérence des risques de ces deux estimateurs nous donne :

2 2
E X,Y [log( pbpbU1 )] = E X,Y [− p2 log( vxv+v
y
y
) + kY −δ2v1 (X)k
y
kY −Xk
− 2(v x +vy )
]
vx +vy
= − 2 log( vy ) + 2vy (E [kY − θk ] + E [kδ1 (X) − θk2 ]) −
p 1 X,Y 2 X,Y p
2
vx
RQ (θ,δ1 )
= − p2 log( vxv+v
y
y
)+ 2vy
.

Ce résultat est très intéressant, puisqu'il nous permet de faire des parallèles entre l'esti-
mation par densité prédictive et l'estimation ponctuelle. De (a), nous pouvons conclure
qu'un estimateur de Bayes découlant d'une loi a priori π(θ) domine l'estimateur de Bayes
découlant de la loi a priori uniforme sur les réels pbπ ∼ Np (x, (vx + vy )Ip ) si l'estimateur
de Bayes sous cette loi π pour le problème d'estimation ponctuelle de θ avec perte qua-
dratique et variance connue v domine l'estimateur δ(X) = X pour tout vw ≤ v ≤ vx .

De plus, on peut conclure à nouveau de (a) que l'estimateur pbU est inadmissible pour
p ≥ 3, car l'estimateur X de θ est inadmissible sous la perte quadratique pour p ≥ 3,
comme discuté dans l'article de Komaki ( [11]).
De (b), on peut considérer le cas particulier où on compare l'estimateur par substitution
pb1 ∼ Np (x, vy Ip ) avec l'estimateur pbU . On a :

31
Z vx
1 1 p vx vx
RKL (θ, pb1 ) − RKL (θ, pbU ) = 2
(pvx − pv)dv = ( − log( ) − 1),
2 vw v 2 vw vw

comme démontré dans le Corollaire 3.1.4.

Finalement, on peut combiner les deux résultats pour comparer un estimateur de Bayes
avec un estimateur par substitution, deux estimateurs de Bayes ou deux estimateurs par
substitution. En particulier, on peut armer que, parmi les estimateurs par substitution,
celui qui substitue le paramètre θ par l'estimateur de James-Stein ou tout autre esti-
mateur minimax de la forme X + g(X) du chapitre 2 domine celui qui substitue θ par
l'estimateur X pour p ≥ 3.

Corollaire 3.2.2. Dans le cadre du problème (∗∗), un estimateur de Bayes est minimax
si la loi a priori π(θ) est superharmonique.

Démonstration. En combinant les résultats du Théorème 2.4.6, de la Proposition 2.4.7,


du Corollaire 2.4.8 et du Théorème 3.2.1, on obtient le résultat.

Exemple 3.2.3. Dans le cadre du problème (∗∗) avec p ≥ 3 et pour la loi a priori
π(θ) = 1
kθk2k
où 0 ≤ k ≤ p
2
− 1, l'estimateur de Bayes associé pbπ est minimax. On a
démontré la superharmonicité de cette loi a priori dans l'Exemple 2.4.9.

D'autres applications de ces résultats sont traitées dans la prochaine section.

32
3.3 Estimation avec contrainte
Supposons que la seule information que nous possédions à propos du paramètre de posi-
tion θ soit qu'il appartient à un sous-ensemble non vide A de Rp . Existe-t-il un estimateur
dominant pbU pour θ ∈ A ? Regardons quel type d'estimateurs de Bayes nous obtenons
dans certains cas particuliers.

Exemple 3.3.1. Pour le problème (∗∗), considérons le cas unidimensionnel et la loi a


priori π(θ) = p1{−m}∪{m} (θ) + (1 − 2p)1{0} (θ) pour m > 0 et p ≤ 12 . L'estimateur de
Bayes pour ce problème est alors un mélange de lois normales prenant les densités φ−m,vy ,
φm,vy et φ0,vy avec probabilités respectives mx
1
mx m2
, −mx −mx
1
m2
et
1+e vx (e vx + 1−2p
p
e 2vx ) 1+e vx (e vx + 1−2p e 2vx
p
)
1
−m2
, c'est-à-dire
2p
1+ 1−2p e 2vx cosh( mx
v
)
x

pφ−m,vx (x)
pbπ (y|x) = φ
pφ−m,vx (x)+pφm,vx (x)+(1−2p)φ0,vx (x) −m,vy
(y)+ pφ−m,v (x)+pφpφ m,vx (x)
m,vx (x)+(1−2p)φ0,vx (x)
φm,vy (y)+
x
(1−2p)φ0,vx (x)
φ (y).
pφ−m,vx (x)+pφm,vx (x)+(1−2p)φ0,vx (x) 0,vy

Pour p = 0, 4, m = 5 et x = 2, 5, on obtient l'estimateur représenté à la gure 3.1.

33
0.25
Estimateur de Bayes
0.20

0.15

0.10

0.05

0.00
-4 -2 0 2 4 6 8 10
y

Figure 3.1  Estimateur de Bayes pour la loi a priori π(θ) = 0, 41{−5}∪{5} (θ) + 0, 21{0} (θ)
et pour la loi normale (vx = vy = 1) avec observation x = 2, 5.

La densité prédictive est inuencée par l'incertitude sur la valeur de θ, mais ajuste les
poids en considérant la probabilité p.

Casella et Strawderman ( [6]) ont démontré, pour le problème d'estimation ponctuelle


d'une moyenne θ d'une loi normale avec variance connue sous la perte quadratique que la
densité a priori concentrée aux bornes m et −m se trouve à être la loi la moins favorable
(au niveau du risque minimal) pour un m assez petit (m ≤ c0 σ avec c0 ≈ 1, 059) si
on sait que −m ≤ θ ≤ m et que l'estimateur de Bayes découlant de cette loi est donc
minimax. Voir Marchand et Strawderman [18] pour une revue historique de ce type de
problème. Ainsi, par le Théorème 3.2.1, on peut remarquer une similitude entre le résultat

34
de l'estimation ponctuelle sous la perte quadratique et l'estimation par densité prédictive
sous la perte Kullback-Leibler représentée dans cet exemple.

Exemple 3.3.2. Toujours dans le cas unidimensionnel, considérons la loi a priori uni-
forme sur [−m, m] de densité π(θ) = 1
1
2m [−m,m]
(θ) pour m > 0. Considérant le résultat
vy X+vx Y
du Lemme 3.1.6 et le fait que X|θ ∼ Np (θ, vx Ip ) et W |θ = vx +vy
∼ Np (θ, vw ) où
vx vy
vw = vx +vy
, on a alors pour estimateur de Bayes :

mπ,W (w) Φ( m−w



vw
) − Φ( −m−w

vw
) y−x
pb(y|x) = pbU (y|x) = −m−x)
φ( √ )
mπ,X (x) Φ( m−x
√ ) − Φ( √ vx + vy
vx vx
.

0.4
Estimateur de Bayes
Estimateur par substitution

0.3

0.2

0.1

0.0
-2 0 2 4 6 8
y

Figure 3.2  Estimateur de Bayes pour la loi a priori uniforme sur [−5, 5] pour la loi
normale (vx = vy = 1) avec observation x = 2

35
En comparant l'estimateur par substitution et l'estimateur de Bayes, on voit clairement
que ce dernier est inuencé par l'incertitude sur la valeur de θ. Malgré la contrainte,
la variance présente dans la densité de Bayes est supérieure à celle de l'estimateur par
substitution.

0.4
Estimateur de Bayes

0.3

0.2

0.1

0.0
0 2 4 6 8 10
y

Figure 3.3  Estimateur de Bayes pour la loi a priori uniforme sur [−5, 5] pour la loi
normale (vx = vy = 1) avec observation x = 100

Dans ce graphe, malgré qu'on ait observé x = 100, la densité prédictive n'est pas centrée
en cette valeur, considérant que −5 ≤ θ ≤ 5. Ainsi, l'estimateur de Bayes pour la loi a
priori uniforme sur l'intervalle [−5, 5] a une moyenne bornée par 5, comme on peut le
voir dans la gure ci-haut.

36
0.4 Différence relative des risques

0.3

0.2

0.1

0.0

-0.1
-4 -2 0 2 4
Θ

Figure 3.4  Diérence des risques (lois a priori uniforme sur [−5, 5] et sur les réels avec
vx = vy = 1)

Le graphe de la gure 3.4, comme le démontre le prochain théorème, illustre le fait que
l'estimateur de Bayes associé à la loi a priori uniforme sur l'intervalle [−5, 5] domine l'es-
timateur pbU pour −5 ≤ θ ≤ 5. En eet, la diérence des risques de ces deux estimateurs
est toujours positive dans cet intervalle.

Théoreme 3.3.3. Dans le cadre du problème (∗∗), l'estimateur de Bayes pb πU découlant


de la loi a priori uniforme sur un intervalle [−m, m] domine l'estimateur pbU pour θ ∈
[−m, m].

Démonstration. Par le Lemme 3.1.6, on a :

37
∆(θ) = R(θ, pbU ) − R(θ, pbπU )
= E W [log(Φ( m−W

vw
) − Φ( −m−W

vw
))] − E X [log(Φ( m−X

vx
) − Φ( −m−X

vx
))]
= E [log(Φ( √vw − Z) − Φ( √vw − Z)) − log(Φ( √vx − Z) − Φ( −m−θ
Z m−θ −m−θ m−θ √
vx
− Z))],

√ √
où on a eectué les changements de variables w = vw z + θ et x = vx z + θ pour
prendre l'espérance sur une normale centrée et réduite. Or, comme vx > vw , alors on a
m−θ

vx
−Z < m−θ

vw
− Z et −m−θ

vx
−Z > −m−θ

vw
− Z pour tout θ ∈ [−m, m]. La diérence des
risques est alors positive, car les fonctions log et Φ sont strictement croissantes.

Exemple 3.3.4. Toujours dans le cas unidimensionnel, considérons la loi a priori im-
propre π(θ) = 1R+ (θ). Par le Lemme 3.1.6, on a alors pour estimateur de Bayes :

Φ( √wvw ) y−x
pb(y|x) = φ( √ )
Φ( √xvx ) vx
+ vy

38
0.35 Estimateur de Bayes

0.30
0.25
0.20
0.15
0.10
0.05
0.00
-2 0 2 4
y

Figure 3.5  Estimateur de Bayes pour la loi a priori uniforme sur les réels positifs pour
la loi normale (vx = vy = 1) avec observation x = −2

Dans la gure 3.5, on remarque que malgré qu'on eut observé une valeur x négative,
la densité prédictive s'en tient aux densités à moyenne positive considérant le domaine
d'appartenance du paramètre θ. La moyenne de cette densité prédictive est alors bornée
par 0, peu importe l'observation.

39
0.4
Différence relative des risques
0.3

0.2

0.1

0.0

-0.1
0 1 2 3 4 5
Θ

Figure 3.6  Diérence relative des risques (loi a priori uniforme sur les réels positifs et
sur les réels avec vx = vy = 1)

Une fois de plus, on remarque dans la gure 3.6 la dominance de l'estimateur de Bayes
pour cette loi a priori sur l'estimateur pbU pour θ ≥ 0. La gure illustre que la diérence
des risques entre ces deux estimateurs est positive sur les réels positifs. Démontrons ce
résultat.

Théoreme 3.3.5. Dans le cadre du problème (∗∗), l'estimateur de Bayes pb πU découlant


de la loi a priori uniforme sur les réels positifs domine l'estimateur pbU pour θ ∈ R+ .

40
Démonstration. On a :

∆(θ) = E W [log(Φ( √Wvw ))] − E X [log(Φ( √Xvx ))]


= E Z [log(Φ(Z + √θvw )) − log(Φ(Z + √θvx ))],

où le même changement de variable que dans le Théorème 3.1.6 a été eectué. Comme
vx > vw , alors Z + √θ
vx
≤Z+ √θ
vw
pour tout θ ≥ 0. La diérence des risques est alors
positive, car les fonctions log et Φ sont croissantes.

On peut généraliser ce résultat de dominance aux ensembles convexes avec intérieur non-
vide et au cas multidimensionnel.

Théoreme 3.3.6. [7] Soit C ⊂ R p


un convexe avec intérieur non vide et πC (θ) = 1C (θ).
Alors pbπC domine pbU pour θ ∈ C et pour le risque Kulback-Leibler.

Démonstration. La diérence des risques correspond à :

∆(θ) = RE W [log(mπC (WR) )] − E X [log(mπC (X)R)] R


= Rp p(w|θ)log(R C
p(w|θ1 )dθ1 )dw − Rp p(x|θ)log( C p(x|θ1 )dθ1 )dx
R φ(s)ds
= Rp φ(z)log( RC1 φ(s)ds )dz,
C2

où la dernière égalité est due aux changements de variables z = w−θ



vw
,s= 1 −w
θ√
vw
,z= x−θ

vx

et s = 1 −x
θ√
vx
et où C1 = { √1vw (s − θ) − z : s ∈ C} et C2 = { √1vx (s − θ) − z : s ∈ C}.
Ainsi, si C2 ⊂ C1 , l'intégrande est positive pour tout z ∈ Rp . Il sut donc de montrer
que C2 ⊂ C1 .

Soit c1 ∈ √1 (C
vx
− θ). Alors, il existe un c ∈ C tel que c1 = √1 (c
vx
− θ). On peut en
√ √
déduire que c1 = √1 (c0
vw
− θ) où c0 =
v
√ wc
vx
+ (1 −
v
√ w )θ
vx
. Comme vw < vx , c0 est une
combinaison convexe de c et θ qui sont tous deux éléments de C . Ainsi, c1 ∈ √1 (C
vw
− θ).
Donc, C2 ⊂ C1 et ∆(θ) > 0.

41
Voici une autre démonstration du Théorème 3.3.6 utilisant le Théorème 3.2.1 et un ré-
sultat de Hartigan ( [9]).
Démonstration. Nous savons, par le Théorème 3.2.1, que pour le problème d'estimation
par densité prédictive et pour la perte Kullback-Leibler, la diérence des risques entre
l'estimateur pbU et pbπC peut s'exprimer comme suit :

Z vx
1 1 v v
(R (θ, X) − RQ (θ, θbπC ,v ))dv.
2 vw v2 Q

Pour le problème d'estimation ponctuelle de θ où X ∼ Np (θ, vIp ) sous la perte qua-


dratique, Hartigan ( [9]) a montré que pour θ ∈ C convexe avec intérieur non vide,
l'estimateur de Bayes θbπC ,v découlant de la loi a priori uniforme sur C domine X pour
tout v > 0.

Or, pour tout v et pour tout θ ∈ C , RQ


v v
(θ, X) − RQ (θ, θbπC ,v ) ≥ 0 avec inégalité stricte
pour au moins un θ. Ainsi, en combinant ces résultats, on peut en déduire que pbπC domine
pbU pour θ ∈ C .

Le résultat étant démontré pour le problème d'estimation par densité prédictive sous la
perte Kullback-Leibler, on peut déduire un résultat similaire pour l'estimation ponctuelle
sous la perte quadratique donnant une autre démonstration du résultat de Hartigan.

Corollaire 3.3.7. ([7]) Pour le problème d'estimation ponctuelle de θ où X ∼ N (θ, v I )


p x p

sous la perte quadratique, l'estimateur de Bayes découlant d'une loi a priori uniforme sur
un ensemble convexe C avec intérieur non vide domine X .

Démonstration. On a montré que la diérence des risques dans le contexte du Théo-


rème 3.3.6 était positif. Or, à partir du fait que
Z vx
1 1 v v
∆(θ) = (R (θ, X) − RQ (θ, θbπC ,v ))dv ≥ 0
2 vw v2 Q

42
pour θ ∈ C et pour tout vx , vw positifs, on peut donc en déduire que RQ
v
(θ, X) −
v
RQ (θ, θbπC ,v ) est positif presque partout.

En résumé, nous avons trouvé, dans le cadre de la loi normale, un estimateur pbU possé-
dant des propriétés de minimaxité et de dominance. Un lien entre l'estimation ponctuelle
et l'estimation par densité prédictive a été établi, ce qui nous a conduit à de meilleurs
estimateurs, notamment lorsque le paramètre θ subit une contrainte. Ce mémoire ajoute
alors une meilleure compréhension du problème lorsque l'espace paramétrique est res-
treint.

43
CHAPITRE 4

Estimation pour des familles à

paramètre de position et d'échelle sous

contrainte

Une grande partie de ce chapitre est adaptée de l'article de Kubokawa, Marchand, Straw-
derman et Turcotte [14]. Cette contribution de recherche, à paraître dans le Journal of
Multivariate Analysis est reproduite au chapitre 5. Nous élaborerons sur le problème
d'estimation par densité prédictives pour des familles de lois à paramètres de position
et d'échelle où le paramètre doit respecter une contrainte. Quelques illustrations seront
présentées.

4.1 Cas d'un paramètre de position sous contrainte


Dans ce chapitre, nous tenterons de trouver des estimateurs performants pour des familles
à paramètre de position θ. En particulier, nous aborderons le problème où θ est restreint

44
à un sous-ensemble des réels. Nous nous concentrerons sur les conditions nécessaires à la
famille de densités de la variable aléatoire, conditions qui étaient respectées au chapitre
3 dans le cas de la loi normale.

Soient deux variables aléatoires indépendantes X ∼ pθ ∈ P = {p0 (x − θ) : θ ∈ R} et


Y ∼ qθ ∈ Q = {q0 (y − θ) : θ ∈ R} où p0 (·) et q0 (·) sont des fonctions de densités. Si
nous sommes en présence d'un vecteur aléatoire X = (X1 , X2 , ..., Xn ), un développement
analogue est possible en conditionnant sur le maximal invariant (X1 − X − 2, ..., X1 − Xn )
(voir chapitre 5).

Supposons de plus que θ est restreint à l'intervalle [b, ∞[ et que la condition suivante est
satisfaite :

(∗) q0 (y − θ) est continuement diérentiable et q0 (y−θ)


q0 (y)
est non décroissante en y pour
θ ≥ 0.

Cette condition est équivalente à dire que la famille de densités qθ a un rapport de


vraisemblance monotone croissant en y .

Nous voulons démontrer la dominance (et par conséquent la minimaxité) de l'estimateur


de Bayes pbU découlant de la loi a priori uniforme sur les réels positifs sur l'estimateur
de Bayes découlant de la loi a priori uniforme sur les réels pb0 . Ce dernier est le meilleur
estimateur invariant par rapport à des changements de position et aussi minimax (Barron
[2]). Pour ce faire, nous avons besoin du lemme suivant.
et Liang

Lemme 4.1.1. [14] Sous la condition (∗), on a


(i) q0 (y) est logconcave en y .
R0
−∞ p0 (x+w−θ)q0 (y+w−θ)dw
(ii) Pour θ ≥ 0, la fonction Aθ (y|x) = R0 est non décroissante en
−∞ p0 (x+w)q0 (y+w)dw

y.

Démonstration. (i) La condition (∗) nous assure que

45
∂ q0 (y−θ)
∂y
( q0 (y) ) ≥ 0
⇒ q00 (y − θ)q0 (y) − q0 (y − θ)q00 (y) ≥ 0
q00 (y−θ) q 0 (y)
⇒ q0 (y−θ)
≥ q00 (y) .

(ii) Nous devons montrer que ∂


A (y|x)
∂y θ
≥ 0. Or, cette inégalité est vraie si et seulement
si

Z 0 Z 0
p0 (x + w − θ)q00 (y + w − θ)dw p0 (x + w)q0 (y + w)dw
−∞ −∞
Z 0 Z 0
≥ p0 (x + w − θ)q0 (y + w − θ)dw p0 (x + w)q00 (y + w)dw.
−∞ −∞

En eectuant le changement de variable w → w − θ, on obtient :

R −θ R0
−∞
p0 (x + w)q00 (y + w)dw p0 (x + w)q00 (y + w)dw
R −θ ≥ R−∞
0 .
−∞
p0 (x + w)q0 (y + w)dw p (x + w)q0 (y + w)dw
−∞ 0

En posant la partie de gauche comme la fonction f (θ), il sut de montrer que d



f (θ) ≥ 0.
Il faut donc que l'expression suivante soit positive :

Z −θ Z −θ
−p0 (x−θ)q00 (y−θ) p0 (x+w)q0 (y+w)dw+p0 (x−θ)q0 (y−θ) p0 (x+w)q00 (y+w)dw.
∞ ∞

Cette expression se ramène sous la forme :

−θ
q00 (y + w) q00 (y − θ)
Z
p0 (x − θ)q0 (y − θ) p0 (x + w)q0 (y + w)( − )dw.
−∞ q0 (y + w) q0 (y − θ)

Or, (i) nous assure que la quantité intégrée est positive ou nulle pour tout w ∈ [−∞, −θ],
ce qui conclut la démonstration.

46
Passons maintenant au résultat principal de cette section concernant les estimateurs
de Bayes lorsque l'espace paramétrique est restreint. Nous adaptons la méthode IERD
(Integral expression for risk dierence) de Kubokawa ( [12],[13]) pour en faire une dé-
monstration élégante.

Théoreme 4.1.2. [14] Supposons la condition (∗) respectée et π(θ) = 1 [b,∞[ (θ). Alors,
l'estimateur de Bayes pbπ (·|x) est minimax pour θ ≥ b. De plus, pbπ (·|x) et pbU (·|x) ont des
risques égaux si et seulement si θ = b.

Pour faire la démonstration de ce théorème, nous avons besoin d'un résultat connu sur
la covariance.

Lemme 4.1.3. Soient X une variable aléatoire, g(·) et h(·) deux fonctions croissantes
telles que E[g(X)h(X)], E[g(X)] et E[h(X)] existent. Alors, Cov(g(X), h(X)) ≥ 0 avec
égalité stricte ssi g(·) où h(·) est constante avec probabilité un.

Démonstration. Soient X1 et X2 deux copies indépendantes de X . Alors,

E[(h(X1 ) − h(X2 ))(g(X1 ) − g(X2 ))]


= E[h(X1 )g(X1 )] + E[h(X2 )g(X2 )] − E[h(X1 )g(X2 )] − E[h(X2 )g(X1 )]
= 2E[h(X)g(X)] − 2E[h(X)]E[g(X)]
= 2Cov(h(X), g(X)).

Comme la variable aléatoire Y = (h(X1 ) − h(X2 ))(g(X1 ) − g(X2 )) est toujours positive
ou nulle, alors E[Y ] = Cov(h(X), g(X)) ≥ 0. En particulier, on a que E[Y ] = 0 ssi g(·)
ou h(·) est constante avec probabilité 1.

Revenons au Théorème 4.1.2 à démontrer :

Démonstration. Sans perte de généralité, nous posons b = 0, car pour b 6= 0, il sut de


poser θ0 = θ − b. Puisque pbU (·|x) est minimax, il sut de montrer que pbπ (·|x) domine
pbU (·|x) pour θ ≥ 0. On pose

47
R (θ, pbU (·|x)) − RKL (θ, pbπ (·|x))
∆(θ) = RRKL
= p0 (x − θ)q0 (y − θ)(log(b pπ (y|x)) − log(b
pU (y|x)))dxdy.

Or, on a :

R∞ R∞
q (y−a)p (x−a)da q0 (y−a)p0 (x−a)da
pU (y|x)) = log( 0 R0∞ p0 (x−a)da
pπ (y|x)) − log(b
log(b 0
) − log( −∞R ∞ p0 (x−a)da )
0 −∞
R ∞
t q 0 (y−a)p0 (x−a)da
R0 d
= −∞ dt (log( R ∞ ))dt
R0 t p0 (x−a)da
= −∞ ( R ∞ p0 (x−a)da − R ∞ p0 (x−a)q00(y−t)
p 0 (x−t) p 0 (x−t)q
(y−a)da
)dt.
t t

En posant x = x − t et y = y − t, on obtient :

R R R0 p0 (x) p0 (x)q0 (y)


∆(θ) = −∞
p0 (x + t − θ)q0 (y + t − θ)( R 0 p0 (x+w)dw
R0 −
p0 (x+w)q0 (y+w)dw
)dtdxdy
R0 −∞R0 −∞
−∞ p0 (x+w−θ)q0 (y+w−θ)dw −∞ p0 (x+w)q0 (y+w)dw
RR
= p0 (x)q0 (y) R0
p0 (x+w)q0 (y+w)dw
(
R0 − 1)dydx
−∞
R0 −∞ p0 (x+w)dwq0 (y)
−∞ p0 (X+w)q0 (Y +w)dw
= E X [E Y [Aθ (Y |X)( R0 − 1)]],
−∞ p0 (X+w)dwq0 (Y )

où Aθ (y|x) est dénie au Lemme 4.1.1. Or, comme Aθ (y|x) et q0 (y+w)


q0 (y)
sont non décrois-
santes en y , l'inégalité de covariance stipule que :

R0
−∞ p0 (x+w)q0 (Y +w)dw
Cov(Aθ (Y |x), R0 − 1) ≥ 0
R0 −∞ p0 (x+w)dwq0 (Y ) R0
Y −∞ p0 (x+w)q0 (Y +w)dw Y Y −∞ p0 (x+w)q0 (Y +w)dw
⇒ E [Aθ (Y |x)( R0 − 1)] ≥ E [Aθ (Y |x)]E [ R0 − 1].
−∞ p0 (x+w)dwq0 (Y ) −∞ p0 (x+w)dwq0 (Y )

Ainsi, la diérence des risques est bornée comme suit :

R0
X Y Y −∞ p0 (X+w)q0 (Y +w)dw
∆(θ) ≥ E [E [Aθ (y|x)]E [ R0 − 1]]
−∞ p0 (X+w)dwq0 (Y )
= 0,

où la dernière égalité est due à une inversion des intégrales et à un changement de variable
dans la deuxième espérance.

48
R0
−∞ p0 (X+w)q0 (Y +w)dw
De plus, on peut remarquer que nous avons égalité ssi Aθ (Y |X) ou R0 −1
−∞ p0 (X+w)dwq0 (Y )

est constante avec probabilité 1 (voir Lemme 4.1.3), ce qui se produit ssi θ = 0, car, dans
ce cas, A0 (y|x) = 1.

Remarque 4.1.4. On peut étendre ce résultat pour θ ∈]−∞, c]. En eet, les changements
de variables Y = −X et θ0 = −θ mènent, pour des estimateurs de Bayes équivalents, à
des risques égaux. De plus, on a que θ0 est un paramètre de position pour la variable Y .

Pour illustrer les résultats de cette section, voici un exemple respectant les conditions du
contexte décrites au début de ce chapitre.

Exemple 4.1.5. Considérons le cas où X, Y ∼ Exp(θ, σ) dont la fonction de densité


s'exprime comme suit :

1 − (t−θ)
fT |θ (t) = e σ 1(θ,∞) (t).
σ

L'estimateur de Bayes découlant de la loi a priori non informative π(θ) = 1R (θ) est :

R∞ 1 −σ 1 (x−θ+y−θ)
−∞ σ 2 e 1(θ,∞) (x)1(θ,∞) (y)dθ
pbU (y|x) = R ∞ 1 − 1 (x−θ)
−∞ e 1(θ,∞) (x)dθ
σ
R min(x,y) 1 −σ1 (x+y−2θ)
−∞ σ
e σ dθ
= Rx −σ1 (x−θ)
−∞ e dθ
1 min(x,y)
[ 12 e− σ (x+y−2θ) ]θ→−∞
= 1
[σe− σ (x−θ) ]x θ→−∞
1 − σ1 (x+y−2 min(x,y))
= 2σ
e
1 − σ1 |x−y|
= 2σ
e ,

qui se trouve à être la densité d'une variable aléatoire de loi de Laplace avec paramètre
d'échelle σ .

D'un autre côté, si on restreint le paramètre θ aux réels positifs, l'estimateur de Bayes
découlant de la loi a priori π(θ) = 1[0,∞[ (θ) est :

49
R∞ 1 −σ 1 (x−θ+y−θ)
e 1(θ,∞) (x)1(θ,∞) (y)dθ
0 σ2
pbπ (y|x) = R ∞ 1 − 1 (x−θ)
0 σe 1(θ,∞) (x)dθ
σ
1 min(x,y)
[ 12 e− σ (x+y−2θ) ]θ=0
= 1
[σe− σ (x−θ) ]x θ=0
1 1
1 e− σ (x+y−2 min(x,y)) −e− σ (x+y)
= 2σ − x 1 (0,∞) (y)
1−e σ
−σ1 |x−y| −σ1 (x+y)
1 e −e
= x 1 (0,∞)(y).
2σ 1−e− σ

On peut aussi écrire cette densité sous la forme suivante.

y x
pour y ≥ x
( 1 −σ
e (1 +
2σ y
eσ )
pbπ (y|x) = y
1 e σ −e− σ
x
2σ e σ −1
pour 0 < y < x

0.6
0.5
0.4
0.3
0.2
0.1
0.0
-1 0 1 2 3 4 5
y
Bayes sous loi a priori uniforme sur réels
Bayes sous loi a priori uniforme sur réels positifs

Figure 4.1  Densités prédictives pour la loi exponentielle avec σ = 1 et x = 2.

50
La gure 4.1 illustre les densités prédictives associées aux lois a priori uniforme sur les
réels et uniforme sur les réels positifs. On remarque que lorsque le paramètre θ est restreint
aux réels positifs, la densité l'est aussi. De plus, cette densité présente des similitudes
avec la densité d'une variable aléatoire de Laplace. La densité prédictive associée à la loi
a priori uniforme sur les réels en est un exemple.

Pour σ = 1, la diérence des risques de ces deux estimateurs est représentée par le
graphique suivant :

0.25
Différence relative des risques
0.20

0.15

0.10

0.05

0.00
0 1 2 3 4 5
Θ

Figure 4.2  Diérence relative des risques pour la loi exponentielle avec σ = 1 et x = 2.

On voit ici une application directe du Théorème 4.1.2. Pour θ ∈ [0, ∞[, l'estimateur de
Bayes découlant de la loi a priori uniforme sur les réels positifs domine l'estimateur de
Bayes découlant de la loi a priori uniforme sur les réels.

51
Le Théorème 4.1.2 peut aussi s'appliquer au problème du Théorème 3.3.6 avec le convexe
C =]0, ∞[. Il s'agit là d'une troisième démonstration de ce théorème dans le cadre uni-
varié, puisque la fonction de densité d'une loi normale respecte la condition (∗).

4.2 Cas d'un paramètre d'échelle sous contrainte


Le résultat de dominance pour un paramètre de position étant démontré, peut-on conlure
de même pour des familles à paramètre d'échelle ? Nous pouvons répondre positivement
en constatant que les transformations X 0 = log(X), Y 0 = log(Y ) et θ0 = log(θ) conduisent
aux densités suivantes : p0θ0 (x0 ) = ex −θ p0 (ex −θ ) et qθ0 0 (y 0 ) = ey −θ q0 (ey −θ ), où θ0 est un
0 0 0 0 0 0 0 0

paramètre de position. Comme la perte Kullback-Leibler est dénie de façon intrinsèque


(voir Proposition 1.2.3), estimer la densité de Y |θ est équivalent à estimer la densité de
Y 0 |θ0 .

Proposition 4.2.1. Considérons le problème d'estimation de la densité de Y |θ à partir


d'une observation de même loi que X|θ sous la perte Kullback-Leibler avec θ paramètre
d'échelle et le problème similaire déduit des transformations énoncées plus haut. Pour une
loi a priori π(θ) sur θ, l'estimateur de Bayes pbπ0 (·|x0 ) (où π 0 (θ0 ) représente la loi a priori
de θ0 ) pour le deuxième problème est la densité de la variable aléatoire T 0 = log(T ), où T
a pour densité l'estimateur de Bayes pbπ (·|x) pour le premier problème. De plus, les pertes
respectives de ces deux estimateurs sont égales.

Démonstration. Dans le chapitre 1, nous avons montré que les deux problèmes sont équi-
valents pour une transformation h(y) strictement monotone sur Y . Montrons le résultat
pour ce cas particulier où h(y) = log(y) en appliquant les mêmes tranformations sur X
et sur θ.

Soient T ∼ pbπ (·|X) et T 0 = log(T ). On a alors :

52
0 0
pT 0 |X (t0 ) = et pbπ (et |X)
0
pθR(x)qθ (et )π(θ)dθ
R
0
= et pθ (x)π(θ)dθ
R x0 0 0 0 0 0
e pθ (ex )et qθ (et )π(eθ )eθ dθ0
= R 0
x x 0 θ 0 θ0 0
R 0 e0 p0 θ (e0 )π(e )e dθ
pθ0 (x )qθ0 (t )π 0 (θ0 )dθ0
= R 0
pθ0 (x0 )π 0 (θ0 )dθ0
,

qui est l'estimateur de Bayes du deuxième problème. La perte respective de ces deux
estimateurs est la même, comme démontré à la Proposition 1.2.3.

Ainsi, les résultats de la première section de ce chapitre s'appliquent aux familles à


paramètre d'échelle avec des espaces paramétriques de la forme ]0, c] ou [b, ∞[.

Théoreme 4.2.2. Soient deux variables aléatoires indépendantes X ∼ pθ ∈ P θ =


{ 1θ p0 ( xθ ) : θ ∈ R+ } et Y ∼ qθ ∈ Qθ = { 1θ q0 ( yθ ) : θ ∈ R+ }, où p0 (·) et q0 (·) sont des
fonctions de densités. Supposons de plus que π(θ) = 1θ 1[b,∞[ (θ). Si 1θ q0 ( yθ ) est continue-
1
q (y)
ment diérentiable et θ 0 θ
q0 (y)
est non décroissant en y pour θ ≥ 1, alors l'estimateur de
Bayes pbπ est minimax pour θ ≥ b.

Démonstration. Eectuons les changements de variables Y 0 = log(Y ) et θ0 = log(θ). La


Proposition 4.2.1 nous assure que le problème d'estimation de la densité de Y 0 |θ0 est
équivalent au problème d'estimation de la densité de Y |θ. On se retrouve donc avec un
problème d'estimation où θ0 est un paramètre de position. Nous noterons la densité de
Y 0 |θ0 par q00 (y 0 − θ0 ).
1
q (y)
Comme 1θ q0 ( yθ ) est continuement diérentiable et θ 0 θ
q0 (y)
est non décroissant en y pour
q00 (y 0 −θ0 )
θ ≥ 1, alors q00 (y 0 − θ0 ) est continuement diérentiable et q00 (y 0 )
est non décroissant en
y 0 pour θ0 ≥ 0, car nous avons proposé un changement de variables monotone croissant.
Ainsi, par le Théorème 4.1.2, l'estimateur de Bayes pbπ0 est minimax pour θ0 ≥ log(b).
Par l'équivalence assurée par la Proposition 4.2.1, l'estimateur de Bayes pbπ est minimax
pour θ ≥ b.

53
4.3 Cas particulier : Loi Gamma
Dans cette section, nous analyserons plus particulièrement le cas de la loi Gamma en
illustrant la performance de certains estimateurs.

Considérons le problème d'estimation de la densité de Y ∼ Gamma(α2 , β) sous la perte


Kullback-Leibler à partir d'une observation X ∼ Gamma(α1 , β) avec α1 , α2 > 0 connus
et β inconnu, où la fonction de densité d'une variable aléatoire T de loi Gamma(α, β) est
−t
f (t) = tα−1 e β
β α Γ(α)
1(0,∞) (t).

Proposition 4.3.1. La performance d'un estimateur par substitution pb (·|x) ∼ Gamma(α , δ (x)) 1 2 1

est équivalente à la performance de l'estimateur ponctuel δ1 (X) de β sous la perte entropie


LE (β, δ(x)) = β
δ(X)
β
− log( δ(X) ) − 1.

Démonstration. On a :

|β)
RKL (θ, pb1 ) = E X,Y [log( pbp(Y
1 (Y |X)
)]
Y
α −1 − β δ1 (X)α2 Γ(α2 )
= E X,Y [log( Yβ α22 Γ(α
e
2) − Y )]
Y α2 −1 e δ1 (X)
1
= E X,Y [Y ( δ1 (X) − β1 ) + α2 log( δ1 (X)
β
)]
X β β
= α2 E [ δ1 (X) − log( δ1 (X) ) − 1],

car E[Y ] = α2 β .

Corollaire 4.3.2. Dans le problème déni plus tôt avec α > 1, l'estimateur par substi-
1

tution pb1 (·|x) ∼ Gamma(α2 , α1x−1 ) est le meilleur parmi les estimateurs par substitution
de la forme pb(·|x) ∼ Gamma(α2 , ax) sous la perte Kullback-Leibler.

Démonstration. Par la Proposition 4.3.1, il sut de montrer que l'estimateur ponctuel


δ1 (X) = X
α1 −1
est le meilleur parmi les estimateurs du type δ(X) = aX sous la perte
entropie pour α1 > 1.

54
β β
Eβ [LE (β, aX)] = Eβ [ aX − log( aX ) − 1]
1
= a(α1 −1) + log(a) + Eβ [ Xβ ] − 1,

car Eβ [ X1 ] = 1
(α1 −1)β
. Aussi, puisque X
β
∼Gamma(α1 , 1) (indépendante de β ) et que
E[| log(X)|] < ∞, on obtient un minimum en a = 1
α1 −1
.

La proposition suivante nous donne des formes closes pour, respectivement, l'estima-
teur de Bayes sous une loi a priori impropre non-informative et pour une loi a priori
quelconque.

Proposition 4.3.3. a) Pour la loi a priori non informative π (β) = 0


1
1 + (β),
β R
l'estima-
teur de Bayes est pb0 (y|x) = Γ(α1 +α2 ) 1 y α2 −1
( )
Γ(α1 )Γ(α2 ) x x
(1 + xy )−(α1 +α2 ) 1R+ (y).
b) Pour une loi a priori π(β) par rapport à une mesure ν , l'estimateur de Bayes est
m (z)
pbπ (y|x) = pb0 (y|x) xz mπ,X
π,Z
(x)
, où mπ,X (·) et mπ,Z (·) sont les densités marginales de X et
Z = X + Y respectivement.

Démonstration. (a) L'estimateur de Bayes dans ce contexte est :

y
− −x
R∞ y α2 −1 e β xα1 −1 e β 1
0 β α2 Γ(α2 ) β α1 Γ(α1 ) β

pb0 (y|x) = −
R ∞ xα1 −1 e β 1
x

0 β α1 Γ(α1 ) β

1 y α2 −1 xα1 −1 R ∞
( x+y ) 1 2 Γ(α )Γ(α ) 0 tα1 +α2 −1 e−t dt
α +α
= 1
1R 2
∞ α −1 −t
t 1 e dt
xΓ(α1 ) 0
Γ(α1 +α2 ) 1 y α2 −1 y −(α1 +α2 )
= ( )
Γ(α1 )Γ(α2 ) x x
(1 + ) x
,

où la deuxième égalité se trouve en eectuant les changements de variables t = x+y


β
et
t = βx .

b) Dans ce contexte, l'estimateur de Bayes est :

55
y
− −x
R∞ y α2 −1 e β xα1 −1 e β
0 α α
β 2 Γ(α2 ) β 1 Γ(α1 )
π(β)dν(β)
pbπ (y|x) = mX (x)
Γ(α1 +α2 ) y α2 −1 xα1 −1 mZ (z)
= Γ(α1 )Γ(α2 ) (x+y)α1 +α2 −1 mX (x)
mZ (z)
= pb0 (y|x) xz m X (x)
.

Il est à remarquer que la fonction de densité en (a) est une fonction de densité de Fisher
avec paramètre d'échelle α1 x
α2
et degrés de liberté 2α1 et 2α2 , car la fonction de densité
d'une variable aléatoire Z suivant une loi de Fisher de degrés de liberté d1 et d2 est :

d1 d2 d1
Γ( d21 + d22 ) d12 d22 y 2 −1
fZ (z) = d1 d .
Γ( 2 )Γ( d22 ) (d1 y + d2 ) 21 + 22
d

Pour la partie (b), dans le cas particulier où β ∈]0, 1] et où on utilise la troncature de


la loi a priori non informative π(β) = β1 1]0,1] (β), on a : pbπ (y|x) = pb0 (y|x) où
F α1 +α2 ,1 (z)
F α1 ,1 (x)

la fonction F α,1 (·) est la fonction de survie d'une loi gamma de paramètres α et 1. Ce
résultat se prouve en remarquant que, pour T |β de loi Gamma(α, β) :

t
1
tα e− β
Z
t · mT (t) = 1]0,∞[ (t)dβ = F α,1 (t)
0 β α+1 Γ(α)

par le changement de variable u = βt . Si, de plus, α1 = α2 = 1, on a une forme close pour


l'estimateur. Il s'agit de :

(z + 1)e−z x
pbπ (y|x) = pb0 (y|x) −x
1]0,∞[ (x)1]0,∞[ (z) = (x + y + 1)e−y 1(]0,∞[)2 (x, y).
e (x + y)2

56
0.8

0.6

0.4

0.2

0.0
0 1 2 3 4
y
Bayes sous loi a priori 1Β sur réels positifs
Bayes sous loi a priori 1Β sur @0,1D

Figure 4.3  Estimateurs de Bayes pour loi Gamma (α1 = α2 = 1 avec observation x = 1).

La gure 4.3 illustre les estimateurs de Bayes associés aux lois a priori non informatives
π(β) = β1 1R+ (β) et π(β) = β1 1]0,1] (β). Lorsque β est restreint à ]0, 1], cette restriction est
prise en considération dans l'estimateur. Il est construit avec un paramètre d'échelle plus
petit.

La question revient. Est-ce que cet estimateur domine l'estimateur de Bayes découlant
de la loi a priori non informative π0 (β) = β1 1R+ (β) ? C'est ce que le prochain théorème
tente de démontrer.

Théoreme 4.3.4. Dans le cadre du problème énoncé au début de cette section, l'esti-
mateur de Bayes découlant de la loi a priori non informative π(β) = 1
1 (β)
β ]0,c]
avec

57
c < ∞ domine l'estimateur de Bayes découlant de la loi a priori non informative π0 (β) =
1
1 + (β)
β R
pour β ∈]0, c].

Démonstration. On sait, à partir des résultats démontrés plus tôt (Théorème 4.1.2 et
Proposition 4.2.1), que cette dominance est assurée pour tout α1 , α2 .

Mais, peut-on le démontrer directement ? Le théorème nous dit que ∆(β) ≥ 0 pour
tout β ∈]0, c], mais nous n'avons pas, pour l'instant, de démonstration générale directe.
Cependant, nous en avons une pour α1 = α2 = 1.

Démonstration. Sans perte de généralité, supposons c = 1. Il faut alors montrer que la


diérence des risques ∆(β) est positive. Or, comme mπ,X (x) = x1 F α1 ,1 (X) et mπ,Z (z) =
1
F
z α1 +α2 ,1
(z) , on peut déduire à partir de la partie (b) de la Proposition 4.3.3 que :

F α1 +α2 ,1 (Z)
∆(β) = E X,Y [log( F α1 ,1 (X)
)]
0
= E T [log(F α1 +α2 ,1 (βT ))] − E T [log(F α1 ,1 (βT 0 ))],

où T ∼ Γ(α1 + α2 , 1) et T 0 ∼ Γ(α1 , 1).

Une condition susante serait de montrer que la fonction H(α) = EαT [log(F α,1 (βT ))] est
croissante en α pour tout β ∈]0, 1]. Or, il est aisé de remarquer que lim+ ∆(β) = 0. Notons
β→0
de plus que ∆(1) = 0, car dans ce cas, F α1 +α2 ,1 (T ) ∼ U (0, 1) et F α1 ,1 (T 0 ) ∼ U (0, 1).

Donc, une condition susante est la concavité de ∆(β) en β pour tout α1 , α2 . Pour
α1 = α2 = 1, on a que

∆(β) = H(2) − H(1),

T
H(1) = E1,1 [log(e−βT ] = E1,1
T
[−βT ] = −β,

58
n−1 n−1
T
X (βT )k T
X (βT )k
H(n) = En,1 [log( ) − βT ] = En,1 [log( )] − nβ,
k=0
k! k=0
k!

T
H(2) = E2,1 [log(1 + βT )] − 2β.

Ainsi, ] − 1 et δ2
] < 0.
δ T −T 2
T T
δβ
(H(2) − H(1)) = E2,1 [ 1+βT δβ 2
(H(2) − H(1)) = E2,1 [ (1+βT )2

Donc, dans ce cas particulier, ∆(β) est concave en β . Si on ajoute cette information au
fait que lim+ ∆(β) = 0 et que ∆(1) = 0, alors on a dominance de l'estimateur pbπ sur pb0
β→0
pour la perte Kullback-Leibler, car ∆(β) doit être positif ou nul sur ]0, 1].

0.20

0.15

0.10

0.05

0.00

0.0 0.2 0.4 0.6 0.8 1.0


Β
Différence relative des risques

Figure 4.4  Diérence relative des risques pour estimateurs de Bayes sous loi a priori
1
1 + (β) et sous loi a priori β1 1]0,1] (β) pour loi Gamma (α1 = α2 = 1).
β R

59
On constate à l'observation de cette gure que la dominance est assurée pour β dans
l'intervalle d'appartenance. Le gain relatif se situe aux alentours de 20 % à son maximum.

Il est à remarquer, comme le mentionne la Remarque 4.1.4, que le résultat s'étend au


cas où l'espace paramétrique est de la forme [b, ∞[ avec b > 0 par un changement de
variable X → 1
X
en se rappelant que la perte Kullback-Leibler est intrinsèque tel que vu
à la Proposition 1.2.3.

Pour conclure, ce chapitre a résumé les contributions principales du mémoire concernant


l'estimation par densités prédictives lorsque l'espace paramétrique est restreint dans le
cadre de familles de lois particulières à paramètre de position ou d'échelle.

60
CHAPITRE 5

Minimaxity in Predictive Density

Estimation with Parametric

Constraints

Ce chapitre contient l'article soumis en collaboration avec Kubokawa, Marchand et Straw-


derman. Il reprend plusieurs résultats traités dans ce mémoire, à savoir les conditions
générales de minimaxité et de dominance d'estimateurs bayésiens pour des familles de
densités à paramètres de position et d'échelle à l'intérieur d'un espace restreint. Plusieurs
exemples sont illustrés pour mieux comprendre les résultats.

Abstract
This paper is concerned with estimation of a predictive density with parametric constraints
under Kullback-Leibler loss. When an invariance structure is embedded in the problem,
general and unied conditions for the minimaxity of the best equivariant predictive den-
sity estimator are derived. These conditions are applied to check minimaxity in various

61
restricted parameter spaces in location and/or scale families. Further, it is shown that
the generalized Bayes estimator against the uniform prior over the restricted space is
minimax and dominates the best equivariant estimator in a location family when the pa-
rameter is restricted to an interval of the form [a0 , ∞). Similar ndings are obtained for
scale parameter families. Finally, the presentation is accompanied by various observations
and illustrations, such as normal, exponential location, and gamma model examples.

AMS 2000 subject classications : 62C20, 62C86, 62F10, 62F15, 62F30.


Key words and phrases : Bayes estimators, decision theory, dominance, Kullback-Leibler
loss, invariance, location family, location-scale family, minimaxity, order restriction, pre-
dictive density, restricted parameter space, scale family.

5.1 Introduction

5.1.1 Preamble

We consider here predictive density estimation for continuous models with

X ∼ pθ (·) , Y ∼ qθ (·) , (5.1.1)

where the parameter θ is restricted. We seek ecient estimators q̂(·|X) of qθ based on X


under Kullback-Leibler loss
Z
qθ (y)
LKL (qθ , q̂) = qθ (y) log dy, (5.1.2)
q̂(y)
and as measured by the Kullback-Leibler risk

RKL (θ, q̂) = EθX,Y LKL (qθ , q̂(Y |X)) . (5.1.3)

Such a framework includes normal models with, for instance, X ∼ Np (µ, σX


2
Ip ), Y ∼
Np (µ, σY2 Ip ) with µ restricted to a convex subset of Rp as studied recently by Fourdrinier
et al. (2011). Our ndings will focus on two fundamental questions :

(A) whether the best equivariant procedure q̂ BI


is minimax for both the unrestricted
version and the restricted version of the problem ;

62
(B) whether the Bayes estimator q̂ U
with respect to the truncated (onto the restricted
parameter space) right Haar invariant measure improves upon uniformly on q̂ BI .

Part (A) requires an invariance structure which we will expand on in Section 2. Point es-
timation unrestricted parameter space versions of (A), with armative answers in many
situations, date back to Girshick and Savage (1951), Kiefer (1957), Hora and Buehler
(1966, 1967), among others. Point estimation restricted parameter versions of (A) and
(B), with armative answers, date back to Katz (1961) who showed under squared error
loss that the Bayes estimator with respect to the at prior on [0, ∞), for normal models
with mean µ and known variance, dominates the best equivariant estimator and is mini-
max for the restricted parameter space µ ∈ [0, ∞). There are several related results in the
literature (e.g., Farrell, 1964 ; Kubokawa, 2004 ; Marchand and Strawderman, 2005A,B ;
Tsukuma and Kubokawa, 2008) for restricted (unbounded) parameter spaces, with a
quite general minimax result given recently by Marchand and Strawderman (2012). As
further illustrated by the work of Casella and Strawderman (1981), Marchand and Perron
(2001), Hartigan (2004), Marchand and Strawderman (2004), Kubokawa (2005A,B), and
van Eeden (2006) among others, frequentist properties like minimaxity of best equivariant
estimators, restricted maximum likelihood estimators or Bayesian estimators depend on
the model, the loss, but also intimately on the nature of the parametric restriction.

Predictive density estimation addresses the challenging and ambitious problem of estima-
ting the whole distribution of a future observation Y . This has become a eld of active
study with early ndings due to Aitchison (1975). In particular, for Gaussian models
under Kullback-Leibler loss, fascinating connections with Stein estimation have been de-
veloped, as recently reviewed by George, Liang, and Xu (2012), and as expanded upon
below in subsection 1.3.

5.1.2 Outline of Paper

In this paper, we investigate minimaxity of the best equivariant predictive density es-
timator in location and/or scale families with parametric constraints under Kullback-

63
Leibler loss. In Section 5.2, we treat a setup with a general invariance structure given
by Hora and Buehler (1966, 67), where the parameter space is restricted to a subset of
multi-dimensional Euclidean space. Using similar arguments as in Girshick and Savage
(1951), we derive unied conditions under which the best equivariant estimator is mini-
max. These conditions are available for both restricted and non-restricted cases, and in
a sense, the minimaxity result is an extension of ndings by Liang and Barron (2004),
who showed minimaxity when the parameter space is unrestricted. Minimaxity under
parametric constraints for a given type of problem can thus be tested by checking those
unied conditions.

Section 5.3 deals with a location or scale family. In Section 5.3.1, minimaxity of the best
location equivariant estimator is veried under a one-sided restriction of the location
parameter in a location family. In section 3.2, we make use of a novel variation of the IERD
method introduced by Kubokawa (1994A,B) and Kubokawa and Saleh (1998) to prove
that the generalized Bayes estimator against the uniform prior over the restricted space
dominates the best location equivariant estimator if the target density to be predicted
has a monotone likelihood ratio property. It is interesting to note that the density of
the observation does not have to have a monotone likelihood ratio and need not be of
the same family as the target density. Analogous ndings for scale parameter families
are obtained in Section 5.3.3. Various other observations, detailed examples for normal,
exponential and gamma models, and a non-minimaxity result for a compact interval
restriction, complement the presentation.

In Section 5.4, we treat various restrictions in location-scale families and investigate


minimaxity of the best location-scale equivariant estimator. Section 5.4.1 considers the
cases that the location and scale parameters are in one-sided open spaces, and Section
5.4.2 investigates cases with a compact interval restriction for the location parameter and
an unknown scale. Through several examples of parametric restrictions given in Sections
5.4.1 and 5.4.2, we demonstrate how to use the conditions given in Section 5.2. Minimaxity
in the cases of ordered location or scale parameters in multidimensional distributions is
shown in Section 5.4.3.

64
5.1.3 Brief review of previous ndings for normal models

We conclude this introduction with a brief review on developments under a multivariate


normal distribution with unknown mean vector and known covariance matrices which
are multiples of identity, since most decision-theoretic results have been studied in this
model and since such a review is helpful for the overall presentation of our ndings.
Let X and Y be mutually independent random vectors such that X ∼ Np (µ, vx I) and
Y ∼ Np (µ, vy I) for known constants vx and vy . The density functions of X and Y are
denoted by f (x−µ|vx ) and f (y−µ|vy ). The problem is to predict the density f (y−µ|vy )
based on X in terms of the following risk relative of the Kullback-Leibler (KL) divergence
!
hZ f (y − µ|vy ) i
RKL (µ, fˆ) = EX f (y − µ|vy ) log dy ,
fˆ(y|X, vx , vy )

where fˆ(y|X, vx , vy ) is a predictive density estimator of f (y − µ|vy ). Since this model is


invariant under location transformations, the best equivariant estimator of f (y − µ|vy )
is the generalized Bayes estimator against the uniform prior with respect to Lebesgue
measure. As expressed in (5.2.3), the best equivariant estimator is given by
R
f (s|vx )f (y − x + s|vy )ds
fˆBI (y − x|vx , vy ) = R = f (y − x|vx + vy ).
f (s|vx )ds

Liang and Barron (2004) showed that fˆBI (y − x|vx , vy ) is minimax. Concerning the
admissibility of fˆBI (y − x|vx , vy ) in the case of normal distributions, Komaki (2001)
showed that it is inadmissible when p ≥ 3, namely, it is improved on by a generalized
Bayes estimator against a shrinkage prior. Brown, George and Xu (2008) showed that it
is admissible when p = 1, 2. These are noteworthy results in the sense that the so called
Stein inadmissibility result in point estimation is inherited by the problem of estimation
of a predictive normal density function. George, Liang and Xu (2006) extended Komaki's
result, and along with Brown, George and Xu (2008), showed that several decision-
theoretic results for point estimation of a multivariate normal mean with a known variance
still hold for the predictive density estimation problem. Kato (2009) succeeded in deriving
a minimax and improved generalized Bayes predictive density estimator in the case of
unknown variance.

65
Brown, George and Xu (2008) derived an interesting identity which expresses the rela-
tionship between point estimation and predictive density estimation. Let RQ
v
b ) be
(µ, µ
the risk function of a point estimator µ b (z) under a normal distribution Np (µ, vI),
b=µ
namely, Z
v
RQ (µ, µ
b) = µ(z) − µk2 f (z − µ|v)dz,
kb

for the Euclidean norm k · k. Let µ


b πv be the Bayes point estimator of µ for a prior
distribution π(µ) in terms of the loss kµ̂ − µk2 . Also, let fˆπ (y|x, vx , vy ) be the Bayes
estimator of the predictive density. Then, Brown, Brown, George and Xu (2008) showed
that
Z vx
1 1  v
ˆBI ˆπ v π
(5.1.4)

RKL (µ, f ) − RKL (µ, f ) = RQ (µ, X) − RQ (µ, µ v ) dv,
v2
b
2 vw

for vw = vx vy /(vx + vy ). This implies that dominance properties in point estimation can
be automatically inherited by predictive density estimation. An essential point in the
above identity is that in the normal distribution, the following representation due to
George, Liang and Xu (2006) holds :
mπ (W ; vw ) ˆBI
fˆπ (y|x, vx , vy ) = f (y|x, vx , vy ), (5.1.5)
mπ (X; vx )

where mπ (W ; vw ) and mπ (X; vx ) are marginal densities of W and X for W = (vy X +


vx Y )/(vx + vy ). Using this equality, Fourdrinier, et al . (2011) extended identity (5.1.4)
to plug-in estimators of the predictive density.

Identity (5.1.4) can be applied when the parameter space θ is restricted to a convex
cone C , or more generally to a convex set. In the framework of point estimation under
a constraint and squared error loss, Hartigan (2004) proved that X is improved on by
the generalized Bayes estimator against the uniform prior over C , and Tsukuma and
Kubokawa (2008) showed that X is minimax under the constraint. As developed in
Fourdrinier et al . (2011), combining these results and the identity (5.1.4) implies that
these properties hold for the estimation of the predictive density.

The inferences are valid for normal distributions where key property (5.1.4) can be de-
rived from the equality (5.1.5). The equality (5.1.5) holds under normality with known

66
variances, but it does not hold in the case of unknown variances. Thus, it is not clear
whether a decision-theoretic property in point estimation is inherited by estimation of the
predictive density under normality with unknown variances or for another distribution.

5.2 General conditions for minimaxity


In this section, we treat general parametric distributions in which an invariance struc-
ture is embedded, and derive general conditions for minimaxity of the best equivariant
estimator. The conditions will be used for checking minimaxity in location and/or scale
families.

Let X be an observable random variable and Y be a future random variable. Let (X ×


Y, BX × BY ) be a measurable space of (X, Y ) and P = {Pθ : θ ∈ Θ} be a family
of identiable probability measures with parameter space Θ. We assume the following
conditions.

(A1) There exist a group G and a measurable space (G, B ) on which there exists a left
G

invariant Haar measure γ satisfying

γ(gG) = γ(G) for all g ∈ G and all G ∈ BG .

Each g ∈ G induces a one-to-one transformation g from Θ onto itself dened by Pgθ (gA) =
Pθ (A) for any A ∈ BX × BY and any θ ∈ Θ. The induced space G = {g : g ∈ G} is
measurable.

(A2) There exists a one-to-one correspondence X ↔ (tx , ux ) between X and G × UX


such that gX corresponds to (gtx , ux ) and UX is a measurable space. Also, there exists a
one-to-one correspondence Y ↔ (ty , uy ) between Y and G × UY such that gY corresponds
to (gty , uy ) and UY is a measurable space. The statistics ux and uy are maximal invariant
under the transformation G.

(A3) There exists a one-to-one correspondence θ ↔ g θ between Θ and G such that gθ


corresponds to g g θ for all g ∈ G. The correspondence of g θ in G is denoted by gθ .

67
(A4) There exist conditional probability density functions p(g −1
θ tx |ux ) and q(gθ−1 ty |uy )
given ux and uy such that for all A ∈ BX , B ∈ BY ,
Z
Pθ [A] = p(gθ−1 tx |ux )px (ux )γ(dtx )γx (dux ),
ZA
Pθ [B] = q(gθ−1 ty |uy )qy (uy )γ(dty )γy (duy ),
B

where px (·) is a marginal density function of ux with respect to a measure γx (·) on UX ,


and py (·) and γy (·) are dened similarly.

We dene a measure ν(·) by


ν(dg) = γ(dg −1 ).

This is a right invariant Haar measure. Since γ(·) is left invariant, it is noted that γ(hdg) =
γ(dg) and γ((dg)h) = ∆(h)γ(dg) for h, g ∈ G, where ∆(·) is a modular function.

Now we can set up the problem of estimating the joint predictive density q(gθ−1 ty |uy ) qy (uy )
based on (tx , ux ). When we estimate qθ by a density q̂(ty |uy , tx , ux )qy (uy ), we evaluate the
performance using the Kullback-Leibler (KL) divergence in (5.1.2) and we may write

q(gθ−1 ty |uy )qy (uy )


Z  
LKL (θ, q̂(·|·, tx , ux )) = q(gθ−1 ty |uy )qy (uy ) log γ(dty )γy (duy )
q̂(ty |uy , tx , ux )qy (uy )
q(gθ−1 ty |uy )
hZ   i
uy −1
=E q(gθ ty |uy ) log γ(dty ) .
q̂(ty |uy , tx , ux )

Then, the risk function is

RKL (θ, q̂) = E[LKL (θ, q̂(·|·, tx , ux )] = E ux ,uy [RKL (θ, q̂|ux , uy )], (5.2.1)

where E ux ,uy [·] is the expectation with respect to the marginal distribution of (ux , uy ),
and RKL (θ, q̂|ux , uy ) is the conditional risk function given (ux , uy ) equal to
Z
RKL (θ, q̂|ux , uy ) = p(gθ−1 tx |ux )γ(dtx )

q(gθ−1 ty |uy )
nZ   o
× −1
q(gθ ty |uy ) log γ(dty ) . (5.2.2)
q̂(ty |uy , tx , ux )

68
This demonstrates that estimation of the joint density function q(gθ−1 ty |uy )qy (uy ) can
be reduced to that of estimating the conditional density function q(gθ−1 ty |uy ) as long as
estimators of the form q̂(ty |uy , tx , ux )qy (uy ) are considered.

Since the problem has an invariance structure, we can derive the best equivariant esti-
mator. Conditional predictive density equivariant estimators under the transformation G
satisfy
q̂(gty |uy , gtx , ux ) = q̂(ty |uy , tx , ux ) for all g ∈ G,

which implies that a class of (nonrandomized) equivariant estimators is given by


 Z 
QI = q̂I (tx ty |uy , ux )
−1
q̂I (s|uy , ux )γ(ds) = 1 .

The best equivariant estimator is given in the following proposition.

Proposition 5.2.1. Assume conditions (A1) to (A4). Then, the best equivariant esti-
mator of q(gθ−1 ty |uy ) is given by
Z
q̂ BI
(t−1
x ty |uy , ux ) = p(t|ux ) q(tt−1
x ty |uy ) γ(dt)

p(g −1 tx |ux ) q(g −1 ty |uy ) ν(dg)


R
= R . (5.2.3)
p(g −1 tx |ux ) ν(dg)

Proof. Note that the conditional risk function of q̂ (t I


−1
x ty |uy , ux ) is free from θ, and from
(5.2.2), it is expressed as
 
q(ty |uy )
Z Z
RKL (q̂I |ux , uy ) = p(tx |ux )q(ty |uy ) log γ(dtx )γ(dty )
q̂I (t−1
x ty |uy , ux )
Z Z  
q(tx s|uy )
= p(tx |ux )q(tx s|uy ) log γ(dtx )γ(ds), (5.2.4)
q̂I (s|uy , ux )
where s = t−1
x ty and γ(tx ds) = γ(ds) for the left invariant measure γ(·). With the

alternative rewriting
R 
p(tx |ux )q(tx s|uy )γ(dtx )
Z Z
RKL (q̂I |ux , uy ) = p(tx |ux )q(tx s|uy )γ(dtx ) log γ(ds)
q̂I (s|uy , ux )
Z Z  
q(tx s|uy )
+ p(tx |ux )q(tx s|uy ) log R γ(dtx ) γ(ds),
p(tx |ux )q(tx s|uy )γ(dtx )
it is seen that the best equivariant predictive density estimator is
Z
q̂ BI
(s|uy , ux ) = p(t|ux )q(ts|uy )γ(dt). (5.2.5)

69
Making the transformation t = g −1 tx , we see that

γ(d(g −1 tx )) = γ((dg −1 )tx ) = ∆(tx )γ(g −1 ) = ∆(tx )ν(dg).

Since 1 = p(g −1 tx |ux )∆(tx )ν(dg), it is seen that


R R
p(t|ux )γ(dt) =
Z
∆(tx ) = 1/ p(g −1 tx |ux )ν(dg).

x ty into (5.2.5) and using the above arguments shows that q̂


Substituting s = t−1 BI
(s|uy , ux )
is expressed as (5.2.3).

As seen from the form in (5.2.3), the best equivariant estimator is the generalized Bayes
predictive density estimator against the right invariant measure ν(dg). Liang and Barron
x ty |uy , ux ) is minimax if the
(2004) showed that the best equivariant estimator q̂ BI (t−1
group G is amenable, namely, if there is a sequence of probability measures γj (·) on G
that is asymptotically invariant in the sense that limj→∞ {ψ(ag) − ψ(a)}γj (da) = 0
R

for every g ∈ G and every bounded measurable function ψ on G. However, the best
equivariant estimator is not necessarily minimax when the parameter space is restricted.

We now provide unied conditions for the minimaxity of the best equivariant predictive
density estimator. Although the conditions can be applied to both cases that parameters
are restricted and non-restricted, they lead to new ndings in restricted cases only, since
minimaxity in non-restricted cases follows from the result of Liang and Barron (2004).

(A5) Θ is restricted, and this restriction is equivalently expressed as g θ ∈ P . Also, it is


assumed that P ⊂ G ⊂ Rr ; namely, G is a subset of r dimensional Euclidean space and
P is a restricted space of G.

(A6) There exist sequences of subsets P (⊂ P ) and one-to-one functions h (·) between
k k

Pk ↔ Ξ ⊂ Rr with ξ = hk (gθ ) for gθ ∈ Pk , where Pk , hk (·) and Ξ satisfy the following


conditions :

(A6-1) ∪ ∞
k=k0 Pk = P for some k0 ≥ 1.

70
(A6-2) Let V (P ) = R k ν(dgθ ). Let γk (·) be an induced measure dened by γk (A) =
Pk

k (A)) for A ∈ Ξ. Then, hk (Pk ) = Ξ = i=1 [−1 + ai,k , 1 + bi,k ] and


Qr
ν(h−1
Z Z r
1  
(5.2.6)
Y
f (ξk )γk (dξk )/V (Pk ) ≥ r I ξ∈ [−1 + ai,k , 1 + bi,k ] f (ξ)dξ,
hk (Pk ) 2 + ck i=1

where f (·) > 0, ξk = hk (gθ ), I(·) is the indicator function, and limk→∞ ai,k = limk→∞ bi,k =
limk→∞ ck = 0 for i = 1, . . . , r.

(A6-3) For any small enough ε > 0 and any ξ ∈ Q r


i=1 [−1 + ai,k + ε, 1 + bi,k − ε], there
exists a sequence of subsets Pk∗ such that Pk∗ does not depend on ξ , ∪∞
k=k1 Pk = G for

some k1 ≥ 1 and
Pk∗ ⊂ {[h−1 −1
k (ξ)] g; g ∈ Pk }.

Théoreme 5.2.2. Assume conditions (A1) to (A6-3). Then, the best equivariant esti-
x ty |uy , ux ) is minimax in estimation of the conditional density q(gθ ty |uy )
mator q̂ BI (t−1 −1

in terms of the conditional risk (5.2.2).

Proof. We can show this theorem along the same lines as in Kubokawa (2004) who
modied the method of Girshick and Savage (1951). Consider the sequence of prior dis-
tributions given by

{V (Pk )}−1 ν(dgθ ) if gθ ∈ Pk



πk (gθ )ν(dgθ ) =
0 otherwise.

This yields the Bayesian predictive densities


Z Z
−1 −1
q̂kπ (ty |uy , tx , ux ) = p(g tx |ux )q(g ty |uy )ν(dg) p(g −1 tx |ux )ν(dg)
Pk Pk

with conditional Bayes risks


Z Z Z
1
rk (πk , q̂kπ |ux , uy ) = p(gθ−1 tx |ux )q(gθ−1 ty |uy )
V (Pk ) Pk
q(gθ−1 ty |uy )
 
× log π γ(dtx )γ(dty )ν(dgθ ).
q̂k (ty |uy , tx , ux )

Since rk (πk , q̂kπ |ux , uy ) ≤ rk (πk , q̂ BI |ux , uy ) = R0 (ux , uy ), it is sucient to show that
lim inf k→∞ rk (πk , q̂kπ |ux , uy ) ≥ R0 (ux , uy ). Making the transformations sx = gθ−1 tx and

71
sy = gθ−1 ty yields
 
q(sy |uu )
Z Z Z
1
rk (πk , q̂kπ |ux , uy ) = p(sx |ux )q(sy |uy ) log π
ν(dgθ )
V (Pk ) Pk q̂k (gθ sy |uy , gθ sx , ux )
× γ(dsx )γ(dsy )ν(dgθ ), (5.2.7)

where q̂kπ (gθ sy |uy , gθ sx , ux ) is expressed as


p(g −1 gθ sx |ux )q(g −1 gθ sy |uy )ν(dg)
R
Pk
q̂kπ (gθ sy |uy , gθ sx , ux ) = R .
Pk
p(g −1 gθ sx |ux )ν(dg)

Now, make the transformation g1 = gθ−1 g with ν(dg) = ∆(gθ )ν(dg1 ) in order to rewrite
q̂kπ (gθ sy |uy , gθ sx , ux ) as

p(g1−1 sx |ux )q(g1−1 sy |uy )ν(dg1 )


R
gθ g1 ∈Pk
q̂kπ (gθ sy |uy , gθ sx , ux ) = .
p(g1−1 sx |ux )ν(dg1 )
R
gθ g1 ∈Pk

In view of the assumptions, there exists a transformation ξk = hk (gθ ) satisfying the


condition (A6). Note that g g ∈ P θ 1 k is equivalent to h−1
k (ξk )g1 ∈ Pk , or

g1 ∈ {[h−1 −1
k (ξk )] g; g ∈ Pk } ≡ P̃k (ξk ).

Then, the Bayes estimator ĝkπ (gθ sy |uy , gθ sx , ux ) is rewritten as


p(g1−1 sx |ux )q(g1−1 sy |uy )ν(dg1 )
R
g1 ∈P̃k (ξk )
q̂kπ (h−1 −1
k (ξk )sy |uy , hk (ξk )sx , ux ) = , (5.2.8)
p(g1−1 sx |ux )ν(dg1 )
R
g1 ∈P̃k (ξk )

and the conditional Bayes risk (5.2.7) is rewritten as


Z Z Z
1
rk (πk , q̂kπ |ux , uy ) = p(sx |ux )q(sy |uy )
V (Pk ) hk (Pk )
 
q(sy |uu )
× log γk (dξk )γ(dsx )γ(dsy ).
q̂k (hk (ξk )sy |uy , h−1
π −1
k (ξk )sx , ux )

It is noted that from (A6-2), for any small ε > 0,


r
Y r
Y
hk (Pk ) = [−1 + ai,k , 1 + bi,k ] ⊃ [−1 + ai,k + ε, 1 + bi,k − ε] ≡ Ik,ε .
i=1 i=1

Then from (5.2.6), the conditional Bayes risk is evaluated as


Z Z Z
1
rk (πk , q̂kπ |ux , uy ) ≥ r I(ξ ∈ Ik,ε ) p(sx |ux )q(sy |uy )
2
 
q(sy |uu )
× log π −1 dξγ(dsx )γ(dsy ).
q̂k (hk (ξ)sy |uy , h−1
k (ξ)sx , ux )

72
For ξ ∈ Ik,ε , from (A6-3), it can be seen that q̂ (h π
k
−1 −1
k (ξ)sy |uy , hk (ξ)sx , ux ) → q̂ BI (t−1
x ty |uy , ux )

as k → ∞. Hence, Fatou's lemma is used to bound the Bayes risks as

Z Z Z
1
lim inf rk (πk , q̂kπ |ux , uy ) ≥ r lim inf I(ξ ∈ Ik,ε ) p(sx |ux )q(sy |uy )
k→∞ 2 k→∞
 
q(sy |uy )
× lim inf log π −1 γ(dsx )γ(dsy )dξ
k→∞ q̂k (hk (ξ)sy |uy , h−1k (ξ)sx , ux )
Z
1
= r dξ
2 |−1+ε,1−ε|r
 
q(sy |uy )
Z Z
× p(sx |ux )q(sy |uy ) log BI −1 γ(dsx )γ(dsy )
q̂ (tx ty |uy , ux )
=(1 − ε)r R(θ, q̂ BI (t−1 r
x ty |uy , ux )) = (1 − ε) R0 (ux , uy )

From the arbitrariness of ε > 0, it follows that lim inf k→∞ rk (πk , q̂kπ |ux , uy ) ≥ R0 (ux , uy ),
completing the proof of Theorem 5.2.2.

In the above proof, the Bayes risk is given by rk (πk , q̂kπ ) = E ux ,uy [rk (πk , q̂kπ |ux , uy )]. It
is easy to see that rk (πk , q̂kπ ) ≤ E ux ,uy [rk (πk , q̂ BI |ux , uy )] = E ux ,uy [R0 (ux , uy )]. On the
other hand, Fatou's lemma is used to evaluate the Bayes risk as lim inf k→∞ rk (πk , q̂kπ ) ≥
E ux ,uy [lim inf k→∞ rk (πk , q̂kπ |ux , uy )] ≥ E ux ,uy [R0 (ux , uy )]. Thus, we get the following co-
rollary.

Corollaire 5.2.3. Assume conditions (A1) to (A6-3). Then, the best equivariant esti-
mator q̂ BI (t−1
x ty |uy , ux )qy (uy ) is minimax for the estimation of the joint density q(gθ ty |uy )qy (uy )
−1

in terms of the Kullback-Leibler risk (5.2.1).

As we will show in various situations, Theorem 5.2.2 includes both non-restricted and res-
tricted cases and thus provides a unied result for the minimaxity of the best equivariant
estimator.

73
5.3 Location and scale families : minimaxity and im-
provements on q̂BI

5.3.1 Minimaxity for location families

We rst deal with the estimation of a density with a restricted location parameter.
Let X = (X1 , . . . , Xn1 ) be a random variable having a density f (x − µ) for x − µ =
(x1 − µ, . . . , xn1 − µ), and let Y = (Y1 , . . . , Yn2 ) be a random variable having a density
g(y − µ) for y − µ = (y1 − µ, . . . , yn2 − µ), where the location parameter is restricted to
the one-sided parameter space

A = {µ | µ ≥ a0 } for known a0 .

Let ux = (x2 −x1 , . . . , xn1 −x1 ) and uy = (y2 −y1 , . . . , yn2 −y1 ) be the maximal invariants.
The location models are expressed as p(x1 − µ|ux ) = f (x1 − µ, ux + x1 − µ)/px (ux )
and q(y1 − µ|uy ) = g(y1 − µ, uy + y1 − µ)/qy (uy ) for px (ux ) = f (t, ux + t)dt and
R

g(t, uy + t)dt, where ux + a means ux + a = (x2 − x1 + a, . . . , xn1 − x1 + a) for


R
qy (uy ) =
a scalar a.

When the parameter µ is not restricted, it follows from (5.2.3) that the best equiva-
riant estimator for predicting the density q(y1 − µ|uy )qy (uy ) is q̂ BI (y|x) = q̂ BI (y1 −
x1 |uy , ux )qy (uy ), where
R∞
p(x1 − a|ux )q(y1 − a|uy )da
q̂ BI (y1 − x1 |uy , ux ) = −∞
R∞ , (5.3.1)
−∞
p(x1 − a|ux )da
which is minimax without the restriction A. When µ is restricted to A, we can show the
minimaxity of q̂ BI (y|x).

Théoreme 5.3.1. The best equivariant estimator q̂ BI


(y|x) in the location problem is
minimax for estimation of the predictive density under the restricted parameter space A
relative to LKL -loss ; and the minimax risk is given by R0 = R(µ, q̂ BI ).

Proof. It is sucient to check conditions (A6)-(A6-3) in Theorem 5.2.2. In this case,


P = {µ ≥ a0 }, G = R, γ(dµ) = ν(dµ) = dµ, Pk = {µ|a0 < µ < a0 + k} and V (Pk ) = k .

74
Take ξk = hk (µ) = (2/k)(µ − a0 ) − 1. Then, hk (Pk ) = [−1, 1], γk (dξk ) = (k/2)dξk
and
R
hk (Pk )
f (ξk )γk (dξk )/V (Pk ) = (1/2)
R
[−1,1]
f (ξ)dξ , which satises condition (A6-2).
For any ξ ∈ [−1 + ε, 1 − ε], it is noted that µ = h−1
k (ξ) = a0 + (k/2)(ξ + 1), so that

{[h−1 −1
k (ξ)] g; g ∈ Pk } = {µ − a0 − (k/2)(ξ + 1); a0 < µ < a0 + k} = (−(k/2)(ξ +

1), (k/2)(1 − ξ)) ⊃ (−(k/2)ε, (k/2)ε) ≡ Pk∗ . Since limk→∞ Pk∗ = R, condition (A6-3) is
satised, and the minimaxity of q̂ BI is established.

5.3.2 Improvements on the best equivariant estimator q̂BI

Although the best equivariant predictive density is minimax, it is not reasonable from a
Bayesian or optimization perspective because the prior distribution is taken over whole
the space of µ. This suggests that the unrestricted uniform prior Bayes predictive den-
sity is likely to be inadmissible and may be improved upon by other (necessarily mi-
nimax) predictive densities. A reasonable alternative is the generalized Bayes predic-
tive density against the uniform prior over the restricted space A, given by q̂ U (y|x) =
q̂ U (y1 , |x1 , uy , ux )qy (uy ), where
R∞
p(x1 − a|ux )q(y1 − a|uy )da
q̂ U (y1 |x1 , uy , ux ) = a0
R∞ . (5.3.2)
a0
p(x 1 − a|u x )da

We will indeed establish the minimaxity of the uniform prior Bayes predictive density
q̂ U (y|x) under the following logconcavity or increasing monotone likelihood ratio pro-
perty :

(C1) The density q(y − µ|u ) is a continuously dierentiable function such that q(y −
1 y 1

µ|uy )/q(y1 − a0 |uy ) is nondecreasing in y1 for µ > a0 .

Lemme 5.3.2. Assume that q(y −µ|u ) satises condition (C1). Dene A(y |x , u , u , µ)
1 y 1 1 x y

by
R0
p(x1 + w − µ|ux )q(y1 + w − µ|uy )dw
A(y1 |x1 , ux , uy , µ) = −∞
R0 . (5.3.3)
−∞
p(x 1 + w|ux )q(y 1 + w|u y )dw

Then, the following properties hold :

75
(i) q (y |u )/q(y |u ) is nonincreasing in y , where q (y |u ) = ∇
0
1 y 1 y 1
0
1 y y1 q(y1 |uy ) for ∇y1 =
∂/∂y1 ;

(ii) For µ > 0, A(y |x , u , u , µ) is nondecreasing in y .


1 1 x y 1

Proof. Property (i) follows from the fact that ∇ {q(y − µ|u )/q(y |u )} ≥ 0. For
establishing (ii), we shall show that ∇ A(y |x , u , u , µ) ≥ 0 under assumption (C1).
y1 1 y 1 y

y1 1 1 x y

Carrying out the dierentiation, we see that this inequality is equivalent to


R0
−∞
p(x1 + w − µ|ux )q 0 (y1 + w − µ|uy )dw
R0
−∞
p(x1 + w − µ|ux )q(y1 + w − µ|uy )dw
R0
−∞
p(x1 + w|ux )q 0 (y1 + w|uy )dw
≥ R0 ,
−∞
p(x1 + w|ux )q(y1 + w|uy )dw
or
R −µ
p(x1 + w|ux )q 0 (y1 + w|uy )dw
R−∞
−µ
−∞
p(x1 + w|ux )q(y1 + w|uy )dw
R0
p(x1 + w|ux )q 0 (y1 + w|uy )dw
≥ R0−∞
. (5.3.4)
−∞
p(x1 + w|ux )q(y1 + w|uy )dw
Hence from (5.3.4), it is sucient to show that
R −µ
∂ −∞ p(x1 + w|ux )q 0 (y1 + w|uy )dw
R −µ ≥ 0. (5.3.5)
∂µ −∞ p(x1 + w|ux )q(y1 + w|uy )dw
In fact, this derivative is proportional to
Z −µ
0
−p(x1 − µ|ux )q (y1 − µ|uy ) p(x1 + w|ux )q(y1 + w|uy )dw
−∞
Z −µ
+ p(x1 − µ|ux )q(y1 − µ|uy ) p(x1 + w|ux )q 0 (y1 + w|uy )dw,
−∞

which is rewritten as
Z −µ
p(x1 − µ|ux )q(y1 − µ|uy ) p(x1 + w|ux )q(y1 + w|uy )
−∞
n q 0 (y + w|u ) q 0 (y − µ|u ) o
×
1 y

1 y
dw. (5.3.6)
q(y1 + w|uy ) q(y1 − µ|uy )
From property (i), note that ∇ y1 q(y1 |uy )/q(y1 |uy ) is nonincreasing in y1 . Hence, the
integrand in (5.3.6) is not negative, and the inequality (5.3.5) holds. This proves Lemma
5.3.2.

76
Using this lemma, we prove the following theorem.

Théoreme 5.3.3. Assume condition (C1). Then, the uniform prior Bayes predictive
density q̂ U (y|x) is minimax under the restriction µ ≥ a0 . The risks of q̂ U (·) and q̂ BI (·)
coincide if and only if µ = a0 .

Proof. Let a0 = 0 without any loss generality. Since q̂ BI (y|x) is a minimax estimator
with a constant risk, we shall show that q̂ U (y|x) improves on q̂ BI (y|x). From (5.2.1), it
is sucient to show the improvement in terms of the conditional risk (5.2.2). The IERD
method developed by Kubokawa (1994A,B) is useful for the purpose. The conditional
risk dierence of the two predictive densities q̂ BI (y|x) and q̂ U (y|x) is written as

∆(µ) =RKL (µ, q̂ BI |ux , uy ) − RKL (µ, q̂ U |ux , uy )


Z Z n o
U BI
= p(x1 − µ|ux )q(y1 − µ|uy ) log q̂ (y|x) − log q̂ (y|x) dx1 dy1 .

Observe that

logq̂ U (y|x) − log q̂ BI (y|x)


R∞ R∞
q(y 1 − a|u y )p(x 1 − a|ux )da q(y1 − a|uy )p(x1 − a|ux )da
= log 0 R∞ − log −∞ R ∞
0
p(x1 − a|ux )da −∞
p(x1 − a|ux )da
Z 0 R∞
q(y1 − a|uy )p(x1 − a|ux )da
 
d
= log t R∞ dt
−∞ dt t
p(x1 − a|ux )da
Z 0  
p(x1 − t|ux ) q(y1 − t|uy )p(x1 − t|ux )
= R∞ − R∞ dt,
−∞ t
p(x 1 − a|u x )da t
q(y1 − a|uy )p(x1 − a|ux )da
which permits us to write
ZZ
∆(µ) = p(x1 − µ|ux )q(y1 − µ|uy ) dx1 dy1
Z 0  
p(x1 − t|ux ) q(y1 − t|uy )p(x1 − t|ux )
× R∞ − R∞ dt .
−∞ t
p(x1 − a|ux )da t
q(y1 − a|uy )p(x1 − a|ux )da
Making the transformation w = −a + t with dw = −da gives that t∞ p(x1 − a|ux )da =
R
R∞
p(x1 − t + w|ux )dw and t q(y1 − a|uy )p(x1 − a|ux )da = −∞ q(y1 − t + w|uy )p(x1 −
R0 R0
−∞

t + w|ux )dw. Then, making the transformations x = x1 − t and y = y1 − t yields


ZZ Z 0
∆(µ) = p(x + t − µ|ux )q(y + t − µ|uy ) dt
−∞
n p(x|ux ) q(y|uy )p(x|ux ) o
× R0 − R0 dx dy.
−∞
p(x + w|ux )dw −∞
q(y + w|uy )p(x + w|ux )dw

77
Replacing t with w, we can get the expression
R0
p(x + w − µ|ux )q(y + w − µ|uy )dw
ZZ
−∞
∆(µ) = p(x|ux )
R0
−∞
p(x + w|ux )q(y + w|uy )dw
R0
n p(x + w|ux )q(y + w|uy )dw o
× −∞ R 0 − q(y|uy ) dxdy
−∞
p(x + w|ux )dw
ZZ Z
= p(x|ux ) A(y|x, ux , uy , µ)
n 0 p(x + w|ux )q(y + w|uy )dw
R
o
× −∞ R0 − 1 q(y|uy ) dy dx.
−∞
p(x + w|ux )dwq(y|uy )

Let B(y|x, ux , uy ) = p(x + w|ux )dwq(y|uy )} − 1.


R0 R0
−∞
p(x + w|ux )q(y + w|uy )dw/{ −∞

Denote an expectation with the density q(y|uy ) by Eq [·]. From Lemma 5.3.2, it follows that
A(y|x, ux , uy , µ) is nondecreasing in y for µ > 0. Since q(y+w|uy )/q(y|uy ) is nondecreasing
in y , it is seen that B(y|x, ux , uy ) is nondecreasing in y . Thus, for µ > 0
R0
p(x + w|ux )q(y + w|uy )dw
Z n o
−∞
A(y|x, ux , uy , µ) R0 − 1 q(y|uy )dy
−∞
p(x + w|ux )dwq(y|uy )
=Eq [A(Y |x, ux , uy , µ)B(Y |x, ux , uy )]

≥Eq [A(Y |x, ux , uy , µ)]Eq [B(Y |x, ux , uy )] (5.3.7)


R0 R
p(x + w|ux ) q(y + w|uy )dydw
n Z o
−∞
=Eq [A(y|x, ux , uy , µ)] R0 − q(y|uy )dy ,
−∞
p(x + w|ux )dw

where the inequality in (5.3.7) follows from the well known covariance inequality since
both functions A(y|x, ux , uy , µ) and B(y|x, ux , uy ) are nondecreasing in y (see Wijsman
(1984) for example). Since q(y|uy )dy = 1, it follows that
R R
q(y + w|uy )dy =
R0 R
−∞
p(x + w|ux ) q(y + w|uy )dydw
R0 − 1 = 0,
−∞
p(x + w|ux )dw

showing that ∆(µ) ≥ 0 for all µ ≥ 0. Observe that A(y|x, ux , uy , 0) is constant(= 1) in


y , so that ∆(0) = 0 as seen with the above expansion with an equality replacing the
inequality in (5.3.7). Finally, the covariance inequality in (5.3.7) is strict when µ > 0 and
the proof of Theorem 5.3.3 is therefore complete.

78
Other improvements on q̂BI

Theorem 5.3.3 establishes a general comparison between the generalized Bayes estimator
q̂ U and the best equivariant estimator q̂ BI , with the former dominating the latter under
the simple condition that q be logconcave. It is of interest to seek classes of other domina-
ting procedures. Although we will not explore this issue in depth here, it is nevertheless
pertinent to make the following observation which generates many other dominating pro-
cedures. The next result follows from the strict concavity of the log function on (0, ∞),
or alternatively from the strict convexity with respect to q̂ of the loss LKL (qθ , q̂).

Lemme 5.3.4. Let α ∈ (0, 1). Let q̂ , i = 0, 1, 2 be estimators such that q̂


i 1 6= q̂2 . If
RKL (θ, q̂i ) ≤ RKL (θ, q̂0 ) for i = 1, 2 and for all θ ∈ Θ, then RKL (θ, αq̂1 + (1 − α)q̂2 ) ≤
RKL (θ, q̂0 ), with equality at a given θ0 if and only if RKL (θ0 , q̂i ) = RKL (θ0 , q̂0 ) for i = 1, 2.

The above result implies directly that convex linear combinations of q̂BI and q̂U do-
minate q̂BI in the context of Theorem 5.3.3 by taking q̂0 = q̂1 = q̂ BI and q̂2 = q̂ U .
Finally, since Theorem 5.3.3 applies for the conditional risks, the weights can be made
to depend on the maximal invariants ux and uy and it thus follows that estimators
α(ux , uy )q̂ U (y|x1 , uy , ux )qy (uy ) + (1 − α(ux , uy ))q̂ BI (y|x1 , uy , ux )qy (uy ) with α(·, ·) ∈ (0, 1)
are also minimax.

Examples

We proceed with instructive examples and illustrations.

Exemple 5.3.5. (normal models) The results above apply to the particular setup :
X|µ ∼ N(µ, σX
2
), Y |µ ∼ N(µ, σY2 ), (5.3.8)

with the restriction µ ≥ a0 . Namely, Theorem 5.3.1 tells us that q̂ BI (·|X) ∼ N(X, σX
2
+σY2 )
remains minimax under the restriction µ ≥ a0 , while Theorem 5.3.3 implies that the
generalized Bayes estimator q̂ U is also minimax, and dominates q̂ BI under the restriction
µ ≥ a0 . Figure 1 compares the risks of these two estimators for a0 = 0, σX
2
= 1, σY2 = 1.

79
RKl (µ,q̂ BI )−RKl (µ,q̂ U )
The curve measures the relative dierence in risks (i.e., RKl (µ,q̂ BI )
). Observe
that the risks coincide indeed at the lower boundary of the parameter space and at µ = ∞
and that the gains are appreciable, particularly around one standard deviation from the
boundary where they uctuate around 40%.

0.4
Relative improvement in risks

0.3

0.2

0.1

0.0
0 1 2 3 4
Μ

Figure 5.1  Relative dierence in risks between q̂ BI and q̂ U (normal model with µ ≥
2
0, σX = σY2 = 1)

For the specic normal case illustrated here, the above dominance and minimax results
are not new and were previously obtained through a dierent route by Fourdrinier et al.
(2011) by methods which are also applicable for the multivariate case. Interestingly, yet
another proof of the dominance result can be derived by a more direct and instructive
approach. We now expand on this, considering the more general problem µ ∈ [a0 , a0 + m),
with m = ∞ corresponding to the lower bounded case and setting hereafter a0 = 0 without
loss of generality. Making use of (5.1.5), the uniform Bayes estimator q̂ U with respect to
the at prior on [0, m) is given by
2
mU (W ; σW ) BI
q̂ U (Y |X) = 2
q̂ (Y |X)
mU (X; σX )
( W )
Φ( σW ) − Φ( Wσ−m )
= W
q̂ BI (Y |X) ,
Φ( σXX ) − Φ( X−m
σX
)

with W =d (σY2 X + σX
2 2
Y )/(σX + σY2 ) ∼ N(µ, σW
2
) for σW
2 2 2
= (σX 2
σY )/(σX + σY2 ). Conse-

80
quently, the dierence in risks may be expressed as
q̂ U (Y |X)


BI U X,Y
∆(µ) = RKL (µ, q̂ ) − RKL (µ, q̂ ) = E log BI
q̂ (Y |X)
    
X,Y W W −m X X −m
= E log Φ( ) − Φ( ) − log Φ( ) − Φ( ) .
σW σW σX σX
Here, set W 0 = W/σW ∼ N(µ/σW , 1), X 0 = X/σX ∼ N(µ/σX , 1) and observe that
W 0 =d X 0 + δ , with δ = µ(1/σW − 1/σX ) ≥ 0 for µ ≥ 0 with equality i µ = 0, given that
σW < σX . Hence,
    
X0 0 0 m 0 0 m
∆(µ) = E log Φ(X + δ) − Φ(X + δ − ) − log Φ(X ) − Φ(X − ) ≥ 0,
σW σX
for all µ ∈ [0, m], since Φ(·) is strictly increasing on R and x0 +δ ≥ x0 and x0 +δ−m/σW ≤
x0 − m/σX for all x0 ∈ R, and with equality occurring only if µ = 0 and m = ∞. We have
thus shown directly that the uniform Bayes procedure q̂ U dominates q̂ BI for the normal
model in (5.3.8) with the restriction µ ∈ [a0 , a0 + m). This oers an alternative to Four-
drinier et al.'s proof. Notwithstanding this development (as well as the next Remark), the
search for ecient Bayesian procedures under a compact interval constraint which merits
further study will not be pursued here. Recent advances for point estimation versions of
this problem were obtained by Kubokawa (2005B), as well as Marchand and Payandeh
(2011).

Remarque 5.3.6. (non-minimaxity of q̂ BI


in the compact interval case)
In the previous example for the compact interval case with m < ∞, observe that ∆(µ) > 0
for all µ ∈ [a0 , a0 + m], which implies in turn that inf µ∈[a0 ,a0 +m] ∆(µ) > 0 and that q̂ BI is
not minimax, in contrast to the unbounded lower bounded case. This provides an analog
of a familiar point estimation version of this argument (e.g., Lehmann and Casella, 1998,
page 327). Moreover, the non-minimaxity argument is more general under condition (C1)
in the context of Theorem 5.3.3 as seen by the following elements of proof :
 Theorem 5.3.3 implies that q̂ U 1 dominates q̂ BI for the restriction µ ∈ [a0 , a0 + m] where
q̂ U 1 is the generalized Bayes predictive density with respect to the at prior on [a0 , ∞)
with equality in risks i µ = a0 ;
 Theorem 5.3.3 implies that q̂ U 2 dominates q̂ BI for the restriction µ ∈ [a0 , a0 + m]
where q̂ U 2 is the generalized Bayes predictive density with respect to the at prior on
[−∞, a0 + m] with equality in risks i µ = a0 + m ;

81
 Paired with the above, Lemma 5.3.4 implies that the predictive density estimator 12 q̂ U 1 +
1 U2
2
q̂ dominates q̂ BI strictly for µ ∈ [a0 , a0 + m] ;
 Consequently, as in the rst paragraph of this Remark, q̂ BI cannot be minimax for
µ ∈ [a0 , a0 + m] when q satises condition (C1).
Exemple 5.3.7. The results of this section also apply to Exponential location models with
X1 , . . . , Xn1 , Y1 , . . . , Yn2 i.i.d. Exp(µ, σ), µ ≥ 0 and known σ , with density σ −1 exp{−(t −
µ)/σ}1(µ,∞) (t). Here the order statistics X(1) and Y(1) form a sucient statistic, and we
can take σ = 1 without loss of generality, so that it suces to consider the setup

X ∼ Exp(µ, n1 −1 ), Y ∼ Exp(µ, n2 −1 ) . (5.3.9)

Evaluating (5.3.1) and (5.3.2), we obtain with a little bit of manipulation

n1 n2  −n2 |x−y|
q̂ BI (y|x) = e 1[x,∞) (y) + e−n1 |x−y| 1(−∞,x) (y) ,
n1 + n2
and

e(n1 +n2 )x − 1 1 − e−(n1 +n2 )y


 
U BI
q̂ (y|x) = q̂ (y|x) 1[x,∞) (y) + 1(0,x) (y) ,
e(n1 +n2 )x − en2 x 1 − e−(n1 )x

Observe that q̂ BI is an asymmetric Laplace distribution (and symmetric Laplace for n1 =


n2 ), while q̂ U is a skewed version of q̂ BI . Theorems 5.3.1 and 5.3.3 apply and tell us that
both q̂ BI and q̂ U are minimax under the restriction µ ≥ 0, with q̂ U dominating q̂ BI .

5.3.3 Case of a scale family

We next consider estimation of the predictive density with a restricted scale parameter.
Let X = (X1 , . . . , Xn1 ) be a positive random variable having a density σ −n1 f (σ −1 x) for
σ −1 x = (σ −1 x1 , . . . , σ −1 xn1 ), and let Y = (Y1 , . . . , Yn2 ) be a random variable having a
density σ −n2 g(σ −1 y) for σ −1 y = (σ −1 y1 , . . . , σ −1 yn2 ), where the scale parameter is lower
bounded belonging to the restricted parameter space

B = {σ | σ ≥ b0 } , for known positive b0 .

82
Let tx = |x1 |, ux = (x1 /|x1 |, x2 /|x1 |, . . . , xn1 /|x1 |) and ty and uy are dened simi-
larly. The joint densities σ −n1 f (σ −1 x)dx and σ −n2 g(σ −1 y)dy are expressed as, respecti-
vely, p(σ −1 tx |ux )px (ux )γ(dtx )γx (dux ) and q(σ −1 ty |uy )qy (uy )γ(dty )γy (duy ), where γ(dσ) =
dσ/σ , and px (ux ) and qy (uy ) are marginal densities of ux and uy .

Note that σ −1 tx = exp{log tx − log σ} and d log tx = dtx /tx . Since the restriction B
is written as log σ > log b0 , all the results given in the previous subsection hold for
the restricted scale problem. The results corresponding to Theorems 5.3.1 and 5.3.3 are
described below.

When the parameter σ is not restricted, it follows from (5.2.3) that the best equivariant es-
x ty |uy , ux )qy (uy ),
timator for predicting the density q(σ −1 ty |uy )qy (uy ) is q̂ BI (y|x) = q̂ BI (t−1
where R∞
p(b−1 tx |ux )q(b−1 ty |uy )b−1 db
q̂ BI
(t−1
x ty |uy , ux )
= R∞ 0
, (5.3.10)
0
p(b−1 tx |ux )b−1 db
which is minimax without the restriction B . Even if σ is restricted on B , the minimaxity
of q̂ BI (y|x) still holds.

Théoreme 5.3.8. The best equivariant estimator q̂ BI


(y|x) is minimax for estimation
of the predictive density under the restricted parameter space B relative to the LKL -loss,
and the minimax risk is given by R0 = R(σ, q̂ BI ).

Although the best equivariant predictive density is minimax, it is not reasonable because
the prior distribution is taken over whole the space of σ . This suggests that q̂ BI is likely
to be inadmissible and to be improved upon by other (minimax) predictive densities. A
reasonable choice is the generalized Bayes predictive density against the invariant prior
over the restricted space B , given by q̂ U (y|x) = q̂ U (ty |tx , uy , ux )qy (uy ), where
R∞
p(b−1 tx |ux )q(b−1 ty |uy )b−1 db
q̂ U (ty |tx , uy , ux ) = b0
R∞
−1 t |u )b−1 db
. (5.3.11)
b0
p(b x x

To establish the minimaxity of the invariant prior Bayes predictive density q̂ U (y|x), we
assume the following condition analogous to (C1) :
(C2) The density q(σ −1 ty |uy ) is a continuously dierentiable function such that the
ratio of the densities q(σ −1 ty |uy )/q(b−1
0 ty |uy ) is nondecreasing in ty for σ > b0 .

83
Théoreme 5.3.9. Assume condition (C2). Then, the Bayes predictive density q̂ (y|x) U

is minimax under the restriction σ ≥ b0 , and the risks of q̂ U and q̂ BI coincide if and only
if σ = b0 .

Lemma 5.3.2 used for proving Theorem 5.3.3 is expressed in the scale case as follows :

Lemme 5.3.10. Assume that q(σ −1


ty |uy ) satises the condition (C2). Then, the follo-
wing properties hold :

(i) ty {∇ty q(ty |uy )}/q(ty |uy ) is nonincreasing in ty , where ∇ty = ∂/∂ty .

(ii) Dene B(ty |tx , ux , uy , σ) by


R1
w−1 p(σ −1 wtx |ux )q(σ −1 wty |uy )dw
B(ty |tx , ux , uy , σ) = 0
R1 . (5.3.12)
w −1 p(wt |u )q(wt |u )dw
0 x x y y

Then for σ > b0 , B(ty |tx , ux , uy , µ) is nondecreasing in ty .

We can show Theorem 5.3.9 directly using Lemma 5.3.10, though we have here applied
Theorem 5.3.3 to the scale case. We conclude this section with an application to Gamma
models.

Exemple 5.3.11. An interesting application consists of Gamma distributions for X and


Y with
X|σ ∼ Gamma(α1 , σ), Y |σ ∼ Gamma(α2 , σ), (5.3.13)

with α1 , α2 known, and the lower bound restriction σ ≥ b0 (> 0). We have assumed without
loss of generality that the samples for X and Y are of size one by suciency of the
sums in such Gamma models. Evaluating (5.3.10) and (5.3.11), we obtain the elegant
representations

Γ(α1 + α2 ) 1 y α2 −1 y
q̂ BI (y|x) = ( ) (1 + )−(α1 +α2 ) 1(0,∞) (y) ,
Γ(α1 ) Γ(α2 ) x x x

and
U BI
F̄α1 +α2 ( x+y
b0
)
q̂ (y|x) = q̂ (y|x) ,
F̄α1 ( bx0 )

84
where F̄γ (·) is the survival function of a Gamma(γ, 1) distribution. Observe that q̂ BI is
the density of a Fisher distribution with scale parameter α2
α1
x, and shape parameters 2α2
(d.f. numerator) and 2α1 (d.f. denominator), while q̂ U is a skewed version of q̂ BI .

The ndings of this section apply. First, q̂ BI is minimax for the unrestricted parameter
space and remains minimax in presence of the lower bound b0 on the scale parameter.
Second, since Gamma densities form a family with an increasing monotone likelihood
ratio, condition (C2) is satised and the Bayes procedure q̂ U
dominates q̂ BI by virtue of
Theorem 5.3.9. Finally, we point out that analogous results hold here for the case where
the scale parameter σ is upper bounded, say σ ∈ (0, c0 ). In such cases, we consider the
transformed problem with X 0 = X and Y 0 = 1
Y
and consider the setup of Theorem 5.3.9
with b0 = 1
c0
, pθ being the density of X 0 and qθ being the density of Y 0 . Since inverse
Gamma distributions have logconcave densities as well, and the Kullback-Leibler loss is
intrinsic, Theorem 5.3.9 indeed applies.

5.4 Estimation in location-scale families

In this section, we treat location-scale families with location and/or scale parameters
constrained, and investigate minimaxity of the best equivariant estimators using Theorem
5.2.2.

5.4.1 Non-bounded case

We begin with the univariate case. Let X = (X1 , . . . , Xn1 ) be a random variable having
a density σ −n1 f ((x − µ)/σ) for (x − µ)/σ = ((x1 − µ)/σ, . . . , (xn1 − µ)/σ), and let
Y = (Y1 , . . . , Yn2 ) be a random variable having a density σ −n2 g((y−µ)/σ) for (y−µ)/σ =
((y1 − µ)/σ, . . . , (yn2 − µ)/σ), where the location and scale parameters are restricted to
the space

C = {(µ, σ)|µ > c0 σ + a0 , σ > b0 }, (5.4.1)

85
where a0 , b0 and c0 are constants such that b0 ≥ 0 and −∞ ≤ a0 , c0 < ∞. The unrestricted
case is described by b0 = c0 = 0 and a0 = −∞. Let tx = (|x2 − x1 |, x1 ), ux = ((x2 −
x1 )/|x2 − x1 |, . . . , (xn1 − x1 )/|x2 − x1 |) and let ty and uy be dened similarly. Let G =
R+ × R and dene the product by (a, b)(σ, µ) = (aσ, aµ + b). This implies that (σ, µ)−1 =
(1/σ, −µ/σ) and (σ, µ)−1 (|x2 − x1 |, x1 ) = (|x2 − x1 |/σ, (x1 − µ)/σ). Then, σ −n1 f ((x −
µ)/σ)dx and σ −n2 g((y − µ)/σ)dy are expressed as p((σ, µ)−1 tx |ux )px (ux )γ(dtx )γx (dux )
and q((σ, µ)−1 ty |uy )qy (uy )γ(dty )γy (duy ), respectively, where γ(d(σ, µ)) = (dµdσ)/σ 2 .

When the parameters are not restricted, it follows from (5.2.3) that the best equivariant
predictive density estimator of q((σ, µ)−1 tx |uy )qy (uy ) is given by q̂ BI (t−1
x ty , uy |ux ) =

x ty |uy , ux )qy (uy ), where


q̂ BI (t−1

p((b, a)−1 tx |ux )q((b, a)−1 ty |uy )ν(d(b, a))


R
q̂ BI (t−1
x ty |uy , ux ) =
R , (5.4.2)
p((b, a)−1 tx |ux )ν(d(b, a)

and where ν(d(b, a)) = (dadb)/b2 . Using Theorem 5.2.2, we analyze the question of
minimaxity of the best equivariant estimator under the restriction C .

[1] Case of a 0 > −∞ and b 0 >0 . This case implies that both µ and σ are restricted
from one side.

Théoreme 5.4.1. Assume that a 0 and b0 satisfy that a0 > −∞ and b0 > 0. Then, the
best equivariant estimator q̂ BI (t−1
x ty , uy |ux ) is minimax in the estimation of the predictive

density under the restricted parameter space C relative to the LKL -loss, and the minimax
risk is given by R0 = R((σ, µ), q̂ BI ).

Proof. For c 0 = 0, we dene the sequence dk = k , while for c0 6= 0 we take dk = log k .


Such a sequence admits the following behaviour when k → ∞,

(a) (k/dk )dkε/2 → ∞ for any ε > 0 when c0 = 0,

(b) dk /k → 0 and dk → ∞ when c0 6= 0.

We proceed by verifying conditions (A6)-(A6-3) in Theorem 5.2.2. In this case, P =


{(σ, µ)|a0 + c0 σ < µ, b0 < σ}, G = R+ × R, we set Pk = {(σ, µ)|a0 + c0 σ < µ <
a0 + c0 σ + k, b0 < σ < b0 dk } and V (Pk ) = k log dk where dk is dened above. Take ξ1 =

86
(2/ log dk ) log(σ/b0 )−1 and ξ2 = (2/k)(µ−a0 −c0 σ)−1. Letting ξ = (ξ1 , ξ2 ) = hk ((σ, µ)),
we see that hk (Pk ) = [−1, 1]2 , γk (dξ) = {(k log dk )/4}dξ and hk (Pk ) f (ξk )γk (dξ)/V (Pk ) =
R

(1/4) [−1,1]2 f (ξ)dξ , which satises condition


R
(A6-2)
. For any ξ ∈ [−1 + ε, 1 − ε]2 , let
(b, a) = hk−1 (ξ). Then, b = b0 dk and a = (k/2)(1 + ξ2 ) + a0 + c0 b0 d(1+ξ so that
(1+ξ1 )/2 1 )/2
k

k (ξ)] (σ, µ); (σ, µ) ∈ Pk } = {(σ/b, (µ − a)/b); (σ, µ) ∈ Pk } and σ/b, (µ − a)/b satisfy
{[h−1 −1

the inequalities

−(1+ξ1 )/2 σ (1−ξ )/2


dk << dk 1 ,
b
−(1+ξ1 )/2
σ d k (1+ξ )/2
c0 − k { (1 + ξ2 ) + c0 b0 dk 1 }
b b0 2
−(1+ξ1 )/2
µ−a σ d k (1+ξ )/2
< < c0 + k { (1 − ξ2 ) − c0 b0 dk 1 }.
b b b0 2

Note that 1 − ξi > ε and 1 + ξi > ε for i = 1, 2. The rst inequality is satised by
< σ/b < dk , which can be expanded to (0, ∞) as k → ∞ if dk → ∞ as k → ∞.
−ε/2 ε/2
dk
Also, the second inequality is satised by

k n σ d(1+ξ1 )/2 ε c0 o µ − a k n σ d(1+ξ1 )/2 ε c0 o


k k
(1+ξ )/2
c0 − − < < (1+ξ1 )/2 c0 + − .
dk 1 b k 2b0 k b dk b k 2b0 k

Here, it is noted that


(1+ξ )/2 (1+ξ1 )/2
σ dk 1 (1−ξ1 )/2 dk dk
<dk < ,
b k k k
k k (1−ξ1 )/2 k ε/2
and (1+ξ1 )/2
= dk > dk .
dk dk dk

Since dk satises the condition (a) or (b), it can be seen that the lower end point of
(µ − a)/b goes to −∞, and the upper point goes to ∞. This veries condition (A6-3),
and the minimaxity of q̂ BI is established.

[2] Case of a 0 = −∞ and b 0 >0 . Although we can show the minimaxity directly by
the same arguments as in the proof of Theorem 5.4.1, we here give a simple proof based
on Theorem 5.3.8. Since µ is not restricted and the problem is invariant under a location
transformation, we can consider location equivariant estimators, which depend on x1 and
y1 through y1 − x1 . Thus, the risk function of the location equivariant estimator does not
depend on µ. Then, the problem can be reduced to the estimation in the scale family

87
with the restriction σ > b0 . Hence from Theorem 5.3.8, it follows that best equivariant
estimator is minimax. This is summarized as follows.

Théoreme 5.4.2. Assume that µ is not restricted, but σ is restricted to σ > b . Then, the 0

best equivariant estimator q̂ BI


(t−1
x ty , uy |ux ) is minimax in the estimation of the predictive
density under the restricted parameter space.

[3] Case of a 0 > −∞ and b 0 = 0 . This case implies that µ is restricted as µ > a0
and σ is not restricted. By considering x0 = x − a0 , we can set a0 = 0 without loss of
generality and the problem becomes invariant (as in the previous case) under a scale
transformation. We are thus led to the following.

Théoreme 5.4.3. Assume that σ is not restricted, but µ is such that µ ≥ a . Then, the 0

x ty , uy |ux ) is minimax in the estimation of the predictive


best equivariant estimator q̂ BI (t−1
density under the restricted parameter space.

5.4.2 Bounded case

Concerning the estimation of the predictive density, we have already seen that the best
location equivariant estimator q̂ BI (Example 5.3.5 and Remark 5.3.6) is generally not
minimax for estimating a location parameter bounded to a compact interval. However,
the result of Kubokawa (2005) suggests minimaxity in the case of an unknown scale, and
the following theorem shows that this suggestion is correct.

Let us consider the following restriction under the same location-scale families as treated
in the previous subsection :

D = {(σ, µ)|a1 < µ < a2 , 0 < σ < b0 },

where a1 and a2 are bounded constants and b0 is a positive constant.

Théoreme 5.4.4. Assume that (µ, σ) is restricted to D. Then, the best equivariant esti-
mator q̂ BI (t−1
x ty , uy |ux ) is minimax for the estimation of the predictive density under the

restricted parameter space.

88
Proof. We shall check conditions (A6)-(A6-3) in Theorem 5.2.2. In this case, P =
{(σ, µ)|a1 < µ < a2 , 0 < σ < b0 }, Pk = {(σ, µ)|a1 < µ < a2 , b0 /k < σ < b0 } for
kb0 > 1, and V (Pk ) = (a2 − a1 ) log k . Take ξ1 = (2/ log k) log(σ/b0 ) + 1 and ξ2 = {2/(a2 −
a1 )}{µ − (a1 + a2 )/2}. Letting ξ = (ξ1 , ξ2 ) = hk ((σ, µ)), we see that hk (Pk ) = [−1, 1]2 ,
γk (dξ) = {(a2 − a1 ) log k)/4}dξ and hk (Pk ) f (ξk )γk (dξ)/V (Pk ) = (1/4) [−1,1]2 f (ξ)dξ ,
R R

which satises condition (A6-2). For any ξ ∈ [−1 + ε, 1 − ε]2 , let (b, a) = h−1
k (ξ). Then,

b = b0 k (ξ1 −1)/2 and a = {(a2 − a1 )/2}ξ2 + (a1 + a2 )/2 so that {[h−1 −1


k (ξ)] (σ, µ); (σ, µ) ∈

Pk } = {(σ/b, (µ − a)/b); (σ, µ) ∈ Pk } and σ/b, (µ − a)/b satisfy the inequalities


σ
k −(1+ξ1 )/2 < < k (1−ξ1 )/2 ,
b
a2 − a1 µ−a a2 − a1
− (1 + ξ2 )k −(ξ1 −1)/2 < < (1 − ξ2 )k −(ξ1 −1)/2 ,
2b0 b 2b0
both of which are satised by k −ε/2 < σ/b < k ε/2 and
a2 − a1 −ε/2 µ − a a2 − a1 −ε/2
− εk < < εk .
2b0 b 2b0
Hence, condition (A6-3) is satised and the minimaxity of q̂ BI
is established.

Note that minimaxity still holds under the restriction D0 = {(σ, µ)|a1 < µ < a2 , 0 < σ}.
However, we could not show minimaxity for the restriction D1 = {(σ, µ)|a1 < µ <
a2 , b0 < σ}, since we cannot take a sequence so that the lower and upper bounds of
(µ − a)/b can be expanded to the whole real line in the proof of Theorem 5.4.4. We
conjecture that the best equivariant estimator is not minimax under the restriction D1 .
From Kubokawa (2005), we also guess that the best equivariant estimator is not minimax
for the restriction {(σ, µ)|a1 < µ/σ < a2 , σ > 0}.

5.4.3 Multidimensional case

As an extension to a multidimensional model, we consider density functions of the forms


p(σ −1 (tx − µ), σ −1 sx |ux )px (ux ) and q(σ −1 (ty − µ), σ −1 sy |uy )qy (uy ) where ux and uy
are location-scale invariant statistics,
t
x,1 − µ1 tx,p − µp  s
x,1 sx,p 
σ −1 (tx − µ) = ,..., and σ −1 sx = ,..., ,
σ1 σp σ1 σp

89
and σ −1 (ty − µ) and σ −1 sy are dened similarly.

[1] Ordered restriction of locations. We rst treat the constraint given by


M1 = {(σ, µ)|Bµ ≤ α, σ1 = · · · = σp = σ},

where B = (b1 , . . . , bq )0 is a q × p known matrix for q ≤ p, α = (α1 , . . . , αq )0 is a known


vector, and the inequality Bµ ≤ α means that b0i µ ≤ αi for i = 1, . . . , q . This restriction
means that the location parameters are restricted to the polyhedral convex cone and
includes the positive orthant restriction µi ≥ 0, i = 1, . . . , p, the simple order restriction
µ1 ≤ µ2 ≤ · · · ≤ µp , and the tree order restriction µ1 ≤ µi , i = 2, . . . , k .

Combining the arguments as in the proof of theorem 2.1 in Tsukuma and Kubokawa
(2008) and the proof of Theorem 5.4.3, we can show the minimaxity of the best equivariant
estimator.

Théoreme 5.4.5. Assume that (σ, µ) is restricted to the polyhedral convex cone M 1

with unrestricted unknown scale σ . Then, the best equivariant estimator is minimax in
the estimation of the predictive density under the restricted parameter space.

[2] Ordered restriction of scales. We next consider the constraint given by


M2 = {(σ, µ)|µ ∈ Rp , Bη ≤ α},

where η = (η1 , . . . , ηp )0 for ηi = log σi , and B and α are the same as dened in M1 . This
restriction means that η is restricted on the polyhedral convex cone and includes the
positive orthant restriction σi ≥ 1, i = 1, . . . , p, the simple order restriction σ1 ≤ σ2 ≤
· · · ≤ σp and the tree order restriction σ1 ≤ σi , i = 2, . . . , k .

Since µ is not restricted and the problem is invariant under location transformations, we
can consider location equivariant estimators, which depend on tx and ty through ty − tx .
Thus, the risk function of the location equivariant estimator does not depend on µ.
Then, the problem can be reduced to estimation in the scale family with the restriction
Bη ≤ α. Hence from the arguments as in the proof of Tsukuma and Kubokawa (2008),
it follows that the best equivariant estimator is minimax.

90
Théoreme 5.4.6. Assume that (σ, µ) is restricted into the polyhedral convex cone M 2

with unrestricted location parameters µ. Then, the best equivariant estimator is minimax
in the estimation of the predictive density under the restricted parameter space.

5.5 Concluding remarks


We have demonstrated that, for many restricted parameter space problems, the best
equivariant predictive density q̂ BI under Kullback-Leibler loss remains minimax, with
constant risk matching the minimax risk. We point out that versions of Theorem 2.1,
3.1, 3.3, and 4.1 also follow from the results of Marchand and Strawderman (2012).

For lower (or upper) bounded location or scale parameter problems, we have introduced
a novel adaptation of Kubokawa's IERD technique to show that the generalized Bayes
procedure q̂ U with respect to the truncation of the right Haar invariant measure onto
the restricted parameter space dominates q̂ BI and is thus minimax. These ndings are
analogous to various point estimation results previously established. It seems plausible,
but more research is required, that similar minimax results and q̂ BI -q̂ U comparisons hold
for other choices of loss, such as for α-divergence losses (e.g., Csiszár, 1967 ; Corcuera and
Guummole, 1999). Finally, further analysis of the eciency of Bayes estimators for other
restricted parameter spaces, such as for univariate compact interval restrictions (see the
end of Example 5.3.5), represent challenging and interesting problems for further research.

91
Acknowledgments
The authors are grateful to the Associate Editor and referees for their valuable com-
ments and helpful suggestions. Tatsuya Kubokawa's research is supported in part by
Grant-in-Aid for Scientic Research Nos. 19200020 and 21540114 from the Japan Society
for the Promotion of Science, Eric Marchand's research is supported in part by the Natu-
ral Sciences and Engineering Research Council of Canada, and William Strawderman's
research is partially supported by a grant from the Simons Foundation (#209035).

92
Bibliographie

[1] Aitchison, J. (1975). Goodness of prediction t. Biometrika, 62, 547-554.


[2] Brown, L.D., George, E.I., and Xu, X. (2008). Admissible predictive density esti-
mation. Annals of Statistics, 36, 1156-1170.
[3] Casella, G. and Strawderman, W.E. (1981). Estimating a bounded mean. Annals
9
of Statistics, , 870-879.

[4] Corcuera, J. M. and Giummole, F. (1999). A generalized Bayes rule for prediction.
Scandinavian Journal of Statistics, 26, 265-279.
[5] Csiszár, I. (1967). Information-type measures of dierence of probability distribu-
2
tions and indirect obsevations. Studia Sci. Math. Hungary, , 299-315.

[6] Farrell, R.H. (1964). Estimators of a location parameter in the absolutely conti-
nuous case. Annals of Mathematical Statistics, 35, 949-998.
[7] Fourdrinier, D., Marchand, É., Righi, A. and Strawderman, W.E. (2011). On impro-
ved predictive density estimation with parametric constraints. Electronic Journal
5
of Statistics, , 172-191.

[8] George, E. I., Liang, F. and Xu, X. (2006). Improved minimax predictive densities
under Kullback-Leibler loss. Annals of Statistics, 34, 78-91.
[9] George, E. I., Liang, F. and Xu, X. (2012). From minimax shrinkage estimation to
minimax shrinkage prediction. Statistical Science, 27, 82-94.
[10] Girshick, M.A. and Savage, L.J. (1951). Bayes and minimax estimates for quadratic
loss functions. In Proc. Second Berkeley Symp. Math. Statist. Probab., , 53-74. 1
University of California Press, Berkeley.

93
[11] Hartigan, J. (2004). Uniform priors on convex sets improve risk. Statistics & Pro-
bability Letters, 67, 285-288.
[12] Hora, R.B., and Buehler, R.J. (1966). Fiducial theory and invariant estimation.
Annals of Mathematical Statistics, 37, 643-656.
[13] Hora, R.B., and Buehler, R.J. (1967). Fiducial theory and invariant prediction.
Annals of Mathematical Statistics, 38, 795-801.
[14] Kato, K. (2009). Improved prediction for a multivariate normal distribution with
unknown mean and variance. Annals of the Institute of Statistical Mathematics,
61, 531-542.
[15] Katz, M. (1961). Admissible and minimax estimates of parameters in truncated
spaces. Annals of Mathematical Statistics, 32, 136-142.
[16] Kiefer, J. (1957). Invariance, minimax sequential estimation, and continuous time
processes. Annals of Mathematical Statistics, 28, 573-601.
[17] Komaki, F. (2001). A shrinkage predictive distribution for multivariate normal
observables. Biometrika, 88, 859-864.
[18] Kubokawa, T. (1994A). A unied approach to improving equivariant estimators.
Annals of Statistics, 22, 290-299.
[19] Kubokawa, T. (1994B). Double shrinkage estimation of ratio of scale parameters.
Annals of the Institute of Statistical Mathematics, 46, 95-119.
[20] Kubokawa, T. (2004). Minimaxity in estimation of restricted parameters. Journal
of the Japanese Statistical Society, 34, 229-253.
[21] Kubokawa, T. (2005A). Estimation of a mean of a normal distribution with a
bounded coecient of variation. Sankhyā, 67, 499-525.
[22] Kubokawa, T. (2005B). Estimation of bounded location and scale parameters. Jour-
nal of the Japanese Statistical Society, 35, 221-249.
[23] Kubokawa, T. and Saleh, A.K.MD.E. (1998). Estimation of location and scale pa-
rameters under order restrictions. Journal of Statistical Research, 28, 41-51.
[24] Lehmann, E.L. and Casella, G. (1998). Theory of Point Estimation. Springer-
Verlag, 2nd edition.

94
[25] Liang, F. and Barron, A. (2004). Exact minimax strategies for predictive density
estimation, data compression, and model selection. IEEE Trans. Inform. Theory,
50, 2708-2726.
[26] Marchand, É., and Payandeh Najafabadi, A.T. (2011). Bayesian improvements of a
MRE estimator of a bounded location parameter. Electronic Journal of Statistics,
5, 1495-1502.
[27] Marchand, É. and Perron, F. (2001). Improving on the MLE of a bounded normal
mean. Annals of Statistics, 29, 1078-1093.
[28] Marchand, É. and Strawderman, W.E. (2004). Estimation in restricted parameter
spaces : A review. Festschrift for Herman Rubin, IMS Lecture Notes-Monograph
Series, 45, 21-44.
[29] Marchand, É., and Strawderman, W. E. (2005A). On improving on the minimum
risk equivariant estimator of a location parameter which is constrained to an interval
or a half-interval. Annals of the Institute of Statistical Mathematics, 57, 129-143.
[30] Marchand, É., and Strawderman, W. E. (2005B). On improving on the minimum
risk equivariant estimator of a scale parameter under a lower bound constraint.
Journal of Statistical Planning and Inference, 134, 90-101.
[31] Marchand, É., and Strawderman, W.E. (2012). A unied minimax result for res-
tricted parameter spaces. Bernoulli, 18, 635-643.
[32] Tsukuma, H. and Kubokawa, T. (2008). Stein phenomenon in estimation of means
restricted to a polyhedral convex cone. Journal of Multivariate Analysis, 99, 141-
164.
[33] van Eeden, C. (2006). Restricted parameter space problems - Admissibility and mi-
nimaxity properties. Lecture Notes in Statistics, 188, Springer.
[34] Wijsman, R.A. (1985). A useful inequality on ratios of integrals, with application to
maximum likelihood estimation. Journal of the American Statistical Association,
80, 472-475.

95
CONCLUSION

Nous avons trouvé, tout au long de ce mémoire, pour la perte Kullback-Leibler, les lois a
priori utilisées et les familles de densités étudiées pour trouver de bons estimateurs pour
la fonction de densité d'une variable aléatoire, notamment selon le critère du minimax,
ou dominant des estimateurs naturels (tels les estimateurs par substitution), qui sont
équivariants, etc. Des liens ont été faits entre l'estimation ponctuelle et l'estimation par
densité prédictive, notamment pour le cas de la loi multinormale et de la loi gamma.
Finalement, nous avons trouvé des conditions sur la famille de lois de la variable aléatoire
Y |θ pour obtenir un estimateur de Bayes minimax lorsque l'espace paramétrique de θ
(paramètre de position ou d'échelle) est restreint. Des avenues possibles de recherche
pourraient considérer des espaces paramétriques de la forme [a, b] où a > −∞ et b < ∞,
des familles de densités qui ne sont pas à rapport de vraisemblance monotone croissantes
ou des espaces paramétriques non convexes. Le cas multivarié a été travaillé au chapitre
3 et dans les résultats généraux, mais il serait intéressant de trouver d'autres exemples
que ceux illustrés dans ce mémoire pour mieux comprendre l'ampleur des résultats. On
pourrait penser aux lois sphériques et elliptiques. D'autres pertes que la perte Kullback-
Leibler pourraient aussi être étudiées.

96
Bibliographie

[1] Aitchison, J. (1975). Goodness of prediction t. Biometrika, 62, 547-554.


[2] Barron, A. et Liang, F. (2004). Exact minimax strategies for predictive density estima-
tion, data compression, and model selection. IEEE Transaction on Information Theory,
50, 2708-2726.
[3] Brandwein, A.C. et Strawderman, W.E. (1990). Stein estimation : the spherically
5
symmetric case. Statistical Science, , 356-369.

[4] Brown, L., George, E. et Xu, X. (2008). Admissible predictive density estimation. The
Annals of Statistics, 36, 1156-1170.
[5] Casella, G. et Lehmann, E.L. (1998). Theory of point estimation. Springer Texts in
Statistics

[6] Casella, G. et Strawderman, W.E. (1981). Estimating a bounded normal mean. The
9
Annals of Statistics, , 870-878.

[7] Fourdrinier, D., Marchand, É., Righi, A. et Strawderman, W.E. (2011). On improved
predictive density estimation with parametric constraints. Electronic Journal of Statis-
5
tics, , 172-191.

[8] George, E., Liang, F. et Xu, X. (2006). Improved minimax predictive densities under
Kullback-Leibler loss. The Annals of Statistics, 34, 78-91.
[9] Hartigan, J.A. (2004). Uniform priors on convex sets improve risk. Statistics & Pro-
bability Letters, 67, 285-288.
97
[10] James, W. et Stein, C. (1961). Estimation with quadratic loss. Proc. Third Berkeley
1
Symp. Math. Statist. Probab., , 361-380.

[11] Komaki, F. (2001). A shrinkage predictive distribution for multivariate normal ob-
servables. Biometrika, 88, 859-864.
[12] Kubokawa, T. (1994A). A unied approach to improving equivariant estimators. The
Annals of Statistics, 22, 290-299.
[13] Kubokawa, T. (1994B). Double shrinkage estimation of ratio of scale parameters.
Annals of the Institute of Statistical Mathematics, 46, 95-119.
[14] Kubokawa, T., Marchand, É., Strawderman, W.E. et Turcotte, J.P. (2012). Mini-
maxity in predictive estimation with parametric constraints. Rapport de recherche #110,
Département de mathématiques, Université de Sherbrooke.

[15] Kullback, S. et Leibler, R.A. (1951). On Information and Suciency. Annals of


Mathematical Statistics, 22, 79-86.
[16] Lindley, D.V. (1962). Discussion of Condence sets for the mean of a multivariate
normal distribution, by C.M. Stein. J. Roy. Statist. Soc. Ser. B, 24, 285-287.
[17] Marchand. É. (2012). Predictive density estimation : An introduction. Notes non
publiées.

[18] Marchand, É. et Strawderman, W.E. (2004). Estimation in a restricted parameter


spaces : A review. Festschrift for Herman Rubin, IMS Lecture Notes-Monograph Series,
45, 21-44.
[19] Robert, C. (1996). Intrinsic losses. Theory and decision, Kluwer Academic Publishers,
40, 191-214.
[20] Robert, C. (2007). The Bayesian choice. Springer Texts in Statistics, 105-163.

[21] Stein, C. (1956). Inadmissibility of the ususal estimator of the mean of a multivariate
1
normal distribution. Proc. Third Berkeley Symp. Math. Statist. Probab., , 197-206.

98
[22] Stein, C. (1981). Estimation of the mean of a multivariate normal distribution. The
9
Annals of Statistics, , 1135-1151.

[23] Strawderman, W.E. (2003). On minimax estimation of a normal mean vector for ge-
neral quadratic loss. Festschrift for Constance van Eeden, IMS Lecture Notes-Monograph
Series, 42, 3-14.

99

Vous aimerez peut-être aussi