Vous êtes sur la page 1sur 6

Master 2 Ingénierie Statistique

Statistique Bayésienne: Exercices

Ex 1. Soient X; Y deux variables aléatoires indépendantes de lois (a; 1) et (b; 1) respectivement,


avec a; b > 0.
1. Ecrire la densité du couple (X; Y ).

2. Calculer la loi du couple (V; W ) := X + Y; X=(X + Y ) .
3. Déterminer les lois marginales de V et W . Commenter.
R1 a
4. En déduire une expression de B (a; b) := 0
x 1
(1 x)b 1 dx.
Ex 2. Soit X = (X1 ; :::; Xn ) un échantillon de va iid de loi de Poisson de paramètre  > 0.
1. Générer les données sous  = 1 et représenter en fonction de n l'évolution de la loi a posteriori en
prenant comme a priori  une loi exponentielle de paramètre 1, une loi uniforme sur [0; 1] ou une
loi géométrique de paramètre 1.
2. Dans chaque cas, préciser la limite en probabilité (pour la convergence étroite) de la loi a posteriori
(:jX ).
3. Dans quels cas les hypothèses du théorème de Bernstein-von Mises sont-elles vériées?
4. Reprendre la question 1 pour  = 1:5. Commenter.

Ex 3. Soient X1 ; :::; Xn iid de loi N (; 1) avec comme a priori sur  2 R la loi N (0; 1).
1. Calculer la loi a posteriori.
2. Vérier le théorème de Bernstein-von Mises dans ce cas.
3. Calculer les estimateurs de Bayes associés aux fonctions de pertes
2
L1 (; ) = ( )2 et L2 = e  ( )2 :

Ex 4. Soit X1 ; :::; Xn iid de loi uniforme sur [0; ]. On choisit un a priori de la forme  () /
  1f > 0g pour  2 R.
1. Déterminer pour quelles valeurs de  l'a priori est valable en précisant si c'est une loi de probabilité
ou une loi impropre.
2. Calculer la loi a posteriori  (:jX ) lorsque celle-ci est bien dénie.
3. Calculer la loi marginale fX en fonction de .

Ex 5. Soit X1 ; :::; Xn iid de loi N (; 1), on veut estimer  2 R avec comme critère
Ple coût quadratique
L(; ) = ( )2 . On considère l'ensemble de règles de décision a (x1 ; :::; xn ) = na ni=1 xi pour a  0.
1. Montrer que 1 est préférable à a pour tout a > 1.
2. Montrer que a est admissible pour a 2 [0; 1].

1
Ex 6. Soient X1 ; :::; Xn iid de loi de Bernoulli de paramètre  2]0; 1[. Calculer la loi a posteriori
(éventuellement à une constante multiplicative près) dans les cas suivants:
Pk Pk
1. L'a priori sur  est une loi discrète  () = j =1 j tj () avec t1 ; :::; tk 2]0; 1[ et j =1 j = 1.
Pk
2. L'a priori est un mélange de lois uniformes de densité  () = j =1 j tj+1 tj 1ftj <  < tj +1 g avec
1

0 < t1 < ::: < tk+1 < 1.


3. L'a priori est une loi beta B (a; b), a; b > 0.

Ex 7. On veut estimer la proportion p de daltoniens dans une population. Sur un échantillon de 30


personnes issues de cette population, 5 sont diagnostiquées. On envisage trois lois a priori sur p:

i) la loi discrète P(p = j=10) = C=j ; j = 1; :::; 9 où C est une constante de normalisation.

ii) le mélange de lois uniformes  (p) / 1=(b10pc + 10)1fp 2]0; 1[g où b:c désigne la partie entière.

iii) la loi continue de densité  (p) / 1=(p + 1)1fp 2]0; 1[g

1. Représenter graphiquement ces trois lois a priori et calculer numériquement leurs moyennes et
variances.
2. Superposer dans chaque cas la loi a posteriori calculée à partir de l'échantillon.
3. Calculer les moyennes et variances a posteriori. Commenter.

Ex 8. SoitRX = (X1 ; :::; Xn ) un échantillon iid de densité f ;  2   R et  (:) une densité a priori
sur  telle que jj ()d < 1.
R
1. Justier que (jX )d est bien déni presque sûrement.
2. Montrer que pour tout  2 ,
Z 
 
E j j X =  2P( < jX ) 1 + E(jX ) 2 (jX )d:
1
3. En déduire que la médiane a posteriori est l'estimateur Bayésien associé à la perte L1 .

Ex 9. Simuler un échantillon iid X = (X1 ; :::; Xn ) de taille n = 1000 de loi exponentielle E (1=2). On
s'intéresse au comportement de la loi a posteriori dans le modèle exponentiel M = fE ();  > 0g lorsque
la loi a priori sur  est une loi gamma (a; b) avec des paramètres a et b à déterminer.
1. On suppose qu'une source d'information (extérieure) nous dit que  est "vraisemblablement proche
de 1=2". Proposer un ensemble de valeurs de (a; b) adapté dans ce cas.
2. On suppose que la abilité de l'information correspond à une variance a priori de  = a=b2 = 1. En
déduire la loi a priori choisie.
3. Superposer la densité a priori et les densités a posteriori construites à partir des k premières valeurs
de l'échantillon pour k = 2; 5; 10; 100; 500; 1000. Commenter.
4. Reprendre la question précédente pour des variances a priori  valant 0:01; 0:1; 10 et 100, en gardant
1=2 comme moyenne a priori. Commenter.
5. Proposer trois estimateurs de  construits à partir de la loi a posteriori. On les notera bk(1) ; bk(2) ; bk(3)
où k représente la taille de l'échantillon.
6. Représenter graphiquement l'évolution de ces trois estimateurs et de l'estimateur du maximum de
vraisemblance en faisant varier la taille de l'échantillon. Interpréter les résultats.
7. Reprendre l'exercice en partant de l'information initiale: " est vraisemblablement proche de 3".

2
Ex 10. Soit N1 ; :::; Nn les nombres de pièces défectueuses dans n lots de 50 pièces. On veut estimer
la probabilité p qu'une nouvelle pièce soit défectueuse.
1. Décrire le modèle statistique.
2. On prend comme loi a priori sur p une loi beta B (a; b). Calculer la loi a posteriori. Commenter.
3. Le service qualité nous apprend que "la proportion de pièces défectueuse dans un lot est probable-
ment proche de 0:15" et "comprise entre 0:1 et 0:2 avec probabilité 95%". En déduire des valeurs
de a; b adaptées.
Ex 11. Soit X1 ; :::; Xn iid de loi uniforme sur [0; ] avec un a priori exponentiel  () = e  1f > 0g,
 > 0. On considère un modèle hiérarchique en dénissant un a priori sur , noté . Calculer l'a priori
sur  correspondant pour  :
1. la loi exponentielle de paramètre 1.
2. la loi (2; 1).
3. la loi géométrique (sur N ) de paramètre 1=2.
Ex 12. Montrer que les familles de lois sont conjuguées dans les modèles suivants:
1. Les lois gamma (a; b), a; b > 0 dans le modèle de Poisson P ();  > 0.
2. Les lois normales N (;  2 ),  2 R;  > 0 dans le modèle Gaussien sur la moyenne N (; 1);  2 R.
3. Les lois inverse-gamma 1
(a; b), a; b > 0 dans le modèle Gaussien sur la variance N (0; );  > 0.
4. Les a priori  2  (a; b) et 
1
 N (c; 2 =d) pour a; b; c 2 R; d > 0 dans le modèle Gaussien
N (;  );  2 R;  > 0.
2 2

Ex 13. Soit le modèle de Bernoulli B(p); p 2 (0; 1).


1. Calculer l'information de Fisher I (p) pour un échantillon iid X1 ; :::; Xn .
2. Montrer que l'a priori de Jeyreys sur p est la loi beta B (0:5; 0:5).
p
3. En déduire l'a priori de Jeyreys sur  := arcsin( p) 2]0; =2[.
Ex 14. Soit le modèle de Poisson P ();  > 0.
1. Déterminer l'a priori de Jeyreys sur  et vérier que c'est une loi impropre.
2. En déduire l'a priori de Jeyreys sur  := e  ,  2]0; 1[.
Ex 15. Déterminer l'a priori non-informatif de Jeyreys dans le modèle Gaussien
1. sur la moyenne avec variance connue N (; 1);  2 R.
2. sur la variance avec moyenne connue N (0;  2 );  2 > 0.
3. sur l'écart-type avec moyenne connue N (0;  2 );  > 0.
4. sur le couple moyenne-variance dans le cas général N (;  2 );  2 R;  2 > 0.
Ex 16. Soit X1 ; :::; Xn iid de loi uniforme sur [0; ] avec  > 0 et Mn := maxfX1 ; :::; Xn g. On se place
dans le modèle uniforme M = fU [0; ];  > 0g avec l'a priori de Laplace  () = 1f > 0g.
1. Ecrire la vraisemblance du modèle en fonction de Mn .
2. Montrer que l'a priori est impropre.
3. Calculer la loi a posteriori associée et la représenter graphiquement.
4. Déterminer la région HPD de niveau 1 2]0; 1[, notée RHP D .

5. Calculer la probabilité fréquentiste P  2 RHP D .

3
Ex 17. Soit X = (X1 ; :::; Xn ) un échantillon iid de loi normale N (; 1). On prend comme a priori sur
 la loi normale N (0; 1= ),  > 0.
  Pn
1. Montrer que la loi a posteriori est la loi normale N X ; 1
=n n+
1+
où X = n1 i=1 Xi .
2. Montrer que les régions HPD de niveau 1 2]0; 1[ sont de la forme
h i
RHP D =
X
1 + =n
pq1n +=2 ; 1 +X=n + pq1n +=2
où q désigne le quantile d'ordre de la loi normale standard.

3. Calculer la probabilité fréquentiste d'appartenance à la région HPD P  2 RHP D en fonction de
et  (exprimer cette probabilité à l'aide de la fonction de répartition  de la loi normale standard).
4. Calculer la limite de cette probabilité quand n tend vers l'inni. Commenter.
5. Calculer la limite à n xé quand  ! 0. Commenter.
6. Quel a priori choisir pour que les régions HPD correspondent à des intervalles de conance fréquen-
tistes classiques?
Ex 18. Simuler un échantillon X1 ; :::; Xn de taille n = 50 iid de loi exponentielle de paramètre  = 2.
On prend comme a priori sur  la loi (1; 1).
1. Calculer et représenter graphiquement tous les intervalles de crédibilité à 95% sur .
2. Rechercher numeriquement l'intervalle le plus court. A quoi correspond-il?
3. Calculer numériquement son niveau fréquentiste.
4. Refaire l'exercice pour  = 10 avec le même a priori. Commenter.
Ex 19. Sur les 48 derniers mois dans le désert d'Atacama, 6 ont connu au moins un jour de pluie.
On modélise la présence de pluie un mois
P
donné par une variable de Bernoulli Xi de paramètre p 2 (0; 1)
indépendante du passé. On note S = 48 i=1 Xi , on observe donc ici S = 6. On xe comme a priori sur p
une loi beta B (2; 10).
1. Calculer la loi a posteriori.
2. On veut prévoir le nombre T de mois pluvieux lors des N prochains mois. Déterminer la loi de T
conditionnellement à (S; p).
3. En déduire la loi prédictive de T , c'est-à-dire la loi de T conditionnellement à S .
4. Donner la prévision Bayésienne Tb de T pour la perte L2 .
5. Comparer avec l'approche fréquentiste classique.
6. Superposer les bornes du plus court intervalle de prévision à 80%; 95% et 99%.
Ex 20. Soient X1 ; :::; Xn des v.a. telles que X1  N (0; 1) et pour i = 2; :::; n, la loi de Xi condition-
nellement au passé Xi 1 ; :::; X1 est la loi normale N (Xi 1 ; 1) avec  2 R inconnu.
1. Ecrire la vraisemblance du modèle.
2. On choisit l'a priori Gaussien standard sur . Calculer la loi a posteriori.
3. Donner la loi d'une nouvelle valeur Xn+1 conditionnellement à (X1 ; :::; Xn ; ).
4. Simuler une trajectoire X1 ; :::; Xn ; Xn+1 pour n = 50 et  = 1.
5. Programmer une fonction qui, étant donné X = (X1 ; :::; Xn ), simule un échantillon iid sous la loi
prédictive de Xn+1 sachant X .
6. A l'aide de cette fonction, représenter graphiquement une approximation de la densité de la loi
prédictive.
7. Superposer au graphique la vraie valeur Xn+1 , le prédicteur Bayésien pour la perte quadratique et
le plus court intervalle de prévision de couverture 95%.

4
Ex 21. Soit X = (X1 ; :::; Xn ) iid de loi de Poisson de paramètre . On considère l'a priori  () /
1=(1 + )2 .
1. Simuler un échantillon X pour  = 3 et n = 100.
2. Ecrire la loi marginale fX (X ) sous la forme d'une espérance sous la loi a priori.
3. Construire une approximation par Monte-Carlo de fX (X ) à partir d'un échantillon iid 1 ; :::; N de
loi  .
4. Donner un intervalle de conance à 95%.
5. Calculer l'information de Fisher I () (pour tout l'échantillon).
6. Calculer l'estimateur bMAP du maximum a posteriori.

7. Reprendre l'exercice en utilisant un échantillon 1 ; :::; N de loi N bMAP ; 1=I (bMAP ) .
P
Ex 22. (p) et S = ni=1 Xi , on observe
Soit X = (X1 ; :::; Xn ) un échantillon iid de loi de Bernoulli Bp
S = 22 dans un échantillon de taille n = 50. On cherche à estimer  := arcsin(p) en prenant comme a
priori sur p la loi beta B (0:5; 0:5).
1. Ecrire  (X ) sous la forme d'une intégrale en p.
2. Construire une approximation [ (X ) de  (X ) par Monte-Carlo à partir d'un échantillon simulé de
taille N = 10000 sous la loi a posteriori.
3. Estimer la variance de l'approximation en se basant sur l'échantillon déjà simulé.
4. En déduire un intervalle de conance asymptotique à 95% pour  (X ).
5. Représenter graphiquement l'approximation [
(X ) et sa région de conance en fonction de N .
6. Reprendre l'exercice en générant cette fois l'échantillon de Monte-Carlo sous la loi a priori (exprimer
(X ) comme une espérance sous cette loi).
7. Commenter.
Ex 23. Soit (X; Y ) un couple de v.a. de densité sur R2 donnée par
f (x; y) = Ce (x+y+2z+xy+yz) 1fx; y > 0g
où C est une constante de normalisation.
1. Calculer la loi de X sachant Y; Z , de Y sachant X; Z et de Z sachant X; Y .
2. Générer une chaîne de Markov de loi invariante de densité f .
3. Représenter plusieurs trajectoires de la chaîne avec des points de départ diérents.
Ex 24. On considère le modèle de régression linéaire simple. On observe
Yi = a + bxi + i ; i = 1; :::; n
où les xi sont déterministes et les i sont iid de loi normale N (0;  2 ).
1. On suppose  2 connu. Calculer la loi a posteriori pour  2 connu et  (a; b) est la densité d'un vecteur
Gaussien standard de R2 .
2. Que vaut l'estimateur du maximum a posteriori?
3. Proposer une interprétation Baysienne d'un estimateur du type
n
X
(^a; ^b) = arg min (Yi a bxi )2 + pen(a; b)
a;b2R
i=1
où pen(:) est une pénalité quelconque.

5
4. On suppose maintenant  2 est inconnu. Donner l'a priori de Jeyreys sur  = (a; b;  2 ) puis la loi
a posteriori associée.
5. Rappeler la forme des estimateurs de Bayes de a; b et  2 pour le coût quadratique. Quel problème
rencontre-t-on ici si on veut les calculer explicitement?
6. Construire une approximation de ces estimateurs par un algorithme de type MCMC.
Ex 25. Régression logistique bayésienne
Ex 26. Soit X = (X1 ; :::; Xn ) iid de loi de Poisson P (). On choisit comme loi a priori sur  la loi
exponentielle de paramètre  > 0 xé.
1. Déterminer la loi a posteriori et l'estimateur de Bayes sous le coût quadratique.
2. Calculer numériquement le plus court intervalle de crédibilité de couverture 95%.
3. On dénit une structure hiérarchique sur le modèle en prenant comme a priori sur  une loi expo-
nentielle de paramètre 1. Ecrire le DAG du modèle.
4. Sous JAGS, le modèle se dénit dans un chier à part (par exemple model.R dans le répertoire
courant) comme suit
model{
lambda~dexp(1)
theta~dexp(lambda)
for(i in 1:n){X[i]~dpois(theta)}}

On génère maintenant une chaîne de Markov de loi invariante la loi a posteriori sur :
library(rjags)
set.seed(2048)
n<-10
X<-rpois(n,5)
J<-jags.model('model.R',data=list('X'=X,'n'=n),n.chains=1)
update(J,1000)
m=coda.samples(J,'theta',10000)

Commenter ces lignes de codes et utiliser les fonctions summary et plot pour visualiser le résultat.
5. Comparer les résultats numériques avec les résultats théoriques sur la loi a posteriori et l'estimateur
de Bayes.
6. En modiant le paramètre n.chains de la fonction jags.model, générer simultanément 10 chaînes
de Markov. Superposer les moyennes cumulées.
7. En utilisant les données déjà simulées, représenter graphiquement une approximation de la densité
a posteriori, puis construire une estimation du plus court intervalle de crédibilité.
8. Comparer avec les résultats théoriques.
Ex 27. Dans un hôpital, on relevé la consommation mensuelle Ai d'un antibiotique et le pourcentage
Ri de bactéries resistantes à l'antibiotique le mois suivant. On note a le taux de bactéries resistantes dans
la population lorsque la consommation est nulle. On sait que la proportion de bactéries résistantes ne
varie pas en-dessous d'un certain seuil s de consommation, et qu'elle croît avec la consommation quand
ce seuil est dépassé. Des études ont montré que, sur 10 autres antibiotiques répertoriés, les taux de
résistances dans la population à consommation nulle sont en moyenne de 0:05 avec un écart-type de 0:01,
et, que le seuil de consommation à partir duquel des resistances se développent est toujours supérieur à
10 et est inférieur à 20 dans 95% des cas.
1. A partir des données bacteries.csv, proposer un modèle statistique pour décrire le taux de resis-
tance à l'antibiotique en fonction de la consommation du mois précédent.
2. Proposer des lois a priori sur les paramètres et représenter les lois a posteriori, à l'aide de JAGS.
3. Conclure.

Vous aimerez peut-être aussi