Vous êtes sur la page 1sur 344

Pratique du calcul bayesien

Springer
Paris
Berlin
Heidelberg
New York
Hong Kong
Londres
Milan
Tokyo

Jean-Jacques Boreux
"
Eric
Parent
Jacques Bernier

Pratique du calcul bayesien

~ Springer

Jean-Jacques Boreux

Universite de Liege (ULg)


Departement des Sciences
et Gestion de l' environnement
185, avenue de Longwy
6700 Arlon
Belgique

Eric Parent

AgroParisTech
16, rue Claude-Bernard
75231 Paris Cedex 05

Jacques Bernier

Le Pech-de-Biaud
24250 Saint-Martial-de-Nabirat

ISBN-13 : 978-2-287-99666-5 Springer Paris Berlin Heidelberg New York


Springer-Verlag France, Paris, 2010

Imprime en France

Springer- Verlag France est membre du groupe Springer Science + Business


Media
Cet ouvrage est soumis au copyright. Tous droits reserves, notamment la reproduction et la representation,
la traduction, la reimpression, I'expose, la reproduction des illustrations et des tableaux, la transmission par
voie d'enregistrement sonore ou visuel, la reproduction par microfilm ou tout autre moyen ainsi que la
conservation des banques de donnees. La loi francaise sur le copyright du 9 septembre 1965 dans la version
en vigueur n' autorise une reproduction integrale ou partielle que dans certains cas, et en principe moyennant
le paiement de droits. Toute representation, reproduction, contrefacon ou conservation dans une banque de
donnees par quelque precede que ce soit est sanctionnee par Ia loi penale sur Ie copyright.
L'utilisation dans cet ouvrage de designations, denominations commerciales, marques de fabrique, etc.
meme sans specification ne signifie pas que ces termes soient libres de la legislation sur les marques de
fabrique et Ia protection des marques et qu' ils puissent etre utilises par chacun.
La maison d' edition decline toute responsabilite quant a I'exactitude des indications de dosage et des modes
d' emploi, Dans chaque cas, il incombe a I' usager de verifier les informations donnees par comparaison ala
litterature existante.

Maquette de couverture : Jean-Francois Montmarche

Collection

Statistique et probabilites appliquees


dlrigee par Yadolah Dodge
Professeur Honoraire
Universite de Neuchatel
Suisse
yadolah.dodge@unine.ch

Comlte editorial :
Christian Genest

Stephan Morgenthaler

Departement de Mathematiques
et de statistique
UniversiteLaval
Quebec GIK 7P4
Canada

Ecole Polytechnique Federale


de Lausanne
Departement des Mathematiques
1015 Lausanne
Suisse

Marc Hallin

Gilbert Saporta

Universite libre de Bruxelles


Campus de la Plaine CP 210
1050 Bruxelles
Belgique

Conservatoire national
des arts et metiers
292, rue Saint-Martin
75141 Paris Cedex 3
France

Ludovic Lebart

Telecom-Paris'Iech
46, rue Barrault
75634 Paris Cedex 13
France

Dans la meme collection :


- Statistique. La theorie et ses applications

Michel Lejeune, avril 2004


- Optimisation appliquee

Yadolah Dodge, octobre 2004


- Le choix bayesien. Principes et pratique

Christian P. Robert, novembre 2005


- Maitriser l' aleatoire. Exercices resolus de probabilites et statistique

Eva Cantoni, Philippe Huber, Elvezio Ronchetti, novembre 2006

- Regression. Theorie et applications


Pierre-Andre Cornillon, Eric Matzner-Lober, janvier 2007
- Le raisonnementbayesien. Modelisation et inference
Eric Parent, Jacques Bernier,juillet 2007
- Premiers pas en simulation
Yadolah Dodge, Giuseppe Melfi, juin 2008
- Genetique statistique
Stephan Morgenthaler, juillet 2008
- Maitriser l'aleatoire. Exercices resolusde probabiliteet statistique, deuxieme edition
Eva Cantoni, Philippe Huber, Elvezio Ronchetti, septembre 2009

Preface
Le troisicme millenaire sera, dit-on, celui de l'information. Aussi la statistique y sera-t-elle appelee a jouer un role important et le paradigme bayesien
plus que tout autre, puisqu'il offre un cadre de raisonnement bien adapte a
I'integration des opinions et des faits de toutes provenances qui interviennent
dans la gestion des risques et la prise de decision en contexte d'incertitude.
De la collecte de donnees a la prevision, l'analyse statistique pose plusieurs
defis. L'elaboration du modele rcprcsentc sans doute la phase la plus delicate
de l'exercice, car elle doit repondre a un double imperatif de realisme et de
parcimonie. Hormis quelques cas de figure, une demarche bayesienne n'est envisageable qu'a charge de disposer d'outils efficaces pour la quantification et la
mise a jour de l'information.
Jouissant d'une expertise considerable dans le dornaine, les auteurs avaient
deja brosse un tableau du Traitement bauesien de l'incertitude en sciences de
l'environnement dans un ouvrage paru en 2000. Six ans plus tard, Christian Robert publiait chez Springer Le choix bayesien - Principes et pratique, expose
des fondements de la theorie qu'Eric Parent et Jacques Bernier completaient
plaisamment en 2007 avec Le raisonnement btnjesien - Modelisatiori et inference, paru dans la meme collection.
Aujourd'hui, pour notre plus grand plaisir, Jean-Jacques Boreux, Eric Parent et Jacques Bernier joignent a nouveau leurs forces pour nous instruire
dans la Pratique du calcul bayesien. A l'aide d'exemples concrets, nombreux et
varies, ils nous initient a la construction de modeles bayesiens et au maniement
de l'imposant arsenal de calcul necessaire a leur mise en oeuvre. Au passage, ils
s'efforcent aussi d'aiguiser notre esprit critique!
De l'halieutique a l'hydrometeorologie, en passant par la mesure des risques
d 'avalanche, de pneumoconiose ou de pollution en milieu clos, les auteurs decortiquent et analysent pour nous divers jeux de donnees issus de la pratique.
Partant de series temporelles, de valeurs extremes ou d'effectifs de capturerecapture, ils nous montrent tantot comment decrire des relations entre plusieurs variables au moyen de graphes acycliques orientes, tant6t comment batir ou affiner des modeles lineaires, generalises ou hierarchiques definis par
conditionnements successifs. A l'occasion, ils font aussi appel au logiciel WinBUGS pour illustrer le calcul de lois a posteriori au moyen de l'algorithme de
Metropolis-Hastings ou de techniques particulaires dernier cri.

Vlll

Pratique du calcul bayesien

Dans un souci didactique evident, les auteurs ont menage une gradation
dans le degre de complexite des problemes etudies, Les premiers chapitres
abordent des cas relativement simples, faciles a resoudre et bien adaptes a
l'apprentissage des rudiments; les enseignants s'en inspireront avec bonheur.
Les applications grandeur nature presentees en seconde partie font quant
a elles un abondant usage de structures hierarchiques, de variables latentes et
autres savantes constructions; le savoir-faire statistique et le genie du calcul
numerique y apparaissent ici dans toute leur splendeur. Pour reprendre l'aimable locution des auteurs, le lecteur est ainsi progressivement amene de la
plume a la souris et il en ressort ebloui et grandi.
Gageons que specialistes et utilisateurs de la statistique s'approprieront
rapidement ce beau livre et qu'ils reconnaitront en lui un guide sur et accessible
des principes modernes du calcul bayesian.
Bonne lecture!
Christian Genest, professeur
Universite Laval, Quebec
President sortant de la Societe statistique du Canada
et de l' Association des statisticiennes et statisticiens du Quebec

Avant-propos
L'anticipation est une composante essentielle des capacites d'adaptation
d 'une societe et la statistique peut etre definie comme l' art de raisonner de
facon quantitative en avenir incertain . Elle intervient dans toutes les disciplines scientifiques OU se melent savoir et donnees. Elle est done utilisee par
les physiciens, les economistes, les ingenieurs, les geographes, les biologistes, les
assureurs, les psychologues, les metcorologues, les gestionnaires d'entreprises,
etc., bref, par tous les praticiens soucieux de batir sur des fondations solides
un pont entre theorie et donnees experimentales.
Comme dans toutes les disciplines scientifiques, il faut d'emblee fixer le
niveau qu'on se propose d'atteindre. II nous semble que quatre niveaux suffisent
a preciser les compctcnces.
- Comme son qualificatif l'indique, le niveau elementaire est une prise de
contact avec la discipline en question. S'agissant de la statistique, l'etudiant saisit le sens general de la modelisation probabiliste, connait les
distributions de base et est autonome dans des situations simples.
- Le niveau suivant vise une qualification operationnelle, Ici I'etudiant est
capable de construire un modele qui repond a un questionnement. II manie
les outils modernes de l'inference statistique, interprete et critique lcs
resultats obtenus.
- Le niveau suivant est la maitrise des concepts mathematiqucs qui justifient les procedures utilisees, A ce niveau, le statisticien fait preuve d'une
tres grande creativite, comprend pourquoi une procedure faillit et sait y
remedier.
- Enfin, le quatrieme niveau est celui de la recherche fondamentale qui,
par definition, introduit des nouvelles idees et./ou generalise des concepts
existants sans avoir neccssaircmcnt de visec operationnelle au moment
des travaux.
Bien sur, il n'existe pas de separation nette entre ces niveaux mais, pour
cet ouvrage, notre ambition est clairement une qualification operaiumnelle en
statistique baueeiemic avec, peut-etre, quelques incursions au niveau maitrise.
Avant de preciser cette ambition, il nous semble utile de remonter aux origines
de ce livre.
Construire un modele statistique paromeirique a des fins decisionncllcs,
c 'est oser avoir tort en maximisant ses chances d'avoir raison! Cette repartie

Pratique du calcul bayesien

vint un jour a l'esprit du premier auteur face a des etudiants en sciences de


l'environnement, inquiets et perplexes. II faut bien le reconnaitre, la plupart
des etudiants redoutent le cours de stat, notamment a cause du langage mathematique qui Ie sous-tend. II est done tentant dadherer a tout courant de
pensec qui relativise sa portee, surtout si on confond la statistique avec les
statistiques qui incluent les algorithmes de calcul et les techniques d'analyses
de donnees. C'est pourquoi il nous semble indispensable de bien distinguer la
phase creairice de la phase calculatoire. La premiere, la modelisaiion: consiste
essentiellement a imaginer un mecanisme probabiliste susceptible de produire
les donnees ou observations d'interet. Bien sur, dans cette phase, le modelisateur ne s'interdit pas d'avoir aussi recours aux techniques eprouvees d'analyses
exploratoires des donnees, afin de mettre en evidence rapidement les traits
saillants de l'echantillon. La seconde, l'inference, a pour objet de preciser les
parametres du modele probabiliste retenu en remontant des effets (les observations) vers les causes (les parametres). C'est l'inference statistique, dont la
mise en oeuvre implique un savoir-faire technique, qui permet l'aide a la decision sous incertitude. En effet, des qu'on dispose de la meilleure connaissance
possible des quantites incertaines - il faut pour cela mobiliser toute l'information disponible, ce qui justifie le choix bayesien adopte dans cet ouvrage - on
peut donner la distribution de probabilite de toute grandeur interessante pour
Ie dccideur.
II faut cependant bien reconnaitre que, hormis les maitrises et doctorats en
statistique, la plupart des cursus scientifiques se contentent d'une formation
assez basique - le niveau elemeniairc n' est pas toujours atteint! - ce qui est
paradoxal si on admet son implication dans toutes les sciences experimentales.
II faut en rechercher la raison dans le passe. Naguere, le statisticien devait
brider sa creativite tout en etant tres bon en math. On peut donc comprendre
la reticence des etudiants et des scientifiques non matheux, forces de retenir
leur imagination et de s'exprimer dans une langue qu'ils ne maitrisaicnt pas.
En particulier, le paradigme bayesien, grand consommateur de calcul integral,
ri'etait accessible qu'a une elite, assez peu en prise avec les problemes rencontres
par les praticiens des sciences experimentales : les premiers avaient les idees,
les seconds les donnees.
Les PC rapides ont modifie la donne puisqu'ils ont permis I'emergence des
techniques de Monte-Carlo, lesquelles, reduisant fortement les difficultes calculatoires, liberent la creativite du modelisateur. Aujourd'hui, un modele statistique parametrique bayesien est efficacement represente par un assemblage
de noeuds relies par des fleches indiquant des relations de cause a effet. Les reseaux bayesiens associent la theorie des graphes, pour la complexite, a la theorie
bayesienne, pour la quantification des incertitudes. Les probabilites conditionnelles sont le ciment de ces assemblages. Une fois le roseau construit, l'inference
bayesienne precise la distribution de probabilite des parametres (c'est-a-dire les
causes) a partir de deux sources d'information : les observations (c'est-a-dire les
effets) et l'expertise. Associes aux techniques de Monte-Carlo, les reseaux bayesiens favorisent le dialogue interdisciplinaire et, par la, des modeles innovants

Avant-propos

Xl

et utiles,
Notre ambition est que ce livre apporte aux etudiants et aux praticiens
synthese et savoir-faire. Pour les fondements plus theoriques, nous renvoyons Ie
lecteur a des ouvrages specialises, notamment celui d'Eric Parent et de Jacques
Bernier, Le raisonnement bayesien - Modelisaiion et inference et a celui de
Christian Robert, Le choix bayesien - Principes et pratique, tous deux publics
dans cette meme collection.
Pratique du calcul bayesien suit un fil conducteur qui pourrait etre resume
par la locution De la plume. . . a la souris. La premiere partie, De la plume,
decrit des cas reels relativement simples pour lesquels l'approche bayesienne
peut etre monee a la main, sans recours a l'ordinateur. La seconde partie, a
la souris, presente des modeles statistiques parametriques plus elabores, impliquant souvent des variables latentes dans une structure hierarchique, Ici,
l'inference bayesienne est difficile, voire impossible, sans recours a l'ordinateur.
Les reseaux bayesiens et les techniques les plus utiles de Monte-Carlo (avec
dependance ou independance) font lc lien entre ces deux parties.
Remerciements
L'idee de cet ouvrage est nee de l'experience acquise au cours de Statistique Pratique de la collecte et du traitement de l'information environnementale : traitement
bayesien de l'incertitude dispense au departement des Sciences et Gestion de 1'Environnement de l'universite de Liege, site d'Arlon (ex-FUL). Sur cette base vinrent
s'appuyer les cas reels d'etudes provenant de stagiaires, dingenieurs ou de candidats
au doctorat de nos institutions. Un merci tout special a Etienne Prevost (INRA) et a
Etienne Rivot (Agrocampus Rennes) qui nous ont permis d'utiliser leurs donnees et
travaux pour la realisation des chapitres huit et douze Iondes sur la vie des saumons.
Dans Ie me me etat d'esprit, le chapitre dix doit beaucoup aux investigations de M.
Philippe Girard, aujourd'hui en poste chez Nestle.
Cependant, sans l'appui de nos institutions respectives, I'universite de Liege et
l'Ecole nationale du genie rural des eaux et des forets (aujourd'hui AgroParisTech),
nous n' aurions pu mener cette tache a bien. Nous tenons a les en remercier.
Enfin, Mme Germaine Gazano no us a permis de nous isoler dans son petit paradis
Corse, a l'abri des derangements de toute sorte, pour le sprint final ayant construit cet
ouvrage dans sa version definitive. Mme Catherine Heyman, secretaire au departement
des Sciences et Gestion de l'Environnement de l'universite de Liege, a bien voulu
assumer la lourde tache de relire ce livre en no us indiquant les fautes que nous ne
voyions plus. M. Jean-Yves Catheland a peint le tableau reproduit en couverture. Nous
pensons que l'Art non figuratif illustre bien l'abstraction des concepts mathematiques
qui, a l'image des traits et des couleurs, conduisent a une certaine comprehension
du monde qui no us entoure. Que toutes ces personnes veuillent bien trouver ici un
ternoignage de notre reconnaissance et de notre amitie.
Arlon, septembre 2009, Jean-Jacques Boreux, Eric Parent et Jacques Bernier

Sommaire
vii

Preface

ix

Avant-propos

xix

Table des illustrations

xxiii

Liste des tableaux

De la plume...

1 La Statistique : son objet, ses outils


1.1 Le travail du statisticien
.
1.2 Deux eccles pour l'inference statistique
.
1.2.1 L'ecole classique
1.2.2 L'ecole bayesienne
.
1.3 L'analyse statistique bayesienne
1.3.1 La regle de Bayes . . . . .
1.3.2 La distribution predictive a posteriori
1.3.3 Application numerique .
.
1.3.4 Retour sur Ie prior
1.4 Le choix bayesien
.
1.4.1 Un precede contestable? .
1.4.2 Avantages
.

3
3

5
7
9
11

12
12

15
16
16

17
18

2 Decision en avenir incertain : l'avalanche de Montroc


2.1 L'avalanche de Montroc .
2.1.1 Les faits
.
2.1.2 Mise en situation
.
2.1.3 Un probleme de decision.
2.1.4 Quel(s) modelels) d'echantillounage ?
2.2 Imaginer un mecanisme generateur des observations
2.2.1

Le processus de Bernoulli

2.2.2

Le processus ponctuel de Poisson

21
21
21
22
22
23
24
24

25

Pratique du calcul bayesien

XIV

2.3

Inference bayesienne
.
2.3.1 Le modele beta-binomial
2.3.2 Le modele gamma-Poisson

27
27
30

3 Introduction a la modelisation graphique


.
3.1 Introduction
3.1.1 Une courte digression
.
3.2 Principe de la modelisation graphique . .
3.2.1 L'independance conditionnelle ..
3.2.2 Du reseau bayesien a la loi conjointe
3.2.3 DAG et variables latentes
3.3 Le modele de capture-recapture
3.3.1 Mise en situation .
3.3.2 La modelisation .
3.3.3 Applications . . .

33
33
34

4 Calcul des lois a posteriori


4.1 Introduction
.
4.2 Quand la vraisemblance fait Ie posterior. . . . . . .
4.2.1 Approximation asymptotique de la densite

49
49
52

a posteriori
.
Fondements de ces approximations . . . . .
Estimation asymptotique des parametres d'une
population gamma . . . . . . . . . . . . . . . . . . . . .
4.2.4 Estimation asymptotique des parametres d'une regression Iineaire . . . . . . .
. . . . . .
.....
4.2.5 On retiendra . . . . . ..
Methodes de Monte-Carlo par
chaines de Markov . . . . . . . . . . . . . . . . . . . . . . .
4.3.1 Mise en contexte
.
4.3.2 Algorithme (general) de Metropolis-Hastings (MH)
4.3.3 Echantillonnage de Gibbs . . . . . . . . . . . .
Methodes de Monte-Carlo. . . . . . . . . . . . . . . . . . .
4.4.1 Simulation par la methode d'acceptation-rejet . . . .
4.4.2 L'echantillonnage et le re-echantillonnage ponderes .
4.4.3 Vers les methodes particulaires . . . . . . . . . . . .

4.2.2
4.2.3

4.3

4.4

Le cardinal sort du rang


5 .1 Introduction...........
5.2 Modelisation hierarchique . . . .
5.2.1 Le probleme du tramway
5.2.2 Le probleme des rangs de naissance ..

36
36
38

40
41
41
41
45

53
57
59

61
65

66
66
66
69

72
73
76
81
85
85
87
87
88

Sommaire

6 Les modeles GEV et POT


.
6.1 Introduction
.
6.2 Le modele GEV
6.2.1 La valeur de projet .
6.2.2 Sensibilite du modele GEV aux hypotheses
6.3 Le modele POT . . . . . . . . . . . . . . .
6.3.1 La distribution de Pareto generalisee .
6.3.2 Le modele POT. . . . . . . . . .
6.4 Du modele POT au modele GEV . . .
6.5 Inference bayesienne sur les parametres
d'un modele GEV
.
6.5.1 La distribution conjointe a posteriori. . . . . . . . .
6.5.2 Algorithme MH sequentiel applique au modele GEV
6.6 Inference bayesienne sur les parametres
d'un modele POT . . . . . . . . . . . . . . . . . . . .
6.6.1 Distribution conjointe a posteriori et inference
6.6.2 Echantillonnage de Gibbs . . . . . . . . . . .
6.7 Trois applications numeriques reelles , . . . . . . .
6.7.1 Le niveau de la mer a Port Pirie (Australie) .
6.7.2 La vitesse du vent a Tunis (Tunisie)
6.7.3 La lame d'eau a Uccle (Belgique)
7 Construire Ie prior
7.1 Introduction........
7.1.1 Prior non informatif
7.1.2 La conjugaison
.
7.1.3 L'analogie
.
7.1.4 La methode par introspections successives
7.1.5 L'incertitude n'est pas l'ignorance et la subjectivite n'est
pas I'absurdite
.
7.2 Definition constructive d'une probabilite
subjective. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3 Caler un prior beta sur deux quantiles elicites du parametrc
d'un modele d'observable binomial
.
7.3.1 L'expert donne la valeur moyenne de 1r et une incertitude
sur celle-ci. . . . . . . . . . . . . . . . . . . . . . . . . .
7.3.2 L'expert donne deux quantiles de 1r
.
7.4 Caler un prior conjugue sur deux quantiles elicites des parametres d'un modele d'observable normal
.
7.4.1 Dialogue avec l'expert
.
7.4.2 Le parametre a elicitor est unidimensionnel
7.4.3 Le parametre a eliciter est bidimensionnel ..

xv

97

98
100
103
104
105
106
108
108
110
110
111
112
113
115
115
116
118
121

127
127
128
130
131
131
132
132
134
134
135
136
136
136
139

XVI

II

Pratique du calcul bayesien

...

a la souris

145

8 Modele de capture-recapture: application au cas des saumons147


8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
8.2 Presentation du probleme . . . . . . . . . . . . . . . . . . . . . 148
8.2.1 Les trois dernieres ctapes du cycle de vie du saumon... 148
8.2.2 Variables observees . . . . . . . . . . . . . . . . . . . . . 150
8.2.3 Expertise a priori sur le comportement du saumon . . . 150
8.2.4 Les variables latentes decrivent le phenomena biologique 153
8.3 Inference bayesienne . . . . . . . . . . . . . .
155
8.3.1 Echantillonnage de Gibbs
. 156
8.3.2 DAG, nceuds parents, nceuds enfants
. 157
8.3.3 Actualisation bayesienne par l'echantillonnage de Gibbs 157
8.4 Resultats numeriques . . . . . .
161
161
.
8.4.1 Annee 1995
163
8.4.2 Cinq annees de donnees
164
.
8.5 Discussion
164
8.5.1 Le role du prior
.
165
8.5.2 Le choix du modele. . .
165
8.5.3 Confusion des effets et importance du prior
9 Le modele lineaire generalise
9.1 Introduction . . . . . . . . . . . . . . .
9.2 Retour sur le modele Iineaire classique. . . . . .
9.3 Le modele Iineaire generalise . . . . . . .
9.3.1 Le GLM repond a ces limitations.
9.3.2 D'un point de vue pratique
9.4 La regression logistique . . . . .
9.4.1 La transformation logit . . .
9.4.2 La regression logistique ..
9.4.3 Les prothesistes dentaires seraient-ils particulierement exposes aux pneumoconioses? . . . . . . . . . . . . . . . .
9.4.4 Evaluation de l'action conjointe de deux produits . . . .
9.4.5 Regression logistique avec Ie modele de Finney (1971) .

169

10 Assemblage de modules fonctionnels normaux


10.1 Introduction . . . . . . . . . . . . . . . . . . .
10.2 Construire un modele comme on joue au Lego
10.2.1 Les moyens a mettre en ceuvre . . . . .
10.2.2 Les modeles, leur definition, leurs liens ..
10.3 Regression lineaire (M 1). . . . . . .
10.3.1 Formulation du modele M1 ..
10.3.2 Les conditionnelles completes
10.3.3 Complements sur Ie prior . . .
10.4 Un AR1 pour representor la dependance temporelle (M2)

185

169
170
172
173
175
176
176
177
178
181
182

186
188
189
189
191
192
192
193
193

Sommaire
10.4.1 Formulation du modele M2 . . . . . .
10.4.2 Les conditionnelles completes . . . . . . . . . . . . .
10.5 Modele lineaire a residus autocorreles (M3)
10.5.1 Formulation du modele M3 . . . . . .
10.5.2 Prior des parametres du modele M3 . . . . .
10.5.3 Conditionnelles completes du modele M3
10.5.4 Specification des priors du modele M3 . . . . . . . . ..
10.5.5 Applications
10.6 Modele avec erreur sur variables explicatives (M4)
10.6.1 Formulation du modele M4 . . . . . . . . . . . . .
10.6.2 Specification du parametre . . . . . . . .
10.6.3 Influence de l'erreur sur la temperature . . .
10.7 Une brique de LEGO supplementaire d'expression multinomiale
10.7.1 Formulation du modele M5 . . . . . . . . . . . . . .
10.7.2 Conditionnelles completes du modele probit (M5) . .
10.7.3 Application du modele multinomial probit (M5)

XVll

194
194
195
195
196
196
197
198
200
200
202
202
202
203
206
207

211
11 Evaluation de la pollution indoor
11.1 Introduction . . . . . . . . . . .
212
11.2 Experimentation et approche classique
212
11.2.1 Modelisation du taux d'emission . . . . . . . . . .
213
11.2.2 Modelisation du changement de masse du polluant
213
11.2.3 Breve etude critique du travail public
214
215
11.2.4 Discussion. . . . . . . . . . . . . . . . . . . . . .
216
11.3 Bruiter Ie modele deterministe . . . . . . . . . . . . . .
11.3.1 Une strategic de modelisation des incertitudes. .
216
11.3.2 Application de la regle de Bayes
. . . . . . .. 217
11.3.3 Hesultats . . . . . . . . . . . . . . . ..
.....
218
12 Les avantages de la modelisation hierarchique
12.1 Donnees. . . . . . . . . . . . . . . . . . . . . . . . . . .
12.2 Modele de capture-marquage-recapture . . . . . . . . .
12.2.1 Modele Bernoulli d'alea pour la premiere phase
12.2.2 Modele Bernoulli d'alea pour la seconde phase
12.3 Modele bayesien hierarchique echangeable . . . . . . . .
12.4 Modele bayesien annuel . . . . . . . . . . . . . . . . . .
12.5 Choix des distributions a priori et analyse de sensibilite . .
12.5.1 Priors du modele avec independance annuelle
12.5.2 Priors a deux etagcs du modele hierarchique .
12.6 Resultats . . . . . . . . . . . . . . . . . . . . . . . .

221
222
222
223
224
225
228
229
229
230
231

13 Modeles de changements caches


13.1 Introduction
.
13.1.1 Trois exemples hydrometeorologiques ..
13.2 La modelisation des changements
.

237
238
239
240

xviii

13.3

13.4
13.5
13.6

13.7

13.8

Pratique du calcul bayesien


13.2.1 Modele M 1 : 1 seule rupture. . . . . . .
13.2.2 Modele M k : k ruptures . . . . . . . . . . . . . .
13.2.3 Modele M a (autoregressif, k ruptures)
Representation des distributions a priori
13.3.1 Prior pour les dates
13.3.2 Prior pour les autres parametres
Etude du modele M k
Methode d'inference . . . . . . . . .
Choix de k :
ou selection bayesienne de modeles . . . . . . . . . . . . . .
13.6.1 Le facteur de Bayes
13.6.2 Facteur de Bayes et rapport de vraisemblance .
13.6.3 Choix de modele . . . . . . . . . . . . . . . . .
13.6.4 Note sur Ie choix de modele . . . . . . . . . . . .
13.6.5 Avantages et inconvenients des facteurs de Bayes
Applications . . . . . . . . . . . . . . . . . . . . . . . .
13.7.1 Application aux modules annuels du Senegal . . .
13.7.2 Application aux apports energetiqucs annuels du SaintLaurent (1943-2000) . . . . . . . . . . . . . . . . .
13.7.3 Application du modele M a au Saint-Laurent . . . .
13.7.4 Debits maximaux annuels de la Dordogne a Cenac
Discussion

14 Conclusion

240
241
243
243
244
246
247
249
250
250
250
251
251
252
253
253
254
256
258
260

263

Annexes

265

A Annexe du chapitre 1

267

B Annexe du chapitre 2

273

C Annexe du chapitre 6

279

D Annexe du chapitre 9

287

E Annexe du chapitre 10

293

F Annexe du chapitre 11

305

G Annexe du chapitre 12

307

H Annexe du chapitre 13

313

Bibliographie

325

Index

331

Table des illustrations


1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8

Taille d'un gar<;on age de 10 ans. . . . . .


Le parametre est inconnu et incertain. . .
La probabilite vue comme un pari. . . . .
Principe de l' analyse statistique bayesienne..
Le modele normal. . . . . . . . . . . . . .
DAG du modele normal.
.
Concentration du radon en Minnesota. . . . . .
Le paradigme bayesien.

5
7
10
11
13
14
15
17

2.1
2.2
2.3

Modele beta-binomial. .
Distribution de Polya. . .
. . . . . .
Avalanche de Montroc : regle de decision.

28
30
31

3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10

Le DAG Ie plus simple. . . . . . . . . . . . . . .


Un reseau bayesien plus sophistique..
La troisicme loi de Kepler.
. . . . .
DAG : un heritage. ..
DAG : une naissance. . . . . .
DAG : une chaine. . . . . .
DAG : distribution jointe. . .
DAG : marginalisation ..
DAG : modularite . . . . . .
Le modele de capture-recapture.

34

4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9

56
Approximation asymptotique du posterior.
Operation Sources: DAG.
60
Operation Sources : estimation asymptotique.
62
Le modele lineaire simple. . . . . . . . . . . . . .
63
64
Le modele Iineaire. . . . . . . . . . . . . . . . ..
Approximation asymptotique des parametres du modele lineaire. 65
68
Algorithme de Metropolis-Hastings.
Echantillonnage de Gibbs.
. . . . . .
71
73
Utilisation d'une grille.

35
35
37
37
38
38
39
40
45

xx

Pratique du calcul bayesien


4.10
4.11
4.12
4.13
4.14
4.15

Methode d'acceptation-rejet. .
.
Echantillonnage ponder e. . . . . . . . . . .
Distribution cumulative empirique de T . .
Resultat de l'importance sampling. . . . .
Resultat de l'importance sampling-resampling.
Efficacite de l'importance sampling.
. ....

5.1
5.2
5.3
5.4
5.5

Le probleme des rangs de naissance . . . . . . . . . .


Algorithme MH pour les rangs de naissance.
Le probleme des rangs de naissance :marche aleatoirc.
Le probleme des rangs de naissance sous WinBUGS. .
Le probleme des rangs de naissance. Code WinBUGS.

6.1
6.2
6.3
6.4
6.5
6.6
6.7
6.8
6.9
6.10
6.11
6.12
6.13
6.14

Graphe des niveaux de retour. .


.
.
Lame d'eau journaliere a Uccle. .
Port Pirie: maxima annuels et niveaux de retour.
Port Pirie : profils des marches aleatoires, . . . .
Port Pirie : marginales a posteriori. . . . . . .
Tunis: maxima annuels et niveaux de retour
.
Tunis : marches aleatoires.
.
Tunis : marginales a posteriori. . . . . . . . . .
Uccle : maxima annuels et niveaux de retour..
Uccle : profils des marches aleatoires,
Uccle : marginales a posteriori du modele GEV.
Uccle : choix du seuil u == 23 mm. .
.
Uccle : echantillonage de Gibbs. .
.
Uccle : marginales a posteriori d'un modele POT.

7.1
7.2

Determination du parametrc de forme d'un prior gamma. . . .


representation 3D du prior de l'expert. . . . .

76
79
80

82
83
83
.
.
. . . . .
.
.

Le destin d'un saumon qui remonte le Scorff.


.
Loi a priori pour la taille du stock.
8.3 Prior des parametres descriptifs de comportement..
8.4 La vie d'un saumon et le diagramme d'influence. .
8.5 La vie d'un saumon sous la forme d'un DAG ...
8.6 Echantillonneur de Gibbs pour le parametre Jr.
8.7 La taille du stock (1995). . . . . . . . . . . . . .
8.8 Les parametres de comportement (1995). . . . .
8.9 Les parametres de comportement (sachant 1995-1999).
.
8.10 Taille du stock annuel sur 1995-1999
8.1

8.2

9.1
9.2
9.3
9.4

Population, modele, echantillon, regression lineaire.


La transformation logit. . . . . . . . . . . . . . . . . .
Code WinBUGS pour le probleme du prothesiste dentaire.
Relations dose-effet paralleles, . . . . . . . . . . . . . . . .

89
91
93
94
95
104
106
116
117
118
119
120
120
121
122
123
124
124
125
139
142
149
153
154
156
157
159
163
164
166
167
171
177
180

182

Table des illustrations

XXI

9.5
9.6
9.7

chenille du tabac.
IC95 a posteriori pour les parametres du modele de Finney.
Probabilite de mort. . . . . . . . . . . . . .

183
184
184

10.1
10.2
10.3
10.4
10.5
10.6
10.7
10.8
10.9

. . . . .
Schema de fabrication du LCS. . .
150 fournees de fabrication. . ..
La loi a priori pour le lait concentre . .
Lois marginales a posteriori pour la fabrication du LCS
Posterior du modele lineaire a residus autocorreles.
Variables explicatives et variable categorielle a expliquer.
Mecanisme aleatoire de reponse categorielle ordonnee.
Posterior avec et sans autoregression des residus
Verification du caractere de bruit blanc. . . .

187
188
198
199
203
204
205
208
209

11.1
11.2
11.3
11.4
11.5

Schema du dispositif experimental. . . . . .


Concentrations et residus des estimateurs ponctuels.
Distribution marginale a posteriori.
Correlation interparametres. .. . .
Profil temporel des taux d'emission.

213
215
218
219
220

12.1
12.2
12.3
12.4
12.5

Schema du piege de remontce des saumons adultes.


Modele hierarchique
.
Modele annuel avec indepcndance. . . . . . . .
Efficacite de capture et tailles de population.
Predictives du modele hierarchique bayesien

224
226
228
233
234

13.1
13.2
13.3
13.4
13.5
13.6
13.7
13.8
13.9
13.10
13.11
13.12
13.13
13.14
13.15

Simulation de ruptures. . . . . . . . . . . . . .
Debit maximal annuel de la Dordogne a Cenac.
Debits moyens annuels du Senegal a Bakel.
Apports energetiques du Saint-Laurent. .
.
Ruptures et changements de regime
.
Explicitation des conventions cl'ecriture. . .
Senegal: chronologie a posteriori des sauts. . .
Senegal: distribution a posteriori de la date de changement. .
Distributions a posteriori des deux dates.
.
Chronologie des apports moyens..
Distribution a posteriori de T. . . . . . .
. . . . . .
Ddistribution a posteriori de <.p. . . .

Dordogne a Cenac : distribution cumulee des ponderations,
Dordogne a Cenac : distribution de la date du changement.
Dordogne a Cenac : visualisation de /11,/12,/13 dans Ie cas M 2 .

238
239
240
241
242
248
254
255
256
257
258
259
260
261
262

C.1

C.2

DAG du modele GEV sous WinBUGS.


Code du modele GEV sous WinBUGS.

284
285

G.1

Transfert d'informations interannuelles.

309

Liste des tableaux


1.1

Concentrations en radon (Bq/rnd). . ...

13

2.1

Montroc: pertes associees aux decisions..

23

3.1
3.2
3.3
3.4
3.5
3.6
3.7

La troisicme loi de Kepler. . . . . . . . . .


Une truite est capturee (c) ou manquce (m) ..
Probabilites des etats, . . . . . . . . . . . . .
Tuberculose pediatrique en Basse-Normandie.
Estimation bayesienne de N. . . . . . . . . . .
Paludisme dans les arrnees francaises (1994).
Paludisme: estimation du nombre de cas.

36
44
44
46
46
47
47

4.1
4.2
4.3
4.4
4.5
4.6

Small data sets, probleme 115. .


Taille (cm) de 15 garcons ages de
Algorithme MH : IC90 . . . . . .
Echantillonnage de Gibbs: IC90.
Algorithme AR. . . . . . . . . . .
Echantillonnage par importance :

64
67
69
71
76
81

5.1
5.2
5.3
5.4

Exoplanetes dans 209 systemes planet.aires.


Rang de naissance de 1800 etudiants. . . .
Rang de naissance : IC90. . . . . . . . .
Rang de naissance : IC90 (WinBUGS) ...

6.1

Port Pirie: estimations ponctuelles des parametres du modele


GEV.
Port Pirie .reglages des lois instrumentales.
Port Pirie: IC90 des parametres du modele GEV.
Tunis: estimations ponctuelles des parametres du modele GEV.
Tunis: reglages des lois instrumentales.
Tunis: IC90 des parametres du modele GEV. . . . . . . . . ..
Uccle: estimations ponctuelles des parametres du modele GEV.
Uccle: reglages des lois instrumentales. . . . .
Uccle: IC90 des parametres du modele GEV. . . . . . . . . ..

6.2
6.3
6.4
6.5
6.6
6.7
6.8
6.9

.
10 ans.
. .....
. . . . . .
intervalle de credibilite,

86
88
92
94

116
117
117
119
119
121
122
122
123

xxiv

Pratique du calcul bayesien

6.10 Uccle : IC90 des parametres du modele POT.

125

8.1 Donnees du Scorff. . . . . . . . . . . . . . . .


150
8.2 L'expertise a priori H est encodee via des distributions beta. . 152
8.3 Nceuds figurant dans les conditionnelles completes. . . . . .
158
8.4 Intervalles de credibilite pour les parametres (1995). . . . . .. 162
8.5 Matrice de correlation a posteriori entre parametres (1995). .. 162
8.6 Intervalles de credibilite pour les parametres (prise en compte
des cinq annecs de donnees).
165
9.1

Enquete aupres des prothesistes dentaires au Grand-Duche de


Luxembourg. . . . . . . . . . . . . . . . . . . . . . . . . . . ..
9.2 Exposition globale aux poussieres toxiques et etat du patient..
9.3 Pneumoconiose du prothesiste dentaire.
10.1
10.2
10.3
10.4
10.5
10.6

179
179
181

Viscosite du LCS : definition des trois variables exogenes retenues.186


Statistiques descriptives de la viscosite, .
187
Specifications. . . . . . . . . . . . . . . . . . . . .
188
Modele M1 : recapitulatif.
193
Modele M2 : recapitulatif.
. . . . .
195
Modele M3 : recapitulatif,
196

11.1 Emissions de formaldehyde.


11.2 Taux d'emission : TC90. ..

214
218

12.1 Donnees de capture-marquage-recapture pour l'Oir. . .

223

13.1 Choix de modele. . . . . . . . . . . . . . .


13.2 Modeles de rupture et choix de modele.

252
253

C.1 Niveau de la mer

a Port

modele GEV. . . . . .
E.1 Modele M1 : resume.
E.2 Modele M2 : resume. .
E.3 Modele M3 : resume. .

Pirie: IC90 pour les parametres d'un


. . . . . . . . . .

285
296
298
301

Premiere partie

De la plume...

Chapitre 1

La Statistique :
son objet, ses outils
Prologue
L'homme est curieux et c'est sans doute ce qui explique le mieux son cheminement depuis Ie debut de l'humanite jusqu'a nos jours. Ce besoin de comprendre les phenomenes observes et le desir de les anticiper est au CCBur de ses
preoccupations. C'est ce qui explique l'emergence et le succes de la statistique,
une discipline scientifique en plein essor. Pour definir son objet, on ne saurait
mieux faire que Christian Robert (Robert, 2006) : L 'objet principal de la
statistique est de mener, grace a l' observation d 'un phenomcne aleaioire, une
inference sur la distribution probabiliste a l' origine de ce phenomene, c'est-adire de fournir une analyse (ou une description) d 'un phenomene passe, au une
prediction d 'un phenomene a venir de nature similaire ,
Ce premier chapitre introduit les notions fondamentales de la modelisation statistique parametrique sous le paradigme bayesien.

1.1

Le travail du statisticien

On peut resumer le travail du statisticien en quelques mots : imaginer un


mecanisme probabiliste susceptible d'avoir produit les donnees dont il dispose.
L'exemple le plus connu est certainement le modele lineaire a un seul facteur
explicatif.
Exemple 1.1 S'il est evident que la taille d'un enfant, disons y, augmente
avec son age, disons t, la nature du lien entre ces deux variables n'est pas
triviale, car des facteurs exogenes peuvent intervenir (sexe, race, milieu, etc.).
Cependant, on peut essayer de transformer I'age en une nouvelle variable reelle,
x == f(t). On verra dans l'exemple 1.3 un cas d'une telle transformation OU on

Pratique du calcul bayesien

peut raisonnablement postuler une relation lineaire entre celle-ci et la taille (la
moyenne des y pour un age donne).

Un echantillon de n sujets fournit n couples (Xi, Yi) et le modele Iineaire


s'ecrit :
(1.1)
Dans ce modele, chaque valeur Xi est supposee fixee : on travaille conditionnellement a leur connaissance et X est souvent appelee covariable. Ainsi,
dans Ci on trouve tous les facteurs explicatifs autres que l'age qu'on ne sait pas
(probleme d'identification) ou qu'on ne veut pas (problems de cout) prendre
en consideration. Par nature, l'alea naturel e, est inobservable.
Le modele le plus simple postule que tous les aleas e, sont independants
et identiquement distribues (hypothese iid) selon une loi normale (voir annexe
A), de moyenne nulle et de precision! invariante T. Ainsi, les parametres de ce
modele constituent un vecteur tridimensionnel : () == (Q, {3, T).
Revenons au travail du statisticien qui, on l'a dit, consiste essentiellement
a imaginer un mecanisme probabiliste susceptible de produire les observations
disponibles. En general, il ne le fait pas gratuitement, mais bien pour faire des
previsions a des fins decisionnclles.

Exemple 1.2 Un fabriquant de prot-a-porter regle ses machines de telle sorte


que les retouches sur les vetements soient minimes. En general, pour les enfants,
l'etiquette traduit directement la taille en annees et l'on parle d'un enfant d'une
taille tans.

Conditionnellement au parametre 0 == (a, {3, T) et a la transformation donnee de I'age, la taille Y d'un sujet d'age t* - t x* est incertaine, mais cette
incertitude est quantifiee par une distribution de probabilite, en l'occurrence
une loi normale de precision T, localisee sur J1 * == a + {3x* OU x* est fixee :
YIO, j, t*

rv

dnorm (J1*, T)

(1.2)

Remarque 1.1 Dans cet ouvrage, nous privilegierons les notations du logiciel
libre WinBUGS (Spiegelhalter et al., 1996b) qui sont generalement identiques
a celles du logiciellibre R (R Development Core Team, 2009) interfacable avec
WinBUGS. Par exemple, la fonction de densite de probabilite d'une loi normale,
traditionnellement notee N, est notee dnorm sous R. En general, Ie nom de la
distribution apparait dans sa notation R, ce qui enleve toute ambiguite. Dans
le cas contraire, nous donnerons les indications ncccssaires.
Exemple 1.3 On dispose de la taille et de l'age de 292 garcons frcquentant
les eccles primaires de la province de Luxembourg (source: Observatoire de
la sante de la province du Luxembourg (Belgique)). La transformation simple/
1
2

C'est l'inverse de la variance: T == o :".


D'autres choix, plus sophistiques, sont possibles.

1. La Stat isti que : son objet, ses out ils

x = t f (1 + t) rend Ie modele lineaire credible, du moins dans la tran che 6-14


ans (fig. 1.1) qui nous interesse ici.

Anticipons quelque peu et considerons que Ie stat isticien bayesien a realise


une inference sur () = (a , (3, T) a l'issue de laquelle il peut calculer la distribut ion
predictive a post erio ri de la taille d'un garcon d'un age donne, par exemple
10 ans (fig. 1.1). En particulier, si le fabri cant doit prendre un pari , il y a neuf
chances sur dix que la taille d'un gamin de 10 ans soit dans l'intervalle 131 151 cm. II est possible que le fabriquant de pret-a-porter ne se sat isfasse pas
d 'un tel result at mais celui-ci est la consequence logique du modele (eq. 1.2)
et d'un e demarche coherente qui a integre toute l'information disponible, dans
notr e cas l'age et la taille de 292 garcons a l'ecole primaire.
Ga r~ons

(n = 292)

0.07

1 70 ,-----~------,

160

, ----

,---~-~-~----,

0.06

0.05
150 .

0'
-;; 0.04

..'""

'

~
'iii

0.03

!::.
0.02

O
O: j
0.9
iige I (1+iige)

0.95

120

~
130

140

150

160

Taille (em)

Figur e 1.1 - Echantillon et dist ribution predict ive a post eriori de la taille d 'un garcon
age de 10 ans .

On aurait pu reduire l'incerti tude sur la taille d 'un gamin de 10 ans en


mobilisant une seconde source d'information. En effet , un expert du pret-apor ter sait des choses sur la stature des sujets qu'il habille et ce savoir est tout
aussi uti le que les donnees pour preciser () et , par ricochet , reduire l'incerti tude
sur la taille conditionnellement a l'age. Contrairement a l'ecole bayesienne,
l'ecole classique refuse de considerer cette seconde source d'information , car
cette connaissance est teintee de subjectivite ,

1.2

Deux ecoles pour Pinference statistique

Note 1.1 Dans la plupart des ouvrages de statist ique, les variables aleatoires
sont representees par les dernieres lettres de l'alphabet latin ecrites en maju s-

Pratique du calcul bayesien

cule. Les minuscules correspondantes identifient des valeurs particulieres. Par


exemple, on notera y une observation de la variable aleatoire Y comme dans
Pr (Y < yIO). Comme le montre le conditionnement sur le parametre 0, les minuscules grecques designent les parametres. D'un point de vue bayesien, les
jugements sur les valeurs possibles des parametres sont des variables aleatoires
et la convention majuscule/minuscule est peu pratique sur ces lettres grecques.
La plupart du temps, nous ne suivrons pas cette convention et nous ecrirons variables aleatoires et parametres en minuscule. C'est donc le contexte qui fixera
l'interpretation de y (respectivement 0) en tant que variable aleatoire ou valeur
particuliere prise par celle-ci. Par convention, on utilisera la notation crochets
([]) pour designer la distribution de probabilite d'une variable aleatoire, qu'elle
soit continue (fonction de densite) ou discrete (probabilite). Ainsi la distribution de la variable aleatoire Y conditionnellement a ses parametres 0 sera notee

[yIO].

On dispose d'un modele statistique parametrique des qu'on pose qu'une observable Y est distribuee selon un modele ti'echomiillonnaqe [yIO] OU seulement
le parameire 0 est inconnu, mais appartient a un espace 8, de dimension finie,
que la Iitterature scientifique appelle souvent ensemble des etats de la nature.
Toute conclusion sur une population statistique y implique d'une facon ou d'une
autre le parametre du modele d'echantillonnage choisi pour la representor.
Exemple 1.4 Si y est la concentration d'une substance indesirable dans un
milieu donne. On dit qu'une norme Yo est respectee si la probabilite de depassement est infcrieurc a une tolerance fixec. Un modele statistique pararnetrique
tres souple est la loi gamma (voir annexe B) dont la densite [yla,;3] implique un
parametre de forme, a > 0, et un parametre d'echelle, ;3 > o. La probabilite de
depasser la norme Yo est conditionnelle aux valeurs prises par ces parametres :

Pr (y
ou

> yolo:, fJ)

r ;3et
(0:)

00

Yo

ycx-l exp (-fJy) dy

(1.3)

(a) est la fonction eulerienne gamma (voir annexe B).

Remarque 1.2 On ecrira Y rv Ga (a,;3) ou Y rv dgamma (a,;3) (notation


WinBUGS ou R) pour signifier qu'une variable aleatoire reelle, Y, a une distribution gamma de parametre 0 == (a,;3).

Certes, on ne peut pas calculer cette probabilite tant que le parametre

() == (G, (3) reste inconnu. Bien sur on peut, a l'aide d'une methode appropriee,

estimer une partie du plan IR 2 dans laquelle la vraie valeur de 0 a toutes les
chances de se trouver. Evidemment, plus on restreint ce domaine, plus lc risque
d'exclure la vraie valeur de 0 est grand (fig. 1.2). A contrario, plus on l'agrandit,
plus on a d'incertitude, car on a une valeur de la probabilite de depassement

1. La St atistique : son obj et , ses ou til s

pour chaque valeur de e. Certaines seront sous le seuil de tolerance admis, les
autres seront au-dess us. Finalement, comment decider ?

(0 ,0)

Figure 1.2 - Le par am et re d'un modele statistique bayesien est inconnu et incertain.
Pend ant un e bonne partie du XX e siecle, deux eccles de pe nsee se sont
opposees.

1.2 .1

L'ecole classique

Considerons un mod ele statist ique pa rametrique [yle].


L'ecole classique attribue a une vraie valeur , certes inconnue, mais conceptuellement unique, c'est-a-dire inconnu e, mais certaine. Pour l'estimer , l' an alyst e construit un e statistique3 don t les param etres depend ent de
Pour bien voir la difference avec l'ecole bayesienne , nous pr endrons l'exemple
de l'estimateur m oyenne arithmetique , Y = ~ L~ Yi , qui est certainement le
plu s utilise.
Soit un echa nt illon const it ue de n vari ables aleatoires ituiependonies et identi quement disiribu ees (hypo these iid). Leur distribut ion n 'est pas necessair ement connue, mais elle a une moyenne, u, et une var iance finie, a 2 > O. Pourvu
que cet echant illon soit asse z grand" , l'estimat eur Y a un e distribu tion normale, de moyenn e fl et de vari an ce a2 In. II s'ag it de la probabilite approchee
de Y sachant l' inconnue = (fl , a) . En fixant un risqu e 0:, souvent 5 % dan s
la pr at ique, il est alors aise de calculer des valeurs critiques :

e.

Pr fl -

OU

Zl-a /2

Zl -a /2

vna ::; Y- ::; fl +

Z l -a /2

vna) = 1 -

0:

(1.4)

est le percentile 1 - 0:/2 d 'une loi normale standard.

C 'est-a- d ire une fonction d es d onnees qu 'on ap pe lle encore un esti mateur .
T'heorerne central limite . To ute somme de n variables a leatoires in dependantes est un e
va riable a leat oire asymptotiquement norm al e.

3
4

Pratique du calcul bayesien

Done si /1 et a etaient connus, on pourrait calculer l'intervalle de tolerance'


(1.4).
En realite les parametres /1 et a sont inconnus! Des lors, le statisticien
classique, qui se refuse a considerer /1 comme une variable aleatoire, poursuit
son raisonnement en trois temps.

1. II s'interroge sur la valeur inconnue de /1 en supposant qu'il connait a.


Pour cela, il renverse la perspective en ecrivant un intervalle de confiance :
f} - Zl-a/2

Vii : : : J.L ::::: f} + Zl-a/2 Vii

(1.5)

Pourquoi le changement de nom? C'est que, /1 etant ici inconnu, mais


certain, ce sont les limites de l'intervalle qui sont aleatoircs, c'est-a-dire
son amplitude. En consequence, l'intervalle calcule sur les donnees reellement disponibles n'est pas un jugement probabiliste sur /1, il traduit
plutot la fiabilite de la procedure statistique : il s'agit de la probabilite
(sachant /1) de recouvrement de /1 par un intervalle aleatoire !

2. Ensuite, il remplace l'ecart-type inconnu a par I'ecart-type estime, ==


JSCE/ (n - 1)6. Ce faisant, la theorie statistique de l'echantillonnagc
veut qu'il remplace aussi le percentile normal z par le percentile de
Student t. Des lors, il obtient l'intervalle de confiance bien connu :

ICa

= [V -

t(1-a/2),(n-l)

5n, V+

t(1-a/2),(n-l)

5nJ

OU t(1-a/2),(n-l) est Ie percentile 1 - a/2 d'une loi de Student


degres de liberte.

(1.6)

an -

3. Bien entendu, rien ne garantit que le parametre /1 appartienne a cet


intervalle reel (1.6) qui, on l'a dit, n'a pas de sens probabiliste direct.
Pour l'interpreter, le statisticien classique est done oblige de faire preuve
de souplesse intellectuelle, certains parleront meme d' entourloupette : il
imagine la repetition de I'experience dans des conditions parfaitement
comparables. Pour chaque echantillon genere dans sa tete, il obtient
un nouvel intervalle de confiance (1.6). Des lors, la probabilite 1- a n'est
que la limite de la frequence des cas OU chaque intervalle (d' amplitude
aleatoire) recouvre la valeur inconnue, mais fixee de /1.

Exemple 1.5 Soit /1 la valeur attendue de la taille d'une jeune fille agee de
10 ans. Un echantillon de 54 eleves dans la classe d'agc [9.5,10.5] donne x ==

138.7 cm et a == 6.4 cm (source: Observatoire de la sante de la province de


Luxembourg (Belgique)). Un intervalle de confiance a 95 % est [136.9,140.4]
ern.

5 Un intervalle de tolerance porte sur une observable; un intervalle de confiance porte sur
un parametre,
6 SeE pour "L,(Yi - y)2, la somme des carres des ecarts a la moyenne.

1. La Statistique : son objet, ses outils

Le paradigme classique (resume)


Quel que soit le parametre inconnu () a estimer, le mode de raisonnement du
statisticien classique est toujours le meme. Dans sa tete, () a une valeur unique
et son estimation requiert une statistique dont les parametres dependent de
(). Les donnees disponibles permettent de calculer un intervalle de confiance
correspondant a un risque a fixe. Le parametre inconnu () est ou n'est pas
dans cet intervalle. Aussi, pour decrire son incertitude sur (), le statisticien
classique realise un tour de passe-passe. II imagine une collection d'echantillons
recueillis dans les memes conditions et, pour chacun d' entre eux, il calcule
un intervalle de confiance et conclut en disant que 1 - a pour cent d'entre
eux contiendraient (). C' est la vision frequentiste : tout est dans les donnees.
Toutefois, que faire alors avec tous les problemes bien concrets OU ces repetitions
imaginaires n'ont pas de sens? Comment accepter que plusieurs techniques
d'estimation (methodes des moments, des moments ponderes, du maximum de
vraisemblance, etc.) puissent produire des intervalles de confiance differents ?
Pourquoi cette fiabilite est-elle quasi systematiquement donnee en situation
asymptotique, alors que dans nombre de problemes la taille de l'echantillon est
tres limitee ?

1.2.2

L'ecole bayesienne

Le statisticien bayesien raisonne differemment puisqu'il considere que le


parametre du modele statistique, [yl()]' est incertain. II va donc chercher a
quantifier son incertitude en mobilisant toutes les informations disponibles.
C'est ce qui fait toute la difference puisque cela revient a conferer au parametrc
() Ie statut de variable aleatoire, Des lors, il y a un sens a lui attribuer une
distribution de probabilite a priori qui decrit le savoir actuel sur ce parametre.
Cette distribution de probabilite, souvent appelee prior, est notee [0]. II faut
bien comprendre que le prior quantifie l'etat de connaissance d'un expert (et
donc son incertitude) sur le probleme en main. Cela signifie que l'expert parie
plus volontiers sur certaines valeurs de () que sur d'autres (ne pas confondre
incertitude et ignorance). Cette information a d'autant plus de valeur que les
donnees sont rares. II doit etre clair que le savoir de l'expert encode dans le
prior doit etre tout a fait independant de l'echantillon en main, sinon la meme
source d'information interviendrait deux fois, ce qui ne serait pas coherent.

Exemple 1.6 D'apres une seric d'cnquetes, on estime a 39 Bq/rn'I la concentration moyenne en radon dans l'air intcrieur des habitations, avec des variations marquees d'une region a l'autre quand les maisons sont construites sur
des sols tres riches en uranium et/ou tres perrneables (source: Organisation
mondiale de la sante (OMS)). De nombreux pays ont fixe a 200-400 Bq/rn'I
la valeur a partir de laquelle des mesures doivent etre prises pour diminuer la
concentration en radon dans l'air a l'interieur des habitations. La concentration
ambiante peut varier fortement d'un jour a l'autre. C'est pourquoi il faut laisser
le detecteur sur place durant de 2 a 3 mois! Sans parler du cout, repeter dans

10

Pratique du calcul bayesien

les memes condit ions une experience qui dure 3 mois n'est pas chose aisee ! II
est done plus qu 'int eressan t d'inclure de I'expertise dans Ie modele en postulant une distribution a priori pour Ie parametr e du modele d'echantillonnage
retenu .

II faut insister sur Ie point suivant. Quand un statisticien bayesien parl e de


probabilite, il ne la conceit pas comme une frequence limite dans une succession
d'essais dans laquelle on rapporte Ie nombr e de cas favorables (sous-ente ndu
equiproba bles) au nombr e d'essais effectivement realises. La probabilite bayesienne est Ie resultat d'un pari , propre a l'individu, done subjectif, mais pas
arbitra ire. La const ruction du prior est I'obj et du chapitre 7. Des maintenant ,
la roue de la fortune permet d'eclairer l'idee de pari .
Soit une roue munie d'un disposit if permet tant de regler l'angle au cent re
a . Quand elle s'arrete de to urne r, la prob abilit e que l'index fixe iombe dans la
partie ombree est simplement egale a a /2Jr (fig. 1.3).
Rcce de la fortune

F igure 1.3 - La prob ab ilit e vue comme un pari .

On fait tourner la roue et on demand e a I'expert s' il prefere parier sur la valeur B :::; B1 plutot que sur la possibilit e que l'index fixe indique la partie ornbree
a l'arret de la roue. S'il prefere Ie premier pari (B :::; Bd on augmente l'angle au
centre a , sinon on Ie reduit . On repete l'operati on aut ant de fois qu 'il Ie faut
jusqu 'au moment OU les deux paris sont indifferents aux yeux de I'expe rt . Ace
moment , la probabili te qu 'il accorde a I'evenement B :::; B1 est exactement egale
au rapp ort cq. On recommence les operati ons avec B2 > B1 et B3 < B1 . Disposant des tro is couples (Bk ,pk = ak/2Jr ), I'an alyste peut deja essayer d'aj uster
une courbe pour tradu ire la fonct ion de reparti tion cumulee des probabilites en
fonct ion de B. Quelques valeurs suppl ementaires de B peuvent l'y aider. Enfin,
la derivee de cette courbe est le prior recherche [B].
Remarque 1.3 La construction du prior de I'expert a l'aide de la roue de
la fortune, c'est-a-dire une loterie, est appelee elicitation. Cette operation

1. La Statistique : son objet, ses outils

11

n'est pas triviale, surtout si dim > 1, par exemple si == (/-l, (J") est Ie parametre d'une loi normale. Nous verrons bientot que d'autres representations,
plus commodes, mais sans doute moins riches, sont possibles. Dans tous les cas,
il faut interpreter le prior en termes de pari.

1.3

L'analyse statistique bayesienne

L' analyse statistique bayesienne se ramene fondamentalement a une inversion (Robert, 2006). En effet, elle vise a determiner les causes a partir des
effets. II faut bien comprendre que les causes sont reduites aux parametres du
mecanisme probabiliste generateur des donnees imagine par l'homme d'etude et
que les effets sont resumes par les observations disponibles. En d'autres mots,
le modelisateur voit les observations comme des tirages dans une loi statistique controlee par le parametre inconnu e. Une methode statistique permet
de deduire de ces observations une inference sur e. A l'issue de cette inference,
l'incertitude sur est quantifiee et la prevision des observations futures consiste
alors a utiliser Ie mecanisme generateur de donnees conditionnellement a e.

La figure 1.4 synthetise ce qui vient d' etre dit. Elle represente de trois
facons differentes la probabilite conjointe du parametre et de l'echantillon
Y == (Yl' ... ,Yn) avant son observation. A gauche, on a une representation du
prior qui peut etre interprete en termes causaux : la cause produit l'effet Y
(fleche vers le bas). A droite, on a une representation du posterior : disposant
de l'effet Y on infere la cause (fleche vers le haut).

000

[YIO][O]

[Y,O]

[0 I Y][Y]

Figure 1.4 - Principe de l'analyse statistique bayesienne.

12

Pratique du calcul bayesien

1.3.1

La regle de Bayes

Ainsi, dans sa forme la plus simple, la regle de Bayes est la consequence


mathematique directe du theoreme des probabilites conditionnelles :

[yIO] [0] = [y,O] = [Oly] [y] ::::;, [Oly] = [yl[;][0]

(1.7)

Avant l'observation, [y] est la distribution predictive a priori

[y] =

Ie

[y, 0] dO

Ie

[yIO] [0] dO

(1.8)

Vne fois que l'on dispose des donnees, l'integrale (eq, 1.8) fournit un nombre
reel, la constante de normalisation, qui garantit que le posterior [ely] est bien
une distribution de probabilite.

1.3.2

La distribution predictive a posteriori

L'inference bayesienne quantifie l'incertitude sur e (et done la connaissance


de la cause e) en mobilisant deux sources d'information : l'expertise et les
donnees. On souhaite maintenant quantifier l'incertitude sur une observation
future y* conditionnellement a l'echantillon deja observe y. La distribution de
probabilite de l'observable y* est obtenue en multipliant sa densite d'echantillonnage [y* Ie] par la distribution a posteriori [ely] et en integrant ce produit
par rapport a () :

[y*ly]

[y*, Bly] dB

[y* IB, y] [Bly] dB

[y* IB] [Bly] dB

(1.9)

La derniere egalite vient parce que l'observable y* est conditionnellement


independante des observations passecs quand on dispose de e.

Note 1.2 L'independance se notant avec le signe 1.-, l'independance conditionnelle entre y* et y est notee y* Ie 1.- y Ie ou y* l.-e y.
Exemple 1.7 Le tableau 1.1 donne la concentration en radon (Bq/rnd) dans
treize maisons du comte de Goodhue (Minnesota, Etats-Unis). Toutes les mesures ont ete enregistrees dans la cave, sauf celles indiquees par un asterisque
qui ont ete enregistrees au rez-de-chaussee ((Gelman et al., 2004), p. 195). Ce
qui interesse le decideur c'est la probabilite qu'une observation future, c'est-adire la concentration en radon dans une maison non encore visitee, depasse une
valeur guide fixec,

1. La Statistique : son objet , ses outils

13

Tableau 1.1 - Concentrations en radon (Bqjm3).


Soit y la concent ration en radon. Un modele d'echantillonnage realiste est
ici une distribution log-normale. La tr ansformation z = log y nous ramene
done au modele normal (voir annexe A).

(1.10)
OU /-1 et T represent ant respectivement la moyenne et la precision.
Inferer Ie paramet re = (/-1, T) d'un e loi normale it partir d 'un echantillon
independant et identiquement distribue (hypothese iid est un probleme basique de la statistique. La figure 1.5 Ie resume bien. Les fleches rouges (trait
continu) indiquent Ie lien causal entre Ie parametr e = (/-1, T) et les observations Zl, , Zi, , Zn : chaque observation est vue comme Ie result at d'un
tirage aleatoire dans N (/-1, T) . L'inference renverse Ie lien causal et c'est ce
qu'ind iquent les fleches vert es (tir ets ). A la difference du stat ist icien classique,
Ie statisticien bayesien admet que = (/-1, T) est incertain. II y a done un sens
it lui attribuer une distribution de probabilite a priori, que la regle de Bayes
reactu alise it partir des observation s disponibles. La distribution a posteriori
de = (/-1, T) quant ifie cette mise it jour des connaissances.

Prior

Figure 1.5 - Representation graphique simplifiee du modele normal.


Le parametre d'un e loi normale a deux composantes . La forme du prior

14

Pratique du calcul bayesien

adopte dans les calculs ci-apres est detaillee dans l'annexe A. Pour la moyenne
f-l sachant la precision T , on choisit un prior normal, localise sur m et de precision
kr , avec 0 < k < 1, car il est prudent de degrader la precision. Pour Ie parametre

de precision T , le prior tres flexible communement adopte est une dist ribution
gamma, de parametre de forme a > 0 et de parametre d 'inverse echelle b > O.
Les hyperparametres m , k, a et b sont a determiner de telle facon que le prior
conjoint reflete le savoir de l'expert , ici l'OMS .
La figure 1.6 represente le modele normal sous la forme d'un reseau bayesien
ou DA G (directed acyclic graph) . Nous aurons l'occasion de preciser cette notion
dans les prochains chapitres. Les donnees apparaissent dans des carres (ou
rectangles) alors que les quantites incertaines (parametres, observables) dans
des cercles (ou ellipses). L'empilement de feuilles symbolise l'echantillon : une
valeur par feuille. Dans un reseau bayesien, les fieches indiquent des relations
causales.
Le mecanisme generateur des donnees est done celui-ci :
- fournir a > 0, b > 0, k E ]0, 1[ et mE lR (expertise) ;
- tirer T dans Ga (a, b) puis tirer f-l dans N (m , kT) ;
- pour i allant de 1 a n , tirer Zi dans N (f-l , T) .

~
k

[TI/

Figure 1.6 - DAG du model e normal.

D'un point de vue analytique, les calculs de la loi a posteriori sont relativement simples (voir annexe A, p. 267 et suiv.). En effet, a partir du modele
(1.10), la vraisemblance d' un n-echantillon iid normal est triviale et l'app lication de la regle de Bayes conduit aux resultats suivants OU Z et s2 representent
respectivement la moyenne et la variance empirique des observations. RappeIons l'essentiel des result at s donnes en ann exe A :
- le posterior marginal de Test une loi gamma, de par ametre de forme a' =

1. La Statistique : son objet, ses out ils

~ (n + 2a) et de parametre d' inverse echelle b' = ~

[n s 2 + 2b +

15

n'tk

(z - m)2 ] ;
le post erior marginal de J.L est une loi de Student a u' = 2a' degres de
liberte, localisee sur m' = (nz + km) / (n + k) et de parametre d'echelle
(J' = J b'/((n +k)a') ;
- la distribution predictive a posteriori de l'observable est une loi de Student
a v' degres de liberte, localisee sur m' et de para metre d'eche lle (J"
(J\ /n + k + 1.

1.3.3

Application numerique

Revenant au probleme du radon (exemples 6 et 7), les choix m = 3.7,


k = 0.5, a = 2, b = 1 donne nt un prior conjoint compatible avec les donnees
de l'OMS (une concentration moyenne de l'ordre de 40 Bq/rnd , tres variable
selon la nature du sol). Ce prior et toutes les donnees du tableau 1.1 conduisent
aux resultats presentee a la figure 1.7 (l'axe des abscisses est en coordonnees
logarithrn iques). En particulier, on voit que la probabilite de depasser la valeur
guide de 400 Bq /rnd d'air est egale a 0.24. Un prior non informatif porte cette
probabilite a 0.25. La difference est minime et ne modifie pas Ie risque de cancer .
Cependant, si on refait le merne exercice avec seulement les deux donnees du
rez-de-chaussee, on trouve respectivement 0.25 et 0.17 ! Dans ce cas, ignorer
l'expertise revient a sous-estimer largement le risque.

2
-

Predictive : [z I y]

1\

c::::=J Pr(z > Zo I y) = 0.24

1.8

J\
J \

- - - Posterior : [Il l yJ

1.6

) l

J I

I I

1.4

I
I
f
I
I
I
I

1.2

:;

a0.8

J
J
J

0.6
0.4
0.2
0

.J
0

!
I
!
f

45

\
I
I
l
I
I
I

1
I
l

)
\
\
6

Log de la conc entra tion en rado n (Bq/m 3)

Figure 1.7 - Conc entration du radon en Minn esota.

16

Pratique du calcul bayesien

1.3.4

Retour sur Ie prior

Nous avons vu que la roue de la fortune permet d'illustrer le travail d'elicitation d'un prior. Sur de nombreux modeles et exemples, le chapitre 7 developpera les outils d'encodage du savoir de l'expert sous forme d'une distribution
de probabilite. Les deux proprietes statistiques suivantes sont regulierement
invoquees pour en faciliter la mise en ceuvre.

La conjugaison. L'analyste regarde la forme de la fonction de vraisemblance


et choisit une famille de lois qui se marie bien avec elle. Par exemple,
la structure de la vraisemblance d'un n echantillon iid selon une distribution exponentielle de parametre d'echelle p > 0 est en p" exp (-nyp).
Le prior conjugue est une loi gamma dont la forme fonctionnelle s'ecrit
pa-l exp (-bp). La distribution a posteriori de p suit immediaternent :
pia, b,n, y rv gamma (a + n, b + ny). Dans le probleme du radon, nous
avons utilise les proprietes de la conjugaison pour construire le prior
conjoint.
Application sequentielle de la regie de Bayes. Un prior peu ou non informat if sur un jeu de donnees fournit une distribution a posteriori qui
peut servir de prior pour un autre jeu de donnees. Par exemple, on peut
appliquer le modele developpe ci-dessus aux concentrations en radon relevces dans un comte voisin de celui de Goodhue (Minnesota, Etats-Unis).
Le posterior obtenu sur ce jeu de donnees est un prior credible pour
l'analyse des donnees du tableau 1.1.

Quel que soit le moyen utilise pour construire le prior, il doit etre interprete
comme une succession de paris sur les valeurs du parametre, bien sur sans
mobiliser les donnees impliquees dans la vraisemblance.

1.4

Le choix bayesian

La figure 1.8 synthetise Ie paradigme bayesien. Deux modeles doivent etre


specifies. Le modele d'echantillonnage et le prior. C'est pourquoi les statisticiens bayesicns designent leurs modeles par des expressions du type priorvraisemblance (du moins quand le prior peut etre decrit par une distribution standard). Ainsi, on parlera des modeles beta-binomial, gamma-Poisson,
normal-gamma-normal, etc.
Qu'on soit classique ou bauesien, le choix du modele dechant.illonnage est
decisif. II n'y a pas de recette, mais l'experience de l'analyste compte. La representation de la connaissance a priori est tout aussi delicate. L'expert passe
en revue toutes les valeurs possibles du parametre et parie sur chacune d'entre
elles. Ensuite, cette connaissance a priori est mise a jour par les donnees via
la regle de Bayes.

1. La Statistique : son obj et , ses outils

17

Model. SIal
d 'Occ urren ces

[yle]
Connaissance a priori

Connaissan ce mi se it
jo ur

(Exp erti )
Formule d. Bay

[e]

~
L_"'-

-"-_.

[B] [Y IB]
[BIY ] = J[B][Y IB]dB
e

....

I'~I

Mei lleure
prec ision sur
les
phenome nes
mconnus

donnees
Experime nt ales ,
Y~

{Y I' Y, . . . Y k }

Figure 1.8 ~ Le paradigme bayesien : resume.

1.4.1

Un pro cede contestable?

L'analyse bayesienn e repose sur les donnees - c'e st la composant e dite


objective - et sur les idees du chercheur - c'est la composante dite subject ive.
Dans l' excellent livre d 'Alfred Renyi Calcul des probabilites (edition originale en langue allemande, 1962, VEB Deutscher Verlag der Wiss enschaften,
Berlin ; reimpression aut orisee de la traduction fran caise, 1966, Dunod, Paris) on t rouve le comment aire suivant (p. 77) .
[.. . ]Le theorem e de Bayes est parjaitem ent demontre, personne ne m et en
dout e sa justesse; c 'est seulem ent de ses application s pratiques qu 'on dispute
(sic) . [... ] Si on connait les probabilites dit es a priori , on peut appliquer le
theorem e de B ayes et calculer les probabilites a posteriori . Cependant, les probabilii es a priori sont souvent inconnues et on leur att ribue qeneralem eni des
valeurs arbitrai res ; c 'est ce precede qui est veritobleme nt contestable.
Qu ar ante ans se sont ecoules depuis ce comment aire. Non ce n'est pas
contest abl e d 'attribuer des probab ilite s a priori a des evenement s.
Evaluer des chances sur la base de son exp erience est une activite int ellect uelle recurrente partagee par la majorite des et res pensan ts. Croire qu e seules
les donnees garant issent l'objectivite du verdict est une erreur, car les donnees resul tent de choix, souvent impli cit es! Ainsi l'echelle europee nne de risque
d 'aval an che comporte cinq indic es classes sa ns ambiguite suivant l'importan ce

18

Pratique du calcul bayesien

du risque auquel s'expose l'usager. Chaque niveau de risque est defini par une
evaluation de la stabilite du manteau neigeux fondee sur une seric de criteres
et des consequences a assumer en cas d'avalanches. L'expert peut attribuer a
priori une probabilite Pk a l'indice k. Ce n'est pas plus arbitraire que de combiner des informations pour construire une telle echelle et la faire accepter par
les pays concemcs ; ce n'est pas plus arbitraire que de selectionner quelques indicateurs parmi les dizaines qui auraient pu etre choisis. L' activite scientifique
ne nie pas la subjectivite, mais elle vise son controls. Par consequent, tous les
resultats generes par une demarche scientifique sont toujours conditionnels aux
differents choix qui ont ete faits, qu'ils soient d'ailleurs peu ou prou justifies. Les
statisticiens bayesiens se distinguent par leur volonte de les decrire clairement.

1.4.2

Avantages

Nous avons vu que le statisticien classique iuterprete son intervalle de


confiance en se referant a une collection d'echant.illons qu'il aurait pu observer
s'il avait reproduit son experience dans les memes conditions. Le statisticien
bayesian ne rencontre pas cette difficulte. L'intervalle de confiance, qu'il appelle
intervalle de credibilite pour le distinguer de son homologue classique, a une interpretation naturelle qui porte directement sur la valeur inconnue qu'il cherche
a cerner. Pour un risque Q fixe, les limites de l'intervalle de credibilite sont les
percentiles ()a/2 et ()1-a/2 du posterior tels que Pr (()a/2 ~ () ~ ()1-a/2) == 1- Q.
Ce n'est pas seulement une question philosophique. Le concept de repetition
d'cxperiences dans les memes conditions peut n'avoir aucun sens. La probabilite
qu'un meteorite detruise la Terre dans les mille pro chaines annees ne peut etre
fondee sur la notion de repetition.
Outre les difficultes d'interpretation. le paradigme classique n'offre pas l'equivalent de la distribution predictive a posteriori. Or c'est bien le futur sachant le
passe qui interesse le decideur. Par exemple, le conseil municipal de Chamonix
(voir chap. 2) aurait pu se poser la question suivante : Quelle est la probabilite
que le site de Montroc subisse au rnoins une avalanche dans les vingt prochaines
omnees sachant qu'on y en a observe six depuis 1843? Pour repondre a cette
question, il faut faire des hypotheses, postuler un modele dechantillonnage,
questionner les experts, bref construire un modele statistique parametrique 7 .
Cependant, le dccideur, par exemple le conseil municipal de Chamonix, n'a rien
a faire des parametres du modele! Merrie s'il en ignore le nom, c'est la distribution predictive a posteriori qui I'interesse, distribution obtenue en integrant,
par rapport au pararnetre, Ie produit de la probabilite de l'observable par la
distribution a posteriori du parametre. Le statisticien classique ne peut pas
realiser cette operation puisque, pour lui, Ie parametre ne varie pas!
Enfin, les petits echantillons sont par definition peu informatifs et le theoreme central limite ne tient plus! Le statisticien classique est peu arme pour
traiter ces cas difficiles. Le statisticien bayesien, lui, peut palier un manque de
7

la statistique bayesienne non parametrique n'est pas l'objet de ce livre.

1. La Statistique : son objet, ses outils

19

donnees en introduisant de l'expertise dans le modele. Ces situations ne sont


pas rares en sciences et particulierement en sciences de l'environnement. Ainsi,
on a vu que pour mesurer la concentration en radon dans une maison, il faut
laisser le detccteur sur place (par exemple dans la piece la plus frequentee)
durant une periode de 2 a 3 mois. Trois mois, une mesure ! Pourquoi se priver
d'une seconde source d'information qu'est l'avis de l'expert (p. ex. l'OMS) ?
La controverse philosophique ecole classique versus ecole bayesienne est finalement peu interessante. II faut faire un choix et le notre est clair: c'est le
paradigme bayesien, La suite de ce livre est une collection de modeles utiles,
car de portee assez generale. Chacun d'entre eux constitue un chapitre. Les
difficultes calculatoires sont mises en evidence et une solution est proposee. II
est possible que d'autres solutions, plus elegantes, existent. Tous ces modeles
sont illustres avec des exemples concrets (donnees reelles).
Nous postulons que le lecteur a une culture generale en mathematique du
niveau du baccalaureat es sciences. La connaissance des distributions standards
est indispensable. Elles sont reprises dans l'appendice A de (Gelman et al.,
2004).

Epilogue
Ce premier chapitre a introduit l'idee que construire un modele statistique
parametrique revient a imaginer un mecanisme probabiliste susceptible de reproduire les observations. L'observable est une variable aleatoire pour laquelle
on postule une distribution de probabilite souvent nommee modele de connaissance. II s'agit en fait d'une famille de lois de probabilite indexee par un parametre inconnu de dimension finie. On le notera souvent B. Le choix d'un
modele de connaissanee est done une affaire dexperience matinee d'imagination et d'audace. Sous le paradigme bayesien, () est incertain mais prend ses
valeurs dans un espace de dimension finie, 8, appele ensemble des ciats de la
nature. Avant de disposer de l'echantillon de donnees, un specialiste du probleme etudie pourra souvent dire quelque chose sur (). II pariera plus volontiers
sur telle plage de valeurs que sur telle autre. Ainsi, l'incertitude sur () peut
etre decrite par une distribution de probobilite a priori ou prior. La regle de
Bayes reactualise cette expertise en multipliant le prior par la vraisemblance
de l'echantillon. Apres normalisation, le resultat obtenu est la distribution a
posteriori de B (ou posterior). Toute utilisation ulterieure, notamment l' aide a
la decision, sera fondee sur la distribution a posteriori de B.
Le fil conducteur de cet ouvrage pourrait se resumer par l'aphorisme de la
plume ala souris. En effet, naguere le modelisateur ne disposait que de ses idees,
d'un porte-plume et d'une feuille blanche. Aujourd'hui, l'ordinateur personnel
a remplace le porte-plume et demultiplie les capacites de traitement. Toutefois
qu'on ne s'y trompe pas! L'imagination et la creativite constituent toujours
les pierres angulaires du raisonnement conditionnel bayesien. Sans modele, le
stockage des donnees dans un ordinateur, meme performant, est improductif!

20

Pratique du calcul bayesien

A contrario, l'art de la construction de modeles probabilistes ressemble a l'apprentissage de la musique : il faut commencer par le solfege. La premiere partie
de cet ouvrage propose l'etude des gammes, la seconde nous entraine vers des
partitions plus evoluees. Le chapitre 2 presente un probleme decisionnel complet, fonde sur un fait reel et tragique : I'avalanche de Montroc. Les modeles
sous-jacents - Ie modele beta-binomial et le modele gamma-Poisson - sont
calculables a la plume ,

Chapitre 2

Decision en avenir incertain


I'avalanche de Montroc

Prologue
Quand on s'interesse a une experience aleatoire dichotomique, l'hypothese
que les observations successives constituent un processus de Bernoulli peut
etre justifiee, tantot par la nature de l'experience aleatoire (p. ex. jeu de pile
ou face), tantot constituer une hypothese de pure commodite pour voir.
Dans tous les cas, elle conduit au modele beta-binomial et, quand l'evenement
d'interet est rare, au modele gamma-Poisson. Ces modeles, tres simples, nous
permettent de construire un probleme fictif d'aide a la decision, fonde sur un
drame reel ayant fait la une des journaux : A urions-nous pu eoiier La catastrophe
de Montroc?

2.1
2.1.1

L'avalanche de Montroc
Les faits

Le 9 fevrier 1999, une avalanche meurtriere (douze deces) a detruit une


partie du hameau de Montroc pres de Chamonix. Cette coulee de neige a englouti vingt-trois chalets dans une zone declaree constructible, car consideree comme hors d'atteinte d'apres la cartographie des risques etablie en 1992.
En fait, avant la date fatidique, la derniere avalanche sur ce site avait ete observee en 1945. Toutefois, selon Le Dauphine libere, cinq avalanches survenues
entre 1843 et 1945 n'auraient pas ete prises en compte",
1

Le maire de Chamonix a ete condamne

a 3 mois

de prison avec sursis le 17 juillet 2003.

22

Pratique du calcul bayesien

2.1.2

Mise en situation

Nous sommes en 1992 et le conseil municipal de Chamonix attend votre


etude pour prendre sa decision, c'est-a-dire accepter ou refuser de declarer la
zone constructible.
Vous savez que la derniere avalanche a ete observee en 1945 et cinq autres
avalanches ont affecte Ie site entre 1843 et 1945 (vous ignorez les annees},
II est clair que vous ne pouvez pas dire et faire n'importe quoi. Votre horoscope ou une analyse statistique naive ne constituent pas une methode devaluation des risques conforme aux regles de la demarche scientifique. En particulier,
les chances qu'a un evenement de se produire demain ne sont pas insignifiantes
simplement parce qu'il ne s'est pas produit depuis quarante-sept ans! L'avenir
est incertain et le calcul des probabilites est l'instrument de mesure de toute
incertitude.
Avant de passer a l'action, il peut etre utile de se rememorer quelques pensees.
- La verite, ce n'est pas le certain et l'incertain, ce n'est pas l'ignorance ,
(Ilya Prigogine (1917-2003), prix Nobel de chimie (1977))

- II est bon de suivre sa pente, pourvu que ce soit en montant ,


(Andre Gide (1869-1951), prix Nobel de Litteraturc (1947), Les faux-monnayeurs
(1925))

- All models are false, some are useful.


(Bernardo & Smith, (Bernardo et Smith, 1994))

2.1.3

Un probleme de decision

En 1992, ce qui interesse le decideur, ici Ie conseil municipal de Chamonix,


c'est le risque associe aux deux decisions qu'il peut prendre:
d1

== declarer la zone constructible et perdre C 1 M

d2

== refuser lc projet et perdre C2 M

EUROS si le site subit au


moins une avalanche grave dans les h pro chaines annees (indemnisation
des victimes) ;
EUROS si le site ne subit aucune avalanche dans les h prochaines annees (les non- recettes).

Le decideur doit donc fixer un horizon de prevision h et votre travail est


d'evalucr la probabilite p (h) d'observer au moins une avalanche destructrice
sur cette periode,
Le tableau 2.1 resume ce probleme de decision en termes de perte associec a
chaque decision selon que I'evenement redoute se realise dans les h annees, avec
la probabilite p (h), ou ne se realise pas avec la probabilite complementaire.
Selon la theorie de la decision, voir p. ex. (Bernier et al., 2000), une reqle
de decision coherente consiste a opter pour la decision qui minimise la valeur
attendue de la perte totale Ct
E (Ctld 1 , h)
E (C t ld2 , h)

p(h) X C 1
(1 - p (h))

(2.1)
X

C2

(2.2)

2. Decision en avenir incertain : l'avalanche de Montroc


Couts

d1
d2

23

Etat de la nature ()

p (h)
01
0

1-p(h)
0

C1

Tableau 2.1 - Montroc : pertes associees aux decisions.


Par consequent le rapport
(2.3)
fournit une regle de decision rationnelle
(2.4)

Remarque 2.1 II n'est pas necessaire d'estimer ces couts avec une grande
precision. D'une part, le bon sens permet de soutenir que la destruction d'un
site habite coute plus cher que les non-recettes : C1 > C 2 . D'autre part, il est
recornmande de batir divers scenarii C 1/C2 et de considerer divers horizons
de prevision

h.

Pour chaque couple

(h, g~)

Ie calcul du rapport r indique la

decision qui est rationnelle (voir fig. 2.3).


Imaginons que le decideur fixe h == 30 ans et estime que 0 1/02

10. Si,

a l'issue d'un raisonnement coherent, vous trouviez p (30) ~ 0.08 alors vous
devriez recommander la decision d 1 , car r ~ 0.87 < 1 (eq. 2.4). Et si l'an-

nee suivante une coulee de neige rasait le site, auriez-vous pour autant mal
travaille ? La reponse est categorique : non, car la probabilite est un concept
previsionnel, ante evenement. Si l'evenement rare se realise, vous n'avez tout
simplement pas eu de chance et il faut l'accepter. De telles situations se presentent dans la vie de tous les jours. Par exemple, la perte des quatre moteurs
d'un avion est un evcnement qui a une probabilite tres faible, mais cet evenement s'est produit et des gens sont morts. Bien entendu, le taux d'echec a
l'issue de demarches folkloriques est incomparablement plus eleve.

Remarque 2.2 Bien sur, il est possible de discuter la valeur du rapport C 1/C2 ,
car r augmente avec lui. Ainsi, sous les memes hypotheses, des que le rapport
des couts vaut 12 il faut recommander d 2 . On peut d'ailleurs faire une analyse
de sensibilite sur ce rapport.

2.1.4

Quel(s) modelers] d'echantillonnage?

Convenons qu'une annec quelconque est noire (code 1) si on y observe


au mains une avalanche importante sur le site d'interet. Elle est blanche

24

Pratique du calcul bayesien

(code 0) dans le cas contraire. A Montroc, on a releve six annees noires sur
la periods 1843-1992.
Le choix d'un modele d'echam.illonnagc (on dit aussi modele de population) fait partie des hypotheses de la modelisation, Entrent dans les raisons
de ce choix des considerations de cornmodite mathematique, de realisme et
de parcimonie des parametres. Tous les resultats obtenus sont necessairement
conditionnels a l'adoption de ce modele. Ce chapitre se limite aux modeles de
connaissance suivants : Ie modele binomial et le modele de Poisson.

Remarque 2.3 D'autres modeles d'echantillonnage sont possibles. En effet, il


ne faut pas confondre l'absence d'information avec l'absence reelle d'avalanche,
car on peut tres bien imaginer que des coulees de neige n'aient pas ete enregistrees. La modelisation de ce modele de donnees manquantes sort du cadre de
cet expose.

2.2
2.2.1

Imaginer un mecanisme generateur des observations


Le processus de Bernoulli

A chaque annee t, on associe une variable aleatoire de Bernoulli, disons Yt,


qui prend la valeur 1 avec la probabilite 7rt si le site de Montroc subit au moins
une avalanche grave et la valeur 0 avec la probabilite complementaire dans Ie
cas contraire. Si on postule que ces variables aleatoires sont ituiependanies et
identiquement disiribuees (Vt : 7rt == 7r), la suite {Yt} constitue un processus de
Bernoulli:

Remarque 2.4 Conceder que le modele d'echantillonnage est un processus de


Bernoulli est d'abord un choix de commodite, En effet, on sait que le climat
a change depuis Ie milieu du XIX e sieclc (c'est-a-dire la composition de l'urne a
change) et il est meme possible qu'il y ait de la memoire dans Ie systeme. Cependant, en acceptant ce modele, au moins pour un temps, on va pouvoir quantifier Ie
risque associe a chaque decision. Ensuite, il faudra discuter les resultats a I' aulne des
hypotheses qui y ont conduit.
Le modele binomial
Puisque chaque annee est representee par une variable aleatoirc de Bernoulli, leur somme
n

x ==

LYt
t=l

2. Decision en avenir incertain : l'avalanche de Montroc

25

est une variable aleatoire binomiale, de parametres n, 1T, dont la densite s'ecrit :
(2.5)

ou

n!
(~)==-(n - x)!x!

2.2.2

Le processus ponctuel de Poisson

Le processus ponctuel de Poisson (voir annexe C) est un modele, un processus sans memoire, qui interdit les simultaneites et qui considere que les
occurrences apparaissant dans des intervalles de temps disjoints sont independantes.

Comrnencons par preciser ce qu'est un evenemcnt ponctuel


Sur la periode d'interet de longueur finie l, on divise l'axe du temps en n
periodes elementaires de duree constante ~l : l == n.Sl, Des lors, n ----t 00 comme
~l ----t O. Mais l fini et ~l ----t 0 signifient que l'evenement d'interet est un point
sur l'axe du temps, c'est-a-dire un evenement ponctuel.

Exemple 2.1 On observe un carrefour pendant 5 ans. Un jour est rouge


si on y constate au moins un accident avec lesions corporelles. ~l == 1/365 ~
n ~ 1.8 x 103 jours.

La distribution de Poisson est un cas limite de la distribution binomiale


Numerotons les periodcs elementaires dans l'ordre de succession depuis 1
periode elementaire, on peut associer une variable aleatoire de
Bernoulli qui prend la valeur 1 avec la probabilite invariante 1T si l'evenement
d'interet se realise. Si x periodes elementaires parmi les n ont vu l'evenement
d'interet se realiser, on a un processus de Bernoulli:

a l. A chaque

[xln,1T]

_no), ,7fx (1 _ 7f )n-x


(n x .x.
n(n-1)(n-x+1) X(
)n-x
- - - - - - - - - - 1 T 1 - 1T
x!

(1Tn)X
x!

(1 _ ~) ... (1 _ ~) (1 n

1T)n

(1 - 7f)X

L'evenement d'interct est un evenement rare si x n, c'est-a-dire


En posant
A == 7fn > 0 OU n ----t 00 et 1T ----t 0

on obtient la distribution de probabilite de Poisson

1T ----t

O.

26

Pratique du calcul bayesien

AX

[XIA] == ,exp (-A)

(2.6)

x.

En effet :
lim

n-+oo

(1 - ~) ... (1 - ~) == 1
n

lim (1 - 7f) X == 1

7r-+O

lim

n-+oo

(1- ~)n
n

=exp(-A)

Remarque 2.5 La distribution de probabilite de Poisson (eq. 2.6) est definie


sur l'ensemble des entiers naturels N :
1 == exp (- A)

AX

AX

L , {:} x=o
L ,x.
x=o x.
00

00

== exp (A)

Dans Ie chapitre 5, nous utiliserons une variable aleatoire de Poisson prenant


ses valeurs dans No == N\ {O}. On dit que la distribution de Poisson est tronquee
sur No. Des lors
00 AX
== exp (A) - 1

L ,x.

x=l

et la distribution de probabilite de Poisson de parametre A > 0 tronquee sur

No s'ecrit :

[xIA] ==

AX

-;y -ex-p-(A-)---1

Le processus ponctuel de Poisson


Soit X j le temps qui separe deux occurrences successives de l'evenement
d'intcret. Si on postule que les durees X j sont iid selon une loi exponentielle de
parametre d'echelle 1/A, alors la distribution du nombre d'occurrences, disons
Y, sur une periode de l unites est donnee par la loi de Poisson de parametre
Al. La reciproque est vraie : si la distribution du nombre d'occurrences sur une
periode de longueur lest donnee par la loi de Poisson de parametre Al, alors
les durees sont iid selon une loi exponentielle de parametre d'echelle 1/ A.

x, IA ~d dgamma (xiI, A-I) {:} YIA, l

r-;

dpois (yIAl)

(2.7)

~~

Le parametre A est la cadence des occurrences, c'est-a-dire leur nombre sur


la periode de reference.

2. Decision en avenir incertain : l'avalanche de Montroc

2.3

27

Inference bayesienne

Ayant imagine un processus susceptible de generer les observations, il faut


maintenant estimer son parametre caracteristique - qui peut avoir plusieurs
composantes auquel cas c'est un vecteur - et quantifier l'incertitude afferente,
Comme on l'a vu au chapitre 1, le paradigme bayesian offre un cadre de raisonnement particulierement fiable et fecond. La vraisemblance est conditionnelle
au parametre et la distribution a priori du parametre, ou prior, decrit l'incertitude de l'expert sur celui-ci. La regle de Bayes dit comment reactualiser
cette expertise disposant des donnees: il suffit de multiplier la vraisemblance
par le prior. La distribution a posteriori du parametre, ou posterior, implique
la normalisation de ce produit. Cette operation peut se reveler compliquee,
voire impossible, sans le concours de methodes speciales. Ce ne sera pas le cas
ci-dessous. A condition de connaitrc les fonctions eulerietuies de premiere et
seconde espece, respectivemment la fonction gamma (symbole f) et la fonction
beta (symbole B), tous les calculs peuvent etre faits a la plume. Ces fonctions
ne doivent pas etre confondues avec les distributions de probabilite gamma et
beta auxquelles elles ont d'ailleurs donne leur nom (voir annexes B et B).

2.3.1

Le modele beta-binomial

La vraisemblance
Rappelons que la vraisemblance mesure les chances d'observer I'echantillon
conditionnellement au parametrc. Pour l'avalanche de Montroc, le modele d'observation est la loi binomiale (eq, 2.5). La vraisemblance est donc immediate

(2.8)
Choix du prior et application de la regie de Bayes
Quand on regarde la vraisemblance (eq. 2.8), on reconnait immediatement la
signature fonctionncllc/ d'une densite de probabilite beta. On dit qu'un prior
beta est conjugue a une vraisemblance binomiale. La conjugaison a deja ete
abordee au chapitre 1 (p. 16) et sera davantage explicitee au chapitre 7.
Bien sur, il faut preciser les parametres du prior beta, disons a > 0 et b > 0 :

[Bla, b]

ex ga-l

(1 _

(})b-l

(2.9)

Les parametres des lois a priori decoulent de l'expertise reconnue et sont


ponctuels, c'est-a-dire sans incertitude. La litterature scientifique les designe
souvent sous Ie nom d 'tujperparametres.
2 L'expression signature fonctionnelle traduit I'idee que la relation rnathematique en main
constitue la partie essentielle d'une densite de probabilite. II ne reste plus qu'a la normaliser.

28

Pratique du calcul bayesien

Comment determiner les hyperpararnetres d 'un prior beta? RappeIons que le parametre 8 (eq. 2.8) represente la probabilite qu'une annee calendaire, choisie au hasard, voit au moins une avalanche debouler sur le site de
Montroc . Ces annees noires sont plut6t rares, sinon Ie probleme de decision
n'aurait aucun sens. Pour l'exemple , imaginons qu'un specialiste des avalanches
accorde une chance sur dix a 8 de depasser la valeur 0.05 et cinq chances sur
cent, d'etre inferieure a la valeur 0.01. Ces paris lui sont propres et temoignent
de son savoir. Pour l'analyste, l'expert a fourni les quantiles 8go ~ 0.05 et
85 ~ 0.01. A partir de ceux-ci, une methode numerique lui permet de determiner les hyperparametres a et b: a ~ 3.82 et b ~ 124.1 (voir chapitre 7, p. 135).
Ces valeurs ne varient que si l'expert change d'avis, ce qui est son droit. Tant
qu'il ne Ie fait pas, elles sont connues sans incertitude.
La regle de Bayes reactualise cette expertise en tenant compte des donnees :
x = 6 pour n = 150. La distribution a posteriori de 8 est encore une densite
beta (interet de la conjugaison) , dont les parametres integrent l'expertise et les
observations, c'est-a-dire toute l'information disponible :
81k, n, a, b rv dbeta (81x + a, n - x

+ b)

(2.10)

La figure 2.1 montre le prior et le posterior ainsi obtenus.

40,---

-,----

---,---

----,-

0.01

0.02

0.Q3

----,-

,------

-,----

---,---

----,-

0.06

0.07

0.08

----,-

---.,

35

30

:B

25

~ 20
2

.~

~ 15

10

0.04

0.05

0.09

0.1

Figure 2.1 - Avalanche de Montroc : Ie mod ele beta-binomial.

2. Decision en avenir incertain : l'avalanche de Montroc

29

La distribution predictive a posteriori


Le probleme decisionnel, autoriser ou refuser de declarer la zone constructible, doit etre pose dans une perspective predictive. Cette decision, dont les
consequences concernent les h annees futures, est fondee sur les informations du
passe, ce qui justifie les calculs presentes ci-apres. On pourrait alors s'interroger
sur l'apparente contradiction entre l'hypothese iid et la pretention de prevoir
l'avenir en se servant du passe. En fait, le lien entre le futur et le passe s'appuie
sur la connaissance du parametre (). L'idee est la suivante. On s'interroge sur la
probabilite d'observer Y annees noires dans les h prochaines annees sachant
que, dans le passe, on en a reellement observe x en n annees. Y est une variable
aleatoire discrete prenant ses valeurs dans l'ensemble n (Y) == {O, 1, ... ,h}. La
distribution predictive a posteriori donne les chances de chacune des occurrences yEn (Y) en impliquant les acquis (a,b, n, x) et l'horizon de prevision
envisage (h). On l'obtient en integrant la distribution jointe de Y et () sur toutes
les valeurs possibles de () (voir chapitre 1, eq, 1.9) :

[Y = ylh, a, b, n, x] = ([yIO, h] [Olx, ti, a, b] dO

Je

(2.11)

- [yl(), h] est la probabilite de y donnee par la loi binomiale (eq, 2.5),


- [()Ix, n] est lc posterior beta obtenu ci-dessus (eq, 2.10)
L'integration (eq, 2.11) ne pose aucun probleme, La distribution predictive
a posteriori du modele beta-binomial est la distribution de Polya :

[Y == y Ih ,a, b,n, x ]==(h)B(y+x+a,h-y+n-x+b)


B (x + a,n - x + b)
y

(2.12)

Remarque 2.6 II est important de noter que la calcul de la distribution predictive a posteriori est realise en integrant un produit de distributions de probabilite, En d'autres mots, il faut tenir compte des constantes de normalisation.

La figure 2.2 montre la distribution de Polya pour quatre horizons de prevision.


La probabilite d'observer au moins une annee noire a l'horizon h est le
complement de n'en observer aucune

p (h)

[Y 2 1Ih,a,b,n,x]
1 - [Y == Olh, a, b, n, x]
1- B(x+a,h+n-x+b)
B(x+a,n-x+b)

(2.13)

Maintenant nous sommes en mesure d'appliquer notre regle de decision


(eqs, 2.2 et 2.4) avec differents scenarii 0 1/02 (fig. 2.3). On voit que refuser de
rendre le site de Montroc constructible (decision d2 ) est une decision rationnelle
des que l'on envisage un horizon de prevision compatible avec un projet de
lotissement (p. ex. 20 ans ou plus).

30

Pratique du calcul bayesien

h = 5 ans

08

0.6

~ 0.6
:c
m

0.4

0.4
0.2

0.2

4
1
2
3
Nombre d'arneesnoires :y

h = 20 ans

0.5
0.4

9 10

h =30ans

0.3

'"
z 0.3

02

02

o,

0.1

0.1
0

1 2 3 4 5 6 7 8
Nombre d'arneesnoires : y

0.4

.QJ

h = 10 ans

0.8

5
10
15
Nombre d'aonees noires : y

20

5
10
15
20
25
Nombre d'annees noires: y

30

Figur e 2.2 - Avalanche de Montr oc : dist ribut ion de Polya pour quatre horizons de
prevision.

D iscussion

L'hypoth ese ii d, fond atrice du raisonnement , est discutable. Comment en


effet soute nir que le processus est sans memoire et que e est invariant sur
la periode 1843 --> 1992 + h ? Le modele beta-binomial est done critiquable.
Cependant, da ns l'etat act uel des connaissances, l'hypoth ese ii d n'est pas plus
discutable que son contraire et c'est peut-etre la seule qui soit compatible avec
la pauvrete de l'information conte nue dans l'enonce du problerne. Dans
Ie cas OU cet te hypothese serait rejetee, il faudr ait alors developp er un modele
beaucoup plus sophist ique. Neanmoins, nous sommes persuades que si le conseil
municipal de Chamonix avait pu beneficier de l'inform ation generee par ce
modele, il aurait refuser de prend re le risque d'un drame humain .

2.3. 2

Le modele gamma-P oisson

La distribution a posteriori

Si on considere que la periode 1843-1992 est la periode unite (150 ans), alors
l = 1 (eq. 2.7) et la vraisemblance s'ecrit (eq. 2.6) :

[X = XIA] ex AXexp (- A)

(2.14)

2. Decision en avenir incertain : l'avalanche de Mont roc

20.----

- .-

,...---

- .-

,...---

31

-,

18
16

14

10

15

20

25

Figure 2.3 - Avalanche de Montroc : regie de decision.


On voit que la forme fonctionnelle d'une distri bution de P oisson est la merne
que celle d'une densite gamma. Ceci suggere de decrire l'in certit ude a priori
sur le par ametre de Poisson, ici A, a l'aide d'une densite de probabilite gamma
dont il fau t fixer Ie par metre de forme, a > 0, et Ie par am etre d 'echelle, b 0 :

[Ala,b] ex Aa - 1 exp (- bA)

(2.15)

Remarque 2.7 Dans cette formulat ion de la distribution gamma, E (Al a, b) =


al b et V (Ala, b) = alb 2 .
La regie de Bayes fournit la distribution a posteriori du par ametre de Poisson :
(2.16)
AIH ", dgamma (Alx + a, 1 + b)
ou la let tre H repr esent e to utes les hypo th eses, notamment les hyperparametres
a et b, et les donn ees, ici le nombre d'ann ees noires , x .

La distribution predictive a posteriori


Soit Y, la variable aleatoire nombre d'annees noires a Mont roc dans les
h prochaines annees. On sait qu'on en a observe x = 6 sur une periode I de 150
ans. Dans l'ann exe B, on montre que la distribu tion predict ive a posteriori est

32

Pratique du calcul bayesien

une loi binomiale negative dont la distribution de probabilite s'ecrit

(2.17)

ou
7r

== h~1~b'

r == x

+a

(2.18)

Dans le cas de Montroc, meme avec des priors non informatifs, les modeles
beta-binomial et gamma-Poisson produisent une aide a la decision vraiment
similaire a celIe montree a la figure 2.3.

Epilogue
Dans un contexte decisionnel, lorsque les enjeux sont importants, la quantification du risque attachee a chacune des decisions en competition est une
etape obligatoire. Dans cette perspective, la modelisation statistique bayesienne
mobilise les donnees disponibles et l'expertise reconnue pour fournir une information utile au decideur. La credibilite du paradigme bayesien reside dans sa
transparence et dans la rigueur de la demarche. Les hypotheses sont sur la
table et la regle de Bayes assure la coherence du raisonnement. La puissance
de cette approche est renforcee par la distribution predictive a posteriori qui
n'a pas d'equivalent classique. Ainsi, la distribution de Polya est la distribution
predictive a posteriori du modele beta-binomial. Ce dernier permet de traiter
des problemes OU l'observable est une variable aleatoire dichotomique : I'evenement d'interet se realise ou ne se realise pas. Ce modele est approprie quand
la succession des observations constitue un processus de Bernoulli, le nombre
d'essais etant fixe. La loi de Poisson etant un cas limite de la loi binomiale, le
modele gamma-Poisson s'applique quand l'evenement dichotomique d'interet
est rare. Sa distribution predictive a posteriori est la loi binomiale negative.
Meme si l'hypothese processus de Bernoulli n'est pas toujours facile a justifier, ces modeles simples (mais pas simplistes!) sont utiles. Ainsi, la tragedie
de Montroc nous a permis de batir un contexte decisionnel, certes fictif, mais
riche d'enseignements. Bien que critiquable, la quantification du risque realisee
ci-dessus a du sens. En tout cas, elle aurait pu alimenter les debats et influer
sur la decision finale.
Une decision est rationnelle s'il est clairement etabli qu'elle participe a la
satisfaction de l'objectif declare en respectant un certain nombre de principes
juges essentiels. Ainsi, la clarte du dialogue entre l'analyste et le decideur ; la
pertinence des informations et le respect du cahier des charges sont des exigences qui nous semblent incontournables (Bernier et al., 2000). L'acceptation
de la methode par toutes les parties n'est pas la moindre des difficultes, Elle
repose en partie sur la comprehension qu'elles en ont et la representation graphique du modele va dans ce sens, C'est ainsi que Ie chapitre 3 precise la notion
de reseau bayesian et introduit les variables latentes et la modelisation hierarchique.

Chapitre 3

Introduction a la
modelisation graphique
Ie modele de
capture-recapture

Prologue
Les modeles graphiques associent la theorie des graphes, qui modelise des
reseaux, a la theorie des probabilites, qui quantifie l'incertitude. L'idee fondamentale est la modularite : un modele complexe est construit en combinant
des modeles simples. Les modeles graphiques eclairent parfaitement la notion
dindependance conditionnelle. Le modele dit de capture-marquage-recapture
constitue un exemple pedagogique d'autant plus intercssant qu'il recoit de nombreuses applications pratiques dans les sciences naturelles et humaines.

3.1

Introduction

Sans en formaliser la presentation, nous avons deja montre des modeles


graphiques dans les deux premiers chapitres. Ainsi, a la page 11 de la section 1.3,
nous avons rcprcscnte de trois facons differentes la probabilite conjointe d'une
observable Y et d'un parametre () prenant ses valeurs dans l'ensemble des etats
de la nature de dimension finie, 8. Nous avons retenu qu'un reseau bayesien, ou
DAG, represente un modele statistique parametrique a l'aide de nceuds relies
par des flechcs indiquant les liens de dependance entre des quantites incertaines.
Le DAG lc plus simple relie un parametre a une observable (fig. 3.1). Le
parametrc, (), et l'observable, Y, sont des nceuds stochastiques representee par

34

Pratique du calcul bayesien

des cercles ou des ellipses. La fleche indique une relation de filiation . En vocabul air e graphique, 8 est le nceud parent et Y est le nceud enf ant. Des que l'on
fixe 8 on peut generer des valeurs y de l'observable Y . C'est en ce sens que 8
joue le role d'une cause et que l'observation y joue Ie role d 'un effet ,
Apprendre quelque chose sur 8 revient a cherch er la loi conditionnelle de 8 sachant l'observation y en mobilisant eventuellernent une certaine expertise sur
8. Cela revient a invers er Ie sens de la fleche pui squ 'on remonte de l'effet vers
la cause (fig. 3.1).

Parame trc

Modele

Observ able

Inference

Observ ation

Figure 3.1 - Le DAG Ie plus simple.

Exemple 3 .1 Si Y est le t emps qui s'ecoule entre deux manifestations d'un


evenement dommageable, on peut le modeliser a l'aide d'une distribution exponentielle de parametre 8 :

[y I8] = 8exp( -8y)

'* E(Y) =

1/8

(3.1)

Si on ne disposait qu e d 'une seule observation (a deconseiller) , ce mod ele serait


represents par Ie DAG de la figure 3.1.

La figure 3.2 montre un DAG plus sophistique. Les fleches doubles indiquent
des operations logiques. Par exemple, p~ = P2 - m 2, r/ = T"J - ml . Les valeurs
fixees son t representees par des carte s ou des rect angles. Ainsi , P2 est une
const ante.

3.1.1

Vne courte digression

Dans la section 1.4 nous avons justifie Ie choix bayesi en , mais nous ne nous
sommes pas encore vraiment interreges sur la pertinence de l' approche probabilist e. En fait , si la st at ist ique permet d 'interpret er un phenomene naturel,
elle ne l'explique pas (Robert , 2006)! L'exemple suivant va nous permettre
d'illustrer le propos.

3. Introduction

a la modelisation graphique

35

Figure 3.2 - Un reseau bayesien plus soph istique.


Exemple 3.2 La troisieme loi de Kepler (1571-1630) , decouverte en 1618, repose sur l'analyse des donnees de Tycho Brahe (1546-1601) : quelle que soit
la planete, le carre de sa periode de revolution, T, divisee par le cube de son
demi grand axe, a, est un e constante. A l'epoque, Kepler disposait des donnees
pour six plan etes (fig. 3.3) . L'alignement (en coordonnees logarithmiques) est
remarqu able .

100

satcme

Jupiter .

10

ars +

Venus .
Mercu re

10

Demi grand axe (Terre = 1)

Figure 3.3 - La troisierne loi de Kepler.


Imaginon s qu 'un st atisticien d'aujourd'hui ignorant tout de l'astronomie
remonte le temps. Il propose aux conte mporains de Kepler une modelisation
probabiliste du phenomena observe (fig. 3.3). Personn e ne sait que la course des
planetes aut our du Soleil est det errninee par la loi de la gravitat ion universelle
de Newton. Alors Ie statisticien propose un modele d'echantillonnage sense pouvoir reproduire les observation s. Il opt e pour le modele norm al deja rencontre
au chapit re 1 (section 1.1) et davantage explicite au chapitre 9 (section 9.2).

36

Pratique du calcul bayesien

ln c, == In17+jJlnTi +ci,

e,

rv

iid

dnorm(O,a)

Ce modele probabiliste et le traitement statistique bayesien qui en decoule


(Ie prior est non informatif) conduisent aux resultats suivants (tableau 3.1).

ic
jJ

17
a

2.5
0.650
0.976
0.014

50
0.665
1.003
0.025

97.5
0.681
1.032
0.065

Tableau 3.1 - La troisiemc loi de Kepler.

Pour aboutir a la troisicme loi de Kepler, le statisticien devrait oublier


les incertitudes et decreter que 17 == 1 et jJ == 2/3. Le statisticien ne se le
permettra pas. Ainsi, comme le fait remarquer (Robert, 2006), apposer un
modele probabiliste sur un phenomene inexplique peut paraitre tres reducteur.
II est vrai que quand on connait la mecanique newtonienne, notre modele de
regression semble d'autant plus demuni qu'illui est impossible de reconstruire
la loi de la gravitation universelle (meme pas la troisieme loi de Kepler) a partir
des observations. En d'autres termes, un modele probabiliste n'explique jamais
le phenomena reel d'interet ! II se contente d'en fournir une representation a des
fins operationnelles, Uranus u'etait pas connue a l'epoque de Kepler, mais, en
mode predictif, notre modele calcule sa distance au Soleil a partir de sa periode
de revolution. L'erreur relative mediane est inferieure a 2 %! Ca ne vaut pas
la loi de Kepler, mais ce n'est pas si mal si on n'en dispose pas.
Bien entendu, l'approche probabiliste exige que le modele d'echantillonnage
choisi convienne au probleme etudie. Ce choix est capital! Le metier et le
bon sens sont ici des atouts precieux.

3.2

Principe de la modelisation graphique

Le lecteur interesse trouvera dans (Cowell, 1998) une excellente introduction a la modelisation graphique, notamment l'exemple 3.3 dont sont issues les
figures 3.7 a 3.9.

3.2.1

L'independance conditionnelle

La figure 3.4 illustre la notion tres importante d'independance conditionnelle. Pour apprendre quelque chose sur Z, il n'est pas necessaire de considerer
Y si on dispose de X.
On notera

(ZIX == x) .L (YIX == x)
ou, plus simplement

(3.2)

3. Introduction it la modelisation graphique

(Z 1. Y)

IX

37

(3.3)

qui se lit : Z est conditionnellement independant de Y relativement it


l'information X == x ,
En d'autres mots, disposant de l'information X == x, un apport d'information sur Y, soit Y == y, ne modifie pas l'incertitude sur Z

[ZIY == y, X == x] == [ZIX == x]

(3.4)

Figure 3.4 - V n heritage : Ie nceud Zest conditionnellement independant du nceud


Y sachant le nceud X.

A contrario, la figure 3.5 montre que pour apprendre quelque chose sur Z
il faut considerer les noeuds X et Y.

Figure 3.5 - Une naissance : le nceud Z depend des nceuds X et Y.

La figure 3.6 montre que Zest independant de X sachant Y.

Pratique du calcul bayesien

38

Figure 3.6 - Une chaine : le nreud Zest independant du nceud X conditionnellement


au nceud Y.

3.2.2

Du reseau bayesien

a la

loi conjointe

Un reseau bayesien (DAG) a une structure definie comme suit: a chaque


nceud X est associee une distribution de probabilite conditionnelle dont Ie
conditionnement porte uniquement sur les parents du nceud
Pr (Xlpa (X))

(3.5)

La distribution jointe d'un ensemble de nceuds, disons U, est le produit de

toutes ses distributions conditionnelles (fig. 3.7) :

Pr(U)

==

IIpr(Xlpa(X))
x

Figure 3.7 - Distribution jointe d'un reseau bayesian.

(3.6)

3. Introduction

a la

modelisation graphique

39

Exemple 3.3 Soit U l'ensemble (conjonction) des nceuds :


U == {A,B,C,D,E,F,G,H,I}.
Pr (U) == Pr (A) Pr (B) Pr (C)
x Pr (DIA) Pr (EIA, B) Pr (FIB, G)
x Pr (GIA, D, E) Pr (HIB, E, F) Pr (JIG, F)

(3.7)

II est interessant de noter que la marginalisation sur un nceud sans descendant revient a enlever ce nceud du reseau ainsi que tous les liens y aboutissant.
Par exemple en marginalisant sur le nceud H (fig. 3.8) :
Pr (A, B, G, D, E, F, G, I) ==

:L Pr (U)

(3.8)

Figure 3.8 - Marginalisation sur un nceud.

On peut toujours ecrire un roseau bayesicn en placant les lettres de telle


sorte que les parents d'un nceud le precedent dans la liste. Un tel arrangement
est une typologie. Pour un DAG donne, il y a de multiples typologies. Ainsi,
par rapport a la figure 3.7, (A, B, C, D, E, F, G, I), (B, A, C, F, E, D, I, G) et
(C, A, B, E, D, F, G, I) conviennent.

Deux proprietes markoviennes


1. Independonce conditionnelle. Un nceud est conditionnellement independant de ses non-descendants etant donne ses parents :

(E -.L nd (E)) Ipa (E)

(3.9)

En d'autres mots, disposant de l'information pa (E), un apport d'information sur nd (E) ne modifie pas l'incertitude sur E.

40

P ratique du calcul bayesien


2. Modula rit e (fig. 3.9). La loi d 'u n nceud sa chant le reste du resea u ne
depend qu e de ses par ents, de ses enfants et des copar ents de ses enfant s.
PI' (EIA, B , C, D , F, G, 1)

= PI' (EIA, B , D , G)

(3.10)

00 0

r!J t5'(j
K
~

\8

Figure 3.9 - Modularite : loi d'un nceud sachant Ie reste du reseau.


Dan s le chapit re 8, nous appliquons ces prop rietes - en det aillant les operat ions - a I'exemple des sa umons (voir p. 155 et suivantes) .

3 .2.3

DAG et variables latentes

Un modele st atisti que bayesien est utilement represent e par un DAG . Les
qu ant ites incert ain es constituent des noeuds stochas tiques. Les parametres du
mo dele sont des nceuds san s par ent et les observables sont des nceuds sa ns
enfant . Tout nceud stochastique qui n 'est ni un par am etre ni une obser vable
est une vari able lat ente. Ainsi, dan s la sect ion suivante, nous verr ons qu e le
cardinal! d 'un ensemble qu 'on ne peu t recenser apparait comme une varia ble
latent e dan s le mod ele dit de copture-m arquaqe-recopture. Le plu s souvent, l'int roduct ion de ce ty pe de variable dans le modele est justifiee pa r le souci de
prendr e en compte des influences cachees qui affectent l'observable (voir chap.
8). Quan d on le peut (c'est une question de clarte du DAG ), les paramet res
du mod ele forment la couche super ieure du DAG et les observa bles, la couche
inferieure, Les variables latentes constit uent une couche interrnedi aire, pri se en
sa ndwich ent re les par am etres et les observables, qui confere au modele une
st ructure hierarchique.
1

Le ca rd ina l d ' un ensemble fin i E des ign e Ie nombre d 'element s de E .

3. Introduction a la modelisation graphique

3.3

41

Le modele de capture-recapture

Dans son application la plus courante, il s'agit d'estimer la taille d'une


population statistique hors recensement.

Remarque 3.1 Bien que nous soyons encore formellement dans la premiere
partie de cet ouvrage, nous devrons utiliser l'ordinateur pour resoudre le modele
de capture-marquage-recapture. Que le lecteur veuille bien ne pas trouver la
une incoherence de notre part. La locution de la plume a la souris doit
etre comprise comme un cheminement et non comme une separation nette.
Le recours a l'ordinateur est done preponderant dans la seconde partie de cet
ouvrage sans etre completement exclu de la premiere.

3.3.1

Mise en situation

Le recensement est une operation statistique de denombrement d'une population generalement realise a des fins decisionnelles. Les premiers recensements
connus ont eu lieu des l'Antiquite, notamment a Rome, dans le but de connaitrc
la richesse du pays, afin de repartir l'impot. Mais une telle operation exige du
temps et consomme des moyens importants quand elle n'est pas tout simplement impraticable. Uno alternative au recensement consiste a estimer la taille
de la population d'interet a partir d'un double echantillonnage. On preleve au
hasard, c'est-a-dire on peche'', un certain nombre d'individus que l'on remet
dans leur milieu apres les avoir marques d'une manierc quelconque. Apres brassage, un second echantillonnage fournit un lot d'individus dont certains sont
marques - ils sont recaptures - d'ou la denomination du modele. Sous certaines conditions, les effectifs des deux peches et les recaptures suffisent pour
obtenir la distribution a posteriori de la taille de la population rl'interet. Ce

modele trouve de nombreuses applications pratiques dans les sciences naturelles


et humaines.

3.3.2

La modelisation

Soit a estimer la taille, 1], d'une population donnee. II peut s'agir du nombre
de poissons dans un lineaire de riviere, du nombre de sans-abri dans une ville,
du nombre de chenes dans une foret, du nombre de declarations suspectes dans
le ressort d'un percepteur, etc. En d'autres mots, 1] est le cardinal inconnu d'un
ensemble bien defini qu'on veut inferer.
Une premiere peche fournit un certain nombre d'individus que l'on
marque d'une maniere quelconque avant de les relacher dans leur milieu.
Soit ml ce nombre. Lors d'une seconde peche on prend P2 individus dont
m2 sont marques, c'est-a-dire recaptures.
2 Ce modele est tres utilise en pisciculture, notamment pour contr6ler des peuplements ou
s'assurer de I'efficacite des mesures de repeuplement.

42

Pratique du calcul bayesien

Hypotheses

A chaque individu du milieu (indice i), on associe une variable aleatoire


de Bernoulli, disons Yik, qui prend la valeur 1 avec la probabilite 7Tik, s'il est
capture a la k-ieme peche (k == 1,2), et la valeur 0 avec la probabilite complementaire s'il ne l'est pas.
1. Ces variables indicatrices sont independantes et identiquement distribuees :

Vi,Vj # i,Vk: Pr(Yik == IIYjk) == Pr(Yik == 1) ==

7T

(3.11)

2. Les deux peches sont independantes :


(3.12)
3. II n'y a ni source, ni puits, ni emigration, ni immigration, c'est-a-dire TJ
est invariant, au moins pendant la duree des operations.
Un modele probabiliste de connaissance pour Y est fonde sur
une loi de Poisson de paramctre A > 0, lui-meme tire dans une
loi gamma dhyperparametres a > 0 et (3 > O. Cela revient a dire
que la distribution de TJ est une binomiale negative. Un prior non
informatif est obtenu en posant a == (3 ---+ 0 =} [A] ex A-1. La
loi binomiale negative impropre de ce prior non informatif a pour

esperance 1 et a une variance infinie.


Un premier modele dechantdllonnage mime la collecte des donnees
Sous ces hypotheses :
- les ml individus marques lors de la premiere peche sont les succes obtenus
a l'issue d'une sequence de TJ cprcuvcs de Bernoulli a TJ fixe; la distribution
de m, est binomiale, de probabilite 7T et d'ordre TJ
(3.13)
- les m2 individus recaptures lors de la seconde peche sont les succes obtenus dans une sequence de m.; cpreuvcs de Bernoulli a ml fixe
(3.14)
- les individus non marques et captures lors de la seconde peche, soit P~ ==
P2 - m2, sont les succes obtenus lors d'une sequence de TJ' epreuves de
Bernoulli OU TJ' == TJ - ml est fixe
(3.15)

a la

3. Introduction

modelisation graphique

43

Le DAG montre a la figure 3.2 (p. 35) representait, sans le dire, ce modele
dans lequel TJ I == TJ - m1 et P2' == P2 - m2
Puisque la distribution conjointe d'un reseau bayesien est egale au produit
des distributions de chaque nceud stochastique sachant ses noeuds parents, on
a:

La distribution a posteriori des parametres suit (regle de Bayes) :

En posant"
(3.18)

la vraisemblance s'ecrit :
\]
TJ!
S (
[S, C I1f, A,
TJ ex: (TJ _ c)! 1f 1 -

1f

)2TJ -

(3.19)

Un prior non informatif pour nest uniforme sur [0,1] et un prior non informatif pour A est proportionnel a A-1. Enfin, TJ est tire dans une loi de Poisson
de parametre A. En substituant dans 3.17, il vient :

[TJ, n , AIs, ]
c

ex:

A17-1exp(-A) S(

(TJ _ c)!

1f

1-

()

)217-s
1f

1'12C

TJ

(3.20)

Une double integration par rapport aux parametres n et A fournit la marginale a posteriori de TJ :
1

f(TJ)

[TJls, c] = K x (TJ _ c)! B (s + 1, 2TJ - s + 1) 1'12 C (TJ)

(3.21 )

ou la constante de normalisation, K, peut etre definie sur une grille de


valeurs de TJ.
La marginale a posteriori de nest facilement obtenue via l'algorithme suivant:

1. fixer N et compteur < -1


2. tant que compteur est inferieur

a N,

repeter :

- tirer une valeur de TJ dans [TJls, c] ;


- tirer une valeur de nlTJ dans dbeta( nls
- compteur < -compteur + 1.
3

A l'issue des operations, on sait qu'il

+ 1, 2TJ - s + 1) ;

y a au mains c individus dans le milieu.

44

Pratique du calcul bayesien

Remarque 3.2 La fonction factorielle rend l'infini pour les grands entiers naturels (sur mon ordinateur, x! E N {:} x ~ 170). Un changement d'unite est
possible (par exemple, travailler en dizaine d'individus) a condition de remplacer la fonction factorielle par l'integrale d'Euler.
- La constante de normalisation s'ecrit :

K = B (8 + 1, 2c _ 8 + 1) +

LJ

1]=c+l

B (8 + 1, 21] - 8 + 1)
(17 - c) B (c, 17 - c)

(3.22)

- La marginale a posteriori de 17 suit :

[1]18, c] =

-k B (s + 1, 2c - s + 1) {:} 17 ==
K(~-c) B (8 + 1, 21] -

8 + 1) / B (c, 1] - c) {:} 1]

>c

(3.23)

Capture et recapture par un echantillonnage multinomial

A l'issue des deux peches, conditionnellement a 17, un individu quelconque


est necessairement dans un des quatre etats possibles : capture-capture (cc),
capture-manque (cm), manque-capture (mc), manque-manque (mm). Les effectifs de ces quatre etats sont donnes dans le tableau 3.2 OU le nombre d'individus
jamais captures est inconnu.
1\11

m2

ml-m2

ill

P2 -m2

Total

P2

Total

17 - ml - P2 + m2
17 - P2

ml

17 - m.;
17

Tableau 3.2 - Une truite est capturee (c) ou manquee (m).

Le tableau 3.3 donne les probabilites associees


l\ll
c
m

c
1r'2

(1 - 1r) 1r

a chacun de ces quatre etats,

m
1r (1 - 1r)
(1-1r)'2

Tableau 3.3 - Probabilites des etats,

Des lors, les effectifs du tableau 3.2 sont vus comme le resultat de 17 tirages
independants dans une loi multinomiale de parametre

La figure 3.10 montre Ie DAG dans lequel y represente Ie vecteur des effectifs. Clairement, 1r .L A. Le prior de 1r est une distribution beta de parametres
a et b et celui de A est une distribution gamma de parametrc p et q. Ils sont
non informatifs en posant p == q == 0 et a == b == 1.

3. Introduction

a la modelisation graphique

45

Figure 3.10 - Le modele de capture-recapture: echantillonnage multinomial.

La vraisemblance s'ecrit :

[yl1T,7]J

ex:

7]!
1T s (1_1T)2 rJ(1] - s + m2)!

(3.24)

et ... c'est le meme modele que ci-dessus (eq, 3.19).

3.3.3

Applications

Estimation de l'incidence de la tuberculose pediatr'ique en BasseNormandie


Les objectifs de cette etude (Brouard et al., 1995) etaient de verifier la pratique de la declaration obligatoire (DO) et le respect des critercs de declaration,
d'estimer l'incidence de la tuberculose pediatrique en Basse-Normandie par la
methode de capture-recapture et ainsi I'exhaustivite de la DO. Deux sources
de donnees ont ete explorccs :

1. les DO enregistrees dans les directions departementales des affaires sanitaires et sociales (DDASS) des trois departements de la Basse-Normandie;
2. les enregistrements d'isolement de Mycobacterium tuberculosis (MT) sur
l'ensemble des laboratoires d'analyse medicale (LAM) de Basse-Normandie.
Cette enquete, du type retrospectif, est fondee sur les cas pediatriques identifies entre le 1er janvier 1992 et le 30 juin 1993.
Les resultats sont les suivants (tableau 3.4) OU :
- R == 6 est le nombre de cas diagnostiques selon la source 1 (DO);
- S == 8 est le nombre de cas diagnostiques selon la source 2 (LAM) ;
- C == 4 est Ie nombre de doublons.
Pour estimer le nombre de cas, N, les auteurs utilisent les formules elaborees
par Chapman et Seber en 1949 :

46

Pratique du calcul bayesien

LAM
LAM
Total

DO

DO

Total

N2

N1

Tableau 3.4 - Tuberculose pediatrique en Basse-Normandie.

ic...;

N ZI-a/2VVar (N)

(8+1)(R+1)
-1
C+ 1
(8 + 1) (R + 1) N 1N2
(C+1)2(C+2)

Var (N)

(3.25)
(3.26)
(3.27)

Les resultats sont les suivants: N == 11.6, Var (N) == 3.36 et les bornes d'un
intervalle de confiance a 90 % sont respectivement 8.6 et 14.6 cas. Notons que
les auteurs les presentent de facon un peu plus optimiste puisqu'ils concluent :
par la methode capture-recapture, le chiffre des tuberculoses pediatriques
est cstime a 11, le calcul de la variance donne un ecart de ce chiffre de plus ou
moins 3 (11 3) .
Avec prior non informatif, le modele de capture-recapture developpe donne
les resultats suivants :
a == 0.1
N
1T

Pa/2
10
0.30

Pso

13
0.55

Pl-a/2
20
0.75

Tableau 3.5 - Estimation bayesienne de N.

Force est de constater que l'estimateur classique sous-estime le nombre


moyen de cas et sa dispersion!

Evaluation de l'incidence du paludisme dans les arrnees francaises en

1994
Cette etude (Deparis et al., 1997) est fondee sur deux systemes reglementaires de surveillance epidemiologique :
- le recueil et l'exploitation des donnees epidemiologique des arrnees (REDEA);
- la surveillance epidemiologique specifique du pal udisme (SESP).
Ces deux sources de donnees sont supposees independantes (tableau 3.6).
Pour estimer Ie nombre de cas, X, les auteurs utilisent les formules elaborees
par Chapman et Seber en 1949. Soit a le nombre de cas declares dans les

3. Introduction

REDEA
REDEA
Total

a la

modelisation graphique

SESP

SESP

Total

238
186
424

242

480

47

Tableau 3.6 - Paludisme dans les armees francaises (1994).

deux systemes (a == 238) ; b, le nombre de cas declares uniquement a la SESP


(b == 186); c, le nombre de cas declares uniquement au REDEA (c == 242).

(a+b+1)(a+c+1) -1
a+1
(a + b + +1) (a + c + 1) bc
(a+1)2(a+2)
Un intervalle de confiance
mateur X) :

a 95 % suit

(3.28)
(3.29)

(hypothese de normalite sur l'esti-

le95 == x 1.96sx
Sur cette base, l'incidence annuelle du paludisme s'eleve
intervalle de confiance a 95% egal a [803, 905].

X
7r

q5

Q50

Q95

750
0.42

860
0.52

1030
0.63

(3.30)

a 853 cas

avec un

Tableau 3.7 - Paludisme : estimation bayesienne du nombre de cas X.

Ici aussi, I'estimateur classique sous-estime le nombre moyen de cas et sa


dispersion!

Epilogue
Un modele statistique bayesien mime la nature en ce sens qu'il vise a genercr
des donnees similaires aux observations reelles. Ce faisant, il permet d'interpret.er le phenomene d'interet, souvent dans une perspective decisionnelle. Un
roseau bayesien ou DAG est une representation graphique astucieuse du modele.
D'une part, il aide a sa conception: d'autre part, il favorise la multidisciplinarite, car le dessin est un langage accessible a tous. Dans le DAG, un parametre
est un nceud stochastique sans parent et une observable, un nceud stochastique
sans enfant. Les variables latentes sont des quantites incertaines, qui ne sont ni
l'un ni l'autre. Elles constituent une couche interrnediaire, prise en sandwich,
entre les parametres et les observables. Une Heche indique un lien causal entre

48

Pratique du calcul bayesien

deux noeuds stochastiques : l'etat du nceud recepteur est conditionnel a celui du


nceud emetteur, L'inference bayesienne consiste a inverser le sens des fleches,
c'est-a-dire a remonter vers les parametres (causes) en partant des observations (effets), en tenant bien sur compte de l'expertise (priors). Le DAG met
bien en evidence les notions d'independancc conditionnelle et de modularite, La
distribution conjointe de tous les nceuds stochastiques est simplement egale au
produit de chaque nceud connaissant ses nceuds parents. Elle s'exprime donc en
termes de distributions conditionnelles et marginales. Pour apprendre quelque
chose sur un nceud stochastique, il suffit de connaitre ses parents, ses enfants et
les coparents de ses enfants. C'est modularite est mise a profit dans les logiciels
comme WinBUGS.
Nous avons illustre les avantages du reseau bayesian en nous appuyant sur
le modele de capture-marquage-recapture. C'est un modele tres utile pour les
sciences naturelles et humaines puisqu'il permet d'inferer la taille d'une population statistique inaccessible par recensement. S'il est conceptuellement facile
a comprendre, il necessite deja un recours a l'ordinateur, car une solution analytique complete implique d'integrer la relation (3.20) par rapport a 1r et 7], ce
que personne ne sait faire. D'une maniere tres generale, les modeles realistes
n'ont pas de solution analytique. Les reseaux bayesiens sont done indissociables
des methodes modernes de calcul sur ordinateur. Dans le chapitre 4, nous presentons quelques methodes de reference du calcul numerique stochastique. Pour
cela, nous nous appuierons sur le modele luieoire et quelques modeles lineaires
generalises.

Chapitre 4

Pratique du calcul
des lois a posteriori
Prologue
Qui dit modeles rcalistes, dit aussi difficultes calculatoires. Le but de ce quatrieme chapitre est de donner un apercu des principales familles de methodes
d'approximation des distributions a posteriori. Dans lc cas tres particulier OU
le prior est non informatif et que la taille de l'echantillon est grande, la densite a posteriori peut etre approchee par une loi normale multidimensionnelle.
Cette approximation asymptotique repose sur les proprietes des estimateurs
du maximum de vraisemblance (section 4.2). A l'erc des ordinateurs personnels
puissants, cette approximation - fondee sur des hypotheses assez restrictives est avantageusement abandonnee au profit des methodes numeriques stochastiques. Ce sont d'abord les methodes de Monte-Carlo par chaines de Markov
(MCMC). Ces techniques de simulation avec dependance sont presentees en
section 4.3, notamment l'algorithme general de Metropolis-Hastings et Vechantillonnage de Gibbs. Ces deux algorithmes sont d'ailleurs implantes dans Ie
logiciel WinBUGS. Les techniques classiques de simulation avec independance
ou methodes de Monte-Carlo (MC), issues de l' echantillonnage potidere, avec ou
sans re-echantillonnage, ont eu plus rccemment des developpements importants
sous le nom generique de methodes des particules (section 4.4).

4.1

Introduction

Un modele de connaissance - on dit aussi modele d'echomiillonnaqe - est


une famille de lois de probabilite parametree par () E 8 OU 8, souvent appcle
ensemble des eiais de la nature, est de dimension finie : dim e == d E No. Par
consequent, le parametre () est tantot un scalaire (d == 1), tantot un vecteur
(d > 1). La notation est la meme, et c'est le contexte qui fait la difference.

50

Pratique du calcul bayesien

Disposant d'un modele de connaissance et d'une loi a priori pour (), la


reactualisation du savoir sur () associee a une information y est donnee par
la regle de Bayes (chap. 1, p. 12). Cette distribution a posteriori est Ie socle
sur lequel repose l'aide a la decision en avenir incertain. Ainsi, la distribution
predictive a posteriori (chap. 1, p. 12) quantifie les chances d'observer une
future valeur fj quand on dispose de l'information y :

Wly]

l WIB]

[Bly] dB

(4.1)

D'une maniere plus generale, le statisticien bayesien est amenc


des integralcs de la forme
E (h (B) Iy) =

Je h (B) [Bly] dB =

Ie h (()) [yl()] [()]d()


Ie [yIB] [B]dB

a calculer
(4.2)

ou h (()) est une fonction reelle,


Pratiquement, des solutions analytiques n'existent que pour des modeles
particuliers, les structures non hierarchiques de la famille exponentielle (Parent
et Bernier, 2007). Certes, certains logiciels offrent des algorithmes dintegration
numeriqucs de bonne qualite, Mais, on l'a vu, les modeles bayesiens realistes
prcsentent souvent une structure hierarchique impliquant des variables latentes.
Du point de vue calculatoire, les variables latentes peuvent etre considerees
comme des parametres supplementaires (::::} dim 8 1). Or l'imprecision des
methodes dintegration numerique croft dramatiquement avec la dimension de
8 (Robert, 2006). Des lors que Ie nombre des quantites incertaines (parametres
+ variables latentes) excede quelques unites, les methodes dintegration numeriques sont supplantees par les methodes numeriques stochastiques d'approximation, MCMC et particules.
Le principe de base des methodes numeriques stochastiques d'approximation est simple.
Soit a rcsoudre l'integrale (4.2). Si on considere une suite de variables aleatoires independantes (()1, ... .U": ... ) et distribuecs selon la loi a posteriori
de (), on obtient un echantillon de nombres reels en tirant au hasard une valeur dans chacune d'entre elles. La moyenne arithmetique de leur image par la
fonction h, soit
G

~ Lh (B i )
i=l

converge (presque surement ) vers la cible quand G


nombres), ce qui justifie l'approximation :
G

~ ~ h (B i ) ~ E (h (B) Iy) =

---+ 00

(loi des grands

h (B) [Bly] de

(4.3)

1 La convergence presque sure est analogue a la convergence simple de l'analyse mathematique, sauf en quelques points. Elle entraine la convergence en loi.

4. Calcul des lois a posteriori

51

De plus si la variance a posteriori de h (()) est finie, disons a 2 > 0, le


theoreme central limite nous dit que cette moyenne arithmetique est distribuee
selon une loi normale, de variance a 2 /G et que l'ordre de grandeur de l'erreur
relative est 1/V'G, ce qui permet de calculer des intervalles de confiance sur
I'integrale.
Le principe de base des methodes de Monte-Carlo par chaines de Markov
est analogue si ce n'est que, cette fois, la chaine (()l, ... .B": ... ) est generee
par un noyau de transition [OJ I()j-l] dont on considere la moyenne
(4.4)
Cette moyenne converge vers la cible quand G ---+ 00 pour autant que Go
soit assez grand et que la chaine de Markov possede la propriete dite d'ergodiciu: (Robert et Casella, 1999), une propriete generiquement verifies sous des
conditions peu strictes pour les chaines de Markov homogenes. L'echantillon
prealable de i == 1 a i == Go, laisse de cote, s' appelle echantillon de chauffe.

Remarque 4.1 Les processus stochastiques sont des modeles permettant d'etudier les phenomenes aleatoires evoluant au cours du temps. Parmi ceux-ci, les
chaines de Markov sont les modeles (a temps discret) les plus simples, lorsqu'on
abandonne l'hypothese dindependance. Pour plus de details, on consultera avec
profit (Foata et Fuchs, 1998).
Remarque 4.2 II importe de remarquer que la formule 4.3 s'applique tout
aussi bien au calcul d'une probabilite P(A) == Prob(() E A) par Ie biais d'une
c
.
. di
. h(O) == I A (0) == 01 si
.
tonction
In
icatrice
si e
eE
t/:. A A
' puisque
:
Prob(B E A)

IA(B) [Bly] dB

(4.5)

Certes, le praticien des sciences experimentales est souvent plus interesse


par les sorties des modeles que par les mathematiques qui les soutiennent et
c'est certainement une des raisons du succes planetaire du logiciel WinBUGS
(Spiegelhalter et al., 2003). Ce logiciel, gracieusement mis a la disposition de
la communaute scientifique, permet un apprentissage rapide du raisonnement
conditionnel bayesien, II distingue clairement la partie creative, c'est-a-dire
l'elaboration du DAG, element de l'interface graphique Doodle, de la partie
calculatoire. Pour son utilisateur, l'estimation des quantites incertaines est
transparente. II lui suffit de savoir qu'une marche aleatoire dans l'ensemble
des etats de la nature, 8, genere une chaine de Markov ()l, ... ,()j, . . . ,()N et
que, hormis une periode dite de chauffe , a ecarter puisque cette chaine part
d'un point arbitraire, la repartition des () ainsi generes converge en distribution

52

Pratique du calcul bayesien

vers sa cible. Par exemple, l'histogramme marginal normalise de chaque composante de () approche d'aussi pres que l'on veut (en augmentant Ie nombre de
simulations N) la loi marginale a posteriori de cette composante.
WinBUGS est donc un excellent outil pedagogique qui peut certainement
resoudre pas mal de vrais problemes. Mais, comme ses concepteurs, nous defendons l'idee que l'emploi intelligent de la souris demande un minimum de
comprehension des methodes sous-jacentes. Elles sont indispensables a l'etudiantjchercheur qui souhaite ecrire ses propres codes, par exemple en R (R
Development Core Team, 2009).
Le lecteur interesse par lcs fondements theoriques et les subtilites des methodes de calcul bayesien consultera avec profit les ouvrages specialises, notamment : (Tanner, 1996), (Robert et Casella, 1999), (Chen et al., 2000), (Gelman
et al., 2004), (Robert, 2006), (Parent et Bernier, 2007).

4.2

Quand Ia vraisernblance fait Ie posterior

L'inference bayesienne mobilise deux sources d'information : d'une part les


donnees, via la vraisemblance, et d'autre part le savoir de l'expert via la distribution a priori sur les parametres et via les hypotheses structurelles sur
lesquelles repose le modele utilise. Un exemple tres simple va nous montrer que
quand la taille de I'echantillon est grande (n - t (X)) ou quand Ie prior est tres
vague, il y a un lien lineaire approche entre la log-densite a posteriori et la logvraisemblance. Regardons les poids respectifs du prior et de la vraisemblance
sous deux configurations.
1. Quand la taille de l'echantillon est grande (n ---t (X)), l'influence du prior
s'estompe et c'est la vraisemblance qui fait le posterior.
Exemple 4.1 Soit y un rz-echantillon iid issu d'une distribution exponentielle parametree par () :

[yl()]

== ()n exp ( -ny())

Le prior conjugue est une distribution gamma

La reglc de Bayes donne la distribution a posteriori de () :

[()Iy, a, b] ex

()n+a-l exp (-

(ny + b)B)

On reconnait la forme analytique d'une nouvelle distribution gamma.


Si la taille de l'echantillon est telle que n a et n b (cette condition
est verifiee lorsque n ---t (X)), alors n+a-l ~ n et ny+b ~ ny. Dans ce cas,
le posterior et la vraisemblance ont la meme forme analytique. Comme

4. Calcul des lois a posteriori

53

la vraisemblance est dcfinie a un facteur de proportionnalite pres, on voit


apparaitre un lien lineaire approche entre la log-densite a posteriori et la
log-vraisemblance

[OIY, a, b] ex [yIO]

=?

In [OIY, a, b] == In [yIO]

+ cte

2. La vraisemblance fait aussi le posterior quand l'etat de connaissance sur


la problematique en main n'autorise qu'un prior tres vague, c'est-a-dire
quand le prior est peu informatif.

Exemple 4.2 Dans l'exemple 4.1, un prior vague est obtenu en faisant
tendre les parametres a et b vers o. La forme analytique de la densite a
posteriori devient
[Oly] ex on-l exp (-nyO)
Quand nest assez grand, alors n et n - 1 possedent le meme ordre de
grandeur : on retrouve alors Ie lien Iineaire approximatif entre la log
densite a posteriori et la log-vraisemblance.

4.2.1

Approximation asymptotique de la densite

a posteriori
Dans un probleme realiste, la quantite de donnees n'est jamais infinie. Dire
que la taille n de I'echantillon est grande est une assertion reposant sur les proprietes asymptotiques du modele en main. Ces proprietes ont ete utilisees tres
tot en Statistique. Le premier utilisateur en a ete Laplace qui, independamrnent
de son auteur historique, a retrouve la formule de Bayes et utilise les principes
dinference bayesiens (Sivia, 1996). L'interet de ces proprietes asymptotiques
est d'etablir une relation lineaire approchee entre la Iog-densitc a posteriori
et la log-vraisemblance. Cette relation Iineairc est fondee sur des hypotheses
generales concernant cette vraisemblance lorsque n est grand. Nous en faisons
une presentation heuristique avant de preciser les conditions theoriques qui en
assurent la validite pratique. Pour simplifier, nous ne traiterons ici que le cas
d'un echantillon d'observations suppose iid. Nous le noterons y == (Yl, ,Yn).

Le parametre du modele d'echantillonnage est unidimensionnel


Soit un modele statistique bayesien caracterise par un parametre 0 unidimensionnel. La densite a posteriori de 0 est donnee par la regle de Bayes :

- [yIO] est la vraisemblance de I'echantillon y ;


- [0] est la densite a priori du parametre 0;

54

Pratique du calcul bayesien

- [y] est la constante de normalisation :

[y] =

[yle] [e] de

En prenant Ie logarithme des deux membres :


In [ely] == In [yle]

+ In [e] + cte

(4.6)

Supposons que la densite a posteriori de eest unimodale. Un developpement


de Taylor au voisinage de son mode, disons
donne/ :

e;,

e;

Pour Ie - I petit, on peut negliger les termes d'ordre superieur et en


tenant compte de la regle de Bayes (eq. 4.6) :

In[ely]

In [yle~] + (e -

e~) 8lna~le] + a~e[e] lo=oz


2

~ (e _ e*) 2 8 In [yle]

+2

-l-In

8e

8 In [e] I
+ 8e 2 ()=::()Z

[e;] + cte

"-v--'
cte

Si la densite a priori de e est plate au voisinage du mode


premiere est nulle en ce point (les derivees superieures aussi) :

e;, sa derivee

Dans le cadre asymptotique (n ---t 00), l'influence du prior sur le densite a


posteriori est tres faible et le mode de la vraisemblance, disons By, se confond
avec le mode du posterior,

e; :

1 ( e- e
Ay ) 2 8
In[ely] ~ In [yleAy ] + 2
ae 2 In[yle] Io=iJ + cte
y

Le terme impliquant la derivee premiere a disparu, car By est le mode de la

vraisemblance

(to In[yIell o=fjy =

0) .

En posant

On suppose que toutes les derivees existent.

4. Calcul des lois a posteriori

55

on obtient

(4.7)
Remarque 4.3 Le terme P
script en le notant

(By)

ne depend que des donnees. On simplifie le

Py .

Pour revenir ala densite a posteriori de (), il suffit de prendre l'exponentielle


des deux membres :

[ely]

~ cte x exp ( - ; (e _By) 2)

(4.8)

On reconnait la signature fonctionnelle d'une densite normale, localisee sur

By et de precision P (By) :

II est important de se rappeler que cette approximation n'est valable que


sous les hypotheses: n grand, un seul mode et prior plat au voisinage de celui-ci.

Exemple 4.3 On verifie sans peine que l'estimateur du maximum de vraisemblance d'un echantillonnage exponentiel iid est {) ~ l/Y. Un developpement de
Taylor jusqu'a l'ordre 2 de la log-vraisemblance autour de {) s'ecrit

In [yle] =In
OU

[YIB] - 2~2

(e-ef +o(h)

(h) rcprcsentc un infiniment petit par rapport a h == () - () :


lim o(h) ~ 0

h---+O

(4.9)

Puisque Ie premier terme du developpement est constant, on a done obtenu le


resultat approche suivant

[ely] c::: exp ( - 2~2 (e - Bf)

(4.10)

On reconnait le terme caracteristique d'une loi normale unidimensionnelle, de


moyenne {) ~ 1/Y et de precision T ~ n / {)2. A partir de donnees simulees
par n tirages aleatoires indcpendants dans une loi exponentielle de moyenne
J-L ~ 0.2, la figure 4.1 montre l'influence de la taille de l'echantillon sur la
qualite de l'approximation asymptotique du vrai posterior gamma par une
loi normale.

56

P ratique du calcul bayesian

15 r---,-------.------.---,--,r==
-

10

II

c::

= = =======n

1-

Posterior gamma

- Approximation normale

\~

5
b
/

0.05
3 ,----,-

0.1
------.-

2
(r)

II

c::

0 ---

0.15
-----.--

0.2

0.25

0.3

0.35

0.4

0.45

- ,-

- ,-

-,--

--,--

---,---

---,------,

/ - --- ./

0.5

.........

---"-=~-

- - - Posterior gamma
- - Approximation normale

0.05

01

0.15

0.2

0.25

0.3

035

0.4

0.45

0.5

Figure 4.1 - Approximation asymptotique du posterior d'un echantillonnage exponentiel (n = 30 et n = 3.)

Le parametre du modele d'echantillonnage est multidimensionnel


Soit () = (()1, ' " , ()d)T E 8 Ie par am etre d 'un mod ele statist ique bayesien
(dim 8 = d) et soit y un n-echa nt illon ii d. Si Ie pr ior , [()], est non inform atif,
to ute l'inform ation disponible pour quant ifier l'incer ti tude sur () est , encore ici,
portee par l'echantillon et la regle de Bayes s'ecrit :
rely] ex [yl()] =:;. In [()Iy] = In [yl()]

+ cte

L'id ee est encore d 'approcher la distributio n a posterio ri de () par un e loi


normale, cette fois multivariee, localisee sur Ie mode de la vr aisembl ance, ()y ,
et de mat rice de precision P .
Un developpement de Taylor de la log-vraisembl ance autour de son mod e
()y j usqu'a l'ordre 2 donne :

(4.11)
Dans cet te expression, P est une matrice sym etrique definie positive, dite
matrice de precision . Son terme genera l s'ecrit :
P' 'J -- _ aaoIn[y
ao,OI I
2

o=O y

, Z. ,J. = 1, 2, " ' , d

(4.12)

En revenant au post erior , on a I'approximation

(4.13)

4. Calcul des lois a posteriori

57

On reconnait la forme structurelle canonique d'une loi normale multivariee,


localisec sur le mode Oy et de matrice de precision P == ~-l ou ~ est la matrice
de variance-covariance de cette distribution multinormale, soit exactement
(4.14)

au Ip I est

le determinant de Ia matrice

p.

Exemple 4.4 Soit un n-echantillon iid selon une loi normale de parametrc

o== (J-L, T). En mobilisant la moyenne et la variance empiriques, la log-vraisemblance


s'ecrit

n In T
In [yIO] == 2"

nr
2

2+ (fj - J-L) 2)

( Sy

Le calcul de toutes les derivecs qui nous interessent donne


al~:le] = nr (y _ p,) ;
81n[yI8]
8T

Le mode

By est

==

.!!:- _

2T

!!
2

(s2 + (-Y _ J-L )2).,


Y

solution du systeme

La matrice de precision

Py

suit

L'approximation asymptotique de la densite a posteriori de 0 est donc une loi


normale bidimensionnelle, localisee sur By et de precision Py .

4.2.2

Fondements de ces approximations

Preambule
- La recherche des extrema est fondamentale en statistique.

Definition 4.1 Soit f une application de classe C2 definie sur JRd a valeurs dans]R et soit x == (Xl, ... ,Xd) E ]Rd. On appelle matrice hessienne
de f en x la matrice des derivees partielles secondes, c 'est-a-dire la matrice H (x) de terme general :
(H (x )) ij --

8 f(x)

8Xi8xj'

.. -

'l,

J -

1 2
d
, ,"',

C'est la matrice d'une forme quadratique sumetrique.

58

Pratique du calcul bayesien


- Soit une experience alcatoire qui fournit l'observation y. Fisher (1925)
propose de mesurer l'information apportee par cette observation au parametre e du modele statistique choisi pour mimer cette experience, [yle] .
Definition 4.2 Si le domaine de l'observable Y ne depend pas du parala quatuiie d'information de Fisher apportee par l'information
metre
Y == y sur e est une matrice sumetrique definie positive, dite matrice
d'information de Fisher, reliec a la matrice hessienne comme suit:

e,

I (e) == -E {H (e)}
oii l' esperance est prise par rapport

a l' observable Y.

Fondements Les formules heuristiques precedentes sont fondees sur la theorie asymptotique du maximum de vraisemblance (Berger, 1985).

Theoreme 4.1 Sous un certain nombre d'lurpotheses generales concernant le


modele de vraisemblance [yIO], si un cchaniillon iid, soit y, est tire du modele
particulier [yleo], alors il existe une solution By de l'equation

8 In [yle]
8e
== 0
qui converge en probabilit vers 00 quand n ---+ 00. De plus, le vecteur By-Oo
converge en loi vers une distribution normale multivariee, localisee sur 0 et de
matrice de precision eqale a la matrice d'information de Fisher I (eo) .

Complements
- En suivant (Berger, 1985), la matrice de precision P (eq, 4.12) est appelee matrice d'information empirique. Elle peut etre utilisee comme approximation asymptotique de la matrice de Fisher dans une expression
approchce de la distribution a posteriori des parametres.
- L'information de Fisher d'un n-echantillon iid est simplement
(4.15)

Cette matrice intervient dans la construction de priors non informatifs.


C'est ainsi que (Jeffreys, 1939) a propose la construction d'un prior vague
a partir du determinant de 1(0) :

[0] == Jdet I (e) == II (0)1

1 2
/

(4.16)

Ce prior impropre a comme propriete de fournir une inference insensible


reparametrisation du modele de vraisemblance.

a une

4. Calcul des lois a posteriori

59

- Parmi toutes les conditions theoriques fondant ces proprietes (Cramer,


1946), la plupart sont des hypotheses de regularite mathematique des
convergences assez generales. II en est toutefois une qui est tres imp ortante sur le plan pratique: le domaine des observables ne doit pas dependre du parametre ().
- Maintenant, que veut dire pratiquement l'expression n grand? II n'y a
pas de regie, seulement des cas d'cspcce, II faut un peu d'experience, C'est
pourquoi sur le plan bayesian il peut etrc prudent de conforter ces calculs
approches par les resultats d'algorithmes de Monte-Carlo qui ne sont pas
tributaires de I'hypothese n grand.

Exemple 4.5 (Exemple 4.4 continue). Calculons la matrice d'information de


Fisher et Ie prior vague de Jeffrey. La matrice hessienne Hey est
HCIL,r) =

-n

fL - Y

j.L-Y]
2~2

Puisque E (y) == u, l'information de Fisher et le prior de Jeffreys sont immediats


I(tL,7)

== n

[~

1],
27 2

[j.L, T]

ex: Jdet I(tL,7) ex: 1/

VT

On remarquera que ce n'est pas Ie prior obtenu quand on fait tendre les parametres d'une loi gamma vers zero.
En fait, les composantes du vecteur () apparaissant dans la matrice de Fisher
sont inconnues. Aussi, on peut remplacer () par son mode O.

e= (fJ, l/s~)

Ie

n [1/;~

SD2]

La matrice de Fisher I et la matrice d'information empirique P sont parfois


identiques.

4.2.3

Estimation asymptotique des parametres d'une


population gamma

Exemple 4.6 Operation Sources", Soit un n-echantillon iid issu d'une population gamma, de parametre de forme a > 0 et de parametre d'echelle inverse
(3 > o. II s'agit ici de la concentration en nitrates relevee dans n == 94 points
d'eau repartis sur le territoire belgc en mars 1994. Les moyennes geornetrique et
arithmetique des observations etaient respectivement 9 == 25.4 mg/I, fj == 39.3
mg/I. On demande d'estimer lc posterior par une loi normale bivariee ainsi que
la probabilite 1r qu'une nouvelle observation depassc la norme Yo == 50 mg/I
(fig. 4.2).
L'operation Sources , initiee par le Pr Louis De Backer (DeL), consiste a evaluer la
qualite des eaux souterraines belges par un test colorimetrique realise par les enfants des
eccles primaires. La fiabilite du test est controlee par un titrage des nitrates au laboratoire.
3

60

P ratique du calcul bayesien

r>.

Figur e 4.2 - Op eration Sources : un mod ele gamma pour la concent ration en nitrates.

Soit y , un n-echa nt illon iid issu d 'une population ga mma de par am etre de
form e 0: > 0 et de param etre d 'echelle fJ > o.
Posons e = (o:, fJ). La vraisemblance s'ecrit :

[yle]

gr
n

fJD:

(0:) yf -l exp (- fJYi)

au y et g represent ant respectivement la moyenne arithmetique et geornetriqu e


des observations.
La log-vraisemb lan ce suit :
L

(e ) == In [yle] = no: In fJ + n (0: - 1) ln g - n y fJ - n In r (0:)

Le calcul des derivees donne

a;~Ii) = n ln fJ + n ln g - mp (0:);
= n o:fJ- l - ny ;

a;~ )

4. Calcul des lois a posteriori

61

ou rljJ (a) et rljJ' (a) sont respectivement les fonctions digamma et trigamma (disponibles dans R). Rappelons qu'elles sont definies comme :

(4.17)
La matrice hessienne s' ecrit :

He == -n ( rljJ'
(a)
_(3-1
Le mode {} =

(&, S) est solution du systeme


rljJ ( a) - In (3
{ a(3-1 == fj

== In g

En substituant la seconde equation dans la premiere on obtient une equation


en a qu'on peut facilement resoudre numeriquement dans le logiciel R :
fj

rljJ (a) -Ina + In g

== 0 =? & ~ 1.2867 =? (3 ~ 0.0327

La matrice d'information empirique (4.12) arrive en substituant ces valeurs


dans la matrice hessienne :
P

3
e ~ 10

0,11
-2.87

-2.87)
112.83

La figure 4.3 illustre les resultats. A gauche, on a le mode de

0=

(a, i3) et

quelques isodensites (vue en plan). A droite, on montre la densite de probabilite


de la probabilite 7f qu'une source non encore observee ait une concentration en
nitrates depassant la norme Yo :
7f

4.2.4

== Pr (Y > yoln, fj, g) et Pr (0.22 S

7f

S 0.36) == 0.95

Estimation asymptotique des parametres d'une regression lineaire

Ce modele archiconnu ne pose aucun probleme de calcul. Nous l'avons


d'ailleurs mentionnc des le chapitre 1 et renvoye le lecteur au chapitre 9, page
170, pour plus de details. Cependant, le traiter par voie asymptotique est un
bon exercice de maniement.
Dans sa version la plus simple, ce modele postule que la reponse reellc, Y,
a un stimulus reel, x, a une distribution normale, localisee sur a + (3x et de
precision T (Fig. 4.4).

62

Pratique du calcu l bayesien

0.045

14
12

0.04
10
0.D35

c::l.

0.03

4
0025
2
002
0.8

1.2

1.4

0
01

1.6

02

a.

0.3
0.4
Pr(y > Yo)

0.5

Figure 4.3 - Operation Sources : estimation asymptotique.

Un prior non informatif courant est [e] = [a , ,8, 7 ] ex 7 - 1 . Cependant, si


on travaille avec le parametre In 7 defini sur JR., [e] ex cte, c'est-a-dire que
In [ely, x] = In [yle, x] + cte.
La log-vraisemblance s'ecrit :
L (e) == In [yle, x] =

"2n In 7

"27 ,,",
~ (Yi

- a - ,8Xi )

+ cte

i= l

Les definitions suivantes apparaitront dans les developpe ments" .

~~X2

x2

~ (Yi - a - ,8xi)2
1 n
(Xi - x)2

sce( a , ,8)

:; : L

s;

i=l

-n L (Xi - x) (Yi - Y)

S xy

i= l

Le calcul des derivees premi eres


0~(1I)

= 7~ (Yi - a - ,8xi )

o~~) = 7~ (Yi

0(1I)
oinT
4

- a - ,8Xi) Xi
2 sce

!l _ I.

see signifi e somme des carres des ecaris.

4. Calcul des lois a post eriori

63

Figure 4.4 - Le modele lineaire simple.


ent raine le mode de la vraisemblance

o, =

( "
0:,

(3, T' ) =

( _

' _ Sx y
Y - (3x
,- 2 '
Sx

n
"

see(o:,(3)

La matrice hessienne
-nTX
-nTx 2

TE (Yi -

(3Xi ) Xi

0: -

ent raine Ia quantite d'information de Fisher

1(0) = - E (H o) = tir

(X
= :2
o o

~)

1/2T

car E (see) = EE (Yi - 0: - (3Xi )2 = Evar (Yi) = n l r ,


La mat rice d'information empirique P suit :

P_

n2
- see(& , S)

(1

xx2
0

'C<l~'P)

On peut par exemple t irer N valeurs au hasard seion la commande WinBUGS dmnorm (0 ,
dont les histo grammes norm alises peuvent et re compares avec les densites margin ales a posteriori que l'on connait ici exactement
grace aux proprietes de conjug aison :

p)

64

Pratique du calcul bayesien

a v = n - 2 degres de liberte,
centree sur ~ et dont le parametre d'echelle est c =
(nvs~) ;
- a est distribue selon une loi de Student a v degres de liberte, centres sur

- {3 est distribue selon une loi de Student

0: et dont le parametre d'echelle est

Vsee/

cJ ~L,XT ;

- la distribution de Test une gamma, de parametre de forme v / 2 et de


parametre d' echelle 2/
On pourrait egalement faire une comparaison directe avec les marges (normales) de la loi asymptotique.

see.

Exemple 4.7 La distance lineaire entre deux points d'une carte (variab le x)
permet d'estimer la longueur du trajet reel (variable y) (tableau 4.1, figure 4.5).

x
y
x
y

9.5
10.7
9.8
11.7

5.0
6.5
19.0
25.6

23.0
29.4
14.6
16.3

15.2
17.2
8.3
9.5

11.4
18.4
21.6
28.8

11.8
19.7
26.5
31.2

12.1
16.6
4.8
6.5

22.0
29.0
21.7
25.7

28.2
40.5
18.0
26.5

12.1
14.2
28.0
33.1

Tableau 4.1 - Small data sets , probleme 115.

/
/

40

/
/

35
/

,+

30
ur

25

Jij

o'"

/
/

20
15

+
+

/
+

+/

10

o"'-----"-o 5

c'::-----" c------,-'=----,:'::----::"::--,':--'-----'
10
15
20
25
30
35
40
45

Distance lineaire

Figure 4.5 - Le mod ele lineaire : distance par la route, Y , et distan ce sur la carte, x .

4. Calcul des lois a posteriori

65

Tous calculs faits on trouve

e~

(0.38, 1.27, -1.78)T

P ~ 3.37

1
16.13
16.13 311.32

2~7

La figure 4.6 montre I'excellent e approximation obt enue. On a realise N =


2025 tirages aleatoires dan s dmn orm (B,
pour compar er avec la densite
exacte a posteriori.

p)

::f ~~
, J
!

-4

-3

-2

-1

a.

':[, : ~ :
08

0.9

1.1

1.2

1.3

1.4

1.5

J
1.6

R>

1~=:::
o

01

02

0.3

0.4

0.5

0.6

0.7

Figure 4.6 - Approximation asymptotique des densites marginales a posteriori des


parametres du modele lineaire simple.

4.2.5

On retiendra

Quand Ie prior est vague, I'approximation asymptotique de la densite a


posteriori par une loi normal e fournit des resultats to ut a. fait valabIes pourvu
que la taille de l'echantillon soit assez grande. De plus, la matrice de variancecovariance de la loi norm ale multidimensionnell e sera interessante quand on
l'utilise comme loi inst rumentale dans un algorit hme de Metropolis-Hastings.
C'est l'obj et de la sect ion suivante .

66

Pratique du calcul bayesien

4.3

Methodes de Monte-Carlo par


chaines de Markov

4.3.1

Mise en contexte

Le praticien a multiplie la vraisemblance par le prior selon la formule de


Bayes mais ne peut pas integrer ce produit ni utiliser l'approximation asymptotique. II ne connait la distribution a posteriori qu'a une constante de proportionnalite pres :
(4.18)
[Oly] ex [yIO] [0]
Les methodes de Monte-Carlo par chaines de Markov (MCMC) generent une
suite de variables aleatoires (0 1 , ... .B": ... ) et, hormis la premiere a laquelle
on donne une valeur arbitraire, chacune d'entre elles depend uniquement de
celle qui la precede
(4.19)
Les calculs d'integrales 4.2 sont ensuite poursuivis en appliquant a cette
sequence une loi des grands nombres pour les chaines markoviennes ergo diques
de forme identique a l'equation 4.3.
Nous renvoyons le lecteur interesse aux ouvrages specialises mcntionnes dans
l'introduction. Dans cette section, nous resumons les principes essentiels des
deux methodes implantees dans WinBUGS en donnant quelques exemples et
conseils.

4.3.2

Algorithme (general) de Metropolis-Hastings (MH)

Soit 0== (01 , ... ,Od)T E e le parametre d'un modele statistique parametrique (dim e == d) et soit y un n-cchantillon. appelons f (0) le produit non
normalise de la vraisemblance par lc prior :

f(O) == [yIO] [0]

AI' aide d 'une loi instrumentale, de densite conditionnelle J (0I.), on effectue

des sauts aleatoires dans e a partir d'un point initial, 0, choisi arbitrairement.
Soit Oi-l la valeur retenue a l'etape i-I. A l'etape i, a partir du point Oi-l,
on fait un nouveau saut aleatoire J, qui propose le candidat 0*. La procedure
de selection est la suivante.
1. On calcule le rapport
(4.20)
2. On realise un tirage aleatoire dans une loi uniforme
valeur u.
3. Si r 2: u alors Oi

+-

0* sinon Oi

+- Oi-l.

U[O,l]

qui donne la

67

4. Calcul des lois a posteriori

Remarque 4.4 Si la loi instrumentale est symetrique, c'est le cas d'une loi
normale multivariee, le second facteur du rapport rest toujours egal a l'unite.
Dans ce cas, puisque la fonction logarithme est strictement monotone, la regle
de decision devient :
3'. Si In r == In f ((}*) - In f

((}i-l) ~

In u alors

(}i

f--

(}* sinon

(}i

f--

e':',

Reglages
1. Pour ce qui concerne le point initial, en theorie, n'importe quel point de
8 convient. En pratique, il est judicieux de choisir un point qui favorise
une convergence rapide de la marche aleatoire. Partir du mode de la logdensite s'il est facilement accessible est une option tres pragmatique.
2. La force des sauts aleatoires est reglee par la variance de la loi instrumentale. Une loi normale multivariee, localisee sur le mode et de variance
connue, permet d'explorer 8. On pourrait prendre l'inverse de la matrice
de precision de la methode asymptotique ~ == p-l. En fait, il est prudent
de degrader quelque peu cette matrice de precision afin de bien explorer
l'espace 8. (Gelman et al., 2004) proposent de prendre:

Vd p

:E- 1 =

(4.21 )

2.4

3. Enfin, ces memes auteurs proposent de juger la performance d'un algorithme MH en regardant le taux d'acceptation des candidats. Avec une
loi instrumentale d-normale (c'est-a-dire multivariee de dimension d) ce
taux devrait etre de l'ordre de 0.44 si d == 1 et dccroitre avec d jusqu'a
atteindre ~ 0.23 pour les grandes valeurs de d (disons d > 5).

Exemple 4.8 La taille y de 15 garcons ages de 10 ans est vue comme un nechantillon iid normal, de moyenne M et de precision T (tableau 4.2). Le prior
suivant est informatif mais ne permet pas une solution analytique : M .L T,
M r-; dnorm (m, c), T
dgamma (a, b) au m == 140, c == 0.25, a == 0.002 et
b == 0.04.
r-;

133.2
135.6
141.7

137.1
145.7
154.1

138.1
146.5
140.4

131.1
131.8
146.1

152.6
131.2
124.4

Tableau 4.2 - Taille (cm) de 15 garcons ages de 10 ans.

La log-densite a posteriori s'ecrit


n
In [M, Tly] == ( "2

+a

1) In T

2tir

Sy

+ (M -

Y) 2) - "2C (M - m) 2 - br

+ cte

68

Pratique du calcul bayesien


Soit () = (11" T). La loi inst rumentale est une loi normale bivariee definie sur

e = lR x lRt

() rv

OU e = (y,l/s~)T, P
precision (k ;:::; 0.5) :

dmnorm ((),

kP)

- H (()) et OU il est prudent de degrader un peu la


1

82

P =n

('~)' )

Posons

La figure 4.7 et Ie tableau 4.3 mont rent les resultats obtenus par un algorithme de Metropolis-Hastings apres N = 2 X 103 cycles et une periode de
chauffe de N /5 .

145

0.4
0.3

140

0.2
135
130
10

0.1
2

10

140

10

20

145

IJ.

IJ.
0.4
0.3

0.1
15
(J

20

(J

Figure 4.7 - Algorithme de Metropolis-Hastings pour Ie parametre () = (/-l , a) d'un


modele normal.

Le tableau 4.3 fournit un intervalle de credibi lite

a 90%.

R ecomm andations p ou r la programmation d'un al gorithme M H


Pour construire un algorithme MH en vue d'obtenir la distribution a posteriori de () E e, il est tentant d'utiliser la distribution normale multidimen-

4. Calcul des lois a posteriori

J1
a

()5

()50

()95

138
6.8

140
8.5

142
11.3

69

Tableau 4.3 - Algorithme MH : IC90

sionnelle comme loi instrumentale. En effet, cette loi est disponible dans la
plupart des logiciels. Mais pour que la marche aleatoire dans e soit efficace, il
faut que les parametres de la loi instrumentale soient bien regles. Sa matrice de
variance-covariance peut etre l'inverse de la quantite d'information de Fisher
dans laquelle on remplace les parametres par leur estimation obtenue via la
methode du maximum de vraisemblance.
Comme cette distribution approximative peut etre sous-dispcrsec, il est recommando d'appliquer un coefficient multiplicateur (de l'ordre de 2) a la variance instrumentale ainsi calculee. Cependant ce pro cede ne garantit pas qu'au
cours de la marche aleatoire dans e, les valeurs de certains parametres par nature positifs (p. ex. une precision) ne puissent etre negatives puisque le domaine
d'une loi normale n'est pas borne inferieurernent. II est alors necessaire soit :
- d'eliminer les valeurs negatives ainsi simulees jusqu'a ce qu'on obtienne
des valeurs positives; ce pro cede peut etre utilise si la probabilite de
telles valeurs negatives est faible, ce qui est le cas des applications OU
I'hypothese asymptotique a un sens;
- de remplacer le tirage dans une loi normale de fonction de repartition G(())
de domaine indefini par un tirage dans la meme distribution tronquce
inferieurement a 0 dont la fonction de repartition est gi~j, sans changer
les distributions des autres parametres.
Pour la distribution instrumentale, on sait que Ie choix est assez ouvert, il est
donc possible d'utiliser une autre forme de lois, comme les distributions gamma,
calees de telle sorte qu'elles possedent les memes esperances et variances que
l'approximation asymptotique normale.
Pour ce qui concerne les parametres positifs par nature, une precision par
exemple, on pourrait penser a travailler avec leur logarithme puisque cette
transformation les envoie dans IR. Cependant, en simulation, l'utilisation d'une
distribution log-normale approchee peut entrainer la generation de valeurs irrealistes, extremement surdispersees vers les extremes et notamment au voisinage de o. Ce comportement implique des difficultes dans la mise en ceuvre
d'un algorithme MH, tres sensible par sa structure en chaine aux simulations
de valeurs aberrantes.

4.3.3

Echantillonnage de Gibbs

Soit () == (()1, ,()d)T E e le parametre d'un modele statistique parametrique (dim e == d) et soit y un n-echantillcn. La regle de Bayes s'ecrit :

70

Pratique du calcul bayesien


Posons
(4.22)

Le vecteur ()_jest donc le vecteur () prive de sa coordonnee () j .


On appelle conditionnelle complete la distribution d'une composante de ()
sachant toutes les autres composantes, les donnees et les hypotheses",
(4.23)

Principe de I'echantdllonnagc de Gibbs


En partant d'un point arbitraire ()o == (()~, ... ,()~) E 8, on tire tour a
tour dans chacune des conditionnelles completes en les actualisant au fur et a
mesure. On repete ce cycle un tres grand nombre de fois. Les histogrammes
normalises des chaines ainsi obtenues sont des estimations des densites marginales a posteriori recherchecs. Bien sur, on ccarte les premiers cycles puisqu'on
part d'un point arbitraire.

Exemple 4.9 On rep rend l'exemple 4.8 (tableau 4.2).


De la distribution a posteriori

[J-l, Tly] ex Tn / 2exp ( -

n; (s; +

(J-l-

y)2)) exp ( -~ (J-l - m)2) Ta - 1exp (-bT)

on deduit les conditionnelles completes:

En partant d'un point arbitraire ()o == (J-L 0 , TO) E JR x JRt == 8, on tire J-L1
dans J-LITO,y puis T 1 dans TIJ-L 1, y . A l'issue de ce premier cycle on a le point
1, 1) a partir duquel on tire J-l2 dans J-lIT 1, y puis T2 dans TIJ-l 2, Y et
()1 == (J-L T
ainsi de suite N fois. La suite (()k E
k == 1, ... ,N) constitue une chaine de
Markov, car un point ne depend que de son antecedent. Si on oublie la periode
de chauffe, cette chaine converge en distribution vers la densite a posteriori
de (). Notons qu'on aurait pu inverser l'ordre des tirages aleatoires, c'est-a-dire
tirer T puis u. En fait on choisit l'ordre que l'on veut, mais on s'y tient. Tres
souvent on exprime les resultats en transformant la precision T en ecart-type :

e:

(J

==

1/vIT.

La figure 4.8 montre les resultats obtenus apres 1000 cycles avec les donnees
numeriques suivantes : n == 18, Y == 0.52, By == 0.13, m == 1, C == 1, a == 2, b == 1.
On est volontairement parti d'un point eloigne de la solution. Les histogrammes
ignorent les 200 premiers cycles.
5 En general, no us rr'ecrivons pas Ie conditionnement sur les hypotheses pour ne pas alourdir
les ecritures,

4. Calcu l des lois a post eriori

150
100
50

"I'

PI ,

oU

_,It

71

04
03

II

0.2
0.1

0
0
10

10

10

0
130

135

140

20

150

15

20

04

:~
0 0
10

145

IJ.

IJ.

10

0.3
0.2
0.1
4

10

10

Figure 4.8 - Echant illonnage de Gibbs pour Ie parametre


normal.

e=

(/1, (J) d'un modele

Le t ab lea u 4.4 fourni t un int ervalle de credibilit e a 90 %


On observe une excellente concordanc e des result ats avec ceux du tablea u 4.3.

th etas,
J.l
(J

137
6.4

theta 50
140
8.6

t het a95
142
12.2

Tableau 4.4 - Echantillonnage de Gibbs : IC90.

Utilisation d'une grille


Il arrive frequemment qu e l' une ou l' autre des condit ionnelles complete s ne
soit pas une loi standard. Dans un te l cas, on peut la definir sur une grille
de valeurs et un tirage aleat oire se fait en inversan t la fonction de repar t it ion corr espondante. Cet te pro cedure est t res facile a met tre en ceuvre qu and
dime = 1.
Soit f (ely) le produit non norm alise de la vr aisemb lan ce par le prior et soit
son mod e. On definit une grille de valeurs
+ h , + 2h , . .. + N h qui
encadr e lar gement le mod e Pourvu que le pas, h, soit suffisamm ent peti t , la
densite a posteriori est approchee par :

e.

eo,eo

eo

,eo

72

Pratique du calcul bayesien

(4.24)

et la fonction de repartition suit


(4.25)

Pour tirer de facon approximative une valeur B* dans P (B), il suffit de tirer
u r-; dunif (0,1) et de considerer le point de grille, Bi == B*, tel que P (B i ) ~
u. Dans la Iitterature statistique, cette methode est dite methode d'inversion
lorsqu'on sait exprimer p- 1 sous forme analytique (B == p-l(u)) comme par
exemple la loi generalisee des extremes presentee au chapitre 6.
Exemple 4.10 Soit y un echantillon iid gamma de taille n, de parametre
de forme A et de parametre d'echelle unite. Le prior est A rv dgamma(a, b)
et un dialogue avec un expert aboutit aux resultats suivants : E (A) == m ==
alb et Var (A) == 8 2 == alb 2 . Enfin, la moyenne geometriquc des observations
disponibles est g. La densite a posteriori n'est pas integrable:

La figure 4.9 est obtenue avec n == 14, 9 == 25.4, m == 20 et 8 2 == 3. Le prior


etant une (dgamma) , Ie posterior est calcule sur une grille de pas h == 0.1. La
valeur A* est la valeur de grille le plus proche de p-l (u).

Methodes de Monte-Carlo

4.4

Tout comme les methodes MCMC, les methodes MC sont des techniques
d' echantillonnage, c'est-a-dire des simulations de sequences de realisations de
la distribution a posteriori, connue a un facteur de proportionnalite pres:

[Bly]

0:.

[yIB] [B] .

On doit cependant distinguer les techniques de calcul d'esperances telles que


4.3 - qui reposent generalement sur un echantillou simple d'une part - et les
techniques de simulation de realisations de ladite distribution qui demandent
un re-echantillonnage cornplementaire. Alors que les methodes MCMC simulent
des aleas avec dependance, les methodes MC sont des techniques de simulation
avec independance qui utilisent une loi de probabilite auxiliaire 9 (B), dite instrumentale , facile a simuler.

4. Calcu l des lois a posteriori

73

0.4
0.3
02

-.

<,

/'

/'

0.1

/'

"- .

/'

0
16

---

24

22

20

18

26

28

0.8
0.6

0.4

0.2

o L _--'-_ _...J..._ _-'--_=l:-_-.:.L_ _. . . J . . . _ - l


14

16

18

20

22

24

26

28

Figure 4.9 - Uti lisat ion d'une grille quand la conditionnelle complete n'est pas
standard.

Ex ernple 4.11 Soit Bly


attendue de Bm est

rv

E (em)

dgamma (a, b) et h (B) = Bm OU m > O. La valeur

~ (>0 em+a - 1 exp (-be) de


r (a) i o

Les valeurs numeriques suivantes a = 2.5, b = 1.9 et m = 3.14 donnent E (Bm)


proche de 6.59. On a utilise ici l 'expression b~ r~~a), donnee par le calcul
analytique possib le sur cas d'ecole, Maintenant rea lisons G = 104 tirages independants dans une dgamma (a, b) t et , pour chaque valeur de Bi obtenue,
calculons h (Bi) = Bim. . Leur moyenne arithmetique est 6.73. Bien sur, cette
approximation varie d'essai en essai et depend du nombre de tirages effectues.

4.4.1

Simulation par la methode d'acceptation-r ejet

N ote 4 .1 Dans cette section, nous noterons 1(B) la distribution cible [e ly] pour
marquer la symetrie avec la distribution instrumentale notee g(B) .
La premiere technique de simulation generale , connue depuis J . von Neumann dans les annees 1940, est la methode d'acceptation-rejet. Soit f (e) une
densite de probabilite de support e difficile it simuler et soit 9 (B) une densite
de probabilite de meme support aisement simulable. En d'autres mots, il est

74

Pratique du calcul bayesien

facile de tirer des valeurs de la variable aleatoire


9 (e) dite loi instrumentale.

Soit M

edans la densite de probabilite

> 1 un nombre reel tel que


\Ie E 8 : f (e) :S Mg (e)

(4.26)

Apres etude prealable du rapport L pour en adopter un majorant M,


9
l'algorithme consiste a repeter les trois actions suivantes, a chaque etape i
(1 :S i :S G) :
1. generer e~

2. generer
3. si u;

u;

a partir de 9 (e) ;
a partir d'une distribution uniforme sur [0,1];

< ~~(~l) alors accepter la realisation B~, c'est-a-dire Bi = B~, sinon

repeter les etapcs 1, 2, 3.


Nous reprenons la demonstration heuristique de (Smith et Gelfand, 1992)
dans Ie cas OU est reel.
Soit dans l'espace produit 8 x [0,1], les sous-ensembles

So = {(u,B)IB < Bo et u

< A:;~~)} etS = {(u,B)IW: u < ~;~~)}

En termes de probabilites on a :
i

,,) _

Pr ( Bg ~ BalBg accepte -

Pr( e~ :S eo) et e~ accepte)


P CB
')
r ~ accepte

JJ Iso(e,u)g(e)dude

JJIs (e, u)g(e)dude

J8

~g(e)de
Mg(8)

-00

J+OO ~dude
Mg(8)
-00

J~~ f (e) de
J~: f (e) de

80

-00

f (B) de

C'est dire que e~ accepte est distribue selon f (e), ce qu'il fallait demontrcr.
Un sous-produit de ce raisonnement concerne Ie denominateur dont le calcul
montre que:

Prob(B acceptc]

j +oo Mgf (0)(B) dudB= M1 j+oo f (B) dB= M1


-00

-00

Cela explique pourquoi la constante M doit etre superieure ou egale


I'unite.

4. Calcul des lois a posteriori

75

Exemple 4.12 Dans un batiment, la consommation journaliere de mazout,


disons Y, est lc nombre de lit res necessaires au remplissage de la cuve divise
par Ie nombre de jours depuis le dernier plein. On postule que cette variable
aleatoire fluctue aleatoirement autour d'un niveau moyen J.L. Un modele de
connaissance plausible est une loi normale : Y rv dnorm (J.L, T). Un expert estime
que les parametres J.L et T sont independants et propose J.L r-; dnorm (m, h) et
T rv dgamma (a, b) OU m == 12 Ll], h == 1/4 (j/L)2, a == 1/16 et b == 1/4 j/L.
Disposant d'un n-echantillon iid, f) et 8 2 sont respectivement la moyenne et la
variance empiriques des observations. On demande d'inferer J.L et T avec n == 36,
f) == 12.6 L/j et 8 2 == 38.1 (L/ j)2.

L'independance a priori des parametres J.L et T interdit une solution purement analytique. La regle de Bayes et quelques manipulations algebriques
permettent d'ecrire la distribution conjointe a posteriori comme suit
ex

T n / 2+ a - 1

[-~2 (ns

exp

x exp [_ nT

+ 2b + nh (m -

y)2)]

nr s- h.

h(M _

mil +
tit

hm) 2]

-r ]:

La conditionnelle complete a posteriori de J.L est done gaussienne

MIT, Y

rv

dnorm (

n:~ : ~m .tir + h)

En integrant la conjointe par rapport


nale a posteriori de T :

[Tly]

on obtient la distribution margi-

2+ 1 [T ( 2
T-/iiT+li
exp - - ns + 2b + nh (m - fJ)2)]
h
n

0:

a J.L

nr + h

n 2a 1
T-/iiT+li
[T (
(m - f))2)]
/ + exp - - ns 2 + 2b + nh
h

nr

+h

(4.28)

nr +

Ce n'est pas une loi standard, mais des que l'on a une valeur de
valeur de J.L via (4.27).
Posons

f (T) =

(4.27)

nr

on a une

(4.29)

OU K est un facteur choisi arbitrairement de telle sorte que le graphe de f (T)


coupe celui de la loi instrumentale (fig. 4.10).
Le graphe de f (T) est montre a Ia figure 4.10 (K == 1036 ) . Le support
pratique est T E [0,0.05]. Une loi instrumentale uniforme sur ce support a une
densite definie par

[TI0.05] == 20 x

1]0,0.05]

(T)

76

Pr atiqu e du calcul bayesien

La constante M > 1 doit verifier la condit ion (4.26). Dans Ie cas present
elle s'ecrit :
"iT E [0,0 .05] : m ax {f (T )} ::; 20M
Pour eviter tr op de rejets, on a interet

a choisir

la plus petite valeur , ici

M ,::: 1.91. Apres 104 essais, avec un taux d'acceptation de 30%, on obtient les
resultats donnes dans Ie tableau (4.5).
/ C90
T

a
f-l

fh
0.017
5.2
10.9

fh o
0.025
6.3
12.5

B95
0.037
7.7
14.0

Tableau 4.5 - Algorith me AR.

40

M X 9(1-)
35
30
25

;?

9(1-)

=U[O,005)

20
15
10

5
OL--_'--~"'--_'------.J'------.J'------.J'------.J'------...l_----...l-==='

0.005

0.01 0.015 002

0025

003

0.035

0.04

0.045

0.05

1-

Figure 4.10 - Methode d'acceptation-rejet.

4.4.2

L'echant.illonnage et Ie re-eohant.illonnage ponderes

Principe de I'echant.illonnage pondere


La methode d'accept ati on-rejet a le defaut de necessiter la connaissance de
la constante M qui n'est pas toujours disponible. Mais nous pouvons obte nir
un G-echantillon de realisations approximativemen t selon f (B ) en util isant les

4. Calcul des lois a posteriori

G ponderations

77

f(e~)

g(e~)'

Wi-

calculees sur I'echantillonnage initial selon 9 (()).


Ces poids sont normalises pour en faire des probabilites :
WJ

qj -

(4.30)

",NG

Dj=l Wj

Ces ponderations jouent un role important dans l'estimation directe d'integrales telles que 4.3; c'est la technique d'integration numerique par echantillonnage potulere. Elles permettent aussi de construire un echantillon approximativement distribue selon f(()) en pratiquant un re-echantillonnage dans la
distribution finie des G valeurs

()J, chacune associee a sa probabilite uu]

L: ui,

i=l

selon l'algorithme suivant.


1. Soit () ~, ()~, . .. ,(); un echantillon i id tire selon 9 (()).

2. Considerons la sequence de meme longueur w~, w~, ... ,w; ou les Wj sont
les poids Wj == f(()~)/g(()~). On les norme pour en faire des probabilites
(4.30).
3. Tirer un echantillon ()1, ()2,
distribution finie sur ()~, ()~,

iis 6 , c'est-a-dire avec remise dans la


,(); affectant les masses qj a chaque ()~.

,()G

On se reportera a la section 2.2 du chapitre 6 de (Robert, 2006) pour une


presentation detaillee de l'echantillonnage pondere (importance sampling en
anglais). La demonstration est calquee sur celIe que nous avons faite pour
I'acceptation-rejet en s'appuyant cette fois-ci sur l'expression de la probabilite de A o == {O ::; Oo} obtenue au second tirage :
G

Pr(()::; ()o) == Pr(A o) == LqjIAo(()~)


j=l

soit, en exprimant les qj :

Pr (() < () ) ==
-

1.. "'C:

W .I
(()j)
G DJ=l J A o 9
1
G
G
j = l Wj

L:

Si maintenant G ---+ 00, selon un theoreme classique du calcul des probabilites, le rapport des sommes tend en loi vers :

Independant et identiquement sirnule,

78

Pratique du calcul bayesian

Notons immediatement que la convergence est asymptotique, done la simulation n'est valable que quand G est assez grand.
Remarquons le trait essentiel de cette methode, utile pour le calcul bayesien
des distributions a posteriori: la densite f(e) peut ri'etre connue qu'a une
constante pres! En effet, les tirages dans la distribution discrete qui simulent
les ej sont determines par les poids normes qj independants de cette constante.
Pour le calcul d'integrales telles que 4.3, le re-echantillonnage de I'etape 3
n'est plus necessaire, La relation 4.2 s'ecrit ici :

E(h(e) Iy) =

h(e)

~~~jg(e)de ~ {;h(e;)qi

(4.31 )

Enfin, sous des conditions techniques de regularite, on peut en plus obtenir


un theoreme central limite de convergence :

1
e

h (e) [ely] de -

L h(e;)qi

rv

dnorm (0, (J"2/ G)

(4.32)

i=l

Conditions necessaires pour la mise en oeuvre.


Ces conditions s'appliquent egalement
echantillonnage.

a la technique de simulation par re-

1. Le support de la loi d'importance 9 (e) doit englober le support de la loi


cible f (e) :
ve E 8 g : g(e) == 0 =? f(e) == 0
2. La variance des poids d'importance doit etre finie.

La figure 4.11 decrit le mecanisme de l'echantillonnage pondere, Le point


sur-represente par la fonction d'exploration 9 par rapport a
r
la densite cible f. La ponderation brute qui lui est affectee f (er ) / 9 (er ) est
done inferieure a 1. A contrario, le point es sur la droite est dans une situation
inverse : il est sous-represente par la fonction d' exploration 9 relativement a la
densite cible f. La ponderation que lui affecte l'importance sampling, ici plus
grande que 1, va donc corriger cette sons-representation.

e a gauche est

Exemple 4.13 On reprend l'exemple 4.12.


La fonction f (7) (4.29) est nulle en dehors de l'intervalle [0,0.05] (fig. 4.10).
La fonction d'importance, 9 (7), est la loi uniforme definie sur [0, 0.05] : 7 rv
4
U[O,o.5]. On tire au hasard G == 10 valeurs dans cette loi et on calcule les poids
d'importance selon (4.30). En ordonnant les G couples (7 i , w i ) par valeurs
croissantes de 7, on obtient les couples (7( i) , w(i) )et la fonction de distribution
cumulative empirique.
F(7(i))

=={T(i l , tW(k l } , i==I,,G


k=l

(4.33)

4. Calcul des lois a posteriori

79

11/ 8

"'8) =f{8J
YV\ r

g(8)
r

'\ s

)=f (8)

(~)

Figur e 4,11 - Echantillonnage pond ere,

On obtient des valeurs de T par la methode inverse (fig. 4.12) et des valeurs
de J.L via sa conditionnelle complet e (4.27). On retrouve evidemrnent les IC du
tableau (4.5). On peut aussi calculer une fonction reelle de T (respectivement
/L) par (4.31).

Recommandation pour I'Implementation


En pratique, deux gra ndes familles sont proposees pour la distribution d 'impor tance.
1. On peut tout d'abord choisir une loi uniforme sur un hypercub e (les para-

metres se trouvent a priori bornes) . Pour les gros modeles cela ent raine
un effort de calcul explosif. Par exemple si on souhaite echa nt illonner
un hypercube avec une resolution moyenne d 'un dixieme de l'etendue de
chaq ue parametre, pour un modele it dix parametres (y compris les variables lat entes), il faudr ait de I'ordre de 1010 echant illons Monte-Carlo !
L'impossibilit e de maint enir une densit e adequate d 'echantillonnage peut
ent rainer un sous-echa nt illonnage des regions prob ables de l'esp ace des
par ametres, ce qui aura pour effet de generer un petit nombre de poid s
d'import ance eleves, et ce t rop peti t nombr e d'indi vidus vraiment representatifs domin era l'echantillon genere,
2. Le second choix classique est de s'appuyer sur un melange multinormal

80

P rat ique du calcul bayesien

0.9
0.8

0.7
0.6

0.4
0.3
0.2

0.1
00

0.005

0.01

0.015 002

002 5

0.03 0.035 0.04 0.045 0.05

Figure 4.12 - Distribution cumulat ive empirique de T .

surdisperse

aN(p" E) + (1 - a)N(p" AE)

ou p, est choisi pro che de la valeur la plus credible du pararnetre B (maximum de vrai semb lance quand il est possible d 'en avoir un e idee) et E
correspond a la matrice de vari ance-covariance pour B. On pr end generalement A de I'ordre de 3 afin de surdisp erser la fonction d 'importan ce.
Le poids a (a < 1) etend la portee de la distribution d 'importance pour
echant illonner des regions de f (B) qui ne sont pas adequatement approchees par l'approximat ion norm ale asymptot ique N(p" E ). Pour A grand
et a petit , la distribution normale surdispersee se comporte ra comme une
distribution uniforme.
Exemple 4.14 Reprenon s I'exemple prece dent de la vraisemblan ce gamma
avec prio r exponent iel. lei , on recherche Ie posterior soit

f (e) ex
avec les memes donnees n

g(lJ- l ) )
(

r (e)

exp ( -be )

= 14, g = 25.4, m = 20 et
(o_ I) n

= 3. Le maximum de

la vr aisemblan ce [yle] ex ( ~
est donn e par la solut ion de l'equ ation qui
annule la derivee de la log-vraisemblance (voir sect ion et ude asy mptotique des
par am etres d 'une distribution gamma) :

* log g -

mjJ(e) = 0

4. Calcul des lois a posteriori

81

On retrouve la fonction digamma 1jJ(()) == alo~~(lj). Une methode iterative de


Newton-Rapson pour rechercher la solution s'obtient en remplacant 1jJ( ()k+l)
par son developpement au premier ordre

Combine avec l'equation precedente, l'algorithme donne a partir d'une valeur


initiale 00 ici fixee a 20 (la moyenne du prior) la regie de passage suivante

Avec les donnees du probleme en cours, l'algorithme se stabilise rapidement


autour de 0 == 25.898. La variance de la distribution normale asymptotique est
donnee par l'inverse de I'opposee de la derivee seconde de la log-vraisemblance
en B soit n'IjJ~(e)' c'est-a-dire var(B) = 1.8144. Nous allons prendre pour fonction
d'importance cette loi normale asymptotique, mais en dilatant la variance par
un facteur A. Avant renormalisation, on aura done le poids d'importance pour
Ie tirage ()i :
f( ()i)
(g(f)-l) ) n
()a-l e- bfJ

g(()i)

r(())

ex (_(e-O i).2)
p

Avar(B)

Avec G == 10000 tirages et A == 2, l'estimation de la fonction de repartition


F du posterior fest donnee a la figure 4.13 : on trace, pour chaque valeur
de () gencrec et remise dans l'ordre croissant, le cumul des poids normalises
correspondant.
Le tableau 4.6 donne les quantiles qui s'obtiennent par lecture inverse de la
fonction de repartition.

Tableau 4.6 - Echantillonnage par importance : intervalle de credibilite.

4.4.3

Vers les methodes particulaires

La technique de re-echantillonnage a un defaut pratique important; elle


provoque des doublons si la variabilite des poids w ( ()i) de la premiere phase
d'echantillonnage pondere est grande. Cela depend du choix plus ou moins
adequat de la distribution instrumentale g(()). Si la fonction d'importance
etait exactement le posterior, la repartition des poids serait uniforme et le
risque d'appauvrissement par re-echantillonnage de doublons serait faible : lors
du re-echanl.illonnage, les valeurs associees aux poids forts ont tendance a etre
repliquees tandis que celles associees a des faibles poids s'eteignent.

82

Pratiqu e du calcul bayesien

00

r::
.0

1ic..J

.!!!

<D

.g

r::

.
r::

-ed

l.L

6
'"

<>
6

20

22

24

26

2B

30

32

t b et a

Figure 4.13 - Fonction de repartition grace a l'echantillonnage par importance.

Exemple 4 .15 Repr enons l'exemple 4.14. L'avantage du re-echantillonnage


est de pouvoir const rui re faeilement un histogramme permettant d'a pprocher
la fonet ion de densite du posterior. La figure 4.14 montr e que celui-ci realise,
comme on l'at tend ait , un eompromis ent re Ie prior et la vraisemblanee. La figure 4.15 montre le resultat de la fonction de repar tition des poids pour tro is
fonctions g(B) obt enues en faisant varier A, le coefficient qui regle la surdispersion par ra pport a la normale asy mptot ique (A = 1,2 , 3 et 9 ). Plu s ces
courbes se rapprochent de la bisseetrice, plus elles ressemblent a la fonction de
repartition ideale de poids uniformes et moins la probabi lite de doublons est
for te! Ici la valeur A = 3 semble la plus adequat e. On voit done que Ie choix
d 'un e bonne fonction d'imp ortance est capital : de fort es instabilites lors des

est imat ions peuvent resulter d'une loi d'importanee inappropriee !

4. Calcul des lois a posteriori

iU
Ol

83

posterior

0
0

It')

n
c:
c:

,g

s:
0

:~

0
0
0

""

.~

0-

iU

~en

0
0

It')

$l
Vl
:.E

20

26

24

22

28

thet a

Figure 4.14 - Densite a posteriori grace


echantillonnage bootstrap.

a l'echant illonnage

par importance et re-

""
VI

:tl
0

co

a.
VI

-8
c

11

co

't:

l':l

a.

.~

III
"0

'<t

.~"
tE" '"0
0

0
0

2000

4000

6000

80 00

100 00

poids

Figure 4.15 - Fonct ion de repartition des poids selon diverses fonctions d'importance.
D'autres extensions de ces techniques, les algorithmes part icul aires (Doucet
et al., 2001), prop osent de faire suivre l'et ap e de re-echan till onnage par une

84

Pratique du calcul bayesien

phase de dispersion markovienne des eventuels doublons : pour lutter contre


cette degenerescence de l'echantillon, on redisperse les particules au moyen
d'un noyau de transition markovien, ayant la propriete d'avoir f comme loi
invariante. Mais ces techniques de filtrage adaptatif, dont on travaille encore
les proprietes theoriques, ne sont pas encore passecs dans la pratique courante.
Pour diminuer la variabilite des estimations apres re-echantillonnage due a
cette degenerescence des echantillons, on peut aussi pratiquer des techniques
de lissages comme la tres populaire Rao-Blackwellisation , appelee du nom
d'un theoreme de Statistique mathematique,

Epilogue
Ce chapitre d'initiation au calcul numerique stochastique est forcement incomplet! II faudrait plusieurs livres pour faire le panorama detaille des methodes de Monte-Carlo, avec ou sans dependance, qui ont libere le modelisateur d'une tres grosse partie des soucis calculatoires (Brooks, 1998), (Robert et
Casella, 1999). Certaines de ces methodes datent de I'epoque des gros ordinateurs centralises (Metropolis et al., 1953) mais elles ont veritablement pris leur
essor grace aux PC rapides. Bien evidemment, la maitrise de ces algorithmes
s'acquiert par la pratique. Pour I'etudiant.rchercheur dont la preoccupation essentielle est, au moins dans un premier temps, de consacrer son temps a creer
des modeles, nous affirmons que WinBUGS est un outil tres performant pour
faire ses premiers pas sans se soucier immediatement de l'ecriture des algorithmes d'estimation bayesienne.
L'association DAG - calcul tiumerique stochastique recule nos horizons. II
semble que tout soit permis! Ce serait une erreur de Ie croire. L'utilisateur
neophyte de WinBUGS se rend vite compte que tout n'est pas permis, que
WinBUGS se plante. Nous ne parlons pas ici des erreurs d'utilisation (p.
ex. faute de syntaxe, mauvaise declaration d'un nceud, etc.), mais bien des erreurs de conception. Par exemple, l'inflation des parametres rend lc modele non
identifiable (violation du principe de parcimonie des parametres). Cependant,
un modele qui marche mal est pire qu'un modele qui ne marche pas
(Spiegelhalter et al., 2003). Dans le chapitre 5 nous montrons une utilisation
astucieuse de WinBUGS pour estimer la distribution du cardinal d'un ensemble
fini qu'on ne peut recenser.

Chapitre 5

Le cardinal sort du rang


la cible est une variable
latente

Prologue
Sous ce titre quelque peu humoristique, nous nous interessons a un problerne
generique qui a de nombreuses applications pratiques : connaissant le rang
d'un element d'un ensemble fini ordonne E, on se propose d'inferer le nombre
d'elcments de E. En fait, c'est la generalisation de ce probleme a une collection
d'ensembles finis ordonnes qui nous interesse. Sous le paradigme bayesien, le
recours aux variables latentes (voir chap 3, p. 3.2.3) permet d'introduire un
second niveau de variation entre les ensembles, ce qui confere au modele une
structure hierarchique. Mais un modele n'est utile que s'il est calculable et
c'est pourquoi les modeles hierarchiques et les methodes de Monte-Carlo sont
indissociables.

5.1

Introduction

Dans lc chapitre 4 nous avons vu que les methodes de Monte-Carlo liberent


la creativite du chercheur en Ie debarrassant de la plupart des soucis calculatoires. En passant de la plume a la souris, les modeles gagnent en realisme,
C'est ainsi que le recours a des variables aleatoires latentes (c'est-a-dire cachees)
permet de simuler convenablement la realite complexe que nous ne percevons
qu'au travers des observables.
Les modeles qui impliquent des variables latentes presentent presque toujours une structure hierarchique, Comme les parametres, les variables latentes
sont des quantites inconnues et incertaines. Dans un DAG, ces noeuds inter-

86

Pratique du calcul bayesien

mediaires, en sandwich, se reperent facilement car ce ne sont pas des nceuds


initiaux (parametres sans parents) ni des nceuds finaux (en general les observables sans enfants). Elles se distinguent des parametres en ce sens qu' elles ne
comptent pas pour le principe de parcimonie pour autant que leur introduction
ne necessite pas de nouveaux parametres 1.
Pour illustrer les propos, nous prenons le probleme generique des rangs de
naissance disponible dans (Hand et al., 1993) qui cite Burks (1933).

Exemple 5.1 [Les rangs de naissance] A partir de la seule connaissance du


rang de naissance de 1800 etudiants inscrits en classe elementaire de psychologie
a l'universite de Californie entre 1924 et 1929, on demande d'inferer la taille de
la fratrie type.

II s'agit en fait d'une generalisation du probleme du tramway resolu dans


(Robert, 2006) qui fait reference a (Jeffreys, 1961).

Exemple 5.2 (Le tramway) Une personne arrive dans une ville qui lui est
parfaitement inconnue. En particulier, elle en ignore la taille. La premiere chose
qu'elle y voit est un tramway portant le numero r. Sous l'hypothese que les
tramways sont numerotes en ordre croissant a partir de 1, que peut-elle en
deduire sur le nombre de tramways circulant dans la ville?

L'exemple des rangs de naissance pourrait trouver une application interessante en planetologie, En date du 19 octobre 2007, on dispose d'un catalogue
de 209 etoiles autour desquelles gravitent une ou plusieurs exoplanetes (tableau
5.1)2. La derniere planete decouverte autour d'une etoile-hate definit le rang a
partir duquel on peut inferer la taille d'un systeme planetaire type.

Tableau 5.1 - Nombre d'exoplanetes detcctces par mesures de vitesses radiales


stellaires dans 209 systemes planet.aires.

Le lecteur interesse pourra calculer la distribution predictive a posteriori


du nombre d'exoplanetes dans un systeme extrasolaire en substituant les donnees dans le code WinBUGS fourni en fin de chapitre (fig. 5.5). Nous avons
prefere resoudre le probleme des rangs de naissance parce que la grande taille
de l'echantillon interdit l'utilisation d'une grille (voir chap. 4). Signalons aussi
que de telles methodes ont ete utilisees par les allies pendant la seconde guerre
mondiale : il s'agissait d'estimer la production allemande de canons et de chars
Panther V a partir des numeros de series observes durant les defiles militaires
ou sur les champs de batailles (Ruggle et Brodie, 1947). Pendant la guerre
1 Un modele statistique pararnetrique vise a decrire un phenomene naturel avec un nombre
raisonnable de parametres (nettement moins que le nombre de donnees !).
2 Jean Schneider, voir http://vo.obspm.fr/exoplanetes/encyclo/catalog-RV.php).

5. Le cardinal sort du rang

87

de Coree, les americains se sont appuyes sur les memes idees pour estimer la
quantite de divers materiels militaires sovietiques,

Modelisation hierarchique

5.2

Le probleme du tramway est interessant parce qu'il illustre bien la pratique


du raisonnement conditionnel bayesian. C'est pourquoi nous le donnons comme
une introduction au probleme des rangs de naissance.

5.2.1

Le problema du tramway

Soit Z le nombre inconnu de tramways circulant dans la ville et R l'observable, c'est-a-dire leur numero etant entendu qu'ils sont numerotes en ordre
croissant a partir de 1. Soit r le numero observe.
- La vraisemblance de l'information R == rest conditionnelle a Z :

[R

== r IZ] ==

i,

,Z

r == 1, 2, . ..

(5.1)

- Si on interprete Z comme un parametre d'echelle, un prior non informatif


est
1
[Z] ex(5.2)
Z

A posteriori3

[Zlr] ex i21n(Z),

(5.3)

O=={r,r+l,.}

La probabilite que Z depasse une valeur Zo > r suit :


00

P r (Z > Zo I)
r -

L: 1/j2

j=zo

fliP

r--:

Joo
d j 2
Zo X X

Ir

00

dxlx

(5.4)

Zo

j=r

Le quantile Zp ayant la probabilite p d'etre depasse est done estime par


== r lv. C'est la mediane du posterior qui est l'estimateur habituellement
retenu pour le probleme du tramway (Robert, 2006) : ZO.5 == 2r.

zp

Signalons que le traitement de ce probleme artificiel est extremement senet une seule donnec,
sible au choix du prior: avec le prior non informatif en
vraisemblance et prior apportent exactement la meme quantite d'information.
Avec un autre prior, par exemple N1k ,k ~ 1, la solution de l'equation 5.4 serait

-k

(zp)k
3

= r kIp soit

In (Z)

ZO.5

= (2*) r !

== 1 ssi Z E 0, In (Z) == 0 sinon.

Pratique du calcul bayesien

88

5.2.2

Le probleme des rangs de naissance

Le tableau 5.2 donne Ie rang de naissance de 1800 etudiants inscrits en


classe elementaire de psychologie a I'universite de Californie entre 1924 et 1929
(Burks, 1933).

Tableau 5.2 - Rang de naissance de 1800 etudiants.

L'observable est le rang de naissance d'un etudiant choisi au hasard. C'est


un nombre entier superieur ou egal a un. La taille de sa fratrie est cachee.
Que peut-on dire du nombre d'enfants dans la population mere, ici la famille
californienne des annees trente capable de soutenir des etudes universitaires?

Le modele
Pour gcnerer des rangs de naissance on peut pro ceder de la facon suivante.
Soit "i le rang de naissance de l'etudiant j et soit Zj le nombre de ses freres
et sceurs, j == 1,2, ... ,k == 1800.
1. Tirer A dans une loi gamma : A rv dgamma (a, b)
2. Pour j == 1,2, ... ,k :
(a) tirer lc nombre de freres et soeurs dans une loi de Poisson :
dpois (A) ;

Zj

(b) tirer le rang de naissance r j dans une loi discrete uniforme definie
sur 0 Z j == {I, . .. ,Zj + I}.
Clairement, le parametre A est la valeur attendue du nombre de freres et
sceurs d'un etudiant quelconque lui-meme n'etant pas compris.
Le DAG (fig. 5.1) represente ce mecanisme generateur pour deux sujets
distincts j et k :
- les neeuds stochastiques Zj et Zk sont conditionnellement independants
sachant A;
- les nceuds stochastiques rj et rk sont independants, mais ne sont pas
identiquement distribues,

(5.5)
(5.6)
(5.7)

5. Le cardinal sort du rang

89

Figure 5.1 - Le probleme des rangs de naissance : structure hierarchique du modele.

On obtient la distribution de l'observable a partir de la distribution conjointe


de l'observable et de la variable latente en sommant cette derniere sur toutes
ses valeurs possibles :
00

[rjIA] ==

00

[rj,ZjIA] ==

Zj=O

[rjlzj] [ZjIA]

Zj=O

En y substituant les modeles (5.6, 5.7), on obtient la contribution du rang


de naissance de I'etudiant j a la vraisemblance :

La vraisemblance complete s'ecrit :

Le prior (5.5) et la regle de Bayes donnent :


a

[Air] ex A

exp (- (k + b)A)

AZ

II L ( + 1)
k

00

.
)=1 z=rj-1

Z.

(5.10)

90

Pratique du calcul bayesien

Si n r etudiants annoncent Ie rang de naissance r


sion devient :

[Air] ex

a 1
A - exp

(- (k + b) A)

1,2, ... ,m cette expres-

11 C~l (z ::) z!)

(5.11 )

Comme on l'a vu au chapitre 4, il existe differentes methodes pour calculer


une distribution a posteriori. Quand le parametre du modele d'echantillonnage
est unidimensionnel, la methode la plus simple consiste a l'integrer sur une
grille. Mais avec les donnees du tableau (5.2), le facteur exp (- (k + b) A) sera
toujours nul car k ~ 1800. Trois solutions s'offrent a nous.
1. La premiere consiste a tirer un echantillon aleatoire de taille raisonnable
dans une distribution multinomiale d'ordre k ~ 1800 et dont les probabilites des occurrences r ~ 1,2, ,m sont les frequences relatives des
effectifs du tableau (5.2). Ce faisant, l'integration sur une grille ne pose
plus de probleme mais on a perdu de l'information.
2. La deuxieme est de programmer un algorithme MH, ce qui implique des
developpements theoriques.
3. La troisieme est de resoudre ce probleme dans WinBUGS.
Le but etant d'illustrer les techniques MCMC, nous ferons l'etude theorique,
mais nous realiserons l'inference sous WinBUGS, avec un recours a une astuce
developpee par ses concepteurs (Spiegelhalter et al., 1996a) : lc zero trick.

Developpernents theoriques
La log-densite a posteriori est la transformce logarithmique de la relation
(5.11). Pour ecrire un algorithme de Metropolis-Hastings, ecrivons-Ia comme
suit:
In [Air] ~

f (A) + cte

ou
f (A) = (a -

1) In A- (k + b),\ + ~ n; In

(00
A
Z~l (z + 1) z!
Z

On souhaite utiliser la loi normale comme distribution instrumentale, c'esta-dire que la marche aleatoire se fait dans IR, mais on revient dans IR+ a chaque
iteration:
In Ai dnorm (In Ai-I, o ) --+ Ai ~ exp (In Ai)
r-;

Pour regler l'ecart-type a quelques essais sont necessaires pour obtenir un


taux d'acceptation conforme aux recommandations (voir la section 4.3 pour Ie
detail de la methode).

5. Le cardinal sort du rang

91

La figure 5.2 montre un code R qui solutionne Ie probleme via un algorithme


MH. La fonction SumRank (non fournie ici) calcule

~nr In ( ~ (z ::) z!)

% small Data Sets 119


% Estimation de la taille de la fratrie type a partir du
% rang de naissance de 1800 etudiants californiens (annees trente).

clear all;
close all;
% Donnees
n=[797,455,265,125,68,37,26,8,l,9,5,3,l];
k=1800;
% Prior non infonmatif
a=O;b=O;
% log-densite a posteriori : appel a la fonction SumRank
f= .(x) (a-1)*10g(x)-(k+b)*x+SumRank(x,n);
% Algorithme MH : la loi instrumentale est nonmale
Counter=O;
lambda(1)=4;
sigma=.06;
for i=2:4000
cand=nonmrnd(10g(lambda(i-1)),sigma);
cand-expfcand) ;

u-urrifrndfu 1);
test=f(cand~-f(lambda(i-1));

if test>log(u)
Counter=Counter+1;
1ambda (i) =cand;
else
lambda(i)=lambda(i-1);
end
end.
'
Rat~=counter/4000

LAMBDA=lambda(100l:4000);
% Predicti ve
PRED=~oissrnd(LAMBDA)+l;

IC90= [prcti le(LAMBDA, 5), prctile(LAMBDA, 50),prctile(LAMBDA,95)]

Figure 5.2 - Algorithme MH pour les rangs de naissance.

Resultats Apres 4000 iterations dont 1000 pour la periode de chauffe, avec
un taux d'acceptation de 0.45, on obtient les resultats suivants (tableau 5.3 ,
fig. 5.3).
Inference bayesienne sous WinBUGS
La relation (5.8) donne la contribution du rang de naissance rj a la vraisemblance. Si n; etudiants declarent le rang de naissance r, sous l'hypothese

92

Pratique du calcul bayesien

1090
A
Taille

50
2.57
3

5
2.47
1

95
2.68
6

Tableau 5.3 - Rang de naissance : IC90.

dindependance, la contribution du rang r (qui arrive n r fois)


s'ecrit :

a la vraisemblance

(5.12)
Cette distribution n'est pas disponible dans WinBUGS mais l'astuce suivante permet de s'en sortir.

Le zero trick

Soit [yIO] la contribution de l'observation y a la vraisemblance pour un modele d'observable parametre par O. On sait que si une variable aleatoire x est
distribuee selon une loi de Poisson de paramctre a > 0, la probabilite qu'elle
prenne la valeur zero est exp (-a). Maintenant, si on identifie a a l'oppose du
logarithme de la vraisemblance, on a :

a == -In [yIB] > a ::::} [x == ala] == exp (-a)

== exp (- (-In [yIB]))


== [yIO]

(5.13)

Ainsi la contribution de l'observation y a la vraisemblance d'un echantillon


issu d'un modele d'observable parametre par B, est identique a la contribution
d'un zero a la vraisemblance d'un echantillon de zeros, issu d'une loi de Poisson
parametree par a == -In [yIO]. Mais attention! Rien ne garantit que -In [yIO] >
o. Aussi, la vraisemblance etant definie a une constante pres, on doit ajouter
une constante 0 > 1 a la log-vraisemblance de telle sorte que l'on soit certain
que -In [yIO] + 0 > o.

Application du zero trick au probleme des rangs de naissance


A partir de la relation (5.12), on a
00

In [riA, nr]

AZ

= -nrA + n; In ~ r (z + 2) 1{1,... ,z+l} (r)

II suffit donc de tirer des zeros dans une loi de Poisson de parametre
TJr == -In [riA, n r ] + 0

5. Le cardinal sort du ra ng

93

3.5
K

3
2.5

2 L..-.............~~.L...-~~~'-'--~~~.LI...----'- -'--'-~u.J
10

10

10

10

10

March e aleatoire

0.4
Q)

0.3

.~

tl

"D

0.2

'~

0...

0.1
0

I---

I--

Il---t
6

10

Nombre d'enfants

Figure 5.3 - Le problems des rangs de naissan ce. Profi l d 'une mar che aleatoire et
distribution predictive a posteriori de la t aille de la fratrie type.

Remarque 5.1 Sous WinBUGS, la fonction step permet de coder facilement


la condition 1{1 ,... ,z + l } (r)

1{1 ,... ,z + l } (r)

1?r:::; z + 1

= step (z + 1 - r) = { 0 ? r > z + 1

(5.14)

La fonctio n loggam calcule In r (z + 2). Par consequent,


exp (loggam (z + 2))

= r (z + 2) = (z + 1) z!

(5.15)

Les figures (5.4) et(5 .5) mont rent respectivement le DAG et Ie code WinBUGS. Apres 4000 iterat ions dont 1000 pour la periode de chauffe, le tableau
(5.4) donne un intervalle de credibilite a 90 % pour >. et T . On retrouve (evidemment) les memes resultat s que ceux obt enus sous R.

94

Pratique du calcul bayesien

A
Ta ille

5
2.47
1

50
2.57

95
2.69
7

Tableau 5.4 - Rang de naissance : IC90 (WinB UGS) .

eta [r]

Figure 5.4 - Le problerne des rangs de naissance. Representat ion du modele hierarchique par un DAG sous WinBUGS.

Epilogue
Inferer le cardinal type d'une collect ion d'ensembles ordonnes a partir de la
seule connaissan ce du rang d'un de leurs elements est un probleme generique
qui a des applicati ons pra tiques. Le modele du tramway voit le nombre de tramways circulant en ville comme un par ametre et c'est pourquoi on peut postul er
un prior , en l'occurrence un prior non informatif de la forme [N] ex. N - 1 , car
Nest vu comme un parame tre rl'echelle. Ce modele simple n'introduit pas de
variable latente. Il exploit e direct ement tou te l'information disponible : conditionnellement a N , le ra ng du tramway observe est vu comme un tirage aleat oire
dans une loi discrete uniforrne prenant ses valeurs dans n = {I , 2, ' " ,N}. On
pourrait etre tente de s'en servir pour le probl eme des ra ngs de naissance :
une fratri e = une ville et le rang de naissance de l'etudiant = Ie numero du
tramway. Mais la generalisat ion de ce modele, pris tel quel, a plus d'une fratri e n'est pas simple. Le modele des rangs de naissance impliqu e des variables

5. Le cardinal sort du rang

95

latentes dans une structure hierarchique. La variable latente, Zj, represente Ie


nombre de freres et soeurs de l'etudiant j. On a postule pour ces variables une
distribution de Poisson de parametre A. Le rang de naissance est alors distribue uniformement sur l'ensemble f2j == {l, ,Zj + l}. L'inference sur A est
realisee via un algorithme MH programme dans R ou dans WinBUGS via le
zero trick. Dans les deux cas, chaque valeur de la chaine AIOOI, ... ,Aj, A4000
gencre un nombre de freres et soeurs, c'est-a-dire une valeur Zj, via un tirage
aleatoire dans une loi de Poisson de parametre Aj. La predictive a posteriori
est obtenue en ajoutant 1 a Zj puisque l'etudiant appartient a sa fratrie.
A ce stade, nous avons decouvert et manipule des outils puissants pour
resoudre des problemes de plus en plus interessante et utiles. Le chapitre suivant introduit la modelisation des evenements extremes via les modeles GEV
et POT. Le defi est reel car, par definition, ces evenements sont rares alors
que les enjeux sont importants. II y a donc peu de donnees et l'expertise est
reduite. Pourtant, les fondements de ces modeles sont solides et leur utilisation
rationnelle permet de mettre en place des protections qui fonctionnent.
'# Ou rangde Ilaissance d"un .tudlant ala taille de sa fratrie (Sam,n Data Sets 119t

Utilisation du "zerotrick"
Lavariable latente. 2, representele nombre defreres et sceurs (hors I'etudiant)
~ Elleasttiree dans une loidePois$onparametree parlambda :> 0
L'observable asile rang denaissance, r, deretudiant
~ II esttiredans une loidiscrete unifarme. denoie sur1,2,
z+1
Enpredictif, N:: zet lataille delafratne, T,estdone egale aN+1
Notana que t ::: Z + 1

modet
(
lambda .... dgamma(a,b)
for(rin 1: m ) (
zero(r] <-0
for(tin 1 ,31) {
temp[r t] <- (pow(lambda,t - 1) * step(t - r) I expOoggam(t + 1
}

s[r] <-rom(temp[r .l)


eta[r] <- n[r] * lambda -nl[r] * log(s[rD + C
zero(!] "" dpois(eta(r])
N"'" dpois(1ambda)
T<N+ 1

}
fiOata
list(n:: cfl97,455,265,125,68,37,26,8.1,9,5,3.1), a:: 0,001, b= 0.001, C:::10000, m:: 13)

Mnit
list(lambda :::3 N;: 6)
list(fambda =1. N=9)
j

Figure 5.5 - Le problerne des rangs de naissance. Code WinBUGS.

Chapitre 6

Initiation a la modelisation
des valeurs extremes :
les modeles GEV et POT
Prologue
Dans un contexte decisionnel, la modelisation des valeurs extremes est du
plus grand interet puisqu'une protection qui fonctionne pour des evenements
extremes pare aussi des evenements de moindre ampleur. Ainsi, la determination de la hauteur d'une digue prend en compte les crues extremes du cours
d'eau, y compris celles qui n'ont jamais ete observees, A l'exclusion notable
des distributions discretes (processus de comptage) , la theorie des valeurs extremes considere un rz-echantillon iid et s'interroge sur la distribution de la
plus grande ou de la plus petite valeur de cet echantillon lorsque sa taille tend
vers l'infini. L'article fondateur implique l'un des plus grands statisticiens classiques (Fisher et Tippett, 1928) dont les travaux furent valides et completes
par d'autres personnalites (Gnedenko, 1943), (Jenkinson, 1955). Cependant,
certains s'interrogent encore sur le sens memc du concept de probabilite quand
on l'applique a des evencmcnts exceptionnels (Bouleau, 1991). Effectivement, lc
frequentisme radical est, ici, a bout de souffle. Dans ce meme contexte, Ie paradigme bayesien trouve une nouvelle justification. Ce domaine de la recherche est
en plein essor, notamment pour prendre en compte les depcndanccs spatiales
et./ou temporelles entre les valeurs extremes (Drees, 2008). Dans ce chapitre
d'introduction, nous nous limiterons au cas OU il est raisonnable de postuler
l'independance entre les extremes. Cette hypothese fonde les modeles GEV (generalized extremes values) et POT (peak over threshold), modeles qui sont en
fait deux expressions differentes d'une meme realite, Leurs nombreuses applications dans les sciences experimentales, notamment en genie civil, temoignent
de leur interet.

98

Pratique du calcul bayesien

6.1

Introduction

Les inondations, avalanches, scismcs, etc., sont des evenements d'autant


plus redoutes que leur intensitc est grande, et on comprend bien qu'une valeur
extreme est une intensitc qui a heureusement peu de chances d'etre obscrvee.
Pour clarifier les idees, imaginons que la distribution de la lame d'eau journaliere' en un lieu soit une loi normale de moyenne J-L et d'ccart-typc (J. Des
lors, conditionnellement a la connaissance des parametres J-L et (J, la probabilite d'observer une lame d'eau journaliere dont la hauteur excede J-L + ka est
quantifiable des que l'on dispose de la fonction de repartition de la loi normale
standard, traditionnellement notce <I> :

.p == Pr (X

> J-L + k(J) ==

X -J-L
Pr ( -(J-

> k ) ==

1 - <I> (k)

Par exernple, la probabilite d'observer une lame d'eau journalierc dont la


hauteur excederait la moyenne de trois ecarts-types est d'environ une chance sur
mille (p ~ 1.35 X 10- 3 ) . Une telle hauteur d'eau serait assurement considerec
comme un evenemcnt extreme et pourrait etre prise en compte pour dimensionner le reseau devacuation des eaux de ruissellement (qui peut le plus, peut
le moins).
Bien entendu, l'hypothese de norrnalite est tres discutable et son refus invalide le calcul de la probabilite du depassemcnt realise ci-dessus, a moins qu'on
ne fasse appel au theoreme central limite.
L'enregistrement de la hauteur d'eau journaliere sur une longue periodc,
souvent I'annee, fournit une suite de variables aleatoires reelles (v. a. r.) :
Xl, X n . Si on postule que les X j sont iid selon une fonction de repartition
inconnue, F, de moyenne J-L et decart-type (J, alors le iheoreme central limite
no us dit que la distribution de
x;

==

n D x,
l~

j=l

tend asymptotiquement vers la loi normale standard.


Par consequent, conditionnellement a J-L et (J, on a :
k
Pr ( Xn>f.L+

(J

Vii

=Pr ( Zn=

x;
- J-L >k ) ':::'l-<i>(k)
a/Vii

En pratique, les parametres J-L et (J sont inconnus et on leur substitue la


moyenne et l'ecart-type empiriques, respectivement notes xn et Sn. En d'autres
mots, la loi normale standard est la loi d'une v. a. r. Z vers laquelle la v. a. r.
Zn converge en 10i2 lorsque n tend vers l'infini
Xn

:Tn ,Sn

Z -

n-

Vii (Xn Sn

Xn)

n-+oo

1 La lame d'eau journaliere en un lieu donne est I'equivalent en eau liquide du cumul de toutes
les precipitations recues par un metre carre de terrain en vingt-quatre heures (lmm = ll/m 2 ) .
2 Lorsque n tend vers l'infini, la fonction de repartition empirique de X est egale a <I> en tout
point Z ou <I> est continue (IR) .

6. Les modeles GEV et POT

99

Cependant, il faut bien admettre que la moyenne x; n'est pas la meilleure


statistique pour modeliser des evenements exceptionnels. En effet, les v. a. r.
minimum et maximum du n-echantillon iid correspondent mieux a l'idee que
l'on se fait d'une valeur extreme:
m.;

== min (Xl, ,Xn ) , M'; == max (Xl, ,Xn )

En fait, on peut se limiter


mn

a l'etude du maximum car

== - max (-Xl , ... , - X n )

A l'image de ce que nous avons fait ci-dessus, c'est le comportement asyrnptotique du maximum qui nous interesse. Ici, il y a un ecueil. F etant une fonction
de repartition, l'hypothese iid entraine
Pr (M n :::; z) == (F (z))n
Soit z+ la plus petite valeur z pour laquelle on a F (z)
Iimite'' donne une distribution degenerce
Vz < z+:

1. Le passage

a la

lim [F (z)]n == 0
n~oo

L'idee est de rcsoudre cette difficulte en appliquant comme ci-dessus une


transformation Iineaire au maximum M'; afin que le passage a la limite conduise
a une distribution non degeneree. La question est done de savoir s'il existe des
constantes normalisantes, an 2: 0 et bn > 0, telles que le maximum normalise,
Zn, converge en loi vers une v. a. r. Z lorsque n tend vers l'infini

La theorie donne une reponsc affirmative a cette question et precise la distribution de Z. Le comportement asymptotique de la loi du maximum M n
depend de la fonction de repartition initiale F. (Fisher et Tippett, 1928) ont
etabli qu'il n'y a que trois types de lois limites possibles: Frechet, Weibull 4 et
Gumbel.
La majorite des lois de probabilite usuelles appartiennent a l'un des trois
domaines dattraction''. Par exemple, les distributions gamma et log-normale
appartiennent au domaine d'attraction de Gumbel regroupant la majorite des
distributions a queue fine; les distributions de Pareto, log-gamma et de Student
appartiennent au domaine d'attraction de Frechet regroupant la majorite des
distributions a queue lour de ; la distribution uniforme appartient au domaine
d'attraction de Weibull regroupant la majorite des distributions sans queue.
On suppose que la limite existe.
pas confondre avec la loi de Weibull utilisee dans Ie domaine de la fiabilite.
5 On appelle domaine d'attraction d'une loi H l'ensemble des lois F pour lesquelles Ie maximum d'un echantillon, M n , converge en loi vers la loi des extremes du type H.
3

A ne

100

Pratique du calcul bayesien

En fait, on peut caracteriser ces trois types de distribution par une distribution unique, la loi qeneralieee des valeurs extremes ou modele GEV (generalized
extremes values) (Gnedenko, 1943), (Jenkinson, 1955).
Le modele GEV est coherent avec lc modele POT (peak over threshold) qui
voit les valeurs extremes d'une observable comme les depassements d'un seuil
fixe assez haute Ces depassements constituent un processus de Poisson marque,
les excedents etant distribues selon une loi de Pareto qeneralisec qui n'est rien
d'autre que l'oppose du logarithme du modele GEV. Ainsi, les modeles GEV
et POT sont en quelque sorte les deux faces d'une meme medaille. Ils sont
d'application dans les situations OU il est raisonnable de postuler que les evenements extremes sont independants. Dans le cas contraire, des modeles plus
sophistiques existent (Drees, 2008).
Les modeles GEV et POT sont caracterises par un parametre tridimenConduire une inference baycsienne sur
implique de recourir aux
sionnel
methodes speciales du chapitre 4. Pour le modele GEV, aucune des trois conditionnelles completes n'est standard, mais un algorithme de Metropolis-Hastings
sequentiel est relativement facile a regler. Pour le modele POT, deux des trois
conditionnelles completes sont standards et l'utilisation d'une grille pour la
troisieme permet de programmer facilement un echantillonnage de Gibbs.
Le lecteur interesse trouvera dans (Coles, 2001) un excellent ouvrage d'introduction a la modelisation statistique des valeurs extremes traitee essentiellement sous le paradigme classique (Coles donne un exemple d'inference bayesienne dans la premiere section de son dernier chapitre).

e.

Note 6.1 Le statisticien bayesien raisonne toujours conditionnellement aux


parametres. Cependant, pour allegcr les ecritures, il arrivera que le conditionnement soit implicite, notamment dans les developpernents.

6.2

Le modele GEV

Soit {X t } un processus stochastique a temps discret". Soit Xl, ... ,Xn une
serie de n v. a. r. iid de fonction de repartition F. On peut ordonner cet
echantillon par ordre croissant: X(l) < X(2) < ... < X(n). Intuitivement, on
comprend que le maximum Mn == X(n) est une valeur extreme si nest assez
grand. La probabilite que ce maximum soit inferieur a une valeur z don nee est
triviale
Pr (Mn < z) == (F (z))n
Lorsque n tend vers l'infini, cette distribution est nulle en tout point z < z.,
ou z., est la plus petite valeur de la v. a. r. M n pour laquelle F == 1. On
dit d'une telle distribution qu'elle est degeneree. L'idee est d'appliquer une
6 Sous Ie nom de processus stochastique it temps discret, on entend un modele permettant de
decrire un phenornene aleatoire evoluant au cours du temps, OU les observations sont realisees
en des instants t ETC Z.

6. Les modeles GEV et POT

101

transformation Iineaire au maximum M n telle que, lorsque n tend vers l'infini,


la distribution limite, G, soit non degeneree,
Les deux theoremes suivants fondent la theorie des valeurs extremes.

Theorems 6.1 (Fisher et Tippett, 1928). S'il existe des suites normalisantes
{an} et {b n > O} telles que
Pr (Zn = M nb- an
n

<

z) == (F (an + bnz))n

----+

G (z)

n~oo

oii la fonction de repartition G est non degeneree, alors G ne peut appartenir


qu 'a l'une des trois familles suivantes : Frechet, Gumbel ou Weibull.

Theoreme 6.2 ((Gnedenko, 1943), (Jenkinson, 1955)). S'il existe des suites
normalisantes {an} et {bn > O} telles que

oi: la fonction de repartition G est non degeneree, alors G est un membre


de la famille GEV (loi generalisee des valeurs extremes) dont la fonction de
repartition

G(zIJL,(T,~) =exp (_ (l+~z:JL)-1/~)

(6.1)

est dejinie sur l'intervalle reel dejinit par

l+~z-~>O
a

(6.2)

avec

(6.3)
Remarque 6.1 La difficulte posee par la determination des coefficients an et
bn > 0 n'est qu'apparente car

entraine

Pr (M n ~ an + bnz) ~ G (an

+ bnz) == G* (z)

ou G* est un autre membre de la famille GEV. Par consequent - comme on doit


conduire une inference bayesienne sur les parametres pour identifier le membre
de la famille GEV en adequation avec les donnees et l'expertise disponibles en pratique on ne se preoccupe pas de ces coefficients et il est licite d'ecrire, a
n grand fixe :

102

Pratique du calcul bayesien

La loi generalisee des valeurs extremes postule que le maximum normalise


Zn converge en loi vers la v. a. r. Z de fonction de repartition G (eq, 6.1)
lorsque n tend vers l'infini. La v. a. r. Zest donc bien une valeur extreme.
Le signe du parametre de forme ~ (prononcer xi) est capital.
- Si ~ > 0, la loi de la valeur extreme Z est un membre de la famine des
lois de Frechei (lois a queue lourde).
- Si ~ < 0, la loi de la valeur extreme Z est un membre de la famine des
lois de Weibull (lois bornees superieurement, donc sans queue).
- Le cas ~ == 0 doit etre interprets comme la limite du modele (eq. 6.1)
lorsque ~ ---+ 0, ce qui conduit a la famine des lois de Gumbel.
Proposition 6.1 La limite du modele (eq. 6.1) lorsque ~ ---+ 0 conduit a la
famille des lois de Gumbel definies sur ffi. par la fonction de repartition suivante
G (ZIJLl a) = exp (- exp ( _ z:

A partir de [eq.

(6.5)

6.1), en raison de la condition (eq. 6.2) on a

M)-l/e

JL) )

1+~-a-

(1 (

M))

=exp -~ln l+~-a-

Le passage it la limite conduit it une indetermination (0/0) levee en appliquant


la reqle de l'Hospital

. 1 (

M) = = -M
-

Z lim - In 1 + ~-a

e~o~

Z -

Par consequent
lim

e~o

M) -lie

1 + ~-a
Z -

== exp

(z
- M)
--a

ce qui enirainc le resuliai (eq. 6.5).


En pratique, le statisticien bayesien pose le modele (6.1) et c'est la distribution a posteriori de parametre ~ qui lui revele le domaine d'attraction de
l'observable.
La fonction de densite de probabilite du modele GEV s'obtient en differenciant (6.1) par rapport a Z :

(6.6)

6. Les modeles GEV et POT

6.2.1

103

La valeur de projet

La modelisation des valeurs extremes est du plus grand interet pour les
sciences appliquees, notamment pour dimensionner les ouvrages de protection (digues, reseaux devacuat.ion des eaux de ruissellement, barrieres antiavalanche, etc.). En general, les dommages seront une fonction croissante de
la difference positive entre I'intensite de I'evenement redoute et le niveau de
protection.
On appelle valeur de projet la valeur zp qui ala probabilite p d'etrc depassee

p == Pr (Z

> zplB)

(6.7)

La quantite T == :' definit la periode de retour de l'evenement Z > zp. Elle


est nommee ainsi car elle represente l'intervalle de temps moyen, par exemple
en annees calendaires, separant deux occurrences successives de cet evenement.
Ainsi, un evenement de periode de retour de T annees a la probabilite p == T- 1
de survenir chaque annee,
Posons
Xp

= -In (1 -

p)

~~

si p est petit

(6.8)

En general, la probabilite pest fixce par le decideur qui veut, par exemple,
se proteger contre une crue qui revient tous les 100 ans, c'est-a-dirc qui a la
probabilite p == 0.01 de se produire chaque annee,
On deduit la valeur de projet zp associee a p en distinguant le cas OU ~ i=- 0
du cas OU ~ == o. Apres quelques manipulations elernentaires, on trouve :

a ==> zp = fJ, ~ ~ (1 - X;~)

o =?

zp

== J-L -

In x p

(6.9)

(6.10)

Dans un repere cartesien, les couples (zp, -In x p) dessinent une droite si
~ < 0 (Weibull) ou concave si ~ > 0
(Frechet) 7 . On peut en effet montrer que Ie ratio

== 0 (Gumbel), une courbe convexe si


ZlO-3 -

zlO-2

zlO-2 -

ZlO-l

c'est-a-dire, Ie rapport de l'accroissement des quantiles du centenal au millenal


sur l'accroissement des quantiles du decennal au centenal, est plus grand que
1 (comportement explosif si ~ > 0) tandis que les accroissements relatifs entre
chaque ordre de grandeur de la periode de retour decroissent (atteinte d'une
borne sup si ~ < 0).
7 Si l'axe des abscisses est en coordonnee logarithmique, on arrive aux memes conclusions
avec les couples (zp, xp).

104

Pratique du calcu l bayesien

C>

'<i

LO

Q)

Vl

'"c:
C

Q)

C>

::;
8

LO

Q)

Q)

sc.

C>

c;;
Q

12

13

14

15

16

17

18

19

va leu r d e p rojet

Figur e 6.1 - Graphe des niveaux de retour.

Ce graphe (fig. 6.1) appele gmph e des niveaux de retour perm et une est imation pon ctuelle des parametres /1 et (1 . En efIet , une regression lineaire
de Z p sur X p , don e un modele qui postule ~ = 0, fournit une est imation
pon ctu elle du couple (0-, {L) . Cette estimation est d 'au tant meilleur e que Ie
nuage de points montre une direction bien marquee. Une seconde est imat ion
ponctu elle, independante de la forme du graph e, est obtenue en maximi san t
la log-vraisemblance via une methode numerique . Celle-ci fournit un triplet
{} = ({L ,0-, pouvant servir de point de depart it l'inference bayesienne it par-

tir d'un algorithme de Metropolis-Hastings (chap . 4).

6.2.2

Sensihilite du modele GEV aux hypotheses

Le modele GEV postule que les observations element aires, X, : t ETc Z,


sont ii d sur toute la periode d'interet . Celle-ci est divisee en blocs d'egale longueur (genera lement l'annee) , c'est-a-dire que chaque bloc cont ient Ie meme
nombre d'observations elementaires n. Si nest assez gra nd (par exemple n =
365), Ie maximum observe sur chaque bloc peu t etre vu comme Ie resultat
d 'un tirage aleatoire dans la loi GEV (approximation asymptot ique) . L'independance des observation s elementaires ent raine l'independ an ce des maxim a.
Par consequent , la vrais emb lan ce d 'un e chronique de k maxim a est simplement
Ie produit des densites GEV en chaque poin t.
Que se passe-t-il si les observat ions elementaires ne sont pas independantes
et identiquement distribuees ? Dans les applications pra tiques, cette hypo-

6. Les modeles GEV et POT

105

these fondatrice du modele GEV est rarement respectee, Par exemple, les precipitations journalieres montrent souvent une dependance a court terme et
aussi un effet saisonnier. Selon (Coles, 2001), c'est l'independance des maxima
Zl,'" ,Zk,'" qui compte. Les praticiens appliquent ce modele et verifient a
posteriori l'hypothese iid des maxima. De plus, dans un contexte decisionnel,
on a grand interet a disposer d'un echantillon de maxima observes de bonne
taille, surtout dans le cas d'un prior non informatif (peu ou pas d'expertise sur
le phcnomene etudie). Par consequent, si les maxima sont dependants, l'information apportee par I'echantillon en main est moindre, parfois bien moindre.
La modelisation des extremes dependants exige des modeles plus complexes
(voir p. ex. (Leadbetter, 1983)). Cela depasse le cadre de ce livre.

6.3

Le modele POT

Definir une valeur extreme comme une observation qui depasse un seuil fixe
assez haut est une idee tres naturelle. Bien sur, quand on considere une longue
chronique du signal d'interet, le nombre de valeurs extremes depend du seuil
choisi. La distribution des depassements du seuil tend vers une loi limite connue
sous le nom de loi de Pareto qeneralisee ou modele GPD (generalized Pareto
distribution). Pour que cette approximation asymptotique tienne, il faut que
Ie seuil soit choisi assez haut. D'un autre cote, plus le seuil est bas, plus on
dispose de donnees extremes et plus on reduit l'incertitude par ignorance. Un
compromis doit etre fait.

Exemple 6.1 La figure 6.2 montre la lame d'eau joumaliere a Uccle (Belgique)
entre le 1er janvier 1880 et le 31 decembre 2002 (donnees fournies gracieusement
par l'Institut royal meteorologique de Belgique (IRM) que nous remercions).
Sur cette pcriode de 123 ans, il y a 273 depassernents du seuil c == 23 mm contre
123 maxima annuels.

106

Pratique du calcul bayesien

70

~
~

:~

60
50

rn

E
[ 40
::>

'"
Q)

'0

30

Q)

..'3

20
10

90

00

10

20

30

40

50

60

70

80

90

00

10

Figure 6.2 - Chronique de la lame d'eau journa liere a Uccle (Belgique). Source : IR M.

6.3.1

La distribution de Pareto generalisee

On s' inte resse a la probabil ite qu 'une var iable aleatoire elementaire qu elconque, X , de fonction de repartition F , depasse un certain niveau y > 0
qu and on sai t qu 'elle depasse Ie seuil c fixe
P r (X> y

+ clX > c) =

1 -F (y + c)
1 _ F (c)

(6.11)

On sait qu e la dist ribu t ion du maximum des observat ions element aires te nd
asy mptotiquement vers la dist ribution GEV (eq. 6.4). En prenan t Ie logari thme
des deux membres, on obtient :

-nln F(z)~ (l +~( z:JL)) -l/e


Si la valeur zest suffisamment grande , F (z) est pro che de l'unite et I'approximation
-lnF (z):::: 1- F( z)
conduit au resultat suivan t :

1- F (z) :::: ~ (1 + ~ ( z

iT

JL) ) - li e

(6.12)

Si cette rela tion t ient pour un seuil c > 0 suffisamment hau t , elle tiendra
aussi pour tout niveau qui Ie depasse, par exemple Ie niveau y + c.

6. Les modeles GEV et POT

107

Remarque 6.2 On a fait implicitement l'hypothese que le parametre ()


(/-L, a,~) est invariant, du moins quand le seuil c est fixe suffisamment haute
Des lors, en injectant l'approximation (eq. 6.12) dans I'identite (6.11) on
trouve
~ )-1:~
(6.13)
Pr (X > y + clX > c) c:::' 1 + :

ou on a pose
(6.14)
La condition

1+

~y > 0
TJ

resulte des hypotheses sur le modele GEV.


La probabilite complementaire conduit

a la distribution de Pareto genera-

lisee
Pr(X::; y+c!X

> c) c:::' 1-

( 1+

~) -1/~

-:;/

==

GPD(yIC,TJ,~)

(6.15)

Sa densite suit
(6.16)

Le choix du seuil est capital


Si Ie seuil c est fixe trop bas, l'approximation asymptotique (eq. 6.15) ne
tient pas. S'il est fixe trop haut, l'approximation sera bien verifiee mais on aura
peu de donnees pour I'infcrence. L'idee est done de ehoisir le seuille plus bas
qui rencontre ces deux exigences. Pour ce faire, on peut montrer que la moyenne
arithmetique des dcpasscments, soit y (c), croit lineairement avec le seuil c tant
que l'approximation asymptotique tient. Le seuil ideal, Co, est done la valeur
de c qui debute la partie lineaire (voir fig. 6.12).
Par hypothese, les parametres ~ et TJ de la loi de Pareto generalises sont
invariants si le seuil c est convenablement choisi. Bien sur, le nombre de depassements varie en raison inverse du seuil et avec lui l'information disponible
pour inferer ces parametres. En d'autres mots, le seuil etant convenablement
choisi, il ne faut pas confondre l'invariance theorique des parametres de la loi
de Pareto generalises avec la connaissance que l'on en a, laquelle varie en raison
inverse du seuil.

Remarque 6.3 II existe des situations OU Ie parametrc de forme varie meme


quand le seuil est convenablement choisi. Dans un tel cas, ce sont les enjeux
qui doivent guider l'attitude de l'analyste. En effet, l'etude de la variabilite du
pararnetre de forme avec des seuils au-dessus de la limite acceptable (approximation asymptotique) se heurte a l'information disponible.

108

Pratique du calcul bayesien

6.3.2

Le modele POT

Pour des processus de base tres generaux OU l'on peut raisonnablement


postuler l'independance des valeurs extremes, on peut demontrer (Pickands,
1975) que le comportement limite de k depassements du seuil c > 0 sur une
periode L donnee constitue un processus de Poisson marque et que les marques
sont distribuecs selon la loi de Pareto qeneralisee (eq. 6.15). Dans la litterature
scientifique, ce modele est connu sous le nom de modele POT.
Sur une fenetre de longueur L, le nombre de depassements du seuil c est
une v. a. discrete distribuee selon une loi de Poisson de parametre ,,\ == f (c) :

[kl"\, L]

== exp (-"\L)

("\L)k

k!

(6.17)

Fonction de repartition de I'Intensite maximale


Sur la fenetre d'interet, de longueur L, l'intensite maximale du phenomene
etudie, par exemple la lame d'eau journaliere, est une v. a. r. Z telle que
Z == U + c OU U est la v. a. r. maximale des depasscmcnts du seuil c.
U == max {Yk }

k == 0,1,

(6.18)

Bien sur, on ignore le nombre k de depassements et on ne peut donc exclure


le cas OU il n'y en a aucun (k == 0), evenement qui arrive avec la probabilite
exp (-"\L).
La fonction de repartition du maximum des depassements est obtenue en
sommant la repartition conjointe sur toutes les valeurs possibles de k :
00

Pr(U::; u)

==

LPr(U::; ulk)Pr(K

==

kl"\,L)

(6.19)

k=O

Tenant compte de la loi de Poisson et de la loi de Pareto generalisee, on


trouve:

[ (

~) -1/~]

Pr (U < u) = exp ->..L 1 + .:

(6.20)

La fonction de repartition de l'intensite maximale correspondante suit immcdlatement :


Z =

6.4

U + c =} Pr (Z

< z) =

exp [->..L (1

+ ~z ~ c) -liE]

(6.21)

Du modele POT au modele GEV

La ressemblance des modeles (eq. 6.1) et (6.21) est frappante. En fait, la


fonction de repartition de l'intensite maximale sur une fenetre unitaire (L == 1)

6. Les modeles GEV et POT

109

est eiroitement rcliee a la fonction de repartition du maximum des valeurs


elementaires sur cette meme periodc.
En posant L == 1, la relation (eq. 6.21) s'ecrit :

Pr (Z

< z) =

~ ~ c) -1/ E]

exp [_ A ( 1 + z

(6.22)

L'experience montre qu'un reparametrage des deux modeles facilite les demonstrations et l'ecriture des programmes informatiques. Plus important encore, un tel reparametrage permet de simplifier l'echantillonnage de Gibbs dans
le cas du modele POT (Parent et Bernier, 2003). Pour bien distinguer les developpements, nous affecterons les parametres du modele GEV de l'indice o.

Po == a-I> 0,

f30 == -Po~o,

P ==

1]-1

> 0, f3 ==

-P~

(6.23)

Le seuil c etant convenablement fixe, les modeles POT (eq. 6.22) et GEV
(eq. 6.1) deviennent respectivement

< zl,8, A, p) =

POT:

Pr (Z

GEV:

Pr (Z ::::; zl,8o, u, Po)

exp

[-A (1 - ,8 (z - c))P/,6]

= exp

[- (1 - ,80 (z - J-t))p0/,6o]

(6.24)
(6.25)

La similitude des deux modeles est evidente,


Avec ce reparametrage, les familles des lois de Frechet, Gumbel et Weibull
correspondent respectivement a (3 < 0, (3 == 0 et (3 > O.
Remarque 6.4 La loi du maximum selon le modele POT differe de la loi du
maximum selon le modele GEV.
- La variable GEV a une limite inferieure necessaire pour que Pr (Z ~ z)
soit definie quand (3 < 0 (Frechet) :
Z

> Zmin == J-l + /30- 1

Cette limite inferieure tend vers -00 dans le cas Gumbel. Au-dela de
cette limite technique, la v. a. r. Z peut prendre n'importe quelle valeur
superieurc.
- Dans le cas du modele POT, la loi du maximum est une distribution
censuree dans le sens OU elle depend d'un seuil c. Au-dela de ce seuil,
les observations sont marquees (depassetnents), en deca de ce seuil, les
observations n'interviennent que par le processus de Poisson
Pr(X ~ ciA, L == 1) == exp (-A)

110

Pratique du calcul bayesien

Cependant pour les grandes valeurs de Z, au-dela de seuils c realistes, les


deux modelcs devront donner des calculs de Pr(Z > c) tres voisins pour autant
que les observations, differcntes dans chaque cas, et la validite des hypotheses
le permettent. II ne faut pas oublier qu'en fonction de l'information disponible
les estimations des parametres f3 et P de la distribution de Pareto generalisee peuvent varier selon le seuil. Cependant, leur homogeneite theorique est
essentielle comme on I' a vu dans la discussion sur le choix du seuil.
Par consequent, on peut aussi obtenir la valeur de projet a partir d'un
modele POT.
A partir du modele POT (eq. 6.24) et de la definition d'un quantile d'ordre
1 - p on obtient successivement :

1 - p = Pr (Z

< zp1(3, .A, p) =

exp [-

>. (1 - (3 (zp - c))P/ 13]

1( (1

zp=c+j3 1- ->:In(l-p)

)(3/P)

(6.26)

Avec le parametrage initial, compte tenu de la relation (eq. 6.8), on a aussi

(6.27)
On comparera ce resultat avec la relation (eq. 6.9) rappelee ei-dessous

6.5

Inference bayesienne sur les parametres


d 'un modele G EV

Le processus stochastique a temps discret est divise en k blocs generant


une scrie de maxima Zl,'" ,Zk. Puisque les populations sous-jacentes sont
independantes (hypothese iid), ces maxima le sont aussi et, pourvu que la
taille des blocs soit assez grande, on peut considerer qu'ils sont identiquement
distribues selon le modele GEV.

6.5.1

La distribution conjointe a posteriori

Le modele GEV (eq, 6.25) est done caracterise par Ie parametre () == (!3o, f-L, Po)
et Ia densite de probabilite eorrespondante s'ecrit

[zIB] == Po (1 - f30 (z - f-L)


ou Po E

lRt, !3o

v:

lR o, f-L E lR et f30 (z - f-L) < 1.

(30-

G (zIB)

(6.28)

6. Les modeles GEV et POT

111

L'hypothese iid entraine la vraisemblance d'un k echantillon de maxima:

[Zl, .. ,zkIB]

P~

IT {[1 - f30 (Zi - JL)]pol/10-1 G (ziI B) }


k

i=l

Pour le prior, on postulera l'independance des composantes du vecteur 0

et un prior non informatif simple a la forme suivante :


1
[fL] [Po] ex Po
Pour le construire, nous avons pris 130 et u uniformes sur un domaine assez
grand. Pour le parametrc d'echelle Po > 0, le prior habituel est une distribution
gamma dont les parametres tendent vers zero

[0]

== [130]

[pola, b] ex

pg- 1 exp (-bpo)

---t

1
Po

a,b---+O

L'application de la regle de Bayes nous donne le posterior non normalise

[Blz1, ... ,Zk] ex p~-l

IT {[1 - f30 (Zi - JL )]pol


k

/10-

G (Zi IB) }

(6.29)

i=l

La normalisation par calcul integral n'est pas possible et aucune conditionnelle n'est standard. L'inference peut se faire via un algorithme de MetropolisHastings.

6.5.2

Algorithme MH sequentiel applique au modele GEV

II sera commode de poser

f (f3o, JL, Po)

p~-l

II {[1 - f30 (Zi k

JL)]p01/10-1 G (ziIB)}

i=l

Puisque Po > 0, l'algorithme MH est plus facile


changement de parametre suivant

a mettre en oeuvre avec le

== In Po {:} Po == e
La transformation logarithmique donne

In f (f3o, JL, Po)

= (k - 1) + (;: - 1)

In [1 - f30 (Zi - JL)]

- L [1- f30 (Zi - JLW'"I/1o


ou

i=l

130 (Zi - fL)

< 1;

i == 1, . . . ,k

112

Pratique du calcul bayesien

L'algorithme
Soit une marche aleatoire realisee dans JR3

(138,JLo,0) .

a partir d'un point

initial

()o ==

Pour loi instrumentale, nous avons choisi le produit de trois densites normales unidimensionnelles independantes :

130

r-v

dnorm (13~-l,vf3o);

JL*

r-;

dnorm (JLi-1,vM)

* r-v dnorm (i-l,V<jJ)

ou les variances instrumentales v<jJ, vf30 et vM reglent la force des sauts respectifs.
Soit ()i-l == (13~-1, JL i-1, i-l) la valeur du triplet a l'iteration i-I.
A l'iteration i on realise les trois sequences suivantes :
1. (13~-l,JLi-l,*) ~ (13~-l,JLi-l,i);

130 (Zt - JLi-l) < 1, (130' JL i- 1, i) ~ (13b, JL i-1, i) ;


sous la condition 13b (Zt - JL*) < 1, (13b, JL*, i) ~ (13b, JL i , i) == ()i

2. sous la condition
3.

La rapidite de la convergence depend du choix du point initial et du choix


des variances instrumentales.
Notons enfin que disposant des parametres et 13o, il est facile de retourner
aux parametres initiaux a et ~ :
(6.30)

Reglage de la loi instrumentale normale unidimensionnelle


II est judicieux de choisir un point initial qui favorise une convergence rapide
de la marche aleatoire, Une estimation ponctuelle de () permet de fixer les ordres
de grandeur.
Pour chaque parametre, la force des sauts aleatoires est reglee par la variance de la loi normale. Certains auteurs, notamment (Gelman et al., 1995a),
proposent de juger la performance d'un algorithme MH en regardant le taux
d'acceptation des candidats. Avec une loi instrumentale unidimensionnelle, ce
taux devrait etre de l'ordre de 0.44. II semble judicieux de se fonder sur ce
critere pour regler les variances.

6.6

Inference bayesienne sur les parametres


d'un modele POT

Soit un processus stochastique a temps discret {Xt } et soit un seuil c > 0


fixe. On s'interesse aux depassements du seuil. Leur nombre est distribue selon
une loi de Poisson. Pourvu que le seuil soit choisi assez haut, les depasscrnents
sont iid selon une loi de Pareto generalisee (eq. 6.16). Avec le nouveau parametrage, la densite au depasscmcnt Yt s'ecrit
(6.31)

6. Les modeles GEV et POT

113

et verifie les conditions


(3 E lRo, P > 0, Vt: 1 - (3Yt

6.6.1

>0

(6.32)

Distribution conjointe a posteriori et inference

Le respect de la condition (eq. 6.32) fait que la densite (6.31) peut se mettre
sous la forme suivante

[Yt 17],,8]

p exp ((p - ,8)

~ In (1 -

,8Yt))

Le seuil c etant convenablement fixe, la vraisemblance d'un k echantillon


iid de depassements s'ecrit
(6.33)
ou on a pose

S (,8)

= fJ I: In (1 - ,8Yt)
k

(6.34)

t=l

Conditionnellement au parametre (3, la condition est equivalente A


(6.35)
Soit K la variable aleatoire discrete nombre de depassements sur une fenetre
de longueur L. Les hypotheses d'independance permettent d'ecrire la vraisemblance totale
k

[Y1

== ui.:': ,Yk ==

Yk, K == k] == [K == k]

II [yt == Yt]
t=l

c'est-A-dire

(AL)k k
[Yl, ,Yk,kIA,p,(3,L] ==exp(-AL)~p exp{(p-(3)S((3)}

(6.36)

Bien que le seuil c n'apparaisse pas dans le conditionnement, il ne faut pas


oublier que le parametre de Poisson, A, qui represente la valeur attendue du
nombre de depassements sur une fenetre unitaire, depend du seuil c.
Dans la plupart des applications pratiques, on postule l'independance des
parametres
Un prior non informatif a la forme suivante puisque le parametre (3 est alors
uniforme sur lRo :
1
[p,,8, A] ex AP

114

Pratique du calcul bayesien

La loi conjointe a posteriori suit par la regle de Bayes


Ak- 1 exp (-AL) pk-l exp (pS (jJ)) exp (-jJS (jJ))
(6.37)
De cette loi conjointe on peut tirer quelques proprictes intercssantes.
- Pour le parametre de Poisson, A, on reconnait la signature fonctionnelle
d'une distribution gamma de parametre de forme k (nombre de depassements observes) et de parametre d'echelle L (longueur de la fenetre). Ce
parametre est independant des parametres jJ et p et la loi marginale est
donc confondue avec la conditionnelle complete

[A, p, jJIYl,'" ,Yk, k, L]

0:.

Alk, L

r-;

dgamma (Alk, L)

- Pour le parametre d'echelle, p, on reconnait la signature fonctionnelle


d'une distribution gamma de parametre de forme k et de parametre
d'echelle -S (jJ) (eq. 6.34).
pIYl,'" ,Yk, k, jJ r-; dgamma (plk, -S (jJ))
Cette conditionnelle complete est, de fait, independante de A mais pas de
jJ. Cette propriete est caracteristique du modele POT.
- La conditionnelle complete de jJ s'ecrit

[jJIYl' ... ,Yk, k]

0:.

exp ((p - jJ) S (13))

La dependance de jJ avec p doit etre notce car le parametre jJ n'est pas


un parametre adimensionnel puisque sa dimension est proportionnelle a
celle de p par lc changement de parametre 13 == p/ ~ ou generalement le
parametre de forme ~ est considere comme adimensionnel.
- Enfin, un resultat complementaire utile est la forme de la distribution
marginale de jJ obtenue par integration de la loi conjointe [p, jJlx, k, c, T],
soit :
k L
exp (-jJS (jJ))

[fJIYl"",Yk, ,]ex

[(S(fJ))k

Compte tenu de ces proprietes, l'inference bayesienne peut etre entreprise


de diverses facons.
1. On peut realiser une simulation directe de la distribution a posteriori via
I'enchainemcnt :

[jJlx, k, c, T]

dgamma(plk, -S (jJ, x, c))

dgamma(Alk, L)

Seule la simulation initiale de jJ dont la densite n'est pas de forme analytique connue peut etre delicate. On peut soit remplacer cette distribution
par une repartition discrete sur une grille de valeurs de (3, soit utiliser les
methodes de particules a partir d'une loi instrumentale.

6. Les modeles GEV et POT

115

2. On peut realiser un echantillonnage de Gibbs puisque les conditionnelles


completes sont connues. Notons que la simulation du parametre {3 pose les
memes problemes que celIe de la distribution marginale; c'est cependant
cette derniere methode que nous illustrerons ci-apres.

6.6.2

Echantillonnage de Gibbs

On a done les trois conditionnelles completes suivantes :


dgamma (Alk, L)

Alk,L

dgamma (plk, -8 ({3))

pIYl,' .. ,Yk, k, {3

[{31 Yl, . . . ,Yk, k, p]

ex

exp ( (p - {3) 8 ({3) )

Les deux premieres sont des distributions standards et la troisicme peut


etrc definie sur une grille de valeurs et A est indcpendant du couple (p, {3) dont
les deux composantes sont, elles, evidemment liees.
Disposant des parametres p et {3, il est facile de retourner aux parametres
initiaux Tj et ~ :
(6.38)

6.7

Trois applications numeriques reelles

Nous voulons determiner la valeur centennale :


1. du niveau journalier de la mer it Port Pirie (Australie) ;
2. de la vitesse du vent (toute direction confondue) it la station meteorologique de Tunis-Carthage (Tunisie) ;
3. de la lame d'eau journaliere it Uccle (Belgique).
Pour les deux premiers exemples, nous ne disposons que des maxima annuels
et nous calibrons un modele GEV. Pour le troisieme, nous pouvons calibrer un
modele GEV et un modele POT et comparer la valeur centennale de la lame
d'eau journaliere a Uccle puisque nous disposons des valeurs journalieres.
Remarque 6.5 L'expression des modeles GEV et POT depend du parametrage choisi
GEV (f-L, (J,~)

GEV (f-L, P == a-I, {3

POT (A, Tj,~)

POT (A, p ==

Tj-l,

==

-~(J-l)

{3 == _~Tj-l)

Dans les applications suivantes, l'estimation ponctuelle de leurs parametres est


realises avec le parametrage initial. Comme nous l'avons dit, le second parametrage facilite l'inference bayesienne : algorithme MH pour GEV et echantillonnage de Gibbs pour POT.

116

Pratique du calcul bayesien

6.7.1

Le niveau de la mer

a Port

Pirie (Australie)

Cet exemple est t ire de (Coles, 2001). Les donnees couvrent la period e 19231987 et peuvent et re obtenues sur le site:
http :/ /www.maths.bris.ac.uk;-masgc/ismev/ summary.ht ml
La figure 6.3 montre Ie profil du maximum annuel et Ie gra phe des niveaux
de retour. La variabilite du signal semble stationnaire et il est done raisonnable
de postul er que les maxima sont ii d.

o
o

cD

0:>

o
o

00

0 <:>

00

1930

1940

00

OO?

000

o
o

1950

1960

1970

00

1980

1990

4.8
46

~~ 4.4
4.2

Figure 6.3 - Port Pirie : maxima annuels et graphe des niveaux de retour.
Les tableaux 6.1 et 6.2 don nent respecti vement :
- les esti mations ponctuelles des parametres et de la valeur cente nale ;
- les reglages de la marche aleatoire et les taux d 'acceptat ion.
Methode
Graphique
Numerique
Tableau 6.1 - Por t P irie
GEV .

fJ
0.2
0.2

~
0
-0.05

/1
3.9
3.9

R2
0.99
-

ZO.O l

4.8
4.7

esti mations pon ctuelles des parametres du modele

Apr es une marche aleatoi re de N = 2000 pas, Ie tableau 6.3 donn e les
inte rvalles de credibilite a 90 % obt enus en ecartant les 500 premieres valeurs .
Les figures 6.4 et 6.5 montrent respect ivement Ie profil des chaines de Markov et les distributions marginales a posteriori de chacun des par ametres. On

6. Les modeles GEV et POT


Reglages
Point initi al
Variances
Taux

= lnp
1

f3

117

J.L

-0.5

4.5

(0 .23)~

(1. 5) ~

(0.06)~

0.44

0.44

0.45

Tableau 6.2 - Por t Piri e .reglages des lois instrument ales.

Q
5
50
95

a
0.17
0.20
0.24

~
-0.16
-0.03
+0.15

J.L

ZO.Ol

3.83
3.87
3.91

4.5
4.7
5.1

Tableau 6.3 - Port Piri e : IC90 des parametres du modele GEV.

remarquera que ~ n'est pas significat ivement different de zero (cas Gumb el) et
que l'estim ation ponctuelle de la valeur centennale du niveau journalier de la
mer (~ 4 .7m) est la mediane de sa distribution marginale a posteriori .

Figure 6.4 - Port Pi rie : profils des marches aleatoires.

118

Pratique du calcul bayesien

30 ,---

--,---

----,-

-----;,------

-.----

---,--

----,-

-.----

---,--

----,

20
10
0.16

0
-0.3

0.26

0.28

0.2

0.3

0.3

0.32

0.4

20

15
10

0
3.78

3.8

3.94

3.96

3.98

Figure 6.5 - Port Pirie: marginales a posteriori des parametres du modele GEV .

L'annexe C fournit un code WinBUGS pour Ie modele GEV. Ce modele


u'etant pas disponible dans la bib liotheque de WinBUGS, on a utilise l'astuce
zero -trick (voir chap. 5). A l'exception de la conclusion sur ~ (un probleme
de convergence?), son application aux donnees de Port Pirie (tableau C.1)
confirme nos resultats (tableau 6.3).

6.7 .2

La vit esse du vent

a Tunis (Tunisie)

Les donnees couvrent la periode 1971-1990 et proviennent de l'etude generale pour la protection du lit toral tunisien (rapport 2, volume 1) elaboree
par Ie bureau d'etude HP en 1995 et ayant pour source l'Institut national de
meteorologic de Tunisie.
La figure 6.6 montre le profil du maximum an nuel de la vitesse du vent
(rn /s}, toute direction confondue, it Tunis-Carthage ainsi que le graphe des
niveaux de retour. Bien que la taille de la chronique soit modeste (20 ans) ,
on peut soupconner une tendance auquel cas, ces maxima annuels ne peuvent
pas et re consideres comme des tirages independants dans un e urne reglee par
le modele GEV. Cependant, par commodite, nous postulerons que ces maxima
sont iid.

6. Les modeles GEV et POT

22 ,---

,------

,------

,------

,------

.--0

3:l 18
~

:5

.---

.-------<r --

.-------,
,0

o
o

00

16

119

11~'::70,------:-::
19'=
72,------:-::19'::74--:-::19'=76--:-::
19'=78--,-:
19't:80--:-::
19'=82--:-::
19'::84--:-::
19'=
86--:-::19'=88--:-::'1990

26 ,---,-----~--~

_ _.---,_____~-_.-----,_

_____,

24

~ 22

:;c. 20
18

Figure 6.6 - Tunis : maxima annuels et niveaux de retour.

Le t ableau 6.4 donn e les est imations pon ctuelles des par ametres et de la
valeur cente nnale.
Methode
Graphique
Numerique

(j

1.8
2.2

~
0
-0.3

R2

17

20 .01

0.92

17

25
23

fl

Tableau 6.4 - Tuni s : estimations pon ctuelles des par ametres du mod ele GEV .

Le tableau 6.5 donne les reglages de la marche aleatoire et les t aux d'acceptation. Apres une marche aleato ire de N = 2000 pas, les figur es 6.7 et 6.8
mont rent respectivement le profil des chaines de Markov et les distributions
marginales a posteriori obtenues en ecartant les 500 premieres valeur s.
Reglages
Point initial
Var iances
Taux

1>
0.1

(3

(0.45)~

(0 .4) ~

( 1.3 )~

0.44

0.45

0.44

-0.2

J.l

15

Tableau 6.5 - Tuni s : reglages des lois instrument ales.

120

Pratique du calcul bayesien

.:C;;;;'~~
1

10

10

10

10'

10

~.~~

":r
-0.5
10'

10'

10'

10'

10'

10

10'

10'

10

20
16

"16
14
10

Figure 6.7 - Tunis : marches aleat oires,

0.5

1.5

2.5

3.5

4.5

5.5

1.5

0.5
0
-1.5

-1

0.5

0.6
0.6
0.4
0.2
0
15

15.5

16

16.5

17

17.5

16

16.5

19

19.5

Figure 6.8 - Tunis : marginales a posteriori des par ametres du mod ele GEV.

Le tableau 6.6 donne les intervalles de credibilite it 90 %.

6. Les modeles GEV et POT

(J

5
50
95

1.7
2.3
3.2

~
-0.6
-0.2
+0.2

/-l
16
17
18

121

ZO.Ol

22
23
34

Tableau 6.6 - Tunis : IC90 des parametr es du modele GEV .

6.7.3

La lame d'eau

a Uccle (Belgique)

Nous considerons la lame d'eau journaliere'' relevee a Uccle sur la periode


1970-2002. La figure 6.9 montr e le profil du maximum annuel de la lame d'eau
journaliere relevee a Uccle et le graphe des niveaux de retour. La variabilite du
signal semble stationnaire et il est done raisonnable de postul er que les maxima
sont ii d.

60 r---,---,---,---,---,---~------,

50

~ 40

:I:

o
0

30
00

o
0

o
o

o
o

0
00

1995

0
0

2000

2005

60

~ 50

::;0. 40
30

Figure 6.9 - Uccle : maxima annuels et niveaux de retour.


Le t ableau 6.7 donne les estimations ponctu elles des parametres.
Le tableau 6.8 donne les reglages de la marche aleatoire et les taux d'accept ation . Apres une marche aleatoire de N = 10000 pas, les figures 6.10 et 6.11
montrent respectivement le profil des chaines de Markov et les distribut ions
marginales a post eriori obtenues en ecartant les 2500 premieres valeurs.
Les meteorologistes releven t les pl uviomet res it 0600 T .V . et a ffecte nt la qu anti t e d 'eau
relevee (mm) it la d at e du jour pr eceden t .

122

Pratique du calcul bayesien


Methode
Graphique
Numerique

07.7
6.2

0
0.27

fl

29
28

R2
0.97
-

zom
65
85

Tableau 6.7 - Uccle : est imations pon ctu elles des para met res du modele GEV .

Reglages
Point initial
Vari ances
Taux

- 0.2

f3

-0.1

J-l

25

(0.35)~

( 3)~

(2.6 )~

0.41

0.48

0.41

Tableau 6.8 - Uccle : reglages des lois instrumentales.

-1.5

..

-21 --

-----1

-2.5
_3 '::_~~~~'::_~~~~'::_~~~~'_:_~~~---.......J

10

10'

-0.1

-0.2

Figure 6.10 - Uccle : profils des marches aleatoires.

6. Les modeles GEV et POT

123

0.4
0.3
0.2
0.1
0

10

12

14

16

1.5

0.5
0
-0.5

1.5

0.4
0.3
0.2
0.1
0
22

24

28

30

32

34

36

Figure 6.11 - Uccle : marginales a posteriori des parametres du modele GEV.

Le tableau 6.9 donne les intervalles de credibi lite a 90%.

Q
5
50
95

(J'

4.9
6.7
9.2

-0.07
0.25
0.67

J-l

26.3
28.4
30.8

ZO.Ol

58
86
231

Tableau 6.9 - Uecle : Ie 90 des parametres du modele GEV .

Disposant des inforrnations journalieres entre le 01/01 /1970 et le 31/12/2002 ,


on peut aussi determiner la valeur de la lame d'eau journaliere eentennale a
Uecle a partir d'un modele POT.
On a vu plus haut une methode pour ehoisir un seuil eonvenable. En l'appliquant aux donnees d'Uecle, on obtient la figure 6.12. Le seuil de 23 mm semble
convemr .

124

Prat ique du calcul bayesian

Lame d'eau a. Uccte

10.5
10
9.5

i
~

8.5

::;;

7.5

6.5

35

Figure 6.12 - Lam e d 'eau journaliere

a Uccle (Belgique)

: choix du seuil u

= 23 mm .

La figure 6.13 montr e une marche aleatoire de 5000 pas, la periode de chauffe
etant const it uee des 2000 premiers. La figure 6.14 donne les distributions obtenues.

Figur e 6.13 - Lame d 'eau journaliere

a Uccle (Belgique) : echa nti llonage de Gibb s.

6. Les modeles GEV et POT

125

0.4
2.5

0.3
0.2

1.5

0.1
0.5
0
2

10

12

0.5

1.5

1]

1.5
0.01
0.5
0

1.5

zp

200

250

Figure 6.14 - Lame d'eau journaliere a Uccle (Belgique) : marginales a posteriori des
parametres du modele POT et marginale a posteriori de la valeur centennale.
Le tableau 6.10 donne les intervalles de credibilite
Q
5
50
95

TJ

4.3
5.9
8.0

~
- 0.02
0.24
0.56

x
1.90
2.30
2.74

a 90%.

ZO.Ol

60

87
192

Tableau 6.10 - Uccle : IC90 des parametres du modele POT.


On remarque que l'intervalle de cred ibilite a 90 % de la valeur de la lame
d 'eau journaliere centennale obtenu via le modele POT (tableau 6.10) est indus
da ns celui obtenu via le modele GEV (tableau 6.9) .

Epilogue
La deman de de protection de la societe face aux evenernents extremes, par
nature incert ains et souvent tres dommageables, est legitime. Que les ingenieurs tentent d'y repondre au mieux est une obligation deontologique rationnellement fondee , Refuser d'appliquer le concept de probabilite aux evenements
exceptionnels, c'est se condamner a ne rien faire. En revanche, la conception
bayesienne de la probabilite a - avec les Laplace , Borel, de Finetti, Savage et
bien d'autres - pro duit des outils statistiques qui approchent rationnellement
l'incertain, meme lorsque l'evenernent est rare.

126

Pratique du calcul bayesien

C'est ainsi que trois exemples numeriques nous ont permis de montrer qu'un
algorithme de Metropolis-Hastings sequentiel est relativement facile a mettre
en ceuvre pour determiner la valeur de projet a partir d'un modele GEV. Une
estimation ponctuelle des parametres est certainement tres utile pour initier la
marche aleatoire, De meme, un taux d'acceptation des candidats de l'ordre de
45 % permet de regler les variances de la loi normale unidimensionnelle choisie
comme loi instrumentale.
Les donnees journalieres pour la lame d'eau a Uccle (mises gracieusement
a notre disposition par l'Institut royal meteorologique de Belgique que nous
remercions) nous ont permis de calibrer un modele POT, via un cchantillonnage de Gibbs, et de comparer la valeur centennale, ainsi obtenue, avec celIe
deduite d'un modele GEV calibre sur la meme periodc (1970-2002). Un simple
graphique seuil versus moyenne des depassements , comme celui de la figure
6.12, permet d'orienter le choix du seuil qui reste malgre tout une operation
delicate. Dans le doute, remonter un peu le seuil est certainement une bonne
idee.
Enfin, les modeles GEV et POT sont fondes sur l'hypothese que le processus
stochastique a temps discret sous-jacent est constitue de populations iid. C'est
une hypothese forte et critiquable dans bon nombre de situations reelles ou les
effets saisonniers sont difficilement contestables. Ainsi, la lame d'eau journaliere a Uccle depend de la carte du temps et, en situation cyclonique, les jours
pluvieux se suivent. Tant que le processus stochastique sous-jacent est stationnaire, les modeles GEV et POT sont relativement peu sensibles a la dependance
des populations elementaires, Pour les processus non stationnaires, une modelisation hierarchique s'impose, modelisation dans laquelle Ie modele GEV (ou
le modele POT) constituerait une couche. Cela depassc le cadre de cet ouvrage.
Enfin pour Ie lecteur plus familier de considerations mathomatiques, l'annexe a
ce chapitre montre comment la theorie des processus de Poisson marques donne
un cadre mathematique unique a tous ces modeles dextremes et permet d'en
construire des extensions utiles, telle la loi des fuites. On y trouvera aussi dans
cette annexe des astuces pour I'implementation des modeles d'cxtremcs sous
WinBUGS.
Le paradigme bayesian permet d'encoder le savoir de l'expert dans le prior.
Par expert nous entendons une personne physique ou morale, qualifiee pour
emettre des avis sur la problematiquc en cours. Son savoir est son etat de
connaissance a un moment donne. II peut done evoluer, L'idee centrale est
que l'expert parie plus volontiers sur certaines valeurs du parametre que sur
d'autres. Dans cette optique, I'cquiprobabilite traduit l'absence d'un savoir et
Le prior est dit non informatif . Pour l'analyste, il s'agit de traduire les
paris de l'expert dans une distribution de probabilite dans laquelle l'expert se
reconnait. L'elicitation du prior est donc une tache delicate, mais importante,
que nous abordons dans le prochain chapitre.

Chapitre 7

Construire le prior :
de I'astuce mathematique
au dialogue avec I'expert
Prologue
On appelle expertise le savoir deja connu en dehors des informations apportees par les resultats experimentaux. Les experts detiennent ce savoir en tout
ou en partie. Le modellsateur veut utiliser ce savoir pour construire une distribution a priori sur les parametres du modele de connaissance en main. Parce
qu'ils sont experts, on s'attend a ce que ces gens chevronnes parient volontiers
sur les memes plages de valeurs. Reconnaltre la qualification de l'expert, c'est
prendre acte que ces paris ne sont pas arbitraires et des methodes ont ete developpees pour les traduire du mieux possible sous la forme d'une distribution
de probabilite, Dans ce chapitre, nous en exposons quelques-unes.

7.1

Introduction

Sans entrer dans les developpements philosophiques sur le sujet, il est utile
de preciser quelques aspects de la portee et des limites de la notion de prior
dans la mise en ceuvre de la regle de Bayes :

. . [0 I ] - modelisation des 0 bservables [y I0] x prior [0]


y 1 .
r [ 10] [O]dO
norma isation Je y

jugement a posteriori

ou 8 represente l'ensemble des etats de la nature, c'est-a-dire le domaine de


variation de O.
Comment passer des informations a priori aux lois a priori? Cette question
fondamentale et legitime a constitue longtemps la pierre d'achoppement entre

128

Pratique du calcul bayesien

l'ecole classique et l'ecole bayesienne (voir les propos critiques de Renyi, p. 17).
Effectivement, le statisticien classique pose le principe que seules les donnees
doivent etre utilisees pour l'inference sur le parametre B. C'est-a-dire qu'il utilise
l'information y pour ameliorer sa connaissance de B, souvent pour estimer un
evenement futur dont les chances de survenance dependent de B. Or il faut
bien reconnaitre que la pratique va a l'encontre de ce point de vue. Ainsi, Ie
chef de projet, qui a deja mene plusieurs chantiers de construction sur des
terrains varies, ne se fie pas aveuglement aux seules analyses de resistance du
sol pour edifier les fondations d'un nouvel immeuble. Le chimiste qui etudie
les proprietes d'une nouvelle molecule s'appuie autant sur les nouveaux tests
experimentaux que sur son experience passec des caracteristiques de la famille
de cette molecule, etc.
Le paradigme classique refute l'introduction de l'expertise au nom d'une
pretendue objectivite necessaire a la procedure d'inference sur le parametre B.
En fait, la subjectivite est inevitable dans la modelisation probabiliste, depuis
la selection des variables surveillees jusqu'aux conclusions-recommandations en
passant par le choix du modele de connaissance. La demarche scientifique ne
consiste donc pas a nier la subjectivite mais bien a la controler.
A contrario, la theorie bayesienne de la decision statistique a developpe un
cadre formel pour traduire de facon quantitative l'expertise via des distributions
probabilite a priori ou priors. Fondamentalement, il s'agit d'affecter des indices
de credibilite aux elements de l'ensemble des valeurs possibles du paramctre B.
Nous empruntons a l'anglais Ie terme elicitation pour designer cette tache du
modelisateur.
Dans ce chapitre, nous presentons une synthese des methodes permettant de
coder l'information a priori entrant dans la regie de Bayes. Le lecteur interesse
lira avec profit le chapitre 2 de (Parent et Bernier, 2007) et le chapitre 3 de
(Robert, 2006) dont le titre n'est rien d'autre que la question posee ci-dessus.
En pratique, il y a essentiellement quatre Iacons de coder l'information a
priori:
1. prendre un prior vague, c'est-A-dire non informatif;
2. choisir un prior conjugue a la vraisemblance (commodite mathematique] ;
3. pro ceder par analogie, c'est-a-dirc que le prior pour le probleme en main
est le posterior d'une ou plusieurs situations analogues;
4. la methode par introspections successives fondee sur la notion de loterie.
Passons brievement ces quatre methodes en revue en rappelant qu'un parametre est souvent multidimensionnel : B == (B 1 , ,Bd ) E 8. Par abus de
langage, on parlera des parametres.

7.1.1

Prior non informatif

Au chapitre 4, nous avons vu un moyen pour construire un prior non informatif : c' est le prior de Jeffrey fonde sur la quantite d'information de Fisher

7. Construire Ie prior

129

(voir p. 58). En resume, un prior non informatif pour un parametre de localisation, une moyenne par exemple, pose l'equiprobabilite de toutes les valeurs
possibles. Un prior non informatif pour un parametre d'echelle, un ecart-type
par exemple, est obtenu en posant l'equiprobabilite de toutes les valeurs de son
logarithme.
En d'autres mots, par prior vague ou non informatif il faut comprendre :
1. que Ie savoir de l'expert sur le probleme en main ne lui permet pas de
lier les parametres
d

01 1- O2

...

1- Od ==> [0 1 , ... ,Od] ==

II [OJ]

(7.1)

j=l

2. que toutes les plages de valeurs de OJ 1 sont, aux yeux de l'expert, equiprobables, c'est-a-dire qu'il ne pariera pas davantage sur une valeur que
sur une autre. C'est cette equiprobabilite qui traduit son ignorance et./ou
sa prudence.

Remarque 7.1 Un prior non informatif ne signifie pas que l'on ne sait absolument rien sur la distribution statistique du parametre, En effet, on connait au
moins son domaine de variation, c'cst-a-dire l'ensemble des etats de la nature,
8, et le role de chaque composante du pararnetre sur les observables (parametre
de localisation, d'echelle, etc.). C'est pourquoi certains auteurs preferent parler
de prior vague ou peu informatif.
Complement sur les distributions a priori non informatives
L'equiprobabilite traduit la symctrie, l'ignorance ou la prudence.

Exemple 7.1 La symetrie d'un de ordinaire implique d'accorder une chance


egale a chacune de ses six faces. L'ignorance d'une eventuelle saison des amours
suppose que tous les jours de l'annee sont equiprobables en tant que date de
naissance (probleme archi connu des anniversaires). La prudence incite de considerer que le patient a une chance sur deux d'etre porteur du virus de l'hepatite
B et done de prendre les precautions d'usage.

La difficulte commence des que l'on veut appliquer ces concepts au cas OU
le parametre du modele, 0, est reel ou est un vecteur de parametres continuo
En effet, l'equiprobabilite ne peut etre appliquee qu'a des classes de valeurs de
o (par exemple des intervalles) telles que l'expert considere que les valeurs qui
y sont incluses sont pour lui equivalentes, L'extension au cas continu depend
alors de la nature du modele en jeu et de ses parametres (Bernier et al., 2000)
(chap. 7, p. 140).
Les distributions non informatives sont souvent impropres ou degenerees
car leur integration sur le domaine de () n' est pas definie (c'est-a-dire n' est
1

Ou de In OJ s'il s'agit d'un parametre dechelle.

130

Pratique du calcul bayesien

pas un nombre reel). Toutefois, introduites dans la formule de Bayes avec une
vraisemblance definie, elles fournissent des distributions a posteriori propres
parfaitement licites. En revanche, le facteur de Bayes qui fait intervenir la
distribution predictive a posteriori n'est pas defini quand on utilise des priors
impropres. Cette propriete est une pierre d'achoppement des priors impropres
dans les methodes bayesiennes de selection de modeles OU intervient ce facteur
de Bayes (voir 13, p. 250).
Les distributions a priori non informatives sont utilisees a plusieurs reprises
dans ce livre dans les cas OU les parametres ont des interpretations simples en
termes de parametres de localisation ou d'echelle, Mais il existe de nombreux
cas OU la recherche de transformations distribuees uniformement n'est pas si
evidentc. Un certain nombre de modeles non informatifs a priori ont ete proposes, reposant sur des principes et des criteres divers. On a deja vu les priors
de Jeffreys au chapitre 4. On peut citer par ailleurs et entre autres les priors
localement uniformes de (Box et Tiao, 1973) et les priors dits de reference de
(Bernardo et Smith, 1994).
Quand le parametre du modele de connaissance est vectoriel, il semble
evident qu'un prior non informatif implique I'indcpendancc de ses composantes
car un expert ne va pas lier des composantes quand il ne sait rien ou pas
grand-chose sur le probleme a resoudre. Cependant, s'il est vrai que cette hypothese d'indcpcndance est souvent postulee, elle peut etre mise en defaut
lorsque le prior non informatif est obtenu par un raisonnement mathematique,
par exemple le prior de Jeffrey. Si on considere cette hypothese a priori comme
souhaitable, c'est la une difliculte de ces methodes constructives de priors.

7.1.2

La conjugaison

La forme analytique du modele dechantillonnage retenu presente des caracteristiques mathematiques que l'on s'efforce de retrouver dans la forme analytique du prior. C'est d'ailleurs pour cette raison que lc statisticien bayesien
designe certains modeles en juxtaposant le nom du modele de prior au nom
du modele d'echantillonnage. Ainsi il parle du modele beta-binomial, gammaPoisson, gamma-normal-normal, etc. Les parametres du prior sont appeles hyperparameites.

Exemple 7.2 Le modele gamma-normal-normal doit son nom au fait que le


modele d'echantillonnage choisi est la loi normale y r-; dnorm (yljj, T) et que Ie
prior conjugue est un melange gamma-normal
[jj, T] == [T] [jjIT] == dgamma (Tla, b) x dnorm (jjlm, kT)
OU les hyperparametres m E JR., k > 0, a > 0 et b > 0 sont connus.
On obtient des priors non informatifs en donnant des valeurs extremes aux
hyperparametres du prior conjugue. Specifions le prior conjugue gamma-normal

[f.l, y] ex ya-l exp (-by) x V"bexp ( -

k;

(f.l-

m)2)

7. Construire Ie prior

131

Lorsque k, a et b tendent vers zero on a

[tt, T]

0:

~ -=

/1l-T
{

[In T] 0: de
[/1] ex cte

7.1.3

L'analogie

La loi de Gumbel (voir eq, 6.5 du chap. 6 avec ~ == 0) est un modele


d'echantillonnage tres plausible pour le debit maximum annuel d'une rivierc.
Avec un prior non informatif, la densite a posteriori de e == (/1, a) ne repose
que sur l'information contenue dans I'echantillon Xl, ... ,X n de debits maximum
annuels disponible pour la riviere B : [eIXI, ,x n ]. Cette densite a posteriori
peut servir de prior pour etudier le debit maximum annuel, y, de la riviere A,
mais sous la condition que ces deux riviercs se ressemblent grace a un meme
parametre e:

(7.2)
Si l'analyste accorde moins de confiance aux donnees provenant des observations realisees sur la riviere B, il augmentera quelque peu la variance du
posterior obtenu sur la rivierc B avant de s'en servir comme prior pour la riviere
A. Cette analogie peut etre etendue a plusieurs rivieres de regimes voisins. Le
concept dechangoabilite, defini dans (Parent et Bernier, 2007), generalise ce
procede de recours aux voisins pour tirer parti de ressemblances.

Remarque 7.2 II va de soi qu'un meme jeu de donnees ne peut pas servir a la
fois dans la vraisemblance et pour construire le prior. En effet, ce serait alors la
meme source d'information qui alimenterait les deux composantes de la regle
de Bayes, ce qui est contraire a son principe fondamental.

7.1.4

La methode par introspections successives

La construction d'un prior par introspections successives a deja ete abordee


dans le chapitre 1 quand nous avons presente la roue de la fortune. En pratique,
l'expert parie sur des valeurs de qui ont un sens pour lui : la moyenne, la
mcdiane, un quartile, des deciles, etc. Ensuite, le statisticien tente de caler une
distribution standard sur lc modele d'elicitation que constituent ces valeurs
phares ou d'en deduire un prior conjugue a partir de la connaissance de certains
quantiles ou de leurs ecarts. Cela est l'objet principal de ce chapitre.

132

Pratique du calcul bayesien

7.1.5

L'incertitude n'est pas l'ignorance et la subjectivite


n'est pas I'absurdite

Quelle que soit la methode utilisee, il ne faut jamais oublier que le prior
est propre a l'expert. Bien sur, il faut s'entendre sur la notion d'expert. Pensons, par exemple, a l'evaluation du prix d'une ceuvre d'art chez Drouot. Ainsi,
Claude Monet, Chemin boise, effet de neige, est une huile sur toile de 58 x 63
cm realises vers 1869. Le 18 decembre 2006, les experts estimaient son prix
de vente entre huit cent mille et un million d'euros. Cette fourchette n'est pas
choquante et s'interprete comme une zone de paris gagnants pour l'expert. II
est expert justement parce que, la plupart du temps, il gagne ses paris. Cela
dit, on s'interrogerait certainement sur les capacites d'un expert qui regulierement annoncerait des prix dix fois moindre ou dix fois superieurs a ceux de
ses collegues. Maintenant, imaginons que ce tableau soit effectivement vendu
dix fois le prix annonce. Serait-ce disqualifiant pour les experts ? Non, si cette
situation est l'exception plutot que la regle. Ce serait simplement une nouvelle
donnee qui, a l'avenir, aurait son poids.
Au Cafe du commerce, il est possible de rencontrer des gens qui cmettent
des avis sur tout avec un certain aplomb. A l'occasion, ils peuvent avoir raison
comme, par ailleurs, de veritables experts peuvent se tromper lourdement. La
certitude ignorante s'oppose a l'incertitude reflcchie et c'est cette derniere qui
caracterise un expert. Il va de soi que, dans l'esprit du statisticien bayesien,

l'expert est qualifie pour donner un avis pertinent sur la problenuiiique en cours.

7.2

Definition constructive d'une probabilite


subjective

Considerons un parametre () incertain appartenant

a un ensemble referential

8. La demarche constructive demande de representor l'incertitude de l'expert


sur e par une distribution de probabilite a priori. Comment l'evaluer ?

L'idee generale est de presenter des valeurs ponctuelles de a l'expert et,


pour chacune d'entre elles, de lui demander les chances qu'illui accorde (voir
chap. 1, p. 9). II est important de comprendre que ces valeurs ponctuelles sont
judicieusement choisies en ce sens qu'elles parlent a l'expert. Approfondissons cette idee generale.
On sait que toute methode de mesure suppose la comparaison avec un etalon, telle une longueur comparee avec un metre etalon, L'etalon de l'incertitude
de l'expert sur lc parametre e est une serie de loteries. On peut se les representer comme des tirages dans des urnes bicolores, Up, contenant des boules
blanches et noires, la proportion, p, de boules blanches etant fixee dans chaque
urne. En d'autres mots, la probabilite d'obtenir une boule blanche quand on
realise des tirages aleatoires (avec remise) dans l'urne Up est connue et toujours
egale a p.
Soit eo une valeur particuliere du parametre incertain e.

7. Construire Ie prior

133

Supposons que l'on offre a l'expert le choix entre deux decisions:


== participer a une lot erie qui lui donne C EUR si 0 :s; 00 , et 0 EUR si

- al

0> 00 ;
== participer a la lot erie etalon Up avec le gain C EUR si la boule tiree

- a2

est blanche, et le gain 0 EUR si cette boule est noire.


Bien entendu, nous postulons que l'expert privilegie la loterie gagnante. Par
definition, la probabilite qu'il accorde a la valeur 00 est egale a la proportion
p de l'urne Up pour laquelle son choix est indifferent entre les deux decisions
al et a2. Pour arriver a cette indifference, on lui propose une serio de loteries etalons Up. Soit une premiere loterie, disons UO. 5 Si l'expert prefere Ie
pari al (respectivement a2) c'est qu'il considere Pr(O :s; ( 0 ) > p == 0.5 (resp.
Pr(O :s; ( 0 ) < p == 0.5). Placons-nous dans le premier cas, c'est-a-dire que l'expert pense que les chances de la valeur 00 sont superieures a 0.5. On lui propose
une nouvelle lot erie etalon, par exemple Uo.g Ici, s'il prefere le pari a2, c'est
qu'il considere que Pr (0 :s; ( 0 ) < p == 0.9. En repetant le questionnement pour
differentes loteries etalons Up, on conceit qu'il existe une certaine loterie, Up*,
pour laquelle les paris al et a2 sont equivalents aux yeux de l'expert. Par definition constructive, la proportion p* est la probabilite subjective que l'expert
accorde a la valeur ponctuelle 00 : Pr (0 :s; ( 0 ) == p*. Cette probabilite est dite
subjective parce qu'elle est propre a l'expert. Elle doit etre interpretee comme
un pari de l' expert sur la valeur 00 ,
La grande portee de cette definition constructive est que, selon le paradigme
bayesien, elle s'applique non seulement a l'elicitation des probabilites de tout
parametre, mais aussi a toute decision en contexte incertain (Savage, 1954),
(Raiffa et Schlaifer, 1961). Toute decision dans ce contexte, aussi complexe
soit-elle, peut se decomposer en decisions elementaires simples equivalcntcs a
des loteries. En resume, toute decision est une loterie.
Cette methode exige le respect de plusieurs principes de rationalite, dont la
transitivite des decisions et leur independance a l'egard de l'enjeu des loteries.
1. La transitivite des decisions signifie : si je prejere la decision al a la
decision a2 quand p == 0.5, alors je dois encore prejerer la decision al a
la decision a2 quand p == 0.4.
2. L'indifference entre les choix al et a2 ne doit pas dependre de l'enjeu C
des loteries.

II est clair que le respect de ces conditions demande une formation et done
une discussion prealable avec l'expert. Le lecteur interesse par les principes de
la construction des probabilites subjectives trouvera davantage de details dans
Ie chapitre 5 de (Bernier et al., 2000).
D'un point de vue operationnel, la mise en ceuvre de cette procedure depend de la dimension de l'ensemble des etats de la nature, 8. Elle devient vite
tres et trop complexe des que dim 8 depasse quelques unites. Neanmoins, elle
peut permettre un etalonnage prealable de l'expert avant que celui-ci ne soit
capable d'eliciter directement des probabilites - ou, a 1'inverse, des valeurs
() de probabilites fixees comme les quantiles - par introspection directe en

134

Pratique du calcul bayesien

sautant l'intermediaire loterie. Dans de nombreux domaines, les vrais experts


sont capables de telles elicitations directes ; notamment ceux qui possedent une
culture probabiliste prealable, Cependant il faut prendre garde au fait, avere
par de nombreux travaux de psychologie experimentale, que Ie mathematicien
probabiliste et l'expert de la discipline concernee peuvent ne pas avoir la rneme
interpretation concrete de la notion de probabilite, A cet egard, Palmarini a
fait une presentation tres vivante des problernes poses (Palmarini, 1995). Tres
succinctement, disons qu'il se peut que Ie statisticien et l'expert n'utilisent
pas, initialement et sans le savoir, le memc langage. La creation d'un langage
commun est donc une preparation a l'elicitation.
Dans la suite de ce chapitre, nous presentons les elements de quelques methodes pratiques d'elicitation en supposant que l'expert est capable de quantifier directement quelques caracteristiques des distributions subjectives a priori
des parametres des modeles en jeu.

7.3

Caler un prior beta sur deux quantiles elicites du parametre d'un modele d'observable
binomial

On le sait (voir chap. 2 et annexe B), le nombre de succes obtenus dans un


processus de Bernoulli est une realisation d'une variable aleatoire binomiale
d'ordre n fixe et de probabilite inconnue 1r E [0,1]. Le prior conjugue est une
distribution beta, tres souple, qu'on peut caler sur deux valeurs de 1r signifiantes
pour l'expert. Celles-ci peuvent etre obtenues selon la methode des loteries
decrite ci-dessus.

7.3.1

L'expert donne la valeur moyenne de


certitude sur celle-ci

1r

et une in-

A l'issue du dialogue avec l'expert, on a obtenu une valeur particuliere de

1r que l'expert estime etre la moyenne m de B. II a aussi donne une incertitude

sur cette valeur, soit c > O. Trouver les deux hyperparametres, disons r > 0
et s > 0, de la distribution beta qui reflete ce savoir est un petit probleme de
mathematique facile a resoudre.
A partir des deux premiers moments d'une loi beta, on a :

r
r+s

E (n)

m==--

V (1r)

kc 2

rs
(r+s)2(r+s+l)

== -------,-----

(7.3)
(7.4)

ou k > 0 permet de creer un lien entre l'incertitude de l'expert et l'ecart-type


de la loi beta.

7. Construire Ie prior
Si on voit que
E (IT) (1 - E (IT)) ==

rs

(r + s)

135

la seconde equation devient


kc 2

==

m(l-m)
r

+s+1

{=}

+ s ==

m(l-m)
kc 2

- 1>0

(7.5)

On a donc obtenu la somme r + s a partir de la connaissance de m et de c


(expertise) et en fixant une valeur k (on commence par exemple avec k == 1).
Bien entendu, cette somme doit etre strictement positive, c'est-a-dire que les
valeurs m, c et k doivent respecter l'inegalite 7.5. Sous cette condition, les
hyperparametres recherches sont

r==m(r+s),

s==(l-m)(r+s)

(7.6)

Pour terminer, on presente la densite beta ainsi obtenue a l'expert en lui


demandant si elle reflete bien son savoir. S'il n'est pas tres satisfait, il faut
d'abord jouer avec k et, en cas dechecs repetes, recommencer les loteries.

7.3.2

L'expert donne deux quantiles de

Par construction, on a obtenu les quantiles IT q et IT p

7f
:

Avec les notations de R, pbeta est la fonction de repartition de la distribution


beta. Les hyperparametres recherches sont les solutions du systeme suivant

p - pbeta (ITp , r, s) == 0
{ q - pbeta (ITp , r, s) == 0

(7.7)

II faut disposer d'un solveur numerique,

Exemple 7.3 Une machine de production est en cours de reglage. Le parametre IT est la probabilite qu'une piece choisie au hasard soit conforme au
cahier des charges. Selon l'operateur, il y a 95 chances sur 100 que IT excede
0.5 et 10 chances sur 100 qu'il excede 0.9.

La resolution numerique du systeme 7.7 avec p == 0.9, q == 0.05, ITp == 0.9 et


~ 7.51 et s ~ 2.62. Encore une fois, on presente ce resultat a
l'expert et on remet l'ouvrage sur le metier si necessaire,

IT q == 0.5 donne r

136

Pratique du calcul bayesien

7.4

Caler un prior conjugue sur deux quantiles


elicites des parametres d'un modele d'observable normal

Note 7.1 Un prior depend d'hyperparametres. Par exemple, le prior pour le


parametre de localisation fL d'un modele d'observable normal, X
N (fL, T),
peut dependre de la precision T et s'ecrire fLIT
N (m, kT). En toute rigueur,
on devrait mettre les hyperparametres dans le conditionnement et done ecrirc
fLIT, m, k N (m, kT). Pour allegcr les ecritures on ne le fera pas (on ne conditionne pas sur les hyperparametres).
t"'V

t"'V

t"'V

7.4.1

Dialogue avec l'expert

Nous considererons ici le cas d 'un parametre () reel, interpretable dans le


cadre d'un modele donne. II peut s'agir, par exemple, du parametre d'un modele d'observable exponentiel (dim () == 1) ou d'un modele d'observable normal
(dim () == 2). II est evident que la difficulte augmente avec la dimension de ().
En effet, prenons l'exemple d'un parametrc tridimensionnel : () == (()l, ()2, ()3).
Certes on peut toujours decomposer la distribution conjointe comme suit :

(7.8)
On comprend que pour l'expert, il soit plus aise de donner un avis sur un
quantile marginal, par exemple la medians de (J2, que sur un quantile conditionnel, par exemple la mediane de ()2 quand il dispose de l'information ()3'
Nous reviendrons bientot sur cette difficulte en illustrant la procedure avec le
modele d'observable normal.
En general, l'expert n'est pas convie a proceder a une introspection detaillec
pour elicitor toutes les caracteristiques d'un prior. Comme indique ci-dessous,
il est en effet beaucoup plus courant de lc limiter a fournir quelques valeurs
typiques : mediane (J50, quartile (()75 ou (J25), decile (B go ou (JIO), etc. Ces caracteristiques peuvent suffire a caler des distributions de probabilite de forme
analytique connue a un nombre de parametres indetermines pres si ce nombre
est egal au nombre de caracteristiques elicitees, C'est la methode dite des quan-

tiles.
Remarque 7.3 Les parametres du prior sont souvent appeles hyperparametres
pour les distinguer des parametres du modele d'observable.

7.4.2

Le parametre

a eliciter est

unidimensionnel

C'est, par exemple, le parametre de localisation du modele normal de variance unitaire : E (Y) == B.
Les premieres questions a poser a l'expert doivent concerner le support de
B, c'est-a-dire l'etendue de l'intervalle [()min, ()sup]. Bien souvent l'expert sera

7. Construire le prior

137

dans l'incapacite d'evaluer precisement ces limites, auquel cas il est preferable
d'utiliser des distributions a priori dont les bornes sont mathematiquement infinies et de lui soumettre la tache d'eliciter des quantiles, grandeurs statistiques
plus aisernent interpretables. C'est le cas notamment de la mediane (}50 de ().
Si meme l'intervalle [(}min, (}sup] est indeterrnine, l'expert peut etre capable de
repondre a la question suivante : Quelle est pour vous la valeur M telle que
Pr(() < M) == Pr((} 2:: M) ? La valeur M qu'il donne est la mediane (}50. Ensuite, on peut lui poser la question suivante : Quelle est maintenant, selon uous,
la valeur Q de () telle que Pr(M ~ () ~ Q) == Pr((} 2:: Q) ? Puisque M est la
mediane, Q est necessairement le troisicme quartile, c'est-a-dire (}75 == Q. En
poursuivant ces questions sur des segmentations d'intervalles en probabilites
egales on peut atteindre toute proximite d'un quantile (}p quelconque.
Certaines de ces questions peuvent etre un controle de coherence. Ainsi apres
une premiere elicitation du troisieme quartile (}75, l'expert peut etre amene a
repondre a : Quelle est la valeur Q telle que Pr( Q ~ () ~ (}75) == Pr(() ~ Q) ?
Si Q est differente de la mediane M trouvee precedemment, alors l'expert doit
etre confronte avec cette incoherence et doit la resoudre.
Si la notion de quantile devient plus precise dans l'esprit de l'expert, on
peut lui demander de repondrc a des questions plus elaborees concernant des
fonctions simples, comme des ecarts ou des rapports de quantiles :
- Quelle est la valeur la plus probable de X90 - X50 d'une grandeur oleatoire
X eiudiee ?
- Quelle est la valeur la plus probable de X90 / X50 ?

Remarque 7.4 Si l'expert est plus familier des distributions de probabilites et


de leurs caracteristiques statistiques, on peut lui demander d'exercer son introspection directe pour eliciter des statistiques plus synthetiques comme des esperanees mathematiques ou des variances de grandeurs d'interet. Nous connaissons des specialistcs de la geophysique, tres exerces en analyse des donnees
de leur domaine de recherche, pour qui des statistiques comme un coefficient
de variation (ecart-type exprime en unite de moyenne) ont des significations
physiques parfaitement quantifiables a priori.
Bref, il est possible d'obtenir de l'expert quelques valeurs typiques de (),
souvent la mediane M et un quantile (}p qu'il juge avoir une probabilite de
depassement egale a 1 - p.
Le travail de l'expert s'arrete la et le statisticien peut alors lui soumettre
un modele de distribution a deux parametres (loi normale ou loi gamma par
exemple) qui pourra etre cale sur les deux informations fournies.

Calage d'un prior normal


indexelicitationsuelicitation !d'un prior beta@d'un prior beta
L'expert ayant fourni la mediane (}50 et un percentile (}p, le calage d'une
loi normale ncccssite de determiner sa moyenne, Me, et son ecart-type, O"e > o.
Cette tache est particulierement facile car

138

Pratique du calcul bayesien

!-Le

(7.9)

== B50

50
ae == -p - -

(7.10)

zp

OU zp designs Ie p-ieme quantile de la loi normale standard (p. ex. p == 90


zp ~ 1.28).

=}

Calage d'un prior gamma

indexelicitationsuelicitation !d'un prior gamma


Note 7.2 Nous avons pris l'habitude d'ecrire la densite de probabilite gamma
comme suit

[Ola, (3]

~:) 0

exp (-(30)

Ainsi, le parametre d'echelle, {3 > 0, s'exprime dans les unites inverses de la


variable aleatoire B. C'est pourquoi, nous l'appelons souvent paramctre d'echelle
inverse.

L'expert ayant fournit deux quantiles, Bp et Bq , le calage d'un prior gamma


necessite de determiner deux parametres, a > 0 et {3 > o. Cette operation
implique de connaitre le theoreme suivant.

/{3

Theoreme 7.1 Si rv dgamma (a, 1) alors B


{3 > 0 est le parametre d' eclielle inverse.

rv

dgamma (a, {3) OU

Corollaire 7.1 Le quantile de B correspondant au quantile de est Bp == {3-1p


OU p == qgamma (p, a, 1)2. Il s 'en suit que le rapport des quantiles Bp / Bm est
uulepetuiami de {3.

Le rapport Bp/B q etant connu, l'equation en a


qgamma(p, a, 1) _ Bp
qgamma(q, a, 1) Bq

== 0

(7.11)

est resolue graphiquement ou par un solveur numerique (on remarque que a ne


depend pas des unites).
Sachant la solution &, le parametre {3 suit par
~ = qgamma(p,&,

Bp

1) = qgamma(q,&, 1)

La fonction qgamma est disponible dans R.

Bq

(7.12)

7. Const ruire Ie prior

139

Remarque 7.5 Dans Ie cas particulier ou l'expert a donne Ie mode de 0, soit


et un quantile d'ordre p, soit Op , on doit resoudre Ie systeme suivant :

Om ,

0m -{ (3 =

a -I
j3

qgam~: (p,a , l)

On commence par resoudre l'equation en 0:


Op

x (0: - 1) -

Om X

et pn termine par

qgamma (p , 0:, 1)

= 0 ~ 0:

0: - 1
(3 = A

Om

Exemple 7.4 Pour l'expert , la duree de vie mediane d'un compose electro
nique vaut 15 unites de temps et Ie nonanti erne percentile en vaut 25.

A partir des relation s 7.9 et 7.10, un prior normal sera localise sur /-lo = 15
avec un ecart-ty pe (TO ~ 7.80. Apart ir des relations 7.11 et 7.12 et du graphique
(fig. 7.1) un prior gamma aura les param etr es suivants : 0: ~ 5.55 et (3 ~ 0.35.
(0) ~ 6.8.
L'esperance et l'ecart-type de 0 suivent : E (0) ~ 15.9 et

/v

0.7,-------,-

----,-

----,--

----,--

---,--

-,--

-,--

--.--

--.-----,

06
0.5

0.4

0.3

: : 0.2

0.1

-0. 1

Fig ure 7.1 - Det ermination graphique du par am etre de form e d 'un prior gamma .

7.4.3

Le parametre

a eliciter est bidimensionnel

indexelicitationsjelicitation !d' un prior beta@d'un prior beta

140

Pratique du calcul bayesien

Soit l'observable Y supposec distribuee selon une loi normale N(jJ;, T). On
l'a deja dit, le prior conjoint peut toujours s'ecrire comme le produit d'une
distribution conditionnelle par une distribution marginale :
(7.13)
L'elicitation d'un quantile d'une distribution conditionnelle comme [jJ;IT] est
beaucoup moins aisee que l'elicitation d'un quantile d'une distribution marginale comme [jJ;]. Notons que l'expert peut n'avoir aucune raison de lier jJ; a T
soit parce qu'il sait que ces deux parametres sont independants (jJ; 1- T), soit
parce que son savoir est tellement reduit qu'il ne saurait defendre un lien et
donc, par defaut, il postule leur independance :
(7.14)
- Le calage d'un modele gamma a partir de la mediane de T et d'un quantile
d'ordre p signifiant pour l'expert (par exemple Q7,0.90) se fait selon la
methode decrite ci-dessus.
- Pour u, l'elicitation de la mediane M~ et d'un quantile Q~,p se fait sans
reference a T. Ensuite, le calage d'une loi standard depend du lien entre
jJ; et T. Si l'hypothese dindependance est retenue, le calage d'une loi
normale sur jJ; est chose aisee. Dans le cas contraire, il s' agit de caler une
loi de Student sur u selon une procedure un peu plus subtile.

Cas oft les deux parametres sont independants


Exemple 7.5 En septembre 2000, une equipe de l'Institut national de la recherche agronomique (INRA) mesura la taille des juveniles des saumons sauvages sur le Scorff, une riviere de Bretagne. Des peches electriques ont permis
de prelever des echantillons le long de la riviere en 38 sites regulierernent espaces, Une question concerne le differentiel de croissance des juveniles localises en
3 sites sur 38 (en amont, en aval et a proximite) d'une pisciculture industrielle.
Les effluents de la pisciculture ont-ils une influence sur la taille des saumons
sauvages? Si oui, de quel signe?

Pour le parametre u, lc chercheur a l'INRA s'est appuye sur les observations des 35 sites restants. Sur ces 35 jeux de donnees, il a calcule 35 moyennes
empiriques. A la vue de leur histogramme, il a propose un prior normal, centre
sur m == 100 cm avec un facteur d'echelle de 8 == 10 cm. Quant a la precision, les statistiques de dispersion empiriques ont conduit a une loi gamma de
parametres a == 3.4 et b == 250 => E (T) ~ 10- 2 , V (T) ~ 5.44 X 10- 5 .
Le prior conjoint suit :

1 (1

[jJ;, T] == - - exp
~8

--(jJ;
- m)
2
28

2) x -bT
a

r(a)

a-I

exp (-bT)

(7.15)

7. Construire Ie prior

141

Imaginons que l'expert ait donne Qp"O.90 == 115 cm en lieu et place de s. Les
proprietes de la loi normale permettent imrnediatement de trouver la valeur s
correspondante (eq. 7.10). On trouve s ~ 11.7 cm.
L'hypothese d'independance entre J-L et T, effectivement commode pour l'elicitation, implique que la distribution conjointe a priori n'est pas un conjugue
naturel du modele normal.

Cas oil les deux parametres sont dependants


On se place dans la situation OU J-L est lie a T (modele 7.13). Le prior
(conjoint) conjugue du modele normal est explicite en fonction d'hyperparametres a, b, m, k, c'est-a-dire (en utilisant les notations de R) :

rv

dgamma(a, b)

(7.16)

J-LIT

rv

dnorm(m, kT)

(7.17)

Pour le parametre T, il suffit de repeter la procedure suivie pour le calage


d'une distribution gamma (fig. 7.1). Pour le parametre J-L, on l'a deja dit, un
expert prefere parier sur des quantiles signifiants pour lui, et ceux associes a
une distribution conditionnelle ne lui disent en general pas grand-chose.

Theoreme 7.2 A partir des relations 7.13, 7.16 et 7.17, la distribution marginale de J-L est une loi de Student, a v == 2a deqres de liberte, localisec sur m
et de pararnetre d'echelle O"p, == Jb/ak.
Corollaire 7.2 La variable oleaioire t == (J-L - m) /0" est distribuee selon une
loi de Student standard,

a v == 2a

deqres de liberu:

Compte tenu de la symetrie de la loi de Student, on obtient Ie systeme


suivant :

Mp, == m
QI",P = m +

(7.18)

V(-;;:kTx .tmv(p, 2a)

(7.19)

OU tinv (p, 2a) donne le quantile d'ordre p d'une loi de Student standard a
2a degres de liberte.
En resolvant ce systeme par rapport a m et k, on trouve

k ==

~ (tinv(p, 2a)) 2
a

Qp"p -

Mp,

(7.20)

Conditionnellement a la connaissance de a et b, il suffit donc que l'expert


donne m.; et un quantile Qp"p pour calculer k. Or, dans l'exemple des saumons

142

Pratique du calcu l bayesien

sauvages du Scarff, l'expert a donne m Jl = 100 em, s Jl = 10 em et Ie calage


d'un modele gamm a sur la median e et un quantile de T a donn e a = 3.4
et b = 250. Si la distribution mar ginale de fl etait normal e, on sait qu 'un
ecart-ty pe au-d ela de la moyenne correspond pr atiqu ement au qua tr e-vingtqua tri eme percentile : m + S ~ QJl ,O.84 ' Mais la distribution marginale de fl
est de Student , distribution qui est plus etalee que la distribution normal e. En
consequence, m + S corres pond a un quanti le moindre (0.50 < p < 0.84). On
est en train de caler une distribu tion sur les connaissances de I'expert et on
peut decider que m + S corres pond au troi sieme quarti le de la loi de Student :
QJl ,O.75 = m + s.
Des lars
250 ( tinV(0.75,6.8)) 2
x
~0 .37
k= 3.4
10
La figure 7.2 montre Ie prior du chercheur de I'INRA en tro is dimensions.

Figure 7.2 - Represent ation du pr ior de !'expert en 3D.

Epilogue
Nous avons pose et surtout rapp ele un certain nombre de prin cipes et de precaut ions a prendr e pour conduire Ie necessaire dialogue expert-statisticien dans
cette tac he commune d 'elicitation. II s'agit d'obtenir de l'expert des evaluat ions
quantitatives permet t ant de parier sur les valeurs possibles des inconnues, les
par ametr es du modele.

7. Construire Ie prior

143

Nous avons souligne l'importance des modeles d'elicitation et des priors


modelises - sans nier qu'ils peuvent etre choisis aussi pour des raisons de
commodite mathematique - en considerant directement le modele probabiliste
des observables. Les modeles classiques ont ete inventories en les accompagnant
de techniques d'elicitation adequates comme les methodes des quantiles.
Cependant, cet inventaire ne clot pas la liste des methodes disponibles.
Nous avons deja parle de l'utilite a cet egard des modeles hierarchiques que
nous verrons plus en details en progressant dans la lecture de la seconde partie
de cet ouvrage. Les modeles hierarchiques permettent l'introduction rationnelle
d'informations complementaires objectives pour quantifier les hyperparametres
des priors de premier niveau qui apparaissent alors comme des parametres
de niveau superieur. On pourrait dire que cette hierarchisation repousse le
probleme d'elicitation des priors ace niveau superieur. Neanmoins, la sensibilite
des resultats de l'analyse statistique finale aux incertitudes des priors diminue
alors considerablement.
Pour conclure, la panoplie des methodes pratiques delicitation est maintenant assez large pour permettre une application complete de toute la chaine
des raisonnements bayesiens et en garantir l'efficacite.
Avec le prochain chapitre, nous entrons formellement dans la seconde partie
de cet ouvrage en traitant un probleme reel d'halieutique.

Deuxieme partie

... a la souris

Chapitre 8

Modele de capture-recapture
par assemblage de modules
fonctionnels binomiaux :
application au cas des
saumons
Prologue
La modelisation statistique bayesienne revient a imaginer un modele probabiliste, susceptible de reproduire les observations (chap. 1), souvent pour
fournir une aide a la decision en avenir incertain (chap. 2). Ce modele est avantageusement represente par un DAG (chap. 3). D'un point de vue operationnel,
il faut eliciter le prior (chap. 7) et inferer ses parametres par application de la
regle de Bayes (chap. 1). La determination des distributions a posteriori peut
ncccssiter un recours aux methodes de Monte-Carlo (chap. 4). C'est notamment
le cas pour les modeles realistes, lesquels impliquent souvent des variables latentes (chap. 3). Leur DAG montre une structure hierarchique et modulaire.
Cette modularite confere une grande souplesse au modele comme le montre ce
chapitre dedie a l'evaluation des stocks de saumons.

8.1

Introduction

Le modele d'evaluation des stocks de saumons presente ici ne repose que sur
des equations de bilans, des tirages binomiaux et des priors sous forme de lois
beta. Le DAG est une representation conceptuelle des differents evenernents

148

Pratique du calcul bayesien

qui peuvent se produire dans une population de saumons qui remontent la rimere Scorff, utilisee comme cas ri'etudc (Parent et Prevost, 2003). Ces donnees
reelles proviennent d'un projet commun entre l'Institut de recherche agronomique (INRA), le Conseil superieur de la peche, et la Federation de peche et
de protection des ccosystemes aquatiques du Morbihan". Les scientifiques et les
gestionnaires de la rivierc ont besoin non seulement de l'estimation de la taille
de la population de saumons (la valeur la plus probable), mais aussi de l'estimation de l'incertitude la concernant (Clobert et Pradel, 1993). Trois types
de quantites incertaines apparaitront dans le DAG : les observables (notees
Yindice) , les variables latentes (notees Xindice) - ou variables phenomenologiques auxiliaires non observees - et les parametres (dcsignes par des lettres
grecques). Les lois a priori seront construites a dire d'expert (chap. 7). Enfin,
nous realiserons l'inference par echantillonnage de Gibbs (chap. 4).

Remarque 8.1 Dans un souci pcdagogique, nous faisons ici une exception a
notre parti pris de depart et nous utiliserons done une lettre latine majuscule,
par exemple Y, pour designer une observable ou une variable latente, et la
minuscule correspondante, soit y, pour designer une valeur particuliere. On ne
peut evidemment pas respecter une telle convention pour les parametres (c'est
ce qui ad'ailleurs justifie notre convention initiale).

8.2
8.2.1

Presentation du probleme
Les trois dernieres etapes du cycle de vie du saumon : remonter la r ivlerc, echappcr aux pecheurs a
la ligne et survivre jusqu'a la saison du frai

Les saumons atlantiques (SaZmo saZar), qui reviennent adultes dans les rivieres de Bretagne (France), sont repartis en deux categories : le saumon de
printemps qui a passe deux annees en mer (exceptionnellement trois) et les
castillons qui reviennent dans leur riviere natale l'annee qui suit leur migration vers la mer. Les castillons constituent l'essentiel des adultes (r-v 90 %) qui
reviennent dans la riviere, principalement de la fin du printemps a la premiere
moitie de l'ete, Sur la riviere Scorff, un dispositif experimental de controle des
migrations a ete installe, et les adultes de retour sont denombres par la technique du marquage-recapture. Le rnarquage est opere dans un dispositif de
piegeage situe a l'embouchure de la riviere. L'efficacite du piege varie selon le
debit de la riviere,
L'etude de cas presentee ici ne traite que du retour des castillons. La figure 8.1 decrit le sort d'un saumon rentrant dans sa riviere d'origine apres
1 La collecte des informations sur le terrain a ete effectuee par les techniciens de la station
experimentale du Moulin des Princes, Nicolas Jeannot et Francois Burban, aides de Jean-Yves
Moelo.

8. Modele de capture-recapture: application au cas des saumons

149

son voyage dans l'Atlantique. Trois evenernents principaux peuvent arriver au


candid at repro ducteur.
1.

A l'entree dans le Scorff, le saumon peut etre capture, marque et relache,


C'est la premiere etape de la procedure d'estimation du stock.

2. Ensuite, une certaine quantite d 'individus - marques ou non - sera prelevee par les pecheurs a la ligne. La loi francaise exige que la prise de
saumon soit officiellement declares, mais cette obligation legale n'est pas
toujours respectee . Une et ude locale supp lementaire permet de completer
ces renseignements. Ces deux sources permettent d'obtenir une premiere
evaluation du nombre de saumons reellement captures, et un certain
nombre de saumons preleves est apporte aux techniciens de l'INRA pour
identification du marquage.
3. Enfin, le poisson qui a echappe a la peche a la ligne devra survivre jusqu'a la saison de reproduction. Pendant le frai hivernal, les chercheurs se
rendent sur les sites de reproduction et completent les et udes statistiques
par une phase de recapture.

Environnement
naturel

Non Marque
recapture Y6
Marque
Recapture

Y,

Pieges et
Marques

Y1
x",f

Xur

Libres

Marque Vu
pour sur

Marque et
peche

............ ..

(Pecheurs

COIlUO/e des Non Marque

Non Mar que


Vu pour sur ~qll es

Non marque
et pechex"c

Declare
r

Iarque
Declare

Y~

Y4

')

;:::::.:..~ ::::::

Figure 8.1 - Le destin d 'un saumon qui revient remonter Ie Scorff.

150

Pratique du calcul bayesien

8.2.2

Variables observees

Les donnees du tableau 8.1 concernent six variables (en colonnes) suivies
pendant six annees consccutives. Les donnees de la premiere annee (1994) sont
exclues de l'etude, car elles sont significativement differentes des autres. La
procedure u'etait pas completement rodee et l'efficacite du piege et la recapture
au moment du frai ont ete moins bonnes.
Les variables observees portent les informations suivantes :
- Y1 : nombre d'individus captures, marques et relaches :
- Y2 : nombre de poissons marques, peches a la ligne et rapportes par les
pecheurs pour la detection du marquage;
- Y 3 : idem pour les poissons non marques;
- Y4 : total des poissons provenant d'observations sur les sites de peche
(Y4 > Y2 + Y3 ) ;
- Ys : nombre de poissons marques, recaptures pendant ou apres Ie frai ;
- Y 6 : idem pour les poissons non marques.

Annee
1994
1995
1996
1997
1998

Y1
156
500
502
320
442

1999

167

Y2
3
39
25
17
50
16

Y3
14
10
8
7
5

Y4
42
75
87
33
66

24

Ys
4
31
45
19
56
16

Y6
14
28
14
9
13
11

Tableau 8.1 - Donnees du Scorff.

Expertise a priori sur Ie comportement du saumon

8.2.3

Des parametres techniques, inconnus, mais supposes stationnaires


Des caracteristiques stochastiques regissent le comportement individuel d'un
saumon. Ces quantites sont censees rester identiques d'un poisson a l'autre. Les
sept parametres techniques suivants, inconnus et incertains, sont conceptuellement essentiels pour les biologistes :
1. s.: nombre de castillons qui remontent le courant;
2. () : probabilite qu'un castillon soit capture et marque, au passage du
piege ;
3.

probabilite qu'un saumon non peche survive jusqu'a la periode de


reproduction;
Q

4. (3: probabilite qu'un castillon soit preleve par les pecheurs ;

5.

T : probabilite qu'un saumon peche soit enregistre comme prise certaine ;

8. Modele de capture-recapture: application au cas des saumons

151

6. 6 : probabilite qu'un saumon peche et enregistre soit declare et Ie marquage verifie par les techniciens;
7.

probabilite qu'un castillon soit recapture apres la periode de reproduction.

1r :

Encoder l'expertise a priori


Pour le cas du Scorff, la connaissance a priori (resumee par H dans le
raisonnement conditionnel) peut etre synthetisee comme suit.
1. Etant donne la taille de la riviere, les donnees anterieures sur la production juvenile dans la riviere (Bagliniere et Champigneulle, 1986) et le
nombre de survivants apres le sejour en mer (Potter et Crozier, 2000),
les experts sont prets a parier a 9 contre 1 que le nombre de saumons
rentrant dans le Scorff, n, se situe dans l'intervalle [100,3000] avec une
valeur hautement probable autour de 700 individus.
2. On ne connait guere la probabilite de capture, (), au piege place pres
de l'embouchure du Scorff mais on peut imaginer une repartition symetrique avec 0.5 comme moyenne et seulement 10 % de chances pour cette
probabilite d'etre infcrieure a 0.1 ou superieure a 0.9.
3. La premiere estimation du taux de survie des saumons dans la riviere,
a, est superieure a 0.9. Les experts sont pratiquement surs (avec une
probabilite a priori de 0.9) que ex est superieur a 0.75.
4. Le taux d'exploitation de la peche a la ligne, {3, est sans doute situe
autour de 0.1- 0.3. II semble peu credible (moins de 10 % de chance) que
f3 depasse 0.7.
5. La probabilite, T, qu'un saumon attrape soit reconnu par les controles
locaux comme prise certaine est superieure a 0.9 et il semble hautement
improbable (5 %) qu'elle soit inferieure a 0.5.
6. On sait peu de choses sur la probabilite, 6, qu'un saumon reconnu soit
prcsente au controle du marquage. Une repartition symetrique avec 0.5
comme moyenne et seulement 10 % de chances d'etre inferieure a 0.1 ou
superieure a 0.9 traduirait cette meconnaissance (prior plutot vague).
7. En considerant le nombre de sites etudies et les efforts de survie durant
la recapture, la probabilite de recapture, 1r, est tres vraisemblablement
inferieure a 0.25, peu probablement comprise entre 0.25 et 0.5 et il est
presque impossible qu'elle soit superieure a 0.5.

Remarque 8.2 Dans ce qui precede, tres vraisemblablement signifie qu'il y a


neuf chances contre une, presque impossible represente moins de une chance sur
cent. La probabilite restante (environ 9 %) quantifie le qualificatif improbable.

152

Pratique du calcul bayesien

Construction des lois a priori

a dire d'expert

La figure 8.2 montre une loi de probabilite discrete de forme acceptable pour
representer l'expertise H sur le parametre . Cette distribution a ete obtenue
par une discretisation d'une distribution gamma avec un parametre de forme
egale a 2.4 et un parametre d'echelle egale a 5002 (voir chap. 7, p. 138). Cette
distribution est tronquee a l'intervalle [0,4000] en raison des ressources limitees
de la rivicre. Tronquer au-dela de 4000 permet aussi un calcul d'integration plus
commode, mais une analyse de sensibilite montre que c'est largement justifie.
Cette distribution presente un mode aux environs de f\; ~ 700 et met 90 % de
la masse de probabilite dans l'intervalle [100, 3000].
(8.1)

Les six autres parametres (), Q, {3, 7, b, 7r sont des probabilites, Leur prior
est donc avantageusement represente par une distribution beta sur l'intervalle
reel [0.1] (voir annexe B). Pour chacun d'entre eux, il faut donc fixer deux
coefficients, an et bu, de sorte que cette distribution reflete bien l'expertise.
La figure 8.3 et le tableau 8.2 montrent les resultats de l'elicitation de la
loi de probabilite beta(aH,b H ) pour traduire l'expertise a propos des differents
parametres techniques. Cette elicitation a ete conduite a partir de techniques
presentees au chapitre 7 a partir des equations 7.3 a 7.5.
Comme la connaissance a priori de chaque parametrc est etablie independamment, le prior conjoint est le produit de tous les priors.

Interpretation
Efficacite du picge
Taux de survie
Taux de capture
Suivi sur site
Suivi techniciens

7r

Taux de recapture

()
Q

(3
7

Expertise H
()0.05 == 0.1; ()0.95 == 0.9
M a ~ 0.95; QO.l == 0.75
M(3 ~ 0.2; (30.9 == 0.7
M T ~ 0.9; 70.05 ~ 0.5
b O.0 5 == 0.1; bO.95 == 0.9
M 1r ~ 0.2;
7r0.99 == 1/2
[0.25 < 7r < 0.5] == 0.09
7r0.9 == 1/4

aH
1.53
10
1.3
5.5
1.53

bH
1.53
1.5
2.2
1.5
1.53

1.6

11

Tableau 8.2 - L'expertise a priori H est encodee via des distributions beta.

Remarque 8.3 L'expertise sur 1f implique quatre conditions. La determination des parametres de la loi beta implique de resoudre un probleme d'optimisation sous contraintes.
2

E (~) == 2.4 x 500.

8. Modele de capture-recapture: application au cas des saumons

10

153

-4

7 ['--'-'-----,---,-----,----,--

-r--

,.---

---,-

--,

Mode=700

Intervalle de credibilre a 90 %

500

1000

1500

2000

2500

3000

3500
4000
Tattle du stock '0(

Figure 8.2 - Loi a priori pour la taille du stock , parametre K .

8.2.4

Les variables latentes decrivent le phenomene biologique

Les paramet res inconnus et les variables observees ne sont pas suffisants
pour decrire les peregrinations d'un saumon. Des variables non observees, mais
ayant une signification physiqu e, sont alors introduites. Elles sont utiles pour
aider a comprendre les etapes int ermediaires de la modelisation condit ionnelle.
Evid emment , le modele doit et re complete ment defini ce qui exige que les distribution s conditionnelles des variables latentes sacha nt les par ametres et les
observabl es doivent et re precisees. Les vari ables lat entes suivant es presentent
un interet particuli er pour la modelisation :
- X u u == saumons non captures, par consequent non marques (indice uu
pour unmarked, uncaptured) ;
- X m c == individus marques peches a la ligne ;
- X u c == individus non marques peches a la ligne (unmarked, captured) ;
- X m j == individus marqu es rest es libres pendant la period e de peche (marked, free) ;
- X uj == individus non marques testes libres pendant la period e de peche ;
- X m r == individus marques enregistres comme reellement at tra pes (marked, registered) ;

154

Pratique du calcul bayesien

1.5

1.5

3
2

0.5
0

0.5

0.5

\,
0

0.5

Ct.

1.5

1( \

1
2

0.5
T

0.5

0.5

\
0

0.5
11

Figure 8.3 - Loi a priori pour les parametres descriptifs de comportement.

- X u r == individus non marques enregistres comme reellement attrapes ;


- X m s == casiillons marques survivants jusqu'au frai ;
- X u s == casiillons non marques survivants jusqu'au frai.

Certaines combinaisons de variables latentes sont importantes pour etablir


les comptes-rendus des scientifiques. A titre d'exemple, scientifiques et responsab les de la peche aimeraient connaitre le champ des valeurs credibles pour
X m c + X u c , nombre total de saumons attrapes par les pecheurs a la ligne.
D'autre part X m s + X u s , qui represente T'echappement , apparait comme
une valeur de pour connaitre la perennite de l'et at du stock.

Le model e st a t ist iq ue sous la forme d'u n graphe a cy cli que oriente


Les equations completes du modele comprennent des equations deterrninistes de bilan et des equations stochastiques de comportement binomial. Elles
s'ecrivent comme suit (notation R) :

8. Modele de capture-recapture: application au cas des saumons

Y1

~ dbinom(~,

155

0)

X uu == ~ - Y1
X mc ~ dbinom(Y1 , (3), X uc ~ dbinom(Xuu, (3)
Xmj == Y1 - X mc, X uj == X uu - X uc
Y4 ~ dbinom(Xuc + X mc, T), X mr ~ dbinom(Xmc, T)
Y4 == X ur + X mr
Y2 ~ dbinom(Xmr, 6), Y3

(8.2)

dbinom(Xur, 6)

X ms ~ dbinom(Xmj, a), X us ~ dbinom(Xuj, a)


Y5 ~ dbinom(Xms, 1r), Y6 ~ dbinom(Xus, 1r)
La figure 8.4 rcprescnte toutes les quantites par des noeuds (soit stochastiques, soit deterrninistes) sur un graphe oriente d'influence, OU les fleches penetrent dans un nccud depuis les variables qui exercent une influence directe
sur celui-ci. La figure 8.5 donne le graphe acyclique oriente qui correspond au
graphe d'influence de la figure 8.4 en effectuant l'elimination des noeuds deterministes : seules sont conservecs les quantites aleatoires sur lesquelles portera
l'inference bayesienne, Pour la commodite du dessin, on a associe les variables
(X mc, X uc) en un meme noeud.
Le graphe de la figure 8.5 represente le raisonnement conditionnel sur lequel
le modele est fonde : les fleches du raisonnement conditionnel descendent des
parametres conceptuels jusqu'aux quantites observees,
Pour realiser le fonctionnement de l'inferencc bayesienne, on peut imaginer les hyperparametres des lois a priori comme des nceuds parents pour les
parametres du modele. Le modele interannuel est un empilement des modeles
annuels. II s'appuie sur la tres forte hypothese de stabilite des parametres, permettant une coherence interannuelle, done un transfert d'information d'annee
en annee. Partageant les valeurs communes de (), Q, {3, T, 6 et tt ; Ie DAG d'un tel
modele s'obtient en empilant une repetition de structures annuelles identiques au DAG de la figure 8.5. Cette hypothese est particulierement discutable
en ce qui concerne l'efficacite de la capture () et la probabilite de recapture 1r
qui peuvent certainement varier d'une annee sur l'autre en fonction du debit
de la rivierc et des conditions hydrometeorologiques,

8.3

Inference bayesienne

Toutes les etapes decrites ci-apres ne sont que des applications des principes
et methodes apprises dans les chapitres precedents. Cependant, il nous semble
utile de les appliquer a partir du DAG et explicitant les proprietes dindependance conditionnelle et de modularite,
La densite conjointe a priori des parametres s'ecrit
[~, (),

Q,

{3, T, 6,1rIH]

156

Pratique du calcul bayesien

Effectifd l 'enlTee thJ. sco rff

ProbabilitedesruviE

Probabilitede recapture

Variable latente

Inlenntidiaim
dlitenRiniste

Variableob,ervie Paramem.de comportement

Figure 8.4 - La vie d 'un sau mon apres sa remont ee dan s le Scarff sous la forme d'un
di a gram me d ' influence.

au la

lettre H rapp elle que l'on conditi onne sur un savoir initial et des hypotheses de const ruction.
On le sait , l'inferen ce bayesienn e consist e a met tre cette loi a jour en impliquant les observations disponibles :

[1",0, a , (3, T , 15, 1r1H, y] ex [yll" , 0, a, (3, T , 15, 1r]

[1" ,0, a , (3, T , 15, 1r1H]

ou
On s'en dou t e, la septuple int egration n'est pas possible

8.3.1

a la

plume .

L'echant.illonnage de Gibbs divise le probleme en


plusieurs sous-problemes simples

Soit un poin t initial, arbit ra irement choisi dans l'espace des par ametres.
En t irant to ur a tour dans chac une des sept cond itionnelles complete s, et en
repet an t ce cycle un grand nombre de fois, on peut obtenir un echa nti llon de
7-uplet s provenant de la loi a posteriori conjointe des par ametres.

8. Modele de capture-recapture : applicat ion au cas des saumons

157

ProbabiIitededirlaration

Yariable /mente

Yariableob.en'Iie Parametres de comportement

Fi gure 8.5 - La vie d 'un sa umon a pres sa rernont ee dans Ie Sca rff sous la form e d 'un
DAG.

8.3.2

Dans Ie DAG, la conditionnelle complete d'un noeud


impliquent seulement ses nceuds parents, ses nceuds
enfants et les nceuds coparents de ses enfants

Le tableau 8.3 donne pour chaque variable d'interet de l'inference bayesienne (c'est-a-dire par ametre ou variable latente stochastique), l'ensemble des
variables condit ionna ntes associees. Ce tableau se const ruit a partir de la figure
8.5 ou chaque noeud a ete relie a ses nceuds parent s, fils ou coparents de ses
enfants.
Dans la sect ion suivante, nous verrons que certains nceuds ont une loi conditionnelle dont la st ruct ure est connue (par conjugaison); en revanche, pour
d'autres nceuds, la forme de leur conditionnelle complete ne sera pas dans la
bibliotheque des dist ribut ions de probabilite standa rds et il faudra l'expliciter.

8.3.3

Actualisation bayesienne des elements d'un DAG


par I'echant.illonnage de Gibbs

On remarquera que seuls les nceuds stochastiques (a l'exception des observables qui sont des nceuds terminaux) peuvent et re mis a jour par le t heoreme

158

Pratique du calcul bayesien

Nceud a mettre a jour


()

(3
T

<5
7r

0:

x.;
x.;
r:

x.;
(Xmc,X uc]

x.;
X uc

Variables impliquees
n, Y1
n, Y1 , X mc, x.;

X mc, X uc, X mr, Y4


X mr, Y4 , Y2 , Y3
Xms,X us, Ys , Y6
Y1 , X mc, X uc, n, X ms, x.;
Y1 , X mc, X uc, 0:, n , Ys
Y1 , , X mc, X uc, 0:, 7r, Y6
(), (3, Y1 , X us, 0:, X mc, x.:
Y4 , Y2 , Y3 , T, <5, s.: x.,
(3, Yl,~, X us, 0:, X ms, Y4 , X mr, T
(3, Y1 , X us, 0:, X ms, X mr, T
(3, Yl,~, X us, 0:, Y4 , X mr, T

Tableau 8.3 - Nceuds figurant dans les conditionnelles completes.


de Bayes. Les nceuds deterministes ne sont que des quantites interrnediaires
(c' est-a-dire des tiroirs dans lesquels on range des calculs interrnediaires).

La marginalisation permet de ne pas tenir compte des variables latentes


L'approche bayesienne traite les variables latentes comme les autres parametres (Tanner, 1996). Leurs distributions conditionnelles completes sont
evaluces. Par consequent, l'echantillonnage de Gibbs generera un pseudoechantillon de

De cet echantillon, on extraira simplement les valeurs des parametres interessants (et on oubliera celles des variables latentes) afin d'obtenir un echantillon issu de
(8.4)
[~, (), 0:, (3, T, <5, 7rIH, y]

Les proprietes conjuguees des lois binomiales et beta rendent les


mises a jour bayesiennes plus faciles
Par exemple, la figure 8.6 montre que la distribution conditionnelle complete
du parametre 7r - quantifiant la probabilite de recapture - depend seulement
du prior et de la loi de probabilite qui relie le nceud 7r aux quantites observees
Ys == Ys, Y6 == Y6 En effet, les nceuds Ys , Y6 isolent 1r du reste du monde. Les lois
a priori beta ont etc calces pour tous les parametres compris entre 0 et 1 pour
representer les croyances a priori sur les valeurs possibles de ces parametres.
Ainsi, le prior de 7r est une loi beta de parametres an == 1.6 et bn == 11.

8. Modele de capture-recapture : application au cas des saumons

159

.... ... ..... .........

...
...
...

11! . . . ....

Figure 8.6 - Inference du parametre

tt

."

par echantillonneur de Gibbs.

Les variables aleatoires binomiales Y5, Y6 sont conditionnellement independantes sachant 7[, Leur vraisemblance conjointe s'ecrit :
[Y5 ' Y6IJr , X m s , xusl

=r

+ I) r ( x us + 1) JrYS+ Y6 (1 - Jrt
+ 1) r (Y6 + I) r (x m s - Y5 + 1) r

(x m s

(Y5

m s + Xu s -YS -Y6

( x us - Y6

+ 1)

(8.5)
D'apres le theorems de Bayes, la conditionnelle complete a posteriori de Jr
peut s'ecrir e :
[JrIY5, Y6, X m s , X us , H] ex [Y5' Y6IJr , X m s , x us] [JrIH]
ex JrYs +Y6+aH-l (1 - Jrtm s+ Xu s-YS-Y6+bH-l

(8.6)
(8.7)

Considerant cette expression comme une fonction de Jr, on reconnait une


distribution de la meme famille que le prior , c'est-a-dire une loi beta avec des
coefficients mis a jour Y5 + Y6 + a H et Xm s + Xus - Y5 - Y6 + bH.
Tous les autres parametres de probabilite peuvent etre un a un facilement
isoles d'un grand nombre d'autres noeuds (voir tableau 8.3). lIs obeissent a
un systeme similaire de mise a jour : un prior beta donn era un posterior de
meme type quand on conditionnera sur des resultats d'un tirage binomial. Pour
0: , (3, T, 0, Jr, on a choisi egalement des lois beta. Notons qu 'on dispose de
generateurs aleatoires performants pour la loi beta.

e,

160

Pratique du calcul bayesien

Conditionnelles completes non explicites


Note 8.1 Soit un vecteur () == (()l, .. ,()j, . . . ,()d). On a vu que ()-j designe Ie
vecteur () prive de sa composante j (voir chap. 4). La conditionnelle complete
de ()j s'ecrit done [()j I() -j].
Actualisation de la taille du stock L'evaluation de la conditionnelle complete de ~ est un peu plus complexe, car la loi a priori n'est pas une distribution
standard. Le tableau 8.3 nous indique que pour apprendre quelque chose sur le
noeud ~ il faut prendre en compte les nceuds suivants: 0, {3, (), Y1 , X mc, X uc, X us.
Toutes ces grandeurs conditionnantes sont presentes car, si on retourne a la figure 8.5, ~ est une partie des nceuds de bilan deterministe Xuuet Xuj, de
telle sorte que la recherche des nceuds stochastiques descendants ne prend fin
qu'avec X uc et X us, qui sont partie prenante dans l'expression de la conditionnelle complete n. Des lors, la formule de la conditionnelle complete pour r:
est:

ou
4000

D~==

Mise a jour des variables latentes L'evaluation de la conditionnelle complete des variables latentes s'effectue selon la memo demarche. Par exemple, le
tableau 8.3 nous dit que seulement ({3, Yl,~, X us, X ms, Y4, X mr, T) vont intervenir dans la conditionnelle complete du couple (X mc, X uc). Ainsi la mise a
jour de X mc implique ses nceuds parents {3 et Y1 aussi bien que ses nceuds
descendants X mr et X ms (via le ncoud de bilan deterrniniste X mj == Y1 - X mc)
ainsi que T qui, avec X mc, est coparent de X mr. Le lecteur verifiera que l'on
obtient facilement la conditionnelle complete de X mc en recherchant quels sont
les morceaux de la loi jointe de (X mc, T, 0, (3, Y1 , X mr, X ms) qui dependent explicitement de X mc :

ou

8. Modele de capture-recapture: application au cas des saumons

161

Les conditionnelles completes des nceuds X ms et X mr s'ecrivent quant


elles :

[xmslx ms-]

1 (
Q
)xms
D x m s (1 - Q) (1 - 7r)
f(l

+ Xmf

1
- x ms)f(l

+ Xms -

Ys)

1 [f(l + Ymr - x2)f(1 + X4 - X3 - Ymr)]-l


D Xm r f(l + Ymc - Ymr )f(l + Yuc - X4 + Ymr)

ou

Min(Ymc,X4- X3)
n=Max(x4 -Yuc,X2)

8.4
8.4.1

[f(l + n - X2 )f(l + X4 - X3 - n )]-1


f(l + Ymc - y)f(l + Yuc - X4 + n)

Resultats numeriques
Annee 1995

Calcul MCMC
L'echantillonneur de Gibbs it ere dans les lois conditionnelles pour effectuer
la mise a jour des parametres et des variables latentes selon des lois beta et
des lois discretes. Trois chaines de lOs valeurs sont generees par l'algorithme
de Gibbs mais seules les 5000 dernieres valeurs sont conservees, Le diagnostic
de (Gelman et Rubin, 1992), fonde sur une analyse classique de variance pour
comparer les variances inter- et intra-chaines est satisfait pour tous les parametres. Cependant, l'autocorrelation reste particulierement forte parmi les
echantillons pour {3,7r et T, ce qui indique que l'exploration MCMC de leur
domaine est lente, mais le melange correct entre les trois chaines permet de
conclure qu'une exploration adequate du domaine a posteriori a ete realisee
d'apres ce grand nombre d'iterations, Les estimations empiriques de probabilite donnees dans les figures 8.7 et 8.8 et l'intervalle de credibilite a 90% du
tableau 8.4 proviennent directement de cet echantillonnage MCMC.

L'Inference bayesienne
Un simple coup d'oeil au prior et a la probabilite a posteriori pour chacun
des parametres basiques (fig. 8.7 et 8.8) montre que, pour la majorite d'entre
eux, l'incertitude initiale est considerablcment reduite. L'efficacite du piege ()
est superieure a 0.5. Le dispositif de capture cree un fort courant qui attire
les castillons de retour. La proportion prelevee par les pecheurs a la ligne est
d'environ 10 %. Seuls le taux de survivants Q et l'efficacite de l'enregistrement
T restent tres imprecis, La probabilite a posteriori Q est semblable a son prior.

Pratique du calcul bayesien

162

Moyenne
0.67
0.81
0.11
0.89
0.65
0.11
747
85
534

Parametre
()
Q

/3
7

<5
1[

f\;

Xmc+Xuc
Xms+Xus

ecart-type
0.04
0.10
0.02
0.09
0.06
0.02
41
12
70

95 % quantile
0.74
0.95
0.15
0.99
0.73
0.15
816
109
640

5 % quantile
0.61
0.62
0.09
0.70
0.56
0.08
680
75
410

Tableau 8.4 - Intervalles de credibilite pour les parametres (prise en compte de


la seule annee 1995).

Cela s'explique en revenant au diagramme d'influence de la figure 8.4 : aucune


information en provenance de donnees n'est reliee directement a Q. Le mode a
posteriori de <5 est tres different de son emplacement a priori. Cette difference
revele un trait specifique du Scorff qui ne s'explique pas par l'expertise a priori
ni selon les hypotheses du modele.
L'emploi de l'echantillonnage de Gibbs peut aussi etre utile pour etudier la
covariation entre les parametres. La matrice de correlation (tableau 8.5) montre
que l'evaluation a posteriori du taux de survivants Q ne peut se faire independamment de l'information concernant I'efficacite de la recapture

1[.

Comme on

peut s'y attendre, l'influence de l'action des pechcurs /3 et la probabilite d'enregistrement 7 sont partiellement confondues : leur correlation vaut en moyenne
-0.7. Elle est negative car l'essentiel de l'information est apporte par Y1 et
Y4 : a Yl et Y4 connus, Yl renseigne fortement sur r: et si on fait le pari que
/3 est grand, il faut alors en meme temps faire le pari que 7 est petit car
E (Y4 f\; ) == /37. La relation entre () et f\; est issue de I 'hypothese binomiale
E (Y11 (), f\;) == f\;().
1

f\;

/3
<5
7
1[

()

f\;

1
-0.21
-0.28
0.00
-0.06
-0.15
-0.91

1
0.08
0.01
0.02
-0.67
0.19

/3

<5

1[

()

1
-0.01
-0.70
0.11
0.26

1
0.01
0.03
0.00

1
-0.09
0.05

1
0.14

Tableau 8.5 - Matrice de correlation a posteriori entre parametres (prise en


compte de la seule annee 1995).

8. Modele de capture-recapture : application au cas des saumons

0.01 2 , - - - , --

, --

-,--

, - - - - , - --

, --

---,--

163

-----,

0.01

0.008

0.006

/ pos,e,io'

0.004
prior

0.002

1500

2000

2500

3500

4000

Taille du stock 1C

Figure 8.7 - Inference de la taille du stock, K, (pour l'annee 1995).

8.4.2

Cinq annees de donnees

Les figures 8.9 et 8.10 ra pportent les resultats des calculs bayesiens tenant
compte des cinq dernieres annees de donnees du tableau 8.1 selon le modele
interannuel. En compara nt les tableaux 8.4 et 8.6, on s'a percoit que les ecartstyp es se reduisent quand on integre plus d'information dans l'analyse. Cela
est du a un effet boule de neige : l'in formation supplementaire est vehiculee d'une annee sur l'autre par l'mterrnediaire des par ametres communs
(7r, 0, 0:, (3, T , 8) jusqu'a diminuer le domaine d'incertitude attache aux valeurs
plausibles de la taille de chacun des sto cks annuels. Notons que les ecarts-types
se reduisent tous quand on passe au modele sur 5 ans sauf la probabilite de
recapture 7r qui, meme si elle est en moyenn e plus elevee, se retrouve bien plus
mal deterrninee. L'intervalle de credibilite est d 'un e longueur deux fois plus
importante et disjoint de celui obte nu en 1995. Cela est l'ind ication d'une variabilite int erannuelle de la peche de recapture qu 'on retrouve dans les faits :
aux alentours de Noel, apres la periode de frai, les reproducteurs meur ent . La
peche de recap ture de ces poissons moribonds s'effectue la nuit (ou l'on repere
mieux a la lampe torc he le ventre des poissons epuises). Par consequent la proportion de capt ures est tres fortement influencee par la date de la peche et les
condit ions hydr ometeoclimatiques (l'eau est glacee). Si le courant est fort ou

164

Pratique du calcul bayesien

10

25

20

posterior

15
10

2 prior

0.5
prior et posteriore

0
0

0.5
prior et posterior

Q.

0.5

prior et posterio r Il

25

10

20

posterior

15
10
prior

<,

0.5

prioret posterio r t

0.5
prior et posterior S

0.5

prior et posterior :t

Figure 8.8 - Inference des paramet res de comport ement (pour l'ann ee 1995).

que les techniciens interviennent trap longtemps apres le fra i, la plupart des
reproducteurs sont morts et ont disparu. Le mod ele interannuel est don e peu
realiste a l'egard de la non-stationn arite de ce parametre tt .

8.5
8.5 .1

Discussion
Le role du prior

L'expertise a priori et to ut es les donn ees relatives au prob leme - meme si


elles ne font pas partie du dispos itif experimental - fournissent une information
precieuse utilisable pour reduire l'incertitude. Dans l'exemple des saumons du
Scarff, la taille du stock de castillons d'annee en annee et leurs int ervalles de
credibilite peuvent et re evalues en integrant a l'et ude de telles inform ations. La
precision avec laqu elle est evaluee la ta ille de la population perm et d'asseoir la
fiabili te du savoir scient ifique acquis ou de proposer des st rategies raisonn ables
de gest ion (Seber, 1982). L'an alyse bayesienn e se presente comme un cadre de
ra isonnement coherent et d 'apprentissage dans lequel des inferences ecologiques
peuvent etre baties a par tir de ty pes varies d 'informations, expertises ou donnees (P unt et Hilborn , 1997). Ainsi, le parametre J fait appa raitre un confiit

8. Modele de capture-recapture: application au cas des saumons


Parametre
()
Q

{3
T

6
Jr
~1995

~1996
~1997
~1998
~1999

Moyenne
0.72
0.41
0.11
0.99
0.63
0.27
700
695
430
590
235

ecart-type
0.02
0.11
0.01
0.01
0.03
0.08
25
26
17
21
11

95

% quantile
0.76
0.58
0.13
1.00
0.68
0.32
740
740
460
625
250

165

% quantile
0.69
0.24
0.10
0.90
0.59
0.16
660
650
400
560
220

Tableau 8.6 - Intervalles de credibilite pour les parametres (prise en compte des
cinq annees de donnees).
entre le prior et la loi a posteriori. Cette discordance apporte au statisticien
des elements de modification. Deux diagnostics sont possibles: (i) le prior issu
des connaissances locales n'est pas representatif de la situation a la lumiere des
donnees; (ii) le modele est mal determine a certains egards, Ces alternatives
devront etre verifiees et pourront servir de point de depart a une analyse plus
fine et plus poussce.

8.5.2

Le choix du modele

L'hypothese de stationnarite des parametres (Jr,(),Q,{3,T,6) du modele interannuel est tres discutable. On surestime sans doute la precision des estimateurs du nombre de geniteurs qui remontent la riviere. Faire l'hypothese
d'un comportement interannuel stationnaire est certes commode et parcimonieux, mais c'est une simplification bien osee du monde reel. .. que nous faisons
quand meme car ce modele, meme rudimentaire, apporte un grand benefice
en termes de qualite de l'estimation, de comprehension des sources d'incertitudes et dinterpretation ecologique, Nous verrons dans les chapitres qui suivent
des structures plus complexes, comme une construction d'effets aleatoires (voir
chap. 12).

8.5.3

Confusion des effets et importance du prior

Pour sur, le modele decrit par le systeme d'equation 8.2 est surparametre
puisque aucune information (a part les priors) ne permet de faire l'inference
separee de Q et de Jr a partir des donnees: c'est seulement le produit Q Jr qui
compte pour expliquer les donnees. Plus generalement, la matrice de variancecovariance entre les parametres permet de detecter quels parametres produisent
des effets confondus, mais meme une severe confusion comme ci-dessus, n'est

166

P ratique du calcul bayesien

1200

800

1200

1000

1000
600

800
600

400

400
200
200
0
0.6

0.7

0.8

0.5

0.1

8
2500
2000

1200

1400

1000

1200
1000

800

1500

800

600
1000

0
0.85

600

400

500

400

200
0.9

0.95

0
0.4

0.15

200
0.6

0.8

Figure 8.9 - Lois marginales a posteriori des parametres de comportement (periode


1995-1999).

pas un pro blerne pour conduire l'inference bayesienne. La modelisation en ecologie repose d'ailleurs en equilibre inst able entre des modeles realistes mais
souvent surparametres et des modeles parcimonieux trop rustiques ou avec des
coefficients de reglage dont les valeurs ont ete imposees par la litterature sans
possibilite de validation reelle. Dans le cadre bayesien, s'appuyer sur des priors
fondes sur l'experti se du praticien fournit un moyen coherent de sortir du dilemme precedent .

Epilogue
Le cas du Scorff est traite plus completernent dans l'article de (Parent et
Prevost, 2003) . Ce cas illustre comment la perspective bayesienne tire parti
de structures conditionnelles representees par un modele graphique (graphe
acyclique oriente). La modelisation conditionnelle se deroule tres simplement
apres que les variables latentes, les parametres modeles et les variables observees
ont ete identifies. Ces trois elements constituants donnent beaucoup de liberte
pour creer les rnode les de representation d 'un probleme reel. Les techniques
d'estimations bayes iennes par MCMC (Kass et al., 1996), et particulierement

8. Modele de capture-recapture : applicat ion au cas des saumons

'200

12:00

'000

' 000

' 200

BOO

BOO

'000

...

600

600

200
0
200

j
400

600

BOO

'000

400

0
200

200
400

600

BOO

1000

K (1996}

1200

1200

1000

1000

BOO

0
200

400

600

BOO

'000

K119 9 7 )

BOO

...
600

600
40 0

200

200
400

600

IC(' OOB)

Figure 8.10 -

BOO

200

ICI1905)

0
200

'400

600

400

167

BOO

'000

0
200

400

600

BOO

' 000

K (19 S9}

Loi marginale a posteriori de la taille du stock annuel

Ii-

(periode

1995-1999).

l'echanti llonneur de Gibbs, sont les out ils appropries pour realiser l'inference
avec les mode les conditionnels graphiques.
Pour un praticien, il est naturel d'introduire dans Ie modele des variables
qu'on peut inte rpreter, meme si elles sont cachees (variables late ntes) . L' approche bayesienne peut et re utile pour resserre r les liens entre t heoriciens et
scientifiques de te rrain : la modelisat ion gra phique est un outi l de communicat ion pour discuter et se mettre d'accord sur la st ructure d' un modele.

Chapitre 9

Le modele lineaire generalise


Prologue
Une tache recurrente de l'activite scientifique est d'expliquer le comportement d'une variable endogene ou reponse a partir de variables exogenes ou
stimuli. Le modele de regression Iineaire est certainement le plus utilise, pas
toujours a bon escient. Le modele lineaire generalise, moins gourmand en hypotheses que Ie modele lineaire, postule que la reponse est un membre de la famille
exponentielle des distributions statistiques a deux parametres. Le modele de regression logistique est certainement le plus connu. Nous l'appliquerons a une
enquete menee aupres de 68 prothesistes dentaires appartenant a 10 entreprises
differentes du Grand-Duche de Luxembourg (Marion, 2007). Nous terminerons
avec le modele de Finney qui exploite la regression logistique pour evaluer les
performances de melange d'insecticides (Finney, 1971).

9.1

Introduction

Quand la reponse a une serie de stimuli est une variable aleatoire reelle, il
n'est pas rare que son image par une transformation adequate - eventuellement
la transformation identite - puisse etre vue comme un tirage aleatoire dans une
loi normale de precision invariante, et le modele de regression lineaire est alors
d'application. Mais il existe de nombreux problernes OU la reponse a une serie de
stimuli n'est pas reelle : une tumeur est presente ou absente; un consommateur
prefere un emballage cadeau vert, rose, orange ou jaune; le nombre de jours
de brouillard sur une pcriode donnee est un entier naturel. II est evident que
les reponses categorielles ou discretes ne peuvent pas etre gaussiennes. II en va
de memo pour les rcponses reelles intrinsequement positives etjou fortement
asymetriques ou, manifestement, l'alea naturel ne peut pas etre modelise par
une loi normale. Pour toutes ces situations, il faut adapter le modele Iineaire
standard. Ce sont les modeles Iineaires generalises parmi lesquels on peut citer :

170

Pratique du calcul bayesicn

le modele de regression logistique, le modele de regression probit, le modele de


regression de Poisson et le modele de regression gamma. La plupart de ces
modeles neccssitcnt un recours it des techniques d'estimation modernes (voir
chap. 4).

9.2

Retour sur Ie modele lineaire classique

Remarque 9.1 Ce modele - evoque des le chapitre 1 (p. 5) - fait partie des
prerequis, Pour une approche classique, on consultera avec profit le chapitre 11
de (Lejeune, 2005) et l'ouvrage de (Cornillon et Matzner-Lober, 2007), publies
dans la meme collection. Pour une approche bayesienne, nous renvoyons le
lecteur interesse au chapitre 9 de notre precedent ouvrage (Bernier et al., 2000)
et au chapitre 3 de (Marin et Robert, 2007).
Cette section, completee par l'annexe D (p. 289), est un bref rappel de ce
modele statistique parametrique tres populaire. Nous en profiterons pour distinguer l'incertitude par ignorance de l'incertitude par essence ou alea naturel.
Nous terminerons cette section par deux remarques importantes.
Si deux populations statistiques x et y sont liees, l'esprit humain peut se
rcprescntcr ces deux populations par un nuage de points dans le plan cartesien.
S'il pouvait recllcmcnt l'observer, la forme de ce nuage renseignerait it coup
sur l'analyste sur la nature de la relation entre Ie stimulus x et la reponse y.
Mais il n'en n'observe qu'un echantillon, c'est-a-dire un ensemble fini de couples
(Xi, Yi)' Postuler une relation lineaire, c'est parier sur le fait que ce nuage de
points, s'il etait observable, montrerait une direction bien marquee dans le plan
cartesicn. A contrario, l'independance des deux populations statistiques peut
etre figurec par un nuage de points en forme de boule. Bien sur, l'analyste qui
parie sur une relation lineaire entre les populations statistiques x et Y peut
perdre son pari.
Nous illustrons ces propos par un exemple simple: l'age des parents des
enfants actuellement it l'ecole primaire en Belgique (fig. 9.1). Nous avons simule
une population de 8000 couples it partir d'un echantillon reel de 663 enfants
frequent ant les ecoles primaires de la province de Luxembourg. Les couples
formes par l'age de la mere et l'age du perc, ici notes (x, y), dessinent un nuage
de points qui presente une direction principale bien marquee fig. 9.1.a). Le
modele lineaire est une representation simplifiee, mais ici pertinente, de cette
population (fig. 9.1.b). Meme si on disposait de la droite montree it la figure
9.1.b (on ne l'a jamais puisque la population est inaccessible), l'estimation de
l'age d'un parent connaissant l'age de l'autre serait presque toujours entachee
d'erreur (sauf pour les couples qui sont rcellcmcnt confondus avec cette droite).
L'erreur commise en substituant le modele it la population est appelee aloa
naturel , souvent represente par la lettre grecque c.
L'echantillon (fig. 9.1.c) est une infime partie de la population. La droite
de regression calculec it partir des seules donnees rccllemcnt disponibles (15
couples extraits au hasard dans la population) est representee it la figure 9.1.d.

9. Le modele lineaire generalise

171

Elle peut etre assez eloignee du modele (fig. 9.1.b). On comprend que la qual ite
essentie lle de l'echantillon est sa represeniatioite de la population sous-jacente.
Un echantillon de petite taille sans biais vaut mieux qu'un echantillon de gra nde
taille montrant un biais important. Bien sur, un echantillon de grande taille et
sans biais est l'ideal l Malheureusement, un te l ideal a un cout difficile, voire
impossible , a supporter en pratique.

60

(a) Population

60

50

50

.g 40

40

.0.>

Q..

0.>

30

~30

20
20 30 40 50 60
60

e 50

. 0)

Q..

.g 40

(b) Modele

(e) Eehantillon

.
;:: .

0.>

20
20 30 40 50 60
(d) Droite de regression

60
50

40
30

~30

20
20 30 40 50 60
Age de la mere

20
20 30 40 50

60

Age de la mere

Figure 9.1 - La population statistique des couples (x,y) (a) est rep resentee par un
modele (b) . L'echantillon disponible (c) permet de calculer une droite de regression
(d) plus ou moins proche du modele.

L'incertitude par essence decoule du fait que l'homme definit un cadre de


raisonnement au sein duquel il va tenter de comprendre le phenomena d'interet .
Cela etant dit, limiter son champ d'i nvestigation c'est caricaturer la realite, Une
fois le cadre de raisonnement pose, l' in certitude par ignorance vient de ce que
l'information disponible, expertise et donnees , est toujours limitee, Ainsi, le
statisticien qui choisit un mode le d'echantillonnage caricature la rea lite et , par
la, cree un alea naturel. Ensuite, l'inference statistique qui consiste a resumer
la connaissance qu' il peut avoir des parametres de son modele va dependre de
la quantite d'information qu'il pourra mobiliser.

Remarque 9.2
traction qui
lineaire tant
En d'autres
au stimulus

1. La causalite existe. C'est par exemp le l'mtensite de la


cause l'allongement du cable (loi de Hooke: la relation est
que la traction ne depasse pas une certaine valeur critique) .
termes, l'allongement du cable est la reponse du systerne
traction , La cause, ou stimulus, est placee sur l'axe des

172

Pratique du calcul bayesian


abscisses et l'effet, ou reponse, sur l'axe des ordonnees. Ici les choses
sont claires et ce n'est pas toujours Ie cas. Ainsi, il serait absurde de
soutenir que l'agc d'un conjoint "cause" l'age de l'autre. L'allongement
d 'un nuage de points (echantillon) dans une direction bien marquee nous
dit seulement que les deux variables en main prescntent une certaine
covariation. Dans le cas de la figure l.c, cette covariation est positive,
car l'age de la mere est directement proportionnel a l'age du perc. Le
choix des axes est donc ici purement arbitraire, mais les resultats qui en
decoulent sont evidemment conditionnels a ce choix.

a dire sur les relations de cause a effet. II n'existe


pas de test statistique permettant de prouver une relation de cause a
effet. A contrario, il existe de nombreux cas OU des gens sans scrupule ou
incompetents tentent de faire passer une covariation pour une relation de
cause a effet. Ainsi, la covariation positive entre l'age des parents indique
seulement qu'une cause commune, pas toujours aisee a identifier", decale
les deux variables dans le meme sens.

2. La statistique n'a rien

9.3

Le modele lineaire generalise

Le modele Iineaire classique (LM, linear model) est un cas particulier du


modele lineaire generalise (GLM, generalized linear model). L'un et l'autre ont
pour but d'etablir une relation entre une reponse observee, disons Y == y, et
un certain nombre de predicteurs, Xl == Xl, ... .X; == x p , le plus souvent a des
fins de prevision. Pour comprendre le GLM, il n'est pas inutile de se referer au
LM.
Le LM voit les reponscs, Yi, comme la somme de leur valeur attendue,
E (Yi) == J-Li, et d'un alea naturel, Ci, sous l'hypothese fondamentale que les
n v. a. r. CI,'" ,Cn sont iid selon une loi normale, localisee sur zero et de
precision invariante r (r == 1/ a 2 ) :

e,

r-;

iid

dnorm(O,r)

(9.1)

II s' ensuit que, conditionnellement a J-Li, les reponses Yi sont independantes


(il s'agit donc d'une independance conditionnelle) et distribuees selon une loi
normale, localisee sur J-Li et de precision invariante r (c'est-A-dire que les reponses ne sont pas iid mais simplement i).
Sous forme matricielle, Ie LM s'ecrit
Y == E (Y)

+ e,

E (Y) == X(3

(9.2)

OU Yest le vecteur (n, 1) des reponses, X est la matrice (n, p) des predicteurs
et (3 est le vecteur (p, 1) des coefficients de la combinaison lineaire X(3. On
n'exclut pas le cas OU la premiere colonne de X est un vecteur de n valeurs 1,
1 On pourrait par exemple penser que les fiIles sont matures avant les garcons et que c'est
pour cette raison qu'elles preferent un conjoint plus age.

9. Le modele lineaire generalise

173

ce qui revient a dire que le premier predicteur est une constante inconnue (Ie
terme independant.).
Comme tout modele, le LM a des limitations.
- La reponse Y doit etre une variable aleatoire reelle (continue) ;
- La normalite de la reponse et l'invariance de sa precision ne sont pas garanties. Certes, on peut essayer de transformer Y, par exemple a l'aide de
la transformation de Box-Coxf, de sorte que Z == T (Y) ait une distribution normale de precision invariante. Mais il n'y a aucune raison qu'une
telle transformation T existe.
- Si la reponse Y est intrinsequemcnt positive, un lien fonctionnel entre sa
moyenne J-l et sa precision T n'est pas rare, c'est-a-dire J-l --t 0 =} T --t 00
(pensons a une concentration en polluant).
- L'additivite des effets (c'est-a-dire E (Y) == Xf3) peut etre irrealiste, Supposons, par exemple, que la reponse soit le volume utile d'un arbre sur
pied, V, et que les predicteurs soient la hauteur cstimce de son tronc, H,
et sa circonferencc mesuree a hauteur de poitrine, C. Personne n'ecrira
E (V) == a + f3H + TC car il est clair que ces deux prcdicteurs ne s'additionnent pas mais se multiplient et on cherchera plutot une relation de
la forme E (V) == >..Hf3Cr ou bien additive en logarithme.

9.3.1

Le modele lineaire generalise (GLM) repond aces


limitations

Le GLM s'appuie sur une famille de modeles dont la loi normale est un cas
particulier. Les hypotheses de normalite, invariance de la precision et additivite
des effets sont levees et remplacees par la seule exigence suivante : la reponse
- ou une transforrnee de cette reponse - notee Y est un membre de la famille
exponentielle' des distributions statistiques a deux parametres (, 0) definie
comme suit:

[yIB, ] = exp {

yO- b(0)
a ()

+ c (y, )

(9.3)

ou
1. 0 est le parametre canonique et

> 0 est

le parametre d'cchelle ;

2. a (), b(0) et c (y, ) sont des fonctions specifiees


verifier les conditions suivantes :

a l'avance

qui doivent

(a) la fonction a () est positive et continue; le choix standard est a () ==


/w OU west un poids fixe a l'avance (par exemple w == 1),
A

II s'agit de trouver A > 0 tel que x == Y .A-I ait une distribution normale.
3 A titre de contre-exemple classique, la distribution de Cauchy (rapport de deux lois
dnorm (0,1) independantes qui s'identifie a une loi de Student de degre 1), qui n'admet
aucun moment fini, n'est pas un membre de la famille exponentielle.
2

174

Pratique du calcul bayesien


(b) la fonction b(0) est deux fois derivable et sa derivee seconde est
positive (Ie graphe de b(0) a sa partie bombee tournee vers le bas),
(c) la fonction c (y, ) est independante de O.

Ce modele s'applique aussi bien aux variables aleatoires discretes qu'aux


variables aleatoires reclles. La moyenne et la variance sont respectivement donnees par

/-l == E (Y) == bl(0),

(J2

== Var (Y) == b" (B) x a ()

(9.4)

Remarquons que pour retrouver le modele lineaire, il suffit de prendre (en


appelant X la matrice des covariables avec leur effet note ici (3) : 0 == X (3, b" ==
1, donc b' ==identite et a() == (J2.

Rappel. Vne fonction f peut avoir comme exposant une autre fonction g. Si
f arrive dans
c'est-a-dire Vx : f (x) > 0, alors on peut ecrirc :

ffi.t,

f9 == exp (g x lnf) == e9 1n j
Exemple 9.1 Montrons que y
exponentielle.

If

dnorm (/-l, T) est un membre de la famille

r-;

exp (

exp { 0.5In

-~ (y -

JL)2)

;7f - 0.5T (y2 + JL2 -

exp {T (YJL - 0.5JL2) - 0.5 (Ty

2YJL) }

+ In ;7f) }

Pour retrouver la formulation generale 9.3, il suffit de poser

On retrouve bien la moyenne et la variance de la loi normale par 9.4


b! (B) == u;

Exemple 9.2 Montrons que y


nentielle.

[yIA]

rv

b" (B) == 1

(J2

== l/T

dpois (A) est un membre de la famille expo-

AY
exp(-A) y!
exp (-A) exp (y In A) exp (-In y!)
exp{ylnA - A -lny!}

Posons

a () == 1,

0 == In A

b(0) == A == exp (0),

c (y, ) == - In y!

9. Le modele lineaire generalise

II vient

bl(B)

== exp(B) ==

J-L ==

b" (B) =*

175

a 2 ==)...

Exemple 9.3 Montrons que y


nentielle

[yl7r]

rv

== 7rY

dbern (7r) est un membre de la famille expo-

(1- 7r)l- Y, Y E {O, 1}

La meme procedure donne

[y 17r]

exp {y In 7r + (1 - y) In (1 - 7r)}
exp

{y In _7r_
+ In (1 1-7r

7r)}

Posons
7r

() == In - - {:}
I - t:

7r

e8
== - 1 + e8

Par consequent
1
In (1 - 7r) == In - - 8 == -In (1 + e8 )
l+e

Donc on retrouve 9.3 en posant a () == 1, b(B) == In (1


moyenne et la variance suivent par 9.4

+ e8 )

et c (y, ) == O. La

9.3.2

D'un point de vue pratique

II est important de retenir qu'un modele GLM verifie les deux proprietes
suivantes :
1. la distribution de I'observable est cornpletement specifiee par son esperance et sa variance theorique ;
2. il y a un lien fonctionnel entre I'esperance et la ou les covariables expli-

catives.

176

Pratique du calcul bayesien

9.4

La regression logistique

La reponse est dichotomique et les stimuli sont des variables aleatoires


reelles et /ou discretes,

Exemple 9.4 Les prothesistes dentaires inhalent des poussieres toxiques et, a
la longue, sont susceptibles de developper differentes pathologies pulmonaires
regroupees sous le nom de pneumoconiose. A chaque prothesiste, on peut associer une variable aleatoire de Bernoulli Xj qui prend la valeur 1 avec la
probabilite 1rj si le sujet j montre une pneumoconiose. Sous I'hypothcse (peu
realiste) que la suite Xl, ... ,X n constitue un processus de Bernoulli, le nombre
de pneumoconioses dans un laboratoire d'effectif nest une variable aleatoire
binomiale, disons y, de parametre 1r et d'ordre n. Si on dispose d'une enquete
realises dans k laboratoires, sous l'hypothese (peu realiste) que les variables
aleatoires discretes YI, ... ,Yk sont iid, elles constituent un processus binomial
dont la vraisemblance s'ecrit

[YI' ... ,Yk 11r, nl, ... ,nk] ex 1r2:7=1 u. (1 -

1r

)2:7=1 (ni -Yi)

Dix laboratoires du Crand-Duche de Luxembourg (voir section suivante) donnent


16 monoconioses sur 68 prothesistes examines. Un prior non informatif est une
loi beta de parametre p == q == 1/2. A posteriori, 1r rv dbeta (16.5, 52.5) et
Pr (0.15 :S 1r :S 0.35) ~ 0.95 est une estimation (grossiere) de la prevalence de
la pneumoconiose des prothesistes dentaires dans le pays.

Quand on dispose d'une serie cl'epreuves dichotomiques independantes, on


peut vouloir expliquer la probabilite de succes a partir de quelques variables
exogcnes.

Exemple 9.5 On peut vouloir verifier que la probabilite qu'un fumeur presente une pneumoconiose depende de la severite de son tabagisme. Ici, la probabilite de succes varie avec la consommation de tabac et done d'un patient
a l'autre (dans ce cas, on n'a pas un processus de Bernoulli).

Exemple 9.6 Dans un vivarium, on soumet des insectes ravageurs a une meme
dose de toxique durant un temps predefini, Si on prend soin de debuter l'experience avec des insectes sains et de mcme maturite, la probabilite de mort (qui
depend de la dose) est la meme pour tous les individus, et c'est un processus de
Bernoulli. Si on repete cette experience dans les memes conditions (nouveaux
individus sains et de meme maturite, meme dose du meme toxique, meme temperature et humidite dans le vivarium), alors c'est un processus binomial. Ce
n'est plus le cas si on repete l'experience en variant la dose.

9.4.1

La transformation logit

Puisqu'une probabilite appartient a l'intervalle reel [0, 1], il faut l'envoyer


dans IR si on veut la relier a une seric de variables exogenes (ou regresseurs).

9. Le modele lineaire generalise

177

Parmi les choix possibles, la transformat ion logit est un lien tres utilise (fig. 9.2) :
logit (1T')

= In -1

De ] ,

1r
-1r

1T'

]0, 1[

Remarque 9.3 L'image de 1T' = 0 ou 1T' = 1 par la transformation logit n' est
pas un nombre reel mais ce n'est pas genant puisque cela correspond a des
evenernents irrealist es en pratique.

15

10

-5

-: ------

---------

-10

-15

04

0.2

06

08

Figure 9.2 - La t ransformation logit .

On verifie sans peine que


U

== In _1T'_
1-

1T'

1T' =}

1-

1T'

exp(u)
l+ exp (u )

= l+e~p(u)

On trouvera d'autr es fonctions de lien au chapitre 4 (Marin et Robert ,


2007).

9.4.2

La regression logistique

A chaque individu

(indice i) de la population statistique d' interet on assode


une variable aleatoire de Bertioulli; Yi, de parametr e 1T'i (pour le processus de
B ernoulli et le modele binomial, voir chap. 2).
Si on postul e que q stimuli expliquent la reponse dichotomique Yi, le
modele de regression logistique voit la transformation logit de la probabilite de
succes comme une combinaison lineaire des stimuli :
(30

Yi

+ (31 X il + .. .+ (3q Xiq

dbern (1T'i)

(9.5)

178

Pratique du calcul bayesien

Un n-echantillon independant

D == {(Xi Yi) IXi E ffi5, Yi E {O, 1} , i == 1, . . . ,n}


permet dinferer les parametres a et (3, par exemple via un algorithme de
Metropolis-Hastings (voir chap. 4).

9.4.3

Les prothesistes dentaires seraient-ils particulierement exposes aux pneumoconioses?

L'enquete
Durant Ie mois de decembre 2006, un medecin du travail a realise une enquete aupres de 68 prothesistes dentaires repartis dans 10 laboratoires grandsducaux (Marion, 2007). Finalement, l'expert a retenu 8 variables exogenes pour
expliquer l'etat du prothesiste que nous appellerons Y. Y == 1 ou Y == 0 selon
que le sujet montre ou non une pneumoconiose.
1. Le labo.
2. L'age (annees},
3. Le sexe.
4. La duree de service au laboratoire (annees).
5. Le tabagisme (paqucts-annccs}.
- Si on compte 20 cigarettes dans 1 paquet, m cigarettes par jour pendant t annees equivaut a m x t/20 paquets-annees, Par exemple, une
consommation journaliere de 8 cigarettes pendant 12 ans est equivalente a 1 paquet par jour durant 4.8 ans ou 4.8 paquets-annees,
6. L'exposition

a l'alliage Cr-Co-Mo.

7. L'exposition au corindon (un oxyde d'aluminium utilise comme abrasif).


8. L'exposition

a la silice.

Les trois variables exposition sont categorielles a quatre modalitcs :


- 0 == jamais expose;
- 1 == expose parfois ;
- 2 == expose souvent ;
- 3 == expose toujours.
Le tableau 9.1 montre les donnees pour les deux premiers et les deux derniers
sujets.

Contraintes et selection des variables


Sur base des donnees de l'enquete, le sexe est independant du Y (p == 0.36)
et la duree d'exposition, c'est-a-dire l'anciennete de service, est liee a l'age du
sujet (r == 0.93).
Cela etant dit, sans prendre en compte les deux variables continues que sont
la duree de service (variable Xl) et Ic tabagisme (variable X2), les 68 sujets se

9. Le modele lineaire generalise

Labo
9
1
3
7

179

Age
56
40

Sexe
M
M

Duree
40
24

Tabac
7.5
6

CrCoMo
3
1

Corin.
2
1

Silice
0
0

47
50

M
M

29
30

3.7
1

3
2

3
0

3
0

1
0

0
1

Tableau 9.1 - Enquete aupres des laboratoires de protheses dentaires au GrandDuche de Luxembourg.

repartissent encore dans 10 x 43 X 2 etats, La plupart seront vides et il faut


reduire la dimension du probleme.
La variabilite interlaboratoire n'est pas prise en compte car la repartition
des sujets (68) et des pneumoconioses (16) dans les 10 laboratoires est tres
heterogene, Le laboratoire C presente 7 pneumoconioses (son effectif est de 16
prothesistes dont l' anciennete de service mediane est de 30 ans). Des lors les 9
laboratoires restants se partagent les 9 autres cas.
La premiere idee qui vient a l'esprit est d'additionner les trois variables
categoriellcs a quatre modalites, Mais il ne faut pas oublier que le codage 0
(jamais), 1 (parfois), 2 (souvent), 3 (toujours) est tout a fait arbitraire. De
plus, la signification des mots parfois et souvent peut differer d'un sujet
a l'autre. II faut done ici mouiller son maillot et fabriquer un regresseur
dichotomique, certes plus rustique, mais certainement plus signifiant. Selon
que la note globale est inferieure ou superieure a quatre, le sujet est faiblement
(EXP == 0) ou fortement (EXP == 1) expose (tableau 9.2). Sous l'hypothese
d'Independance entre EXP et Y, il y a moins de 5 chances sur 1000 de trouver
un echantillon encore plus extreme (p ~ 0.004).

Y/EXP
0
1
Total

0
31
3
34

1
21
13
34

Total
52
16
68

Tableau 9.2 - Exposition globale aux poussieres toxiques et etat du patient.

Finalement, on retiendra trois variables exogenes : l'anciennete de service

(Xl, annees), le tabagisme (X2' paquets-annees) et l'exposition glob ale aux trois
toxiques (X3, 0 OU 1).
Le modele
Le modele de regression logistique s'ecrit (Y

== y) :

180

Pratique du calcul bayesien

logit (1fi) ==

/30 + E

/3j Xij,

Yi

rv

dbern (1fi )

j=l

C'est un modele sans interaction entre les facteurs.


Le risque relatif - pour une ancicnnete de service et un tabagisme fixes est le rapport des chances de developper une pneumoconiose selon qu'on soit
expose ou non expose aux trois toxiques

La figure 9.3 montre le code WinBUGS (prior non informatif).


model;
{
80 - dnorm( 0.0,1.0E-6)
81 - dnorm( 0.0,1.0E-6)
82 - dnorm( 0.0,1.0E-6)
83 - dnorm( 0.0,1.0E-6)
for( i in 1 : 68 ) {
logit(pi[i]) <- 80 + 81 * x1 [i] + 82 * x2[i] + 83 * x3[i]
y[i] - dbern(pi[i])
}

logit(Up) <- 80 + 81 * x1.star + 82 * x2.star + 83


logit(Do) <- 80 + 81 * x1.star + 82 * x2.star
RR<- Up/Do
}

Figure 9.3 - Code WinBUGS pour le probleme du prothesiste dentaire.

Apres 40000 iterations dont 20000 pour la periode de chauffe, on obtient


le tableau suivant pour un prothesiste non fumeur (X2 == 0) ayant 10 ans de
presence au labo (Xl == 10). On remarquera que l'anciennete de service (variable
Xl) pourrait fort bien ne pas expliquer la pneumoconiose du prothesiste dentaire
puisque zero est dans Ie ventre de la distribution marginale a posteriori du
parametre B1.
Les prothesistes dentaires semblent particulierement exposes aux pneumoconioses puisque
Pr (RR > 21xI == 10, X2 == 0) ~ 0.9

Enfin, la probabilite 1fo de diagnostiquer une pneumoconiose chez un Luxembourgeois non fumeur, qui n'exerce pas la profession de prothesiste dentaire
(Xl == 0, X2 == 0, X3 == 0) , est donnee par logit (1fo) == BO. L'intervalle de credibilite a 90 % est [0.02, 0.24] et la mediane est 0.08.

9. Le modele lineaire generalise


BO
-3.92
-2.45
-1.18

1090
Q5
Q50
Q95

B1
-0.07
-0.02
0.04

B2
0.00
0.08
0.17

B3
0.53
1.72
3.12

181

RR
1.5
4.1
13.9

Tableau 9.3 - Pneumoconiose du prothesiste dentaire (10 ans d'anciennete, non

fumeur).

9.4.4

Evaluation de l'action conjointe de deux produits

Le probleme conslderc ici est devaluer l'action conjointe de deux substances


qui sont supposecs separement actives. II peut s'agir, par exemple, de medicaments, d'engrais ou de pesticides.

Exemple 9.7 Pour tuer un insecte ravageur on utilise soit l'insecticide A, soit
l'insecticide B, soit un melange des deux produits. Le melange est compose de
x unites de A additionnees a Z unites de B. Si on soumet n insectes au melange
A+B pendant t heures, on observe 0 < Y < n morts.

On suppose que x unites de la seule substance A produisent le meme effet


que Z unites de la seule substance B. Si, en plus, on suppose que les relations
dose-effet de ces deux substances sont paralleles (fig. 9.4) alors le pouvoir relatif
des deux substances est mesure par le rapport constant suivant :
x

p==->O
Z

Si Y est la variable aleatoire effet et si Zest la variable aleatoire dose alors


ces hypotheses se traduisent par:
ou f represente, par exemple, la fonction identite ou la fonction logarithme.
En d'autres mots, z unites de B ont Ie meme effet que pz unites de A. Par
consequent, un melange de x unites de A et de z unites de B peut etre compare
avec x + pz unites de A. Soit YXA +ZB les effets du melange (p. ex. lc nombre
d'insectes morts) et YXA +pZA les effets de la seule substance A :
- si YXA +ZB ~ YXA +pZA alors les deux substances ont des effets simplement
additifs;
- si YXA +ZB > YXA +pZA alors Ie melange est une synergie;
- si YXA +ZB < YXA +pZA alors le melange est antagoniste.
A I'expericncc i, on melange Xi unites de A avec z, unites de B (c'est-a-dire
PZi unites de A) . Un modele interessant (Finney, 1971)) est alors celui-ci :

logit (1ri)
cirvN(O,T)
iid

Yi

+ !Jln (Xi + PZi + ~J PXiZi) + e,


Q,!3,Ii,P

.L

(9.6)

182

Pratique du calcul bayesien

E~t

A
B

Dose

Figure 9.4 - Les relations dose-effet des deux substances sont paralleles,

- si /'l; == 0 alors les deux substances ont des effets simplement additifs;
- si /'l; > 0 alors le melange est une synergie ;
- si r: < 0 alors le melange est antagoniste.
Bien entendu, d'autres modeles sont possibles. Ce serait notamment le cas
si l'expert disposait de connaissances particulieres sur l'action des substances.
Dans le cas contraire, le modele 9.6 fournit une base raisonnable pour ce type
de problema.
Application phytosanitaire

Les donnees de la figure 9.5 resultent d'une experience conduite par (Giltinan et al., 1988). II s'agit cl'etudicr l'activite conjointe de deux insecticides
contre la phalene verdoyante (Heliothis virescens) qui affecte les feuilles de tabac. Des etudes anterieures ont montre que les relations dose-reponse des deux
insecticides, denommes A et B, sont quasi paralleles. Les melanges ont ete realises dans les proportions 0 :100, 25 :75, 50 :50, 75 :25 et 100 :0. A chaque
experience, 1J.LL de produit etait directement applique sur chaque chenille. La
variable d'interet est le taux de mortalite 96 heures apres le traitement.

9.4.5

Regression logistique avec Ie modele de Finney (1971)

Par commodite, on pose () == (a, (3, n, p, T).


Un prior non informatif pose que tous ces parametres sont independants,
Pour a et {3, il s'agit d'une constante (ou d'une loi normale, localisee sur zero
et de precision quasi nulle). Pour T, un prior non informatif est son inverse
(ou une loi gamma de parametre de forme et d'echelle inverse quasi nuls). Le
pouvoir relatif des substances A et Best mesure par Ie parametre p > O. Une
loi uniforme sur l'intervalle [0, b] avec b assez grand convient. Enfin, un prior

9. Le modele lineaire generalise

183

Experience Melanpe A (ppm) B(ppm) A+B (ppm) Tues Exposes


1B
o 30.000
30.00
26
30
2 B
0 15.000
15.00
19
30
3 B
0 7.500
7.50
7
30
4 B
0 3.750
3.75
5
30
5 A25B75
6500 19.500
26.00
23
30
6 A25B75
3.250 9.750
13 00
11
30
7 A25B75
1.625 4.875
6.50
3
30
325
0
30
8 A25B75
0.813 2.438
26 00
15
30
13.000 13000
9 A50:B50
10 A50:B50
6500 6.500
13.00
5
30
11 A50 B50
3.250 3.250
6.50
4
29
12 A50:B50
1.625 1.625
3.25
0
29
2600
20
30
19 500 6.500
13 A75B25
14 A75B25
9750 3.250
13.00
13
30
15 A75:B25
4.875 1.625
6.50
6
29
2.438 0.813
3 25
0
30
16 A75B2 5
23
30
17A
30.000
0
30.00
18 A
15.000
0
1500
21
30
19 A
7.500
0
7.50
13
30
20 A
3.750
0
3.75
5
30

Figur e 9.5 - Experiences sur la chenille du tabac (Giltinan et al., 1988).

non inform atif pour le par ametre K, est aussi une loi uniforme sur l'intervalle
reel [-a, a] avec a assez gra nd. Finalement , le prior conjoint non informatif se
resume a

[0] 0:

Sous WinBUGS, la distribution marginale a posteriori des cinq parametres


du modele 9.6 conduit aux int ervalles de credibilite montres a la figure 9.6. Le
coefficient K, (kapp a) est clairement negatif (effet antagoniste du melange). Les
probab ilites de mort (fig. 9.7) confirment qu 'on obtient les meilleurs rendements
(elimination de l'insecte ravageur) avec les produits seuls. P ar exemple, 15 ppm
de A ou de B font aussi bien que 26 ppm de melange.

Epilogue
Nous avons present e le modele lineaire generalise comme une ext ension du
modele lineaire. La regression logistiqu e est certainement une de ses applic at ions les plus utilisees. Nous verrons sur le cas d'etude du cha pitre 10 que
d'autres exte nsions int eressant es (residus autoregressifs, erreurs dans les variables explicatives, modele probi t ordonne) se const ruisent sans peine par assemblage de modules a la maniere d'un jeu de LEGO.

Pratique du calcul bayesien

184

bela

a~h a

kappa

rho

SIgma

.
~

-2

-,
-,
-6

..

Coaffic"n l

Figure 9.6 - IC95 a posteriori pour les parametres du modele de Finney.

2.5%

97,5%

~ 50% 1

10
A

O.
0.8
01

OB
05
0.'
03
02
0'
00
17

18

13

"

14

10

20

15

Numirode l'op i rienci

Figure 9.7 - Probabilite de mort a posteriori en fonction de la concentration (ppm)


et du type de melange des produits A et B.

Chapitre 10

Assembler des modules


fonctionnels pour evaluer la
viscosite du lait concentre
,
sucre
Prologue
L' approche bayesienne permet de concevoir la modelisation comme un jeu
de LEGO, c'est-a-dire de construire un modele statistique par empilement de
modules fonctionnels, ceux-ci etant utilement representee par un DAG. Au chapitre 9, les noeuds stochastiques represcntaient des tirages aleatoires dans des
lois de probabilite discretes, Dans ce chapitre, nous repctons la demarche avec
des noeuds marques loi normale et loi gamma, cela afin de modeliser les variations de grandeurs continues. L'exemple reel de la viscosite du lait concenire
sucre (LCS) fournit un cas tres illustratif. La premiere idee est de construire une
regression lineaire sur les variables explicatives. Ce premier modele, qui ne presente aucune difficulte technique d'estimation, ne peut pas nous satisfaire car
le precede de fabrication introduit naturellement une dependance temporelle
qu'il faut evidcmment representer. On avance done l'idee d'un modele markovien autoregressif, lui aussi tres commode sur le plan de l'inference, Mais,
pour conserver l'intervention de variables exterieures, on s'appuie alors sur un
modele associant a la fois la regression Iineaire et ce schema de dependance autoregressive. Ce qui est surprenant, c'est que cette structure de modele hybride
ne complique pas l'inference l Bien au contraire, la technique d'inference profite
de la structure conditionnelle du modele lineaire a residus autoregressifs que
l'on vient de construire. L'algorithme de Gibbs it ere en effet des calculs bayesiens partiels correspondant successivement a un modele de regression lineaire

186

Pratique du calcul bayesien

pur d'une part et a un modele autoregressif simple d'autre part. Cette propriete
d'assemblage est inherente a la demarche de modelisation bayesienne par conditionnements. Imaginer ensuite un schema d'erreurs sur les variables se fait sans
douleur pour la modelisation et pour l'inference. De la meme facon, quand
l'observation de certaines sorties du pro cede ne s'effectue plus qu'au travers
de grandeurs catcgoriellcs, on peut aussi s'appuyer sur la structure explicative
precedente, qui devient une couche cachee du modele.
Ce chapitre s'appuie sur une scrie detudes reelles : (Girard et Parent, 2000),
(Girard et Parent, 2001) et (Girard et Parent, 2004). Les observations de viscosite ou de categories de vitesse d'epaississcment du LCS proviennent d'etudes
realisees chez Nestle. Pour des raisons de confidentialite, les series de variables
explicatives ont ete centrees et norrnees.

10.1

Introduction

Un pro cede de fabrication agroalimentaire realise une transformation physique ou chimique des maticres premieres pour genercr un produit final. Pour
piloter ses installations, l'industriel possede une connaissance empirique tres
fine de ses pro cedes de fabrication sans avoir besoin de recourir a un modele
statistique explicite. Ncanmoins, cette maitrise technologique peut diminuer en
raison de modifications techniques importantes et un modele statistique peut
alors devenir un outil precieux. Tel est Ie cas, par exemple, du precede de fabrication du lait coticenire sucre (LCS) qui est un produit phare de la societe
Nestle. En effet, d'une part Ic LCS est du au fondateur de la societe, Henri
Nestle (1868), d'autre part ce produit constitue toujours une image emblematique de qualite. Parmi les caracteristiques du LCS, sa viscosite interesse particulierement le consommateur car elle participe de pres a la facilite d'emploi et
donc a la consommation du produit. Afin de maitriser le pro cede au niveau de
la viscosite, Nestle met en oeuvre tous les moyens de mesure de la viscosite et
enregistre les parametres de fabrication. Ce pro cede consiste schematiquement
a chauffer et a deshydratcr le lait.
Le tableau 10.1 liste les quatre variables du probleme : une variable endogene, c'est-a-dire la viscosite du LCS a expliquer, et trois variables exogenes,
variables explicatives ou regresseurs.

y
Xl
X2
X3

viscosite du LCS
quantite d'extrait sec en entree du pro cede
pourcentage de matiere grasse du produit fini
temperature de pasteurisation du premier traitement thermique

Tableau 10.1 - Viscosite du LCS : definition des trois variables exogenes retenues.

Les regresseurs X2 et X3 varient tout au long de l'annee et la variable X3 est


commandee par I'operateur. Sa fonction est de casser les liaisons chimiques au

10. Assemblage de modules fonctionnels normaux

187

SlOCKAGE

PROCEDE
Lait

.....
I

CONDInONNEMENT

111 111

Concentration
.. ._.........................
-

_;_/

.~

vlscoslte
mesuree
sur Iigne

Figure 10.1 - Schema de fabrication du LCS.


Viscosit e y (Pa-s)
Observations
Tableau 10.2 - Stati stiques descrip tives de la viscosite sur une annee de product ion en uni t e de viscosit e.
cours du precede de deshydrat ation et , par consequent , influence la viscosite du
produit fini qui tend generalement a diminuer lorsque la te mperature augment e.
La figure 10.2 illustre ces pr opos. Pour la clarte du dessin , elle ne pr esente que
150 observat ions d 'un ensemble de 454 donnees enregist rees a l'usine de Boue
en 1997. Chaque point qualifie une fourn ee (batch) de fabr icat ion de 20 tonnes
de produit.
Le tableau 10.2 fournit les statist iques de base sur les donnees de viscosite.
Le tableau 10.3 donne les spec ificat ions souhaitees (min et max ) pour cette
viscosite. Dans l'industri c, on definit l'ind ice de capaciie, C p , comme le rapport
ent re la gamme des specificat ions acceptab les et six fois I'ecar t-t yp e des mesures
du pr oduit fabrique, La pratique industrielle admet qu 'une valeur de 1.3 pour
le Cp definit la limite de l'accept ab ilite, lei , cet indi ce est bien plu s faibl e, ce qui
tra duit un manque de maitri se de la gamme de variation des caracterist iques du
pr oduit , meme si la moyenn e de la viscosite est bien sit uee ent re les bornes de
specificat ion. 11 y a une dizain e d 'annees, la maitrise de la viscosite etait encore
assuree par des operateurs et des contremaitres , specialises dans la maitrise du

188

P ratique du calcul bayesien

J~
o

50

(b )

: :d

100

150

J~~
:~r S?~
o

50

(c)

100

150

~~o
o

50

100

150

Figure 10.2 - 150 fournees de fabrication (a : extrait sec du lait brut , b : extra it sec
du produit fini , c : temperat ure de pasteurisation, d : viscosit e).
Viscosite y (Pa-s)
Minimum acceptable
Limite haute
Indice de capacite : Cp

Valeur
y20
y+
30
y + -y
6<7,

0.21

Tableau 10.3 - Specifications en unites de viscosite et indice de capacite .


procede du LCS, qui, par leur experience, connaissaient empiriquement tous
les fact eurs influencant la viscosite. Mais depuis quelques annees, les evolut ions
technologiques du procede et le renouvellement important de la main-d 'ceuvre
ent rainent une possible perte du savoir-faire et, par voie de consequence, un
risqu e de moindr e maitrise du precede. Un modele peut-il aider ici ?

10.2

Construire un modele comme on joue au


Lego

Nous allons pro ceder comme le ferai t peut-etre un st ati sti cien engage par
une ent reprise pour lui fourni r une aide a la decision. Le statist icien arrive
avec ses connaissances de modelisateur et , peti t a petit, apprend le procede
de fab rication du LCS en dialoguant avec les experts de Nestle. Ces derniers

10. Assemblage de modules fonctionnels normaux

189

apprendront progressivement la manierc de penser du modelisateur de sorte


que finalement ils arriveront a un modele qu'ils seront prets a dcfendre aupres
du decideur.
La viscosite brute en sortie du precede de fabrication du LCS est la grandeur
d'interet a expliquer, encore appelee variable endogene. La premiere idee est de
I'expliquer par des variables exoqenes ou predicieurs fournis par les experts de
Nestle. Le modele le plus simple est la regression lineaire (M1). Le dcuxiemc
modele est aussi un grand classique, mais part d'un autre point de vue. Selon
les experts de Nestle, la viscosite du LCS peut dependre de celle obtenue lors
de la fournee precedente. C'est le modele auioreqressi] d'ordre 1 (M2). Arrive
a ce stade, pourquoi ne pas fusionner ces deux modeles pour tenir compte
a la fois des predicteurs et de l'effet de memoire (M3)? Ensuite, il s'avere
que les predicteurs ne sont pas connus sans incertitudes et integrer celles-ci
dans le modele semble prometteur (M4). Enfin, Nestle propose d'integrer une
nouvelle variable endogene, asavoir une variable aleatoire qualitative pour relier
la categoric de vieillissement du produit au traitement qu'il a subi (M5).

10.2.1

Les moyens

a mettre en oeuvre

Au-dela de ce probleme industriel interessant, notre but est aussi de montrer comment on peut construire un modele pas-A-pas, du plus simple au plus
complexe, par conditionnements successifs. A cet egard, realiser l'inference par
echantillonnage de Gibbs est particulierement eclairant. Ce choix nous conduit
a privilegier les priors partiellement conjugues de sorte que les conditionnelles
completes sont toujours des lois standards, disponibles dans la bibliotheque de
R (R Development Core Team, 2009). Cela implique de jongler avec les formes
quadratiques et c'est pourquoi nous detaillons certains calculs pas a pas en
annexe E, a la section E,.

10.2.2

Les modeles, leur definition, leurs liens

Remarque 10.1 Dans cette section, les hypotheses dindependance sont implicites. Leur justification pour le probleme du LCS sera faite au moment de
leur inference.

Les modeles Ml et M2 sont definis de la memc maniere : au temps d'observation t., l'ecari entre l'observable, soit Yt, et la prediction, soit J-Lt, est un
bruit bloiic: note Et (t == 1,2, ... ,n).
1 Le bruit blanc est le processus stochastique le plus simple. C'est une suite de variables
aleatoires reelles, X (t E Z), telles que "It : E (X t ) == 0 et V (X t ) == 0- 2 , Cov (X t , X t +h ) == 0
pour tout t et h.

190

Pratique du calcul bayesien

La relation 10.1 n'est rien d'autre que la transcription mathematique de


cette definition.
Yt - ILt

==
Et

ILt

Et
r-;

iid

dnorm (0, T)

== { (1, Xt) 13 ~ M1
PYt-l ~

(10.1)

M2

Dans cette ecriture, Xt == (Xtl' Xt2, ... ,Xtq-l). Le vecteur (1, x.) est donc
de dimension 1 x q de sorte que 13 == (130, 131, ... ,13q - l )T est de dimension q x 1.
Dans le cas du LCS q == 4 et 13 == (130,131,132, 133)T.
Le modele M3 integre les deux premiers de la maniere suivante : au temps
d 'observation t., l' ecart entre l' observable Yt et la prediction ILt est proportionnel a ce meme ecari observe au temps t - 1, auquel on ajoute un bruit blanc
(t==1,2,"',n):
Yt - ILt
ILt

P (Yt-l - ILt-l)

+ Et

(1, x.) 13
dnorm (0, T)

(10.2)

Le modele M4 est bati sur le modele M3 en considerant que les variables


explicatives Xtj (j == 1, ... ,q - 1) ne sont pas observees. Ce qu'on a observe, ce
sont des valeurs particulieres de celles-ci, valeurs qui auraient pu etre differcntes
si on avait repete I'observation. Le vecteur Zt == (Ztl,'" ,Ztq-l) T donne la
valeur de chaque regresscur au temps t. On peut le voir comme un tirage
(inobserve) et de
aleatoire dans une loi normale multivariee, localisee sur
matrice de precision I q - 1 .

xi

Yt - ILt

P (Yt-l - f-Lt-l)

+ Et

f-Lt

(1, x.) 13

Et

dnorm (0, T)

Zt

dmnorm (x.: I q -

1)

(10.3)

ou I d est la matrice identite de rang d.


Ces modeles sont imbriques (d'ou le parallelisme avec lc jeu de Lego) :
M3

M1 {:} P == 0 et 3j : 13j -:f 0

M3

M2 {:}

M4

M3 {:}

13 == 0 et P -:f 0
~ 00

Enfin le modele M5 imagine que la sortie y du modele M4 n'est pas directement observable: ses effets ne deviennent tangibles qu'a travers un mecanisme
d'observation trinomial. Le modele M4 devient alors une couche latente du
modele M5.

10. Assemblage de modules fonctionnels normaux

191

Complements
Les modeles M2 et M3 posent le probleme des valeurs initiales, ce qui n'est
pas le cas du modele MI.
- Pour M1 (eq. 10.1) :
M1: () == ({J,T)
- Ecrivons Ie modele M2 (eq. 10.1) en t == 1 : YI == PYo + CI Alors, soit Yo
est fixe par des considerations physiques ou logiques - par exemple, la
premiere fournee de LCS est ralisee dans une cuve toute neuve - soit Yo
est un parametre supplementaire qu'il faut inferer. Ce sera notre choix :
M2 : () == (p, T, Yo)
- Le modele M3 (eq. 10.2) en t == 1 donne YI - XI{J == P(Yo - xo{J) + CI. Si
nous supposons que cette identite est representative de ce qui s'est passe
en t == 0, -1, -2,, nous avons, par exemple: Yo == xo{J+p (Y-I - X-I{J)+
co OU co rv dnorm (0, T). Mais comme Y-I et X-I ne sont pas des quantites connues, il est plus simple d'ecrire Yo == a+co OU a est une fonction de
quantites inobservees, Le parametre a est considere comme un parametre
a part entiere du modele M3; c'est lui qui regle la condition initiale de la
trajectoire des Yt :
M3 : () == ({J, p, T, a)
- Le modele M4 (eq, 10.3) ajoute la precision au parametre du modele
M3 :
() == ({J, p, T a, )
et les quantites inconnues et incertaines sont () et le vecteur latent

10.3

Xt.

Regression Iineaire avec priors independants


partiellement conjugues (M1)

La viscosite du LCS est explique par trois variables explicatives parfaitement connues (tableau 10.1).

Remarque 10.2 L'hypothese selon laquelle les variables explicatives sont certaines et connues n'est, ici, pas tres realiste, Cependant, tant que la finalite du
modele est la seule description de donnees deja recueillies, on peut l'accepter, car la regression bayesienne est conditionnelle aux valeurs des predicteurs,
c'est-a-dire au fait que X t k == Xtk (k == 1,2,3). Ce n'est plus la meme chose si la
finalite du modele est predictive. En effet, les valeurs futures des variables explicatives (qui fondent la prevision) ne peuvent pas etre supposees connues. II faut
les considerer comme des realisations de variables aleatoires X t k (k == 1,2,3).
Dans ce cadre, une hypothese importante est I'independance entre celles-ci et
l'erreur de prevision (Vt, Vk : Xtk 1- Ct).

192

10.3.1

Pratique du calcul bayesien

Formulation du modele M1

Remarque 10.3 Pour une loi normale, la precision est l'inverse de la varuuice ; pour une loi gamma, le parametre d'echellc inverse est, comme son
nom l'indique, l'inverse du parametre d 'echelle (ce dernier s 'exprime dans les
memes unites que la variable oleoioire}, N ous travaillons avec la precision et le
parameire d'echelle inverse.

Note 10.1 Dans les conditionnelles completes a posteriori, les hyperparametres


sont dans le corpus d'hypothcses, note H.
Note 10.2 Avec "It:

Xt == (Xtl, ,Xtq-I) ,

la matrice

est de genre n x q.
Le modele de regression lineaire (eq, 10.1) peut se mettre sous la forme
suivante :
y == Xj3 + E, E dmnorm (0, rIn)
(10.4)
r-;

ou dmnorm designs une loi normale multivariee, localisee sur le vecteur 0


(dim 0 == n xl) et de matrice de precision r In ; In est la matrice identite d' ordre
n (de genre n x n).

10.3.2

Les conditionnelles completes

La vraisemblance s'ecrit

[yl,8, Y] ex

2exp ( -~ (y - x,8f (y - X,8))

(10.5)

Quand on regarde cette vraisemblance, il est naturel de proposer les priors


suivants.
- Pour la precision r, une loi gamma de parametre de forme a > 0 et de
parametre d'echelle inverse b > 0 :

[ria, b]

ex

r a - I exp (-br)

(10.6)

- Pour le vecteur des coefficients j3, une loi normale multivariee, localisee sur le vecteur m,6 (dim m,6 == q x l ) et de matrice de precision P,6
(dim P,6 == q x q) :

[,BIm/3,P/3] ex exp

(-~ (,8 -

m/3fP/3 (,8 - m/3))

(10.7)

10. Assemblage de modules fonctionnels normaux

193

Ci-dessus, on a fait implicitement l'hypothese que la connaissance a priori


sur les parametres f3 et T ne permet pas de les lier. La densite conjointe a priori
s'ecrit done

[;3, T]

==

[;3] [T]

Contrairement a l'annexe D, section D, qui traite de l'infercnce bayesienne


avec un prior conjoint conjugue, la conjugaison n'est ici que partielle. Cela
etant, la structure conjuguee entraine que les lois conditionnelles a posteriori
demeurent dans la meme famille (tableau 10.4). Les details des calculs sont
reportes a la section E de l'annexe E.
Normale
f3
Gamma

Moyenne
== p;;-l (TXTy
Forme
a* == + a

m;

+ P {Jm{J)

Precision
P; == TXTX + PrJ
Echelle inverse
b* == ~E1 E + b

Definition

E ==

Y - Xf3

Tableau 10.4 - Modele M1 : recapitulatif,

10.3.3

Complements sur le prior

II faut bien sur fixer les hyperparametres a, b, m{J et P {J' Pour ce dernier, on postulera souvent l'independance a priori des composantes du vecteur
f3 =} P {J == p{JI q avec la precision PrJ > 0 fixce. Un prior non informatif est
obtenu avec a, b, PrJ ---+ 0 et m{J == O.

10.4

Representor la dependance temporelle par


un processus ARI (M2)

Quoique l'inference en soit fort commode, l'utilisation du modele lineaire


(10.4) pour cet exemple particulier est vouee a l'echec. On peut s'en convaincre
en effectuant les calculs puis en verifiant les hypotheses qui ont precede au
modele: en reevaluant les Et de I'equation 10.4, on s'apercevrait qu'ils ne sont
pas du tout independants, II existe de bonnes raisons qui justifient que les
regresseurs Xl, X2 et X3 n'apportent pas tout Ie pouvoir explicatif (tableau
10.1). C'est la valeur de la viscosite du LCS lors de la fournee precedents qui
est sans doute la meilleure grandeur pour predirc Yt+1. En effet, le pro cede de
fabrication est discontinu, mais les bacs intermediaires qui stockent le produit
elabore durant la sequence t ne sont pas systematiqucment vides quand arrive
la nouvelle fournce a t+ 1. Par consequent, la mesure de viscosite Yt+l conserve
aussi la mcmoire du produit fabrique au cours de la sequence precedente, De
plus, d'autres variables non mesurees expliquent sans doute la proximite des
caracteristiques du lait utilise a l'entree pour les sequences t et t + 1, proximite
qui se retrouve egalement sur le produit elaborc entre Yt et Yt+l. On cherche
done a introduire une dependance temporelle entre fournces. On va la supposer

194

Pratique du calcul bayesien

homogene, decrite par un seul parametre et etudier d'abord le modele le plus


simple qui met en eeuvre cette idee de persistance au cours du temps: le modele
auioreqrcssi] d'ordre 1 (AR1).

10.4.1

Formulation du modele M2

Le modele (eq. 10.1) peut se mettre sous la forme (t == 1,2"" ,n) :

Yt == PYt-l

10.4.2

+ ct,

ct

rv

iid

dnorm (0, T)

(10.8)

Les conditionnelles completes

Le coefficient dautocorrelation inconnu et incertain est P E ] -1,1 [, de telle


sorte que Ie comportement moyen de Yt ne soit pas explosif. La valeur initiale
Yo peut etre connue (elle est observee) ou ne pas etre observable (c'est alors un
parametre). Le traitement des deux cas est envisage ci-apres. Par simplification,
on suppose encore l'independance a priori des parametres

[0]

==

[p, T, Yo]

==

[p] [T] [Yo]

La vraisemblance de I'echantillon y s'ecrit


(10.9)
Dans le but de realiser I'inference par echantillonnage de Gibbs, eu egard aux
proprietes interessantes des priors conjugues, un prior gamma s'impose pour
la precision T. Dans cette meme optique, en devcloppant la somme des carres
des ecarts, on fait apparaitre une forme quadratique en P dans l'exponentielle
(eq. 10.9). Par consequent, un prior normal est un choix judicieux. De facon
similaire, le premier terme de ce developpement donne une forme quadratique
en Yo ce qui nous conduit a choisir aussi un prior normal pour la valeur initiale.

[Tla,b]

ex

Ta - 1 exp (-bT)

[Yo Im yo' PYo]

ex

exp (_P~o (Yo - m

[plmp,pp]

ex

exp

(_P; (p -

(10.10)

yo)2)

m p )2)

(10.11)
(10.12)

Remarque 10.4 Le prior sur p peut etre tronque sur l'intervalle ]-1,1[. Ceci
n'entraine aucune consequence puisque ce prior est defini a une constante de
proportionnalite pres (independante des parametres).
Avec ces priors, le tableau 10.5 donne les lois conditionnelles a posteriori,
aisees a determiner grace aux conjugaisons partielles. La section E de l'annexe
E fournit plus de details au le lecteur souhaitant suivre pas a pas le schema
d'obtentention de ces lois.

10. Assemblage de modules fonctionnels normaux


Normale

Moyenne

m *p -_

Zo

m;o

Gamma

Forme
a* == ~

+ ppmp)
+ pzom zo)

1 (TZ
. 1 Z-I
P~

p:

==

zo

(TpZI

Precision

* _.1
Pp-TZ_IZ-I
* _

\2

PZo - rp

+ Pp

Definition

+ Pzo

Echelle inverse
b* == ~U1 U + b

+a

195

u ==

Z - PZ-I

Tableau 10.5 - Modele M2 : recapitulatif,

10.5

Modele lineaire a residus autocorreles (M3)

Est-il possible d'avoir le beurre et l'argent du beurre? Vne regression lineaire qui ignore la memoirc de la reponse (modele M1) ou un processus AR1
sans variable explicative (modele M2) sont deux choix assez limites. L'idee est
de faire les deux choses simultanement tout en conservant la commodite de
l'estimation par algorithme de Gibbs.

10.5.1

Formulation du modele M3

Le modele (10.2) peut encore s'ecrireprend la forme

+ e, e ~ dmnorm (0, TIn)

y p == X p {3

(10.13)

ou
Vt
y

== (Xtl' Xt2, ...


(YI,". ,Yn)T

Xt

,Xtq-I)

(Yo, ... ,Yn_l)T


((1, xj ) , (1, X 2)

(10.14)
(10.15)
(10.16)

, . .. ,( 1, x.,) ) T

(10.17)

((1, xo) , (1, x- ) , . .. ,(1, x., -1 ) ) T

(10.18)

Y - PY-1

(10.19)

X-X- 1

(10.20)

La condition intiale, Yo, est une variable latente distribuee selon le modele
suivant

Yo

r-;

dnorm (ex, T)

ou ex est un parametre unidimensionnel, fonction des quantites inobservees.


Par consequent, le parametre du modele (10.13) est ici de dimension 4 :

() == ({3, T, ex, p)
La vraisemblance est immediate

[Yp,Yoll3, T,

Ct, p, X p]

= T(n+l)/2 exp ( -~ ((yp - xpl3f (yP - Xpl3) + (Yo -

Ct)2))

(10.21)

196

10.5.2

Pratique du calcul bayesian

Loi a priori des parametres du modele lineaire


residus autoregressifs

Prealablement au recueil des donnees experimentales, l'homme d'etude possede une connaissance a priori sur les parametres ({3, T) qui est independante
de celIe qu'il a pour le couple (a, p). II semble done raisonnable de continuer a
supposer ici que
[{3, T, A, p]

== [{3] [T] [A] [p]

(10.22)

En procedant ainsi, ce sont les donnees qui etabliront la covariation entre les
parametres relatifs a la partie modele lineaire et ceux caracterisant la partie
autoregressive.
La vraisemblance (10.21) indique que les lois des parametres du modele
appartiennent a la famille exponentielIe, ce qui implique l'existence de lois a
priori conjuguces. Les choix suivants sont logiques et commodes

Tla,b

dgamma (a, b)

plmp,pp

dnorm (mp,pp)

alma,Pa

dnorm (ma,Pa)

(10.23)

dmnorm (mj3, P 13)


Bien entendu, la selection des hyperparametres (a, b,m p, Pp, ma, Pa, mj3, P 13)
releve de la responsabilite du modelisateur.

10.5.3

Conditionnelles completes des parametres du modele lineaire a residus autoregressifs

Avec ces priors, les lois conditionnelles a posteriori sont aisecs


(tableau 10.6)
Parametre
{3

Moyenne
m~

== P;3-1 (TXTyp + Pj3mj3)

a
p

m~

==

m *p -_

Parametre
T

Forme
1+ a
a* ==

1*

Prv
1
P~

a determiner

Precision

(TYO + Pama)
('1
TZ Z-l + ppm pI)

nt

P~ == TX~Xp + Pj3

== T + Pa
*
Pp ==' 1
TZ_1Z-l
P~

+ Pp

Echelle inverse
b* == ~cT c + ~ (Yo - a):l + b

Tableau 10.6 - Modele M3 : recapitulatif.

Dans ce tableau, on a note: yp== y-py -1, X p== X-pX- 1, Yo

rv

dnorm (a, T),

== Y - X{3,
Z-l == Y -1 -X- 1 {3 et c == Y - X p {3 . On trouvera dans la section E de l'annexe

E comment obtenir ces lois conditionnelles.

10. Assemblage de modules fonctionnels normaux

10.5.4

Specification des priors du modele lineaire


dus autoregressifs

197

a resi-

Les operateurs actuellement en poste sur la ligne de fabrication du LCB


possedent une veritable experience. L'observation de la maitrise operationnelle
de la viscosite sur la ligne de fabrication montre que les operateurs anticipent
deja une nouvelle valeur de viscosite du produit fini en fonction :
1. de la precedents valeur de la viscosite observee,

Yt-l;

2. d'une valeur empirique qui mesure l'influence de l'incrementation d'une


unite de la variable de controle consideree, soit Xt,3 - Xt-l,3'
En termes mathematiques, les operateurs ont construit empiriquement le
modele suivant :
Yt

== Yt-l + 0.9 (Xt,3

(10.24)

- Xt-l,3)

L'analyste mettant en ceuvre le modele M3 ne fait finalement qu'etendre


ce imodele en considerant trois variables explicatives (voir fig. 10.1) et une
constante :

Yt
Ct

==
==

f30

+ f31Xt,1 + f32Xt,2 + f33Xt,3 + Ct,

PCt-l

+ Ut

tel que

Ut

f'J

dnorm

(0, a- 2 )

(10.25)

== 1, ... , T == 304

La specification des hyperparametres ressort de la responsabilite du modelisateur. On cherche ici a exploiter les connaissances detenues par les operateurs
de la ligne.
- Pour Ie coefficient dautocorrelation P, les hyperparametres m p et Pp sont
deduits du modele empirique precedent (10.24). Un poids important est
mis autour des valeurs proches de 0.9 pour s'approcher au plus pres du
modele empirique precedent, avec m p == 0.9 et Pp == 1.
- Pour les coefficents des variables explicatives, les hyperparametres ffi,a et
P,a ont ete definis a partir d'une enquete realises aupres de la production.
En pratique, pour l'elicitation, on a plus l'habitude de travailler avec la
matrice de variance :E,a == p~l. Compte tenu de l'etat de notre connaissance sur le phenomene modelise, il est raisonnable de considerer que cette
matrice est diagonale, c'est-a-dire que les variables explicatives n'ont pas
d'interaction entre elles pour le phenomena considere. Les valeurs ffi,a et
les termes de la diagonale de la matrice :E,a sont ensuite evaluees a partir de l'approximation normale realisee sur l'histogramme obtenu pour
chacune des variables considerees independamrnent (fig. 10.3).
Apres approximation normale, nous obtenons :

198

P ratique du calcul bayesien

:'1
o. ~

(b)

n8

0.6

I: ~llll~~~IjliD
26

28

0.4
0.2

o --

32

~o

-2

n1Ilk
-1

:r.j

o.s

I~I

0, -

1.5

.8 0.1

a.

o.z

0.5

-1

-4

Figure 10.3 - Encodage de [a loi a priori du para met re (3 : (a) - te rme constant (30 ;
(b) - (31 ; (c) - (32 ; (d) - (33

{3 =

28.43 )
-0.11
0.2

et ~,8

- 1.91

( 3.5
0
0

2.8

o
o

o 2.5
o o

- Les hyperp ararn etres a et b se deduisent de la conna issance de l'erreur de


reproductibilite de la mesur e en egalant l'erreur de reproductibi lite avec
E (T- 1) = 2:;~1 et la vari ance de l'err eur de reproduct ibilite avec V (T)

b/

Des calculs simples montrent que a - V (T ) + 2 et a


= a ~1 E (T). Etant donne que l'erreur de reproductibill te est de 3 et que
sa variance est de 1, nous prenons a = 11 et b/ a = ~~.
- Le prior sur a est pris non inforrnatif : mOl est quelconque (p. ex. m., = Yo)
et POI ---7 O.
_

10.5 .5

b2

4( a-I)2(a-2) '

(E(T))2

Applicat ions

La caracterisation du modele M3 a ete realisee it par tir de donnees recoltees


dan s l'usine de Nest le (T = 304) corresponda nt it l'annee 1997. L'algorit hme
de Gibbs a ete util ise it partir des lois conditionnelles completes repert oriees
dan s le t ableau 10.6. Apres quelques experiment at ions, la t aille de l'echantillon
a ete fixee a 2000, apres avoir elimine les 100 premiers t irages . On utilise les

10. Assemblage de modul es fonctionnels norm aux

199

techniques de Rao-Blackwellisation presentees da ns (Parent et Berni er, 2007),


pour obt enir une estimation des lois marginales a post eriori. On constate que
les lois marginales des parametres ont ete modifiees quand on prend en compte
l'information apportee par les donnees : les lois a post eriori associees aux effets
des variables explicat ives sont moins diffuses que les lois a priori, et le mode a
post eriori est different du mode a priori.
~l

1:~1

.n

n .t

a. 0 .05

25

Figure 10.4 - Lois marginales a posteriori des param etr es du mod ele lineaire pur en
trait pointil le et du modele lineaire a residu s autocorreles en t rait cont inu : (a) - terme
constant (30; (b) - (31; (c) - (32; (d) - (33 ; (e) - a 2 ; (f) - paramet re d'au to corr elatio n p

La figure 10.4 presents les lois marginales a post eriori (trait pointille) des
par ametres du modele lineaire pur (M1) et les lois mar ginales a posteriori des
parametres du modele M3 obtenues par simulat ion. Rappelons que les deux
premieres vari ables explicatives sont des caracteristiques de la matiere premiere
tandis que la derniere est une temp erature du precede. On constate que la
disp ersion des est imations des par amet res du modele lineaire pur (M1) est
generalement plus pet ite que celle des parametres corres ponda nts du modele
lineaire a residus aut oregressifs (M3). L'homme d'etude qui oublie un possible
effet autoregressif peut ainsi se montr er sur confiant a l'egard de ses estim ations
statistiques de la force des vari ables explicat ives. D'autre par t , l'introduction
d 'un fact eur de memoire (ici la valeur a post eriori de p vaut 0.65 ) change le
mecanisme explicat if : l'effet de X 2 change de signe, l'influence de X3 est sans
doute bien plus forte qu 'on ne le croyait avec le modele lineaire pur.
On peut egalement et udier la covariat ion entre les par ametres du modele M3
(non repr esent ee ici). C'est le coefficient /33 de la temp erature de pro cede qui
est le plus lie aux valeurs possibles de p. Cela illustre les problemes d'inference
rencontr es pour le modele lineaire en cas de depend ance ent re les erreurs. Ce

200

Pratique du calcul bayesien

resultat montre que notre connaissance a priori d'indepcndancc entre {3 et p a


evolue au vu des donnees y et X.

10.6

Modele lineaire a residus autocorreles avec


erreur sur variables explicatives (M4)

Le modele lineaire repose sur 1'hypothese implicite que les variables explicatives sont connues avec certitude. Or, il est tres frequent que les variables
explicatives soient entachees d'erreur. Les facteurs de production, comme la
variable X3, sont fixes par un operateur a une valeur de consigne. Or tous
les facteurs de production (temperature, pression, par exemple) sont soumis a
des systemes de regulation qui permettent d'obtenir en moyenne la valeur de
consigne sur un certain pas de temps. II est possible aussi que, compte tenu de la
construction des appareils de fabrication, certains facteurs de production fi uctuent de facon non volontaire en fonction d'autres. Tous ces elements amenent
a penser que le facteur de production considere n'est pas exactement la valeur
de consigne. Dans ce paragraphe, nous supposons que la derniere variable X3 a
ete entachee d'une erreur normale.

10.6.1

Formulation du modele M4

Ce modele a ete defini par la relation (10.3). On peut aussi l'ecrire sous la
forme equivalents suivante
Yt ==

(1, Xt) {3 + Ut,

Ut == PUt-1
Zt == Xt

~t.l

+ Et,

+ ~t,

~t

t
Et

r-;

== 1, 2, . . .

rv

iid

,n

(10.26)

dnorm (0, T)

dmnorm (0, I q -

I)

xt.l Et

OU Xt == (Xtl' . .. ,Xtq-I) est le vecteur ligne (1 x q - 1) des variables explicatives non observees,
Tout se passe comme si les observations Zt == (Ztl' ... ,Ztq-I) etaient tirces
dans la loi normale multivariee suivante
Zt

r-

dmnorm (Xt, I q -

I)

Dans la formulation bayesienne du modele, les Xt sont des variables latentes


parametres additionnels du modele. Ecrivons la regle de
Bayes en posant 8 == ({3, P, T a, ) :

a estimer comme des

[8, X t IYt, Zt] ex

[Yt IXt,

,B, p, T a] [Zt IXt ,] [8]

Par consequent, la conditionnelle complete de

Xt

est

10. Assemblage de modules fonctionnels normaux

201

La loi jointe a posteriori des parametres du modele M4 verifie alors la


relation de proportionnalite OU interviennent l'ancienne vraisemblance (a x
connu) don nee par (10.21), la loi conditionnelle de l'erreur de mesure de x, Ie
prior

[,6,7, p, ();, X IY, Z,] ex [Y 1,6, a2, p, A, X] [z IX, 7] [,6]

[a 2] [AJ [p]

(10.27)

De facon analogue au (10.13), le calcul explicite de la loi conjointe a posteriori et de ses marginales n'est pas possible, mais le calcul des conditionnelles
completes est tres facile puisqu'en fait on a simplement attache un etage a la
fusee sans modifier la structure conditionnelle de (10.13). On obtient donc des
lois conditionnelles completes identiques a celles du tableau 10.6 a cela pres
qu'elles sont conditionnees par rapport a X, maintenant inobservable. Ainsi,
pour utiliser l'echantillonnage de Gibbs, nous avons seulement besoin d'expliciter la loi conditionnelle complete de X. En developpant le calcul de (10.27)
(a la maniere de la section E de l'annexe E) et en isolant les termes propres au
vecteur Xt, on retrouve l'exponentielle d'une forme quadratique en Xt, ce qui
montre que

[Xt IX#t, {3, 7, p, o, Yt, Zt, ]


avec pour 1 < t
~;tl

Xt

r-;

N (Xt, ~;tl)

<n

== 7(1 + p2){3T{3 +

= ~:Ei: (
2

(10.28)

(10.29)

-T(l + p2j!3TYt + PTj3T (Yt-I - (1, Xt-I) 13) )


+p{3 (Yt+l - (1, Xt+l) {3) + 2Zt

Xt s'interprete ainsi comme une moyenne ponderee entre la valeur connue


Zt et une valeur deduite de la regression de y sur les autres composantes.
A cause du decalage des indices du a l'autoregression, il y a quelques problemes aux bords : en t == 1, il faut prendre:

et en t == n, il faut prendre :

L'algorithme de Gibbs est alors facilement mis en ceuvre en gcnerant p, ,6,


x j , . . . ,xT dans l'ordre : il suffit de simuler les lois conditionnelles du
tableau 10.6 et les lois conditionnelles des variables latentes (10.29).

();, T, et

202

Pratique du calcul bayesian

10.6.2

Specification du parametre

Les lois a priori pour les parametres ((3,7, Q, p) du modele (10.27) ont ete
prises identiques a celles de la section precedente. L' application ici ne porte
que sur l'erreur de mesure de la variable explicative X3, la temperature du procede de fabrication. Les autres variables explicatives sont ici supposees connues
sans erreur, de telle sorte que le modele precedent est simplifie car n'est plus
une matrice mais une variance scalaire. Une campagne de mesure a ete realisee pour avoir une premiere evaluation de 7 2, 7 2 == 4/5. Si nous n'avions pas
une bonne connaissance de 7 2 et si l'on veut donner plus de souplesse au modele, il est possible de considerer que 7 2 est un parametre inconnu et d'estimer
alors de facon simultanee tous les parametres a l'aide de I'echantillormage de
Gibbs. On effectuerait pour cela l'ajout d'un niveau de conditionnement supplementaire par rapport a 7 2 en faisant par exemple l'hypothese qu' a priori
T-

r-;

dgamma (

~o , 190:i6) . Notre echafaudage de modele en LEGO s'ctofle,

mais la technique d'estimation par simulation MCMC de tirages dans les lois
conditionnelles completes ne change pas.

10.6.3

Influence de la prise en compte de l'erreur sur la


temperature

La figure 10.5 presente les lois marginales des parametres des modeles
(10.25) Iineaires avec residus autocoreles sans erreur dans X3 sous la forme
de trait continu (modele M2) et avec erreur dans la dernierc equation (10.27)
par un trait discontinu, et 7 2 connu valant 4/5 (modele M3).
De facon generale, le fait de considerer que la derniere variable est entachee
d'erreur ameliore la precision de l'estimation de son parametre : ici, la distribution a posteriori de la derniere variable est moins diffuse. Par ailleurs, nous
pouvons observer que:
- tout d'abord, l'alea du modele parametre par (J"2 de la loi normale a fortement diminue. La difference a ete absorbee par l'incertitude 7 2 modelisant
I'erreur dans la derniere variable;
- ensuite, les deux autres variables que nous avons suppose connues avec
certitude ont vu leur influence peu modifiee :
- enfin, le parametre representant la memoire du phenornene semble prendre
une valeur plus forte, compensant en quelque sorte la diminution en
moyenne a posteriori de {33.

10.7

Une brique de LEGO supplementaire d'expression multinomiale

La viscosite brute en sortie du pro cede de fabrication du LCS n'est pas la


seule grandeur dintcret que l'on souhaite expliquer. La facon dont le produit
vieillit (s'il devient plus ou moins liquide avec le temps) interesse egalement Ie

10. Assemblage de modules fonctionnels normaux

203

(a)

0 .4

:!! 03
i 02

0.5

il

e, 0 .1

0
24

26

32

34

0
-1

(c)

(d)
0 .

ra

0.5

e,

-1

02
~

~
.D

0
-ll

Ie)

8
6

0.1.
0 .1

n, 0.05

0
10

20

40

50

-4

IX

0
0.s

-2

I~

...

0.6

0.7

0.8

0.9

Figure 10.5 - Lois marginales a posteriori des parametres d'un modele lineaire a
residus autocorreles sans erreur (trait continu) et avec erreur sur variable explicative
temperature (trait pointille) : (a) - terme constant f3o ; (b) - f31; (c) - f32 ; (d) - f33;
(e) - (72 ; (f) - pararnetre d'autocorrelation p.
producteur. Les experiences de suivi de la viscosite menees sur plusieurs mois
apres la fabrication d'une foumee montrent que l'on peut classer chaque fournee selon trois categories de vitesses d 'evolut.ion de la viscosite. Dans la suite
de ce chapitre, nous tournons notre interet vers la prevision de cette variable
categorielle, Par tradition, on appellera encore yt cette variable aleatoire qui
prendra la modalite j = 1,2,..J, avec dans notre cas d' etude J = 3. L'objectif
est de relier la categoric de vieillissement du produit au traitement qu 'il a subi.
La figure 10.6 montre sur la meme annee 1997 a l'usine Nestle de Boue un
sous-echantillon de 100 observations. II y a maintement cinq variables explicatives . En plus des trois variables deja utilisees dans les sections precedentes,
on considere aussi la temperature du traitement thermique final X 4 appliquee
au lait concentre et X 5 l'intensite d' un traitement mecanique (brassage) mis en
place avant conditionneme nt .

10.7.1

Formulation du modele M5

L'idee de base du modele est d'imaginer qu 'a chaque pas de temps, il exist e
une quantite exp licative I Lt caracteristique de l'etat du produit qui prend sa
valeur sur des int ervalles delimites par les parametres / 0 = - 00 < / 1 < ... <
/ J - l < / J = + oo. On cherch e a construir e un mecanisme d'affectation probabi-

204

Pratique du calcul bayesien

20

00

Time

100

Figure 10.6 - Sous echanti llon de 100 observat ions sur I'annee 1997. Cinq variables
explicatives et une vari able categorielle a expliquer (vit esse d 'epaississement au cours
du vieillissement du produit) .

liste de yt a une categorie tellc que plus J.1t prend des valeurs fortes, plus yt a
de cha nce de prendre une valeur de categoric elevee, Considerons Ie mecanisme
aleatoire decrit par 7rtj, la probabilite que I'observation t soit dans la categoric
j se const ruit par inversion de la fonction de repartition <P de la loi norm ale

N(O,l) .
[yt

= j lJ.1il = 7rt j
avec 7rtj = <P

h'j -

(10.30)
J.1t) - <P

h'j- l -

J.1t)

(j = 0, . .. , J)

On prend pour notre application J = 3,1'0 = - 00; 1'3 = + 00. La vraisemblance


est
T

[Y 1J.1] =

II (<p (l'y(t) -

J.1t) - <P (l'y(t) - l - lIt ) )

t =l

La figur e 10.7 montr e que les prob abilites que I'observation Yt appartienne 11
la categoric j selon la gra ndeur explicative I l t. Pour interpr ete r cette figure, il
fau t imaginer que les I'i sont fixes et que J.1t peut se deplacer, ent rainant avec
elle la courbe de Gauss en cloche.
Considerons maintenant Ie mecanisme aleat oire suivant :
- tir er une gra ndeur aleato ire Z, de loi norm ale cent ree sur J.1t de variance
unite ;

10. Assemblage de modules fonctionnels normaux

R' onse cate orielle

19%

6%

Tr13

205

z
Yo =-00

YI

Grandeur eXP lifative

Y2

Jl,t

Figure 10.7 - Mecanisme aleatoire de reponse categorielle ordonnee a une grandeur


explicative Mt .
- regarder sur lequel des int ervalles separes par les 'Yj, 'Yo = -00 < 'Y1 <
... < 'YJ-1 < 'YJ = + oo tombe Zt ;
- declarer yt = j si 'Yj - 1 ::; Zt < "ti Du point de vue stochastique, ce mecanism e aleatoire donne bien les memes
probabilites d'oc currence des cat egories que le modele (10.30). En effet, quand
on calcule

Z= "'(j

[yt = j I'Y, ILtl = ["(j-1 ::; Zt

< 'Yj b, ILtl

[z lILt] dz

Z="'(j - l

on retrouve 1ftj puisque

j "'( j [z lILt] dz = <I> bj -

/-It) - <I> bj-1 - ILt) = 1ftj

Z = "'(; _ l

La grandeur Z, normale centree sur ILt est une grandeur lat ent e associee au
phenomena cat egoriel (10.30).
Zt

= IL t + Ut
Ut

rv

ii d

N(O,l)

206

Pratique du calcul bayesien

La vraisemblance s' ecrira alors

!1 J
T

[Y 1M, /,] =

!1 (it
T

[Yt, Zt IMt, /,] dz, =

N(Zt

IMtl 1)) l')'y(tl-I <.Zt<')'y(t) dZt)

Zt

On ne va guere compliquer la situation en introduisant une dependance sur le


temps de la grandeur explicative J-lt :

+ P(Zt-l -

J-lt == Xt{3

Xt-l{3)

Remarquons que cela revient alors a faire l'hypothese d'un modele lineaire
residus autocorreles (10.25) pour modeliser la variable latente Zt.

Zt == Xt{3 + Ct

(10.31)

ct == pct-l + Ut
Ut rv dnorm(O, l )
iid

Rcsumcns-nous. A la construction du modele Iineaire a residus autocorreles


M3, on a rajoute un etagc de generation de donnees categorielles : ce dernier
etage est le seul qui se voit puisque les Z, ne sont pas observables, seule la
categoric yt est observee a l'instant t. La dependance entre les Yt et les Zt
s'exprime par l'equation :

[Y , Z I r,ZO, P, {3 , X]

== ITT

l['"YYt_l,'"YYt]

2n

t=l

10.7.2

(Zt)

exp

(_ ((Zt - Xt{3) - P(Zt-l - Xt_l{3))2)


2
(10.32)

Conditionnelles completes du modele categoriel probit (M5)

La loi a priori [Zo, r, {3, p] se decompose en supposant I'independance des


connaissances a priori sur chacun des parametres

[Zo, r, {3, p] == [Zo] x [r] x [{3] x [p]


Plus precisement, on choisit des priors dans la famille normale, compte tenu
que la loi a posteriori est proportionnelle a :

[Zo, , {3, p, Z IY ~ X]

ex

IT {N (Zt !pZt-l + (Xt -

PXt-l) {3, I)} (10.33)

t=l

[Zo, /" (3, p] x

IT {Ih'_l - . (Zt)}
t=l

10. Assemblage de modules fonctionnels normaux

207

On prend ainsi :

[Zo]

[/3]

==

N (Zo lao, 1);

== N q

[r]

==

(/31/30, ~Ol ); [p]

N J - I (r Iro, D) L)/l<...<rJ-l<rJ-l
==

N (p IPo, Vo) 1Ipl<I'

Ici encore la vraisemblance appelle la conjugaison et les conditionnelles completes des parametres Zo, r, /3, P et des variables latentes Zt, sont identifiees a
partir de l'expression (10.33) dans l'annexe E. Les equations a posteriori facilement obtenues (E.10)+(E.11)+(E.12)+(E.13)+(E.14)+(E.15) sont tres simples
a simuler si bien que l'algorithme d'estimation bayesienne MCMC du modele
probit categoriel ne pose pas de problemc. Cet algorithme de Gibbs enchaine
les phases:
simuler [Zo

IZ, r,/3, p, y] ,

simuler [Zt IZ#t


simuler [rj

,r,/3,p,y] ,

IZ, Zo, r#j, /3, P, v

(10.34)

simuler [/3I Zo, Z, r,P, y] ,


simuler [p

\Z, Zo, r, /3, v

En rapprochant (10.34) des lois du tableau 10.6 et de celles de I'equation


(10.29), on voit comment l'assemblage de conditionnements successifs combinant autoregressif, modele lineaire et observables multinomiales ordonnees avec
lien probit contribue a l'algorithme d'estimation.

10.7.3

Application du modele multinomial probit (M5)

Les priors ont ete fixes de telle sorte que /30 == 0 == rO' On choisit les variances
a priori (J~ et (J; egales a 1, pour mettre a l'echelle toutes les grandeurs latentes.
En ce qui concerne p, on s'inspire des resultats precedents obtenus pour la
viscosite du lait : on se dit qu' a priori la mcmoire de ces phenomenes est sans
doute comparable, de telle sorte que l'on prend Po == 0.65 et (J p == 0.05. Les
parametres du modele (10.30) sont estimes avec les 5000 dernieres iterations
MCMC de 10 000 runs de l'algorithme (10.34).
La figure 10.8 montre les lois a posteriori des cinq parametres relatifs aux
effets des variables X == (x-, X2, ...Xs) avec et sans introduction de l'autocorrelation dans les residua pour lc modele (10.30). On voit que les lois a posteriori
des variables explicatives sont plus diffuses pour le modele le plus complet que
pour celui negligeant les autocorrelations. A partir des resultats des simulations
MCMC, on peut aussi reconstruire une estimation des variables latentes Z; et
par consequent du bruit Ut intervenant dans (10.30).
On a fait l'hypothese que Ut etait un bruit blanc gaussien. La figure 10.9
en donne les caracteristiques statistiques; on peut verifier que les hypotheses
dindependance et de norrnalite sont ici tres acceptables.

208

Pratique du calcul bayesien

~l

.~

-0.4""-- 0:":.2""-~--:'=------'~~
o
0.2
0 .4
0. 6
(e)

]~

- 1.5

-1

-0 .5

~l ~

- 0. 8

-0. 6

- 0 .4

~I .:~
(b)

(a)

0. 5

- 0.4

- 0.2

0.2

(d)

]~
-1

- 0. 5

0 .5

0.4

1.5

-0.2

Figur e 10.8 - Dist ribu t ions marginales a posteri ori de {3 (en t raits pleins modele avec
auto regression des residua et en pointilles sans autore gression des residu s)

Epilogue
Le lecteur de ce chapit re t rouvera dans les et udes sur Ie meme sujet publi ees
par Girard et Parent , des reponses aux question s non traitees ici, en parti culier :
- comment fait-on pour choisir un modele ou declarer qu 'un e variable n'est
pas significativement influente 7 Si on considere les 5 variables pot entiellement explicat ives et deux possibilites de depend ance des residus (independan ce ou autoregression d 'ordre 1) du modele (10.30), on peut en effet
const ru ire 62 modeles element aires a 1, 2, 3, 4 ou 5 vari ables explicati ves
(Girard et Parent , 2004) !
- les result ats sont-ils t res sensibles au choix d'un prior (Girard et Parent ,
2000) 7
- comment utili se-t-on en pratique les resultats d'un tel modele pour regler
a de nouvelles valeurs de consignes, les commandes du pro cede (Girard
et Parent , 2001) 7 Peut-on vraiment ameliorer la qualite du produit fini 7
Toutes ces questions sont dignes d 'interet , mais nous avons pluto t voulu
dans ce chap itre attirer l'attentio n du lecteur, a partir d'un cas reel, sur les
aspects de const ruction d'un modele stochastique. A bien des egards, cela
ressemble a un jeu de LEGO et c'est facile ! Le cas de la fabri cation du lait
concent re sucre illustr e premierement la const ruction d'un modele pas a pas,
par conditi onnement s successifs : le modele se complexifie et en meme temps

10. Assemblage de modules fonctionnels normaux

209

Ie) """""Iily check

(.:1)

0.999
0.997
0 .5

...-------._---.-

+~.'

0.99
0.98
0.95
0.90

-0.5

0.75
-1

10

15

a:l

,,)

0.50

12

0.25

10
0.10
0.05
0.02
4

0.01
0.003

0
0.1

0.001
02

03

0.4

0 .5

+
~

-1

0
Data

Figure 10.9 - Verification du caractere de bruit blanc Gaussiens des Ut : (a) autocorrelogramme, (b) histogramme, (c) Q-Q plot
s'edifie par une sorte de recul vers les couches profondes de variables latentes,
grandeurs des porteuses de l'explication conceptuelle du precede. Deuxiemement, il est rassurant de constater que l'intendance suit ! L'approche bayesienne
donne les moyens de realiser l'inference de tels mode les de facon tres simple :
calquant la structure conditionnelle de la construction intellectuelle explicative,
l'algorit hme de Gibbs brise un gros calcul difficile en une sequence de simulations plus elernentaires. Au chapitre suivant, ce caractere ludique persiste, mais
le jeu se complique quelque peu : on s'eloigne de la commodite de conjugaison du modele normal tandis que le caractere dynamique du systeme et sa
dimension temporelle deviennent essentiels.

Chapitre 11

Quantifier les incertitudes en


bruitant un modele
deterministe :
evaluation de la pollution
indoor
Prologue
Ce chapitre traite d'une pollution particulierement pernicieuse, la pollution

a l'interieur des habitations par les materiaux emettcurs couramment utilises

dans la fabrication des objets usuels. Cette pollution peut constituer une menace pour la sante. Par consequent, determiner le temps d'activite d'un emetteur de polluants est utile, notamment pour I'elaboration de normes. Nous
traiterons specifiquement Ie cas des formaldehydes emis par certains tapis et
carpettes. II s'agit d'un phenomene intrinsequement non lineaire et lc but est
de determiner le temps au bout duquelle materiau emetteur a perdu l'essentiel
de son activite. La mesure du taux d'emission est indirecte. On la deduit de
la concentration du polluant regulierement mesurce dans une enceinte climatisee et ventilee. En pratique, le dispositif experimental produit peu de donnees.
Typiquement, il faut maintenir la ventilation et les conditions experimentales
rigoureusement constantes durant une dizaine de jours. On comprend qu'une
telle experience n'est pas aisement repetable dans les memes conditions; on
peut meme dire qu'elle est unique! Par consequent, il est essentiel de quantifier
les incertitudes sur les parametres qui regissent le taux d' emission, en particulier pour comparer les effets potentiellement nocifs de produits concurrents.

212

Pratique du calcul bayesien

11.1

Introduction

De nombreux materiaux menagers tels que peintures, papiers peints, tapis, etc., peuvent emettre des composes organiques volatiles (COV). Les COY
comprennent des centaines d'especes chimiques, mais possedent tous le point
commun de s'evaporer et de se diffuser a temperature de l'air ambiant (Squinazi, 2002). Le taux cl'emission spccifique (masse/surface/temps) depend de la
temperature et de l'humidite de l'air ambiant (Haghighat et De Bellis, 1998).
Les recherches, realisecs au cours des dernieres decennies, montrent que la pollution de l'air a l'interieur des habitations peut largement exceder les niveaux
releves en plein air et menace done la sante humaine de facon significative
((Wolkoff, 1995), (Samet, 1993)). Comme generalement plusieurs sources de
COY interferant, la plupart des etudes de sante portent sur la totalite des divers composes organiques volatiles (TCOV). Dans tous les cas, caracteriscr la
pollution engendree par le materiau sous investigation passe d'abord par une
estimation du profil temporel d'un taux cl'ernissiou que nous noterons () (t).
L'approche standard fait l'hypothese d'une degradation exponentielle a deux
parametres qu'il faudra estimer, a savoir le taux d'emission initial ()o 2: 0 et un
parametre, A > 0, propre au compose chimique specifique emis par le materiau
etudie (Tichenor, 1989). Malheureusement, on ne peut pas mesurer de facon
directe des observations appariees (()i, t i ) . V ne mesure indirecte est obtenue en
placant un echantillon de l'objet emetteur dans une enceinte climatisee et ventilee appelee chambre d'emission. L'observable est le niveau de concentration
du polluant que l'on mesure regulierement a la sortie de la chambre. C'est a
partir des observations (Ci ,ti) et du modele retenu que l'on derivera le profil
temporel du taux d'emission () (t) ,susceptible de fonder une aide a la decision.
Ce chapitre rep rend des donnees reelles, publiees par (Hayter et Dowling,
1993) qui les ont analysees de facon classique.

11.2

Experimentation et approche classique

Note 11.1 M, L et T sont respectivement les unites de masse, de longueur et


de temps.
Une chambre dcmission est une enceinte climatisee, de volume V, dans
laquelle on place un morceau de l'objet emettcur d'aire A. On s'assure de
la diffusion du polluant dans toute l'enceinte et une ventilation q, maintenue
rigoureusement constante, permet de remplacer un volume d'air pollue par un
volume egal d'air frais. La concentration du polluant dans la chambre, soit
C (M L -3), est mesurce a la sortie (fig. 11.1). Les couples (Ci , t i ) permettent
d'estimer le profil temporel du taux demission du polluant, () (ML- 2T- 1 ) .
Pour interpreter les donnees sur lesquelles s'appuie lc modele, il faut garder
a l'esprit les trois hypotheses suivantes.
1.

A chaque instant, la concentration du polluant dans la chambre est homogene dans tout lc volume.

11. Evaluation de la pollution indoor

213

Figure 11.1 - Schema du dispositif experimental.


2. La ventilation est maintenue rigoureusement constante durant toute la
duree des operations.
3. La cha mbre est parfaitement etanche en ce sens qu 'il n'y a ni source
ni puits en dehors de l'emission du rnat eriau et udie et de la ventilation
controlee.
Ty piquement, une experience dure une dizaine de jours et produit un echa ntillon de taille redui te, generalement moins d'une vingt aine de mesures (Chang
et Guo , 1998). La repetition de l'experience dans des condit ions identiques est
une vue de l'espri t , d'aut ant plus que Ie morceau du materiau emet te ur est
alors use .

11.2.1

Modelisation du taux d''emisslon

Pour modeliser Ie taux d'emission du polluant par l'obj et emette ur, une
approche standard consiste a supposer que ce taux , 0, a une decroissance exponentielle avec Ie temps (Tichenor , 1989) :

O(t) = 00 exp( -At )

(11.1)

- Le par ametre 00 est Ie taux d 'emission du mat eriau (M L -2T- 1 ) au temps


initi al to = O.
- Le parametre A (T - 1 ) caracte rise Ie compose chimique specifique emis
par l'obj et emetteur.

11.2.2

Modelisation du changement de masse du polluant

Pend ant tout inte rvalle infinitesimal dt , l'evolution de la masse du polluant


de (t) / dt, est la difference
ent re la masse emise par Ie mat eriau de surface A (L 2 ) et la masse quit tant la

a l'interieur de la cha mbre de volume V (3) , soit

214

Pratique du calcul bayesien


i

t
C
i

t
C

1
0.5
0.219

2
1.5
0.397

3
2.5
0.410

4
4.5
0.549

8
72.5
0.132

9
144.5
0.019

10
168.5
0.031

11
196.5
0.027

5
8.5
0.333
12
216.5
0.023

6
24.5
0.243

7
48.5
0.163

13
240.5
0.018

Tableau 11.1 - Donnees cl'ernissions de formaldehyde (Hayter et Dowling, 1993).


chambre du fait de la ventilation forcee :

dC(t)
dt

A B(t) _ qC(t)

(11.2)

En substituant (11.1) dans (11.2) et en resolvant l'equation differentiell


correspondante sur l'intervalle [0, t], on obtient la concentration du polluant
dans l'enceinte au temps t

Aeo
C(t) = Co exp (-qt) + V(q _ A) (exp (-At) - exp (-qt))

(11.3)

Le parametre Co represente la concentration initiale inconnue du produit


dans l'enceinte, car l'introduction du materiau emetteur dans la chambre et les
verifications d'usage precedent cvidemment le lancement des operations.
Remarquons que C(t) tend vers ( Co +
exp (-qt) quand >. tend vers q

q1!0)

(la concentration dans la chambre se degrade de facon purement exponentielle


si la vitesse ci'evacuat.ion compense exactement I'emission).

11.2.3

Breve etude critique du travail publie

Revenons au probleme discute par (Hayter et Dowling, 1993). Uno chambre


d'essais de grandeur V == 0.053m 3 avait ete utilisee avec un echantillon de tapis
de surface A == 0.0210m 2 et une ventilation constante q == 1.01h- 1 (tableau
11.1). D'abord, les auteurs ont suppose Co == 0 dans (11.3). Ensuite, ils ont
evalue les parametres inconnus eo et A en ajustant le modele aux valeurs des
donnees en utilisant des techniques de regression non lineaires. Ils trouvent :
eo == 1.27 f-Lg m 2h- 1, A ~ 0.024 h- 1(R 2 ~ 0.94)
Le graphe des residus montre que la variance residuelle semble augmenter
avec la concentration. Dans ce cas, cela mettrait en defaut l'hypothese d'une
distribution homogene des erreurs de mesure du polluant au cours du temps.
En utilisant ces memes donnees, nous avons utilise une methode numerique
pour resoudre le memc problcme non lincaire sans supposer Co == 0 dans (11.3).
Nous trouvons : eo ~ 1.25 f-Lgm-2h-1, A ~ 0.023 h -1 et Co ~ 0.05 f-Lgm-3
(R 2 ~ 0.94).
Bien que nos resultats ponctuels soient tres proches des precedents, la condition Co i=- 0 apparait bien plus realists parce que l'operateur a besoin de temps

11. Evaluation de la pollu tion indoor

215

o
0.06

0.5

1:

~ 002

.~

0.04
O.4cP

0.3 f

"-

8 0.2
0.1

co
=>
-o

:~

LJ

0:

o
o

-0.02 .0 0 0 0
.

-0.04

-0.06 ~~'-:--~L............J
1e-3

1e-2

1e-1

1eO

Concentration (~g/m3)

Figure 11.2 - Concentrat ions et residus des estimateurs ponctuels calcules par Hayter
et Dowling.

pour met tre en place l'echantillon du materiau emettant dans la cha mbre
avant de lancer les operations.

11.2.4

Discussion

Dan s les applications, il est preferable de remplacer les valeur s uniques que
fourni t I'estimation classique par des intervalles decrivant toute la gamme de
variati ons des valeurs possibles des par ametres. Ainsi, (Jones, 1999) ra pporte
que les effets nefastes sur la sante de l'exposition aux form aldehydes peuvent
survenir par inhalation ou contact direct . Par exemple, une exposit ion a des
concentr ations situees ent re 0.01 et 25 ppm (1 ppm = 1.2 mg /m 3 ) entraine des
irritations des voies resp irato ires superieures. En ce qui concerne les normes de
securite , aucun fabricant d'obj ets domest iques ne pourrait se satisfaire avec une
cour be de taux d'emission des materiaux fondee sur des esti mations ponctuelles
sans la moindre idee quant aux inte rvalles de variations possibles. En clair , les
est imations avec intervalles surviennent chaqu e fois qu 'une forte sanction penalise un jugement errone. Nous sommes ici, dan s une sit uation ou l'infer ence
classiqu e est particulierement impuissante par ce que, comme nous l'avons vu
ci-dessus, la taille de l'echantillon est par ticulierement petite (et les intervalles
de confiance de la st atistique classique s'appuient sur une persp ective asymptot ique) tandis que la cour be du temps de concentration du pollu ant est intrinsequement non lineaire, si bien que les erreurs d'echantillonnage ne peuvent
pas etre connues. C'es t la raison pour Iaqu elle, nous et udions le probleme de
Hayter et Dowling d'un point de vue bayesien , plus efficace dans ce cas.

216

Pratique du calcul bayesien

11.3

Bruiter le modele deterministe

Dans cette partie, nous developpons un mecanisme aleatoire capable de


(re)generer des donnees statistiquement indiscernables de celles deja enregistrees (tableau 11.1). Travaillons d'abord a partir d'arguments deterministes :
la valeur attendue, Ci , du niveau de concentration de polluant dans la chambre
au temps ti est la valeur C(t i). Ensuite, pour representer l'alea de mesure, nous
choisissons une densite de probabilite (vraisemblance) d'ou les observations seront, par hypothese, tirees de facon independante, Enfin, nous utiliserons Ie
logiciel WinBUGS (Spiegelhalter et al., 2003) pour calculer la distribution a
posteriori des parametres du modele.

11.3.1

Une strategic de modelisation des incertitudes

Selon la relation (11.1), la degradation exponentielle au temps ti depend de


sa valeur precedente au temps ti-l comme suit:
().1, == ().1,- 1 exp

(-Ad)
1,

i == 1 2 ...
,

(11.4)

ou
(11.5)
De meme, en reprenant la relation (11.3), on voit que le niveau de concentration dans la chambre au temps t, depend :
1. de sa valeur au temps ti-l ;

2. du bilan net entre la production et l'evacuation par la ventilation du


formaldehyde durant le laps de temps n, :
(11.6)

A present, nous devons representer les incertitudes car il est clair que la
concentration observee, Yi, n'est pas la vraie valeur du niveau de concentration de polluant dans la chambre au temps t i .
Plusieurs strategies de modelisation des erreurs sont possibles. La plus
simple est la suivante :
1. le taux

(}i est

suppose sans terme d'erreur et le cumul donne:


(11.7)

ou t, est Ie temps ecoule depuis le debut des operations (tableau 11.1).


2. Yi fluctue aleatoirement autour d'un niveau moyen C, == C(t i ) et les
termes d'erreur Ci sont iid selon une distribution de Laplace-Gauss, localisee sur 0 et une precision T / d..

11. Evaluation de la pollution indoor

217

Remarque 11.1 La precision est divisee par n; parce que nous supposons
qu'elle decroit tandis que le laps de temps entre deux observations consecutives augmente. Un tel choix nous a semble raisonnable, mais la discussion est
ouverte.
Ces hypotheses conduisent au modele d'echantlllonnagc suivant :
(11.8)

avec
(11.9)

Ce modele presente quatre ou trois parametres selon que l'on considerc la


concentration initiale, Co, comme une quantite connue ou non
~

== (A, 8o, T) ou

== (Co, A, 8o, T)

On sait que cette concentration est tres faible (c'est la quantite de polluant
emise entre le moment OU l'operateur place l'objet dans la chambre et l'instant
OU il lance les operations). Avec les donnees du tableau 11.1, son estimation
ponctuelle est Co ~ 0.05 Mgjm 3 . Bien que le modele a quatre parametres soit
calculable sous WinBUGS, il presente un probleme d'identifiabilite et nous lui
preferons le modele a trois parametres, plus parcimonieux.

11.3.2

Application de la regie de Bayes

C, et d; etant respectivement donnes par les relations 11.9 et 11.5, la vraisemblance du N -echantillon y == {Yi : i == 1,2" .. ,N == 13} (tableau 11.1) est
triviale
(11.10)

On le sait, la distribution a priori represente l'expression d'une croyance


sur la quantite inconnue ~ avant que les donnees y soient disponibles (voir
chap. 7). Ici, notre conviction est assez faible et nous choisissons un prior de
reference neutre qui sera facilement domine par la vraisemblance. Comme tous
les parametres sont des quantites positives, un prior non informatif est obtenu
comme un cas limite de la loi gamma sous la forme
[~] ex [0 0 ] x [A]

[T] ex OaT A

(11.11)

La regIe de Bayes fournit une expression inexploitable a la plume et


nous avons utilise le logiciel WinBUGS (voir code a l'annexe F).

218

Pratique du calcul bay esien

11.3.3

R esultats

WinBUGS a genere trois chaines de 50000 iterations chacune (controle de


la convergence) . Les 20000 premieres constituent la periode de chauffe, ignoree dans l'analyse statistique pour eliminer une influe nce liee aux conditions
initiales. Une iteration sur 10 des valeurs restantes a ete exp loitee dans les resultats qui suivent, soit 9000 valeurs (3 x 3000) . Les res ultats sont presentes
dans Ie tableau 11.2.

I Unites

I I C90

eo

I H&D I

-1

p,g/m'2/h

a=l /Vi
Demi-vie T

0.008
1.15

0.017
1.28

0.035
1.42

0.023

0.032

0.048

19

42

93

0.024
1.27
29

Tableau 11.2 -- Taux d 'ernission : IC90.


Les estimations ponctuelles fournies par Dowling et Hayter (H&D) sont
dans le ventre des distributions marginales a posteriori correspondantes (fig. 11.3,
ligne pointillee verticale) . C'est tout a fait dans l'ordre des choses car nous avons
utilise un prior non -informatif, laissant parler les donnees. L'avantage decisif de
l'approche bayesienne ne se situe pas, pour ce cas, dans l'ut ilisat ion d 'un prior,
mais bien par l'ob tention d 'un intervalle de credibilite de 90 % pour les de ux
parametres qui nous interessent (tableau 11.2) . On constate que l'intervalle de
credibilite qui concerne ..\ est d'ailleurs tres nettement dissymetrique, resultat
impossible a obtenir avec l'intervalle de confiance de l'est ima tion classique, par
nature syrnetrique.

350

300

300

250

250
200
200
150
150
100

50

0,075

01

12

1.4

1.6

18

8,

Figure 11.3 - Distribution margina le a posteriori des parametres objectifs.

11. Evaluation de la pollution indoor

219

En prime, nous remarquons une forte association a posteriori entre>. et 80


(fig. 11.4) . Finalement, la distribution a posteriori du profil du taux d'emission
du tapis au cours du temps peut etre resumee par les courbes des quantiles
5 %, 50 % et 95 % calculees pour chaque valeur du temps (fig. 11.5). La ligne
continue montre la mediane et les lignes pointillees representent l'intervalle de
credibilite a 90 % tandis que la ligne en gras montre le profil t emporel obtenu
avec les estimations ponctuelles des auteurs (Hayter et Dowling, 1993).

18

1.7

1.8

1.5

.0 "
13

1.1

O'~

0.01

o_~

o.m

Q~
x

O~

0.00

0.07

QOO

Figure 11.4 - Correlation interpararnetres objectifs a posteriori.

C ommentaire
On l'a dit, l'analyse bayesienne produit beaucoup plus de resu ltats que les
methodes classiques, surtout en ce qui concerne la quantification des incertitudes. Or celles-ci doivent etre considerees lors de la prise de decision. Par
exemple, on rappelle que le demi -temps de vie d 'un materiau emetteur est Ie
temps necessaire pour qu e son activite diminue de moitie

8(t) = 80 ex p (- >.t ) }
8(t) =0.580

T _ln2
:::}

>.

Imaginons que le legisla teur fixe une norme a quarante-huit heures, c'esta-dire qu'il veut que le demi-temps de vie soit inferie ur a ce delai. Dans ce
cas , si on se contente des estimations ponctuelles (11.2) , Ie tapis a perdu la
moitie de son activite emet t rice apres 29 heures et cette norme est respectee. La
pris e en compte des incertitudes aboutit a la conclusion inverse . Evidemment,
comme toujours, ces resultats dependent de toutes les hypotheses sur lesquelles
l'analyst e s'est appuye.

220

P ra tique du calcul bayesien

- '"
0"

1.2

'"

-H&D

o.
02

12

15
18
Temps (jour)

21

24

27

30

Figure 11.5 - Profil te mporel des taux d'emission et inter valle de credibilite

a 95 %.

Epilogue
Ce cha pit re illustre les apports de I'an alyse bayesienne pour l'etude des
emissions de formaldehydes d'un echant illon de tapis. Le profil du taux d'ernission au cours du temps du materiau et udie est I'obj ectif de I'experience, mais
il n'est pas dir ect ement observable. On utilise un instrument approprie : un
modele reduit de chambre aeree conte nant l'echantillon polluant . Les donn ees
apparaissent comme des series discretes d'observations appariees, repr esent ant
les niveaux de concent ration de polluant dan s la cha mbre , au cours du temps.
Celles-ci sont utilisees pour modeliser Ie profil du niveau de concentration de
polluan t dans la chambre au cours du temps qui est intrinsequement non lineair e. On peut ensuite I'u tiliser a son tour, pour est imer Ie profil du taux
d'emission au cours du te mps de I'echantillon et udie.
Sous Ie paradigme bayesien, un modele statistique simple nous a permis de
quant ifier les incertitudes at tachees a une estimation pon ctuelle des parametres
du modele. En utilisant un prior joint non informat if, nous avons utilise les
techniqu es de Monte-Carlo par chaine de Markov pour calculer la dist ribu tion
a post eriori mar ginale de chaque par ametre objectif. Prend re en compte les
incertitudes permet des recomma nda tions operationnelles de prudence : par
exemple, au vu des donn ees experiment ales, il est fort plausible que Ie profil du
taux d 'emission au cours du temps ne soit pas nul passe 10 jours, mais on peut
parier avec confiance qu 'il Ie sera au-d ela de 20 jours. De te ls resultats sont
essent iels pou r la prise de decisions dans Ie domaine des normes de securite en
sante publique.

Chapitre 12

Les avantages de la

modelisation hierarchique :
application a la
capture-marquage-recapture
des saumons
Prologue
Voici un modele bayesien hieturchique (MBH) pour l'analyse des donnees de
capture-marquage-recapture de saumons. Ce chapitre se presente comme une
suite au chapitre 8 et s'appuie sur l'etude (Rivot et Prevost, 2002). Chaque
annee i, ces deux chercheurs de l'INRA de Rennes veulent estimer le nombre
inconnu Vi de saumons qui remontent la riviere Oir pour frayer ainsi que la
probabilite de capture ()i du piege utilise pour effectuer ces mesures. Ils disposent d'une seric d'observations allant de 1984 a 2000 collectees sur le terrain
par les techniciens de la station experimentale du Moulin des Princes, Nicolas
Jeannot et Francois Burban, aides de Jean-Yves Moelo. Pour analyser de telles
donnees, on peut vouloir, en premier lieu, faire I'hypothese d'indcpcndance complete entre les annees, c'est-a-dire imaginer que les resultats des experiences de
capture-marquage-recapture d'une annee ne nous amenent aucune information
quant aux resultats possibles des autres annees. A l'oppose, on peut etre tente
d'ignorer la variabilite entre chaque annee en regroupant en un memo echantillon les donnees de toutes les annees comme si elles provenaient du meme
modele d'observation. Le modele hierarchique realise un compromis astucieux
entre ces points de vue extremes. II suppose que les annees ne sont ni completement identiques ni completcment independantes et considere que les ()i et les

222

Pratique du calcul bayesian

Vi sont issus d'une memc distribution de probabilite dont les parametres sont
inconnus.
Lorsqu'il y a peu de donnees, un modele qui suppose l'independance entre
les annees menera a des inferences a posteriori pauvres. En effet, pour ces
annees avec un faible effectif mesure, les donnees apportent peu d'information, ce qui produit des distributions a posteriori imprecises et difficilement
exploitables. La superiorite du modele hierarchique vient de ce qu'il organise
le transfert d'information entre les annees puisque ce sont des unites statistiques qui partagent une caracteristique commune. II pallie egalement un autre
inconvenient de I'independance interannuelle qui conduit a des resultats beaucoup plus sensibles au choix des distributions a priori (( Gazey et Staley, 1986),
(Chao, 1989)) que lorsqu'on impose une structure hierarchique.

12.1

Donnees

Les series de donnees, relativement longues mais peu abondantes (petite


taille de I'echantillon), sont assez frequentes quand on veut estimer par des
techniques de capture-marquage-recapture la taille d'une population sauvage
durant plusieurs annees. Par exemple, sur la rivicre Oir, en Bretagne, les agents
de l'INRA ont collecte des donnees sur les saumons adultes qui reviennent
frayer, pour chaque annee i de 1984 a 2000. Les donnees du tableau 12.1 se
presentent sous la forme suivante : Ci represente le nombre de saumons captures au piege a l'embouchure de la rivierc (station du Cerisel). Un nombre
Xi de poissons captures ne sont pas relaches en amont, soit qu'ils meurent en
cours de manipulation, soit qu'ils soient gardes pour des experiences ou pour
la production d'oeufs. On appelle m, ~ c, - Xi le nombre de poissons marques
et relaches. Ces poissons relaches dans la riviere sont marques individuellement
avant de poursuivre leur remontee pour frayer. L'echantillonnage de recapture
est rassemble pendant et apres le moment du frai. Appelons r, le total de tous
ces poissons recaptures ou observes : parmi ceux-ci, on retrouve Yi poissons
deja marques.

12.2

Modele de capture-rnarquage-recapture

Les inconnues du probleme sont evidemment le nombre de saumons (Vi)


qui remontent la rivierc Oir pour frayer et la probabilite de capture ((OJ)
du piege utilise l'annee i pour effectuer ces mesures, comme le schematise la
figure 12.1. Sachant la valeur de ces parametres inconnus (Vi et OJ), la vraisemblance donnera la loi des variables aleatoires (C i, Xi, u; u; Yi). Dans la
suite du chapitre, on utilisera le terme data pour designer l'ensemble de ces
observations des donnees (Ci, Xi, tiu, r., Yi).
Note 12.1 Encore une fois, pour des raisons pedagogiques, on distingue la
variable aleatoire X de sa realisation x. Les lettres latines sont reservees aux

12. Les avantages de la modelisation hierarchique


Annec
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000

c,

Xi

mi

r,

Yi

167
264
130
16
226
235
15
44
31
100
32
109
70
56
34
154
53

13
48
37
4
43
36
8
0
11
19
14
7
15
22
4
6
0

154
216
93
12
183
199
7
44
20
81
18
102
55
34
30
148
53

22
25
9
24
12
56
17
24
9
7
5
46
82
15
36
35
37

12
21
5
2
12
56
2
23
4
4
1
39
25
12
6
23
4

223

Tableau 12.1 - Donnees de capture-marquage-recapture pour les saumons au


cours de leur remontee migratoire dans la rivicre Oir pour frayer.
grandeurs aleatoires observables et les parametres inconnus sont dcsignes par
des minuscules grecques.
Comme tout modele, ce modele necessite egalement quelques hypotheses
simplificatrices.
- H1 : Tous les saumons de l'ensemble Vi sont supposes pouvoir etre individuellement et egalement pris dans le piege, avec la me me probabilite OJ.
OJ est constante pendant la saison de migration.
- H2 : La taille de la population de saumons en amont du piege reste
invariable au cours de l'experience. Aucun saumon ne peut redescendre
le courant apres avoir franchi le piege, II n'y a ni mortalite par suite du
marquage, ni mortalite naturelle entre le moment du marquage et celui
de la recapture.
- H3 : II n'y a pas de pertes specifiques dues au marquage une fois le poisson
relache en amont du piege,
- H4 : La probabilite de recapture est la me me pour tous les poissons marques ou non.

12.2.1

Modele Bernoulli d'alea pour la premiere phase

Sous I'hypothese d'egalite des chances d'etre capture HI, on peut considerer
la migration des saumons Vi comme des experiences de Bernoulli independantes

224

Pratique du calcul bayesien

Amont

Recaptures
y = nbde marques
sur r captu res

Remise a l ' eau

m =c-x
nb de m arques

Poissons
evitant
le pieg e

~_""'\ - . Piege de

remontee
c = nb de captur es

~
~~
Aval

Stock entrant

'Y =

p op. de saum ons


adultes

Figure 12.1 - Schema du piege de remontee des saumons adultes.

avec une probabilite de succes of. En consequence , C i est le resultat d 'une


exp erience binomiale avec Vi repetitions OU chaque saumon a une probabilite
of d'etre pris :

[C =
~

12.2.2

clv
t

t ,

01.1]

= CC
i (Ol)
Ci (1 _ Ol)!li- ci
Vi
z
Z

(12.1)

Modele Bernoulli d'alea pour la seconde phase

La loi de la variable Xi (perte par manipulation, proportion gardee pour la


reproduction) n'a pas d 'importance en soi, en tout cas a l'egard du probleme de
representation qui nous interesse, et on travaillera dans la suite de ce chapitre
conditionnellement ala connaissance de Xi = X i ( X i connu). Les hypotheses H2H3 permettent de considerer que la difference Vi - Xi est le nombr e de saumons
dans les frayeres au-dela du piege et qu 'il se trouve m, saumons marques parmi
eux. Dans cet te seconde phase du precede, on cherche la loi de Y; sachant

M, =

ttu ,

En premiere approche, l'echantillonnage de recapture fonctionn e comme


si l'echantillonnage de recapture r i et ait tire au hasard dans la population
totale Vi-Xi . Plus exactement , l'echantillon de recapture conti ent Y i poissons
marques provenant des m; marques durant la premiere phase et Z; = ri - Yi
non marques parmi un nombre to tal Vi - X i - m; de poissons non marques en
seconde phase. L'experience de recapture peut se concevoir comme le resultat
r est le pararnetre de recapture
de deux experi ences binomiales OU le parametre O

12. Les avantages de la modelisation hierarchique

a I'annee i

225

(12.2)

12.3

Modele bayesian hierarchique echangeable

Le modele bayesien hierarchique, note ci-apres MBH, impose une structure


hierarchique sur l'efficacite de la capture et egalernent sur la taille de la population. D'une annee (ii) a l'autre (i 2 ) , les nombres de saumons ViI ou Vi2 qui
remontent la riviere Oir pour frayer ne sont pas les memes, mais ils possedent
quelque chose en commun : il s'agit de la meme population ecologique implantee sur la rivierc Oir, et les quantites ViI et Vi2 se ressembleront sans, bien sur,
etre identiques. De la meme maniere, comme c'est toujours la meme procedure
de piegeage que l'on met en ceuvre pour effectuer le marquage, la probabilite de
capture (OTI ) du piege utilise l'annee i 1 partage quelques caracteristiques avec
0T2 , la probabilite de capture a I'annce i 12 . Elles ne sont pas egales, car il reste
une certaine variabilite Iiee aux facteurs non maitrisables qui influent sur les
deux experiences (debits de la riviere, conditions meteorologiques, etc.). II en
va de meme pour la probabilite de recapture 02 de la seconde phase. Dans la
suite, on appelle Oi == (OI, 0;) le parametre vectoriel des capturabilites des deux
phases de chaque annee i. Le modele hierarchique rassemble toutes les annees
a travers un niveau de repartition des parametres inconnus qui explique les
similitudes entre l'experience de capture-marquage-recapture et la dependance
parmi les tailles de population. Fondamentalement, l'hypothese hicrarchique se
traduit par un niveau conditionnel supplementaire des distributions de probabilite (Gelman et al., 1995b) decrivant chaque experience annuelle.
Considerons d'abord la mise en place d'une structure hierarchique pour les
efficacites de capture et de recapture. Le MBR suppose que les Oi sont issus
d'une meme distribution de population [Oi I,], conditionnelle a un vecteur ,
dhyperparametres inconnus. On attribuera une distribution a priori [,] aces
hyperparametres. En effet, les efficacites annuelles, Oi, resultent dexperiences
analogues utilisant le meme equipement et le meme protocole experimental. La
structure hierarchique de la distribution de probabilite marque la dependance
entre les Oi en exprimant les similitudes et l'heterogeneite des Oi. Des variations
entre les Oi peuvent etre dues a des changements imprevisibles de l'environnement (niveau de la riviere, temperature) ou du comportement du poisson au
cours des annees. Le MBR considere , comme la quantite inconnue d'une distribution unifiant toutes les annees, Ces hyperparametres reglent en particulier
la variance et la moyenne des Oi : une variance nulle signifie qu'une meme valeur du parametrc Oi doit etre adoptee pour toutes les annees, tandis qu'une
variance infinie pour la distribution des ()i signifie que chaque annee est independante. Entre ces deux extremes, la mise a jour par inference bayesienne de

226

Pratique du calcul bayesien

Priors sur
Jet r

hyperparametres

parametres

annee i

Mode e d 'aleasn turels


donnees

Figure 12.2 - Le modele hierarchique introduit un niveau de coherence interannuel


par l'intermediaire des hyperpararnctres (r, 8)

la distribution des hyperpararnetres realise le transfert de I'information d'une


annee sur ses voisines.
Unc structure hierarchique est egalement possible pour assurer une certaine
coherence interannuelle des tailles Vi de la population des saumons de l' Oir.
Cette population est observee pendant plusieurs annees (correspondant aux indices i == 1, ... , I ). Le developpement (progression ou reduction) de la taille de
la population depend des memes processus ecologiques quelle que soit I'annee.
Les estimations derivees des annecs {1, ... ,i - 1, i + 1, ... ,I} apportent aussi
des informations par rapport a la taille de la population d'une annec donnee i.
On introduit aussi un niveau hierarchique pour la repartition des Vi via une loi
[Vi 16] avec des hyperparametres inconnus 6 et leur propre distribution a priori

[6].

Le MBH decrit a la figure 12.2 traite de facon conjointe les series de chacune des annees i == 1, ... ,I. Les grandeurs (Vi,Oi) ont un statut mixte. Elles
dependent du vecteur des hyperparametres == (r, 6) et sont des variables
aleatoires non observables qui conditionnent les observables (Ci , Ii, R i ) elles
recouvrent alors de ce fait un statut de parametres inconnus. La distribution
a priori conjointe n(v,O,) repose sur deux hypotheses: prcmiercmcnt, I'independance entre (0, r) et (v,6) et deuxiemement I'cchangeabilitc de Oiet de Vi
(Gelman et al., 1995b). La loi a priori sur tous les parametres s'ecrit finalement:

12. Les avantages de la modelisation hierarchique

227

La distribution a posteriori conjointe [v, Oldata] est obtenue par la combinaison de la distribution a priori jointe [v, 0, ] et de l'expression de vraisemblance
[datalv, 0, ] puis par elimination sur les hyperparametres :

[v, Bldata]

0:

[v, B, 4>] [dataIN, B, 4>] d4>

(12.5)

La distribution a priori de (0, r) marque la dependance interannuelle des


Oi. L'echangeabilite est un concept plus general que l'independance statistique.
II est fonde sur I'hypothese qu'avant de voir les resultats de l'experimentation
capture-marquage-recapture (en l'absence de donnees), il n'y a pas d'argument
pour distinguer a priori Oi. En termes mathematiques, l'echangeabilite signifie
que la distribution jointe des Oi ne change pas quand on permute les indices
i. L'ordre dans lequel les donnees ont ete rassemblees n'a pas d'importance.
Comme le suggere (Gelman et al., 1995b), la distribution cchangeablc la plus
appropriee pour (0, r) considere chaque 0i comme un echantillon independant
de la distribution conditionnelle de la taille de la population, parametres par
r,7f(Oilr). Nous faisons la meme hypothese rl'echangeabilite pour les Vi. L' hypothese d'echangeabilite combinee avec l'independance entre (O,r) et (v,6"),
conduit a la distribution a priori jointe (12.4).
Le terme de vraisemblance [datalv, 0, ] est le produit des fonctions de vraisemblance annuelles [datailvi,Oi, ] note L, dans ce qui suit. L, est issu du
modele stochastique qui sert de base au processus d'echantillonnage des experiences de capture-marquage-recapture. La vraisemblance ne depend pas du
vecteur des hyperparametres d'ou la simplification
I

[datalv, 0, ] == [datalv, 0]

==

II [datailvi,Oi] II t;
==

i=l

i=l

Les distributions dechantillonnage utilisees impliquees dans les L, sont des


produits de formes binomiales (eq. 12.1) et (eq. 12.2) (Gazey et Staley, 1986).
La distribution a posteriori complete conjointe de [v, 0, ] s'ecrit, a une
constante de normalisation pres, grace a la formule de Bayes :
(12.6)
Pour obtenir la distribution a posteriori des quantites intercssantcs (eq. 12.5), il
faut done integrer la distribution a posteriori complete conjointe, selon chaque
composante du vecteur des hyperparamctrcs (considere ici comme un parametre de nuisance que l'on eliminc par integration)

228

Pratique du calcul bayesien

[v, eldata]

ex

~ (Dr lei I')'] [Vi 18] Li) [')'] [8] d')'d8

(12.7)

"

Le MBH permet un transfert d'informations entre unites statistiques echangeables dont Ie mecanisme probabiliste est decrit par les equations donnees dans
l'annexe G.

12.4

Modele bayesian annuel

Le modele bayesien annuel (MBA) suppose l'independance interannuelle


des efficacites des deux phases et du nombre d'adultes remontant la riviere Vi.
Ce modele peut etre considere comme un cas particulier limite du modele hierarchique echangeable plus general. II suffit d'imaginer que la variabilite de la
dispersion interannuelle est tellement grande que les ()i sont tires independamment les uns des autres depuis l'urne hierarchiquc virtuelle qui rassemble tous
les ()i.
hyperparam etres

rt rs u

P i rs sur v

parametres

v.1

annee i

Mode e d 'aleas naturels


donnees

Figure 12.3 - Le modele annuel avec independance considere chaque annee isolement
par I'interrnediaire des hyperpararnetres ("'(1, .."'(1,61, ..61).

Le MBA schematisc a la figure 12.3 suppose donc a priori l'independance


complete entre les ()i d'une part et les Vi d'autre part. Sous cette hypothese
les donnees de capture-marquage-recapture de l'annee i ne sont utiles que pour
estimer les ()i et Vi correspondant a la merne annce. Le MBA a de plus besoin

12. Les avantages de la modelisation hierarchique

229

de specifier une distribution a priori a chaque (Ji et Vi et - au prix d'un abus de


langage qui facilitera la comparaison avec le MBH - on appelera ces hyperparametres avec les memes lettres (<5i, Ii). II faut alors introduire les distributions
a priori annuelles [vil<5i] et [(Jil,], OU les parametres (<5i, Ii) peuvent avoir des
valeurs eventuellement differentes pour les annees, Tout transfert d'information d'une annee sur 1'autre est ainsi impossible et les inferences d'une annee
particuliere i ignorent completement ce qui peut etre appris de l'experience
issue des annees {1, ... , I} -=F i. On comprend que lorsqu'une meme population est observee pendant plusieurs annees, l'independance interannuelle puisse
ne pas conduire a une utilisation optimale de l'information. En structurant
la dependance interannuelle, le MBH constate que les experiences de capturemarquage-recapture des annees {1, ... ,I} -=F i donnent, au moins partiellement,
des informations sur l' efficacite de la capture et sur la taille de la population de
l'annee i. Le but de ce chapitre est de mettre en evidence les differences entre
les procedures bayesiennes de mise a jour des hyperparametres de chacun des
modeles MBA et MBH, notamment a l'egard de la valorisation de la quantite
d'information transmise chaque annee et d'annee en anneo.
Notons qu'on peut aussi construire des modeles hybrides qui supposent l'independance pour seulement l'un des deux composants : les efficacites du piege
(J ou Ie vecteur des stocks de saumons V, l'autre partie restant modelisee grace
a une structure hierarchique. On pourra alors comparer les inferences obtenues
sous Ie MBH, Ie MBA et les deux modeles hybrides pour chercher lequel des
deux composants (J et vest le plus sensible a la modelisation hierarchique de
l'independance.

12.5

Choix des distributions a priori et analyse


de sensibilite

La mise en place des distributions a priori est un moment critique de l'analysebayesienne.

12.5.1

Priors du modele avec independance annuelle

Pour Ie MBA, il faut specifier toutes les distributions a priori [(Ji I/i]et [Vi l<5i].

Efficacites beta de la capture et de la recapture


Pour chaque composante (JJ et (Jr de [(Ji I,i] , il est naturel d'utiliser des lois
beta (eq.2.9) conjuguees de la vraisemblance binomiale (eq, 12.1) en posant ici
Ii == (Q;i, /3i).Une premiere simplification consiste a utiliser la meme expertise
pour toutes les annees en posant Ii == (Q;i, /3i) == (Q;, /3)
(12.8)

230

Pratique du calcul bayesien

Pour le couple (0:, (3) , on prend souvent (~, ~). En effet, la loi beta (~, ~)
est le prior de Jeffreys pour le parametre d'une distribution binomiale. Elle est
syrnetrique autour de () == 0.5, sans mode ni moment d'ordre deux et charge les
queues de distribution () == 0 ou () == 1.
D'autres valeurs pour (0:, (3) sont possibles, notamment la loi uniforme
(0:,(3) == (1,1). Ces autres priors sont testes dans l'article de (Rivot et Prevost, 2002), ou ces auteurs realisent une etude de sensibilite plus complete.

Stock de poisson inconnu


En ce qui concerne le parametre de taille de stock de poissons vi, on pourrait
proposer une loi uniforme entre 0 et une valeur plausible a determiner par les
experts en biologie du saumon, dependant des annees, Le prior utilise dans
ce chapitre fait une hypothese de plus : plus Vi est grand, moins sa valeur
est plausible. Par commodite, on supposera que la connaissance a priori n'est
pas influencee par des variables explicatives propres a l'annee i. On prendra
donc pour [Vi 16i] une distribution proportionnelle a ~ sur un intervalle borne
superieurement.
(12.9)

On a aussi teste des bornes N m ax == 1000, 2000 ou 3000 ainsi que d'autres
formes de distributions et on a ctudie la modification des resultats a l'egard du
choix de ces priors (Rivot et Prevost, 2002).

12.5.2

Priors

a deux et.ages

du modele hierarchique

Pour Ie MBH, il faut specifier toutes lcs distributions a priori [()i Ir] et [Vi 16]
et les hyperdistributions [r] et [6]. Cette fois, on a un etage superieur qui assure
la coherence entre les parametres de chaque annee en les considerant comme
des realisations issues d'une urne regie par les hyperparametres 6 et r.

Efficacites de peche et de recapture de type beta


II est naturel d'utiliser encore des lois beta pour [()i Ir] en posant ici r ==
(0:, (3). Pour la loi a priori [r], on cherchera des lois du type non informatif. Si
on travaille en moyenne u et variance (J"2, le repararnetrage de (0:, (3) a (fJ, (J")
s' effectue par la transformation

0:
fJ== 0:+(3
fJ(l-fJ)
(J" 2 == ---

0:+(3+1

(12.10)

12. Les avantages de la modelisation hierarchique

231

de telle sorte que se donner une distribution sur (j1, o ) revient a en definir une
sur (a, (3). Le prior [,] presente dans la suite de ce chapitre a ete construit
comme suit.
Pour u, par analogie avec le modele MBA, on prend une loi beta (~, ~) car
j1 s'exprime sur la meme echellc que e.
Pour (]"2 qui est un parametre d'echelle, on tire selon
mais en respectant
la condition (]"2 < j1( 1 - j1) verifiee par les moments de la loi beta. On peut
justifier cette operation par reference au prior de Jeffreys dj1
pour la loi
normale : la transformation choisie revient en effet a prendre ce type de prior
sur la moyenne et la variance de la loi beta. D' autres priors, testes dans (Rivot et
Prevost, 2002) permettraient d'effectuer une etude de sensibilite plus complete.
Une alternative aurait ete par exemple de prendre la distribution prop osee par
(Gelman et al., 1995b). Elle consiste a poser:

;2'

d;

= log( ,8 ); v = log( a + (3)

et a prendre une loi uniforme sur le couple (u, v). Le support de la loi uniforme
a ete pris entre - 5 et 10 pour u et pour v car les inferences a posteriori sont
quasi insensibles quand on augmente la gamme de variation au-dela.

Stock de poisson binomial negatif


En ce qui concerne le parametre de taille de stock de poisson Vi, on pourrait
reprendre une loi en ~ ou bien proposer une loi de Poisson (justement!) de
parametre 5 pour [Vi 15] . Pour obtenir des resultats plus robustes tout en autorisant une plus grande dispersion, (Raftery, 1988) suggere d'utiliser un melange
gamma (a, b) de lois de Poisson, c'est-a-dire une loi binomiale negative. On pose
alors ici 6 == (a,b) et
(12.11)
Reste a choisir un prior pour 5 == (a, b). On peut utiliser la meme approche
que precedemment en calculant l'esperance u == ~ et la variance (]"2 == a(~tl)
d'une loi binomiale negative et en imposant une loi non informative sur ces
quantites. En pratique, on tire au hasard j1 dans une loi uniforme entre 0 et
6000 et (]"2 proportionnellement a -\
dans l'intervalle compris entre 600 et
a
106 (ce qui assure la positivite de a et de b). D' autres priors sont testes dans
l'article de (Rivot et Prevost, 2002), sans que soient constatees de notables
modifications des resultats.

12.6

Resultats

L'algorithme correspondant au modele MBH decrit par les equations 12.1,


12.2, 12.10) et (cq. 12.11) s'ecrit facilement en WinBUGS (voir section G de

232

Pratique du calcul bayesicn

l'annexe G). Le modele MBA et les variantes hybrides s'ecrivent sans difficulte a
partir du canevas donne par le modele le plus complique. En suivant les recommendations de (Spiegelhalter et al., 2000), trois chaines differentes permettent
de mettre en ceuvre un test pour verifier la convergence de l'algorithme MCMC
(Gelman et Rubin, 1992). La periode de chauffe a ete ici prise a 5000, puis 2000
iterations ont fourni un pseudo echantillon des lois a posteriori utilisees pour
dessiner la figure 12.4.
Les resultats montrent que les inferences obtenues sous Ie MBA peuvent etre
peu fiables et tres sensibles au choix des distributions a priori. La figure 12.4
donne les distributions a posteriori marginales pour l'efficacite de capture O}
(partie a) et les tailles de population Vi (partie b) au cours des annees 1984 a
2000. Ces evolutions ont ete obtenues pour quatre structures de modeles, Dans
cette figure, les traits continus representent les intervalles de credibilites du
modele hierarchique bayesien avec hyperpriors (12.10) et (12.9). La ligne a tirets
est utilisee pour un modele hybride a structure hierarchique sur les O} seulement
avec hyperprior (12.10) et le prior (12.9) sur les Vi, avec N max == 2000 ; la ligne
a tirets pointilles reprcsente, elle, un modele hybride avec structure hierarchique
sur les Vi seulement avec hyperprior (12.9), et le prior (12.8) sur les Oi, tandis
que la ligne pointillee est associee au modele annuel bayesien avec le prior
(12.8) sur les O} et Ie prior (12.9) sur les Vi avec N max == 2000.
Les distributions a posteriori de O} et Vi derivees du MBA - avec des priors
non informatifs - varient beaucoup selon les annces, en termes de centrage et
de dispersion, comme on Ie constate sur la figure 12.4.
Les estimations des distributions a posteriori de Oi sont particulierement
variables selon les annees (fig. 12.4). Mais la grande dispersion de O} observee
sur des annees telles que 1992 et 1993, n'a pas forcement de grandes repercussions sur les Vi (voir partie b de la figure 12.4). Les annces OU peu d'adultes
sont attrapes indiquent une population de faible taille, pour autant que les
autres donnees de recapture permettent ci'ecartcr le fait que cette faible estimation provienne de probabilites de piegeage sous-estimccs. Certaines annees
ont des distributions a posteriori de Vi precises et symetriques, tandis que
d'autres inversement peuvent avoir des distributions a posteriori dispersees et
asymetriques (voir fig. 12.4b). Pour ces dernieres, les limites superieures des
intervalles de credibilite a 95 % bayesiens apparaissent indubitablement trop
larges etant donne la taille de la rivierc Oir, mais aussi d' apres les connaissances
biologiques et ecologiques sur le saumon atlantique. Les inferences sur la taille
de la population Vi proviennent essentiellement des experiences de recapture
binomiales et dependent donc en premier chef de l'echantillonnage de recapture. Des donnees eparses de marquage-recapture (peu de marquages ou peu
de recaptures de poissons deja marques) conduisent a des inferences imprecises
(annees 1987, 1990, 1994). Les inferences a posteriori sous le MBA sont assez
robustes a l'egard du choix de la distribution a priori sur Oi. Au contraire les
inferences a posteriori sur Vi sont tres sensibles au choix du prior. Le changement de la distribution a priori de Vi peut avoir de fortes repercussions sur les
distributions a posteriori, surtout les annees OU les donnees sont pauvres.

12. Les avantages de la mod elisation hierar chique

233

Parametree d 'efficacite de capture

Nombre de saumons
1eoo

(b)

1eoo

,
,

1 400
1200 -

1000

!: r

eoo

"
!:;
,.

GOO

::00
..

H:m; IlL Ill,'; Il;; j.l,L


J..&.a

19 8 4

198~

1..:.

11:

IT~i:t'" IIn.l'
t!;:.

.1..

11: ,

TIT'

III: 11 11

Ill.

.1...1. ...

1986 1987 1988 19691990 1991 1992199319941995 1998 1ge7 1998 19992000

Figure 12.4 - Distributions a posteriori marginales pour l'efficacite de capture Bi (a)


et les tailles de population Vi (b) au cours des annees 1984 a 2000 obtenues pour 4
str uctures de mod eles, Les symboles : (A, "f) marquent respectivement les quantiles
de credibilite 2.5 % et 97.5 %; . situe la moyenne, et + la mediane.

La modelisation hierar chiqu e ameliore fortement la qualite des inferences


a posteri ori (fig. 12.4). Les inferences les plus pr ecises sont obte nues sous le
MBR . La st ruct ure hierarchique sur V i est la source principale d 'am eliorat ions. Compare avec le MBA qui suppose l'independ an ce de Vi et de ()i , le
mod ele hybride supposant une st ructure hierarchique sur Ie seul vecteur ()i ,
n'am eliore pas vraiment les inferences sur la variabl e d 'interet ecologique Vi et
la sensibilite au choix du prior sur Vi rest e forte. Les moyennes a post eriori
des ()f ne sont que faibl ement attirees vers la moyenn e genera le d 'environ 0.5
(fig. 12.4 a). Au cont rai re, quand on imp ose une st ruct ur e hierarchiqu e sur
les V i , l'asyrnetri e et les incert itudes lors de l'estirn at ion des Vi se trouvent
fortement redui tes (fig. 12.4b). Les queues de distribution a post eri ori pour
les V i s'etalent beaucoup moins. Ces resul t ats connus sous le nom de shrinkage effect dans la lit t erature statist ique (Gelman et al., 2004) semblent plus
judicieux et realistes que ceux obtenus via Ie rvIBA. La redu ction de l'in cert it ude est particulierement significative les annees de faibles effect ifs de capturemarquage-recapture . L'augmentation de la pr ecision est insignifian t e les annees

234

Pratique du calcul bayesien

ou les donnees de capture-marquage-recapture sont suffisamment informatives


pour permettre I'estimation precise de Vi sous Ie MBA. Enfin, d'autres etudes
mont rent que les inferences a posteriori sous Ie modele MBR sont assez robustes
it l'egard du choix des priors pour les hyperparametres.
(a) Parametre e d ' efficacite de capture
0.025

(b)

Nombre de saumons

0.1 2 r-~-~---~--'

0.10

0.020

0.08

0.015

0.06

0.2

0.4

0.6

0.8

500

1.0

1000

1500 2000

2500

Figure 12.5 - Courbes de distributions a posteriori predictives et obtenues 11 partir


du modele hierarchique bayesien

La figure 12.5 trace les courbes de distributions a posteriori predictives


obt enues it partir de

[Bldata]

J
J

[BI,] [r , bldata]d,db

(12.12)

[vlb] b, bldata]d,db

(12.13)

, ,15

[vldata] =

,,15

Ces distributions predictives a posteriori sont calculees a partir du modele hierarchique bayesian. Les hyperpriors utilises sont (12.10) et (12.9). Les
courbes sont estimees par des histogrammes frequentiels issus de l'echantillonnage par chaines de Monte-Carlo Markov . La distribution predictive a posteriori
de l'efficacite moyenne du piegeage sous Ie MBR (fig. 12.5a) parait relativement
peu informative. La transmission d'information entre les annees pour I'efficacite de la capture est faible. Cette observation correspond au peu d 'amelioration
obtenu en imposant une structure hierarchique sur les Bi .
En revanche, la distribution predictive a posteriori de la taille moyenne de
la population est informative avec une valeur moyenne autour de 230 indivi-

12. Les avantages de la modelisation hierarchique

235

dus et 95 % de ses densites de presence dans l'intervalle [40,610] (fig. 12.5b).


Les donnees combinees de toutes les annees permettent d'eliminer a priori la
possibilite d'une tres forte taille de population de saumons adultes (plus d'un
millier par exemple) lors d'une annee additionnelle.

Epilogue
La modelisation hierarchique rend plus robustes les inferences du modele a
l'egard du choix de prior et de la rarete de donnees. Elle permet le transfert
d'informations entre des unites statistiques au nom de leur ressemblance. Le
concept d'echangeabilite est la facon probabiliste de quantifier precisement cette
ressemblance sous forme d'un modele hierarchique. L'importance relative du
transfert d'information est reglee par la dispersion de la distribution aleatoire
decrivant la ressemblance entre les unites. Cette dispersion est evaluee de facon
quantitative a partir des donnees au cours de la phase dinference.

Chapitre 13

Modeles
de changements caches
Prologue
Parmi tous les problemes cl'actualite, ceux qui ont trait a l'exploitation de
l'environnement naturel permettent de mesurer, mieux que tout autre, la neccssite de s'adapter aux changements climatiques. Ainsi, l'agriculteur en zone
sahelienne comme le producteur ri'hydroelectricite au Quebec ont grand interet
a detecter les changements de regime dans les series chronologiques disponibles.
En effet, s'il est indeniable que la prevision du futur repose sur la connaissance
du passe, on comprend aisement qu'une telle prevision se refere essentiellement
aux informations recueillies depuis que lc systemc est reste dans le meme regime
stationnaire jusqu'a son etat actuel qui persistera. C'est pourquoi, la detection
des changements de regime dans les series chronologiques constitue un theme
de recherche tres important pour l'aide a la decision. Se pose alors immediatement la question des transitions. Sont-elles brutales ou ont-elles une duree
significative par rapport a l'unite de temps?
Classiquement, les modeles non stationnaires supposent que les parametres
sont evolutifs avec le temps. La plupart reposent sur une hypothese de continuite de cette evolution. Les prototypes en sont, par exemple, les modeles de variations saisonnieres en geophysique. Mais on a extrapole l'hypothese de continuite a une cchclle de temps plus grande, comme l'interannuelle. C'est que les
statisticiens, comme de nombreux scientifiques, ont eu historiquement l'habitude de raisonner selon des schemas continus. II n'est cependant pas preuve
que cette vision des choses represente bien la realite. Bien souvent des changements par sauts apparaissent realistcs : sous l'effet d'une contrainte qui
evolue continfunent dans le temps, le systerne passe brutalement d'un eta;
dans un autre (les changements de phase en thermodynamique en fournissent
un exemple patent).

238

Pratique du calcul bayesian

Dans ce cha pitre, nous nous interesserons uniquement aux modeles de changement par sauts, souvent appe les ruptures. Nous traiterons surtout de la modelisatio n et de l'inference bayesienne sur leurs parametres. Nous aborderons
succinctement Ie choix entre divers modeles sans oublier bien sur celui qui nous
servira de reference, I ' absence de rupture.
R emarque 13.1 Dans ce chap itre, nous ne traiterons pas Ie cas multisite avec
effet de covariation spatiale tres uti le aux hydro logues (Perreault, 2000). Ce
theme de recherche, plein d'avenir, est une clef pour I'aide a la decision en
avenir incertain, par exemp le pour I'adaptat ion aux changements climatiques.

13 .1

Introduction

II est facile de simuler des ruptures. Par exemple, imaginons une serie de
longueur n divisee en k + 1 ;::: 2 sequences iid selon une loi normale, localisee
sur jlj et de precision h j (j = 1,2, . . . ,k + 1). Le nombre de ruptures est alors
egal a k. La figure 13.1 illustre Ie propos avec une simulation pour laque lle on
a choisi k = 2. Les changements de moyenne et de precision sont simultanes et
ont lieu aux dates 38 et 78. Au seul vu des donnees , ces changements ne sont
pas faciles a detecter directement sur la serie brute. Une eventue lle prevision a
I'horizon 110 implique de postuler Ie maintien du niveau actuel a moins qu 'on
ait de bonnes raisons d'envisager un reto ur vers un regime anterieur (presence
de cycle de longueur plus ou moins bien connue par exemp le).

10

8
6
4
2
0

10

20

30

40

50

60

70

80

90

10

O'---

.l...----'-_ ...J.-_ -'-_---L._ -L_ --'--_ --.L_--"_ _


10

Figure 13.1 - Simu lation de ruptures.

100

13. Modeles de changements caches

239

Nous limitons notre interet aux series chronologiques independ antes ou


ayant une st ruct ure de memoire markovienne simple. Ces mod eles ont une application privi legiee dans la repr esent ation de gra ndeurs geophysiques a l'echelle
inte rannuelle (debits des rivieres, pluies et aut res variables meteorologiques,
etc.) .

13.1.1

Trois exemples hydrorneteorologiques

Trois exemples nous serviront tout au long de ce cha pitre :


- la serie chronologique des debits moyens annuels (en m3 Is) du Senegal a
Bakel, encore appeles m odules dans le jargon hydrolo gique est don nee a
la figur e 13.3. Cette serie comporte 84 valeurs annuelles de 1903 a 1986 ;
- la figur e 13.4 present e la serie de 58 valeurs annuelles d'apports energet iques du Saint Laurent en 104 xgigawatts-heures ent re 1943 et 2000 ;
- les maxima annuels des debits moyens journaliers de la Dordogne a Cena c
(en m 3 Is) de 1900 a 2005 sont representee a la figur e 13.2. Ce cas de
valeur s ext remes est tradi tionnellement traite par le mod ele de Gumb el
(voir le cha pitre 6, equation 6.5 et l'annexe H) .

2000
1800 ... _-1600

.~.

.......

.. .

1400

..

1200

M ".:': :-1/
...-Y-

1000

......

800

..

------ ......

--........... _-

------

.._--

..

-----..- ] ...

..

~ ..

..

600 .........._-

----

---- . . . .

-IV
I .. .

/\"
..

..

......Q ....

.-........ _--

..
...

..

----.........

.Ii....... ..
---.........

400
200

1900

1920

1940

1960

1980

2000

2020

Figure 13.2 - Debit maximal annuel (en m 3 / s) de la Dordogne

a Cenac .

Sur ces exemples nous effect uerons a la fois la mod elisation, Ie choix de
mod ele (quel nombre de ruptures adopter?) et l'inference, Les t ravaux de (Per reaul t , 2000) sont a la source de notre inspiration pour ces mod eles, largement
developp es pour le cas norm al en hyd rologie par (Perr eaul t et al., 2000) .

240

P ra tique du calcul bayesien

1400

r--,----.-----.----r----r--,-----,---,--,

1200

-- ---T - - -- -' --

---- - -.-----

1000

--

------1-----

soo -- -

6:)0

---

400

200 ' - - - - ' - - - - ' - - - ' - - - - - ' - - - - - ' - - - ' - - - - ' - - - ' - - " - - - '
1900

1910

1920

193Q

1940

1S50

1!l6O

1970

198 0

1990

Figur e 13.3 - Debits moyens an nuels (en rn3 / s ) du Senegal

13.2

a Bakel.

La modelisation des changements

La modelisation soignee du comportement de series avec changement s'avere


un prealabl e indi spensabl e. Nous proposons ci-apres t rois mod eles simples.

13.2.1

Modele M 1 : 1 seule rupture

Soit une sequence de variables aleatoires reelles YI , Y2 , . .. ,Yi ,.. . ~, observees a intervalles de temps regulier (des annees par exemple), supposees
mu tuellement independantes et distribuees selon le mod ele suivant fonde sur la
distribution norrnale unidimensionnelle :
(13.1)

ou

. {I

z-

-:?
-:?

t
t

=
=

1,+.. .

,T

1, . . . ,n

Remarque 13.2 Ecrire le mod ele 13.1, c'est dire qu e T est la derniere dat e
avant cha ngement du par ametre IL de la distribution par ente, alors qu e l' au tre
pararnetre, la pr ecision h, rest e invariant . Il y a aussi, derri ere ce schem a, l'id ee
que la rupture est unique et don e que le nouvel etat, carac terise par IL2 perdure
au moins jusqu 'a la fin de la period e observee n . C'est bien sur une hypothese
forte .

13. Mod eles de cha ngement s caches

241

x10
1.6 r--:-::..----.------r---.------,----~--__,
1.5 f-

1.4 l-

..,.

/\

I-\

-1

,.. J v

1.3
1.2
1.1f- : \

0.9 L -_ _- ' -_ _---'1950


1960
1940

-'---_ _--'-_ _- - '_ _- - - '

1970

1980

1990

2000

Figur e 13.4 - Valeurs annuelles d 'a pports energetiques du Saint-L aurent en 104 x
Gwh entre 1943 et 2000.

13.2.2

Modele Nh : k ruptures

C'est le meme modele que ci-dessus sa uf que l'on suppose ici que k sau t s
existe nt dan s une serie de var iabl es aleat oires indep end antes qu i sont normalement distribuees (la moyenn e J.L cha nge mais la precision h reste invari an te) .
II existe don e k dates de ruptures Tj (j = 1, 2, . . . , k ) et k + 1 param etres J.Lj
(j = 1,2, '" , k + 1) te ls que, par exemple, cha que tLj est assoc ie a la periode
finissant en Ti- Des lar s J.Lk+1 est associe ~l la period e comrne nca nt apres Tk. La
figure 13.5 illustre le propos pour k = 2 (done 3 groupes) .

Discussion
Ce ty pe de mod ele n 'a de sens qu e si k est reduit a quelqu es un ites pui squ e
ce nombre fixe la dim ension du vecteur T = (Tl , '" , Tk) et la dim ension du
vect eur J.L = (J.Ll , , J.Lk+l) :
0 = (T,tL,h) ~dimO =2(k +1 )

Si k est trop grand , l' inflation de par am et res ren d Ie mod ele ste rile. Signalons
qu e, de ce point de vue, (Hubert , 2000) a developpe une methode de segmentat ion recher chant la meilleure partiti on d 'une serie chronologique en k sousperiodes minimisant une dist an ce qu ad ratique globale ent re les k moyenn es
empiriques des sous-periodes , Le choix de k est fonde sur un tes t statistique

242

Pratique du calcul bayesien

Figure 13.5 - Ruptures et cha ngements de regime.

discutable, meme pour un statist icien classique. Le resultat est que, assez systernat iquement, la meth ode de segmentation surestime le nombr e de da tes de
rup tures sur des series relativement courtes (inferieures a 100 ans par exemple).
Dans un tel contexte, il est difficile d'accorder aux dates detectees le sens de
parametr es fixes qui sera ient , par exemple, associees a des causes precises identifiables. Il nous semble cependa nt que c'est ici une hypot hese sous-jace nt e au
modele M k comme au modele kh : d 'ailleurs.
Cela nous ramene a notr e interrogation de l'intr odu ction qu ant a la possibilite de prevision (au-dela des ti annees) de ce mod ele !'vh . Quelle persistance accorder a la derni ere moyenn e retenue pour l'extr ap oler vel'S le futur ?
On not era que cette hypo these de persist ance predictive peut et re plus fiab le
lorsqu'on suppose l'exist ence d'un seul changement, pour autant que celui-ci
n'intervienn e pas au cours des ultimes dates d 'observation de la periode . Cepend ant le modele de sauts multiples det errninistes perm et la mise en evidence
retro spective (sur les donn ees chronologiques observees) de sauts significat ifs
du point de vue de l'analyse statist ique.
Dans le but de faciliter la comprehension du lecteur , le modele lIh est
detaille dans ce chapitre avec une observable censee suivre la loi norm ale. Bien
ente ndu , d 'autres distributions peuvent et re envisagees, notamment la loi de
Gumbel appreciee des hydrologues pour la representation des debits maximaux,
comme ceux de la Dord ogne a Cenac (fig. 13.2). Le fil conducteur rest e Ie
meme mais les difficultes techniques sont d'un autre niveau . Le lecteur interesse
tro uvera la transpos itio n des mode les de ce chapitre au cas de la distribut ion

13. Modeles de changements caches


de Gumbel dans l'annexe H, en particulier

13.2.3

243

a la section H.

Modele Ma (autoregressif, k ruptures)

II peut arriver que les processus observes possedent une mcmoire interne
representee par un modele auioreqressi] markovien du premier ordre :

Vt : yt == A + <P (Yt-1 - A) + Ct,


,

ct

V'

r-;

iid

dnorm (0, h)

Remarque 13.3 Au chapitre 10, nous avons vu ce modele en posant A == 0.


En cas de changement de regime, I'esperauce de l'observable au temps t doit
etre affectee d'un indice j qui indique le regime actuel (j == 1,2, ... ,k) :
Mt == Aj

+ <P (Yt-1

- Aj) == Aj (1 - <p)
~

+ <PYt-1 == 1/Jj + <PYt-1

'4Jj

En d'autres mots, dans Ie regime j, la distribution de chaque observable yt


ne depend du passe que par I'interrnediaire de la seule valeur Yt-1 precedente
(conditionnellement aux parametres 1/Jj, <P, h) :

Tj

Dans le cas OU on envisage k ruptures a des dates inconnues et incertaines


(j == 1,2, ... ,k), la densite de probabilite de l'observation Yt s'ecrit :

OU, en posant

TO

== 0, on a
t ==

Tj -1

+ 1, ...

,Tj,

== 1, 2, ... ,k

Ici, on fait ainsi I'hypothese que le changement n'intervient pas sur la memoire du processus representee par le parametre de correlation temporelle ip,
On pourrait, bien sur, envisager d'autres modeles. En fait, celui-ci sera surtout utilise pour donner un exemple de l'effet de la mcmoire sur l'inferencc
concernant Ie changement.

13.3

Representation des distributions a priori

Dans tous les cas qui nous occupent ici, les dates de changements sont incertaines". A chaque date de la scrie initiale, on va associer une probabilite d'etre
1 Ce ne serait pas le cas si, par exemple eu egard it la crue annuelle d'un fleuve, on disposerait
de l'information que telle annee on a fait d'importants travaux de genie civil en amont de la
station de mesure (betonnage des rives, dragage, etc.).

244

Pratique du calcul bayesien

une date de rupture. La specification complete des modelcs de changement necessite la construction des distributions a priori. Cette partie de la modelisation
est capitale. Nous insisterons d'ailleurs sur la sensibilite des resultats aux priors
mal elicites.
II faut souligner dembiee les difficultes liees au choix de priors non informatifs impropres sur les parametres. Ce ne sont pas tant les dates de changements
qui posent probleme, car ces dates ne peuvent prendre leurs valeurs que sur
un ensemble fini et toute distribution sur un tel ensemble ne peut etre que
propre. II n'en est pas de meme pour les autres parametres des modcles. Pour
ces derniers, la structure des modeles conditionnels peut favoriser le choix de
priors adaptes comme les distributions conjuguecs naturelles qui seront generalement assez souples pour les modeles envisages. Nous les adopterons ici. Pour
lc modele normal, on retrouvera des conjugues naturels similaires a ceux deja
rencontres aux annexes A et D. Ils imposent une dependance entre la precision
h et les moyennes f-Lj' A cet egard, rappelons que la section H de l'annexe H
detaille le cas du modele de Gumbel bien plus difficile, car il ne possede pas de
conjugue pour tous ses parametres.
Pour ce qui concerne les modeles M 1 et Alk , il est evident que plus la serie
entre deux dates de rupture consecutives est courte (ou entre l'origine et la
premiere rupture ou entre la derniere rupture et la fin de la serie}, plus le poids
des a priori devient tres grand. La vraisemblance u'et.ant plus preponderante
(quand elle l'est, elle justifie le choix des priors non informatifs), on trouve la
une critique fondee a l'encontre de la methode de (Lee et Heghinian, 1977),
souvent utilisec et que nous verrons plus loin.

13.3.1

Prior pour les dates

Pour les modelcs M 1 , M k et }vIa, des priors non informatifs propres pour
les dates de rupture T1, T2, ... sont possibles.
On postule un seul changement
Dans ce cas, T rcpresentc la date de rupture. Par convention, le changement
de regime debute a la date suivante (fig. 13.2).
Soit un temps initial to == O. La premiere observation a lieu au temps t == 1
et la derniere au temps t == n, En cas d'une seule et unique rupture, les deux
cas extremes sont :
- la rupture arrive en t == 1 et donc le changement de regime debute en
t == 2;
- la rupture arrive en t == n -1 et le changement de regime debute en t == n.
Par consequent, si on choisi au hasard une date de rupture, T, c'est forcement une date comprise entre 1 et ti -1. Le domaine D de Test donc l'ensemble
des entiers {I, 2, ... n - I}. Un prior non informatif est la repartition uniforme
sur D, soit :
(13.2)

13. Modcles de changements caches

245

Ainsi, la date de rupture Test independante des autres parametres.

Remarque 13.4 Si a l'issue de l'inference on trouvait que T == 1 (respectivement T == n - 1) supporte l'essentiel de la masse de probabilite, le pseudochangement de regime debuterait a la date t == 2 (respectivement t == n). II est
evident que ces cas extremes n'ont aucune valeur pratique. Le cas OU T == n
est incompatible avec l'hypothese d'un changement de regime sur la periode
1,2""

.n.

On postule k changements
Selon notre convention, Tj represente la date de rupture, qui debute a la
date tj == Tj+1 (j == 1,2"" ,k). Par la pensee, on place les k dates de ruptures
Tj dans une urne et on effectue k tirages au sort sans remise (car deux dates
ne peuvent etre confondues).

Note 13.1 Pour marquer la difference entre Ie jieme tirage Tj et la jieme date
de rupture dans l'ordre chronologique, on note cette derniere T(j).
Soit Tune date fixee comprise entre 1 et n - k. Quelle est la probabilite Pk
que les k tirages successifs T(1)' T(2) , ... ,T(k) soient tous plus grands que T? Pour
T(1) il y a n - T - 1 positions satisfaisantes sur n -1 positions possibles; pour Ie
deuxierne tirage T(2) , il y a n - T - 2 positions satisfaisantes sur n - 2 positions
possibles; etc. Pour le dernier tirage, il y a n - T - k positions satisfaisantes
sur n - k positions possibles. Des lors :
Pk

n-T-1

n-T-2

n-1

n-2

== - - - - x

x .. x

n-T-k
n-k

(13.3)

Mais Pk c'est aussi, par definition, la probabilite que le minimum des k dates
tirees, c'est-a-dire la premiere date de rupture T1, soit strictement superieur a
T:

Pr (T1 > T) == Pk
Des lors, on obtient la fonction de repartition a priori de T1
Pr (T1 < T) == 1 -

n-T-1
n-1

n-T-2
n-2

n-T-k

x ... x - - n-k

(13.4)

L'echantillon complet des k dates peut etre affecto en iterant k fois cette
formule c'est-a-dire :
- T1 est simule selon la distribution 13.4;
- T2 est simule dans la distribution 13.4 que l'on decale d'un indice; cette
modification s'obtient en remplacant n par n-T1, k par k-1 et l'ensemble
fini {I, 2, ... n - k} par l'ensemble fini {T1 + 1, ... , n - k - I}.
Ainsi, les dates de rupture T == (T1' ... ,Tk) sont indepcndantcs des autres
parametres.

246

Pratique du calcul bayesien

Remarque 13.5 Une autre methode, plus brutale, serait de tirer k valeurs
independantes dans l'ensemble fini initial, en eliminant les tirages multiples
montrant des dates confondues. Si les series ne sont pas trop courtes et k pas
trop grand, la proportion de rejets reste raisonnable. Nous preferons la premiere
methode que nous retiendrons pour la suite.
Remarque 13.6 Dans le logiciellibre R, la fonction sample (tirage multiple
fini sans remise) permet de s'affranchir de ces formules.

13.3.2

Prior pour les autres parametres

Rappelons que k dates de rupture entrainent k

+ 1 periodes intercalaires

dimB == 2 (k + 1)

B == (T1, ,Tk, f-L1, ,f-Lk+1, h),

(13.5)

Remarque 13.7 Pour transposer au modele de Gumbel, on remplace h par p


(voir annexe H).
On doit donc adopter des priors propres pour lesquels deux questions sont
alors posees :
1. quels priors propres choisir?
2. comment eliciier ces priors?
L'independance postulee entre T et les autres parametres permet de scinder
le prior conjoint
(13.6)
[B] == [T; u, h] == [T] [f-L, h]
Dans le cas des modeles gaussiens, nous ferons l'hypothese que, conditionnellement a h, les niveaux f-Lj sont independants.
k+1
[f-L1' ... ,f-Lk+1, h]

== [h]

II [f-Lj Ih]

(13.7)

j=l

Nous adopterons le prior conjuque gamma-normal tres employe dans les applications, mais en nous placant dans un contexte peu informatif. En effet, dans
de nombreux problemes reels, l'information a priori sur les sous-periodes est
tres reduite. C'est pourquoi nous adoptons l'hypothese de prior echangeable :

rv

Le parametre a

dgamma(c,d) , Vj: f-Lj

r-;

dnorm(m,ah)

(13.8)

(a fournir) sert a degrader quelque peu la precision h.

Remarque 13.8 Avec ces hypotheses, on peut aussi representer l'infomation


a priori sur f-L == (f-L1' ... ,f-Lk+ 1)T par une loi normale multivariee

[p,lm, h] ex

IP1 1/ 2 exp ( -

(p, - mf P (p, - m))

(13.9)

13. Modeles de changements caches

247

avec

m == (m1, ,mk+1)T

P ==

ahIk+1

(13.10)

ou mj == m (Vj) et OU I k + 1 est la matrice unite de dimension k + 1, i. e. une


matrice carree avec des 1 sur la diagonale et des 0 partout ailleurs.
Quels que soient les experts et les informations utilisees, il est vain d'eliciter
separement autant de parametres. En revanche, on peut demander a ceux-ci,
par exemple de parier a priori sur les parametres h, f-L (ou p, f-L pour le modele
de Gumbel traite en annexe H) de la variable phenomenologique en jeu, quitte
a tenir compte de changements possibles en majorant l'incertitude sur les
u par une augmentation arbitraire mais finie de la dispersion ainsi elicitee. Les
methodes d'elicitation employees ont ete decrites dans le chapitre 7.
En l'absence d'avis d'experts, nous recommandons la methode utilisee par
(Perreault et al., 2000) qui est de rcserver les no premieres valeurs de la seric
observee au site s etudie, pour un echantillon de calage des parametres u et
h (eventuellement amelioree par les informations conjointes a plusieurs sites).
Cette information de calage est utilisee pour evaluer un prior auquel la vraisemblance du n - no echantillon restant est combinee par la formule de Bayes.
Ccncralcment no est choisi de l'ordre de quelques unites (p. ex. no == 5). Cette
methode suppose bien entendu qu'aucun changement ne survient sur les premieres valeurs de la serie. Pour ce qui concerne les f-Lj multiples et en l'absence
de toute information qui les differencie, l'hypothese a priori la plus plausible
est de les supposer echangeables, c'est-a-dire independants et distribues selon
la meme loi normale ou gamma.

13.4

Etude du modele M k

Puisque Ie modele M 1 n'est que le cas particulier de Mi. pour k == 1, nous


passons a l'infercnce bayesienne de Mi. dans lequel k ruptures interviennent
aux dates 1 :S T1 < T2 <
< Tj < ... < Tk :S n - 1 et sont associees a
des esperances f-L1, f-L2, ... f-Lj,
,/-Lk+1 pour les k + 1 periodes intercalaires. La
precision de la loi normale, h > 0, est supposec invariante.
Pour simplifier les ecriturcs posons :

n1
nj
nk+1

== T1
== Tj == n 1

Yj == -n
J

Yji

Tj-1 OU 2 :S j :::; k
Tk

L
Tj

t=Tj-l

Yt
+1

== Yt OU i == t

- Tj, i

==

1, ...Tj+1

La figure 13.6 illustre ces conventions avec k == 2 et n == 26.

248

Pratique du calcul bayesian

X2,6 = XIS

1:1

Figure 13.6 - Explicitation des conventions rl'ccriturc : k date de rupture == k


groupes.

+1

Pour expliciter la vraisemblance, on rappelle qu'au sein de la periode homogene j :


nj

nj

~ (Yji - Mj)2 == ~ (Yji - Yj)2


i=l

+ nj (Yj -

Mj)2

i=l

En tenant compte de toutes les periodes :


k+1

nj

k+1

nj

k+1

~ ~(Yji - Mj)2 == ~ ~(Yji - Yj)2 + ~ nj(Yj - Mj)2


j=li=l

j=li=l

j=l

Cette identitc de Huygens est bien connue en analyse de variance. Le premier


terme du second membre ne depend que des donnees. Nous le noterons Q :
k+1

nj

Q == ~ ~(Yji - Yj)2
j=l i=l

(13.11)

Si les dates Tj sont fixecs a l'avance, I'inference sur Ie modele Mi. revient
tout simplement a faire inference sur le modele d'analyse de variance (Box et
Tiao, 1973).
Lois a posteriori pour Ie cas normal
L'annexe 13 de ce chapitre, section H prouve que:

13. Modeles de changements caches

249

- la distribution conditionnelle a posteriori de J-Lj a h lorsque les temps de


rupture sont 7 fixes est normale de moyenne mj et de precision hj avec

m'. ==
J

am+njYj
a+nj'

h ' , == (a + nJ ) h
J

(13.12)

- la distribution conditionnelle a posteriori de h a 7 fixe est une loi gamma


de parametre de forme c' et d'inverse echelle d' avec

d' ==
- la distribution marginale a posteriori de
proportionnelle a

! (2d + Q + T)

(13.13)

est discrete entre 1 et n et est

(13.14)

13.5

Methode dinference

Ce paragraphe concerne la mise en ceuvre calculatoire de l'infcrencc des


modeles de changements precedents a partir des equations 13.14+13.13 + 13.12.
Unc solution analytique complete de la loi conjointe du posterior est connue
pour le modele normal avec k == 1. La distribution a posteriori de 71 est alors
calculable exactement pour toute date possible. Ce sont les autres cas qui posent
problemes, car 7 y est multiple. Nous allons mettre en oeuvre I'echantillonnage
ponderc avec re-echantillonnage decrit au chapitre 4, paragraphe 4.4.3, sous
une forme legerement etendue. La procedure dinlerence proposcc se decompose
ainsi :
- l'algorithme cl'echantillonnage pondere (voir p. 77) est applique a la loi
13.14 pour simuler des 7 a partir du prior [7] pris comme fonction d'importance;
- par tirage pondere avec des poids proportionnels a

C II (a+nj )-1/2
dF!

f( ')

k+1
j=l

on obtient un echantillon equipondere de [7Iy];


- le parametre de precision est obtenu par tirage dans la loi gamma donnee
a l'equation 13.13 ;
- le parametre de moyenne est obtenu par tirage dans la loi normale donnee
a I'equation 13.12.
Ce procede par etapes successives est une illustration simple de la methode
sequentielle que (Cappe et al., 2004) appellent Population Monte-Carlo.

250

13.6

Pratique du calcul bayesien

Choix de k :
ou selection bayesienne de modeles

Les formulations precedentes posent d'emblee les modeles Mi. en specifiant


les hypotheses de base. Cependant, notamment en phase d'etude exploratoire,
on ne peut savoir s'il y a des changements ou quel est leur nombre. Nous nous
limiterons a une introduction de quelques outils utiles a la solution de ces
problemes souvent complexes (Parent et Bernier, 2007).

13.6.1

Le facteur de Bayes

Le facteur de Bayes intervient dans la comparaison bayesienne de modeles.


II a ete mcntionne au chapitre 7 sans que nous eussions besoin de le definir
formellement. Soit deux hypotheses, traditionnellement nommees l'hypothese
nulle, H o, et l'hypothese alternative, HI. On peut leur affecter une probabilite a
priori, soit [Ho] et [HI], et les revoir a la lumiere d'une information maintenant
disponible I : [HoII] et [HIlI].

Definition 13.1 Le facteur de Bayes est le rapport des probobilites a posteriori


des hypotheses nulle et aletrnative sur le rapport des probalnliies a priori de ces
memes hypotheses

(13.15)

Exemple 13.1 II pleuvra le prochain weekend (HI) ou il fera beau (H o).


L'equiprobabilite a priori de ces deux hypotheses traduit l'absence d'information exogene : [Ho] == [HI] == 0.5. Le jeudi preccdant ce weekend, le barometre
indique que la pression atrnospherique chute fortement. Cette information exogene, I, permet de soutenir le pari suivant : [HIlI] == p > 0.5. Par consequent,
B I O (I) == pi (1 - p) > 1. Jeffreys (1939), cite par (Robert, 2006), a elabore une
echelle fondee sur le logarithme du facteur de Bayes: In B I O (I). Par exemple, si
In B I O (I) > 2, la certitude que Hi, est fausse est decisive. Dans notre exemple,
il faut que p > e2 I (1 + e2 ) ~ 0.88 pour obtenir un tel degre de certitude.

13.6.2

Facteur de Bayes et rapport de vraisemblance

Choisir un modele dechantillonnage pour l'observable Y n'est pas si evident


que ca. Par exemple, le nombre d'accidents enregistres mensuellement a un
carrefour peut etre modelise par une loi de Poisson ou une loi binomiale negative; la concentration d'un polluant atrnospherique, peut etre modelisee par
une densite exponentielle ou une densite gamma, etc. Quand plusieurs modeles
d'echantillonnage sont en competition, ils apparaissent comme des hypotheses
auxquelles on peut accorder une probabilite a priori. L'information permettant
de les reactualiser est I'echantillon des observations disponibles, y.

13. Modeles de changements caches

251

Dans le cas de deux modeles, le facteur de Bayes s'ecrit


(13.16)

(j

La vraisemblance de l'echantillon y est conditionnelle au modele en main


1,2) :

==

(13.17)

A partir de celle-ci et de la probabilite a priori du modele M j , on calcule


tout naturellement sa probabilite a posteriori

L'introduction de cette probabilite a posteriori dans lc facteur de Bayes

(eq. 13.16) nous dit qu'il est equivalent au rapport de vraisemblance classique

[yIMo]
B Ol (y) = [yIM1 ]

(13.18)

Remarque 13.9 La densite predictive (eq. 13.17) montre bien que le prior ne
peut pas etre impropre, sinon le resultat numerique de la relation (eq. 13.18)
serait simplement proportionnel au vrai facteur de Bayes.

13.6.3

Choix de modele

Soit a choisir un modele M j parmi l'ensemble fini M == {Mj : j == 0,1, ... ,k},
chacun d'entre eux etant affecte d'une probabilite a priori, [Mj ] . L'approche
dite des rapports de Bayes utilise la demarche suivante :
- on calcule la distribution a posteriori [() j Iy , M j ] du parametre () j (eventuellement multidimensionnel) du modele M j et la densite predictive

[yIMj ] ;

- on calcule les probabilites a posteriori marginales de chaque modele:

[Mjly]

= ~YIMj] [Mj ]
E [yIMi ] [Mi ]

i=l

13.6.4

Note sur le choix de modele

Comme nous l'avons vu dans l'exemple 13.1, le choix de modele demande


l'introduction d'un parametre de credibilite, c'est-a-dire d'une probabilite a
priori sur chaque modele M, et a en faire l'inference bayesienne ordinaire. Elle
est cntiercment generale et s'applique aussi bien lorsque que certains modeles

252

Pratique du calcul bayesian

sont emboites que lorsqu'ils montrent des structures totalement differentcs.


Outre Jeffreys deja cite, (Kass et Raftery, 1994) intcrpretent le rapport B i j (y)
comme l'evidence, apportee par l'information y, en faveur du modele M, compare au modele M j . Comme I'evaluation des priors depend du probleme specifique traite, ils proposent un bareme indcpendant permettant un choix indicatif
entre deux modeles, Par analogie avec le test classique de la deviance, ils expriment leur proposition en prenant deux fois le logarithme du facteur de Bayes
(tableau 13.1).

Facteur de Bayes
de 0 a 3
de 3 a 20
de 20 a 150
> 150

u; (y)

21n(B i j

:::;2
de 2 a 6
de 6 a 10
> 10

Evidence de M,
Aucune
Positive
Forte
Tres forte

Tableau 13.1 ~ Choix de modele.

Dans les problemes de choix a posteriori global de modeles, ce bareme est


quelquefois utilise pour ecarter les modeles dans une premiere phase de selection. Nous l'utiliserons en comparant chaque modele au modele ]\;10 en calculant
-210g(B jo). Notons alors que toute difference 210g(B jo) - 210g(B j 0 ) exprime
le log-rapport de Bayes entre les modelcs M', et Mjl.
I

13.6.5

Avantages et inconvenients des facteurs de Bayes

Dans le contexte du choix de modeles, l'approche bayesienne presente de


nombreux avantages , mais les facteurs de Bayes ne se manient pas sans precaution, notamment a l'egard de l'information a priori.
Nous avons vu que lc resultat du calcul de [yIMj ] (eq, 13.17) n'est pas une
integrale definie quand le prior est impropre. L'approche generalement utilisee
pour contourner ce probleme consiste a utiliser un echantillon d'apprentissage
pour mettre a jour un prior impropre en une loi a posteriori propre. Cette loi
sera a son tour utilisee comme prior - cette fois integrable - dans une phase
d'analyse inferentielle et de selection de modele. C'est au fond raisonner dans
le cadre predictif OU sont distingues : echantillon de calage (ou d'apprentissage)
et echantillon de validation constitue par le reste des donnees.
Cependant, dans la mise en oeuvre du choix de modele, les densites predictives [yl1\Ij ] posent des difficultes de calcul meme si l'emploi aujourd'hui
generalise des methodes de simulation pour l'estimation bayesienne des parametres d'un modele fournit des solutions efficaces pour le calcul de ces facteurs
de Bayes.
Nous avons utilise l'approche de Raftery fondee sur la loi a posteriori et
la vraisemblance. La formule suivante, directement issue de la regle de Bayes,

13. Modcles de changements caches

253

est ainsi exprimee en mots: la vraisemblance moyenne inverse est l' esperance
harmonique (esperance de l'inverse) de la vraisemblance par rapport a la distribution a posteriori :
(13.19)
Cette approche est plus precise qu'un calcul par simulation de la moyenne
arithmetiquc par rapport au prior suggeree par l'equation 13.17. II n'en reste
pas moins qu'elle peut donner des ecarts sensibles entre plusieurs echantillonnages.

13.7

Applications

Toutes les applications ont ete obtenues par la methode d'importance sampling (voir chap. 4) sequentielle sur 10000 tirages ce qui semble suffisant d'un
point de vue illustratif. Pour le modele normal, Ie prior a ete cale sur les cinq
premieres valeurs des series du fleuve Senegal (fig. 13.3) et du fleuve SaintLaurent (fig. FigChap12 :04).

13.7.1

Application aux modules annuels du Senegal

L'observable est Ie debit moyen annuel. Le modele d'echantillonnage est le


modele normal. On a calcule lc rapport de Bayes B k O pour diffcrentcs valeurs
de k (tableau 13.2). Rappelons que la simulation porte toujours sur 10000
replicate.
k
21n B k O
j

21n B k O

1
22.77
8
22.02

2
23.14
9
21.18

3
20.45
10
21.37

4
22.42
...

.. .

22.56
15
21.68

23.61

22.81
20
18.45

. ..

...

Tableau 13.2 - Modeles de rupture et choix de modele.

Bien entendu memc avec 10000 tirages, les instabilites numeriques du calcul
par echantillonnage de 13.19 restent importantes sur les In B j o . Cependant, il
semble se degagcr la conclusion qu'il existe au moins un changement de regime
a partir d'une date voisine de 1967, car cette annee 1967 apparait dans tous les
modele Mi. du tableau 13.2. En revanche, aucun autre decoupage avec k plus
grand que 1 ne semble ressortir de facon significative par rapport au premier. A
titre de reference pour la discussion finale, la figure 13.7 montre la chronologie a
posteriori des sauts de medianes predictives (en trait fin) et celIe des moyennes
observees pour k == 6. On pourrait s'etonner des ecarts constates entre les deux
courbes, car mcdiane et moyenne normales COIncident si on ne se souvenait qu'il
s'agit d'un cote de moyennes observees et de l'autre des medianes predictives

254

Pratique du calcul bayesien

qui integrent toutes les incerti t udes, notamment et surtout celles concernant la
determination des dat es de changement.

1400

1200 ---.-

1000

Il

800 --- --- ,-------

-----

'~

600 ------

. f..

,- A.. ,.... +.. !

-..-.

"M----A~
- ...

\~

- VW

400

200
1900

1910

1920

1930

1940

1950

1960

1970

1980

1990

Figure 13.7 - Senegal : chrono logie a post eri ori des sauts pour k

13 .7.2

= 6.

Application aux apports ener ge tiques annue ls du


Sa int-Laurent (1943-2000)

L'application est interessante, car elle montre qu'on peut analyser aussi bien
des series plus courtes.
Pour le Saint-Laurent , toujours avec le modele norm al, nous avons ut ilise
les cinq premieres annees pour eliciter les priors. On rappelle que l'unite des
donnees est le 104 GWh.
La figur e 13.8 montr e la distribution a post eri ori de la dat e de cha ngement
event uelle (k=l) sur la period e [1947, 19991.
On constate un mod e principal en 1970 et un mode secondaire en 1968.
L'apparition de celui-ci est peut-etre due a une inad equation du modele. II se
peut aussi que le changement bru tal en 1970 doive et re rernplace par une
hypo th ese de vari atio n progressive de la moycnne sur 2 ou 3 ans. Un tel modele
pou rr ait et re aisement constr uit (Rena rd et al., 1988).
Comparon s m aint enant M,

a N12

Les graphiques 13.9 et 13.10 montrent les dist ribu tions a post eriori des
dates puis la chro nologie des apports moyens. Par ra pport au cas precedent ,

13. Modeles de changements caches

255

7
6

5
4

3
2

o
o

10

20

30

40

50

00

Figure 13.8 ~ Senegal: distrib ution a post eriori de la dat e de changement.


on remarqu e d 'emblee la net tet e des modes et des var iat ions de ces apports
moyens.
Les dispersions des deux dates restent assez fort es pour un mod e egal a 1955
pour le pr emier saut et 1968 pour le second . Cette disp ersi on renforce l'idee
d 'une var iation moyenne pro gressive sur qu elques annees,
Notons enfin qu e les rapports de Bayes logarit hmiques resp ect ifs 2 Iog(B lO )
et 2 Iog(B 20 ) sont ega ux a 16.51 et 29.65 ce qui sign ifie un e evidence t res forte
po ur k = 1 et encore super ieure po ur k = 2 en faveur d 'un ou deux cha ngements . Cette evidence est tres not able en faveur du second cas a l'egard du
premier.
Avant d 'aller plu s loin , quelques remarques sont utiles sur ces exemples.
1. Comme la somme des prob abilites est ega le a 1, les divers mod es ne
peuvent etre juges ind ep end amment les un s des aut res.
2. Jusqu 'a une date recent e, une methode pr opo see par (Lee et Heghini an ,
1977) a rencont re un certain succes aupr es des pr ati ciens. Cette methode
donn e une est imat ion bayes ienn e du meme modele normal avec k = 1,
avec to utefois des pri ors impropres pour la variance 1/ h et des hyp otheses
sur /.11 et /.12 qui impliqu ent egalement des priors degeneres pour ces paramet res. Cette method e a meme etc utili see comme test de signification
des sa uts. Certes, les dist ributions a posterio ri comme celle de T sont
bien definies, mais Ie probleme du choix de l'hypothese de changement
rest e ent ier. Cette methode est part iculierement sensible aux difficult es
d 'in terp retation deja vues. Les dist ributions impropres comme celles de

256

Pratiqu e du calcul bayesien

4
3
2

o
o

10

_I
30

40

50

40

50

60

x 10

4
3
2

o
o

10

JI

30

I
60

Figure 13.9 - Distribu tions a posteriori des deux dates.


Lee et Heghini an sont incompatibles avec Ie calcul d 'un fact eur de Bayes.
Cela est facheux, car il ne faut surtout pas conclure , en considera nt l'apparent e evidence tiree des graphiques precedents, que I'hypothese d 'une
seule rup ture est la seule credible. N' oublions pas que Ie calcul pr ecedent
est fonde sur l'hypo these qu 'un ou plusieurs sa uts existent . Ces methodes
doivent etre util isees avec precau tion .
3. Par ces exemples on voit cornbien la demarche bayesienn e pennet une
analyse assez fine des rnodeles de changements fixes a l'egard d 'une methode de segmentation comme la methode de (Hub er t , 2000). II rest e que
ces mod eles n'ont de sens que pour k assez pet it. Au-d ela de quelques
uni t es, les changements n'ont de sens qu 'en relation avec les phenomenes
aleatoires sous-jacents qui ont un lien de causa lite avec certaines caracte rist iques evoluti ves des distribut ions en cause.

13.7.3

Application du modele !vIa au Saint-Laurent

Le Saint-Laurent est un exut oire du syste me des gra nds lacs nord-americains.
Le desto ckage naturel de cet te reser ve d 'eau tres imp ortan te int roduit une memoire physique naturelie int erannuelle dans la sequence des ecoulements et
qu i retent it sur la produ ction energet ique. Statist iquement , cette memoire peut
etre confondue en partie avec un c non-stationnarite des donn ees. II est done
int eressant de tr ait or Ie problcrne du cha ngement dans Ie cadre d'un modele
aut oregressif M a . La t heorie est une copie quasi conforme de celie du mod ele

13. Modeles de changements caches

257

1.6

x 10

.~ ./ AA

1.4
1.3

1.2

....

t-.

M/IIi

.t,

1.1

IV

.........\1

iiI
V

0.9

1.5

1940

t\

1950

1960

1970

1960

1900

2COO

Figure 13.10 - Chronologie des apports moyens.

norm al M k (anne xe H, section H) , mais l'application aux apports energet iques


du Saint-Laurent est present ee ici.
On utilis e un prior caracterise par un 'P prob able assez eleve (0.75), assorti
d'un e imprecision assez grande pour accorder plus de poids aux observation s.
Les valeurs prob ables des autres hyperp ar arnetr es ont ete calcules par calage
du modele d 'autocorrelation classique sur les cinq premieres valeurs de la serie
tou t en redui sant la precision.
Pour ce modele, nous ne presenterons que les resultats obt enus avec la
methode d'importan ce sampling sequentielle du chapitre 4 sur 20000 tirages
(contre 10000 pour notre precedent e ap plicatio n).
La distribution a post eriori des temps de rupture T est don nee par la figure
13.11 ou elle est comparee a celle de M 1 (en t raits plus fins).
On constat e toujours la presence des deux pies (attenues cette fois) , mais
c'est sur tou t la plus grand e dispersion de T, marque d'une incertitude plus
grand e sur la dat e de rup ture, qui est a not er.
La figure 13.12 montre la distribution a post eriori de 'P. La dispersion est
assez forte autour d 'une valeur moyenne de 0.54. Remarquons que l'estim ation
classique du coefficient d'autocorrelat ion de la serie complete , quand on la
suppose stationnaire, est egale a 0.718.

258

Pratique du calcul bayesien

0 .35

0 .3

0.25

0 .2

0 .15

... .

0 .1

0 .05

194 0

1950

))
1960

\
1970

./'

1980

1990

2000

Figure 13.11 - Distribution a post eriori de T scion Ie modele Nh et Ie modele M a .

E ssa i d 'interpretation des resultats


L' effet d' une memoire interne dans la serie est en pa r tie confondu avec la
presence d 'une non-st ationna rit e. Si on n'en t ient pas compte , l'autocorrelat ion
augmente art ificiellement la credibilite reelle d 'un cha ngement dans la serie, Cet
effet de confusion est classique. 11 est en effet connu que la non- st ationnarite
peut renforcer l'effet de memoire en augmentant l'au tocorrelation , ce qu e l'on
constate encore.
On constate aussi que Ie pic du second mod e n'est pas net tement attenue.
Cela semble confirmer l'interpr etat ion qu e, s'il y a un cha ngement dan s la
serie, celui-ci n 'est pas brut al d 'une annee a l'a utre mais dem ande un cert ain
te mps pour s'e t ablir. 11 fau t to utefois ajouter que Ie traite ment de cet exemple
spe cifique du Saint -Laurent ne saurait derno nt rer a lui seul l' influence comparee
des autocorrelat ions et des non-stationnarit es sur la met hode d 'un point de vue
general.

13.7.4

D ebit s maximaux annuels de la Dordogne

a Cenac

Pour ce modele Gu mbel (voir annexe H), des pri ors gamma pro ches de
distributions non inform ati ves ont ete choisis. La figure 13.13 montre la distribu tion cumulee des pond erations norrn ees ut iles pour Ie re-echantil lonnage.
Ch aque unit e stat ist ique (nombre cumule en abscisse) est une trajectoire
des dat es de changements, c'est- a-d ire un e configuration de decoupage. Leur
prob ab ilit e a post eriori cumulee (en ordonnee) exprime leur contribution a leur

13. Modeles de cha ngements caches

259

700 r----,----,------.-----,------,-----,------,-----,----,------,

600

500

>.. .. ... ;

4 00

r;-: ,-:

300

r;--:,

200

r;:---t--

100 l-

; -

; -

-!- :

o'----'--- --o
0 .1
0 .2

0. 3

-.; -

0 .4

0_5

0 .6

0 .7

0 .8

0 .9

Figure 13.12 - Dist ributio n a posteriori de .p,

vra isemblance. On voit donc dir ectement la propor tion des t raj ectoires de changement qui ont une probabilite quasi nulle. Le pourcent age des valeurs utilisees
est au mieux 20%. Cela montre que l'information est reellernent det ermin ant e
a l'egard du prior uniforme.
Le logarithme du fact eur de Bayes est de 17.58 pour ce modele M} cont re
Ie modele sans rup ture, ce qui indique une evidence particulierement t res forte
en faveur d'un cha ngement.
La figure 13.14 montre d'une par t la distribution a post eriori de la date de
ce cha ngement suppose uniqu e et d 'autre part la difference la plus prob ab le (en
1944) des debits maximaux annuels medians (voir formule H.12 de l'ann exe H).
La dist ribu tion des dates est par ti culierement concent ree autour de 1944, mais
cette concent ra t ion ne serait pas une preuve d'un changement (dont Ie modele
impliqu e l'existence) si nous n'avions pas Ie rapport de Bayes.
II faut not er que 1944 est au debu t de la periode de const ruction de l'essentiel
du syste me de barrages-reservoirs de la Dordo gne amont (incluant notamment
celui de Bort-Ies-Orgues) et dont Ie cha ntier fut acheve vers 1952. De plus, la
decennie 1940 est reconnue par la communa ute des hydrologues comme une
periode assez longue d'et iages severes dans l'ensemble des rivieres en France
avec Ie record absolu de 193 m 3 / s en 1948 qu 'il n'est pas contradictoire de
retrouver dans la seconde period e plus seche. La rencontre de ces circonstances
explique done assez bien les resultats statistiques.
Ces donnees montrent assez bien les difficultes d'interpretation du rapport
de Bayes lorsque les sous-periodes les plus prob ables concerne nt trop peu d'an-

260

Pratique du calcul bayesien

0.8

///

0.6
0.4
0.2

o
o

//

//

)/
..

2000

Figure 13.13 - Dordogne

6000

a Cenac

8000

ioxo

: dis tribution cumul ee des ponderations.

nees. Ainsi, en testant M 2 , le logarithme du rapport de Bayes est 23.18, ce


qui devrait indiquer une forte eviden ce de !vIz vis a vis de !vh. Mais les dates
optimales immediat es avant changements sont 1947, 1948, ce qui isole l'annee
seche 1948 des deux autres sous-periodes, comme le montre la figure 13.15.

13 .8

Discussion

On pourrait penser que l'hypothese de dates fixes est trop rigide, not amm ent
dans un cont ext e de prevision. Des modeles decr ivant des changements d' au t res
parametres, comme les dispersions, ont ete proposes (Perr eault, 2000). Dan s
une optique de prevision , on pourrait preferer des mode les OU des sequences de
dates de changement et de regimes /--lj sont regis par un mecanisme stochastique de rappel , au moins si ce mecanisme est decrit par un nombre limite de
parametres comme les processus de Markov. Dans cette optique, les modeles
de processus markoviens caches (H M Men anglais) font maintenant l'objet de
developpements particulierement interessants (Robert et Casella, 1999). (Fortin et al., 2004) ont applique un modele de ce typ e, le Shifting level model ,
du a (Salas et Boes, 1980). Ce modele repose sur l'hypothese d'un mecanisme
comp leternent aleatoire du changernent des rnoyennes. Cela irnplique que les
durees des sous-periodes soient distribuees selon une loi geom etrique, C'est une
hypothese de structure a priori tres forte donn ant des dates de rup ture pouvant
etre tres different es de celles obt enues avec notre modele !vh, merne pour des

13. Modeles de changements caches

261

.."
,
.
,

,
0

II

Figure 13.14 - Dordogne

a Cenac

: distribution de la dat e du changement .

k assez grands . D'autres consequences de ce modele sont importantes, notamment l'existence d'u ne aut ocorrelat ion interannuelle qui peut et re confondue
avec celie d 'un mod ele autoregressif.
La recherche de changements dans les series d'observations naturelles de
longueur s essent iellement limitees rest e un prob leme difficile. II n'est pas sans
interet de rapprocher cette recherche de celie qui a longtemps preoccup e certa ins geophysiciens : la detecti on des periodicit es. Compte tenu de la longueur
limitee des series, de leur s incertitudes et de leur comporte ment aleatoire, les
methodes ut ilisees peuvent generer des periodes ou chan gement s apparents qui
ne sont que des artefacts stoc hastiques. Ces difficultes ne font que croit re si on
y rajoute certaines croyan ces a priori fortes sur l'importance d'effets ant hropiques.

Epilogue
Dan s ce chapit re, nous nous Hommes limites au developp ement de mode les
de cha ngements caches dans les processus temporels avec des ruptures a dates
fixes et en nombre k fixe. Nous avons discut e du choix du nombr e k de ruptures
grace au facteur de Bayes. Ce facteur de Bayes s'inscrit dans un cadre decisionnel, bien approprie aux problemas de validation ou de choix de rnodeles.
L'approche bayesienne met une nouvelle fois l'a ccent sur la form alisation de
toutes les hypo th eses fond ant les modeles. Ainsi en dehors de celles concernant

262

Pratique du calcul bayesien

1800
.. ...

1600
1400

..

1200
100J

---_.

..

.. . .

...

---_. f

..1/.
.

~.

.'.

IA \1

..

800 .....-

600

...

.\/ ...

400

200

19:x)

192)

Figure 13.15 ~ Dordogne

1940

a Cenae:

100)

1930

visualisation de

2020

""1 ,""2 ,""3 dans Ie cas M 2 .

les distributions, seule l'hypot hese du choix de k est deterrninante . Aucune hypothese n'est faite a priori sur la repartition de ces dates de changement. D'un
certain point de vue , on pourrait dire que la methode present e un certain cote
non parametrique des changements qui se compare avantageusement a la methode de segmentation de (Hubert , 2000). Bien sur , l'existence de changements
sous-jacents ne peut et re dernontree ; changements fixes ou aleatoires sont des
hypotheses de structures a priori qui ne sont pas anodines. Leur validation
prend toute son importance pour la fiabilite des previsions .

Chapitre 14

Conclusion
Dans l'avant-propos, nous avons declare que notre ambition etait une qualification operationnelle en statistique bayesienne avec, pcut-etre, quelques incursions au niveau maitrise. Avons-nous reussi ? Le lecteur serajuge. Bien sur, nous
n'avons jamais dit que ce serait facile, mais avons-nous dit que c'etait utile?
Cette question iconoclaste meritc qu'on s'y attache quelque peu. Avec d'autres
auteurs, par exemple (Bernier et al., 2000)(Robert, 2006) et (Parent et Bernier,
2007), nous avons insiste sur le fait qu'un modele probabiliste ne vise pas l'explication du phenomene dinteret, mais, et plus sobrement, une interpretation
de celui-ci, souvent dans une perspective decisionnelle. Dans cette optique, le
role du statisticien est de fournir une aide it la decision au(x) decideurfs). Cette
idee n'est pas neuve, mais sa mise en oeuvre dans un cadre bayesien est assez
recente, du moins pour les modeles realistes qui impliquent la souris. On
peut en effet affirmer que c'est la mise sur Ie marche d'ordinateurs personnels
puissants (et financierement accessibles) qui a veritablcment donne son essor
aux methodes bayesiennes, Cela etant dit, y a-t-il des decideurs qui fondent leur
choix sur une analyse quantifiee du risque global porte par chacune des decisions en competition? Des evcncmcnts recents comme la creation des produits
toxiques en finance pourraient nous inciter it penser qu'une gestion rationnelle
des risques est une vue de l'esprit reserves it des chercheurs deconnectes du
monde reel. Cependant, nos nombreux collegues et amis qui travaillent dans
les services operationnels de grandes institutions privees ou publiques peuvent
temoigner de l'importance d'une approche rationnelle. Certes, les motivations
different selon le secteur dactivite. mais tous ces services operationnels ont en
commun le souci d'exploiter au mieux l'information disponible pour aider it la
decision en avenir incertain.
A une echelle plus modeste, l'activite de recherche consiste essentiellement
it tester des hypotheses it partir dexperiences ou d'observations plus ou moins
bien controlees, Dans cette perspective, l'apprentissage de la modelisation probabiliste est incontournable. II serait en effet dommage qu'un chercheur ruine
les efforts qu'il a consentis pour recueillir des donnees en ne respectant pas

264

Pratique du calcul bayesien

les principes de base de l'inference statistique : deduire les causes, 0, a partir


des effets observes, y, en prenant en compte la nature probabiliste du modele,
[yIO, x], et l'infiuence de facteurs agissants, mais non pris en compte dans l'analyse (c'est-a-dire les facteurs autres que x supposes, ici, connus). A condition
d'accepter le caractcre incertain de et de le probabiliser, la regie de Bayes
resume ces principes a l'aide d'une formule d'une elegante simplicite

[01y,x ] == [yIO,[y]x] [0]


A l'issue de l'inference bayesicnne sur 0, une nouvelle information exogene,
X n ew ,

permet de predire la variable endogene non encore observee,

[YnewIx new, Y, x] =

Ynew :

isr [Ynewle, x new] [ely, x] de

Cette distribution predictive a posteriori n'a pas dequivalent classique.


A une echelle encore plus modeste, l'apprentissage de la modelisation statistique bayesienne dans lc cadre d'un cursus universitaire peut etre defendu par
son cote educatif. La rigueur de la demarche bayesienne et l'interpretation des
resultats obtenus renvoient davantage a une tete bien jaite plut6t qu 'a une tete
bien pleine. De ce point de vue, un cours de statistique bayesienne participe
pleinement a la formation de l'esprit critique.
Finalement, tant dans les services operationnels des grandes institutions,
que dans unites de recherche ou les arnphitheatrcs, la representation d'un modele bayesien par un DAG permet de bien distinguer la partie crcatrice de la
partie calculatoire et, par la, favorise les approches multidisciplinaires.
Quel que soit le niveau, nous pensons que la pratique du calcul bayesien est
utile et nous esperons que cette contribution plaira aux etudiants, chercheurs
et professionnels de recherche qui nous ferons l'honneur de s'y interesser.

Annexes

Chapitre A

Annexe du chapitre 1
Ie modele normal

Loi normale unidimensionnelle


La loi normale unidimensionnelle est un modele statistique parametrique
approprie pour representor des quantites incertaines, mais continues, pouvant
etre interpretees comme une somme algebrique d'un grand nombre de phenomenes elementaires d'importance comparable. Cette distribution, fondee sur
les travaux de Jacques Bernoulli (1654-1705), est souvent attribuee a Laplace
(1749-1827) et a Gauss (1777-1855). C'est pourquoi elle est aussi connue sous
Ie nom de loi de Laplace-Gauss.
Considerons la fonction de densite de probabilite d'une variable aleatoirc
reclle, Z, distribuee selon la loi normale standard :

[z]

== - 1

y'21r

exp

(Z2)
-2

(A.I)

La combinaison Iineaire, Y == J-L + a Z OU J-L E 1R. et a > 0, est une variable aleatoire reelle, Son esperance et sa variance sont respectivement : J-L ==
E (YIJ-L, a) et 0'2 == V (YIJ-L, a). Sa densite de probabilite est obtenue en substituant y:J-t a z dans la relation (eq. A.l) multipliee par le Jacobien, ici
1/2.
0'-1 == 7
On reconnait la densite de probabilite d'une variable aleatoire
normale, Iocalisee sur J-L et de precision 7 :

Les deux distributions suivantes, fondees sur la loi normale standard, font
partie de la boite a outils du statisticien.

268

Pratique du calcul bayesien

Loi du khi-deux
Considerons la suite Zl, ... ,Zk de k variables aleatoires reelles iid selon la
k

loi normale standard (k ~ 1). La somme de leur carre, soit U ==

L: Zi, est une

i=l

variable aleatoire definie sur les reels positifs. Elle est distribuee selon une loi
du khi-deux a k degres de liberte :

Ulk

r-;

dchisq (ulk) {:} [ulk] ==

( 1/ 2)k/2 k 2 1
r (k/2) u / - exp (-~)
2

On reconnait une densite gamma (voir B), de parametre de forme


et de parametre d'echelle (3 == 2 :

(A.3)
Q

==

k/2

E (Ulk) == k, V (Ulk) == 2k

Loi de Student
Soit Z une variable aleatoire normale standard et U, une variable aleatoire
reelle positive, independante de Z, distribuee selon une loi du khi-deux a k
degres de Iiberte,
La variable aleatoire
T== _Z_

JUjk
est distribuee selon la loi de Student standard

Tlk

rv

dt (tlk)

r-;

[tlk]

=B

(!,~)

ak

degres de liberte :

Vk

(t
+k

2) -

k;l

(A.4)

Son esperance est evidemment nulle (loi syrnetrique centree sur zero) et sa
variance depend de kENo :

Remarque A.I Lorsque k tend vers l'infini, la densite (eq. A.4) tend vers la
loi normale standard.
Si on applique une transformation lineaire a T, par exemple Y == J-l + a'T
ou a > 0, on obtient une loi de Student a v ~ 1 degres de liberte, localisee sur
J-l et de parametre d'echelle a > 0 :

Annexe A

269

Inference bayesienne sur les parametres d'une loi


normale unidimensionnelle
De la plume

a la

souris selon Ie prior

Soit YIJL, T ~ dnorm (yIJL, T) l'observable d'interet et soit y == (Yl' ... ,Yn)
un n-cchantillon iid.
On peut construire le prior joint comme suit :
1. la regle des probabilites conditionnelles permet de crcer une dependance
entre JL et T : [JL, T] == [JLIT] [T] ;
2. une loi gamma offre une grande souplesse pour decrire un etat de connaissance sur une precision: Tla, b ~ dgamma (Tla, b);
3. La moyenne JL etant un parametre de localisation, un prior normal est
un choix judicieux : JLlm, k, T ~ dnorm (JLlm, kT); l'hyperparametre k
est compris entre 0 et 1, car il est prudent de degrader quelque peu la
precision.

Cette construction permet de faire tous les calculs a la plume, car toutes
les integrales ont une solution analytique. A contrario, I'independance a priori
des parametres JL et T fait que certaines integrales n'ont pas de solution analytique! II faut alors recourir a l'ordinateur. Nous ne traitons pas ce cas ici.

Distribution conjointe a posteriori


La moyenne et la variance des observations sont respectivement :
-

Y ==

n1 ~
L..J Yi

i=l

== n

En

i=l

_ 2

(Yi - y)

(A.6)

L'hypothese iid permet d'ecrire la vraisemblance du n-echantillon iid comme


suit:
[ylJ-l, T] a Tn / 2 exp ( + (J-l _ fj)2) )
(A.7)

n; (82

La densite du prior joint s'ecrit :

[JL,T] ==

1
{f;---T-2-r (a)
ba

21r

2a+l

(T (

2))

exp -- k(JL-m) +2b


2

(A.8)

Remarque A.2 Pour obtenir la densite marginale a priori de JL, il suffit d'integrer l'expression (eq. A.8) par rapport a T. Apres quelques manipulations
algebriques, on trouve que c'est une loi de Student a 2a degres de Iiberte, 10calisee sur m et de parametre d'echelle c == Jb/(ka).
Posons que H representc toutes les hypotheses, notamment les hyperpara-

metres a, b, m, k.

270

Pratique du calcul bayesien

La regle de Bayes et quelques manipulations algebriques conduisent au posterior joint :


v' +1

[IL, 71Y, H] ex 7-2-

1exp (-b,7) exp (7


-2" (n + k) (IL - m ,2)
)

(A.9)

ou
"21 ( tis 2 + 2b + n nk
+ k (jj - m) 2)

b'
v'

(A.I0)
(A.II)

n+2a
ny+km
n+k

m'

(A.12)

La constante de normalisation est obtenue par la double integration de la


relation (eq. A.9) :

D=

J+
n

21f

r (v' /2)

(A.13)

k b'V' /2

Les distributions marginales a posteriori


Parametre IL

L'integration de la conjointe (eq. A.9) par rapport

a7

conduit au resultat

suivant :

[Mly,H]

= B

IL - m'

(~,~) c'/IJ ( 1 + v' (-c-,-)

2) -(v' +1)/2
(A.14)

ou
c'

b'
(a+n/2)(n+k)

==

(A.15)

On reconnait une densite de Student (eq. A.5), a v' degres de liberte (eq.
A.II), localisee sur m' (eq. A.12) et de pararnetre d'echelle c' (eq. A.I0 et eq.
A.15) :

Parametre

L'integration de la relation (eq. A.9) par rapport a IL conduit a une densite


gamma, de parametre de forme v' /2 (eq, A.II) et de parametre d'echelle inverse
b' (eq. A.I0) :

Tly,H

rv

dgamma

(TI~ 'b

l
)

(A.16)

Annexe A

271

La distribution predictive a posteriori


Dans le cas present, l'observable est une variable aleatoire reelle Y. On a
observe l'echantillon y qui est vu comme des tirages aleatoires indepcndants
(hypothese iid) dans la distribution de probabilite choisie pour modeliser la
repartition de l'observable Y. Ce modele est caracterise par un parametre e.
On s'interroge alors sur les chances que cette observable depassc une certaine valeur Yo fixee (anticipation de l'avenir) quand on dispose des donnees y
(connaissance du passe).
Pour bien distinguer les choses, l'observable Y est notee Z quand on l'envisage dans le futuro
Si on dispose de la fonction de densite de probabilite de Z conditionnellement a l'echantillon y (connaissance du passe), nous la noterons [zly]' l'anticipation revient a calculer l'integrale suivante :

Pr (Z > yolY)

(JO [zly] dz

(A.17)

yO

L'astuce consiste a voir que la densite [zly] peut s'ecrire sous la forme d'une
distribution jointe que l'on somme (integre) sur toutes les valeurs possibles du
parametre :

[zly]

[z, ely] de

[zle, y] [ely] de

Or, conditionnellement au parametre e, la densite au point z ne depend


pas de l'echantillon precedemmcnt observe, y. Par consequent la fonction de
densite de probabilite de Z au point z, conditionnelle a l'echantillon y, apparait
comme le produit de la vraisemblance du point z par la distribution a posteriori
du parametre qu'il faut integrer sur tout son domaine

[zly]

[zle] [ely] de

(A.18)

La densite [zly] est appelee densiie predictive a posteriori. Elle est dite
predictive parce que le point z n'est pas encore observe; elle est dite a posteriori
parce qu'elle fait intervenir la distribution a posteriori de eobtenue par la regle
de Bayes.
Remarque A.3 La distribution predictive n'a pas dequivalent classique. En
effet, pour sommer sur toutes les valeurs possibles du parametre, il faut accepter
qu'il soit incertain.

Cas du modele normal unidimensionnel


La vraisemblance au point zest donnee par la densite (eq, A.2) dans laquelle
on remplace y par z. La distribution a posteriori de e == (/-L, T) est donnee par la

272

Pratique du calcul bayesien

relation (eq. A.9) normalisee (eq. A.13). Quelques manipulations algebriques,


impliquant les equations (A.I0) a (A.13), donnent :

[zly]

= ~Dl TVI/2exP(-T(~+b')

F(T))dT

ou
n +k (
n+k+l

F (7)

1+

00

z-m,)2

exp ((n+k+l)7(
J-L - m ")2)d J-L

(A.20)

-00

m"

(A.19)

(n+ k)m'
n+k+l

(A.21)

Apres la double integration et quelques arrangements, on trouve


1

ou

[zIY]=B(~,~)a"N ( l+ v' (
a"

==

2) _(v'+1 )/2

z - m"

a"

(A.22)

2b' (n + k + 1)
(n + k) u'

(A.23)

Ainsi, la distribution predictive a posteriori de l'observable est une loi de


Student a v' degres de Iiberte, Iocalisee sur m" et de parametre d'echcllc a".
La probabilite qu'elle depasse un seuil Yo fixe suit:
1

Pr(Z > yolz) = B (~,~) a"N

00

yo

1+

(z_m,)2)-(V

v' ---;;>

I+1)/2

dz
(A.24)

Cette dernicre integrale peut etre resolue numeriquement.

Remarque A.4
1. Le prior est non informatif si k, a, b -+ o. Dans ce cas,
[J-L,7] ex 7- 1/2.
- Le posterior marginal de 7 est une loi gamma, de parametre de forme
n/2 et de parametre d'inverse echelle ns 2 /2.
- Le posterior marginal de J-L est une loi de Student a n degres de liberte,
localisee sur z et de parametre d'echelle s/ yTi.
- La distribution predictive a posteriori de l'observable est une loi de
Student a n dogres de liberte, localisee sur z et de parametre d'echelle
sJ(n + 1) In.
2. Pour un prior informatif, le prior marginal de J-L est une loi de Student a
v == 2a degres de liberte, localisee sur m et de parametre cl'echelle a ==
Jb/ (ka). On remarquera la similitude des expressions avec le posterior
marginal de J-L.

Chapitre B

Annexe du chapitre 2 :
les modeles discrets de base
La lecture de cette partie plus technique est indispensable. II vous est fortement conseille de refaire les calculs au moins une fois.

Note B.1 Le sigle v. a. r. signifie variable aleatoire reelle. Le sigle pdf signifie fonction de densite de probabilite (probability density function). Par abus
de langage, on peut l'utiliser pour decrire la distribution de probabilite d'une
variable aleatoire discrete (v. a. d.).

Le processus de Bernoulli
1. Imaginons qu'on dispose d'une serie d'urnes remplies avec un tres grand

nombre de boules identiques sauf leur couleur qui est blanche (code 0) ou
noire (code 1). On attribue un numero a chaque urne et la proportion de
boules noires dans l'urne k est notee 1rk. En general, \:Ik, \:Ij i= k : 1rj i= 1rk,
car chaque urne a une composition qui lui est propre. On extrait une boule
de chaque urne. Les tirages sont indepcndants mais pas identiquement
distribues :

2. Maintenant, imaginons une seule urne dans laquelle on realise des tirages
avec remise mais sans la melanger. Les boules tirees puis remises ant
donc plus de chances d'etre reprises. Les tirages sont dependants mais
identiquement distribues, car la composition de l'urne ne change pas d'un
tirage a l'autre :

274

Pratique du calcul bayesien

3. Ensuite, on considere une seule urne contenant un nombre (pas trop


grand) de boules blanches et noires en proportion inconnue dans laquelle
on effectue des tirages avec remise en y ajoutant chaque fois m boules de
la meme couleur (tirages de Polya). Ici, les tirages sont dependants et la
composition de l'urne change a chaque tirage (7i"t+l -1= 7i"t) :

4. Enfin, on considere une seule urne contenant des boules blanches et noires
en proportion inconnue et on effectue des tirages avec remise en prenant
bien soin de la melanger avant chaque nouveau tirage. II est clair que
nous sommes dans le cas OU les tirages sont uulepeiulants et identiquement
distrioue (hypothese iid) :

(B.1)
Cette derniere procedure dechantillonnage est connue sous Ie nom de processus de Bernoulli.

L'hypot.hese iid
L'hypothese iid est tres importante en statistique. D'une maniere generale, supposer l'echantillon iid revient a admettre que les donnees seront tirees
independamment les unes des autres dans la meme loi de probabilite, Cette
hypothese est done toujours eonditionnelle au modele d'echantillonnagc ehoisi,
lequel est caracterise par un parametrc () (notation generique) de dimension
finie (p. ex. dim () == 2 pour une loi normale).

La distribution gamma
La pdf d'une variable aleatoirc X definie sur l'intervalle reel [0,oc] est une
loi gamma de parametrc de forme a > 0 et de parametre d'echelle b > 0 si et
seulement si :

[xla, b] = r

(~) b x
a

exp ( -~)

(B.2)

Le reel T (a) est defini par I'integralc d' Euler suivante :

1
00

a> 0: r(a) =

u a - 1 exp(-u) du

(B.3)

L'integrale d' Euler (eq. B.3) est dite fonction eulerienne de premiere espece.

Exercice B.I Montrez que

E (X) == ab,Var (X) == ab2

(B.4)

Annexe B

275

Notons qu'il est courant de definir la fonction de densite de probabilite


gamma en utilisant un parametre d'echcllc inverse (c == lib> 0) :

(B.5)
L'integrale d' Euler n'est rien d'autre qu'une generalisation de la fonction
factorielle :

(B.6)

n!==f(n+l)
Quel que soit le reel positif, a on a :
I' (a + I) == af (a)

(B.7)

La distribution beta
La densite de la distribution de probabilite d'une variable aleatoire X definie
sur l'intervalle reel [0,I] suit une loi Beta de parametres r > 0 et s > 0 si et
seulement si
I
r-1 (
)8-1
(B.8)
[x I
r, ]
S = B (r, s) x
1- x
ou Ie reel B (r, s) est defini par l'integrale d'Euler suivante dite fonction eulerienne de seconde espece :
r, S

> 0 : B (r, s)

II

ur -

(1 -

ur-

du

(B.9)

II existe un lien entre les fonctions euleriennes gamma et beta :

B( r,s )

== f(r)f(s)
f(r+s)

(B.IO)

Cette identite sera tres souvent utilisee,

Esperance d'une v. a. r. X distribuee selon une loi beta sur

[0,1]

Par definition, la valeur attendue ou esperance mathematique de X est

E (X) =

II

x [xlr, s] dx

Ce calcul est trivial

E(X)

B(r+1,s)
B(r,s)

_r_
r+s

(B.II)

276

Pratique du calcul bayesien

Variance d'une v. a. r. X distribuee selon une Ioi beta sur


[0,1]
Par definition, la variance de X est

Var (X)

:=

E (X 2) - [E (X)]2

Par consequent

La variance suit

Var(X)

= B(r+2,s)
B(r,s)

(_r_)2
r+s

Or

B(r+2,s)
B(r,s)

----:=

f(r+2)f(s)
f(r+s)
x--f(r+2+s)
f(r)f(s)
(r+l)rf(r)
f(r+s)
--------- x --(r+s+l)(r+s)f(r+s)
I'{r)
r+l
r
---x--

r+s+l

r+s

Finalement

Var(X) _ _ r_ ( r+ 1 _ _ r_)
r+s r+s+l r+s
:= _r_ ((r+l)(r+S)-r(r+s+l))
r+s
r+s+l

= r:s

C+:+l)
rs

(B.12)

(r+s)(r+s+l)

Mode d'une v. a. r. definie sur [0,1] et distribuee selon une


loi beta
II suffit d'annuler la derivee premiere de la densite :

!(x)=x r - 1 ( 1 - x r - 1

df
dx

=o}X

s+r#2

r-l

+r -

=.M

(B.13)

Annexe B

277

La loi de Poisson comme limite de la loi binomiale


On part de la loi binomiale :

Le nombre de combinaisons que l'on peut faire en prenant n objets par


paquet de x peut encore s'ecrire

n.,
xl (n - x)!

X!!!

nx

z. )

x-1 (

1 - ;,

Par consequent

Pr (X = xlO, n) =

(nf)) x

ot!!

(1 _ f)) n

--;y- (1-

x -1 (

i )

1-;,

Faisons tendre le nombre d'essais n vers l'infini, la probabilite de succes f)


vers zero et leur produit vers une limite finie A E
On a:

IRt.

lim TI~-=-1
(1 1,-0

n-+oo

lim (1 - f)) -

0-+0

lim

n-+oo

(1 -

i)
== 1
n

== 1

~)n
n

== exp (-A)

On obtient la loi de Poisson qui est une loi d'evenements rares :


Pr (X

AX
== XIA) == -, exp (-A)
x.

(B.14)

La distribution binorniale negative


C'est la loi du nombre d'echecs y avant d'obtenir Ie r-ieme succes (r ~ 1). Le
nombre d'epreuves z avant d'obtenir le r-ieme succes decoule de la loi binomiale,
car en z - 1 epreuves on a r - 1 succes :

Le nombre d'echecs est y == z - r. Par consequent

Tenant compte de

x! = f (x + 1) = z.F (x),

B (a, b) = r~(2~~~)

278

Pratique du calcul bayesien

on a:
1

( y+r- l ) ==

B(y,r)

r-l

x~
y

Finalement, la distribution de probabilite binomiale negative s'ecrit :


(B.I5)

La predictive a posteriori d'un modele gamma-Poisson


On sait que sur une periode de longueur l, le posterior s'ecrit

[Alx] ex Ax +a - 1 exp (-A (l + b- 1 ) )

(B.I6)

ou a et b sont respectivement le parametre de forme et le parametre d'echelle


du prior gamma.
QueUe est la probabilite d'observer y evenements sur la future periode h
sachant que, dans le passe, on en avait observe x sur la periode l ?

[ylh, x, I] =
=

00

[yl)" h] [),Ix, I] d)'

y (l

b-1)x+a

~ +
y! r (x + a) Jo
hY (l+b-1)x+a

11

00

),y+x+a-l

exp (-), (h + I + b- 1 ) ) d)'

f(y+x+a)
(h+l+b-1)y+x+a

r(x+a)

f(y+x+a) hY
(l+b-1)x+a
r (y) r (x + a) (h + l + b-1)y+x+a

B (y, x
1

(l+b-1)x+a

hY

+ a) Y

1 (

= B(y,x+a)y

(h + I + b-1 )y+x+a
I + b:'

h+l+b- 1

) x+a (

h+l+b- 1

) y

(B.17)

Posons

(B.I8)

r==x+a
l + b- 1

7r

==

h + I + b-

{::}

1-

7r

== - - - -1
h+l

+ b-

(B.I9)

II vient

[ylh, x, I]

= B (

) ~1fr (1 -

y,r y

1f)Y

(B.20)

En comparant cette derniere avec la distribution B.I5, on voit que x


joue le role de r en l'etendant aux reels positifs.

+a

Chapitre C

Annexe du chapitre 6 : le
modele des fuites
et Ie modele GEV sous
WinBUGS
Du processus ponctuel de Poisson au modele des
fuites
On s'interesse a un evenement ponctuel (p. ex. un point sur un axe ou un
pixel sur une surface) marque par une certaine intensite, Sur une fenetre donnee
(p. ex. une periode de temps fixee, un troncon de longueur fixee, une surface
d'aire fixee) , le nombre d'occurrences est note N d'intensite Z == (Zl,'" ,ZN).
Quand on sait que N == n et que Z == z, on dit que l'information est complete.
Cependant, il existe des situations OU on ne dispose que du cumul des intensites,
Dans un tel cas, Nest une variable latente et on dit que l'information est
incomplete. Le modeles des fuites est du a (Morlat, 1968) pour representer les
fuites sur les conduites de gaz. II ignorait leur nombre et done leur intensite
respective, mais il connaissait le cumul des pertes par la difference entre les
debits d'entree et de sortie du troncon d'interet.

Le processus ponctuel de Poisson


Pour en simplifier l'expose, nous nous refererons a des tops arrivant au
hasard sur l'axe du temps. A chaque date t, on peut associer une variable de
Bernoulli qui prend la valeur 1 avec la probabilite 7f si un top est observe
a cette date. Un processus ponctuel est une suite de variables de Bernoulli
indeperulomtes et identiquement distribuees (hypothese iid).

280

Pratique du calcul bayesien

Le processus ponctuel de Poisson est un modele statistique parametrique


fonde sur trois hypotheses.
HI. Le processus est sans memoire, c'est-a-dire que la probabilite d'observer 1 evenement sur une periode de longueur h suffisamment petite est
proportionnelle a h :

[N == llA, h] == Ah + 0 (h)
-

(h) represente un infiniment petit par rapport a h


himo(h) ==0
h---+O

- A est l'intensite du processus, supposee invariante dans Ie temps.


H2. II n'y a pas de simultaneite, c'est-a-dire que la probabilite d'observer plus
d'un evenement sur une periode de longueur h est negligeable si h est
petite:

[N ~ 21h] == 0 (h)
H3. Les evenements qui se produisent sur des periodes disjointes, soit hI et
h2 , sont independants

Sur cette base on montre que le nombre de tops, N, sur une periode unite,
c'est-a-dire une fenetre dont la longueur est egale a 1 unite de temps (p. ex. le
mois) , est distribue selon une loi de Poisson de parametre A == E (N), d'ou Ie
nom du processus :

An

[nIA] == exp (-A) ,


n.

(C.l)

Le processus ponctuel de Poisson marque


On ajoute une quatrieme hypothese au processus ponctuel de Poisson.
H4. Les intensites Z, des occurrences sont independantes de leur nombre N,
independantes entre elles et identiquement distribuecs selon une loi exponentielle de parametre p telle que E(Zilp) == lip:

Vi
Vi, vi
Vi
Conditionnellement

=1=

z, -l N
i: z, -l z,
Zilp

r-;

(C.2)

dgamma (1, p)

a n et a p, Ie cumul H ==

E Z; est

i=l

une loi gamma

Hlp, n

0:.

dgamma (n,

p)

distribue selon

Annexe C

281

Soit une periode unite (indice t) sur laquelle on a observe nt tops dont le
cumul des intensites est ht . La vraisemblance de cet echantillon est triviale :

(C.3)
Si ce processus est stationnaire sur T periodes independantes de meme longueur (L == 1), la vraisemblance de I'echantillon d == {(nt, ht ) : t == 1, 2, ... T}
est simplement

(C.4)

ou
Sn ==

L:: tu,

t=1

Sh ==

L:: ht

t=1

Le prior le plus simple postule l'independance de A et de p avec A


dgamma (a>.., b>..) et p rv dgamma (ap , bp ) :

Alsn, a>.., b>..


plsn, Sh, a p , bp

dgamma (sn + a>.., T + b>..)


dgamma (sn

+ ap , Sh + bp )

(C.5)

Ainsi, a posteriori, la valeur attendue du nombre de tops reste independante


de leur intensite : A ..1 p.

Le modele de depassement
Soit une observable Y qui evolue dans le temps. Un top arrive quand cette
observable depassc un certain seuil u fixe. Le nombre de tops sur une periode
unite, par exemple l' annee, et leur intensite respective (au-dessus du seuil)
constitue un processus de Poissonmarque. Les marques au-dessus du seuil sont
supposees iid selon une certaine loi. Le modele POT du chapitre 6 postule que
si le seuil est assez haut, cette loi est la distribution de Pareto generalisee, Dans
le cas d 'une loi exponentielle, on retrouve les resultats indiques ci-dessus.

Le modeles des fuites


Reprenons le processus de Poisson marque. En cas d'information imparfaite,
la seule observable est le cumul des intensites Hs, c'est-a-dire que lc nombre de
tops N, est une variable latente intervenant dans la loi du cumul Hi.
En posant h == (hI, ,h T , ) et N == (N I , ,NT), la vraisemblance completee s'ecrit :

Avec les priors utilises ci-dessus, les conditionnelles completes a posteriori


sont respectivement
-Xlh,N,p

dgamma (SN + a>.., T + b>..)

plh,N,A

dgamma (SN + ap , Sh + bp )

(C.6)

282

Pratique du calcul bayesien

On remarquera la similitude des relations C.5 et C.6. Bien sur, dans la


seconde, la somme des variables latentes SN == N 1 + ... + NT est inconnue. II
faut donc ajouter un module pour realiser l'inference via un echantillonnage de
Gibbs.
Pour t == 1, ... ,T, la conditionnelle complete de la variable latente N, n'est
pas standard mais peut etre definie sur une grille (voir chap. 4). En posant
N_ t == N\ {Nt} on a :

Un algorithme de Gibbs (voir chap. 4) est facile


simuler Alh, N, p

rv

dgamma

(SN

simuler plh, N, A rv dgamma (SN

a programmer:

+ a>.., T + b>..)
+ a p , Sh + bp )

Pour t == 1,2, ,T : simuler [Ntlp, A, N_ t , h]


On peut voir le modele des fuites comme le modele des depassernents avec
un seuil nul alors que l'information est imparfaite.

Les valeurs extremes sous WinBUGS


Le modele GEV
Soit N blocs de n observations (n assez grand). Sur chacun d'entre eux, on
s'interesse au maximum Zk pouvant prendre la valeur Zk (k == 1, ... ,N). La
contribution de l'observation Zk a la vraisemblance est donnee par la densite :

Ce n'est pas une densite standard de WinBUGS, mais on s'en sort en utilisant l' astuce zeros trick ,
La densite de Poisson s'ecrit

[yIA]

== exp

AY

(-A) ,

y.

Si on ne tire que des zeros, la contribution d'une observation


blance est simplement
[OIA] == exp (-A)

a la vraisem-

Ainsi WinBUGS considcre un ensemble de donnees constitue de N zeros


tires dans une loi de Poisson de parametre Ak == -In [zkIB] + C.

Remarque e.l La constante C assure Ak > 0 et ne pose aucun probleme


puisque la vraisemblance est definie a une constante pres.

Annexe C

283

Choix du prior
En general, le savoir a priori est tres reduit et il n'y a aucune raison de lier
Ie parametre d'echelle, p, au parametre de forme, {3. En revanche, le parametre
de localisation, /1, est lie au parametre de forme a cause de la condition

Des lors, le prior conjoint peut s' ecrire comme suit :

[0] == [{3, JL, p] == [JLI{3] [{3] [p]


Le choix classique (et judicieux) pour un parametre d'echelle est une loi
gamma et une loi normale pour un parametre de localisation :

p~

dgar,nr,na(f,e)

{3 ~ dnormim, t)
Pour p, on obtient un prior non informatif avec f == e ---t o. Pour {3, on
l'obtient avec m == 0 et une precision t ---t 00 (WinBUGS prend par defaut

f == e == 10- 3 , t == 10- 6 ) .

Remarque C.2 Par experience, on sait que 1{31 est inferieur a quelques unites.
Par consequent, t == 10- 3 est suffisant (question de vitesse de convergence).
Remarque C.3 On peut aussi poser == -In pet prendre ~ dnorr,n(O, 10- 6 )
(ce sera notre choix).
Pour [/1113], un prior non informatif est une loi uniforme sur un intervalle
reel dependant de 13: [JL I13] ~ dunif(r,s). En posant a == min {Zk} - 13- 1 et
b == max { Zk} - {3-1, Ic respect de la condition entraine
- 13 > 0 => JL > b (Weibull)
- 13 < 0 => JL < a (Frechet)
Dans WinBUGS, on tire u ~ dunif( -00, a) et v ~ dunif(b,oo) et on
construit le prior sur JL comme suit:
JLI{3, a, b f -

A l'issue

* step (-{3) + v * step (13)

de l'inference, on revient au parametrage initial du modele GEV

avec

(J

== exp (1))
== - 13 exp ()

284

Pratique du calcul bayesien

DAG associe au modele GEV


Le DAG simplifie ci-dessous (fig. C.l) montre le modele GEV via le zeros
trick de WinBUGS OU le parametre de Poisson s'ecrit :

Figure C.l - DAG du modele GEV sous WinBUGS.

On rappelle que le niveau de retour zp associe ala periode de retour T == lip


est donne par la relation :

z == JL p

e#o

~ (1 - x-e) =
~

/3#0

J-l + ~

(3

(1 -

x/3 exP())
p

OU

x p=:-ln(l-p)
Le code WinBUGS est le suivant.
Pour le niveau de la mer a Port Pirie, les resultats du tableau C.1 sont
obtenus apres 40000 iterations dont 20000 pour la pcriode de chauffe. Deux
chaines sont lancees pour controler la convergence. Ainsi le maximum annuel
du niveau de la mer a Port Pirie converge en loi vers la loi des extremes de
Weibull (~ < 0). Chaque annee de la periode 1923-1987, il y a une chance sur
cent (p == 0.01) d'observer une hauteur d'eau superieure a 4.80 m (avec un
risque d'erreur fixe a 5 %).

Annexe C

285

model;
{
a < -zmin-1/beta
b <-zmax-1/beta
u -- dunif(-1 O,a)
v --dunif(b, 10)
mu <- u*step(-beta)+v*step(beta)
phi -.. dnorm(0.O,1.0E-6)
beta--dnorm(O.O, 1.0E-3)
eta <- exp(-phi)/ beta
for( k in 1 : N ) {
c[k] <- (1 - beta * (z[k]- mu))
lambda[k] <- phi + (1-eta) * log(c[k])+pow( c[k], eta) + C
zero[k] <- 0
zero[k] -- dpois(lambda[k])
}

sigma <- exp(phi)


xi <- -1/eta
xp <- -log(1-p)
f <- 1-pow(xp, 1/eta)
zp <- mu+f/beta
}
Figure C.2 - Code du modele GEV sous WinBUGS.

5
50
95

a
0.18
0.21
0.24

Tableau C.l - Niveau de la mer

modele GEV.

-0.20
-0.10
-0.03

J-l

3.84
3.88
3.93

ZO.Ol

4.5
4.6
4.8

a Port Pirie: IC90 pour les parametres d'un

Chapitre D

Annexe du chapitre 9 : la
distribution de Student
et Ie processus de regression
normal
Les deux parties de cette annexe sont utiles pour manier, sans douleur, les
methodes analytiques exactes du modele lineaire normal:
- l'une porte sur l'interpretation bayesienne d'une distribution importante
en statistique : la distribution de Student sous ses formes centree et decentree, La construction de cette distribution presentee ici est tout

a fait

generale et intervient dans de nombreuses inferences, comme l'exemple


des saumons nous l'a montre. Nous l'illustrerons sur un cas general important : celui du modele de regression Iineaire normal;
- l'autre donne des complements illustratifs concernant l'elicitation des
distributions a priori du modele classique gamma-normal, utilise dans
l'exemple des saumons.

Les distributions de Student centrees et decentrees


Soit une variable aleatoirc U rv dnorm(O, 1) et soit une variable aleatoire Y rv dgamma(a, 1) independante de U. On remarquera que le parametre
d'echelle de la distribution gamma est egal a 1. Done :

[u, y] ex ya-l exp ( _y _

~2)

288

Pratique du calcul bayesien

Soit la variable aleatoire T, fonction des variables aleatoires U et Y, dont


les realisations t sont definies par :
t ==

Le changement de variable u, y
densite jointe :

[t, yla]

---+

yIa-

(D.1)

VY

t, Y de jacobien ~~~:~? = J1ija donne la

ya-l/2 exp ( -y ( 1 + ~:) )

(X

La distribution marginale de t s'en deduit simplement par integration sur

y:
[tla] == const x

1
2a+l

(1 + ~:) - 2 -

La constante est obtenue par la condition de distribution

i:[t]dt = 1
soit

[tla] =

f( 2a 1 )
V'f(iir

(D.2)

2a+l

f(a) 2mr (1 + ~:) - 2 -

C'est la distribution de Student

a 2a degres de liberte.

Remarque D.I On la trouve souvent sous la forme suivante (v == 2a) :

[tlv] =

(l1~) y'v (1 + t
2' 2

2
) -

vt

On peut generaliser ce resultat au cas OU le numerateur u de test une


variable aleatoire toujours normale d'ecart-type 1 mais decentree de moyenne
6, soit U == dnormib, 1). U est toujours independante de Y.
La distribution marginale de test alors la distribution de Student dcccntrec
de parametre de decentrement 6. La densite n'a pas de forme explicite simple.
Mais, tout comme la loi de Student centree, elle peut etre calculee par les
logiciels de statistique courants.

Extension du resultat
Supposons toujours Y distribue comme une dgamma( a, 1) mais U est une
variable normale, non plus independante, mais reliee conditionnellement a Y de
telle sorte que [uly] == dnorm(O, Jy) et recherchons la distribution marginale
de jaU. En ecrivant la reglc des probabilites composees des lois marginales
de y et conditionnelles de u sachant y on voit que les calculs de marginalisation sont complctement paralleles aux calculs precedents, si bien que jaU est
marginalement distribuee selon une loi de Student.

Annexe D

289

Le processus de regression normal


Definition
Soient n variables aleatoires normales independantes, Ii, de meme variance
egale a (J"2 == 7- 1 (7 est la precision), mais les esperances sont liees Iineairement
aux valeurs supposees connues de q covariables
(avec 1 S; i S; n, 1 S; j S; q).
Posons

x.,

(Xil,Xil, ,Xiq)T

Xi

(3

((31,(32,"

,(3q)T

ou, tres souvent, Vi : XiI == 1 afin de representer un effet constant.


A chaque exprerience i, on veut expliquer la variable exogene
combinaison lineaire bruitee des covariates :

Ii == xT (3 + e.,

Ci

~d dnorm (0,7)

X ==

(D.3)

1/1,

Soit Y le vecteur dont les coordonnees sont les n reponses


matrice des covariables a n lignes et q colonnes

Ii par une

Ii et soit X la

(xi, xf, ,x;)

Avec ces conventions, le modele de regression lineaire normal s'ecrit aussi

Y == X(3 + e,

r-;

dmnorm (0, 7I n )

(D.4)

ou dmnorm est la loi normale multivariee, souvent appelee loi multinormale,


localisee sur le vecteur 0 == (0, . . . ,0) T et de matrice de precision TIn ; In est
la matrice neutre d'ordre n.
Ce modele, qui appartient a une famille exponentielle, implique done d'inferer (3 et 7.

Remarque D.2 II est important de preciser que, dans le present contexte, les
covariates sont connues sans incertitude.

Vraisemblance
La vraisemblance des observations y == (Yl' Y2, ... ,Yn)T est donnce par la
densite d'une loi normale multivariee

[yIX, (3, T]

(21f) -n/2 T n/ 2 exp ( - ~ (y - X(3)T (y - X(3))

On supposera que la matrice X est de rang q. Dans ce cas, le systems


dequations normales

290

Pratique du calcul bayesien

a une seule et unique solution, b, qui est une estimation ponctuelle (au sens
des moindres cartes) du vecteur (3 :

Une identite classique de l'analyse lineaire nous permet alors d'exprimer la


forme quadratique en (3 comme suit

+ ((3 -

b)T XTX ((3 - b) (D.5)

So == (y - Xb)T (y - Xb)

(D.6)

(y - X(3)T (y - X(3) == (y - Xb)T (y - Xb)

II sera commode de poser :

La vraisemblance devient

Prior
Le prior conjoint peut se mettre sous la forme d'une probabilite conditionnelle multipliee par une probabilite marginale

En faisant dependre le prior sur (3 de la precision 7, on obtient des solutions


analytiques. En effet, la forme exponentielle de la vraisemblance (D.7) montre
l'existence de distributions a priori conjuguees naturelles :
7

(317

rv

dgamma (a, b)
dmnorm (mo,7P o)

Remarque D.3 Comme toujours, le choix des hyperparametres, ici a, b, 7, 0o


et Po, engage la responsabilite du chercheur. Par exemple, la matrice Po, de
genre q x q, pourrait etre la matrice neutre I q multiplies par un reel stritement
positif fixe, par exemple k > 0, afin de degrader quelque peu la precision 7. Un
tel choix revelerait I'independance a priori des composantes du vecteur O.
Ainsi :

[,8, ylH] ex yq/2+a-l exp ( -~ (,8 - rnof Po (,8 - rn o)) exp (-by)

(D.8)

ou H designe les hypotheses, y compris les hyperparametrcs (rno, Po, 7, a, b).

291

Annexe D

Posterior
L'application de la regle de Bayes donne

[,8, TIX,y, H] ex Tnj2+qj2+a-l exp ( -~ (So

+ 2b)) exp ( -~S,6 )

ou 5(3 represente la somme des deux formes quadratiques en

(D.9)

13 :

(13 - b)T XTX (13 - b) + (13 - rno)T Po (13 - rn o)


== j3T (XTX + po) 13 - 2j3T (XTXb + Porno) + bTXTXb + rn6~.dfh)

5(3

Posons

XTX+P O

Pm

XTXb

+ Porno =} m == p-

(XTXb

+ Porno)

(D.ll)
(D.12)

On a

(D.13)

ou
c

== bTXTXb + rn6Porno - rnTprn

(D.14)

Finalement, la distribution jointe a posteriori s'ecrit

[,8,TIX,y,H] ex Tnj2+qj2+a-l exp (-~ (So

+ 2b+ c)) exp (-~ (,8 - mfP (,8 - m))


(D.15)

Avec ce choix de prior, ce modele a des solutions analytiques : les calculs sont
faisables a la plume. En particulier la distribution a posteriori de la precision
7 est
[TIX, y, H] ex Tnj2+a-l exp ( -~ (So + 2b + c))
car

r exp (-~2 (,8 - mf (TP) (,8 - m)) d,81 x ... x d,8


JJRq
Ainsi, la marginale a posteriori de la orecision
7

IX ,y, H

rv

=
q

qj
(21f) 2 ex _1_
17P1 1 / 2
7 q/ 2

est une loi gamma :

n + 2a So+2b+C)
dgamma ( - 2 - '
2

Les conditionnelles completes a posteriori

A7

fixe

A partir de la conjointe (D.15), on a :


[,8IT, X, y, H] ex exp ( -~ (,8 - mf P (,8 - m))
c'est-a-dire

/317, X, y, H

!"oJ

dmnorm (rn, 7P)

avec m et P respectivement donnes par (eq. D.12) et (eq. D.Il).

(D.16)

292

Pratique du calcul bayesien

A {3 fixe
A partir de la conjointe

(eq. D.15), on a :

c'est-a-dire

rl{3, Y, X <dqamma (u", b*)

ou
a*

n+q
--+a
2

b*

2 (So + S/3) + b

avec So et S/3 respectivement donnes par (eq. D.6) et (eq. D.13).

Complements
Une propriete caracteristique des lois multinormales est que leurs marges
sont normales. Ainsi, conditionnellement a r, la composante {3j du vecteur {3
est normale unidimensionnelle :

II s'en suit que


VrPjj ({3j - mj)

Ir, X, y, H

rv

dnorm (0,1)

D'autres part, en multipliant la densite gamma (eq. D.16) par son parametre
d' echelle (inverse) on a

2b +

So + 2

r n, a rv gamma

(n- 2
+ 2a
1)
-'

Par consequent, en tenant compte de la premiere section (eq, D.1), la variable aleatoire

(n+2a)Pj j ({3' -m')


So + 2b + c J
J
est distribuee selon une loi de Student a n + 2a degres de liberte.
Pour plus de details, on lira avec profit la section 4.5 du chapitre 4 de
(Droesbeke et al., 2002) et le chapitre 13 de (Raiffa et Schlaifer, 1961).

Chapitre E

Annexe du chapitre 10 :
formes quadratiques
et tutti quanti
Les prerequis
Soit

X une matrice carree de rang d et soit IXI sont

determinant. On a :

Somme de deux trinomes du second degree


p(y_a)2+ q(y_b)2

pa+qb)2
pq
2
(p+q) ( y+-(a-b)
p+q
p+q

ex

(p + q) ( y -

pa + qb)2
sachant a, b, p, q
p+q

Somme de deux formes quadratiques.

(y-a)TP(y-a)+(y-b)TQ(y-b)
(yT _ aT) (Py _ Pa) + (yT - b T) (Qy - Qb)

yTpy _ aTpy _ yTpa + aTpa + yT Qy _ b T Qy _ yT Qb + b T Qb


yT

(P + Q)y _

yT

T
yT (P + Q)y _ 2yT (Pa+ Qb) + aTpa+ b Qb

ex

yT (P

+ Q) y -

(Pa+ Qb) _ (aTp + bTQ) y + aTpa+ b Qb

2y T (Pa + Qb) sachant a, b, P, Q

294

Pratique du calcul bayesicn

Par consequent

exp

(-~s)

y]a, b, P, Q

(_~yT (P + Q)y -

0:

exp

rv

dmnorm

2y T (Pa+ Qb))

((p + Q)-l (Pa + Qb), P + Q)

Modele lineaire avec conjugaison partielle (M1)]Modele lineaire avec priors


independants partiellement conjugues (M1)

qXl

nxq

nxl

nxl

sont supposes certains (t == 1,2, .. ,n; j == 1,2, ... ,q - 1) .


est un n-echantillon iid selon une loi normale, localisee sur 0
et de precision T.
Sous forme vectorielle

- Les
-

Xtj

Cl, ,Cn

Sous forme matricielle


y == Xj3

+ c,

rv

dmnorm (0, TIn)

- In est la matrice neutre d'ordre n


- X == (( 1, x j ) , . . . , (1, x n ) ) T

La vraisemblance

ou
Le prior
() ==

13
T

(13, T), 13 1- T
dmnorm (m,a, P,a)

rv

dgamma (a, b)

(E.1)

Annexe E

295

Les conditionnelles completes a posteriori


Conditionnelle complete de {3
Somme des deux formes quadratiques

(y - X(3) T P y (y - X(3) + ({3 - m(3) T P {3 ({3 - m(3)


(yT - (3TX T) (Pyy - P yX(3) + ({3T - m~) (P{3{3 - P{3m(3)
yTpyy _ {3TXTp yy - y Tp yX{3 + {3TXTp yX{3 + (3Tp{3{3 - m~P{3{3

_{3Tp {3m{3 + m~P {3m{3


{3T (XTpyX + P (3) {3 - {3T (XTpyy + P (3m(3) - (yTpyX + m~P (3) {3

+yTpyy + m~P{3m{3
{3T (XTpyX + P (3) {3 - 2{3T (XTpyy + p (3m(3) + (yTpyy + m~P (3m(3)

H)

Par consequent, (Ies hyperparametres sont dans le corpus cl'hypotheses, note

[,8IX, y, T, H]

m~

a exp (

_~,8T (XTpyX + P,a),8 -

2,8T (XTpyy + P ,am,a))

C'est done encore une loi normale de dimension q, localisee sur le vecteur
et de matrice de precision p~ :
dmnorm (m~, P~)

{3IX,y,T,H
P*{3

X TP yX+P{3

m*f3

p~-l (XTPYY+Pf3mf3)

Or Py == TIn:
P*e

TXTX + P{3

m*f3

p~-l (TXTY+P{3mf3)

Conditionnelle complete de

C'est encore une loi gamma, de parametre de forme a* et de parametre


d'echelle inverse b*

TIX,y,{3,H
a*
b*

dgamma (a*, b*)


n
- +a
2
1
2
(y -

X(3) (y - X{3) + b

296

Pratique du calcul bayesien

Normale
(3
Gamma

Moyenne

m B== P B- 1 (TXTy

+ P/3m/3)

Precision

Definition

Echelle inverse
b* == ~c1 e + b

c == y - X(3

P B== TXTX + P/3

Forme
a* == %+ a

Tableau E.1 - Modele Ml : resume.

Modele autoregressif (M2)


En posant
s'ecrit :

Z-l

== (zo, Zl,' .. ,Zn_l)T OU Zo est un parametre, le processus

== PZ-l + U,

r-;

dmnorm (0, TIn)

La vraisemblance

Le prior
p 1-

1-

Zo

dgamma (a, b)

r-;

dnorm (mp,pp)

Zo

dnorm (mzo'pzo)

Les conditionnelles completes a posteriori


() == (p, T, zo)
Conditionnelle complete de

Tlp,zo,z,H
a*
b*

dgamma (a*, b*)


n

- +a
2
1

"2uT U + b

(E.2)

Annexe E

297

Conditionnelle complete de Zo
Le developpement des termes intervenant dans l'exponentielle donne
n

slp,7

==

L (Zt - PZt_l)2 + Pzo (Zo - m zo)2


t=l

Tp2

ex:

~ ) + PZo (zo -

(zo -

2
(7 p

m zo )2 + cte

7PZl+PzOmzo)2
2
r p + pzo

+ Pzo ) ( Zo -

Par consequent

zolp, 7, Z, H
m *zo

Conditionnelle complete de P
On rappelle que l'estimateur du maximum de vraisemblance donne
n

P==

L: ZtZt-l

t=l
-n---

L: z;-l

t==l

Le developpement des termes intervenant dans l'exponentielle donne


n

SIZO,7

==

L (Zt -

PZt_l)2

+ Pp (p -

m p)2

t==l

T(l t Z;-l - tZtZt-l + tz;) +


2p

(p -

Pp

Z;-l

(p2 - 2pp)

Pp (p - m p) 2 +7

t==l

L Z;

t=l
'-v--'
cte

ex:

Z;-l

(p - p)2 + Pp (p - m p)2

t=l
n

ex:

L: ZtZt-l + ppm p

t=l
p--n - - - - - 7

L: Zf-l + Pp

t=l

m
p

)2

298

Pratique du calcul baycsien

Par consequent

plzo, T,

Z,

dnorm (m;,p;)

:~ (TZT Z-l + ppmp)

m*p

TZ_1z-1
Normale
p

Moyenne
m *p -_ P~1 (,1
TZ Z-l

zo

: == p:

Gamma
T

Forme
a* == ~

zn

+ ppmp)
(TpZ1 + pzom zo)

+ Pp

Precision
* -_ TZ_1
,1 Z-l + Pp
Pp
* -_ r p.'2 + PZo
PZo
Echelle inverse
b* == ~U'l U + b

+a

Definition

==

Z -

PZ-1

Tableau E.2 - Modele M2 : resume.

Modele lineaire avec residus autoregressifs (M3)


Le vecteur Y -1 designe le vecteur y decale d'un rang: Y-1 == (Yo, Y1, ... ,Yn-1) T.
La matrice X- 1 est la matrice X definie ci-dessus (modele M1) decalee d'un
rang : X -1 == ((1, xo) , (1, xj ) , . . . , (1, x n -1) ) T OU Vt : Xt == (X t 1, . .. ,Xtj, . . . ,Xtq -1) .
Le modele s'ecrit

y - X(3 == p (y -1

X- 1(3)

+ E,

r-;

dmnorm (0, TIn)

(E.3)

Ceci pose le probleme du temps t == 1, car la valeur Yo et les valeurs


(j == 1, ... ,q - 1) n'existent pas

XOj

Si nous supposons que cette derniere equation est representative de ce qui


s'est passe pour t == 0, -1, -2"" , nous avons, par exemple :

Yo == P (Y-1 - (1, X-1) (3)

+ (1, xo) (3 + Eo,

EO

rv

dnorm (0, T)

Mais, comme Xo, Y-1 et X-1 ne sont pas des quantites connues, il est plus
simple d'ecrire

Yo == a

+ EO,

EO

rv

dnorm (0, T) {:} Yola, T rv dnorm (a, T)

Dans un DAG, la variable Yo serait entre la couche des parametres ((3, T, a, p)


et celle des observables y. C'est done une variable latente.
Conditionnellement a (3, le modele E.3 peut se mettre sous la forme du
modele E.2
(E.4)
Z ==PZ-1 + E E
dmnorm (0, TIn)
r-;

Annexe E
OU

299

== (y - XfJ)et Z-l == (y -1 - X- 1fJ ) (zO joue le role de Yo).


Le modele peut se mettre sous la forme suivante

y - py -1

== (X - pX- 1 ) 13 + E,

Conditionnellement a p, en posant yp ==
retrouve la formulation du modele Ml :

rv

y-

dmnorm (0, TIn)


PY-1 et X,

== X - pX- 1, on
(E.5)

Si on ne connait pas p, mais

a 13 et Yo connus

y - XfJ == P (Y-1 - X- 1 fJ ) + E

La vraisemblance

Le prior
A priori, les parametres T, p, a et 13 sont independants, de meme que les
composantes du vecteur 13 == (130 ... ,fJq _ 1)T . On choisi des priors conjugues
dans le but de realiser l'inference via un echantillonnage de Gibbs:
Tla,b
plmp,pp
alma,Pa
fJlmj3, pj3I q

dgamma (a, b)
dnorm (mp,pp)
dnorm (ma,Pa)
dmnorm (mj3,pj3Iq )

(E.6)
(E.7)
(E.8)
(E.9)

Les conditionnelles completes a posteriori


() == (T, p, a, 13)
On multiplie chaque fois la partie interessante de la vraisemblance avec le
prior en cours.

300

Pratique du caIcuI bayesien

La precision

HO-Tl YP' X p, H]

ex 7(n+l)!2+ a -

x exp ( - 7

exp (

-7

(~ (Yo -

(~ (y p - x p{3 f

a)2 +

(3) ))

(y p - X p

b) )

dgamma (a*, b*)

n+l
2
1

a*

--+a

b*

"2 (yP - X p(3 )

(yp - X p(3 ) + "2 (Yo - a)

+b

Le parametre a

dnorm (m:,p:)

--; (TYo

m*a

Pa
T+Pa

+ Pama)

Le coefficient (3
On a fait Ie calcul pour Ml, il suffit de remplacer y par y p et X par X,
dmnorm (m~, p~)
T

m*{3

XJX p

+ p{3Iq

p;-l (7XTyp+Pf3illf3)

Le coefficient de correlation p
On a calcule sa conditionnelle complete dans le cadre du modele M2 OU
Z-l == y-I-X- 1(3 (ce qui implique de fixer le vecteur des
regresseurs en t == 0, xo)

== y-X(3 et

Annexe E

301

dnorm (m;,p;)
m*p

:~ (rz T Z-l + ppmp)


T

TZ_lZ-l

Moyenne
m~ == p

Parametre
{3
a

; ==

m *p -_

Parametre

Forme

a* ==

e- (TXT Y + P I3ml3)

1*

PO'
1
p~

nt

(TYo + PamoJ
(1
TZ Z-l + ppmpI)

+ Pp
Precision
P~ == TX~Xp
P~ == T + Pa
:1 Z-l
P*p == TZ_
l

+ P 13
+ Pp

Echelle inverse

b* == !cT E + ! (Yo - a)2 + b

+a

Tableau E.3 - Modele M3 : resume.

OU Yp== Y-PY -1, X p== X-pX- l, Yo


Z-l == Y-l-X- l{3 et c == Y - X p {3 .

f"V

dnorm (a, T) , Z == Y - X{3,

Conditionnelles completes du modele categoriel


probit
Determination des conditionnelles completes
Pour obtenir les conditionnelles completes des parametres Zo, 1, (3, P et des
variables latentes Zt, on identifie dans l'expression (10.33) la structure analytique en fonction de la grandeur qu'on cherche a caracteriser.
1. Focalisons sur Zo :

[Zo IZ,1,{3, p, y] ex: N (Zo lao, 1) x l"Yo _ l ~zo<"Yo xN (Zl IpZo

+ (Xl - pXo) {3, 1)

En developpant la forme quadratique sous l'exponentielle, on trouve

En reconstruisant une forme quadratique en Zo, on obtient done une loi


normale tronquee :

[ZoIZ,1,{3,P,Y]

== dnorm(ao+p(Zl- (xl-pxo){3)1+p2,1 (1+p2))


xl"YO-l~zo<"yO

(E.10)

302

Pratique du calcul bayesien

2. le calcul des conditionnelles completes des composantes de Z est plus


delicate On connait la relation de proportionnalite :
T

[Z IZo, "I,j3,p, y] ex

II {

l)'Yt_l (Zt<)'Yt X

N (Zt IpZt-l

t=1

+ (Xt -

pXt-d j3, 1)}

II faut distinguer deux cas :


(a) Quand t == 1, ..., T - 1, Zt ne fait intervenir que Zt-l et Zt+l dans
son conditionnement si bien que

[ZtIZ#t, f, (3, p, y]
ex

[ZtI Zt-l, Zt+l, f, (3, p, y]


dnorm (p Zt-l + (Xt - PXt-l) (3,1)

xdnorm (pZt

+ (Xt+l -

PXt) (3,1)

En conduisant les calculs comme pour Zo, on trouve facilement une


normale tronquee :

[Zt IZ,it, "I, j3, p, y]

= N (Zt IZt,l / (1 + p2) )

X 1)'Yt- 1(Zo<)'Yt

(E.11)
avec

On a appele Z#t lc vecteur Z prive de la composante Zt , Z#t ==


(ZI, ..., Zt-l, Zt+l, ..., ZT).
(b) Quand t == T, ZT n'est conditionne que par la valeur precedents
ZT-l (la suivante n'a pas ete enregistree) et la conditionnelle complete de ZT s'ecrit toujours sous la forme d'une loi normale tronquee :

dnorm (pZT-l

+ (XT -

pXT-l) (3,1)

x1')'YT-l~Zt<')'YT

(E.12)

3. Interessons-nous au vecteur f contenant les bornes non infinies de chaque


categoric :
T

b IZo, Z,j3, p, vl ex N J-l ("( 1"10, D) 1)' x II {l)'Yt_l (Zt<)'Yt }


t=1

II dit respecter les contraintes fl < "t: < ... < fJ-l. On prend la matrice de variance-covariance de la partie normale du prior, diagonale,
D = diag ((T~j ). On peut raisonner composante par composante "Ij,
j == 1, ... , J - 1.La relation
T

[fj IZo, Z,(3, f#j, p, y] ex N J-l (fj Ifjo, ajj2) x

II {l')'Yt-l~Zt<')'Yt}

t=1

Annexe E

303

est equivalente a
h'j IZ, Zo, 1'j+1, I'j-I,,8, p, y]
_IJ-IJ

(l'j Il'jo, a;2)

(E.13)

1, ..., J - 1

pour j

x1"'Vi.nf<"'V.<"'V~up
IJ

dnorm

ex:

avec
,~nf == max {max {Zt : Yt == j}; ,j-I}

et

,jUP == min {min {Zt : Yt == j + I} ;,j-I}

Si besoin etait, la constante de normalisation

peut etre evaluee en utilisant une simple routine de calcul de la fonction


de repartition de la loi normale monodimensionnelle.
4. Le calcul de la conditionnelle complete de 13 a deja ete realise pour le
modele (10.25). A partir de
T

[13I Zo, Z, "P, y] ex N q (131130, ~o) x

II {N iz, IpZt-1 + (x, - PXt-l) 13,1)}


t=1

on obtient :
(E.14)
avec

{ ~p,z

~
==

== X~Xp + ~o
L:- I (X~Zp + L: 0 13o)

5. Pour la meme raison, le calcul de la conditionnelle complete de P s'obtient


a partir de

[p IZo, Z",13, y] ex dnorm (Po, Vo)

1p E1s

II {dnorm (pZt-1 + (x, - PXt-l) 13, I)}


t=1

pour donner finalement une loi normale tronquee


(E.15)
avec
V ==

t=1

p= V-I

(Zt-I - Xt-I13)

Ct

+ Vo

(Zt-I - Xt-I,8)' (Zt - Xt,8)

+ VOPO)

Chapitre F

Annexe du chapitre 11 :
code WinBUGS pour la
pollution indoor
Chambre d'emission (Hayter et Dowling, 1993)
On dispose de N ==1 3 couples (t,C(t)) OU :
t est le temps (heures) compte depuis le lancement des operations;
C(t) est la concentration des formaldehydes au temps t
La concentration initiale, CO == C (t==O), est connue.
Les d[i] mesurent le temps ecoule entre deux mesures consecutives : d[i] ==
t[i]-t[i-l]
a == Aire de l'objet I volume de la chambre (11m)
T est le demi-temps de vie du materiau emetteur
model;

{
tau --dgamma(0.001,O.001)
lambda --dgamma(O.OOl,O.OOl)
thetaO --dgamma(O.OOl,O.OOl)
CO <- 0.05
eta <- a I (q - lambda)
for( i in 1 : N ) {
b[i] <- exp( -q * d[i])
f[i] <- exp(-lambda*t[i])
g[i] <-exp(-lambda*d[i])
h[i] < - tau/ d[i]

mu[1] <- CO*b[1] + eta * thetaO* [1]* (g[1]- b[1])


C[l] "dnormfrnujlj.hjlj)

306

Pratique du calcul bayesien


for( i in 2 : N ) {
mu[i] <- C[i-1] * b[i] + eta * thetaO* f[i]* (g[i]- b[i])
C[i] - dnorm(mu[i],h[iD

sigma <- 1jsqrt(tau)


T <- log(2)jlambda

}
list(t==c(0.5, 1.5, 2.5, 4.5, 8.5, 24.5, 48.5, 72.5, 144.5, 168.5, 196.5, 216.5,
240.5), C==c(0.219, 0.397, 0.41, 0.549, 0.333, 0.243, 0.163, 0.132, 0.019, 0.031,
0.027,0.023, 0.018),d==c(0.5, 1, 1,2,4,16,24,24,72,24,28,20,24), a==0.3962,q==1.01,N==1
list (tau==0.1,lambda==0.01 ,thetaO==1.2)
list(tau==0.5,lambda==0.02,thetaO==1.1)
list(tau==0.7,lambda==0.03,thetaO==1.3)

Chapitre G

Annexe du chapitre 12 :
complements sur les modeles
hierarchiques
Transfert d'inforrnation et modele hierarchique
Comment le MBH transfere-t-il de l'information entre les annees ? Interessonsnous a la loi a posteriori des parametres inconnus population de saumons Vi
et efficacite de la peche OJ pour une annee i donnee, soit [Vi,Oildata]. Dans
la theorie bayesienne, cette loi synthetise tout ce que l'on sait sur ces parametres, une fois prises en compte les donnees observees, Cherchons comment
les donnees data, relatives a l'annee i interviennent dans ce conditionnement.
On note daio.s., les donnees autres que celles de l'annee i, de telle sorte que
data == {datai, data-i}. En appliquant la formule de Bayes, il vient :

On remarque que la connaissance du couple de parametres (Vi,Oi) suffit pour


generer par le modele d'aleas des observables les donnees daia, de I'annee i de
telle sorte que

On peut reecrire cette equation sous la forme :

(G.l)

308

Pratique du calcul bayesien

Introduisons maintenant le vecteur d'hyperparametres :


[Vi, IJildata-i]

[Vi, IJi, Idata-il d =

[Vi, IJil,data-i] [ldata-iJ d

La connaissance de l'hyperparametre suffit a elle seule pour generer le


couple de parametres (Vi,Oi) : si on dispose de , on n'a besoin des donnees
datac., des autres annees que l'annee i de telle sorte que [Vi, Oil, data_i] ==
[Vi, Oil] . II vient alors en reprenant (G.l) :
(G.2)

Dans le membre de droite de (G.2), seuls les deux premiers termes L, et


[Vi, Oi I] sont fonction du couple de parametres inconnus (Vi,Oi) de telle sorte
que l'equation (G.2) s'ecrit encore:

On interprets cette equation comme une formule de Bayes.


- Les donnees de l'annee i mettent a jour notre connaissance sur (Vi, ()i)
par l'intermediaire de la vraisemblance partielle L, == [datailvi, ()i] ; les
donnees data; sont la manifestation tangible de (Vi, ()i).
- Les donnees des autres annces daia.s, modifient la connaissance de l'hyperparametre qui influe a son tour sur Ie couple (Vi,Oi) comme si
[Vi, IJildata-i]

[Vi, IJil] [ldata-iJ d

etait un prior pour Ie couple (Vi,Oi). C'est par cet intermediaire qu'interviennent les autres donnees annuelles pour actualiser la distribution a
priori commune. Ce terme [Vi, ()i Idata-i] s'interprete comme une distribution a priori modifiee sur (Vi,Oi).
Plus la distribution a posteriori [Idata-i] est informative, plus la distribution a priori modifiee concernant la taille de la population et l'efficacitc de la
capture [Vi, ()ildata-i] contrebalance l'effet de l'acquisition des donnees propre
a l'annee i (traduit dans la vraisemblance partielle L i ) . La figure G.l en donne
une interpretation graphique immediate.
Un cas degenere du modele hierarchique supposerait l'egalite de tous les
couples (Vi,Oi). Des lors, on pourrait melosiqer toutes les annees puisqu'elles

Annexe G

.........

309

inftrence

modetisation

Figure Go1 - Visualisation graphique du transfert d'informations interannuelles pour


Ie modele hierarchique.
proviendr aient strictement du meme phenomene d'observat ion. Dans un tel
cas, tout es les donn ees inte rviennent a egalite avec un poids provenant de leur
vraisemblance et tout es mettent sequent iellement le prior a jour :

IT i ,

[v, Bldata_i, observ osequentielles ] =

x [v,B]

J ir~k X lv, BJ dvdB


v ,& k#i

Dans le modele MBA, au cont raire, la distribution a posteriori de (Vi , Bi )


ne fait pas intervenir toutes les donn ees :

Il faut ici choisir une valeur par ticuli ere pour les hyperparametres 'Yi, 8i . Sous
un tel modele, l'analyste se trouve souvent confronte au dilemme de choisir
'Yi, 8i de sort e que [Vi , Bi h i, 8;] soit non informative et prend le risque d'inferences incert aines dans le cas de donnees insuffisantes, ou de choisir une valeur
qui apporte une information a priori import ant e. Il prend alors le risque d'influencer les inferences par un choix personnel sans rapport avec les donnees
fournies. Face a ce dilemme, le MBR propos e une solution interrnediaire en
attribuant des degree de credibilite aux valeurs des hyperparametres selon les
donn ees disponibles.

310

Pratique du caIcuI bayesien

Un code WinBUGS pour Ie modele hierarchique


des castillons
On regardera aussi avec profit Ie programme avec recapture hypergeometrique dans (Rivot et Prevost, 2002).
model; {

Hyperprior pour I efficacite du piege


E teta - dbeta(1.5,1.5) ;
u teta - dbeta(O.1,10) ;
alpha <- E _ teta*(l-u _ teta)/(u _ teta) ;
beta <- (l-E _ teta)*(l-u _ teta)/(u _ teta) ;

Hyperprior pour I efficacite de la recapture


E_p "dbetaf Lb.Lb};
u _p- dbeta(O.1,10) ;
alpha_p <- E_p*(l-u_p)/(u_p);
beta_p<- (l-E_p)*(l-u_p)/(u_p);

Hyperprior pour le nombre d'individus


EN - dunif(1,3000) ;
inflogVN <- log(EN) ;
LogVN - dunif(inflogVN, 11.5) ;
VN <- exp(LogVN) ;
mu <- EN*EN/(VN);
nu <- EN/(VN);

# Distributions predictives
teta_pred "dbetatalpha.beta},
p_pred -dbeta(alpha_p,beta_p);
lambda_pred -dgamma(mu,nu);
N _pred - dpois(lambda_pred) ;

Nyears vaut 17 ans (1984 to 2000)

Effet aleatoire pour I efficacite du piege

for (i in 1 :Nyears) {
teta1[i) - dbeta(alpha,beta) ;

# Effet aleatoire pour I efficacite de la recapture


teta2[i) -dbeta(alpha_p,beta_p);

#
#
#
#

Effet aleatoire pour le nombre d adultes N[i)


Astuce pour tirer N dans une binomiale negative param (mu,nu) :
Tirage success if lambda dans une gamma( mu,nu)
puis N in dans une loi de Poisson (lambda)
lambda[i) -dgamma(mu,nu);
N[i) - dpois(lambda[i)) ;

Escapement (les saumons qui pourront se reproduire)


Nsp[i) <- max(N[i)-d[i],O);
nm[i)<-max(Nsp[i)-m[i),O)

Annexe G

311

# Vraisemblance binomiale pour la capture et la recapture


c[i] - dbin(teta1 [i],N[iD ;
rien[i] <-r[i]-rm[i]-rnm[i]
rnm[i] -dbin(teta2[i],nm[i]) ;
rm[i] - dbin(teta2[i],m[iD ;

} # fin de boucle sur i


} # fin d u modele
# les donnees
list(
Nyears = 17,
c = c(167, 264, 130, 16, 226, 235, 15, 44, 31, 100, 32, 109, 70, 56, 34, 154, 53),
d = c(13, 48, 37, 4, 43, 36, 8, 0, 11, 19, 14, 7, 15, 22, 4, 6, 0),
m = c(154, 216, 93, 12, 183, 199, 7, 44, 20, 81, 18, 102, 55, 34, 30, 148, 53),
r = c(22, 25, 9, 24, 12, 56, 17, 24, 9, 7, 5, 46, 82, 15, 36, 35, 37),
rm = c(12, 21, 5, 2, 12, 56, 2, 23, 4, 4, 1, 39, 25, 12, 6, 23, 4),
rnm=c(10, 4, 4, 22, 0, 0, 15, 1, 5, 3, 4, 7, 57, 3, 30, 12, 33)
);

# Les valeurs d initialisation MCMC


list(
teta1 = c(0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5),
teta2 = c(0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5),
teta_pred = 0.5,p _pred=0.2,
E teta = 0.6, u teta = 0.6,
E_p = 0.6, u_p = 0.6,
N = c(300, 300, 300, 300, 300, 300, 300, 300, 300, 300, 300, 300, 300, 300, 300, 300, 300),
N pred = 300,
EN = 10, LogVN

3,

lambda = c(10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10),
lambda pred = 10

);

Chapitre H

Annexe du chapitre 13 :
detection de ruptures,
cas Gumbel
Loi de Gumbel ou loi double exponentielle
Definition et proprictos
Nous completons ici le modele de Gumbel, deja rencontre au chapitre 6
pour la distribution des valeurs extremes. Sa fonction de repartition standard
est definie sur IR par l'identite suivante :

Pr(U S u) == exp(-exp(-u))

(H.I)

Sa fonction de densite de probabilite suit


d

[u] == du exp (- exp (-u))


== exp (-exp (-u)) x exp(-u)
== exp

(-u - exp (-u))

(H.2)

Remarque H.! Dans la densite de U

[u] == exp (-exp (-u)) x exp(-u)


posons

== exp ( -u) ~

u ==

- In t

Le Jacobien est Iduldtl == lit. Par consequent, la densite de Test celle de U


en u == -In t multipliee par Ie Jacobien lit:

[t] == exp (-t)

~ T

rv

dexp (til)

314

Pratique du calcul bayesien


Ses deux premiers moments sont

(H.3)
ou T == 0.57722 ... est la constante d' Euler.
Appliquons une transformation lineaire

==

a la variable aleatoire

U:

A + aU, a > 0, A E IR

OU A est un parametre de calage (localisation) et a est un parametre d'echelle.


La densite de X est celIe de U en u == (x - A) / a multipliee par le J acobien
du/dx == a-I> 0:
1
[xIA,a]==~exp

(X-A)
--a- exp (-exp (X-A))
--a-

(H.4)

Les deux premiers moments de X sont triviaux (si on connait ceux de U)


E (XIA, a) == A + aT, V (XIA, a) == (a7r)2 /6

La loi de Gumbel so us une forme prisee des hydrologues


Certains auteurs preferent travailler avec le parametre d'echelle p == a-I,
notamment les hydrologues qui utilisent souvent la loi de Gumbel avec un autre
parametre de calage note M > O.
En posant
InM
A == == (JInM
(H.5)
p
et en substituant dans la densite H.4 on trouve :

[xIA,a]

p exp (- px + In M) exp (- exp (- px + In M) )


PMexp (-px) exp (-M - exp (-px))

(H.6)

II est facile de voir que sous cette forme, la densite de Gumbel est la derivee
(par rapport ax) de la fonction de repartition
Pr(X ~ XIM,P) == exp (-Mexp (-px))

(H.7)

Les deux premiers moments prennent alors la forme suivante :


E (XIJ-t, p) = InJ-t + I'

(H.8)

~ (~r

(H.9)

V (XIJ-t,p) =

L'avantage de cette representation prisee des hydroIogues est que l'interpretation de M est reliee directement a la probabilite de valeurs negatives ou
nulles :
(H.lO)
Pr (X :s; DIM, p) == exp (-M)

Annexe H

315

Remarque H.2 Notons que dans les problemes de valeurs extremes OU le


modele Gumbel s'applique, la valeur 0 a rarement une signification realiste.
Cependant si les valeurs de X sont mesurees selon une origine Xo qui a un sens,
Ie modele H.7 devient
Pr (X :::; xlJL, p, xo) == exp (-JLexp (-p (x - xo)))
Dans ce cas, l'interpretation phenomenologique de JL devient possible puisque
Pr (X :::; xolJL, p) == exp (-JL)
Notons qu'on utilise souvent comme parametre de localisation la valeur medianc

Q=

_ log f-l _ log( -log(O.5)

p
de preference a l' esperance et surtout
moins directe.

(H.ll)

a JL dont la signification hydrologique est

Notons qu'on utilise souvent comme parametre de localisation la valeur


mediane
log JL _ log( -log(O.5)
Q
(H.12)
p
P
de preference a l'esperance et surtout a JL dont la signification hydrologique est
moins directe.

Modelisation des changements pour Ie modele de


GUITlbeI
Nous donnons ci-apres les equations equivalentes aux formules 13.1 et suivantes pour le modele de Gumbel. Elles ont ete utilisees pour traiter le cas de
la Dordogne a Cenac prescntc au chapitre 13 a la figure 13.2.

Modele M1 (1 seule rupture)


Soit une sequence de variables aleatoires reelles Xl, X 2 , ... ,Xt , .. X n observees a intervalles de temps regulier (des annees par exemple), supposces
mutuellement indepcndantes et distribuees selon le modele de Gumbel:
[XtIJLk, p]

avec

== PJLk exp (-PXt) exp [-JLk exp (-PXt)]

(H.13)

l{:}t==l T
"
k == {
2{:}t==T+l, ,n

Avec cette notation appreciee des hydrologues pour la loi de Gumbel, le parametre JL a une interpretation phenomenoloqique et ses deux premiers moments
s'expriment de facon explicite avec appel a la constante d'Euler (equations H.8
et H.9) .

316

Pratique du calcul bayesien

Remarque H.3 Le modele H.13 fait I'hypothese forte que 7 est la derniere
date avant changement du parametre fL de la distribution parente alors que lc
parametre d'echclle P reste invariant. II y a aussi derriere ce schema, l'idee que
la rupture est unique et done que le nouvel etat, caracterise par fL2 perdure au
moins jusqu'a la fin de la pcriode observee n.

Modele M k (k ruptures)
C'est le meme modele que ci-dessus avec k sauts existent dans une serie
de variables aleatoires independantes distribuees selon Gumbel (Ie parametre
fL change mais le pararnetre p reste invariant).

Representation des distributions a priori


Pour le modele de Gumbel, il existe des distributions conjuguees naturelles
gamma pour les fLj. En revanche, p ne posscde pas de conjuguec mais sa distribution peut etre supposee a priori independante des u.
Pour les dates de rupture 71,72, des modeles M 1 , Mi. on prend les memes
priors non informatifs propres que pour la construction normale (eq, 13.2 et eq.
13.4). Pour les autres parametres, on prend les conjuguees naturelles gamma
pour les fLj auxquels nous joindrons un prior gamma independant pour p :

[ttl, ... ,ttk+ 1, p] == [p]

k+1

I1

[ttj] ,

r'V

dgamma (a, b),

Vj : ttj

r'V

dgamma (p, q)

j=l

(H.14)

Etude du modele M;
Avec les memes notations que pour le modele normal du chapitre 13, a partir
de la distribution de Gumbel (eq, H.13), la contribution a la vraisemblance de
Xji, la ie-me don nee du groupe j s'ecrit

Par consequent, la vraisemblance de l'echantillon complet est


k+1

[XlfL,P,7] ==

IT IT PfLj exp [-PXji nj

j=l i=l

ou

fLj exp (-PXji)]

Annexe H

317

1 k+l

X== - Lnjxj

j=1

En adoptant l'echangeabilite a priori des J-lj (equation H.14) le prior s'ecrit :

u,

p] -

rr

k+l

ba

r (a) p

a-I

(b )
q
p-l
(
)
exp - p j=l r (p) J..tj exp -qJ..tj

ex pa-1 exp (-bp)

kIT+lJ..tr1) exp (k+l)


-q L J..tj
(J=1
J=1

Par application de la regie de Bayes, la densite a posteriori [p"plx] s'ecrit


donc:

La conditionnelle complete d'un J-lj quelconque s'ecrit

Ainsi les J-lj, conditionnellement a p fixe, sont independants et distribues


selon des lois gamma independantes :
(H.15)
Par integration de H.14 par rapport aux J-lj, on peut exprimer analytiquement la forme de la distribution conditionnelle de p :

[piT, x] ex pn+a- exp [-

A partir de l'identite

on trouve

- k

(b + nx) pJ

rr+l

f(n+p)
nj
J
nj+p (H.16)
j=1 (q+Li=l exP(-PXji))

318

Pratique du calcul bayesien

La regle de Bayes fournit le posterior de

00

(b + nx) p]

T :

II

k+l

r(

+)

nj nj P
nj+pdp
o
j=l(Q+Li=leXP(-PXji))
(H.17)
On notera ici que, contrairement au cas normal, la distribution conjointe
[Tlx] des Tj est exprimee par une integrale sur P qui n'a pas de solution analytique.

[Tlx] ex [T]

pn+a-l exp [-

Algorithme dinference bayesienne


L'inference bayesienne est mise en ceuvre

a partir des equations H.17+H.16

+H.15. Elle s'appuie sur l'echantillonnage pondere avec re-echantillonnage du


chapitre 4, p. 81). Si l'on reprenait exactement le canevas de l'algorithme decrit
pour Ie cas normal (p. 249), il faudrait y adjoindre une integration numerique
par rapport a P pour simuler T (eq, H.17). II est ici plus astucieux de joindre
ce parametre P aux variables latentes T. On pourra alors utiliser le prior [T][p]
comme distribution instrumentale dans l'algorithme d'echantillonnage pondere
du paragraphe 4.4.3, ce qui nous donnera un echantillon a posteriori de (T, p).
Dans les applications au modele Mi; de Gumbel, on a de plus construit une
fonction d'importance plus interessante que le prior. L'idee est d'employer une
Ioi normale qui approche la distribution H.16 a posteriori de p (eventuellement
simplifiee pour le cas d'absence de changements). C'est cette loi normale pour
p, associee au prior [T] qui a ete utilisee comme fonction d'importance pour
conduire I'inference du modele de Gumbel.

Loi norrnale : etude du modele M;


Vraisemblance
La contribution d'une observation

a la vraisemblance s'ecrit

Posons

x == {Xji: j == 1,2, ,k+ l;i == 1,2, ,nj}


J1
T

== {J1j : j == 1, 2, ... ,k + I}
== {Tj : j == 1, 2, . .. ,k}

Annexe H

319

II y a done 2 (k + 1) parametres a estimer.


L'hypothese d'independance entre les observables permet d'ecrire la vraisemblance comme le produit des densites :

(H.18)

Distributions conditionnelles a posteriori des


connu

j-lj

et de h

Le prior conjoint (13.8) possede une structure qui ressemble a la vraisemblance conditionnelle a T (eq H.18) que l'on va exploiter pour tirer parti des
proprietes de conjugaison :

[JL, h] ex hc- 1 exp (-dh) h(k+l)/2 exp

L'application de la regle de Bayes


[JL, hIT,X] ex h(k+l)/2+n/2+c-l exp

h k+1
)
~ (JLj - m)2
2

- a

(H.19)

a T connu donne :

-2"h

2d + Q

f;

k+1
k+1
)
+ a~
(JLj - m)2 +
nj(xj - JLj)2

(H.20)
Or un simple calcul algebrique montre que
a

k+l

k+l

k+l

j=l

j=l

j=l

:L (JLj - m)2 + :L nj(xj - JLj)2 = :L (a + nj) (JLj - mj)2 + T

ou
(H.21)
Le terme T ne depend que des donnees et des informations a priori.
II s'en suit que la distribution conjointe a posteriori des parametres J-L et h
s'ecrit
[JL, hIT,X] ex h(k+l)/2+ n/2+c- 1 exp

-2" f; (a + nj) (JLj - mj)2


(-2"h(2d + Q + T) ) (h
exp

La distribution conditionnelle a posteriori de J-Lj


rupture sont T fixes est immediate :
J-Ljlh, T ~

dnorm (mj, hj)

ah

k+1

(H.22)
lorsque les temps de

(H.23)

320

Pratique du calcul bayesian

ou
hj == (a + nj) h

(H.24)

L'integration de la distribution conjointe par rapport

00 100
1
-00

k+l

-00

j.Lj

donne

21r
ex h-(k+l)/2 (H.25)
h(a+nj)

[J-l, hiT, x] du.; ... dJ-lk+l = }]

La distribution conditionnelle a posteriori de h

[hiT, x] ex hn / 2+c - 1 exp

a chaque

a7

fixe suit :

[-~ (2d + Q + T)]

(H.26)

On reconnait une distribution gamma, de parametre de forme c' et d'inverse


echelle d' :

, n
c==-+c

(H.27)

d' =

~ (2d + Q + T)

Distribution marginale a posteriori de

(H.28)
T

Maintenant on peut obtenir la distribution marginale a posteriori de T.


Cornmencons par ecrire la distribution conjointe du reseau bayesicn sous deux
formes differentcs :

[JL,hI7, x] [XI7] [7]

==

[JL,h, 7, x] == [xIJL,h, 7][JL,hI7] [7]

On en deduit

Mais l'independance a priori supposee de


entraine

avec tous les autres parametres

Cette independance est essentielle pour les calculs realises ci-apres,


Le premier facteur du membre de droite est donne par H.18 et le second par
H.19. Donc le membre de gauche est proportionnel a leur produit H.22 dans
lequel on a tenu compte des definitions H.21, H.24.

Annexe H
En integrant successivement par rapport
deux cotes, on trouve :

a /1

==

321

(/11, ,/1k+1) puis h des

On peut appeler [XIT] la predictive conditionnelle de x pour T == (Tl, ,Tk)


fixe.
La distribution a posteriori du parametre T suit par la formule de Bayes

(H.29)
ou le prior conjoint [T] est fourni par la procedure decrite ci-avant.

Le modele autoregressif de changement M;


Nous restons ici encore avec l'hypothese d'un seul changement a la date T
dans un processus normal. Par rapport au modele M1, Ma se distingue par
un parametre supplementaire cp, autocorrelation du processus. Celui-ci verifie
la condition Icpl ~ 1 pour que la serie des ecarts aux moyennes soit stationnaire ce que nous supposerons. II en resulte une contrainte prise en compte par
une distribution definie sur [-1, + 1]. Sachant que nos applications illustratives
verifient plutot 0 ~ cp ~ 1 nous adopterons un prior normal tronque sur cet intervalle en y ajoutant l'hypothese d'independance a priori de cp avec les autres
parametres. Soit le modele conditionnel autoregressif d'ordre 1 :

+ cpXt-l, h) pour t == 1,2, ...T


== N(1/J2 + cp Xt-l, h) pour t == T + 2, ...n

[Xt Xt- l ] == N( 1/Jl


I

[XtIXt-l]

(H.30)
(H.31)

Vraisemblance et priors
Pour expliciter la vraisemblance, nous utiliserons ici les notations matricielles en posant les vecteurs :

(H.32)
et deux vecteurs instrumentaux de coordonnees

Vlt == 1 si t ~ T , 0 sinon
V2t == 1 si t 2: T + 1 ,0 sinon
- On peut alors poser vraisemblance et priors conjugues conjoints :

322

Pratique du calcul bayesien

[xI'th , 'l/J2, h, '17]

([f;t

exp[-

h~]

(H.33)

avec: Q == (X-'l/Jlvl-'l/J2v2-yJX_)T(x-'l/Jlvl-'l/J2v2-yJX-) (H.34)


_
e-~ hg - 1 h3/2JA1A2Acp -~((O-m)TL(O-m))
['l/J1, 'l/J2, h, '17] - 8[0,1] ('17) x f(g )cg X
(211" )3/2 e

(H.35)
en utilisant la notation de la fonction de Dirac 6

[7] == _1_, independant de ()


n-l

==Jl;1,Jl;2,h

(H.36)

sur {1,2, ... ,n -I}

(H.37)

La fonction de Dirac 6[0,1] (yJ) nulle en-dehors de l'intervalle [0,1] au elle est
egale a L, tient compte de la contrainte sur ip,
On remarquera que, sous cette forme la vraisemblance a 7 fixe est celle d'un
modele gaussien lineaire classique.
En ce qui concerne ces priors, on utilisera les conjugues naturels pour
ip, 'l/Jl, 'l/J2 et h ,soit :
- h est distribue comme une gampdf(a, b)
- si h est fixe 'l/Jl, 1/J2, .p sont distribues comme une loi normale a 3 di-

::;::~:2~::~:;:~:::: :n:ep(en~;nt!, c~nd)itionnellement


o

a h,

soit

x,

Remarque H.4 Cette hypothese impliquant l'independance a priori de


L different.

'l/Jl, 'l/J2, .p peut etre remplacee par un

(H.38)

Distributions a posteriori
On va commencer par transformer la vraisemblance.
Conjointement a (), on utilisera la matrice n x 3: S == {VI;V2;X_}
Soient les valeurs () == {~l; ~2; ~} qui maximisent la vraisemblance (c'est-adire qui minimisent Q). Elles sont les solutions du systems a 3 equations:

vi .(X-'l/JI VI -'l/J2 V2-yJX-) == 0

(H.39)

vf.(X-'l/JIvI-'l/J2v2-yJX-) == 0

(H.40)

x~ (X-'l/Jl VI -ttP2 V2-yJX-) == 0

Annexe H

323

equivalentes au produit matriciel :

(H.41)
Cela etant, on peut decomposer Q en utilisant une identite connue (voir par
exemple Box et Tiao, 1973) :

Maintenant, une autre identite sur la somme de deux formes quadratiques


permet d'ecrire :

(() - O)TSTS(() - 0) + (() - m)T L(() - m)

== (() - mx)T(STS + L)(() - m x )

+(0 - m)TSTS(STS + L)-1 L(~H.4fl)


ou on a pose

(H.43)
Compte tenu de ces resultats, on peut aisement determiner les distributions

a posteriori.
On en donne ci-apres la distribution conditionnelle conjointe a posteriori
pour T fixe:

avec:

== 9 + n/2
L; == STS + L

(H.44)

9x

(H.45)
2c

= 2 + c((x - SO)T(x - SO) + (0 - m)TSTSL;l L(O - m))


m x == L;1(STSO + Lm)
C

(H.46)
(H.47)

Les densites marginales a posteriori de ~1, ~2, .p sont des dcnsites de Student
(tronquees pour <.p) qui sont aisees a determiner compte tenu de la formule
generale ci-dessus.
- Maintenant on peut obtenir la distribution marginale a posteriori de T
comme nous l'avons fait pour Mk.

[XIT][(), hiT, x] == [xl(), h,T][(), h]

(H.48)

d'apres l'independance a priori supposee de T et des autres parametres.


En utilisant l'ecriture developpee du second membre compte tenu des identite precedentes, on a :

324

Pratique du calcul bayesien

[XIT][O, hiT, x] == Ce"

c: hgxe-~((e-mx)TLx(e-mx))

C est une constante (independantc de (), h, T)


En integrant par rapport

(H.49)
(H.50)

a () puis h des deux cotes, on trouve :


(H.51)

On remarquera que 9x ne depend pas de


Bayes pour T, donne :

de telle sorte que la formule de

(H.52)
Remarque H.5 Nous avons discute ce modele en utilisant les notations matricielles. Ce parti a l'interet de montrer la generalisation aisee de la modelisation
des changements a des modeles lineaires generaux avec variables ou processus
explicatifs divers. Les formules precedentes sont tres facilement transposables
dans ce cas. Sur le plan des calculs, la methode EPE que nous avons adoptee se
generalise egalcment sans perte de precision ni augmentation de couts-calculs.

Bibliographie
Bagliniere, J.L., Champigneulle, A. 1986. Population Estimates of Juvenile
Atlantic Salmon,Salmo Salar, as Indices of Smolt Production. Journal
Fish Biol., 29, 467-482.
Berger, J.O. 1985. Statistical Decision Theory and Bayesian Analysis. 2nd edn.
Springer-Verlag.
Bernardo, J.M., Smith, A.F.M. 1994. Bayesian Theory. Wiley and Sons, Chichester, U.K.
Bernier, J., Parent, E., Boreux, JJ. 2000. Statistique Pour L'Environnement .
Traitement Bouesieti de L'incertitude. Tec et Doc, Lavoisier.
Bouleau, N. 1991. Splendeurs et Miseres Des Lois de Valeurs Extremes. Revue
Risques, 4, 85-92.
Box, G. E. P., Tiao, G. T. 1973. Bayesian Inference in Statistical Analysis.
Reading : Addison-Wesley.
Brooks, S.P. 1998. Markov Chain Monte Carlo Method and its Application.
The Statistician, 47(1), 69-100.
Brouard, J., Hoceine, A., Lecoutour, X., Kauffmann, D., Eckart, P., Duhamel,
J.F. 1995. Estimation de l'incidence de la tuberculose pediatrique en BasseNormandie. Med. Mal. Infect., 1345-1347.
Cappe, 0., Guillin, A., Marin, J., Robert, C. 2004. Population Monte Carlo.
J. Comput. Graph. Statist., 13(4),907-929.
Chang, J., Guo, Z. 1998. Emissions of Odorous Aldehydes from Alkyd Paints.
Atmospheric Environnement, 32, 3581-3586.
Chao, A. 1989. Estimating Population Size for Sparse Data in CaptureRecapture Experiments. Biometrics, 45, 427-438.
Chen, M.-H., Shao, Q.-M., Ibrahim, J. G. 2000. Monte Carlo Methods in Bayesian Computation. Springer.
Clobert, J., Pradel, R. 1993. Modelling some Demographic Parameters in Animal Populations Studied by Capture-Mark-Recapture : Review and Perspectives. Pages 151-174 of : Lebreton, J-D., Asselin, B. (eds) , Biometric
et Environnement. Paris : Masson.

326

Pratique du calcul bayesien

Coles, S. 2001. An Introduction to Statistical Modeling of Extreme Values.


Springer Series in Statistics.
Cornillon, P. A., Matzner-Lober, E. 2007. Regression. Theorie et Applications.
Springer-Verlag France.
Cowell, R. 1998. Introduction to Inference for Bayesian Networks. Pages 926 of : Jordan, M., I. (ed), Learning in Graphical Models. Cambridge,
Massachusetts : The MIT Press.
Cramer, H. 1946. Mathematical Methods in Statistics. Princeton univ. press
edn.
Deparis, X., Pasacl, B., Bourdon, D. 1997. Evaluation des systemes de surveillance epidemiologique du paludisme dans les arrnees francaise en 1994
par la methode de Capture-recapture. Tropical Medicine and International
Health.
Doucet, A., De Freitas, N., Gordon, N. 2001. Sequential Monte-Carlo Methods
in Practice. Springer.
Drees, H. 2008. Some Aspects of Extreme Value under Serial Dependance.
Extremes, 11, 35-53.
Droesbeke, J.J., Fine, J., Saporta, G. 2002. Methodes Bayesiennes En Statistiques. TECHNIP, Paris, 418 p.
Finney, D.J. 1971. Probit Analysis. Cambridge University Press.
Fisher, R.A., Tippett, L.H.C. 1928. Limiting Forms of the Frequency Distribution of the Largest or Smallest Member of a Sample. Proceedings of the
Cambridge Philosophical Society, 24, 180-190.
Foata, D., Fuchs, A. 1998. Processus Stochastiques, Processus de Poisson,
Chaines de Markov et Martinguales. Dunod.
Fortin, V., Perreault, L., Salas, J. D. 2004. Retrospective analysis and forecasting of streamflows using a shifting level model. Journal of Hydrology,
296(1-4), 135-163.
Gazey, W.J., Staley, M.J. 1986. Population Estimation from Mark-Recapture
Experiments Using a Sequential Bayes Algorithm. Ecology, 67(4),941-951.
Gelman, A., Rubin, D.B. 1992. Inference from Iterative Simulation Using Multiple Sequences. Statist. Sci., 7, 457-511.
Gelman, A., Carlin, J.B., Stern, H.S., Rubin, D.B. 1995a. Bayesian Data Analysis. Chapman and Hall.
Gelman, A., Carlin, J.B., Stern, H.S., Rubin, D.B. 1995b. Bayesian Data Analysis. Texts in Statistical Science. London, New-York. : Chapman and
Hall.
Gelman, A., Carlin, J.B., Stern, H.S., Rubin, D.B. 2004. Bayesian Data Analysis. 2nd edn. Chapman et Hall/CRC.
Giltinan, D. M., Capizzi, T.P., Malani, H. 1988. Diagnostic Tests for Similar
Action of Two Compounds. Appl. Statist., 39-50.

Bibliographie

327

Girard, P., Parent, E. 2000. Analyse Bayesienne Du Modele Lineaire A Erreur Autocorrelee : Application A la Modelisation D'un Procede AgroAlimentaire A Partir de Donnees Recueillies sur Ligne. Revue de Statistique Appliquee, XLVIII(1-15), 5-34.
Girard, P., Parent, E. 2001. Bayesian Analysis of Autocorrelated Ordered
Categorical Data for Industrial Quality Monitoring. Technometrics, 42(4),
1-12.
Girard, P., Parent, E. 2004. The Deductive Phase Of Statistical Analysis Via
Predictive Simulations : Test, Validation and Control of a Linear Model
with Autocorrelated Errors Representing a Food Process. Journal of Statistical Planning and Inference, 124(1),99-120.
Gnedenko, B. 1943. Sur la Distribution Limite Du Terme Maximum D'une
Serie Aleatoire. The annals of Mathematics, 44, 423-453.
Haghighat, F., De Bellis, L. 1998. Material Emission Rates: Literature Review and the Impact of Indoor Air Pollution Temperature and Relative
Humidity. Building and Environment, 5, 261-277.
Hand, D.J., Daly, F., Lunn, A.D., McConway, K.J., Ostrowski, E. 1993. A
Handbook of Small Data Sets. Chapman and Hall, London, 458 p.
Hayter, T., Dowling, M. 1993. Experimental Designs and Emission Rate Modelling for Chamber Experiments. Atmospheric Environment, 27 A(14),
2225-2234.
Hubert, P. 2000. The segmentation procedure as a tool for discrete modeling
of hydrometeorological regimes. Stochastic Environmental Research and
Risk Assessment, 14(4), 297-304.
Jeffreys, H. 1939. Theory of Probability. Oxford.
Jenkinson, A.E. 1955. The Frequency Distribution of the Annual Maximum
(or Minimum) Values of Meteorological Elements. Quarterly Journal of
the Royal Meteorological Society, 81, 158-171.

Jones, A.P. 1999. Indoor Air Quality and Health. Atmospheric Environment,
33, 4535-4564.
Kass, R.E., Raftery, A.E. 1994. Bayes Factors. Journal of American Statistics
Assoc., 90, 773-795.
Kass, R.E., Carlin, B.P., Gelman, A., Neal, R.M. 1996. Markov Chain Monte
Carlo in Practice : A Roundtable Discussion. Proceedings of the joint
statistical meetings.
Leadbetter, M.R. 1983. Extremes and Local Dependence in Stationnarity Sequences. Zeit. Wahrscheinl.-theorie, 65, 291-306.
Lee, A. F. S., Heghinian, S. M. 1977. A Shift of the Mean Level in a Sequence of Independent Normal Random Variables: A Bayesian Approach.
Technometrics, 19(4),503-506.
Lejeune, M. 2005. Statistique. La Theorie et Ses Applications. Springer-Verlag
France.

328

Pratique du calcul bayesien

Marin, J.M, Robert, C. P. 2007. Bayesian Core. Springer.


Marion, V. 2007. Existe-t-il Une Pneumoconiose Du Proihesiste Dentaire?
Tech. rept. ULB, Institut des Sciences du Travail.
Metropolis, N., Rosenbluth, A.W., Rosenbluth, M.N., Teller, E. 1953. Equations of State Calculations by Fast Computing Machines. Journal Chem.
Phys., 21, 1087-1092.
Morlat, G. 1968. La Distribution Des Debits de Fuite sur Une Conduite de
Gaz. Tech. rept. E. D. F.
Palmarini, M. P. 1995. La Reforme Du Jugement Ou Comment Ne Plus Se
Tromper. Odile Jacob. Titre original: L'illusionne di sapere (1993).
Parent, E., Bernier, J. 2003. Encoding Prior Knowledge to Improve Risk Analysis of Extreme Hydrological Events Via POT Modeling. Journal of hydrology, 283, 1-18.
Parent, E., Bernier, J. 2007. Le Raisonnement Bauesien. Modelisaiion et Inference. Springer Verlag France.
Parent, E., Prevost, E. 2003. Inference Bayesienne de la Taille D'une Population
de Saumons Par Utilisation de Sources Multiples D'information. Revue de
Statistique Appliquee, LI(3), 5-35.
Perreault, L. 2000. Analyse bayesienne retrospective d'une rupture dans les
sequences de variables aleatoires hydrologiques. Ph.D. thesis, ENGREF
(France) et Universite du Quebec (Canada).
Perreault, L., Bernier, J., Bobee, B, Parent, E. 2000. Bayesian change-point
analysis in hydrometeorological time series. Part 1. The normal model
revisited. J. Hydrol., 235, 221-241.
Pickands, J. 1975. Statistical Inference Using Extreme Order Statistics. Annals
of statistics, 119-131.
Potter, E.C.E., Crozier, W.W. 2000. A Perspective on the Marine Survival of
Atlantic Salmon. The Ocean Life of Atlantic Salmon- Environmental and
Biological Factors Influencing Survival. Pages 19-36 of : Mills, D. (ed),
Fishing News Books. Oxford: Blackwell Science.
Punt, A.E., Hilborn, R. 1997. Fisheries Stock Assessment and Decision Analysis: The Bayesian Approach. Reviews in Fish Biology and Fisheries., 7,
35-63.
R Development Core Team. 2009. R : A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria.
ISBN 3-900051-07-0.
Raftery, A.E. 1988. Inference for the Binomial N Parameter: A Hierarchical
Bayes Approach. Biometrika, 75(2), 223-228.
Raiffa, H., Schlaifer, R. 1961. Applied Statistical Decision Theory. Harvard:
Harvard University Press.

Bibliographie

329

Renard, B., Lang, M., P., Bois. 1988. Statistical analysis of extreme events
in a non-stationary context via a Bayesian framework : case study with
peak-over-threshold data. Stochastic Environmental Research and Risk
Assessment, 21(2), 97-112.
Rivot, E., Prevost, E. 2002. Hierarchical Bayesian Analysis of Capture-MarkRecapture Data. Canadian Journal of Fish. and Aquat. Sciences, 59,
1768-1784.
Robert, C. 2006. Le Choix Bauesien, Principes et Pratique. Statistique et
Probabilites Appliquees, Springer.
Robert, C.P., Casella, G. 1999. Monte-Carlo Statistical Methods. Springer.
Ruggle, J., Brodie, H. 1947. An empirical approach to ecomic intelligence in
world war II. Journal of American Statistics Assoc., 42, 72-91.
Salas, J.D., Boes, D.C. 1980. Shifting Level Modelling of Hydrologic Series.
Advances in Water Resources, 3(2), 59-63.
Samet, J.M. 1993. Indoor Air Pollution: A Health Perspective. Indoor Air, 3,
219-226.
Savage, L. J. 1954. The Foundations of Statistics. New York: Dover Publications.
Seber, G.A.F. 1982. The Estimation of Animal Abundance and Related Parameters. Londres : Charles Griffin and Co. Ltd High Wycombe.
Sivia, D. S. 1996. Data Analysis: A Bayesian Tutorial. Oxford: Clarendon
Press.
Smith, A.F.M., Gelfand, A.E. 1992. Bayesian Statistics Without Tears. A
sampling resampling perspective. The American Statistician, 46(2).
Spiegelhalter, A., Thomas, A., Best, N., Lunn, D. 2003. WinBugs Package.
WinBugs package, version 1.4.
Spiegelhalter, D.J., Thomas, A., Best, N.G., Gilks, W.R. 1996a. BUGS
0.5, Bayesian Inference Using Gibbs Sampling. In: Manual Cambridge.
Londres : MRC Biostatics Unit.
Spiegelhalter, D.J., Thomas, A., Best, N. G. 1996b. Computation on Bayesian Graphical Models. Pages 407-425 of : Bernardo, J.M., Berger, J.O.,
Dawid, A.P., Smith, A.F.M. (eds), Bayesian Statistics. Oxford University
Press.
Spiegelhalter, D.J., Thomas, A., Best, N.G. 2000. WinBUGS Version 1.3 : User
Manual. Cambridge: Medical Research Council Biostatistics Unit.
Squinazi, F. 2002. La Pollution de L'air A L'interieur Des Batiments (Allergenes
Exclus). Allergol Immunol Clin, 42, 248-255.
Tanner, M.A. 1996. Tools for Statistical Inference: Methods for the Exploration
of Posterior Distribution and Likelihood Functions. New York: Springer
Verlag.

330

Pratique du calcul bayesien

Tichenor, B.A. 1989. Indoor Air Sources. Using Small Environmental Chamber
to Characterize Organic Emissions from Indoor Materials and Products.
EPA, 600(8-89-074).

Wolkoff, P. 1995. ~VOC : Sources, Measurements, Emissions and the Impact on


Indoor Air Quality. Indoor Air, supl.3, 1-73.

la conjugaison, 16, 130


par analogie, 16, 131
par introspections successives, 10,
132

Index

DAG, 14, 33, 34, 38, 51, 85, 88, 155,


156
distribution

a posteriori, 16
a priori, 9
conjointe a posteriori, 269
a posteriori
distribution, 12, 18,27,41,53,90,
102, 202, 219, 222, 227, 232,
251, 271

de Polya, 29
marginale a posteriori, 270
predictive a posteriori, 5, 12, 29,
271

a priori
echangeabilite, 227
echantillonnage
bootstrap, 82
de Gibbs, 49, 69, 109, 115, 156,
162, 189, 201, 202, 282
multinomial, 44
par importance, 81
pondere, 49, 76, 249
elicitation, 247
d'un prior beta, 134
estimateur des moindres carres, 290
exemple
action conjointe de deux produits,
181
apports energetiques du Saint Laurent,
Bayes
239, 254, 256
rapport de, 251
debits moyens annuels du Seneregle de, 212, 217
gal, 239, 253
bayesienne
du tramway, 86
evaluation des stocks de saumons,
inference, 101, 212, 226, 247
148
chaine de Markov, 51, 201, 220, 234
exoplanetes, 87
chambre d'emission, 212
incidence du paludisme dans les
choix de modele, 165, 239, 250, 251,
armees francaises, 46
261
la troisicme loi de Keppler, 35
conjugaison, 209
lait concentre sucre, 188, 197
constante d' Euler, 314
lame d'eaujournaliere it Uccle, 121
construction du prior
maxima annuels des debits de la
conjoint, 152
Dordogne, 239, 243, 258

distribution, 27, 52, 217, 225, 228,


308
echangeabilite, 317
information, 309
poids, 244
alea naturel, 4, 170
algorithme, 43
de Metropolis-Hastings, 49, 66
de Monte-Carlo, 49, 59
echantillonnage pondere, 249
MCMC, 65, 232
approximation
asymptotique, 52
normale, 197

332

Pratique du calcul bayesian


niveau de la mer a Port Pirie, 116,
284
pneumoconiose, 176
pollution indoor, 212
prothesistes dentaires, 178
rangs de naissance, 88
saumons, 307
saumons dans la riviere Oir, 222
tuberculose pediatrique en BasseNormandie, 45
vitesse du vent a Tunis, 118

facteur de Bayes, 130, 250, 252


famille exponentielle, 173, 196
fonction
d'importance, 318
de Dirac, 322
de repartition, 303, 313
hypothese iid, 4, 13, 29, 30, 99, 216,
269, 274
independence
a priori, 320
conditionnelle, 36, 172
statistique, 227
inference
bayesienne
modele GEV, 110
modele POT, 112
information de Fisher, 57, 129
intervalle de credibilite, 18
Jacobien, 267
loi de probabilite
beta, 27, 176,229, 275
binomiale, 25, 277
binomiale-negative, 32, 231, 277
de Cauchy, 173
de Po~so~ 25, 231, 277
de Student, 14, 268, 287
de Frechet, 99
de Gumbel, 99, 243, 244, 313
de Laplace-Gauss, 267
de Pareto generalisee, 106

de Weibull, 99
du Khi-deux, 268
gamma, 13,217,249,268,274,292
generalisee des valeurs extremes,
99
jointe, 212
multinormale, 291
normale, 4, 55, 231, 242, 318
tronquee, 301
normale centree reduite, 287
predictive du modele hierarchique,
234
predictive a posteriori, 234
uniforme, 99, 229
methode
acceptation-rejet, 73
d'importance sampling, 253
de Monte-Carlo, 72
MCMC, 66
particulaire, 81
modele
shifting level model, 260
a k ruptures, 241
a une seule rupture, 240
autoregressif, 194, 243
bayesien annuel, 228
bayesien hierarchique echangeable,
225
beta-binomial, 27
catcgoriel probit, 206
d'echantillonnagc, 23
de capture-marquage-recapture, 41,
222, 307
de depassement, 281
de regression lineaire, 287
de regression logistique, 177
de regression non lineaire, 214
de rupture, 238, 315, 316
des fuites, 281
deterministe, 216
gamma-Poisson, 30, 278
GEV, 100, 282
hierarchique, 87, 222, 225, 234, 307,
310

Index

Iineaire, 4, 170
lineaire
a residus autocorreles, 195
avec erreur sur regresseurs, 200
lineaire generalise, 48, 172, 173
POT, 105, 281
statistique parametrique, 5
modularite, 39

parametre
d'echellc, 231, 283, 316
inverse, 320
de forme, 102, 249, 320
de localisation, 315
posterior, 269, 318
principe
de parcimonie, 241
prior
de Jeffreys, 229
echangeable, 246
vague de Jeffreys, 58
processus
de Bernoulli, 24, 176, 273
ponctuel de Poisson, 25
ponctuel de Poisson, 279
marque, 280
rapport de vraisemblance, 251
regle
de Bayes, 12
de decision, 22
regression
lineaire, 61, 191, 289
logistique, 176
reseau bayesien, 38
residus
autoregressifs, 183, 197
graphe, 214
risque
d'erreur, 219
relatif, 180
somme de deux formes quadratiques,
291
theoreme, 138

333

Fisher et Tippet, 101


Gnedenko et Jenkinson, 101
central limite, 7, 51
valeur de projet, 103
valeurs extremes, 239, 314
variable latente, 40, 153, 206, 282
vraisemblance, 192, 217, 223, 244
WinBUGS, 4, 48, 49, 66, 90, 93, 126,
180, 216, 218, 232, 282
zeros-trick, 92, 284