Vous êtes sur la page 1sur 505

Modélisation et statistique bayésienne computationnelle

nicolas.bousquet@upmc.fr

Master 2, Sorbonne Université, 2020

1/291 1/
Plan du cours
1 Introduction 7
2 Rappels de statistique 13
Aspects descriptifs (modélisation) 16
Aspects inférentiels 19
Aspects décisionnels liés à une estimation ponctuelle 34
Risque fréquentiste 39
Risque bayésien 42
3 Quelques autres caractéristiques du cadre bayésien 56
Estimateur du mode a posteriori 58
Régions de confiance et de crédibilité 59
Une approche rapide des tests d’hypothèse 60
Consistance et normalité asymptotique de la loi a posteriori 63
Interprétation subjective de la probabilité a priori 64
Une première conclusion 66
4 Rappels en statistique computationnelle 68
2/291 2/
Plan du cours (cont.)
Acceptation-rejet 81
Échantillonnage d’importance (ou préférentiel) 87
Méthodes de Monte Carlo par chaînes de Markov (MCMC) 91
Algorithme de Metropolis-Hastings
Échantillonneur de Gibbs
5 Récapitulatif : quand et comment faire, erreurs à éviter, principaux
messages 120
6 Outils de mise en oeuvre et références 124
7 Choix du cadre bayésien 127
8 Élicitation bayésienne - présentation 151
Élicitation par maximum d’entropie 160
Lois a priori conjuguées 172
Distributions a priori non-informatives 183
Mesure de Jeffreys
Mesure de Berger-Bernardo
Mesure coïncidante
3/291 3/
Plan du cours (cont.)
Convergence vers les mesures impropres
Exemple complet dans un cadre fiabiliste 205
Modélisation bayésienne hiérarchique 215
Principe
Exemples de dépendances statistiques apparaissant naturellement
Représentation des liens de causalité / conditionnement
Quelques soucis méthodologiques et pratiques importants 224
Prouver l’intégrabilité de la loi a posteriori
Fusion de plusieurs a priori
Cohérence entre a priori et vraisemblance des données observées
Modélisation a priori informative non conjuguée 241
Exemple d’élicitation paramétrique
Exemple d’élicitation par méta-analyse
Vers une méthodologie critique de l’élicitation
Analyse de sensibilité 277
−contamination
Exponential twisting

4/291 4/
Plan du cours (cont.)
Autre approche et conclusions 281

9 Sélection de modèle bayésien 285


Régions de confiance et de crédibilité 286
Une approche rapide des tests d’hypothèse 287
Facteur de Bayes 288

5/291 5/
A noter

Une annexe présentant plus de détails sur l’élicitation a priori est fournie

6/291 6/
Introduction

Contexte et objectifs du cours

Cours tourné vers les applications réelles et l’usage pratique des statistiques bayésiennes
Exemples théoriques et appliquées, travail computationnel avec R (Rstudio / R
Markdown)

Que signifie adopter une démarche statistique bayésienne ? Dans quel contexte ?
Pourquoi modéliser stochastiquement les incertitudes caractérisant un univers risqué ?
Comment construire une modélisation et l’enrichir ?

La plupart des examples seront issus du risque industriel et environnemental, des


études de survie, des études technico-économiques, tous domaines intéressant
l’assurance, la réassurance, etc.

8/291 8/
Introduction

La statistique bayésienne

Très utile et de plus en plus utilisée en ingénierie mathématique

Encore relativement peu enseignée car l’une des branches les plus récemment développées des
statistiques (même si historiquement la plus précoce)

Pour être bien utilisée, elle recquiert d’avoir compris / assimilé


la statistique classique (dite “fréquentiste")
la théorie de l’information
la théorie de la décision (ou de l’utilité)

Elle sert à modéliser et prendre une décision sous incertitude conditionnellement à une
information transportée par des réalisations (possiblement bruitées) de lois ou processus
aléatoires, et d’éventuelles autres sources d’information incertaines

9/291 9/
Introduction

De bonnes références (parmi d’autres) pour aborder le


bayésien

10/291 10
Introduction

Transparents et exercices (+ corrigés)

Disponibles régulièrement sur la page web


http://www.lpsm.paris/pageperso/bousquet/cours-su-2020.html

11/291 11
Introduction

Planning 2020

9h30-12h30, salle 14-24.301


Janvier : 14, 21, 28
Février : 4, 11 , 18, 25
Mars : 10, 17,
Examen : lundi 30 mars = examen ou présentation projet (14h-17h, salle 15-25.102)

12/291 12
Rappels de statistique

Rappels de statistique
(et introduction des notations)

14/291 14
Rappels de statistique

Introduction

La Statistique peut être vue comme une théorie de la description d’un phénomène incertain,
perçu au travers de données xn = (x1 , . . . , xn ), décrites comme des observations d’une variable X

Cette incertitude du phénomène est fondamentalement supposée aléatoire, càd que l’incertitude
sur les valeurs que prend X ne peut pas être réduite à 0 même si le nombre n d’observations
tend vers +∞

La distribution probabiliste à l’origine de ce caractère aléatoire est notée P, et l’objectif premier


de la Statistique est donc d’inférer sur P à partir de xn

Le second objectif est de pouvoir mener une prévision (ou “prédiction") d’une répétition future
du phénomène

Le troisième objectif est de prendre une décision ayant des conséquences mesurables, sur la base
de l’étude du phénomène

Cette prise de décision permet d’ailleurs de défendre un choix particulier de procédure


inférentielle

15/291 15
Rappels de statistique Aspects descriptifs (modélisation)

Aspects descriptifs

La modélisation probabiliste du phénomène consiste en une interprétation réductrice faite sur P


par le biais d’une approche statistique qui peut être :
non-paramétrique, qui suppose que l’inférence doit prendre en compte le maximum de
complexité et à minimiser les hypothèses de travail, en ayant recours le plus souvent à
l’estimation fonctionnelle
paramétrique, par laquelle la distribution des observations xn est représentée par une
fonction de densité f (x |θ) où seul le paramètre θ (de dimension finie) est inconnu

Cette seconde approche est ici privilégiée

Deux arguments :
un nombre fini d’observations ne peut servir à estimer qu’un nombre fini de paramètres
l’évaluation des outils inférentiels paramétriques peut être faite avec un nombre fini
d’observations

16/291 16
Rappels de statistique Aspects descriptifs (modélisation)

Aspects descriptifs - le cadre statistique paramétrique

On s’intéresse au comportement d’une variable aléatoire X évoluant dans un espace mesuré et


probabilisé (Ω, A, µ, P) où
1 Ω est l’espace d’échantillonnage des X = x , càd l’ensemble de toutes les valeurs possibles
prises par X
on travaillera avec Ω = IR n et des échantillons observés xn = (x1 , . . . , xn )
2 la tribu (ou σ−algèbre) A = collection des événements (sous-ensembles de Ω) mesurables
par µ
 
on travaillera avec A = B(IR n ) = σ ⊗ni=1 ]ai , bi ]; ai < bi ∈ IR
3 µ est une mesure positive dominante sur (Ω, A) (Lebesgue ou Dirac dans ce cours)
4 P est une famille de distributions de probabilité dominée par µ, que suit X ,
supposé paramétrique : P = {Pθ ; θ ∈ Θ ⊂ IR p }
de mesure de densité f (.|θ), ie.

dPθ
= f (X |θ)

17/291 17
Rappels de statistique Aspects descriptifs (modélisation)

Aspects descriptifs - simplifions-nous la vie

Dans la suite, on parlera indifféremment de la variable aléatoire

X ∼ f (x |θ)

ou de son observation x ∼ f (x |θ), et on parlera plus généralement de loi en confondant Pθ et


f (.|θ)

On n’utilisera plus la notation µ qui sera induite :


Z
Pθ (X < t) = f (x )1{x <t} dx

La vraisemblance des données xn conditionnelle à θ sera notée f (xn |θ) et elle vaut
n
Y
f (xn |θ) = f (xi |θ)
i=1

iid
si tous les xi ∼ f (.|θ)

18/291 18
Rappels de statistique Aspects inférentiels

Aspects inférentiels - l’inversion

L’inférence statistique est une inversion car elle cherche à déterminer


1les causes
réduites au paramètre θ du mécanisme probabiliste générateur
à partir
2 des effets
résumés par les observations xn = (x1 , . . . , xn )
alors que la modélisation caractérise le comportement des observations futures
conditionnellement à θ

L’écriture usuelle (fiduciaire) de la vraisemblance témoigne de cette inversion ; on l’écrit plutôt

`(θ|xn ) = f (xn |θ)

19/291 19
Rappels de statistique Aspects inférentiels

Aspects inférentiels - le théorème de Bayes

Une description générale de l’inversion des probabilités est donnée par le théorème de Bayes

Si C (cause) et E (effet) sont des évènements tels que P(E ) 6= 0, alors


P(E |C )P(C )
P(C |E ) =
P(E |C )P(C ) + P(E |C c )P(C c )
P(E |C )P(C )
=
P(E )

Il s’agit d’un principe d’actualisation, décrivant la mise à jour de la vraisemblance de la cause C


de P(C ) vers P(C |E )

Une version en densité de ce théorème a été proposée par Bayes (1763)


soit X et Y deux v.a. de lois conditionnelle f (x |y ) et marginale g(y )
la loi conditionnelle de Y sachant X = x est

g(y |x ) = R f (x |y )g(y )
f (x |y )g(y ) dy

20/291 20
Rappels de statistique Aspects inférentiels

Aspects inférentiels - modélisation bayésienne

Bayes (1763) puis Laplace (1795) ont supposé que l’incertitude sur θ pouvait être décrite par
une distribution de probabilité de densité π(θ) sur Θ, appelée loi a priori

Sachant des données xn , la mise à jour de cette loi a priori s’opère par le conditionnement de θ à
xn ; on obtient la loi a posteriori

π(θ|xn ) = R f (xn |θ)π(θ)


f (xn |θ)π(θ) dθ
Θ

Un modèle statistique bayésien


est constitué d’un modèle statistique paramétrique f (x |θ) et
d’une distribution a priori π(θ) pour les paramètres

21/291 21
Rappels de statistique Aspects inférentiels

Exercice 1 : boule de billard (Bayes, 1763)

Une boule de billard Y1 roule sur une ligne de longueur 1, avec une probabilité uniforme de
s’arrêter n’importe où

Supposons qu’elle s’arrête à la position θ

Une seconde boule Y2 roule alors n fois dans les mêmes conditions, et on note X le nombre de
fois où Y2 s’arrête à gauche de Y1

Connaissant X , quelle inférence peut-on mener sur θ ?

22/291 22
Rappels de statistique Aspects inférentiels

Rappel (ou découverte)

Raisonner en “proportionnel" : ∝

Facilite le calcul a posteriori

23/291 23
Rappels de statistique Aspects inférentiels

Exercice 2 : loi gaussienne

Soit une observation x ∼ N (θ, σ 2 ) où σ 2 est connu

On choisit a priori

θ ∼ N (m, ρσ 2 )

Quelle est la loi a posteriori de θ sachant x ?

24/291 24
Rappels de statistique Aspects inférentiels

Rappels : statistique fréquentiste (1/2)

L’idée que les paramètres θ puissent être aléatoires va à l’encontre du dogme généralement
établi en statistiques que θ est “inconnu, mais fixe"

Ce dogme constitue le paradigme essentiel de la Statistique dite fréquentiste (ou fréquentielle


en meilleur français)

25/291 25
Rappels de statistique Aspects inférentiels

Rappels : statistique fréquentiste (2/2)

θ est supposé inconnu mais fixe

θ est estimé par θ̂n = T (x1 , . . . , xn ) qui est une observation de la variable aléatoire appelée
estimateur T (X1 , . . . , Xn ) ∼ P
Maximum de vraisemblance θ̂n = arg max `(θ|xn )
Estimateur des moindres carrés
Estimateur des moments

La validité de l’estimateur T (X1 , . . . , Xn ) est dépendante du caractère reproductible et


échangeable de X1 , . . . , Xn ∼ Pθ

Elle s’exprime en termes de région de confiance sur θ



P θ̂n − θ ∈ Aα = 1−α

En général, la distribution P de l’estimateur est inconnue pour n < ∞, elle est le plus souvent
approximée asymptotiquement via un Théorème de la Limite Centrale (TLC) :
 L
si x1 , . . . , xn sont iid Σ−1
n θ̂n − θ0 −
→ N (0, 1)

26/291
où θ0 est la vraie valeur inconnue du paramètre 26
Rappels de statistique Aspects inférentiels

Difficultés posés par l’inférence fréquentiste (1/4)

1 - Difficultés pratiques
conditions non asymptotiques (n petit), données manquantes...
d’autres formes de connaissance que les données peuvent être négligées
contraintes de forme, valeurs interdites pour θ ...

2 - Difficultés “philosophiques"
Sens de la probabilité : une probabilité n’est vue que comme la limite d’une fréquence, et une
notion de confiance uniquement fondée sur la répétabilité des expériences peut
ne pas être pertinente
Prévision : connaître parfaitement θ permet de quantifier complètement l’incertitude sur
X , mais c’est une tâche impossible
1 Nature des incertitudes :
Pθ représente la partie aléatoire du phénomène considéré
l’estimation de θ souffre d’une incertitude épistémique, réductible si de
l’information supplémentaire (données) est fournie
2 Comment incorporer les incertitudes sur θ à travers la connaissance de θ̂n
pour prévoir une nouvelle valeur Xn+1 ?

27/291 27
Rappels de statistique Aspects inférentiels

Difficultés posés par l’inférence fréquentiste (2/4)

Principe de vraisemblance
L’information (= l’ensemble des inférences possibles) apportée par une
observation x sur θ est entièrement contenue dans la fonction de vraisemblance `(θ|x ) = f (x |θ).
De plus, si x1 et x2 sont deux observations qui dépendent du même paramètre θ, telle qu’il
existe une constante c satisfaisant

`(θ|x1 ) = c`(θ|x2 ) ∀θ

elles apportent la même information sur θ et doivent conduire à la même inférence

L’utilisation d’un estimateur θ̂n par le statisticien fréquentiste peut contredire le principe de
vraisemblance

28/291 28
Rappels de statistique Aspects inférentiels

Exemple (adapté de Robert 2006)

Soient x1 , x2 deux réalisations. Nous avons deux candidats pour la loi jointe de ces observations :
1 la densité

exp −(x1 + x2 − 2θ)2 /4
g(x1 , x2 |θ) = π −3/2
1 + (x1 − x2 )2

2 on suppose sinon que x1 , x2 sont de même loi gaussienne N (θ, 1)

Donner l’estimateur du maximum de vraisemblance. Que constate-on ?

29/291 29
Rappels de statistique Aspects inférentiels

Exemple (adapté de Robert 2006)

La vraisemblance dans les deux cas est



`(θ|x1 , x2 ) ∝ exp −(x̄ − θ)2

et qui devrait donc conduire à la même inférence sur θ

Mais g(x1 , x2 |θ) est très différente de la première distribution (par exemple, l’espérance de
x1 − x2 n’est pas définie)

Les estimateurs de θ auront donc des propriétés fréquentistes différentes s’ils ne dépendent pas
que de x̄ (ex : estimateur des moments)

En particulier, les régions de confiance pour θ peuvent différer fortement car g possède des
queues plus épaisses

30/291 30
Rappels de statistique Aspects inférentiels

Difficultés posés par l’inférence fréquentiste (3/4)

Soit θ̂ l’estimateur du maximum de vraisemblance

Par construction, il respecte le principe de vraisemblance mais :


peut ne pas exister (ex : modèle de Weibull à trois paramètres)

peut ne pas être unique (modèle non-identifiable)

peut se révéler difficile à estimer

De plus, les régions de confiance de la forme (test du rapport de vraisemblance)


 
`(θ|x )
C = θ; ≥c
`(θ̂|x )

qui sont les plus petites asymptotiquement, ne dépendront pas uniquement de la fonction de
vraisemblance si la borne c doit être choisie de manière à obtenir un niveau de confiance α

31/291 31
Rappels de statistique Aspects inférentiels

Difficultés posés par l’inférence fréquentiste (4/4)

Une dernière difficulté apparaît lorsqu’on cherche à mener une prévision

iid
Soit Xn = (X1 , . . . , Xn ) ∼ f (.|θ)

On cherche à prévoir le plus précisément possible ce que pourrait être le prochain tirage Xn+1

Dans l’approche fréquentiste, on utilise

f (X1 , . . . , Xn , Xn+1 |θ̂n )


f (Xn+1 |X1 , . . . , Xn , θ̂n ) =
f (X1 , . . . , Xn |θ̂n )

et ce faisant on utilise 2 fois les données et on risque de sous-estimer les incertitudes (intervalles
de confiance) en renforçant arbitrairement la connaissance

32/291 32
Rappels de statistique Aspects inférentiels

Intérêt du choix π(θ)

La probabilisation de θ permet de répondre de façon pratique :


à la nécessité de satisfaire le principe de vraisemblance
à la nécessité de tenir compte de toutes les incertitudes épistémiques s’exprimant sur θ, en
particulier dans un objectif de prévision [Aspect développé plus loin]
de distinguer ces incertitudes de l’incertitude aléatoire, intrinsèque au modèle f (.|θ)
à la possibilité d’intégrer de la connaissance a priori sur le phénomène considéré, autre que
celle apportée par les données xn
ex : par le biais d’experts techniques [Aspect développé plus loin]
l’invariance π(θ|xn ) = π(θ) permet en outre d’identifier des problèmes d’identifiabilité du
modèle

33/291 33
Rappels de statistique Aspects décisionnels liés à une estimation ponctuelle

Le cadre décisionnel en statistique (1/4)

L’objectif général de la plupart des études inférentielles est de fournir une décision au statisticien
(ou au client) à partir du phénomène modélisé par X ∼ f (x |θ) (dans le cadre paramétrique)

Il faut donc exiger un critère d’évaluation des procédures de décision qui :


prenne en compte les conséquences de chaque décision
dépende des paramètres θ du modèle, càd du vrai état du monde (ou de la nature)

Exemples : acheter des capitaux selon leurs futurs rendement θ, déterminer si le nombre θ des
SDF a augmenté depuis le dernier recensement...

Un autre type de décision est d’évaluer si un nouveau modèle descriptif est compatible avec les
données expérimentales disponibles (choix de modèle)

Le critère en question est habituellement nommé coût ou utilité (opposé du coût)

34/291 34
Rappels de statistique Aspects décisionnels liés à une estimation ponctuelle

Le cadre décisionnel en statistique (2/4)

Trois espaces dans le modèle statistique


Ω = espace des observations x
Θ = espace des paramètres θ
D = espace des décisions d

En général, la décision d ∈ D demande d’évaluer (estimer) une fonction d’intérêt h(θ), avec
θ ∈ Θ, estimation fondée sur l’observation x ∈ Ω

On décrit alors D = l’ensemble des fonctions de Θ dans h(Θ) où h dépend du contexte (on y
reviendra)

si le but est d’estimer θ alors D = Θ


si le but est de mener un test, D = {0, 1}

35/291 35
Rappels de statistique Aspects décisionnels liés à une estimation ponctuelle

Le cadre décisionnel en statistique (3/4)

La théorie de la décision suppose alors que :


chaque décision d ∈ D peut être évaluée et conduit à une récompense (ou gain) r ∈ R
l’espace R des récompenses peut être ordonné totalement :
1) r1  r2 ou r2  r1
2) si r1  r2 et r2  r3 alors r1  r3
l’espace R peut être étendu à l’espace G des distributions de probabilité dans R
les décisions peuvent être alors partiellement aléatoires

la relation d’ordre  peut être étendue sur les moyennes des récompenses aléatoires (et
donc sur les distributions de probabilité correspondantes)
il existe au moins un ordre partiel sur les gains (même aléatoires) et un gain optimal

36/291 36
Rappels de statistique Aspects décisionnels liés à une estimation ponctuelle

Le cadre décisionnel en statistique (4/4)

Ces axiomes expriment une certaine hypothèse de rationalité du décideur

Ils impliquent l’existence d’une fonction d’utilité U(r ) permettant de trier les gains aléatoires

Cette utilité ne dépend en fait que de θ et de d : on la note donc U(θ, d)

Elle peut être vue comme une mesure de proximité entre la décision proposée d et la vraie valeur
(inconnue) θ

Définition
On appelle fonction de coût

L(θ, d) = −U(θ, d)

Dans la pratique, le décideur construit L(θ, d) ≥ 0, ce qui implique qu’il n’existe pas de
décision d menant à une utilité infinie
L(θ, d) représente l’erreur due à une mauvaise évaluation de la fonction de θ d’intérêt, et
on suppose donc L(θ, θ) = 0

37/291 37
Rappels de statistique Aspects décisionnels liés à une estimation ponctuelle

Exemple

On considère le problème de l’estimation de la moyenne θ d’un vecteur gaussien


x ∼ Np (θ, Σ)
où Σ est une matrice diagonale connue avec pour éléments diagonaux σi2 (i = 1, . . . , p)

Dans ce cas D = Θ = IR p et d représente une évaluation de θ

S’il n’y a pas d’information additionnelle disponible sur ce modèle, il paraît logique de choisir
une fonction de coût qui attribue le même poids à chaque composante, soit un coût de la forme
p
xi − θi
X  
L avec L(0) = 0
σi
i=1

Par normalisation, les composantes avec une grande variance n’ont pas un poids trop important

Le choix habituel de L est le coût quadratique L(t) = t 2

Ce faisant le coût est ici similaire à la log-vraisemblance négative

38/291 38
Rappels de statistique Risque fréquentiste

Le cadre décisionnel fréquentiste

Prendre une décision = minimiser une fonction de coût

Quand θ est inconnu, minimiser uniformémement L(θ, d) en d est (souvent) impossible

Dans un contexte de gain aléatoire, l’approche fréquentiste propose de considérer le coût moyen
ou risque fréquentiste
Z
R(θ, δ) = Eθ [L(θ, δ(x ))] = L(θ, δ(x ))f (x |θ) dx

où δ(x ) est la règle de décision = attribution d’une décision connaissant l’observation x

On appelle δ : Ω 7→ D un estimateur et δ(x ) une estimation

Difficultés
le critère évalue les procédures d’estimation selon leurs performances à long terme et non
directement pour une observation donnée
on suppose tacitement que le problème sera rencontré de nombreuses fois pour que
l’évaluation en fréquence ait un sens
R(θ, δ) ' coût moyen sur les répétitions
ce critère n’aboutit pas à un ordre total sur les procédures de construction d’estimateur
39/291 39
Rappels de statistique Risque fréquentiste

Exemple

Soient x1 et x2 deux observations de la loi définie par

Pθ (x = θ − 1) = Pθ (x = θ + 1) = 1/2 avec θ ∈ IR

Le paramètre d’intérêt est θ (donc D = Θ) et il est estimé par δ sous le coût

L(θ, δ) = 1 − 1θ (δ)

appelé coût 0-1, qui pénalise par 1 toutes les erreurs d’estimation quelle que soit leur magnitude

Soit les estimateurs

x1 + x2
δ1 (x1 , x2 ) =
2
δ2 (x1 , x2 ) = x1 + 1
δ3 (x1 , x2 ) = x2 − 1

Calculez les risques R(θ, δ1 ), R(θ, δ2 ) et R(θ, δ3 ). Quelle conclusion en tirez-vous ?

40/291 40
Rappels de statistique Risque fréquentiste

Exemple

On trouve

R(θ, δ1 ) = R(θ, δ2 ) = R(θ, δ3 ) = 1/2

On ne peut pas classer les estimateurs

41/291 41
Rappels de statistique Risque bayésien

Le cadre décisionnel bayésien

L’approche bayésienne de la théorie de la décision considère que le coût L(θ, d) doit plutôt être
moyenné sur tous les états de la nature possibles

Conditionnellement à l’information x disponible, ils sont décrits par la loi a posteriori π(θ|x )

On définit donc le coût moyenné a posteriori


Z
RP (d|π, x ) = L(θ, d)π(θ|x ) dθ
Θ
qui est l’erreur moyenne résultant de la décision d pour un x donné

On peut enfin définir le risque intégré = risque fréquentiste intégré sur les valeurs de θ selon
leur distribution a priori
Z Z
RB (δ|π) = L(θ, δ(x ))f (x |θ) dx π(θ) dθ
Θ Ω

Associant un nombre réel à chaque estimateur δ, ce risque induit donc une relation d’ordre total
sur les procédures de construction d’estimateur
42/291 42
Rappels de statistique Risque bayésien

Estimateur et risque de Bayes

Définition
Un estimateur de Bayes associé à une distribution a priori π et une fonction de
coût L est défini par

δπ = arg min RB (δ|π)


δ∈D

la valeur r (π) = RB (δ π |π) est alors appelée risque de Bayes

Théorème
Pour chaque x ∈ Ω,

δ π (x ) = arg min RP (d|π, x )


d∈D

R
Ceci reste vrai même si π(θ)dθ = ∞ (mesure a priori non-probabiliste) à condition que
R Θ
π(θ|x )dθ = 1
Θ

43/291 43
Rappels de statistique Risque bayésien

Supériorité des estimateurs de Bayes sur les estimateurs fréquentistes (1/3)

On définit le risque minimax pour la fonction de coût L par

R̄ = inf sup R(θ, δ) = inf sup Eθ [L(θ, δ(x ))]


δ∈D θ∈Θ δ∈D θ∈Θ

Il s’agit du coût fréquentiste minimum dans le cas le moins favorable (l’écart entre θ et δ, càd
l’erreur d’estimation, est maximal(e))

Théorème
Le risque de Bayes est toujours plus petit que le risque minimax

R = sup r (π) = sup inf RB (δ|π) ≤ R̄


π π δ∈D

Si elle existe, une distribution a priori π ∗ telle que r (π ∗ ) = R est appelée distribution a priori la
moins favorable

L’apport d’information a priori π(θ) ne peut qu’améliorer l’erreur d’estimation, même dans le
pire des cas

44/291 44
Rappels de statistique Risque bayésien

Supériorité des estimateurs de Bayes sur les estimateurs fréquentistes (2/3)

Définition
Un estimateur δ0 est dit inadmissible s’il existe un estimateur δ1 qui domine δ0 au
sens du risque fréquentiste, càd si

R(θ, δ0 ) ≥ R(θ, δ1 ) ∀θ ∈ Θ

et ∃θ0 tel que R(θ0 , δ0 ) > R(θ0 , δ1 ). Sinon, il est dit admissible

Proposition
S’il existe un unique estimateur minimax, il est admissible

Théorème
Si un estimateur de Bayes δ π associé à une mesure a priori π (probabiliste ou non)
est tel que le risque de Bayes
Z
r (π) = R(θ, δ π ) dθ < ∞
Θ

et si θ 7→ R(θ, d) est continu, alors δ π est admissible

45/291 45
Rappels de statistique Risque bayésien

Supériorité des estimateurs de Bayes sur les estimateurs fréquentistes (3/3)

Les critères de minimaxité et d’admissibilité sont éminement fréquentistes (car construits à


partir du risque fréquentiste)

Selon ces critères fréquentistes, les estimateurs de Bayes font mieux ou au moins aussi bien que
les estimateurs fréquentistes !
leur risque minimax est toujours égal ou plus petit
ils sont tous admissibles (si le risque de Bayes est bien défini)

Les estimateurs de Bayes, plus généralement, sont souvent optimaux pour les concepts
fréquentistes d’optimalité et devraient donc être utilisés même lorsque l’information a priori est
absente

On peut ignorer la signification d’une distribution a priori tout en obtenant des estimateurs
corrects d’un point de vue fréquentiste

46/291 46
Rappels de statistique Risque bayésien

Choix d’une fonction de coût L(θ, d)

La fonction de coût L est l’élément fondamental du choix d’un estimateur

Le choix dépend du contexte décisionnel et s’écrit souvent sous la forme

L = Coût financier, etc. − Bénéfice

Une alternative, lorsqu’il est difficile de la construire, est de faire appel à des fonctions de coût
usuelles, mathématiquement simples et de propriétés connues

L’idée est simplement de construire une “distance" usuelle entre θ ∈ Θ et d ∈ D permettant une
bonne optimisation (convexe par exemple)

47/291 47
Rappels de statistique Risque bayésien

Exemple 1 : fonction de coût quadratique (Legendre 1805, Gauss 1810)

Soit D = Θ. On pose

L(θ, δ) = (θ − d)2 (1)

Critère d’évaluation le plus commun, convexe, mais pénalise très (trop) fortement les grands
écarts peu vraisemblables

Justifié par sa simplicité (Gauss), le fait qu’il produit des estimateurs de Bayes intuitifs, et qu’il
peut être vu comme le DL d’un coût symétrique complexe

Proposition
l’estimateur de Bayes associé à toute loi a priori π et au coût (1) est l’espérance
(moyenne) de la loi a posteriori π(θ|xn )

48/291 48
Rappels de statistique Risque bayésien

Un exemple complet (exercice de cours avec codage)

Soit xn un échantillon de loi N (µ, σ 2 ) dont la dernière valeur xn est censurée à droite

On suppose a priori que

µ|σ 2 ∼ N (µ0 , σ 2 )
σ2 ∼ IG(a, b)

Écrire une fonction qui produit, qu’on ôte xn de l’échantillon ou non :


des estimateurs bayésiens de (µ, σ 2 ) tels que on ait 80% de chance de ne pas sous-estimer
ces deux paramètres marginalement
un estimateur bayésien de la prochaine valeur xn+1 la plus probable

49/291 49
Rappels de statistique Risque bayésien

Un exemple réel (formel) : création d’un système d’alerte

On s’intéresse à un évènement routier X = x relevé par un système de détection (ex : Waze)


vivant dans l’espace χ de dimension finie

Question : cet événement routier (bouchon, incident, accident, animal sur la voie...) est-il un
bon indicateur d’un évènement θ ∈ Θ0 ou θ ∈ Θ1 (incidents sans gravité versus accidents
nécessitant une intervention d’un opérateur routier) ?

On dispose d’un échantillon labélisé en = (xn , θn )

Lorsqu’une observation x apparaît, comment prévoir θ ?

50/291 50
Rappels de statistique Risque bayésien

Un exemple réel (formel) : création d’un système d’alerte

Le classifieur lui-même ne suffit pas à prendre une décision. Il faut se munir d’une règle de
décision binaire (intervention /non intervention), opérationnelle pour l’opérateur routier

On construit tout estimateur statistique comme le minimiseur d’une fonction de coût

δ(x ) ∈ D 7→ L(θ, δ(x ))

que l’on cherche à définir si la vérité sur θ pouvait être connue. Dans le cas qui nous intéresse,
on aurait :
L(θ, δ(x )) = C1 = le coût prévisionnel d’une intervention à raison, donc si θ ∈ Θ0 et
δ(x ) = 1 ;
L(θ, δ(x )) = C2 = le coût prévisionnel d’une non-intervention à tort (erreur de 1ère
espèce), si θ ∈ Θ0 et δ(x ) = 0 ;
L(θ, δ(x )) = C3 = le coût prévisionnel d’une intervention à tort (erreur de 2ème espèce),
si θ ∈
/ Θ0 et δ(x ) = 1 ;
L(θ, δ(x )) = C4 = 0 le coût (nul) d’une non-intervention à raison, si θ ∈
/ Θ0 et δ(x ) = 0.

51/291 51
Rappels de statistique Risque bayésien

Un exemple réel (formel) : création d’un système d’alerte

On peut alors écrire, de façon plus condensée :

L(θ, δ(x )) = [C1 δ(x ) + C2 (1 − δ(x ))] 1{θ∈Θ0 } + C3 δ(x )1{θ∈Θ


/ 0}.

Risque de Bayes :

Z
R(δ(x ), Π, en ) = L(θ, δ(x ))dΠ(θ ∈ Θ|X = x , en )
Θ

Décision optimale (et non pas idéale)

δ̂n (x ) = arg min R(δ(x ), Π, en ).


δ(x )∈D

Voir corrigé TP1

52/291 52
Rappels de statistique Risque bayésien

Exemple 2 : fonction de coût absolu (Laplace 1773) ou linéaire

Soit D = Θ et dim Θ = 1. On pose

L(θ, δ) = |θ − d| (2)

ou plus généralement une fonction linéaire par morceaux


n
c2 (θ − d) si θ > d
Lc1 ,c2 (θ, δ) = (3)
c1 (d − θ) sinon

Tout en étant convexes, elles croissent plus lentement que le coût quadratique et ne
surpénalisent pas les erreurs grandes peu vraisemblables

Proposition
l’estimateur de Bayes associé à toute loi a priori π et au coût (3) est le fractile
c2 /(c1 + c2 ) de la loi a posteriori π(θ|xn )

En particulier, la médiane de la loi a posteriori est l’estimateur de Bayes lorsque c1 = c2 (qui sont
donc des coûts associés à la sous-estimation et la surestimation de θ)

53/291 53
Rappels de statistique Risque bayésien

Exemple 3 : fonction de coût 0-1

Fonction de coût non quantitative, utilisé dans l’approche classique des tests d’hypothèse
n
1−d si θ ∈ Θ0
L(θ, d) = (4)
d sinon

Le risque fréquentiste associé est


n
Pθ (δ(x ) = 0) si θ ∈ Θ0
R(θ, δ) = Eθ [L(θ, δ(x ))] =
Pθ (δ(x ) = 1) sinon

Proposition
l’estimateur de Bayes associé à toute loi a priori π et au coût (10) est
n
1 si Π(θ ∈ Θ0 |xn ) > Π(θ ∈
/ Θ0 |xn )
δπ =
0 sinon

54/291 54
Rappels de statistique Risque bayésien

D’autres possibilités : les coûts intrinsèques

On cherche à trouver des fonctions de coûts qui restent invariantes par transformation
monotone inversible sur les données (action d’un C 1 −difféomorphisme sur Ω)

On obtient ce faisant des fonctions de coûts définies à partir de distances ou de divergences D


entre distributions

L(θ, d) = D(f (.|θ) k f (.|d))

Exemples : L1 , Kolmogorov-Smirnov, Hellinger, Kullback-Leibler

55/291 55
Quelques autres caractéristiques du cadre bayésien

Quelques autres caractéristiques du cadre bayésien

57/291 57
Quelques autres caractéristiques du cadre bayésien Estimateur du mode a posteriori

1 - Estimateur du mode a posteriori

On appelle MAP (mode a posteriori) l’estimateur

δ π (xn ) = arg max π(θ|xn )


θ∈Θ

Pendant bayésien du maximum de vraisemblance

Ne dépend pas d’une fonction de coût, mais il a les mêmes inconvénients que le maximum de
vraisemblance (MV) (non unicité, instabilité d’estimation, dépendant du choix de la mesure dominante µ sur Θ)

En outre, il ne vérifie (en général) pas la non invariance par reparamétrisation qui caractérise le
MV

Cet estimateur, qui peut paraître intuitivement séduisant, est plutôt à éviter

58/291 58
Quelques autres caractéristiques du cadre bayésien Régions de confiance et de crédibilité

2 - Régions de confiance et de crédibilité

Soit x ∼ f (.|θ) une (ou plusieurs) observations

Définition
Une région A de Θ est dite α−crédible si Π(θ ∈ A|x ) ≥ 1 − α

Au sens fréquentiste, A est une région de confiance 1 − α si, en refaisant l’expérience


(l’observation d’un X ∼ f (.|θ)) un nombre de fois tendant vers ∞,

Pθ (θ ∈ A) ≥ 1−α

La définition bayésienne exprime la probabilité que θ ∈ A au vu (conditionnellement) des


expériences déjà réalisées
pas besoin d’avoir recours à un nombre ∞ d’expériences similaires

Une région α−crédible peut être estimée par les quantiles empiriques de la simulation a
posteriori (voir plus loin)

59/291 59
Quelques autres caractéristiques du cadre bayésien Une approche rapide des tests d’hypothèse

3 - Une approche rapide des tests d’hypothèse

Supposons qu’on cherche à mener le test d’une hypothèse nulle H0 : θ ∈ Θ0

La fonction de coût L(θ, d) 0-1 est proposée dans l’approche classique de Neyman-Pearson :
si d 6= 1Θ0
n
1
L(θ, d) = (5)
0 sinon
menant à l’estimateur bayésien dans D = {0, 1}
n
1 si Π(θ ∈ Θ0 |x ) > Π(θ ∈
/ Θ0 |x )
δ π (x ) =
0 sinon
qui fait sens intuitivement : l’estimateur choisit l’hypothèse avec la probabilité a posteriori la
plus grande.

On peut généraliser en pénalisant différement les erreurs suivant que H0 est vraie ou fausse
si d = 1Θ0
(
0 n
1 si Π(θ ∈ Θ0 |x ) > a1 /(a0 + a1 )
L(θ, d) = a0 si θ ∈ Θ0 et d = 0 ⇒ δ π (x ) =
0 sinon
a1 si θ ∈
/ Θ0 et d = 1
L’hypothèse nulle est rejetée quand la probabilité a posteriori de H0 est trop petite

Il est cependant délicat de choisir les poids a0 et a1 sur des considérations d’utilité

60/291 60
Quelques autres caractéristiques du cadre bayésien Une approche rapide des tests d’hypothèse

Facteur de Bayes (1/2)

Le facteur de Bayes est une transformation bijective de la probabilité a posteriori, qui a fini par
être l’outil le plus utilisé pour choisir un modèle bayésien

Soit H1 : θ ∈ Θ1 une hypothèse alternative

Définition
Le facteur de Bayes est le rapport des probabilités a posteriori des hypothèses nulle
et alternative sur le rapport a priori de ces mêmes hypothèses
Π(θ ∈ Θ0 |x ) Π(θ ∈ Θ0 )
 . 
B01 (x ) =
Π(θ ∈ Θ1 |x ) Π(θ ∈ Θ1 )
qui se réécrit comme le pendant bayésien du rapport de vraisemblance en remplaçant les
vraisemblances par les marginales (les vraisemblances intégrées sur les a priori) sous les deux
hypothèses
R
f (xn |θ)π0 (θ) dθ f0 (xn )
B01 (x ) = R Θ0 =
f (xn |θ)π1 (θ) dθ f1 (xn )
Θ1

Sous le coût généralisé précédent, en posant


γ0 = Π(θ ∈ Θ0 ) et γ1 = Π(θ ∈ Θ1 )
61/291 l’hypothèse H0 est acceptée si B01 (x ) > (a1 γ1 )/(a0 γ0 ) 61
Quelques autres caractéristiques du cadre bayésien Une approche rapide des tests d’hypothèse

Facteur de Bayes (2/2)

En l’absence d’un cadre décisionnel véritable (qui consisterait à pouvoir fixer a0 et a1 , une
échelle “absolue" a été proposée par Jeffreys (1939), remaniée depuis par Kass & Raftery
(1995), pour évaluer le degré de certitude en faveur ou au détriment de H0 apporté par les
données
(i) si Λ = log10 B10 (xn ) varie entre 0 et 0.5, la certitude que H0 est fausse est
faible
(ii) si Λ ∈ [0.5, 1], cette certitude est substantielle
(iii) si Λ ∈ [1, 2], elle est forte
(iv) si Λ > 2, elle est décisive

Malgré le côté heuristique de l’approche, ce genre d’échelle reste très utilisé

Remarque : le calcul du facteur de Bayes n’est pas évident et demande le plus souvent de savoir
simuler a posteriori

62/291 62
Quelques autres caractéristiques du cadre bayésien Consistance et normalité asymptotique de la loi a posteriori

4 - Consistance et normalité asymptotique de la loi a posteriori

Théorème 1
Si f (.|θ) est suffisament régulière et identifiable, soit si
θ1 6= θ2 ⇒ f (x |θ1 ) 6= f (x |θ2 ) ∀x ∈ Ω, alors

p.s.
π(θ|xn ) −−→ δθ0

Théorème 2 (Bernstein-von Mises)


Soit Iθ la matrice d’information de Fisher du modèle
f (.|θ) et soit g(θ) la densité de la gaussienne N (0, Iθ−1 ). Soit θ̂n le maximum de vraisemblance.
0
Alors, dans les conditions précédentes,
Z
√  
π n θ − θ̂n |xn − g(θ) dθ → 0
Θ

63/291 63
Quelques autres caractéristiques du cadre bayésien Interprétation subjective de la probabilité a priori

5 - Interprétation subjective de la probabilité a priori

La fonction de coût et le processus décisionnel permettent de proposer une interprétation


importante de la distribution a priori

Elle peut être comprise comme pari (personnel) fait sur l’éventualité d’un évènement, et
notamment un gain conditionné par l’occurence du phénomène modélisé par f (x |θ)

Cette interprétation subjective, proposée par de Finetti (1948), est certainement le point le plus
critiqué de la démarche bayésienne

64/291 64
Quelques autres caractéristiques du cadre bayésien Interprétation subjective de la probabilité a priori

Incorporation d’information subjective a priori

Dans l’histoire des théories de représentation de la connaissance, deux grandes écoles de pensée

1 des théories de la représentation qui s’adaptent aux moyens variés, pour un humain,
d’exprimer son opinion personnelle sur le comportement d’une variable d’ancrage X ou
d’un paramètre perceptible θ (plus rare)
théories extra-probabilistes : Dempster-Schafer, possibilités, logique floue ...
2 des théories qui visent à établir des axiomes de rationalité à propos des décisions
sous-tendant l’expression d’une opinion : un expert est perçu comme un preneur de
décision selon ces axiomes

Deux axiomes en théorie bayésienne subjectiviste


1 La distribution a priori Π(θ) exprime un degré de croyance dans la proximité de θ avec θ0
qui résume le “vrai" état caché de la nature
2 Un expert est considéré comme rationnel si il/elle minimise un risque (ou coût) moyen
quand il exprime son opinion, en restant indifférent aux effets de ce risque

65/291 65
Quelques autres caractéristiques du cadre bayésien Une première conclusion

Une première conclusion

La statistique bayésienne est


une théorie de la description d’un phénomène incertain, où “incertitude" signifie “mélange
d’aléatoire (incertitude non-réductible) et d’épistémique (incertitude réductible)
une théorie de la décision, sous certains axiomes de rationalité

Sachant un modèle f (x |θ), le travail bayésien consiste à


1 éliciter une loi a priori π(θ) (objet de la deuxième partie de ce cours)
2 le coût associé aux décisions, L(θ, δ)
3 réaliser l’inférence a posteriori et produire un ou plusieurs estimateurs (objet de la troisième
partie de ce cours), voire faire un choix de modèle

Il y a redondance entre les deux premières étapes : présupposer l’existence d’une fonction de
coût implique qu’une certaine information a priori sur le problème considéré est disponible

66/291 66
Quelques autres caractéristiques du cadre bayésien Une première conclusion

Quelques références

1 Berger, J.O. (1985). Statistical Decision Theory and Bayesian Analysis. Springer
2 Robert, C., P. (2006). Le choix bayésien. Principes et pratique. Springer
3 Parent, E., Bernier, J. (2007). Le raisonnement bayésien : modélisation et inférence.
Springer
4 Keller, M., Pasanisi, A., Parent, E. (2012). Réflexions sur l’analyse d’incertitudes dans un
contexte industriel : information disponible et enjeux décisionnels. Journal de la Société
Française de Statistiques

67/291 67
Rappels en statistique computationnelle

Rappels - Méthodes numériques pour


l’estimation bayésienne

69/291 69
Rappels en statistique computationnelle

Estimation bayésienne

Soit {X ∼ f (.|θ), π(θ)} un modèle bayésien servant à prendre une décision δ ∈ D

Dans un cadre d’analyse (a posteriori), on a observé des données xn = (x1 , . . . , xn ) ∼ f (.|θ)

La loi a posteriori π(θ|xn ) décrit l’ensemble des incertitudes sur θ ∈ Θ, vecteur inconnu qui
“paramétrise" l’état de nature

Toute décision δ peut être jugée par un coût L(θ, δ), c’est-à-dire son écart par rapport à une
décision idéale inatteignable, affecté par la distribution de probabilité a posteriori π(θ|xn )

La décision optimale s’obtient en cherchant l’optimum de la fonction du coût moyen a posteriori


(expected opportunity loss) : δ π = arg min RB (δ|π) avec
δ∈D

Z Z
RB (δ|π) = L(θ, δ) dΠ(θ|xn ) = L(θ, δ)π(θ|xn ) dθ
Θ Θ

70/291 70
Rappels en statistique computationnelle

Si, par exemple, on choisit un regret (ou un coût) quadratique L(θ, δ) ∝ (δ − θ)2 , on a vu que
Z
δπ = E[θ|xn ] = θπ(θ|xn ) dθ (moyenne a posteriori)
Θ

Si, avec Θ = ∆ = IR , on choisit un autre regret, impactant différemment la sur-estimation ou


la sous-estimation de θ, comme

L(δ, θ) = |δ − θ| c1 · 1{δ<θ} + c2 · 1{δ>θ}




on obtient que δ π est le fractile a posteriori d’ordre α = c1 /(c1 + c2 ) :

Z δ∗
c1
π(θ|xn ) dθ =
−∞
c1 + c2

Dans chaque cas, deux questions importantes :


1 peut-on obtenir une expression explicite pour δ π ?
2 sinon, comment peut-on l’évaluer numériquement ?

71/291 71
Rappels en statistique computationnelle

En général...

Pas de caractère explicite, dans la très grande majorité des cas, car

π(θ|xn ) = R f (xn |θ)π(θ)


f (xn |θ)π(θ)dθ

et le dénominateur n’est pas explicitement connu (π(θ|xn ) est définie à une constante
d’intégration près)

on peut essayer de l’estimer par intégration numérique :


Newton-Cotes, Runge-Kutta, ...
instabilité numérique lorsque dim Θ augmente

Une façon intéressante (voire même indispensable) de procéder est d’utiliser des simulations de

la loi a posteriori

72/291 72
Rappels en statistique computationnelle

Estimation non-paramétrique : soit un échantillon indépendent et identiquement distribué (iid)


iid
θ1 , . . . , θM ∼ π(θ|xn )

Moyenne a posteriori. On peut estimer δ π par un estimateur de Monte Carlo


M
π 1 X
δ̂M = θi
M
i=1

∗ p.s.
Loi Forte des Grands Nombres (δ̂M −
−−→ δ ∗ ) + Théorème Central Limite

Quantile a posteriori d ’ordre α. On peut estimer δ π par l’inversion de la fonction de


répartition empirique a posteriori
M
1
1{θ≤θi∗ }
X
Π̂M (θ|xn ) = (Théorème de Glivenko-Cantelli)
M
i=1

soit en prenant
(  
1 ∗ ∗
π 2
θα·M + θα·(M+1) si α · M est entier
δ̂M = (Théorème de Mosteller)

θbα·Mc+1 sinon

73/291 73
Rappels en statistique computationnelle

D’autres intérêts de la simulation a posteriori

Obtenir de façon non paramétrique des régions α−crédibles a posteriori

Calculer des facteurs de Bayes

Résoudre des problèmes de classification

74/291 74
Rappels en statistique computationnelle

Un dernier intérêt (une nécessité) de la simulation a posteriori

Plaçons-nous dans un cadre d’analyse prédictive : simuler des réalisations de X est une
nécessité lorsqu’on s’intéresse au comportement Y d’un phénomène (par exemple physique)
modélisé ainsi :

Y = g(X , ν) + 

où :
g est une fonction (ou un code de calcul) déterministe
ν est un indice ou une variable indexant typiquement des conditions environnementales
 est un “bruit" stochastique qui modélise l’erreur entre la réalité du phénomène Y et la
sortie de g

Dans ce problème de propagation d’incertitudes, on cherche à reproduire un grand nombre de


configurations de Y pour calculer (par exemple) la probabilité que Y dépasse un certain seuil

Exemple : Y représente une hauteur d’eau aval, g est un code hydraulique, X est un débit d’eau amont, ν caractérise le
frottement de la rivière et  tient compte de la méconnaissance du terrain, de la précision du code, etc.

75/291 75
Rappels en statistique computationnelle

Simulation prédictive a posteriori

Comment doit être simulé X en entrée de g ? La loi prédictive de densité


Z
f (x |xn ) = f (x |θ)π(θ|xn ) dθ

permet de simuler une prochaine observation xn+1 crédible sachant qu’on a déjà observé les xn

Attention : des valeurs simulées selon f (x |xn ) ne constitue JAMAIS un échantillon i.i.d. : elles
sont toutes interdépendantes puisqu’elles dépendent toutes de xn

On remarque d’ailleurs que la densité jointe d’un tel échantillon n’est pas le produit des densités
de chacun des tirages

Si l’on cherche à simuler de façon crédible la succession de deux futures observations


(xn+1 , xn+2 ), on doit procéder ainsi :

Xn+1 ∼ f (x |xn )
Xn+2 ∼ f (x |xn , xn+1 )

etc.
76/291 76
Rappels en statistique computationnelle

Simulation bayésienne indirecte

Simuler selon la loi a posteriori π(θ|xn ) n’est en règle générale pas possible directement

Il faut donc utiliser des techniques qui font appel à de la simulation indirecte :

1 on simule un tirage θi suivant une loi instrumentale ρ(θ) (facile à simuler)


2 on utilise un test pour déterminer si θi aurait également pu être un tirage plausible de
π(θ|xn )

Plus ρ(θ) est “proche" de π(θ|xn ), plus ce test doit accepter les θi

77/291 77
Rappels en statistique computationnelle

Notion de densité instrumentale ρ(θ) (1/2)


1 La densité ρ(θ) doit être facilement simulable (ex : mélanges gaussiens si π(θ|xn ) est
multimodale...)
2 Le support 1 de ρ(θ) contient nécessairement celui de π(θ|xn )
3 Les queues de ρ(θ) devraient être plus lourdes que celles de π(θ|xn )

posterior
rho 1
rho 2

−4 −2 0 2 4

theta

4 Lorsque dim Θ est petite (1 ou 2), on peut tracer π(θ|xn ) à un coefficient près pour
sélectionner une forme intéressante pour ρ(θ)

78/291 78
Rappels en statistique computationnelle

Notion de densité instrumentale ρ(θ) (2/2)

Un candidat logique peut parfois être la loi a priori π(θ), car elle respecte automatiquement la
règle d’inclusion du support

1 Si l’a priori est très informatif par rapport aux données, l’a posteriori en sera proche
une quantification de cette “force" relative d’information est donc pratique pour
choisir ρ(θ)

2 Si l’a priori est très large (peu informatif) :


il peut privilégier indûment des régions où la vraisemblance (comme fonction de θ)
est nulle ou quasi-nulle
il faudra beaucoup de tirages pour atteindre les régions HPD (de plus haute
densité) a posteriori ⇒ coût algorithmique très fort

3 Ce choix est aussi à proscrire si l’a priori privilégie des régions de Θ qui sont éloignées de
celles privilégiées par les données
indication : éloignement du mode a priori de θ et du maximum de vraisemblance θ̂n

79/291 79
Rappels en statistique computationnelle

Méthodes d’échantillonnage dans la loi a posteriori

On cherche à obtenir indirectement des tirages qui suivent (en général approximativement) la
loi a posteriori :
1 algorithmes d’acceptation-rejet
2 échantillonnage d’importance (préférentiel)
3 méthodes de Monte Carlo par chaînes de Markov (MCMC)
4 filtrage particulaire

On présente ici les trois premières méthodes d’échantillonnage (le filtrage étant plus délicat
d’utilisation, et plutôt adapté à des modèles à espace d’états)

Ces méthodes - et leurs hybrides - sont les outils actuels les plus puissants pour simuler des lois
connues semi-explicitement (à une constante/une intégrale près)

80/291 80
Rappels en statistique computationnelle Acceptation-rejet

Algorithmes d’acceptation-rejet (1/2)

Permet de simuler de façon exacte et indépendante selon la loi a posteriori

f (xn |θ)π(θ)
Hypothèse supp. sur ρ(θ) : 0 < K = sup < ∞
θ∈Θ ρ(θ)

Algorithme :

1 simulation indirecte : soit θi ∼ ρ(·)


2 test :
soit Ui ∼ Uunif [0, 1]
f (xn |θi )π(θi )
si Ui ≤ alors θi suit la loi π(θ|xn )
K ρ(θi )

(Preuve en cours)

81/291 81
Rappels en statistique computationnelle Acceptation-rejet

Quelques commentaires (1)

La loi du nombre de tirages nécessaires selon ρ(θ) jusqu’à en accepter un suit la loi géométrique
de probabilité 1/(K · C ) où C est la constante d’intégration inconnue
Z
C = f (xn |θ)π(θ) dθ
Θ

donc K · C = espérance du nombre de tirages nécessaires avant l’acceptation

Optimiser l’algorithme revient donc à diminuer K

82/291 82
Rappels en statistique computationnelle Acceptation-rejet

Exemple : perturbation d’un modèle conjugué (1/3)

On suppose X ∼ N (θ, 1) et on suppose connaître un échantillon xn composé de :


quelques observations x1 , . . . , xn−1 supposées iid.
une pseudo-observation y qui est un cas-limite masquant (censurant) une observation xn
qui aurait dû être faite : y < xn

La vraisemblance s’écrit
n−1
!
1 X
2
f (xn |θ) ∝ exp − (xk − θ) 1 − Φ(y − θ)
2 | {z }
k=1
| {z } terme dû à la censure
= P(X > y )
terme régulier

A priori, on suppose θ ∼ N (µ, 1)

L’a posteriori sur θ s’écrit alors


( " n−1
!#2 )
n 1 X
π(θ|xn ) ∝ π̃(θ|xn ) = exp − θ− µ+ xk {1 − Φ(y − θ)}
2 n
k=1

83/291 83
Rappels en statistique computationnelle Acceptation-rejet

Exemple : perturbation d’un modèle conjugué (2/3)


  n−1
 
1
P
On reste proche d’une loi normale : ρ(θ) ≡ N n
µ+ xk , 1/n
k=1

Puisque 1 − Φ(y − θ) ≤ 1, on a
r

π̃(θ|xn ) ≤ ·{1 − Φ(y − θ)} · ρ(θ)
n
| {z }
K

Mise en oeuvre : on accepte θi si Ui ≤ 1 − Φ(y − θi )


Le nombre moyen d’appels nécessaires à ρ(θ) varie proportionnellement à 1/ n, donc plus
l’échantillon de données grandit, plus l’algorithme est efficace

Mise en oeuvre sur R [fichier "exemple-acceptation-rejet.r"]


validation graphique
comparaison avec le choix ρ(θ) = π(θ)

84/291 84
Rappels en statistique computationnelle Acceptation-rejet

Exemple : perturbation d’un modèle conjugué (3/3)

Si on fait le choix ρ(θ) = π(θ), alors


" n
# !
√ 1 1 X √
K = 2π exp xk − µ (1 − n)
2 n−1
k=1

85/291 85
Rappels en statistique computationnelle Acceptation-rejet

Quelques commentaires (2)

On peut améliorer (faire baisser) le taux de rejet en encadrant la loi a posteriori entre 2 densités
instrumentales (acceptation-rejet par enveloppe)

Principe parfait en théorie, mais en pratique réservé aux cas simples (dim Θ petite)

Algorithme très coûteux en temps d’attente en général

86/291 86
Rappels en statistique computationnelle Échantillonnage d’importance (ou préférentiel)

Echantillonnage d’importance (ou préférentiel)

Soit (θ1 , . . . , θM ) un tirage i.i.d. selon une densité instrumentale ρ(θ)

Soit (ω1 , . . . , ωM ) les poids d’importance définis par


f (xn |θi )π(θi )
ωi ∝
ρ(θi )
et normalisés de façon à ce que leur somme fasse 1

Théorème [Geweke 1989]. Toute fonction prédictive

Z
h(x |xn ) = h(x |θ)π(θ|xn ) dθ
Θ

(ex : h = f ) peut être estimée de façon consistante, lorsque M → ∞, par


M
X
ĥ(x |xn ) = ωi h(x |θi )
i=1

87/291 87
Rappels en statistique computationnelle Échantillonnage d’importance (ou préférentiel)

Sampling-Importance Resampling (SIR)

Théorème [Rubin 1988]. Les tirages

θ̃1 , . . . , θ̃P ∼ Multinomial (θ1 , . . . , θM |ω1 , . . . , ωM )

suivent la loi a posteriori π(θ|xn )

Il faut cependant noter qu’ils sont fortement dépendants (tirage avec remise)

En pratique, l’heuristique de Rubin consiste à prendre P < M/20 pour diminuer la dépendance

On peut aussi ainsi estimer les caractéristiques de π(θ|xn )

88/291 88
Rappels en statistique computationnelle Échantillonnage d’importance (ou préférentiel)

Exemple : perturbation d’un modèle conjugué

On reprend l’exemple précédent


 n−1

P
On choisit toujours ρ(θ) ≡ N µ+ xi , 1/n
k=1

Les poids sont simplement proportionnels à

ωi ∝ 1 − Φ(y − θi )

qu’on normalise en divisant le membre de droite par la somme des 1 − Φ(y − θi ), i = 1, . . . , M

Les poids les plus hauts sont donc ceux pour lesquels y  θi

Mise en oeuvre sur R [fichier "exemple-IS.r"]

validation graphique
comparaison avec le choix ρ(θ) = π(θ)

89/291 89
Rappels en statistique computationnelle Échantillonnage d’importance (ou préférentiel)

Quelques commentaires

1 Plus la densité instrumentale ρ(θ) est “proche" de π(θ|xn ), plus les poids sont équilibrés
(donc meilleur est le rééchantillonnage)
2 Plutôt qu’une loi unique ρ, on peut mettre en place des algorithmes adaptatifs qui
construisent itérativement une suite de densités {ρk (θ)}k convergeant vers π(θ|xn ), pour
améliorer encore le rééchantillonage [Marin & Robert : The Bayesian Core]

90/291 90
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)

Méthodes de Monte Carlo par chaînes de Markov (MCMC)

Principe

Partant d’un tirage d’une densité π̃0 (θ) arbitraire, on produit une chaîne de Markov de

réalisations θ(1) , . . . , θ(M) qui a pour loi stationnaire π(θ|xn )

Soit A ∈ Θ. Une chaîne de Markov homogène est déterminée par un noyau de transition, défini à
l’itération i par
Z
(i) (i−1)
K(θ|A) = P(θ ∈ A|θ = θ) = κ(θ, θ̃) d θ̃,
A
| {z }
densité de transition sur θ̃

qui généralise la matrice de transition d’un état à un autre dans un cadre discret
R
La densité de probabilité d’un θ simulé à l’itération i est π̃i (θ) = π̃ (θ̂)κ(θ̂, θ) d θ̂ et
θ̂∈Θ i−1
converge en loi vers une unique densité stationnaire π̃∞ (θ), indépendamment de π̃0 , sous des
conditions très générales

91/291 91
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)

Convergence des MCMC

Conditions générales de convergence et d’unicité :


tout état (ou sous-ensemble) de Θ est accessible à partir de n’importe quel autre état
(irréductibilité)
le nombre minimal d’états intermédiaires est nul (apériodicité)
l’espérance du temps de retour en n’importe quel état est fini (récurrence positive)

On dit alors que la MCMC produite est ergodique

Caractéristiques majeures :
le début de la chaîne (dit temps de chauffe) sert à explorer l’espace Θ et trouver les zones
de haute densité a posteriori
on ne conserve que la seconde partie de l’ensemble des θ(i) produits, qui suivent la
distribution stationnaire (la chaîne “oublie" son état initial)
la fréquence de visite de chaque état (ou sous-ensemble) de Θ est la même pour toute
trajectoire MCMC
on ajoute souvent une étape de rééchantillonage (SIR) ou de décorrélation des θ(i)
conservés pour obtenir un échantillon approximativement indépendant de π̃∞ (θ)

92/291 92
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)

Application au bayésien

Pour que la loi stationnaire π̃∞ (θ) soit la loi a posteriori π(θ|xn ), le noyau K doit être construit
en fonction de la vraisemblance des données xn et de l’a priori π(θ)

On peut réutiliser la structure de l’algorithme d’Acceptation-Rejet, en créant un noyau résultant


du mélange de deux actions à l’itération i :
on accepte un nouveau candidat-tirage de π̃i (θ) avec une probabilité αi
on refuse et on conserve le tirage précédent dans la chaîne avec probabilité 1 − αi
⇒ Algorithme de Hastings-Metropolis

Sous certaines conditions de conditionnement explicite a posteriori, on peut accepter des


candidats avec probabilité 1
⇒ Algorithme de Gibbs

93/291 93
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)

L’algorithme de Metropolis-Hastings (cas bayésien)

Soit une densité instrumentale ρ(θ|θ(i−1) )

Étape i:
1 simuler θ̃ ∼ ρ(θ|θ(i−1) )
2 calculer la probabilité
    
f (xn |θ̃)π(θ̃) ρ(θ(i−1) |θ̃)
αi = min 1, ·
f (xn |θ(i−1) )π(θ(i−1) ) ρ(θ̃|θ(i−1) )

simuler U ∼ Uunif [0, 1]




3 accepter θ̃ avec probabilité αi
si U ≤ αi choisir θ(i) = θ̃ 
sinon choisir θ(i) = θ(i−1)

Le noyau markovien est alors constitué d’un mélange d’un Dirac en θ(i−1) et de la loi
instrumentale, mélange pondéré par la probabilité de transition αi

94/291 94
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)

Propriétés particulières

La partie continue du noyau de transition (de θ vers θ0 ) s’écrit

p(θ, θ0 ) = α(θ, θ0 )ρ(θ0 |θ)

avec α(θ, θ0 ) la probabilité de transition

f (xn |θ0 )π(θ0 ) ρ(θ|θ0 )


n    o
α(θ, θ0 ) = min 1, ·
f (xn |θ)π(θ) ρ(θ0 |θ)

On a

π(θ) × p(θ, θ0 ) = π(θ0 ) × p(θ0 , θ)

la chaîne MCM produite est alors dite réversible et ceci suffit à montrer, si la chaîne est
irréductible et apériodique, que :
elle est ergodique
la distribution des itérés θ(i) , . . . , θ(j) de la chaîne converge en loi vers une loi-limite unique
celle-ci est proportionnelle à f (xn |θ)π(θ) : il s’agit donc de π(θ|xn )

95/291 95
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)

Plus loin dans le cours

Comment contrôler et stopper les chaînes ?

Comment produire une ou des lois instrumentales utiles ?

Comment produire un échantillon décorrélé utile ?

96/291 96
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)

Exemple général : comportement d’un débit maximal

Soit X la variable “débit maximal de rivière"

Une loi des extrêmes (Gumbel) est souvent indiquée pour modéliser X :
f (x |θ) = λµ exp(−λx ) exp(−µ exp(−λx )).
avec θ = (µ, λ). L’espérance est
E[X |θ] = λ−1 (log µ + γ)
où γ est la constante d’Euleur (' 0.578..)
Histogramme / densité de Gumbel estimée
6e−04
5e−04
4e−04
densité

3e−04
2e−04
1e−04
0e+00

0 500 1000 1500 2000 2500 3000 3500

données de débit

97/291 97
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)

Vraisemblance des observations

Soient n observations xn = (x1 , . . . , xn ) supposées i.i.d. selon Gumbel(µ, λ)

On pose

n
1 X
x̄n = xi
n
i=1
n
X
b̄xn (λ) = exp (−λxi )
i=1

La vraisemblance s’écrit alors

f (xn ) = λn µn exp(−λnx̄n ) exp{−µb̄xn (λ)}

98/291 98
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)

Choix a priori

On considère l’a priori π(µ, λ) = π(µ|λ)π(λ) avec

µ|λ ∼ Gamma (m, bm (λ))


λ ∼ Gamma (m, m/λe )
 −1
et bm (λ) = α−1/m − 1 exp(−λxe,α ).

Sens des hyperparamètres :


xe,α = quantile prédictif a priori d’ordre α :
Z
P (X < xe,α ) = P (X < xe,α |µ, λ) π(µ, λ) dµdλ = α

m = taille d’échantillon fictif, associée à la “force" de l’avis d’expert xe,α


1/λe = moyenne de cet échantillon

99/291 99
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)

Loi a posteriori

En conséquence, la loi a posteriori s’obtient sous la forme hiérarchisée suivante :

π (µ, λ|xn ) = π (µ|λ, xn ) π (λ|xn )



µ|λ, xn ∼ Gamma m + n, bm (λ) + b̄xn (λ)

et

π (λ|xn ) = γ(λ) · Gamma (m + n, m/λe + nx̄n )

avec
m (λ)
bm
γ(λ) ∝ m+n
bm (λ) + b̄xn (λ)

La loi a priori est donc semi-conjuguée, et il suffit de simuler λ a posteriori pour obtenir un
tirage joint a posteriori de (µ, λ)

100/291 100
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)

Illustration (m = 1 puis m = 10, xe,0.5 = 2000, λe = 1/610

densité a priori lambda (noire) / densité instrumentale (rouge) densité a posteriori (lambda) / coeff.multiplicatif pres
1000

8e−139
800

6e−139
600

4e−139
400

2e−139
200

0e+00
0

0.000 0.001 0.002 0.003 0.004 0.000 0.001 0.002 0.003 0.004

lambda lambda

101/291 101
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)

Mise en oeuvre sur R [fichier "exemple-MCMC-complet.r"]

Impact de plusieurs choix pour ρ(λ|λ(i−1) )

On peut proposer
la loi a priori π(λ),
une loi qui “semble proche" : Gamma (m + n, m/λe + nx̄n )
une loi normale de moyenne λ(i−1) et de coefficient de variation petit (5%) ou grand (25
ou 50%)

102/291 102
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)

Illustration (m = 1 puis m = 10, xe,0.5 = 2000, λe = 1/610, ρ = marche aléatoire)

parcours chaînes MCMC (lambda) parcours chaînes MCMC (lambda)


0.0020

0.0020
0.0015

0.0015
lambda

lambda
0.0010

0.0010
0.0005

0.0005
0.0000

0.0000
0 20 40 60 80 100 0 100 200 300 400 500

nb.iterations nb.iterations

103/291 103
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)

Heuristique de progression du taux d’acception moyen α

La stationarité est l’atteinte par une chaîne d’un tirage stationnaire dans la loi a posteriori

La rapidité de convergence vers la stationarité est induite par le taux d’acceptation α

Au début de la MCMC, on cherche à explorer l’espace : α grand (' 0.5)

Si α est petit, la simulation est fortement dépendante du passé de la chaîne : l’exploration de


l’espace est très lente

Si α reste grand, chaque chaîne évolue solitairement et elles risque de se mélanger lentement

Stabilisation : un α = 0.25 est souvent considéré, en pratique (en particulier lorsque dim Θ est
grande) comme un bon objectif de renouvellement à la stationnarité.

La calibration de ρ(θ|θ(i−1) ) (en général, le choix de sa variance) peut être en général faite de
façon empirique en “testant" le taux d’acceptation effectif

104/291 104
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)

Sélection de la loi instrumentale ρ(θ|...)

Dans le cas le plus simple, ρ(θ|θ(i−1) ) = ρ(θ) (loi statique)

Une modélisation standard est de choisir ρ(θ|θ(i−1) ) centrée sur θ(i−1) , et donc seule la variance
doit être calibrée

Exemple : marche aléatoire θ ∼ θ(i−1) + σi où i ∼ N (0, 1)

À la différence du noyau K, le caractère markovien de ρ peut être relâché : on peut construire


des ρ adaptatives en utilisant tout le passé de la chaîne et non pas le dernier état connu θ(i−1)

Une (très) vaste littérature à ce sujet, plutôt du domaine de la recherche que de la règle du
pouce ou la “boîte à outils" [Roberts & Rosenthal, Moulines et al.]

105/291 105
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)

Arrêt des chaînes MCMC (1/2)

Une fois que le temps de chauffe est passée ≡ la phase ergodique est atteinte

De nombreux diagnostics de convergence vers la stationarité ont été proposés [Cowles & Carlin
1996] et nécessitent d’avoir lancé plusieurs chaînes parallèles

À la stationarité, ces chaînes parallèles se sont bien mélangées et ont “oublié" le passé de
chacune

Les diagnostics sont surtout visuels : on regarde l’évolution du comportement d’une statistique
informant sur la stabilité de la distribution des θ

Statistisques de Gelman-Rubin (1992) et Brooks-Gelman (1998) :


fondées sur la comparaison de variances inter et intra chaînes
les plus utilisés en pratique
Gelman-Rubin (chaînes 1D), Brooks-Gelman = généralisation

106/291 106
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)

Arrêt des chaînes MCMC (2/2)


Soit P trajectoires (chaînes) parallèles de longueur n (en pratique, P = 3)
(i)
Soit θk la i ième réalisation sur la trajectoire k
Soit B l’estimateur de la variance de θ inter-chaînes
P
n X 2
B = θ̄k − θ̄
P −1
k=1
avec
n P
1 X (i) 1 X
θ̄k = θk et θ̄ = θ̄k
n P
i=1 k=1

soit W l’estimateur de la variance de θ intra-chaînes (ergodique)


P
" n 
#
2
1 X 1 X (i)
W = θk − θ̄k
P n−1
k=1 i=1

Alors, le rapport (Statistique de Gelman-Rubin)


(n−1)
n
W + n1 B
R =
W
tends vers 1 par valeurs supérieures
107/291 107
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)

Illustration (m = 10, xe,0.5 = 2000, λe = 1/610, ρ = marche aléatoire)

taux d'acceptation moyen des chaînes statistique de convergence de Brooks−Gelman

4.0
0.30

3.5
0.25

3.0
0.20

2.5
0.15

2.0
0.10

1.5
0.05

1.0
0.00

0.5
0 100 200 300 400 500 0 100 200 300 400 500

nb.iterations nb.iterations

108/291 108
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)

Comment décorréler un échantillon a posteriori émanant


d’une MCMC ?

Soit Mc le nombre d’itérations d’une MCMC avant qu’on atteigne la stationnarité (temps de
chauffe)

En sortie de la MCMC, on obtient un échantillon de M − Mc vecteurs θ(M−Mc +1) , . . . , θM qui


suivent la loi stationnaire π(θ|xn )

De par le caractère markovien de la MCMC, ces valeurs peuvent être très dépendantes le long
d’une chaîne

Si on beaucoup de chaînes parallèles indépendantes, il suffit de prélever une valeur dans


chacune... (peu faisable en pratique)

109/291 109
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)

Obtention d’un échantillon décorrélé


1 On estime l’autocorrélation des éléments d’une chaîne :
  
E θ(i) − E[θ|xn ] θ(i+j) − E[θ|xn ]
Auti,i+j =
Var[θ|xn ]

à valeur dans [−1, 1].

À i fixé, Auti,i+j tends vers 0 lorsque j augmente ⇔ θ(i+j) devient de plus en plus
décorrélé de θ(i)
On considère que cette décorrélation est effective lorsque l’estimateur de Auti,i+j
est un bruit blanc gaussien
On peut donc, en moyenne sur les i, estimer le nombre d’itérations nécessaire t
pour obtenir 2 valeurs décorrélées de θ

2 Sur chaque chaîne, on sélectionne le sous-échantillon

θ(M−P+1) , θM−P+1+t , θM−P+1+2t , . . .

3 On baisse encore la dépendance des éléments de l’échantillon final en prélevant dans les
chaînes indépendantes

110/291 110
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)

L’algorithme (échantillonneur) de Gibbs

On suppose pouvoir écrire θ = (θ1 , θ2 , . . . , θd )

On suppose pouvoir facilement simuler les lois a posteriori conditionnelles

(i) (i−1) (i−1)


θ1 ∼ π(θ1 |xn , θ2 , . . . , θd )
(i) (i) (i−1) (i−1)
θ2 ∼ π(θ2 |xn , θ1 , θ3 , . . . , θd )
... ...
(i) (i) (i)
θd ∼ π(θd |xn , θ1 , . . . , θd−1 )

alors la chaîne markovienne de vecteurs

(1) ! (M) !
θ1 θ1
(1) (i)
θ = ... , θ = ... ,...
(1) (M)
θd θd

est de loi stationnaire π(θ|xn )

111/291 111
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)

Quelques caractéristiques importantes

Ne s’applique qu’aux cas multidimensionnels


Exploite au maximum la structure conditionnelle des modèles hiérarchiques
Très utile pour simuler des modèles conjugués en dimension au moins égale à 2

Converge en général plus vite qu’une MCMC (temps de chauffe moins long)

Il permet souvent de faciliter l’estimation des modèles à données manquantes (ex : censures)
en considérant ces données comme des paramètres inconnus à simuler (augmentation de
données)
ce qui permet de retomber, parfois, dans des cas conjugués

112/291 112
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)

Exemple : perturbation d’un modèle conjugué (1/2)

On reprend l’exemple xn = (x1 , . . . , xn−1 , y ) avec θ ∼ N (µ, 1) a priori


| {z } |{z}
N (θ,1) censure
à droite

Si on connaissait xn , le modèle bayésien serait conjugué et

n
! !
1 X
−1
θ|xn ∼ N µ+ xi , (n + 1)
n
i=1

On considère alors la donnée manquante xn comme un paramètre inconnu et aléatoire.

Sachant θ et xn , on peut montrer par la règle de Bayes que la loi de xn est la normale tronquée

N (θ, 1) · 1{xn ≥y }

113/291 113
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)

Élements de preuve (dans un cas général)

Soit la variable aléatoire Xn dont xn est une observation

La fonction de répartition de Xn est conditionnelle : P(Xn < x |Xn > y )

Par la règle de Bayes


P(Xn < x ∩ Xn > y ) P(y < Xn < x )
P(Xn < x |Xn > y ) = =
P(Xn > y ) P(Xn > y )

Le dénominateur est une constante (indépendante de x ). Donc


Z x Z x
P(Xn < x |Xn > y ) ∝ f (u) du = fX (u)1{y ≤u} du
y −∞

où fX est la densité d’un X non-contraint (ici gaussienne)

On en déduit que la densité de Xn est


f (x )1{y ≤x }
fXn (x ) =
f (u)1{y ≤u} du
R∞
−∞

114/291 114
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)

Exemple : perturbation d’un modèle conjugué (2/2)

Schéma de Gibbs :

On part d’une valeur θ(0)


Itération i ≥ 1 :
on simule xn ∼ N θ(i−1) , 1 · 1{xn ≥y }
(i)

1
  n−1
 
1
P (i)
2 on simule θ(i) ∼N n
µ+ xi + xn , (n + 1)−1
i=1

Mise en oeuvre sur R [fichier "exemple-gibbs.r"]

115/291 115
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)

Un problème fréquent posé par Gibbs : une vision trop “conditionelle"

La modélisation bayésienne par conditionnement peut fréquemment entraîner le mécanisme


suivant :
1 On construit un a priori hiérarchique

π(θ) = π(θ1 |θ2 , θ3 )π(θ2 |θ3 )π(θ3 )


avec des a priori non-informatifs
2 Ce conditionnement est souvent choisit pour tirer parti de conjugaisons a posteriori : les
lois conditionnelles
π(θ1 |xn , θ2 , θ3 ),
π(θ2 |xn , θ1 , θ3 ),
π(θ3 |xn , θ1 , θ2 )
sont explicites, ce qui permet d’utiliser un algorithme de Gibbs

Problème majeur : même si ces lois a posteriori conditionnelles sont propres, la loi jointe peut
ne pas l’être :
Z
π(θ|xn ) dθ = ∞
Θ

116/291 116
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)

TP : modèle à effets aléatoires autour d’une constante (Hobert-Casella) (1/2)

Pour i = 1, . . . , I et j = 1, . . . , J

xij = β + ui + ij

où ui ∼ N (0, σ 2 ) et ij ∼ N (0, τ 2 )

Application possible : β = tendance moyenne population, ui = variation d’un groupe, ij =


variation au sein d’un sous-groupe

A priori de Jeffreys :

1
π(β, σ 2 , τ 2 ) ∝
σ2 τ 2

117/291 117
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)

TP : modèle à effets aléatoires autour d’une constante (Hobert-Casella) (2/2)

On note xIJ l’échantillon des données observées, x̄i la moyenne sur les j

On note uI l’échantillon manquant des u1 , . . . , uI (reconstitué dans l’inférence)

Question 1. Calculer les lois conditionnelles a posteriori de

Ui |xIJ , β, σ 2 , τ 2
β|xIJ , σ 2 , τ 2 , uI
σ 2 |xIJ , β, τ 2 , uI
τ 2 |xIJ , β, σ 2 , uI

Ces lois sont-elles bien définies ?

Question 2. Donner une formule (à un coefficient proportionnel près) pour la loi a posteriori
jointe π(σ 2 , τ 2 |xIJ ). Comment se comporte-t-telle au voisinage de σ = 0, pour τ 6= 0 ? Que
pouvez-vous en déduire ?

Question 3. Mettre en place un algorithme de Gibbs permettant d’inférer sur (β, σ 2 , τ 2 ). Que
pouvez-vous dire sur la convergence des chaînes MCMC ?

118/291 118
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)

Metropolis-within Gibbs

Il arrive souvent qu’on ait, avec θ = (θ1 , θ2 ) :


π(θ1 |θ2 , xn ) explicite (par conjugaison)
π(θ2 |θ1 , xn ) connue à un coefficient d’intégration près

On peut alors construire un hybride de Gibbs et Hastings-Metropolis, qui converge encore vers la
loi a posteriori jointe

Étape i de l’algorithme :
 
(i) (i−1)
1 on simule θ1 ∼ π θ1 |θ2 , xn
(i−1)
on simule θ2∗ ∼ ρ(i) (.|θ2 )
(i)
on accepte θ2 = θ2∗ avec probabilité αi
(i) (i−1)
sinon on conserve θ2 = θ2

119/291 119
Récapitulatif : quand et comment faire, erreurs à éviter, principaux
messages

Tableau récapitulatif - Algorithmes de simulation a posteriori

Acceptation - Échant. Métropolis - Gibbs


Rejet d’importance Hastings (MH)
Contexte
Dimension de θ 1 grande grande grande
Nature simulation iid non-indep.∗ non-indep. approx.∗ non-indep. approx.∗
Nature algo itératif statique itératif itératif

Nb. itérations typ. quelques 1 quelques dizaines quelques


centaines de milliers milliers

Implémentation aisée aisée calibration fine aisée


de ρ(θ) nécessaire

Critère d’arrêt aucun aucun nécessaire nécessaire

Risques fort taux poids mal mauvais mélange nécessite souvent


de rejet équilibrés chaînes // couplage avec M-H

Temps de calcul long rapide long plutôt rapide

∗ : Procédures de décorrélation nécessaires : rééchantillonnage, mesure d’autocorrélation

121/291 121
Récapitulatif : quand et comment faire, erreurs à éviter, principaux
messages

Points-clés : se poser quelques questions essentielles

Le problème est-il proche d’un cas conjugué ? (ex : loi normale censurée)

Si oui, que faudrait-il faire (typiquement, simuler des données manquantes ⇒ Gibbs)

En multidimensionnel, a-t-on des propriétés de conjugaison conditionnelles (⇒ Gibbs) ?

Si aucune idée, peut-on trouver une loi ρ(θ) partageant certaines caractéristiques avec
π(θ|xn ) ?

traçage de π(θ|xn ) (à un coefficient près) dans les cas unidimensionnels


calcul du mode a posteriori θ̂ = maximum de la vraisemblance pondérée par l’a priori
une loi ρ(θ) typique est une gaussienne N (θ̂, σ 2 Id ) avec σ calibré empiriquement

122/291 122
Récapitulatif : quand et comment faire, erreurs à éviter, principaux
messages

D’autres approches à explorer...

Algorithmes hybrides (MCMC-Gibbs)

Échantillonnage d’importance adaptatif

Méthodes de filtrage particulaire (modèles à espace d’états)

Méthodes Approximate Bayesian Computation (ABC)

spécialement adaptées aux cas où la vraisemblance n’est pas maniable


très lourdes computationnellement
tirent cependant parti de la parallèlisation croissante des moyens de calcul

123/291 123
Outils de mise en oeuvre et références

WinBUGS/OpenBUGS : un outil technique pour la mise


en oeuvre

Logiciel libre dédié à l’inférence a posteriori, voire certains calculs prédictifs

met en oeuvre l’algorithme de Gibbs


très utilisé car propose une large flexibilité
permet notamment la définition des modèles par graphes (directs
acycliques)
critères d’arrêt, autocorrélogrammes, etc.
Plusieurs extensions (GeoBUGS, ...) et un concurrent sérieux : JAGS
packages BRugs / R2WinBUGS pour être appelé directement de R et y récupérer les
résultats

Cependant, un travail de fond sur les MCMC doit être fait “à la main"... en pouvant utiliser des
packages R spécifiquement dédiés aux tests de convergence (coda), à la représentation
graphique des chaînes...

125/291 125
Outils de mise en oeuvre et références

Quelques références

1 Robert, C., Casella, G. (1998). Monte Carlo Statistical Methods, Springer-Verlag


2 Marin, J.M., Robert, C. (2008). The Bayesian Core. Springer-Verlag
3 Geweke, J. (1989). Bayesian Inference in Econometric Models using Monte Carlo
Integration, Econometrica, 57, pp. 1317-1339
4 Guillin, A., Marin, J.-M. & Robert, C.P. (2005). Estimation bayésienne approximative par
échantillonnage préférentiel, Revue de Statistique Appliquée, 54, pp. 79-95
5 Roberts, G.O., Smith, A.F.M. (1993). Simple Conditions for the convergence of the Gibbs
sampler and the Metropolis-Hastings algorithms. Stochastic Processes and their
applications, 49, pp. 207-216
6 Rubin, D. (1988). Using the SIR Algorithm to Simulate Posterior Distributions, in
Bayesian Statistics 3, Bernardo J., DeGroot M., Lindley D. & Smith A. (eds), Oxford
University Press, pp. 395-402

126/291 126
Choix du cadre bayésien

Choix du cadre bayésien - quelques idées


et principes utiles

128/291 128
Choix du cadre bayésien

Incertitudes épistémique et aléatoire : caractérisation

La statistique traite des problèmes affectées par différentes sources d’incertitude

Incertitude aléatoire.
L’incertitude aléatoire, ou naturelle est due au caractère aléatoire ou à la variabilité
naturelle d’un phénomène physique (les valeurs sont précises mais différentes en raison
de variations naturelles). On parle également d’incertitude stochastique ou de variabilité

Cette incertitude est généralement liée à des quantités mesurables et est considérée
comme irréductible puisqu’inhérente à la variabilité naturelle de phénomènes physiques.
L’incertitude aléatoire est généralement associée à des connaissances objectives
s’appuyant sur des données expérimentales

129/291 129
Choix du cadre bayésien

Incertitudes épistémique et aléatoire : caractérisation

La statistique traite des problèmes affectées par différentes sources d’incertitude

Incertitude épistémique.
L’incertitude épistémique est due au caractère imprécis de la connaissance ou liée à un
manque de connaissance. Elle est généralement liée à des quantités non mesurables, et
est considérée comme réductible dans le sens où de nouvelles connaissances pourraient
réduire voire éliminer ce type d’incertitude

Elle est principalement présente dans le cas de données subjectives fondées sur des
croyances (avis d’expert) et pouvant être qualitatives ou quantitatives

On parle aussi d’imprécision due au manque de données ou connaissance ou de


méconnaissance

130/291 130
Choix du cadre bayésien

Le jugement d’expert comme information épistémique

Au-delà du calcul mathématique, le jugement d’expert possède un rôle fondamental en


prise de décision

construction de plans d’expérience, hiérarchisation de résultats scientifiques


[Cooke1991,Weinstein1993,Luntley2009]

nourrrit les études économiques [Leal2007] et actuarielles [Tredger2016] sur l’impact des
risques financiers
déterminant en arbitrage judiciaire, politique publique [Morgan2014 ou gouvernance
environnementale [Miller2001,Drescher2013]

Son influence sur les choix technologiques, économiques, sociétaux ou personnels,


permettant d’élaborer des stratégies de maximisation de gain, a été beaucoup étudiée
par des épistémologues et des psychologues [Fischhoff1982,Luntley2009,Eagle2011]

131/291 131
Choix du cadre bayésien

Qu’est-ce qu’un expert ?

Un nombre infini de conceptions

Deux conceptions majeures [Weinstein1993]

1 ceux dont l’expertise résulte de ce qu’ils font (expertise performative)


2 ceux dont l’expertise résulte de ce qu’ils ont appris (expertise épistémique) ceux
dont l’expertise résulte de ce qu’ils ont appris (expertise épistémique)

Une caractérisation usuelle, avec la capacité d’expliquer et de transmettre. Par ailleurs,


pour Luntley (2009) :

I argue that what differentiates the epistemic standpoint of experts is not what or how
they know [...], but their capacity for learning

132/291 132
Choix du cadre bayésien

Qu’est-ce qu’un expert ?

La question est, à proprement parler, "peut-on définir formellement ce qu’est un expert ?


"

On parlera plutôt de “système expert produisant une nouvelle connaissance "

Typiquement :
systèmes cognitifs implicites
humains
intelligences artificielles (néo-connexionnistes)
systèmes causaux explicites
modèles phénoménologiques et leurs implémentation numériques (modèles de
simulation)
intelligences artificielles symboliques

Capacité à démontrer l’expertise ⇔ capacité à prévoir/"prédire" de façon adéquate

Capacité
133/291 d’apprentissage ⇔ capacité à inférer de façon cohérente quand de nouvelles 133
Choix du cadre bayésien

Qu’attendons-nous typiquement de la réponse d’un système expert ?

Produire de l’information épistémique sur le comportement d’une grandeur d’intérêt


X ∈χ

Difficultés immédiates
biais
impact de la subjectivité sur le processus de délivrance de l’information
flou
...
résultant en incertitude épistémique

134/291 134
Choix du cadre bayésien

Information a priori

Information a priori = information whose the value of truth is justified by considerations


independent on experiment on focus [Pegny2012]

résultats d’essais autres que les données (par exemple sur des maquettes)
spécifications techniques d’exploitation
bornes physiques
corpus référencé
experts humains

Souvent incomplète, toujours incertaine, à cause


de la non-existence d’un système permettant a priori de vérifier si l’expertise est
complète ou non
de la non-existence d’un système suffisament précis pour spécifier que X = x0
exactement (sauf dans des cas rares et pathologiques)

135/291 135
Choix du cadre bayésien

Des questions simples et des réponses non triviales

Que signigie “incertitude" et notamment “incertitude épistémique" ?


Question philosophique non résolue !

Pourquoi la théorie des probabilités est-elle pertinente pour aboutir une modélisation des
incertitudes ?
Nombreux avantages pratiques, mais quelle pertinence théorique ?
Soulève la question de l’auditabilité des procédures mathématiques utilisées pour
résoudre un problème = considération croissante de confiance (sociétale)

S’il y a consensus pour utiliser des probabilités, comment choisir les distributions de
probabilités ?
Faire appel à quelques techniques importantes de modélisation bayésienne

136/291 136
Choix du cadre bayésien

Traitement de l’information a priori


issue de systèmes cognitifs implicites

137/291 137
Choix du cadre bayésien

De l’information à la connaissance (et réciproquement)

Hypothèse 1 (épistémologique) par Lakatos (1974)


L’information sur l’état de la nature est cachée et partiellement révélée par une
théorie consensuelle (au sens de Popper (1972) : par décision mutuelle des
protagonistes) définissant l’objectivité [Gelman2015]
La connaissance est un "filtrage" de l’information
Ce filtrage est produit par l’intervention de symboles, ou signes, afin de la
transmettre ou de l’implémenter

Hypothèse 2 (issue des neurosciences)


[Sanders2011,Salinas2011,Pouget2013,Gold2013,Dehaene2014,Chan2016]

Face à des situations où de l’information incertaine est mobilisée, le raisonnement


humain produit des inférences probabilistes
Les difficultés apparaissent au moment de l’explicitation de cette information par
langage interprétatif ⇒ expertise utilisable

138/291 138
Choix du cadre bayésien

Logique de l’information incertaine

Sous ces hypothèses, nous ne savons pas comment définir formellement la


“déconvolution" retransformant la connaissance incertaine en information incertaine

Mais nous pouvons avoir des idées sur l’impact de l’ajout d’une connaissance incertaine
mais utile sur la résolution du problème de détermination de X

Cet ajout se manifeste par un accroissement de l’information sur X = inférence (mise à


jour)
⇒ cette inférence doit s’appuyer sur un principe de raisonnement
⇒ ce principe de raisonnemen s’établit lui-même sur une logique =
ensemble de règles formelles

Propriétés souhaitées
Pouvoir trier des assertions atomiques du type X = x0 at chaque ajout
d’information (logique exclusive)
139/291 une situation initiale (prémisse) est moins informatique qu’une conclusion 139
Choix du cadre bayésien

Logique de l’information incertaine

Définition
Soit SX un ensemble de propositions (assertions) atomiques du type X = xi . L’ensemble
BX de toutes les propositions composites générées par

¬X = xi , X = xi ∧ X = xj ,
X = xi ∨ X = xj , X = xi ⇒ X = xj
and X = xi ⇔ X = xj

est appelé état d’information, avec Dom(BX ) = fermeture logique de SX

L’état d’information BX résume l’information existante sur un ensemble de propositions


portant sur X

La même logique devrait guider la façon dont BX évolue : il croît selon une certaine
métrique quand l’information sur X croît

140/291 140
Choix du cadre bayésien

Plausibilité, consistence et cohérence

Définition
Considérons une proposition A on X . Sachant BX , la plausibilité [A|BX ] est un nombre
réel, supérieurement borné par un nombre (fini ou infini) T

Consistence : BX est consistent s’il n’existe aucune proposition A pour qui


[A|BX ] = T et ¬[A|BX ] = T
Calcul propositionnel : applicable à tout domaine de problème pour lequel on peut formuler des propositions
utiles

(i) Si A = A0 alors [A|BX ] ⇔ [A0 |BX ]


(ii) [A|BX , CX , DX ] = [A|(BX ∧ CX ), DX ]
(iii) Si BX est consistant et ¬[A|BX ] < T , alors A ∪ BX est consistant
Cohérence : il existe a fonction non croissante S0 telle que, pour tout x et tout
BX consistant
¬[A|BX ] = S0 ([A|BX ])
Densité : l’ensemble [S0 (T ), T ] admet un sous-ensemble non vide, dense et
consistant

141/291 141
Choix du cadre bayésien

Plausibilité, consistence et cohérence

Axiome
Considérons une proposition A on X . Sachant BX , la plausibilité [A|BX ] est un nombre
réel, supérieurement borné par un nombre (fini ou infini) T

Cet axiome dit de non-ambiguïté est particulièrement important

C’est une hypothèse de comparabilité universelle

Conséquence : une information additionnelle (pas forcément une connaissance) peut


seulement faire croître ou décroître la plausibilité d’une proposition

142/291 142
Choix du cadre bayésien

Plausibilité, consistence et cohérence

Axiome
Considérons une proposition A on X . Sachant BX , la plausibilité [A|BX ] est un nombre
réel, supérieurement borné par un nombre (fini ou infini) T

Cet axiome dit de non-ambiguïté est particulièrement important

C’est une hypothèse de comparabilité universelle

Comme on le précisera après, les différences entre logique probabiliste et logique non
probabiliste (ou extra-probabiliste) sont issues de l’accord ou du désaccord avec cette
hypothèse

Jaynes (1954) justifie la validité de cette hypothèse sur des bases pragmatiques

143/291 143
Choix du cadre bayésien

Plausibilité, consistence et cohérence

Axiome
Considérons une proposition A on X . Sachant BX , la plausibilité [A|BX ] est un nombre
réel, supérieurement borné par un nombre (fini ou infini) T

Cette hypothèse est notamment motivée lorsque nous parlons de quantités X possédant
une signification physique et prenant une unique valeur à chaque instant (étant donnée,
possiblement, une précision de mesure finie)

Elle peut ne pas l’être si nous parlons par exemple :


grandeurs considérées à l’échelle quantique (ex : en neutronique)
grandeurs imaginaires (ex : variables latentes)

144/291 144
Choix du cadre bayésien

Vulgarisation de la logique entière

1 Règle de reproductibilité : deux assertions équivalentes sur X ont la même


plausibilité
2 Règle de non-contradiction : s’il existe plusieurs approches aboutissant aux même
conclusions sur X , celles-ci ont la même plausibilité
3 Règle de consistence : la logique ne peut formuler une conclusion contredite par les
règles élémentaires de déduction (ex : transitivité)
4 Règle d’integrité : la logique ne peut exclure une partie de l’information sur X pour
parvenir à une conclusion sur X
5 Règle de monotonie : la plausibilité d’une union non exclusive de deux assertions
est au moins égale à la plus grande des plausibilités de chacune des assertions
prises séparément
6 Règle de produit : la plausibilité de l’intersection de deux assertions est au plus
égale à la plus petite des plausibilités de chacune des assertions prises séparément

145/291 145
Choix du cadre bayésien

Théorème de représentation de Cox-Jaynes

Prouvé originellement (mais avec erreurs) par Cox (1946), mieux formalisé par Jaynes
(1954), étendu plus rigoureusement par Paris (1994), Van Horn (2003), Dupré and
Tipler (2009) (entre autres) et finalisé par Terenin and Draper (2015)
Théorème
Sous les hypothèses précédentes, il existe une fonction P, croissante et continue, telle
que pour toute proposition A, C et tout ensemble BX consistant,
(i) P([A|BX ]) = 0 si et seulement si A est fausse étant donnée l’information
sur X
(ii) P([A|BX ]) = 1 si et seulement si A est vraie étant donnée l’information
sur X
(iii) 0 ≤ P([A|BX ]) ≤ 1
(iv) P([A ∧ C |BX ]) = P([A|BX ])P([C |A, BX ])
(v) P(¬[A|BX ]) = 1 − P([A|BX ])

Tout système de raisonnement plausible, sous les hypothèses précédentes, est isomorphe
à la théorie des probabilités
146/291 146
Choix du cadre bayésien

Un théorème fondamental en intelligence artificielle

Goertzel (2013) a prouvé que si la règle de consistance était affaiblie, alors les
plausibilités se comportent approximativement comme des probabilités

La théorie des probabilités est pertinente pour représenter les incertitudes sur un sujet
exploré par un systèmes cognitif implicite (humain ou artificiel) qui pourrait ne pas être
complément consistant

De nombreux auteurs en intelligence artificielle [Walley1996], épistémologie [Barberousse2008] et


en sciences cognitives reconnaissent la pertinence pratique de cette axiomatique pour
extraire et mettre à jour de l’information, en utilisant la règle de Bayes

147/291 147
Choix du cadre bayésien

Critique de l’axiome de non-ambiguïté

Axiome
Considérons une proposition A on X . Sachant BX , la plausibilité [A|BX ] est un nombre
réel, supérieurement borné par un nombre (fini ou infini) T

La “relaxation" la plus commune de cet axiome est que deux dimensions sont nécessaires
pour représenter correctement la plausibilité d’une proposition

À l’origine de la théorie des croyances [Smets1991] et de la théorie des possibilités [Dubois2012]

Des expériences ont montré que cette relaxation est parfois nécessaire quand la
plausibilité est interprétée comme le résumé d’une croyance personnelle, d’un pari

Néanmoins, cette “relaxation" reste arbitraire, et s’établit usuellement sur une


interprétation de la nature de la connaissance (exprimée à travers un langage), et non
sur la nature de l’information (exprimée par la réalité physique ou un modèle idéalisé de
cette réalité) [Snow1998]

148/291 148
Choix du cadre bayésien

Quelques références (1/2)

Pegny2012 Pegny, M. (2012). Les deux formes de la thèse de Church-Turing et


l’épistémologie du calcul. Philosophia Scientiae
Lakatos1974 Lakatos, I. (1974). Falsification and the methodology of scientific research
programmes. In : Criticism and the Growth of Knowledge, I. Lakatos and A.
Musgrave (eds.) Cambridge University Press
Popper1972 Popper, K. (1972). Objective Knowledge. Oxford : Clarendon Pr
Gelman2015 Gelman, A., Hennig, C. (2015). Beyond subjective and objective in statistics.
JRSS Ser. A
Sanders2011 Sanders, L. (2011). The Probabilistic Mind. Science News
Salinas2011 Salinas, E. (2011). Prior and prejudice. Nature Neuroscience
Pouget2013 Pouget, A. et al. (2013). Probabilistic brains : knowns and unknowns. Nature
Neuroscience
Gold2013 Gold, J.I., Heekeren, H.R. (2013). Neural Mechanisms for Perceptual Decision
Making. In : Neuroeconomics, P.W. Glimcher and R. Fehr (eds)
Dehaene2014 Dehaene, S. (2014). Consciousness and the Brain : Deciphering How the Brain
Codes our Thoughts. Viking Press
Chan2016 Chan et al. (2016). A probability distribution over latent causes, in the
orbifrontal cortex. The Journal of Neuroscience
Jaynes 1954 Jaynes, E.T. (1954). Probability Theory : The Logic of Science. Cambridge
University Press

149/291 149
Choix du cadre bayésien

Quelques références (2/2)

Cox 1946 Cox, R.T. (1946). Probability, Frequency and Reasonable Expectation. AJP
Paris 1994 Paris J.B. (1994). The Uncertain Reasoner’s Companion : a Mathematical
Perspective. Cambridge University Press
Van Horn 2003 Van Horn, K.S. (2003). Constructing a logic of plausible inference : a guide to
Cox’s theorem. IJAP
Dupré 2009 Dupré, M.J, Tipler, F.J. (2009). New axioms for rigorous Bayesian probability.
BA
Terenin 2015 Terenin, A., Draper, D. (2015). Rigorizing and extending the Cox-Jaynes
Derivation of Probability : Implications for Statistical Practice.
arXiv :1507.06597
Goertzel 2013 Goertzel, B. (2013). Probability Theory Ensues from Assumptions of
Approximate Consistency : A Simple Eerivation and its Implications for AGI.
Proceedings of AGI-13
Walley1996 Walley, P. (1996). Measures of uncertainty in expert systems. Artificial
Intelligence
Barberousse2008 Barberousse, A. (2008). La valeur de la connaissance approchée.
L’épistémologie de l’approximation d’Émile Borel. Revue d’Histoire des
Mathématiques
Smets1991 The transferable belief model and other interpretations of Dempster-Schafer’s
model. In : Uncertainty in Artificial Intelligence, vol. 6, Elsevier.
Dubois2012 Dubois, D., Prade, H. (2012). Possibility Theory. Springer
Snow1998 Snow, P. (1998). On the correctness and reasonableness of Cox’s theorem for
finite domains. Computational Intelligence
150/291 150
Élicitation bayésienne - présentation

Introduction

Pour fixer les idées et rappeler les notations :


des données xn = (x1 , . . . , xn ) ∈ IR n peuvent être observées, et sont considérées comme
des réalisations de la variable aléatoire X de densité f (x |θ) (par rapport à une mesure
dominante µ
on décrit donc f (x |θ) comme un modèle d’occurence des données
le vecteur de paramètres θ ∈ Θ ⊂ IR d représente l’état de la nature
on suppose pouvoir munir Θ d’une structure d’espace probabilisé

L’élicitation de l’a priori est le travail d’encodage probabiliste d’une connaissance incertaine
(méconnaissance) voire d’une incertitude complète sur l’état de la nature, au travers d’une
distribution a priori Π(θ) de densité π(θ)

elicere : tirer de, faire sortir, arracher, obtenir (ex aliquo verbum elicere)

to elicit : to get, to drawout

152/291 152
Élicitation bayésienne - présentation

Qu’est-ce que Π(θ) ?

Π(θ) traduit la plus ou moins grande incertitude associée aux grandeurs non observables θ

Cette distribution de probabilité, dite alors subjective, est une mesure de l’engagement personnel
en termes de pari à miser sur telle ou telle valeur de l’événement incertain

Il s’agit d’un modèle d’expertise, et Π(θ) s’interprète comme un degré de crédibilité des valeurs
que peut prendre la grandeur incertaine θ

En conséquence, elle ne possède de sens que si elle est définie conditionnellement à un niveau
fixé de connaissance et peut changer quand l’état de connaissance change (typiquement, quand
des données xn sont apportées)

On devrait donc toujours noter

π(θ) = π(θ|H)

où H représente un état de connaissance initial de l’expérimentateur (mais cette notation ne sera pas
conservée par la suite pour se simplifier la vie...)

153/291 153
Élicitation bayésienne - présentation

Choisir π(θ)

Éliciter un a priori π(θ), c’est :


proposer une modélisation sous forme hyperparamétrique (dans ce cours)

π(θ) = π(θ|δ)

où δ est appelé vecteur des hyperparamètres


Ex : une forme gaussienne, exponentielle...

proposer une calibration de δ en respectant le principe de vraisemblance, càd à partir


d’une information E indépendante de données xn permettant l’inférence a posteriori

L’information E peut revêtir de multiples formes :


provenir de données antérieures à xn ⇒ modélisation + calibration par tests classiques
information “experte" sur X ou/et θ provenant de spécialistes d’un domaine (physiciens,
etc.)
contraintes physiques sur θ, etc.

154/291 154
Élicitation bayésienne - présentation

Un exemple introductif en fiabilité industrielle

Soit X la durée de vie d’un matériel ou d’un composant industriel Σ

Des modèles de durée de vie sur X peuvent être construits à partir de considérations sur le taux
de défaillance caractérisant Σ

dPθ (x < X < x + dx )


λ(x |θ) =
dx

En effet, on a
 Z x 
Pθ (X ≤ x ) = 1 − exp − λ(u|θ) du
0

et
 Z x 
dPθ (X < x )
f (x |θ) = = λ(x |θ) exp − λ(u|θ) du
dx 0

155/291 155
Élicitation bayésienne - présentation

Supposons que Σ ne soit soumis qu’à des défaillances par accident


son taux de défaillance est constant λ(x |θ) = θ > 0
le modèle de durée de vie est alors exponentiel :
f (x |θ) = θ exp(−θx )1{x ≥0}
le temps moyen prédictif a priori avant défaillance (connaissance quantitative), sur lequel
un expert industriel peut souvent se prononcer, est alors
Z ∞
E[X ] = E[E[X |θ]] = E[X |θ]π(θ) dθ = Eπ [1/θ]
0

Si Σ peut tomber en panne à cause du vieillissement


son taux de défaillance est croissant λ(x |θ) = (x /η)β avec θ = (η, β) ∈ IR+
2

le modèle de durée de vie est alors Weibull :


 β−1
β x
1{x ≥0}

f (x |θ) = exp −(x /η)β
η η
la vitesse du vieillissement est mesurée par ∂λ(x |θ)/∂x
L’expert peut savoir que le vieillissement est sûr mais ne peut pas s’accélérer au cours du
temps (connaissance qualitative), donc
Π(1 ≤ β ≤ 2) = 1

156/291 156
Élicitation bayésienne - présentation

Fragilité d’un choix de modélisation a priori : un exemple (Berger 1985)

Soit x ∼ N (θ, 1)

On suppose que la médiane a priori de θ = 0, et que


Π(θ < −1) = 25% et Π(θ < 1) = 75%

Si on fait le choix de forme a priori θ ∼ N (θ0 , σ 2 )


1 θ0 = 0 et σ = 1.48
2 la moyenne a posteriori de θ sachant x (estimateur de Bayes sous coût quadratique) est
σ2
θ1∗ = x
1 + σ2
Si on fait le choix de forme a priori θ ∼ C(θ00 , a) : loi de Cauchy de densité
 
1 a
π(θ|a, b) =
π (θ − θ00 )2 + a2

1 θ00 = 0 et a = 1
2 la moyenne a posteriori de θ sachant x est
x3
θ2∗ ' lorsque |x | ≥ 4
157/291
1 + x2 157
Élicitation bayésienne - présentation

Fragilité d’un choix de modélisation a priori : un exemple (Berger 1985)

theta1
theta2 (approx.)
3
2
1
0
−1

−1 0 1 2 3 4 5

158/291 158
Élicitation bayésienne - présentation

Objectif du cours

La modélisation en fonction du type de connaissance disponible est un domaine très vaste


méthodes d’interrogation/de recueil/construction d’histogrammes

modélisation paramétrique / non-paramétrique

études de sensibilité sur la forme et la calibration

Dans ce cours, on va surtout s’intéresser aux démarches formelles, càd automatiques, visant à
choisir une forme paramétrique pour π(θ) et la calibrer en fonction d’un minimum ou même
d’une absence d’information sur θ

⇒ “minimum de base" pour se débrouiller dans la jungle bayésienne

Ces méthodes formelles feront notamment appel à des aspects importants de la théorie de
l’information

159/291 159
Élicitation bayésienne - présentation Élicitation par maximum d’entropie

1 - Élicitation par maximum d’entropie

160/291 160
Élicitation bayésienne - présentation Élicitation par maximum d’entropie

Élicitation par maximum d’entropie

Procédure formelle de construction d’un a priori π(θ) sous un certain type de contraintes
exprimant des connaissances quantitatives

Principe : on recherche un π(θ) dans la classe de mesures de probabilités la plus large possible
respectant ces contraintes

L’entropie est définie comme un indice de désordre (ou d’ignorance) associé à une distribution
de probabilité

Elle est un élément important de la théorie de l’information

La mise en oeuvre de ce principe aboutit à une classe de distributions importantes : la famille


exponentielle

161/291 161
Élicitation bayésienne - présentation Élicitation par maximum d’entropie

Le concept d’entropie (1/4)

À l’origine du concept d’entropie, un problème de recherche (tri) d’une information discrétisée :

Soit N sites numérotés de 1 à N où une information recherchée peut être présente

On suppose ne pouvoir poser que des questions à réponse binaire (oui ou non)

Stratégie 1 : on peut visiter chaque site et poser la question de la présence de l’information : N


questions

Stratégie 2 (dichotomique) : si ∃Q2 ∈ IN tel que N = 2Q2 , on range les sites en 2 parties et on pose
la question d’appartenance au premier ou au second groupe. En itérant ce procédé, on peut trier
en Q2 = log2 N questions

Lien avec la théorie de l’information : Q2 s’interprète comme le nombre de bits (binary digits)
nécessaire à l’écriture de N en base 2, càd la longueur du mot à utiliser pour coder N dans un
alphabet de 2 caractères

162/291 162
Élicitation bayésienne - présentation Élicitation par maximum d’entropie

Le concept d’entropie (2/4)

Si on imagine un autre alphabet de c caractères, le nombre minimal de questions sera


log N
Qc = logc N = log2 c = log N
log c
2

Si on suppose inconnue la taille de l’alphabet (donc la nature des questions posées), le nombre
de questions à poser pour identifier un site parmi N est, à une constante multiplicative près,

Q = log N (logarithme naturel)

Une généralisation : on suppose qu’il existe une partition de k aires géographiques et que chaque
aire contienne Ni = N × pi sites, avec i = 1, . . . , k
il suffit de poser Qi0 = log Ni = log pi + log N questions pour trier l’aire i
Pk
en moyenne sur l’ensemble des aires, on trie avec Q 0 = i=1
pi Qi0 questions

163/291 163
Élicitation bayésienne - présentation Élicitation par maximum d’entropie

Le concept d’entropie (3/4)

Le fait de savoir en probabilité dans quelle aire est l’information réduit le nombre de questions à
poser en moyenne de la quantité

k
X
∆Q = Q − Q0 = − pi log pi
i=1

quantité positive et maximale quand pi = 1/k

Moins la distribution de probabilité Π = (p1 , . . . , pk ) est informative, plus cette quantité est
grande

Définition
L’entropie d’une variable aléatoire finie de distribution Π = (π(θ1 ), . . . , π(θk )) est

k
X
H = − π(θi ) log π(θi ) (entropie de Shannon)
i=1

164/291 164
Élicitation bayésienne - présentation Élicitation par maximum d’entropie

Le concept d’entropie (4/4)

Généralisation au continu :
le cas discret correspond à une partition fine de Θ en k intervalles dont l’étendue
individuelle tend vers 0
le résultat dépend de la mesure de partitionnement sur Θ
l’entropie doit être invariante par tout changement de variable θ 7→ ν(θ)

Définition
L’entropie d’une variable aléatoire (continue) décrite par sa distribution de
probabilité π(θ) est
Z
π(θ)
H(π) = − π(θ) log dθ (entropie de Kullback)
Θ
π0 (θ)

où π0 (θ) est une mesure (positive) de référence sur Θ. S’il s’agit d’une mesure de probabilité,
elle représente l’ignorance complète de la valeur θ sur Θ

Très généralement π0 (θ) est choisie comme la densité uniforme sur Θ

Remarque : elle n’est plus forcément positive, mais elle est maximale en π(θ) = π0 (θ)

165/291 165
Élicitation bayésienne - présentation Élicitation par maximum d’entropie

Maximisation de l’entropie sous contraintes linéaires (1/2)

Objectif : éliciter π(θ) aussi vague que possible, soit


Z
∗ π(θ)
π (θ) = arg max − π(θ) log dθ (6)
π∈P
Θ
π0 (θ)

dans l’ensemble P des mesures positives, sous M contraintes de forme de type linéaire
Z
gi (θ)π(θ) dθ = ci , , i = 1, . . . , M
Θ

Le problème (6) est similaire à la minimisation de la divergence de Kullback-Leibler entre π(θ)


et π0 (θ)

La première contrainte est toujours celle de normalisation :


Z
π(θ) = 1.
Θ

166/291 166
Élicitation bayésienne - présentation Élicitation par maximum d’entropie

Maximisation de l’entropie sous contraintes linéaires (2/2)

Solution : si toutes les intégrales précédemment définies existent, la solution du problème (6) est
une mesure de forme structurelle
M
!
X
π ∗ (θ) ∝ π0 (θ) exp λi gi (θ)
i=1
(Démonstration en cours)

Cette forme caractérise les lois de la famille exponentielle

Les (λ1 , . . . , λM ) ont le sens de multiplicateurs de Lagrange et doivent être calibrés en résolvant
les équations
Z
gi (θ)π ∗ (θ) = ci , , i = 1, . . . , M
Θ

Lorsque seule la contrainte de normalisation est supposée, alors


π ∗ (θ) = π0 (θ)
et correspond à une mesure (densité) de probabilité si et seulement si Θ est borné (quand π0 est
uniforme)
167/291 167
Élicitation bayésienne - présentation Élicitation par maximum d’entropie

Exercice

Soit θ un paramètre réel tel que E[θ] = µ et soit π0 la mesure de Lebesgue sur IR . Quelles sont
les conditions d’existence du maximum d’entropie ? Quelle est la loi correspondante ?

Supposons que Var[θ] = σ 2 . Mêmes questions

168/291 168
Élicitation bayésienne - présentation Élicitation par maximum d’entropie

La famille exponentielle : une modélisation de X importante

Le principe de maximisation d’entropie peut aussi être appliqué à X conditionnellement à θ, et


elle permet de déboucher sur la famille paramétrée suivante

Définition
2 , et (R, T ) : Θ × Ω 7→ IR k × IR k . La famille des
Soient (C , h) : Θ × Ω 7→ IR+
distributions de densité

f (x |θ) = C (θ)h(x ) exp {R(θ) · T (x )}

est dite famille exponentielle de dimension k. Si R est linéaire, et lorsque Θ ⊂ IR k et Ω ⊂ IR k , on


peut écrire plus simplement (à une reparamétrisation près)

f (x |θ) = h(x ) exp {θ · x − ψ(θ)}

avec

Eθ [X ] = ∇ψ(θ) (gradient)

∂2ψ
cov(Xi , Xj ) = (θ)
∂θi ∂θj

On parle alors de famille exponentielle naturelle

169/291 169
Élicitation bayésienne - présentation Élicitation par maximum d’entropie

Une propriété importante de la famille exponentielle

T (x ) est une statistique exhaustive (vectorielle) de x

Définition 1. Si x ∼ f (x |θ), une statistique T de x est exhaustive si la distribution de x


conditionnellement à T (x ) ne dépend pas de θ

Définition 2 (Berger-Wolpert). Si x ∼ f (x |θ) et si z = t(x ), alors z est une statistique


exhaustive si et seulement si pour tout a priori π sur θ, π(θ|x ) = π(θ|z)

Rappel sur le critère de factorisation de Neyman-Fisher (tableau)

L’exhaustivité permet de caractériser complètement la famille exponentielle

Lemme de Pitman-Koopman
Si une famille f (.|θ) de à support constant admet une
statistique exhaustive de taille fixe à partir d’une certaine taille d’échantillon, alors f (.|θ) est
exponentielle

170/291 170
Élicitation bayésienne - présentation Élicitation par maximum d’entropie

Exemples

Loi de Dirichlet. (extension de la loi bêta)

Pk k
Γ( θi ) Y θ −1
f (x |θ) = Qk i=1 xi i 1{Sk (x )}
i=1
Γ(θi ) i=1

 k

P
définie sur le simplexe Sk (x ) = x = (x1 , . . . , xk ); xi = 1, xi > 0
i=1

Vecteur gaussien. Si xn = (x1 , . . . , xn ) ∼ Np (µ, σ 2 Ip ), alors la distribution jointe satisfait (résultat


à retrouver)

n
!
X
2 2 2
f (xn |θ) = C (θ)h(xn ) exp nx̄ · (µ/σ ) + kxi − x̄ k (−1/2σ )
i=1

Pn
avec θ = (µ, σ), et la statistique (x̄ , i=1
kxi − x̄ k2 ) est exhaustive pour tout n ≥ 2

171/291 171
Élicitation bayésienne - présentation Lois a priori conjuguées

2 - Élicitation d’a priori conjugués

172/291 172
Élicitation bayésienne - présentation Lois a priori conjuguées

Une propriété majeure de la famille exponentielle : la conjugaison

Soit X |θ une loi construite par maximum d’entropie, de densité de forme :


L
!
X
f (x |θ) = exp Tj (x )dj (θ)
j=1

Si, de plus, la loi a priori π(θ) est également construite par maximum d’entropie :
M
!
X
π(θ) ∝ ν(θ) exp λi gi (θ)
i=1

Alors, sachant l’échantillon xn = (x1 , . . . , xn ), la loi a posteriori est ... ... de la même forme
structurelle que π(θ) :
M L
" n # !
X X X
π(θ|xn ) ∝ ν(θ) exp λi gi (θ) + Tj (xk ) dj (θ)
i=1 j=1 k=1

L’a priori est alors dit conjugué


173/291 173
Élicitation bayésienne - présentation Lois a priori conjuguées

Dans l’écriture plus conventionnelle de la famille exponentielle naturelle

Soit

f (x |θ) = h(x ) exp(θ · x − ψ(θ))

alors la mesure a priori générée automatiquement par

π(θ|a, b) = K (a, b) exp(θ · a − bψ(θ))

lui est conjuguée (naturelle), et la mesure a posteriori sachant une donnée x est

π(θ|a + x , b + 1)

K (a, b) est la constante de normalisation


Z −1
K (a, b) = exp(θ · a − bψ(θ))
Θ

˚
qui est finie si b > 0 et a/b ∈ IN

174/291 174
Élicitation bayésienne - présentation Lois a priori conjuguées

Quelques lois a priori conjuguées pour quelques familles exponentielles usuelles

tiré de C.P. Robert (2006)

175/291 175
Élicitation bayésienne - présentation Lois a priori conjuguées

Justification de l’intérêt de la conjugaison

Raisonnement d’invariance :
l’information x ∼ f (x |θ) transformant π(θ) en π(θ|x ) est limitée
donc elle ne devrait pas entraîner une modification de toute la structure de π(θ), mais
simplement de ses hyperparamètres :

π(θ) = π(θ|δ) ⇒ π(θ|x ) = π(θ|δ + s(x ))

cette modification devrait être de dimension finie, et un changement plus radical de π(θ)
est peu acceptable

Une autre justification est le recours aux données virtuelles (cf. transparent suivant)

En pratique, l’intérêt de la conjugaison est la commodité de traitement

176/291 176
Élicitation bayésienne - présentation Lois a priori conjuguées

Interprétation des hyperparamètres des lois conjuguées naturelles

Soit l’a priori conjugué

π(θ|x0 , m) ∝ exp {θ · x0 − mψ(θ)} (7)

alors l’espérance a priori prédictive est


x0
E[X ] = E[E[X |θ]] = E [∇ψ(θ)] =
m
et l’espérance a posteriori prédictive, sachant un échantillon xn = (x1 , . . . , xn ), est

x0 + nx̄
E[X |xn ] = (8)
m+n

Autrement dit, m a le sens d’une taille d’échantillon virtuelle, offrant une indication de la “force"
informative de l’a priori (d’un expert, etc.)

Théorème (Diaconis & Ylvisaker, 1979)


Si la mesure de référence est continue par rapport à la
mesure de Lebesgue, alors (8) ⇒ (7)

177/291 177
Élicitation bayésienne - présentation Lois a priori conjuguées

Exemple : vecteur de probabilité d’un processus répétitif multivarié

On considère X |θ suivant une loi multinomiale avec X = (X1 , . . . , Xd ) et θ = (θ1 , . . . , θd ) tel


Pd
que 0 ≤ θi ≤ 1 et θ =1:
i=1 i

n! k
P(X1 = k1 , . . . , Xd = kd |θ) = θ k1 . . . θ d d
k1 ! . . . kd ! 1

Prior de Dirichlet. (extension de la loi bêta)

P 
d d
Γ δ
i=1 i
1{Sd (θ)}
Y
f (θ|δ) = Qd θiδi −1
i=1
Γ(δi ) i=1

 d

P
définie sur le simplexe Sd (x ) = x = (x1 , . . . , xk ); xi = 1, xi > 0
i=1

178/291 178
Élicitation bayésienne - présentation Lois a priori conjuguées

Exemple : matrice de covariance d’une loi gaussienne

Soient des observations x = (x1 , . . . , xn ) indépendamment issues d’une gaussienne


d−multivariée N (0, θ) de covariance θ.

On suppose prendre a priori

θ ∼ IW(Λ, ν)

la loi de Wishart inverse définie par la densité

|Λ|ν/2 1
ν+d+1
n  o
f (θ) = |θ|− 2 exp − tr Λθ−1
2νd/2 Γ d (ν/2) 2

où Γd est la fonction gamma multivariée

Exercice : calculer la loi a posteriori. La loi de Wishart est-elle conjuguée ? En dimension 1, à


quelle loi se réduit-elle ?

179/291 179
Élicitation bayésienne - présentation Lois a priori conjuguées

Extensions des a priori conjugués pour les familles exponentielles (1/2)

Proposition
Soit F = {π(θ|a, b) = K (a, b) exp(θ · a − bψ(θ))} la famille conjuguée naturelle
de la famille exponentielle
f (x |θ) = C (θ)h(x ) exp(θ · x )
Alors l’ensemble des mélanges de N lois conjuguées
( N N
)
X X
FN = ωi π(θ|ai , bi ); ωi = 1, ωi > 0
i=1 i=1

est aussi une famille conjuguée. A posteriori, on a


N
X
π(θ|x ) = ωi0 (x )π(θ|ai + 1, bi + x )
i=1
avec
ωi K (ai , bi )/K (ai + 1, bi + x )
ωi0 (x ) = PN
j=1
ωj K (aj , bj )/K (aj + 1, bj + x )

180/291 180
Élicitation bayésienne - présentation Lois a priori conjuguées

Extensions des a priori conjugués pour les familles exponentielles (2/2)

Définition
La distance de Prohorov entre deux mesures π et π̃ est définie par

D p (π, π̃) = inf {; π(A) ≤ π̃(A ) + }


A

où l’infimum est pris sur les ensembles boréliens de Θ et où A indique l’ensemble des points
distants de A d’au plus 

Les mélanges d’a priori conjugués peuvent alors être utilisés comme base pour approcher une loi
a priori quelconque, au sens où la distance de Prohorov entre une loi et sa représentation par un
mélange dans FN peut être rendue arbitrairement petite

Théorème
Pour toute loi a priori π sur Θ, ∀ > 0, on peut trouver N et π̃ ∈ FN tel que

D p (π, π̃) < 

Argument très fort en faveur des lois conjuguées

181/291 181
Élicitation bayésienne - présentation Lois a priori conjuguées

Au-delà de la famille exponentielle : d’autres conjugaisons possibles

Certains modèles permettant des a priori conjugués n’appartiennent pas à une famille
exponentielle

Exemple 1 : loi de Pareto avec α > 0 connu, et θ > 0

θα
f (x |θ) = α 1]θ,∞[ (x )
x α+1

admet un a priori conjugué, qui est Pareto sur 1/θ

Exemple 2 : lois uniformes

1[−θ,θ] (x )
f (x |θ) =

1[0,θ] (x )
f (x |θ) =
θ

182/291 182
Élicitation bayésienne - présentation Distributions a priori non-informatives

3 - Distributions a priori non-informatives

183/291 183
Élicitation bayésienne - présentation Distributions a priori non-informatives

Distributions a priori non-informatives

Modéliser formellement une absence d’information a priori sur les valeurs de θ ∈ Θ


1 θ peut être artificiel : il s’agit d’un paramètre sans sens physique, biologique, etc.
2 Construire un a priori informatif comme a posteriori π(θ) = π0 (θ|ym ) où les ym sont des
données anciennes ou “virtuelles"
3 Souci d’une formalisation a priori objective : on cherche à minimiser les apports subjectifs
4 Une loi a priori “vague" (ex : N (0, 1002 )) peut donner une fausse impression de sécurité

Crûment, on peut voir π0 (θ) comme la “limite" d’un a priori subjectif (suivant une certaine
topologie)

Exemple : loi exponentielle X |λ ∼ E(λ) avec a priori gamma conjugué

b a a−1
π(λ|a, b) = λ exp(−bλ)1{λ≥0}
Γ(a)

et on fait tendre a et b vers 0 en un certain sens

184/291 184
Élicitation bayésienne - présentation Distributions a priori non-informatives

Impropriété (fréquente) des distributions a priori non-informatives

En général, les règles formalisant l’absence d’information (cf. plus loin) aboutissent à des
mesures qui sont σ−finies sur Θ mais qui ne sont pas des mesures de probabilité, soit telles que
Z
π0 (θ) dθ = ∞
Θ

On parle alors abusivement de distributions impropres (plutôt que de mesures non-intégrables)


R
Elles n’ont d’intérêt que si la distribution a posteriori est propre : π0 (θ|xn ) dθ < ∞
Θ

Un argument fort en faveur des distributions impropres est la bonne performance des
estimateurs bayésiens a posteriori
les estimateurs de Bayes restent admissibles (en général)
on retombe souvent sur les estimateurs du maximum de vraisemblance (EMV)
on peut voir comme des régularisateurs probabilistes de la vraisemblance
ces outils réconcilient les cadres inférentiels fréquentiste et bayésien

185/291 185
Élicitation bayésienne - présentation Distributions a priori non-informatives

Quelques remarques préliminaires

Le terme “non-informatif" peut être trompeur :

Les lois (ou distributions) non-informatives ne représentent pas une ignorance totale sur le
problème considéré

En effet, on connaît au moins la structure paramétrique X |θ ∼ f (x |θ)

Elles doivent être comprises comme des lois de référence ou choisies par défaut, auxquelles on
peut avoir recours quand toute information a priori est absente

Certaines sont donc plus utiles que d’autres...

186/291 186
Élicitation bayésienne - présentation Distributions a priori non-informatives

Exercice

Soit θ ∈ [1, 2] le paramètre d’un modèle X ∼ f (.|θ). On suppose ne connaître rien d’autre sur θ

Que peut-on dire de 1/θ ?

Quelle(s) loi(s) peu ou non-informative peut-on placer de façon cohérente sur θ et 1/θ ? Faire
des tests sur machine avec la loi uniforme (par exemple)

187/291 187
Élicitation bayésienne - présentation Distributions a priori non-informatives

Principes de construction d’a priori non informatifs

Exemple de Laplace (1773). Une urne contient un nombre n de cartes noires et blanches. Si la
première sortie est blanche, quelle est la probabilité que la proportion θ de cartes blanches soit
θ0 ?

Laplace suppose que tous les nombres de 2 à n − 1 sont équiprobables comme valeurs de θn,
donc que θ soit uniformément distribué sur 2/n, . . . , (n − 1)/n

Principe de raison insuffisante


En l’absence d’information, tous les événements élémentaires
sont équiprobables, et le même poids doit être donnée à chaque valeur du paramètre, ce qui
débouche automatiquement sur une distribution a priori uniforme π(θ) ∝ 1

Difficulté 1 : Θ doit être fini pour que π(θ) soit propre

Difficulté 2 : incohérence du principe des événements équiprobables en termes de


partitionnement :
si θ = {θ1 , θ2 } alors π(θ1 ) = π(θ2 ) = 1/2
si on détaille plus, avec θ = {θ1 , ω1 , ω2 }, alors π(θ1 ) = 1/3

188/291 188
Élicitation bayésienne - présentation Distributions a priori non-informatives

Le problème de l’invariance par reparamétrisation

Principe d’invariance par reparamétrisation


Si on passe de θ à η = g(θ) par une bijection g,
l’information a priori reste inexistante et ne devrait pas être modifiée

on a

Jac(g −1 (η)) π(g −1 (η)) = det ∂η π(g −1 (η))

π ∗ (η) =
∂θ

qui (en général) n’est pas constante si π(θ) = 1

Exemple : η = − log(1 − θ) ∼ E(1) si π(θ) = 1[0,1]

189/291 189
Élicitation bayésienne - présentation Distributions a priori non-informatives

Principes d’invariance par reparamétrisation

On cherche à mieux préciser le sens de la “non-information" en tirant profit des caractéristiques


d’invariance du problème

Exemple 1 : paramètre de position. Si on peut écrire f (x |θ) = f (x − θ)


la famille f est invariante par translation : si x ∼ f , alors y = x − x0 ∼ f ∀x0
une exigence d’invariance est que π(θ) soit invariante par translation elle aussi :
π(θ) = π(θ − θ0 ) ∀θ0
Cette règle aboutit à une loi uniforme sur Θ

Exemple 2 : paramètre d’échelle. Si on peut écrire f (x |θ) = θ1 f (x /θ) avec θ > 0


la famille f est invariante par changement d’échelle : y = x /θ0 ∼ f ∀θ0 > 0
la loi a priori invariante par changement d’échelle satisfait π(A) = π(A/c) pour tout
ensemble mesurable A ∈]0, +∞[ et c > 0
1 θ
 
π(θ) = π
c c
et implique
π(θ) ∝ 1/θ
Dans ce deuxième cas, la mesure invariante n’est plus constante
190/291 190
Élicitation bayésienne - présentation Distributions a priori non-informatives

Principe d’invariance intrinsèque et a priori de Jeffreys

Ces approches impliquent la référence à une structure d’invariance, qui peut être choisie de
plusieurs manières (voire ne pas exister)

Pour éviter ce choix, Jeffreys (1946) s’est intéressé à la matrice d’information de Fisher I(θ) :
soit θ ∈ Θ ⊂ IR d ; l’élément (i, j) ∈ {1, . . . , k}2 de Iθ est
 
∂2
Iij (θ) = −Eθ log f (x |θ)
∂θi ∂θj
(sous des conditions de régularité suffisantes pour l’existence)

Loi a priori de Jeffreys p


π(θ) ∝ det I(θ)

Pour tout changement de variable bijectif η = g(θ), on remarque que


p
π(η) ∝ det I(η)
L’a priori de Jeffreys vérifie donc un principe d’invariance (intrinsèque) par n’importe quelle
reparamétrisation

191/291 191
Élicitation bayésienne - présentation Distributions a priori non-informatives

Exercice 1

Redémonstration de la preuve en cours pour la dimension 1

192/291 192
Élicitation bayésienne - présentation Distributions a priori non-informatives

Exercice 2 (TP)

Calculer le prior de Jeffreys pour le paramètre θ ∈ [0, 1] de la loi binomiale X ∼ B(n, θ)

Quel lien avec la minimaxité ?

193/291 193
Élicitation bayésienne - présentation Distributions a priori non-informatives

Une justification supplémentaire


I(θ) est largement accepté comme un indicateur de la quantité d’information apportée par
le modèle (ou l’observation) sur θ (Fisher, 1956)
I(θ) mesure la capacité du modèle à discriminer entre θ et θ + / − dθ via la pente
moyenne de log f (x |θ)
Favoriser les valeurs de θ pour lesquelles I(θ) est grande équivaut à minimiser l’influence
de la loi a priori

L’a priori de Jeffreys est l’une des meilleures techniques automatiques pour obtenir des lois
non-informatives

Il est le plus souvent impropre, sauf pour des modèles pour lesquels Θ est borné ou/et discret
(Exemple binomial)

Il est généralement utilisé en dimension 1, où il permet d’obtenir des estimateurs bayésiens


similaires au maximum de vraisemblance

En multidimensionnel, le prior de Jeffreys peut mener à des incohérences ou des paradoxes.

194/291 194
Élicitation bayésienne - présentation Distributions a priori non-informatives

Exercice 2 (TP ; suite )

Soit une variable négative binomiale N ∼ N B(x , θ) de densité (fonction de masse) définie par

Γ(x + k) x
P(N = k|θ) = θ (1 − θ)k
k!Γ(n)

(nombre d’échecs avant un nombre x de succès), d’espérance xk/θ

Quel lien peut-on faire entre les vraisemblances d’une binomiale x ∼ Bn (n, θ) et celle d’une loi
négative binomiale n ∼ N B(x , θ) ?

Calculer le prior de Jeffreys pour le paramètre θ ∈ [0, 1] de la loi négative binomiale

Peut-on conclure que le prior de Jeffreys respecte la règle de vraisemblance ?

195/291 195
Élicitation bayésienne - présentation Distributions a priori non-informatives

A priori de référence de Berger-Bernardo (1979, 1992)

Une autre construction mieux adaptée au cadre multidimensionnel

Principe

La “distance" (divergence) de Kullback-Leibler entre a posteriori et a priori


Z
π(θ|xn )
KL(π, xn ) = π(θ|xn ) log dxn
Θ
π(θ)
mesure l’information apportée par les données observées xn sur le modèle,
indépendamment de la paramétrisation θ

L’idée est de maximiser KL(xn ) en π pour des données xn pouvant être typiquement
observées : elles sont générées par la loi a priori prédictive (marginale)
Z
f (xn ) = f (xn |θ)π(θ) dθ
Θ
et pour s’affranchir du choix de la taille n, on fait tendre celle-ci vers ∞
soit π∗ = arg max lim Ef (xn ) [KL(π, xn )]
π n→∞

196/291 196
Élicitation bayésienne - présentation Distributions a priori non-informatives

Caractéristiques principales

En dimension 1, on retombe sur la mesure de Jeffreys

Permet de résoudre des problèmes d’inconsistance a posteriori en dimensions supérieures

Le résultat dépend de l’ordonnancement désiré des paramètres


paramètres d’intérêt
paramètres de nuisance

L’invariance par reparamétrisation est maintenue à l’intérieur des groupes (intérêt et nuisance),
sous des conditions de bijectivité

Méthodologie d’élicitation cependant moins automatique que Jeffreys, plus délicate à mettre en
pratique

197/291 197
Élicitation bayésienne - présentation Distributions a priori non-informatives

Loi a priori coïncidante d’ordre i (coverage matching prior)

Soit θn (α) le quantile a posteriori d’ordre α


∀α ∈ [0, 1], on peut construire une mesure a priori telle que

P (θ ≤ θn (α)) = P (θ ≤ θn (α)|Xn ) + O(n−i/2 ).


|θ {z } | {z }
probabilité fréquentiste probabilité bayésienne

On peut créer des coverage matching priors comme solution d’une équation différentielle
stochastique

L’observation des propriétés de recouvrement fréquentiste permet de discriminer entre plusieurs


a priori dits de référence

198/291 198
Élicitation bayésienne - présentation Distributions a priori non-informatives

Convergence des mesures a priori vers des mesures impropres (1)

Proposition (Wallace 1959) : convergence en tout point


Si π est une densité a priori impropre, alors il existe une suite de densités a priori propres {πn }n
engendrant une suite d’a posteriori {πn (.|x )}n telle que pour tout θ ∈ Θ et pour tout x ,

lim πn (θ|x ) = π(θ|x )


n→∞

Ce résultat reste vrai si {πn }n est une suite de densités telle qu’il existe une constante K et une
suite {an }n telle que, pour tout θ,

lim an πn (θ) = π(θ) et an πn (θ) ≤ K π(θ)


n→∞

Approche rétrospective (Stone 1965) : le jeu de données est fixé avant tout

199/291 199
Élicitation bayésienne - présentation Distributions a priori non-informatives

Convergence des mesures a priori vers des mesures impropres (2)

D’autres notions de convergence étudiées


1 Convergence en probabilité (Stone 1965) vers des mesures impropres relativement
invariantes : continues et telles que π(θ1 , θ2 ) = π(θ1 )π(θ2 )
Nécessite d’introduire des suites de mesures a priori obtenues par troncature (suite
croissante de compacts sur Θ)
2 Convergence en variation totale (Head et Sudderth 1989), définie par

kπn (θ) − π(θ)k = sup |πn (θ) − π(θ)|


F

où F est une σ−algèbre de sous-ensembles de Θ


3 Convergence en entropie relative (Berger et al. 2009)

200/291 200
Élicitation bayésienne - présentation Distributions a priori non-informatives

Convergence des mesures a priori vers des mesures impropres (3)

Une vision prospective ou intrinsèque (= préalable à l’occurence de données) développée fort


récemment par Bioche (2015)

Convergence vague
Soit {µn }n etµ des mesures (de Radon). La suite {µn }n converge vaguement vers µ si, pour
toute fonction h continue à support compact,
Z Z
lim hdµn = hdµ
n→∞

Mode de convergence équivalent à la convergence étroite pour les mesures de probabilité

Convergence étroite
Soit {µn }n etµ des mesures bornées. La suite {µn }n converge étroitement vers µ si, pour toute
fonction h continue bornée,
Z Z
lim hdµn = hdµ
n→∞

201/291 201
Élicitation bayésienne - présentation Distributions a priori non-informatives

Convergence des mesures a priori vers des mesures impropres (4)

q−convergence (Bioche et al. 2015)


Une suite de mesures positives {µn }n converge q−vaguement vers une mesure positive µ s’il
existe une suite de réels positifs {an }n telle que {an µn }n converge vaguement vers µ

Cas discrets

Si µ et µn sont définies sur Θ = {θi }i∈I , la convergence q−vague est équivalente à : ∀i ∈ I,

lim an µn (θi ) = µ(θi )


n→∞

202/291 202
Élicitation bayésienne - présentation Distributions a priori non-informatives

Convergence des mesures a priori vers des mesures impropres (5)

Cas continus

Soient µ et µn des mesures a priori sur Θ. Supposons que :


1 il existe un suite de réels positifs {an }n tel que la suite {an µn }n converge ponctuellement
vers µ
2 pour tout ensemble compact K , il existe un scalaire M et N ∈ IN tels que, pour tout
n > N,
sup an µn (θ) < M.
θ∈K

Alors {µn }n converge q−vaguement vers µ

203/291 203
Élicitation bayésienne - présentation Distributions a priori non-informatives

Quelques exemples

Soit Θ = IN et µn = U ({0, 1, . . . , n}) la distribution uniforme discrète sur le compact discret


{0, . . . , n}. Alors {µn }n converge q−vaguement vers la mesure de comptage

Soit Θ = IR et µn = U ([−n, n]). Alors {µn }n converge q−vaguement vers la mesure de Lebesgue

Soit Θ = IR et µn = N (0, n). Alors {µn }n converge q−vaguement vers la mesure de Lebesgue

204/291 204
Élicitation bayésienne - présentation Exemple complet dans un cadre fiabiliste

4 - Un exemple complet dans un cadre de fiabilité


industrielle

avec incorporation d’information subjective

205/291 205
Élicitation bayésienne - présentation Exemple complet dans un cadre fiabiliste

Exemple dans un cadre de fiabilité industrielle (1/5)

X = durée de vie d’un composant Σ, supposé tomber uniquement en panne par hasard

Le taux de défaillance λ de Σ est donc constant, ce qui implique X ∼ E(λ)


Un expert industriel est familier de λ

Dialogue avec l’expert :

1 Considérons une décision de management (remplacement) établie sur une valeur donnée λ̄
(différente de la vraie valeur inconnue λ)
2 Pour un coût similaire |λ̄ − λ|, il y a 2 conséquences possibles au remplacement :
soit C1 le coût positif moyen d’être trop optimiste (d’avoir λ̄ ≤ λ)
soit C2 le coût positif moyen d’être trop pessimiste (d’avoir λ̄ > λ)
3 Pouvez-vous donner un estimé δ̂ du rapport des coûts moyens δ = C2 /C1 ?

L’axiome de rationalité dit que si l’expert n’est pas averse au risque, alors
Z ∞
|x − λ| C1 1{x ≤λ} + C2 1{x >λ} π(λ) dλ

λ̄ = arg min
x
|0 {z }
fonction de coût intégrée sur toutes les valeurs possibles a priori du vrai λ
206/291 206
Élicitation bayésienne - présentation Exemple complet dans un cadre fiabiliste

Exemple dans un cadre de fiabilité industrielle (2/5)

Z λ̄
C1
Il s’ensuit que dΠ(λ) = Π(λ < λ̄) =
0
C1 + C2

L’interprétation de la réponse de l’expert est que 1/(1 + δ̂) est un estimé du quantile a priori
d’ordre α = C1 /(C1 + C2 )

C1
Avec P(λ < λ̄) = C1 +C2
= α, on a :
tant que les coûts sont équilibrés, un expert de plus en plus optimiste fournira un λ̄ de
plus en plus petit, car la durée moyenne avant la prochaine défaillance est
1
E[X |λ] =
λ

cependant l’expert s’exprime plutôt sur les coûts lorsqu’on lui fournit une valeur
représentative de λ̄
plus l’expert est optimiste, plus le coût C2 d’être optimiste (selon lui) est petit,
donc α grandit vers 1 et
E[X ] = E[E[X |λ]] = E[1/λ] augmente

207/291
plus l’expert est pessimiste, plus le coût C2 d’être optimiste augmente, donc α 207
Élicitation bayésienne - présentation Exemple complet dans un cadre fiabiliste

Exemple dans un cadre de fiabilité industrielle (3/5)

Attachons-nous maintenant à définir une forme a priori pertinente pour le décideur

On raisonne par données virtuelles


L’a priori non-informatif de Jeffreys est utilisé pour modéliser l’absence d’expertise et la
simple connaissance du modèle

π0 (λ) ∝ λ−1 (paramètre d’échelle)

L’information apportée par l’expert est assimilée à celle apportée par un échantillon i.i.d.

xm ∼ E(λ)

Un “bon" prior informatif pour λ est donc π(λ) = π0 (λ|xm ), soit

λ ∼ G(m, mx̄m )

208/291 208
Élicitation bayésienne - présentation Exemple complet dans un cadre fiabiliste

Exemple dans un cadre de fiabilité industrielle (4/5)

χ22m (α)
Donc 2mx̄m λ ∼ G(m, 1/2) ≡ χ22m , d’où x̄m =
2mλ̄

Le décideur peut fixer arbitraitement m selon la confiance qu’il a en l’expert (ou mettre un a priori
hiérarchique dessus)

De plus, l’a priori est conjugué : sachant des durées de vie observées xn = (x1 , . . . , xn ), la loi a
posteriori de λ est
n
!
χ22m (α) X
λ|xn ∼ G m + n, +n xi
2λ̄
i=1

L’ingénieur s’intéresse alors à la probabilité prédictive que Σ tombe en panne avant la prochaine
visite au temps x0
 m+n
Z ∞  x0 
P (X < x0 ) = P (X < x0 |λ) π(λ|xn ) dλ = 1 − 1/ 1 + n

0
 χ22m (α) P 
+n xi
2λ̄
i=1

puis il peut introduire une fonction de coût, etc. pour prendre une décision
209/291 209
Élicitation bayésienne - présentation Exemple complet dans un cadre fiabiliste

Illustration : cas non-informatif

10 données simulées selon E(λ0 ) avec λ0 = 1/10

densites prior / posterior probabilité de panne

1.0
15

0.8
0.6
10

0.4
5

0.2
0.0
0

0.0 0.1 0.2 0.3 0.4 0.5 0.6 5 10 15 20


210/291 210
Élicitation bayésienne - présentation Exemple complet dans un cadre fiabiliste

Illustration : m = 1, λ̄ = 1/5, α = 50% (expert peu informatif et pessimiste)

densites prior / posterior probabilité de panne

1.0
15

0.8
0.6
10

0.4
5

0.2
0.0
0

0.0 0.1 0.2 0.3 0.4 0.5 0.6 5 10 15 20

lambda durée de fonctionnement

211/291 211
Élicitation bayésienne - présentation Exemple complet dans un cadre fiabiliste

Illustration : m = 10, λ̄ = 1/5, α = 50% (expert très informatif et pessimiste)

densites prior / posterior probabilité de panne

1.0
15

0.8
0.6
10

0.4
5

0.2
0.0
0

0.0 0.1 0.2 0.3 0.4 0.5 0.6 5 10 15 20

lambda durée de fonctionnement

212/291 212
Élicitation bayésienne - présentation Exemple complet dans un cadre fiabiliste

Illustration : m = 10, λ̄ = 1/5, α = 5% (expert très informatif et très pessimiste)

densites prior / posterior probabilité de panne

1.0
15

0.8
0.6
10

0.4
5

0.2
0.0
0

0.0 0.1 0.2 0.3 0.4 0.5 0.6 5 10 15 20

lambda durée de fonctionnement

213/291 213
Élicitation bayésienne - présentation Exemple complet dans un cadre fiabiliste

Exemple dans un cadre de fiabilité industrielle (5/5)

En fait, plus habituellement, l’expert préfère exprimer son opinion quantitative sur la durée de
vie X (= variable d’ancrage) que sur λ, car X est observable

Dans ce cas, il est assimilé à un fournisseur d’estimé du quantile prédictif a priori x̄ :


Z x̄ Z x̄ Z
f (x ) dx = f (x |θ)π(θ) dθ = α
0 0 Θ

Cette interprétation est la plus acceptée en général dans la communauté statistique bayésienne,
c’est pourquoi les statisticiens fiabilistes préfèrent poser des questions comme
Sachant les temps x0 et x1 > x0 , Σ a 1 − α fois plus de chance de ne pas tomber en
panne après x0 qu’après x1 . Quelle est votre évaluation de 1 − α ?

214/291 214
Élicitation bayésienne - présentation Modélisation bayésienne hiérarchique

5 - Modélisation bayésienne hiérarchique

215/291 215
Élicitation bayésienne - présentation Modélisation bayésienne hiérarchique

Modélisation bayésienne hiérarchique

Pour des raisons liées à la modélisation des observations ou à la décomposition de l’information


a priori, le modèle bayésien (f (x |θ), π(θ)) peut être défini comme hiérarchique : π(θ) est
décomposé en plusieurs lois conditionnelles

π(θ|θ1 , . . . , θk ) = π1 (θ|θ1 ) · · · π2 (θ1 |θ2 ) . . . πk (θk−1 |θk ) · πk+1 (θk )


Z
et π(θ) = π(θ|θ1 , . . . , θk ) dθ1 . . . dθk
Θ1 ×...×Θk

Exemple d’un modèle statistique classique : modèle linéaire à effets aléatoires

y |θ ∼ Np (θ, Σ1 ),
θ|β ∼ Np (X β, Σ2 )

souvent utilisé en génétique animale pour différencier l’influence d’éléments fixes (ex : lignée,
race, année) de celle de facteurs aléatoires (ex : nb de femelles dans une lignée)

216/291 216
Élicitation bayésienne - présentation Modélisation bayésienne hiérarchique

Quelques caractéristiques

Le conditionnement peut s’expliquer par


des dépendances statistiques naturelles
l’appel à des variables latentes décrivant un mécanisme caché
des grandeurs stochastiques jouant un rôle de forçage

En général, on ne va guère plus loin que deux ou trois niveaux de hiérarchie

En incluant l’information a priori aux niveaux les plus élevés, l’approche bayésienne hiérarchique
permet en général de gagner en robustesse

217/291 217
Élicitation bayésienne - présentation Modélisation bayésienne hiérarchique

Éliciter un a priori à partir de résultats statistiques théoriques

Un exemple : la courbe de von Bertalanffy

L(t|θ) = L∞ (1 − exp(−g(t, δ))

est fréquemment utilisée pour produire une clé âge-longueur, en modélisant l’accroissement en
longueur d’un organisme vivant (ex : arbre, poisson...)

On note θ = (L∞ , δ) le vecteur des paramètres inconnus Données de capture-recapture :

∗
supposons avoir des couples d’observation l (ti ), l ∗ (ti+∆i ) tel que

l ∗ (ti ) = L(ti |θ) exp(1 ),



l (ti+∆i ) = L(ti + ∆i |θ) exp(2 )

où (1 , 2 ) sont des bruits de mesure (générant donc une vraisemblance)

Les estimations par maximum de vraisemblance de L∞ sont très sensibles à la taille des données

Comment placer un a priori sur L∞ ?

218/291 218
Élicitation bayésienne - présentation Modélisation bayésienne hiérarchique

Tirer parti de propriétés asymptotiques : loi des dépassements

Le sens de L∞ est celui d’une longueur maximale qu’un être vivant peut atteindre, en moyenne
sur toutes les observations possibles

Posons alors L∗∞ = L∞ exp() la longueur maximale observée

Soit L̄ la longueur moyenne

Théorème (Pickands, 1975)

Quand L̄ grandit, la distribution de L∗∞ |L̄ = l est une Pareto généralisée :


  −1/µ
 x − L̄
P L∗∞ < x |L∗∞ > L̄, σ, µ = 1− 1+µ
σ

On obtient alors une justification pour :


1 établir une forme a priori pour π(L∞ ) (la forme de  étant fixée)
2 conditionner ce prior par rapport à L̄ ⇔ utiliser une approche bayésienne hiérarchique

219/291 219
Élicitation bayésienne - présentation Modélisation bayésienne hiérarchique

Un autre exemple : modélisation a priori d’une probabilité de survie dans une population

Soit Xt un nombre d’individus dans une population

Soit θ = θt,t+1 la probabilité de survie entre t et t + 1

La vraisemblance peut être définie par

Xt+1 |Xt , θt,t−1 ∼ B(Xt , θt,t+1 ) (loi binomiale)

On peut alors écrire


M+1
Y
θt,t+1 = θt+i/M,t+(i+1)/M
i=0

donc, de par le Théorème de la Limite Centrale, quand 1  M,

log(θt,t+1 ) ∼ N (µt , σt2 )

avec µt < −σt2 /2 tel que E[θt,t+1 ] ∈ [0, 1] ⇒ contrainte de forme sur le niveau hiérarchique
π(µt , σt )

220/291 220
Élicitation bayésienne - présentation Modélisation bayésienne hiérarchique

Graphes acycliques orientés (1/3)

Causalité et dépendance probabiliste (tiré de Parent et Bernier, 2007)

221/291 221
Élicitation bayésienne - présentation Modélisation bayésienne hiérarchique

Graphes acycliques orientés (2/3)

Les relations de dépendance conditionnelles possibles entre trois variables aléatoires (tiré de Parent
et Bernier, 2007)

222/291 222
Élicitation bayésienne - présentation Modélisation bayésienne hiérarchique

Graphes acycliques orientés (3/3)

Un DAG incluant des variables latentes (tiré de Parent et Bernier, 2007)

223/291 223
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants

6 - Quelques soucis méthodologiques et pratiques


importants

1 Prouver l’intégrabilité de la loi a posteriori


2 Fusionner des a priori
3 Vérifier la cohérence entre sources d’information (données et a priori)
4 ...

224/291 224
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants

1 - Prouver l’intégrabilité de la loi a posteriori

La modélisation bayésienne par conditionnement peut fréquemment entraîner le mécanisme


suivant :
1 On construit un a priori hiérarchique

π(θ) = π(θ1 |θ2 , θ3 )π(θ2 |θ3 )π(θ3 )


avec des a priori non-informatifs
2 Ce conditionnement est souvent choisit pour tirer parti de conjugaisons a posteriori : les
lois conditionnelles
π(θ1 |xn , θ2 , θ3 ),
π(θ2 |xn , θ1 , θ3 ),
π(θ3 |xn , θ1 , θ2 )
sont explicites, ce qui permet d’utiliser un algorithme de Gibbs pour le calcul a posteriori
(cf. plus loin)

Problème majeur : même si ces lois a posteriori conditionnelles sont propres, la loi jointe peut
ne pas l’être :
Z
π(θ|xn ) dθ = ∞
Θ

225/291 225
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants

Exemple : modèle à effets aléatoires autour d’une constante (Hobert-Casella) (1/3)

Pour i = 1, . . . , I et j = 1, . . . , J

xij = β + ui + ij

où ui ∼ N (0, σ 2 ) et ij ∼ N (0, τ 2 )

Application possible : β = tendance moyenne population, ui = variation personnelle, ij =


variation au sein d’un sous-groupe

A priori de Jeffreys :

1
π(β, σ 2 , τ 2 ) ∝
σ2 τ 2

226/291 226
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants

Exemple : modèle à effets aléatoires autour d’une constante (Hobert-Casella) (2/3)

On note xIJ l’échantillon des données observées, x̄i la moyenne sur les j

On note uI l’échantillon manquant des u1 , . . . , uI (reconstitué dans l’inférence)

Lois conditionnelles a posteriori

J(x̄i − β)
 
Ui |xIJ , β, σ 2 , τ 2 ∼ N , (Jτ −2 + σ −2 )−1
J + τ 2 σ −2

β|xIJ , σ 2 , τ 2 , uI ∼ N x̄ − ū, τ 2 /IJ
I
!
X
2 2
σ |xIJ , β, τ , uI ∼ IG I/2, (1/2) ui2 (loi inverse gamma)
i=1
I J
!
X X
τ 2 |xIJ , β, σ 2 , uI ∼ IG IJ/2, (1/2) (xij − ui − β)2
i=1 j=1

sont bien définies

227/291 227
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants

Exemple : modèle à effets aléatoires autour d’une constante (Hobert-Casella) (3/3)

Cependant, la loi a posteriori jointe


Z
π(σ 2 , τ 2 |xIJ ) = π(β, σ 2 , τ 2 |xIJ ) dβ
Z Z Z Z 
= ... ... π(β, σ 2 , τ 2 |xIJ ) dui dβ
1 i I

est proportionnelle à
( )
σ −2−I τ −2−IJ p 1 X J X
τ 2 + Jσ 2 exp − 2 (yij − ȳi )2 − 0 2 (ȳi − ȳ )2
(Jτ −2 + σ −2 )I/2 2τ 2 τ + Jσ 2 )
i,j i

qui se comporte comme σ −2 au voisinage de σ = 0, pour τ 6= 0

Cette loi jointe n’est donc pas intégrable (propre)

228/291 228
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants

2 - Fusionner plusieurs a priori

Dans de nombreux cas pratiques, on peut disposer de plusieurs a priori possibles


π1 (θ), . . . , πM (θ) que l’on suppose ici indépendants

Exemple : réunions d’experts à la fin d’études pharmacologiques

Une première idée : la fusion linéaire pondérée (ou moyenne arithmétique)


M
X
π(θ) = ωi πi (θ)
i=1
PM
avec i=1
ωi = 1

Problèmes :
le résultat peut être multi-modal
l’approche n’est pas externalement bayésienne :
M
X
π(θ|xn ) 6= ωi πi (θ|xn )
i=1

pour une ou plusieurs données xn


229/291 229
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants

Une seconde idée : la fusion logarithmique pondérée (ou moyenne géométrique)

M
Q
πiω (θ)
i=1
π(θ) =
R Q M
πiω (θ) dθ
Θ
i=1

PM
avec i=1
ωi = 1

Elle est bien externalement bayésienne

Problème : l’approche n’est pas cohérente par marginalisation


Soit A et B tels que A ∩ B = ∅ et C = A ∪ B ⇒ P(C ) = P(A) + P(B)
Soient des experts indiquant leurs opinions sur les événements A et B
Pour chaque expert, on peut directement calculer P(C ) ou calculer séparement P(A) puis
P(B)
seule la fusion linéaire permet l’égalité des résultats

230/291 230
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants

En réalité, la fusion logarithmique est séduisante car elle peut s’expliquer en faisant appel à la
théorie de l’information

La divergence de Kullback-Leibler
Z
π(θ)
KL(π, πi ) = π(θ) log
Θ
πi (θ)

exprime une perte en terme d’information lorsque le meilleur choix a priori π est remplacé par πi

Le minimiseur de la perte pondérée

M
X
π ∗ (θ) = arg min ωi KL(π, πi )
π
i=1

est l’a priori opérant la fusion logarithmique

La calibration des poids ωi est un problème qui reste ouvert, malgré quelques réponses déjà
proposées

231/291 231
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants

Exemple

Considérons M priors exponentiels

θ ∼ πi (θ) = λi exp(−λi θ)1{θ≥0}

Quelle est la loi-fusion logarithmique ?

⇒ stabilité de la famille exponentielle naturelle par fusion logarithmique ⇒ similarité avec une

inférentielle bayésienne croissante, indépendante de l’ordre d’arrivée des informations (ex :


échantillons virtuels)

232/291 232
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants

3 - Vérifier la cohérence entre sources d’information (données et a priori)

Motivation par l’exemple (industrie nucléaire)

233/291 233
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants

Exemple : modèle gaussien à variance connue

Soit un échantillon xn ∼ N (µ, σ 2 )

On suppose connaître σ, mais µ est inconnu

On place l’a priori conjugué µ ∼ N (m, ρσ 2 )

Peut-on émettre une règle simple de cohérence entre π(µ) et la vraisemblance des données ?

234/291 234
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants

Une idée simple

n
1
P
x̄n = n
xi est une statistique exhaustive de l’échantillon
i=1

Sous une hypothèse iid. des Xi , la loi de la variable aléatoire associée X̄n est, conditionnellement
à (µ, σ 2 )
 
σ2
X̄n |µ, σ 2 ∼ N µ,
n

Intégrée sur π(µ), la loi a priori prédictive de X̄n est


1
 
X̄n |σ 2 ∼ N m, σ 2 ( + ρ)
n
Alors, a priori et prédictivement,
2
X̄n − m
Zn = ∼ χ21
σ 2 ( n1 + ρ)

Il y a donc incohérence entre a priori et vraisemblance des données xn si la valeur observée de


Zn , à partir de x̄n , est une valeur extrême de la distribution du χ21
235/291 235
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants

Test numériques

n = 10 , sigma = 1 , rho = 1

20
15
Score

10

Quantile Chi2(1) à 99 %
5

Quantile Chi2(1) à 95 %
0

−4 −2 0 2 4

Ecart entre m et mu

236/291 236
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants

Influence d’un σ plus large


Quantile Chi2(1) à 99 %
n = 10 , sigma = 2 , rho = 1

7
6
5

Quantile Chi2(1) à 95 %
4
Score

3
2
1
0

−4 −2 0 2 4

Ecart entre m et mu

237/291 237
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants

Influence d’une très faible taille d’échantillon

n= 2 , sigma = 1 , rho = 1

20
15
Score

10

Quantile Chi2(1) à 99 %
5

Quantile Chi2(1) à 95 %
0

−4 −2 0 2 4

Ecart entre m et mu

238/291 238
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants

Influence d’une expertise extrêmement précise

n = 10 , sigma = 1 , rho = 0.01

200
150
Score

100
50

Quantile
Quantile Chi2(1)
Chi2(1) à
à 99
95 %
%
0

−4 −2 0 2 4

Ecart entre m et mu

239/291 239
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants

Influence d’une expertise extrêmement vague

n = 10 , sigma = 1 , rho = 5

6
5

Quantile Chi2(1) à 95 %
4
Score

3
2
1
0

−4 −2 0 2 4

Ecart entre m et mu

240/291 240
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Modélisation a priori informative non conjuguée

La plupart des cas rencontrés en pratique sont non conjugués

De nombreux auteurs font des choix arbitraires (lois normale, gamma...) principalement en
fonction des caractéristiques géométriques, de support ou d’échantillonnage de θ

De plus, le sens marginal de l’information a priori n’est pas toujours bien compris

Exemple d’une étude typique en statistique des extrêmes (transparents suivants)

241/291 241
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Un exemple de modélisation a priori subjective non conjuguée en risque extrême (1)

Issu de Gaioni et al. (2010). Bayesian modeling of flash floods using generalized extreme value
distribution with prior elicitation (CJS).

Étude des crues éclairs de la rivière Sabine (Louisiane - Texas)

242/291 242
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Données disponibles

243/291 243
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Un exemple de modélisation a priori subjective en risque extrême (2)

Loi GEV sur les débits, de fonction de répartition


 h i−1/λ 
x −µ

F (x |θ) = exp − 1+λ
σ +

avec θ = (λ, µ, σ)

Un niveau de retour xq (θ) correspondant à une période inter-événements ' 1/q peut être estimé
en résolvant

q = F (xq |θ)

Information a priori. Un expert connaissant la rivière est capable de produire trois couples
d’estimateurs (qi , xqi ), tels que q1 < q2 < q3

244/291 244
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Un exemple de modélisation a priori subjective en risque extrême (3)

Interprétation paramétrique de l’information a priori par les statisticiens ⇒ production d’un


système d’équations (en supposant λ 6= 0)
λ(x − qi − µ)
σ =
[− log qi ]−λ − 1
xqi Kj (λ) − xqj Ki (λ) λ
µ = où Ki (λ) = (xqi − µ)
Kj (λ) − Ki (λ) σ
3
X
0 = (xqi − xqj ) exp(− log(− log qi ))
i6=j=1

ce qui permet de produire un estimateur a priori θ̃

En interrogeant plusieurs experts, ou/et un expert pouvant fournir plus de détails, on peut
produire un échantillon d’estimateurs θ̃1 , . . . , θ̃k

Les caractéristiques de cet échantillon (moyenne, variance, covariance...) peuvent (en théorie)
être utilisées pour calibrer les hyperparamètres δ de π(θ|δ)

Posant δ = (θ0 , Σ), les auteurs proposent un a priori log-multinormal : log θ ∼ N3 (log θ0 , Σ)
245/291 245
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Une exemple de méta-analyse pour construire une modélisation a priori hiérarchique

Principle :
Supposons disposer d’une observation représentative Y ∗ sur Y = g(θ, c) où g et une
fonction et c un ensemble de paramètres fixés
Construire une vraisemblance liant Y ∗ et θ
Choisir un a priori non informatif π J (θ) en fonction de cette vraisemblance
Sélectionner π comme le posterior π J (θ|Y ∗ )

246/291 246
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Exemple : modèle à espace d’état pour une population (cohorte)


B., Chassot, Hammill, Duplisea (2008-2011)

Modélisation de l’abondance de la morue (Gadus morhua) dans le Golfe du Saint Laurent


(Canada)

NAFO division 3Pn4RS

247/291 247
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Dynamique

Une morue peut vivre 15 ans

Principales sources de mortalité :


prédation par les phoques (Phoca groenlandica)
pêche (en particulier durant les années 1990)
naturelle (résiduelle, due aux variations de température de l’eau, etc. )

248/291 248
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Observations : accroissement de la population de phoques corrélée au déclin des morues

(Chassot
249/291 et al. 2009) 249
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Dynamique à espace d’états cachés de l’abondance Na,t de la morue

Prédation Pa,t = c ·N
pa,t a,t
0 m (N
Mortalité résiduelle 1 Na,t = pa,t a,t − Pa,t , )
Pêche commerciale Ca,t = f
1 − pa,t 0
Na,t
Abondance à mi-année 00
Na,t = 0 − C /2
Na,t a,t 
Mortalité résiduelle 2 Na+1,t+1 = m
pa,t 00 − C /2
Na,t a,t

PA
Production d’oeufs totale TEPt = N ξ φ f
a=1 a,t a, t a, t a,t
Recrutement à l’âge 0 Rt+1 r
= pt+1 · TEPt
m
2
Recrutement à l’âge 0 N1,t+2 = p0,t+1 Rt+1

Sex ratio ξ
Proportion de femelles matures φ
Fécondité (nombre d’oeufs morue−1 ) f

250/291 250
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Observations
00
Ia,t = q ςa, s Na, t Indice d’abondance
1
with ςa, s = Sélectivité
1 + exp (−γs (a − δs ))
and q Capturabilité

A
X
Ct = Ca, t Prise totale
a=1
A
X
pa, t, c = Ca, t / Ca, t Probabilité observée de prise par âge
a=1
X A
pa, t, s = Ia, t / Ia, t Probabilité observée d’abondance par âge
a=1

A A
!
X X
∗ iid 2
Jt∗ = Ja, t ∼ N log Ia, t (θ), ψ ψ 2 = Aσ 2 + A2 τ 2
a=1 a=1

where Ja, ∗ ) = log(I
= log(Ia,
t t a, t ) + a, t + ηt

 
iid σc2 2
log Ct∗ ∼ N log Ct (θ) − , σc σc2
2
251/291 251
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Liste des paramètres inconnus

ζa Baseline attack rate for age a


(nb. attacks seal−1 )
π Normalization coefficient of attack rates
m Shape parameter of the Holling response type
α Intercept of the natural mortality curve (yr−1 )
β Slope of the natural mortality curve
F Fishing mortality rate of cod (yr−1 )
Rmax Maximum nb. of cod recruits (NoI)
r TEP needed to produce recruitment = Rmax /2 (NoE)
ςa, c Commercial selectivity-at-age
γc1 Shape parameter of the commercial selectivity
(1984-1993)
δc1 Age of half-vulnerability (1984-1993)
γc2 Shape parameter of the commercial selectivity
(1994-2006)
δc2 Age of half-vulnerability (1994-2006)
ςa, s Survey selectivity-at-age
q Survey catchability
γs Shape parameter of the survey selectivity
δs Age of half-vulnerability

252/291 252
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Résultats fréquentistes (Chassot et al. 2009)

Intervalles de confiance trop petits (bootstrap)

253/291 253
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Élicitation a priori pour les paramètres de sélectivité

1
ςa = .
1 + exp(−γ{a − δ})

δ = age pour lequel 50% de la population est sensible à l’engin de pêche


γ = paramètre de forme

Méta-analyse des estimés de la sélectivité obtenus à partir des mesures de surveillance / pêche
commerciale pour des engins similaires à ceux étudiés

Fondé sur une idée de Harley and Myers (2001)

M = 153 jeux de données

254/291 254
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Soit c1 , . . . , cA+ un échantillon de prise par âge

Estimateur de Kaplan-Meier = fréquence cumulée par âge


A A

ci 1{i≤a} /
X X
ς ∗a = cj .
i=1 j=1

Notre objectif est


de définir une vraisemblance `(ς ∗1,i , . . . , ς ∗A,i , i = 1, . . . , M|γ, δ)
de définir des a priori non informatifs pour (γ, δ) en fonction de `
255/291 de définir des priors informatifs sur (γ, δ) comme des posteriors 255
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Ôter la dépendance à l’âge

Considérons la reparamétrisation
sa = − log(ςa−1 − 1) = γ(a − δ) (9)
et soit s ∗a le vecteur correspondant des estimés non paramétriques

Estimer et tester l’hypothèse de modèle


s ∗a = s a + N (0, σa2 )

Des tests classiques (Shapiro-Wilks, etc.) ne nient pas l’hypothèse gaussienne (p−values
∈[0.35,0.86])

Notons s ∗I = (s1∗ (i1 ), . . . , sA∗ (iA )), avec ij 6= ik , le ij étant choisi dans I ⊂ {1, . . . , M}, et
A
1 X
s̄ ∗ = sj∗ (ij ) = αγ − δ + N (0, σ 2 )
A
j=1
PA
avec σ2 = σ 2 /A
a=1 a
et α = (A + 1)/2.

256/291 256
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Minimiser les corrélations pour obtenir une vraisemblance simple

Il y a (M!)/(M − A+ !) valeurs possibles s̄ ∗

Elles ne sont pas indépendantes (puisqu’elles sont construites à partir de données venant des
mêmes sélectivités empiriques)

Sélectionner des âges éloignés (a1 , a2 ), sa∗1 (ia1 ) and sa∗2 (ja2 ) permet de diminuer la corrélation

Un mélange de distributions de s̄ ∗ peut être produit par simulation

La structure formelle suivante apparaît pertinente


257/291 ∗ 2 257
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Construire un a priori informatif sur (γ, δ)

1 Soit π J (γ, δ) un a priori non informatif pour la vraisemblance


reference prior de Berger & Bernardo (1992)
des experts biologistes s’accordent sur le plus large intervalle possible pour δ :
[al , ar ] = [1, 6] ⊂ [1, A]

π J (γ, δ) ∝ 1γ≥0 1{al ≤δ≤ar }


2 Considérons la vraisemblance d’“une donnée représentative" émanant de

s̄ = αγ − δ + N (0, ν 2 + σ 2 )

3 Construisons π(γ, δ) = π J (γ, δ|s̄ ∗ ), soit

1
n o
π(γ, δ) ∝ exp − (αγ − δ − s̄)2 1{γ≥0} 1{al ≤δ≤ar }
2(σ 2 + ν2)

scientifique commercial scientifique commercial


σ2 1.221 1.510 s̄ 1.891 1.493
ν2 0.1146 0.1051 α 6.5 6.5

258/291 258
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Paramètres de nuisance

Une fois que la loi a posteriori du vecteur θ est obtenue, des études de projection doivent être
faites

Souvent θ = (θ I , θ N ) où
θ I = {paramètres d’intérêt} (ex : paramètres de selectivité, recrutement...)
θ N = {paramètres de nuisance} (variances d’observation, capturabilité)
purement relatives à l’obtention des données

A A
!
X iid
X
Jt∗ = ∗
Ja, t ∼ N log Ia, t (θ), ψ 2
a=1 a=1
 
iid σc2 2
log Ct∗ ∼ N log Ct (θ) − , σc
2

259/291 259
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Mesure a priori conditionnelle de Berger-Bernardo pour les paramètres de nuisance

Pas d’information a priori usuellement connue sur θ N = (q, σc2 , ψ 2 )

Le choix d’un prior non informatif π(θ N ) doit être indépendant du choix de tout prior informatif
sur θ I

Divergence de Kullback-Leibler entre posterior et prior


Z
π(θ N |x)
KL(π|x) = π(θ N |x) log dθ N
ΘN
π(θ N )
R
with π(θ N ) = π(θ)dθ I

On élicite
 

π = arg max lim Em [KL(π|X)]
π card(X)→∞

et on trouve (après des calculs complexes)


π ∗ (ψ 2 , σc2 , q) ∝ ψ −3 σc−3 q −1 1{(ψ,φ,q)∈IR 3 }.
+,∗

260/291 260
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Quelques projections a posteriori prédictives (B., Chassot et al. 2011)

261/291 261
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Quelques projections a posteriori prédictives (2)

262/291 262
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Quelques projections a posteriori prédictives (3)

263/291 263
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Une vision critique

Interprétation paramétrique 6= compréhension marginale : l’expertise s’applique sur la variable


d’ancrage X de loi
Z
f (X ) = f (x |θ)π(θ) dθ
Θ

et non sur f (x |θ)

Échantillon θ̃1 , . . . ,k de taille extrêmement faible en pratique ⇒ statistiques peu fiables

Pourquoi un choix lognormal ?

264/291 264
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Quelques préoccupations majeures pour faire mieux (plus défendable)

Se rapprocher de règles produisant des a priori conjugués dans les cas le permettant
Vérifier la cohérence de π(θ) vis-à-vis de la structure paramétrique de f (x |θ)
Donner le maximum de signification aux hyperparamètres δ (notamment des paramètres
mesurant la “force" de l’information a priori par rapport à celle apportée par les données
utilisées dans la vraisemblance classique)

Une possibilité privilégiée : construire la loi a priori comme une loi a posteriori approximative,
sachant des données virtuelles x̃m et une mesure a priori non informative π J (θ) :

π(θ) ' π J (θ|x̃m )

m reflète la force de l’information a priori et peut être modulée (dans une phase de calibration
ou d’analyse de sensibilité)

Permet de corréler automatiquement les dimensions de θ

⇒ virtual data pseudoposterior priors

265/291 265
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Méthodologie (1)

Hypothèse 1 (Kadane-Berger) : il est possible d’exprimer de l’information a priori sous la forme


de la spécification d’un ou plusieurs quantiles prédictifs a priori (ou marginaux) (xαi , αi )1≤i≤N ,
tels que αi < αi+1 et xαi < xαi+1 , définis par
Z
P (X ≤ xαi ) = P (X ≤ xαi |θ) π(θ) dθ
Θ

ou, pour des niveaux observés xαi , de fournir des estimateurs des αi

Arguments
Ces informations sont corrélées (c’est en s’exprimant sur une valeur de X qu’une autre
valeur de X peut être positionnée)
La distribution jointe des informations a priori reste invariante par toute permutation de
ces informations (l’ordre de proposition des quantiles ne devrait pas importer)

Remarque : ne pas oublier que des fonctions de coût se cachent derrière l’interprétation sous
forme de quantiles !

266/291 266
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Un aparté sur le théorème de De Finetti (1931)

Soit X1 , . . . , Xn , . . . une séquence échangeable de variables aléatoires binaires (0-1) de


probabilité jointe P. Alors il existe une mesure de probabilité unique π(θ) telle que
Z
P(X1 = x1 , kdots, X1 = xn , . . .) = f (x1 , . . . , xn , . . . |θ)π(θ) dθ
Θ

où f (x1 , . . . , xn |θ) est la vraisemblance d’observations iid de Bernoulli

Généralisé par Hewitt, Savage (1955), Diaconis, Freedman (1980) pour l’ensemble des
distributions discrétisées puis continues

Conséquences :
La modélisation bayésienne apparaît comme une modélisation statistique naturelle de
variables corrélées mais échangeables
L’existence formelle d’un prior π(θ) est assurée en fonction du mécanisme
d’échantillonnage
= { information incertaine à propos θ }

267/291 267
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Méthodologie (2)

Pour une densité connue f (x |θ)


1 sélectionner une mesure a priori non informative π J (θ)
2 supposer qu’il existe un échantillon virtuel ~
xm de taille m portant l’information a priori
3 construire une approximation de la loi a priori informative π(θ) ≡ π J (θ|~
xm ) comme

π(θ) = π(θ|∆m )

où ∆m est un ensemble de statistiques virtuelles


4 b m = arg min D (Λe , Λ(δ m ))
estimer ∆m par ∆
δm
Λe sont des caractéristiques souhaitées a priori
Λ(δ m ) sont des caractéristiques effectives de la loi a priori
D est une distance ou divergence
sous des contraintes d’homogénéité

268/291 268
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Méthodologie (3)

Ce qui empêche (actuellement) d’aboutir à une méthodologie complètement formalisée est


l’approximation à produire

On souhaite retrouver des lois simples

Pas de démarche unique

269/291 269
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Exemple : processus gamma pour modéliser des accroissements de fissure

Une taille de fissure Zk,t sur un composant k est monotone croissante au cours du temps t

Les incréments (supposés indépendants) Xk,i = Zk,ti − Zk,ti−1 sont supposés obéir à des lois
gamma
−x
1 x α(t−s)−1 e β
fα(t−s),β (x ) = · 1{x ≥0}
Γ(αi (t − s)) β α(t−s)

270/291 270
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Comment construire un a priori informatif sur (α, β) ?

1
p
Prenons une mesure non informative (Jeffreys) π J (α, β) ∝ β
αΨ1 (α) − 1

Loi a posteriori d’un échantillon virtuel d’incréments de fissure ~


xm = (x̃1 , . . . , x̃m ) observés aux
temps ~tm = (t̃1 , . . . , t̃m )
β|α ∼ IG (αmt̃e,1 , mx̃e )
α ∼ G (m/2, mt̃e,2 )
dont la signification est fournies par
m
1 X
t̃e,1 = t̃i (temps moyen d’observation)
m
i=1
m
1 X
x̃e = x̃i (accroissement moyen)
m
i=1
m
P
m x̃j /x̃i
1 X j=1
t̃e,2 = t̃i log m
(hyperparamètre de calage)
m P
i=1 t̃j /t̃i
j=1
271/291 271
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Comment construire un a priori informatif sur (α, β) ?

En effet, on a
  Pm 


Xm x̃j 


j=1
 Γ (mαt̃e,1 ) αΨ1 (α) − 1
 p
xm , ~tm )
π (α|~ ∝ exp −α t̃i log m
 z̃i   Q
Γ(αt̃i )

 i=1
 

i=1

et le développement peut être trouvé en utilisant les approximations suivantes :


Formule exacte de Stirling

Γ(x ) = 2πx x −1/2 exp(−x + ν(x )) où ν(x ) = γ/(12x ) et γ ∈ [0, 1]

Développement de Laurent


!
p 1 X B2k
αΨ1 (α) − 1 = √ 1+
2α α2k−1
k=1

où les B2k sont les nombres de Bernoulli-Faulhaber de seconde nature

272/291 272
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Calibrer à partir d’opinion d’expert


La valeur la plus probable a priori de l’accroissement de fissure moyen durant l’intervalle de
temps ∆i est

x̃e ∆i
r̂ (∆i ) = .
t̃e,1

Questionner un expert. Durant les prochaines 15 puis 30 années (= valeur de mt̃e,1 ), quelles
sont les chances (1 − δ1 , 1 − δ2 ) qu’une quelconque fissure apparaissant sur le composant soit
plus grande que (z1 , z2 ) = (5, 10) mm ? soit, pour i = {1, 2},
Z zi Z ∞
 x αmt̃e,1 −1 (mx̃e )αmt̃e,1 Γ (2αmt̃e,1 )
P Zmt̃e,1 < zi = δi = π(α) dαdx
0 0 (mx̃e + x )2αmt̃e,1 Γ2 (αmt̃e,1 )

Calibrer les hyperparamètres de calage en minimisant en (m, t̃e,2 ) la distance L2 relative

2
X  2
1 − δi−1 P Zmt̃e,1 < zi

i=1

273/291 273
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Accord entre données et distribution a priori prédictive

.
274/291 274
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Une alternative courante au critère des moindres carrés

L’adéquation entre la représentation de l’information a priori fournie par des couples (xαi , αi ) et
ce qu’il est possible de modéliser – les couples (xαi , α̃i (δ)) – est définie par une fonction de
perte minimisée en δ

Cooke (1991) a proposé une fonction de perte issue de la discrétisation de la divergence de


Kullback-Leibler entre la loi inconnue sur X fournissant les quantiles xαi (qu’on pourrait
nommer “loi d’expertise") et la loi prédictive a priori f (x |δ)
Z
f (x |δ) = f (x |θ)π(θ|δ) dθ
Θ

Critère de Cooke
M
X (αi+1 − αi )
δ∗ = arg min (αi+1 − αi ) log ,
δ (α̃i+1 (δ) − α̃i (δ))
i=0

avec α0 = α̃0 = 0 et αM+1 = α̃M+1 = 1

Pondération possible, convexité globale non assurée

Diminuer au maximum la dimension de δ (par exemple en fixant les autres hyperparamètres,


comme
275/291 une taille virtuelle) permet d’accroître cette possibilité 275
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée

Exemple (TP) d’élicitation a priori pour un modèle de Weibull

Voici un jeu de données (réel) xn de durées de vie de tubes protecteurs de chaudière (en mois).
71.4 166.3 93.2 59.6 181.6 144.8 87.3 100.3
90.0 173.9 95.4 44.1 149.4 73.7 86.3 145.1 167.7

Vous bénéficiez de deux experts qui vous fournissent chacun, après un processus d’interrogation
minutieux, les renseignements suivants :
Durée de vie médiane (m) Percentile 33% Percentile 90%
Expert 1 100∗ 80 200
Expert 2 130 100 200∗

Proposez une modélisation a priori de ces informations

276/291 276
Élicitation bayésienne - présentation Analyse de sensibilité

Analyse de sensibilité

Le choix d’un prior informatif π (conjugué ou non) est généralement subjectif

Indispensable de tester l’impact de variations de π sur le résultat a posteriori

Comment faire varier π dans une classe C ?


Deux grandes approches (mais pas exhaustives)
1 Classes d’−contamination
2 Exponential twisting

277/291 277
Élicitation bayésienne - présentation Analyse de sensibilité

Classes d’−contamination

COURS SI TEMPS RESTANT

278/291 278
Élicitation bayésienne - présentation Analyse de sensibilité

Exponential twisting

COURS SI TEMPS RESTANT

279/291 279
Élicitation bayésienne - présentation Analyse de sensibilité

Problèmes conceptuels et pratiques de l’interrogation d’expert

Les experts sont soumis à de nombreux biais qui limitent parfois la pratique bayésienne
subjective, fondée sur une interprétation décisionnelle de leurs opinions sous des contraintes
d’indifférence au risque
1 les biais de situation, dus au filtre mental de l’expert vis-à-vis de la réalité, incluant :
les biais cognitifs liés aux limites intellectuelles, et à la difficulté de réviser son
jugement lorsque de nouvelles informations arrivent
les biais motivationnels liés au processus d’élicitation et à la pression de
l’environnement
2 les biais de confiance excessive : une valeur vraie affirmée par un expert avec 90% de
chance se situe en réalité autour de 30 à 60%, la moyenne de l’expert correspond à la
médiane

Une grande littérature de recherche, établissant des ponts avec la psychologie des individus et
des groupes, est consacrée à la vérification des contraintes (cf. Tversky et Kahneman 1973)

D’autres théories de la représentation de la connaissance ont émergé depuis les années 1960
(ex : logique floue)

Il n’en reste pas moins que la statistique bayésienne offre un cadre décisionnel cohérent (de par
le respect des axiomes des probabilités), pratique, et que les experts sont souvent la seule source
d’information disponible, qui puisse permettre d’effectuer des prévisions dans un processus
décisionnel
280/291 280
Élicitation bayésienne - présentation Autre approche et conclusions

7 - Autre approche et conclusions

281/291 281
Élicitation bayésienne - présentation Autre approche et conclusions

Une autre approche de la construction a priori : le principe “bayésien" empirique

On suppose n’avoir pas d’information a priori

Soient x1 , . . . , xn+1 des observations indépendantes de densités f (xi |θi )

On veut inférer sur θn+1 en supposant que tous les θi ont été produit par le même π(θ)

On cherche donc à reconstruire π(θ) tel que


Z
x1 , . . . , xn ∼ f (x ) = f (x |θ)π(θ)dθ
Θ

1 soit de façon non-paramétrique en produisant un estimateur π̂n (θ)


2 soit de façon paramétrique en fixant une forme hyperparamétrée π(θ|δ) et en produisant
un estimateur δ̂n

L’ensemble de cette démarche n’est en fait pas pas bayésienne car elle utilise deux fois les
données

282/291 282
Élicitation bayésienne - présentation Autre approche et conclusions

Points-clés à retenir en élicitation a priori

Décider d’un a priori de référence (non-informatif) pour l’inférence considérée

Décider de la forme d’une loi a priori informative en se basant sur des théorèmes de convergence
(ex : TLC) ou un raisonnement entièrement bayésien (ex : données virtuelles)

Décider du sens de l’information apportée a priori dans un cadre de théorie de la décision,


lorsqu’elle est subjective
Ex : ne pas oublier que l’interprétation en termes de quantile dans l’exemple fiabiliste
provient du choix d’une fonction de coût

Ne pas oublier de prouver l’intégrabilité de la densité a posteriori


Z
`(xn |θ)π(θ) dθ < ∞
Θ

283/291 283
Élicitation bayésienne - présentation Autre approche et conclusions

Quelques références

1 Clemen, R. T., Winkler, R. L. (2007). Aggregating probability distributions. In : Advances


in Decision Analysis. Cambridge University Press. .
2 O’Hagan, A., Buck, C.E., Daneshkhah, A. Eiser, J.R., Garthwaite, P.H., Jenkinson, D.J.,
Oakley, J.E., Rakow, T. (2006). Uncertain Judgements : Eliciting Experts’ Probabilities.
Statistics in practice. Wiley
3 Parent, E., Bernier, J. (2007). Le raisonnement bayésien : modélisation et inférence.
Springer
4 Robert, C.P. (2006). Le choix bayésien. Principes et pratique. Springer
5 Kass, R., Wasserman, L. (1996). Formal rules of selecting prior distributions : a review
and annotated bibliography. Journal of the American Statistical Association.
6 Evans, M., Moshonov. H. (2006). Checking for prior-data conflict. Bayesian Analysis
7 Bousquet, N. (2008). Diagnostics of prior-data agreement in applied Bayesian analysis.
Journal of Applied Statistics
8 Walter, G. , Augustin, T. (2009). Imprecision and prior-data conflict in generalized
Bayesian inference. Journal of Statistical Theory and Practice

284/291 284
Sélection de modèle bayésien Régions de confiance et de crédibilité

Régions de confiance et de crédibilité (rappel)

Soit x ∼ f (.|θ) une (ou plusieurs) observations

Définition
Une région A de Θ est dite α−crédible si Π(θ ∈ A|x ) ≥ 1 − α

Au sens fréquentiste, A est une région de confiance 1 − α si, en refaisant l’expérience


(l’observation d’un X ∼ f (.|θ)) un nombre de fois tendant vers ∞,

Pθ (θ ∈ A) ≥ 1−α

La définition bayésienne exprime la probabilité que θ ∈ A au vu (conditionnellement) des


expériences déjà réalisées
pas besoin d’avoir recours à un nombre ∞ d’expériences similaires

Une région α−crédible peut être estimée par les quantiles empiriques de la simulation a posteriori

286/291 286
Sélection de modèle bayésien Une approche rapide des tests d’hypothèse

3 - Une approche rapide des tests d’hypothèse

Supposons qu’on cherche à mener le test d’une hypothèse nulle H0 : θ ∈ Θ0

La fonction de coût L(θ, d) 0-1 est proposée dans l’approche classique de Neyman-Pearson :
si d 6= 1Θ0
n
1
L(θ, d) = (10)
0 sinon
menant à l’estimateur bayésien dans D = {0, 1}
n
1 si Π(θ ∈ Θ0 |x ) > Π(θ ∈
/ Θ0 |x )
δ π (x ) =
0 sinon
qui fait sens intuitivement : l’estimateur choisit l’hypothèse avec la probabilité a posteriori la
plus grande.

On peut généraliser en pénalisant différement les erreurs suivant que H0 est vraie ou fausse
si d = 1Θ0
(
0 n
1 si Π(θ ∈ Θ0 |x ) > a1 /(a0 + a1 )
L(θ, d) = a0 si θ ∈ Θ0 et d = 0 ⇒ δ π (x ) =
0 sinon
a1 si θ ∈
/ Θ0 et d = 1
L’hypothèse nulle est rejetée quand la probabilité a posteriori de H0 est trop petite

Il est cependant délicat de choisir les poids a0 et a1 sur des considérations d’utilité

287/291 287
Sélection de modèle bayésien Facteur de Bayes

Facteur de Bayes (1/2)

Le facteur de Bayes est une transformation bijective de la probabilité a posteriori, qui a fini par
être l’outil le plus utilisé pour choisir un modèle bayésien

Soit H1 : θ ∈ Θ1 une hypothèse alternative

Définition
Le facteur de Bayes est le rapport des probabilités a posteriori des hypothèses nulle
et alternative sur le rapport a priori de ces mêmes hypothèses
Π(θ ∈ Θ0 |x ) Π(θ ∈ Θ0 )
 . 
B01 (x ) =
Π(θ ∈ Θ1 |x ) Π(θ ∈ Θ1 )
qui se réécrit comme le pendant bayésien du rapport de vraisemblance en remplaçant les
vraisemblances par les marginales (les vraisemblances intégrées sur les a priori) sous les deux
hypothèses
R
f (xn |θ)π0 (θ) dθ f0 (xn )
B01 (x ) = R Θ0 =
f (xn |θ)π1 (θ) dθ f1 (xn )
Θ1

Sous le coût généralisé précédent, en posant


γ0 = Π(θ ∈ Θ0 ) et γ1 = Π(θ ∈ Θ1 )
l’hypothèse H0 est acceptée si B01 (x ) > (a1 γ1 )/(a0 γ0 )
288/291 288
Sélection de modèle bayésien Facteur de Bayes

Facteur de Bayes (2/2)

En l’absence d’un cadre décisionnel véritable (qui consisterait à pouvoir fixer a0 et a1 ), une
échelle “absolue" a été proposée par Jeffreys (1939), remaniée depuis par Kass & Raftery
(1995), pour évaluer le degré de certitude en faveur ou au détriment de H0 apporté par les
données
(i) si Λ = log10 B10 (xn ) varie entre 0 et 0.5, la certitude que H0 est fausse est
faible
(ii) si Λ ∈ [0.5, 1], cette certitude est substantielle
(iii) si Λ ∈ [1, 2], elle est forte
(iv) si Λ > 2, elle est décisive

Malgré le côté heuristique de l’approche, ce genre d’échelle reste très utilisé

Remarque : le calcul du facteur de Bayes n’est pas évident et demande le plus souvent de savoir
simuler a posteriori

289/291 289
Sélection de modèle bayésien Facteur de Bayes

Exemple

Pour des données discrètes x1 , . . . , xn , on considère un modèle de Poisson P(λ) ou une loi
binomiale négative N B(m, p) avec les a priori

π1 (λ) ∝ 1/λ
1
π2 (m, p) = 1{1,...,M} (m)1{[0,1] (p)
M

Peut-on sélectionner l’un des deux modèles ?

290/291 290
Sélection de modèle bayésien Facteur de Bayes

Difficultés posées par les a priori impropres

La distribution prédictive a posteriori


Z
f (xn ) = f (xn |θ)π0 (θ) dθ
Θ

est définie à une constante inconnue près C .

Cette constante affecte multiplicativement tout rapport de Bayes

f1 (xn )
B12 =
f2 (xn )

qui interdit théoriquement une sélection entre les modèles M1 = {f1 (x |θ1 ) + π1 (θ1 )} et
M2 = {f2 (x |θ2 ) + π0 (θ2 )},

Nécessité d’utiliser des heuristiques fondées sur la notion d’échantillon d’entraînement (a priori
intrinsèques et fractionnaires de Berger-Perrichi-O’Hagan)

291/291 291
Élicitation de lois a priori - compléments

nicolas.bousquet@upmc.fr

Janvier-Mars 2020
Introduction

Cet atelier est pour vous si :

1. vous rencontrez des problèmes de modélisation statistique pour lesquels une


approche bayésienne vous semble pertinente

2. vous connaissez les grands principes (et savez mettre en œuvre) du calcul
bayésien

3. vous pensez disposer d’information a priori que vous aimeriez injecter dans votre
modélisation

4. vous ne détestez pas formaliser mathématiquement et justifier vos choix


Problèmes de modélisation statistique paramétrique

Rappelons le cadre classique :


I des données xn = (x1 , . . . , xn ) peuvent être observées, et sont considérées
comme des réalisations d’une variable aléatoire (ou d’un processus) X de densité
f (x|θ) (par rapport à une mesure dominante µ)

I on décrit donc f (x|θ) comme un modèle d’occurence des données

I le vecteur de paramètres θ ∈ Θ ⊂ IR d représente une synthèse d’un "état caché"


du phénomène considéré

On cherche à estimer θ ou des grandeurs d’intérêt, fonctions de θ


Exemples classiques

Loi Fonction de répartition Fonction de densité


Exponentielle (x ≥ 0) F (x) = 1 − exp(−λx) f (x) = λ exp(−λx)
Weibull (x ≥ 0) F (x) = 1 − exp(−µx β ) f (x) = µβx β−1 exp(−µx β )
(x−µ)2
 
Gaussienne (normale) non explicite f (x) = √ 1 exp − 2σ2
2πσ
(1/2)k/2 k/2−1
Chi 2 χ2 (x ≥ 0) non explicite f (x) = Γ(k/2)
x exp(−x/2)
b a a−1
Gamma (x ≥ 0) non explicite f (x) = Γ(a)
x exp(−bx)

Densites Fonctions de repartition


0.5

1.0
Exp.
Weibull
normale
Chi2
0.4

0.8
gamma
0.3

0.6
0.2

0.4

Exp.
Weibull
0.1

0.2

normale
Chi2
gamma
0.0

0.0

0 5 10 15 0 5 10 15

x x
Exemples classiques

Gauche : fonction de masse des lois discrètes binomiale Bn (100, 0.1) (carrés) et
Poisson P(15) (triangles). Droite : densités de probabilité continues de la loi normale
centrée réduite N (0, 1) (courbe pleine) et χ21
Exemple : l’origine des lois en modélisation de durée de vie

Soit X la durée de vie d’un système industriel Σ (composant, structure, etc.)

Des modèles de durée de vie sur X peuvent être construits à partir de considérations
sur le taux de défaillance caractérisant Σ

dPθ (x < X < x + dx)


λ(x|θ) =
dx

En effet, on a
 Z x 
Pθ (X ≤ x) = 1 − exp − λ(u|θ) du
0

et
 Z x 
dPθ (X < x)
f (x|θ) = = λ(x|θ) exp − λ(u|θ) du
dx 0
Supposons que Σ ne soit soumis qu’à des défaillances par accident
I son taux de défaillance est constant λ(x|θ) = θ > 0
I le modèle de durée de vie est alors exponentiel :

f (x|θ) = θ exp(−θx)1{x≥0}

I le temps moyen avant défaillance, conditionnellement au choix du modèle, est


alors
Z ∞
E[X ] = E[E[X |θ]] = E[X |θ]π(θ) dθ = Eπ [1/θ]
0
Si Σ peut tomber en panne à cause du vieillissement
2
I son taux de défaillance est croissant λ(x|θ) = (x/η)β avec θ = (η, β) ∈ IR+
I le modèle de durée de vie est alors Weibull :
 β−1
β x
exp −(x/η)β 1{x≥0}
 
f (x|θ) =
η η

I la vitesse du vieillissement est mesurée par ∂λ(x|θ)/∂x


I En particulier, il y a vieillissement non accéléré si

1 ≤ β ≤ 2
D’autres exemples...

Aléas extrêmes ⇔ Lois GEV, GPD, ...

Fissuration progressive ⇔ Processus gamma


D’autres exemples...

Évolution de ressource / population


⇔ Modèles à espace d’état

Croissance animale/ végétale


⇔ Loi de type Von Bertalanffy
D’autres exemples...

Grandeur physique coûteuse à mesurer


⇔ Modèles (codes) numériques "boîte noire"
Pourquoi se focaliser sur une approche paramétrique ?

La modélisation probabiliste du phénomène consiste en une interprétation réductrice


par le biais d’une approche statistique qui peut être :
I non-paramétrique, qui suppose que l’inférence doit prendre en compte le
maximum de complexité et à minimiser les hypothèses de travail, en ayant
recours le plus souvent à l’estimation fonctionnelle
I paramétrique, par laquelle la distribution des observations xn est représentée par
une fonction de densité f (x|θ) où seul le paramètre θ (de dimension finie) est
inconnu

Cette seconde approche est ici privilégiée

Deux arguments :
I un nombre fini d’observations ne peut servir à estimer qu’un nombre fini de
paramètres
I l’évaluation des outils inférentiels paramétriques peut être faite avec un nombre
fini d’observations
Pourquoi adopter une approche bayésienne ?

Améliorer l’inférence sur θ en utilisant de l’information additionnelle aux données


x1 , . . . , xn (information a priori)
I Régulariser
I Être plus précis
I Confronter des points de vue....

Quelques exemples
1. Risque industriel : quelques données historiques + des experts au courant des
avancées en sciences des matériaux
2. Risque naturel : chroniques historiques hétérogènes + de nouvelles données
issues de capteurs normalisés
3. Évolution de ressources : informations biologiques, physiques + mesures in situ
4. Traitement d’incertitude : bornes sur des paramètres d’entrée de modèles
numériques
Qu’est-ce que l’élicitation bayésienne ?
Introduisons le cadre bayésien :
I des données xn = (x1 , . . . , xn ) peuvent être observées, et sont considérées
comme des réalisations d’une variable aléatoire (ou d’un processus) X de densité
f (x|θ) (par rapport à une mesure dominante µ
I on décrit donc f (x|θ) comme un modèle d’occurence des données
I le vecteur de paramètres θ ∈ Θ ⊂ IR d représente l’état de la nature
I on suppose pouvoir munir Θ d’une structure d’espace probabilisé

L’élicitation de l’a priori est le travail d’encodage probabiliste d’une connaissance


incertaine (méconnaissance) sur l’état de la nature,
au travers d’une distribution a priori Π(θ) de densité π(θ),
supposée ici hyperparamétrée : π(θ) = π(θ|δ)

L’objectif final est de pouvoir proposer une décision à partir de la loi a posteriori

f (xn |θ)π(θ)
π(θ|xn ) = R
Θ f (xn |θ) π(θ) dθ
| {z }
vraisemblance

elicere : tirer de, faire sortir, arracher, obtenir (ex aliquo verbum elicere)
Qu’est-ce que Π(θ) ?

Π(θ) traduit la plus ou moins grande incertitude associée aux grandeurs non
observables θ

Cette distribution de probabilité, dite alors subjective, est une mesure de l’engagement
personnel en termes de pari à miser sur telle ou telle valeur de l’événement incertain

Il s’agit d’un modèle d’expertise, et Π(θ) s’interprète comme un degré de crédibilité


des valeurs que peut prendre la grandeur incertaine θ

En conséquence, elle ne possède de sens que si elle est définie conditionnellement à


un niveau fixé de connaissance et peut changer quand l’état de connaissance change
(typiquement, quand des données xn sont apportées)

On devrait donc toujours noter

π(θ) = π(θ|H)

où H représente un état de connaissance initial de l’expérimentateur (mais cette notation


ne sera pas conservée par la suite pour se simplifier la vie...)
Information a priori

Information whose the value of truth is justified by considerations independent


on experiment on focus [Pegny2012]
I résultats d’essais autres que les données (par exemple sur des maquettes)
I spécifications techniques d’exploitation
I bornes physiques
I corpus référencé
I experts humains

Souvent incomplète, toujours incertaine, à cause


I de la non-existence d’un système permettant a priori de vérifier si
l’information est complète ou non
I de la non-existence d’un système suffisament précis pour spécifier que
θ = θ0 exactement (sauf dans des cas rares et pathologiques)
Le jugement d’expert : un rôle fondamental en prise de décision

I construction de plans d’expérience, hiérarchisation de résultats


scientifiques [Cooke1991,Weinstein1993,Luntley2009]

I nourrrit les études économiques [Leal2007] et actuarielles [Tredger2016] sur


l’impact des risques financiers

I déterminant en arbitrage judiciaire, politique publique [Morgan2014 ou


gouvernance environnementale [Miller2001,Drescher2013]

Son influence sur les choix technologiques, économiques, sociétaux ou


personnels, permettant d’élaborer des stratégies de maximisation de gain, a été
beaucoup étudiée par des épistémologues et des psychologues
[Fischhoff1982,Luntley2009,Eagle2011]
Fragilité d’un choix de modélisation a priori : un exemple (Berger 1985)

Soit x ∼ N (θ, 1) cf. TP 1

On suppose que la médiane a priori de θ = 0, et que


Π(θ < −1) = 25% et Π(θ < 1) = 75%

I Si on fait le choix de forme a priori θ ∼ N (θ0 , σ 2 )


1. θ0 =? et σ =?
2. la moyenne a posteriori de θ sachant x (estimateur de Bayes sous coût
quadratique) est

σ2
θ1∗ = x
1 + σ2
I Si on fait le choix de forme a priori θ ∼ C(θ00 , a) : loi de Cauchy de densité
 
1 a
π(θ|a, b) =
π (θ − θ00 )2 + a2

1. θ00 =? et a =?
2. la moyenne a posteriori de θ sachant x est
x3
θ2∗ ' lorsque |x| ≥ 4
1 + x2
Fragilité d’un choix de modélisation a priori : un exemple (Berger 1985)

Soit x ∼ N (θ, 1) cf. TP 1

On suppose que la médiane a priori de θ = 0, et que


Π(θ < −1) = 25% et Π(θ < 1) = 75%

I Si on fait le choix de forme a priori θ ∼ N (θ0 , σ 2 )


1. θ0 =? et σ =?
2. la moyenne a posteriori de θ sachant x (estimateur de Bayes sous coût
quadratique) est

σ2
θ1∗ = x
1 + σ2
I Si on fait le choix de forme a priori θ ∼ C(θ00 , a) : loi de Cauchy de densité
 
1 a
π(θ|a, b) =
π (θ − θ00 )2 + a2

1. θ00 =? et a =?
2. la moyenne a posteriori de θ sachant x est
x3
θ2∗ ' lorsque |x| ≥ 4
1 + x2
Fragilité d’un choix de modélisation a priori : un exemple (Berger 1985)

Soit x ∼ N (θ, 1) cf. TP 1

On suppose que la médiane a priori de θ = 0, et que


Π(θ < −1) = 25% et Π(θ < 1) = 75%

I Si on fait le choix de forme a priori θ ∼ N (θ0 , σ 2 )


1. θ0 =? et σ =?
2. la moyenne a posteriori de θ sachant x (estimateur de Bayes sous coût
quadratique) est

σ2
θ1∗ = x
1 + σ2
I Si on fait le choix de forme a priori θ ∼ C(θ00 , a) : loi de Cauchy de densité
 
1 a
π(θ|a, b) =
π (θ − θ00 )2 + a2

1. θ00 =? et a =?
2. la moyenne a posteriori de θ sachant x est
x3
θ2∗ ' lorsque |x| ≥ 4
1 + x2
Problèmes fréquents et mauvaise foi

On n’aime pas trop les priors = lois ou mesures a priori

Ils sont généralement vus comme des vecteurs de fragilisation des modèles, subjectifs,
des "emmerdements nécessaires"

Il n’y a aucune raison de considérer que le travail d’élicitation devrait être plus simple
que celui de mener un calcul a posteriori. Les deux sont en général difficiles

Mais "angle mort" en pratique dans de nombreuses applications, méthodologies...

Raisons évoquées en général :


I Lorsque n → ∞, l’impact du prior est négligeable (donc ne perdons pas trop de
temps à en construire un bon)
I De toute façon, on fera une analyse de sensibilité des résultats a posteriori
vis-à-vis du choix du prior
Problèmes fréquents et mauvaise foi

On n’aime pas trop les priors = lois ou mesures a priori

Ils sont généralement vus comme des vecteurs de fragilisation des modèles, subjectifs,
des "emmerdements nécessaires"

Il n’y a aucune raison de considérer que le travail d’élicitation devrait être plus simple
que celui de mener un calcul a posteriori. Les deux sont en général difficiles

Mais "angle mort" en pratique dans de nombreuses applications, méthodologies...

Raisons évoquées en général :


I Lorsque n → ∞, l’impact du prior est négligeable (donc ne perdons pas trop de
temps à en construire un bon)
I De toute façon, on fera une analyse de sensibilité des résultats a posteriori
vis-à-vis du choix du prior
Problèmes fréquents et mauvaise foi

On n’aime pas trop les priors = lois ou mesures a priori

Ils sont généralement vus comme des vecteurs de fragilisation des modèles, subjectifs,
des "emmerdements nécessaires"

Il n’y a aucune raison de considérer que le travail d’élicitation devrait être plus simple
que celui de mener un calcul a posteriori. Les deux sont en général difficiles

Mais "angle mort" en pratique dans de nombreuses applications, méthodologies...

Raisons évoquées en général :


I Lorsque n → ∞, l’impact du prior est négligeable (donc ne perdons pas trop de
temps à en construire un bon)
I De toute façon, on fera une analyse de sensibilité des résultats a posteriori
vis-à-vis du choix du prior
Quelle(s) approche(s) pour tenter de régler ces problèmes ?

Construire des règles formelles d’élicitation intelligibles

Justifier, certifier.....

Intelligibles pour qui ?


I Selon le RGPD, un enfant devrait pouvoir comprendre comment on traite ses
données personnelles....
I Plus sérieusement, il est difficile de chercher à convenir au plus grand nombre
(et pas seulement les praticiens)
I On pressent l’importance de minimiser le nombre de règles-noyau et de travailler
sur des invariants de l’information disponible
Liens avec l’intellligibilité du machine learning

L’intelligibilité au sens large est devenu un requis fort pour l’adoption d’intelligences
artificielles incorporant des outils de machine learning

Prenons un problème de classification binaire où les données (xi , θi ) ∈ IR d × {0, 1}


arrivent et sont labellisées (θi connu) au cours du temps
I Soit Dn = {(xi , θi ) ∈ IR d × {0, 1}} l’ensemble croissant des informations
d’apprentissage
I Sachant Dn , le classifieur de Bayes fournit la solution théorique optimale au
problème de classifier une nouvelle donnée xj :

Π θj = 1|X = xj , Dn

P X = xj |θj = 1, Dn Π(θj = 1|Dn )
=  
P X = xj |θj = 1, Dn Π(θj = 1|Dn ) + P X = xj |θj = 0, Dn Π(θj = 0|Dn )
 −1
= 1 + Q(xj )M(Π, Dn )



P X = xj |θj = 0, Dn
Q(xj ) =  est un rapport de vraisemblances
P X = xj |θj = 1, Dn
1 − Π(θj = 1|Dn )
M(Π, Dn ) = dépend du prior Π(θ) et du jeu d’apprentissage
Π(θj = 1|Dn )
Liens avec l’intellligibilité du machine learning

M(Π, Dn ) a le sens d’un rapport de pénalités

M(Π, Dn ) dépend surtout de Π(θ) quand Dn est de faible volume

Dans le cadre d’un apprentissage faiblement supervisé, beaucoup de θi restent


inconnus, et M(Π, Dn ) dépend fortement de Π(θ)
I Ex : les labels θi arrivent tardivement, après la décision d’autorisation, dans le
cadre de transactions bancaires

Justifier le système de classification mis en place revient à justifier


I le choix des données
I le choix des modèles de vraisemblance et du prior
I la façon d’approximer l’ensemble par son implémentation concrète
Liste des problèmes à régler (si on veut adopter une démarche sérieuse)

1. Collecter et interpréter l’information a priori disponible


I ingénierie de la connaissance
I a-t-on le droit d’être probabiliste ?
I quel(s) sens statistique(s) ?
I théories de représentation et de décision

2. Décider d’une ou plusieurs structures algébriques pour π(θ)


I théories de modélisation

3. Calibrer / valider (ou plutôt ne pas invalider) π(θ)


I théories d’estimation ou d’inférence
I respect du principe de vraisemblance

4. Intercalibrer les priors dans le cadre d’une sélection de modèle


Combiner des priors (ex : réunion d’expertises)
Questions transverses :
Modifier des priors (ex : analyse de sensibilité)
I théories de traitement d’information
Et pour finir cette longue introduction ...
1 - Collecter et interpréter l’information a priori

Outre le gain pratique, une information a priori a-t-elle "le droit" d’être encodée par
des modèles probabilistes ?

Comment interroger ⇔ Comment interpréter ?


Quel type d’information a priori ?

Données historiques

Information subjective issue de l’interrogation d’experts humains

Information objectivée issue de l’interrogation de systèmes experts (ex : outils


d’intelligence artificielle, modèles causaux...)
Données historiques

Dans le cas où l’information est directement apportée par des données historiques
x̃1 , . . . , x̃m , de nombreux auteurs ont proposé de l’utiliser dans un cadre bayésien pour
calibrer des lois a priori (surtout en hydrologie)

On traduit en général ces anciennes valeurs comme des valeurs censurantes pour de
nouvelles occurences

La vraisemblance statistique de x̃i n’est pas f (xi |θ) mais (en général) P(X < xi |θ) ou
P(X > xi |θ)
Données historiques : formalisation

Le prior ainsi proposé est un posterior de ces vieilles données

π(θ) ∝ L(x̃1 , . . . , x̃m |θ) π0 (θ)


| {z } | {z }
vraisemblance des données historiques prior "de base", non ou peu informatif

Exemple-type : niveaux extrêmes marins, durée de vie des machines à laver ...
Exemple : durée de vie des machines à laver

Une enquête de septembre 2019 de l’association Halte à l’obsolescence programmée


(HOP) et l’entreprise de réparation d’électroménager Murfy, la durée de vie observée
dans le passé est supérieure à 10 ans

http://www.leparisien.fr/economie/
obsolescence-programmee-une-association-porte-plainte-contre-des-fabricants-d-imprimantes-19-09-2017-727
php

À votre avis ?
I Quelle expertise pouvez-vous faire ?
I Essayez de noter vos idées quelque part avant de lire la suite... (valeurs min et
max, valeur centrale)
Exemple : durée de vie des machines à laver

L’article dit que les durées actuelles sont plutôt en-dessous de 7 ans

Hypothèse de vieillissement (Weibull)

 β−1  β !
β x x
f (x|θ) = exp −
η η η

avec β = 2

On peut reparamétriser par la durée de vie moyenne θ = ηΓ(1 + 1/β) ' 0.89η

On sait que θ > 0.5 an avec probabilité 1


Exemple : durée de vie des machines à laver

Alors, en définissant le passé par "une donnée censurée représentative" x̃ = 10 ans,

 β !

L(x̃|θ) = P(X > x̃|θ) = exp −
θ/Γ(1 + 1/β)

Choisissons π0 (θ) simplement : uniforme entre 0.5 et une borne θsup (de 100 ans par
exemple)

Donc π(θ) = AL(x̃|θ)π0 (θ) avec


Z θsup
A−1 = L(x̃|θ)π0 (θ) dθ
0.5

facilement calculable

Cf. TP 2
Exemple : durée de vie des machines à laver

Alors, en définissant le passé par "une donnée censurée représentative" x̃ = 10 ans,

 β !

L(x̃|θ) = P(X > x̃|θ) = exp −
θ/Γ(1 + 1/β)

Choisissons π0 (θ) simplement : uniforme entre 0.5 et une borne θsup (de 100 ans par
exemple)

Donc π(θ) = AL(x̃|θ)π0 (θ) avec


Z θsup
A−1 = L(x̃|θ)π0 (θ) dθ
0.5

facilement calculable

Cf. TP 2
Exemple : durée de vie des machines à laver

Essayons maintenant d’inclure la diversité de vos avis pour enrichir le prior π(θ)

Questions
I Devons-nous utiliser chaque avis indépendamment ?
I Devons-nous arriver à un consensus ?
I Comment pouvons-nous spécifier le sens statistique de votre expertise ?
Collection d’expertise vs Expertise collective

Méthode(s) de Delphes (Delphi) : des prévisions réalisées par un groupe d’experts


structuré sont généralement plus fiables que celles faites par des groupes non
structurés ou des individus
I Analystes
I Experts > 25

1. Questionnaires
2. Entraînement en solo
3. Mise en commun
Quelques techniques d’entraînement

Les experts ne sont en général pas familiarisés avec les statistiques et doivent être
entraînés

Nombreux développements méthodologiques dans les années 1990, écoles


anglo-saxonne / israëlienne (statistiques, psychologie...)

Techniques par remplissage d’histogrammes, dont la plus célèbre est la roulette


Principe de la roulette

1. Définir des valeurs min et max


2. Diviser la gamme de variation possible de la quantité d’intérêt (variable
d’ancrage) X en m cases régulières (ex : m = 10)
3. Demander à l’expert d’allouer n "jetons" à chaque case (ex : n = 20)
I L’ensemble des jetons décrit alors un histogramme
I La proportion de jetons allouée à chaque case reflète la
probabilité (personnelle) que la valeur de X soit dans cette case
4. Ajuster une loi de probabilité à l’histogramme
5. Faire "valider" le résultat (par exemple en déduisant des conséquences possibles
ou impossibles)

Repose sur le principe du pari, symbole de l’engagement personnel (même idée que
jouer aux courses)
Des outils de collecte et mise en confrontation d’information : MATCH (2014)

http://optics.eee.nottingham.ac.uk/match/uncertainty.php
Des outils de collecte et mise en confrontation d’information : MATCH (2014)
Des outils de collecte et mise en confrontation d’information : SHELF
Des outils de collecte et mise en confrontation d’information : SHELF
Collection d’expertise vs Expertise collective : difficultés

Influence des personnalités en travail de groupe

Dépendance entre experts (ex : issus du même sérail)

Divergences fortes entre experts

Des méthodes formelles ont été proposées dans les cas où il y a indépendance ou
dépendance entre experts
Fusion de plusieurs a priori
Dans de nombreux cas pratiques, on peut disposer de plusieurs a priori possibles
π1 (θ), . . . , πM (θ) que l’on suppose ici indépendants

Exemple : réunions d’experts à la fin d’études pharmacologiques

Une première idée : la fusion linéaire pondérée (ou moyenne arithmétique)

M
X
π(θ) = ωi πi (θ)
i=1

PM
avec i=1 ωi = 1

Problèmes :
I le résultat peut être multi-modal
I l’approche n’est pas externalement bayésienne :

M
X
π(θ|xn ) 6= ωi πi (θ|xn )
i=1

pour une ou plusieurs données xn


Une seconde idée : la fusion logarithmique pondérée (ou moyenne géométrique)

M
πiω (θ)
Q
i=1
π(θ) =
M
πiω (θ) dθ
R Q
Θ
i=1

PM
avec i=1 ωi = 1

Elle est bien externalement bayésienne

Problème : l’approche n’est pas cohérente par marginalisation


I Soit A et B tels que A ∩ B = ∅ et C = A ∪ B ⇒ P(C ) = P(A) + P(B)
I Soient des experts indiquant leurs opinions sur les événements A et B
I Pour chaque expert, on peut directement calculer P(C ) ou calculer séparement
P(A) puis P(B)
I seule la fusion linéaire permet l’égalité des résultats
En réalité, la fusion logarithmique est séduisante car elle peut s’expliquer en faisant
appel à la théorie de l’information

La divergence de Kullback-Leibler
Z
π(θ)
KL(π, πi ) = π(θ) log
Θ πi (θ)

exprime une perte en terme d’information lorsque le meilleur choix a priori π est
remplacé par πi

Le minimiseur de la perte pondérée

M
X
π ∗ (θ) = arg min ωi KL(π, πi )
π
i=1

est l’a priori opérant la fusion logarithmique

La calibration des poids ωi est un problème qui reste ouvert, malgré quelques réponses
déjà proposées
Exemple

Considérons M priors exponentiels

θ ∼ πi (θ) = λi exp(−λi θ)1{θ≥0}

Quelle est la loi-fusion logarithmique ?

⇒ stabilité de la famille de lois par fusion logarithmique ⇒ similarité avec une

inférentielle bayésienne croissante, indépendante de l’ordre d’arrivée des informations


(ex : échantillons virtuels)
Exemple

Considérons M priors exponentiels

θ ∼ πi (θ) = λi exp(−λi θ)1{θ≥0}

Quelle est la loi-fusion logarithmique ?

⇒ stabilité de la famille de lois par fusion logarithmique ⇒ similarité avec une

inférentielle bayésienne croissante, indépendante de l’ordre d’arrivée des informations


(ex : échantillons virtuels)
Approche Supra-Bayes

Cas d’experts dépendants produisant des données

Mise en place d’un modèle à effets aléatoires


Autres difficultés majeures

Dans la pratique, pas facile de réunir plus de 25 experts....

Comment faire dans un cas multivarié ?

1. Réduire la dimension de la variable d’ancrage


2. Travailler conditionnellement
3. Travailler dimension par dimension
4. Placer une structure de corrélation (ex : copules)

Comment réduire l’effet des biais, de la subjectivité ?


Réduction des biais : une nécessité

Les experts sont soumis à de nombreux biais :


1. les biais de situation, dus au filtre mental de l’expert vis-à-vis de la réalité,
incluant :
I les biais cognitifs liés aux limites intellectuelles, et à la difficulté de réviser
son jugement lorsque de nouvelles informations arrivent
I les biais motivationnels liés au processus d’élicitation et à la pression de
l’environnement
2. les biais de confiance excessive : une valeur vraie affirmée par un expert avec
90% de chance se situe en réalité autour de 30 à 60%, la moyenne de l’expert
correspond à la médiane

Une grande littérature de recherche, établissant des ponts avec la psychologie des
individus et des groupes, est consacrée à la réduction des biais (ex : Tversky et Kahneman
1973, 1979)
Échelle de Morgan (2014)
Limiter l’effet des biais en choisissant soigneusement les experts

Un nombre infini de conceptions de l’expert

Deux conceptions majeures [Weinstein1993]

1. ceux dont l’expertise résulte de ce qu’ils font (expertise performative)


2. ceux dont l’expertise résulte de ce qu’ils ont appris (expertise épistémique) ceux
dont l’expertise résulte de ce qu’ils ont appris (expertise épistémique)

Une caractérisation usuelle, avec la capacité d’expliquer et de transmettre. Par ailleurs,


pour Luntley (2009) :

I argue that what differentiates the epistemic standpoint of experts is not what or how
they know [...], but their capacity for learning
Limiter l’effet des biais en choisissant soigneusement les experts

Un nombre infini de conceptions de l’expert

Deux conceptions majeures [Weinstein1993]

1. ceux dont l’expertise résulte de ce qu’ils font (expertise performative)


2. ceux dont l’expertise résulte de ce qu’ils ont appris (expertise épistémique) ceux
dont l’expertise résulte de ce qu’ils ont appris (expertise épistémique)

Une caractérisation usuelle, avec la capacité d’expliquer et de transmettre. Par ailleurs,


pour Luntley (2009) :

I argue that what differentiates the epistemic standpoint of experts is not what or how
they know [...], but their capacity for learning
Comment voulons-nous idéalement interpréter ("formaliser") ce qu’est un expert

On parlera plutôt de système expert produisant une nouvelle connaissance

Typiquement :
I systèmes cognitifs implicites
I humains
I intelligences artificielles (néo-connexionnistes)
I systèmes causaux explicites
I modèles phénoménologiques et leurs implémentation numériques
(modèles de simulation)
I intelligences artificielles symboliques

Capacité à démontrer l’expertise ⇔ capacité à prévoir/"prédire" de façon adéquate

Capacité d’apprentissage ⇔ capacité à inférer de façon cohérente quand de nouvelles


données arrivent
Limiter l’effet des biais en interprétant statistiquement l’information a priori

La statistique bayésienne est une théorie de la décision : elle suppose que l’expert peut
être "formalisé" comme un décideur

Vision subjectiviste, progressivement développée par Ramsey, Savage, De Finetti et


Koopman

Mais quelle pertinence accorder à un avis d’expert non indifférent au risque (ex :
L’Aquila 2009)
Quelle spécification est la plus courante ?

L’information apportée dans les expérimentations est généralement traduite sous


forme de quantiles a priori prédictifs (xαi , αi )1≤i≤N , tels que αi < αi+1 et
xαi < xαi+1 , définis par
Z
(X ≤ xαi ) = (X ≤ xαi |θ) π(θ) dθ, (1)
Θ
= αi ,

Plusieurs arguments en faveur de ce choix (Berger 1985, Kadane 1992, etc.)


Quantiles a priori prédictifs

1. X = variable d’ancrage (usuellement θ ne l’est guère...)


2. une distribution peut ne pas avoir d’espérance ou de variance, mais elle a
toujours des quantiles...
3. les informations expertes délivrées par un expert peuvent généralement être
considérées comme corrélées : c’est en s’exprimant sur une valeur de X qu’une
autre valeur de X peut être positionnée
I dépendantes mais échangeables

4. il est relativement aisé de relier l’expression d’un couple (xαi , αi ) à


l’interprétation statistique précédente par le biais d’une fonction de coût

⇒ cadre décisionnel en statistique bayésienne


Cadre décisionnel (résumé)
Prendre une décision = minimiser une fonction de coût

En "proposant" une décision d vivant dans un espace D, l’expert est vu comme


minimisant un coût L(θ, d) définissant une discrépance (divergence, etc.) entre d et la
décision optimale qui aurait être prise si l’on connaissait l’état inconnu du monde
synthétisé par θ
I si le but est d’estimer θ alors D = Θ
I si le but est de mener un test, D = {0, 1}

Pour définir un ordre total sur les récompenses possibles (gains) associées aux
décisions, on suppose qu’une décision en univers incertain (puisque θ est aléatoire)
correspond à une fonction de coût moyennée sur la connaissance de θ, c’est-à-dire sur
π(θ)
Z
d∗ = arg min L(θ, d)π(θ) dθ
d∈D Θ

1. Le principe de minimiser l’espérance est un axiome de rationalité (qui peut être


critiqué)
2. lorsqu’on dispose d’observations réelles xn , on remplace π(θ) par π(θ|xn ) ⇒
décision mimimisant un risque de Bayes
Choix d’une fonction de coût L(θ, d)

La fonction de coût L est l’élément fondamental du choix d’un estimateur

Le choix dépend du contexte décisionnel et s’écrit souvent sous la forme

L = Coût financier, etc. − Bénéfice

Une alternative, lorsqu’il est difficile de la construire, est de faire appel à des fonctions
de coût usuelles, mathématiquement simples et de propriétés connues

L’idée est simplement de construire une “distance" usuelle entre θ ∈ Θ et d ∈ D


permettant une bonne optimisation (convexe par exemple)
Exemple 1 : fonction de coût quadratique (Legendre 1805, Gauss 1810)

Soit D = Θ. On pose

L(θ, δ) = (θ − d)2 (2)

Critère d’évaluation le plus commun, convexe, mais pénalise très (trop) fortement les
grands écarts peu vraisemblables

Justifié par sa simplicité (Gauss), le fait qu’il produit des estimateurs de Bayes
intuitifs, et qu’il peut être vu comme le DL d’un coût symétrique complexe

Proposition
l’estimateur de Bayes associé à toute loi a priori π et au coût (2) est
l’espérance (moyenne) de la loi a posteriori π(θ|xn )
Exemple 2 : fonction de coût absolu (Laplace 1773) ou linéaire

Soit D = Θ et dim Θ = 1. On pose

L(θ, δ) = |θ − d| (3)

ou plus généralement une fonction linéaire par morceaux



c2 (θ − d) si θ > d
Lc1 ,c2 (θ, δ) = (4)
c1 (d − θ) sinon

Tout en étant convexes, elles croissent plus lentement que le coût quadratique et ne
surpénalisent pas les erreurs grandes peu vraisemblables

Proposition
l’estimateur de Bayes associé à toute loi a priori π et au coût (4) est le
fractile c2 /(c1 + c2 ) de la loi a posteriori π(θ|xn )

En particulier, la médiane de la loi a posteriori est l’estimateur de Bayes lorsque


c1 = c2 (qui sont donc des coûts associés à la sous-estimation et la surestimation de θ)
Exemple dans un cadre de fiabilité industrielle (1/2)

X = durée de vie d’un composant Σ, supposé tomber uniquement en panne par hasard

Le taux de défaillance λ de Σ est donc constant, ce qui implique X ∼ E(λ)


Un expert industriel est familier de λ

Dialogue avec l’expert :

1. Considérons une décision de management (remplacement) établie sur une valeur


donnée λ̄ (différente de la vraie valeur inconnue λ)
2. Pour un coût similaire |λ̄ − λ|, il y a 2 conséquences possibles au
remplacement :
I soit C1 le coût positif moyen d’être trop optimiste (d’avoir λ̄ ≤ λ)
I soit C2 le coût positif moyen d’être trop pessimiste (d’avoir λ̄ > λ)

3. Pouvez-vous donner un estimé δ̂ du rapport des coûts moyens δ = C2 /C1 ?

L’axiome de rationalité dit que si l’expert n’est pas averse au risque, alors
Z ∞
|x − λ| C1 1{x≤λ} + C2 1{x>λ} π(λ) dλ

λ̄ = arg min
x 0
| {z }
fonction de coût intégrée sur toutes les valeurs possibles a priori du vrai λ
Exemple dans un cadre de fiabilité industrielle (2/2)

Z λ̄ C1
Il s’ensuit que dΠ(λ) = Π(λ < λ̄) =
0 C1 + C2

L’interprétation de la réponse de l’expert est que 1/(1 + δ̂) est un estimé du quantile a
priori d’ordre α = C1 /(C1 + C2 )

Avec P(λ < λ̄) = C C+C


1
= α, on a :
1 2
I tant que les coûts sont équilibrés, un expert de plus en plus optimiste fournira un
λ̄ de plus en plus petit, car la durée moyenne avant la prochaine défaillance est
1
E[X |λ] =
λ
I cependant l’expert s’exprime plutôt sur les coûts lorsqu’on lui fournit une valeur
représentative de λ̄
I plus l’expert est optimiste, plus le coût C2 d’être optimiste (selon lui) est
petit, donc α grandit vers 1 et

E[X ] = E[E[X |λ]] = E[1/λ] augmente


I plus l’expert est pessimiste, plus le coût C2 d’être optimiste augmente,
donc α tombe vers 0 et

E[X ] = E[1/λ] diminue


Limiter l’effet des biais en interprétant statistiquement l’information a priori

Spécifier statistiquement doit permettre de rendre lisible les choix subjectifs

Le choix de la forme de π(θ) (notre prochain défi) doit également permettre de


condenser ces choix subjectifs dans certains hyperparamètres
OK, mais a-t-on fondamentalement le droit d’utiliser des probabilités pour
modéliser un avis d’expert ?

Question importante dès qu’on parle de responsabilité, de certification....


De l’information à la connaissance (et réciproquement)

Hypothèse 1 (épistémologique) par Lakatos (1974)


I L’information sur l’état de la nature est cachée et partiellement révélée par une
théorie consensuelle (au sens de Popper (1972) : par décision mutuelle des
protagonistes) définissant l’objectivité [Gelman2015]
I La connaissance est un "filtrage" de l’information
I Ce filtrage est produit par l’intervention de symboles, ou signes, afin de la
transmettre ou de l’implémenter

Hypothèse 2 (issue des neurosciences)


[Sanders2011,Salinas2011,Pouget2013,Gold2013,Dehaene2014,Chan2016]

I Face à des situations où de l’information incertaine est mobilisée, le


raisonnement humain produit des inférences probabilistes
I Les difficultés apparaissent au moment de l’explicitation de cette information
par langage interprétatif ⇒ expertise utilisable
De l’information à la connaissance (et réciproquement)

Hypothèse 1 (épistémologique) par Lakatos (1974)


I L’information sur l’état de la nature est cachée et partiellement révélée par une
théorie consensuelle (au sens de Popper (1972) : par décision mutuelle des
protagonistes) définissant l’objectivité [Gelman2015]
I La connaissance est un "filtrage" de l’information
I Ce filtrage est produit par l’intervention de symboles, ou signes, afin de la
transmettre ou de l’implémenter

Hypothèse 2 (issue des neurosciences)


[Sanders2011,Salinas2011,Pouget2013,Gold2013,Dehaene2014,Chan2016]

I Face à des situations où de l’information incertaine est mobilisée, le


raisonnement humain produit des inférences probabilistes
I Les difficultés apparaissent au moment de l’explicitation de cette information
par langage interprétatif ⇒ expertise utilisable
Logique de l’information incertaine

Axiome posé sur une expertise


Considérons une proposition A on X . Sachant BX , la plausibilité [A|BX ] est un nombre
réel, supérieurement borné par un nombre (fini ou infini) T

1. Règle de reproductibilité : deux assertions équivalentes sur X ont la même


plausibilité
2. Règle de non-contradiction : s’il existe plusieurs approches aboutissant aux
même conclusions sur X , celles-ci ont la même plausibilité
3. Règle de consistence : la logique ne peut formuler une conclusion contredite par
les règles élémentaires de déduction (ex : transitivité)
4. Règle d’intégrité : la logique ne peut exclure une partie de l’information sur X
pour parvenir à une conclusion sur X
5. Règle de monotonie : la plausibilité d’une union non exclusive de deux assertions
est au moins égale à la plus grande des plausibilités de chacune des assertions
prises séparément
6. Règle de produit : la plausibilité de l’intersection de deux assertions est au plus
égale à la plus petite des plausibilités de chacune des assertions prises
séparément
Théorème de représentation de Cox-Jaynes

Prouvé originellement (mais avec erreurs) par Cox (1946), mieux formalisé par Jaynes
(1954), étendu plus rigoureusement par Paris (1994), Van Horn (2003), Dupré and
Tipler (2009) (entre autres) et finalisé par Terenin and Draper (2015)
Théorème
Sous les hypothèses précédentes, il existe une fonction P, croissante et continue, telle
que pour toute proposition A, C et tout ensemble BX consistant,
(i) P([A|BX ]) = 0 si et seulement si A est fausse étant donnée
l’information sur X
(ii) P([A|BX ]) = 1 si et seulement si A est vraie étant donnée
l’information sur X
(iii) 0 ≤ P([A|BX ]) ≤ 1
(iv) P([A ∧ C |BX ]) = P([A|BX ])P([C |A, BX ])
(v) P(¬[A|BX ]) = 1 − P([A|BX ])

Tout système de raisonnement plausible, sous les hypothèses précédentes, est


isomorphe à la théorie des probabilités
Un théorème fondamental en intelligence artificielle

Goertzel (2013) a prouvé que si la règle de consistance était affaiblie, alors les
plausibilités se comportent approximativement comme des probabilités

La théorie des probabilités est pertinente pour représenter les incertitudes sur un sujet
exploré par un systèmes cognitif implicite (humain ou artificiel) qui pourrait ne pas
être complètement consistant

De nombreux auteurs en intelligence artificielle [Walley1996], épistémologie


et en sciences cognitives reconnaissent la pertinence pratique de cette
[Barberousse2008]
axiomatique pour extraire et mettre à jour de l’information, en utilisant la règle de
Bayes
Critique de l’axiome de non-ambiguïté

Axiome
Considérons une proposition A on X . Sachant BX , la plausibilité [A|BX ] est un nombre
réel, supérieurement borné par un nombre (fini ou infini) T

La “relaxation" la plus commune de cet axiome est que deux dimensions sont
nécessaires pour représenter correctement la plausibilité d’une proposition

À l’origine de la théorie des croyances [Smets1991] et de la théorie des possibilités


[Dubois2012]

Des expériences ont montré que cette relaxation est parfois nécessaire quand la
plausibilité est interprétée comme le résumé d’une croyance personnelle, d’un pari

Néanmoins, cette “relaxation" reste arbitraire, et s’établit usuellement sur une


interprétation de la nature de la connaissance (exprimée à travers un langage), et non
sur la nature de l’information (exprimée par la réalité physique ou un modèle idéalisé
de cette réalité) [Snow1998]
Problèmes conceptuels et pratiques de l’interrogation d’expert

Les experts sont soumis à de nombreux biais qui limitent parfois la pratique bayésienne
subjective, fondée sur une interprétation décisionnelle de leurs opinions sous des
contraintes d’indifférence au risque

Une grande littérature de recherche, établissant des ponts avec la psychologie des
individus et des groupes, est consacrée à la vérification des contraintes (cf. Tversky et
Kahneman 1973)

D’autres théories de la représentation de la connaissance ont émergé depuis les années


1960 (ex : logique floue)

Il n’en reste pas moins que la statistique bayésienne offre un cadre décisionnel
cohérent (de par le respect des axiomes des probabilités), pratique, et que les experts
sont souvent la seule source d’information disponible, qui puisse permettre d’effectuer
des prévisions dans un processus décisionnel
Quelques références (1/2)

Pegny2012 Pegny, M. (2012). Les deux formes de la thèse de Church-Turing et


l’épistémologie du calcul. Philosophia Scientiae
Lakatos1974 Lakatos, I. (1974). Falsification and the methodology of scientific
research programmes. In : Criticism and the Growth of Knowledge, I.
Lakatos and A. Musgrave (eds.) Cambridge University Press
Popper1972 Popper, K. (1972). Objective Knowledge. Oxford : Clarendon Pr
Gelman2015 Gelman, A., Hennig, C. (2015). Beyond subjective and objective in
statistics. JRSS Ser. A
Sanders2011 Sanders, L. (2011). The Probabilistic Mind. Science News
Salinas2011 Salinas, E. (2011). Prior and prejudice. Nature Neuroscience
Pouget2013 Pouget, A. et al. (2013). Probabilistic brains : knowns and
unknowns. Nature Neuroscience
Gold2013 Gold, J.I., Heekeren, H.R. (2013). Neural Mechanisms for Perceptual
Decision Making. In : Neuroeconomics, P.W. Glimcher and R. Fehr
(eds)
Dehaene2014 Dehaene, S. (2014). Consciousness and the Brain : Deciphering How
the Brain Codes our Thoughts. Viking Press
Chan2016 Chan et al. (2016). A probability distribution over latent causes, in
the orbifrontal cortex. The Journal of Neuroscience
Jaynes 1954 Jaynes, E.T. (1954). Probability Theory : The Logic of Science.
Cambridge University Press
Quelques références (2/2)
Cox 1946 Cox, R.T. (1946). Probability, Frequency and Reasonable
Expectation. AJP
Paris 1994 Paris J.B. (1994). The Uncertain Reasoner’s Companion : a
Mathematical Perspective. Cambridge University Press
Van Horn 2003 Van Horn, K.S. (2003). Constructing a logic of plausible inference :
a guide to Cox’s theorem. IJAP
Dupré 2009 Dupré, M.J, Tipler, F.J. (2009). New axioms for rigorous Bayesian
probability. BA
Terenin 2015 Terenin, A., Draper, D. (2015). Rigorizing and extending the
Cox-Jaynes Derivation of Probability : Implications for Statistical
Practice. arXiv :1507.06597
Goertzel 2013 Goertzel, B. (2013). Probability Theory Ensues from Assumptions of
Approximate Consistency : A Simple Eerivation and its Implications
for AGI. Proceedings of AGI-13
Walley1996 Walley, P. (1996). Measures of uncertainty in expert systems.
Artificial Intelligence
Barberousse2008 Barberousse, A. (2008). La valeur de la connaissance approchée.
L’épistémologie de l’approximation d’Émile Borel. Revue d’Histoire
des Mathématiques
Smets1991 The transferable belief model and other interpretations of
Dempster-Schafer’s model. In : Uncertainty in Artificial Intelligence,
vol. 6, Elsevier.
Dubois2012 Dubois, D., Prade, H. (2012). Possibility Theory. Springer
Snow1998 Snow, P. (1998). On the correctness and reasonableness of Cox’s
theorem for finite domains. Computational Intelligence
3 - Décider d’une ou plusieurs structures algébriques pour
π(θ)

On suppose avoir spécifié statistiquement l’information a priori

Comment à présent décider de la forme du prior, càd sa structure algébrique ?

Choix d’une loi uniforme, d’une loi normale ... ?

On fera appel à des notions de cohérence entre cette forme et celle du modèle
d’échantillonnage f (x|θ)
Cohérence intrinsèque du modèle bayésien (1/2)

Le prior π(θ) n’est pas un modèle d’erreur sur le modèle d’échantillonnage


X ∼ f (·|θ)

Au contraire, il “aide" le modèle f (·|θ) en favorisant des zones de Θ favorables pour la


production de réalisations X1 , . . . , Xn , . . . pertinentes / plausibles d’après la
connaissance de la structure algébrique de f (·|θ)

Règle du "pouce"
Soit If (θ) une mesure quantifiant l’information relative à θ contenue dans la structure
algébrique de f (·|θ). Le modèle bayésien est intrinsèquement incohérent (internally
incoherent) si I (θ) diminue lorsque π(θ) croît.

Un choix classique pour If (θ) est l’information de Fisher (lorsqu’elle existe)


" 2 #

If (θ) = Ef log f (X |θ) |θ
∂θ
Rappels sur l’information de Fisher

I If (θ) correspond à la variance de la fonction de score (d’espérance nulle)



∂θ
log f (X |θ)
I Elle est additive : l’information de Fisher associée à la somme de deux variables
aléatoires indépendantes est la somme des informations de Fisher
I Soit une statistique S(X ) sur X , de loi fS . Alors

IfS (θ) ≤ If (θ)

avec égalité si et seulement si S(X ) est exhaustive


Exemple : modèle exponentiel

Soit f (x|θ) = θ exp(−θx) et Θ = IR∗+

Alors l’information de Fisher est If (θ) = 1/θ2

On devrait par exemple éviter tout prior π(θ) tel que


π(θ) θ→∞
−−−−→ c>0
θ2
Cohérence intrinsèque du modèle bayésien (2/2)

Dans un cas multidimensionnel (dim Θ > 1), l’information de Fisher est une matrice
dont :
I le déterminant définit le volume de la variété statistique définie par la famille
f (·|θ)
I l’inverse est la borne de Cramér-Rao = la plus petite covariance atteignable d’un
estimateur sans biais de θ

La croissance de l’information se reflète dans la croissance de det If (θ)

La structure de If−1 (θ) donne des indications sur la géométrie de l’information


cohérente avec le modèle d’échantillonnage
Exemple : modèle gaussien

θ = (µ, σ 2 ) ∈ IR × IR∗+ et x ∈ IR

(x − µ)2
 
1
f (x|θ) = √ exp −
2πσ 2 2σ 2

L’information de Fisher est

1/σ 2
 
0
If (θ) =
0 1/2σ 2

⇒ aucune restriction sur π(µ) de support IR

⇒ on devrait éviter des situations telles que

π(σ 2 ) σ→∞
−−−−→ c>0
σ2
Exemple : modèle de Weibull

θ = (η, β) ∈ IR∗+ × IR∗+ et x > 0

 β−1  n o 
β
β x
f(x|θ) = η η
exp − ηx
Le déterminant de l’information de Fisher est det If (θ) ∝ β −1 η β−1

Couche “métier" en analyse de survie : un β fort ⇔ faible Mean Time To Failure ⇔


faible η

Gris clair : courbes isodensités d’un prior cohérent


Gris foncé : courbes isodensités d’un prior incohérent
Approche formelle - principe de Jeffreys

La racine carrée de det If (θ) (prior de Jeffreys) :


p
π J (θ) ∝ det If (θ)

I résume l’information relative à θ contenue dans la structure de f (·|θ)


I est algébriquement invariante par tout changement de variable bijectif η = g (θ)

Un prior π(θ) a des chances accrues d’être intrinsèquement cohérent si


 
π(θ) ∝ h ◦ π J (θ) k(θ)

où h(·) est une fonction croissante et k(·) est une fonction qui ne "lutte" pas contre la
cohérence

Exemples à venir
I Les priors conjugués sont cohérents
I Les priors construits par maximum d’entropie relativement à π J (θ) sont
cohérents
Recette pratique

Cette notion de cohérence se formalise réellement en utilisant des outils


d’interprétation par géométrie différentielle de l’information, mais elle est difficile à
manier dans la pratique (sauf pour des familles de modèle simples, comme les lois de
la famille exponentielle naturelle)

Une lecture empirique des propriétés de la structure algébrique du modèle


d’échantillonnage peut être faite par simulation / estimation ponctuelle

Pour des valeurs θi et des valeurs ni ≥ dim Θ :


1. simuler des échantillons x1 , . . . , xni ∼ f (x|θi )
2. estimer θi par θ̂i,ni (maximum de vraisemblance, invariant par
reparamétrisation)
Comparer la structure de corrélation du nuage des θ̂i,ni , . . . , θ̂j,nj avec la
structure de corrélation de π(θ)

Une approche plus satisfaisante (mais plus coûteuse) est de générer

θ̂i,ni ∼ π J (θ|x1 , . . . , xni )

où π J est non informatif (voir plus loin) cf. TP 3


Aparté

Il existe des techniques, développées notamment par Tony O’Hagan, de vérification de


structures algébriques de lois a priori adaptées

Les queues de ces lois doivent être suffisamment légères pour que l’information a priori
devienne extrêmement faible lorsque le prior "s’écarte" de la vraisemblance dans la
règle de Bayes

Ce sera à mettre en relation avec la notion d’accord entre prior et données (voir plus
loin)
Élicitation par maximum d’entropie

Procédure formelle de construction d’un a priori π(θ) sous un certain type de


contraintes exprimant des connaissances quantitatives

Principe : on recherche un π(θ) dans la classe de mesures de probabilités la plus large


possible respectant ces contraintes

L’entropie est définie comme un indice de désordre (ou d’ignorance) associé à une
distribution de probabilité

Elle est un élément important de la théorie de l’information

La mise en oeuvre de ce principe aboutit à une classe de distributions importantes : la


famille exponentielle
Le concept d’entropie (1/4)

À l’origine du concept d’entropie, un problème de recherche (tri) d’une information


discrétisée :

Soit N sites numérotés de 1 à N où une information recherchée peut être présente

On suppose ne pouvoir poser que des questions à réponse binaire (oui ou non)

Stratégie 1 : on peut visiter chaque site et poser la question de la présence de


l’information : N questions

Stratégie 2 (dichotomique) : si ∃Q2 ∈ IN tel que N = 2Q2 , on range les sites en 2 parties
et on pose la question d’appartenance au premier ou au second groupe. En itérant ce
procédé, on peut trier en Q2 = log2 N questions

Lien avec la théorie de l’information : Q2 s’interprète comme le nombre de bits (binary


digits) nécessaire à l’écriture de N en base 2, càd la longueur du mot à utiliser pour
coder N dans un alphabet de 2 caractères
Le concept d’entropie (2/4)

Si on imagine un autre alphabet de c caractères, le nombre minimal de questions sera


log N
Qc = logc N = log2 c = log N
log c
2

Si on suppose inconnue la taille de l’alphabet (donc la nature des questions posées), le


nombre de questions à poser pour identifier un site parmi N est, à une constante
multiplicative près,

Q = log N (logarithme naturel)

Une généralisation : on suppose qu’il existe une partition de k aires géographiques et


que chaque aire contienne Ni = N × pi sites, avec i = 1, . . . , k
I il suffit de poser Qi0 = log Ni = log pi + log N questions pour trier l’aire i
I en moyenne sur l’ensemble des aires, on trie avec Q 0 = ki=1 pi Qi0 questions
P
Le concept d’entropie (3/4)

Le fait de savoir en probabilité dans quelle aire est l’information réduit le nombre de
questions à poser en moyenne de la quantité

k
X
∆Q = Q − Q0 = − pi log pi
i=1

quantité positive et maximale quand pi = 1/k

Moins la distribution de probabilité Π = (p1 , . . . , pk ) est informative, plus cette


quantité est grande

Définition
L’entropie d’une variable aléatoire finie de distribution
Π = (π(θ1 ), . . . , π(θk )) est

k
X
H = − π(θi ) log π(θi ) (entropie de Shannon)
i=1
Le concept d’entropie (4/4)

Généralisation au continu :
I le cas discret correspond à une partition fine de Θ en k intervalles dont
l’étendue individuelle tend vers 0
I le résultat dépend de la mesure de partitionnement sur Θ
I l’entropie doit être invariante par tout changement de variable θ 7→ ν(θ)

Définition
L’entropie d’une variable aléatoire (continue) décrite par sa distribution
de probabilité π(θ) est
Z
π(θ)
H(π) = − π(θ) log dθ (entropie de Kullback)
Θ π0 (θ)

où π0 (θ) est une mesure (positive) de référence sur Θ. S’il s’agit d’une mesure de
probabilité, elle représente l’ignorance complète de la valeur θ sur Θ

Très généralement π0 (θ) est choisie comme la densité uniforme sur Θ

Remarque : elle n’est plus forcément positive, mais elle est maximale en π(θ) = π0 (θ)
Maximisation de l’entropie sous contraintes linéaires (1/2)

Objectif : éliciter π(θ) aussi vague que possible, soit


Z
π(θ)
π ∗ (θ) = arg max − π(θ) log dθ (5)
π∈P Θ π0 (θ)

dans l’ensemble P des mesures positives, sous M contraintes de forme de type linéaire
Z
gi (θ)π(θ) dθ = ci , , i = 1, . . . , M
Θ

Le problème (5) est similaire à la minimisation de la divergence de Kullback-Leibler


entre π(θ) et π0 (θ)

La première contrainte est toujours celle de normalisation :


Z
π(θ) = 1.
Θ
Maximisation de l’entropie sous contraintes linéaires (2/2)

Solution : si toutes les intégrales précédemment définies existent, la solution du


problème (5) est une mesure de forme structurelle

M
!
X
π ∗ (θ) ∝ π0 (θ) exp λi gi (θ)
i=1

Cette forme caractérise les lois de la famille exponentielle

Les (λ1 , . . . , λM ) ont le sens de multiplicateurs de Lagrange et doivent être calibrés en


résolvant les équations
Z
gi (θ)π ∗ (θ) = ci , , i = 1, . . . , M
Θ

Lorsque seule la contrainte de normalisation est supposée, alors

π ∗ (θ) = π0 (θ)

et correspond à une mesure (densité) de probabilité si et seulement si Θ est borné


(quand π0 est uniforme)
Exercice

Soit θ un paramètre réel tel que E[θ] = µ et soit π0 la mesure de Lebesgue sur IR .
Quelles sont les conditions d’existence du maximum d’entropie ? Quelle est la loi
correspondante ?

Supposons que Var[θ] = σ 2 . Mêmes questions


La famille exponentielle : une modélisation de X importante

Le principe de maximisation d’entropie peut aussi être appliqué à X


conditionnellement à θ, et elle permet de déboucher sur la famille paramétrée suivante

Définition
2 , et (R, T ) : Θ × Ω 7→ IR k × IR k . La famille
Soient (C , h) : Θ × Ω 7→ IR+
des distributions de densité

f (x|θ) = C (θ)h(x) exp {R(θ) · T (x)}

est dite famille exponentielle de dimension k. Si R est linéaire, et lorsque Θ ⊂ IR k et


Ω ⊂ IR k , on peut écrire plus simplement (à une reparamétrisation près)

f (x|θ) = h(x) exp {θ · x − ψ(θ)}

avec

Eθ [X ] = ∇ψ(θ) (gradient)

∂2ψ
cov(Xi , Xj ) = (θ)
∂θi ∂θj

On parle alors de famille exponentielle naturelle


Exemples

Loi de Dirichlet. (extension de la loi bêta)

k
Γ( ki=1 θi ) Y θi −1
P
f (x|θ) = Qk xi 1{Sk (x)}
i=1 Γ(θi ) i=1

( )
k
P
définie sur le simplexe Sk (x) = x = (x1 , . . . , xk ); xi = 1, xi > 0
i=1

Vecteur gaussien. Si xn = (x1 , . . . , xn ) ∼ Np (µ, σ 2 Ip ), alors la distribution jointe


satisfait (résultat à retrouver)

n
!
X
f (xn |θ) = C (θ)h(xn ) exp nx̄ · (µ/σ 2 ) + kxi − x̄k2 (−1/2σ 2 )
i=1

Pn
avec θ = (µ, σ), et la statistique (x̄, i=1 kxi − x̄k2 ) est exhaustive pour tout n ≥ 2
Une propriété majeure de la famille exponentielle : la conjugaison

Soit X |θ une loi construite par maximum d’entropie, de densité de forme :


 
L
X
f (x|θ) = exp  Tj (x)dj (θ)
j=1

Si, de plus, la loi a priori π(θ) est également construite par maximum d’entropie :

M
!
X
π(θ) ∝ ν(θ) exp λi gi (θ)
i=1

Alors, sachant l’échantillon xn = (x1 , . . . , xn ), la loi a posteriori est ...


 
M L
" n #
X X X
π(θ|xn ) ∝ ν(θ) exp  λi gi (θ) + Tj (xk ) dj (θ)
i=1 j=1 k=1

L’a priori est alors dit conjugué


Dans l’écriture plus conventionnelle de la famille exponentielle naturelle

Soit

f (x|θ) = h(x) exp(θ · x − ψ(θ))

alors la mesure a priori générée automatiquement par

π(θ|a, b) = K (a, b) exp(θ · a − bψ(θ))

lui est conjuguée (naturelle), et la mesure a posteriori sachant une donnée x est

π(θ|a + x, b + 1)

K (a, b) est la constante de normalisation


Z −1
K (a, b) = exp(θ · a − bψ(θ))
Θ

˚
qui est finie si b > 0 et a/b ∈ IN
Quelques lois a priori conjuguées pour quelques familles exponentielles usuelles

tiré de C.P. Robert (2006)


Justification de l’intérêt de la conjugaison

Raisonnement d’invariance :
I l’information x ∼ f (x|θ) transformant π(θ) en π(θ|x) est limitée
I donc elle ne devrait pas entraîner une modification de toute la structure de
π(θ), mais simplement de ses hyperparamètres :

π(θ) = π(θ|δ) ⇒ π(θ|x) = π(θ|δ + s(x))

I cette modification devrait être de dimension finie, et un changement plus radical


de π(θ) est peu acceptable

Une autre justification est le recours aux données virtuelles (cf. transparent suivant)

En pratique, l’intérêt de la conjugaison est la commodité de traitement


Interprétation des hyperparamètres des lois conjuguées naturelles

Soit l’a priori conjugué

π(θ|x0 , m) ∝ exp {θ · x0 − mψ(θ)} (6)

alors l’espérance a priori prédictive est

x0
E[X ] = E[E[X |θ]] = E [∇ψ(θ)] =
m

et l’espérance a posteriori prédictive, sachant un échantillon xn = (x1 , . . . , xn ), est

x0 + nx̄
E[X |xn ] = (7)
m+n

Autrement dit, m a le sens d’une taille d’échantillon virtuelle, offrant une indication de
la “force" informative de l’a priori (d’un expert, etc.)

Théorème (Diaconis & Ylvisaker, 1979)


Si la mesure de référence est continue par
rapport à la mesure de Lebesgue, alors (7) ⇒ (6)
Exemple : vecteur de probabilité d’un processus répétitif multivarié

On considère X |θ suivant une loi multinomiale avec X = (X1 , . . . , Xd ) et


θ = (θ1 , . . . , θd ) tel que 0 ≤ θi ≤ 1 et di=1 θi = 1 :
P

n! k
P(X1 = k1 , . . . , Xd = kd |θ) = θ k1 . . . θ d d
k1 ! . . . kd ! 1

Prior de Dirichlet. (extension de la loi bêta)

P 
d d
Γ i=1 δi Y δ −1
f (θ|δ) = Qd θi i 1{Sd (θ)}
i=1 Γ(δi ) i=1

( )
d
P
définie sur le simplexe Sd (x) = x = (x1 , . . . , xk ); xi = 1, xi > 0
i=1
Exemple : matrice de covariance d’une loi gaussienne

Soient des observations x = (x1 , . . . , xn ) indépendamment issues d’une gaussienne


d−multivariée N (0, θ) de covariance θ.

On suppose prendre a priori

θ ∼ IW(Λ, ν)

la loi de Wishart inverse définie par la densité

|Λ|ν/2
 
− ν+d+1 1 −1

f (θ) = |θ| 2 exp − tr Λθ
2νd/2 Γd (ν/2) 2

où Γd est la fonction gamma multivariée

la loi a posteriori de θ est encore une Wishart inverse


Extensions des a priori conjugués pour les familles exponentielles (1/2)

Proposition
Soit F = {π(θ|a, b) = K (a, b) exp(θ · a − bψ(θ))} la famille conjuguée
naturelle de la famille exponentielle

f (x|θ) = C (θ)h(x) exp(θ · x)

Alors l’ensemble des mélanges de N lois conjuguées

N N
( )
X X
FN = ωi π(θ|ai , bi ); ωi = 1, ωi > 0
i=1 i=1

est aussi une famille conjuguée. A posteriori, on a

N
X
π(θ|x) = ωi0 (x)π(θ|ai + 1, bi + x)
i=1

avec

ωi K (ai , bi )/K (ai + 1, bi + x)


ωi0 (x) = PN
j=1 ωj K (aj , bj )/K (aj + 1, bj + x)
Extensions des a priori conjugués pour les familles exponentielles (2/2)

Définition
La distance de Prohorov entre deux mesures π et π̃ est définie par

D p (π, π̃) = inf {; π(A) ≤ π̃(A ) + }


A

où l’infimum est pris sur les ensembles boréliens de Θ et où A indique l’ensemble des
points distants de A d’au plus 

Les mélanges d’a priori conjugués peuvent alors être utilisés comme base pour
approcher une loi a priori quelconque, au sens où la distance de Prohorov entre une loi
et sa représentation par un mélange dans FN peut être rendue arbitrairement petite

Théorème
Pour toute loi a priori π sur Θ, ∀ > 0, on peut trouver N et π̃ ∈ FN tel
que

D p (π, π̃) < 

Argument très fort en faveur des lois conjuguées


Au-delà de la famille exponentielle : d’autres conjugaisons possibles

Certains modèles permettant des a priori conjugués n’appartiennent pas à une famille
exponentielle

Exemple 1 : loi de Pareto avec α > 0 connu, et θ > 0

θα
f (x|θ) = α 1]θ,∞[ (x)
x α+1

admet un a priori conjugué, qui est Pareto sur 1/θ

Exemple 2 : lois uniformes

1[−θ,θ] (x)
f (x|θ) =

1[0,θ] (x)
f (x|θ) =
θ
Distributions a priori non-informatives

Modéliser formellement une absence d’information a priori sur les valeurs de θ ∈ Θ


1. θ peut être artificiel : il s’agit d’un paramètre sans sens physique, biologique, etc.
2. Construire un a priori informatif comme a posteriori π(θ) = π0 (θ|ym ) où les ym
sont des données anciennes ou “virtuelles"
3. Souci d’une formalisation a priori objective : on cherche à minimiser les apports
subjectifs
4. Une loi a priori “vague" (ex : N (0, 1002 )) peut donner une fausse impression de
sécurité

Crûment, on peut voir π0 (θ) comme la “limite" d’un a priori subjectif (suivant une
certaine topologie)

Exemple : loi exponentielle X |λ ∼ E(λ) avec a priori gamma conjugué

b a a−1
π(λ|a, b) = λ exp(−bλ)1{λ≥0}
Γ(a)

et on fait tendre a et b vers 0 en un certain sens (q−convergence, cf. plus loin)


Impropriété (fréquente) des distributions a priori non-informatives

En général, les règles formalisant l’absence d’information (cf. plus loin) aboutissent à
des mesures qui sont σ−finies sur Θ mais qui ne sont pas des mesures de probabilité,
soit telles que
Z
π0 (θ) dθ = ∞
Θ

On parle alors abusivement de distributions impropres (plutôt que de mesures


non-intégrables)
R
Elles n’ont d’intérêt que si la distribution a posteriori est propre : Θ π0 (θ|xn ) dθ < ∞

Un argument fort en faveur des distributions impropres est la bonne performance des
estimateurs bayésiens a posteriori
I les estimateurs de Bayes restent admissibles (en général)
I on retombe souvent sur les estimateurs du maximum de vraisemblance (EMV)
I on peut voir comme des régularisateurs probabilistes de la vraisemblance
I ces outils réconcilient les cadres inférentiels fréquentiste et bayésien
Quelques remarques préliminaires

Le terme “non-informatif" peut être trompeur :

Les lois (ou distributions) non-informatives ne représentent pas une ignorance totale
sur le problème considéré

En effet, on connaît au moins la structure paramétrique X |θ ∼ f (x|θ)

Elles doivent être comprises comme des lois de référence ou choisies par défaut,
auxquelles on peut avoir recours quand toute information a priori est absente

Certaines sont donc plus utiles que d’autres...


Exercice

Soit θ ∈ [1, 2] le paramètre d’un modèle X ∼ f (.|θ). On suppose ne connaître rien


d’autre sur θ

Que peut-on dire de 1/θ ?

Quelle(s) loi(s) peu ou non-informative peut-on placer de façon cohérente sur θ et


1/θ ? Faire des tests sur machine avec la loi uniforme (par exemple)
Principes de construction d’a priori non informatifs

Exemple de Laplace (1773). Une urne contient un nombre n de cartes noires et


blanches. Si la première sortie est blanche, quelle est la probabilité que la proportion θ
de cartes blanches soit θ0 ?

Laplace suppose que tous les nombres de 2 à n − 1 sont équiprobables comme valeurs
de θn, donc que θ soit uniformément distribué sur 2/n, . . . , (n − 1)/n

Principe de raison insuffisante


En l’absence d’information, tous les événements
élémentaires sont équiprobables, et le même poids doit être donnée à chaque valeur du
paramètre, ce qui débouche automatiquement sur une distribution a priori uniforme
π(θ) ∝ 1

Difficulté 1 : Θ doit être fini pour que π(θ) soit propre

Difficulté 2 : incohérence du principe des événements équiprobables en termes de


partitionnement :
I si θ = {θ1 , θ2 } alors π(θ1 ) = π(θ2 ) = 1/2
I si on détaille plus, avec θ = {θ1 , ω1 , ω2 }, alors π(θ1 ) = 1/3
Le problème de l’invariance par reparamétrisation

Principe d’invariance par reparamétrisation


Si on passe de θ à η = g (θ) par une
bijection g , l’information a priori reste inexistante et ne devrait pas être modifiée

on a

π ∗ (η) Jac(g −1 (η)) π(g −1 (η)) = det ∂η π(g −1 (η))

= ∂θ

qui (en général) n’est pas constante si π(θ) = 1

Exemple : η = − log(1 − θ) ∼ E(1) si π(θ) = 1[0,1]


Principes d’invariance par reparamétrisation

On cherche à mieux préciser le sens de la “non-information" en tirant profit des


caractéristiques d’invariance du problème

Exemple 1 : paramètre de position. Si on peut écrire f (x|θ) = f (x − θ)


I la famille f est invariante par translation : si x ∼ f , alors y = x − x0 ∼ f ∀x0
I une exigence d’invariance est que π(θ) soit invariante par translation elle aussi :

π(θ) = π(θ − θ0 ) ∀θ0

Cette règle aboutit à une loi uniforme sur Θ

Exemple 2 : paramètre d’échelle. Si on peut écrire f (x|θ) = θ1 f (x/θ) avec θ > 0


I la famille f est invariante par changement d’échelle : y = x/θ0 ∼ f ∀θ0 > 0
I la loi a priori invariante par changement d’échelle satisfait π(A) = π(A/c) pour
tout ensemble mesurable A ∈]0, +∞[ et c > 0
 
1 θ
π(θ) = π
c c
et implique

π(θ) ∝ 1/θ

Dans ce deuxième cas, la mesure invariante n’est plus constante


Principe d’invariance intrinsèque et a priori de Jeffreys

Ces approches impliquent la référence à une structure d’invariance, qui peut être
choisie de plusieurs manières (voire ne pas exister)

Pour éviter ce choix, Jeffreys (1946) s’est intéressé à la matrice d’information de


Fisher I (θ) :
I soit θ ∈ Θ ⊂ IR d ; l’élément (i, j) ∈ {1, . . . , k}2 de Iθ est

∂2
 
Iij (θ) = −Eθ log f (x|θ)
∂θi ∂θj

(sous des conditions de régularité suffisantes pour l’existence)

Loi a priori de Jeffreys p


π(θ) ∝ det I (θ)

Pour tout changement de variable bijectif η = g (θ), on remarque que


p
π(η) ∝ det I (η)

L’a priori de Jeffreys vérifie donc un principe d’invariance (intrinsèque) par n’importe
quelle reparamétrisation
Une justification supplémentaire
I I (θ) est largement accepté comme un indicateur de la quantité d’information
apportée par le modèle (ou l’observation) sur θ (Fisher, 1956)
I I (θ) mesure la capacité du modèle à discriminer entre θ et θ + / − dθ via la
pente moyenne de log f (x|θ)
I Favoriser les valeurs de θ pour lesquelles I (θ) est grande équivaut à minimiser
l’influence de la loi a priori

L’a priori de Jeffreys est l’une des meilleures techniques automatiques pour obtenir des
lois non-informatives

Il est le plus souvent impropre, sauf pour des modèles pour lesquels Θ est borné ou/et
discret (Exemple binomial)

Il est généralement utilisé en dimension 1, où il permet d’obtenir des estimateurs


bayésiens similaires au maximum de vraisemblance

En multidimensionnel, le prior de Jeffreys peut mener à des incohérences ou des


paradoxes.
A priori de référence de Berger-Bernardo (1979, 1992)

Une autre construction mieux adaptée au cadre multidimensionnel

Principe

I La “distance" (divergence) de Kullback-Leibler entre a posteriori et a priori


Z
π(θ|xn )
KL(π, xn ) = π(θ|xn ) log dxn
Θ π(θ)

mesure l’information apportée par les données observées xn sur le modèle,


indépendamment de la paramétrisation θ

I L’idée est de maximiser KL(xn ) en π pour des données xn pouvant être


typiquement observées : elles sont générées par la loi a priori prédictive
(marginale)
Z
f (xn ) = f (xn |θ)π(θ) dθ
Θ

et pour s’affranchir du choix de la taille n, on fait tendre celle-ci vers ∞

soit π∗ = arg max lim Ef (xn ) [KL(π, xn )]


π n→∞
Caractéristiques principales

En dimension 1, on retombe sur la mesure de Jeffreys

Permet de résoudre des problèmes d’inconsistance a posteriori en dimensions


supérieures

Le résultat dépend de l’ordonnancement désiré des paramètres


I paramètres d’intérêt
I paramètres de nuisance

L’invariance par reparamétrisation est maintenue à l’intérieur des groupes (intérêt et


nuisance), sous des conditions de bijectivité

Méthodologie d’élicitation cependant moins automatique que Jeffreys, plus délicate à


mettre en pratique
Loi a priori coïncidante d’ordre i (coverage matching prior)

I Soit θn (α) le quantile a posteriori d’ordre α


I ∀α ∈ [0, 1], on peut construire une mesure a priori telle que

Pθ (θ ≤ θn (α)) = P (θ ≤ θn (α)|Xn ) + O(n−i/2 ).


| {z } | {z }
probabilité fréquentiste probabilité bayésienne

On peut créer des coverage matching priors comme solution d’une équation
différentielle stochastique

L’observation des propriétés de recouvrement fréquentiste permet de discriminer entre


plusieurs a priori dits de référence
Autres approches / TP

Maximal Data Information Prior

Unit Information Prior

cf. TP 4
Exemple dans un cadre de fiabilité industrielle (1/5)

X = durée de vie d’un composant Σ, supposé tomber uniquement en panne par hasard

Le taux de défaillance λ de Σ est donc constant, ce qui implique X ∼ E(λ)


Un expert industriel est familier de λ

Dialogue avec l’expert :

1. Considérons une décision de management (remplacement) établie sur une valeur


donnée λ̄ (différente de la vraie valeur inconnue λ)
2. Pour un coût similaire |λ̄ − λ|, il y a 2 conséquences possibles au
remplacement :
I soit C1 le coût positif moyen d’être trop optimiste (d’avoir λ̄ ≤ λ)
I soit C2 le coût positif moyen d’être trop pessimiste (d’avoir λ̄ > λ)

3. Pouvez-vous donner un estimé δ̂ du rapport des coûts moyens δ = C2 /C1 ?

L’axiome de rationalité dit que si l’expert n’est pas averse au risque, alors
Z ∞
|x − λ| C1 1{x≤λ} + C2 1{x>λ} π(λ) dλ

λ̄ = arg min
x 0
| {z }
fonction de coût intégrée sur toutes les valeurs possibles a priori du vrai λ
Exemple dans un cadre de fiabilité industrielle (2/5)

Z λ̄ C1
Il s’ensuit que dΠ(λ) = Π(λ < λ̄) =
0 C1 + C2

L’interprétation de la réponse de l’expert est que 1/(1 + δ̂) est un estimé du quantile a
priori d’ordre α = C1 /(C1 + C2 )

Avec P(λ < λ̄) = C C+C


1
= α, on a :
1 2
I tant que les coûts sont équilibrés, un expert de plus en plus optimiste fournira un
λ̄ de plus en plus petit, car la durée moyenne avant la prochaine défaillance est
1
E[X |λ] =
λ
I cependant l’expert s’exprime plutôt sur les coûts lorsqu’on lui fournit une valeur
représentative de λ̄
I plus l’expert est optimiste, plus le coût C2 d’être optimiste (selon lui) est
petit, donc α grandit vers 1 et

E[X ] = E[E[X |λ]] = E[1/λ] augmente


I plus l’expert est pessimiste, plus le coût C2 d’être optimiste augmente,
donc α tombe vers 0 et

E[X ] = E[1/λ] diminue


Exemple dans un cadre de fiabilité industrielle (3/5)

Attachons-nous maintenant à définir une forme a priori pertinente pour le décideur

On raisonne par données virtuelles


I L’a priori non-informatif de Jeffreys est utilisé pour modéliser l’absence
d’expertise et la simple connaissance du modèle

π0 (λ) ∝ λ−1 (paramètre d’échelle)

I L’information apportée par l’expert est assimilée à celle apportée par un


échantillon i.i.d.

xm ∼ E(λ)

I Un “bon" prior informatif pour λ est donc π(λ) = π0 (λ|xm ), soit

λ ∼ G(m, mx̄m )
Exemple dans un cadre de fiabilité industrielle (4/5)

χ22m (α)
Donc 2mx̄m λ ∼ G(m, 1/2) ≡ χ22m , d’où x̄m =
2mλ̄

Le décideur peut fixer arbitraitement m selon la confiance qu’il a en l’expert (ou mettre
un a priori hiérarchique dessus)

De plus, l’a priori est conjugué : sachant des durées de vie observées xn = (x1 , . . . , xn ),
la loi a posteriori de λ est

n
!
χ2 (α) X
λ|xn ∼ G m + n, 2m +n xi
2λ̄ i=1

L’ingénieur s’intéresse alors à la probabilité prédictive que Σ tombe en panne avant la


prochaine visite au temps x0
 m+n
Z ∞  x0 
P (X < x0 ) = P (X < x0 |λ) π(λ|xn ) dλ = 1 − 1/ 
1 + n

0 χ2
2m (α)
P 
2λ̄
+n xi
i=1

puis il peut introduire une fonction de coût, etc. pour prendre une décision
Illustration : cas non-informatif

10 données simulées selon E(λ0 ) avec λ0 = 1/10

densites prior / posterior probabilité de panne

1.0
15

0.8
0.6
10

0.4
5

0.2
0.0
0

0.0 0.1 0.2 0.3 0.4 0.5 0.6 5 10 15 20

lambda durée de fonctionnement


Illustration : m = 1, λ̄ = 1/5, α = 50% (expert peu informatif et pessimiste)

densites prior / posterior probabilité de panne

1.0
15

0.8
0.6
10

0.4
5

0.2
0.0
0

0.0 0.1 0.2 0.3 0.4 0.5 0.6 5 10 15 20

lambda durée de fonctionnement


Illustration : m = 10, λ̄ = 1/5, α = 50% (expert très informatif et pessimiste)

densites prior / posterior probabilité de panne

1.0
15

0.8
0.6
10

0.4
5

0.2
0.0
0

0.0 0.1 0.2 0.3 0.4 0.5 0.6 5 10 15 20

lambda durée de fonctionnement


Illustration : m = 10, λ̄ = 1/5, α = 5% (expert très informatif et très pessimiste)

densites prior / posterior probabilité de panne

1.0
15

0.8
0.6
10

0.4
5

0.2
0.0
0

0.0 0.1 0.2 0.3 0.4 0.5 0.6 5 10 15 20

lambda durée de fonctionnement


Exemple dans un cadre de fiabilité industrielle (5/5)

En fait, plus habituellement, l’expert préfère exprimer son opinion quantitative sur la
durée de vie X (= variable d’ancrage) que sur λ, car X est observable

Dans ce cas, il est assimilé à un fournisseur d’estimé du quantile prédictif a priori x̄ :


Z x̄ Z x̄ Z
f (x) dx = f (x|θ)π(θ) dθ = α
0 0 Θ

Cette interprétation est la plus acceptée en général dans la communauté statistique


bayésienne, c’est pourquoi les statisticiens fiabilistes préfèrent poser des questions
comme
I Sachant les temps x0 et x1 > x0 , Σ a 1 − α fois plus de chance de ne pas
tomber en panne après x0 qu’après x1 . Quelle est votre évaluation de 1 − α ?
Un exemple de modélisation a priori subjective non conjuguée en risque extrême (1)

Issu de Gaioni et al. (2010). Bayesian modeling of flash floods using generalized
extreme value distribution with prior elicitation (CJS).

Étude des crues éclairs de la rivière Sabine (Louisiane - Texas)


Données disponibles
Un exemple de modélisation a priori subjective en risque extrême (2)

Loi GEV sur les débits, de fonction de répartition


( )
x − µ −1/λ
  
F (x|θ) = exp − 1+λ
σ +

avec θ = (λ, µ, σ)

Un niveau de retour xq (θ) correspondant à une période inter-événements ' 1/q peut
être estimé en résolvant

q = F (xq |θ)

Information a priori. Un expert connaissant la rivière est capable de produire trois


couples d’estimateurs (qi , xqi ), tels que q1 < q2 < q3
Un exemple de modélisation a priori subjective en risque extrême (3)

Interprétation paramétrique de l’information a priori par les statisticiens ⇒ production


d’un système d’équations (en supposant λ 6= 0)

λ(x − qi − µ)
σ =
[− log qi ]−λ − 1
xqi Kj (λ) − xqj Ki (λ) λ
µ = où Ki (λ) = (xqi − µ)
Kj (λ) − Ki (λ) σ
3
X
0 = (xqi − xqj ) exp(− log(− log qi ))
i6=j=1

ce qui permet de produire un estimateur a priori θ̃

En interrogeant plusieurs experts, ou/et un expert pouvant fournir plus de détails, on


peut produire un échantillon d’estimateurs θ̃1 , . . . , θ̃k

Les caractéristiques de cet échantillon (moyenne, variance, covariance...) peuvent (en


théorie) être utilisées pour calibrer les hyperparamètres δ de π(θ|δ)

Posant δ = (θ0 , Σ), les auteurs proposent un a priori log-multinormal :


log θ ∼ N3 (log θ0 , Σ)
Une vision critique

Interprétation paramétrique 6= compréhension marginale : l’expertise s’applique sur la


variable d’ancrage X de loi
Z
f (X ) = f (x|θ)π(θ) dθ
Θ

et non sur f (x|θ)

Échantillon θ̃1 , . . . ,k de taille extrêmement faible en pratique ⇒ statistiques peu fiables

Pourquoi un choix lognormal ?


Quelques préoccupations majeures pour faire mieux (plus défendable)

I Se rapprocher de règles produisant des a priori conjugués dans les cas le


permettant
I Vérifier la cohérence de π(θ) vis-à-vis de la structure paramétrique de f (x|θ)
I Donner le maximum de signification aux hyperparamètres δ (notamment des
paramètres mesurant la “force" de l’information a priori par rapport à celle
apportée par les données utilisées dans la vraisemblance classique)

Une possibilité privilégiée : construire la loi a priori comme une loi a posteriori
approximative, sachant des données virtuelles x̃m et une mesure a priori non
informative π J (θ) :

π(θ) ' π J (θ|x̃m )

m reflète la force de l’information a priori et peut être modulée (dans une phase de
calibration ou d’analyse de sensibilité)

Permet de corréler automatiquement les dimensions de θ

⇒ virtual data pseudoposterior priors


Méthodologie (1)

Hypothèse 1 (Kadane-Berger) : il est possible d’exprimer de l’information a priori


sous la forme de la spécification d’un ou plusieurs quantiles prédictifs a priori (ou
marginaux) (xαi , αi )1≤i≤N , tels que αi < αi+1 et xαi < xαi+1 , définis par
Z
P (X ≤ xαi ) = P (X ≤ xαi |θ) π(θ) dθ
Θ

ou, pour des niveaux observés xαi , de fournir des estimateurs des αi

Arguments
I Ces informations sont corrélées (c’est en s’exprimant sur une valeur de X qu’une
autre valeur de X peut être positionnée)
I La distribution jointe des informations a priori reste invariante par toute
permutation de ces informations (l’ordre de proposition des quantiles ne devrait
pas importer)

Remarque : ne pas oublier que des fonctions de coût se cachent derrière


l’interprétation sous forme de quantiles !
Un aparté sur le théorème de De Finetti (1931)

Soit X1 , . . . , Xn , . . . une séquence échangeable de variables aléatoires binaires (0-1) de


probabilité jointe P. Alors il existe une mesure de probabilité unique π(θ) telle que
Z
P(X1 = x1 , kdots, X1 = xn , . . .) = f (x1 , . . . , xn , . . . |θ)π(θ) dθ
Θ

où f (x1 , . . . , xn |θ) est la vraisemblance d’observations iid de Bernoulli

Généralisé par Hewitt, Savage (1955), Diaconis, Freedman (1980) pour l’ensemble des
distributions discrétisées puis continues

Conséquences :
I La modélisation bayésienne apparaît comme une modélisation statistique
naturelle de variables corrélées mais échangeables
I L’existence formelle d’un prior π(θ) est assurée en fonction du mécanisme
d’échantillonnage
= { information incertaine à propos θ }
Méthodologie (2)

Pour une densité connue f (x|θ)


1. sélectionner une mesure a priori non informative π J (θ)
2. supposer qu’il existe un échantillon virtuel ~
xm de taille m portant l’information a
priori
3. construire une approximation de la loi a priori informative π(θ) ≡ π J (θ|~
xm )
comme

π(θ) = π(θ|∆m )

où ∆m est un ensemble de statistiques virtuelles


b m = arg min D (Λe , Λ(δ m ))
4. estimer ∆m par ∆
δm
I Λe sont des caractéristiques souhaitées a priori
I Λ(δ m ) sont des caractéristiques effectives de la loi a priori
I D est une distance ou divergence

sous des contraintes d’homogénéité


Méthodologie (3)

Ce qui empêche (actuellement) d’aboutir à une méthodologie complètement


formalisée est l’approximation à produire

On souhaite retrouver des lois simples

Pas de démarche unique


Exemple 1 : cas des extrêmes naturels

En notant θ = (µ, σ, ξ), on considère les trois lois d’extrême :


(  −1/ξ )
x −µ
Fréchet F (θ) : P(X < x|θ) = exp − (8)
σ
avec σ > 0, ξ > 0, µ ∈ IR et x ≥ µ,
(   )
µ − x 1/ξ
Weibull renversée W(θ) : P(X < x|θ) = exp − (9)
σ
avec σ > 0, ξ < 0, µ ∈ IR et x ≤ µ,
  
x −µ
Gumbel Gb (θ) : P(X < x|θ) = exp − exp − (10)
σ
avecσ > 0, µ ∈ IR et x ∈ IR .

On cherche à placer des priors sur θ qui soient plus réalistes que l’approche précédente
Cas d’étude
Précipitation extrême (maxima journaliers) à Penta-di-Casinca (Haute-Corse)
[Source : http ://penta.meteomac.com] + information a priori prédictive

Important pour le dimensionnement des installations de protection contre les


glissements de terrain d’un site industriel chimique situé dans la plaine

300

250
Pluviometry (mm)

200



150






● ●

100
● ●
● ●
● ●
● ●
● ● ●
50 ●

1990 1995 2000 2005 2010 2015

Ordre du quantile Pluviométrie P (mm)


25% 75
50% 100
75% 150
Résultats pour Fréchet (1/2)
n o
On reparamétrise P(X < x|θ) = exp −ν (x − µ)−1/ξ et soit θ = (µ, ν, ξ)
avec ν = σ 1/ξ > 0
A priori pour Fréchet
Choisissons π(ν, µ, ξ), avec µ < xe1 < xe2 ,

 ν|µ, ξ ∼ G (m, s1 (µ, ξ)) m(xe1 − µ)−1/ξ
(
s1 (µ, ξ) =

ξ|µ ∼ IG (m, s2 (µ)) where 
xe2 −µ
1 {µ≤x e1 } s2 (µ) = m log
 π(µ) ∝ xe1 −µ

m m
(xe2 −µ) s2 (µ)

Proposition

1. π(ν, µ, ξ) est conjugué pour ν sachant (µ, ξ)


2. quand m ∈ IN ∗ , π(ν, µ, ξ) = π R (ν, µ, ξ|~
xm ) où :
I xm est un échantillon de Fréchet virtuel de taille m et de statistiques
~
{xe1 , xe2 }
I π R (µ, ν, ξ) ∝ (νξ)−1 est le prior de Berger-Bernardo pour Fréchet
3. Si une borne inf µinf for µ peut être choisie, π(µ) est propre
Résultats pour Fréchet (2/2)

Hyperparamètres de calage (xe1 , xe2 ) ont le sens de moyenne géométrique


décalée
m
Y
xe2 = µ+ (x̃i − µ)1/m
i=1

et de moyenne arithmétique décalée


m
!−ξ
X
xe1 = µ+ (x̃i − µ)−1/ξ
i=1

Homogènes aux données et localisées dans l’échantillon virtuel


Calibration du prior de Fréchet (1/2)

Soit un choix pour m et un choix de µinf , calibrons ω(m) = (xe1 (m), xe2 (m))
sous la contrainte xe1 (m) < xe2 (m)

Critère de Cooke
M
X (αi+1 − αi )
ω∗ = arg min (αi+1 − αi ) log , (11)
ω
i=0
(α̃i+1 (ω) − α̃i (ω))

avec α0 = α̃0 = 0 et αM+1 = α̃M+1 = 1, et

α̃i (ω) = P(X ≤ xα |ω),


!−m
(xα − µ)−1/ξ
ZZ
= 1+ π(ξ|µ)π(µ) dξdµ.
s1 (µ, ξ)

Échantillonner selon le prior est simple par acceptation-rejet


Calibration du prior de Fréchet (2/2)

L’échantillonnage d’importance permet de simplifier et lisser les calculs (en


réglant le problème d’estimer la constante d’intégration inconnue dans π(µ))

1. Soit les distributions d’importance

µk ∼ fµIS ≡ N (κIS IS
µ , σµ ),
fξ ≡ IG m, m log ρIS
IS

ξk ∼ ξ

2. Calculons les poids non normalisés


π(µk )π(ξk |µk )
λk ∝ IS
fµ (µk )fξIS (ξk )
3. Estimons de façon consistante α̃i (ω) par
M −m
(xα −µk )−1/ξk
P 
λk 1 + s1 (µk ,ξk )
k=1
α̂i (ω) = M M
P
λk 0 1 2 3 4 5 6

k=1 weight value


density density

0.000 0.002 0.004 0.006 0.008 0.010 0.012 0.000 0.002 0.004 0.006 0.008 0.010 0.012

0
0

20
20

40
40
Loi a priori sur µ

mu
mu

m= 5
m= 1

60
60

80
80

100
100
density density

0.000 0.002 0.004 0.006 0.008 0.010 0.012 0.014 0.000 0.002 0.004 0.006 0.008 0.010 0.012

0
0
20
Avec µinf = 0

20
40

40

mu
mu

m = 20
m = 10

60

60
80

80
100

density density

0.000 0.001 0.002 0.003 0.004 0.005 0.006 0.000 0.001 0.002 0.003 0.004 0.005 0.006

−100
−100

−50
−50

0
0

mu
mu

m= 5
m= 1

50
50

100
100

density density

0.000 0.001 0.002 0.003 0.004 0.005 0.006 0.000 0.001 0.002 0.003 0.004 0.005 0.006
−100
−100
−50

−50
Avec µinf = −100

mu
mu

0
m = 20
m = 10

50

50
100
Exemple

Contrainte a priori : µ ≥ 0

Taille virtuelle m xe1 xe2 Ordre des quantiles a priori prédictifs


(75,100,150)
1 100.41 130.20 [25%, 50%, 75%]
2 95.30 138.39 [24%, 49%, 74%]
3 91.22 136.93 [23%, 51%, 74%]
4 89.18 135.10 [24%, 50%, 74%]
5 87.72 133.95 [24%, 51%, 75%]
6 87.65 133.88 [24%, 50%, 75%]
7 87.14 133.26 [25%, 50%, 74%]
10 86.63 132.65 [25%, 51%, 75%]
15 85.11 132.24 [26%, 50%, 75%]

Hyperparamètres and calcul des ordres effectifs des quantiles a priori prédictifs,
qui doivent être comparés à (25%, 50%, 75%)
Densités a priori prédictives

m=1
m=5
m = 10
m = 15

0 100 200 300 400

pluviométrie (mm)
Résultats pour Weibull renversée (1/2)
En utilisant la même paramétrisation,
n o
P(X < x|θ) = exp −ν (µ − x)1/ξ

Loi a priori pour Weibull renversée


Choisissons π(ν, µ, ξ), avec xe4 > xe3 ,

 ν|µ, ξ ∼ G (m, s3 (µ, ξ)) , m(µ − xe3 )−1/ξ
(
s3 (µ, ξ) =  ,

ξ|µ ∼ IG (m, s4 (µ)) , where
 π(µ) ∝ 1{µ≥xe4 } s4 (µ) = m log
µ−xe3
µ−xe4

(µ−xe )m s m (µ)
4 4

Proposition

1. π(ν, µ, ξ) est propre et conjuguée pour ν sachant (µ, ξ)


2. when m ∈ IN ∗ , π(ν, µ, ξ) = π R (ν, µ, ξ|~
xm ) où :
I xm est un échantillon virtuel de Weibull renversée de taille m et de
~
statistiques {xe3 , xe4 }
I π R (µ, ν, ξ) est le prior de Berger-Bernardo pour Weibull
Résultats pour Weibull renversée (2/2)

De nouveau, on peut établir des significations :


m
Y
xe4 = µ− (µ − x̃i )1/m
i=1

and the shifted inverse arithmetic mean


m

X
xe3 = µ− (µ − x̃i )1/ξ
i=1
Loi a priori sur µ

Loi à queue très lourde

0.5
m = 0.5
m=1
m=2
0.4
0.3
density

0.2
0.1
0.0

140 160 180 200 220 240

mu
Exemple de calibration

Taille virtuelle m xe3 xe4 ρ Ordre des quantiles a priori prédictifs


(75,100,150)
1 106.80 131.27 0.0010 [29%, 47%, 77%]
2 96.80 128.00 0.0011 [28%, 49%, 76%]
3 99.03 130.30 0.0010 [26%, 48%, 77%]
5 92.74 128.44 0.0011 [25%, 50%, 74%]
7 93.12 129.32 0.0011 [25%, 49%, 78%]
10 86.89 128.45 0.0012 [27%, 50%, 77%]
15 86.46 128.14 0.0011 [27%, 50%, 78%]
Le cas de la loi de Gumbel

¯ un
Étant donné un échantillon virtuel de Gumbel x̃1 , . . . , x̃m de moyenne x̃,
prior conjugué est :

¯xm ) X m  !
−m (µ − ~ x̃i − µ
π(µ, σ) ∝ σ exp m − exp − (12)
σ i=1
σ

qui est propre pourvu que m ≥ 3

En effet, sachant de vraies observations xn , la loi a posteriori peut s’écrire


  ¯m +nx¯n

µ − m~xm+n
π(µ, σ|xn ) ∝ σ −m−n exp {m + n}
σ
m   X n
!
X x̃i − µ n x − µo
k
− exp − − exp − .
i=1
σ σ
k=1
Application au cas d’étude


300


250

Ordre du quantile Pluviométrie P (mm)


Pluviometry (mm)

200





25% 75
50% 100
150





● ●


75% 150
100

● ●
● ●
● ●
● ●
● ● ●

50

1990 1995 2000 2005 2010 2015

Avec m = 3 et après une recherche de type grid search sous la contrainte


x̃1 < x̃2 < x̃3

x̃1 = 81,
x̃2 = 93,
x̃2 = 101

On reproduit alors très bien les spécifications a priori


Exemple 2 : processus gamma pour modéliser des accroissements de fissure

Une taille de fissure Zk,t sur un composant k est monotone croissante au cours du
temps t

Les incréments (supposés indépendants) Xk,i = Zk,ti − Zk,ti−1 sont supposés obéir à
des lois gamma
x
−β
1 x α(t−s)−1 e
fα(t−s),β (x) = · 1{x≥0}
Γ(αi (t − s)) β α(t−s)
Comment construire un a priori informatif sur (α, β) ?

1
p
Prenons une mesure non informative (Jeffreys) π J (α, β) ∝ β
αΨ1 (α) − 1

Loi a posteriori d’un échantillon virtuel d’incréments de fissure ~


xm = (x̃1 , . . . , x̃m )
observés aux temps ~ tm = (t̃1 , . . . , t̃m )

β|α ∼ IG αmt̃e,1 , mx̃e

α ∼ G m/2, mt̃e,2

dont la signification est fournies par


m
1 X
t̃e,1 = t̃i (temps moyen d’observation)
m i=1
m
1 X
x̃e = x̃i (accroissement moyen)
m i=1
m
P
m x̃j /x̃i
1 X j=1
t̃e,2 = t̃i log m (hyperparamètre de calage)
m i=1 P
t̃j /t̃i
j=1

L’approximation est ici fondée sur un développement de Taylor-Edgeworth au premier


xm , ~
ordre de la loi a posteriori π(α|~ tm )
Comment construire un a priori informatif sur (α, β) ?

En effet, on a

m
  
P


 m x̃j 

 
j=1  Γ mαt̃e,1 p
  X 
xm , ~
π α|~ tm ∝ exp −α t̃i log αΨ1 (α) − 1

 m
 z̃i   Q
Γ(αt̃i )

 i=1

 


i=1

et le développement peut être trouvé en utilisant les approximations suivantes :


I Formule exacte de Stirling

Γ(x) = 2πx x−1/2 exp(−x + ν(x)) où ν(x) = γ/(12x) et γ ∈ [0, 1]

I Développement de Laurent


!
p 1 X B2k
αΨ1 (α) − 1 = √ 1+ 2k−1
2α k=1
α

où les B2k sont les nombres de Bernoulli-Faulhaber de seconde nature


Calibrer à partir d’opinion d’expert
La valeur la plus probable a priori de l’accroissement de fissure moyen durant
l’intervalle de temps ∆i est

x̃e ∆i
rˆ(∆i ) = .
t̃e,1

Questionner un expert. Durant les prochaines 15 puis 30 années (= valeur de mt̃e,1 ),


quelles sont les chances (1 − δ1 , 1 − δ2 ) qu’une quelconque fissure apparaissant sur le
composant soit plus grande que (z1 , z2 ) = (5, 10) mm ? soit, pour i = {1, 2},

∞ x αmt̃e,1 −1 (mx̃e )αmt̃e,1 Γ 2αmt̃e,1



  Z zi Z
P Zmt̃e,1 < zi = δi = π(α) dαdx
(mx̃e + x)2αmt̃e,1 Γ2 αmt̃e,1

0 0

Calibrer les hyperparamètres de calage en minimisant en (m, t̃e,2 ) la distance L2


relative

2 n  o2
1 − δi−1 P Zmt̃e,1 < zi
X

i=1
Accord entre données et distribution a priori prédictive

.
Une alternative courante au critère des moindres carrés
L’adéquation entre la représentation de l’information a priori fournie par des couples
(xαi , αi ) et ce qu’il est possible de modéliser – les couples (xαi , α̃i (δ)) – est définie par
une fonction de perte minimisée en δ

Cooke (1991) a proposé une fonction de perte issue de la discrétisation de la


divergence de Kullback-Leibler entre la loi inconnue sur X fournissant les quantiles xαi
(qu’on pourrait nommer “loi d’expertise") et la loi prédictive a priori f (x|δ)
Z
f (x|δ) = f (x|θ)π(θ|δ) dθ
Θ

Critère de Cooke

M
X (αi+1 − αi )
δ∗ = arg min (αi+1 − αi ) log ,
δ
i=0
(α̃i+1 (δ) − α̃i (δ))

avec α0 = α̃0 = 0 et αM+1 = α̃M+1 = 1

Pondération possible, convexité globale non assurée

Diminuer au maximum la dimension de δ (par exemple en fixant les autres


hyperparamètres, comme une taille virtuelle) permet d’accroître cette possibilité
Modélisation bayésienne hiérarchique

Pour des raisons liées à la modélisation des observations ou à la décomposition de


l’information a priori, le modèle bayésien (f (x|θ), π(θ)) peut être défini comme
hiérarchique : π(θ) est décomposé en plusieurs lois conditionnelles

π(θ|θ1 , . . . , θk ) = π1 (θ|θ1 ) · · · π2 (θ1 |θ2 ) . . . πk (θk−1 |θk ) · πk+1 (θk )


Z
et π(θ) = π(θ|θ1 , . . . , θk ) dθ1 . . . dθk
Θ1 ×...×Θk

Exemple d’un modèle statistique classique : modèle linéaire à effets aléatoires

y |θ ∼ Np (θ, Σ1 ),
θ|β ∼ Np (X β, Σ2 )

souvent utilisé en génétique animale pour différencier l’influence d’éléments fixes (ex :
lignée, race, année) de celle de facteurs aléatoires (ex : nb de femelles dans une lignée)
Quelques caractéristiques

Le conditionnement peut s’expliquer par


I des dépendances statistiques naturelles
I l’appel à des variables latentes décrivant un mécanisme caché
I des grandeurs stochastiques jouant un rôle de forçage

En général, on ne va guère plus loin que deux ou trois niveaux de hiérarchie

En incluant l’information a priori aux niveaux les plus élevés, l’approche bayésienne
hiérarchique permet en général de gagner en robustesse
Éliciter un a priori à partir de résultats statistiques théoriques

Un exemple : la courbe de von Bertalanffy

L(t|θ) = L∞ (1 − exp(−g (t, δ))

est fréquemment utilisée pour produire une clé âge-longueur, en modélisant


l’accroissement en longueur d’un organisme vivant (ex : arbre, poisson...)

On note θ = (L∞ , δ) le vecteur des paramètres inconnus Données de

capture-recapture : supposons avoir des couples d’observation l ∗ (ti ), l ∗ (ti+∆i ) tel



que

l ∗ (ti ) = L(ti |θ) exp(1 ),



l (ti+∆i ) = L(ti + ∆i |θ) exp(2 )

où (1 , 2 ) sont des bruits de mesure (générant donc une vraisemblance)

Les estimations par maximum de vraisemblance de L∞ sont très sensibles à la taille


des données

Comment placer un a priori sur L∞ ?


Tirer parti de propriétés asymptotiques : loi des dépassements

Le sens de L∞ est celui d’une longueur maximale qu’un être vivant peut atteindre, en
moyenne sur toutes les observations possibles

Posons alors L∗∞ = L∞ exp() la longueur maximale observée

Soit L̄ la longueur moyenne

Théorème (Pickands, 1975)

Quand L̄ grandit, la
distribution de L∗∞ |L̄ = l est une Pareto généralisée :

  −1/µ
x − L̄
P L∗∞ < x|L∗∞ > L̄, σ, µ

= 1− 1+µ
σ

On obtient alors une justification pour :


1. établir une forme a priori pour π(L∞ ) (la forme de  étant fixée)
2. conditionner ce prior par rapport à L̄ ⇔ utiliser une approche bayésienne
hiérarchique
Un autre exemple : modélisation a priori d’une probabilité de survie dans une population

Soit Xt un nombre d’individus dans une population

Soit θ = θt,t+1 la probabilité de survie entre t et t + 1

La vraisemblance peut être définie par

Xt+1 |Xt , θt,t−1 ∼ B(Xt , θt,t+1 ) (loi binomiale)

On peut alors écrire

M+1
Y
θt,t+1 = θt+i/M,t+(i+1)/M
i=0

donc, de par le Théorème de la Limite Centrale, quand 1  M,

log(θt,t+1 ) ∼ N (µt , σt2 )

avec µt < −σt2 /2 tel que E[θt,t+1 ] ∈ [0, 1] ⇒ contrainte de forme sur le niveau
hiérarchique π(µt , σt )
Une exemple de méta-analyse pour construire une modélisation a priori hiérarchique

Principle :
I Supposons disposer d’une observation représentative Y ∗ sur Y = g (θ, c) où g
et une fonction et c un ensemble de paramètres fixés
I Construire une vraisemblance liant Y ∗ et θ
I Choisir un a priori non informatif π J (θ) en fonction de cette vraisemblance
I Sélectionner π comme le posterior π J (θ|Y ∗ )
Exemple : modèle à espace d’état pour une population (cohorte)
B., Chassot, Hammill, Duplisea (2008-2011)

Modélisation de l’abondance de la morue (Gadus morhua) dans le Golfe du Saint


Laurent (Canada)

NAFO division 3Pn4RS


Dynamique

Une morue peut vivre 15 ans

Principales sources de mortalité :


I prédation par les phoques (Phoca groenlandica)
I pêche (en particulier durant les années 1990)
I naturelle (résiduelle, due aux variations de température de l’eau, etc. )
Observations : accroissement de la population de phoques corrélée au déclin des morues

(Chassot et al. 2009)


Dynamique à espace d’états cachés de l’abondance Na,t de la morue

Prédation Pa,t = c ·N
pa,t a,t
0 m (N
Mortalité résiduelle 1 Na,t = pa,t a,t− Pa,t , )
Pêche commerciale Ca,t = f
1 − pa,t 0
Na,t
Abondance à mi-année 00
Na,t = 0
Na,t − Ca,t /2
m N 00 − C /2

Mortalité résiduelle 2 Na+1,t+1 = pa,t a,t a,t

= A
P
Production d’oeufs totale TEPt a=1 Na,t ξa, t φa, t fa,t
Recrutement à l’âge 0 Rt+1 r
= pt+1 · TEPt
 2
Recrutement à l’âge 0 N1,t+2 m
= p0,t+1 Rt+1

Sex ratio ξ
Proportion de femelles matures φ
Fécondité (nombre d’oeufs morue−1 ) f
Observations
00
Ia,t = q ςa, s Na, t Indice d’abondance
1
with ςa, s = Sélectivité
1 + exp (−γs (a − δs ))
and q Capturabilité

A
X
Ct = Ca, t Prise totale
a=1
XA
pa, t, c = Ca, t / Ca, t Probabilité observée de prise par âge
a=1
A
X
pa, t, s = Ia, t / Ia, t Probabilité observée d’abondance par âge
a=1

A A
!
X
∗ iid X
Jt∗ = Ja, t ∼ N log Ia, t (θ), ψ 2 ψ 2 = Aσ 2 + A2 τ 2
a=1 a=1

where Ja, ∗ ) = log(I
= log(Ia,
t t a, t ) + a, t + ηt

σc2 2
 
iid
log Ct∗ ∼ N log Ct (θ) − , σc σc2
2

∗ iid ∗

pa, t, x ∼ Dir p1, t, x (θ), . . . , pA, t, x (θ), nt, s
Liste des paramètres inconnus

ζa Baseline attack rate for age a


(nb. attacks seal−1 )
π Normalization coefficient of attack rates
m Shape parameter of the Holling response type
α Intercept of the natural mortality curve (yr−1 )
β Slope of the natural mortality curve
F Fishing mortality rate of cod (yr−1 )
Rmax Maximum nb. of cod recruits (NoI)
r TEP needed to produce recruitment = Rmax /2 (NoE)
ςa, c Commercial selectivity-at-age
γc1 Shape parameter of the commercial selectivity
(1984-1993)
δc1 Age of half-vulnerability (1984-1993)
γc2 Shape parameter of the commercial selectivity
(1994-2006)
δc2 Age of half-vulnerability (1994-2006)
ςa, s Survey selectivity-at-age
q Survey catchability
γs Shape parameter of the survey selectivity
δs Age of half-vulnerability
Résultats fréquentistes (Chassot et al. 2009)

Intervalles de confiance trop petits (bootstrap)

Une approche bayésienne apparaît plus respectueuse des incertitudes imprégnant les
hypothèses de modélisation
Élicitation a priori pour les paramètres de sélectivité

1
ςa = .
1 + exp(−γ{a − δ})

I δ = age pour lequel 50% de la population est sensible à l’engin de pêche


I γ = paramètre de forme

Méta-analyse des estimés de la sélectivité obtenus à partir des mesures de surveillance


/ pêche commerciale pour des engins similaires à ceux étudiés

Fondé sur une idée de Harley and Myers (2001)

M = 153 jeux de données


Soit c1 , . . . , cA+ un échantillon de prise par âge

Estimateur de Kaplan-Meier = fréquence cumulée par âge


A A
ci 1{i≤a} /
X X
ς ∗a = cj .
i=1 j=1

Notre objectif est


I de définir une vraisemblance `(ς ∗1,i , . . . , ς ∗A,i , i = 1, . . . , M|γ, δ)
I de définir des a priori non informatifs pour (γ, δ) en fonction de `
I de définir des priors informatifs sur (γ, δ) comme des posteriors
Ôter la dépendance à l’âge

Considérons la reparamétrisation

sa = − log(ςa−1 − 1) = γ(a − δ) (13)

et soit s ∗a le vecteur correspondant des estimés non paramétriques

Estimer et tester l’hypothèse de modèle

s ∗a = s a + N (0, σa2 )

Des tests classiques (Shapiro-Wilks, etc.) ne nient pas l’hypothèse gaussienne


(p−values ∈[0.35,0.86])

Notons s ∗I = (s1∗ (i1 ), . . . , sA∗ (iA )), avec ij 6= ik , le ij étant choisi dans I ⊂ {1, . . . , M},
et

A
1 X ∗
s̄ ∗ = s (ij ) = αγ − δ + N (0, σ 2 )
A j=1 j

PA
avec σ 2 = a=1 σa2 /A et α = (A + 1)/2.
Minimiser les corrélations pour obtenir une vraisemblance simple

Il y a (M!)/(M − A+ !) valeurs possibles s̄ ∗

Elles ne sont pas indépendantes (puisqu’elles sont construites à partir de données


venant des mêmes sélectivités empiriques)

Sélectionner des âges éloignés (a1 , a2 ), sa∗1 (ia1 ) and sa∗2 (ja2 ) permet de diminuer la
corrélation

Un mélange de distributions de s̄ ∗ peut être produit par simulation

La structure formelle suivante apparaît pertinente


s̄ ∗ = s̄ + N (0, ν 2 )
Construire un a priori informatif sur (γ, δ)

1. Soit π J (γ, δ) un a priori non informatif pour la vraisemblance


I reference prior de Berger & Bernardo (1992)
I des experts biologistes s’accordent sur le plus large intervalle possible pour
δ : [al , ar ] = [1, 6] ⊂ [1, A]

π J (γ, δ) ∝ 1γ≥0 1{al ≤δ≤ar }


2. Considérons la vraisemblance d’“une donnée représentative" émanant de

s̄ = αγ − δ + N (0, ν 2 + σ 2 )

3. Construisons π(γ, δ) = π J (γ, δ|s̄ ∗ ), soit


 
1
π(γ, δ) ∝ exp − (αγ − δ − s̄)2 1{γ≥0} 1{al ≤δ≤ar }
2(σ 2 + ν 2 )

scientifique commercial scientifique commercial


σ2 1.221 1.510 s̄ 1.891 1.493
ν2 0.1146 0.1051 α 6.5 6.5
Paramètres de nuisance

Une fois que la loi a posteriori du vecteur θ est obtenue, des études de projection
doivent être faites

Souvent θ = (θ I , θ N ) où
I θ I = {paramètres d’intérêt} (ex : paramètres de selectivité, recrutement...)
I θ N = {paramètres de nuisance} (variances d’observation, capturabilité)
I purement relatives à l’obtention des données

A A
!
X iid X
Jt∗ = ∗
Ja, t ∼ N log Ia, t (θ), ψ 2
a=1 a=1
σc2 2
 
iid
log Ct∗ ∼ N log Ct (θ) − , σc
2
Mesure a priori conditionnelle de Berger-Bernardo pour les paramètres de nuisance

Pas d’information a priori usuellement connue sur θ N = (q, σc2 , ψ 2 )

Le choix d’un prior non informatif π(θ N ) doit être indépendant du choix de tout prior
informatif sur θ I

Divergence de Kullback-Leibler entre posterior et prior

π(θ N |x)
Z
KL(π|x) = π(θ N |x) log dθ N
ΘN π(θ N )
R
with π(θ N ) = π(θ)dθ I

On élicite
( )
π∗ = arg max lim Em [KL(π|X)]
π card(X)→∞

et on trouve (après des calculs complexes)

π ∗ (ψ 2 , σc2 , q) ∝ ψ −3 σc−3 q −1 1{(ψ,φ,q)∈IR+,∗


3 }.
Quelques projections a posteriori prédictives (B., Chassot et al. 2011)
Quelques projections a posteriori prédictives (2)
Quelques projections a posteriori prédictives (3)
4 - "Validation" (ou pertinence) de modèle bayésien

Un modèle bayésien est formé du couple

X ∼ f (x|θ) modèle d’échantillonnage


θ ∼ π(θ) prior

Le choix du modèle d’échantillonnage X ∼ f (x|θ) est généralement imposé dans un


problème concret
I modèle "historique"
I modèle normatif
I ...

Conditionnellement au choix de f (x|θ), il est tentant de dire qu’un modèle est valide,
ou pertinent, ou cohérent extrinsèquement s’il permet de générer des données X qui
sont en accord avec des observations réelles x1 , . . . , xn

Comment formaliser une bonne définition (intuitive et utilisable) ?


Exemple motivant

Industrie nucléaire (issu de (1))


Exemple : modèle gaussien à variance connue

Soit un échantillon xn ∼ N (µ, σ 2 )

On suppose connaître σ, mais µ est inconnu

On place l’a priori conjugué µ ∼ N (m, ρσ 2 )

Peut-on émettre une règle simple de cohérence entre π(µ) et la vraisemblance des
données ?
Une idée simple

n
1 P
x̄n = n
xi est une statistique exhaustive de l’échantillon
i=1

Sous une hypothèse iid. des Xi , la loi de la variable aléatoire associée X̄n est,
conditionnellement à (µ, σ 2 )

σ2
 
X̄n |µ, σ 2 ∼ N µ,
n

Intégrée sur π(µ), la loi a priori prédictive de X̄n est


 
1
X̄n |σ 2 ∼ N m, σ 2 ( + ρ)
n

Alors, a priori et prédictivement,


2
X̄n − m
Zn = ∼ χ21
σ 2 ( 1n + ρ)

Il y a donc incohérence entre a priori et vraisemblance des données xn si la valeur


observée de Zn , à partir de x̄n , est une valeur extrême de la distribution du χ21
Test numériques

n = 10 , sigma = 1 , rho = 1

20
15
Score

10

Quantile Chi2(1) à 99 %
5

Quantile Chi2(1) à 95 %
0

−4 −2 0 2 4

Ecart entre m et mu
Influence d’un σ plus large

Quantile Chi2(1) à 99 %
n = 10 , sigma = 2 , rho = 1

7
6
5

Quantile Chi2(1) à 95 %
4
Score

3
2
1
0

−4 −2 0 2 4

Ecart entre m et mu
Influence d’une très faible taille d’échantillon

n= 2 , sigma = 1 , rho = 1

20
15
Score

10

Quantile Chi2(1) à 99 %
5

Quantile Chi2(1) à 95 %
0

−4 −2 0 2 4

Ecart entre m et mu
Influence d’une expertise extrêmement précise

n = 10 , sigma = 1 , rho = 0.01

200
150
Score

100
50

Quantile
Quantile Chi2(1)
Chi2(1) à
à 99
95 %
%
0

−4 −2 0 2 4

Ecart entre m et mu
Influence d’une expertise extrêmement vague

n = 10 , sigma = 1 , rho = 5

6
5
Quantile Chi2(1) à 95 %
4
Score

3
2
1
0

−4 −2 0 2 4

Ecart entre m et mu
Dans la pratique, simulons la loi a priori prédictive

Retour sur l’exemple de la modélisation des accroissements de fissure par processus


gamma

Une taille de fissure Zk,t sur un composant k est monotone croissante au cours du
temps t

Les incréments (supposés indépendants) Xk,i = Zk,ti − Zk,ti−1 sont supposés obéir à
des lois gamma
x
−β
1 x α(t−s)−1 e
fα(t−s),β (x) = · 1{x≥0}
Γ(αi (t − s)) β α(t−s)
Rappel modélisation

Prior :

β|α ∼ IG αmt̃e,1 , mx̃e

α ∼ G m/2, mt̃e,2


m
1 X
t̃e,1 = t̃i (temps moyen d’observation)
m i=1
m
1 X
x̃e = x̃i (accroissement moyen)
m i=1
m
P
m x̃j /x̃i
1 X j=1
t̃e,2 = t̃i log m (hyperparamètre de calage)
m i=1 P
t̃j /t̃i
j=1

les t̃i ayant le sens de données imaginaires ou virtuelles


Distribution a priori prédictive versus data

.
Approche de Evans et Moshonov

Approche prônée par Evans et Moshonov (2006, 2007) fondée sur la notion de
p−value a priori prédictive
L’approche de Evans et Moshonov en détail

Evans & Moshonov (2006, 2007)


Soit S une statistique suffisante de densité d’échantillonnage fS (s|θ) et de densité
marginale
Z
mS (s) = π(θ)fS (s|θ) dθ.
Θ

Si la statistique observée so = S(tn ) est une valeur surprenante, càd quand la


p−value marginale

FS (so ) = PS (mS (s) ≤ mS (so ))

est extrême, alors un conflit est détecté

Difficultés
1. FS (so ) peut être difficile à calculer, notamment en l’absence de conjugaison ;
2. il faut prendre en compte l’ancillarité de S
3. comment choisir une p−value limite ?
L’ancillarité

Une statistique ancillaire est une statistique dont la distribution ne dépend pas des
paramètres du modèle

Si le modèle f (x|θ) possède des statistiques ancillaires, leur usage pour tester le
modèle revient à ne pas tester certaines dimensions de θ

Ce type de problème est également rencontré dans les méthodes ABC (Approximate
Bayesian Computation)
Comment tester toutes les dimensions de θ ?

Soit π J (θ) un prior non informatif : π J (θ|xn ) n’apporte pas (beaucoup) plus
d’information que les données
Comment tester toutes les dimensions de θ ?

Soit π J (θ) un prior non informatif : π J (θ|xn ) n’apporte pas (beaucoup) plus
d’information que les données

Hypothèse 1 1 :
π J est toujours en accord avec les données xn .
Comment tester toutes les dimensions de θ ?

Soit π J (θ) un prior non informatif : π J (θ|xn ) n’apporte pas (beaucoup) plus
d’information que les données

Hypothèse 1 1 :
π J est toujours en accord avec les données xn .

Hypothèse 2 2 :
π J (θ|xn ) est considéré comme une loi a priori "parfaite",
correspondant à un expert fictif parfaitement en accord avec les données
Le critère DAC (Data-Agreement Criterion)

Principale idée
Calculer la divergence de Kullback-Leibler entre les distributions
n o
D π J (θ|xn ) || π(θ) .

D π J (θ|xn ) || π(θ) formule un regret informationnel dû au choix de states π(θ)




alors que le choix de référence serait π J (θ|xn ).

D π J (θ|xn ) || π(θ) large ⇔ désaccord entre prior et données




1. Supposons que D π J (θ|xn ) || π(θ) > D π J (θ|xn ) || π J (θ) .


 

2. Supposons que π(θ) est plus informatif que π J (θ).

Nécessairement, le prior et les données sont en conflit


Le critère DAC

Définition :

D π J (θ|tn ) || π(θ)

DAC J (π|xn ) = 
D π J (θ|xn ) || π J (θ)

Règle :
π et xn sont dits en conflit si DAC J (π|xn ) > 1.
Principales caractéristiques

1. Priors hiérarchiques On peut calculer DAC de façon séparée à chaque niveau de


la hiérarchie et obtenir le DAC pour le prior complet directement

QM
2. Combinaison de priors. Notons π(θ) ∝ i=1 πi (θ)ωi . Alors
M
X
DACJ (π|xn ) ≤ ωi DAC J (πi |xn ). (arguments de convexité simples)
i=1

3. Comportement asymptotique. les priors réguliers ne sont pas en conflit avec xn


quand n → ∞ :
h i
E DACJ (π|xn ) → 1
Principales caractéristiques
1. Priors hiérarchiques On peut calculer DAC de façon séparée à chaque niveau de
la hiérarchie et obtenir le DAC pour le prior complet directement

Formellement
Écrivons π(θ) = π(θ1 |θ2 )π(θ2 ) et π J (θ) = π J (θ1 |θ2 )π J (θ2 ).

 π̃1 (θ) = π(θ1 |θ2 )π J (θ2 )
Notons
π̃2 (θ) = π J (θ1 |θ2 )π(θ2 )

Alors DAC(π|xn ) = DAC(π̃1 |xn ) + DAC(π̃2 |xn ) − 1.

2. Combinaison de priors. Notons π(θ) ∝ M ωi


Q
i=1 πi (θ) . Alors
XM
DACJ (π|xn ) ≤ ωi DAC J (πi |xn ). (arguments de convexité simples)
i=1

3. Comportement asymptotique. les priors réguliers ne sont pas en conflit avec xn


quand n → ∞ :
h i
E DACJ (π|xn ) → 1
Principales caractéristiques

1. Priors hiérarchiques On peut calculer DAC de façon séparée à chaque niveau de


la hiérarchie et obtenir le DAC pour le prior complet directement

QM
2. Combinaison de priors. Notons π(θ) ∝ i=1 πi (θ)ωi . Alors
M
X
DACJ (π|xn ) ≤ ωi DAC J (πi |xn ). (arguments de convexité simples)
i=1

3. Comportement asymptotique. les priors réguliers ne sont pas en conflit avec xn


quand n → ∞ :
h i
E DACJ (π|xn ) → 1
Principales caractéristiques

1. Priors hiérarchiques On peut calculer DAC de façon séparée à chaque niveau de


la hiérarchie et obtenir le DAC pour le prior complet directement

QM
2. Combinaison de priors. Notons π(θ) ∝ i=1 πi (θ)ωi . Alors
M
X
DACJ (π|xn ) ≤ ωi DAC J (πi |xn ). (arguments de convexité simples)
i=1

3. Comportement asymptotique. les priors réguliers ne sont pas en conflit avec xn


quand n → ∞ :
h i
E DACJ (π|xn ) → 1
Calcul

Deux situations :

1. Cas idéal. Θ est borné et / ou M(θ) est discret. Alors π J est souvent propre :
Z
π J (θ) dθ < ∞.
Θ

2. Cas problématique. Si π J est impropre (ce qui arrive le plus souvent), le


dénominateur de DAC est défini à une constante additive près inconnue :

⇒ DAC ne peut pas être utilisé en l’état, et doit être adapté


Un exemple d’un cas idéal
Modèle gaussien borné

i.i.d.
xn ∼ N (θ, 1)
θ ∼ N (µ0 , σ0 ) restreint à D = [−15, 15]

π J (θ) est la loi uniforme sur D.


3.0
2.5
2.0
DAC

1.5
1.0

sd = 1
sd = 0.5
sd = 0.25
0.5
0.0

−4 −2 0 2 4

mu0
Vraie valeur θ0 = 0, taille n = 5
Adaptation dans les cas problématiques

Quand π J est impropre, on a les mêmes difficultés conceptuelles que lorsqu’on


souhaite calculer un facteur de Bayes
R
L(xn |θ)π(θ) dθ
BJ,π (tn ) = RΘ
J
Θ L(xn |θ)π (θ) dθ

qui est défini à une constante multiplicative inconnue près

Inspiration par Berger & Perrichi (1996, 1998)


On utilise une adaptation intrinsèque en usant de petites quantités de données

d’entraînement x(l) ⊂ tn pour remplacer le π J (θ) impropre par un π J (θ|x(l))


| {z }
"posterior prior"
propre.

x(l) est appelé un échantilllon minimal d’entraînement (MTS) (MTS).


Critère DAC intrinsèque

Définition :
Soit xn (−l) = xn /{x(l)} and ` la taille d’un MTS x(l). Par un
argument de validation croisée

L
1 X D π J (.|xn (−l)) || π(.|x(l))

DACAIJ (π|xn ) =  .
L l=1 D π J (.|xn (−l)) || π J (.|x(l))

Qualité de l’adaptation
I L ≥ 10 et n/` ≥ 8 : pas mal
I souffre de la taille, la censure éventuelle
des données et de dim Θ
I Coûteux à calculer (sauf cas conjugués)
Critère DAC intrinsèque

Définition :
Soit xn (−l) = xn /{x(l)} and ` la taille d’un MTS x(l). Par un
argument de validation croisée

L
1 X D π J (.|xn (−l)) || π(.|x(l))

DACAIJ (π|xn ) =  .
L l=1 D π J (.|xn (−l)) || π J (.|x(l))

Améliorations possibles
Qualité de l’adaptation
I Introduire des données censurées dans les
I L ≥ 10 et n/` ≥ 8 : pas mal MTS
I souffre de la taille, la censure éventuelle (Berger & Perrichi 2002)
des données et de dim Θ I Adapter les a priori non informatifs
I Coûteux à calculer (sauf cas conjugués) (De Santis et al. 2001)
I Définir des pseudoposterior priors
Exemple : loi de Bernoulli Br (θ) avec un prior beta
n = 20, valeur de simulation θ0 = 0.7.
θ ∼ Be sur [0, 1], de moyenne µ0 et pour un écart-type σ = 0.2 fixé

1.5
1.0
DAC

0.5

DAC J DAC AIJ


0.0
Exemple : loi exponentielle E(λ)

n = 10, EMV λ̂ = 207.


Prior conjugué λ ∼ G(a, a.te)
3.0

3.0
a=0.5 a=2 a=10 a=30 a=70
a=1 a=5 a=20 a=40 a=80
2.5

2.5
a=50 a=100
2.0

2.0
DAC AIJ

DAC AIJ
1.5

1.5
1.0

1.0
0.5

0.5
0.0

0.0
0 100 200 300 400 500 0 100 200 300 400

expert central value xe expert central value xe


Calibration a priori avec DAC

Propriété
DACJ et DACAIJ détectent des priors très biaisés et des priors non biaisés mais trop
informatifs vis-à-vis des données xn .

Situation typique : un expert peut fournir une valeur centrale pour θ mais nous avons
aucune information a priori pour calibrer une variance ou une
taille virtuelle m

Procédure
I Soit π(θ) = π(θ|m).
I Fixons m∗ tel que DACAIJ (m∗ |xn ) = 1.
I Alors m∗ peut être choisi comme une valeur par défaut ou une valeur seuil
Exemple : loi exponentielle E(λ)
n = 10, EMV λ̂ = 207.
Prior conjugué λ ∼ G(a, a.xe )
La taille n et la valeur a∗ sont des bornes pour a.

40
30
20
a

size n
10
0

0 100 200 300 400 500


Exemple récapitulatif : loi de Weibull W(θ)

Durée médiane
Durée de vie matériel (mois) fournie par des
défaillances : 134.9, 152.1, 133.7, 114.8, 110.0, 129.0, 78.7, 72.8, 132.2 experts
censures : 70.0, 159.5, 98.5, 167.2, 66.8, 95.3, 80.9, 83.2
250

Modélisation a priori (simplifiée)

µ|β ∼ G(a, b(a, β)),


β ∼ Be (p, q) défini sur [1, 5],
b(a, β) = (21/a − 1)−1 teβ ,
xe = temps médian

On peut séparer les vérifications :

DACAIJ (π|xn ) = DACAIJ (a|xn ) + DACAIJ (p, q|xn ) − 1.


Vérifier π(µ|β, a) et π(β|p, q) de façon indépendante

te a∗
50 0.70 Un prior non conflictuel sur µ, utilisant les
100 2.55 informations centrales, ne peut apporter plus de
150 6.70 d’une donnée
200 1.80
250 0.25
densities

E=2
E=3
E=4

moyenne a priori écart-type hyperparamètres


(fixée) E[β] σ∗ (p, q)∗
2 0.5 (0.5,1.5)
3 0.44 (2.0,2.0)
4 0.27 (7.2,2.4)

1 2 3 4 5

beta
Calibration du prior complet

Pour xe = 250, l’analyse bayésien décide a = 1 (supposant que l’avis des experts
apporte l’équivalent informationnel d’une donnée).
π(µ|β) est conflictuel : DACAIJ (a|xn ) = 1.16.

Supposons un fort vieillissement : E[β] = 4.

À partir du développement hiérarchique de DAC, le prior complet est non conflictuel si

DACAIJ (p, q|xn ) ≤ 0.84 ⇒ Var[β] ≥ 0.2862 .


Une autre approche de la construction a priori : le principe “bayésien" empirique

On suppose n’avoir pas d’information a priori

Soient x1 , . . . , xn+1 des observations indépendantes de densités f (xi |θi )

On veut inférer sur θn+1 en supposant que tous les θi ont été produit par le même π(θ)

On cherche donc à reconstruire π(θ) tel que


Z
x1 , . . . , xn ∼ f (x) = f (x|θ)π(θ)dθ
Θ

1. soit de façon non-paramétrique en produisant un estimateur π̂n (θ)


2. soit de façon paramétrique en fixant une forme hyperparamétrée π(θ|δ) et en
produisant un estimateur δ̂n

L’ensemble de cette démarche n’est en fait pas pas bayésienne car elle utilise deux fois
les données
Points-clés à retenir en élicitation bayésienne

Décider d’un a priori de référence (non-informatif) pour l’inférence considérée

Décider de la forme d’une loi a priori informative en se basant sur des théorèmes de
convergence (ex : TLC) ou un raisonnement entièrement bayésien (ex : données
virtuelles)

Décider du sens de l’information apportée a priori dans un cadre de théorie de la


décision, lorsqu’elle est subjective
I Ex : ne pas oublier que l’interprétation en termes de quantile dans l’exemple
fiabiliste provient du choix d’une fonction de coût

Ne pas oublier de prouver l’intégrabilité de la densité a posteriori


Z
`(xn |θ)π(θ) dθ < ∞
Θ
Quelques références

1. Clemen, R. T., Winkler, R. L. (2007). Aggregating probability distributions. In :


Advances in Decision Analysis. Cambridge University Press. .
2. O’Hagan, A., Buck, C.E., Daneshkhah, A. Eiser, J.R., Garthwaite, P.H.,
Jenkinson, D.J., Oakley, J.E., Rakow, T. (2006). Uncertain Judgements :
Eliciting Experts’ Probabilities. Statistics in practice. Wiley
3. Parent, E., Bernier, J. (2007). Le raisonnement bayésien : modélisation et
inférence. Springer
4. Robert, C.P. (2006). Le choix bayésien. Principes et pratique. Springer
5. Kass, R., Wasserman, L. (1996). Formal rules of selecting prior distributions : a
review and annotated bibliography. Journal of the American Statistical
Association.
6. Evans, M., Moshonov. H. (2006). Checking for prior-data conflict. Bayesian
Analysis
7. Bousquet, N. (2008). Diagnostics of prior-data agreement in applied Bayesian
analysis. Journal of Applied Statistics
8. Walter, G. , Augustin, T. (2009). Imprecision and prior-data conflict in
generalized Bayesian inference. Journal of Statistical Theory and Practice
[1] N. Bousquet : Analyse statistique bayésienne de durée de vie de composants industriels. Thèse de
doctorat, Université Paris XI, 2006.