nicolas.bousquet@upmc.fr
1/291 1/
Plan du cours
1 Introduction 7
2 Rappels de statistique 13
Aspects descriptifs (modélisation) 16
Aspects inférentiels 19
Aspects décisionnels liés à une estimation ponctuelle 34
Risque fréquentiste 39
Risque bayésien 42
3 Quelques autres caractéristiques du cadre bayésien 56
Estimateur du mode a posteriori 58
Régions de confiance et de crédibilité 59
Une approche rapide des tests d’hypothèse 60
Consistance et normalité asymptotique de la loi a posteriori 63
Interprétation subjective de la probabilité a priori 64
Une première conclusion 66
4 Rappels en statistique computationnelle 68
2/291 2/
Plan du cours (cont.)
Acceptation-rejet 81
Échantillonnage d’importance (ou préférentiel) 87
Méthodes de Monte Carlo par chaînes de Markov (MCMC) 91
Algorithme de Metropolis-Hastings
Échantillonneur de Gibbs
5 Récapitulatif : quand et comment faire, erreurs à éviter, principaux
messages 120
6 Outils de mise en oeuvre et références 124
7 Choix du cadre bayésien 127
8 Élicitation bayésienne - présentation 151
Élicitation par maximum d’entropie 160
Lois a priori conjuguées 172
Distributions a priori non-informatives 183
Mesure de Jeffreys
Mesure de Berger-Bernardo
Mesure coïncidante
3/291 3/
Plan du cours (cont.)
Convergence vers les mesures impropres
Exemple complet dans un cadre fiabiliste 205
Modélisation bayésienne hiérarchique 215
Principe
Exemples de dépendances statistiques apparaissant naturellement
Représentation des liens de causalité / conditionnement
Quelques soucis méthodologiques et pratiques importants 224
Prouver l’intégrabilité de la loi a posteriori
Fusion de plusieurs a priori
Cohérence entre a priori et vraisemblance des données observées
Modélisation a priori informative non conjuguée 241
Exemple d’élicitation paramétrique
Exemple d’élicitation par méta-analyse
Vers une méthodologie critique de l’élicitation
Analyse de sensibilité 277
−contamination
Exponential twisting
4/291 4/
Plan du cours (cont.)
Autre approche et conclusions 281
5/291 5/
A noter
Une annexe présentant plus de détails sur l’élicitation a priori est fournie
6/291 6/
Introduction
Cours tourné vers les applications réelles et l’usage pratique des statistiques bayésiennes
Exemples théoriques et appliquées, travail computationnel avec R (Rstudio / R
Markdown)
Que signifie adopter une démarche statistique bayésienne ? Dans quel contexte ?
Pourquoi modéliser stochastiquement les incertitudes caractérisant un univers risqué ?
Comment construire une modélisation et l’enrichir ?
8/291 8/
Introduction
La statistique bayésienne
Encore relativement peu enseignée car l’une des branches les plus récemment développées des
statistiques (même si historiquement la plus précoce)
Elle sert à modéliser et prendre une décision sous incertitude conditionnellement à une
information transportée par des réalisations (possiblement bruitées) de lois ou processus
aléatoires, et d’éventuelles autres sources d’information incertaines
9/291 9/
Introduction
10/291 10
Introduction
11/291 11
Introduction
Planning 2020
12/291 12
Rappels de statistique
Rappels de statistique
(et introduction des notations)
14/291 14
Rappels de statistique
Introduction
La Statistique peut être vue comme une théorie de la description d’un phénomène incertain,
perçu au travers de données xn = (x1 , . . . , xn ), décrites comme des observations d’une variable X
Cette incertitude du phénomène est fondamentalement supposée aléatoire, càd que l’incertitude
sur les valeurs que prend X ne peut pas être réduite à 0 même si le nombre n d’observations
tend vers +∞
Le second objectif est de pouvoir mener une prévision (ou “prédiction") d’une répétition future
du phénomène
Le troisième objectif est de prendre une décision ayant des conséquences mesurables, sur la base
de l’étude du phénomène
15/291 15
Rappels de statistique Aspects descriptifs (modélisation)
Aspects descriptifs
Deux arguments :
un nombre fini d’observations ne peut servir à estimer qu’un nombre fini de paramètres
l’évaluation des outils inférentiels paramétriques peut être faite avec un nombre fini
d’observations
16/291 16
Rappels de statistique Aspects descriptifs (modélisation)
dPθ
= f (X |θ)
dµ
17/291 17
Rappels de statistique Aspects descriptifs (modélisation)
X ∼ f (x |θ)
La vraisemblance des données xn conditionnelle à θ sera notée f (xn |θ) et elle vaut
n
Y
f (xn |θ) = f (xi |θ)
i=1
iid
si tous les xi ∼ f (.|θ)
18/291 18
Rappels de statistique Aspects inférentiels
19/291 19
Rappels de statistique Aspects inférentiels
Une description générale de l’inversion des probabilités est donnée par le théorème de Bayes
g(y |x ) = R f (x |y )g(y )
f (x |y )g(y ) dy
20/291 20
Rappels de statistique Aspects inférentiels
Bayes (1763) puis Laplace (1795) ont supposé que l’incertitude sur θ pouvait être décrite par
une distribution de probabilité de densité π(θ) sur Θ, appelée loi a priori
Sachant des données xn , la mise à jour de cette loi a priori s’opère par le conditionnement de θ à
xn ; on obtient la loi a posteriori
21/291 21
Rappels de statistique Aspects inférentiels
Une boule de billard Y1 roule sur une ligne de longueur 1, avec une probabilité uniforme de
s’arrêter n’importe où
Une seconde boule Y2 roule alors n fois dans les mêmes conditions, et on note X le nombre de
fois où Y2 s’arrête à gauche de Y1
22/291 22
Rappels de statistique Aspects inférentiels
Raisonner en “proportionnel" : ∝
23/291 23
Rappels de statistique Aspects inférentiels
On choisit a priori
θ ∼ N (m, ρσ 2 )
24/291 24
Rappels de statistique Aspects inférentiels
L’idée que les paramètres θ puissent être aléatoires va à l’encontre du dogme généralement
établi en statistiques que θ est “inconnu, mais fixe"
25/291 25
Rappels de statistique Aspects inférentiels
θ est estimé par θ̂n = T (x1 , . . . , xn ) qui est une observation de la variable aléatoire appelée
estimateur T (X1 , . . . , Xn ) ∼ P
Maximum de vraisemblance θ̂n = arg max `(θ|xn )
Estimateur des moindres carrés
Estimateur des moments
En général, la distribution P de l’estimateur est inconnue pour n < ∞, elle est le plus souvent
approximée asymptotiquement via un Théorème de la Limite Centrale (TLC) :
L
si x1 , . . . , xn sont iid Σ−1
n θ̂n − θ0 −
→ N (0, 1)
26/291
où θ0 est la vraie valeur inconnue du paramètre 26
Rappels de statistique Aspects inférentiels
1 - Difficultés pratiques
conditions non asymptotiques (n petit), données manquantes...
d’autres formes de connaissance que les données peuvent être négligées
contraintes de forme, valeurs interdites pour θ ...
2 - Difficultés “philosophiques"
Sens de la probabilité : une probabilité n’est vue que comme la limite d’une fréquence, et une
notion de confiance uniquement fondée sur la répétabilité des expériences peut
ne pas être pertinente
Prévision : connaître parfaitement θ permet de quantifier complètement l’incertitude sur
X , mais c’est une tâche impossible
1 Nature des incertitudes :
Pθ représente la partie aléatoire du phénomène considéré
l’estimation de θ souffre d’une incertitude épistémique, réductible si de
l’information supplémentaire (données) est fournie
2 Comment incorporer les incertitudes sur θ à travers la connaissance de θ̂n
pour prévoir une nouvelle valeur Xn+1 ?
27/291 27
Rappels de statistique Aspects inférentiels
Principe de vraisemblance
L’information (= l’ensemble des inférences possibles) apportée par une
observation x sur θ est entièrement contenue dans la fonction de vraisemblance `(θ|x ) = f (x |θ).
De plus, si x1 et x2 sont deux observations qui dépendent du même paramètre θ, telle qu’il
existe une constante c satisfaisant
`(θ|x1 ) = c`(θ|x2 ) ∀θ
L’utilisation d’un estimateur θ̂n par le statisticien fréquentiste peut contredire le principe de
vraisemblance
28/291 28
Rappels de statistique Aspects inférentiels
Soient x1 , x2 deux réalisations. Nous avons deux candidats pour la loi jointe de ces observations :
1 la densité
exp −(x1 + x2 − 2θ)2 /4
g(x1 , x2 |θ) = π −3/2
1 + (x1 − x2 )2
29/291 29
Rappels de statistique Aspects inférentiels
Mais g(x1 , x2 |θ) est très différente de la première distribution (par exemple, l’espérance de
x1 − x2 n’est pas définie)
Les estimateurs de θ auront donc des propriétés fréquentistes différentes s’ils ne dépendent pas
que de x̄ (ex : estimateur des moments)
En particulier, les régions de confiance pour θ peuvent différer fortement car g possède des
queues plus épaisses
30/291 30
Rappels de statistique Aspects inférentiels
qui sont les plus petites asymptotiquement, ne dépendront pas uniquement de la fonction de
vraisemblance si la borne c doit être choisie de manière à obtenir un niveau de confiance α
31/291 31
Rappels de statistique Aspects inférentiels
iid
Soit Xn = (X1 , . . . , Xn ) ∼ f (.|θ)
On cherche à prévoir le plus précisément possible ce que pourrait être le prochain tirage Xn+1
et ce faisant on utilise 2 fois les données et on risque de sous-estimer les incertitudes (intervalles
de confiance) en renforçant arbitrairement la connaissance
32/291 32
Rappels de statistique Aspects inférentiels
33/291 33
Rappels de statistique Aspects décisionnels liés à une estimation ponctuelle
L’objectif général de la plupart des études inférentielles est de fournir une décision au statisticien
(ou au client) à partir du phénomène modélisé par X ∼ f (x |θ) (dans le cadre paramétrique)
Exemples : acheter des capitaux selon leurs futurs rendement θ, déterminer si le nombre θ des
SDF a augmenté depuis le dernier recensement...
Un autre type de décision est d’évaluer si un nouveau modèle descriptif est compatible avec les
données expérimentales disponibles (choix de modèle)
34/291 34
Rappels de statistique Aspects décisionnels liés à une estimation ponctuelle
En général, la décision d ∈ D demande d’évaluer (estimer) une fonction d’intérêt h(θ), avec
θ ∈ Θ, estimation fondée sur l’observation x ∈ Ω
On décrit alors D = l’ensemble des fonctions de Θ dans h(Θ) où h dépend du contexte (on y
reviendra)
35/291 35
Rappels de statistique Aspects décisionnels liés à une estimation ponctuelle
la relation d’ordre peut être étendue sur les moyennes des récompenses aléatoires (et
donc sur les distributions de probabilité correspondantes)
il existe au moins un ordre partiel sur les gains (même aléatoires) et un gain optimal
36/291 36
Rappels de statistique Aspects décisionnels liés à une estimation ponctuelle
Ils impliquent l’existence d’une fonction d’utilité U(r ) permettant de trier les gains aléatoires
Elle peut être vue comme une mesure de proximité entre la décision proposée d et la vraie valeur
(inconnue) θ
Définition
On appelle fonction de coût
L(θ, d) = −U(θ, d)
Dans la pratique, le décideur construit L(θ, d) ≥ 0, ce qui implique qu’il n’existe pas de
décision d menant à une utilité infinie
L(θ, d) représente l’erreur due à une mauvaise évaluation de la fonction de θ d’intérêt, et
on suppose donc L(θ, θ) = 0
37/291 37
Rappels de statistique Aspects décisionnels liés à une estimation ponctuelle
Exemple
S’il n’y a pas d’information additionnelle disponible sur ce modèle, il paraît logique de choisir
une fonction de coût qui attribue le même poids à chaque composante, soit un coût de la forme
p
xi − θi
X
L avec L(0) = 0
σi
i=1
Par normalisation, les composantes avec une grande variance n’ont pas un poids trop important
38/291 38
Rappels de statistique Risque fréquentiste
Dans un contexte de gain aléatoire, l’approche fréquentiste propose de considérer le coût moyen
ou risque fréquentiste
Z
R(θ, δ) = Eθ [L(θ, δ(x ))] = L(θ, δ(x ))f (x |θ) dx
Ω
où δ(x ) est la règle de décision = attribution d’une décision connaissant l’observation x
Difficultés
le critère évalue les procédures d’estimation selon leurs performances à long terme et non
directement pour une observation donnée
on suppose tacitement que le problème sera rencontré de nombreuses fois pour que
l’évaluation en fréquence ait un sens
R(θ, δ) ' coût moyen sur les répétitions
ce critère n’aboutit pas à un ordre total sur les procédures de construction d’estimateur
39/291 39
Rappels de statistique Risque fréquentiste
Exemple
Pθ (x = θ − 1) = Pθ (x = θ + 1) = 1/2 avec θ ∈ IR
L(θ, δ) = 1 − 1θ (δ)
appelé coût 0-1, qui pénalise par 1 toutes les erreurs d’estimation quelle que soit leur magnitude
x1 + x2
δ1 (x1 , x2 ) =
2
δ2 (x1 , x2 ) = x1 + 1
δ3 (x1 , x2 ) = x2 − 1
40/291 40
Rappels de statistique Risque fréquentiste
Exemple
On trouve
41/291 41
Rappels de statistique Risque bayésien
L’approche bayésienne de la théorie de la décision considère que le coût L(θ, d) doit plutôt être
moyenné sur tous les états de la nature possibles
Conditionnellement à l’information x disponible, ils sont décrits par la loi a posteriori π(θ|x )
On peut enfin définir le risque intégré = risque fréquentiste intégré sur les valeurs de θ selon
leur distribution a priori
Z Z
RB (δ|π) = L(θ, δ(x ))f (x |θ) dx π(θ) dθ
Θ Ω
Associant un nombre réel à chaque estimateur δ, ce risque induit donc une relation d’ordre total
sur les procédures de construction d’estimateur
42/291 42
Rappels de statistique Risque bayésien
Définition
Un estimateur de Bayes associé à une distribution a priori π et une fonction de
coût L est défini par
Théorème
Pour chaque x ∈ Ω,
R
Ceci reste vrai même si π(θ)dθ = ∞ (mesure a priori non-probabiliste) à condition que
R Θ
π(θ|x )dθ = 1
Θ
43/291 43
Rappels de statistique Risque bayésien
Il s’agit du coût fréquentiste minimum dans le cas le moins favorable (l’écart entre θ et δ, càd
l’erreur d’estimation, est maximal(e))
Théorème
Le risque de Bayes est toujours plus petit que le risque minimax
Si elle existe, une distribution a priori π ∗ telle que r (π ∗ ) = R est appelée distribution a priori la
moins favorable
L’apport d’information a priori π(θ) ne peut qu’améliorer l’erreur d’estimation, même dans le
pire des cas
44/291 44
Rappels de statistique Risque bayésien
Définition
Un estimateur δ0 est dit inadmissible s’il existe un estimateur δ1 qui domine δ0 au
sens du risque fréquentiste, càd si
R(θ, δ0 ) ≥ R(θ, δ1 ) ∀θ ∈ Θ
et ∃θ0 tel que R(θ0 , δ0 ) > R(θ0 , δ1 ). Sinon, il est dit admissible
Proposition
S’il existe un unique estimateur minimax, il est admissible
Théorème
Si un estimateur de Bayes δ π associé à une mesure a priori π (probabiliste ou non)
est tel que le risque de Bayes
Z
r (π) = R(θ, δ π ) dθ < ∞
Θ
45/291 45
Rappels de statistique Risque bayésien
Selon ces critères fréquentistes, les estimateurs de Bayes font mieux ou au moins aussi bien que
les estimateurs fréquentistes !
leur risque minimax est toujours égal ou plus petit
ils sont tous admissibles (si le risque de Bayes est bien défini)
Les estimateurs de Bayes, plus généralement, sont souvent optimaux pour les concepts
fréquentistes d’optimalité et devraient donc être utilisés même lorsque l’information a priori est
absente
On peut ignorer la signification d’une distribution a priori tout en obtenant des estimateurs
corrects d’un point de vue fréquentiste
46/291 46
Rappels de statistique Risque bayésien
Une alternative, lorsqu’il est difficile de la construire, est de faire appel à des fonctions de coût
usuelles, mathématiquement simples et de propriétés connues
L’idée est simplement de construire une “distance" usuelle entre θ ∈ Θ et d ∈ D permettant une
bonne optimisation (convexe par exemple)
47/291 47
Rappels de statistique Risque bayésien
Soit D = Θ. On pose
Critère d’évaluation le plus commun, convexe, mais pénalise très (trop) fortement les grands
écarts peu vraisemblables
Justifié par sa simplicité (Gauss), le fait qu’il produit des estimateurs de Bayes intuitifs, et qu’il
peut être vu comme le DL d’un coût symétrique complexe
Proposition
l’estimateur de Bayes associé à toute loi a priori π et au coût (1) est l’espérance
(moyenne) de la loi a posteriori π(θ|xn )
48/291 48
Rappels de statistique Risque bayésien
Soit xn un échantillon de loi N (µ, σ 2 ) dont la dernière valeur xn est censurée à droite
µ|σ 2 ∼ N (µ0 , σ 2 )
σ2 ∼ IG(a, b)
49/291 49
Rappels de statistique Risque bayésien
Question : cet événement routier (bouchon, incident, accident, animal sur la voie...) est-il un
bon indicateur d’un évènement θ ∈ Θ0 ou θ ∈ Θ1 (incidents sans gravité versus accidents
nécessitant une intervention d’un opérateur routier) ?
50/291 50
Rappels de statistique Risque bayésien
Le classifieur lui-même ne suffit pas à prendre une décision. Il faut se munir d’une règle de
décision binaire (intervention /non intervention), opérationnelle pour l’opérateur routier
que l’on cherche à définir si la vérité sur θ pouvait être connue. Dans le cas qui nous intéresse,
on aurait :
L(θ, δ(x )) = C1 = le coût prévisionnel d’une intervention à raison, donc si θ ∈ Θ0 et
δ(x ) = 1 ;
L(θ, δ(x )) = C2 = le coût prévisionnel d’une non-intervention à tort (erreur de 1ère
espèce), si θ ∈ Θ0 et δ(x ) = 0 ;
L(θ, δ(x )) = C3 = le coût prévisionnel d’une intervention à tort (erreur de 2ème espèce),
si θ ∈
/ Θ0 et δ(x ) = 1 ;
L(θ, δ(x )) = C4 = 0 le coût (nul) d’une non-intervention à raison, si θ ∈
/ Θ0 et δ(x ) = 0.
51/291 51
Rappels de statistique Risque bayésien
Risque de Bayes :
Z
R(δ(x ), Π, en ) = L(θ, δ(x ))dΠ(θ ∈ Θ|X = x , en )
Θ
52/291 52
Rappels de statistique Risque bayésien
L(θ, δ) = |θ − d| (2)
Tout en étant convexes, elles croissent plus lentement que le coût quadratique et ne
surpénalisent pas les erreurs grandes peu vraisemblables
Proposition
l’estimateur de Bayes associé à toute loi a priori π et au coût (3) est le fractile
c2 /(c1 + c2 ) de la loi a posteriori π(θ|xn )
En particulier, la médiane de la loi a posteriori est l’estimateur de Bayes lorsque c1 = c2 (qui sont
donc des coûts associés à la sous-estimation et la surestimation de θ)
53/291 53
Rappels de statistique Risque bayésien
Fonction de coût non quantitative, utilisé dans l’approche classique des tests d’hypothèse
n
1−d si θ ∈ Θ0
L(θ, d) = (4)
d sinon
Proposition
l’estimateur de Bayes associé à toute loi a priori π et au coût (10) est
n
1 si Π(θ ∈ Θ0 |xn ) > Π(θ ∈
/ Θ0 |xn )
δπ =
0 sinon
54/291 54
Rappels de statistique Risque bayésien
On cherche à trouver des fonctions de coûts qui restent invariantes par transformation
monotone inversible sur les données (action d’un C 1 −difféomorphisme sur Ω)
55/291 55
Quelques autres caractéristiques du cadre bayésien
57/291 57
Quelques autres caractéristiques du cadre bayésien Estimateur du mode a posteriori
Ne dépend pas d’une fonction de coût, mais il a les mêmes inconvénients que le maximum de
vraisemblance (MV) (non unicité, instabilité d’estimation, dépendant du choix de la mesure dominante µ sur Θ)
En outre, il ne vérifie (en général) pas la non invariance par reparamétrisation qui caractérise le
MV
Cet estimateur, qui peut paraître intuitivement séduisant, est plutôt à éviter
58/291 58
Quelques autres caractéristiques du cadre bayésien Régions de confiance et de crédibilité
Définition
Une région A de Θ est dite α−crédible si Π(θ ∈ A|x ) ≥ 1 − α
Pθ (θ ∈ A) ≥ 1−α
Une région α−crédible peut être estimée par les quantiles empiriques de la simulation a
posteriori (voir plus loin)
59/291 59
Quelques autres caractéristiques du cadre bayésien Une approche rapide des tests d’hypothèse
La fonction de coût L(θ, d) 0-1 est proposée dans l’approche classique de Neyman-Pearson :
si d 6= 1Θ0
n
1
L(θ, d) = (5)
0 sinon
menant à l’estimateur bayésien dans D = {0, 1}
n
1 si Π(θ ∈ Θ0 |x ) > Π(θ ∈
/ Θ0 |x )
δ π (x ) =
0 sinon
qui fait sens intuitivement : l’estimateur choisit l’hypothèse avec la probabilité a posteriori la
plus grande.
On peut généraliser en pénalisant différement les erreurs suivant que H0 est vraie ou fausse
si d = 1Θ0
(
0 n
1 si Π(θ ∈ Θ0 |x ) > a1 /(a0 + a1 )
L(θ, d) = a0 si θ ∈ Θ0 et d = 0 ⇒ δ π (x ) =
0 sinon
a1 si θ ∈
/ Θ0 et d = 1
L’hypothèse nulle est rejetée quand la probabilité a posteriori de H0 est trop petite
Il est cependant délicat de choisir les poids a0 et a1 sur des considérations d’utilité
60/291 60
Quelques autres caractéristiques du cadre bayésien Une approche rapide des tests d’hypothèse
Le facteur de Bayes est une transformation bijective de la probabilité a posteriori, qui a fini par
être l’outil le plus utilisé pour choisir un modèle bayésien
Définition
Le facteur de Bayes est le rapport des probabilités a posteriori des hypothèses nulle
et alternative sur le rapport a priori de ces mêmes hypothèses
Π(θ ∈ Θ0 |x ) Π(θ ∈ Θ0 )
.
B01 (x ) =
Π(θ ∈ Θ1 |x ) Π(θ ∈ Θ1 )
qui se réécrit comme le pendant bayésien du rapport de vraisemblance en remplaçant les
vraisemblances par les marginales (les vraisemblances intégrées sur les a priori) sous les deux
hypothèses
R
f (xn |θ)π0 (θ) dθ f0 (xn )
B01 (x ) = R Θ0 =
f (xn |θ)π1 (θ) dθ f1 (xn )
Θ1
En l’absence d’un cadre décisionnel véritable (qui consisterait à pouvoir fixer a0 et a1 , une
échelle “absolue" a été proposée par Jeffreys (1939), remaniée depuis par Kass & Raftery
(1995), pour évaluer le degré de certitude en faveur ou au détriment de H0 apporté par les
données
(i) si Λ = log10 B10 (xn ) varie entre 0 et 0.5, la certitude que H0 est fausse est
faible
(ii) si Λ ∈ [0.5, 1], cette certitude est substantielle
(iii) si Λ ∈ [1, 2], elle est forte
(iv) si Λ > 2, elle est décisive
Remarque : le calcul du facteur de Bayes n’est pas évident et demande le plus souvent de savoir
simuler a posteriori
62/291 62
Quelques autres caractéristiques du cadre bayésien Consistance et normalité asymptotique de la loi a posteriori
Théorème 1
Si f (.|θ) est suffisament régulière et identifiable, soit si
θ1 6= θ2 ⇒ f (x |θ1 ) 6= f (x |θ2 ) ∀x ∈ Ω, alors
p.s.
π(θ|xn ) −−→ δθ0
63/291 63
Quelques autres caractéristiques du cadre bayésien Interprétation subjective de la probabilité a priori
Elle peut être comprise comme pari (personnel) fait sur l’éventualité d’un évènement, et
notamment un gain conditionné par l’occurence du phénomène modélisé par f (x |θ)
Cette interprétation subjective, proposée par de Finetti (1948), est certainement le point le plus
critiqué de la démarche bayésienne
64/291 64
Quelques autres caractéristiques du cadre bayésien Interprétation subjective de la probabilité a priori
Dans l’histoire des théories de représentation de la connaissance, deux grandes écoles de pensée
1 des théories de la représentation qui s’adaptent aux moyens variés, pour un humain,
d’exprimer son opinion personnelle sur le comportement d’une variable d’ancrage X ou
d’un paramètre perceptible θ (plus rare)
théories extra-probabilistes : Dempster-Schafer, possibilités, logique floue ...
2 des théories qui visent à établir des axiomes de rationalité à propos des décisions
sous-tendant l’expression d’une opinion : un expert est perçu comme un preneur de
décision selon ces axiomes
65/291 65
Quelques autres caractéristiques du cadre bayésien Une première conclusion
Il y a redondance entre les deux premières étapes : présupposer l’existence d’une fonction de
coût implique qu’une certaine information a priori sur le problème considéré est disponible
66/291 66
Quelques autres caractéristiques du cadre bayésien Une première conclusion
Quelques références
1 Berger, J.O. (1985). Statistical Decision Theory and Bayesian Analysis. Springer
2 Robert, C., P. (2006). Le choix bayésien. Principes et pratique. Springer
3 Parent, E., Bernier, J. (2007). Le raisonnement bayésien : modélisation et inférence.
Springer
4 Keller, M., Pasanisi, A., Parent, E. (2012). Réflexions sur l’analyse d’incertitudes dans un
contexte industriel : information disponible et enjeux décisionnels. Journal de la Société
Française de Statistiques
67/291 67
Rappels en statistique computationnelle
69/291 69
Rappels en statistique computationnelle
Estimation bayésienne
La loi a posteriori π(θ|xn ) décrit l’ensemble des incertitudes sur θ ∈ Θ, vecteur inconnu qui
“paramétrise" l’état de nature
Toute décision δ peut être jugée par un coût L(θ, δ), c’est-à-dire son écart par rapport à une
décision idéale inatteignable, affecté par la distribution de probabilité a posteriori π(θ|xn )
Z Z
RB (δ|π) = L(θ, δ) dΠ(θ|xn ) = L(θ, δ)π(θ|xn ) dθ
Θ Θ
70/291 70
Rappels en statistique computationnelle
Si, par exemple, on choisit un regret (ou un coût) quadratique L(θ, δ) ∝ (δ − θ)2 , on a vu que
Z
δπ = E[θ|xn ] = θπ(θ|xn ) dθ (moyenne a posteriori)
Θ
Z δ∗
c1
π(θ|xn ) dθ =
−∞
c1 + c2
71/291 71
Rappels en statistique computationnelle
En général...
Pas de caractère explicite, dans la très grande majorité des cas, car
et le dénominateur n’est pas explicitement connu (π(θ|xn ) est définie à une constante
d’intégration près)
Une façon intéressante (voire même indispensable) de procéder est d’utiliser des simulations de
la loi a posteriori
72/291 72
Rappels en statistique computationnelle
∗ p.s.
Loi Forte des Grands Nombres (δ̂M −
−−→ δ ∗ ) + Théorème Central Limite
soit en prenant
(
1 ∗ ∗
π 2
θα·M + θα·(M+1) si α · M est entier
δ̂M = (Théorème de Mosteller)
∗
θbα·Mc+1 sinon
73/291 73
Rappels en statistique computationnelle
74/291 74
Rappels en statistique computationnelle
Plaçons-nous dans un cadre d’analyse prédictive : simuler des réalisations de X est une
nécessité lorsqu’on s’intéresse au comportement Y d’un phénomène (par exemple physique)
modélisé ainsi :
Y = g(X , ν) +
où :
g est une fonction (ou un code de calcul) déterministe
ν est un indice ou une variable indexant typiquement des conditions environnementales
est un “bruit" stochastique qui modélise l’erreur entre la réalité du phénomène Y et la
sortie de g
Exemple : Y représente une hauteur d’eau aval, g est un code hydraulique, X est un débit d’eau amont, ν caractérise le
frottement de la rivière et tient compte de la méconnaissance du terrain, de la précision du code, etc.
75/291 75
Rappels en statistique computationnelle
permet de simuler une prochaine observation xn+1 crédible sachant qu’on a déjà observé les xn
Attention : des valeurs simulées selon f (x |xn ) ne constitue JAMAIS un échantillon i.i.d. : elles
sont toutes interdépendantes puisqu’elles dépendent toutes de xn
On remarque d’ailleurs que la densité jointe d’un tel échantillon n’est pas le produit des densités
de chacun des tirages
Xn+1 ∼ f (x |xn )
Xn+2 ∼ f (x |xn , xn+1 )
etc.
76/291 76
Rappels en statistique computationnelle
Simuler selon la loi a posteriori π(θ|xn ) n’est en règle générale pas possible directement
Il faut donc utiliser des techniques qui font appel à de la simulation indirecte :
Plus ρ(θ) est “proche" de π(θ|xn ), plus ce test doit accepter les θi
77/291 77
Rappels en statistique computationnelle
posterior
rho 1
rho 2
−4 −2 0 2 4
theta
4 Lorsque dim Θ est petite (1 ou 2), on peut tracer π(θ|xn ) à un coefficient près pour
sélectionner une forme intéressante pour ρ(θ)
78/291 78
Rappels en statistique computationnelle
Un candidat logique peut parfois être la loi a priori π(θ), car elle respecte automatiquement la
règle d’inclusion du support
1 Si l’a priori est très informatif par rapport aux données, l’a posteriori en sera proche
une quantification de cette “force" relative d’information est donc pratique pour
choisir ρ(θ)
3 Ce choix est aussi à proscrire si l’a priori privilégie des régions de Θ qui sont éloignées de
celles privilégiées par les données
indication : éloignement du mode a priori de θ et du maximum de vraisemblance θ̂n
79/291 79
Rappels en statistique computationnelle
On cherche à obtenir indirectement des tirages qui suivent (en général approximativement) la
loi a posteriori :
1 algorithmes d’acceptation-rejet
2 échantillonnage d’importance (préférentiel)
3 méthodes de Monte Carlo par chaînes de Markov (MCMC)
4 filtrage particulaire
On présente ici les trois premières méthodes d’échantillonnage (le filtrage étant plus délicat
d’utilisation, et plutôt adapté à des modèles à espace d’états)
Ces méthodes - et leurs hybrides - sont les outils actuels les plus puissants pour simuler des lois
connues semi-explicitement (à une constante/une intégrale près)
80/291 80
Rappels en statistique computationnelle Acceptation-rejet
f (xn |θ)π(θ)
Hypothèse supp. sur ρ(θ) : 0 < K = sup < ∞
θ∈Θ ρ(θ)
Algorithme :
(Preuve en cours)
81/291 81
Rappels en statistique computationnelle Acceptation-rejet
La loi du nombre de tirages nécessaires selon ρ(θ) jusqu’à en accepter un suit la loi géométrique
de probabilité 1/(K · C ) où C est la constante d’intégration inconnue
Z
C = f (xn |θ)π(θ) dθ
Θ
82/291 82
Rappels en statistique computationnelle Acceptation-rejet
La vraisemblance s’écrit
n−1
!
1 X
2
f (xn |θ) ∝ exp − (xk − θ) 1 − Φ(y − θ)
2 | {z }
k=1
| {z } terme dû à la censure
= P(X > y )
terme régulier
83/291 83
Rappels en statistique computationnelle Acceptation-rejet
Puisque 1 − Φ(y − θ) ≤ 1, on a
r
2π
π̃(θ|xn ) ≤ ·{1 − Φ(y − θ)} · ρ(θ)
n
| {z }
K
√
Le nombre moyen d’appels nécessaires à ρ(θ) varie proportionnellement à 1/ n, donc plus
l’échantillon de données grandit, plus l’algorithme est efficace
84/291 84
Rappels en statistique computationnelle Acceptation-rejet
85/291 85
Rappels en statistique computationnelle Acceptation-rejet
On peut améliorer (faire baisser) le taux de rejet en encadrant la loi a posteriori entre 2 densités
instrumentales (acceptation-rejet par enveloppe)
Principe parfait en théorie, mais en pratique réservé aux cas simples (dim Θ petite)
86/291 86
Rappels en statistique computationnelle Échantillonnage d’importance (ou préférentiel)
Z
h(x |xn ) = h(x |θ)π(θ|xn ) dθ
Θ
87/291 87
Rappels en statistique computationnelle Échantillonnage d’importance (ou préférentiel)
Il faut cependant noter qu’ils sont fortement dépendants (tirage avec remise)
En pratique, l’heuristique de Rubin consiste à prendre P < M/20 pour diminuer la dépendance
88/291 88
Rappels en statistique computationnelle Échantillonnage d’importance (ou préférentiel)
ωi ∝ 1 − Φ(y − θi )
Les poids les plus hauts sont donc ceux pour lesquels y θi
validation graphique
comparaison avec le choix ρ(θ) = π(θ)
89/291 89
Rappels en statistique computationnelle Échantillonnage d’importance (ou préférentiel)
Quelques commentaires
1 Plus la densité instrumentale ρ(θ) est “proche" de π(θ|xn ), plus les poids sont équilibrés
(donc meilleur est le rééchantillonnage)
2 Plutôt qu’une loi unique ρ, on peut mettre en place des algorithmes adaptatifs qui
construisent itérativement une suite de densités {ρk (θ)}k convergeant vers π(θ|xn ), pour
améliorer encore le rééchantillonage [Marin & Robert : The Bayesian Core]
90/291 90
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)
Principe
Partant d’un tirage d’une densité π̃0 (θ) arbitraire, on produit une chaîne de Markov de
Soit A ∈ Θ. Une chaîne de Markov homogène est déterminée par un noyau de transition, défini à
l’itération i par
Z
(i) (i−1)
K(θ|A) = P(θ ∈ A|θ = θ) = κ(θ, θ̃) d θ̃,
A
| {z }
densité de transition sur θ̃
qui généralise la matrice de transition d’un état à un autre dans un cadre discret
R
La densité de probabilité d’un θ simulé à l’itération i est π̃i (θ) = π̃ (θ̂)κ(θ̂, θ) d θ̂ et
θ̂∈Θ i−1
converge en loi vers une unique densité stationnaire π̃∞ (θ), indépendamment de π̃0 , sous des
conditions très générales
91/291 91
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)
Caractéristiques majeures :
le début de la chaîne (dit temps de chauffe) sert à explorer l’espace Θ et trouver les zones
de haute densité a posteriori
on ne conserve que la seconde partie de l’ensemble des θ(i) produits, qui suivent la
distribution stationnaire (la chaîne “oublie" son état initial)
la fréquence de visite de chaque état (ou sous-ensemble) de Θ est la même pour toute
trajectoire MCMC
on ajoute souvent une étape de rééchantillonage (SIR) ou de décorrélation des θ(i)
conservés pour obtenir un échantillon approximativement indépendant de π̃∞ (θ)
92/291 92
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)
Application au bayésien
Pour que la loi stationnaire π̃∞ (θ) soit la loi a posteriori π(θ|xn ), le noyau K doit être construit
en fonction de la vraisemblance des données xn et de l’a priori π(θ)
93/291 93
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)
Étape i:
1 simuler θ̃ ∼ ρ(θ|θ(i−1) )
2 calculer la probabilité
f (xn |θ̃)π(θ̃) ρ(θ(i−1) |θ̃)
αi = min 1, ·
f (xn |θ(i−1) )π(θ(i−1) ) ρ(θ̃|θ(i−1) )
Le noyau markovien est alors constitué d’un mélange d’un Dirac en θ(i−1) et de la loi
instrumentale, mélange pondéré par la probabilité de transition αi
94/291 94
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)
Propriétés particulières
On a
la chaîne MCM produite est alors dite réversible et ceci suffit à montrer, si la chaîne est
irréductible et apériodique, que :
elle est ergodique
la distribution des itérés θ(i) , . . . , θ(j) de la chaîne converge en loi vers une loi-limite unique
celle-ci est proportionnelle à f (xn |θ)π(θ) : il s’agit donc de π(θ|xn )
95/291 95
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)
96/291 96
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)
Une loi des extrêmes (Gumbel) est souvent indiquée pour modéliser X :
f (x |θ) = λµ exp(−λx ) exp(−µ exp(−λx )).
avec θ = (µ, λ). L’espérance est
E[X |θ] = λ−1 (log µ + γ)
où γ est la constante d’Euleur (' 0.578..)
Histogramme / densité de Gumbel estimée
6e−04
5e−04
4e−04
densité
3e−04
2e−04
1e−04
0e+00
données de débit
97/291 97
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)
On pose
n
1 X
x̄n = xi
n
i=1
n
X
b̄xn (λ) = exp (−λxi )
i=1
98/291 98
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)
Choix a priori
99/291 99
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)
Loi a posteriori
où
µ|λ, xn ∼ Gamma m + n, bm (λ) + b̄xn (λ)
et
avec
m (λ)
bm
γ(λ) ∝ m+n
bm (λ) + b̄xn (λ)
La loi a priori est donc semi-conjuguée, et il suffit de simuler λ a posteriori pour obtenir un
tirage joint a posteriori de (µ, λ)
100/291 100
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)
densité a priori lambda (noire) / densité instrumentale (rouge) densité a posteriori (lambda) / coeff.multiplicatif pres
1000
8e−139
800
6e−139
600
4e−139
400
2e−139
200
0e+00
0
0.000 0.001 0.002 0.003 0.004 0.000 0.001 0.002 0.003 0.004
lambda lambda
101/291 101
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)
On peut proposer
la loi a priori π(λ),
une loi qui “semble proche" : Gamma (m + n, m/λe + nx̄n )
une loi normale de moyenne λ(i−1) et de coefficient de variation petit (5%) ou grand (25
ou 50%)
102/291 102
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)
0.0020
0.0015
0.0015
lambda
lambda
0.0010
0.0010
0.0005
0.0005
0.0000
0.0000
0 20 40 60 80 100 0 100 200 300 400 500
nb.iterations nb.iterations
103/291 103
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)
La stationarité est l’atteinte par une chaîne d’un tirage stationnaire dans la loi a posteriori
Si α reste grand, chaque chaîne évolue solitairement et elles risque de se mélanger lentement
Stabilisation : un α = 0.25 est souvent considéré, en pratique (en particulier lorsque dim Θ est
grande) comme un bon objectif de renouvellement à la stationnarité.
La calibration de ρ(θ|θ(i−1) ) (en général, le choix de sa variance) peut être en général faite de
façon empirique en “testant" le taux d’acceptation effectif
104/291 104
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)
Une modélisation standard est de choisir ρ(θ|θ(i−1) ) centrée sur θ(i−1) , et donc seule la variance
doit être calibrée
Une (très) vaste littérature à ce sujet, plutôt du domaine de la recherche que de la règle du
pouce ou la “boîte à outils" [Roberts & Rosenthal, Moulines et al.]
105/291 105
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)
Une fois que le temps de chauffe est passée ≡ la phase ergodique est atteinte
De nombreux diagnostics de convergence vers la stationarité ont été proposés [Cowles & Carlin
1996] et nécessitent d’avoir lancé plusieurs chaînes parallèles
À la stationarité, ces chaînes parallèles se sont bien mélangées et ont “oublié" le passé de
chacune
Les diagnostics sont surtout visuels : on regarde l’évolution du comportement d’une statistique
informant sur la stabilité de la distribution des θ
106/291 106
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)
4.0
0.30
3.5
0.25
3.0
0.20
2.5
0.15
2.0
0.10
1.5
0.05
1.0
0.00
0.5
0 100 200 300 400 500 0 100 200 300 400 500
nb.iterations nb.iterations
108/291 108
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)
Soit Mc le nombre d’itérations d’une MCMC avant qu’on atteigne la stationnarité (temps de
chauffe)
De par le caractère markovien de la MCMC, ces valeurs peuvent être très dépendantes le long
d’une chaîne
109/291 109
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)
À i fixé, Auti,i+j tends vers 0 lorsque j augmente ⇔ θ(i+j) devient de plus en plus
décorrélé de θ(i)
On considère que cette décorrélation est effective lorsque l’estimateur de Auti,i+j
est un bruit blanc gaussien
On peut donc, en moyenne sur les i, estimer le nombre d’itérations nécessaire t
pour obtenir 2 valeurs décorrélées de θ
3 On baisse encore la dépendance des éléments de l’échantillon final en prélevant dans les
chaînes indépendantes
110/291 110
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)
(1) ! (M) !
θ1 θ1
(1) (i)
θ = ... , θ = ... ,...
(1) (M)
θd θd
111/291 111
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)
Converge en général plus vite qu’une MCMC (temps de chauffe moins long)
Il permet souvent de faciliter l’estimation des modèles à données manquantes (ex : censures)
en considérant ces données comme des paramètres inconnus à simuler (augmentation de
données)
ce qui permet de retomber, parfois, dans des cas conjugués
112/291 112
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)
n
! !
1 X
−1
θ|xn ∼ N µ+ xi , (n + 1)
n
i=1
Sachant θ et xn , on peut montrer par la règle de Bayes que la loi de xn est la normale tronquée
N (θ, 1) · 1{xn ≥y }
113/291 113
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)
114/291 114
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)
Schéma de Gibbs :
115/291 115
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)
Problème majeur : même si ces lois a posteriori conditionnelles sont propres, la loi jointe peut
ne pas l’être :
Z
π(θ|xn ) dθ = ∞
Θ
116/291 116
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)
Pour i = 1, . . . , I et j = 1, . . . , J
xij = β + ui + ij
A priori de Jeffreys :
1
π(β, σ 2 , τ 2 ) ∝
σ2 τ 2
117/291 117
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)
On note xIJ l’échantillon des données observées, x̄i la moyenne sur les j
Ui |xIJ , β, σ 2 , τ 2
β|xIJ , σ 2 , τ 2 , uI
σ 2 |xIJ , β, τ 2 , uI
τ 2 |xIJ , β, σ 2 , uI
Question 2. Donner une formule (à un coefficient proportionnel près) pour la loi a posteriori
jointe π(σ 2 , τ 2 |xIJ ). Comment se comporte-t-telle au voisinage de σ = 0, pour τ 6= 0 ? Que
pouvez-vous en déduire ?
Question 3. Mettre en place un algorithme de Gibbs permettant d’inférer sur (β, σ 2 , τ 2 ). Que
pouvez-vous dire sur la convergence des chaînes MCMC ?
118/291 118
Rappels en statistique computationnelle Méthodes de Monte Carlo par chaînes de Markov (MCMC)
Metropolis-within Gibbs
On peut alors construire un hybride de Gibbs et Hastings-Metropolis, qui converge encore vers la
loi a posteriori jointe
Étape i de l’algorithme :
(i) (i−1)
1 on simule θ1 ∼ π θ1 |θ2 , xn
(i−1)
on simule θ2∗ ∼ ρ(i) (.|θ2 )
(i)
on accepte θ2 = θ2∗ avec probabilité αi
(i) (i−1)
sinon on conserve θ2 = θ2
119/291 119
Récapitulatif : quand et comment faire, erreurs à éviter, principaux
messages
121/291 121
Récapitulatif : quand et comment faire, erreurs à éviter, principaux
messages
Le problème est-il proche d’un cas conjugué ? (ex : loi normale censurée)
Si oui, que faudrait-il faire (typiquement, simuler des données manquantes ⇒ Gibbs)
Si aucune idée, peut-on trouver une loi ρ(θ) partageant certaines caractéristiques avec
π(θ|xn ) ?
122/291 122
Récapitulatif : quand et comment faire, erreurs à éviter, principaux
messages
123/291 123
Outils de mise en oeuvre et références
Cependant, un travail de fond sur les MCMC doit être fait “à la main"... en pouvant utiliser des
packages R spécifiquement dédiés aux tests de convergence (coda), à la représentation
graphique des chaînes...
125/291 125
Outils de mise en oeuvre et références
Quelques références
126/291 126
Choix du cadre bayésien
128/291 128
Choix du cadre bayésien
Incertitude aléatoire.
L’incertitude aléatoire, ou naturelle est due au caractère aléatoire ou à la variabilité
naturelle d’un phénomène physique (les valeurs sont précises mais différentes en raison
de variations naturelles). On parle également d’incertitude stochastique ou de variabilité
Cette incertitude est généralement liée à des quantités mesurables et est considérée
comme irréductible puisqu’inhérente à la variabilité naturelle de phénomènes physiques.
L’incertitude aléatoire est généralement associée à des connaissances objectives
s’appuyant sur des données expérimentales
129/291 129
Choix du cadre bayésien
Incertitude épistémique.
L’incertitude épistémique est due au caractère imprécis de la connaissance ou liée à un
manque de connaissance. Elle est généralement liée à des quantités non mesurables, et
est considérée comme réductible dans le sens où de nouvelles connaissances pourraient
réduire voire éliminer ce type d’incertitude
Elle est principalement présente dans le cas de données subjectives fondées sur des
croyances (avis d’expert) et pouvant être qualitatives ou quantitatives
130/291 130
Choix du cadre bayésien
nourrrit les études économiques [Leal2007] et actuarielles [Tredger2016] sur l’impact des
risques financiers
déterminant en arbitrage judiciaire, politique publique [Morgan2014 ou gouvernance
environnementale [Miller2001,Drescher2013]
131/291 131
Choix du cadre bayésien
I argue that what differentiates the epistemic standpoint of experts is not what or how
they know [...], but their capacity for learning
132/291 132
Choix du cadre bayésien
Typiquement :
systèmes cognitifs implicites
humains
intelligences artificielles (néo-connexionnistes)
systèmes causaux explicites
modèles phénoménologiques et leurs implémentation numériques (modèles de
simulation)
intelligences artificielles symboliques
Capacité
133/291 d’apprentissage ⇔ capacité à inférer de façon cohérente quand de nouvelles 133
Choix du cadre bayésien
Difficultés immédiates
biais
impact de la subjectivité sur le processus de délivrance de l’information
flou
...
résultant en incertitude épistémique
134/291 134
Choix du cadre bayésien
Information a priori
résultats d’essais autres que les données (par exemple sur des maquettes)
spécifications techniques d’exploitation
bornes physiques
corpus référencé
experts humains
135/291 135
Choix du cadre bayésien
Pourquoi la théorie des probabilités est-elle pertinente pour aboutir une modélisation des
incertitudes ?
Nombreux avantages pratiques, mais quelle pertinence théorique ?
Soulève la question de l’auditabilité des procédures mathématiques utilisées pour
résoudre un problème = considération croissante de confiance (sociétale)
S’il y a consensus pour utiliser des probabilités, comment choisir les distributions de
probabilités ?
Faire appel à quelques techniques importantes de modélisation bayésienne
136/291 136
Choix du cadre bayésien
137/291 137
Choix du cadre bayésien
138/291 138
Choix du cadre bayésien
Mais nous pouvons avoir des idées sur l’impact de l’ajout d’une connaissance incertaine
mais utile sur la résolution du problème de détermination de X
Propriétés souhaitées
Pouvoir trier des assertions atomiques du type X = x0 at chaque ajout
d’information (logique exclusive)
139/291 une situation initiale (prémisse) est moins informatique qu’une conclusion 139
Choix du cadre bayésien
Définition
Soit SX un ensemble de propositions (assertions) atomiques du type X = xi . L’ensemble
BX de toutes les propositions composites générées par
¬X = xi , X = xi ∧ X = xj ,
X = xi ∨ X = xj , X = xi ⇒ X = xj
and X = xi ⇔ X = xj
La même logique devrait guider la façon dont BX évolue : il croît selon une certaine
métrique quand l’information sur X croît
140/291 140
Choix du cadre bayésien
Définition
Considérons une proposition A on X . Sachant BX , la plausibilité [A|BX ] est un nombre
réel, supérieurement borné par un nombre (fini ou infini) T
141/291 141
Choix du cadre bayésien
Axiome
Considérons une proposition A on X . Sachant BX , la plausibilité [A|BX ] est un nombre
réel, supérieurement borné par un nombre (fini ou infini) T
142/291 142
Choix du cadre bayésien
Axiome
Considérons une proposition A on X . Sachant BX , la plausibilité [A|BX ] est un nombre
réel, supérieurement borné par un nombre (fini ou infini) T
Comme on le précisera après, les différences entre logique probabiliste et logique non
probabiliste (ou extra-probabiliste) sont issues de l’accord ou du désaccord avec cette
hypothèse
Jaynes (1954) justifie la validité de cette hypothèse sur des bases pragmatiques
143/291 143
Choix du cadre bayésien
Axiome
Considérons une proposition A on X . Sachant BX , la plausibilité [A|BX ] est un nombre
réel, supérieurement borné par un nombre (fini ou infini) T
Cette hypothèse est notamment motivée lorsque nous parlons de quantités X possédant
une signification physique et prenant une unique valeur à chaque instant (étant donnée,
possiblement, une précision de mesure finie)
144/291 144
Choix du cadre bayésien
145/291 145
Choix du cadre bayésien
Prouvé originellement (mais avec erreurs) par Cox (1946), mieux formalisé par Jaynes
(1954), étendu plus rigoureusement par Paris (1994), Van Horn (2003), Dupré and
Tipler (2009) (entre autres) et finalisé par Terenin and Draper (2015)
Théorème
Sous les hypothèses précédentes, il existe une fonction P, croissante et continue, telle
que pour toute proposition A, C et tout ensemble BX consistant,
(i) P([A|BX ]) = 0 si et seulement si A est fausse étant donnée l’information
sur X
(ii) P([A|BX ]) = 1 si et seulement si A est vraie étant donnée l’information
sur X
(iii) 0 ≤ P([A|BX ]) ≤ 1
(iv) P([A ∧ C |BX ]) = P([A|BX ])P([C |A, BX ])
(v) P(¬[A|BX ]) = 1 − P([A|BX ])
Tout système de raisonnement plausible, sous les hypothèses précédentes, est isomorphe
à la théorie des probabilités
146/291 146
Choix du cadre bayésien
Goertzel (2013) a prouvé que si la règle de consistance était affaiblie, alors les
plausibilités se comportent approximativement comme des probabilités
La théorie des probabilités est pertinente pour représenter les incertitudes sur un sujet
exploré par un systèmes cognitif implicite (humain ou artificiel) qui pourrait ne pas être
complément consistant
147/291 147
Choix du cadre bayésien
Axiome
Considérons une proposition A on X . Sachant BX , la plausibilité [A|BX ] est un nombre
réel, supérieurement borné par un nombre (fini ou infini) T
La “relaxation" la plus commune de cet axiome est que deux dimensions sont nécessaires
pour représenter correctement la plausibilité d’une proposition
Des expériences ont montré que cette relaxation est parfois nécessaire quand la
plausibilité est interprétée comme le résumé d’une croyance personnelle, d’un pari
148/291 148
Choix du cadre bayésien
149/291 149
Choix du cadre bayésien
Cox 1946 Cox, R.T. (1946). Probability, Frequency and Reasonable Expectation. AJP
Paris 1994 Paris J.B. (1994). The Uncertain Reasoner’s Companion : a Mathematical
Perspective. Cambridge University Press
Van Horn 2003 Van Horn, K.S. (2003). Constructing a logic of plausible inference : a guide to
Cox’s theorem. IJAP
Dupré 2009 Dupré, M.J, Tipler, F.J. (2009). New axioms for rigorous Bayesian probability.
BA
Terenin 2015 Terenin, A., Draper, D. (2015). Rigorizing and extending the Cox-Jaynes
Derivation of Probability : Implications for Statistical Practice.
arXiv :1507.06597
Goertzel 2013 Goertzel, B. (2013). Probability Theory Ensues from Assumptions of
Approximate Consistency : A Simple Eerivation and its Implications for AGI.
Proceedings of AGI-13
Walley1996 Walley, P. (1996). Measures of uncertainty in expert systems. Artificial
Intelligence
Barberousse2008 Barberousse, A. (2008). La valeur de la connaissance approchée.
L’épistémologie de l’approximation d’Émile Borel. Revue d’Histoire des
Mathématiques
Smets1991 The transferable belief model and other interpretations of Dempster-Schafer’s
model. In : Uncertainty in Artificial Intelligence, vol. 6, Elsevier.
Dubois2012 Dubois, D., Prade, H. (2012). Possibility Theory. Springer
Snow1998 Snow, P. (1998). On the correctness and reasonableness of Cox’s theorem for
finite domains. Computational Intelligence
150/291 150
Élicitation bayésienne - présentation
Introduction
L’élicitation de l’a priori est le travail d’encodage probabiliste d’une connaissance incertaine
(méconnaissance) voire d’une incertitude complète sur l’état de la nature, au travers d’une
distribution a priori Π(θ) de densité π(θ)
elicere : tirer de, faire sortir, arracher, obtenir (ex aliquo verbum elicere)
152/291 152
Élicitation bayésienne - présentation
Π(θ) traduit la plus ou moins grande incertitude associée aux grandeurs non observables θ
Cette distribution de probabilité, dite alors subjective, est une mesure de l’engagement personnel
en termes de pari à miser sur telle ou telle valeur de l’événement incertain
Il s’agit d’un modèle d’expertise, et Π(θ) s’interprète comme un degré de crédibilité des valeurs
que peut prendre la grandeur incertaine θ
En conséquence, elle ne possède de sens que si elle est définie conditionnellement à un niveau
fixé de connaissance et peut changer quand l’état de connaissance change (typiquement, quand
des données xn sont apportées)
π(θ) = π(θ|H)
où H représente un état de connaissance initial de l’expérimentateur (mais cette notation ne sera pas
conservée par la suite pour se simplifier la vie...)
153/291 153
Élicitation bayésienne - présentation
Choisir π(θ)
π(θ) = π(θ|δ)
154/291 154
Élicitation bayésienne - présentation
Des modèles de durée de vie sur X peuvent être construits à partir de considérations sur le taux
de défaillance caractérisant Σ
En effet, on a
Z x
Pθ (X ≤ x ) = 1 − exp − λ(u|θ) du
0
et
Z x
dPθ (X < x )
f (x |θ) = = λ(x |θ) exp − λ(u|θ) du
dx 0
155/291 155
Élicitation bayésienne - présentation
156/291 156
Élicitation bayésienne - présentation
Soit x ∼ N (θ, 1)
1 θ00 = 0 et a = 1
2 la moyenne a posteriori de θ sachant x est
x3
θ2∗ ' lorsque |x | ≥ 4
157/291
1 + x2 157
Élicitation bayésienne - présentation
theta1
theta2 (approx.)
3
2
1
0
−1
−1 0 1 2 3 4 5
158/291 158
Élicitation bayésienne - présentation
Objectif du cours
Dans ce cours, on va surtout s’intéresser aux démarches formelles, càd automatiques, visant à
choisir une forme paramétrique pour π(θ) et la calibrer en fonction d’un minimum ou même
d’une absence d’information sur θ
Ces méthodes formelles feront notamment appel à des aspects importants de la théorie de
l’information
159/291 159
Élicitation bayésienne - présentation Élicitation par maximum d’entropie
160/291 160
Élicitation bayésienne - présentation Élicitation par maximum d’entropie
Procédure formelle de construction d’un a priori π(θ) sous un certain type de contraintes
exprimant des connaissances quantitatives
Principe : on recherche un π(θ) dans la classe de mesures de probabilités la plus large possible
respectant ces contraintes
L’entropie est définie comme un indice de désordre (ou d’ignorance) associé à une distribution
de probabilité
161/291 161
Élicitation bayésienne - présentation Élicitation par maximum d’entropie
On suppose ne pouvoir poser que des questions à réponse binaire (oui ou non)
Stratégie 2 (dichotomique) : si ∃Q2 ∈ IN tel que N = 2Q2 , on range les sites en 2 parties et on pose
la question d’appartenance au premier ou au second groupe. En itérant ce procédé, on peut trier
en Q2 = log2 N questions
Lien avec la théorie de l’information : Q2 s’interprète comme le nombre de bits (binary digits)
nécessaire à l’écriture de N en base 2, càd la longueur du mot à utiliser pour coder N dans un
alphabet de 2 caractères
162/291 162
Élicitation bayésienne - présentation Élicitation par maximum d’entropie
Si on suppose inconnue la taille de l’alphabet (donc la nature des questions posées), le nombre
de questions à poser pour identifier un site parmi N est, à une constante multiplicative près,
Une généralisation : on suppose qu’il existe une partition de k aires géographiques et que chaque
aire contienne Ni = N × pi sites, avec i = 1, . . . , k
il suffit de poser Qi0 = log Ni = log pi + log N questions pour trier l’aire i
Pk
en moyenne sur l’ensemble des aires, on trie avec Q 0 = i=1
pi Qi0 questions
163/291 163
Élicitation bayésienne - présentation Élicitation par maximum d’entropie
Le fait de savoir en probabilité dans quelle aire est l’information réduit le nombre de questions à
poser en moyenne de la quantité
k
X
∆Q = Q − Q0 = − pi log pi
i=1
Moins la distribution de probabilité Π = (p1 , . . . , pk ) est informative, plus cette quantité est
grande
Définition
L’entropie d’une variable aléatoire finie de distribution Π = (π(θ1 ), . . . , π(θk )) est
k
X
H = − π(θi ) log π(θi ) (entropie de Shannon)
i=1
164/291 164
Élicitation bayésienne - présentation Élicitation par maximum d’entropie
Généralisation au continu :
le cas discret correspond à une partition fine de Θ en k intervalles dont l’étendue
individuelle tend vers 0
le résultat dépend de la mesure de partitionnement sur Θ
l’entropie doit être invariante par tout changement de variable θ 7→ ν(θ)
Définition
L’entropie d’une variable aléatoire (continue) décrite par sa distribution de
probabilité π(θ) est
Z
π(θ)
H(π) = − π(θ) log dθ (entropie de Kullback)
Θ
π0 (θ)
où π0 (θ) est une mesure (positive) de référence sur Θ. S’il s’agit d’une mesure de probabilité,
elle représente l’ignorance complète de la valeur θ sur Θ
Remarque : elle n’est plus forcément positive, mais elle est maximale en π(θ) = π0 (θ)
165/291 165
Élicitation bayésienne - présentation Élicitation par maximum d’entropie
dans l’ensemble P des mesures positives, sous M contraintes de forme de type linéaire
Z
gi (θ)π(θ) dθ = ci , , i = 1, . . . , M
Θ
166/291 166
Élicitation bayésienne - présentation Élicitation par maximum d’entropie
Solution : si toutes les intégrales précédemment définies existent, la solution du problème (6) est
une mesure de forme structurelle
M
!
X
π ∗ (θ) ∝ π0 (θ) exp λi gi (θ)
i=1
(Démonstration en cours)
Les (λ1 , . . . , λM ) ont le sens de multiplicateurs de Lagrange et doivent être calibrés en résolvant
les équations
Z
gi (θ)π ∗ (θ) = ci , , i = 1, . . . , M
Θ
Exercice
Soit θ un paramètre réel tel que E[θ] = µ et soit π0 la mesure de Lebesgue sur IR . Quelles sont
les conditions d’existence du maximum d’entropie ? Quelle est la loi correspondante ?
168/291 168
Élicitation bayésienne - présentation Élicitation par maximum d’entropie
Définition
2 , et (R, T ) : Θ × Ω 7→ IR k × IR k . La famille des
Soient (C , h) : Θ × Ω 7→ IR+
distributions de densité
avec
Eθ [X ] = ∇ψ(θ) (gradient)
∂2ψ
cov(Xi , Xj ) = (θ)
∂θi ∂θj
169/291 169
Élicitation bayésienne - présentation Élicitation par maximum d’entropie
Lemme de Pitman-Koopman
Si une famille f (.|θ) de à support constant admet une
statistique exhaustive de taille fixe à partir d’une certaine taille d’échantillon, alors f (.|θ) est
exponentielle
170/291 170
Élicitation bayésienne - présentation Élicitation par maximum d’entropie
Exemples
Pk k
Γ( θi ) Y θ −1
f (x |θ) = Qk i=1 xi i 1{Sk (x )}
i=1
Γ(θi ) i=1
k
P
définie sur le simplexe Sk (x ) = x = (x1 , . . . , xk ); xi = 1, xi > 0
i=1
n
!
X
2 2 2
f (xn |θ) = C (θ)h(xn ) exp nx̄ · (µ/σ ) + kxi − x̄ k (−1/2σ )
i=1
Pn
avec θ = (µ, σ), et la statistique (x̄ , i=1
kxi − x̄ k2 ) est exhaustive pour tout n ≥ 2
171/291 171
Élicitation bayésienne - présentation Lois a priori conjuguées
172/291 172
Élicitation bayésienne - présentation Lois a priori conjuguées
Si, de plus, la loi a priori π(θ) est également construite par maximum d’entropie :
M
!
X
π(θ) ∝ ν(θ) exp λi gi (θ)
i=1
Alors, sachant l’échantillon xn = (x1 , . . . , xn ), la loi a posteriori est ... ... de la même forme
structurelle que π(θ) :
M L
" n # !
X X X
π(θ|xn ) ∝ ν(θ) exp λi gi (θ) + Tj (xk ) dj (θ)
i=1 j=1 k=1
Soit
lui est conjuguée (naturelle), et la mesure a posteriori sachant une donnée x est
π(θ|a + x , b + 1)
˚
qui est finie si b > 0 et a/b ∈ IN
174/291 174
Élicitation bayésienne - présentation Lois a priori conjuguées
175/291 175
Élicitation bayésienne - présentation Lois a priori conjuguées
Raisonnement d’invariance :
l’information x ∼ f (x |θ) transformant π(θ) en π(θ|x ) est limitée
donc elle ne devrait pas entraîner une modification de toute la structure de π(θ), mais
simplement de ses hyperparamètres :
cette modification devrait être de dimension finie, et un changement plus radical de π(θ)
est peu acceptable
Une autre justification est le recours aux données virtuelles (cf. transparent suivant)
176/291 176
Élicitation bayésienne - présentation Lois a priori conjuguées
x0 + nx̄
E[X |xn ] = (8)
m+n
Autrement dit, m a le sens d’une taille d’échantillon virtuelle, offrant une indication de la “force"
informative de l’a priori (d’un expert, etc.)
177/291 177
Élicitation bayésienne - présentation Lois a priori conjuguées
n! k
P(X1 = k1 , . . . , Xd = kd |θ) = θ k1 . . . θ d d
k1 ! . . . kd ! 1
P
d d
Γ δ
i=1 i
1{Sd (θ)}
Y
f (θ|δ) = Qd θiδi −1
i=1
Γ(δi ) i=1
d
P
définie sur le simplexe Sd (x ) = x = (x1 , . . . , xk ); xi = 1, xi > 0
i=1
178/291 178
Élicitation bayésienne - présentation Lois a priori conjuguées
θ ∼ IW(Λ, ν)
|Λ|ν/2 1
ν+d+1
n o
f (θ) = |θ|− 2 exp − tr Λθ−1
2νd/2 Γ d (ν/2) 2
179/291 179
Élicitation bayésienne - présentation Lois a priori conjuguées
Proposition
Soit F = {π(θ|a, b) = K (a, b) exp(θ · a − bψ(θ))} la famille conjuguée naturelle
de la famille exponentielle
f (x |θ) = C (θ)h(x ) exp(θ · x )
Alors l’ensemble des mélanges de N lois conjuguées
( N N
)
X X
FN = ωi π(θ|ai , bi ); ωi = 1, ωi > 0
i=1 i=1
180/291 180
Élicitation bayésienne - présentation Lois a priori conjuguées
Définition
La distance de Prohorov entre deux mesures π et π̃ est définie par
où l’infimum est pris sur les ensembles boréliens de Θ et où A indique l’ensemble des points
distants de A d’au plus
Les mélanges d’a priori conjugués peuvent alors être utilisés comme base pour approcher une loi
a priori quelconque, au sens où la distance de Prohorov entre une loi et sa représentation par un
mélange dans FN peut être rendue arbitrairement petite
Théorème
Pour toute loi a priori π sur Θ, ∀ > 0, on peut trouver N et π̃ ∈ FN tel que
181/291 181
Élicitation bayésienne - présentation Lois a priori conjuguées
Certains modèles permettant des a priori conjugués n’appartiennent pas à une famille
exponentielle
θα
f (x |θ) = α 1]θ,∞[ (x )
x α+1
1[−θ,θ] (x )
f (x |θ) =
2θ
1[0,θ] (x )
f (x |θ) =
θ
182/291 182
Élicitation bayésienne - présentation Distributions a priori non-informatives
183/291 183
Élicitation bayésienne - présentation Distributions a priori non-informatives
Crûment, on peut voir π0 (θ) comme la “limite" d’un a priori subjectif (suivant une certaine
topologie)
b a a−1
π(λ|a, b) = λ exp(−bλ)1{λ≥0}
Γ(a)
184/291 184
Élicitation bayésienne - présentation Distributions a priori non-informatives
En général, les règles formalisant l’absence d’information (cf. plus loin) aboutissent à des
mesures qui sont σ−finies sur Θ mais qui ne sont pas des mesures de probabilité, soit telles que
Z
π0 (θ) dθ = ∞
Θ
Un argument fort en faveur des distributions impropres est la bonne performance des
estimateurs bayésiens a posteriori
les estimateurs de Bayes restent admissibles (en général)
on retombe souvent sur les estimateurs du maximum de vraisemblance (EMV)
on peut voir comme des régularisateurs probabilistes de la vraisemblance
ces outils réconcilient les cadres inférentiels fréquentiste et bayésien
185/291 185
Élicitation bayésienne - présentation Distributions a priori non-informatives
Les lois (ou distributions) non-informatives ne représentent pas une ignorance totale sur le
problème considéré
Elles doivent être comprises comme des lois de référence ou choisies par défaut, auxquelles on
peut avoir recours quand toute information a priori est absente
186/291 186
Élicitation bayésienne - présentation Distributions a priori non-informatives
Exercice
Soit θ ∈ [1, 2] le paramètre d’un modèle X ∼ f (.|θ). On suppose ne connaître rien d’autre sur θ
Quelle(s) loi(s) peu ou non-informative peut-on placer de façon cohérente sur θ et 1/θ ? Faire
des tests sur machine avec la loi uniforme (par exemple)
187/291 187
Élicitation bayésienne - présentation Distributions a priori non-informatives
Exemple de Laplace (1773). Une urne contient un nombre n de cartes noires et blanches. Si la
première sortie est blanche, quelle est la probabilité que la proportion θ de cartes blanches soit
θ0 ?
Laplace suppose que tous les nombres de 2 à n − 1 sont équiprobables comme valeurs de θn,
donc que θ soit uniformément distribué sur 2/n, . . . , (n − 1)/n
188/291 188
Élicitation bayésienne - présentation Distributions a priori non-informatives
on a
Jac(g −1 (η)) π(g −1 (η)) = det ∂η π(g −1 (η))
π ∗ (η) =
∂θ
189/291 189
Élicitation bayésienne - présentation Distributions a priori non-informatives
Ces approches impliquent la référence à une structure d’invariance, qui peut être choisie de
plusieurs manières (voire ne pas exister)
Pour éviter ce choix, Jeffreys (1946) s’est intéressé à la matrice d’information de Fisher I(θ) :
soit θ ∈ Θ ⊂ IR d ; l’élément (i, j) ∈ {1, . . . , k}2 de Iθ est
∂2
Iij (θ) = −Eθ log f (x |θ)
∂θi ∂θj
(sous des conditions de régularité suffisantes pour l’existence)
191/291 191
Élicitation bayésienne - présentation Distributions a priori non-informatives
Exercice 1
192/291 192
Élicitation bayésienne - présentation Distributions a priori non-informatives
Exercice 2 (TP)
193/291 193
Élicitation bayésienne - présentation Distributions a priori non-informatives
L’a priori de Jeffreys est l’une des meilleures techniques automatiques pour obtenir des lois
non-informatives
Il est le plus souvent impropre, sauf pour des modèles pour lesquels Θ est borné ou/et discret
(Exemple binomial)
194/291 194
Élicitation bayésienne - présentation Distributions a priori non-informatives
Soit une variable négative binomiale N ∼ N B(x , θ) de densité (fonction de masse) définie par
Γ(x + k) x
P(N = k|θ) = θ (1 − θ)k
k!Γ(n)
Quel lien peut-on faire entre les vraisemblances d’une binomiale x ∼ Bn (n, θ) et celle d’une loi
négative binomiale n ∼ N B(x , θ) ?
195/291 195
Élicitation bayésienne - présentation Distributions a priori non-informatives
Principe
L’idée est de maximiser KL(xn ) en π pour des données xn pouvant être typiquement
observées : elles sont générées par la loi a priori prédictive (marginale)
Z
f (xn ) = f (xn |θ)π(θ) dθ
Θ
et pour s’affranchir du choix de la taille n, on fait tendre celle-ci vers ∞
soit π∗ = arg max lim Ef (xn ) [KL(π, xn )]
π n→∞
196/291 196
Élicitation bayésienne - présentation Distributions a priori non-informatives
Caractéristiques principales
L’invariance par reparamétrisation est maintenue à l’intérieur des groupes (intérêt et nuisance),
sous des conditions de bijectivité
Méthodologie d’élicitation cependant moins automatique que Jeffreys, plus délicate à mettre en
pratique
197/291 197
Élicitation bayésienne - présentation Distributions a priori non-informatives
On peut créer des coverage matching priors comme solution d’une équation différentielle
stochastique
198/291 198
Élicitation bayésienne - présentation Distributions a priori non-informatives
Ce résultat reste vrai si {πn }n est une suite de densités telle qu’il existe une constante K et une
suite {an }n telle que, pour tout θ,
Approche rétrospective (Stone 1965) : le jeu de données est fixé avant tout
199/291 199
Élicitation bayésienne - présentation Distributions a priori non-informatives
200/291 200
Élicitation bayésienne - présentation Distributions a priori non-informatives
Convergence vague
Soit {µn }n etµ des mesures (de Radon). La suite {µn }n converge vaguement vers µ si, pour
toute fonction h continue à support compact,
Z Z
lim hdµn = hdµ
n→∞
Convergence étroite
Soit {µn }n etµ des mesures bornées. La suite {µn }n converge étroitement vers µ si, pour toute
fonction h continue bornée,
Z Z
lim hdµn = hdµ
n→∞
201/291 201
Élicitation bayésienne - présentation Distributions a priori non-informatives
Cas discrets
202/291 202
Élicitation bayésienne - présentation Distributions a priori non-informatives
Cas continus
203/291 203
Élicitation bayésienne - présentation Distributions a priori non-informatives
Quelques exemples
Soit Θ = IR et µn = U ([−n, n]). Alors {µn }n converge q−vaguement vers la mesure de Lebesgue
Soit Θ = IR et µn = N (0, n). Alors {µn }n converge q−vaguement vers la mesure de Lebesgue
204/291 204
Élicitation bayésienne - présentation Exemple complet dans un cadre fiabiliste
205/291 205
Élicitation bayésienne - présentation Exemple complet dans un cadre fiabiliste
X = durée de vie d’un composant Σ, supposé tomber uniquement en panne par hasard
1 Considérons une décision de management (remplacement) établie sur une valeur donnée λ̄
(différente de la vraie valeur inconnue λ)
2 Pour un coût similaire |λ̄ − λ|, il y a 2 conséquences possibles au remplacement :
soit C1 le coût positif moyen d’être trop optimiste (d’avoir λ̄ ≤ λ)
soit C2 le coût positif moyen d’être trop pessimiste (d’avoir λ̄ > λ)
3 Pouvez-vous donner un estimé δ̂ du rapport des coûts moyens δ = C2 /C1 ?
L’axiome de rationalité dit que si l’expert n’est pas averse au risque, alors
Z ∞
|x − λ| C1 1{x ≤λ} + C2 1{x >λ} π(λ) dλ
λ̄ = arg min
x
|0 {z }
fonction de coût intégrée sur toutes les valeurs possibles a priori du vrai λ
206/291 206
Élicitation bayésienne - présentation Exemple complet dans un cadre fiabiliste
Z λ̄
C1
Il s’ensuit que dΠ(λ) = Π(λ < λ̄) =
0
C1 + C2
L’interprétation de la réponse de l’expert est que 1/(1 + δ̂) est un estimé du quantile a priori
d’ordre α = C1 /(C1 + C2 )
C1
Avec P(λ < λ̄) = C1 +C2
= α, on a :
tant que les coûts sont équilibrés, un expert de plus en plus optimiste fournira un λ̄ de
plus en plus petit, car la durée moyenne avant la prochaine défaillance est
1
E[X |λ] =
λ
cependant l’expert s’exprime plutôt sur les coûts lorsqu’on lui fournit une valeur
représentative de λ̄
plus l’expert est optimiste, plus le coût C2 d’être optimiste (selon lui) est petit,
donc α grandit vers 1 et
E[X ] = E[E[X |λ]] = E[1/λ] augmente
207/291
plus l’expert est pessimiste, plus le coût C2 d’être optimiste augmente, donc α 207
Élicitation bayésienne - présentation Exemple complet dans un cadre fiabiliste
L’information apportée par l’expert est assimilée à celle apportée par un échantillon i.i.d.
xm ∼ E(λ)
λ ∼ G(m, mx̄m )
208/291 208
Élicitation bayésienne - présentation Exemple complet dans un cadre fiabiliste
χ22m (α)
Donc 2mx̄m λ ∼ G(m, 1/2) ≡ χ22m , d’où x̄m =
2mλ̄
Le décideur peut fixer arbitraitement m selon la confiance qu’il a en l’expert (ou mettre un a priori
hiérarchique dessus)
De plus, l’a priori est conjugué : sachant des durées de vie observées xn = (x1 , . . . , xn ), la loi a
posteriori de λ est
n
!
χ22m (α) X
λ|xn ∼ G m + n, +n xi
2λ̄
i=1
L’ingénieur s’intéresse alors à la probabilité prédictive que Σ tombe en panne avant la prochaine
visite au temps x0
m+n
Z ∞ x0
P (X < x0 ) = P (X < x0 |λ) π(λ|xn ) dλ = 1 − 1/ 1 + n
0
χ22m (α) P
+n xi
2λ̄
i=1
puis il peut introduire une fonction de coût, etc. pour prendre une décision
209/291 209
Élicitation bayésienne - présentation Exemple complet dans un cadre fiabiliste
1.0
15
0.8
0.6
10
0.4
5
0.2
0.0
0
1.0
15
0.8
0.6
10
0.4
5
0.2
0.0
0
211/291 211
Élicitation bayésienne - présentation Exemple complet dans un cadre fiabiliste
1.0
15
0.8
0.6
10
0.4
5
0.2
0.0
0
212/291 212
Élicitation bayésienne - présentation Exemple complet dans un cadre fiabiliste
1.0
15
0.8
0.6
10
0.4
5
0.2
0.0
0
213/291 213
Élicitation bayésienne - présentation Exemple complet dans un cadre fiabiliste
En fait, plus habituellement, l’expert préfère exprimer son opinion quantitative sur la durée de
vie X (= variable d’ancrage) que sur λ, car X est observable
Cette interprétation est la plus acceptée en général dans la communauté statistique bayésienne,
c’est pourquoi les statisticiens fiabilistes préfèrent poser des questions comme
Sachant les temps x0 et x1 > x0 , Σ a 1 − α fois plus de chance de ne pas tomber en
panne après x0 qu’après x1 . Quelle est votre évaluation de 1 − α ?
214/291 214
Élicitation bayésienne - présentation Modélisation bayésienne hiérarchique
215/291 215
Élicitation bayésienne - présentation Modélisation bayésienne hiérarchique
y |θ ∼ Np (θ, Σ1 ),
θ|β ∼ Np (X β, Σ2 )
souvent utilisé en génétique animale pour différencier l’influence d’éléments fixes (ex : lignée,
race, année) de celle de facteurs aléatoires (ex : nb de femelles dans une lignée)
216/291 216
Élicitation bayésienne - présentation Modélisation bayésienne hiérarchique
Quelques caractéristiques
En incluant l’information a priori aux niveaux les plus élevés, l’approche bayésienne hiérarchique
permet en général de gagner en robustesse
217/291 217
Élicitation bayésienne - présentation Modélisation bayésienne hiérarchique
est fréquemment utilisée pour produire une clé âge-longueur, en modélisant l’accroissement en
longueur d’un organisme vivant (ex : arbre, poisson...)
∗
supposons avoir des couples d’observation l (ti ), l ∗ (ti+∆i ) tel que
Les estimations par maximum de vraisemblance de L∞ sont très sensibles à la taille des données
218/291 218
Élicitation bayésienne - présentation Modélisation bayésienne hiérarchique
Le sens de L∞ est celui d’une longueur maximale qu’un être vivant peut atteindre, en moyenne
sur toutes les observations possibles
219/291 219
Élicitation bayésienne - présentation Modélisation bayésienne hiérarchique
Un autre exemple : modélisation a priori d’une probabilité de survie dans une population
avec µt < −σt2 /2 tel que E[θt,t+1 ] ∈ [0, 1] ⇒ contrainte de forme sur le niveau hiérarchique
π(µt , σt )
220/291 220
Élicitation bayésienne - présentation Modélisation bayésienne hiérarchique
221/291 221
Élicitation bayésienne - présentation Modélisation bayésienne hiérarchique
Les relations de dépendance conditionnelles possibles entre trois variables aléatoires (tiré de Parent
et Bernier, 2007)
222/291 222
Élicitation bayésienne - présentation Modélisation bayésienne hiérarchique
223/291 223
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants
224/291 224
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants
Problème majeur : même si ces lois a posteriori conditionnelles sont propres, la loi jointe peut
ne pas l’être :
Z
π(θ|xn ) dθ = ∞
Θ
225/291 225
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants
Pour i = 1, . . . , I et j = 1, . . . , J
xij = β + ui + ij
A priori de Jeffreys :
1
π(β, σ 2 , τ 2 ) ∝
σ2 τ 2
226/291 226
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants
On note xIJ l’échantillon des données observées, x̄i la moyenne sur les j
J(x̄i − β)
Ui |xIJ , β, σ 2 , τ 2 ∼ N , (Jτ −2 + σ −2 )−1
J + τ 2 σ −2
β|xIJ , σ 2 , τ 2 , uI ∼ N x̄ − ū, τ 2 /IJ
I
!
X
2 2
σ |xIJ , β, τ , uI ∼ IG I/2, (1/2) ui2 (loi inverse gamma)
i=1
I J
!
X X
τ 2 |xIJ , β, σ 2 , uI ∼ IG IJ/2, (1/2) (xij − ui − β)2
i=1 j=1
227/291 227
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants
est proportionnelle à
( )
σ −2−I τ −2−IJ p 1 X J X
τ 2 + Jσ 2 exp − 2 (yij − ȳi )2 − 0 2 (ȳi − ȳ )2
(Jτ −2 + σ −2 )I/2 2τ 2 τ + Jσ 2 )
i,j i
228/291 228
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants
Problèmes :
le résultat peut être multi-modal
l’approche n’est pas externalement bayésienne :
M
X
π(θ|xn ) 6= ωi πi (θ|xn )
i=1
M
Q
πiω (θ)
i=1
π(θ) =
R Q M
πiω (θ) dθ
Θ
i=1
PM
avec i=1
ωi = 1
230/291 230
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants
En réalité, la fusion logarithmique est séduisante car elle peut s’expliquer en faisant appel à la
théorie de l’information
La divergence de Kullback-Leibler
Z
π(θ)
KL(π, πi ) = π(θ) log
Θ
πi (θ)
exprime une perte en terme d’information lorsque le meilleur choix a priori π est remplacé par πi
M
X
π ∗ (θ) = arg min ωi KL(π, πi )
π
i=1
La calibration des poids ωi est un problème qui reste ouvert, malgré quelques réponses déjà
proposées
231/291 231
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants
Exemple
⇒ stabilité de la famille exponentielle naturelle par fusion logarithmique ⇒ similarité avec une
232/291 232
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants
233/291 233
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants
Peut-on émettre une règle simple de cohérence entre π(µ) et la vraisemblance des données ?
234/291 234
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants
n
1
P
x̄n = n
xi est une statistique exhaustive de l’échantillon
i=1
Sous une hypothèse iid. des Xi , la loi de la variable aléatoire associée X̄n est, conditionnellement
à (µ, σ 2 )
σ2
X̄n |µ, σ 2 ∼ N µ,
n
Test numériques
n = 10 , sigma = 1 , rho = 1
20
15
Score
10
Quantile Chi2(1) à 99 %
5
Quantile Chi2(1) à 95 %
0
−4 −2 0 2 4
Ecart entre m et mu
236/291 236
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants
7
6
5
Quantile Chi2(1) à 95 %
4
Score
3
2
1
0
−4 −2 0 2 4
Ecart entre m et mu
237/291 237
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants
n= 2 , sigma = 1 , rho = 1
20
15
Score
10
Quantile Chi2(1) à 99 %
5
Quantile Chi2(1) à 95 %
0
−4 −2 0 2 4
Ecart entre m et mu
238/291 238
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants
200
150
Score
100
50
Quantile
Quantile Chi2(1)
Chi2(1) à
à 99
95 %
%
0
−4 −2 0 2 4
Ecart entre m et mu
239/291 239
Élicitation bayésienne - présentation Quelques soucis méthodologiques et pratiques importants
n = 10 , sigma = 1 , rho = 5
6
5
Quantile Chi2(1) à 95 %
4
Score
3
2
1
0
−4 −2 0 2 4
Ecart entre m et mu
240/291 240
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
De nombreux auteurs font des choix arbitraires (lois normale, gamma...) principalement en
fonction des caractéristiques géométriques, de support ou d’échantillonnage de θ
De plus, le sens marginal de l’information a priori n’est pas toujours bien compris
241/291 241
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
Issu de Gaioni et al. (2010). Bayesian modeling of flash floods using generalized extreme value
distribution with prior elicitation (CJS).
242/291 242
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
Données disponibles
243/291 243
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
avec θ = (λ, µ, σ)
Un niveau de retour xq (θ) correspondant à une période inter-événements ' 1/q peut être estimé
en résolvant
q = F (xq |θ)
Information a priori. Un expert connaissant la rivière est capable de produire trois couples
d’estimateurs (qi , xqi ), tels que q1 < q2 < q3
244/291 244
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
En interrogeant plusieurs experts, ou/et un expert pouvant fournir plus de détails, on peut
produire un échantillon d’estimateurs θ̃1 , . . . , θ̃k
Les caractéristiques de cet échantillon (moyenne, variance, covariance...) peuvent (en théorie)
être utilisées pour calibrer les hyperparamètres δ de π(θ|δ)
Posant δ = (θ0 , Σ), les auteurs proposent un a priori log-multinormal : log θ ∼ N3 (log θ0 , Σ)
245/291 245
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
Principle :
Supposons disposer d’une observation représentative Y ∗ sur Y = g(θ, c) où g et une
fonction et c un ensemble de paramètres fixés
Construire une vraisemblance liant Y ∗ et θ
Choisir un a priori non informatif π J (θ) en fonction de cette vraisemblance
Sélectionner π comme le posterior π J (θ|Y ∗ )
246/291 246
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
247/291 247
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
Dynamique
248/291 248
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
(Chassot
249/291 et al. 2009) 249
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
Prédation Pa,t = c ·N
pa,t a,t
0 m (N
Mortalité résiduelle 1 Na,t = pa,t a,t − Pa,t , )
Pêche commerciale Ca,t = f
1 − pa,t 0
Na,t
Abondance à mi-année 00
Na,t = 0 − C /2
Na,t a,t
Mortalité résiduelle 2 Na+1,t+1 = m
pa,t 00 − C /2
Na,t a,t
PA
Production d’oeufs totale TEPt = N ξ φ f
a=1 a,t a, t a, t a,t
Recrutement à l’âge 0 Rt+1 r
= pt+1 · TEPt
m
2
Recrutement à l’âge 0 N1,t+2 = p0,t+1 Rt+1
Sex ratio ξ
Proportion de femelles matures φ
Fécondité (nombre d’oeufs morue−1 ) f
250/291 250
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
Observations
00
Ia,t = q ςa, s Na, t Indice d’abondance
1
with ςa, s = Sélectivité
1 + exp (−γs (a − δs ))
and q Capturabilité
A
X
Ct = Ca, t Prise totale
a=1
A
X
pa, t, c = Ca, t / Ca, t Probabilité observée de prise par âge
a=1
X A
pa, t, s = Ia, t / Ia, t Probabilité observée d’abondance par âge
a=1
A A
!
X X
∗ iid 2
Jt∗ = Ja, t ∼ N log Ia, t (θ), ψ ψ 2 = Aσ 2 + A2 τ 2
a=1 a=1
∗
where Ja, ∗ ) = log(I
= log(Ia,
t t a, t ) + a, t + ηt
iid σc2 2
log Ct∗ ∼ N log Ct (θ) − , σc σc2
2
251/291 251
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
252/291 252
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
253/291 253
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
1
ςa = .
1 + exp(−γ{a − δ})
Méta-analyse des estimés de la sélectivité obtenus à partir des mesures de surveillance / pêche
commerciale pour des engins similaires à ceux étudiés
254/291 254
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
ci 1{i≤a} /
X X
ς ∗a = cj .
i=1 j=1
Considérons la reparamétrisation
sa = − log(ςa−1 − 1) = γ(a − δ) (9)
et soit s ∗a le vecteur correspondant des estimés non paramétriques
Des tests classiques (Shapiro-Wilks, etc.) ne nient pas l’hypothèse gaussienne (p−values
∈[0.35,0.86])
Notons s ∗I = (s1∗ (i1 ), . . . , sA∗ (iA )), avec ij 6= ik , le ij étant choisi dans I ⊂ {1, . . . , M}, et
A
1 X
s̄ ∗ = sj∗ (ij ) = αγ − δ + N (0, σ 2 )
A
j=1
PA
avec σ2 = σ 2 /A
a=1 a
et α = (A + 1)/2.
256/291 256
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
Elles ne sont pas indépendantes (puisqu’elles sont construites à partir de données venant des
mêmes sélectivités empiriques)
Sélectionner des âges éloignés (a1 , a2 ), sa∗1 (ia1 ) and sa∗2 (ja2 ) permet de diminuer la corrélation
s̄ = αγ − δ + N (0, ν 2 + σ 2 )
1
n o
π(γ, δ) ∝ exp − (αγ − δ − s̄)2 1{γ≥0} 1{al ≤δ≤ar }
2(σ 2 + ν2)
258/291 258
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
Paramètres de nuisance
Une fois que la loi a posteriori du vecteur θ est obtenue, des études de projection doivent être
faites
Souvent θ = (θ I , θ N ) où
θ I = {paramètres d’intérêt} (ex : paramètres de selectivité, recrutement...)
θ N = {paramètres de nuisance} (variances d’observation, capturabilité)
purement relatives à l’obtention des données
A A
!
X iid
X
Jt∗ = ∗
Ja, t ∼ N log Ia, t (θ), ψ 2
a=1 a=1
iid σc2 2
log Ct∗ ∼ N log Ct (θ) − , σc
2
259/291 259
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
Le choix d’un prior non informatif π(θ N ) doit être indépendant du choix de tout prior informatif
sur θ I
On élicite
∗
π = arg max lim Em [KL(π|X)]
π card(X)→∞
260/291 260
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
261/291 261
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
262/291 262
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
263/291 263
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
264/291 264
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
Se rapprocher de règles produisant des a priori conjugués dans les cas le permettant
Vérifier la cohérence de π(θ) vis-à-vis de la structure paramétrique de f (x |θ)
Donner le maximum de signification aux hyperparamètres δ (notamment des paramètres
mesurant la “force" de l’information a priori par rapport à celle apportée par les données
utilisées dans la vraisemblance classique)
Une possibilité privilégiée : construire la loi a priori comme une loi a posteriori approximative,
sachant des données virtuelles x̃m et une mesure a priori non informative π J (θ) :
m reflète la force de l’information a priori et peut être modulée (dans une phase de calibration
ou d’analyse de sensibilité)
265/291 265
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
Méthodologie (1)
ou, pour des niveaux observés xαi , de fournir des estimateurs des αi
Arguments
Ces informations sont corrélées (c’est en s’exprimant sur une valeur de X qu’une autre
valeur de X peut être positionnée)
La distribution jointe des informations a priori reste invariante par toute permutation de
ces informations (l’ordre de proposition des quantiles ne devrait pas importer)
Remarque : ne pas oublier que des fonctions de coût se cachent derrière l’interprétation sous
forme de quantiles !
266/291 266
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
Généralisé par Hewitt, Savage (1955), Diaconis, Freedman (1980) pour l’ensemble des
distributions discrétisées puis continues
Conséquences :
La modélisation bayésienne apparaît comme une modélisation statistique naturelle de
variables corrélées mais échangeables
L’existence formelle d’un prior π(θ) est assurée en fonction du mécanisme
d’échantillonnage
= { information incertaine à propos θ }
267/291 267
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
Méthodologie (2)
π(θ) = π(θ|∆m )
268/291 268
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
Méthodologie (3)
269/291 269
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
Une taille de fissure Zk,t sur un composant k est monotone croissante au cours du temps t
Les incréments (supposés indépendants) Xk,i = Zk,ti − Zk,ti−1 sont supposés obéir à des lois
gamma
−x
1 x α(t−s)−1 e β
fα(t−s),β (x ) = · 1{x ≥0}
Γ(αi (t − s)) β α(t−s)
270/291 270
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
1
p
Prenons une mesure non informative (Jeffreys) π J (α, β) ∝ β
αΨ1 (α) − 1
En effet, on a
Pm
Xm x̃j
j=1
Γ (mαt̃e,1 ) αΨ1 (α) − 1
p
xm , ~tm )
π (α|~ ∝ exp −α t̃i log m
z̃i Q
Γ(αt̃i )
i=1
i=1
Développement de Laurent
∞
!
p 1 X B2k
αΨ1 (α) − 1 = √ 1+
2α α2k−1
k=1
272/291 272
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
x̃e ∆i
r̂ (∆i ) = .
t̃e,1
Questionner un expert. Durant les prochaines 15 puis 30 années (= valeur de mt̃e,1 ), quelles
sont les chances (1 − δ1 , 1 − δ2 ) qu’une quelconque fissure apparaissant sur le composant soit
plus grande que (z1 , z2 ) = (5, 10) mm ? soit, pour i = {1, 2},
Z zi Z ∞
x αmt̃e,1 −1 (mx̃e )αmt̃e,1 Γ (2αmt̃e,1 )
P Zmt̃e,1 < zi = δi = π(α) dαdx
0 0 (mx̃e + x )2αmt̃e,1 Γ2 (αmt̃e,1 )
2
X 2
1 − δi−1 P Zmt̃e,1 < zi
i=1
273/291 273
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
.
274/291 274
Élicitation bayésienne - présentation Modélisation a priori informative non conjuguée
L’adéquation entre la représentation de l’information a priori fournie par des couples (xαi , αi ) et
ce qu’il est possible de modéliser – les couples (xαi , α̃i (δ)) – est définie par une fonction de
perte minimisée en δ
Critère de Cooke
M
X (αi+1 − αi )
δ∗ = arg min (αi+1 − αi ) log ,
δ (α̃i+1 (δ) − α̃i (δ))
i=0
Voici un jeu de données (réel) xn de durées de vie de tubes protecteurs de chaudière (en mois).
71.4 166.3 93.2 59.6 181.6 144.8 87.3 100.3
90.0 173.9 95.4 44.1 149.4 73.7 86.3 145.1 167.7
Vous bénéficiez de deux experts qui vous fournissent chacun, après un processus d’interrogation
minutieux, les renseignements suivants :
Durée de vie médiane (m) Percentile 33% Percentile 90%
Expert 1 100∗ 80 200
Expert 2 130 100 200∗
276/291 276
Élicitation bayésienne - présentation Analyse de sensibilité
Analyse de sensibilité
277/291 277
Élicitation bayésienne - présentation Analyse de sensibilité
Classes d’−contamination
278/291 278
Élicitation bayésienne - présentation Analyse de sensibilité
Exponential twisting
279/291 279
Élicitation bayésienne - présentation Analyse de sensibilité
Les experts sont soumis à de nombreux biais qui limitent parfois la pratique bayésienne
subjective, fondée sur une interprétation décisionnelle de leurs opinions sous des contraintes
d’indifférence au risque
1 les biais de situation, dus au filtre mental de l’expert vis-à-vis de la réalité, incluant :
les biais cognitifs liés aux limites intellectuelles, et à la difficulté de réviser son
jugement lorsque de nouvelles informations arrivent
les biais motivationnels liés au processus d’élicitation et à la pression de
l’environnement
2 les biais de confiance excessive : une valeur vraie affirmée par un expert avec 90% de
chance se situe en réalité autour de 30 à 60%, la moyenne de l’expert correspond à la
médiane
Une grande littérature de recherche, établissant des ponts avec la psychologie des individus et
des groupes, est consacrée à la vérification des contraintes (cf. Tversky et Kahneman 1973)
D’autres théories de la représentation de la connaissance ont émergé depuis les années 1960
(ex : logique floue)
Il n’en reste pas moins que la statistique bayésienne offre un cadre décisionnel cohérent (de par
le respect des axiomes des probabilités), pratique, et que les experts sont souvent la seule source
d’information disponible, qui puisse permettre d’effectuer des prévisions dans un processus
décisionnel
280/291 280
Élicitation bayésienne - présentation Autre approche et conclusions
281/291 281
Élicitation bayésienne - présentation Autre approche et conclusions
On veut inférer sur θn+1 en supposant que tous les θi ont été produit par le même π(θ)
L’ensemble de cette démarche n’est en fait pas pas bayésienne car elle utilise deux fois les
données
282/291 282
Élicitation bayésienne - présentation Autre approche et conclusions
Décider de la forme d’une loi a priori informative en se basant sur des théorèmes de convergence
(ex : TLC) ou un raisonnement entièrement bayésien (ex : données virtuelles)
283/291 283
Élicitation bayésienne - présentation Autre approche et conclusions
Quelques références
284/291 284
Sélection de modèle bayésien Régions de confiance et de crédibilité
Définition
Une région A de Θ est dite α−crédible si Π(θ ∈ A|x ) ≥ 1 − α
Pθ (θ ∈ A) ≥ 1−α
Une région α−crédible peut être estimée par les quantiles empiriques de la simulation a posteriori
286/291 286
Sélection de modèle bayésien Une approche rapide des tests d’hypothèse
La fonction de coût L(θ, d) 0-1 est proposée dans l’approche classique de Neyman-Pearson :
si d 6= 1Θ0
n
1
L(θ, d) = (10)
0 sinon
menant à l’estimateur bayésien dans D = {0, 1}
n
1 si Π(θ ∈ Θ0 |x ) > Π(θ ∈
/ Θ0 |x )
δ π (x ) =
0 sinon
qui fait sens intuitivement : l’estimateur choisit l’hypothèse avec la probabilité a posteriori la
plus grande.
On peut généraliser en pénalisant différement les erreurs suivant que H0 est vraie ou fausse
si d = 1Θ0
(
0 n
1 si Π(θ ∈ Θ0 |x ) > a1 /(a0 + a1 )
L(θ, d) = a0 si θ ∈ Θ0 et d = 0 ⇒ δ π (x ) =
0 sinon
a1 si θ ∈
/ Θ0 et d = 1
L’hypothèse nulle est rejetée quand la probabilité a posteriori de H0 est trop petite
Il est cependant délicat de choisir les poids a0 et a1 sur des considérations d’utilité
287/291 287
Sélection de modèle bayésien Facteur de Bayes
Le facteur de Bayes est une transformation bijective de la probabilité a posteriori, qui a fini par
être l’outil le plus utilisé pour choisir un modèle bayésien
Définition
Le facteur de Bayes est le rapport des probabilités a posteriori des hypothèses nulle
et alternative sur le rapport a priori de ces mêmes hypothèses
Π(θ ∈ Θ0 |x ) Π(θ ∈ Θ0 )
.
B01 (x ) =
Π(θ ∈ Θ1 |x ) Π(θ ∈ Θ1 )
qui se réécrit comme le pendant bayésien du rapport de vraisemblance en remplaçant les
vraisemblances par les marginales (les vraisemblances intégrées sur les a priori) sous les deux
hypothèses
R
f (xn |θ)π0 (θ) dθ f0 (xn )
B01 (x ) = R Θ0 =
f (xn |θ)π1 (θ) dθ f1 (xn )
Θ1
En l’absence d’un cadre décisionnel véritable (qui consisterait à pouvoir fixer a0 et a1 ), une
échelle “absolue" a été proposée par Jeffreys (1939), remaniée depuis par Kass & Raftery
(1995), pour évaluer le degré de certitude en faveur ou au détriment de H0 apporté par les
données
(i) si Λ = log10 B10 (xn ) varie entre 0 et 0.5, la certitude que H0 est fausse est
faible
(ii) si Λ ∈ [0.5, 1], cette certitude est substantielle
(iii) si Λ ∈ [1, 2], elle est forte
(iv) si Λ > 2, elle est décisive
Remarque : le calcul du facteur de Bayes n’est pas évident et demande le plus souvent de savoir
simuler a posteriori
289/291 289
Sélection de modèle bayésien Facteur de Bayes
Exemple
Pour des données discrètes x1 , . . . , xn , on considère un modèle de Poisson P(λ) ou une loi
binomiale négative N B(m, p) avec les a priori
π1 (λ) ∝ 1/λ
1
π2 (m, p) = 1{1,...,M} (m)1{[0,1] (p)
M
290/291 290
Sélection de modèle bayésien Facteur de Bayes
f1 (xn )
B12 =
f2 (xn )
qui interdit théoriquement une sélection entre les modèles M1 = {f1 (x |θ1 ) + π1 (θ1 )} et
M2 = {f2 (x |θ2 ) + π0 (θ2 )},
Nécessité d’utiliser des heuristiques fondées sur la notion d’échantillon d’entraînement (a priori
intrinsèques et fractionnaires de Berger-Perrichi-O’Hagan)
291/291 291
Élicitation de lois a priori - compléments
nicolas.bousquet@upmc.fr
Janvier-Mars 2020
Introduction
2. vous connaissez les grands principes (et savez mettre en œuvre) du calcul
bayésien
3. vous pensez disposer d’information a priori que vous aimeriez injecter dans votre
modélisation
1.0
Exp.
Weibull
normale
Chi2
0.4
0.8
gamma
0.3
0.6
0.2
0.4
Exp.
Weibull
0.1
0.2
normale
Chi2
gamma
0.0
0.0
0 5 10 15 0 5 10 15
x x
Exemples classiques
Gauche : fonction de masse des lois discrètes binomiale Bn (100, 0.1) (carrés) et
Poisson P(15) (triangles). Droite : densités de probabilité continues de la loi normale
centrée réduite N (0, 1) (courbe pleine) et χ21
Exemple : l’origine des lois en modélisation de durée de vie
Des modèles de durée de vie sur X peuvent être construits à partir de considérations
sur le taux de défaillance caractérisant Σ
En effet, on a
Z x
Pθ (X ≤ x) = 1 − exp − λ(u|θ) du
0
et
Z x
dPθ (X < x)
f (x|θ) = = λ(x|θ) exp − λ(u|θ) du
dx 0
Supposons que Σ ne soit soumis qu’à des défaillances par accident
I son taux de défaillance est constant λ(x|θ) = θ > 0
I le modèle de durée de vie est alors exponentiel :
f (x|θ) = θ exp(−θx)1{x≥0}
1 ≤ β ≤ 2
D’autres exemples...
Deux arguments :
I un nombre fini d’observations ne peut servir à estimer qu’un nombre fini de
paramètres
I l’évaluation des outils inférentiels paramétriques peut être faite avec un nombre
fini d’observations
Pourquoi adopter une approche bayésienne ?
Quelques exemples
1. Risque industriel : quelques données historiques + des experts au courant des
avancées en sciences des matériaux
2. Risque naturel : chroniques historiques hétérogènes + de nouvelles données
issues de capteurs normalisés
3. Évolution de ressources : informations biologiques, physiques + mesures in situ
4. Traitement d’incertitude : bornes sur des paramètres d’entrée de modèles
numériques
Qu’est-ce que l’élicitation bayésienne ?
Introduisons le cadre bayésien :
I des données xn = (x1 , . . . , xn ) peuvent être observées, et sont considérées
comme des réalisations d’une variable aléatoire (ou d’un processus) X de densité
f (x|θ) (par rapport à une mesure dominante µ
I on décrit donc f (x|θ) comme un modèle d’occurence des données
I le vecteur de paramètres θ ∈ Θ ⊂ IR d représente l’état de la nature
I on suppose pouvoir munir Θ d’une structure d’espace probabilisé
L’objectif final est de pouvoir proposer une décision à partir de la loi a posteriori
f (xn |θ)π(θ)
π(θ|xn ) = R
Θ f (xn |θ) π(θ) dθ
| {z }
vraisemblance
elicere : tirer de, faire sortir, arracher, obtenir (ex aliquo verbum elicere)
Qu’est-ce que Π(θ) ?
Π(θ) traduit la plus ou moins grande incertitude associée aux grandeurs non
observables θ
Cette distribution de probabilité, dite alors subjective, est une mesure de l’engagement
personnel en termes de pari à miser sur telle ou telle valeur de l’événement incertain
π(θ) = π(θ|H)
σ2
θ1∗ = x
1 + σ2
I Si on fait le choix de forme a priori θ ∼ C(θ00 , a) : loi de Cauchy de densité
1 a
π(θ|a, b) =
π (θ − θ00 )2 + a2
1. θ00 =? et a =?
2. la moyenne a posteriori de θ sachant x est
x3
θ2∗ ' lorsque |x| ≥ 4
1 + x2
Fragilité d’un choix de modélisation a priori : un exemple (Berger 1985)
σ2
θ1∗ = x
1 + σ2
I Si on fait le choix de forme a priori θ ∼ C(θ00 , a) : loi de Cauchy de densité
1 a
π(θ|a, b) =
π (θ − θ00 )2 + a2
1. θ00 =? et a =?
2. la moyenne a posteriori de θ sachant x est
x3
θ2∗ ' lorsque |x| ≥ 4
1 + x2
Fragilité d’un choix de modélisation a priori : un exemple (Berger 1985)
σ2
θ1∗ = x
1 + σ2
I Si on fait le choix de forme a priori θ ∼ C(θ00 , a) : loi de Cauchy de densité
1 a
π(θ|a, b) =
π (θ − θ00 )2 + a2
1. θ00 =? et a =?
2. la moyenne a posteriori de θ sachant x est
x3
θ2∗ ' lorsque |x| ≥ 4
1 + x2
Problèmes fréquents et mauvaise foi
Ils sont généralement vus comme des vecteurs de fragilisation des modèles, subjectifs,
des "emmerdements nécessaires"
Il n’y a aucune raison de considérer que le travail d’élicitation devrait être plus simple
que celui de mener un calcul a posteriori. Les deux sont en général difficiles
Ils sont généralement vus comme des vecteurs de fragilisation des modèles, subjectifs,
des "emmerdements nécessaires"
Il n’y a aucune raison de considérer que le travail d’élicitation devrait être plus simple
que celui de mener un calcul a posteriori. Les deux sont en général difficiles
Ils sont généralement vus comme des vecteurs de fragilisation des modèles, subjectifs,
des "emmerdements nécessaires"
Il n’y a aucune raison de considérer que le travail d’élicitation devrait être plus simple
que celui de mener un calcul a posteriori. Les deux sont en général difficiles
Justifier, certifier.....
L’intelligibilité au sens large est devenu un requis fort pour l’adoption d’intelligences
artificielles incorporant des outils de machine learning
où
P X = xj |θj = 0, Dn
Q(xj ) = est un rapport de vraisemblances
P X = xj |θj = 1, Dn
1 − Π(θj = 1|Dn )
M(Π, Dn ) = dépend du prior Π(θ) et du jeu d’apprentissage
Π(θj = 1|Dn )
Liens avec l’intellligibilité du machine learning
Combiner des priors (ex : réunion d’expertises)
Questions transverses :
Modifier des priors (ex : analyse de sensibilité)
I théories de traitement d’information
Et pour finir cette longue introduction ...
1 - Collecter et interpréter l’information a priori
Outre le gain pratique, une information a priori a-t-elle "le droit" d’être encodée par
des modèles probabilistes ?
Données historiques
Dans le cas où l’information est directement apportée par des données historiques
x̃1 , . . . , x̃m , de nombreux auteurs ont proposé de l’utiliser dans un cadre bayésien pour
calibrer des lois a priori (surtout en hydrologie)
On traduit en général ces anciennes valeurs comme des valeurs censurantes pour de
nouvelles occurences
La vraisemblance statistique de x̃i n’est pas f (xi |θ) mais (en général) P(X < xi |θ) ou
P(X > xi |θ)
Données historiques : formalisation
Exemple-type : niveaux extrêmes marins, durée de vie des machines à laver ...
Exemple : durée de vie des machines à laver
http://www.leparisien.fr/economie/
obsolescence-programmee-une-association-porte-plainte-contre-des-fabricants-d-imprimantes-19-09-2017-727
php
À votre avis ?
I Quelle expertise pouvez-vous faire ?
I Essayez de noter vos idées quelque part avant de lire la suite... (valeurs min et
max, valeur centrale)
Exemple : durée de vie des machines à laver
L’article dit que les durées actuelles sont plutôt en-dessous de 7 ans
β−1 β !
β x x
f (x|θ) = exp −
η η η
avec β = 2
On peut reparamétriser par la durée de vie moyenne θ = ηΓ(1 + 1/β) ' 0.89η
β !
x̃
L(x̃|θ) = P(X > x̃|θ) = exp −
θ/Γ(1 + 1/β)
Choisissons π0 (θ) simplement : uniforme entre 0.5 et une borne θsup (de 100 ans par
exemple)
facilement calculable
Cf. TP 2
Exemple : durée de vie des machines à laver
β !
x̃
L(x̃|θ) = P(X > x̃|θ) = exp −
θ/Γ(1 + 1/β)
Choisissons π0 (θ) simplement : uniforme entre 0.5 et une borne θsup (de 100 ans par
exemple)
facilement calculable
Cf. TP 2
Exemple : durée de vie des machines à laver
Essayons maintenant d’inclure la diversité de vos avis pour enrichir le prior π(θ)
Questions
I Devons-nous utiliser chaque avis indépendamment ?
I Devons-nous arriver à un consensus ?
I Comment pouvons-nous spécifier le sens statistique de votre expertise ?
Collection d’expertise vs Expertise collective
1. Questionnaires
2. Entraînement en solo
3. Mise en commun
Quelques techniques d’entraînement
Les experts ne sont en général pas familiarisés avec les statistiques et doivent être
entraînés
Repose sur le principe du pari, symbole de l’engagement personnel (même idée que
jouer aux courses)
Des outils de collecte et mise en confrontation d’information : MATCH (2014)
http://optics.eee.nottingham.ac.uk/match/uncertainty.php
Des outils de collecte et mise en confrontation d’information : MATCH (2014)
Des outils de collecte et mise en confrontation d’information : SHELF
Des outils de collecte et mise en confrontation d’information : SHELF
Collection d’expertise vs Expertise collective : difficultés
Des méthodes formelles ont été proposées dans les cas où il y a indépendance ou
dépendance entre experts
Fusion de plusieurs a priori
Dans de nombreux cas pratiques, on peut disposer de plusieurs a priori possibles
π1 (θ), . . . , πM (θ) que l’on suppose ici indépendants
M
X
π(θ) = ωi πi (θ)
i=1
PM
avec i=1 ωi = 1
Problèmes :
I le résultat peut être multi-modal
I l’approche n’est pas externalement bayésienne :
M
X
π(θ|xn ) 6= ωi πi (θ|xn )
i=1
M
πiω (θ)
Q
i=1
π(θ) =
M
πiω (θ) dθ
R Q
Θ
i=1
PM
avec i=1 ωi = 1
La divergence de Kullback-Leibler
Z
π(θ)
KL(π, πi ) = π(θ) log
Θ πi (θ)
exprime une perte en terme d’information lorsque le meilleur choix a priori π est
remplacé par πi
M
X
π ∗ (θ) = arg min ωi KL(π, πi )
π
i=1
La calibration des poids ωi est un problème qui reste ouvert, malgré quelques réponses
déjà proposées
Exemple
Une grande littérature de recherche, établissant des ponts avec la psychologie des
individus et des groupes, est consacrée à la réduction des biais (ex : Tversky et Kahneman
1973, 1979)
Échelle de Morgan (2014)
Limiter l’effet des biais en choisissant soigneusement les experts
I argue that what differentiates the epistemic standpoint of experts is not what or how
they know [...], but their capacity for learning
Limiter l’effet des biais en choisissant soigneusement les experts
I argue that what differentiates the epistemic standpoint of experts is not what or how
they know [...], but their capacity for learning
Comment voulons-nous idéalement interpréter ("formaliser") ce qu’est un expert
Typiquement :
I systèmes cognitifs implicites
I humains
I intelligences artificielles (néo-connexionnistes)
I systèmes causaux explicites
I modèles phénoménologiques et leurs implémentation numériques
(modèles de simulation)
I intelligences artificielles symboliques
La statistique bayésienne est une théorie de la décision : elle suppose que l’expert peut
être "formalisé" comme un décideur
Mais quelle pertinence accorder à un avis d’expert non indifférent au risque (ex :
L’Aquila 2009)
Quelle spécification est la plus courante ?
Pour définir un ordre total sur les récompenses possibles (gains) associées aux
décisions, on suppose qu’une décision en univers incertain (puisque θ est aléatoire)
correspond à une fonction de coût moyennée sur la connaissance de θ, c’est-à-dire sur
π(θ)
Z
d∗ = arg min L(θ, d)π(θ) dθ
d∈D Θ
Une alternative, lorsqu’il est difficile de la construire, est de faire appel à des fonctions
de coût usuelles, mathématiquement simples et de propriétés connues
Soit D = Θ. On pose
Critère d’évaluation le plus commun, convexe, mais pénalise très (trop) fortement les
grands écarts peu vraisemblables
Justifié par sa simplicité (Gauss), le fait qu’il produit des estimateurs de Bayes
intuitifs, et qu’il peut être vu comme le DL d’un coût symétrique complexe
Proposition
l’estimateur de Bayes associé à toute loi a priori π et au coût (2) est
l’espérance (moyenne) de la loi a posteriori π(θ|xn )
Exemple 2 : fonction de coût absolu (Laplace 1773) ou linéaire
L(θ, δ) = |θ − d| (3)
Tout en étant convexes, elles croissent plus lentement que le coût quadratique et ne
surpénalisent pas les erreurs grandes peu vraisemblables
Proposition
l’estimateur de Bayes associé à toute loi a priori π et au coût (4) est le
fractile c2 /(c1 + c2 ) de la loi a posteriori π(θ|xn )
X = durée de vie d’un composant Σ, supposé tomber uniquement en panne par hasard
L’axiome de rationalité dit que si l’expert n’est pas averse au risque, alors
Z ∞
|x − λ| C1 1{x≤λ} + C2 1{x>λ} π(λ) dλ
λ̄ = arg min
x 0
| {z }
fonction de coût intégrée sur toutes les valeurs possibles a priori du vrai λ
Exemple dans un cadre de fiabilité industrielle (2/2)
Z λ̄ C1
Il s’ensuit que dΠ(λ) = Π(λ < λ̄) =
0 C1 + C2
L’interprétation de la réponse de l’expert est que 1/(1 + δ̂) est un estimé du quantile a
priori d’ordre α = C1 /(C1 + C2 )
Prouvé originellement (mais avec erreurs) par Cox (1946), mieux formalisé par Jaynes
(1954), étendu plus rigoureusement par Paris (1994), Van Horn (2003), Dupré and
Tipler (2009) (entre autres) et finalisé par Terenin and Draper (2015)
Théorème
Sous les hypothèses précédentes, il existe une fonction P, croissante et continue, telle
que pour toute proposition A, C et tout ensemble BX consistant,
(i) P([A|BX ]) = 0 si et seulement si A est fausse étant donnée
l’information sur X
(ii) P([A|BX ]) = 1 si et seulement si A est vraie étant donnée
l’information sur X
(iii) 0 ≤ P([A|BX ]) ≤ 1
(iv) P([A ∧ C |BX ]) = P([A|BX ])P([C |A, BX ])
(v) P(¬[A|BX ]) = 1 − P([A|BX ])
Goertzel (2013) a prouvé que si la règle de consistance était affaiblie, alors les
plausibilités se comportent approximativement comme des probabilités
La théorie des probabilités est pertinente pour représenter les incertitudes sur un sujet
exploré par un systèmes cognitif implicite (humain ou artificiel) qui pourrait ne pas
être complètement consistant
Axiome
Considérons une proposition A on X . Sachant BX , la plausibilité [A|BX ] est un nombre
réel, supérieurement borné par un nombre (fini ou infini) T
La “relaxation" la plus commune de cet axiome est que deux dimensions sont
nécessaires pour représenter correctement la plausibilité d’une proposition
Des expériences ont montré que cette relaxation est parfois nécessaire quand la
plausibilité est interprétée comme le résumé d’une croyance personnelle, d’un pari
Les experts sont soumis à de nombreux biais qui limitent parfois la pratique bayésienne
subjective, fondée sur une interprétation décisionnelle de leurs opinions sous des
contraintes d’indifférence au risque
Une grande littérature de recherche, établissant des ponts avec la psychologie des
individus et des groupes, est consacrée à la vérification des contraintes (cf. Tversky et
Kahneman 1973)
Il n’en reste pas moins que la statistique bayésienne offre un cadre décisionnel
cohérent (de par le respect des axiomes des probabilités), pratique, et que les experts
sont souvent la seule source d’information disponible, qui puisse permettre d’effectuer
des prévisions dans un processus décisionnel
Quelques références (1/2)
On fera appel à des notions de cohérence entre cette forme et celle du modèle
d’échantillonnage f (x|θ)
Cohérence intrinsèque du modèle bayésien (1/2)
Règle du "pouce"
Soit If (θ) une mesure quantifiant l’information relative à θ contenue dans la structure
algébrique de f (·|θ). Le modèle bayésien est intrinsèquement incohérent (internally
incoherent) si I (θ) diminue lorsque π(θ) croît.
Dans un cas multidimensionnel (dim Θ > 1), l’information de Fisher est une matrice
dont :
I le déterminant définit le volume de la variété statistique définie par la famille
f (·|θ)
I l’inverse est la borne de Cramér-Rao = la plus petite covariance atteignable d’un
estimateur sans biais de θ
θ = (µ, σ 2 ) ∈ IR × IR∗+ et x ∈ IR
(x − µ)2
1
f (x|θ) = √ exp −
2πσ 2 2σ 2
1/σ 2
0
If (θ) =
0 1/2σ 2
π(σ 2 ) σ→∞
−−−−→ c>0
σ2
Exemple : modèle de Weibull
β−1 n o
β
β x
f(x|θ) = η η
exp − ηx
Le déterminant de l’information de Fisher est det If (θ) ∝ β −1 η β−1
où h(·) est une fonction croissante et k(·) est une fonction qui ne "lutte" pas contre la
cohérence
Exemples à venir
I Les priors conjugués sont cohérents
I Les priors construits par maximum d’entropie relativement à π J (θ) sont
cohérents
Recette pratique
Les queues de ces lois doivent être suffisamment légères pour que l’information a priori
devienne extrêmement faible lorsque le prior "s’écarte" de la vraisemblance dans la
règle de Bayes
Ce sera à mettre en relation avec la notion d’accord entre prior et données (voir plus
loin)
Élicitation par maximum d’entropie
L’entropie est définie comme un indice de désordre (ou d’ignorance) associé à une
distribution de probabilité
On suppose ne pouvoir poser que des questions à réponse binaire (oui ou non)
Stratégie 2 (dichotomique) : si ∃Q2 ∈ IN tel que N = 2Q2 , on range les sites en 2 parties
et on pose la question d’appartenance au premier ou au second groupe. En itérant ce
procédé, on peut trier en Q2 = log2 N questions
Le fait de savoir en probabilité dans quelle aire est l’information réduit le nombre de
questions à poser en moyenne de la quantité
k
X
∆Q = Q − Q0 = − pi log pi
i=1
Définition
L’entropie d’une variable aléatoire finie de distribution
Π = (π(θ1 ), . . . , π(θk )) est
k
X
H = − π(θi ) log π(θi ) (entropie de Shannon)
i=1
Le concept d’entropie (4/4)
Généralisation au continu :
I le cas discret correspond à une partition fine de Θ en k intervalles dont
l’étendue individuelle tend vers 0
I le résultat dépend de la mesure de partitionnement sur Θ
I l’entropie doit être invariante par tout changement de variable θ 7→ ν(θ)
Définition
L’entropie d’une variable aléatoire (continue) décrite par sa distribution
de probabilité π(θ) est
Z
π(θ)
H(π) = − π(θ) log dθ (entropie de Kullback)
Θ π0 (θ)
où π0 (θ) est une mesure (positive) de référence sur Θ. S’il s’agit d’une mesure de
probabilité, elle représente l’ignorance complète de la valeur θ sur Θ
Remarque : elle n’est plus forcément positive, mais elle est maximale en π(θ) = π0 (θ)
Maximisation de l’entropie sous contraintes linéaires (1/2)
dans l’ensemble P des mesures positives, sous M contraintes de forme de type linéaire
Z
gi (θ)π(θ) dθ = ci , , i = 1, . . . , M
Θ
M
!
X
π ∗ (θ) ∝ π0 (θ) exp λi gi (θ)
i=1
π ∗ (θ) = π0 (θ)
Soit θ un paramètre réel tel que E[θ] = µ et soit π0 la mesure de Lebesgue sur IR .
Quelles sont les conditions d’existence du maximum d’entropie ? Quelle est la loi
correspondante ?
Définition
2 , et (R, T ) : Θ × Ω 7→ IR k × IR k . La famille
Soient (C , h) : Θ × Ω 7→ IR+
des distributions de densité
avec
Eθ [X ] = ∇ψ(θ) (gradient)
∂2ψ
cov(Xi , Xj ) = (θ)
∂θi ∂θj
k
Γ( ki=1 θi ) Y θi −1
P
f (x|θ) = Qk xi 1{Sk (x)}
i=1 Γ(θi ) i=1
( )
k
P
définie sur le simplexe Sk (x) = x = (x1 , . . . , xk ); xi = 1, xi > 0
i=1
n
!
X
f (xn |θ) = C (θ)h(xn ) exp nx̄ · (µ/σ 2 ) + kxi − x̄k2 (−1/2σ 2 )
i=1
Pn
avec θ = (µ, σ), et la statistique (x̄, i=1 kxi − x̄k2 ) est exhaustive pour tout n ≥ 2
Une propriété majeure de la famille exponentielle : la conjugaison
Si, de plus, la loi a priori π(θ) est également construite par maximum d’entropie :
M
!
X
π(θ) ∝ ν(θ) exp λi gi (θ)
i=1
Soit
lui est conjuguée (naturelle), et la mesure a posteriori sachant une donnée x est
π(θ|a + x, b + 1)
˚
qui est finie si b > 0 et a/b ∈ IN
Quelques lois a priori conjuguées pour quelques familles exponentielles usuelles
Raisonnement d’invariance :
I l’information x ∼ f (x|θ) transformant π(θ) en π(θ|x) est limitée
I donc elle ne devrait pas entraîner une modification de toute la structure de
π(θ), mais simplement de ses hyperparamètres :
Une autre justification est le recours aux données virtuelles (cf. transparent suivant)
x0
E[X ] = E[E[X |θ]] = E [∇ψ(θ)] =
m
x0 + nx̄
E[X |xn ] = (7)
m+n
Autrement dit, m a le sens d’une taille d’échantillon virtuelle, offrant une indication de
la “force" informative de l’a priori (d’un expert, etc.)
n! k
P(X1 = k1 , . . . , Xd = kd |θ) = θ k1 . . . θ d d
k1 ! . . . kd ! 1
P
d d
Γ i=1 δi Y δ −1
f (θ|δ) = Qd θi i 1{Sd (θ)}
i=1 Γ(δi ) i=1
( )
d
P
définie sur le simplexe Sd (x) = x = (x1 , . . . , xk ); xi = 1, xi > 0
i=1
Exemple : matrice de covariance d’une loi gaussienne
θ ∼ IW(Λ, ν)
|Λ|ν/2
− ν+d+1 1 −1
f (θ) = |θ| 2 exp − tr Λθ
2νd/2 Γd (ν/2) 2
Proposition
Soit F = {π(θ|a, b) = K (a, b) exp(θ · a − bψ(θ))} la famille conjuguée
naturelle de la famille exponentielle
N N
( )
X X
FN = ωi π(θ|ai , bi ); ωi = 1, ωi > 0
i=1 i=1
N
X
π(θ|x) = ωi0 (x)π(θ|ai + 1, bi + x)
i=1
avec
Définition
La distance de Prohorov entre deux mesures π et π̃ est définie par
où l’infimum est pris sur les ensembles boréliens de Θ et où A indique l’ensemble des
points distants de A d’au plus
Les mélanges d’a priori conjugués peuvent alors être utilisés comme base pour
approcher une loi a priori quelconque, au sens où la distance de Prohorov entre une loi
et sa représentation par un mélange dans FN peut être rendue arbitrairement petite
Théorème
Pour toute loi a priori π sur Θ, ∀ > 0, on peut trouver N et π̃ ∈ FN tel
que
Certains modèles permettant des a priori conjugués n’appartiennent pas à une famille
exponentielle
θα
f (x|θ) = α 1]θ,∞[ (x)
x α+1
1[−θ,θ] (x)
f (x|θ) =
2θ
1[0,θ] (x)
f (x|θ) =
θ
Distributions a priori non-informatives
Crûment, on peut voir π0 (θ) comme la “limite" d’un a priori subjectif (suivant une
certaine topologie)
b a a−1
π(λ|a, b) = λ exp(−bλ)1{λ≥0}
Γ(a)
En général, les règles formalisant l’absence d’information (cf. plus loin) aboutissent à
des mesures qui sont σ−finies sur Θ mais qui ne sont pas des mesures de probabilité,
soit telles que
Z
π0 (θ) dθ = ∞
Θ
Un argument fort en faveur des distributions impropres est la bonne performance des
estimateurs bayésiens a posteriori
I les estimateurs de Bayes restent admissibles (en général)
I on retombe souvent sur les estimateurs du maximum de vraisemblance (EMV)
I on peut voir comme des régularisateurs probabilistes de la vraisemblance
I ces outils réconcilient les cadres inférentiels fréquentiste et bayésien
Quelques remarques préliminaires
Les lois (ou distributions) non-informatives ne représentent pas une ignorance totale
sur le problème considéré
Elles doivent être comprises comme des lois de référence ou choisies par défaut,
auxquelles on peut avoir recours quand toute information a priori est absente
Laplace suppose que tous les nombres de 2 à n − 1 sont équiprobables comme valeurs
de θn, donc que θ soit uniformément distribué sur 2/n, . . . , (n − 1)/n
on a
π ∗ (η) Jac(g −1 (η)) π(g −1 (η)) = det ∂η π(g −1 (η))
= ∂θ
π(θ) ∝ 1/θ
Ces approches impliquent la référence à une structure d’invariance, qui peut être
choisie de plusieurs manières (voire ne pas exister)
∂2
Iij (θ) = −Eθ log f (x|θ)
∂θi ∂θj
L’a priori de Jeffreys vérifie donc un principe d’invariance (intrinsèque) par n’importe
quelle reparamétrisation
Une justification supplémentaire
I I (θ) est largement accepté comme un indicateur de la quantité d’information
apportée par le modèle (ou l’observation) sur θ (Fisher, 1956)
I I (θ) mesure la capacité du modèle à discriminer entre θ et θ + / − dθ via la
pente moyenne de log f (x|θ)
I Favoriser les valeurs de θ pour lesquelles I (θ) est grande équivaut à minimiser
l’influence de la loi a priori
L’a priori de Jeffreys est l’une des meilleures techniques automatiques pour obtenir des
lois non-informatives
Il est le plus souvent impropre, sauf pour des modèles pour lesquels Θ est borné ou/et
discret (Exemple binomial)
Principe
On peut créer des coverage matching priors comme solution d’une équation
différentielle stochastique
cf. TP 4
Exemple dans un cadre de fiabilité industrielle (1/5)
X = durée de vie d’un composant Σ, supposé tomber uniquement en panne par hasard
L’axiome de rationalité dit que si l’expert n’est pas averse au risque, alors
Z ∞
|x − λ| C1 1{x≤λ} + C2 1{x>λ} π(λ) dλ
λ̄ = arg min
x 0
| {z }
fonction de coût intégrée sur toutes les valeurs possibles a priori du vrai λ
Exemple dans un cadre de fiabilité industrielle (2/5)
Z λ̄ C1
Il s’ensuit que dΠ(λ) = Π(λ < λ̄) =
0 C1 + C2
L’interprétation de la réponse de l’expert est que 1/(1 + δ̂) est un estimé du quantile a
priori d’ordre α = C1 /(C1 + C2 )
xm ∼ E(λ)
λ ∼ G(m, mx̄m )
Exemple dans un cadre de fiabilité industrielle (4/5)
χ22m (α)
Donc 2mx̄m λ ∼ G(m, 1/2) ≡ χ22m , d’où x̄m =
2mλ̄
Le décideur peut fixer arbitraitement m selon la confiance qu’il a en l’expert (ou mettre
un a priori hiérarchique dessus)
De plus, l’a priori est conjugué : sachant des durées de vie observées xn = (x1 , . . . , xn ),
la loi a posteriori de λ est
n
!
χ2 (α) X
λ|xn ∼ G m + n, 2m +n xi
2λ̄ i=1
puis il peut introduire une fonction de coût, etc. pour prendre une décision
Illustration : cas non-informatif
1.0
15
0.8
0.6
10
0.4
5
0.2
0.0
0
1.0
15
0.8
0.6
10
0.4
5
0.2
0.0
0
1.0
15
0.8
0.6
10
0.4
5
0.2
0.0
0
1.0
15
0.8
0.6
10
0.4
5
0.2
0.0
0
En fait, plus habituellement, l’expert préfère exprimer son opinion quantitative sur la
durée de vie X (= variable d’ancrage) que sur λ, car X est observable
Issu de Gaioni et al. (2010). Bayesian modeling of flash floods using generalized
extreme value distribution with prior elicitation (CJS).
avec θ = (λ, µ, σ)
Un niveau de retour xq (θ) correspondant à une période inter-événements ' 1/q peut
être estimé en résolvant
q = F (xq |θ)
λ(x − qi − µ)
σ =
[− log qi ]−λ − 1
xqi Kj (λ) − xqj Ki (λ) λ
µ = où Ki (λ) = (xqi − µ)
Kj (λ) − Ki (λ) σ
3
X
0 = (xqi − xqj ) exp(− log(− log qi ))
i6=j=1
Une possibilité privilégiée : construire la loi a priori comme une loi a posteriori
approximative, sachant des données virtuelles x̃m et une mesure a priori non
informative π J (θ) :
m reflète la force de l’information a priori et peut être modulée (dans une phase de
calibration ou d’analyse de sensibilité)
ou, pour des niveaux observés xαi , de fournir des estimateurs des αi
Arguments
I Ces informations sont corrélées (c’est en s’exprimant sur une valeur de X qu’une
autre valeur de X peut être positionnée)
I La distribution jointe des informations a priori reste invariante par toute
permutation de ces informations (l’ordre de proposition des quantiles ne devrait
pas importer)
Généralisé par Hewitt, Savage (1955), Diaconis, Freedman (1980) pour l’ensemble des
distributions discrétisées puis continues
Conséquences :
I La modélisation bayésienne apparaît comme une modélisation statistique
naturelle de variables corrélées mais échangeables
I L’existence formelle d’un prior π(θ) est assurée en fonction du mécanisme
d’échantillonnage
= { information incertaine à propos θ }
Méthodologie (2)
π(θ) = π(θ|∆m )
On cherche à placer des priors sur θ qui soient plus réalistes que l’approche précédente
Cas d’étude
Précipitation extrême (maxima journaliers) à Penta-di-Casinca (Haute-Corse)
[Source : http ://penta.meteomac.com] + information a priori prédictive
300
●
250
Pluviometry (mm)
200
●
●
●
●
●
150
●
●
●
●
●
●
● ●
●
100
● ●
● ●
● ●
● ●
● ● ●
50 ●
Proposition
Soit un choix pour m et un choix de µinf , calibrons ω(m) = (xe1 (m), xe2 (m))
sous la contrainte xe1 (m) < xe2 (m)
Critère de Cooke
M
X (αi+1 − αi )
ω∗ = arg min (αi+1 − αi ) log , (11)
ω
i=0
(α̃i+1 (ω) − α̃i (ω))
µk ∼ fµIS ≡ N (κIS IS
µ , σµ ),
fξ ≡ IG m, m log ρIS
IS
ξk ∼ ξ
0.000 0.002 0.004 0.006 0.008 0.010 0.012 0.000 0.002 0.004 0.006 0.008 0.010 0.012
0
0
20
20
40
40
Loi a priori sur µ
mu
mu
m= 5
m= 1
60
60
80
80
100
100
density density
0.000 0.002 0.004 0.006 0.008 0.010 0.012 0.014 0.000 0.002 0.004 0.006 0.008 0.010 0.012
0
0
20
Avec µinf = 0
20
40
40
mu
mu
m = 20
m = 10
60
60
80
80
100
density density
0.000 0.001 0.002 0.003 0.004 0.005 0.006 0.000 0.001 0.002 0.003 0.004 0.005 0.006
−100
−100
−50
−50
0
0
mu
mu
m= 5
m= 1
50
50
100
100
density density
0.000 0.001 0.002 0.003 0.004 0.005 0.006 0.000 0.001 0.002 0.003 0.004 0.005 0.006
−100
−100
−50
−50
Avec µinf = −100
mu
mu
0
m = 20
m = 10
50
50
100
Exemple
Contrainte a priori : µ ≥ 0
Hyperparamètres and calcul des ordres effectifs des quantiles a priori prédictifs,
qui doivent être comparés à (25%, 50%, 75%)
Densités a priori prédictives
m=1
m=5
m = 10
m = 15
pluviométrie (mm)
Résultats pour Weibull renversée (1/2)
En utilisant la même paramétrisation,
n o
P(X < x|θ) = exp −ν (µ − x)1/ξ
Proposition
0.5
m = 0.5
m=1
m=2
0.4
0.3
density
0.2
0.1
0.0
mu
Exemple de calibration
¯ un
Étant donné un échantillon virtuel de Gumbel x̃1 , . . . , x̃m de moyenne x̃,
prior conjugué est :
¯xm ) X m !
−m (µ − ~ x̃i − µ
π(µ, σ) ∝ σ exp m − exp − (12)
σ i=1
σ
●
300
●
250
200
●
●
●
●
●
25% 75
50% 100
150
●
●
●
●
●
● ●
●
●
75% 150
100
● ●
● ●
● ●
● ●
● ● ●
●
50
x̃1 = 81,
x̃2 = 93,
x̃2 = 101
Une taille de fissure Zk,t sur un composant k est monotone croissante au cours du
temps t
Les incréments (supposés indépendants) Xk,i = Zk,ti − Zk,ti−1 sont supposés obéir à
des lois gamma
x
−β
1 x α(t−s)−1 e
fα(t−s),β (x) = · 1{x≥0}
Γ(αi (t − s)) β α(t−s)
Comment construire un a priori informatif sur (α, β) ?
1
p
Prenons une mesure non informative (Jeffreys) π J (α, β) ∝ β
αΨ1 (α) − 1
En effet, on a
m
P
m x̃j
j=1 Γ mαt̃e,1 p
X
xm , ~
π α|~ tm ∝ exp −α t̃i log αΨ1 (α) − 1
m
z̃i Q
Γ(αt̃i )
i=1
i=1
I Développement de Laurent
∞
!
p 1 X B2k
αΨ1 (α) − 1 = √ 1+ 2k−1
2α k=1
α
x̃e ∆i
rˆ(∆i ) = .
t̃e,1
2 n o2
1 − δi−1 P Zmt̃e,1 < zi
X
i=1
Accord entre données et distribution a priori prédictive
.
Une alternative courante au critère des moindres carrés
L’adéquation entre la représentation de l’information a priori fournie par des couples
(xαi , αi ) et ce qu’il est possible de modéliser – les couples (xαi , α̃i (δ)) – est définie par
une fonction de perte minimisée en δ
Critère de Cooke
M
X (αi+1 − αi )
δ∗ = arg min (αi+1 − αi ) log ,
δ
i=0
(α̃i+1 (δ) − α̃i (δ))
y |θ ∼ Np (θ, Σ1 ),
θ|β ∼ Np (X β, Σ2 )
souvent utilisé en génétique animale pour différencier l’influence d’éléments fixes (ex :
lignée, race, année) de celle de facteurs aléatoires (ex : nb de femelles dans une lignée)
Quelques caractéristiques
En incluant l’information a priori aux niveaux les plus élevés, l’approche bayésienne
hiérarchique permet en général de gagner en robustesse
Éliciter un a priori à partir de résultats statistiques théoriques
Le sens de L∞ est celui d’une longueur maximale qu’un être vivant peut atteindre, en
moyenne sur toutes les observations possibles
Quand L̄ grandit, la
distribution de L∗∞ |L̄ = l est une Pareto généralisée :
−1/µ
x − L̄
P L∗∞ < x|L∗∞ > L̄, σ, µ
= 1− 1+µ
σ
M+1
Y
θt,t+1 = θt+i/M,t+(i+1)/M
i=0
avec µt < −σt2 /2 tel que E[θt,t+1 ] ∈ [0, 1] ⇒ contrainte de forme sur le niveau
hiérarchique π(µt , σt )
Une exemple de méta-analyse pour construire une modélisation a priori hiérarchique
Principle :
I Supposons disposer d’une observation représentative Y ∗ sur Y = g (θ, c) où g
et une fonction et c un ensemble de paramètres fixés
I Construire une vraisemblance liant Y ∗ et θ
I Choisir un a priori non informatif π J (θ) en fonction de cette vraisemblance
I Sélectionner π comme le posterior π J (θ|Y ∗ )
Exemple : modèle à espace d’état pour une population (cohorte)
B., Chassot, Hammill, Duplisea (2008-2011)
Prédation Pa,t = c ·N
pa,t a,t
0 m (N
Mortalité résiduelle 1 Na,t = pa,t a,t− Pa,t , )
Pêche commerciale Ca,t = f
1 − pa,t 0
Na,t
Abondance à mi-année 00
Na,t = 0
Na,t − Ca,t /2
m N 00 − C /2
Mortalité résiduelle 2 Na+1,t+1 = pa,t a,t a,t
= A
P
Production d’oeufs totale TEPt a=1 Na,t ξa, t φa, t fa,t
Recrutement à l’âge 0 Rt+1 r
= pt+1 · TEPt
2
Recrutement à l’âge 0 N1,t+2 m
= p0,t+1 Rt+1
Sex ratio ξ
Proportion de femelles matures φ
Fécondité (nombre d’oeufs morue−1 ) f
Observations
00
Ia,t = q ςa, s Na, t Indice d’abondance
1
with ςa, s = Sélectivité
1 + exp (−γs (a − δs ))
and q Capturabilité
A
X
Ct = Ca, t Prise totale
a=1
XA
pa, t, c = Ca, t / Ca, t Probabilité observée de prise par âge
a=1
A
X
pa, t, s = Ia, t / Ia, t Probabilité observée d’abondance par âge
a=1
A A
!
X
∗ iid X
Jt∗ = Ja, t ∼ N log Ia, t (θ), ψ 2 ψ 2 = Aσ 2 + A2 τ 2
a=1 a=1
∗
where Ja, ∗ ) = log(I
= log(Ia,
t t a, t ) + a, t + ηt
σc2 2
iid
log Ct∗ ∼ N log Ct (θ) − , σc σc2
2
∗ iid ∗
pa, t, x ∼ Dir p1, t, x (θ), . . . , pA, t, x (θ), nt, s
Liste des paramètres inconnus
Une approche bayésienne apparaît plus respectueuse des incertitudes imprégnant les
hypothèses de modélisation
Élicitation a priori pour les paramètres de sélectivité
1
ςa = .
1 + exp(−γ{a − δ})
Considérons la reparamétrisation
s ∗a = s a + N (0, σa2 )
Notons s ∗I = (s1∗ (i1 ), . . . , sA∗ (iA )), avec ij 6= ik , le ij étant choisi dans I ⊂ {1, . . . , M},
et
A
1 X ∗
s̄ ∗ = s (ij ) = αγ − δ + N (0, σ 2 )
A j=1 j
PA
avec σ 2 = a=1 σa2 /A et α = (A + 1)/2.
Minimiser les corrélations pour obtenir une vraisemblance simple
Sélectionner des âges éloignés (a1 , a2 ), sa∗1 (ia1 ) and sa∗2 (ja2 ) permet de diminuer la
corrélation
s̄ = αγ − δ + N (0, ν 2 + σ 2 )
Une fois que la loi a posteriori du vecteur θ est obtenue, des études de projection
doivent être faites
Souvent θ = (θ I , θ N ) où
I θ I = {paramètres d’intérêt} (ex : paramètres de selectivité, recrutement...)
I θ N = {paramètres de nuisance} (variances d’observation, capturabilité)
I purement relatives à l’obtention des données
A A
!
X iid X
Jt∗ = ∗
Ja, t ∼ N log Ia, t (θ), ψ 2
a=1 a=1
σc2 2
iid
log Ct∗ ∼ N log Ct (θ) − , σc
2
Mesure a priori conditionnelle de Berger-Bernardo pour les paramètres de nuisance
Le choix d’un prior non informatif π(θ N ) doit être indépendant du choix de tout prior
informatif sur θ I
π(θ N |x)
Z
KL(π|x) = π(θ N |x) log dθ N
ΘN π(θ N )
R
with π(θ N ) = π(θ)dθ I
On élicite
( )
π∗ = arg max lim Em [KL(π|X)]
π card(X)→∞
Conditionnellement au choix de f (x|θ), il est tentant de dire qu’un modèle est valide,
ou pertinent, ou cohérent extrinsèquement s’il permet de générer des données X qui
sont en accord avec des observations réelles x1 , . . . , xn
Peut-on émettre une règle simple de cohérence entre π(µ) et la vraisemblance des
données ?
Une idée simple
n
1 P
x̄n = n
xi est une statistique exhaustive de l’échantillon
i=1
Sous une hypothèse iid. des Xi , la loi de la variable aléatoire associée X̄n est,
conditionnellement à (µ, σ 2 )
σ2
X̄n |µ, σ 2 ∼ N µ,
n
n = 10 , sigma = 1 , rho = 1
20
15
Score
10
Quantile Chi2(1) à 99 %
5
Quantile Chi2(1) à 95 %
0
−4 −2 0 2 4
Ecart entre m et mu
Influence d’un σ plus large
Quantile Chi2(1) à 99 %
n = 10 , sigma = 2 , rho = 1
7
6
5
Quantile Chi2(1) à 95 %
4
Score
3
2
1
0
−4 −2 0 2 4
Ecart entre m et mu
Influence d’une très faible taille d’échantillon
n= 2 , sigma = 1 , rho = 1
20
15
Score
10
Quantile Chi2(1) à 99 %
5
Quantile Chi2(1) à 95 %
0
−4 −2 0 2 4
Ecart entre m et mu
Influence d’une expertise extrêmement précise
200
150
Score
100
50
Quantile
Quantile Chi2(1)
Chi2(1) à
à 99
95 %
%
0
−4 −2 0 2 4
Ecart entre m et mu
Influence d’une expertise extrêmement vague
n = 10 , sigma = 1 , rho = 5
6
5
Quantile Chi2(1) à 95 %
4
Score
3
2
1
0
−4 −2 0 2 4
Ecart entre m et mu
Dans la pratique, simulons la loi a priori prédictive
Une taille de fissure Zk,t sur un composant k est monotone croissante au cours du
temps t
Les incréments (supposés indépendants) Xk,i = Zk,ti − Zk,ti−1 sont supposés obéir à
des lois gamma
x
−β
1 x α(t−s)−1 e
fα(t−s),β (x) = · 1{x≥0}
Γ(αi (t − s)) β α(t−s)
Rappel modélisation
Prior :
β|α ∼ IG αmt̃e,1 , mx̃e
α ∼ G m/2, mt̃e,2
où
m
1 X
t̃e,1 = t̃i (temps moyen d’observation)
m i=1
m
1 X
x̃e = x̃i (accroissement moyen)
m i=1
m
P
m x̃j /x̃i
1 X j=1
t̃e,2 = t̃i log m (hyperparamètre de calage)
m i=1 P
t̃j /t̃i
j=1
.
Approche de Evans et Moshonov
Approche prônée par Evans et Moshonov (2006, 2007) fondée sur la notion de
p−value a priori prédictive
L’approche de Evans et Moshonov en détail
Difficultés
1. FS (so ) peut être difficile à calculer, notamment en l’absence de conjugaison ;
2. il faut prendre en compte l’ancillarité de S
3. comment choisir une p−value limite ?
L’ancillarité
Une statistique ancillaire est une statistique dont la distribution ne dépend pas des
paramètres du modèle
Si le modèle f (x|θ) possède des statistiques ancillaires, leur usage pour tester le
modèle revient à ne pas tester certaines dimensions de θ
Ce type de problème est également rencontré dans les méthodes ABC (Approximate
Bayesian Computation)
Comment tester toutes les dimensions de θ ?
Soit π J (θ) un prior non informatif : π J (θ|xn ) n’apporte pas (beaucoup) plus
d’information que les données
Comment tester toutes les dimensions de θ ?
Soit π J (θ) un prior non informatif : π J (θ|xn ) n’apporte pas (beaucoup) plus
d’information que les données
Hypothèse 1 1 :
π J est toujours en accord avec les données xn .
Comment tester toutes les dimensions de θ ?
Soit π J (θ) un prior non informatif : π J (θ|xn ) n’apporte pas (beaucoup) plus
d’information que les données
Hypothèse 1 1 :
π J est toujours en accord avec les données xn .
Hypothèse 2 2 :
π J (θ|xn ) est considéré comme une loi a priori "parfaite",
correspondant à un expert fictif parfaitement en accord avec les données
Le critère DAC (Data-Agreement Criterion)
Principale idée
Calculer la divergence de Kullback-Leibler entre les distributions
n o
D π J (θ|xn ) || π(θ) .
Définition :
D π J (θ|tn ) || π(θ)
DAC J (π|xn ) =
D π J (θ|xn ) || π J (θ)
Règle :
π et xn sont dits en conflit si DAC J (π|xn ) > 1.
Principales caractéristiques
QM
2. Combinaison de priors. Notons π(θ) ∝ i=1 πi (θ)ωi . Alors
M
X
DACJ (π|xn ) ≤ ωi DAC J (πi |xn ). (arguments de convexité simples)
i=1
Formellement
Écrivons π(θ) = π(θ1 |θ2 )π(θ2 ) et π J (θ) = π J (θ1 |θ2 )π J (θ2 ).
π̃1 (θ) = π(θ1 |θ2 )π J (θ2 )
Notons
π̃2 (θ) = π J (θ1 |θ2 )π(θ2 )
QM
2. Combinaison de priors. Notons π(θ) ∝ i=1 πi (θ)ωi . Alors
M
X
DACJ (π|xn ) ≤ ωi DAC J (πi |xn ). (arguments de convexité simples)
i=1
QM
2. Combinaison de priors. Notons π(θ) ∝ i=1 πi (θ)ωi . Alors
M
X
DACJ (π|xn ) ≤ ωi DAC J (πi |xn ). (arguments de convexité simples)
i=1
Deux situations :
1. Cas idéal. Θ est borné et / ou M(θ) est discret. Alors π J est souvent propre :
Z
π J (θ) dθ < ∞.
Θ
i.i.d.
xn ∼ N (θ, 1)
θ ∼ N (µ0 , σ0 ) restreint à D = [−15, 15]
1.5
1.0
sd = 1
sd = 0.5
sd = 0.25
0.5
0.0
−4 −2 0 2 4
mu0
Vraie valeur θ0 = 0, taille n = 5
Adaptation dans les cas problématiques
Définition :
Soit xn (−l) = xn /{x(l)} and ` la taille d’un MTS x(l). Par un
argument de validation croisée
L
1 X D π J (.|xn (−l)) || π(.|x(l))
DACAIJ (π|xn ) = .
L l=1 D π J (.|xn (−l)) || π J (.|x(l))
Qualité de l’adaptation
I L ≥ 10 et n/` ≥ 8 : pas mal
I souffre de la taille, la censure éventuelle
des données et de dim Θ
I Coûteux à calculer (sauf cas conjugués)
Critère DAC intrinsèque
Définition :
Soit xn (−l) = xn /{x(l)} and ` la taille d’un MTS x(l). Par un
argument de validation croisée
L
1 X D π J (.|xn (−l)) || π(.|x(l))
DACAIJ (π|xn ) = .
L l=1 D π J (.|xn (−l)) || π J (.|x(l))
Améliorations possibles
Qualité de l’adaptation
I Introduire des données censurées dans les
I L ≥ 10 et n/` ≥ 8 : pas mal MTS
I souffre de la taille, la censure éventuelle (Berger & Perrichi 2002)
des données et de dim Θ I Adapter les a priori non informatifs
I Coûteux à calculer (sauf cas conjugués) (De Santis et al. 2001)
I Définir des pseudoposterior priors
Exemple : loi de Bernoulli Br (θ) avec un prior beta
n = 20, valeur de simulation θ0 = 0.7.
θ ∼ Be sur [0, 1], de moyenne µ0 et pour un écart-type σ = 0.2 fixé
1.5
1.0
DAC
0.5
3.0
a=0.5 a=2 a=10 a=30 a=70
a=1 a=5 a=20 a=40 a=80
2.5
2.5
a=50 a=100
2.0
2.0
DAC AIJ
DAC AIJ
1.5
1.5
1.0
1.0
0.5
0.5
0.0
0.0
0 100 200 300 400 500 0 100 200 300 400
Propriété
DACJ et DACAIJ détectent des priors très biaisés et des priors non biaisés mais trop
informatifs vis-à-vis des données xn .
Situation typique : un expert peut fournir une valeur centrale pour θ mais nous avons
aucune information a priori pour calibrer une variance ou une
taille virtuelle m
Procédure
I Soit π(θ) = π(θ|m).
I Fixons m∗ tel que DACAIJ (m∗ |xn ) = 1.
I Alors m∗ peut être choisi comme une valeur par défaut ou une valeur seuil
Exemple : loi exponentielle E(λ)
n = 10, EMV λ̂ = 207.
Prior conjugué λ ∼ G(a, a.xe )
La taille n et la valeur a∗ sont des bornes pour a.
40
30
20
a
size n
10
0
Durée médiane
Durée de vie matériel (mois) fournie par des
défaillances : 134.9, 152.1, 133.7, 114.8, 110.0, 129.0, 78.7, 72.8, 132.2 experts
censures : 70.0, 159.5, 98.5, 167.2, 66.8, 95.3, 80.9, 83.2
250
te a∗
50 0.70 Un prior non conflictuel sur µ, utilisant les
100 2.55 informations centrales, ne peut apporter plus de
150 6.70 d’une donnée
200 1.80
250 0.25
densities
E=2
E=3
E=4
1 2 3 4 5
beta
Calibration du prior complet
Pour xe = 250, l’analyse bayésien décide a = 1 (supposant que l’avis des experts
apporte l’équivalent informationnel d’une donnée).
π(µ|β) est conflictuel : DACAIJ (a|xn ) = 1.16.
On veut inférer sur θn+1 en supposant que tous les θi ont été produit par le même π(θ)
L’ensemble de cette démarche n’est en fait pas pas bayésienne car elle utilise deux fois
les données
Points-clés à retenir en élicitation bayésienne
Décider de la forme d’une loi a priori informative en se basant sur des théorèmes de
convergence (ex : TLC) ou un raisonnement entièrement bayésien (ex : données
virtuelles)