Académique Documents
Professionnel Documents
Culture Documents
Chadli Assia
Université Badji Mokhtar Annaba
0.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
3 L approche Bayesienne 12
i
TABLE DES MATIÈRES 1
0.1 Introduction
Etant donné le triplet ( ; D; C), où : l’espace des paramètres, D l’espace des décisions
…nales , C la fonction de coût , et un élément aléatoire observable ! 2 dont la loi de
distribution P dépend du paramètre 2 . Quelle règle de décision (!) 2 D le statisticien
doit-il choisir ?
Pour discréditer entre les di¤érentes règles de décision , nous utilisons un critère appelé
fonction de risque, et est dé…nie par :
R( ; ) = E(C( ; (!)))
Cette quantité représente le cout moyen subi en choisissant (!) quand le paramètre
est inconnu.
Plusieurs approches peuvent être utilisées pour la résolution de tels problèmes de déci-
sions. Deux approches vont etre envisagées dans ce cours. L’approche classique qui consiste
à maximiser la vraisemblance, cette approche a été étudiée en graduation, on va juste en
faire un rappel et l’approche Bayesienne qui englobe l’information dont on dispose a priori,
TABLE DES MATIÈRES 2
par un retour d’expérience, sur un phénomène étudié en considérant le paramètre non pas
comme inconnu, mais comme une variable aléatoire possédant une distribution appelée loi
a priori. Cette approche consiste à combiner une distribution à priori selon un ensemble
de croyances représentatives avec les données pour obtenir une distribution à posteriori sur
laquelle on pratique l’inférence statistique.
Chapitre 1
Y
n
L(xj ) = f (xi j ) si X est une v:a:c (1.1)
_
i=1
Y
n
= P (X = xi j ) si X est une v:a:d
i=1
3
CHAPITRE 1. PLANS D’EXPÉRIENCES ET DONNÉES CENSURÉES 4
Une des caractéristiques des données de survie est l’existence d’observations incomplètes.
En e¤et, les données sont souvent recueillies partiellement, notamment, à cause des processus
de censure et troncature. Les données censurées ou tronquées proviennent du fait qu’on n’a
pas accès à toute l’information : au lieu d’observer des réalisations indépendantes et identi-
quement distribuées (i.i.d) de durée X, on observe la réalisation de la variable X soumise à
diverses perturbations indépendantes ou non du phénomène étudié.
La censure est le phénomène le plus couramment rencontré lors du recueil des données
de survie :
Pour l’individu i, considérons :
- Son temps de survie Xi .
- Son temps de censure Ci .
- La durée réellement observée Ti .
Censure à droite
La durée de vie est dite censuré à droite si l’individu n’a pas subi l’évènement à sa dernière
observation. En présence de censure à droite, les durées de vie ne sont pas toutes observées ;
pour certaines d’entre elles, on sait seulement qu’elles sont supérieurs à une certaine valeur
connue.
Dans ce cours, on s’interesse uniquement aux censures à droite, cependant il est intéressant
de noter qu il existe plusieurs types de censures :
-Censures à gauche
-Censures aléatoires
-Censures progressives.
1- La censure de type I
Soit C une valeur …xée, au lieu d’observer les variables X1 ; :::; Xn , on observe Xi uniquement
lorsque Xi C, sinon on sait uniquement que Xi > C. On utilise la notation suivante :
1 si Xi < C
Ti = Xi ^ C = min(Xi ; C) et Di =
0 si Xi > C
CHAPITRE 1. PLANS D’EXPÉRIENCES ET DONNÉES CENSURÉES 5
Ce mécanisme de censure est fréquemment rencontré dans les applications industrielles. Par
exemple, on peut tester la durée de vie de n objets identiques (ampoules) sur un intervalle
d’observations …xé [0; C]. En biologie, on peut tester l’e¢ cacité d’une molécule sur un lot de
souris (les souris au bout d’un temps C sont sacri…ées).
La vraisemblance associée aux observations (T1 ; D1 ) ; :::; (Tn ; Dn ) possède une composante
continue et une composante discrète ; elle s’écrit :
Y
n
L(t j ) = [f (ti j )]Di [1 F (C)]1 Di
(1.2)
_
i=1
2- La censure de type II
De manière plus formelle, soit un échantillon de durées de survie (X1 ; :::; Xn ) et r > 0
…xé ; on dit qu’il y a censure de type II pour cet échantillon si au lieu d’observer directement
(X1 ; :::; Xn )
1 si Xi < X(r)
Ti = Xi ^ X(r) = min(Xi ; X(r) ) et Di =
0 si Xi > X(r)
n! Y
n
L(t j ) = [f (ti j )]Di [1 F (ti )]1 Di
(1.3)
_ (n r)! i=1
n! Y
r
(n r)
= f (xi j ) 1 F x(r)
(n r)! i=1
Exemple
CHAPITRE 1. PLANS D’EXPÉRIENCES ET DONNÉES CENSURÉES 6
s’écrit donc :
Y
n
L(xj ) = [f (xi j )]Di [1 F (C)]1 Di
_
i=1
Y
R
P
R
R
= [ exp ( xi )] exp ( (n R) C) = exp xi + (n R) C
i=1 i=1
n! Y
r
(n r) n! P
r
r
L(xj ) = f (xi j ) 1 F x(r) = exp xi + (n r) xr
_ (n r)! i=1
(n r)! i=1
Y
n
P
n
n
L(xj ) = f (xi j ) = exp xi
_ i=1
i=1
Remarque 1 Il existe d’autres types de censures qui ne seront pas abordés dans ce cours.
On peut citer les censures à gauche, les censures aléatoires et les censures progressives.
Chapitre 2
C’est la méthode la plus naturelle, que nous avons déjà utilisée sans la formaliser. L’idée
de base est d’estimer une espérance mathématique par une moyenne empirique, une variance
par une variance empirique, etc...
Si le paramètre à estimer est l’espérance de la loi de Xi , alors on peut l’estimer par la
moyenne empirique de l’échantillon. Autrement dit, si = E(X), alors l’estimateur de par
P
la méthode des moments (EM M ) est bn = n1 ni=1 xi .
Plus généralement, pour 2 , si E( ) = '( ), où ' est une fonction inversible, alors
Ce principe peut naturellement se généraliser aux moment de tous ordres, centrés ou non
centrés : E((X E(X))k ) et E(X k ); k 1.
7
CHAPITRE 2. MÉTHODES D’ESTIMATIONS CLASSIQUES 8
X
n
l( ) = log(L(x= ) = log(f (xi j ) dans le cas d’un plan complet (2.2)
i=1
" #
n! X
k
l( ) = log f (xi ) + (n k) log(1 F (xm ) dans le cas de données censurées de typeII
(n k)! i=1
:
X
n
5 l= 5 log(f (xi j )) = 0 (2.3)
i=1
Il est noter qu’une solution ^ trouvée peut ne pas représenter un vrai maximum global.
Elle peut représenter un maximum ou un minimum local ou encore un point d’in‡exion de
la fonction l( ) . Une véri…cation de chaque solution trouvée est nécessaire pour s’assurer
qu’il s’agit d’un vrai maximum, ou un calcul des dérivées secondes peut con…rmer la nature
de l’optimum trouvé.
peut pas être analytiquement résolue, il faut avoir recours à des méthodes itératives comme
la méthode de Newton Raphson, la méthode des scores ou encore l’algorithme Expectation-
Maximization pour essayer de trouver un maximum de la fonction de vraisemblance, ce qui
n’est pas toujours faisable.
Un estimateur Tn de sera un bon estimateur s’il est su¢ samment proche, en un certain
sens de . Il faut donc dé…nir une mesure de l’écart entre et Tn . On appelle cette mesure le
risque de l’estimateur. On a intérêt à ce que le risque de l’estimateur soit le plus petit possible.
Par exemple, les risques Tn , jTn j, (Tn )2 expriment bien l’écart entre Tn et .
Mais comme il est plus facile d’utiliser des quantités déterministes que les quantités aléa-
toires, on s’intéresse en priorité aux espérances des quantités précédentes. En particulier :
Le biais mesure une erreur systématique d’estimation de par Tn . Par exemple, si E(Tn )
< 0, cela signi…e que Tn aura tendance à sous-estimer .
L’erreur quadratique moyenne s’écrit :
= var(Tn ) + E[E(Tn ) ]2
Si Tn est un estimateur sans biais, EQM (Tn ) = var(Tn ). On a donc intérêt à ce qu’un
estimateur soit sans biais et de faible variance. Par ailleurs, on en déduit immédiatement
que de deux estimateurs, le meilleur est celui qui a la plus petite variance.
Chapitre 3
L approche Bayesienne
Ayant un a priori sur le paramètre, modélisé par une densité de probabilité que nous
noterons ( ), loi a priori sur ; on "réactualise" cet a priori au vu de l’observation en
calculant la densité a posteriori ( jx), et c’est à partir de cette loi que l’on mène l’inférence.
On peut alors, par exemple, de manière intuitive pour le moment retenir l’espérance mathé-
matique ou encore le mode de cette densité a posteriori comme l’estimateur de .
Le paramètre devient donc en quelque sorte une variable aléatoire, à laquelle on associe
une loi de probabilité dite loi a priori.
On sent bien d’emblée que les estimateurs bayésiens sont très dépendants du choix de la loi
a priori.
Di¤érentes méthodes existent pour déterminer ces lois a priori. On peut se référer à des tech-
niques bayésiennes empiriques, où l’on construit la loi a priori sur la base d’une expérience
passée, usant de méthodes fréquentistes, pour obtenir formes et valeurs des paramètres pour
cette loi. Nous verrons que l’on peut aussi modéliser l’absence d’information sur le paramètre
au moyen des lois dites non informative (Voir Christian Robert).
12
CHAPITRE 3. L APPROCHE BAYESIENNE 13
Le problème très général auquel on s’intéresse ici est celui d’un individu plongé dans un
environnement donné (nature) et qui, sur la base d’observations, est conduit à mener des
actions et à prendre des décisions qui auront un coût.
Les espaces intervenant dans l’écriture d’un modèle de décision sont :
X : l’espace des observations.
: l’espace des états de la nature (l’espace des paramètres dans le cas d’un problème sta-
tistique)
A : l’espace des actions ou décisions, dont les évènements sont des images de l’observation
par une application appelée règle de décision (une statistique (i.e fonction des observations)
dans le cas d’un problème statistique )
D : l’ensemble des règles de décisions , applications de X dans A (les estimateurs possibles).
On note a une action. On a a = (x).
L’inférence consiste à choisir une règle de décision 2 D concernant 2 sur la base d’une
observation x 2 X , x et étant liés par la loi f (xj ).
C’est la loi conditionnelle de sachant x. Sa densité est notée ( jx). En vertu de la formule
de Bayes, on a :
f (x j ) ( )
( jx) = Z (3.1)
f (x j ) ( ) d
h( ; x) = f (x j ) ( )
.
CHAPITRE 3. L APPROCHE BAYESIENNE 14
Z
m( ; x) = f (x j ) ( ) d
f
L’estimateur bayésien de noté B sous une fonction de perte quadratique n’est autre
que l’espérance de par rapport à la densité a posteriori.
Formellement, on a :
Z R
f f (x j ) ( )
B = E [ =x] = ( jx) d = Z (3.2)
f (x j ) ( ) d
h i2
R(^B ) = V ar(^B ) + biais(^B )
L’approche Bayésienne fait reposer la règle de préférence sur le risque de Bayes. La densité
a priori ( ) etant …xée, le risque de Bayes de ^B est notée r(^B ). Il est dé…ni comme suit :
Z
r(^B ) = E[R(^)] = R(^B ) ( =x) d
On dira que ^1 est meilleur que ^2 au sens du risque de Bayes, si r(^1 ) < r( ^2 ).
La famille G ={toutes les distributions} est conjuguée trivialement par rapport à toutes
fonction de vraisemblance. Dans la pratique, on essaie de trouver des petits ensembles G qui
sont spéci…ques à la probabilité Lx ( ).
Avant d’étudier les distributions a priori conjuguées, on note qu’il su¢ t d’étudier conjugaison
pour un membre Xi d’un échantillon aléatoire X1:n . En e¤et, si l’a priori est conjuguée,
la partie a posteriori après avoir observé la première observation, est par dé…nition, du
même type de sert de nouvelle distribution a posteriori, incorporant désormais la deuxième
observation, n’est à niveau dans une classe conjuguée,... etc.
Seulement les paramètres de la distribution changeront dans un tel traitement séquentiel des
données.
Le tableau suivant donne quelques exemples des distributions a priori avec la fonction de
vraisemblance correspondante :
CHAPITRE 3. L APPROCHE BAYESIENNE 16
Une loi non informative est une loi qui porte une information sur le paramètre à estimer
dont le poids dans l’inférence est réduit. Certains auteurs la dé…nissent également comme
une loi a priori qui ne contient aucune information sur ou encore comme une loi qui ne
donne pas davantage de poids à telle ou telle valeur du paramètre. Par exemple, supposons
un ensemble …ni de taille q, une loi a priori non informative pourra être une loi de la
forme : P ( i ) = 1q ; i = 1; :::q
Une méthode proposée par Je¤reys (1961) permet de fabriquer des lois a priori non
informative. Cette méthode utilise l’information de Fischer : I( ). L’argument pourrait être
le suivant. I( ) représente une mesure de la quantité d’information sur contenue dans
l’observation. Plus I( ) est grande, plus l’observation apporte de l’information. Il semble
alors naturel de favoriser (au sens rendre plus probable suivant ( )), les valeurs de pour
lesquels I( ) est grande ; ce qui minimise l’in‡uence de la loi a priori au pro…t de l’observation.
Le choix de ce type de loi conduit ainsi souvent à des estimateurs classiques du type maximum
de vraisemblance. La règle de Je¤reys consiste donc à considérer des lois a priori de la forme :
p @2
( )=C I( ) ou I( ) = E log f (x j ) (3.3)
@ 2