Vous êtes sur la page 1sur 18

Théorie de la décision

Chadli Assia
Université Badji Mokhtar Annaba

Cours Master 1 : Actuariat (Semestre 1)


Table des matières

0.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1 plans d’expériences et données censurées 3

1.0.1 Plan complet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.0.2 Plans censurés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Méthodes d’estimations classiques 7

2.1 La méthode des moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7


2.2 Approche du Maximum de Vraisemblance
8

2.3 Estimateur sans biais et de variance minimale (ESBVM) . . . . . . . . . . . 10

3 L approche Bayesienne 12

3.1 Coût et décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13


3.1.1 La loi a posteriori. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.1.2 Le risque de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.2 Choix de la distribution a priori . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.2.1 La distribution a priori conjuguée . . . . . . . . . . . . . . . . . . . . 15

3.2.2 Lois a priori non informatives . . . . . . . . . . . . . . . . . . . . . . 16

3.2.3 La règle de Je¤reys . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

i
TABLE DES MATIÈRES 1

0.1 Introduction

La statistique est un ensemble de méthodes pour prendre des décisions raisonnables en


présence d’incertitudes. En e¤et, la statistique est passée d’un problème de dénombrement
au siècle dernier à une science à part entière avec les développement de la statistique ma-
thématique et la théorie de la décision. De grands statisticiens tels Karl Pearson, Sir Roland
Aylmer Fisher et Jerzy Neyman ont échafaudé les principes fondamentaux de la statistique
mathématique ; celle-ci est devenue un outil indispensable d’aide à la prise de décision. Le
statisticien doit, au vu des observations prendre une décision. Un problème statistique com-
porte les éléments suivants : l’ensemble des observations, X , est l’ensemble de tous les points
x qui représentent tous les résultats possibles pour le phénomène étudié. Les diverses lois
étudiées, P , forment un ensemble ; ce sont des distributions de probabilité sur X . En…n,
l’ensemble D, représente, l’ensemble des décisions d possibles. Le problème posé est de choisir
une décision d; à chaque fois qu’on disposera d’observations x: Le choix d’une décision d au
vu d’une observation x induit nécessairement un coût C:
Le problème fondamental de la théorie de la décision peut être formulé comme suit :

Etant donné le triplet ( ; D; C), où : l’espace des paramètres, D l’espace des décisions
…nales , C la fonction de coût , et un élément aléatoire observable ! 2 dont la loi de
distribution P dépend du paramètre 2 . Quelle règle de décision (!) 2 D le statisticien
doit-il choisir ?
Pour discréditer entre les di¤érentes règles de décision , nous utilisons un critère appelé
fonction de risque, et est dé…nie par :

R( ; ) = E(C( ; (!)))

Cette quantité représente le cout moyen subi en choisissant (!) quand le paramètre
est inconnu.
Plusieurs approches peuvent être utilisées pour la résolution de tels problèmes de déci-
sions. Deux approches vont etre envisagées dans ce cours. L’approche classique qui consiste
à maximiser la vraisemblance, cette approche a été étudiée en graduation, on va juste en
faire un rappel et l’approche Bayesienne qui englobe l’information dont on dispose a priori,
TABLE DES MATIÈRES 2

par un retour d’expérience, sur un phénomène étudié en considérant le paramètre non pas
comme inconnu, mais comme une variable aléatoire possédant une distribution appelée loi
a priori. Cette approche consiste à combiner une distribution à priori selon un ensemble
de croyances représentatives avec les données pour obtenir une distribution à posteriori sur
laquelle on pratique l’inférence statistique.
Chapitre 1

plans d’expériences et données


censurées

1.0.1 Plan complet

Pour commencer, on va introduire la notion de plans d’expérience, en e¤et toute infé-


rence dépend des observations dont on dispose et donc d’un plan d’expérience préalablement
dé…ni. Le plus utilisé est le plan complet c’est à dire que quand dispose d’un n-échantillon
(X1 ; X2 ; ::::Xn ) d’une variable aléatoire X de loi P ;sans perte de généralité, on suppose que
X admet pour densité f (x) et pour fonction de répartition F (x) ; l’observation est menée
jusqu’à la dernière variable aléatoire X(n) où (X(1) ; X(2) ; ::::X(n) ) est la statistique d’ordre de
(X1 ; X2 ; ::::Xn ):La vraisemblance dans le cas où les données sont complètes est alors :

Y
n
L(xj ) = f (xi j ) si X est une v:a:c (1.1)
_
i=1

Y
n
= P (X = xi j ) si X est une v:a:d
i=1

Où x = (x1 ; x2 ; ::::xn ) est une réalisation de (X1 ; X2 ; ::::Xn ):


_

3
CHAPITRE 1. PLANS D’EXPÉRIENCES ET DONNÉES CENSURÉES 4

1.0.2 Plans censurés

Une des caractéristiques des données de survie est l’existence d’observations incomplètes.
En e¤et, les données sont souvent recueillies partiellement, notamment, à cause des processus
de censure et troncature. Les données censurées ou tronquées proviennent du fait qu’on n’a
pas accès à toute l’information : au lieu d’observer des réalisations indépendantes et identi-
quement distribuées (i.i.d) de durée X, on observe la réalisation de la variable X soumise à
diverses perturbations indépendantes ou non du phénomène étudié.

La censure est le phénomène le plus couramment rencontré lors du recueil des données
de survie :
Pour l’individu i, considérons :
- Son temps de survie Xi .
- Son temps de censure Ci .
- La durée réellement observée Ti .

Censure à droite

La durée de vie est dite censuré à droite si l’individu n’a pas subi l’évènement à sa dernière
observation. En présence de censure à droite, les durées de vie ne sont pas toutes observées ;
pour certaines d’entre elles, on sait seulement qu’elles sont supérieurs à une certaine valeur
connue.
Dans ce cours, on s’interesse uniquement aux censures à droite, cependant il est intéressant
de noter qu il existe plusieurs types de censures :

-Censures à gauche

-Censures aléatoires
-Censures progressives.
1- La censure de type I
Soit C une valeur …xée, au lieu d’observer les variables X1 ; :::; Xn , on observe Xi uniquement
lorsque Xi C, sinon on sait uniquement que Xi > C. On utilise la notation suivante :

1 si Xi < C
Ti = Xi ^ C = min(Xi ; C) et Di =
0 si Xi > C
CHAPITRE 1. PLANS D’EXPÉRIENCES ET DONNÉES CENSURÉES 5

Ce mécanisme de censure est fréquemment rencontré dans les applications industrielles. Par
exemple, on peut tester la durée de vie de n objets identiques (ampoules) sur un intervalle
d’observations …xé [0; C]. En biologie, on peut tester l’e¢ cacité d’une molécule sur un lot de
souris (les souris au bout d’un temps C sont sacri…ées).

La vraisemblance associée aux observations (T1 ; D1 ) ; :::; (Tn ; Dn ) possède une composante
continue et une composante discrète ; elle s’écrit :

Y
n
L(t j ) = [f (ti j )]Di [1 F (C)]1 Di
(1.2)
_
i=1

2- La censure de type II

On se place maintenant dans le cas où la date de …n d’observation n’est pas dé…nie à


l’avance, mais où l’on convient d’arrêter l’observation lors de la survenance de la rieme sortie.
La date de …n de l’expérience est donc aléatoire et est égale à X(r) :

De manière plus formelle, soit un échantillon de durées de survie (X1 ; :::; Xn ) et r > 0
…xé ; on dit qu’il y a censure de type II pour cet échantillon si au lieu d’observer directement
(X1 ; :::; Xn )

on observe (T1 ; D1 ) ; :::; (Tn ; Dn ) avec :

1 si Xi < X(r)
Ti = Xi ^ X(r) = min(Xi ; X(r) ) et Di =
0 si Xi > X(r)

La vraisemblance a une forme proche du cas de la censure de type I ; on remarque pour


l’écrire que, dans la partie discrète de la distribution, il convient de choisir les instants des

r sorties parmi les n observations. Cela conduit à écrire :

n! Y
n
L(t j ) = [f (ti j )]Di [1 F (ti )]1 Di
(1.3)
_ (n r)! i=1

n! Y
r
(n r)
= f (xi j ) 1 F x(r)
(n r)! i=1

Exemple
CHAPITRE 1. PLANS D’EXPÉRIENCES ET DONNÉES CENSURÉES 6

Cas de données censurées de typeI

On considère donc maintenant le cas où la distribution sous-jacente est exponentielle


de paramètre ; c’est à dire qu’on considère un n-échantillon (X1 ; :::; Xn ) tiré d’une loi
exponentielle de densité f (x) = exp ( x) et de fonction de répartition F (x) = 1
P
n
exp ( x) : on pose R = Di le nombre de décès observés sur [0; C] ; La vraisemblance
i=1

s’écrit donc :

Y
n
L(xj ) = [f (xi j )]Di [1 F (C)]1 Di
_
i=1

Y
R
P
R
R
= [ exp ( xi )] exp ( (n R) C) = exp xi + (n R) C
i=1 i=1

Cas de données censurées de typeII

Dans ce cas ; la vraisemblance s’écrit alors :

n! Y
r
(n r) n! P
r
r
L(xj ) = f (xi j ) 1 F x(r) = exp xi + (n r) xr
_ (n r)! i=1
(n r)! i=1

Cas de données complètes

La vraisemblance est alors

Y
n
P
n
n
L(xj ) = f (xi j ) = exp xi
_ i=1
i=1

Remarque 1 Il existe d’autres types de censures qui ne seront pas abordés dans ce cours.
On peut citer les censures à gauche, les censures aléatoires et les censures progressives.
Chapitre 2

Méthodes d’estimations classiques

2.1 La méthode des moments

C’est la méthode la plus naturelle, que nous avons déjà utilisée sans la formaliser. L’idée
de base est d’estimer une espérance mathématique par une moyenne empirique, une variance
par une variance empirique, etc...
Si le paramètre à estimer est l’espérance de la loi de Xi , alors on peut l’estimer par la
moyenne empirique de l’échantillon. Autrement dit, si = E(X), alors l’estimateur de par
P
la méthode des moments (EM M ) est bn = n1 ni=1 xi .
Plus généralement, pour 2 , si E( ) = '( ), où ' est une fonction inversible, alors

l’estimateur de par la méthode des moments est bn = ' 1 (X n ).


De la même manière, on estime la variance de la loi des Xi par la variance empirique de
P 2
l’échantillon Sn2 = n1 ni=1 Xi2 X n : Plus généralement, si la loi de deux paramètres 1 et 2
tels que (E(X); var(X)) = '( 1 ; 2 ), où ' est une fonction inversible alors les estimateurs
de 1 et 2 par la méthode des moments sont :

(b1n ; b2n ) = ' 1 (Xn ; Sn2 ): (2.1)

Ce principe peut naturellement se généraliser aux moment de tous ordres, centrés ou non
centrés : E((X E(X))k ) et E(X k ); k 1.

7
CHAPITRE 2. MÉTHODES D’ESTIMATIONS CLASSIQUES 8

2.2 Approche du Maximum de Vraisemblance

Les méthodes d’estimation du maximum de vraisemblance sont des estimations ponc-


tuelles puisqu’elles cherchent a trouver une valeur estimée ^ pour un paramétre à partir
d’un ensemble d’échantillons donnés.
Elles sont attractives pour plusieurs raisons. D’abord, elles possédent de bonnes pro-
priétes de convergence et d’é¢ cacite quand le nombre d’échantillons est trés grand. Les
estimateurs du (M V ) ont asymptotiquement la variance la plus faible parmi tous les esti-
mateurs sans biais. De plus, l’estimation par maximum de vraisemblance est plus simple
que les méthodes alternatives, telles que les méthodes bayésiennes. En e¤et, du point de vue
complexité, les méthodes de maximum de vraisemblance ne nécessitent que des techniques
de calculs di¤erentiels ou une recherche de gradient, tandis que les méthodes bayésiennes
peuvent nécessiter des intégrations multidimensionnelles complexes.

Une caractéristique majeure indésirable de l’estimation par maximum de vraisemblance,


est que ses propriétes avec des petits éhantillons peuvent être trés di¤érentes de ses propriétes
asymptotiques.

Soit X une variable aléatoire de densité de probabilité f (x j ). Soit x = fx1 ; x2 ; :::::xn g


un n-échantillon de X . Selon le plan d’expérience dans lequel on se place, on note par
L (x= ), la fonction de vraisemblance.

La méthode du maximum de vraisemblance consiste a trouver les valeurs ^ de qui


maximisent la vraisemblance L(x= ), en la considérant comme une fonction de :

^ = arg maxL(x= ) étant l’espace des paramètres.


2

Grace a la monotonie de la fonction Logarithme, ^ peut être trouvé en maximisant le lo-


garithme de la fonction de vraisemblance l( ) (appelée fonction log-vraisemblance). Cela
posséde l’avantage en calcul de remplacer un produit par une somme.
CHAPITRE 2. MÉTHODES D’ESTIMATIONS CLASSIQUES 9

X
n
l( ) = log(L(x= ) = log(f (xi j ) dans le cas d’un plan complet (2.2)
i=1
" #
n! X
k
l( ) = log f (xi ) + (n k) log(1 F (xm ) dans le cas de données censurées de typeII
(n k)! i=1
:

On peut écrire la solution sous la forme : ^M V = arg maxl( )


2

Si le paramétre est de dimension égale a p, alors le vecteur de p composantes de est :


t
= ( 1 ; :::; p) , et 5 est l’opérateur gradient.
2 @ 3
@ 1
6 : 7
5 =6 7
4 : 5 D’aprés l’équation (2:1) on a :
@
@ p

X
n
5 l= 5 log(f (xi j )) = 0 (2.3)
i=1

La solution ^ doit satisfaire la condition : 5 l = 0

Il est noter qu’une solution ^ trouvée peut ne pas représenter un vrai maximum global.
Elle peut représenter un maximum ou un minimum local ou encore un point d’in‡exion de
la fonction l( ) . Une véri…cation de chaque solution trouvée est nécessaire pour s’assurer
qu’il s’agit d’un vrai maximum, ou un calcul des dérivées secondes peut con…rmer la nature
de l’optimum trouvé.

L’estimation de maximum de vraisemblance a l’avantage de simplicité et rapidité de son


calcul si l’équation (2:3) est simple a résoudre comme par exemple dans le cas des familles
exponentielles. Le principe du maximum de vraisemblance fournit une approche d’estimation
bien connue dans le cas de distributions normales et plusieurs autres problémes. Toutefois,
dans le cas de problémes complexes, un estimateur de maximum de vraisemblance peut
devenir inapproprié ou peut méme ne pas exister. En e¤et, dans le cas ou l’équation (2:3) ne
CHAPITRE 2. MÉTHODES D’ESTIMATIONS CLASSIQUES 10

peut pas être analytiquement résolue, il faut avoir recours à des méthodes itératives comme
la méthode de Newton Raphson, la méthode des scores ou encore l’algorithme Expectation-
Maximization pour essayer de trouver un maximum de la fonction de vraisemblance, ce qui
n’est pas toujours faisable.

2.3 Estimateur sans biais et de variance minimale (ESBVM)

Un estimateur Tn de sera un bon estimateur s’il est su¢ samment proche, en un certain
sens de . Il faut donc dé…nir une mesure de l’écart entre et Tn . On appelle cette mesure le
risque de l’estimateur. On a intérêt à ce que le risque de l’estimateur soit le plus petit possible.

Par exemple, les risques Tn , jTn j, (Tn )2 expriment bien l’écart entre Tn et .
Mais comme il est plus facile d’utiliser des quantités déterministes que les quantités aléa-
toires, on s’intéresse en priorité aux espérances des quantités précédentes. En particulier :

Dé…nition 2 Le biais de Tn est E(Tn )


Le risque quadratique ou erreur quadratique moyenne est donné par :

EQM (Tn ) = E[(Tn )2 ]

Dé…nition 3 Un estimateur Tn de est sans biais si et seulement si E(Tn ) = .


Il est biaisé si et seulement si E(Tn ) 6= .

Le biais mesure une erreur systématique d’estimation de par Tn . Par exemple, si E(Tn )
< 0, cela signi…e que Tn aura tendance à sous-estimer .
L’erreur quadratique moyenne s’écrit :

EQM (Tn ) = E[(Tn )2 ] = E[(Tn E(Tn ) + E(Tn ) )2 ]

= E[(Tn E(Tn ))2 ] + 2E[Tn E(Tn )]E[E(Tn ) ] + E[(E(Tn ) )2 ]:

= var(Tn ) + E[E(Tn ) ]2

EQM (Tn )= variance de l’estimateur + carré de son biais.


CHAPITRE 2. MÉTHODES D’ESTIMATIONS CLASSIQUES 11

Si Tn est un estimateur sans biais, EQM (Tn ) = var(Tn ). On a donc intérêt à ce qu’un
estimateur soit sans biais et de faible variance. Par ailleurs, on en déduit immédiatement
que de deux estimateurs, le meilleur est celui qui a la plus petite variance.
Chapitre 3

L approche Bayesienne

L’analyse Bayésienne des problèmes statistiques propose d’introduire dans la démarche


d’inférence, l’information dont dispose a priori le praticien. Dans le cadre de la statistique pa-
ramétrique, ceci se traduira par le choix d’une loi sur le paramètre d’intérêt. Dans l’approche
classique, le modèle paramétrique est (X ; A; P ; 2 ).

Ayant un a priori sur le paramètre, modélisé par une densité de probabilité que nous
noterons ( ), loi a priori sur ; on "réactualise" cet a priori au vu de l’observation en
calculant la densité a posteriori ( jx), et c’est à partir de cette loi que l’on mène l’inférence.
On peut alors, par exemple, de manière intuitive pour le moment retenir l’espérance mathé-
matique ou encore le mode de cette densité a posteriori comme l’estimateur de .
Le paramètre devient donc en quelque sorte une variable aléatoire, à laquelle on associe
une loi de probabilité dite loi a priori.
On sent bien d’emblée que les estimateurs bayésiens sont très dépendants du choix de la loi
a priori.
Di¤érentes méthodes existent pour déterminer ces lois a priori. On peut se référer à des tech-
niques bayésiennes empiriques, où l’on construit la loi a priori sur la base d’une expérience
passée, usant de méthodes fréquentistes, pour obtenir formes et valeurs des paramètres pour
cette loi. Nous verrons que l’on peut aussi modéliser l’absence d’information sur le paramètre
au moyen des lois dites non informative (Voir Christian Robert).

12
CHAPITRE 3. L APPROCHE BAYESIENNE 13

3.1 Coût et décision

Le problème très général auquel on s’intéresse ici est celui d’un individu plongé dans un
environnement donné (nature) et qui, sur la base d’observations, est conduit à mener des
actions et à prendre des décisions qui auront un coût.
Les espaces intervenant dans l’écriture d’un modèle de décision sont :
X : l’espace des observations.
: l’espace des états de la nature (l’espace des paramètres dans le cas d’un problème sta-
tistique)
A : l’espace des actions ou décisions, dont les évènements sont des images de l’observation
par une application appelée règle de décision (une statistique (i.e fonction des observations)
dans le cas d’un problème statistique )
D : l’ensemble des règles de décisions , applications de X dans A (les estimateurs possibles).
On note a une action. On a a = (x).
L’inférence consiste à choisir une règle de décision 2 D concernant 2 sur la base d’une
observation x 2 X , x et étant liés par la loi f (xj ).

3.1.1 La loi a posteriori.

C’est la loi conditionnelle de sachant x. Sa densité est notée ( jx). En vertu de la formule
de Bayes, on a :

f (x j ) ( )
( jx) = Z (3.1)
f (x j ) ( ) d

La loi du couple ( ; X) : Sa densité est

h( ; x) = f (x j ) ( )

.
CHAPITRE 3. L APPROCHE BAYESIENNE 14

La loi marginale de X. Sa densité est :

Z
m( ; x) = f (x j ) ( ) d

f
L’estimateur bayésien de noté B sous une fonction de perte quadratique n’est autre
que l’espérance de par rapport à la densité a posteriori.

Formellement, on a :

Z R
f f (x j ) ( )
B = E [ =x] = ( jx) d = Z (3.2)
f (x j ) ( ) d

3.1.2 Le risque de Bayes

La recherche d’estimateurs de Bayes peut se faire dans le cadre de la théorie de la décision.


La démarche consiste alors a …xer une régle de préférence entre estimateurs et a chercher
un estimateur optimal au sens de cette règle de préférence. Rappelons qu’en statistique
classique la régle de préférence repose (le plus souvent) sur le risque quadratique, notée
R( ), est dé…nit comme suit :

h i2
R(^B ) = V ar(^B ) + biais(^B )

L’approche Bayésienne fait reposer la règle de préférence sur le risque de Bayes. La densité
a priori ( ) etant …xée, le risque de Bayes de ^B est notée r(^B ). Il est dé…ni comme suit :

Z
r(^B ) = E[R(^)] = R(^B ) ( =x) d

On dira que ^1 est meilleur que ^2 au sens du risque de Bayes, si r(^1 ) < r( ^2 ).

Remarque : selon la fonction de perte choisie, l’estimateur de Bayes de est


obtenu en minimisant le risque a posteriori.
CHAPITRE 3. L APPROCHE BAYESIENNE 15

3.2 Choix de la distribution a priori

L’inférence Bayésienne permet la spéci…cation probabiliste des croyances antérieures par


le biais d’une distribution préalable.
Il est souvent utile et justi…é de restreindre l’éventail des possibles distributions a priori a
une famille spéci…que avec un ou deux paramètres. Le choix de cette famille peut être basée
sur le type de fonction de vraisemblance rencontré.

3.2.1 La distribution a priori conjuguée

Une approche pragmatique de choisir une distribution a priori est de sélectionner un


membre d’une famille spéci…que de distributions telles que la distribution a posteriori ap-
partient à la même famille. Elle est appelée distribution a posteriori conjuguée.

(La distribution a priori conjuguée)


Soit L( ) = f (xj ) est la fonction de maximum de vraisemblance basée sur l’observation X =
x. La classe G des distributions est appelée conjuguée par rapport à L( ), si la distribution
a posteriori f ( jx) est dans G pour tout x

chaque fois que la distribution ( ) est dans G.

La famille G ={toutes les distributions} est conjuguée trivialement par rapport à toutes
fonction de vraisemblance. Dans la pratique, on essaie de trouver des petits ensembles G qui
sont spéci…ques à la probabilité Lx ( ).
Avant d’étudier les distributions a priori conjuguées, on note qu’il su¢ t d’étudier conjugaison
pour un membre Xi d’un échantillon aléatoire X1:n . En e¤et, si l’a priori est conjuguée,
la partie a posteriori après avoir observé la première observation, est par dé…nition, du
même type de sert de nouvelle distribution a posteriori, incorporant désormais la deuxième
observation, n’est à niveau dans une classe conjuguée,... etc.
Seulement les paramètres de la distribution changeront dans un tel traitement séquentiel des
données.
Le tableau suivant donne quelques exemples des distributions a priori avec la fonction de
vraisemblance correspondante :
CHAPITRE 3. L APPROCHE BAYESIENNE 16

La vraisemblance La distribution a priori conjuguée La distribution a posteriori


Xj Bin(n; ) Be( ; ) jx Be( + x; + n x)
Xj Geom( ) Be( ; ) jx Be( + 1; + x 1)
Xj P o(e ) / G( ; ) jx G( + x; + e)
Xj exp( ) G( ; ) jx G( + 1; + x)
Xj N ( ; 2 connu) N ( ; 2) jX N (( 12 + 12 ) 1 ( x2 + 2 ); ( 12 + 1
2 ) 1
)
Xj 2 N ( connu; 2 ) 2
IG( ; ) 2
IG( + 21 ; + 12 (x )2 )

Tab. 3.1 – Quelques distributions a priori pour di¤érentes fonctions de vraisem-


blance

3.2.2 Lois a priori non informatives

Une loi non informative est une loi qui porte une information sur le paramètre à estimer
dont le poids dans l’inférence est réduit. Certains auteurs la dé…nissent également comme
une loi a priori qui ne contient aucune information sur ou encore comme une loi qui ne
donne pas davantage de poids à telle ou telle valeur du paramètre. Par exemple, supposons
un ensemble …ni de taille q, une loi a priori non informative pourra être une loi de la
forme : P ( i ) = 1q ; i = 1; :::q

On a équiprobabilité, les valeurs possibles de se voientt attribuer le même poids.

3.2.3 La règle de Je¤reys

Une méthode proposée par Je¤reys (1961) permet de fabriquer des lois a priori non
informative. Cette méthode utilise l’information de Fischer : I( ). L’argument pourrait être
le suivant. I( ) représente une mesure de la quantité d’information sur contenue dans
l’observation. Plus I( ) est grande, plus l’observation apporte de l’information. Il semble
alors naturel de favoriser (au sens rendre plus probable suivant ( )), les valeurs de pour
lesquels I( ) est grande ; ce qui minimise l’in‡uence de la loi a priori au pro…t de l’observation.
Le choix de ce type de loi conduit ainsi souvent à des estimateurs classiques du type maximum
de vraisemblance. La règle de Je¤reys consiste donc à considérer des lois a priori de la forme :

p @2
( )=C I( ) ou I( ) = E log f (x j ) (3.3)
@ 2

Vous aimerez peut-être aussi