Vous êtes sur la page 1sur 17

Théorie Bayesienne de la décision

Alain Rakotomamonjy - Gilles Gasso

.
INSA Rouen -Département ASI
Laboratoire LITIS

Théorie Bayesienne de la décision – p. 1/17


Introduction par l’exemple

On cherche à savoir si un pixel vient de la zone 1 (sombre) ou de la zone 2 (clair)


avec le moins d’erreur possible.

• Que faire sans information ?

• Que faire si on a l’information de luminance d’un point ?

Si on a aucune information a priori,


affecter un pixel à la zone 1 permet de
50
minimiser l’erreur.
100

150

200

250
50 100 150 200 250

Théorie Bayesienne de la décision – p. 2/17


Introduction par l’exemple

• On a l’information de luminance x. v.a de loi pX (x)

• Probabilité conditionnelle de x : p(x/C1 ) et p(x/C2 )

• Probabilité a priori de la classe Ck : Pr(Ck )

• On affecte x à la classe de plus forte probabilité a posteriori Pr(Ck /x).


Densité de probabilité conditionnelle de la luminance en fonction de la source Densité de probabilité a posteriori de la source en fonction de la luminance
0.03 1

p(x|C ) p(C |x)


1 0.9 1
p(x|C ) p(C2|x)
0.025 2
0.8
p(x)
0.7
0.02

0.6

0.015 0.5

0.4
0.01
0.3

0.005 0.2

0.1

0
0 50 100 150 200 250 0
0 50 100 150 200 250

pX (x) = p(x/C1 )Pr(C1 ) + p(x/C2 )Pr(C2 )

Théorie Bayesienne de la décision – p. 3/17


Objectifs

• On observe un ensemble de caractéristiques décrivant une entité

• On suppose qu’une entité provient d’une source (ou classe) donnée

• On réalise une action en fonction de l’observation des caractéristiques

• Sachant que chaque action a un certain coût en fonction de la source émettant la


caractéristique observée, l’objectif est de :

Trouver une règle qui minimise un coût moyen, définissant quelle action effectuer
en fonction de l’entité observée

Théorie Bayesienne de la décision – p. 4/17


Définitions et Notations
• Ensemble des classes {C1 , · · · , CK } de loi a priori pour chaque classe Pr(Ck )

• Espace des caractéristiques X , typiquement X = Rd

• Loi a posteriori Pr(C = Ck /X = x)

• Probabilité conditionnelle de x en fonction d’une classe Ck : p(x/CK )

• Probabilité inconditionnelle de x : pX (x) = PK


k=1 p(x/Ck )Pr(Ck )

• Ensemble des actions A = {a1 , · · · , am }


Typiquement, les actions consistent à affecter une classe à une observation
donnée et donc le nombre d’actions est égal au nombre de classes.

• Coût ℓjk = ℓ(aj , Ck ) associé à l’action aj sachant que l’observation est issue de
Ck .

Théorie Bayesienne de la décision – p. 5/17


Formalisation du problème

On cherche une règle de décision D

X −→ A
D:
x 7−→ aj

optimale au sens d’un risque moyen défini comme suit.


• Risque conditionnel associé à l’action aj après l’observation de x

K
X
R(aj |x) = ℓjk Pr(Ck /x)
k=1

• Risque moyen
Z
Rmoy = R(D(x)|x)pX (x)dx

Théorie Bayesienne de la décision – p. 6/17


Formalisation du problème (2)

La règle de Bayes est la règle de décision qui minimise le risque moyen :

DBayes (x) = argminD Rmoy

En fait, la règle de Bayes est celle qui minimise les risques conditionnels :

DBayes (x) = argminj=1···m R(aj |x)

Ainsi, cette règle consiste à choisir l’action ar si

K
X K
X
ℓrk Pr(Ck /x) < ℓjk Pr(Ck /x) ∀j (∀ action aj )
k=1 k=1

Le risque minimum R∗ associé à la règle de Bayes est appelé risque de Bayes et


est la meilleure performance possible.

Théorie Bayesienne de la décision – p. 7/17


Cas de la discrimination 2 classes

Les observations sont émises par 2 classes C1 et C2 et les actions consistent à


affecter une observation x à C1 ou C2 (respectivement action a1 et a2 ).
La règle de Bayes consiste à choisir l’action a1 si

ℓ11 Pr(C1 /x) + ℓ12 Pr(C2 /x) < ℓ21 Pr(C1 /x) + ℓ22 Pr(C2 /x)
(ℓ11 − ℓ21 )p(x/C1 )Pr(C1 ) < (ℓ22 − ℓ12 )p(x/C2 )Pr(C2 )

soit : (
a1 si L(x) ≥ η
D(x) =
a2 si L(x) < η
 
p(x/C1 ) (ℓ12 −ℓ22 )Pr(C2 )
avec L(x) = p(x/C2 )
et η = (ℓ21 −ℓ11 )Pr(C1 )
et ℓ21 > ℓ11

• Remarque : il est normal que le coût ℓjk (j 6= k) lié à une erreur soit supérieur
au coût lié à une bonne décision ℓjj

• L est appelé rapport de vraisemblance

Théorie Bayesienne de la décision – p. 8/17


Classifieur binaire à minimum d’erreur

Dans ce cadre, on fixe les coûts à :


(
0 si j=k (bonne décision)
ℓjk :
1 si j 6= k (mauvaise décision)

Ainsi, le risque conditionnel lié à aj est :

K
X
R(aj |x) = ℓjk Pr(Ck /x)
k=1
X
= ℓjk Pr(Ck /x)
j6=k
K
X
= 1 − Pr(Ck /x) car Pr(Ck /x) = 1
k=1

Le risque minimal est donc obtenu par maximisation de la probabilité a posteriori

Théorie Bayesienne de la décision – p. 9/17


Classifieur binaire à minimum d’erreur

En supposant que les classes sont codées en {0, 1} et que les lois a priori suivent
une loi de Bernouilli, la probabilité a posteriori d’une classe est r(x) = Pr(C1 /x),
alors la règle de Bayes devient :
(
1
0 si r(x) > 2
DBayes (x) :
1 si sinon

1
p(x|C1) La figure décrit les probabilités condi-
p(x|C )
0.9 2
p(C1|x)
p(C2|x)
tionnelles et les lois a posteriori pour
0.8
un coût 0-1.
0.7

0.6

0.5

0.4

0.3

0.2

0.1

0
0 50 100 150 200 250

Théorie Bayesienne de la décision – p. 10/17


Rejet d’ambiguité(1)

Si l’observation est ambigue, au lieu d’affecter cette observation à une classe ou


une autre, on réalise une action appelée rejet qui consiste donc à ne pas décider
entre les classes. Dans le cas binaire, on a les risques conditionnels suivants :

R(a1 |x) = ℓ11 Pr(C1 /x) + ℓ12 Pr(C2 /x)


R(a2 |x) = ℓ21 Pr(C1 /x) + ℓ22 Pr(C2 /x)
R(a3 |x) = ℓ31 Pr(C1 /x) + ℓ32 Pr(C2 /x) (a3 est l’action de rejet)

Dans un cas à coût 0-1 et coût de rejet α, les risques et la règle de decision
deviennent :

R(a1 |x) = Pr(C2 /x)


R(a2 |x) = Pr(C1 /x)
R(a3 |x) = α

Théorie Bayesienne de la décision – p. 11/17


Rejet d’ambiguité(2)

La règle de Bayes devient :



 a1
 si Pr(C1 /x) > Pr(C2 /x) et Pr(C1 /x) > 1 − α
DBayes (x) : a2 si Pr(C2 /x) > Pr(C1 /x) et Pr(C2 /x) > 1 − α

 a
3 sinon

1
Densité de probabilité et seuil de decision dans le cas de rejet

p(x|C1)
La figure décrit les probabilités condi-
0.9
p(x|C )
2
p(C1|x)
tionnelles et les lois a posteriori pour
0.8
p(C2|x)
un coût 0-1. Les droites vertes verti-
0.7 cales indiquent le seuil de luminance
0.6 pour les classes et les zones de rejet
0.5 Comportement du rejet :
0.4

0.3 α = 0 −→ 100% rejet


0.2
α = 1/2 −→ 0% rejet
0.1

0
0 50 100 150 200 250

Théorie Bayesienne de la décision – p. 12/17


Etude du cas de classes gaussiennes

Pour un coût 0 − 1, la fonction de discrimination affecte x à la classe Cj si

Pr(Cj /x) ≥ Pr(Ck /x) ∀k 6= j


 
Dans le cas gaussien, étudier gj (x) = ln Pr(Cj /x)pX (x) = ln p(x/Cj )Pr(Cj )
permet de simplifier les calculs.

gj (x) = ln p(x/Cj ) + ln Pr(Cj )


1 d 1
= − (x − µj )t Σ−1
j (x − µj ) − ln 2π − ln|Σj |) + ln Pr(Cj )
2 2 2

Analyse linéaire discriminante (LDA)


Si on suppose que les matrices de covariance Σj sont identiques et valent Σ, on
peut simplifier gj (x) grâce aux termes constants en fonction de j

gj (x) = wj⊤ x + wjo + Cte

avec w = Σ−1 µj et wjo = 12 µ⊤


j Σ
−1
µj + ln Pr(Cj )
Théorie Bayesienne de la décision – p. 13/17
Etude du cas de classes gaussiennes

Analyse linéaire discriminante (LDA)


La règle de décision devient donc : x est affecté à la classe Cj si

gj (x) = wj⊤ x + wjo ≥ gk (x) = wk⊤ x + wko ∀k 6= j

Ainsi, la frontière de décision dans un problème à deux classes est un hyperplan


d’équation :
w⊤ (x − x0 ) = 0

ln[Pr(Cj )/Pr(Ck )]
avec w = Σ−1 (µj − µk ) et x0 = 21 (µj + µk ) − (µ
(µj −µk )⊤ Σ−1 (µj −µk ) j
− µk )

Exemple de 2 classes gaussiennes et la frontière de Décision Exemple de 2 classes gaussiennes et la frontière de Décision
8 8

6 6

4 4

2 2

0 0

−2 −2

−4 −4

−6 −6

−8 −8
−4 −3 −2 −1 0 1 2 3 4 5 6 −8 −6 −4 −2 0 2 4 6 8

Théorie Bayesienne de la décision – p. 14/17


Etude du cas de classes gaussiennes

Analyse discriminante quadratique (QDA)


Dans le cas général où Σ est différent pour chaque classe, on a :

gj (x) = x⊤ Wj x + wj⊤ x + wjo

avec Wj = 21 Σ−1
j , wj = Σ −1
j µj et wjo = 1 ⊤ −1
2 µj Σj µj −
1
2 ln |Σj | + ln Pr(Cj )

Pour un problème à 2 classes, la fonction de décision est une hyperquadrique et


elle peut prendre différentes formes : hyperplan, hyperspheres, hyperellipsoide...

Exemple de 2 classes gaussiennes et la frontière de Décision Exemple de 2 classes gaussiennes et la frontière de Décision
6 6

4 4

2 2

0 0

−2 −2

−4 −4

−6 −6
−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6

Théorie Bayesienne de la décision – p. 15/17


Stratégies d’estimation

La théorie bayesienne de la décision propose un cadre formel pour la


discrimination et propose un classifieur minimisant un risque.
Mise en oeuvre pratique

• Estimer les probabilités conditionnelles p(x/Ck ) et les probabilités a priori


Pr(Ck ) pour k = 1, · · · , K

• Estimer directement les probabilités a posteriori Pr(Ck /x)

• Estimer la règle de décision souvent comme étant le signe d’une fonction de


discrimination g

Théorie Bayesienne de la décision – p. 16/17


Stratégies d’estimation

Cas de classes gaussiennes


• Cas LDA : les paramètres de chaque classe Ck et la matrice Σ sont estimés de la
façon suivante

PN
i∈Ck xi
µk = avec Nk = card(Ck )
Nk
Nk
Pr(Ck ) =
N
PK PN ⊤
k=1 i∈Ck (xi − µk )(xi − µk )
Σ =
N −K

• Cas QDA : on estime la matrice de variance-covariance pour chaque Ck par

PN
i∈Ck (xi − µk )(xi − µk )⊤
Σk =
N −1

L’estimation de la probabilité a priori et de µk est similaire au cas précédent


Théorie Bayesienne de la décision – p. 17/17

Vous aimerez peut-être aussi