Bayesdec

Théorie Bayesienne de la décision
Alain Rakotomamonjy - Gilles Gasso
.
INSA Rouen -Département ASI
Laboratoire LITIS
Théorie Bayesienne de la décision – p. 1/17

Introduction par l’exemple
On cherche à savoir si un pixel vient de la zone 1 (sombre) ou de la zone 2 (clair)

avec le moins d’erreur possible.
• Que faire sans information ?
• Que faire si on a l’information de luminance d’un point ?
Si on a aucune information a priori,

affecter un pixel à la zone 1 permet de
50
minimiser l’erreur.
100
150
200
250
50 100 150 200 250

Introduction par l’exemple
• On a l’information de luminance x. v.a de loi pX (x)
• Probabilité conditionnelle de x : p(x/C1 ) et p(x/C2 )
• Probabilité a priori de la classe Ck : Pr(Ck )
• On affecte x à la classe de plus forte probabilité a posteriori Pr(Ck /x).

Densité de probabilité conditionnelle de la luminance en fonction de la source Densité de probabilité a posteriori de la source en fonction de la luminance
0.03 1
p(x|C ) p(C |x)

1 0.9 1
p(x|C ) p(C2|x)
0.025 2
0.8
p(x)
0.7
0.02
0.6
0.015 0.5
0.4
0.01
0.3
0.005 0.2
0.1
0
0 50 100 150 200 250 0
0 50 100 150 200 250
pX (x) = p(x/C1 )Pr(C1 ) + p(x/C2 )Pr(C2 )

Objectifs
• On observe un ensemble de caractéristiques décrivant une entité
• On suppose qu’une entité provient d’une source (ou classe) donnée
• On réalise une action en fonction de l’observation des caractéristiques
• Sachant que chaque action a un certain coût en fonction de la source émettant la

caractéristique observée, l’objectif est de :
Trouver une règle qui minimise un coût moyen, définissant quelle action effectuer
en fonction de l’entité observée

Définitions et Notations
• Ensemble des classes {C1 , · · · , CK } de loi a priori pour chaque classe Pr(Ck )
• Espace des caractéristiques X , typiquement X = Rd
• Loi a posteriori Pr(C = Ck /X = x)
• Probabilité conditionnelle de x en fonction d’une classe Ck : p(x/CK )
• Probabilité inconditionnelle de x : pX (x) = PK

k=1 p(x/Ck )Pr(Ck )
• Ensemble des actions A = {a1 , · · · , am }

Typiquement, les actions consistent à affecter une classe à une observation
donnée et donc le nombre d’actions est égal au nombre de classes.
• Coût ℓjk = ℓ(aj , Ck ) associé à l’action aj sachant que l’observation est issue de
Ck .

Formalisation du problème
On cherche une règle de décision D
X −→ A
D:
x 7−→ aj
optimale au sens d’un risque moyen défini comme suit.

• Risque conditionnel associé à l’action aj après l’observation de x
K
X
R(aj |x) = ℓjk Pr(Ck /x)
k=1
• Risque moyen
Z
Rmoy = R(D(x)|x)pX (x)dx

Formalisation du problème (2)
La règle de Bayes est la règle de décision qui minimise le risque moyen :
DBayes (x) = argminD Rmoy
En fait, la règle de Bayes est celle qui minimise les risques conditionnels :
DBayes (x) = argminj=1···m R(aj |x)
Ainsi, cette règle consiste à choisir l’action ar si
K
X K
X
ℓrk Pr(Ck /x) < ℓjk Pr(Ck /x) ∀j (∀ action aj )
k=1 k=1
Le risque minimum R∗ associé à la règle de Bayes est appelé risque de Bayes et

est la meilleure performance possible.

Cas de la discrimination 2 classes
Les observations sont émises par 2 classes C1 et C2 et les actions consistent à

affecter une observation x à C1 ou C2 (respectivement action a1 et a2 ).
La règle de Bayes consiste à choisir l’action a1 si
ℓ11 Pr(C1 /x) + ℓ12 Pr(C2 /x) < ℓ21 Pr(C1 /x) + ℓ22 Pr(C2 /x)
(ℓ11 − ℓ21 )p(x/C1 )Pr(C1 ) < (ℓ22 − ℓ12 )p(x/C2 )Pr(C2 )
soit : (
a1 si L(x) ≥ η
D(x) =
a2 si L(x) < η

p(x/C1 ) (ℓ12 −ℓ22 )Pr(C2 )
avec L(x) = p(x/C2 )
et η = (ℓ21 −ℓ11 )Pr(C1 )
et ℓ21 > ℓ11
• Remarque : il est normal que le coût ℓjk (j 6= k) lié à une erreur soit supérieur
au coût lié à une bonne décision ℓjj
• L est appelé rapport de vraisemblance

Classifieur binaire à minimum d’erreur
Dans ce cadre, on fixe les coûts à :

(
0 si j=k (bonne décision)
ℓjk :
1 si j 6= k (mauvaise décision)
Ainsi, le risque conditionnel lié à aj est :
K
X
R(aj |x) = ℓjk Pr(Ck /x)
k=1
X
= ℓjk Pr(Ck /x)
j6=k
K
X
= 1 − Pr(Ck /x) car Pr(Ck /x) = 1
k=1
Le risque minimal est donc obtenu par maximisation de la probabilité a posteriori

Classifieur binaire à minimum d’erreur
En supposant que les classes sont codées en {0, 1} et que les lois a priori suivent
une loi de Bernouilli, la probabilité a posteriori d’une classe est r(x) = Pr(C1 /x),
alors la règle de Bayes devient :
(
1
0 si r(x) > 2
DBayes (x) :
1 si sinon
1
p(x|C1) La figure décrit les probabilités condi-
p(x|C )
0.9 2
p(C1|x)
p(C2|x)
tionnelles et les lois a posteriori pour
0.8
un coût 0-1.
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 50 100 150 200 250

Rejet d’ambiguité(1)
Si l’observation est ambigue, au lieu d’affecter cette observation à une classe ou

une autre, on réalise une action appelée rejet qui consiste donc à ne pas décider
entre les classes. Dans le cas binaire, on a les risques conditionnels suivants :
R(a1 |x) = ℓ11 Pr(C1 /x) + ℓ12 Pr(C2 /x)

R(a2 |x) = ℓ21 Pr(C1 /x) + ℓ22 Pr(C2 /x)
R(a3 |x) = ℓ31 Pr(C1 /x) + ℓ32 Pr(C2 /x) (a3 est l’action de rejet)
Dans un cas à coût 0-1 et coût de rejet α, les risques et la règle de decision
deviennent :
R(a1 |x) = Pr(C2 /x)

R(a2 |x) = Pr(C1 /x)
R(a3 |x) = α

Rejet d’ambiguité(2)
La règle de Bayes devient :


 a1
 si Pr(C1 /x) > Pr(C2 /x) et Pr(C1 /x) > 1 − α
DBayes (x) : a2 si Pr(C2 /x) > Pr(C1 /x) et Pr(C2 /x) > 1 − α

 a
3 sinon
1
Densité de probabilité et seuil de decision dans le cas de rejet
p(x|C1)
La figure décrit les probabilités condi-
0.9
p(x|C )
2
p(C1|x)
tionnelles et les lois a posteriori pour
0.8
p(C2|x)
un coût 0-1. Les droites vertes verti-
0.7 cales indiquent le seuil de luminance
0.6 pour les classes et les zones de rejet
0.5 Comportement du rejet :
0.4
0.3 α = 0 −→ 100% rejet

0.2
α = 1/2 −→ 0% rejet
0.1
0
0 50 100 150 200 250

Etude du cas de classes gaussiennes
Pour un coût 0 − 1, la fonction de discrimination affecte x à la classe Cj si
Pr(Cj /x) ≥ Pr(Ck /x) ∀k 6= j

Dans le cas gaussien, étudier gj (x) = ln Pr(Cj /x)pX (x) = ln p(x/Cj )Pr(Cj )
permet de simplifier les calculs.
gj (x) = ln p(x/Cj ) + ln Pr(Cj )

1 d 1
= − (x − µj )t Σ−1
j (x − µj ) − ln 2π − ln|Σj |) + ln Pr(Cj )
2 2 2
Analyse linéaire discriminante (LDA)

Si on suppose que les matrices de covariance Σj sont identiques et valent Σ, on
peut simplifier gj (x) grâce aux termes constants en fonction de j
gj (x) = wj⊤ x + wjo + Cte
avec w = Σ−1 µj et wjo = 12 µ⊤

j Σ
−1
µj + ln Pr(Cj )
Analyse linéaire discriminante (LDA)

La règle de décision devient donc : x est affecté à la classe Cj si
gj (x) = wj⊤ x + wjo ≥ gk (x) = wk⊤ x + wko ∀k 6= j
Ainsi, la frontière de décision dans un problème à deux classes est un hyperplan

d’équation :
w⊤ (x − x0 ) = 0
ln[Pr(Cj )/Pr(Ck )]
avec w = Σ−1 (µj − µk ) et x0 = 21 (µj + µk ) − (µ
(µj −µk )⊤ Σ−1 (µj −µk ) j
− µk )
Exemple de 2 classes gaussiennes et la frontière de Décision Exemple de 2 classes gaussiennes et la frontière de Décision
8 8
6 6
4 4
2 2
0 0
−2 −2
−4 −4
−6 −6
−8 −8
−4 −3 −2 −1 0 1 2 3 4 5 6 −8 −6 −4 −2 0 2 4 6 8

Analyse discriminante quadratique (QDA)

Dans le cas général où Σ est différent pour chaque classe, on a :
gj (x) = x⊤ Wj x + wj⊤ x + wjo
avec Wj = 21 Σ−1
j , wj = Σ −1
j µj et wjo = 1 ⊤ −1
2 µj Σj µj −
1
2 ln |Σj | + ln Pr(Cj )
Pour un problème à 2 classes, la fonction de décision est une hyperquadrique et

elle peut prendre différentes formes : hyperplan, hyperspheres, hyperellipsoide...
Exemple de 2 classes gaussiennes et la frontière de Décision Exemple de 2 classes gaussiennes et la frontière de Décision
6 6
4 4
2 2
0 0
−2 −2
−4 −4
−6 −6
−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6

Stratégies d’estimation
La théorie bayesienne de la décision propose un cadre formel pour la

discrimination et propose un classifieur minimisant un risque.
Mise en oeuvre pratique
• Estimer les probabilités conditionnelles p(x/Ck ) et les probabilités a priori

Pr(Ck ) pour k = 1, · · · , K
• Estimer directement les probabilités a posteriori Pr(Ck /x)
• Estimer la règle de décision souvent comme étant le signe d’une fonction de

discrimination g

Stratégies d’estimation
Cas de classes gaussiennes

• Cas LDA : les paramètres de chaque classe Ck et la matrice Σ sont estimés de la
façon suivante
PN
i∈Ck xi
µk = avec Nk = card(Ck )
Nk
Nk
Pr(Ck ) =
N
PK PN ⊤
k=1 i∈Ck (xi − µk )(xi − µk )
Σ =
N −K
• Cas QDA : on estime la matrice de variance-covariance pour chaque Ck par
PN
i∈Ck (xi − µk )(xi − µk )⊤
Σk =
N −1
L’estimation de la probabilité a priori et de µk est similaire au cas précédent


Bayesdec

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Bayesdec

Transféré par

Droits d'auteur :

Formats disponibles

Théorie Bayesienne de la décision

Alain Rakotomamonjy - Gilles Gasso

Théorie Bayesienne de la décision – p. 1/17

On cherche à savoir si un pixel vient de la zone 1 (sombre) ou de la zone 2 (clair)

• Que faire sans information ?

• Que faire si on a l’information de luminance d’un point ?

Si on a aucune information a priori,

Théorie Bayesienne de la décision – p. 2/17

• On a l’information de luminance x. v.a de loi pX (x)

• Probabilité conditionnelle de x : p(x/C1 ) et p(x/C2 )

• Probabilité a priori de la classe Ck : Pr(Ck )

• On affecte x à la classe de plus forte probabilité a posteriori Pr(Ck /x).

p(x|C ) p(C |x)

pX (x) = p(x/C1 )Pr(C1 ) + p(x/C2 )Pr(C2 )

Théorie Bayesienne de la décision – p. 3/17

• On observe un ensemble de caractéristiques décrivant une entité

• On suppose qu’une entité provient d’une source (ou classe) donnée

• On réalise une action en fonction de l’observation des caractéristiques

• Sachant que chaque action a un certain coût en fonction de la source émettant la

Théorie Bayesienne de la décision – p. 4/17

• Espace des caractéristiques X , typiquement X = Rd

• Loi a posteriori Pr(C = Ck /X = x)

• Probabilité conditionnelle de x en fonction d’une classe Ck : p(x/CK )

• Probabilité inconditionnelle de x : pX (x) = PK

• Ensemble des actions A = {a1 , · · · , am }

Théorie Bayesienne de la décision – p. 5/17

On cherche une règle de décision D

optimale au sens d’un risque moyen défini comme suit.

Théorie Bayesienne de la décision – p. 6/17

La règle de Bayes est la règle de décision qui minimise le risque moyen :

DBayes (x) = argminD Rmoy

DBayes (x) = argminj=1···m R(aj |x)

Ainsi, cette règle consiste à choisir l’action ar si

Le risque minimum R∗ associé à la règle de Bayes est appelé risque de Bayes et

Théorie Bayesienne de la décision – p. 7/17

Les observations sont émises par 2 classes C1 et C2 et les actions consistent à

• L est appelé rapport de vraisemblance

Théorie Bayesienne de la décision – p. 8/17

Dans ce cadre, on fixe les coûts à :

Ainsi, le risque conditionnel lié à aj est :

Le risque minimal est donc obtenu par maximisation de la probabilité a posteriori

Théorie Bayesienne de la décision – p. 9/17

Théorie Bayesienne de la décision – p. 10/17

Si l’observation est ambigue, au lieu d’affecter cette observation à une classe ou

R(a1 |x) = ℓ11 Pr(C1 /x) + ℓ12 Pr(C2 /x)

R(a1 |x) = Pr(C2 /x)

Théorie Bayesienne de la décision – p. 11/17

La règle de Bayes devient :

0.3 α = 0 −→ 100% rejet

Théorie Bayesienne de la décision – p. 12/17

Pour un coût 0 − 1, la fonction de discrimination affecte x à la classe Cj si

Pr(Cj /x) ≥ Pr(Ck /x) ∀k 6= j

gj (x) = ln p(x/Cj ) + ln Pr(Cj )

Analyse linéaire discriminante (LDA)

gj (x) = wj⊤ x + wjo + Cte

avec w = Σ−1 µj et wjo = 12 µ⊤

Analyse linéaire discriminante (LDA)

gj (x) = wj⊤ x + wjo ≥ gk (x) = wk⊤ x + wko ∀k 6= j

Ainsi, la frontière de décision dans un problème à deux classes est un hyperplan

Théorie Bayesienne de la décision – p. 14/17

Analyse discriminante quadratique (QDA)

gj (x) = x⊤ Wj x + wj⊤ x + wjo

Pour un problème à 2 classes, la fonction de décision est une hyperquadrique et