Vous êtes sur la page 1sur 15

Reconnaissance de Forme Statistique

James L. Crowley
Deuxime Anne ENSIMAG Troisime Bimestre 2000/2001
Sance 2 5 et 6 avril 2001
Classification Bayesienne
Plan de la sance :
La Rgle de Bayes...............................................................2
Un rappel.....................................................................................................2
Classification entre deux Catgories.................................3
Gnralisations............................................................................................4
Classification entre 2 Catgories.......................................6
Classification par Minimisation d'erreurs ........................7
Fontions de Descriminations et Surfaces de Decision ..8
Le cas de K catgories..............................................................................8
Rgions de Dcision..................................................................................9
Le cas de 2 catgories...............................................................................9
La Probabilit d'erreur...........................................................................10
La Loi normale........................................................................................11
Composantes principales.......................................................................14
Notes des Cours sur Web :
http://www-prima.imag.fr/Prima/Homepages/jlc/Courses/Courses.html
Sources :
"Statistical Pattern Recognition", K. Fukunaga, Academic Press, 1990.
"Pattern Recognition and Scene Analysis", R. E. Duda and P. E. Hart, Wiley, 1973.
Introduction la Reconnaissance de Forme Sance 2
La Rgle de Bayes
Un rappel
Soit q une proposition d'un venement.
Par axiome 2 de la dfinition des systmes de probabilits :
P(q) + P(q) = 1.
Soit deux propositions p et q.
P(p q) est la probabilit "conjointe" de p et q.
Si p et q sont mutuellement exclusifs..
P(p q) = P(p) P(q),
P(p q) = P(p) + P(q).
On peut voir a d'une manire graphique :
0
1
0
1
P(p)
P(q)
P(p)
P(q)
P(q) P(q) P(p)
P(p)
P(p)
P(p) P(q) P(q)
x x
x x
P(p q) + P(p q) + P(p q) + P(p q) = 1
oit : P(p q) = A
P(p q) = B
P(p q) = C
P(p q) = D
Dans ce cas, les probabilits marginales sont
P(p) = A + B
=
P(p q) + P(p q)
P(q) = A + C
=
P(p q) + P(p q)
2-2
Introduction la Reconnaissance de Forme Sance 2
La probabilit conditionnelle de q tant donne p s'crit P(q | p)
P(q | p) =
P(p q)
P(p)
=
A
A+B
de la mme manire :
P(p | q) =
P(p q)
P(q)
=
A
A+C
Par algbre on dduire :
P(q | p) P(p) = P(p | q) P(q)
Ceci est une forme de rgle de Bayes. On peut crire :
P(q | p) =
P(p | q) P(q)
P(p)
P(q | p) est la probabilit "conditionnelle" ou "postrieur"
Classification entre deux Catgories
Pour 2 classes w
1
et w
2
, pour une observation x
P(w
1
| x

) =
p(x | w
1
) p(w
1
)
p(x)
o p(x) = p(x | w
1
) p(w
1
) + p(x | w
2
) p(w
2
)
Soit x. Comment dcider entre w
1
et w
2
?
Une ide simple serait de chercher minimiser la probabilit d'erreur.
p(Erreur | x ) =

'

p(w
1
| x) si on decide w
2

p(w
2
| x) si on decide w
1
2-3
Introduction la Reconnaissance de Forme Sance 2
Donc pour tout x : p(Erreur | x ) est minimale si on dcide le w
k
tel que
si p(w
1
| x) > p(w
2
| x) decide w
1
else decide w
2
Par rgle de Bayes ceci est
si p(x | w
1
) p(w
1
) > p(x | w
2
) p(w
2
) decide w
1
sinon dcide w
2
Le surface p(x | w
1
) p(w
1
) = p(x | w
2
) p(w
2
) partition l'espace x dans deux rgions
disjoints. La rgion w
1
et la rgion w
2
.
On note que si p(w
1
) = p(w
2
) ceci devient
si p(x | w
1
) > p(x | w
2
) decide w
1
else decide w
2
p(x | w
1
) est connu comme la vraisemblance de x par rapport de w
1
Gnralisations
Nous allons dvelopper 4 gnralisations
1) Remplacer x par x

2) Remplacer 2 catgories par K catgories.


3) Permettre les refus de dcider
4) Remplacer le p(Erreur) par le min(perte(w
k
))
(Les cots d'erreurs ne sont pas gaux).
Pour K classes w
k
et pour une observation X

p(w
k
| X

) =
p(X

| w
k
) p(w
k
)
p(X

)
ou
p(X

) =

k=1
K
p(X

| w
k
) p(w
k
)
2-4
Introduction la Reconnaissance de Forme Sance 2
Soit l'action
k
de dcider w
k
alors que le verit est w
j
On peut dfinir une fonction de perte pour chaque
k
(
k
| w
j
)
Dans ce cas, le risque (ou "Esprance de perte) est
R(
k
| x

) =

k=1
K
(
k
| w
k
) p(w
k
| x

)
Une rgle de dcision est une fonction (x

) qui dcide w
k
pour chaque x.
Le Risque est
R =


R( (x

) | x

) p(x

) dx

Selon Bayes, la rgle de dcision est "choisir


i
tel que Min{ R(
k
| x

) }"
o R(
i
| x

) =

j=1
s
(
i
| w
j
) p(w
j
| x

) pour i = 1, ..., K
R(
k
| x

) s'appelle le Risque Bayesien.
2-5
Introduction la Reconnaissance de Forme Sance 2
Classification entre 2 Catgories
Soit le cas de K = 2
Soit l'action
1
de dcider que la verit est w
1
et
l'action
2
de dcider que la verit est w
2
Soit
ij
= (
i
| w
j
) la perte de dcider
i
quand la vrit est w
j
R(
1
| x

) =
11
p(w
1
| x

) +
12
p(w
2
| x

)
R(
2
| x

) =
21
p(w
1
| x

) +
22
p(w
2
| x

)
Le rgle de base est de dcider w
1
si R(
1
| x

) < R(
2
| x

)
Donc : if (
21

11
) p(w
1
| x

) > (
12

22
) p(w
2
| x

) alors dcider w
1
Dans beaucoup de cas rel le cot d'un erreur est suprieure au cot de success.
Dans un tel cas,
21

11
and
12

22
sont positives.
Parce que p( x

) est constant, le rgle de Bayes est p(w


1
| x

) = p(x

| w
1
) p(w
1
)
Donce notre dcision est :
if (
21

11
) p(x

| w
1
) p(w
1
) > (
12

22
) p(x

| w
2
) p(w
2
) alors dcider w
1
Si, en plus, on peut supposer que
21
>
11
on obtient
si
p(x

| w
1
)
p(x

| w
2
)
>
(
12

22
) p(w
2
)
(
21

11
) p(w
1
)
alors w
1
p(x

| w
1
)
p(x

| w
2
)
s'appelle le ratio de vraisemblance
(
12

22
) p(w
2
)
(
21

11
) p(w
1
)
est un seuil indpendant x

Si le ratio de vraisemblance depasse un seuil,


le rgle de Bayes veux qu'on dcide w
1
2-6
Introduction la Reconnaissance de Forme Sance 2
Classification par Minimisation d'erreurs
L'action
i
est d'estimer que la vrit soit w
j
Si la vrit est w
j
alors la dcision est correcte si i=j est fausse si ij.
Le taux d'erreur est la frquence de dcision o ij.
Lobjectif est souvent de minimiser le taux d'erreur.
Une fonction de perte donnant un poid gal pour tout les erreurs est
(
i
| w
j
) =

'

0 si i=j

1 si ij
Toutes les erreurs ont le mme cot.
Dans ce cas :
R(
i
| x

) =

j=1
K
(
i
| w
j
) p(w
j
| x

)
=

ij

p(w
j
| x

)
= 1 p(w
i
| x

)
Donc le taux d'erreur minimum correspond
decide w
^
i
si j p(x

| w
i
) p(w
i
) > p(x

| w
j
) p(w
j
)
2-7
Introduction la Reconnaissance de Forme Sance 2
Fontions de Descriminations et Surfaces de Decision
Le cas de K catgories
si ij g
i
(x

) > g
j
(x

) decide w
i
Dans cette forme la classifacateur est une machine qui calcul K fonctions g
k
(x

) suivie
d'une slction du maximum.
x
1
x
2

x
n
g
1
g
1
g
1

Max
La classification Bayesienne est facilement exprim ainsi.
Dans le cas gnral, on laisse g
i
(x

) = R(
i
| x

)
et ainsi on minimise le risque d'erreur.
On peut simplifier encore par g
i
(x

) = p(w
i
| x

)
On note que la slection d'un maximum donne le mme resultat pour tout fonction
monotonique de f{g
i
(x

) }. Ceci autorise une varit de fonctions quvalent


1) g
i
(x

) = p(w
i
| x

)
2) g
i
(x

) =
p(X

| w
k
) p(w
k
)
p(X

)
=
p(x

| w
i
) p(w
i
)

k=1
K
p(x

| w
k
) p(w
k
)
3) g
i
(x

) = p(x

| w
i
) p(w
i
)
ou 4) g
i
(x

) = Log{ p(x

| w
i
)} + Log{ p(w
i
)}
Toutes ces rgles de dcisions sont quivalentes.
2-8
Introduction la Reconnaissance de Forme Sance 2
Rgions de Dcision
Une fonction de discrimination partitionne l'espace de caractristique en rgions
disjointes Z
1
, ..., Z
k
pour chaque classe.
Les frontieres entre rgions i et j sont les valeurs pour lesquelles
g
i
(x

) = g
j
(x

)
Nous allons voir que ce point de vue donne un nombre de possibilits importantes.
Z
1
Z
2
Z
3
x
p(x|w
3
)p(w
3
)
p(x|w
2
)p(w
2
)
p(x|w
1
)p(w
1
)
Le cas de 2 catgories
x
1
x
2

x
n
g
1
1 w
1
1 w
2
Le cas de 2 catgories est simplement un cas spcial du cas gnral.
Dans ce cas, on peut dfinir : g(x

) = g
1
(x

) g
2
(x

)
et ensuite, le rgle de dcision est dcide w
1
si g(x

) > 0 sinon dcide w


2
Les formes suivantes sont utiles :
g(x

) = p(w
1
| x

) p(w
2
| x

)
g(x

) = Log {
p(x

| w
1
)
p(x

| w
2
)
} + Log{
p(w
1
)
p(w
2
)
}
2-9
Introduction la Reconnaissance de Forme Sance 2
La Probabilit d'erreur
Voir un classificateur comme un appareil qui partitionne l'espace x

est une intuition


puissante:
Soit le cas de deux classes :
P(erreur) = p( x

z
2
, w
1
) + p( x

z
1
, w
2
)
= p( x

z
2
| w
1
) p(w
1
) + p( x

z
1
, w
2
) p(w
2
)
=
z
2
p( x

| w
1
) p(w
1
) dx

+

z
1
p(x

| w
2
) p(w
2
) dx

p(x|w
2
)p(w
2
)
p(x|w
1
)p(w
1
)
La valeur minimum de P(erreur) est atteinte pour
d P(erreur)
dx
= 0
Donc quand p( x

| w
1
) p(w
1
) - p( x

w
2
) p(w
2
) = 0.
Dans le cas de K > 2 , il y a plus de possibilit d'erreurs.
Dans ce cas, il vaut mieux maximiser
P(vrai) =

k=1
K
p( x

z
k
, w
k
) =

k=1
K
p( x

z
k
| w
k
) p(w
k
)
=

k=1
K

z
k
p( x

| w
k
) p(w
k
) dx

Bayes donne le maximum de cette intgrale.


2-10
Introduction la Reconnaissance de Forme Sance 2
La Loi normale
Dans beaucoup de cas pratiques la loi normale fournit une approximation raisonnable
de
p( x

| w
k
)
Dans le cas d'une seul caractristique , la loi normale prend la forme :
p(x) N(, )=
1
2
e

(x)
2
2
2

+ +
x
N(x; , )
La Distance de Mahalanobis est un test naturelle de vraisemblance.
E{X} = =

p(x)x dx
E{(x )
2
} =
2
= E{(X)
2
} =

p(x)(x)
2
dx
Dans le cas d'un vecteur de n proprits, X

, la loi normale prend la forme :


p(X

) = N(


,C ) =
1
(2)
n
2
det(C)
1
2
e

1
2
(X

)
T
C
1
(X


)
2-11
Introduction la Reconnaissance de Forme Sance 2
x
1
x
2

i
E{X
i
} =

p(X
i
)X
i
dx

ij
2
= E{(X
i

i
) (X
j

j
)}
C E{[X

) (X

)
T
} = E([X

E{X

}) (X

E{X

})
T
}
L'exposant est la "distance de Mahalanobis"
d
2
(X

) = (X

)
T
C
1
(X


)
La loi Normale peut tre visualis par ses contours d'"qui-probabilit"
Contours d'qui-probabilit
p(X | , C)
x
2
x
1
Ces contours sont les contours de constant d
2
(X

)
La matrice C est positive et semi-definie. Nous allons nous limiter au cas
ou C est positive et definie (C.--d. det(C ) = | C

| > 0
si x
i
et x
j
sont statistiquement independants,
ij
2
= 0.
2-12
Introduction la Reconnaissance de Forme Sance 2
si pour tout ij,
ij
2
alors p(X

) =

i=1
n
p(X
i
)
La transformation linaire d'une loi normale et une loi normale.
Les moments d'un transformation linaire est la transformation linaire des moments.
La distance de Mahalanobis est invariante aux transformations linaires.
Pour une transformation Y

= A
T
X

. ou Y

= A
i
j

X
p( Y

) = N( A
T


, A
T
C
x
A )
Soit un vecteur unitaire D

]
1
1
1
1
x
1
x
2
...
x
n

tel que || D

|| = 1.
La projection de la covariance sur un axe, D

donne une variance,


2
D
dans la direction D

2

= D

C D

La surface des projections est un ellipsode

1
2
Les axes de l'ellipsode sont les composantes principales de la covariance.
2-13
Introduction la Reconnaissance de Forme Sance 2
Composantes principales
Les axes sont calculs par une analyse en composantes principales
de la matrice C. Il s'agit de trouver une rotation, R, dans l'espace
de caractristiques R

C
P
R

= telle que soit diagonale.


_
1
0
0
2
tel que
1
>
2
R =

_ Cos() Sin()
Sin() Cos()
R

C
P
R

_
1
0
0
2
R

R

= I =

_ 1 0
0 1
R

C
P
R

R

= R

C
P

R

_
1
0
0
2

_ Cos() Sin()
Sin() Cos()
Les lignes du R sont des vecteurs propres du C.
La longueur des axes majeur et mineur est les valeurs propres de la matrice C.
est l'orientation de l'axe "majeur" et
1
/
2
est le rapport entre la longueur et la
largeur.
2-14
Introduction la Reconnaissance de Forme Sance 2
2-15

Vous aimerez peut-être aussi