Ensi2 RF S2

Reconnaissance de Forme Statistique
James L. Crowley
Deuxime Anne ENSIMAG Troisime Bimestre 2000/2001
Sance 2 5 et 6 avril 2001
Classification Bayesienne
Plan de la sance :
La Rgle de Bayes...............................................................2
Un rappel.....................................................................................................2
Classification entre deux Catgories.................................3
Gnralisations............................................................................................4
Classification entre 2 Catgories.......................................6
Classification par Minimisation d'erreurs ........................7
Fontions de Descriminations et Surfaces de Decision ..8
Le cas de K catgories..............................................................................8
Rgions de Dcision..................................................................................9
Le cas de 2 catgories...............................................................................9
La Probabilit d'erreur...........................................................................10
La Loi normale........................................................................................11
Composantes principales.......................................................................14
Notes des Cours sur Web :
http://www-prima.imag.fr/Prima/Homepages/jlc/Courses/Courses.html
Sources :
"Statistical Pattern Recognition", K. Fukunaga, Academic Press, 1990.
"Pattern Recognition and Scene Analysis", R. E. Duda and P. E. Hart, Wiley, 1973.
Introduction la Reconnaissance de Forme Sance 2
La Rgle de Bayes
Un rappel
Soit q une proposition d'un venement.
Par axiome 2 de la dfinition des systmes de probabilits :
P(q) + P(q) = 1.
Soit deux propositions p et q.
P(p q) est la probabilit "conjointe" de p et q.
Si p et q sont mutuellement exclusifs..
P(p q) = P(p) P(q),
P(p q) = P(p) + P(q).
On peut voir a d'une manire graphique :
0
1
0
1
P(p)
P(q)
P(p)
P(q)
P(q) P(q) P(p)
P(p)
P(p)
P(p) P(q) P(q)
x x
x x
P(p q) + P(p q) + P(p q) + P(p q) = 1
oit : P(p q) = A
P(p q) = B
P(p q) = C
P(p q) = D
Dans ce cas, les probabilits marginales sont
P(p) = A + B
=
P(p q) + P(p q)
P(q) = A + C
=
P(p q) + P(p q)
2-2
La probabilit conditionnelle de q tant donne p s'crit P(q | p)
P(q | p) =
P(p q)
P(p)
=
A
A+B
de la mme manire :
P(p | q) =
P(p q)
P(q)
=
A
A+C
Par algbre on dduire :
P(q | p) P(p) = P(p | q) P(q)
Ceci est une forme de rgle de Bayes. On peut crire :
P(q | p) =
P(p | q) P(q)
P(p)
P(q | p) est la probabilit "conditionnelle" ou "postrieur"
Classification entre deux Catgories
Pour 2 classes w
1
et w
2
, pour une observation x
P(w
1
| x

) =
p(x | w
1
) p(w
1
)
p(x)
o p(x) = p(x | w
1
) p(w
1
) + p(x | w
2
) p(w
2
)
Soit x. Comment dcider entre w
1
et w
2
?
Une ide simple serait de chercher minimiser la probabilit d'erreur.
p(Erreur | x ) =
'
p(w
1
| x) si on decide w
2

p(w
2
| x) si on decide w
1
2-3
Donc pour tout x : p(Erreur | x ) est minimale si on dcide le w
k
tel que
si p(w
1
| x) > p(w
2
| x) decide w
1
else decide w
2
Par rgle de Bayes ceci est
si p(x | w
1
) p(w
1
) > p(x | w
2
) p(w
2
) decide w
1
sinon dcide w
2
Le surface p(x | w
1
) p(w
1
) = p(x | w
2
) p(w
2
) partition l'espace x dans deux rgions
disjoints. La rgion w
1
et la rgion w
2
.
On note que si p(w
1
) = p(w
2
) ceci devient
si p(x | w
1
) > p(x | w
2
) decide w
1
else decide w
2
p(x | w
1
) est connu comme la vraisemblance de x par rapport de w
1
Gnralisations
Nous allons dvelopper 4 gnralisations
1) Remplacer x par x
2) Remplacer 2 catgories par K catgories.

3) Permettre les refus de dcider
4) Remplacer le p(Erreur) par le min(perte(w
k
))
(Les cots d'erreurs ne sont pas gaux).
Pour K classes w
k
et pour une observation X
p(w
k
| X

) =
p(X
| w
k
) p(w
k
)
p(X
)
ou
p(X
) =
k=1
K
p(X

| w
k
) p(w
k
)
2-4
Soit l'action
k
de dcider w
k
alors que le verit est w
j
On peut dfinir une fonction de perte pour chaque
k
(
k
| w
j
)
Dans ce cas, le risque (ou "Esprance de perte) est
R(
k
| x
) =
k=1
K
(
k
| w
k
) p(w
k
| x
)
Une rgle de dcision est une fonction (x
) qui dcide w
k
pour chaque x.
Le Risque est
R =

R( (x
) | x
) p(x
) dx
Selon Bayes, la rgle de dcision est "choisir

i
tel que Min{ R(
k
| x

) }"
o R(
i
| x

) =
j=1
s
(
i
| w
j
) p(w
j
| x
) pour i = 1, ..., K
R(
k
| x

) s'appelle le Risque Bayesien.
2-5
Classification entre 2 Catgories
Soit le cas de K = 2
Soit l'action
1
de dcider que la verit est w
1
et
l'action
2
de dcider que la verit est w
2
Soit
ij
= (
i
| w
j
) la perte de dcider
i
quand la vrit est w
j
R(
1
| x

) =
11
p(w
1
| x
) +
12
p(w
2
| x
)
R(
2
| x

) =
21
p(w
1
| x
) +
22
p(w
2
| x
)
Le rgle de base est de dcider w
1
si R(
1
| x

) < R(
2
| x

)
Donc : if (
21

11
) p(w
1
| x
) > (
12

22
) p(w
2
| x
) alors dcider w
1
Dans beaucoup de cas rel le cot d'un erreur est suprieure au cot de success.
Dans un tel cas,
21

11
and
12

22
sont positives.
Parce que p( x
) est constant, le rgle de Bayes est p(w

1
| x
) = p(x

| w
1
) p(w
1
)
Donce notre dcision est :
if (
21

11
) p(x

| w
1
) p(w
1
) > (
12

22
) p(x

| w
2
) p(w
2
) alors dcider w
1
Si, en plus, on peut supposer que
21
>
11
on obtient
si
p(x
| w
1
)
p(x
| w
2
)
>
(
12

22
) p(w
2
)
(
21

11
) p(w
1
)
alors w
1
p(x
| w
1
)
p(x
| w
2
)
s'appelle le ratio de vraisemblance
(
12

22
) p(w
2
)
(
21

11
) p(w
1
)
est un seuil indpendant x
Si le ratio de vraisemblance depasse un seuil,

le rgle de Bayes veux qu'on dcide w
1
2-6
Classification par Minimisation d'erreurs
L'action
i
est d'estimer que la vrit soit w
j
Si la vrit est w
j
alors la dcision est correcte si i=j est fausse si ij.
Le taux d'erreur est la frquence de dcision o ij.
Lobjectif est souvent de minimiser le taux d'erreur.
Une fonction de perte donnant un poid gal pour tout les erreurs est
(
i
| w
j
) =
'
0 si i=j

1 si ij
Toutes les erreurs ont le mme cot.
Dans ce cas :
R(
i
| x

) =
j=1
K
(
i
| w
j
) p(w
j
| x
)
=
ij

p(w
j
| x
)
= 1 p(w
i
| x
)
Donc le taux d'erreur minimum correspond
decide w
^
i
si j p(x
| w
i
) p(w
i
) > p(x
| w
j
) p(w
j
)
2-7
Fontions de Descriminations et Surfaces de Decision
Le cas de K catgories
si ij g
i
(x
) > g
j
(x
) decide w
i
Dans cette forme la classifacateur est une machine qui calcul K fonctions g
k
(x
) suivie
d'une slction du maximum.
x
1
x
2
x
n
g
1
g
1
g
1
Max
La classification Bayesienne est facilement exprim ainsi.
Dans le cas gnral, on laisse g
i
(x
) = R(
i
| x

)
et ainsi on minimise le risque d'erreur.
On peut simplifier encore par g
i
(x
) = p(w
i
| x
)
On note que la slection d'un maximum donne le mme resultat pour tout fonction
monotonique de f{g
i
(x
) }. Ceci autorise une varit de fonctions quvalent

1) g
i
(x
) = p(w
i
| x
)
2) g
i
(x
) =
p(X
| w
k
) p(w
k
)
p(X
)
=
p(x
| w
i
) p(w
i
)

k=1
K
p(x
| w
k
) p(w
k
)
3) g
i
(x
) = p(x
| w
i
) p(w
i
)
ou 4) g
i
(x
) = Log{ p(x
| w
i
)} + Log{ p(w
i
)}
Toutes ces rgles de dcisions sont quivalentes.
2-8
Rgions de Dcision
Une fonction de discrimination partitionne l'espace de caractristique en rgions
disjointes Z
1
, ..., Z
k
pour chaque classe.
Les frontieres entre rgions i et j sont les valeurs pour lesquelles
g
i
(x
) = g
j
(x
)
Nous allons voir que ce point de vue donne un nombre de possibilits importantes.
Z
1
Z
2
Z
3
x
p(x|w
3
)p(w
3
)
p(x|w
2
)p(w
2
)
p(x|w
1
)p(w
1
)
Le cas de 2 catgories
x
1
x
2
x
n
g
1
1 w
1
1 w
2
Le cas de 2 catgories est simplement un cas spcial du cas gnral.
Dans ce cas, on peut dfinir : g(x
) = g
1
(x
) g
2
(x
)
et ensuite, le rgle de dcision est dcide w
1
si g(x
) > 0 sinon dcide w

2
Les formes suivantes sont utiles :
g(x
) = p(w
1
| x
) p(w
2
| x
)
g(x
) = Log {
p(x
| w
1
)
p(x
| w
2
)
} + Log{
p(w
1
)
p(w
2
)
}
2-9
La Probabilit d'erreur
Voir un classificateur comme un appareil qui partitionne l'espace x
est une intuition

puissante:
Soit le cas de deux classes :
P(erreur) = p( x
z
2
, w
1
) + p( x
z
1
, w
2
)
= p( x
z
2
| w
1
) p(w
1
) + p( x
z
1
, w
2
) p(w
2
)
=
z
2
p( x
| w
1
) p(w
1
) dx

+
z
1
p(x
| w
2
) p(w
2
) dx
p(x|w
2
)p(w
2
)
p(x|w
1
)p(w
1
)
La valeur minimum de P(erreur) est atteinte pour
d P(erreur)
dx
= 0
Donc quand p( x
| w
1
) p(w
1
) - p( x
w
2
) p(w
2
) = 0.
Dans le cas de K > 2 , il y a plus de possibilit d'erreurs.
Dans ce cas, il vaut mieux maximiser
P(vrai) =
k=1
K
p( x
z
k
, w
k
) =
k=1
K
p( x
z
k
| w
k
) p(w
k
)
=
k=1
K

z
k
p( x
| w
k
) p(w
k
) dx
Bayes donne le maximum de cette intgrale.

2-10
La Loi normale
Dans beaucoup de cas pratiques la loi normale fournit une approximation raisonnable
de
p( x
| w
k
)
Dans le cas d'une seul caractristique , la loi normale prend la forme :
p(x) N(, )=
1
2
e

(x)
2
2
2
+ +
x
N(x; , )
La Distance de Mahalanobis est un test naturelle de vraisemblance.
E{X} = =
p(x)x dx
E{(x )
2
} =
2
= E{(X)
2
} =
p(x)(x)
2
dx
Dans le cas d'un vecteur de n proprits, X
, la loi normale prend la forme :

p(X
) = N(

,C ) =
1
(2)
n
2
det(C)
1
2
e

1
2
(X
)
T
C
1
(X

)
2-11
x
1
x
2
i
E{X
i
} =
p(X
i
)X
i
dx
ij
2
= E{(X
i
i
) (X
j
j
)}
C E{[X
) (X
)
T
} = E([X
E{X
}) (X
E{X
})
T
}
L'exposant est la "distance de Mahalanobis"
d
2
(X
) = (X
)
T
C
1
(X

)
La loi Normale peut tre visualis par ses contours d'"qui-probabilit"
Contours d'qui-probabilit
p(X | , C)
x
2
x
1
Ces contours sont les contours de constant d
2
(X
)
La matrice C est positive et semi-definie. Nous allons nous limiter au cas
ou C est positive et definie (C.--d. det(C ) = | C

| > 0
si x
i
et x
j
sont statistiquement independants,
ij
2
= 0.
2-12
si pour tout ij,
ij
2
alors p(X
) =
i=1
n
p(X
i
)
La transformation linaire d'une loi normale et une loi normale.
Les moments d'un transformation linaire est la transformation linaire des moments.
La distance de Mahalanobis est invariante aux transformations linaires.
Pour une transformation Y
= A
T
X
. ou Y

= A
i
j

X
p( Y
) = N( A
T

, A
T
C
x
A )
Soit un vecteur unitaire D
]
1
1
1
1
x
1
x
2
...
x
n

tel que || D
|| = 1.
La projection de la covariance sur un axe, D
donne une variance,

2
D
dans la direction D
2

= D
C D
La surface des projections est un ellipsode
1
2
Les axes de l'ellipsode sont les composantes principales de la covariance.
2-13
Composantes principales
Les axes sont calculs par une analyse en composantes principales
de la matrice C. Il s'agit de trouver une rotation, R, dans l'espace
de caractristiques R

C
P
R
= telle que soit diagonale.

_
1
0
0
2
tel que
1
>
2
R =
_ Cos() Sin()
Sin() Cos()
R

C
P
R
_
1
0
0
2
R
R

= I =
_ 1 0
0 1
R

C
P
R
R

= R

C
P

R
_
1
0
0
2

_ Cos() Sin()
Sin() Cos()
Les lignes du R sont des vecteurs propres du C.
La longueur des axes majeur et mineur est les valeurs propres de la matrice C.
est l'orientation de l'axe "majeur" et
1
/
2
est le rapport entre la longueur et la
largeur.
2-14
2-15

Ensi2 RF S2

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Ensi2 RF S2

Transféré par

Droits d'auteur :

Formats disponibles

Reconnaissance de Forme Statistique

2) Remplacer 2 catgories par K catgories.

Selon Bayes, la rgle de dcision est "choisir

) est constant, le rgle de Bayes est p(w

Si le ratio de vraisemblance depasse un seuil,

) }. Ceci autorise une varit de fonctions quvalent

) > 0 sinon dcide w

est une intuition

Bayes donne le maximum de cette intgrale.

, la loi normale prend la forme :

donne une variance,

La surface des projections est un ellipsode

= telle que soit diagonale.

Vous aimerez peut-être aussi