Académique Documents
Professionnel Documents
Culture Documents
James L. Crowley
Deuxime Anne ENSIMAG Troisime Bimestre 2000/2001
Sance 2 5 et 6 avril 2001
Classification Bayesienne
Plan de la sance :
La Rgle de Bayes...............................................................2
Un rappel.....................................................................................................2
Classification entre deux Catgories.................................3
Gnralisations............................................................................................4
Classification entre 2 Catgories.......................................6
Classification par Minimisation d'erreurs ........................7
Fontions de Descriminations et Surfaces de Decision ..8
Le cas de K catgories..............................................................................8
Rgions de Dcision..................................................................................9
Le cas de 2 catgories...............................................................................9
La Probabilit d'erreur...........................................................................10
La Loi normale........................................................................................11
Composantes principales.......................................................................14
Notes des Cours sur Web :
http://www-prima.imag.fr/Prima/Homepages/jlc/Courses/Courses.html
Sources :
"Statistical Pattern Recognition", K. Fukunaga, Academic Press, 1990.
"Pattern Recognition and Scene Analysis", R. E. Duda and P. E. Hart, Wiley, 1973.
Introduction la Reconnaissance de Forme Sance 2
La Rgle de Bayes
Un rappel
Soit q une proposition d'un venement.
Par axiome 2 de la dfinition des systmes de probabilits :
P(q) + P(q) = 1.
Soit deux propositions p et q.
P(p q) est la probabilit "conjointe" de p et q.
Si p et q sont mutuellement exclusifs..
P(p q) = P(p) P(q),
P(p q) = P(p) + P(q).
On peut voir a d'une manire graphique :
0
1
0
1
P(p)
P(q)
P(p)
P(q)
P(q) P(q) P(p)
P(p)
P(p)
P(p) P(q) P(q)
x x
x x
P(p q) + P(p q) + P(p q) + P(p q) = 1
oit : P(p q) = A
P(p q) = B
P(p q) = C
P(p q) = D
Dans ce cas, les probabilits marginales sont
P(p) = A + B
=
P(p q) + P(p q)
P(q) = A + C
=
P(p q) + P(p q)
2-2
Introduction la Reconnaissance de Forme Sance 2
La probabilit conditionnelle de q tant donne p s'crit P(q | p)
P(q | p) =
P(p q)
P(p)
=
A
A+B
de la mme manire :
P(p | q) =
P(p q)
P(q)
=
A
A+C
Par algbre on dduire :
P(q | p) P(p) = P(p | q) P(q)
Ceci est une forme de rgle de Bayes. On peut crire :
P(q | p) =
P(p | q) P(q)
P(p)
P(q | p) est la probabilit "conditionnelle" ou "postrieur"
Classification entre deux Catgories
Pour 2 classes w
1
et w
2
, pour une observation x
P(w
1
| x
) =
p(x | w
1
) p(w
1
)
p(x)
o p(x) = p(x | w
1
) p(w
1
) + p(x | w
2
) p(w
2
)
Soit x. Comment dcider entre w
1
et w
2
?
Une ide simple serait de chercher minimiser la probabilit d'erreur.
p(Erreur | x ) =
'
p(w
1
| x) si on decide w
2
p(w
2
| x) si on decide w
1
2-3
Introduction la Reconnaissance de Forme Sance 2
Donc pour tout x : p(Erreur | x ) est minimale si on dcide le w
k
tel que
si p(w
1
| x) > p(w
2
| x) decide w
1
else decide w
2
Par rgle de Bayes ceci est
si p(x | w
1
) p(w
1
) > p(x | w
2
) p(w
2
) decide w
1
sinon dcide w
2
Le surface p(x | w
1
) p(w
1
) = p(x | w
2
) p(w
2
) partition l'espace x dans deux rgions
disjoints. La rgion w
1
et la rgion w
2
.
On note que si p(w
1
) = p(w
2
) ceci devient
si p(x | w
1
) > p(x | w
2
) decide w
1
else decide w
2
p(x | w
1
) est connu comme la vraisemblance de x par rapport de w
1
Gnralisations
Nous allons dvelopper 4 gnralisations
1) Remplacer x par x
p(w
k
| X
) =
p(X
| w
k
) p(w
k
)
p(X
)
ou
p(X
) =
k=1
K
p(X
| w
k
) p(w
k
)
2-4
Introduction la Reconnaissance de Forme Sance 2
Soit l'action
k
de dcider w
k
alors que le verit est w
j
On peut dfinir une fonction de perte pour chaque
k
(
k
| w
j
)
Dans ce cas, le risque (ou "Esprance de perte) est
R(
k
| x
) =
k=1
K
(
k
| w
k
) p(w
k
| x
)
Une rgle de dcision est une fonction (x
) qui dcide w
k
pour chaque x.
Le Risque est
R =
R( (x
) | x
) p(x
) dx
j=1
s
(
i
| w
j
) p(w
j
| x
) pour i = 1, ..., K
R(
k
| x
) s'appelle le Risque Bayesien.
2-5
Introduction la Reconnaissance de Forme Sance 2
Classification entre 2 Catgories
Soit le cas de K = 2
Soit l'action
1
de dcider que la verit est w
1
et
l'action
2
de dcider que la verit est w
2
Soit
ij
= (
i
| w
j
) la perte de dcider
i
quand la vrit est w
j
R(
1
| x
) =
11
p(w
1
| x
) +
12
p(w
2
| x
)
R(
2
| x
) =
21
p(w
1
| x
) +
22
p(w
2
| x
)
Le rgle de base est de dcider w
1
si R(
1
| x
) < R(
2
| x
)
Donc : if (
21
11
) p(w
1
| x
) > (
12
22
) p(w
2
| x
) alors dcider w
1
Dans beaucoup de cas rel le cot d'un erreur est suprieure au cot de success.
Dans un tel cas,
21
11
and
12
22
sont positives.
Parce que p( x
) = p(x
| w
1
) p(w
1
)
Donce notre dcision est :
if (
21
11
) p(x
| w
1
) p(w
1
) > (
12
22
) p(x
| w
2
) p(w
2
) alors dcider w
1
Si, en plus, on peut supposer que
21
>
11
on obtient
si
p(x
| w
1
)
p(x
| w
2
)
>
(
12
22
) p(w
2
)
(
21
11
) p(w
1
)
alors w
1
p(x
| w
1
)
p(x
| w
2
)
s'appelle le ratio de vraisemblance
(
12
22
) p(w
2
)
(
21
11
) p(w
1
)
est un seuil indpendant x
'
0 si i=j
1 si ij
Toutes les erreurs ont le mme cot.
Dans ce cas :
R(
i
| x
) =
j=1
K
(
i
| w
j
) p(w
j
| x
)
=
ij
p(w
j
| x
)
= 1 p(w
i
| x
)
Donc le taux d'erreur minimum correspond
decide w
^
i
si j p(x
| w
i
) p(w
i
) > p(x
| w
j
) p(w
j
)
2-7
Introduction la Reconnaissance de Forme Sance 2
Fontions de Descriminations et Surfaces de Decision
Le cas de K catgories
si ij g
i
(x
) > g
j
(x
) decide w
i
Dans cette forme la classifacateur est une machine qui calcul K fonctions g
k
(x
) suivie
d'une slction du maximum.
x
1
x
2
x
n
g
1
g
1
g
1
Max
La classification Bayesienne est facilement exprim ainsi.
Dans le cas gnral, on laisse g
i
(x
) = R(
i
| x
)
et ainsi on minimise le risque d'erreur.
On peut simplifier encore par g
i
(x
) = p(w
i
| x
)
On note que la slection d'un maximum donne le mme resultat pour tout fonction
monotonique de f{g
i
(x
) = p(w
i
| x
)
2) g
i
(x
) =
p(X
| w
k
) p(w
k
)
p(X
)
=
p(x
| w
i
) p(w
i
)
k=1
K
p(x
| w
k
) p(w
k
)
3) g
i
(x
) = p(x
| w
i
) p(w
i
)
ou 4) g
i
(x
) = Log{ p(x
| w
i
)} + Log{ p(w
i
)}
Toutes ces rgles de dcisions sont quivalentes.
2-8
Introduction la Reconnaissance de Forme Sance 2
Rgions de Dcision
Une fonction de discrimination partitionne l'espace de caractristique en rgions
disjointes Z
1
, ..., Z
k
pour chaque classe.
Les frontieres entre rgions i et j sont les valeurs pour lesquelles
g
i
(x
) = g
j
(x
)
Nous allons voir que ce point de vue donne un nombre de possibilits importantes.
Z
1
Z
2
Z
3
x
p(x|w
3
)p(w
3
)
p(x|w
2
)p(w
2
)
p(x|w
1
)p(w
1
)
Le cas de 2 catgories
x
1
x
2
x
n
g
1
1 w
1
1 w
2
Le cas de 2 catgories est simplement un cas spcial du cas gnral.
Dans ce cas, on peut dfinir : g(x
) = g
1
(x
) g
2
(x
)
et ensuite, le rgle de dcision est dcide w
1
si g(x
) = p(w
1
| x
) p(w
2
| x
)
g(x
) = Log {
p(x
| w
1
)
p(x
| w
2
)
} + Log{
p(w
1
)
p(w
2
)
}
2-9
Introduction la Reconnaissance de Forme Sance 2
La Probabilit d'erreur
Voir un classificateur comme un appareil qui partitionne l'espace x
z
2
, w
1
) + p( x
z
1
, w
2
)
= p( x
z
2
| w
1
) p(w
1
) + p( x
z
1
, w
2
) p(w
2
)
=
z
2
p( x
| w
1
) p(w
1
) dx
+
z
1
p(x
| w
2
) p(w
2
) dx
p(x|w
2
)p(w
2
)
p(x|w
1
)p(w
1
)
La valeur minimum de P(erreur) est atteinte pour
d P(erreur)
dx
= 0
Donc quand p( x
| w
1
) p(w
1
) - p( x
w
2
) p(w
2
) = 0.
Dans le cas de K > 2 , il y a plus de possibilit d'erreurs.
Dans ce cas, il vaut mieux maximiser
P(vrai) =
k=1
K
p( x
z
k
, w
k
) =
k=1
K
p( x
z
k
| w
k
) p(w
k
)
=
k=1
K
z
k
p( x
| w
k
) p(w
k
) dx
| w
k
)
Dans le cas d'une seul caractristique , la loi normale prend la forme :
p(x) N(, )=
1
2
e
(x)
2
2
2
+ +
x
N(x; , )
La Distance de Mahalanobis est un test naturelle de vraisemblance.
E{X} = =
p(x)x dx
E{(x )
2
} =
2
= E{(X)
2
} =
p(x)(x)
2
dx
Dans le cas d'un vecteur de n proprits, X
) = N(
,C ) =
1
(2)
n
2
det(C)
1
2
e
1
2
(X
)
T
C
1
(X
)
2-11
Introduction la Reconnaissance de Forme Sance 2
x
1
x
2
i
E{X
i
} =
p(X
i
)X
i
dx
ij
2
= E{(X
i
i
) (X
j
j
)}
C E{[X
) (X
)
T
} = E([X
E{X
}) (X
E{X
})
T
}
L'exposant est la "distance de Mahalanobis"
d
2
(X
) = (X
)
T
C
1
(X
)
La loi Normale peut tre visualis par ses contours d'"qui-probabilit"
Contours d'qui-probabilit
p(X | , C)
x
2
x
1
Ces contours sont les contours de constant d
2
(X
)
La matrice C est positive et semi-definie. Nous allons nous limiter au cas
ou C est positive et definie (C.--d. det(C ) = | C
| > 0
si x
i
et x
j
sont statistiquement independants,
ij
2
= 0.
2-12
Introduction la Reconnaissance de Forme Sance 2
si pour tout ij,
ij
2
alors p(X
) =
i=1
n
p(X
i
)
La transformation linaire d'une loi normale et une loi normale.
Les moments d'un transformation linaire est la transformation linaire des moments.
La distance de Mahalanobis est invariante aux transformations linaires.
Pour une transformation Y
= A
T
X
. ou Y
= A
i
j
X
p( Y
) = N( A
T
, A
T
C
x
A )
Soit un vecteur unitaire D
]
1
1
1
1
x
1
x
2
...
x
n
tel que || D
|| = 1.
La projection de la covariance sur un axe, D
2
= D
C D
1
2
Les axes de l'ellipsode sont les composantes principales de la covariance.
2-13
Introduction la Reconnaissance de Forme Sance 2
Composantes principales
Les axes sont calculs par une analyse en composantes principales
de la matrice C. Il s'agit de trouver une rotation, R, dans l'espace
de caractristiques R
C
P
R
_
1
0
0
2
tel que
1
>
2
R =
_ Cos() Sin()
Sin() Cos()
R
C
P
R
_
1
0
0
2
R
R
= I =
_ 1 0
0 1
R
C
P
R
R
= R
C
P
R
_
1
0
0
2
_ Cos() Sin()
Sin() Cos()
Les lignes du R sont des vecteurs propres du C.
La longueur des axes majeur et mineur est les valeurs propres de la matrice C.
est l'orientation de l'axe "majeur" et
1
/
2
est le rapport entre la longueur et la
largeur.
2-14
Introduction la Reconnaissance de Forme Sance 2
2-15