Vous êtes sur la page 1sur 44

MASTER SISEA

Classication (UE1)
Jean-Marc Boucher
Ann ee 2012
Table des mati` eres
1 Introduction 3
1.1 Inf erence statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 D ecision bay esienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Classication et Reconnaissance de formes . . . . . . . . . . . . . . . . . . . . . . 7
2 Th eorie de la D etection 9
2.1 D etection bay esienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.1 Crit` ere du maximum de vraisemblance a posteriori . . . . . . . . . . . . . . 11
2.2 Signal d eterministe avec bruit gaussien . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.1 Observation scalaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.2 Observation vectorielle ` a composantes ind ependantes . . . . . . . . . . . 15
2.2.3 Observations vectorielles corr el ees . . . . . . . . . . . . . . . . . . . . . . . 17
2.3 Bornes sur les probabilit es derreur . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.1 Borne de Chernoff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.2 Borne de Bhattacharya . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3 Classication 23
3.1 M ethodes g en eratives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1.1 Classication bay esienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1
3.1.2 Classication Bay esienne avec rejet . . . . . . . . . . . . . . . . . . . . . . 26
3.1.3 Classieur Bay esien naf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2 M ethodes discriminantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.1 Analyse discriminante de Fisher . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.2 Classication lin eaire supervis ee . . . . . . . . . . . . . . . . . . . . . . . . 32
A Rappel de calcul matriciel 34
B Rappel de ltrage num erique 37
C Rappel de probabilit es et processus al eatoires 39
C.1 Variables al eatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
C.2 Vecteurs al eatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
C.3 Vecteurs al eatoires gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
C.4 Conditionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2
Chapitre 1
Introduction
1.1 Inf erence statistique
Les m ethodes statistiques ont et e d evelopp ees, tout dabord simplement pour d ecrire les pro-
pri et es dun ensemble de donn ees collect ees, puis naturellement pour tenter de comprendre
les relations qui existaient entre cet ensemble de donn ees observ ees et le m ecanisme de pro-
duction de ces donn ees. En g en eral, la production de donn ees saccompagne dincertitude
due ` a une connaissance imparfaite des conditions de production ou ` a la pr esence de per-
turbations li ees ` a leur enregistrement. Linf erence statistique consiste ` a rechercher le mod` ele
de probabilit e sous-jacent ` a lorganisation des donn ees observ ees, ce qui donne la capacit e
de comprendre le ph enom` ene qui les a g en er ees. En ce sens, on peut dire que cette th eorie
fournit une interpr etation de la r ealit e plut ot quune explication de celle-ci.[7]. La notion de
mod elisation implique un potentiel de reproductibilit e de lensemble des donn ees, donc de
simulation, de synth` ese et de pr ediction du ph enom` ene. Une m ethode naturelle dinf erence
consiste par exemple ` a regrouper les donn ees en cat egories et donc ` a pratiquer une classica-
tion, ce qui conduit ` a un mod` ele de probabilit e sous forme dun m elange de distributions [4]
La th eorie de la d ecision statistique sappuie non seulement sur cette mod elisation pour prendre
des d ecisions, mais elle incorpore aussi des informations suppl ementaires concernant le m ecanisme
de production des donn ees, Cette connaissance peut etre elle-m eme d ecrite statistiquement par
un mod` ele probabiliste et elle est appel ee information a priori. Le r ole de cet a priori est fonda-
mental, car il permet de s electionner parmi toutes les solutions celles qui correspondent ` a des
situations r ealistes[1] adapt ees au probl` eme.
La solution au probl` eme dinf erence statistique exige en g en eral une d emarche doptimisation
bas ee sur un crit` ere fonction des informations recherch ees, fournissant la meilleure solution
satisfaisant ce crit` ere. Si la priori est erron e, cette optimisation peut se r ev eler en fait tr` es mau-
vaise. On peut donc lui pr ef erer une d emarche conduisant ` a une solution robuste dans laquelle
la connaissance a priori joue un r ole moins privil egi e ; les r esultats obtenus seront moins per-
3
formants, mais davantage r esistants ` a des erreurs de mod elisation.
On peut prendre comme exemple le ltrage dune sinusode bruit ee, dont on connat nomina-
tivement a priori la fr equence. Loptimisation consiste ` a placer un ltre tr` es etroit autour de
cette fr equence, an de supprimer un maximum de bruit. Si la fr equence r eelle de la sinusode
est diff erente de la fr equence nominale, elle peut se trouver en dehors de la bande passante
du ltre optimal, qui alors ne remplit plus sa fonction, alors quun ltre plus large, aux perfor-
mances de d ebruitage moins bonnes, mais plus robuste, joue encore son r ole.
Linformation ` a extraire appartient ` a un espace vectoriel de messages. On appelle hypoth` ese
(radar) ou classe (reconnaissance de formes, classication) ou message recu (communications)
lappartenance dun message ` a un sous-ensemble de lespace des messages. Lensemble des
hypoth` eses r ealise une partition de lespace des messages. Les hypoth` eses sont simples lors-
quil ny a quun seul message par hypoth` ese, sinon il sagit dhypoth` eses compos ees. Lespace
vectoriel des signaux caract erise le support physique de cette information et est en bijection
avec le pr ec edent. Ces signaux sont d eform es, bruit es, perturb es modi es au cours dun pro-
cessus de transport de cette information, pour former lespace vectoriel dobservation et leur
distribution de probabilit e d epend conditionnellement des messages. Lespace de d ecision est
en relation avec un sous-ensemble de lespace des messages.
FIG. 1.1 Sch ema g en eral de d ecision
Cette d emarche sapplique ` a tous types de donn ees num eriques, quelles soient produites par
des syst` emes physiques dacquisition , quelles r esultent denqu etes dopinion ou dobserva-
tions de terrain. Le champ des applications est donc gigantesque et on retrouve cette m eme
probl ematique dans de nombreux domaines
4
instrumentation
sismique terrestre et marine (production dimages acoustiques du sous-sol, construction,
exploitation mini` ere ou p etroli` ere,...)
nucl eaire (contr ole des installations, robotique en milieu hostile,...)
contr ole de processus industriel (r egulation de production, contr ole de qualit e, pr evision
de demande,...)
logistique et gestion des stocks (pr evision de rupture dapprovisionnement, ux tendu,...)
nance, economie, assurances, d emographie (lancement de campagne marketing, pr evision
dachats, d enition dun produit dassurances avec niveau de prix, risque associ e et b en ece
attendu,...)
biologie et diagnostic m edical (imagerie scanner, echographie, electro- -cardiologie, electromyographie,
electroenc ephalographie, ...)
strat egie et tactique militaire (radars de surveillance, dr ones, imagerie satellite, syst` emes de
d ecision,...)
spatial (satellites de t el ecommunications, dobservation de la terre, scientiques,...)
ecologie, agriculture, m et eorologie (optimisation de la gestion des cultures et de lutilisation
du mat eriel agricole,..)
Le domaine des Sciences et Technologies de lInformation a , en particulier, pour objectif de
d evelopper des m ethodes sp eciques mettant en oeuvre les principes dinf erence statistique .
De mani` ere non exhaustive, on peut lister divers probl` emes :
traitement statistique de signal
d etection radar
ltrage optimal
d econvolution
mod elisation
association de capteurs
communications num eriques
codage correcteur derreurs
egalisation num erique
modutations et acc` es multiple
synchronisation
traitement dimages
ltrage
deconvolution
segmentation et classication dimage
mod elisation des textures
estimation de mouvement
classication
reconnaissance de formes
analyse de sc` enes
reconnaissance de la parole
5
robotique, dr ones
1.2 D ecision bay esienne
La m ethode mise en oeuvre, linf erence statistique, qui consiste ` a induire les caract eristiques in-
connues dune population ` a partir dun echantillon issu de cette population sappuie sur la
r egle bay esienne.
Soient des variables al eatoires discr` etes X et Y prenant leurs valeurs dans x
i
, y
j
; i = 1, ..., n; j =
1, ..., m, dont les ev enements appartiennent ` a un espace de probabilit e (, T , T). Y correspond
` a des observations et X ` a des informations recherch ees. La r` egle bay esienne permet dassocier
les probabilit es conditionnelles sous la forme
P(X = x
i
[Y = y
j
) =
P(Y = y
j
[X = x
i
)P(X = x
i
)
P(Y = y
j
)
Dans linf erence bay esienne, les probabilit es sont davantage percues comme une fonction de
croyance que comme une question de d enombrement, telle que le propose une approche fr equentielle.
La probabilit e a priori P(X = x
i
) traduit plut ot la conance que lon accorde ` a la r ealisation de
cette hypoth` ese ou de ce message ` a partir dune exp erience personnelle ou partag ee et com-
mun ement admise. La probabilit e conditionnelle P(Y = y
j
[X = x
i
) porte le nom de vraisem-
blance : elle d ecrit comment se r epartissent les observations en fonction du message. La pro-
babilit e P(Y = y
j
) est appel ee evidence ou encore vraisemblance marginale, puisquelle peut etre
obtenue en sommant la distribution conjointe P(Y = y
j
, X = x
i
) sur x
i
.
P(Y = y
j
) =

I
P(Y = y
j
[X = x
i
)P(X = x
i
)
La distribution P(X = x
i
[Y = y
j
) est appel ee a posteriori, puisquelle sappuie sur les observa-
tions pour inf erer le mod` ele des informations.
Note : dans la suite, on simpliera la notation en remplacant X = x
i
et Y = y
j
respectivement
par x
i
et y
j
et on note P(X = x
i
) = P
i
Lexemple suivant va aider ` a mieux saisir le r ole de la priori dans lobtention dune d ecision et
justier lutilisation de la r egle de Bayes.
Supposons que lon veuille d etecter un avion avec un syst` eme radar. On appelle X la variable
al eatoire pr esence dun lavion et on note x
1
lhypoth` ese pr esence effective dun avion et x
2
celle dabsence. Le syst` eme radar d etecte correctement, avec une probabilit e de 98%, un avion
pr esent dans un secteur spatial, mais la probabilit e de fausse alarme (d etecter un avion absent)
est de 5%. La probabilit e davoir un avion dans ce secteur nest que de 10%. Quelle est la pro-
babilit e quun avion soit r eellement pr esent apr` es d etection radar ?
On note Y la variable al eatoire d etection de lavion, qui prend la valeur 1 en cas de d etection et
0 en cas de non d etection. On a donc les probabilit es suivantes :
6
p(Y = 1[X = x
1
) = 0.98 ; p(Y = 0[X = x
1
) = 0.02 ; p(Y = 1[X = x
2
) = 0.05 ; p(Y = 0[X =
x
2
) = 0.95 ; p(X = x
1
) = 0.1
En appliquant Bayes, on obtient p(X = x
1
[Y = 1) =
0.98x0.1
0.98x0.1+0.05x0.9
= 0.68
Le r esultat nest que de 68%. On voit bien que linuence de la connaissance a priori est pri-
mordiale dans lanalyse du r esultat, car intuitivement on aurait pu penser que la solution est
98%.
Le crit` ere de Maximum a posteriori semble naturel pour prendre une d ecision sur la valeur x
i
du message X apr` es observation de la valeur prise par Y. En labsence da priori, on ne peut
tabler que sur les donn ees pour extraire ce message, et le crit` ere ` a employer est de maximiser la
vraisemblance. (Maximum likelihood,ML). On cherche alors lhypoth` ese la plus vraisemblable
pour expliquer la distribution observ ee des donn ees.
1.3 Classication et Reconnaissance de formes
Classer a peut- etre et e la premi` ere d emarche scientique contribuant ` a essayer de d ecrire luni-
vers dans lequel nous nous trouvons en assemblant dans une m eme cat egorie des objets pr esentant
des similitudes, an de le comprendre et lexpliquer. La classication des esp` eces par Carl von
Linn e, lhistoire naturelle de Buffon au 17 eme si` ecle sont une premi` ere tentative scientique
d eclairer le monde, qui sest poursuivi par la classication p eriodique des el ements par Men-
deleiev au 18 eme si` ecle.
Les m ethodes de classication sont actuellement appliqu ees dans de nombreux domaines, pour
lesquels les donn ees, en tr` es grand nombre et vari ees, doivent etre organis ees pour fournir une
information intelligible. L economie, la m edecine sont consommateurs doutils de classica-
tion, en lien avec lanalyse de donn ees. Dans le domaine technologique, la reconnaissance de
formes, qui consiste ` a comparer le contour dobjets d etect es dans une image ou des signaux, ou
la t el ed etection, qui a pour objet de comparer des r egions observ ees sur des images provenant
dun capteur (hyperspectral, radar, sonar) port e par un vecteur (satellite, avion, drone), sont
utilisateurs de m ethodes de classication.
La reconnaissance automatique de formes fait lobjet dapplications tr` es pr ecises, maintenant
usuelles dans la vie quotidienne
caract` eres typographiques
ecriture manuscrite
codes postaux
visages sur des images
parole
objets biologiques (globules, ADN, mol ecules biologiques, ...)
identication de personnes (empreintes digitales, iris, ...)
tri de pi` eces industrielles
robotique
Une forme va etre d ecrite comme une fonction monodimensionnelle dans le cas dun signal ou
7
bidimensionnelle pour un contour, souvent ferm e, extrait dune image.
Le premier probl` eme est de caract eriser efcacement la forme, cest-` a-dire trouver un ensemble
de param` etres descripteurs capables de diff erencier la forme dune autre dans un ensemble
ni de formes, r ealisant un compromis entre obtention dun taux de reconnaissance elev e et
complexit e raisonnable du syst` eme de traitement. On peut en effet penser que plus le vecteur
descripteur sera de grande dimension, et donc riche en information, meilleure sera la reconnais-
sance. Cependant, cela se paie par deux inconv enients : dune part, la complexit e augment ee
par le nombre de descripteurs, ensuite une trop grande adaptation aux exemples choisis pour
la base dapprentissage. Il faut de plus trouver des descripteurs ind ependants qui contribuent
chacun ` a diminuer la probabilit e derreur de classication. Or en g en eral, les descripteurs, choi-
sis de mani` ere arbitraire, sont redondants ou apportent peu dinformation suppl ementaire : il
faut donc souvent proc eder ` a une analyse conduisant ` a une r eduction du nombre de ces des-
cripteurs pour ne conserver que ceux qui sont effectivement utiles. Une caract eristique souvent
indispensable dans le choix dun descripteur de forme est son invariance ` a diff erentes transfor-
mations telles que la rotation, la translation, lhomoth etie, le contraste.....
Le second probl` eme consiste ` a cr eer une base dapprentissage, cest-` a-dire un ensemble dexemples
de toutes les formes ` a classer, qui va d enir le mod` ele de classication. On distingue le cas su-
pervis e, dans lequel un expert associe ` a chaque el ement de la base dapprentissage sa classe ou
etiquette, ce qui nest pas le cas en classication non supervis ee, qui ne dispose pas dexpertise.
Il existe aussi des cas semi-supervis es, pour lesquels certaines donn ees sont etiquet ees , dautres
pas, et le cas faiblement supervis e, pour lequel les etiquettes ne sont pas explicitement connues,
mais une probabilit e a priori davoir cette etiquette est connue. Cette base de donn ees permet
destimer les distributions des vecteurs descripteurs conditionnellement ` a chaque classe dans
le cas supervis e, ou le m elange de distribution des vecteurs descripteurs dans le cas non super-
vis e. La composition de la base doit etre sufsamment etoff ee en nombre dexemples par classe
pour bien repr esenter la variabilit e intrins` eque des descripteurs de chaque classe, equilibr ee
pour que toutes les classes aient sensiblement le m eme nombre de repr esentants, de dimension
raisonnable pour eviter davoir ` a g erer une base de donn ees trop importante.
8
Chapitre 2
Th eorie de la D etection
Lespace des messages est partitionn e en deux, de m eme que celui de d ecision et on etablit
une correspondance bijective entre les deux.[3] Le message (ou hypoth` ese) est une variable
al eatoire discr` ete de type Bernouilli, que lon note H et qui prend deux valeurs H
1
ou H
2
. La
variable al eatoire D caract erise la d ecision, est aussi de type Bernouilli et prend ses valeurs
dans le m eme ensemble que H. A partir de lobservation dun signal correspondant ` a lun ou
lautre des messages, on cherche ` a d eduire ` a quel message le rattacher.
On peut aussi concevoir ce probl` eme comme un test dhypoth` eses concernant un vecteur ob-
serv e y dont la distribution de probabilit e d epend de param` etres inconnus , un ensemble de
param` etres
1
correspondant ` a lhypoth` ese H
1
et un autre ensemble
2
` a H
2
. Suivant la connais-
sance totale ou partielle de cette distribution, on distinguera hypoth` eses simples ou compos ees.
H
1
: P(y[
1
)
H
2
: P(y[
2
)
On cherche une fonction de d ecision qui aura pour effet de partitionner lespace dobservation
en deux sous-ensembles A
1
et A
2
, chacun correspondant ` a une d ecision.
Exemples typiques : savoir si une cible est pr esente ou absente (radar) ; savoir distinguer deux
signaux en opposition de phase (modulation biphase) ; faire un diagnostic m edical (patient ma-
lade ou non),.....
Exemple : imaginons le cas dune usine qui fabrique des rondelles sur une chane de produc-
tion. Certaines rondelles, dans le processus de fabrication, ne respectent pas la norme de forme
et doivent etre ecart ees, et , pour cela, on r ealise un tri automatique ` a partir dune prise dimage.
Le processus de fabrication est sujet ` a des al eas m ecaniques, qui induisent des modications
de forme sur les pi` eces produites et une une variance sur leurs dimensions. On teste la chane
de fabrication et on observe deux classes, des formes plut ot rondes, que lon accepte et dautres
plut ot ovales, que lon veut rejeter. Lhypoth` ese H
1
est davoir la pr esence, apr` es d etection
9
de contour, dun cercle sur limage, et lhypoth` ese H
2
dune ellipse. Sur limage , on d etecte
le centre de gravit e, et on mesure deux diam` etres orthogonaux, qui forment alors un vecteur
dobservation bidimensionnel.
y =
_
y
1
y
2
_
T
On fait fonctionner la chane de production et on mod elise la distribution de ce vecteur al eatoire
suivant les deux hypoth` eses. Il sagit dune phase dapprentissage de ces distributions, essen-
tielle ` a la d etection.
Supposons la mod elisation gaussienne et les variables ind ependantes.
Pour lhypoth` ese H
1
, y
1
^(y
1
;
0
,
2
) et y
2
^(y
2
;
0
,
2
).
Pour lhypoth` ese H
2
, y
1
^(y
1
;
1
,
2
) et y
2
^(y
2
;
2
,
2
).
H
1
: p(y[
1
) =
1
2
2
exp[
1
2
2
[(y
1

0
)
2
) + (y
2

0
)
2
]]
H
2
: p(y[
2
) =
1
2
2
exp[
1
2
2
[(y
1

1
)
2
) + (y
2

2
)
2
]]
FIG. 2.1 Espace dobservation : celles de H
1
correspondent ` a des cercles, celles de H
2
` a des
rectangles ; les centres de classes sont gur es par des croix (multiplication pour H
1
, addition
pour H
2
)
La gure 2.1 montre la r epartition des vecteurs observ es dans lespace dobservation (ici R
2
)
fournissant ainsi deux nuages de points suivant les deux hypoth` eses. Le centre de gravit e de
chaque nuage correspond ` a la moyenne du vecteur y conditionnellement ` a chaque hypoth` ese
et lextension du nuage est d eni par les variances conditionnelles. On comprend que d ecider
dune hypoth` ese conditionnellement ` a une mesure revient ` a effectuer une s eparation de les-
pace dobservation en deux sous-ensembles et ` a affecter ` a lobservation lhypoth` ese du sous-
ensemble auquel elle appartient. D etecter revient donc ` a chercher une fronti` ere de d ecision
10
dans lespace dobservation et les erreurs de d etection sont caus ees par linterp en etration des
nuages.
Plusieurs strat egies de d etection peuvent alors etre imagin ees, soit globale en sappuyant sur
un mod` ele de distribution (m ethode Bay esienne), soit locale en utilisant uniquement les obser-
vations ( m ethode des plus proches voisins)
2.1 D etection bay esienne
2.1.1 Crit` ere du maximum de vraisemblance a posteriori
On dispose dun couple de variables al eatoires (D, H) pouvant prendre chacune les valeurs
H
i
; i = 1, 2. On associe ` a chaque couple D = H
j
, H = H
i
; i, j = 1, 2 un co ut C
ij
. Le co ut
est faible lorsque la d ecision est correcte, cest-` a-dire i = j et elev e en cas derreur, cest-` a-dire
i ,= j et C
ij
0. La probabilit e dune d ecision conditionnellement ` a une hypoth` ese est fonction
du partitionnement de lespace dobservation. Donc
P(D = H
j
[H = H
i
) = P(y A
j
[H = H
i
)
o` u A
j
est le sous-ensemble dobservation correspondant ` a la d ecision H
j
. Cette probabilit e peut
aussi sexprimer par int egration de la vraisemblance sur A
j
.
P(D = H
j
[H = H
i
) =
_ _
.......
_
. .
A
j
p(y[H
i
)dy
On cherche nalement ` a minimiser le co ut moyen E[C((A
1
, A
2
)] en fonction du choix de la
partition A
j
; j = 1, 2.
E
A
1
,A
2
[C] =
2

i=1
2

j=1
C
ij
P(y A
j
, H
i
) =
2

i=1
2

j=1
C
ij
P(y A
j
[H
i
)P(H
i
)
Par la suite, on utilise les notations suivantes
P(H
i
) = P
i
et
_ _
.......
_
. .
A
j
p(y[H
i
)dy =
_
A
j
p
i
(y)dy
et
P(D = H
j
[y) = P
y
(j)
.
11
E
A
1
,A
2
[C] = C
11
_
A
1
p
1
(y)P
1
dy + C
12
_
A
2
p
1
(y)P
1
dy + C
21
_
A
1
p
2
(y)P
2
dy + C
22
_
A
2
p
2
(y)P
2
dy
Or P
1
+ P
2
= 1 et
_
A
1
p
i
(y)dy +
_
A
2
p
i
(y)dy = 1.
On en d eduit
E
A
1
,A
2
[C] = C
12
P
1
+ C
22
P
2
+
_
A
1
[(C
11
C
12
)p
1
(y)P
1
+ (C
21
C
22
)p
2
(y)P
2
]dy
Puisque C
12
P
1
+ C
22
P
2
0, le co ut moyen minimal sera obtenu pour un choix de r egion A
1
telle que lint egrale soit la plus n egative possible, donc correspondant aux r egions de lespace
dobservation pour lesquelles la fonction est elle-m eme n egative. Sur le domaine A
1
, on d ecide
D = H
1
, ce qui peut encore s ecrire, en faisant apparatre le rapport de vraisemblance =
p
1
(y)
p
2
(y)
,
p
1
(y)
p
2
(y)
H
1
>
<
H
2
(C
21
C
22
)P
2
(C
12
C
11
)P
1
(2.1)
Puisque C
ij
> C
ii
et p
i
(y)P
i
= P
y
(j)p(y), on obtient une r` egle de d ecision bas ee sur la vraisem-
blance a posteriori
P
y
(1)
P
y
(2)
H
1
>
<
H
2
C
21
C
22
C
12
C11
(2.2)
La fonction Ln etant monotone croissante, il est equivalent de calculer la Logvraisemblance,
puisque lin egalit e nest pas affect ee par cette transformation, et que cela simplie le calcul
dans le cas de distributions appartenant ` a la famille exponentielle.
Il faut souligner que la comparaison fait intervenir les valeurs des densit es de probabilit e condi-
tionnelles au point y, ainsi que les probabilit es a priori. Ce crit` ere permet de trouver le d etecteur
bay esien optimal.
Le choix particulier des fonctions de co ut C
ij
= 1 pour i ,= j et C
ij
= 0 pour i = j conduit
au crit` ere du maximum de vraisemblance a posteriori, puisque la d ecision correspond ` a D =
arg(max
j
(P
y
(j)); j = 1, 2)
Le co ut minimum sexprime alors par
E
(
A

1
, A

2
) = P(D = H

1
, H = H
2
) + P(D = H

2
, H = H
1
)
12
o` u (A

1
, A

2
) indique la partition optimale op er ee par le crit` ere de maximum de vraisemblance
a posteriori Il correspond ` a la probabilit e derreur minimale P

e
, qui est alors une mesure des
performances du d etecteur.
P

e
= P
2
_
A

1
p
2
(y)dy + P
1
_
A

2
p
1
(y)dy
La probabilit e derreur minimale peut aussi sexprimer comme
P

e
= 1 P
2
_
A

2
p
2
(y)dy P
1
_
A

1
p
1
(y)dy = 1 P

C
o` u P

C
correspond ` a la probabilit e de d ecision correcte.
Le cas particulier d equiprobabilit e P
1
= P
2
= 0.5 impose simplement une comparaison entre
vraisemblances, do` u le nom de maximum de vraisemblance, qui lui est associ e.
2.2 Signal d eterministe avec bruit gaussien
2.2.1 Observation scalaire
On prend lexemple dune image constitu ee dun fond et dun objet pos e sur ce fond, qui se
distinguent par leur niveau moyen de gris diff erent. L observation de limage est bruit ee et on
cherche ` a identier si un pixel appartient au fond ou ` a lobjet.
FIG. 2.2 D etection de pixels dune forme pos ee sur un fond
On mod elise le probl` eme en faisant lhypoth` ese que les pixels du fond (resp. de la forme) sont
distribu es suivant une loi gaussienne ^(y; m
1
,
2
) (resp. ^(y; m
2
,
2
)) avec m
1
< m
2
. (Lhy-
poth` ese nest pas totalement r ealiste, car , la valeur des pixels etant positif, on ne pourrait avoir
quune gaussienne tronqu ee. Cependant, si la variance du bruit nest pas trop elev ee et si les
13
moyennes sont sufsamment eloign ees de 0, lhypoth` ese reste acceptable, car les queues de
distribution seront n egligeables). On observe la valeur de chaque pixel et on d ecide de son
appartenance ` a lune ou lautre classe suivant le crit` ere du maximum a posteriori.
Les distributions P
1
, P
2
peuvent etre estim ees en connaissant a priori la surface de lobjet par
rapport ` a celle de limage.
Lapplication de la Logvraisemblance fournit :
Ln(
p
1
(y)
p
2
(y)
H
1
>
<
H
2
Ln(
P
2
P
1
)
(y m
2
)
2
(y m
1
)
2
H
1
>
<
H
2
2
2
Ln(
P
2
P
1
)
y
H
2
>
<
H
1
m
1
+ m
2
2
+

2
m
1
m
2
Ln(
P
2
P
1
)
Cette expression fournit le seuil de d etection =
m
1
+m
2
2
+

2
m
1
m
2
Ln(
P
2
P
1
) ` a appliquer, qui devient
simplement =
m
1
+m
2
2
sil y a equiprobabilit e a priori des classes.
FIG. 2.3 D etection dans un cas gaussien scalaire
14
La probabilit e derreur s evalue par :
P

e
= P(y < [H
2
)P
2
+ P(y > [H
1
)P
1
P

e
= P
2

p
2
(y)dy + P
1

p
1
(y)dy
Dans le cas equiprobable, on obtient apr` es changement de variable :
P

e
=
1

_
m
2
m
1
2
e

2
2
d
D enissant la fonction cumulative par
(x) =
1

2
x
_

2
2
d
et la fonction compl ementaire par
Q(x) =
1

_
x
e

2
2
d
, on obtient
P

e
= Q(
m
2
m
1
2
)
.
On peut aussi utiliser la fonction erf d enie par
erf(x) =
2

x
_
0
e

2
d
ou sa fonction compl ementaire
erfc(x) = 1 erf(x)
.
2.2.2 Observation vectorielle ` a composantes ind ependantes
Imaginons quon localise une fen etre nxn autour du pixel ` a d etecter, et que lon observe alors
lensemble des pixels de la fen etre pour prendre la d ecision. Lobservation est un vecteur y de
dimensions N = n
2
. Les pixels sont des r ealisations dune variable al eatoire de distribution
gaussienne ^(y; m
i
,
2
); i = 1, 2. (On fait lhypoth` ese que les valeurs des pixels r esultent dun
tirage al eatoire fait de mani` ere ind ependante et identiquement distribu ee (i.i.d) selon cette dis-
tribution). Les composantes de ce vecteur sont donc ind ependantes.
15
p
i
(y) = p
i
(y
1
, y
2
, ..., y
N
) =
N

k=1
p
i
(y
k
)
Ln(
N

k=1
p
1
(y
k
)
N

k=1
p
2
(y
k
)
)
H
1
>
<
H
2
Ln(
P
2
P
1
)
Il sensuit
l(y) =
1
N
N

k=1
y
k
H
2
>
<
H
1
m
1
+ m
2
2
+

2
N(m
1
m
2
)
Ln(
P
2
P
1
)
Le d etecteur l(y) = consiste ` a effectuer une moyenne arithm etique des pixels de la fen etre et
` a comparer ` a un seuil de d etection.
P

e
= P(l(y) < [H
2
)P
2
+ P(l(y) > [H
1
)P
1
Il faut donc d eterminer la forme de la densit e de probabilit e conditionnelle de la variable
al eatoire l(y) pour pouvoir evaluer la probabilit e derreur. Dans le cas g en eral, il sagit de
calculer la nouvelle distribution en fonction de celle des donn ees apr` es application de la trans-
formation correspondant au d etecteur. Comme, dans cet exemple, il sagit dune combinaison
lin eaire de variables al eatoires gaussiennes, on obtient encore une variable gaussienne, et il
suft de calculer sa moyenne et sa variance pour connatre totalement la distribution.
E[l(y)[H
1
] = m
1
E[l(y)[H
2
] = m
2

2
l(y)
=

2
N
On constate que la diff erence avec le cas scalaire r eside dans la diminution de la variance dun
facteur N.
P(l(y) < [H
2
) =

N(l m
2
)
2
2
2
dl
Dans le cas equiprobable, on obtient
P

e
= Q(
(m
2
m
1
)

N
2
)
16
2.2.3 Observations vectorielles corr el ees
Filtrage adapt e
Reprenant lexemple de la gure 2.2, on suppose maintenant que le fond et la forme se dis-
tinguent par leur texture de type structur ee avec un motif r egulier p eriodique de m eme taille
pour chacun deux. De plus, le bruit additif sur limage est de nature gaussienne, mais color e,
cest ` a dire poss edant une corr elation connue.
On mod elise le probl` eme comme la d etection dun signal vectoriel d eterministe s
i
; i = 1, 2 ,
dont les composantes sont les pixels obtenus suivant un balayage ligne par ligne dune imagette
de taille N=nxn, ce signal etant accompagn e dun bruit additif b.
H
i
: s
i
= [s
i
(1), ........, s
i
(N)]
T
avec i=1,2
Les signaux s
i
; i = 1, 2 sont suppos es avoir des energies diff erentes E
1
=
n

k=1
s
1
(k)
2
< E
2
=
N

k=1
s
2
(k)
2
Le bruit b = [b(1), ......, b(N)]
T
poss` ede une moyenne nulle et une covariance V
b
= E[bb
T
].
On observe y = s
i
+ b suivant lhypoth` ese H
i
.
Le bruit etant gaussien, il sensuit que la distribution de y est aussi gaussienne, puisque trans-
formation de b ` a y est lin eaire. Les matrices de covariances, conditionnellement ` a chaque hy-
poth` eses, sont identiques et valent V
b
, alors que les moyennes diff erent et valent s
i
: i = 1, 2
p
(
y) = p
b
(y s
i
) =^(y; s
i
, V
b
), i=1,2.
Si les deux hypoth` eses sont equiprobables, lapplication du crit` ere du maximum de vraisem-
blance a posteriori Ln
p
1
(y)
p
2
(y)
H
1
>
<
H
2
0 conduit aux relations
(y s
1
)
T
V
1
b
(y s
1
) (y s
2
)
T
V
1
b
(y s
2
)
H
2
>
<
H
1
0
(s
2
s
1
)
T
V
1
b
y
H
2
>
<
H
1
1
2
(s
T
2
V
1
b
s
2
s
T
1
V
1
s
1
)
Or s
T
2
V
1
b
s
1
= (s
T
2
V
1
b
s
1
)
T
, puisquil sagit dun scalaire, et on en d eduit s
T
2
V
1
b
s
1
= s
T
1
V
1
s
2
,
puisque, la matrice de covariance etant sym etrique, V
1
b
= (V
1
b
)
T
.
s
T
2
V
1
b
s
2
s
T
1
V
1
b
s
1
= (s
2
+ s
1
)
T
V
1
b
(s
2
s
1
)
17
(y
s
2
+ s
1
2
)
T
V
1
b
(s
2
s
1
)
H
2
>
<
H
1
0
Cela traduit lorthogonalit e entre les deux vecteurs dans un espace vectoriel de signaux d energie
nie muni du produit scalaire < u, v >= u
T
V
1
v et de la norme < u, u >
1
2
= (u
T
V
1
b
u)
1
2
Dans le cas particulier o` u le bruit est blanc et donc V
b
=
2
b
I, on retrouve le contexte de 2.2.2
avec des pixels ind ependants, mais n etant pas stationnaires ` a lordre 1, puisque de moyenne
diff erente en fonction de leur position dans la fen etre.
y
T
(s
2
s
1
)
H
2
>
<
H
1
1
2
(s
T
2
s
2
s
T
1
s
1
)
y
T
(s
2
s
1
)
H
2
>
<
H
1
1
2
(E
2
E
1
)
Le d etecteur optimal r ealise la corr elation entre lobservation et chaque signal ` a d etecter, puis
compare la diff erence ` a un seuil, qui est simplement la moiti e de la diff erence d energie des
signaux. Il a une structure lin eaire, puisquil fournit une variable de test qui provient dune
combinaison lin eaire des donn ees avec des coefcients s
i
(k).
N

k=1
(s
2
(k) s
1
(k))y(k)
H
2
>
<
H
1
1
2
(E
2
E
1
)
FIG. 2.4 D etection par corr elation
On passe facilement dune corr elation ` a une convolution en renversant le sens du temps pour
le signal, ce qui fournit le ltre adapt e au signal d eterministe , dont la r eponse impulsionnelle
vaut h
i
(k) = s
i
(N k).
18
N

k=1
(h
2
(N k) h
1
(N k))y(k) =
N

k=1
(s
2
(k) s
1
(k))y(k)
FIG. 2.5 Filtrage adapt e
Notons
d
21
(y) = (y
s
2
+ s
1
2
)
T
V
1
(s
2
s
1
)
H
2
: d
21
(y) > 0
H
1
: d
21
(y) < 0
La distance de Malahanobis entre les vecteurs s
1
et s
2
est d enie par
d
2
= (s
1
s
2
)
T
V
1
(s
1
s
2
)
(lorsque V =
2
I, il sagit de la distance euclidienne)
d
21
(y) est une nouvelle variable al eatoire, gaussienne puisquelle est obtenue lin eairement en
fonction de y. Sa moyenne, pour i=1,2, est
E[d
21
(y)[H
i
] = (s
i

s
2
+ s
1
2
)
T
V
1
(s
2
s
1
)
ce qui donne
E[d
21
(y)[H
1
] =
1
2
d
2
E[d
21
(y)[H
2
] =
1
2
d
2
et sa variance vaut i = 1, 2

2
d
21
(y)
= (s
1
s
2
)
T
V
1
(s
1
s
2
)
On peut alors evaluer la probabilit e derreur par
19
P
e
=
1
2
(P(d
21
(y) > 0[H
1
) + P(d
21
(y) < 0[H
2
))
Finalement, apr` es utilisation de la fonction Q et changement de variables, on obtient
P
e
= Q(
d
2
)
Lorsque les deux classes ne sont pas equiprobable, lexpression devient
P
e
= P
1
Q(
d
2
+
1
d
Ln
P
1
P
2
) + P
2
Q(
d
2

1
d
Ln
P
1
P
2
)
D etection quadratique
Reprenant lexemple 2.2.2, on traite maintenant le cas o` u les deux textures du fond et de la
forme sont al eatoires, distribu ees suivant des gaussiennes de moyennes , mais aussi de cova-
riances, diff erentes V
i
; i = 1, 2.
H
i
: y
i
= [y
i
(1), ........, y
i
(N)]
T
avec i=1,2
H
i
: y
i
^(y; m
i
, V
i
) avec i=1,2
Si les deux hypoth` eses sont equiprobables, lapplication du crit` ere du maximum a posteriori
Ln
p
1
(y)
p
2
(y)
H
1
> 0 conduit aux relations
(y m
1
)
T
V
1
1
(y m
1
) (y m
2
)
T
V
1
2
(y m
2
) + Ln(
|V
1
|
|V
2
|
)
H
2
>
<
H
1
0
La surface de d ecision est alors de forme quadratique y
T
Ay + b
T
y + c = 0 o` u les diff erents
termes valent
A = V
1
1
V
1
2
b = 2(V
1
2
m
2
V
1
1
m
1
)
c = m
T
1
V
1
1
m
1
m
T
2
V
1
2
m
2
+ Ln(
|V
1
|
|V
2
|
)
Dans le cas particulier o` u tous les pixels sont ind ependants et donc V
i
=
2
i
I; i = 1, 2 avec

2
2
>
2
1
, et o` u le fond et lobjet sont de m eme moyenne m, les seules caract eristiques qui
permettent de les distinguer sont les variances, et on a comme d etecteur quadratique
N

k=1
(y(k) m)
2
H
2
>
<
H
1
N
2
1

2
2

2
2

2
1
Ln

2
2

2
1
20
Le d etecteur est alors un estimateur de la variance
1
N
N

k=1
(y(k) m)
2
, sensible ` a l energie des
composantes du vecteur dobservation.
La variable al eatoire
N

k=1
(y(k) m)
2
, etant une somme de carr es de variables gaussiennes non
centr ees , suit une loi du
2
N,m
non centr ee lorsquelle est normalis ee sous une des deux hy-
poth` eses H
i
; i = 1, 2.
l
i
(y) =
1

2
i
N

k=1
(y(k) m)
2

2
N,m
Appelant Q

2
N,m
() =

p(x)dx lint egrale de la queue de cette distribution, et utilisant la nota-


tion =
N
2
1

2
2

2
2

2
1
Ln

2
2

2
1
, on obtient
P
e
=
1
2
(1 Q

2
N,m
(

2
2
)) +
1
2
Q

2
N,m
(

2
1
)
2.3 Bornes sur les probabilit es derreur
2.3.1 Borne de Chernoff
Dans un grand nombre de situations, il devient tr` es difcile de calculer explicitement la pro-
babilit e derreur moyenne. Une premi` ere solution consiste ` a effectuer une exp erimentation et
` a estimer cette probabilit e par un comptage du nombre derreurs de d etection obtenues sur un
nombre dessais x es. Si lon cherche de tr` es faibles probabilit es derreur, comme en communi-
cations num eriques, cela se traduit en g en eral par des dur ees tr` es longues de simulation.
Une autre mani` ere dop erer consiste ` a chercher une borne sup erieure pour cette probabilit e
derreur, qui soit facilement calculable.
P

e
= P
2
_
A

1
p
2
(y)dy + P
1
_
A

2
p
1
(y)dy
P

e
=
_

minP
1
p
1
(y), P
2
p
2
(y)dy
Lidentit e mina, b a
s
b
1s
avec 0 a, b, s 1, appliqu ee ` a minP
1
p
1
(y), P
2
p
2
(y), fournit
P

e
P
s
1
P
1s
2
e
(s)
(s) = Ln

p
s
1
(y)p
1s
2
(y)dy
21
2.3.2 Borne de Bhattacharya
Pour s =
1
2
, on utilise lidentit e
mina, b

ab
ce qui donne
P

e

_
P
1
P
2

_
p
1
(y)p
2
(y)dy
Dans le cas dobservations gaussiennes, ces bornes peuvent etre explicitement calcul ees.
22
Chapitre 3
Classication
3.1 M ethodes g en eratives
Dans ces m ethodes, lobjectif est de mod eliser la distributions statistique des descripteurs et
de sappuyer sur ce mod` ele pour effectuer la classication. Les fronti` eres de d ecision ne sont
donc pas obtenues directement ` a partir des donn ees, mais apr` es une analyse statistique de
celles-ci. Dans le cadre supervis e, les distributions conditionnelles ` a chaque classe sont es-
tim ees, que ce soit par un mod` ele param etrique dont on estime les param` etres, ou de facon
non param etrique. Dans le cas non supervis e, il faut estimer des m elanges de distributions.
Ces m ethodes b en ecient des avantages propres ` a toute mod elisation, cest-` a-dire une moindre
d ependance vis-` a-vis des donn ees dapprentissage, mais elles ont pour inconv enient de n ecessiter
la connaissance de la forme de la distribution dans le cas param etrique et la forme du noyau
servant ` a lestimation pour le cas non param etrique. Il est possible de choisir parmi diff erentes
distributions celle qui est la plus repr esentative des donn ees par validation crois ee, ou par des
crit` eres de type th eorie de linformation (crit` ere dAkake, crit` ere de Rissanen,...)
Des crit` eres de distance entre distributions sont employ es pour d eterminer le degr e de s eparabilit e
des classes. Notons d
ij
la distance entre les classes i et j, qui doit v erier les propri et es classiques
de mesure de distance
d
ij
0
d
ii
= d
jj
= 0
d
ij
= d
ji
d
ij
+ d
jk
d
ik
(in egalit e triangulaire)
(Lorsque la propri et e din egalit e triangulaire nest pas remplie, on appelle divergence plut ot
que distance la fonction correspondante).
23
On peut citer parmi les plus populaires
la distance de Malahannobis d
ij
= (m
i
m
j
)
T
V
1
(m
i
m
j
), o` u m
i
et V sont respectivement
les moyennes et covariances des vecteurs descripteurs
la distance de Bhattacharya d
ij
= ln[
_

(p
i
(y)p
j
(y))
1/2
dy]
la divergence de K ullback-Leibler d
ij
=
_

p
i
(y)
p
i
(y)
p
j
(y)
dy
la divergence de Jensen-Shannon d
ij
=
1
2
[
_

p
j
(y)
p
i
(y)
p
i
(y)
dy +
_

p
j
(y)
p
j
(y)
p
i
(y)
dy]
3.1.1 Classication bay esienne
Le probl` eme de la d etection Bay esienne est simplement g en eralis e ` a Khypoth` eses ou classes , la
variable al eatoire X pouvant prendre les valeurs x
i
; i = 1, ...., K [2]. On observe le vecteur y
R
n
. La prise de d ecision s etablit ` a partir dune strat egie s de partition de lespace dobservation,
qui fournit K sous-espaces A
j
; j = 1, ...., K. A chaque partition, on associe une d ecision D
prenant ses valeurs dans le m eme ensemble que celui de lespace des classes.
On cherche la partition qui minimise la fonction de co ut moyen
E[C(s)] =
K

i=1
K

j=1
C
ij
P(D = x
j
, X = x
i
)
E[C(s)] =
K

i=1
K

j=1
_
A
j
C
ij
p
i
(y)P
i
dy
Dans le cas o` u les fonctions de co uts sont choisies telles que
_
C
ij
= 0 i = j
C
ij
= 1 i ,= j
E[C(s)] =
K

i=1
P
i
K

i=1
i,=j
P
i
(D = x
j
)
E[C(s)] =
K

i=1
P
i
(1 P
i
(D = x
i
)) = 1
K

i=1
P(D = x
i
, X = x
i
) = 1 P
D
= P
e
Minimiser ce co ut moyen revient alors ` a minimiser la probabilit e derreur moyenne.
P
e
= 1
K

i=1
_
A
i
P
I
p
i
(y)dy = 1
K

i=1
_
A
i
P
y
(x
i
)p(y)dy
Minimiser P
e
est equivalent ` a rechercher la partition qui maximise la probabilit e a posteriori
pour chaque r egion A
i
x

i
= argmax
i
P
y
(x
i
); i = 1, ..., K
24
ce quon peut aussi ecrire
D

= x
i
P
i
.p
i
(y) P
j
.p
j
(y); j = 1, , K; i = 1, , K
La probabilit e derreur moyenne sexprime alors par :
P

e
= 1
K

i=1
_
A
i
max
i
[P
I
p
i
(y)]dy
Classication Bay esienne dans le cas gaussien
On retrouve encore ici une g en eralisation du probl` eme de la d etection en consid erant les couples
classes et d ecision D = x
j
, X = x
i
; i, j = 1, , K deux ` a deux et en calculant chaque fronti` ere
pour deux classes. Pour trouver la solution g en erale, on associe toutes les fronti` eres de d ecision
en faisant apparatre chaque r egion A
j
.
La fonction ln etant monotone croissante, le maximum est inchang e si on compare les valeurs
ln(P
i
p
i
(y)) pour lobservation y. Pour des observations gaussiennes,
H
i
: y
i
^(y; m
i
, V
i
) avec i = 1, , K.
Lapplication du crit` ere du maximum a posteriori pour les couples D = x
j
, X = x
i
; i, j =
1, , K s ecrit
ln
p
i
(y)
p
j
(y)
x
i
>
<
x
j
ln(
P
j
P
i
)
.
Il fait apparatre la fonction discriminante
d
ij
= ln(P
i
.p
i
(y)) ln(P
j
.p
j
(y))
qui donne comme crit` ere de d ecision
D

= x
i
d
ij
(y) 0; j = 1, , K; i = 1, , K
Les surfaces discriminantes correspondent aux equations d
ij
(y) = 0.
d
ij
(y) =
1
2
(y m
j
)
T
V
1
j
(y m
j
)
1
2
(y m
i
)
T
V
1
i
(y m
i
)
1
2
ln(
|V
i
|
|V
j
|
) + ln
P
i
P
j
D enissant la distance de Malahannobis entre les vecteurs u et v par
d
2
V
(u, v) = (u v)
T
V
1
u
(u v)
25
on peut exprimer l equation donnant la surface discriminante ` a laide de la diff erence des dis-
tances de Malahannobis entre le vecteur observ e et le vecteur moyenne des classes i et j.
d
2
V
i
(y, m
i
) d
2
V
j
(y, m
j
) = ln(
|V
i
|
|V
j
|
) + 2 ln
P
i
P
j
Dans le cas o` u les matrices de covariance des classes sont identiques et les classes equiprobables,
la surface discriminante correspond ` a l egalit e des distances , et donc ` a lhyperplan mediateur de
m
i
m
j
: il sagit donc dun classieur lin eaire.
D enissant le produit scalaire entre les vecteurs u et v par < u, v >= u
T
V
1
u
v, on interpr` ete
aussi cette equation comme lorthogonalit e entre (y
m
i
+m
j
2
) et m
j
m
i
(y
m
i
+ m
j
2
)
T
V
1
(m
j
m
i
)
x
i
>
<
x
j
0
Lorsque les matrices de covariance sont diff erentes suivant les classes, on est dans le cas g en eral
dun classieur quadratique : les surfaces de discrimination sont alors des quadriques (sph ere,
parabolode, hyperbolode, ellipsode)
y
T
Ay + b
T
y + c = 0
o` u les diff erents termes valent
A = V
1
i
V
1
j
b = 2(V
1
j
m
j
V
1
i
m
i
)
c = m
T
i
V
1
i
m
i
m
T
j
V
1
j
m
j
+ln(
|V
i
|
|V
j
|
)
3.1.2 Classication Bay esienne avec rejet
Certains signaux , tr` es proches de la fronti` ere de d ecision, peuvent affecter davantage la pro-
babilit e derreur que des signaux qui en sont eloign es, puisquil suft dun peu de bruit pour
entraner une d ecision erron ee en faisant passer lobservation bruit ee correspondant ` a ce signal
de lautre c ot e de cette fronti` ere. Une m ethode consiste alors ` a trier parmi les donn ees celles
qui sont trop proches de cette fronti` ere et de les rejeter en ne les classant pas. On fait ainsi ap-
paratre une nouvelle classe dans lespace de d ecision, appel ee classe de rejet. Lefcacit e de la
m ethode repose sur un bon choix du taux de rejet.
On dispose de K hypoth` eses ou classes , la variable al eatoire X pouvant prendre les valeurs
x
i
; i = 1, ...., K. On observe le vecteur y R
n
. La prise de d ecision s etablit ` a partir dune
strat egie s de partition de lespace dobservation, qui fournit K+1 sous-espaces A
j
; j = 1, ...., K+
1, K classes correspondant ` a celles de X et la (K +1)
eme
` a la classe de rejet . A chaque partition,
26
on associe une d ecision D prenant des valeurs dans lensemble x
jr
; j = 1, ...., K + 1 o` u x
K+1r
est la classe de rejet.
On cherche la partition qui minimise la fonction de co ut moyen
E[C(s)] =
K

i=1
K+1

j=1
C
ij
P(D = x
jr
, X = x
i
)
On choisit les m emes fonctions de co ut que pour lanalyse discriminante et une fonction de
co ut suppl ementaire pour j = K +1.
_
_
_
C
ij
= 0 i = j
C
ij
= 1 i ,= j
C
ij
=
K+1
j = K +1 0 <
K+1
< 1
ce qui donne
E[C
r
(s)] =
K

i=1
P
i
(1 P
i
(D = x
ir
)) +
K+1
K

i=1
P
i
.P
i
(D = x
r,K+1
)
E[C
r
(s)] =
K

i=1
P
i
(1 P
i
(D = x
ir
)) +
K+1
P(D = x
r,K+1
)
P
e,r
= 1
K

i=1
_
A
i
P
I
p
i
(y)dy +
_
A
K+1

K+1
p(y)dy
P
e,r
= 1
K

i=1
_
A
i
P
y
(x
i
)p(y)dy +
_
A
K+1

K+1
p(y)dy
Trouver la partition qui minimise le risque moyen revient ` a associer ` a chaque r egion A
j
x

jr
= argmin
i
(
K+1
, 1 P
y
(x
i
)); i = 1, , K
ce qui donne aussi
D

r
= x
i,r

K+1
< min
i
(1 P
y
(x
i
)); i = 1, , K
La solution est donc identique au cas bay esien si la valeur de la densit e a posteriori est sup erieure
` a un seuil 1
K+1
; dans le cas contraire, on rejette lobservation sans faire de classication.
Comme 1 P
y
(x
i
)) repr esente la probabilit e derreur conditionnelle, le rejet ` a lieu si celle-ci est
sup erieure ` a
K+1
.
27
D etection avec rejet dans le cas dobservations gaussiennes
On suppose les deux classes equiprobables et les observations poss` edent des distributions
gaussiennes H
i
: y
i
^(y; m
i
, V) avec i = 1, 2 et m
1
= m
2
= m.
Il y a rejet si < min
i
(1 P
y
(x
i
)); i = 1, 2
Cas o` u P
y
(x
1
) > P
y
(x
2
)
On d ecide x
1
dans le cas bay esien. Dans le cas avec rejet, on doit v erier que, de plus, P
y
(x
1
) >
1 , sinon il y a rejet. PuisqueP
y
(x
1
) + P
y
(x
2
) = 1, il y a donc rejet pour P
y
(x
2
) >
P
y
(x
2
) =
P
y
(x
2
)
P
y
(x
1
) + P
y
(x
2
)
=
P
y
(x
2
)
P
y
(x
1
)
1 +
P
y
(x
2
)
P
y
(x
1
)
P
y
(x
2
)
P
y
(x
1
)
= exp(
1
2
(y m)
T
V
1
(y m) +
1
2
(y + m)
T
V
1
(y + m))
P
y
(x
2
)
P
y
(x
1
)
= exp(2m
T
V
1
y) < 1
exp(2m
T
V
1
y)
1 + exp(2m
T
V
1
y)
>
exp(2m
T
V
1
y) >

1
La r egion de rejet A
3
dans la r egion A

1
est donc donn ee par lhyperplan
2m
T
V
1
y > ln(

1
)
Cas o` u P
y
(x
2
) > P
y
(x
1
)
On obtient 2m
T
V
1
y < ln(
1

)
En rassemblant les r esultats, on trouve quil y a rejet pour
[2m
T
V
1
y[ < ln(
1

)
La probabilit e de rejet s evalue comme
P
r
= Q(

d

d
2
) Q(

d

d
2
)
avec d
2
= 4m
T
V
1
m et = ln(

1
)
28
3.1.3 Classieur Bay esien naf
Si la connaissance de la matrice de covariance est difcile ` a obtenir, soit parce que le nombre
de donn ees est insufsant pour avoir une estimation correcte, soit parce que sa dimension
serait trop importante, on peut raisonner comme si les observations etaient ind ependantes et
appliquer le crit` ere du maximum de vraisemblance a posteriori dans ces conditions, obtenant
ainsi un classieur dit naf. Les r esultats obtenus, sils ne sont pas optimaux, sont cependant
qualitativement raisonnables.
D

= x
i
P
i
.p
i
(y) P
j
.p
j
(y); j = 1, , K; i = 1, , K
p
i
(y) =
n

k=1
p
i
(y
k
)
3.1.4 Analyse discriminante de Fisher
FIG. 3.1 Analyse discriminante lin eaire de Fisher
Il sagit de s eparer lin eairement deux nuages de points et donc de trouver l equation dun
hyperplan s eparateur dans lespace des descripteurs, de la forme
w
T
y + b = 0
avec pour crit` ere de maximiser la distance entre les projections des deux centres de gravit e
sur ce plan et de minimiser leur variance. Puisque le produit scalaire w
T
y
(i)
k
correspond ` a la
projection de y
(i)
k
sur laxe d eni par le vecteur w,on cherche donc les param` etres (w, b) de la
transformation
w
T
y
(i)
k
+ b = z
(i)
k
qui maximise
f =
(
1

2
)
2

2
1
+
2
2
29
avec, pour i = 1, 2

i
= w
T
m
i
+ b
et

2
i
= w
T
V
i
w
Lhyperplan s eparateur sera donc orthogonal au vecteur w.
On r esout
f
w
=
f

1
w
+
f

2
w
+
f

2
1

2
1
w
+
f

2
2

2
2
w
= 0
ce qui donne
w = (V
1
+ V
2
)
1
(m
1
m
2
)
Le param` etre b ne d epend pas de f et doit etre choisi ensuite comme celui qui minimise la
probabilit e derreur. On remarque que , lorsque V
1
= V
2
, on retrouve la solution trouv ee pour
une d etection dans le cas gaussien.
Ce r esultat peut en fait etre interpr et e plus g en eralement comme la solution dun probl` eme de
diagonalisation de matrice. En effet,
(
1

2
)
2
= w
T
(m
1
m
2
)(m
1
m
2
)
T
w = 2w
T
V
B
w
et

2
1
+
2
2
= w
T
(V
1
+ V
2
)w = 2w
T
V
W
w
et donc la fonction ` a maximiser s ecrit aussi
f =
w
T
V
B
w
w
T
V
W
w
Puisque la dispersion totale du nuage w
T
Vw reste constante sur laxe discriminant, et que
w
T
Vw = w
T
V
B
w + w
T
V
W
w, maximiser f revient ` a maximiser w
T
V
B
w avec la contrainte
davoir w
T
Vw constant, ce qui se r esout par la m ethode doptimisation de Lagrange.
max
w
(w
T
V
B
ww
T
Vw)
fournit
V
B
w

Vw

A condition que V ne soit pas singuli` ere, la solution est donc de rechercher le vecteur propre
w

associ e ` a la valeur propre maximale

qui diagonalise la matrice V


1
V
B
. Suivant cette
direction propre, la projection des deux nuages fournit la meilleure discrimination, lhyperplan
s eparateur etant orthogonal ` a cette direction.
La m ethode peut etre etendue ` a un nombre K de classes en d enissant une transformation
z = W
T
y, o` u W est la matrice dont les colonnes sont les vecteurs w
i
, i=1,...,K-1. On trouve K-1
valeurs propres non nulles en diagonalisant V
1
V
B
[6]
Cette m ethode sert aussi pour s electionner les param` etres descripteurs les plus pertinents et
les hi erarchiser en terme defcacit e dans la discrimination. La diagonalisation de la matrice
conduit ` a lobtention de n valeurs propres, que lon ordonne de mani` ere d ecroissante. Les k
plus fortes valeurs propres correspondent aux axes discriminants les plus appropri es pour
s eparer les deux nuages dans lespace des descripteurs ; ils correspondent ` a une transforma-
tion lin eaire des param` etres descripteurs.
30
3.1.5 Classication lin eaire supervis ee
On cherche ` a avoir des hyperplans s eparateurs, car la r ealisation de ces classieurs en est sim-
pli ee. On choisit des fonctions de discrimination lin eaires
g(y) = w
T
y + w
0
, le probl` eme restant ` a r esoudre etant den trouver les param` etres, ce qui conduit ` a la r egression
lin eaire.
On consid` ere tout dabord le cas de deux classes. On dispose de vecteurs dapprentissage de
dimension n class es par un expert, et donc de couples (y
j
, x
j
).j=1,...N, o` u (x
j
(x
(1)
, x
(2)
)).
La fonction discriminante lin eaire associe ` a chaque y
j
une valeur g(y
j
) = w
T
y
j
+ w
0
, qui est
positive pour x
1
, n egative sinon, lhyperplan s eparateur etant d eni pour g(y) = w
T
y + w
0
=
0. On affecte une valeur 1 ` a x
(1)
et 0 ` a x
(2)
et on cherche lhyperplan qui minimise
N

j=1
(x
j
g(y
j
))
2
en fonction de w et w
0
.
Le vecteur x a pour composantes les x
j
, qui prennent des valeurs (0,1), la matrice de dimension
Nx(n+1) Y a pour lignes les vecteurs [1y
j
] et w
/
= [w
0
w]
T
, ce qui permet de r e- ecrire lexpres-
sion ` a minimiser
(x Y
T
w
/
)
T
(x Y
T
w
/
)
(m ethode des moindres carr es)
En appliquant les r egles de d erivation par rapport au vecteur w
/
, on obtient :
Y
T
(x Yw
/
) = 0
ce qui donne comme solution
w
/
= (Y
T
Y)
1
Y
T
x
Dans le cas de K classes, on associe ` a chaque classe un indicateur (x
k
, k = 1, , K) qui prend
une valeur 1 ou 0 suivant sa r ealisation, et qui forme un vecteur x
j
de dimension K . On a donc
des couples (y
j
, x
j
) pour lapprentissage. On note X la matrice indicatrice de dimension NxK et
on minimise alors
(X YW)
T
(X YW)
en fonction de la matrice W de dimension (n+1)xK qui a pour colonnes les vecteurs w
k
relatifs
` a chaque fonction discriminante. On obtient nalement :
W = (Y
T
Y)
1
Y
T
X
Il faut signaler que cette m ethode de classication nest pas adapt ee lorsque le nombre de
classes est elev e et la dimension n petite ` a cause deffets de masquage entre classes. [8]
31
Annexe A
Rappel de calcul matriciel
Dans cette annexe, les vecteurs et matrices sont r eels.
Une matrice A est un tableau de nombres a
ij
de dimensions mxn, avec i = 1, 2, ....., m, j =
1, 2, ..., n.
La matrice transpos ee, not ee A
T
, est la matrice d el ements a
ji
de dimensions nxm.
Une matrice carr ee est telle que m = n. Elle est sym etrique si A = A
T
. Linverse dune matrice
carr ee est not ee A
1
. Elle v erie
A
1
A = AA
1
= I (A.1)
I est la matrice identit e telle que
a
ij
=
ij
=

1 si i = j
0 si i ,= j
Linverse nexiste que si le rang, cest ` a dire le nombre de colonnes lin eairement ind ependantes
de A est n. Sinon la matrice est singuli ere. Le d eterminant de la matrice carr ee A, not e det(A),
vaut
det(A) =
n

j=1
a
ij
C
ij
(A.2)
o` u le cofacteur C
ij
se calcule par
C
ij
= (1)
i+j
M
ij
(A.3)
M
ij
est le d eterminant des matrices obtenues en supprimant la i
eme
ligne et la j
eme
colonne de
A.
La trace de la matrice carr ee A est la somme des el ements diagonaux.
tr(A) =
n

i=1
a
ii
32
Les op erations suivantes peuvent etre effectu ees sur les matrices carr ees.
(AB)
T
= B
T
A
T
(A
T
)
1
= (A
1
)
T
(AB)
1
= B
1
A
1
det(AB) = det(A)det(B)
det(A
1
) = (det(A))1
Pour deux vecteurs x et y , on a la relation suivante
y
T
x = x
T
y = tr(xy
T
) = tr(yx
T
) =
n

i=1
x
i
y
i
Lemme dinversion matricielle
Dans le cas de matrices A de dimension nxn, B de dimension nxm,C de dimension mxm,D de
dimension mxn, on a
(A + BCD)
1
= A
1
A
1
B(DA
1
B + C
1
)
1
DA
1
(A.4)
Lorsque B est un vecteur u de dimension nx1, D de dimension 1xn, c un scalaire, on a le cas
sp ecial de lidentit e de Woodbury.
(A + uu
T
)
1
= A
1

A
1
uu
T
A
1
1 + u
T
A
1
u
(A.5)
D ecomposition des matrices
Une matrice carr ee est diagonalisable sil existe une matrice diagonale et une matrice inver-
sible V tel que
A = VV
1
(A.6)
La matrice contient les valeurs propres
i
; i = 1, ..., n. La matrice V a pour colonne les vec-
teurs propres v
i
; i = 1, ..., n.
Lorsque A est sym etrique, la matrice V est orthogonale, cest ` a dire que V
T
= V
1
et les vec-
teurs propres forment une base orthogonale de lespace vectoriel associ e.
La d ecomposition LU consiste en une factorisation de la matrice sous forme de deux matrices
triangulaires inf erieures et sup erieures ; cette d ecomposition intervient dans la m ethode din-
version par le pivot de Gauss.
33
La d ecomposition PR consiste en factorisation sous forme dune matrice orthogonale et dune
matrice triangulaire ; cette d ecomposition intervient dans la proc edure dorthogonalisation de
Gram-Schmidt.
D erivation dun scalaire par rapport ` a un vecteur
(x
T
y)
y
= x
(y
T
x)
y
= x
(x
T
Ax)
x
= (A
T
+ A)x
Si la matrice A est sym etrique, A = A
T
, et
(x
T
Ax)
x
= 2Ax
34
Annexe B
Rappel de ltrage num erique
Un ltre num erique r ealise une transformation lin eaire dun signal.
Deux types de ltres sont disponibles :
les ltres num eriques non r ecursifs, ou transversaux, ou ` a r eponse impulsionnelle nie
Ils s ecrivent
y(k) =
n1

i=0
h
i
x(k i)
o` u h
i
est la r eponse impulsionnelle du ltre. Ces ltres ne poss edent pas de p oles et sont
donc toujours stables. Ils peuvent etre ` a phase lin eaire lorsque la r eponse impulsionnelle est
rendue sym etrique, ce qui est n ecessaire dans des applications o` u le retard de groupe entre
lentr ee et la sortie doit rester constant en fonction de la fr equence.
les ltres num eriques r ecursifs ou ` a r eponse impulsionnelle innie Ces ltres s ecrivent
y(k) =
n

j=1
a
i
y(k j) +
m

i=0
b
i
x(k i)
On peut aussi faire apparatre le produit de convolution discret avec la r eponse impulsion-
nelle innie h
i
y(k) =

i=0
h
i
x(k i)
En appliquant la transform ee en z et en utilisant la propri et e Z(y(k j)) = z
j
Z(y(k)), on
montre que la fonction de transfert du ltre, qui est aussi la transform ee en z de la r eponse
impulsionnelle, s ecrit :
H(z) =

m
i=0
b
i
z

i
1 +
n
i=1
a
i
z
i
35
Ces ltres poss edent donc des p oles. Pour quils soient stables, leurs p oles doivent etre situ es
dans le cercle unit e. Si tous leurs z eros sont dans le cercle unit e, ils sont aussi ` a phase mi-
nimale. Leur complexit e en nombre de coefcients est r eduite par rapport aux ltres non
r ecursifs, mais il faut pouvoir contr oler leur stabilit e, surtout sil sagit de ltres adaptatifs.
36
Annexe C
Rappel de probabilit es et processus
al eatoires
Un espace de probabilit e est compos e dun triplet (, T , T) o` u repr esente lensemble des
ev enements, T la mesure de probabilit e associ ee ` a un ev enement et T la tribu, cest ` a dire len-
semble des sous-ensembles d ev enements.
A chaque ev enement , on associe une valeur num erique par linterm ediaire dune application
de dans '. Si cette fonction est mesurable, il sagit dune variable al eatoire r eelle X() , qui
poss ede la fonction de r epartition F(x) = P(X() x)
C.1 Variables al eatoires
Les variables al eatoires discr` etes prennent des valeurs discr` etes x
i
avec une probabilit e P(X =
x
i
) = P
i
et
i
P
i
= 1.
Les variables al eatoires continues font apparatre une densit e de probabilit e p(x) =
dF(x)
dx
o` u
dF(x) = P(x < X x + dx) et
_
+

p(x)dx = 1.
On peut souvent se contenter dune connaissance moindre que celle , compl` ete, de la distribu-
tion. Il sagit alors des moments de la variables al eatoire X qui sexpriment par
m
k
= E[X
k
] =
_
x
k
p(x)dx
pour des variables continues et
m
k
= E[X
k
] =

i
x
k
i
p
i
pour des variables discr` etes.
37
Les moments centr es sont d enis par

k
= E[(X E(X))
k
] =
_
(x m)
k
p(x)dx
ou

k
= E[(X E(X))
k
] =

i
(x
i
m)
k
p
i
Parmi ces moments, la moyenne m = E[X] et la variance
2
= E[(X m)
2
] sont les premiers
` a etre calcul es ; on y ajoute souvent lasym etrie (skewness ), moment centr e dordre trois, d eni
par
3
/
3
et laplatissement (kurtosis) , moment centr e dordre 4, d eni par (
4
3
4
)/
4
.
C.2 Vecteurs al eatoires
Il sagit dun vecteur X() de R
n
, dont les composantes sont des variables al eatoires (X
i
(); i =
1, ..., n) formant un ensemble multidimensionnel.
Si lindice des composantes est le temps, ce vecteur re` ete un processus al eatoire ` a temps discret ;
si ce m eme indice correspond au signal fourni au m eme instant par un capteur plac e ` a une
position d enie, ce vecteur sera utilis e pour traduire un traitement spatial multicapteurs et les
interactions entre capteurs situ es ` a des positions diff erentes. Il est bien sur possible dassocier
temps et espace au sein dune seule repr esentation vectorielle. Dans le cadre de la reconnais-
sance de formes ou de la classication, les composantes du vecteur seront les descripteurs
utilis es pour caract eriser un objet.
La fonction de r epartition s ecrit
F(x) = P(X
1
x
1
, X
2
x
2
, .........., X
n
x
n
)
.
Dans le cas de n variables al eatoires continues, on fait apparatre la densit e de probabilit e mul-
tidimensionnelle en d erivant la fonction de r epartition n fois par rapport ` a chaque variable, ce
qui signie que
_
p(x)dx =
_
.........
_
. .
n
p(x
1
, x
2
, ..., x
n
)dx
1
dx
2
....dx
n
et dans le cas discret P
i
= P(X
i
= x
i
).
Des variables al eatoires sont dites ind ependantes si P(X
1
x
1
, X
2
x
2
, .........., X
n
x
n
) =
n

i=1
P(X
i
x
i
). Dans le cas de variables al eatoires continues, on obtient le produit des densit es
p(x) =
n

i=1
p(x
i
).
38
On peut aussi calculer les moments du vecteur, qui vont alors traduire une interaction entre les
composantes de ce vecteur. La moyenne est le vecteur m = E[X] avec E[x(i)] =
_
x
i
p(x
i
)dx
i
.
Dans le cas particulier o` u toutes les valeurs moyennes des composantes sont identiques, le
vecteur al eatoire sera dit stationnaire au premier ordre . Le moment dordre deux est appel e ma-
trice dautocovariance et s ecrit V
X
= E[(X E[X])(X E[X])
T
]. Un el ement de cette matrice
de covariance sera not e v
ij
= E[(x
i
E[x
i
])(x
j
E[x
j
])]. La diagonale principale de la matrice
dautocovariance correspond ` a la variance, not ee usuellement
2
i
= E[(x
i
E[x
i
])
2
]. Dans le
cas particulier o` u toutes les variances sont identiques, et o` u la valeur v
ij
ne d epend que de
la diff erence k = [i j[, le vecteur al eatoire sera dit stationnaire au second ordre. Une propri et e
int eressante de la matrice dautocovariance est d etre sym etrique dans le cas r eel, et hermi-
tienne dans le cas complexe (V

= V
T
). Dans le cas stationnaire au second ordre, lorsque tous
les el ements de la matrice dautocovariance sont nuls, sauf les el ements diagonaux, les compo-
santes du vecteur sont dites non corr el ees et lon a V =
2
I o` u I est la matrice identit e.
On d enit la matrice de corr elation par R = E[XX
T
]. ( Il faut souligner [5] que la terminologie
nest pas adapt ee malgr e lusage, puisque des variables al eatoires sont non corr el ees si leur
covariance est nulle, alors que leur corr elation ainsi d enie E[x
i
x
j
] = m
i
m
j
nest pas nulle).
Dans le cas dun vecteur ` a deux dimensions (bidimensionnel), on d enit le coefcient de corr elation,
qui est en r ealit e une covariance normalis ee,
ij
=

2
ij

j
.
Pour deux vecteurs al eatoires X et Y, on d enit une matrice dintercovariance V
XY
= E[(X
E[X])(Y E[Y)]
T
], qui est nulle lorsque les deux vecteurs sont d ecorr el es.
C.3 Vecteurs al eatoires gaussiens
Le vecteur al eatoire gaussien poss ede une distribution de probabilit e
p(x) =
1
(2)
n
2
(det(V
x
))
1
2
exp[
1
2
(x m
x
)
T
V
1
x
(x m
x
)]
Cette distribution est enti` erement d enie par la connaissance des deux premiers moments.
Dans le cas scalaire, la distribution se r eduit ` a
p(x) =
1
(2
2
)
1
2
exp[
(x m)
2
2
2
]
Pour un couple de variables al eatoires X
1
, X
2
, la matrice de covariance, de dimension 2x2,
s ecrit V =
_

2
1

2
12

2
21

2
2
_
En utilisant
2
12
=
1

2
, linverse de la matrice dautocovariance devient
39
V
1
=
1

2
1

2
2
(1
2
)
_

2
2

1

2

2
1
_
(x m)
T
V
1
(x m) =
1
(1
2
)
(
(x
1
m
1
)
2

2
1

2(x
1
m
1
)(x
2
m
2
)

2
+
(x
2
m
2
)
2

2
2
)
p(x
1
, x
2
) =
1
2
1

2
(1
2
)
1/2
exp[
1
2(1
2
)
(
(x
1
m
1
)
2

2
1

2(x
1
m
1
)(x
2
m
2
)

2
+
(x
2
m
2
)
2

2
2
)]
Dans le cas de variables al eatoires stationnaires gaussiennes non corr el ees, linverse de la ma-
trice dautocovariance est V
1
=
1

2
I, ce qui donne
(x m)
T
V
1
(x m) =
1

2
n

i=1
(x
i
m)
2
detV =
2n
et donc
p(x) = p(x
1
, x
2
, ...., x
n
) =
1
(2)
n/2

n
exp(
n

i=1
(x
i
m)
2
2
2
) =
n

i=1
p(x
i
)
ce qui montre que les variables al eatoires sont alors ind ependantes. Pour dautres distributions
que la gaussienne, la non corr elation nentrane pas lind ependance, car des moments dordre
sup erieurs ` a deux peuvent exister.
C.4 Conditionnement
Soit un couple de variables al eatoires X
1
et X
2
` a valeurs discr` etes dans x
i
; i = 1, ..., n et
x
j
; j = 1, ..., m La probabilit e dobtenir une r ealisation pour ce couple de variables est P(X
1
=
x
i
, X
2
= x
j
).
La probabilit e conditionnelle de X
1
par rapport ` a X
2
est d enie par
P(X
1
= x
i
[X
2
= x
j
) =
P(X
1
= x
i
, X
2
= x
j
)
P(X
2
= x
j
)
cest la probabilit e davoir la r ealisation x
i
alors que lon a observ e la valeur x
j
. Les indices
pouvant etre permut es, on obtient aussi
P(X
2
= x
j
[X
1
= x
i
) =
P(X
1
= x
i
, X
2
= x
j
)
P(X
1
= x
i
)
.
40
La r egle de Bayes permet de passer dun conditionnement ` a lautre
P(X
2
= x
j
[X
1
= x
i
) =
P(X
1
= x
i
[X
2
= x
j
)P(X
2
= x
j
)
P(X
1
= x
i
)
Il peut sagir dun jeu de 52 cartes o` u X
1
est la variable gure comprenant valet, dame, roi
et les chiffres de 1 ` a 10 et X
2
la variable couleur comprenant pique, coeur, carreau, tr` ee. La
probabilit e dune r ealisation du couple correspond au tirage dune carte et vaut
1
52
. Si la couleur
est d ej ` a connue, la probabilit e dobtenir une valeur de gure conditionnellement ` a la couleur
devient P(X
1
= x
i
[X
2
= x
j
) =
1
13
; inversement , si la gure est connue, la probabilit e dobtenir
une valeur de couleur devient P(X
2
= x
i
[X
1
= x
j
) =
1
4
. Il sagit en fait dun cas particulier , o` u
les deux variables al eatoires sont ind ependantes, puisque lon a
P(X
2
= x
j
[X
1
= x
i
) = P(X
2
= x
j
)
.
On retrouve alors que des variables al eatoires ind ependantes v erient P(X
1
= x
i
, X
2
= x
j
) =
P(X
1
= x
i
)P(X
2
= x
j
).
La probabilit e marginale sexprime comme
P(X
1
= x
i
) =
m

j=1
P(X
1
= x
i
, X
2
= x
j
)
La r egle de Bayes sexprime alors par
P(X
2
= x
j
[X
1
= x
i
) =
P(X
1
= x
i
[X
2
= x
j
)P(X
2
= x
j
)
m

j=1
P(X
1
= x
i
, X
2
= x
j
)
Dans le cas de variables al eatoires ` a valeurs continues, on retrouve des expressions semblables
au cas discret en utilisant F(x + dx) F(x) = P(x < X x + dx) = p(x)dx.
Pour un couple de variables al eatoires X
1
et X
2
, on calcule une densit e de probabilit e conjointe
p(x
1
, x
2
) = p(x
1
[x
2
)p(x
2
) = p(x
2
[x
1
)p(x
1
).
La densit e de probabilit e marginale se calcule par p(x
1
) =
_
x
2
1
p(x
1
, x
2
)dx
2
La r egle de Bayes devient
P(x
1
< X
1
x
1
+dx
1
[x
2
< X
2
x
2
+dx
2
) =
P(x
2
< X
2
x
2
+ dx
2
[x
1
< X
1
x
1
+ dx
1
)P(x
1
< X
1
x
1
+ dx
1
P(x
2
< X
2
x
2
+ dx
2
)
41
P(x
1
< X
1
x
1
+ dx
1
[x
2
< X
2
x
2
+ dx
2
) = p(x
1
[x
2
)dx
1
Do` u on trouve
p(x
1
[x
2
) =
p(x
2
[x
1
)p(x
1
)
p(x
2
)
Dans le cas mixte o` u lune des variables al eatoire X
1
est ` a valeurs discr` etes et lautre ` a valeurs
continues, on a
P(X
1
= x
1
[x
2
) =
p(x
2
[X
1
= x
1
)P(X
1
= x
1
)
p(x
2
)
o` u p(x
2
)est la valeur de la densit e pour la r ealisation x
2
, o` u p(x
2
[X
1
= x
1
) est la valeur de la
densit e pour la r ealisation x
2
conditionnellement ` a la r ealisation x
1
et P(X
1
= x
1
[x
2
) la proba-
bilit e davoir la valeur x
2
conditionnellement ` a lobservation de la r ealisation x
1
.
Dans le cas vectoriel, les distributions conditionnelles senchanent sous une forme multiplica-
tive.
p(x) = p(x
2
, x
3
, ....., x
n
[x
1
)p(x
1
) = p(x
3
, x
4
, ..., x
n
[x
1
, x
2
)p(x
2
[x
1
)p(x
1
)
ce qui entrane
p(x) = p(x
n
[x
n1
, x
n2
, ......, x
1
)p(x
n1
[x
n
2
, ...., x
1
)...........p(x
2
[x
1
)p(x
1
)
Si la d ependance entre variables al eatoires nest qu ` a lordre 1, cest-` a-dire que chaque variable
al eatoire ne d epend que de celle poss edant lindice pr ec edent, il sagit dun processus markovien
dordre un, ce qui donne
p(x) = p(x
n
[x
n1
)p(x
n1
[x
n
2
)...........p(x
2
[x
1
)p(x
1
)
p(x) = p(x
1
)
n

i=2
p(x
i
[x
i1
)
42
Bibliographie
[1] James O. Berger. Statistical decision theory and Bayesian analysis. Springer series in Statistics.
Springer, 1985.
[2] Keinosuke Fukunaga. Statistical pattern recognition. Academic press, 1990.
[3] Steven M. Kay. Fundamentals of Statistical Signal Processing, volume Detection theory of
Signal processing series. Prentice Hall, 1998.
[4] David J.C. MacKay. Information theory, Inference and learning algorithms. Cambridge Univer-
sity Press, 2003.
[5] Bernard Picinbono. Signaux al eatoires, volume probabilit es et variables al eatoires. Dunod
Universit e, 1993.
[6] David G.Stork Richard O. Duda, Peter E.Hart. Pattern Classication. John Wiley, 2001.
[7] Christian P. Robert. The Bayesian Choice. Springer series in Statistics. Springer, 2007.
[8] Jerome Friedman Trevor Hastie, Robert Tibshirani. The elements of statistical learning. Sprin-
ger series in statistics. Springer, 2001.
43

Vous aimerez peut-être aussi