Vous êtes sur la page 1sur 44
MASTER SISEA Classification (UE1) Jean-Marc Boucher Annee´ 2012

MASTER SISEA

Classification (UE1)

Jean-Marc Boucher

Annee´

2012

Table des mati`eres

1 Introduction

3

Inference´

1.1 statistique

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

3

1.2 bayesienne´

Decision´

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

6

1.3 Classification et Reconnaissance de formes

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

7

2 Th´eorie de la D´etection

9

2.1 Detection´

bayesienne´

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

11

2.1.1

Critere`

du maximum de vraisemblance a posteriori

 

11

2.2 Signal deterministe´

avec bruit gaussien

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

13

2.2.1 Observation scalaire

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

13

2.2.2 Observation vectorielle a` composantes independantes´

.

.

.

.

.

.

.

.

.

.

.

15

2.2.3 Observations vectorielles correl´ ees´

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

17

2.3 Bornes sur les probabilites´

d’erreur .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

21

2.3.1 Borne de Chernoff

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

21

2.3.2 Borne de Bhattacharya .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

22

3 Classification

23

3.1

Methodes´

gen´ eratives´

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

23

3.1.1

Classification bayesienne´

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

24

 

1

 

3.1.2 Classification Bayesienne´

avec rejet

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

26

3.1.3 Classifieur Bayesien´

na¨ıf .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

29

3.2

Methodes´

discriminantes

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

29

3.2.1 Analyse discriminante de Fisher

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

30

3.2.2 Classification lineaire´

supervisee´

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

32

A Rappel de calcul matriciel

 

34

B Rappel de filtrage num´erique

 

37

C Rappel de probabilit´es et processus al´eatoires

 

39

C.1

Variables aleatoires´

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

39

C.2

Vecteurs aleatoires´

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

40

C.3

Vecteurs aleatoires´

gaussiens

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

41

C.4

Conditionnement

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

42

 

2

Chapitre 1

Introduction

1.1 Inf´erence statistique

Les methodes´ statistiques ont et´ e´ developp´ ees,´ tout d’abord simplement pour decrire´ les pro- priet´ es´ d’un ensemble de donnees´ collectees,´ puis naturellement pour tenter de comprendre les relations qui existaient entre cet ensemble de donnees´ observees´ et le mecanisme´ de pro- duction de ces donnees.´ En gen´ eral,´ la production de donnees´ s’accompagne d’incertitude due a` une connaissance imparfaite des conditions de production ou a` la presence´ de per- turbations liees´ a` leur enregistrement. L’inf´erence statistique consiste a` rechercher le mod`ele de probabilite´ sous-jacent a` l’organisation des donnees´ observees,´ ce qui donne la capacite´ de comprendre le phenom´ ene` qui les a gen´ er´ ees.´ En ce sens, on peut dire que cette theorie´ fournit une interpr´etation de la realit´ e´ plutotˆ qu’une explication de celle-ci.[7]. La notion de modelisation´ implique un potentiel de reproductibilite´ de l’ensemble des donnees,´ donc de simulation, de synthese` et de prediction´ du phenom´ ene.` Une methode´ naturelle d’inference´ consiste par exemple a` regrouper les donnees´ en categories´ et donc a` pratiquer une classifica- tion, ce qui conduit a` un modele` de probabilite´ sous forme d’un melange´ de distributions [4]

La theorie´ de la d´ecision statistique s’appuie non seulement sur cette modelisation´ pour prendre des decisions,´ mais elle incorpore aussi des informations supplementaires´ concernant le mecanisme´ de production des donnees,´ Cette connaissance peut etreˆ elle-memeˆ decrite´ statistiquement par un modele` probabiliste et elle est appelee´ information a priori. Le roleˆ de cet a priori est fonda- mental, car il permet de selectionner´ parmi toutes les solutions celles qui correspondent a` des situations realistes[1]´ adaptees´ au probleme.`

La solution au probleme` d’inference´ statistique exige en gen´ eral´ une demarche´ d’optimisation basee´ sur un crit`ere fonction des informations recherchees,´ fournissant la meilleure solution satisfaisant ce critere.` Si l’a priori est errone,´ cette optimisation peut se rev´ eler´ en fait tres` mau- vaise. On peut donc lui pref´ erer´ une demarche´ conduisant a` une solution robuste dans laquelle la connaissance a priori joue un roleˆ moins privilegi´ e´ ; les resultats´ obtenus seront moins per-

3

formants, mais davantage resistants´

a` des erreurs de modelisation.´

On peut prendre comme exemple le filtrage d’une sinuso¨ıde bruitee,´ dont on connaˆıt nomina- tivement a priori la frequence.´ L’optimisation consiste a` placer un filtre tres` etroit´ autour de cette frequence,´ afin de supprimer un maximum de bruit. Si la frequence´ reelle´ de la sinuso¨ıde est differente´ de la frequence´ nominale, elle peut se trouver en dehors de la bande passante du filtre optimal, qui alors ne remplit plus sa fonction, alors qu’un filtre plus large, aux perfor- mances de debruitage´ moins bonnes, mais plus robuste, joue encore son role.ˆ

L’information a` extraire appartient a` un espace vectoriel de messages. On appelle hypothese` (radar) ou classe (reconnaissance de formes, classification) ou message rec¸u (communications) l’appartenance d’un message a` un sous-ensemble de l’espace des messages. L’ensemble des hypotheses` realise´ une partition de l’espace des messages. Les hypotheses` sont simples lors- qu’il n’y a qu’un seul message par hypothese,` sinon il s’agit d’hypotheses` composees.´ L’espace vectoriel des signaux caracterise´ le support physique de cette information et est en bijection avec le prec´ edent.´ Ces signaux sont deform´ es,´ bruites,´ perturbes´ modifies´ au cours d’un pro- cessus de transport de cette information, pour former l’espace vectoriel d’observation et leur distribution de probabilite´ depend´ conditionnellement des messages. L’espace de decision´ est en relation avec un sous-ensemble de l’espace des messages.

relation avec un sous-ensemble de l’espace des messages. F IG . 1.1 – Schema´ gen´ eral´

FIG. 1.1 – Schema´

gen´ eral´

de decision´

Cette demarche´ s’applique a` tous types de donnees´ numeriques,´ qu’elles soient produites par des systemes` physiques d’acquisition , qu’elles resultent´ d’enquetesˆ d’opinion ou d’observa- tions de terrain. Le champ des applications est donc gigantesque et on retrouve cette memeˆ problematique´ dans de nombreux domaines

4

– instrumentation

– sismique terrestre et marine (production d’images acoustiques du sous-sol, construction,

exploitation miniere` ou petroli´

ere,

)`

– nucleaire´ (controleˆ des installations, robotique en milieu hostile, )

– controleˆ de processus industriel (regulation´ de production, controleˆ de qualite,´ prevision´ de demande, )

– logistique et gestion des stocks (prevision´ de rupture d’approvisionnement, flux tendu, )

– finance, economie,´ assurances, demographie´ (lancement de campagne marketing, prevision´ d’achats, definition´ d’un produit d’assurances avec niveau de prix, risque associe´ et ben´ efice´ attendu, )

– biologie et diagnostic medical´ (imagerie scanner, echographie,´ electro-´ -cardiologie, electromyographie,´

electroenc´ ephalographie,´

)

– strategie´ et tactique militaire (radars de surveillance, drones,ˆ imagerie satellite, systemes` de

decision,

– spatial (satellites de tel´ ecommunications,´ d’observation de la terre, scientifiques,

– ecologie,´ agriculture, met´ eorologie´ (optimisation de la gestion des cultures et de l’utilisation du materiel´ agricole, )

)

Le domaine des Sciences et Technologies de l’Information a , en particulier, pour objectif de developper´ des methodes´ specifiques´ mettant en oeuvre les principes d’inference´ statistique . De maniere` non exhaustive, on peut lister divers problemes` :

– traitement statistique de signal

detection´ radar

filtrage optimal

deconvolution´

modelisation´

association de capteurs

– communications numeriques´

– codage correcteur d’erreurs

– egalisation´ numerique´

– modutations et acces` multiple

– synchronisation

– traitement d’images

filtrage

deconvolution

segmentation et classification d’image

modelisation´

des textures

estimation de mouvement

– classification

– reconnaissance de formes

– analyse de scenes`

– reconnaissance de la parole

5

– robotique, dronesˆ

1.2 D´ecision bay´esienne

La methode´ mise en oeuvre, l’inf´erence statistique, qui consiste a` induire les caracteristiques´ in- connues d’une population a` partir d’un echantillon´ issu de cette population s’appuie sur la regle´ bayesienne.´

Soient des variables aleatoires´

1,

a` des observations et X a` des informations recherchees.´ La regle` bayesienne´ permet d’associer

, n; j =

appartiennent a` un espace de probabilite´ (, T , P ). Y correspond

discretes`

X et Y prenant leurs valeurs dans {x i , y j ; i = 1,

, m}, dont les ev´ enements´

les probabilites´ conditionnelles sous la forme

P(X = x i |Y = y j ) = P(Y = y j |X = x i )P(X = x i )

P(Y = y j )

Dans l’inference´ bayesienne,´ les probabilites´ sont davantage perc¸ues comme une fonction de croyance que comme une question de denombrement,´ telle que le propose une approche fr´equentielle. La probabilite´ a priori P(X = x i ) traduit plutotˆ la confiance que l’on accorde a` la realisation´ de cette hypothese` ou de ce message a` partir d’une experience´ personnelle ou partagee´ et com- munement´ admise. La probabilite´ conditionnelle P(Y = y j |X = x i ) porte le nom de vraisem- blance : elle decrit´ comment se repartissent´ les observations en fonction du message. La pro- babilite´ P(Y = y j ) est appelee´ evidence ou encore vraisemblance marginale, puisqu’elle peut etreˆ obtenue en sommant la distribution conjointe P(Y = y j , X = x i ) sur x i .

P(Y = y j ) = P(Y = y j |X = x i )P(X = x i )

I

La distribution P(X = x i |Y = y j ) est appelee´

tions pour inferer´

Note : dans la suite, on simplifiera la notation en remplac¸ant X = x i et Y = y j respectivement par x i et y j et on note P(X = x i ) = P i

a posteriori, puisqu’elle s’appuie sur les observa-

le modele`

des informations.

L’exemple suivant va aider a` mieux saisir le roleˆ de l’a priori dans l’obtention d’une decision´ et justifier l’utilisation de la regle´ de Bayes. Supposons que l’on veuille detecter´ un avion avec un systeme` radar. On appelle X la variable aleatoire´ presence´ d’un l’avion et on note x 1 l’hypothese` presence´ effective d’un avion et x 2 celle d’absence. Le systeme` radar detecte´ correctement, avec une probabilite´ de 98%, un avion present´ dans un secteur spatial, mais la probabilite´ de fausse alarme (detecter´ un avion absent) est de 5%. La probabilite´ d’avoir un avion dans ce secteur n’est que de 10%. Quelle est la pro- babilite´ qu’un avion soit reellement´ present´ apres` detection´ radar ? On note Y la variable aleatoire´ detection´ de l’avion, qui prend la valeur 1 en cas de detection´ et 0 en cas de non detection.´ On a donc les probabilites´ suivantes :

6

p(Y = 1|X = x 1 ) = 0.98 ; p(Y = 0|X = x 1 ) = 0.02 ; p(Y = 1|X = x 2 ) = 0.05 ; p(Y = 0|X =

x 2 ) = 0.95 ; p(X = x 1 ) = 0.1

En appliquant Bayes, on obtient p(X = x 1 |Y = 1) =

0.98x0.1

0.98x0.1+0.05x0.9 = 0.68

Le resultat´

mordiale dans l’analyse du resultat,´

98%.

n’est que de 68%. On voit bien que l’influence de la connaissance a priori est pri-

car intuitivement on aurait pu penser que la solution est

Le critere` de Maximum a posteriori semble naturel pour prendre une decision´ sur la valeur x i du message X apr es` observation de la valeur prise par Y. En l’absence d’ a priori , on ne peut tabler que sur les donnees´ pour extraire ce message, et le critere` a` employer est de maximiser la vraisemblance. (Maximum likelihood,ML). On cherche alors l’hypothese` la plus vraisemblable pour expliquer la distribution observee´ des donnees.´

1.3 Classification et Reconnaissance de formes

Classer a peut-etreˆ et´ e´ la premiere` demarche´ scientifique contribuant a` essayer de decrire´ l’uni- vers dans lequel nous nous trouvons en assemblant dans une memeˆ categorie´ des objets presentant´ des similitudes, afin de le comprendre et l’expliquer. La classification des especes` par Carl von Linne,´ l’histoire naturelle de Buffon au 17eme´ siecle` sont une premiere` tentative scientifique d’eclairer´ le monde, qui s’est poursuivi par la classification periodique´ des el´ ements´ par Men- deleiev au 18eme´ siecle.` Les methodes´ de classification sont actuellement appliquees´ dans de nombreux domaines, pour lesquels les donnees,´ en tres` grand nombre et variees,´ doivent etreˆ organisees´ pour fournir une information intelligible. L’economie,´ la medecine´ sont consommateurs d’outils de classifica- tion, en lien avec l’analyse de donnees.´ Dans le domaine technologique, la reconnaissance de formes, qui consiste a` comparer le contour d”objets detect´ es´ dans une image ou des signaux, ou la tel´ ed´ etection,´ qui a pour objet de comparer des regions´ observees´ sur des images provenant d’un capteur (hyperspectral, radar, sonar) porte´ par un vecteur (satellite, avion, drone), sont utilisateurs de methodes´ de classification.

La reconnaissance automatique de formes fait l’objet d’applications tres` precises,´ maintenant usuelles dans la vie quotidienne

– caracteres` typographiques

– ecriture´ manuscrite

– codes postaux

– visages sur des images

– parole

– objets biologiques (globules, ADN, molecules´

– identification de personnes (empreintes digitales, iris,

biologiques,

)

)

– industrielles

tri de pieces`

– robotique· · ·

Une forme va etreˆ decrite´ comme une fonction monodimensionnelle dans le cas d’un signal ou

7

bidimensionnelle pour un contour, souvent ferme,´ extrait d’une image.

Le premier probleme` est de caracteriser´ efficacement la forme, c’est-a-dire` trouver un ensemble de parametres` descripteurs capables de differencier´ la forme d’une autre dans un ensemble fini de formes, realisant´ un compromis entre obtention d’un taux de reconnaissance elev´ e´ et complexite´ raisonnable du systeme` de traitement. On peut en effet penser que plus le vecteur descripteur sera de grande dimension, et donc riche en information, meilleure sera la reconnais- sance. Cependant, cela se paie par deux inconvenients´ : d’une part, la complexite´ augmentee´ par le nombre de descripteurs, ensuite une trop grande adaptation aux exemples choisis pour la base d’apprentissage. Il faut de plus trouver des descripteurs ind´ependants qui contribuent chacun a` diminuer la probabilite´ d’erreur de classification. Or en gen´ eral,´ les descripteurs, choi- sis de maniere` arbitraire, sont redondants ou apportent peu d’information supplementaire´ : il faut donc souvent proceder´ a` une analyse conduisant a` une reduction´ du nombre de ces des- cripteurs pour ne conserver que ceux qui sont effectivement utiles. Une caracteristique´ souvent indispensable dans le choix d’un descripteur de forme est son invariance a` differentes´ transfor- mations telles que la rotation, la translation, l’homothetie,´ le contraste

Le second probleme` consiste a` creer´ une base d’apprentissage, c’est-a-dire` un ensemble d’exemples de toutes les formes a` classer, qui va definir´ le modele` de classification. On distingue le cas su- pervise,´ dans lequel un expert associe a` chaque el´ ement´ de la base d’apprentissage sa classe ou etiquette,´ ce qui n’est pas le cas en classification non supervisee,´ qui ne dispose pas d’expertise. Il existe aussi des cas semi-supervises,´ pour lesquels certaines donnees´ sont etiquet´ ees´ , d’autres pas, et le cas faiblement supervise,´ pour lequel les etiquettes´ ne sont pas explicitement connues, mais une probabilite´ a priori d’avoir cette etiquette´ est connue. Cette base de donnees´ permet d’estimer les distributions des vecteurs descripteurs conditionnellement a` chaque classe dans le cas supervise,´ ou le melange´ de distribution des vecteurs descripteurs dans le cas non super- vise.´ La composition de la base doit etreˆ suffisamment etoff´ ee´ en nombre d’exemples par classe pour bien representer´ la variabilite´ intrinseque` des descripteurs de chaque classe, equilibr´ ee´ pour que toutes les classes aient sensiblement le memeˆ nombre de representants,´ de dimension raisonnable pour eviter´ d’avoir a` gerer´ une base de donnees´ trop importante.

8

Chapitre 2

Th´eorie de la D´etection

L’espace des messages est partitionne´ en deux, de memeˆ que celui de decision´ et on etablit´ une correspondance bijective entre les deux.[3] Le message (ou hypothese)` est une variable aleatoire´ discrete` de type Bernouilli, que l’on note H et qui prend deux valeurs H 1 ou H 2 . La variable aleatoire´ D caracterise´ la decision,´ est aussi de type Bernouilli et prend ses valeurs dans le memeˆ ensemble que H. A partir de l’observation d’un signal correspondant a` l’un ou l’autre des messages, on cherche a` deduire´ a` quel message le rattacher.

On peut aussi concevoir ce probleme` comme un test d’hypotheses` concernant un vecteur ob- serve´ y dont la distribution de probabilite´ depend´ de parametres` inconnus θ, un ensemble de parametres` θ 1 correspondant a` l’hypothese` H 1 et un autre ensemble θ 2 a` H 2 . Suivant la connais- sance totale ou partielle de cette distribution, on distinguera hypotheses` simples ou composees.´

H

H

1

2

: P(y|θ 1 ) : P(y|θ 2 )

On cherche une fonction de decision´

en deux sous-ensembles A 1 et A 2 , chacun correspondant a` une decision.´

qui aura pour effet de partitionner l’espace d’observation

Exemples typiques : savoir si une cible est presente´ ou absente (radar) ; savoir distinguer deux signaux en opposition de phase (modulation biphase) ; faire un diagnostic medical´ (patient ma- lade ou non),

Exemple : imaginons le cas d’une usine qui fabrique des rondelles sur une chaˆıne de produc- tion. Certaines rondelles, dans le processus de fabrication, ne respectent pas la norme de forme et doivent etreˆ ecart´ ees,´ et , pour cela, on realise´ un tri automatique a` partir d’une prise d’image. Le processus de fabrication est sujet a` des aleas´ mecaniques,´ qui induisent des modifications de forme sur les pieces` produites et une une variance sur leurs dimensions. On teste la chaˆıne de fabrication et on observe deux classes, des formes plutotˆ rondes, que l’on accepte et d’autres plutotˆ ovales, que l’on veut rejeter. L’hypothese` H 1 est d’avoir la presence,´ apres` detection´

9

de contour, d’un cercle sur l’image, et l’hypothese`

le centre de gravite,´ et on mesure deux diametres` d’observation bidimensionnel.

H 2 d’une ellipse. Sur l’image , on detecte´ orthogonaux, qui forment alors un vecteur

y = y 1

y 2

T

On fait fonctionner la chaˆıne de production et on modelise´ la distribution de ce vecteur aleatoire´

suivant les deux hypotheses.` tielle a` la detection.´

Il s’agit d’une phase d’apprentissage de ces distributions, essen-

Supposons la modelisation´

gaussienne et les variables independantes.´

Pour

l’hypothese`

H 1 , y 1

N(y 1 ; µ 0 , σ 2 ) et

y 2

N(y 2 ; µ 0 , σ 2 ).

Pour

l’hypothese`

H 2 , y 1 ∼ N(y 1 ; µ 1 , σ 2 ) et

y 2

N(y 2 ; µ 2 , σ 2 ).

H

H

1

2

:

:

p(y|θ 1 ) = p(y|θ 2 ) =

1

2πσ 2 exp[2πσ 2 exp[

1

1

2σ 2 [(y 1 µ 0 ) 2 ) + (y 2 µ 0 ) 2 ]] 2σ 2 [(y 1 µ 1 ) 2 ) + (y 2 µ 2 ) 2 ]]

1

µ 1 ) 2 ) + ( y 2 − µ 2 ) 2 ]] 1

FIG. 2.1 – Espace d’observation : celles de H 1 correspondent a` des cercles, celles de H 2 a` des

rectangles ; les centres de classes sont figures´ pour H 2 )

par des croix (multiplication pour H 1 , addition

La figure 2.1 montre la repartition´ des vecteurs observes´ dans l’espace d’observation (ici R 2 ) fournissant ainsi deux nuages de points suivant les deux hypotheses.` Le centre de gravite´ de chaque nuage correspond a` la moyenne du vecteur y conditionnellement a` chaque hypothese` et l’extension du nuage est defini´ par les variances conditionnelles. On comprend que decider´ d’une hypothese` conditionnellement a` une mesure revient a` effectuer une separation´ de l’es- pace d’observation en deux sous-ensembles et a` affecter a` l’observation l’hypothese` du sous- ensemble auquel elle appartient. Detecter´ revient donc a` chercher une frontiere` de decision´

10

dans l’espace d’observation et les erreurs de detection´

nuages.

sont causees´

par l’interpen´ etration´

des

Plusieurs strategies´ de detection´ peuvent alors etreˆ imaginees,´ soit globale en s’appuyant sur un modele` de distribution (methode´ Bayesienne),´ soit locale en utilisant uniquement les obser- vations ( methode´ des plus proches voisins)

2.1 D´etection bay´esienne

2.1.1 Crit`ere du maximum de vraisemblance a posteriori

On dispose d’un couple de variables aleatoires´ (D, H) pouvant prendre chacune les valeurs {H i ; i = 1, 2}. On associe a` chaque couple {D = H j , H = H i ; i, j = 1, 2} un coutˆ C ij . Le coutˆ est faible lorsque la decision´ est correcte, c’est-a-dire` i = j et elev´ e´ en cas d’erreur, c’est-a-dire` i = j et C ij 0. La probabilite´ d’une decision´ conditionnellement a` une hypothese` est fonction du partitionnement de l’espace d’observation. Donc

P(D = H j |H = H i ) = P(y A j |H = H i )

ou` A j est le sous-ensemble d’observation correspondant a` la decision´

aussi s’exprimer par integration´

de la vraisemblance sur A j .

H j . Cette probabilite´ peut

P(D = H j |H = H i ) =

p(y|H i )dy

A j

On cherche finalement a` minimiser le coutˆ partition {A j ; j = 1, 2}.

moyen E[C((A 1 , A 2 )] en fonction du choix de la

E A 1 ,A 2 [C] =

2

2

∑ ∑

i=1 j=1

C ij P(y A j , H i ) =

2

2

∑ ∑

i=1 j=1

C ij P(y A j |H i )P(H i )

Par la suite, on utilise les notations suivantes

et

 

 

A j

et

.

P(H i ) = P i

p(y|H i )dy = A j

p i (y)dy

P(D = H j |y) = P y (j)

11

E A 1 ,A 2 [C] = C 11 A 1

p 1 (y)P 1 dy

+ C 12 A 2 p 1 (y)P 1 dy + C 21 A 1 p 2 (y)P 2 dy + C 22 A 2 p 2 (y)P 2 dy

Or P 1 + P 2 = 1 et

A 1 p i (y)dy + A 2 p i (y)dy = 1.

On en deduit´

E A 1 ,A 2 [C] = C 12 P 1 + C 22 P 2 + A 1

[(C 11 C 12 )p 1 (y)P 1 + (C 21 C 22 )p 2 (y)P 2 ]dy

Puisque C 12 P 1 + C 22 P 2 0, le coutˆ moyen minimal sera obtenu pour un choix de region´ A 1 telle que l’integrale´ soit la plus negative´ possible, donc correspondant aux regions´ de l’espace d’observation pour lesquelles la fonction est elle-memeˆ negative.´ Sur le domaine A 1 , on decide´

D = H 1 , ce qui peut encore s’ecrire,´ en faisant apparaˆıtre le rapport de vraisemblance Λ =

p 1 (y) p 2 (y) ,

p 1 (y) p 2 (y)

H

1

>

<

H

2

(C

21

C 22 )P 2

(C 12 C 11 )P 1

Puisque C ij > C ii et p i (y)P i = P y (j)p(y), on obtient une regle` blance a posteriori

y (1)

P

y (2)

P

H

1

>

<

H

2

C 21 C 22

C 12 C11

 

(2.1)

de decision´

basee´

sur la vraisem-

 

(2.2)

La fonction Ln etant´ monotone croissante, il est equivalent´ de calculer la Logvraisemblance, puisque l’inegalit´ e´ n’est pas affectee´ par cette transformation, et que cela simplifie le calcul dans le cas de distributions appartenant a` la famille exponentielle.

Il faut souligner que la comparaison fait intervenir les valeurs des densites´ de probabilite´ condi-

tionnelles au point y, ainsi que les probabilites´ a priori. Ce critere` bayesien´ optimal.

permet de trouver le detecteur´

Le choix particulier des fonctions de coutˆ

au critere`

arg(max j (P y (j)); j = 1, 2)

C ij

= 1 pour i =

j et C ij

= 0 pour i =

j conduit

correspond a` D =

du maximum de vraisemblance a posteriori, puisque la decision´

Le coutˆ minimum s’exprime alors par

E ( A

1

, A

2 ) = P(D = H , H = H 2 ) + P(D = H , H = H 1 )

1

2

12

1 , A 2 ) indique la partition optimale oper´ ee´ par le critere` de maximum de vraisemblance

ou` (A

a posteriori Il correspond a` la probabilite´ d’erreur minimale P , qui est alors une mesure des

performances du detecteur.´

e

P

e

=

P 2 A

p 2 (y)dy + P 1 A p 1 (y)dy

1

2

La probabilite´ d’erreur minimale peut aussi s’exprimer comme

P

e

= 1 P 2 A

2

p 2 (y)dy P 1 A p 1 (y)dy = 1 P

1

C

ou` P C correspond a` la probabilite´ de decision´

correcte.

Le cas particulier d’equiprobabilit´

vraisemblances, d’ou` le nom de maximum de vraisemblance, qui lui est associe.´

P 1 = P 2 = 0.5 impose simplement une comparaison entre

2.2 Signal d´eterministe avec bruit gaussien

2.2.1 Observation scalaire

On prend l’exemple d’une image constituee´ d’un fond et d’un objet pose´ sur ce fond, qui se distinguent par leur niveau moyen de gris different.´ L ’observation de l’image est bruitee´ et on cherche a` identifier si un pixel appartient au fond ou a` l’objet.

identifier si un pixel appartient au fond ou a` l’objet. F IG . 2.2 – Detection´

FIG. 2.2 – Detection´

de pixels d’une forme posee´

sur un fond

On modelise´ le probleme` en faisant l’hypothese` que les pixels du fond (resp. de la forme) sont distribues´ suivant une loi gaussienne N (y; m 1 , σ 2 ) (resp. N (y; m 2 , σ 2 )) avec m 1 < m 2 . (L’hy- pothese` n’est pas totalement realiste,´ car , la valeur des pixels etant´ positif, on ne pourrait avoir qu’une gaussienne tronquee.´ Cependant, si la variance du bruit n’est pas trop elev´ ee´ et si les

13

moyennes sont suffisamment eloign´ ees´ de 0, l’hypothese` reste acceptable, car les queues de distribution seront negligeables).´ On observe la valeur de chaque pixel et on decide´ de son appartenance a` l’une ou l’autre classe suivant le critere` du maximum a posteriori.

Les distributions {P 1 , P 2 } peuvent etreˆ rapport a` celle de l’image.

estimees´

L’application de la Logvraisemblance fournit :

en connaissant a priori la surface de l’objet par

Ln(

p 1 (y) p 2 (y)

H

1

>

<

H 2

Ln( P 2 P 1

)

(y m 2 ) 2 (y m 1 ) 2 H > 1

<

H 2

y

H

2

>

<

H 1

m 1 + m 2

2

+

σ 2

2σ 2 Ln(

m 2 Ln( P 2 P 1

P 2

P 1

)

m 1

)

Cette expression fournit le seuil de detection´ λ = m 1 +m 2

2

+

2

m 2 Ln( P 2 ) a` appliquer, qui devient

σ

m

1

P 1

simplement λ = m 1 +m 2 s’il y a equiprobabilit´ e´ a priori des classes.

2

2 s’il y a equiprobabilit´ e´ a priori des classes. 2 F IG . 2.3 –

FIG. 2.3 – Detection´

dans un cas gaussien scalaire

14

La probabilite´ d’erreur s’evalue´

par :

= P(y < λ|H 2 )P 2 + P(y > λ|H 1 )P 1

P

e

Dans le cas equiprobable,´

P

e

=

P 2

λ

p 2 (y)dy + P 1

λ

p 1 (y)dy

on obtient apres` changement de variable :

P

e

=

1

2π

m 2 m 1

2σ

2

e α 2 dα

Definissant´

la fonction cumulative par

Φ(x) =

1

2π

x

2

e α 2 dα

et la fonction complementaire´

, on obtient

.

par

Q(x) =

P

e

=

1

2π

x

2

e α 2 dα

Q( m 2 m 1 )

2σ

On peut aussi utiliser la fonction erf definie´

par

ou sa fonction complementaire´

erf(x) =

2

π

x

0

e α 2 dα

erfc(x) = 1 erf(x)

.

2.2.2 Observation vectorielle a` composantes ind´ependantes

Imaginons qu’on localise une fenetreˆ nxn autour du pixel a` detecter,´ et que l’on observe alors l’ensemble des pixels de la fenetreˆ pour prendre la decision.´ L’observation est un vecteur y de dimensions N = n 2 . Les pixels sont des realisations´ d’une variable aleatoire´ de distribution gaussienne N (y; m i , σ 2 ); i = 1, 2. (On fait l’hypothese` que les valeurs des pixels resultent´ d’un tirage aleatoire´ fait de maniere` independante´ et identiquement distribuee´ (i.i.d) selon cette dis- tribution). Les composantes de ce vecteur sont donc independantes.´

15

p i (y) = p i (y 1 , y 2 ,

, y N ) =

N

k=1

p i (y k )

Il s’ensuit

l(y) =

1

N

Ln(

N

k=1

y

k

N

k=1 p 1 (y k )

N

k=1 p 2 (y k )

) H > 1

<

H 2

Ln( P 2

P 1

)

H

2

>

<

H

1

m 1 + m 2

N(m 1 m 2 ) Ln( P 2

P 1

σ

2

2

+

)

Le detecteur´

a` comparer a` un seuil de detection.´

l(y) = λ consiste a` effectuer une moyenne arithmetique´

des pixels de la fenetreˆ

= P(l(y) < λ|H 2 )P 2 + P(l(y) > λ|H 1 )P 1

P

e

et

Il faut donc determiner´ la forme de la densite´ de probabilite´ conditionnelle de la variable aleatoire´ l(y) pour pouvoir evaluer´ la probabilite´ d’erreur. Dans le cas gen´ eral,´ il s’agit de calculer la nouvelle distribution en fonction de celle des donnees´ apres` application de la trans- formation correspondant au detecteur.´ Comme, dans cet exemple, il s’agit d’une combinaison lineaire´ de variables aleatoires´ gaussiennes, on obtient encore une variable gaussienne, et il suffit de calculer sa moyenne et sa variance pour connaˆıtre totalement la distribution.

E[l(y)|H 1 ] = m 1 E[l(y)|H 2 ] = m 2

2 σ l(y) = σ 2

N

On constate que la difference´ facteur N.

avec le cas scalaire reside´

dans la diminution de la variance d’un

P(l(y) < λ|H 2 ) =

λ

e N(l m 2 ) 2 2σ 2

dl

Dans le cas equiprobable,´

on obtient

P

e

=

Q( (m 2 m 1 ) N

2σ

)

16

2.2.3

Observations vectorielles corr´el´ees

Filtrage adapt´e

Reprenant l’exemple de la figure 2.2, on suppose maintenant que le fond et la forme se dis- tinguent par leur texture de type structuree´ avec un motif regulier´ periodique´ de memeˆ taille pour chacun d’eux. De plus, le bruit additif sur l’image est de nature gaussienne, mais colore,´ c’est a` dire possedant´ une correlation´ connue.

On modelise´

dont les composantes sont les pixels obtenus suivant un balayage ligne par ligne d’une imagette

{s i ; i = 1, 2} ,

le probleme`

comme la detection´

d’un signal vectoriel deterministe´

de taille N=nxn, ce signal etant´

accompagne´ d’un bruit additif b.

H i : s i = [s i (1),

, s i (N)] T avec i=1,2

Les signaux {s i ; i = 1, 2} sont supposes´ avoir des energies´

N

k=1 s 2 (k) 2

differentes´

E 1 =

n

k=1 s 1 (k) 2

< E 2 =

Le bruit b = [b(1),

, b(N)] T possede` une moyenne nulle et une covariance V b = E[bb T ].

On observe y = s i + b suivant l’hypothese`

H i .

Le bruit etant´

formation de b a` y est lineaire.´

potheses,` sont identiques et valent V b , alors que les moyennes different´ et valent s i : i = 1, 2

gaussien, il s’ensuit que la distribution de y est aussi gaussienne, puisque trans-

Les matrices de covariances, conditionnellement a` chaque hy-

p ( y) = p b (y s i ) =N(y; s i , V b ), i=1,2.

Si les deux hypotheses` sont equiprobables,´ l’application du critere` du maximum de vraisem-

blance a posteriori Ln

p 1 (y) p 2 (y)

H

1

>

0 conduit aux relations

<

H

2

 

(y s 1 ) T V

1

b

(y s 1 ) (y s 2 ) T V

1

b

(s 2 s 1 ) T V

1

b