Vous êtes sur la page 1sur 25

Rpublique Algrienne dmocratique et populaire Ministre De Lenseignement Suprieur Et De La Recherche Scientifique

Universit De Laghouat
cole Doctorale STIC Option : IRM

MODULE : DATA MINING

INTITUL :

La Classification Markovienne

Ralis Par :
CHAIRA Mahmoud

Propos Par :
Dr MOUSSAOUI Abdel

Anne Universitaire 2010 2011

Table des matires


I. INTRODUCTION .................................................................................................................................................... 1 I. La classification non-supervise........................................................................................................................... 1 II. La classification supervise ................................................................................................................................. 1 III. La classification semi-supervise ....................................................................................................................... 2 IV. THEORIE DES CHAINES DE MARKOV .................................................................................................................. 2 IV.1. Chane Observable ...................................................................................................................................... 2 IV.2. Chane Cache............................................................................................................................................. 3 IV.3. Modle de Markov Cach ........................................................................................................................... 4 IV.3.1. Dfinition : ........................................................................................................................................... 4 IV.3.2. Les 3 problmes fondamentaux des HMM :........................................................................................ 5 IV.3.3. CHAMP DAPPLICATION : ..................................................................................................................... 5 V. Conclusions ....................................................................................................................................................... 20 Rfrence .............................................................................................................................................................. 21 Autre Rfrence .................................................................................................................................................... 21

Table des figures


Figure 1: Graphe d'un Modle de Markov Observable ........................................................................................... 2 Figure 2: Graphe d'un Modle de Markov Cach ................................................................................................... 3 Figure 3: Modlisation HMM de l'exemple ............................................................................................................ 5 Figure 4: Organigramme de la mthode de classification de squence par HMMs ................................................ 6 Figure 5: lintgration entre la classification de texte et le modle de Markov cach ............................................ 7 Figure 6: Reconnaissance du thme dun document ............................................................................................... 9 Figure 7: Les cliques associes deux systmes de voisinage en dimension 2 .................................................... 10 Figure 8 : Le modle dIsing ................................................................................................................................. 14 Figure 9 : Le modle de Potts 2D et 4-connexes pour diffrentes valeurs de b (m = 4). ...................................... 16 Figure 10: Exemple de classification markovienne sur une image satellitaire optique. ....................................... 19

La classification markovienne
I. INTRODUCTION La modlisation stochastique permet lutilisation des modles probabilistes pour traiter les problmes information incertaine ou incomplte. Ainsi, les modles de Markov connaissent un regain dintrt tant dans leurs aspects thoriques quappliqus. La thorie des chanes de Markov est ne en 1913, une premire application a t dveloppe par Markov pour analyser le langage. Ces travaux ont t utiliss rgulirement mais les premires applications exploitables furent ralises dans le annes 60, telles que les modles probabilistes durnes par Neuwirtch, le calcul direct du maximum de vraisemblance ou lobservation de la suite dtats dans une chane de Markov. Ceci a permis la communaut scientifique dexploiter pleinement le potentiel de ces modles. Cest dans les annes 70 que des chercheurs ont apport des algorithmes puissants permettant de rsoudre les problmes de reconnaissance, danalyse et dapprentissage. Depuis 1975, les HMM sont utiliss dans de nombreuses applications, principalement dans le domaine de la parole. Ces applications ne se contentent pas de sappuyer sur la thorie des Modles de Markov Cachs, mais dveloppent plusieurs extensions thoriques dans le but damliorer les modles. Cest ce qui en a fait leur succs. I. La classification non-supervise La classification non-supervise a pour but de trouver une structure intressante dans les donnes partir dun chantillon X = (x1, . . ., xn). Cette mthode, comme de nombreuses autres, repose en grande partie sur les choix de lexprimentateur ; variables prises en compte, choix de la mtrique, . . . Le dveloppement rcent de linformatique a rendu possible la mise en uvre dalgorithmes de classification sur de grands chantillons trs multi-varis. Le rsultat de la classification est soit une partition soit une hirarchie [Gordon, 1981]. Il existe deux grands types dapproche : Les mthodes gomtriques base de distances : Classification hirarchique, mthode des centres mobiles Les mthodes probabilistes : Modles de mlange II. La classification supervise Dans le cas de la classification supervise, on connat les individus et leur groupe dappartenance. Lobjectif est dtablir une rgle de classification partir de ces donnes afin de pouvoir classer de nouvelles donnes de groupe inconnu.

La classification markovienne
III. La classification semi-supervise Avant lapparition de la classification semi-supervise, les classifications non-supervise et supervise faisaient figure de deux mthodes disjointes. Lune cherche tablir une structure de groupe partir de lobservation dun ensemble de points non-tiquets, lautre vise tablir la meilleure sparation possible entre les diffrents groupes observs. La classification semi-supervise utilise les donnes tiquetes et non-tiquetes pour tablir la rgle de classification. Elle permet ainsi de faire le lien entre les classifications supervise et non-supervise. IV. THEORIE DES CHAINES DE MARKOV Un processus stochastique est un phnomne o intervient le hasard, nous dfinissons X (t) une variable alatoire voluant en fonction du temps. Exemple : une suite de lancers de ds 1, 6, 2, 5 do X0 = 1, X1 = 6, X2 =2, X3 = 5 Ce processus est dit markovien si son volution ne dpend pas de son pass, mais uniquement de son tat prsent. (Ceci est appel la proprit de Markov.). Un processus markovien peut tre modlis par un modle thorique dit Modle de Markov . Il existe 2 types de Modle : Observable et Cach. Cette premire partie sappuie sur le tutorial de Rabiner [RAB89], complt par les travaux de Foata [FOA 02] et de Benam et Karoui [BKN 04]. IV.1. Chane Observable Lvolution du processus de Markov peut tre reprsente par un graphe de transitions dtats (Figure 1) qui fait apparatre la structure du processus selon les rgles suivantes:

Figure 1: Graphe d'un Modle de Markov Observable

La classification markovienne
Les tats sont reprsents par des sommets. (Etat n) On parle dalphabet des tats : S= {s1, s2,, sn}, les tats de la chane de Markov Les transitions (possibilit de passer dun tat un autre) sont reprsentes par des artes, elles sont pondres par leur probabilit. (Flche) Les probabilits sont regroupes dans une matrice de transition: A = {aij = P(Sj|Si)}; N aij = 1 j=1 Les probabilits de dpart : ce sont les probabilits de dbuter dans un tat ou un autre (point 0) Elles sont regroupes dans un vecteur dinitialisation : = { i = P(si)} On notera i = 1

Un modle est dit observable car les tats sont directement observables, il est caractris par une matrice de transition A et un vecteur dinitialisation , on note : = {, A} IV.2. Chane Cache Dans un Modle de Markov Cach les tats S = {s1, s2,..., sm} sont non observables cependant ils mettent des signaux observables O = (o1, o2, ..., ok) qui sont pondrs par leur probabilit. Le modle peut tre reprsent graphiquement (Figure 2), avec :

Figure 2: Graphe d'un Modle de Markov Cach

Les tats S = {s1, s2,, sn} La matrice de transitions A = {aij = P (Sj|Si)} ; N aij = 1 j=1 Le vecteur dinitialisation = { i = P(si) } ; N i = 1 i=1 Les probabilits que ltat si mettent le signal dobservation ok (Flche brise)

La classification markovienne
Elles sont regroupes dans une matrice dmission B= {bi (ok) = P(ok|si)} T bi oj =1; j=1 Les reprsentations mathmatiques seront utilises tout au long de ce document. Nous utiliserons ainsi : N : le nombre dtats = ; = , si T est dfini et dnombrable on parle aussi

T : le nombre dobservations possibles dalphabet ; qt : ltat du systme au temps t ; M : taille de la squence observe ;

Un Modle de Markov Cach est caractris par une matrice de transition A, une matrice dobservation B et un vecteur dinitialisati1on, on note : = {, A, B} IV.3. Modle de Markov Cach Un modle de Markov Cach ou HMM (pour Hidden Model Markov) est un processus doublement stochastique dont une composante est une chane de Markov non observable. Ce processus peut tre observ travers un autre ensemble de processus qui produit une suite dobservations. Plus simplement, cest un modle qui dcrit les tats dun processus markovien laide des probabilits de transition et des probabilits dobservation par tats. Les HMM sont utiliss dans de nombreux domaines tels que la reconnaissance et la synthse de la parole, la biologie, l'ordonnancement, l'indexation de documents, la reconnaissance d'images, la prdiction de sries temporelles, ... IV.3.1. Dfinition : Lors de la cration dun HMM il existe 3 problmes rsoudre : la reconnaissance, lanalyse et lapprentissage. Afin de bien les apprhender, voici un exemple, il permettra de voir lapplication des solutions prconises. Lexemple a pour objectif de dfinir quelle saison nous sommes. Posons : Les 4 saisons (Printemps, Et, Automne, Hiver), comme tant les tats de notre modle.

Ltat saison nest pas directement observable mais il met des observations le temps de la journe. Il est dfini par Nuage, Pluie, Soleil.

Remarque : Un Modle de Markov Observable peut tre modlis sous la forme dun Modle de Markov Cach o les tats correspondent aux vnements observs. C'est--dire que chaque tat si a une probabilit 1 dmettre lobservation bi.

La classification markovienne

Une chane dobservations le temps de la semaine. Dans les exemples cette chane est rduite 3 jours pour limiter le nombre de calcul (Soleil, Soleil, Nuage) ou (S, S, N).

Le Modle de Markov nous permettra de dfinir quelle est la chane de Markov qui a le plus de probabilit davoir gnr la squence observe, par exemple Et, Et, Printemps (E, E, P) La reprsentation graphique de ce modle : (voir Figure 3).

Figure 3: Modlisation HMM de l'exemple

IV.3.2. Les 3 problmes fondamentaux des HMM : Voici la liste de ces problmes, il est ncessaire de les rsoudre afin de pouvoir utiliser les HMM lors de la modlisation dun processus rel.

Problme 1 : Reconnaissance Etant donns un HMM = {, A, B} et une squence observe O = {o1, o2,, on}quelle est la vraisemblance P( | ) que le modle gnre O ?

Problme 2 : Analyse Etant donns un HMM et une squence observe O, quelle est la squence des tats qui a la probabilit maximale davoir gnr O ?

Problme 3 : Apprentissage A partir dune chane dobservations O = {o1, o2, ..., on}; comment ajuster les paramtres du HMM = {, A, B} pour maximiser la vraisemblance de lensemble dapprentissage P(O| ) ?

IV.3.3. CHAMP DAPPLICATION : Les Modles de Markov Cachs ont prouv dans de nombreux domaines quils taient de puissants outils. Cette liste nest pas exhaustive :
5

La classification markovienne
Reconnaissance automatique de la parole Reconnaissance de lcriture Modlisation des langages Traitement dimages statiques et dynamiques Reconnaissance de forme Thorie de codage Traitement du signal Modlisation des finances Contrle biologique Bio statique Tlcommunication Analyse de squences biologiques Modlisation de signaux acoustiques Robotique

IV.3.3.1. Utilisation pour la classification de squences


Les bases des modles de Markov cachs tant poses, nous allons maintenant pouvoir les utiliser pour la reconnaissance de squences, ou plus exactement la classification de squences. Le principe est le suivant : On veut classifier des squences en un nombre nc de catgories. Pour cela, on cre nc HMMs et on entrane chacun dentre eux avec un ensemble de squences dapprentissage reprsentatif dune classe donne (voir Figure 4). On obtient donc nc HMMs spcialiss quon appellera (Hi)i=1..nc. Soit que lon souhaite classifier. Elle sera place dans la catgorie k telle que P ( que cest Hk qui a la plus grande probabilit dmettre la squence inconnue

|Hk) est maximale, cest dire

et qui est donc le modle le plus proche au sens du

maximum de vraisemblance. Le calcul de la probabilit dmission de la squence O par les diffrents modles est effectu laide de lalgorithme Forward-Backward. Observed data HMM 1 P(O| 1)

Symbole sequences O HMM i P(O| i)

Compare, recognize

HMM I 6

P(O| I)

Figure 4: Organigramme de la mthode de classification de squence par HMMs

La classification markovienne
Dans le cas o lon ne souhaite pas crer la structure du modle par apprentissage, il faut soit dcider du nombre dtats daprs des connaissances a priori, soit essayer la mthode de reconnaissance avec plusieurs structure puis choisir celle qui convient le mieux. IV.3.3.2. Classification de texte et modle de Markov cach IV.3.3.2.1. Dfinition Selon [Rakesh Dugad], un modle de Markov cach est dfini formellement suivant : = (A, B, ) Pour : S = (S1,,SN) un ensemble de ltat possible V = (V1, , VM) un ensemble de symboles dobservation A = {aij} aij = P(Sj| Si) la probabilit de la transition Si = (i) la probabilit dtre dans ltat Si au dbut. IV.3.3.2.2. la classification de texte par le modle de Markov cach Selon Kushmerick [Kshmrk] on peut considrer le processus dextraction dinformation sur la carte de visite comme la classification de texte. Le texte reconnu par lOCR2 se divis en plusieurs lignes qui contient les donnes valables. Dans ce cas l, on va classer ces linges en certaines catgories telles que : le nom, le titre, ladresse, le courriel, le numro de tlphone etc. Mais il faut mettre en compte la contraint structurale de la carte de visite. Par exemple, le titre souvent se trouve juste aprs le nom. Pour raliser cela, Kushmerick [Kshmrk] a propos une approche qui applique la classification de texte et le modle de Markov cach la fois. Sj B = {bj(k)} bj(k) = P(Vk|Sj) la probabilit dobserver le symbole Vk en tant dans ltat Sj

Figure 5: lintgration entre la classification de texte et le modle de Markov cach

On peut exprimer formellement cette approche comme suit: Soit {l1, l2 lN} sont les lignes de texte reconnu par lOCR. N est le nombre de ligne. Soit {f1, f2 .fN} sont les catgories (le nom, le titre, ladresse, le courriel, le numro de tlphone etc). Pour appliquer le modle de Markov cach, on va
2

OCR: La reconnaissance optique de caractres

La classification markovienne
considrer fi comme ltat et li comme le symbole dobservation (voir figure 5). En consquence, le problme de dterminer quelle ligne li appartient quelle catgorie fi devient le problme de trouver une chaine de fi qui maximise la probabilit :

(f1) i P (fi| li) P (fi+1|fi)

(1)

Pour : (f1) la probabilit que f1 est dans la premire situation qui peut tre calcul par un ensemble dexemple. P (fi| li) la probabilit que li appartient fi qui peut tre estim par lalgorithme de classification de texte : Nave Bayes P (fi+1|fi) la probabilit de la transition dtat ou la probabilit que fi+1 est aprs fi. Cela peut tre calcul par un ensemble dexemple. Le problme de trouver une chaine de fi qui maximise (1) se rsout l'aide de l'algorithme de Viterbi [Vitebri]. Cest un algorithme standard rsoudre les problmes de modle de Markov cach. Par exemple, soit tous les paramtres du modle, soit la chaine de symboles dobservation, trouver la chaine dtat qui a la probabilit maximale. IV.3.3.3. HMM appliqu la recherche dinformation Diffrents travaux concernant la Recherche dInformation (RI) ont dj t dvelopps. Il est ncessaire de diffrencier les travaux concernant la tche de recherche documentaire de ceux concernant la tche de classification. En effet, ils reposent sur deux notions trs diffrentes. Afin de clarifier ce problme et dliminer toute ambigut, voici en quoi consistent ces deux tches : La classification est utilise dans plusieurs tches de RI. Elle consiste attribuer chaque document une classe, parmi un ensemble de classes connues lavance (e.g. conomie, science ou littrature). Il sagit dune tche de discrimination entre plusieurs classes. La recherche documentaire (ad-hoc retrieval) a pour but de trouver, parmi un ensemble de documents, celui ou ceux qui rpondent le mieux une requte exprime en langage naturel. Classification de document Daprs les travaux de L.Serradura, M.Slimane, N.Vincent, C.Proust [SSV 02]. Prenons lexemple dune encyclopdie classe par thmes, on dfinit : Les diffrents thmes (astronomie, histoire, conomie,) ; un corpus de documents associs chacun des thmes ; un dictionnaire contenant les mots significatifs des diffrents thmes. Celui-ci pourrait tre dduit du corpus de document.
8

La classification markovienne
Dans le cadre des HMM, la classification de document se fait en 3 tapes : Etape1 : Construction des modles (HMM) individuels pour chaque thme ; Cette tape est ralise en utilisant la solution du problme 3 (Apprentissage : Baum-Welch) pour estimer dune faon optimale, les paramtres du modle de chaque thme. Etape 2 : Elle permet de dvelopper une connaissance du sens physique des tats du modle. La solution du problme 2 (Analyse : Viterbi) est utilise pour segmenter chacun des documents dapprentissage en tat. Pour des questions de performances, seuls les mots significatifs du domaine sont traits. Etape 3 : Une fois les n modles HMM construits et optimiss, la reconnaissance dun document inconnu est effectue en utilisant la solution du problme 1 (Reconnaissance : Forward) pour valuer le modle de chaque thme et slectionner ainsi celui qui a gnr le meilleur score.

Figure 6: Reconnaissance du thme dun document

En pratique les HMM sont de type ergodique, lordonnancement des mots nest pas pris en compte. Les diffrents tats correspondent aux mots significatifs du thme modlis. IV.3.3.4. Le contexte spatial dans la classification : utilisation des champs de Markov Dans cette partie, nous introduisons tout d'abord de faon intuitive la notion d'nergie locale avant de dfinir plus formellement un champ de Markov et d'noncer le thorme d'quivalence entre champs de Markov et champs de Gibbs. L'utilisation des champs markoviens dans la classification est ensuite dcrite.

La classification markovienne
IV.3.3.4.1. Un Modle markovien gnral dimages IV.3.3.4.1.1. Description de l'image Limage est reprsente comme une grille rectangulaire finie bidimensionnelle de taille m x n = N contenant un ensemble de sites S = si avec 1 < i < N appels pixels. chaque site est associ un descripteur, reprsentant ltat du site et pouvant tre un scalaire (niveau de gris, label (ou tiquette)) ou encore un vecteur (spectre), et prenant ses valeurs dans lespace des tats E. La notion d'interactions locales ncessite de structurer les relations spatiales entre les diffrents sites du rseau. Pour ce faire, on munit S d'un systme de voisinage est dfini de la faon suivante:

(1)

A un systme de voisinage donn correspond un ensemble de cliques, une clique tant un ensemble de points du treillis mutuellement voisins, lordre dune clique tant le nombre de sites qui la compose (on sintresse en gnral aux cliques dordre 2). En fonction du systme de voisinage utilis, le systme de cliques sera diffrent et fera intervenir plus ou moins de sites comme illustr sur la Figure 7 On notera C l'ensemble des cliques relatif , et Ck l'ensemble des cliques de cardinal k.

Figure 7: Les cliques associes deux systmes de voisinage en dimension 2

Les interactions locales entre niveaux de gris (ou descripteurs) de sites voisins peuvent alors s'exprimer comme un potentiel de clique. Soit c une clique, on lui associe le potentiel Uc dont la valeur dpend

10

La classification markovienne
des niveaux de gris des pixels constituant la clique. En poursuivant ce raisonnement, on peut dfinir l'nergie globale de l'image comme la somme des potentiels de toutes les cliques: U=

(2)

Et l'nergie locale en un site comme la somme des potentiels de toutes les cliques auxquelles il appartient: Us =
/

(3)

IV.3.3.4.1.2. Modlisation Markovienne de l'image Dans la modlisation Markovienne, l'image est considre comme une ralisation x d'un champ alatoire. Soit s un site de l'image, on peut en effet lui associer une variable alatoire (v.a) Xs prenant ses valeurs dans E. Le niveau de gris xs en s est donc une ralisation de la v.a Xs. On dfinit alors le champ alatoire X= (Xs, Xt,) prenant ses valeurs dans = E|S|.

La probabilit globale de x, P(X=x), permet d'accder en quelque sorte la vraisemblance de l'image et les probabilits conditionnelles locales d'une valeur en un site permettent de mesurer le lien statistique entre un niveau de gris et le reste de l'image. IV.3.3.4.1.3 Champs de Markov - Champs de Gibbs IV.3.3.4.1.3.1 Dfinition d'un champ de Markov Considrons Xs la valeur prise au site s et

xs = (xt )t#s la configuration de l'image except le site s.

Un champ de Markov X est un champ alatoire si et seulement si il vrifie la proprit suivante :

(4)

Cela signifie que la probabilit en un site s conditionnellement au reste du champ est gale la probabilit en ce site connaissant uniquement ses voisins. Ainsi, tout lintrt dune modlisation Markovienne rside donc dans la possibilit de spcifier localement un modle qui est en fait global. Cette hypothse markovienne se justifie bien dans le cas des images satellitaires et plus gnralement dans le cas de la plupart des images naturelles constitues de zones homognes ou textures. IV.3.3.4.1.3.2. Equivalence entre champs de Markov et champs de Gibbs La modlisation markovienne prend toute sa puissance grce au thorme Hammersley- Clifford [Besag, 1974]. En effet, Il permet d'tablir une correspondance entre un champ de Markov et un champ
11

La classification markovienne
de Gibbs lorsquaucune ralisation de X n'est de probabilit nulle. Il nous faut au pralable dfinir un certain nombre de notions relatives aux mesures et champs de Gibbs.
IV.3.3.4.1.3.2.1. Dfinition (mesure de Gibbs).

La mesure de Gibbs de fonction d'nergie U : est la probabilit P dfinie sur par:

(5)

Avec

(6)

O C est le systme de cliques associ au systme de voisinage de U. Z est une constante de normalisation sur lensemble des ralisations de de cette fonction dnergie, elle est appele fonction de partition et peut tre exprime par :

(7)

Nous pouvons maintenant dfinir le champ de Gibbs de potentiel associ au systme de voisinage : c'est le champ alatoire X dont la probabilit est une mesure de Gibbs associe au systme de voisinage , ce qui implique:

(8)

La probabilit dune configuration dpend donc dun ensemble dinteractions locales (au niveau des cliques). Plus lnergie totale U(x) est grande, moins la configuration est probable. Un rsultat fondamental est lquivalence des champs de Markov et des champs de Gibbs grce au thorme suivant :
IV.3.3.4.1.3.2.2. Le thorme de Hammersley-Clifford [Besag, 1974]

Sous les hypothses :


12

La classification markovienne
- S fini ou dnombrable; - le systme de voisinage J est born; - l'espace des tats E est discret. X est un champ de Markov relativement J si et seulement si X est un champ de Gibbs de potentiel associ J. En fonction du systme de voisinage, U(x) peut prendre diverses formes ; par exemple, si nous considrons un champ de Markov de voisinage 4-connexe, nous pouvons crire l'nergie de la configuration x sous la forme :

(9)

O C1 et C2 sont respectivement les cliques dordre 1 et 2. Si nous cherchons crire la probabilit conditionnelle locale P (xs /X =xs), nous avons grce au rsultat prcdent :
s

(10)

Dfinissons l'nergie locale Us par:

(11)

Notons dsormais Vs =

( xt, t). On peut alors crire l'nergie globale U(x) sous la forme :
(12)

En simplifiant on obtient :

13

La classification markovienne

(13)

Cette expression ne fait intervenir que les potentiels des cliques contenant le site s. Le calcul de la probabilit conditionnelle locale est donc rendu possible. IV.3.3.4.1.4 Quelques MRF fondamentaux Nous prsentons ici quelques uns des champs de Markov les plus utiliss. Comme indiqu prcdemment, ces champs sont dfinis par leur voisinage et leurs fonctions de potentiel. Ils sont illustrs par le tirage de ralisations selon l'chantillonneur de Gibbs. IV.3.3.4.1.4.1 Modle d'lsing Ce modle est le plus ancien [Ising, 1925] et a t dvelopp lors de l'tude du ferromagntisme en physique statistique. L'espace des descripteurs est celui des tats des spins, c'est--dire E = {1,1} (espace binaire), et le voisinage est constitu par les 4 ou 8 plus proches voisins dans un espace bidimensionnel.

Figure 8 : Le modle dIsing

Les potentiels sont des potentiels en tout ou rien: (14)

14

La classification markovienne
ce qui s'crit galement Uc= s,t (xt , xt) = xsxt. Les potentiels des cliques d'ordre 1 (clique constitue par un seul spin) sont de la forme Bxs. L'nergie totale s'crit : (15) Avec (16)

est la constante de couplage entre sites voisins et h reprsente un champ magntique externe.
Lorsque est positif, les configurations les plus probables (c'est--dire d'nergies plus faibles) sont celles pour lesquelles les spins sont de mme signe (ferromagntisme), alors que dans le cas de

ngatif, au contraire, on favorisera l'alternance de spins de signes opposs (anti-ferromagntisme).


La valeur de conditionne donc la rgularit du modle d'Ising. Quant au champ magntique externe relatif au potentiel d'ordre 1, il favorise a priori par son signe un spin ou un autre. IV.3.3.4.1.4.2. Modle de Potts Il sagit dune gnralisation du modle prcdent [WU, 1982] pour un espace m-aire, c'est- dire E = {0, m 1}. Il peut s'agir de plusieurs niveaux de gris mais, plus souvent pour ce modle, d'tiquettes (labels) pouvant reprsenter une classification de l'image (par exemple les classes eau, fort, champ, ville). Le voisinage considr est 4- ou 8-connexes et les potentiels sont comme prcdemment en tout ou rien mais dfinis seulement pour les cliques d'ordre 2 :

(17)

Lorsque b est positif, les configurations les plus probables correspondent des sites voisins de mme niveau de gris, ce qui donne des ralisations constitues par des larges zones homognes. La taille de ces rgions est gouverne par la valeur de b. Des exemples de ralisations pour diffrentes valeurs de b sont montrs dans la figure 9.

15

La classification markovienne

Figure 9 : Le modle de Potts 2D et 4-connexes pour diffrentes valeurs de b (m = 4).

Il est possible de dfinir des modles utilisant des pondrations diffrentes en fonction des directions des cliques et de privilgier ainsi certaines directions. Ce modle permet galement de prendre en compte diffrentes relations entre les rgions (c'est--dire entre diffrentes valeurs des niveaux de gris). On peut par exemple dfinir des pondrations (es, et) pour es, et E. Dans notre exemple de classification en 4 tiquettes eau, fort, champ, ville, une configuration de sites avec les tiquettes champ / fort peut tre suppose plus probable qu'une configuration ville / fort, d'o des valeurs (champ, fort) et (ville, fort) diffrentes [Sigelle, 1993]. IV.3.3.4.1.4.3. Modle markovien gaussien Ce modle est rserv aux images en niveaux de gris E = {0, , 255} et ne convient pas bien aux images d'tiquettes. Le voisinage est 4 ou 8-connexes et l'nergie est de la forme:

(18)

16

La classification markovienne
Le premier terme correspondant aux cliques d'ordre 2 est un terme de rgularisation, qui favorise les faibles diffrences de niveaux de gris entre sites voisins pour > 0. Le second terme peut correspondre un terme d'attache aux donnes dans le cas o on possde une image de donnes extrieures. Le rapport / pondre les influences respectives de l'attache aux donnes et de la rgularisation, et les valeurs absolues des paramtres caractrisent le caractre plus ou moins piqu ou au contraire quirparti de la distribution. IV.3.3.4.2. Application dans la classification IV.3.3.4.2.1. Rgle de Bayes Pour cette application, on peut modliser le problme dans un cadre baysien de la faon suivante. Nous disposons d'une image que nous noterons y et que nous pouvons considrer comme une ralisation d'un champ alatoire Y. Nous cherchons une ralisation x de l'image classe, que nous pouvons modliser comme un champ de Markov, o X est le champ des tiquettes (labels). Les espaces de configurations ne sont donc pas ncessairement les mmes pour X et Y. La classification a pour objectif de remonter une ralisation de X partir de l'observation des donnes y. On parle dans ce contexte de champ de Markov cach pour X, ou de donnes incompltes puisque y n'est pas une ralisation de X. On peut par exemple utiliser le critre du maximum a posteriori et rechercher la configuration maximisant la probabilit de X conditionnellement la donne y c'est- dire P(X = x /Y = y). Or la rgle de Bayes permet d'crire:

(19)

expression dans laquelle il s'agit alors d'analyser chacun des termes P(Y = y / X = x) et P(X = x), sachant que P(Y ) est une constante (indpendante de la ralisation x). Le premier terme P(Y = y/X = x) dcrit justement le processus d'observation et d'acquisition des donnes. L'hypothse la plus courante consiste supposer l'indpendance conditionnelle des pixels : (20) On fait sur le champ X recherch une hypothse markovienne selon un voisinage et un modle donn dpendant de l'application. On peut alors crire:

17

La classification markovienne
(21)

Si on revient maintenant la distribution a posteriori, celle-ci s'exprime par:

(22)

Avec (23)

Par consquent, sous les hypothses prcdentes, on constate que la distribution a posteriori est une distribution de Gibbs et que donc le champ X conditionnellement Y est galement un champ de Markov (thorme de Hammersley-Clifford). Ainsi, il est possible de simuler des ralisations de ce champ l'aide de l'chantillonneur de Gibbs ou de l'algorithme de Metropolis. Mais la configuration x qui nous intresse est celle qui maximise la probabilit a posteriori, donc la ralisation la plus probable du champ de Gibbs, ou encore celle qui minimise l'nergie W(x / y). IV.3.3.4.2.2. La classification Le champ markovien X est dfini sur un autre espace de configurations que Y car seules quelques tiquettes sont considres: E = {1, m-1} (correspondant aux diffrentes classes cherches). Le terme P(Y = y / X = x) traduit donc la probabilit de ralisation d'une configuration donne connaissant son tiquetage (c'est--dire connaissant la classe de chaque pixel). En supposant l'indpendance des sites les uns par rapport aux autres et en supposant que le niveau de gris ys en un site s ne dpend que de l'tiquette xs en ce site, on a : (24)

Les valeurs des probabilits conditionnelles sont donnes par lhistogramme conditionnel des niveaux de gris pour une classe donne. Par exemple, si on suppose que chaque classe i a une distribution gaussienne de moyenne i et d'cart-type i, on a :

(25)
18

La classification markovienne

La probabilit a priori P(X = x) permet d'introduire les contraintes que nous souhaitons imposer la solution. En faisant l'hypothse que X est markovien nous nous restreignons des contraintes locales, le plus souvent de rgularit entre sites voisins. On se limite frquemment aux cliques d'ordre 2, on a :

(26) On a alors l'nergie suivante correspondant la distribution de Gibbs du champ a posteriori :

(27)

Le champ des tiquettes conditionnellement y est markovien et d'nergie de Gibbs W(x / y). La constante b pondre l'influence entre le terme d'attache aux donnes (cliques d'ordre 1) qui impose des niveaux de gris xs de l'image classe, proches de ys, et le terme qui exprime la contrainte de rgularisation introduite (cliques d'ordre 2) et qui impose une solution constitue de zones homognes. On choisit souvent un modle de Potts [WU, 1982] pour X, ce qui donne une image classe avec de larges zones homognes. La fonction modlise les potentiels des cliques d'ordre 2 : U c = (s, t ) = ( xs - xt ) . La Figure 10 montre un exemple de classification d'une image de satellite optique. L'utilisation du modle de Potts pour le terme d'attache aux donnes produit des rgions compactes. Dans classification, il est ncessaire de pouvoir dterminer le ou les tats d'nergie minimale qui correspondent au maximum de la probabilit d'un champ markovien.

19 Figure 10: Exemple de classification markovienne sur une image satellitaire optique.

La classification markovienne
V. Conclusions Ltude la classification markovienne ma permis dans un premier temps de bien poser les bases thoriques des chaines de markov. Dans un second temps, elle ma permis de rendre compte de leur utilisation dans de vastes domaines tels que la reconnaissance de la parole, de textes, la RI, ... Les traitements statistiques fonds sur des modles Markoviens peuvent prsenter des qualits exceptionnelles. Lavantage de ces modles par rapport des modles locaux dcoule de leur aptitude prendre en compte, de faon souvent lgante et mathmatiquement rigoureuse, lensemble de linformation disponible. De plus, les diverses tudes semblent indiquer quune extraordinaire robustesse sajoute aux qualits classiques des mthodes statistiques que sont la souplesse et loptimalit. Cette robustesse permet denvisager des complexifications croissantes des modles : squences dimages, images 3D, etc.

20

La classification markovienne

Rfrence [Besag, 1974] Besag, J., Spatial Interaction and the Statistical Analysis of Lattice Systems, Journal of the Royal Statistical Society, vol. B-36, pp. 192-236, 1974. [BKN 04] M. Benam et N. El Karoui, Promenade alatoire Chanes de Markov et simulations ; martingales et stratgies, Les ditions de lcole polytechnique, 2004. [FOA 02] Processus stochastiques [Texte Imprim] : processus de Poisson, chanes de Markov et martingales : cours et exercices corrigs, Foata, Dominique / Dunod / 2002. [Gordon, 1981] Gordon, A. D. (1981). Classification : Methods for the Exploratory Analysis of Multivariate Data. Chapman & Hall Ltd., London. [Kshmrk] Nicholas Kushmerick, Edward Johnston, Stephen Mcguinness. In The IJCAI-2001 Workshop on Adaptive Text Extraction and Mining. [RAB89] L.R. Rabiner, A tutorial on Hidden Markov Models and selected applications in speech recognition,In the proceedings of IEEE, 77(2):257-285,1989. [Rakesh Dugad] Rakesh Dugad, A Tutorial on Hidden Markov Models. Signal Processing and Artificial Neural Networks Laboratory Department of Electrical Engineering Indian Institute of Technology Bombay, India, 1996. [Sigelle, 1993] Sigelle, M., Champs de Markov en traitement d'images et modles de la physiques statistique: applications en relaxation d'images de classification, Thse, Ecole nationale suprieure des tlcommunications, 1993. [SSV 02] Classification semi-automatique de documents Web laide de chanes de Markov caches, L.Serradura, M.Slimane, N.Vincent, C.Proust, Inforsid 2002, Nantes, juin 2002, pp215-228. [WU, 1982] Wu, F. Y, The Potts Model , Review of Modem Physics, vol. 54, no. 1, 1982.

Autre Rfrence [Vitebri] The Viterbi algorithm http://en.wikipedia.org/wiki/Viterbi_algorithm

21