Vous êtes sur la page 1sur 78

Ecole Nationale Suprieure de Tlcommunications de Bretagne Dpartement Signaux et Communications

RAPPORT DE STAGE:
TRAITEMENT AUTOMATIQUE DES SIGNAUX ECG

Encadrant : M. Jean-Marc Boucher, Professeur lENST de Bretagne

Auteur : Marius Oltean, L'Universit Polytechnique de Timisoara

Remerciements
Mes remerciements vont en premier lieu vers mon encadrant, monsieur le professeur Jean-Marc Boucher, qui m'a soigneusement guid pendant tout mon travail. Je voudrais aussi remercier mon directeur de thse en Roumanie, madame le professeur Miranda Naforni pour son soutien moral sur la dure de ces mois. J'exprime galement mes remerciements vers monsieur le professeur Alexandru Isar et vers monsieur Salim Graja, dont les conseils m'ont plusieurs fois aid progresser dans mon travail.

Table des matires Les objectifs du stage Chapitre 1: Introduction 1.1 Le cur 1.2 L'activit lectrique du cur 1.2.1 L'lectrocardiogramme 1.3 Le traitement automatique des signaux ECG Chapitre 2: La construction d'une base de donnes 2.1 Base de donnes dj existante 2.2 L'amlioration de la base de donnes Chapitre 3: Le pr-traitement du signal ECG 3.1 La dtection du pic R 3.2 Le dbruitage du signal ECG 3.2.1 Filtrage MAP dans le domaine de la transforme en ondelettes, appliqu pour le dbruitage des signaux ECG 3.2.2 La mthode propose 3.2.3 Rsultats Chapitre 4: La segmentation automatique des signaux ECG 4.1 La mthode AMC - Ondelettes 4.2 L'amlioration de la mthode de segmentation 4.2.1 La mthode propose 4.2.2 Etudes complmentaires 4.3 Problmes spcifiques rencontrs lors du stage 4.3.1 L'apprentissage du modle AMC - Ondelettes 4.3.2 La segmentation par le modle AMC - Ondelettes 4.3.3 La segmentation des signaux de la base de Laguna Chapitre 5: Conclusions et perspectives Bibliographie Annexe A1 Annexe A2 17 26 42 42 47 48 55 58 58 61 64 69 72 75 77 4 5 5 6 6 8 10 10 10 13 13 15 16

LES OBJECTIFS DU STAGE


En 2005, le GET (Groupe des coles de Tlcommunications) a propos un sujet de recherche concernant la ralisation dun systme dalarme automatique fiable pour le suivi distance des personnes aux pathologies cardiaques et/ou ges. Intitul TELCARD (TELsurveillance mdicale des personnes aux pathologies CARDiaques), ce systme doit exploiter les lectrocardiogrammes (ECG) enregistrs soit en mode portable (Holter, mesures continues) soit en mode " rsident " (mesures discrtes), en relation avec la base domestique dun dispositif de tlsurveillance. Parmi les raisons essentielles de concevoir et dvelopper un systme de suivi distance des patients atteints de pathologies cardiaques et/ou des personnes ges on pourrait mentionner : permettre la surveillance en temps rel des personnes ges, sans que leur transport lhpital soit ncessaire. procder, en cas durgence, une mdicalisation rapide et efficace effectue " distance". Parmi les nombreuses taches accomplir dans le cadre de ce projet, on retrouve les objectifs de mon stage : 1. La constitution dune base de donnes commune INT Paris - ENST de Bretagne, contenant des enregistrements ECG, complts par des donnes personnelles concernant les sujets, donnes qui vont permettre la poursuite de lvolution ultrieure des patients . 2. Limplmentation dune mthode de pr-traitement des signaux ECG (le dbruitage) qui permettra le dveloppement dans de bonnes conditions du traitement automatique des signaux ECG (segmentation, extraction des paramtres, classification). 3. Lamlioration de la segmentation automatique des signaux ECG. Dans ce cadre, on a mesur lefficacit et la robustesse de la mthode de segmentation propose et implmente par Salim Graja et on a essay son amlioration.

CHAPITRE 1 INTRODUCTION
1.1 LE CUR Le cur, apparu chez les premiers vertbrs il y a environ 450 millions dannes, est un vaisseau sanguin contractile 4 chambres, comme la figure 1.1 le montre. Les deux chambres suprieures du cur sont appeles les oreillettes, tandis que les deux chambres (pompes) infrieures sont appeles les ventricules. Le cur est aussi spar en deux parties: la droite (cur droit) et la gauche (cur gauche), chacune comprenant une oreillette et un ventricule. Le mur qui spare les oreillettes et les ventricules sappelle septum. L'oreillette droite collecte le sang qui a parcouru tout le corps (le sang "bleu"), et l'envoie vers le ventricule droit afin qu'il soit ject dans les poumons pour y tre re-oxygn. De la mme faon, l'oreillette gauche collecte passivement le sang qui a travers les poumons et l'achemine au ventricule gauche qui jecte le sang frachement oxygn (le sang "rouge") dans l'ensemble du corps.

Fig. 1.1 : Lanatomie du cur. Tout ceci se passe en moins d'une seconde ou environ une seconde en comptant le temps de relaxation du cur. La phase de la contraction du cur s'appelle systole, celle de la relaxation s'appelle diastole. Cette succession de systoles et diastoles se produit de faon autonome. En effet, le cur bat par lui-mme, tout ce qu'il a besoin pour battre c'est du sang bien oxygn, et ayant suffisamment de nutriments, circulant dans son propre muscle.

1.2 LACTIVITE ELECTRIQUE DU CUR Le travail du cur est d la contraction des cellules cardiaques, qui sont des cellules musculaires stries, hautement spcialises. Lexcitation lectrique conduisant la contraction se propage de cellule en cellule, ce qui assure la coordination ncessaire un pompage efficace. Cette excitation est lie aux changes dions entre lintrieur et lextrieur de la cellule. Lactivit mcanique du cur est le rsultat de son activit lectrique, cre par les ondes de polarisation et dpolarisation qui se propagent la surface des cellules cardiaques. Le processus dactivation lectrique cardiaque prend naissance au niveau de la fibre myocardique. A ltat basal, une fibre myocardique est dite " polarise " : la face interne de la membrane cellulaire est tapisse de charges lectriques ngatives et sa face externe de charges positives, de sorte quune micro-lectrode transperant cette membrane recueille un potentiel ngatif denviron 90mV. Lorsque cette fibre est stimule, des mouvements dions se produisent dune part et dautre de la membrane cellulaire. Les charges ngatives internes seront remplaces par des charges positives, le potentiel intracellulaire passant brusquement de 90mV +20mV. Dans ce moment-l, la cellule est dite " dpolarise ". Ensuite, des mouvements ioniques en sens inverse restaureront progressivement ltat de dpart. Il sagit du processus de " repolarisation " qui ramnera le potentiel cellulaire sa valeur initiale. Durant le processus, llectrode exploratrice aurait enregistr un " potentiel daction " constitu de 4 phases successives : tat de base, monte rapide, plateau et descente progressive. La phase dascension rapide corresponde au complexe QRS, le plateau au segmente ST et la descente londe T. 1.2.1 LELECTROCARDIOGRAMME

Llectrocardiogramme est lenregistrement des points de rfrence (appels " drivations cardiaques " ) par lintermdiaire des lectrodes places la surface du corps, mesurant les diffrences de potentiel lectrique dtermines par la propagation de linflux lectrique au sein du cur. Il y a 18 drivations standards qui sont couramment utilises pour capter lactivit lectrique du cur : Les drivations du plan frontal : 6

o drivations bipolaires : lenregistrement de la diffrence de potentiel entre deux points du corps. Ces drivations sont appeles I, II et III. o drivations unipolaires : celles-ci mesurent la diffrence de potentiel entre un point sur la surface du corps et un point " de rfrence ". Ces drivations sont notes respectivement par aVR, aVL et aVF. Les drivations du plan horizontal : drivations prcordiales unipolaires : V1, V2, V3, V4, V5, V6, + /- V7 V9, V3R et VE. Le signal enregistr lors dun battement du cur comprend normalement trois ondes successives : londe P, le complexe QRS et londe T. Elles sont spares par dintervalles de " relchement ", constituant les "segments isolectriques " (cf fig. 1.2).

Fig. 1.2 : Un battement du cur. Une courte description des ondes et des segments isolectriques composant le signal ECG est faite ci-dessous : La ligne isolectrique : la ligne de base correspondant labsence de lactivit lectrique. Au-dessus de celle-ci, on parle donde positive et au dessous on a les ondes ngatives.

Londe P : elle marque la dpolarisation auriculaire, ayant une dure de lordre de 90 ms. Londe est situe au-dessus de la ligne isolectrique, et son amplitude est normalement infrieure 0.25 mV

Le segment PR (ou PQ) : il est mesur du dbut de l'onde P au dbut du complexe QRS. La dure de l'intervalle PR varie de 0,012 0,020 secondes en fonction de la frquence cardiaque et de l'ge. Chez l'adulte d'ge moyen, la limite suprieure de la dure normale est de 0,021 secondes.

Le complexe QRS : il correspond la dpolarisation ventriculaire prcdant leffet mcanique de contraction. La dure du QRS, dpendante du sexe et de lage, est normalement comprise entre 0,06 et 0,10 secondes. Le complexe comprend trois parties : l'onde ngative initiale est appele onde Q, avec une dure infrieure 0,04 secondes avec une amplitude dpasse rarement 0,2 mV. La premire onde positive est appele onde R, tandis que l'onde ngative qui suit l'onde R est appele onde S.

Le segment ST : la partie du trace ECG comprise entre la fin du complexe QRS et le dbut de l'onde T. Le segment ST est normalement isolectrique : son dplacement vers le haut ("sus-dcalage") ou vers le bas ("sous-dcalage") indique gnralement un tat pathologique. Cependant le segment ST normal peut tre lgrement dcal, vers le haut au repos ou vers le bas l'effort : dans ce dernier cas, il a habituellement une pente oblique ascendante.

Londe T : elle correspond la phase 3 terminale de la repolarisation ventriculaire. Elle a normalement un aspect asymtrique avec une pente initiale plus faible que son versant descendant, c'est--dire une monte plus lente que la descente. Normalement, lamplitude de londe T est infrieure celle du complexe QRS. 1.3 LE TRAITEMENT AUTOMATIQUE DES SIGNAUX ECG Le traitement automatis des signaux ECG a gagn un large intrt dans les derniers

ans tant dans les milieux mdicaux que dans ceux qui soccupent avec le traitement du signal. Le dfi est bien intressant : tant donne la " sensibilit " du domaine, le but final du traitement automatique (de complter o mme substituer lapport du mdecin) reste une tache particulirement dlicate. Une chane complte pour le traitement du signal ECG doit comprendre les suivantes tapes :

Lacquisition des signaux ECG et leur transformation dans un format qui soit utilisable pour le traitement automatique. Lacquisition sert ultrieurement constitution des bases de donnes. la

Le pr-traitement : lors du processus dacquisition, les signaux ECG sont affects par de multiples sources de distorsions. Ltape de pr-traitement doit diminuer le plus possible leffet de ces interfrences perturbatrices, tout en conservant avec beaucoup dattention les composantes utiles du signal. Parmi les perturbations les plus communes, on retrouve les interfrences avec le rseau lectrique (les " 50 Hz " ), les fluctuations de la ligne de base ( cause de la respiration o des mouvements du patient) et lainsi nomm " bruit lectromyographique " (EMG) provoqu par lactivit des muscles. Tandis que des mthodes bien efficaces ont t conues pour liminer les premiers deux types de bruit, le plus troublant reste le rsidu EMG, cause du fait que son spectre est superpos sur le spectre du signal ECG utile.

La segmentation : tape importante et dlicate du traitement automatique, dont le rsultat est la fragmentation du signal en trames successives homognes, en isolant ainsi les principales ondes utiles du point de vu clinique : les ondes P et T et le complexe QRS.

Lextraction des paramtres : il sagit de trouver, partir des ondes lmentaires rsultes de la phase de segmentation, les paramtres qui puissent prdire le mieux ltat du patient.

La classification : en utilisant les paramtres relevants, la classification doit tre capable de " donner le diagnostique ", en substituant le rle du mdecin.

Chaque tape est particulirement dlicate et ncessite une qualit quasi parfaite. Le succs de la chane automatique est assur seulement dans le cas dun fonctionnement irrprochable de chaque de ses parties composantes.

CHAPITRE 2 LA CONSTRUCTION DUNE BASE DE DONNEES


2.1 BASE DE DONNEES DEJA EXISTANTE Pendant toute la dure de mon stage jai eu la disposition la base de donnes de lhpital Cavale Blanche de Brest ( rfrence galement comme base CHU ), base constitue afin de rpondre aux tudes spcifiques du travail men par L. Clavier [1]. Rfrences exhaustives sur cette base sont donnes dans [1] et [2]. Sauf la base de donnes avec les signaux ECG, jai dispos aussi de limplmentation dune partie des mthodes prsentes dans [1-4] comprenant des fonctions Matlab pour le pr-traitement (le dbruitage, la dtection du pic R ), la segmentation et la classification automatique des signaux ECG. Sur la dure de mon tude, il ny a pas eu des problmes de " compatibilit " de la base de donnes. Toute la base de donnes est directement et immdiatement utilisable sous Matlab. Les fonctions testes (la plupart dentre elles programmes dans des versions antrieures du logiciel ) se sont galement prouves compatibles avec la version Matlab 6.5. 2.2 LAMELIORATION DE LA BASE DE DONNEES Luniversit ENST de Bretagne a renouvel sa collaboration avec lHpital Cavale Blanche de Brest, collaboration envisageant la constitution dune nouvelle base de donnes. Le nouvel appareil utilis par les mdecins de l'hpital de Brest sappelle Task Force Monitor, produit par la socit CNS Systems, et il permet lexport des donnes en format compatible Matlab. La frquence dchantillonnage utilise pour transformer les enregistrements ECG dans un format numrique est de 1000Hz et chaque chantillon est cod par 16 bits. Etant donn le fait que le spectre du signal ECG est entirement situ au-dessous de 200 Hz, on peut affirmer que les signaux sont sur-chantillonns. Pour linstant, on a reu 4 chantillons de signaux, enregistrements provenant de patients diffrents et prsentant diffrentes morphologies des ondes composantes du signal. Lutilisation des donnes fournies dans le nouveau format (par le nouvel appareil) sous Matlab s'avre extrmement simple et consiste dans le chargement des fichiers ayant

10

l'extension .mat, en utilisant linstruction "load".

La structure charge sous Matlab

(RAW_SIGNALS) contient comme " sous-structures " les signaux ECG provenant de deux drivations diffrentes, signaux ayant l'extension .rawECG1 et .rawECG2. Les dtails concernant lutilisation des donnes sous Matlab sont donns dans [5]. Ce qui est notable en ce qui concerne les signaux fournis par le nouvel appareil de lHpital Cavale Blanche est le fait quil sagit de donnes " brutes ". Les signaux sont exports sans tre soumis en pralable aux traitements spcifiques mis en uvre en vue dun affichage " lisible " pour le cardiologue sur lcran de lappareil. Cela nous permettra de nous confronter avec tous les problmes spcifiques lis aux signaux ECG, ds la premire phase dune chane de traitement automatique, cest dire le dbruitage (nomm parfois le " lissage ") du signal. Dans la figure 2.1 a) on peut observer un de ces signaux ECG, fortement affect par du bruit. Son analyse de Fourier ( fig. 2.1 b), rvle bien clairement tant la perturbation cause par linterfrence avec le rseau lectrique (les " 50 Hz ") que d'autres types de bruit " haute-frquence " (il sagit du signal " Gagnard ", la trace ECG1).

a)

b)

Fig. 2.1 : Signal ECG acquis affect par le bruit (a) et sa densit spectrale de puissance (b). Lutilisation dun tel signal (dit " brut "), apparemment indsirable et incommode, permettra aux chercheurs de " matriser " toute la chane de traitement automatique et de vrifier la robustesse de leurs mthodes dans les conditions les plus ralistes. En effet, dans le 11

cadre dun projet de tlsurveillance des patients, comme celui dont le sujet est la prsente tude, le signal acquis sera plutt un signal comme celui illustr ci-dessus quun signal " propre ", non-affect par le bruit. De lautre ct, on a essay dunifier les deux bases de donnes diffrentes dont les deux universits impliques dans ce projet disposent: la base " Europenne " ST-T (utilise par l'INT Paris) et la base de lHpital de Brest (utilise jusqu' prsent pour les travaux effectue l'ENST de Bretagne). La base ST-T comprend 90 enregistrements de deux heures raliss sur 79 individus. Chaque enregistrement contient le signal provenu de deux drivations, chantillonn 250 Hz. Vu que la base a t ddie lvaluation des pisodes ischmiques, elle est tiquete dans ce sens-l, les tiquettes concernant les pisodes dischmie associs aux changements dans le segment ST et dans londe T. Cependant, la base ne contient pas des tiquettes dlimitant les ondes composantes du signal et par consquent elle ne peut pas servir lapprentissage et lvaluation dun algorithme de segmentation. Cela ma oblig de morienter vers la base QT (connue aussi sur le nom de Laguna) [6]. Cette base, qui est disponible gratuitement sur lInternet [7] rassemble 105 enregistrements slectionns dautres bases. Au moins 30 battements cardiaques sont tiquets pour chaque signal, les tiquettes incluant la segmentation manuelle faite par les spcialistes pour dlimiter les ondes composantes du signal. Parmi les enregistrements on retrouve 33 signaux pris de la base ST-T. Pour ajouter de nouveaux signaux utiles la base commune, on a extrait les portions tiquetes de ces signaux (qui commencent aprs 10 minutes qui sont "non-tiquetes"), et on a modifi les valeurs des tiquettes pour les rendre correctes, vu lopration de " dcoupage " ralise en pralable. En mme temps, il a fallu rsoudre le problme de la frquence dchantillonnage diffrente utilise pour les deux bases de donnes. Pour amener la frquence dchantillonnage de signaux de la base QT a une valeur de 1000 Hz, on a implment une interpolation cubique des signaux acquis 250 Hz, en utilisant la fonction Matlab interp1. Une amplification avec le facteur 1000 a t effectue en mme temps, pour se rallier aux amplitudes des signaux de notre base (la base de lHpital de Brest). On a gard galement les portions segmentes des signaux de la base de Laguna dans leur version originelle ( 250 Hz), avec les annotations correspondantes, fait qui rend la nouvelle base disponible pour traitement automatique dans les deux versions de la frquence d'chantillonage (250 Hz et 1000 Hz). Pour le code de notations utilis, ainsi que pour la structure des fichiers de la nouvelle base, voir lannexe AI.

12

CHAPITRE 3 LE PRE-TRAITEMENT DU SIGNAL ECG

Lors du traitement automatique du signal ECG, consistant dans la succession de quelques tapes (segmentation, analyse, classification), une tape de pr-traitement s'avre souvent imprativement ncessaire. On peut y inclure tous les traitements faits pour liminer les diverses perturbations qui dgradent la qualit de l'enregistrement: les interfrences avec le rseau lectrique, les oscillations de la ligne de base cause des mouvements ou de la respiration du patient, le bruit induit par l'activit lectrique des muscles etc. Sauf l'amlioration de la qualit du signal traiter (toute cette catgorie de traitements est parfois runie sous le nom gnrique de "dbruitage"), la dtection du pic R (le point de maximum situ sur le complexe QRS ) s'avre toujours ncessaire, au moins pour la partition des enregistrements dans des battements distincts, donc la dtection du pic R peut tre incluse dans la catgorie des pr-traitements. 3.1 LA DETECTION DU PIC R Dans [2], la dtection du pic R t implmente par une mthode assez complexe, base sur des chanes de maxima d'ondelettes. La mthode s'avre particulirement efficace dans les cas des enregistrements fortement bruits ou ayant une morphologie anormale. Le dsavantage de la mthode est sa complexit, traduite dans un temps de calcul trs lev. Pratiquement, la dtection des pics R pour un signal consomme plus de temps de calcul que toute sa segmentation. Face cet inconvnient, on a dcid d'implmenter une autre mthode, moins complexe, qui fonctionne d'une manire satisfaisante dans la plupart des cas. On s'est arrt sur l'algorithme "classique" de Pan et Tompkins, galement dcrit dans [2], mthode qui repose sur la comparaison avec un seuil d'une variante "lisse" du signal ECG. Une brve description mathmatique de cette mthode est donne dans la suite. Soit y[n] la squence des chantillons composant le signal ECG discrtis. On calcule d'abord deux variantes "lisses" de cette squence:

13

yliss1 (n) = ( y1 (n 1) + 2 y1 (n) + y1 (n + 1) ) 4

(3.1)

o y1 (n) = y (n + 1) y (n 1) . L'autre squence est calcule d'une manire similaire:


yliss2 (n) = ( y2 (n 1) + 2 y2 (n) + y2 (n + 1) ) 4

(3.2)

avec: y 2 (n) = y (n + 2) 2 y (n) + y (n 2) Les chantillons appartenant au complexe QRS seront dtermins par le seuillage d'une somme pondre des signaux (3.1) et (3.2):
y3 (n) = a1 yliss1 (n) + a2 yliss2 (n)
2 2

(3.3)

avec: a1, 2 = 1 max( yliss1, 2 (n) ) . La valeur du seuil est initialement tablie 0.35 max( y3 (n) ) . On dtermine ainsi un group d'chantillons appartenant au complexe QRS. Les pics sont dtermins dans la suite en cherchant les valeurs maximales du signal parmi chaque group d'chantillons QRS (fig. 3.1).

Fig 3.1: La position des pics R dtermine par l'algorithme de Pan et Tompkins (le signal p4c1 ). 14

Bien qu'il soit trs simple, l'algorithme engendre une procdure efficace pour la plupart des signaux dont on dispose. Par consquent, on recommande l'utilisation de la mthode avec de chanes de maxima d'ondelettes [2] exclusivement pour les situations o l'algorithme de Pan et Tompkins ne fournit pas des rsultats acceptables. Notons enfin que le temps de calcul pour dtecter les pics R d'un signal de 40000 chantillons est de l'ordre 120 secondes pour la mthode avec chanes de maxima, et de 2 secondes pour l'algorithme de Pan et Tompkins. 3.2 LE DEBRUITAGE DU SIGNAL ECG Le signal ECG est soumis un ensemble de perturbations causes par les mouvements ou la respiration du patient, son activit lectrique musculaire, le positionnement inappropri des lectrodes, l'interfrence avec le rseau lectrique etc. Tous ces phnomnes indsirables conduisent la dgradation de la qualit du signal ECG enregistr et rendent difficile son traitement automatique. Par consquent, un traitement prliminaire du signal s'avre fortement ncessaire dans la plupart des cas. Vu les particularits du domaine, la qualit d'un tel prtraitement doit tre irrprochable: il doit envisager l'limination des influences perturbatrices, tout en gardant fidlement les caractristiques essentielles des ondes utiles qui composent le signal. Ces caractristiques (parmi lesquelles on rencontre la forme, la dure, le spectre) seront ultrieurement utilises pour extraire les paramtres qui "dcident" la classification, donc leur moindre dgradation peut affecter le "verdict" automatique, c'est dire la classification du patient. Cela explique bien clairement l'importance de la qualit du dbruitage. Dans les dernires annes, de nouvelles techniques bases sur la transforme en ondelettes sont devenu populaires dans le contexte du dbruitage du signal. En effet, cette transforme prsente la proprit remarquable de "concentrer" la plupart de l'nergie du signal utile dans un nombre rduit de coefficients haute nergie dans le domaine "transform". Par contre, les coefficients reprsentant l'image du bruit dans le domaine de la transforme en ondelettes seront nombreux, mais de faible nergie. Vu les observations ci-dessus, le schma de principe d'un systme de dbruitage bas sur la transforme en ondelettes rsulte rapidement. Elle comporte trois tapes successives: 1. L'application de la transforme en ondelettes au signal affect par du bruit. 2. Le filtrage des coefficients ainsi obtenus, conformment un certain critre. 15

3. Le calcul de la transforme inverse, partir des coefficients issus de l'tape prcdente. Un tel algorithme de dbruitage a t propos initialement par Donoho [8] pour le cas d'un bruit additif. Il repose sur l'utilisation de la transforme en ondelettes discrte (TOD) pour les pas 1 et 3 et sur un filtrage adaptatif non-linaire des coefficients dans l'tape 2, filtrage connu sur le nom de "seuillage" (angl. "thresholding"). La valeur du seuil est tablie en tenant compte de l'estimation de la variance du bruit qui affecte le signal utile. En fait, cette modalit de choisir le seuil constitue le point faible de l'algorithme, vu qu'elle ne prend pas en considration aucune information regardant le signal utile. En essayant annuler cet inconvnient, une approche alternative t mise en uvre pour l'tape 2 de l'algorithme. Elle comprend une catgorie de techniques runies sous le nom de filtrage maximum-a-posteriori (MAP). Dans ce cas, on fait des suppositions "a priori" regardant les fonctions de densit de probabilit (fdp) des coefficients du signal utile et des coefficients du bruit. Le filtrage (l'tape 2 de l'algorithme) sera l'implmentation directe de la solution analytique qui maximise la probabilit conditionne des coefficients utiles, tant donnes les observations "bruites". Afin de mettre en uvre le dbruitage des signaux ECG, on s'est orient vers une telle approche, vu ses bases mathmatiques bien rigoureuses et les rsultats exprimentaux obtenus sur la dure du travail. Vers une telle dmarche on a t galement conduit par les tudes exprimentales et thoriques sur le cas particulier des signaux ECG. 3.2.1 F ILTRAGE MAP DANS LE DOMAINE DE LA TRANSFORMEE EN ONDELETTES APPLIQUE POUR LES SIGNAUX ECG Pour le cas d'un filtrage MAP des coefficients d'ondelettes, les performances de la mthode sont dtermines par deux facteurs: 1. La "vridicit" des suppositions a priori regardant les proprits statistiques des coefficients de la transforme en ondelettes, tant pour le signal utile que pour le bruit. 2. La qualit de l'estimation des paramtres statistiques pour les deux composantes (utile et perturbatrice) d'un coefficient d'ondelette. D'un intrt particulier pour le cas des signaux ECG s'avre le filtre Wiener dit "empirique" dans le domaine de la TOD, filtre propos dans [9] et prsent comme une amlioration du filtrage Wiener "classique" dans le domaine transform. Vu l'importance capitale d'une bonne estimation des paramtres statistiques, les auteurs dans [9] utilisent deux 16

transformes en ondelettes diffrentes. L'estimation des paramtres du signal utile est faite ainsi l'aide d'un "signal pilote", obtenu par le seuillage dur des coefficients d'ondelettes rsults par l'application de la premire TOD. C'est la premire tape de l'algorithme. Le filtrage MAP des coefficients est fait dans le domaine de la deuxime TOD, sous l'hypothse d'une distribution gaussienne tant pour les coefficients utiles que pour ceux du bruit. Ce filtrage constitue l'tape seconde de l'algorithme. L'ide a t implmente sous diffrentes formes par les auteurs dans [10-12] pour le cas particulier des signaux ECG et les rsultats ont t satisfaisants. Les avantages d'une telle approche ont t noncs et vrifis empiriquement par les auteurs dans [10]. En premier lieu, il s'agit de la capacit du systme de bien prserver les formes des ondes utiles du signal ECG. En effet, les inconvnients classiques du dbruitage par le seuillage de la TOD dans sa forme habituelle (appele parfois "TOD dcime") sont retrouvables dans le cas des signaux ECG, avec des effets troublants. Ainsi, la reconstruction exacte des ondes utiles pourrait tre gravement endommage par des artefacts comme les oscillations parasites au dbut et la fin du complexe QRS (le phnomne de Gibbs, attribu la variance translation de la TOD dcime)[10], [13-14] ou par la dformation des ondes "lentes" du signal (les ondes P et T). Dans [10], les auteurs utilisent une ondelette mre bien localise en temps pour l'obtention du signal pilote, ondelette ayant le rle de bien reproduire la forme exacte du complexe QRS. L'effet ngatif induit d'un tel choix pour la forme des ondes P et T (qui prsentent une volution temporelle relativement lente) est corrig par la deuxime tape de l'algorithme, o d'ondelettes mres bien localises en frquence sont prfres. LA METHODE PROPOSEE L'architecture du systme de dbruitage propos est illustre dans la figure 3.2: W1 Seuillage W1-1
Signal pilote

Signal bruit

W2

Bruit estim

x =s+p

W2

w = u+n

Filtre MAP

W2-1

Fig.3.2 : L'architecture du systme de dbruitage propos. 17

Signal dbruit

Cette mthode rpond l'objectif trac au dbut du stage et c'est le fruit d'une tude thorique et pratique mene sur le thme du traitement des signaux ECG. Le problme qu'on a eu rsoudre peut tre formul de la manire suivante: tant donns les signaux ECG de l'ancienne base de donnes CHU (en gnral moins bruits) et les signaux fortement bruits reus rcemment de l'Hpital de Brest, le but de notre recherche a t de trouver une mthode de dbruitage qui soit efficace pour tous les deux types de signaux. Notre souhaite a t en mme temps de rendre la mthode suffisamment gnrique et robuste, ayant pour but final la possibilit de l'appliquer sur un grand set de signaux ECG provenus de diffrentes bases, avec le moindre nombre de paramtres rgler. Hypothses de travail: On considre le cas d'un signal ECG (s) perturb par le bruit d'une manire additive (p) (3.5). Puisque l'hypothse classique du bruit blanc n'est pas raliste dans le cas des bruits physiques rels qui perturbent le signal ECG, on fera la supposition que le bruit est additif, color, gaussien et de moyenne nulle. Tandis que la fdp gaussienne et de moyenne nulle ne rduit pas la gnralit de la mthode, l'hypothse d'un bruit color envisage surtout le bruit de type large-bande produit par l'activit lectrique des muscles. Ce type de bruit, appel "bruit EMG" (lectromyographique) s'avre le plus difficile enlever, cause du fait que son spectre concide partialement avec la bande de frquence occupe par le signal ECG utile. Gnralement, il est considr comme un bruit alatoire, large-bande (le syntagme bruit "presque blanc" est parfois utilis dans la littrature) et ayant un caractre non-stationnaire. Notons enfin que pour les signaux ECG rels, on ne dispose pas d'une caractrisation prcise du bruit. Cela veut dire que, mme si on connat les sources de perturbation possibles (numres auparavant), on ne connat exactement ni la statistique du bruit, ni sa densit spectrale de puissance. En pratique, toutes les caractristiques du bruit peuvent varier entre deux signaux ECG distincts et mme pour l'enregistrement provenu d'un seul individu au cours du temps. On est oblig alors faire les suppositions a priori les plus gnrales, pour se situer dans un cadre suffisamment large et gnrique. En ce qui concerne le signal, les auteurs dans [10-12] prennent en considration une fdp gaussienne des coefficients de la TOD du signal ECG. L'hypothse, sur laquelle repose la possibilit d'effectuer un filtrage de Wiener, ne s'avre pas suffisamment raliste. En fait, le signal ECG prsente un caractre fortement non-stationnaire: il y a quelques ondes "prominentes" (P, QRS, T) qui sont spares par d'intervalles qui marquent le manque de 18

l'activit lectrique (les segments isolectriques). Dans le domaine de la transforme en ondelettes, cela se traduit par l'existence d'un nombre relativement rduit de coefficients haute-nergie (marquant surtout les "ruptures" dans le signal, c'est dire les dbuts et les fins des ondes) et d'un nombre important de coefficients basse-nergie, correspondant aux segments iso-lectriques et aux portions de variation lente du signal. Par consquent, l'hypothse d'une distribution gaussienne semble inapproprie pour modliser d'une manire raliste la statistique des coefficients utiles. Pour prendre en considration les observations prsentes ci-dessus, on a considr qu'une distribution de type "heavy-tailed" pour la fdp des coefficients est plus raliste, et le cas particulier d'une distribution Laplacienne devient trs attractif, tant donne sa simplicit de calcul [15-16]. Afin d'illustrer la plausibilit de cette supposition a priori on a superpos dans la figure 3.3 les observations empiriques (l'histogramme des coefficients d'ondelettes) et la courbe thorique reprsentant une fdp Laplacienne.

Fig. 3.3: Comparaison entre l'histogramme empirique et la loi Laplacienne thorique pour la fdp des coefficients d'ondelettes. Il faut rappeler que la forme mathmatique d'une loi Laplacienne est:

19

pW ( w) =

1 2 w

exp(

2w

(3.4)

o w est l'cart type des coefficients d'ondelette w. Les histogrammes ont t tracs pour les coefficients d'ondelettes situs sur les trois premires chelles de dcomposition. Le nombre total de coefficients pris en compte est de 250000. L'algorithme de dbruitage propos comporte deux tapes distinctes:

Etape 1: L'obtention du signal pilote Le signal pilote reprsente une estimation du signal ECG utile. Il sert fournir au filtre MAP les estimations ncessaires sur la statistique des coefficients d'ondelettes utiles. Pour l'obtention du signal pilote, le signal bruit est transpos dans le domaine de la TOD W1 et ses coefficients sont seuills. La transforme inverse est ensuite applique pour obtenir le signal pilote. Pour cette tape, il vaut mieux choisir une ondelette mre bien localise en temps [10] : on a dtermin empiriquement que l'ondelette de Haar fournit les meilleurs rsultats. Le filtrage dans le domaine W1 est non-linaire et consiste dans la simple application d'une stratgie de seuillage: soit le seuillage "doux" (soft-thresholding- angl.), soit le seuillage dur (hard thresholding angl.) [8]. Puisqu'on n'a pas fait la supposition d'un bruit blanc, ce seuillage doit tre adapt chaque chelle de dcomposition de la TOD (la puissance du bruit n'est pas galement rpartie dans toutes les sous-bandes frquentielles correspondant aux diffrentes chelles de dcomposition ).

Etape 2: Le filtre MAP dans le domaine de la transforme en ondelettes W2 En gnral, un filtre MAP maximise la probabilit a posteriori d'obtenir les valeurs utiles, tant donnes les observations bruites. Dans notre cas, le filtre est appliqu dans le domaine de la transforme en ondelettes discrte W2. Dans la figure 3.4, on a explicit les pas parcourus pour implmenter la seconde tape de l'algorithme de dbruitage.

20

TOD1 TOD2
2

w =1u + 1n

Filtre MAP Filtre MAP

TODI1 TODI2

u
2

s
2

w= 2 u + 2n

x= s+ p
TODl
l

u
Filtre MAP
l

s
TODIl
l

w= l u + l n

u
Filtre MAP
L

s
TODIL
L

M O Y E N N E

TODL

w= L u + Ln

TODDE

s TODDEI

Fig. 3.4: L'illustration de la deuxime tape de l'algorithme de dbruitage. On a utilis pour cette tape la transforme en ondelettes discrte avec diversit enrichie (TODDE) [17-18]. La source de diversit est l'ondelette mre slecte pour le calcul de la TOD. En gnral, obtenir la diversit est souhaitable parce que dans chaque variante du signal obtenue par diversit subsiste le mme signal originel (signal utile, signal estimer), affect par plusieurs variantes du bruit. En fait, la transforme propose dans [17 - 18] consiste pratiquement dans L TOD diffrentes appliques au mme signal d'entre (voir la figure 3.4). Pour le cas particulier d'un signal ECG, il vaut mieux utiliser dans cette tape des fonctions ondelette- mre qui soient bien localises en frquence (qui peuvent bien prserver les formes des ondes P et T ) et en mme temps qui ne soient pas implmentes par l'intermdiaire des filtres avec une rponse impulsionnelle extrmement longue (ces filtres introduiraient des oscillations autour du complexe QRS) [10]. Il faudra donc assurer un compromis en ce sens-la. Une autre source de diversit possible est reprsente par les permutations circulaires des chantillons du signal. Dans ce cas, on obtient la transforme en ondelette discrte invariante translation (TODIT), largement dcrite dans [19]. Cette transforme reprsente un autre type de transforme enrichie en diversit qui sera utilise pour la deuxime tape de notre algorithme. Les explications mathmatiques qui suivent seront donnes seulement pour la TODDE, tandis que pour la TODIT les choses se passent d'une manire compltement idntique dans le domaine transform. C'est seulement la modalit d'obtenir la diversit qui diffre dans les deux cas. On considre le signal l'entre du systme (x), comme tant compos d'un signal utile (s) affect par un bruit additif (p) :
x=s+ p

(3.5)

21

Aprs l'application de la TODDE, on obtient sa sortie L squences de coefficients d'ondelettes, chaque squence correspondant l'ondelette mre utilise pour le calcul de la TOD:

w= l u + l n

(3.6)

o lu reprsentent les coefficients utiles et ln reprsentent les coefficients de bruit, avec l=1,,L. Le filtre MAP maximise la probabilit a posteriori d'obtenir les coefficients utiles (lu), tant donnes les observations perturbes par le bruit (lw). Le but est de trouver pour chaque TOD (pour caque branche de la TODDE- voir la figure 3.4) la solution de l'quation:

u ( l w) = arg max pu / w ( l u / l w)
l

(3.7)

En utilisant la rgle du Bayes, l'quation (3.7) deviendra:

u ( l w) = arg max ( p w / u ( l w/ l u ) pu ( l u ) ) = = arg max ( p n ( l w l u ) pu ( l u ) )


l l

(3.8)

Cette quation exprime l'estimation des coefficients utiles en fonction des densits de probabilit respectivement des coefficients du bruit (pn) et des coefficients utiles (pu). Notons que les deux seront connues grce aux suppositions faites a priori regardant les proprits statistiques du signal et du bruit dans le domaine transform. Dans la suite, nous allons considrer une distribution Gaussienne pour les coefficients de bruit et Laplacienne pour les coefficients utiles. Sous ces hypothses, la solution analytique de l'quation (3.7) [15 - 17] est:

u=

( w
l

2 l 2 l n u l w

l w, l = 1,..., L

(3.9)

22

X , si X > 0 . On peut facilement observer que l'quation (3.9) reprsente en fait o: ( X )+ = 0, autrement une opration de seuillage doux des coefficients bruits, la valeur du seuil tant:

S = 2 l n

(3.10)

2 o l n est l'estimation de la variance du bruit et l u reprsente la valeur estime de l'cart

type des coefficients du signal utile, pour la TOD avec l'index l. En effet, les valeurs exactes de ces paramtres ne sont pas connues (cela aurait rsolu d'une manire idale notre problme) et doivent tre estimes. En ce qui concerne l'cart type des coefficients utiles, il ne restera pas constant travers une chelle de dcomposition. C'est le caractre non-stationnaire du signal ECG qui conduit une telle consquence: il y aura des ruptures dans le signal, marques par des groups de coefficients d'ondelettes haute-nergie, auxquels se succderont des zones de coefficients de faible amplitude. Donc, l'valuation locale de ce paramtre s'impose, et le fait qu'on dispose d'un signal pilote facilite cette valuation: la place de l'cart type (l'quation 3.9) on va prendre la valeur absolue du chaque coefficient de la TOD du signal pilote. Pratiquement, la valeur du seuil sera particularise pour chaque coefficient: ainsi, le filtrage devient adaptatif. En ce qui concerne la variance du bruit, elle est d'habitude value en utilisant l'estimateur mdian bien-connu:
2

n =

mdian(w( j , k ) ) , avec k = 1,..., M / 2 j 0.6745

et j = 1

(3.11)

o w(j,k) reprsente le coefficient d'ondelette qui occupe la position k dans l'chelle de dcomposition j et M est la longueur de la TOD. Dans le cas d'un bruit blanc et gaussien, l'estimation est faite seulement pour les coefficients de dtail obtenus aprs la premire itration de la TOD (j=1): vu le caractre blanc du bruit, cette estimation reste valable pour les
2 ne dpends pas de l'chelle j. Par contre, si on considre le cas autres chelles, parce que n

d'un bruit qui n'est pas blanc (c'est le cas dans ce travail), la situation change et l'estimation doit tre faite chaque chelle en particulier. L'tude empirique du dbruitage des signaux ECG nous a conduit une mthode diffrente pour estimer cette variance du bruit. Le raisonnement est le suivant: puisque le signal pilote est une approximation du signal utile et

23

vu que le bruit est additif, on peut affirmer que la diffrence entre le signal d'entre et le signal pilote sera une approximation du bruit. Par consquent, pour obtenir la variance du bruit au niveau de dcomposition j (de la TODDE), on appliquera cette transforme au signal "de bruit" et la variance sera simplement calcule au niveau j pour les coefficients de bruit obtenus, ce qui nous fournira l'estimation souhaite. En prenant en considration toutes les observations faites auparavant, l'quation (3.9) devienne:
2 l l w ( j , k ) 2 n ( j) l u( j, k ) = l w( j , k )

u ( j, k )

+ l w( j , k ) (3.12)

o u ( j , k ) reprsentent les coefficients de la TOD (en utilisant l'ondelette mre avec l'index l) du signal pilote. La relation (3.12) montre que le filtre MAP est appliqu chaque chantillon en particulier (traitement "chantillon par chantillon"), fait qui est en concordance avec le caractre non stationnaire du signal ECG (la valeur du seuil doit tre variable en temps) et avec le spectre color du bruit (la valeur du seuil doit tre "adapte en frquence"). Comment on a dj discut auparavant, l'utilisation de la TOE dans cette tape de l'algorithme fournit un gain en diversit. Concrtement, on dispose de L estimations diffrentes pour les paramtres-clef de l'quation (3.9) la place d'une seule. En fait, mme si on considre que les suppositions a priori sur la caractrisation statistique des coefficients sont "parfaites", les performances d'un tel filtrage (l'quation 3.9) resteront fortement dpendantes de la qualit de l'estimation des paramtres (la variance du bruit et l'cart type des coefficients utiles, dans notre cas). Pour mesurer cette dpendance, on dfinit la sensitivit de l'estimation des coefficients u avec u par [20]:

S ( u ) =
u

d u u du u

(3.13)

Pour les coefficients qui sont suprieurs au seuil dfini par (3.10), en substituant l'quation (3.9) dans (3.13), cela devient:

24

S ( u ) =
u

2 n

u w 2 n

(3.14)

La fonction dfinie dans (3.14) est dcroissante en u . Les coefficients d'ondelettes ont une faible variation locale dans les zones correspondant l'volution lente du signal (par exemple l'onde P). Pour ces zones, avec des valeurs petites du paramtre u , l'quation (3.14) nous indique une erreur d'approximation plus importante. Dans ce contexte, l'utilisation de L estimations distinctes pour u peut amliorer les rsultats surtout pour ces portions du signal. Cela nous aide bien prserver la forme de l'onde P, qui est la plus sensible tant au bruit qu'au dbruitage ( cause de sa faible amplitude et de sa morphologie varie). Revenant la figure 3.4, aprs le filtrage MAP, le signal dbruit est obtenu par l'intermdiaire de la transforme en ondelettes discrte avec diversit enrichie inverse (TODDEI). Cela consiste bien dans le calcul de chaque TOD inverse (correspondant aux TOD utilises dans la TODDE). Le signal de sortie est obtenu en calculant la moyenne des L variantes dbruites, notes par s :
1 L l s(n), n = 1,..., M L l =1
l

s ( n) =

(3.15)

Notons qu'en moyennant les rsultats des diffrents filtrages MAP donns par (3.12), on liminera une partie du bruit rsiduel rest aprs le filtrage des coefficients d'ondelettes. Sans perdre la gnralit, nous pouvons supposer que ce bruit rsiduel est un processus alatoire gaussien et de moyenne nulle. Ses L ralisations diffrentes sont les squences de bruit rsiduel (qui a "survcu" au filtrage MAP) qui perturbent le signal utile. Sur l'autre ct, chaque chantillon peut tre considr comme la sommation d'un chantillon utile (qui, thoriquement, est toujours le mme puisqu'on a un seul signal utile) et d'un chantillon de bruit rsiduel (qui est diffrent pour chaque branche de la TODDEI). Par consquent, le calcul de la moyenne des chantillons correspondants un moment de temps fix aura comme effet l'annulation rciproque de la partie de bruit qui subsiste dans chaque chantillon. Par contre, le signal utile sera bien prserv (sous la condition que le signal ne varie pas trs rapidement).

25

Une "seconde itration" du notre algorithme pourrait amliorer davantage les rsultats. Cette itration consisterait dans le re-usage du signal dbruit comme une meilleure version du signal pilote. Le signal rsult la sortie du systme est ramen l'entre du filtre MAP, o il jouera le rle du signal pilote pour cette seconde itration. Du point de vu thorique, une borne suprieure pour le facteur de rduction du bruit grce au moyennage est L, borne atteinte si le bruit rsiduel est blanc. Pour le systme dans son entier, les performances thoriques are conditionnes de la qualit du filtrage MAP. Si, dans cette tape, la puissance du bruit est rduite par un facteur K, alors les bornes thoriques des performances de la mthode sont K (limite infrieure) et K*L (limite suprieure).
RESULTATS

Paramtres gnraux des simulations

Pour vrifier l'efficacit et la robustesse de la mthode propose, on a appliqu la mthode de dbruitage sur un grand nombre de signaux ECG rels, provenus de toutes les bases de donnes dont on dispose actuellement (voir le sous-chapitre 2.2). En gnral, il s'agit de signaux chantillonns 1000 Hz, avec une rsolution de 16 bits / chantillon. Vu que l'utilisation de la TOD impose un tramage du signal, on a travaill sur des trames de M=4096 chantillons, en mettant en uvre des mesures de prvention des erreurs aux bords (inhrentes dans le travail avec la TOD). Pour l'implmentation de la TODDE, on a choisi L=10 TOD diffrentes, avec les fonctions ondelette-mre suivantes: Daubechies (2,3,4,5 et 6 moments non-nuls), Coiflet (2,4,6 moments non-nuls) et Symmlet (4,6 moments non-nuls). Pour l'obtention du signal pilote, on a utilis l'ondelette de Haar (la transforme W1- fig. 3.2). Pour valuer la qualit de la mthode de dbruitage, on a excut un set de simulations, envisageant diffrents aspects de l'algorithme propos et en utilisant quelques moyens distincts pour faire cette valuation. Ceux-ci vont tre traits indpendamment dans la suite.
1. La mthode de dbruitage applique aux signaux ECG perturbs par des bruits rels

Dans ce cas, la mthode a t teste pour des signaux ECG directement acquis avec du bruit. Pour ces signaux, on ne connat pas leur variante "propre", donc une valuation numrique de la qualit du dbruitage serait impossible. On est oblig de se contenter dans ce 26

cas avec "l'inspection visuelle" du signal dbruit. Notons tout de mme que c'est en premier lieu pour ce type de signaux que la mthode doit fonctionner correctement. En effet, dans un systme de traitement automatique on ne disposera jamais de la variante non-bruite du signal (cela liminerait l'existence mme du problme). En plus, il s'agit de signaux affects par les bruits les plus ralistes possibles, bruits gnrs par des sources physiques. Afin d'observer les effets de la procdure de dbruitage, la mthode a t applique pour 6 itrations de la TOD. Pour l'obtention du signal pilote, la TOD de Haar t seuille en utilisant l'oprateur de seuillage doux. La valeur du seuil est:

S ( j ) = ( j ) 2 ln(4096)

(3.16)

o ( j ), j = 1,...,6 reprsente l'estimation de l'cart type du bruit pour les coefficients situs sur le niveau de dcomposition j de la TOD. L'estimation est faite chaque niveau en utilisant l'estimateur mdian (la relation 3.11). On a utilis dans cette tape de simulation les signaux reus rcemment de l'Hpital de Brest, vu le fait qu'ils ont t exports dans une forme "brute" et prsentent par consquent un grand nombre d'artefacts spcifiques aux signaux ECG. On a excut deux itrations de la mthode. Quelques rsultats sont montrs dans les figures suivantes. On observe dans les figures 3.5 et 3.6 que l'aspect visuel du signal s'amliore d'une manire significative. La deuxime itration corrige l'amplitude du pic R, mais elle peut aussi introduire de petits changements dans la forme de l'onde P (observables surtout pour le signal heon.mat). Les amplitudes des ondes sont bien prserves, ds la premire itration de la mthode.

27

a)

b)

Fig. 3.5: Le rsultat du dbruitage (signal borel.mat): la premire itration (a), la deuxime itration (b). Dans la suite, on fait une comparaison entre le dbruitage par la TODDE et celui pour lequel on utilise la TODIT dans la deuxime tape de l'algorithme. Cette transforme rduit sensiblement les effets transitoires de type "Gibbs" [19]. A la place d'assurer une diversit par l'intermdiaire de l'ondelette mre choisie, cette transforme consiste dans l'application de la mme TOD (avec la mme ondelette- mre) aux plusieurs "versions translates" du signal. L'algorithme peut tre dcrit en quelques mots par la succession: translation en temps TOD dbruitage TODI re-translation du signal dans la position originelle - moyennage. Pour 28

a)

b)

Fig. 3.6: Le rsultat du dbruitage (signal heon.mat): la premire itration (a), la deuxime itration (b). obtenir l'invariance translation, un nombre de translations en temps diffrentes (translations par un nombre d'chantillons diffrent) sera utilis et le rsultat final est obtenu par le moyennage des versions dbruites du signal [19]. Notons que, puisque la TOD travaille avec des blocks de longueur finie, les translation temporelles du signal seront en fait des translations circulaires. L'ondelette mre utilise dans ce cas est Daubechies avec 4 moments nuls (Daubechies-8 en Matlab). Dans la figure 3.7 a) on a illustr le rsultat du dbruitage avec la TODDE, tandis que dans la figure 3.7 b) on a utilis la TODIT la place de la TODDE. Le reste des paramtres est identique pour les deux cas. 29

a))

b)

Fig. 3.7: Le dbruitage en utilisant la TODDE (a) et en utilisant la TODIT (b) pour le signal borel.mat.

Les deux transformes offrent dans ce cas des rsultats similaires (sauf la diminution de l'amplitude du pic R qui semble plus importante pour la TODIT). Dans la suite, on montre l'efficacit de la mthode pour l'limination de la perturbation de 50 Hz, cause par l'interfrence avec le rseau lectrique. Dans la figure 3.8 a), la densit spectrale de puissance du signal bruit illustre avec nettet l'existence de l'harmonique parasite de 50 Hz. Le rsultat du dbruitage (fig. 3.8 b) dmontre l'limination complte de cette perturbation, sans aucun traitement spcial implment dans ce but.

30

a)

b)

Fig. 3.8 (a)L'effet du dbruitage sur la composante parasite de 50 Hz: densit spectrale de puissance du signal d'entre (a) et le signal dbruite (b).
Pour les dernires simulations (fig. 3.7-3.8), le seuil utilis pour l'obtention du signal pilote et celui propos par Jonstone et Silverman dans [21] pour le cas d'un bruit corrl:

S ( j ) = e( j ) 2 log 4096

(3.17)

o e(j) reprsente l'cart type des coefficients d'ondelettes situs sur le niveau j de la TOD du signal bruit et M=4096 correspond la longueur de la trame de travail.

31

2. L'effet du dbruitage sur la segmentation des signaux ECG

Dans l'valuation des performances d'une mthode de dbruitage des signaux ECG, il faut prendre en compte le fait que le rsultat de cette tape n'est pas le but final du traitement automatique de ces signaux. En effet, le traitement continue par la segmentation du signal, l'extraction des paramtres relevants et la classification du patient. Par consquent, l'valuation de la qualit d'une mthode de dbruitage doit envisager toute cette chane de traitement. Dans ce contexte, on a tudi l'influence de la procdure de dbruitage sur le processus de segmentation automatique de l'onde P, segmentation ralise selon la mthode implmente par Salim Graja [4]. Le terme de comparaison (la "mthode de rfrence") a t la procdure utilise par Ronan Le Page [2] pour pr-traiter les signaux ECG de la base de Brest, avant leur segmentation automatique. Cette procdure consiste dans un dbruitage par seuillage dur, avec la resubstitution des coefficients lis au QRS, suivi par un filtrage de Wiener. Notons que cette mthode fournit des rsultats satisfaisants pour les signaux moins bruits (comme la plupart des signaux de la base de Brest), mais s'avre impuissante pour des signaux fortement affects par le bruit (comme ceux montrs dans les figures 3.6-3.8). Afin d'valuer l'influence du dbruitage sur la segmentation automatique de l'onde P, la mthode de dbruitage a t applique comme pr-traitement dans les programmes de segmentation implments Salim Graja. La base de teste a t constitue par 25 signaux pour lesquels la segmentation automatique fournit des erreurs acceptables. Les critres pour choisir ces signaux ont t les suivants: des erreurs moyennes de dtection du dbut et de la fin de l'onde P infrieures 25 ms et moins de 10 battements mal segments pour un seul patient (le total des battements considrs pour un patient tant de 20 battements). On a pris en compte seulement les signaux qui satisfont les trois critres la fois. Vu le rapport signal bruit (RSB) relativement haut de ces signaux, la procdure de dbruitage a t applique seulement pour les quatre premiers niveaux de dcomposition de la TOD. La mthode a t teste tant dans le cas de l'utilisation de la TODDE (dans le domaine de laquelle on fait le filtrage MAP), que pour l'emploi de la TODIT dans cette tape. Le signal pilote a t toujours obtenu par le seuillage de la transforme de Haar. Vu que le choix du seuil et le type de seuillage peuvent significativement influencer les rsultats, on a test deux stratgies de seuillage: (1) seuillage doux, avec S ( j ) = 3 n ( j ) , o l'estimateur mdian (l'quation 3.11). (2) seuillage dur, avec la valeur du seuil S(j) donne dans (3.17)

n ( j ) est estim par l'intermdiaire de

32

Les rsultats de la segmentation automatique des signaux traits par chaque procdure de prtraitement ci-dcrite sont illustrs dans le tableau 3.1. Tableau 3.1: L'influence de la procdure de dbruitage sur la segmentation de l'onde P Erreur dbut* Rfrence TODDE- 1 TODIT- 1 TODIT- 2
***

Erreur fin* 11.37 ms 10.23 ms 8.87 ms 8.14 ms 7.99 ms

TES** 15.96 % 16.2 % 15.2 % 15 % 13.46 %

11.16 ms 10.04 ms 11.01 ms 13.67 ms 10.22 ms

TODDE- 2

* Les erreurs de dbut et de fin sont des erreurs moyennes calcules pour l'ensemble des signaux ** TES: le taux d'erreur de segmentation pour l'onde P *** L'index d'aprs chaque transforme en ondelettes marque la stratgie de seuillage utilise dans la premire tape de l'algorithme (voir la page prcdente)

Le TES a t calcul considrant comme "erreur de segmentation" toutes les ondes P pour lesquelles le point de dbut o le point de fin, dtermins par la procdure de segmentation automatique, sont dcals par plus de 25 ms face aux points rsults de la segmentation manuelle faite par le cardiologue. L'examen du tableau 3.1 nous aide tirer quelques conclusions importantes: 1. Le dbruitage influence certainement la segmentation automatique: pour 5 mthodes diffrentes, on a obtenu 5 rsultats diffrents, mme si parfois c'est un seul paramtre qui change (la valeur du seuil utilis dans le domaine de la TOD de Haar). 2. Les valeurs obtenues sont cependant en gnral comparables. La nouvelle mthode de dbruitage fournit dans tous les cas des erreurs moyennes de dbut et de fin moindres que celles rsultes de la mthode de rfrence. Dans un seul cas (TODDE- 1) le TES diminue sous celui fournit par la rference, mais la cause c'est un seul signal qui prsente 10 erreurs de segmentation (p9c16.mat). 3. Les mthodes qui utilisent la TODIT fournissent des rsultats suprieurs. Parmi les variantes testes, c'est l'utilisation de cette transforme conjointement avec le seuillage dur dfini dans [21] pour l'obtention du signal pilote qui conduit aux moindres erreurs pour toutes les mesures effectues.

33

3. Mesures numriques de la qualit du dbruitage: signaux ECG rels perturbs par du bruit artificiel

Afin d'valuer d'une manire objective la qualit de la mthode propose, en faisant appel aux mesures classiques utilises habituellement dans ce sens-l, on a ajout du bruit gnr artificiellement sous Matlab sur un nombre de 5 signaux de la notre base de donnes. Les signaux ont t choisis parmi les plus "propres" possible et avec des morphologies diffrentes. Pour valuer les rsultats, on a calcul le RSB la sortie du systme de dbruitage, tant pour le signal ECG dans son ensemble que pour les segments correspondant l'onde P. Le bruit a t gnr par l'intermdiaire d'un processus AR de second ordre, le signal perturbateur ainsi rsult tant un bruit color, destin simuler le bruit physique large bande de type EMG. La formule utilise dans ce but est:
n[k ] = 1.89 n[k 1] 0.97 n[k 2] + b[k ]

(3.17)

o b[k] est une ralisation d'un processus blanc, gaussien, de moyenne nulle. Sa variance a t modifie afin d'obtenir des RSB compris entre 10 dB et 30 dB, comment arrive souvent pour les signaux ECG acquis avec du bruit. Pour calculer le RSB la sortie du systme, on a considr comme "signal erreur" la diffrence entre le signal original et le signal dbruit et on a appliqu la formule:

RSBsortie = 10 lg

( x ( n) )
n =0 N

x ( n) x ( n) n =0

(3.18)

o x(n) reprsente le signal initial (sans bruit) et x(n) est le signal la sortie du systme,
avec N+1 chantillons pris en compte. La longueur totale du chaque signal est de 40000 chantillons. Pour chaque valeur du RSB, la simulation a t rpte 10 fois et les rsultats ont t moyenns. Le calcul du RSB pour l'onde P (PRSB) utilise toujours la relation (3.18), en prenant en considration seulement les chantillons qui, conformment la segmentation manuelle du mdecin, appartiennent l'onde P. En connaissant la forme non-bruite du chaque signal, on a t capable de rgler le nombre d'itrations de la mthode de manire maximiser la valeur du RSB. Ainsi, aprs chaque itration, le RSB la sortie est calcul selon

34

la formule (3.18) et il est compar avec le RSB prcdent. Si la valeur indique une amlioration des performances face l'itration antrieure, une nouvelle itration est ralise, sinon on s'arrte. En gnral, le maximum a t atteint aprs pas plus de 3-4 itrations. Dans la figure 3.9, la dpendance entre le RSB respectivement l'entre et la sortie du systme est illustre, pour les quatre variantes de notre mthode. A chaque RSB pris en compte, les rsultats ont t moyenns pour les 5 signaux, afin d'obtenir une courbe unique pour chaque mthode. Les rsultats sont compars en mme temps avec ceux obtenus par N. Nikolaev et A.Gotchev dans des conditions quasi similaires.

Note: G1: Mthode dans [10] G2: Mthode dans [11] G3: Mthode dans [12]

Fig. 3.9: La dpendance entre le RSB l'entre et la sortie du systme pour les mthodes proposes. Comparaison avec les performances des autres systmes. On observe que les meilleures performances sont obtenues pour les mthodes qui utilisent la TODIT, qui fournissent un gain d'environ 0.5 dB face aux variantes qui utilisent la TODDE. Cela peut tre expliqu par les performances excellentes qui ont t dj dmontres pour cette transforme invariante la translation. Il faut noter que cette transforme, implmente par l'instruction Matlab fwt_ti, ralise le moyennage de toutes les M=4096 permutations circulaires du signal bruit. La TODIT est implmente par Donoho et Coifman [19] sous la forme d'un algorithme rapide qui demande seulement M log M oprations, o M est la taille de la TOD. Parmi les rsultats des autres mthodes, c'est seulement la mthode dans [11] qui 35

fournit des rsultats comparables, mais cette mthode demande des oprations prliminaires relativement complexes, comme la sparation des battements et leur alignement. En ce qui concerne les performances du dbruitage de l'onde P (voir le tableau 3.2), un Tableau 3.2: Les performances du dbruitage de l'onde P
Signal RSB entre TODDE-1 PSNR entre 1. 10 14 18 22 26 2. 10 14 18 22 26 3. 10 14 18 22 26 4. 10 14 18 22 26 5. 10 14 18 22 26 -1.96 2.03 6.02 10.05 14 -6.69 -2.81 1.27 5.27 9.23 -6.17 -2.18 1.76 5.82 9.76 -7.37 -3.43 0.606 4.73 8.63 -9.03 -4.98 -1.08 2.92 6.94 PSNR sortie 11.38 12.83 14.79 17.16 19.58 7.64 9.02 10.59 12.82 15.8 7.72 10.03 12.89 15.89 18.47 8.94 11.54 13.04 15.63 17.64 6.89 9.69 11.42 12.88 14.24 TODDE-2 PSNR entre -2.03 2.01 6 10.01 13.98 -6.72 -2.74 1.29 5.22 9.26 -6.16 -2.15 1.83 5.85 9.77 -7.33 -3.3 0.59 4.55 8.64 -9.03 -5.03 -1.03 3.01 7 PSNR sortie 11.81 13.53 15.48 17.61 19.87 7.67 9.35 10.85 13.14 16.39 7.81 10.17 13.08 16.18 18.95 9.32 11.42 13.73 15.78 18.02 6.89 9.67 11.69 13.38 14.7 TODIT-1 PSNR entre -1.95 1.99 5.93 9.99 13.94 -6.76 -2.71 1.26 5.22 9.23 -6.17 -2.17 1.83 5.79 9.81 -7.5 -3.37 0.55 4.59 8.76 -8.98 -5.01 -1.01 2.97 6.94 PSNR sortie 12.54 14.91 17.01 19.49 22.15 8.00 9.95 11.43 14.6 17.96 7.82 10.86 13.77 16.72 19.81 10.00 12.34 14.47 17.16 19.97 7.38 10.03 12.35 13.93 15.2 TODIT-2 PSNR entre -1.93 2.06 6 10.01 13.97 -6.78 -2.75 1.30 5.30 9.21 -6.19 -2.17 1.85 5.81 9.8 -7.29 -3.28 0.58 4.56 8.51 -8.97 5.01 -1.06 2.98 6.97 PSNR Sortie 12.33 14.69 17.11 19.58 22.24 8.21 9.65 11.54 14.77 17.93 7.98 10.65 13.84 16.93 19.75 9.97 12.34 14.72 17.45 20.08 7.67 10.25 12.31 13.89 15.87

moyennage des rsultats pour les 5 signaux afin d'obtenir une courbe unique n'est pas dsirable. En effet, pour la mme valeur du RSB global (pour l'ensemble du signal), le PRSB l'entre du systme (et par consquent sa sortie) peut varier significativement. Ce fait est caus par les variations de l'nergie de l'onde P par rapporte l'nergie du battement pour 36

deux patients diffrents et mme pour le mme patient au cours du temps. C'est la raison pour laquelle un moyennage dans ce cas ne serait pas relevant. Notons tout de mme que l'amlioration du PRSB est importante pour toutes les mthodes tudies. Les meilleures performances sont obtenues toujours pour l'utilisation de la TODIT et les diffrences pour les deux types de seuillage tests sont ngligeables. Dans la figure 3.10, on a illustr les rsultats du dbruitage pour le signal numro 1, en utilisant les quatre variantes de la mthode propose.

Fig. 3.10: Les performances du dbruitage pour l'onde P, le signal numro 1. Notons enfin que les cinq signaux utiliss pour les simulations dont les rsultats ont t illustrs ci-dessus sont: p1c2 (signal 1), p1c8 (signal 2), p1c21 (signal 3), p18c18 (signal 4), p4c1 (signal 5).

37

4. L'effet du dbruitage sur la segmentation automatique de l'onde P, dans des conditions de bruit relativement fort

Aprs avoir tudi l'effet de la procdure de dbruitage sur les signaux de la base CHU de Brest, qui sont en gnral peu bruits, on a dcid de mener une tude en ce qui concerne l'effet du dbruitage sur la segmentation dans des conditions relativement prcaires. On a ajout dans ce but du bruit color, gnr par la formule 3.17 sur un nombre de 5 signaux de test. On a considr une variation du RSB entre 10 et 20 dB. Pour la rgion de l'onde P, a signifie toujours des valeurs du PRSB l'entre du systme qui sont infrieures 5 dB, et mme, dans la plupart des cas, moindres que 0 dB, selon les rsultats illustrs au tableau 3.1. Les signaux ont t choisis parmi ceux pour lesquels la segmentation fonctionne d'une manire acceptable, c'est dire les erreurs de segmentation sont rduites. A chaque RSB pris en compte, la simulation a t rpte dix fois, et les rsultats ont t moyenns. La rfrence dans chaque cas est l'erreur de segmentation pour le signal "propre" (sans du bruit ajout artificiellement). Pour la procdure de dbruitaje, on a test les variantes de la mthode propose qui utilisent la mthode de seuillage prsente dans [21], avec 5 niveaux de dcomposition de la TOD et avec un nombre d'itrations de la mthode qui maximise le RSB. Les rsultats sont montrs dans le tableau 3.3. En gnral, on ne peut pas faire une dlimitation nette entre les performances des deux transformes (TODIT et TODDE). La mthode TODIT-2 fournit des rsultats suprieurs pour les signaux 1 et 3, tandis que pour les autres signaux les rsultats varient: pour des RSB jusqu' 14dB la mthode TODIT-2 reste la meilleure, mais pour les RSB plus grands c'est l'autre mthode qui s'avre plus efficace. Cependant, significatif est le fait que, avec une seule exception (le signal 2, la mthode TODDE-2), les erreurs moyennes de dbut et de fin des ondes sont toujours infrieures au seuil d'erreur tolr (25 ms), ce qui dmontre que la mthode de dbruitage est bien efficace dans des conditions de bruit assez fort. Il faut nanmoins payer attention un autre dtail: dans certains cas, l'erreur de segmentation recommence augmenter pour les RSB de 20 dB (et parfois mme moins de 20 dB). Cet inconvnient est caus par le nombre de niveaux de dcomposition de la TOD qui ont t dbruits (5 niveaux). Il faut noter que pour les signaux ECG avec un RSB "normal", le nombre de niveaux dbruits a t de 4 (c'est le cas pour les testes envisageant l'erreur de segmentation, testes effectus sur les signaux de la base CHU). On recommande donc un nombre rduit d'itrations pour le dbruitage des signaux qui ne sont pas trs affect par le bruit. De l'autre ct, c'est pour les ondes P de faible amplitude que le

38

Tableau 3.3: Les effets du dbruitage sur le RSB dans des conditions de bruit fort
Signal RSB entre Erreur dbut [msec] 1. 10 12 14 16 18 20 2. 10 12 14 16 18 20 3. 10 12 14 16 18 20 4. 10 12 14 16 18 20 5. 10 12 14 16 18 20 14.78 10.95 10.96 7.83 7.5 8.64 36.68 29.85 19.66 20.57 15.04 15.78 6.86 6.78 6.59 5.78 6.26 6.12 13.55 10.01 6.32 6.35 5.5 6.65 12.05 11.35 11.44 9.81 9.73 9.44 TODDE-2 Erreur fin [msec] 15.93 13.92 10.23 9.29 9.7 9.86 17.08 17.35 14.69 14.66 12.37 11.91 10.09 7.76 6.42 5.30 5.08 5.54 14.75 13.89 14.27 8.91 7.96 7.07 9.08 7.61 8.01 6.90 5.94 5.11 0.34 0.23 0.18 0.06 0.09 0.1 0.54 0.42 0.27 0.20 0.12 0.11 0.13 0.09 0.02 0.03 0.01 0.01 0.28 0.25 0.16 0.05 0.02 0.05 0.11 0.1 0.1 0.06 0.08 0.06 Err. db. 2.83 Err.fin. 4.75 TES 0 Err. db. 12.32 Err. fin 7.61 TES 0.05 Err. db. 5.16 Err. fin. 3.4 TES 0 Err. db. 5.01 Err. fin 4.52 TES 0 Err. db. 5.09 Err. fin 3.46 TES 0 TES Rfrence Erreur dbut [msec] 15.07 5.93 7.00 5.95 5.21 6.02 38.42 29.95 20.34 15.11 17.04 16.11 5.53 4.69 4.22 4.67 4.70 4.86 8.17 7.48 5.92 5.29 5.69 9.28 10.21 10.34 9.29 8.47 9.16 8.32 TODIT-2 Erreur fin [msec] 13.82 11.66 9.9 8.93 7.65 7.26 15.06 12.61 10.8 7.84 9.99 10.49 6.03 5.77 4.54 4.11 4.02 3.36 10.2 8.38 9.54 6.91 6.18 6.30 9.24 7.60 6.99 5.26 6.29 4.39 0.35 0.13 0.13 0.12 0.04 0.07 0.39 0.25 0.18 0.09 0.09 0.09 0.06 0.01 0.01 0 0 0 0.11 0.07 0.09 0.05 0.04 0.1 0.16 0.12 0.11 0.08 0.09 0.07 Err.db. 3.11 Err.fin. 4.40 TES 0 Err. db. 11.88 Err. fin 5.57 TES 0.05 Err. db. 4.86 Err. fin. 3.00 TES 0 Err. db. 4.39 Err. fin 4.15 TES 0 Err. db. 4.98 Err. fin 4.75 TES 0 TES Rfrence

dbruitage s'avre le plus influent. Dans les figures 3.11 et 3.12, on a illustr deux situations sensiblement diffrentes. Pour le signal 2, qui prsente une onde P d'amplitude rduite 39

(fig. 3.11 a), la variation de l'erreur moyenne de dbut avec l'augmentation du RSB est significative pour les deux mthodes (plus de 20 ms). Par contre, pour le signal 5 (onde P prominente, fig.3. 12 a) la plage de variation de l'erreur de dbut est de moins de 3 ms. En bas des figures on a indiqu avec ligne continue l'erreur de segmentation pour les signaux originaux (non-affects par le bruit gnr artificiellement).

a)

b)

Fig. 3.11: Le signal ECG originel avec onde P de faible amplitude (a) et la variation de son erreur de segmentation (b) en fonction du RSB l'ente du systme de dbruitage.

a)

b)

Fig. 3.12: Le signal ECG originel avec onde P prominente (a) et la variation de son erreur de segmentation (b) en fonction du RSB l'entre du systme de dbruitage.

40

La conclusion qu'on peut tirer des rsultats prsents dans cette section c'est que la mthode de dbruitage propose s'avre efficace dans des conditions de RSB prcaires et que, par consquent, son utilisation va permettre la segmentation correcte des signaux affects par du bruit. De l'autre ct, cette fois ci, la supriorit des mthodes utilisant la TODIT ne peut pas tre mise en vidence. Les deux transformes utilises dans la deuxime tape de l'algorithme de dbruitage ont fourni des rsultats en gnral similaires. Notons enfin que les signaux de test utiliss sont les suivants: p10c17, p1c8, p6c7, p6c3, p2c15, dsigns sous les noms de signal 1 jusqu'au signal 5.

41

CHAPITRE 4 LA SEGMENTATION AUTOMATIQUE DU SIGNAL ECG


La segmentation du signal ECG consiste dans l'identification prcise des points de dbut et de fin des ondes lmentaires qui composent le signal ECG (il s'agit surtout des ondes P et T et du complexe QRS). D'une manire gnrale, la tache est trs complexe, puisque la morphologie des ondes varie beaucoup entre plusieurs individus et mme pour le mme individu au cours du temps. En outre, cette morphologie dpend aussi des anomalies du cur et de la drivation choisie pour l'enregistrement du signal. Les approches de segmentation automatique se regroupent dans deux catgories: approches heuristiques et approches statistiques. Les premires essayent de poursuivre en quelque sorte le raisonnement du mdecin. Elles tablissent des rgles qui fonctionnent d'une manire hirarchique et qui dcident le rsultat de la segmentation. Les approches statistiques reposent sur un apprentissage effectu sur une base de donnes. Les paramtres relevants du signal ECG sont dcrits (suite la phase d'apprentissage) du point de vu statistique et la segmentation s'appuie sur cette description. La mthode de segmentation propose par les auteurs dans [3], [4] se retrouve dans la deuxime catgorie de mthodes. Une courte description de cette mthode sera esquisse dans la suite.
4.1 LA METHODE AMC-ONDELETTES

C'est Crouse [22] qui a eu pour la premire fois l'ide de modliser la dpendance inter chelle qui existe entre les coefficients de la transforme en ondelettes sous la forme d'un arbre de Markov cach dans le domaine des ondelettes. Cette approche repose sur deux proprits dites "secondaires" de la TOD:

Le groupement( P1 ) : Si un coefficient dondelettes a une amplitude grande


respectivement petite, alors le coefficient qui lui est adjacent a une forte chance davoir lui-aussi une amplitude grande respectivement petite.

42

La persistance ( P2 ): Les valeurs des coefficients dondelettes (tant les valeurs


grandes que les valeurs petites) tendent se propager dune chelle l'autre (des coefficients "parents" vers les coefficients "enfants").

Lide de Crouse tait dassocier chaque coefficient dondelettes un tat qui mesure son nergie et de lier ces tats par l'intermdiaire d'un arbre probabiliste qui capture les dpendances qui existent entre chelles de la transforme en ondelettes. L'ide de dfinir l'nergie comme tat cach repose sur la signification des valeurs des coefficients de la TOD: la plupart des coefficients ne contient pas d'information utile lie au signal (et par consquent ceux-l ont des valeurs petites et alatoires), tandis qu'il y a quelques coefficients (avec une amplitude importante) reprsentant l'information significative lie au signal. Vu les observations ci-dessus, Crouse a connect les tats des coefficients (attention: il s'agit des tats, pas des coefficients eux-mme!) dans un arbre probabiliste, qui fait la liaison entre les niveaux de rsolution successifs de la TOD (la figure 4.1) :

Fig. 4.1: Arbre de Markov entre les tats cachs: cercle noir- coefficients dondelettes (les "observations" du modle), cercle blanc- tats cachs (l'nergie du coefficient ).

Le fait que l'tat de chaque coefficient est "cach" signifie qu'il n'est pas directement observable (dans notre cas les observations sont les coefficients de la TOD). Dans la plus simple forme du modle, chaque coefficient wi de la TOD peut se trouver dans l'tat "hautenergie", avec la probabilit PiH ou "basse-nergie", avec la probabilit PiB. La fdp conditionnelle correspondant chaque tat est une gaussiene avec la moyenne iB , H et la variance ( iB , H ) 2 et par consquent la fdp du chaque coefficient est:

43

fW ( wi ) = Pi H gauss ( wi , iH , ( iH ) 2 ) + Pi B gauss ( wi , iB , ( iB ) 2 )

(4.1)

o la notation "gauss" indique la fonction gaussienne. Dans la figure 4.2 on a esquiss la forme d'un tel mlange.

Fig. 4.2: Modlisation de la densit de probabilit des observations. Si on gnralise le nombre d'tats du modle (jusqu'au prsent on a parl de M=2 tats), alors les paramtres du modle AMC-Ondelettes seront [22]: 1. p S1 (m) : la densit de probabilit discrte pour le nud "parent" (le nud situ au sommet de l'arbre, qui engendre tous les autres nuds). Pour chaque tat particulier m, la valeur de cette fonction mesure la probabilit que le nud racine soit dans l'tat respectif. En pratique, il s'agit d'un vecteur de M valeurs. 2.

mr i , (i )

= pSi S ( i ) (S i = m S ( i ) = r ) : la matrice de transition entre les tats. Elle marque la

probabilit que le nud i soit dans l'tat m, tant donn que son parent (not par (i)) est dans l'tat r. Il s'agit d'une matrice carre de taille MxM qui est dfinie pour chaque nud de l'arbre, sauf le nud racine (pour lui n'existe plus un nud parent, donc la dfinition perte son sens). Aprs une tude exprimentale, les auteurs dans [3-4] ont opt pour la valeur M=3. 3. im , ( im ) 2 : les paramtres de chaque loi gaussienne. Pour chaque nud on dfinit deux vecteurs de dimension M qui comprennent ces paramtres. 44

Tous les paramtres seront regroups dans un vecteur . Pour chaque onde qui compose le signal ECG (les segments isolectriques y compris) les paramtres sont "appris" partir d'une base d'apprentissage. La base d'apprentissage comprend des signaux dj segments (par les cardiologues), fait qui ouvre la possibilit d'excuter le processus d'apprentissage pour chaque onde en particulier. Le rsultat de l'tape d'apprentissage (implmente par l'intermdiaire d'un algorithme de type EM- Expectation-Maximisation) sera, pour chaque onde, le modle qui la dcrit le mieux. Les observations sont les coefficients de la TOD de Haar. Vu que le nombre d'observations d'apprentissage tait limit ( cause du nombre limit d'ondes segmentes manuellement), l'auteur a utilis une procdure de "tying", qui consiste dans une sorte de "moyennage" des paramtres pour tous les coefficients appartenant la mme chelle, ayant pour but d'offrir une certaine robustesse statistique aux paramtres appris [23]. Cela conduit au fait que toutes les coefficients sur le mme niveau de dcomposition auront les mme paramtres (pour une certaine onde, donc pour un certain modle). Enfin, comme l'auteur a prvu cinq segments distincts du signal ECG ( voir la figure 4.3), le rsultat du processus d'apprentissage consistera dans l'apprentissage de ces cinq modles.

Fig. 4.3: Le modle dans [3-4] pour la segmentation de l'ECG. Une fois les modles appris, l'tape de segmentation est mise en uvre, en parcourant les pas suivants: 1. La dtection du pic R permet, par l'ouverture d'une fentre sur les deux cts latraux, l'isolation d'un seul battement segmenter. 45

2. Une fois le battement isol, une nouvelle fentre est ouverte afin d'isoler le complexe QRS. Elle va contenir le complexe QRS et une portion des segments isolectriques situs autour de lui. 3. La TOD est applique cette portion de signal, afin d'obtenir les observations wi. 4. La segmentation du complexe QRS est ralise de la manire suivante: a. Pour chaque coefficient d'ondelettes, on calcule sa vraisemblance tant au modle appris de la ligne isolectrique (voir la classe C1, fig. 4.3 ) qu'au modle du complexe QRS (la classe C3). Le coefficient va tre classifi comme appartenant l'onde dont le modle il rassemble le plus. La vraisemblance du coefficient chaque onde envisage est calcule l'aide des variables "avant" et "arrire" (Pour les dtails mathmatiques de cette opration, voir [4]). b. Le processus est rpt chaque chelle de dcomposition (il y en a trois dans le modle propos). Dans ce point on dispose de trois squences de coefficients classifis (comme provenant de la TOD de la ligne isolectrique ou de celle du complexe QRS), une squence pour chaque chelle de dcomposition de la TOD. Les rsultats de la segmentation pour les trois chelles considres sont fusionns par l'intermdiaire du "contexte". Dans la segmentation, la dfinition du contexte demande l'utilisation des deux proprits secondaires de la transforme en ondelettes (le groupement et la persistance) afin d'augmenter la robustesse de la segmentation. Le rsultat de cette fusion sera un seul vecteur qui contient la classification de chaque coefficient d'ondelette de la premire chelle. Grce la fusion ralise, cette classification rassemble l'information fournie par toutes les classifications partielles (pour chacune des trois chelles) c. Les rsultats seront translats dans le domaine du temps, en utilisant la correspondance immdiate qui existe entre une chelle de la TOD et le domaine temporel. Chaque chantillon sera class comme appartenant soit au complexe QRS soit la ligne isolectrique 5. En utilisant le dbut du QRS (dtermin auparavant), on ouvre une nouvelle fentre la gauche du complexe QRS, fentre qui contienne l'onde P et la ligne isolectrique. La procdure de segmentation est reprise exactement selon l'algorithme dcrit cidessus, cette fois-ci pour les classes C1 et C2. 6. L'onde T est segmente en utilisant une fentre ouverte la droite du complexe QRS, fentre qui inclut les classes C4 et C5. 46

Pour rsumer, la segmentation repose sur un "fentrage" du battement, et chaque onde utile est alors dtecte en faisant le choix (bas sur le calcul de la vraisemblance des chantillons aux modles envisags) entre seulement deux variantes possibles (onde "utile" ou segment isolectrique). Dans la figure 4.4 on a illustr le fonctionnement de la procdure de segmentation pour l'onde P: les dcisions prises indpendamment pour les premires trois chelles, le rsultat fournit par la fusion et finalement les points dtects de dbut et de fin de l'onde P.

chelle 3

chelle 2

chelle 1

fusion

segmentation onde P

Figure 4.4: Le fonctionnement de la mthode de segmentation.


4.2 L'AMELIORATION DE LA METDODE DE SEGMENTATION

La mthode propose par S. Graja et J. M. Boucher [3,4] fournit des rsultats notables pour la segmentation automatique des ondes du signal ECG. Ce travail est le premier qui repose sur les liens inter-chelle et intra-chelle des coefficients d'ondelettes. Cette mthode cherche contrebalancer les inconvnients des autres mthodes labores auparavant [1], [2]. Dans les deux travaux, les auteurs modlisent le battement cardiaque sous la forme d'une succession d'tats, chaque tat marquant une onde lmentaire ou bien une portion d'une onde lmentaire. Dans [1], [25], le critre de classification est la pente du signal, remplace dans la deuxime thse par les coefficients d'ondelette de Haar (qui donnent eux-mmes une bonne 47

approximation de la pente).

Le travail de Ronan Le Page utilise donc les coefficients pour segmenter le signal par

d'ondelette et la succession des ondes lmentaires

l'intermdiaire d'une chane de Markov cach (CMC). C'est toujours sur une CMC dans le domaine des ondelettes que la mthode propose dans [25] repose. Aprs l'implmentation d'un modle dit "gnrique", appris sur une base de donnes, le modle amliore ses performances grce l'adaptation au patient. Nanmoins, ni ce modle ne prend pas en compte la dpendance qui existe entre les coefficients situs sur deux niveaux de rsolution diffrents. De l'autre ct, le modle de Crouse, implement par Salim Graja connecte les coefficients (en fait leurs tats cachs, pour tre rigoureux) dans un arbre probabiliste et utilise les dpendances inter-chelles pour faire la segmentation. Le dfaut du modle est qu'il ne prend pas en considration l'information "temporelle" intrinsque offerte par la structure du signal ECG. En effet, tous les signaux ECG prsentent une forme quasi-priodique, tant composs d'ondes qui se rptent pour chaque battement en particulier. La question issue immdiatement des observations faites ci-dessus est la suivante: comment profiter simultanment des caractristiques temporelles du notre signal chaque chelle d'ondelettes (comment le modle CMC temporelle le fait) et du lien existant entre les chelles de coefficients de la transforme en ondelettes (le modle AMC). Cette question peut tre reformule plus "concrtement" de la manire: comment combiner les deux modles: CMC "temporelle" et AMC? On va rpondre graduellement cette question en passant en revue les lments qui composent une chane de Markov cache [26] et en soulignant la manire dont ils pourraient tre mis en correspondance avec l'arbre de Markov cach.
4.2.1 LA METHODE PROPOSEE

On va donc commencer avec les lments qui composent une chane de Markov cache. Ces lments sont numrs dans [26] comme tant: 1. Lensemble des N tats du modle : Q = ( S i / i = 1,.., N ) ou S i reprsente ltat i. Cette fois-ci, l'tat du modle qui continue rester "cach" est l'onde lmentaire-mme (pas l'nergie du coefficient, comme dans le modle AMC). Dans le cas pratique, N sera gal avec le nombre d'tats considr pour modliser le battement. 2. La matrice des probabilits de transition : A = (aij / i = 1..N ; j = 1..N ) avec aij tant la probabilit de passer de ltat S i linstant t 1 ltat S j linstant t. C'est l'lment

48

qui "capture" l'volution temporelle du signal. Strictement li la matrice A, il y a la possibilit de calculer la probabilit que le modle reste dans un mme tat i pour d observations conscutives: pi (d ) = (aii ) d 1 (1 aii ) . Cela peut "corriger" les tendances du modle AMC de rester dans un tat pour trop longtemps, par exemple. 3. La distribution de probabilit des observations l'intrieure d'un tat: B = (bi ( x ) / i = 1..N ) avec bi ( x ) = f (x S i ) la densit de probabilit de lobservation x linstant t, si cet instant t, le modle est dans ltat S i . C'est en fait l'lment clef qui peut connecter les deux modles. En effet, la valeur de cette distribution pour une observation particulire (x=xi) n'est rien d'autre que ce qu'on a appel pour le modle AMC "la vraisemblance du coefficient x=xi la classe (voire onde) S=Si"; elle est calcule lors de l'tape de segmentation par l'AMC. 4. Le vecteur des probabilits des tats initiaux : = ( i i = 1..N ) avec i = P(S i , t = 0) la probabilit que le modle soit dans ltat S i linstant t = 0 . L'ide qui surgit est donc de lier les deux types de modles probabilistes par l'intermdiaire de la densit de probabilit bi(x), ide mentionne dans [4]. Vu que les essaies dans [4] n'ont pas apport les rsultats attendus ( cause des problmes de normalisation des ondes, sur lesquels on reviendra plus tard), on a cherch dans le prsent travail de s'appuyer davantage sur le modle AMC-Ondelettes dj test. On a essay donc dans une premire tape de ne renoncer pas au fentrage effectu avant la segmentation. Par consquent la nouvelle mthode reposera en fait sur l'utilisation successive de trois modles distincts: Un modle pour la dtection du complexe QRS qui prend en compte seulement les classes C1 et C3 (fig. 4.3); Un modle pour la segmentation de l'onde P qui spare les classes C1 et C2 ; Un autre modle pour la segmentation de l'onde T et qui doit faire le choix entre le classes C4 et C5; Chaque tel modle peut tre reprsent d'une manire symbolique comme dans la figure 4.5: a11 a21 a22

Etat 1

a12

Etat 2

Fig. 4.5: La reprsentation symbolique du modle propos. 49

La manire de reprsentation utilise dans la figure 4.5 illustre deux aspects importants: derrire chaque tat (voire onde) on retrouve le modle AMC, qui fournit la distribution de probabilit conditionnelle " l'intrieur" de chaque tat; l'aspect temporel de la chane est modlis par l'intermdiaire des probabilits de transition aij . La classification (voire la segmentation dans notre cas) par l'intermdiaire d'une chane de Markov temporelle demande tant l'apprentissage du modle que l'implmentation d'un algorithme de dcodage. Une courte description thorique des deux problmes est donne dans la suite.
a. L'apprentissage du modle CMC temporel

Dans la suite, on va noter par Oi l'observation effectue au moment t=i et par qi l'tat (cach) du modle au moment t=i. 1(i) sera la probabilit qu'au moment initial (t=1) l'tat du systme soit q1=Si. La phase d'apprentissage a pour but de trouver l'ensemble de paramtres (A- matrice de transition des tats, B- la densit de probabilit " l'intrieur" d'un tat et ) qui caractrise "le mieux" le modle. Les paramtres seront runis sous un seul vecteur not par , donc =(A,B,). On cherche alors le modle dit "optimal". Pour parvenir rsoudre cette tache, il faut dfinir et calculer d'abord deux variables intermdiaires: la variable "arrire" et la variable "avant". Cela impose la ncessit d'utiliser un algorithme de type "forward- backward" (avant- arrire) [26]. L'algorithme sera explicit dans la suite:
Procdure avant : on considre la variable " avant " t (i ) dfinie par :

t (i ) = P(O1 , O2 ,..., Ot , qt = S i )
1-Initialisation : 1 (i ) = 1 b(O1 ) 2-Rcursion:
1 i N

t +1 ( j ) = P (O1 ,..., Ot , Ot +1 , qt +1 = S j ) = P (O1 , O2 ,..., Ot , Ot +1 , qt = S i , qt +1 = S j )


N i =1

50

t +1 ( j ) = P (Ot +1 , qt +1 = S j O1 , O2 ,..., Ot , qt = S i , ) P(O1 , O2 ,..., Ot , qt = S i )


N i =1 N

= P Ot +1 qt +1 = S j , P (qt +1 = S j qt = S i , ) t (i )
i =1 N

= b j (Ot +1 ) aij t (i )
i =1

N Et donc : t +1 ( j ) = t (i ) aij b j (Ot +1 ) i =1 3-Finalisation P (O ) = T (i )


N i =1

1 t T-1, 1 j N

(4.1)

Notons que la procdure "avant" nous fournit comme rsultat supplmentaire la probabilit de la squence d'observations tant donn le modle (l'quation 4.1) et qu c'est juste cette fonction qui doit tre maximise selon afin de trouver le modle dit "optimal".
Procdure arrire : On considre la variable " arrire " t (i ) dfinie par :

t (i ) = P(Ot +1 , Ot + 2 ,..., OT qt = S i , )
1-Initialisation : T (i ) = 1 2-Rcursion:
1 i N

t (i ) = aij b j (Ot +1 ) t +1 ( j )
j =1

t = T 1, T 2,...,1

et

1 i N

(4.2)

Une fois les variables "avant" et "arrire" calcules, le processus d'apprentissage peut dmarrer. On cherche une mthode pour ajuster les paramtres du modle afin quil soit optimal. On dfinit dans ce but t (i, j ) = P (qt = S i , qt +1 = S j O, ) quon peut lexprimer par :

t (i, j ) =

t (i ) aij b j (Ot +1 ) t +1 ( j ) = P (O )

t (i ) aij b j (Ot +1 ) t +1 ( j )

(i )a b (O ) ( j )
i =1 j =1 t ij j t +1 t +1

(4.3)

Nous pouvons galement dfinir t (i ) comme la probabilit dtre sans ltat S i linstant t connaissant la squence dobservations et le modle: t (i ) = P (qt = S i O, )

51

Ce terme peut sexprimer en fonction des variables " avant " et " arrire " et, par la suite, en fonction de t (i, j ) :
N t (i ) t (i ) (i ) t (i ) = N t = t (i, j ) P (O ) t (i ) t (i ) j =1 i =1

t (i ) =

(4.4)

On obtient ainsi les formules de r-estimation suivantes :

i = 1 (i )

(4.5 a)

aij =

(i, j )
t =1 T 1 t =1 t

T 1

(i )
t

(4.5 b)

Notons que, normalement, l'apprentissage du modle inclut l'estimation des densits de probabilit conditionnelles regroupes dans la matrice B. Mais, pour notre modle, ces probabilits ont t dj "optimises" lors de la phase de segmentation par l'AMC. Par consquent les seuls paramtres qui restent apprendre sont ceux dont la version optimale est exprime par les formules 4.5 (a et b).
b. Le dcodage de la squence d'observations

La procdure de dcodage a pour but de "dvoiler" les tats qui sont cachs derrire les observations. Le rsultat sera la succession d'tats la plus "plausible". Par l'intermdiaire du dcodage, chaque coefficient d'ondelette (voire observation) sera attribu un tat (voire onde dont il appartient), fait qui conduit tout de suite la segmentation du signal ECG. D'une manire plus concrte, le problme peut tre formul ainsi: nous disposons de la squence dobservations O = O1O2 ...OT et nous voulons trouver la squence dtats la plus probable Q = Q1Q2 ...QT . Dans ce but on dfinit la quantit :

t (i ) = MAX [P(q1 q 2 ...qt = S i , O1O2 ...Ot )] . Il s'agit du meilleur rsultat (la squence d'tats
q1 , q2 ,..., qt 1

la plus probable) selon un seul chemin (celui qui se compose des t premires observations et se termine dans ltat S i ).

52

1-initialisation :

1 (i ) = i bi (O1 ) 1 (i ) = 0

1 i N

2-Itration :

t ( j ) = ARGMAX ( t 1 (i ) aij )
1i N

t ( j ) = MAX ( t 1 (i ) aij ) b j (Ot )


1i N

1 j N, 2 t N

3-Terminaison :

P * = MAX ( T (i )) q = ARGMAX ( T (i ))
* T 1 i N

4-Recherche arrire du chemin (squence dtats) :


* qT = t +1 (qt*+1 )

t = T - 1, T - 2,...,1

(4.6)

L'identification de la squence d'tats la plus probable conduira la segmentation du signal. La chane de Markov cache a t implmente sous Matlab, fait qui a permis le fonctionnement du modle combin AMC-CMC indiqu dans la figure 4.5. Quelques observations regardant son implmentation pratique s'imposent: La phase d'apprentissage est effectue pour chaque signal en particulier, fait qui est le contraire du processus d'apprentissage pour l'arbre de Markov cach, o l'apprentissage a t fait partir d'une base de donnes, engendrant un modle purement "gnrique". Parmi les lments de la CMC, c'est seulement la matrice B qui a t apprise sur une base, grce au fait qu'elle est obtenue lors de la phase de segmentation avec l'AMC. La chane a t applique pour les trois chelles sparment et finalement les rsultats ont t soumis au processus de fusion entre chelles base sur le contexte.
L'valuation des performances du nouveau modle

Afin d'valuer les performances de la mthode propose, on a test cette mthode pour la segmentation d'un nombre de 47 signaux de notre base de donnes, signaux choisis par tirage au sort. Parmi les patients on retrouve tant des patients normaux, que des patients qui prsentent des "anomalies" de l'activit lectrique du cur (concrtement, il s'agit des anomalies appeles "flutter" et respectivement fibrillation auriculaire). Un tableau complet avec les signaux tests se trouve dans l'annexe A2. Les rsultats de la mthode AMC-CMC ont t compars avec ceux obtenus par la segmentation propose dans [3], o c'est seulement l'AMC qui est utilis pour la segmentation. La mthode a t applique pour 20 battements 53

situs au dbut de chaque signal. La mthode de dbruitage utilise pour pr-traiter les signaux est TODIT-2, puisqu'elle a fourni les meilleurs rsultats globaux (voir les testes effectus dans le chapitre prcdent). Pour le calcul du taux d'erreur de segmentation (TES), on a pris en compte les mmes critres que ceux indiqus dans le chapitre ddi au dbruitage: des erreurs moyennes de dbut et de fin infrieures 25ms et moins de 10 battements mal-segments d'un total de 20 battements considrs per patient. Les rsultats sont indiqus dans le tableau 4.1: Tableau 4.1: Les rsultats de la segmentation par les mthodes AMC et AMC-CMC Mthode Signaux correctement segments AMC seulement AMC-CMC 31 / 47 32 / 47 Erreur moyenne dbut* 11.36 ms 11.04 ms Erreur moyenne fin* 8.29 ms 7.80 ms Taux d'erreur de la segmentation (TES)* 14.95 % 14.46%

*Toutes les mesures sont calcules prenant en considration exclusivement les signaux correctement segments

Les rsultats prsents dans le tableau 4.1 indiquent l'amlioration de la segmentation grce l'introduction de la chane temporelle. La deuxime mthode segmente correctement un signal de plus et le taux d'erreur de segmentation est moindre que celui fournit par l'AMC. Les erreurs moyennes de dbut et de fin sont elles-aussi corriges (il s'agit de 5.9 % facteur de correction pour l'erreur de fin et de 2.8% pour celle de dbut). Parmi les 31 signaux communs entre les deux mthodes (correctement segments par les deux), on retrouve 20 signaux pour lesquels l'erreur moyenne de dbut est moindre dans le cas de la segmentation par la mthode combine AMC-CMC et 17 cas d'amlioration en ce qui concerne l'erreur moyenne de fin. En outre, si on limine le signal segment seulement par la deuxime mthode (qui se soumit aux conditions minimale de segmentation correcte, mai qui a tout de mme un apport important au taux d'erreur gnral), le TES diminue pour la mthode AMC-CMC 12.98% (ce qui marque dj une amlioration significative face l'autre mthode). Nanmoins, les rsultats prsents dans le tableau 4.1, mme si encourageants, n'indiquent pas une amlioration spectaculaire apporte par l'introduction de la chane temporelle. Le principal motif c'est le fait que, parmi les paramtres de la chane temporelle intervient la vraisemblance du coefficient une certaine classe (calcule par la mthode AMC). Transpose dans le cas de la CMC, cette vraisemblance dsigne la valeur de la densit de probabilit des observations dans un certain

54

point (pour une certaine observation), tant donne la classe du modle (l'onde). Notons bien que ce paramtre, calcul lors de la phase de segmentation par l'AMC marque parfois une dlimitation si nette entre les deux ondes envisages, que la chane temporelle n'arrive pas surmonter les ventuelles erreurs ( o exprim d'une faon plus simple: la segmentation est dcide presque entirement par l'AMC, qui a un poids de dcision dcisif). De l'autre ct, le fentrage pralable, qui nous aide rsoudre d'une manire trs simple le problme de la normalisation, a galement ses inconvnients. En effet, le fentrage nous empche fructifier pleinement les caractristiques temporelles du signal ECG, vu que dans une telle fentre il y a d'information regardant seulement deux ondes diffrentes.
4.2.2 ETUDES COMPLEMENTAIRES

Vu que les rsultats obtenus avec la mthode prcdente, mme si encourageants, n'ont pas apport une amlioration significative face la mthode AMC-ondelettes, on a cherch renoncer au fentrage du signal, afin de fructifier toute l'information temporelle fournie par la forme particulire du signal ECG. On a construit par consquent une chane de Markov cache a six tats, ayant la topologie indique dans la figure 4.6.

ISO

PQ

QRS

ST

Fig. 4.6: Modle temporel six tats. Derrire chaque tat se trouve un AMC (voir la figure 4.5), qui aide au calcul de la densit de probabilit l'intrieur de chaque classe (onde) de la CMC. Il s'agit d'un modle assez simple, qui a une topologie gauche-droite, si on exclut la transition en arrire de l'onde T qui permette la dtection correcte de sa fin (sa transition vers la ligne isolectrique). On a excut d'abord la phase d'apprentissage pour chaque composante du modle. Dans la figure 4.7, on montre les courbes des fdp rsultes du processus d'apprentissage, pour les six ondes qui composent le modle (il s'agit des coefficients situs sur l'chelle 3 de dcomposition de la TOD). Les deux approches (chane et arbre de Markov) ont t combines de la mme manire dj explicite: par l'intermdiaire de la densit de probabilit l'intrieur de l'tat (la fonction bj(w)) dont la valeur particulire dans un point w=wi dsigne la vraisemblance du coefficient wi la classe (voire onde) j. On a modifi par consquent les fonctions qui implmentaient la 55

segmentation par l'AMC, en renonant au fentrage qui prcdait la segmentation. Ainsi, dans chaque point de la TOD du signal ECG, on calcule cette fois-ci la vraisemblance du coefficient d'ondelette aux six classes constituant le modle, la place de considrer seulement deux classes (suite au fentrage). Malheureusement, les rsultats n'ont pas t toujours concluants. Dans la figure 4.7, on observe la similarit des fdp dans quelques cas: la vraisemblance la plus vidente c'est entre les segments isolectriques ST, ISO1 et PQ, dont les fdp sont presque identiques. Parmi les

Fig. 4.7: Les densits de probabilits apprises pour les six classes du modle: l'chelle 3 de dcomposition de la TOD. composantes utiles, les ondes P et T semblent elles-aussi difficile sparer. D'ailleurs c'est la raison qui a pousse l'auteur de [4] vers le fentrage du battement. Du point de vu pratique, un inconvnient issu de ces similarits entre les diverses fdp a t le fait que les chantillons du dbut du battement taient toujours mal classifis comme appartenant au segment ST, la place de la ligne isolectrique ISO1 dont ils appartenaient en ralit. Ceci faussait toute la segmentation, puisque la chane de Markov poursuivait fidlement sa succession d'tats ( l'onde ST poursuivait l'onde T etc ). Pour contourner ces difficults, on a cherch de simplifier le modle du point de vu pratique: on a rassembl toutes les ondes utiles sous une seule classe et les segments isolectriques ont t regroups sous une autre classe.

56

Mme avec cette variante simplifie, le modle s'avre sensitif au problme de la normalisation. La simple normalisation par le pic de l'onde P (solution choisie dans [2]) n'arrive pas traiter correctement tous les battements. Dans la figure 4.8 a) on montre un battement correctement segment (on a normalis nanmoins par un quart de l'amplitude de son pic P), tandis que pour le mme battement, la normalisation par l'amplitude du pic P fausse la segmentation (fig. 4.8 b).

a)

b)

Fig. 4.8: Exemple de bonne segmentation (a) et de mauvaise segmentation (b) pour le mme battement (le signal p1c8.mat) Malgr ces problmes de normalisation, ce type de modle ouvre un chemin attractif poursuivre. Thoriquement, une association entre un modle de type arbre (inter-chelle) et un autre qui capture l'volution temporelle du signal travers une chelle peut amener des rsultats satisfaisants, si on arrive contourner les inconvnients d'ordre pratique. 57

4.3 PROBLEMES SPECIFIQUES RENCONTRES LORS DU STAGE

Sur la dure de mon travail dans le cadre de ce projet, j'ai t mis dans la situation de reprendre les travaux effectus auparavant dans le domaine du traitement automatique des signaux ECG, surtout celui du Salim Graja qui a implment l'arbre de Markov cach pour la segmentation des ondes P, QRS et T. Pendant cette tude, on a rencontr des problmes de dtail qui ont alourdi la finalisation de notre tache. Un grand nombre de ces problmes ont t clarifis par tude personnel ou bien par l'intermdiaire des discussions avec M. J.M. Boucher et avec M. Salim Graja. Pour faciliter la tache de ceux qui continueront le dveloppement du sujet, on a prvu un sous-chapitre destin clarifier ces lments "de dtail", mais bien importants du point de vu pratique.
4.3.1 L'APPRENTISSAGE DU MODELE AMC-ONDELETTES

a. La taille fixe des observations

La phase d'apprentissage du modle AMC-Ondelettes utilise les observations (les coefficients de la TOD avec l'ondelette mre de Haar) afin de calculer les paramtres du modle pour chaque classe (voir la figure 4.3). En essayant refaire ce processus, c'est dire re-excuter l'apprentissage du modle, on a rencontr un problme li la taille fixe des observations. En effet, il est bien connu le fait que l'implmentation de la TOD par l'algorithme de Mallat impose des restrictions regardant la taille du signal d'entre: celui-ci doit tre constitu de blocks de donnes dont la taille a la forme 2m (2,4,8,16,32 etc.). Ce contraint embarrasse le processus d'apprentissage, vu le fait que les signaux (les ondes) sur lesquels on est oblig appliquer la TOD afin d'obtenir les observations ne se soumettent pas cette condition de "taille fixe". En effet, l'onde P par exemple, peut avoir en pratique une dure comprise entre 80 et 140 ms, ce qu' une frquence d'chantillonnage de 1000 Hz se traduit dans un signal qui comprend entre 80 et 140 chantillons. La premire solution considre a t de "complter" le signal avec des zros ajouts artificiellement, afin d'obtenir une taille approprie pour l'application de la TOD, par exemple 128 chantillons. Cela conduit malheureusement la troncation de l'histogramme rel des observations, en engendrant un pic surdimensionn dans 0 (voir la figure 4.9). Une autre variante (celle d'effectuer un sous-chantillonnage du signal) a t galement repousse, toujours cause du fait qu'une telle opration ne garantit pas une taille 58

Fig. 4.9: L'effet sur l'histogramme empirique des observations des zros ajouts afin d'obtenir la taille fixe impose par la TOD. fixe et elle va conduire finalement la mme ncessit d'ajouter des zros. La solution qui a permis le re-apprentissage du modle a t la suivante: on se positionne d'abord sur le dbut de chaque onde, considrant une fentre de 2m chantillons. La TOD est applique ce fragment de dbut, et on obtient ainsi un premier set de 2m observations. Un autre set d'observations, fourni par la mme onde d'apprentissage, est puis obtenu en se positionnant sur la fin de l'onde (les derniers 2m chantillons) et en appliquant la TOD. La procdure est illustre dans la figure 4.10.

Dbut, 2m chantillons

Fin, 2m chantillons

TOD

TOD

w1,1 , w1, 2 ,..., w1, M w , w ,..., w 2,M 2,1 2, 2 Fig. 4.10: La modalit d'obtention des observations d'apprentissage.

59

Notons enfin que, vu les caractristiques temporelles de chaque onde, on s'est dcid pour les valeurs suivantes de la taille des observations: 64 chantillons pour l'onde P et pour le complexe QRS, 128 chantillons pour l'onde T et pour la ligne isolectrique ISO-1 et 32 chantillons pour le segment ST (la classe C4 du modle dcrit par la figure 4.3).
b. La normalisation du battement

La segmentation du signal ECG par l'AMC a relev un problme tout-particulier: celui de la normalisation du battement. En effet, la varit de morphologies du signal peut engendrer des situations bien dlicates du point de vu de la segmentation automatique. L'nergie du battement varie beaucoup d'un patient l'autre et le rapport peut atteindre plus que 10. Ainsi, les valeurs des observations (les coefficients d'ondelettes) sont fortement affectes, ce qui fausse la segmentation. Cela a impos la construction d'un battement-type et la normalisation pralable de chaque battement segmenter, afin de le ramener dans le cadretype prdfini. Aprs une tude sur la base de donnes dont il disposait, Salim Graja a utilis les normalisations suivantes: Le complexe QRS est normalis par 5000, qui est la valeur moyenne de l'amplitude du pic R de la base; L'onde P est ramene une amplitude maximale de 0.1 (chaque onde P est normalise par la valeur de son pic et puis chaque chantillon est multipli par 0.1); L'onde T aura une valeur maximale normalise de 0.14 (la mme procdure est applique que pour l'onde P). Dans son travail [4], la modalit de normalisation des segments isolectriques n'est pas explique. Il s'agit tout de mme d'une normalisation par 5000. Le problme de la normalisation des segments isolectriques reste nanmoins ouvert par la raison suivante: une telle normalisation ne prend pas en compte les normalisations relles effectues lors de l'tape de segmentation. Par exemple, pour segmenter l'onde P, le modle doit choisir entre la ligne isolectrique et l'onde P. N'oublions pas qu'en pralable, toute la portion de signal comprise dans la fentre d'analyse (voire la ligne isolectrique y comprise!) est soumise la normalisation dcrite ci-dessus. Pour fixer les ides, la situation peut tre rsume par l'intermdiaire de la question suivante: est-il correct de normaliser d'une certaine manire (division par 5000) la ligne isolectrique lors de la phase d'apprentissage et d'une manire diffrente (division par le pic P et multiplication par 0.1) lors de la phase de segmentation?

60

De l'autre ct, lors de la phase de segmentation, chaque battement (en une t b) premier lieu) et puis chaque onde en particulier connat son tour opration qui "ramne" l'onde 0. L'opration est explique dans la figure 4.11. Pour raliser la compatibilit entre la phase d'apprentissage et celle doit de tre segmentation, l'opration t Fig. 4.11: Onde initiale (a), onde ramene 0 (b). a)

effectue ds la phase d'apprentissage.

4.3.2

LA SEGMENTATION PAR LE MODELE AMC-ONDELETTES

Dans [4], l'auteur a rapport les rsultats obtenus pour la segmentation des signaux de la base CHU de Brest en utilisant la mthode AMC-ondelettes. Il s'agit d'un taux d'erreur de segmentation de 13% pour l'onde P, 11% pour le complexe QRS et 1% pour l'onde T. Pendant mon stage j'ai essay retrouver ces rsultats, surtout pour l'onde P pour laquelle on disposait d'un grand nombre de segmentations manuelles. Le set de test a t constitu par 47 signaux ECG de la base CHU, choisis par tirage au sort. J'ai observ que, mme si la mthode fonctionnait bien pour une catgorie de signaux, justifiant les rsultats rapports, il y avait tout de mme un nombre important de signaux pour lesquels la mthode ne fournissait pas des rsultats satisfaisants (erreurs de segmentation de dbut et de fin d'onde trs importants, taux d'erreur de segmentation de presque 100%). On a essay d'identifier ensuite les causes qui ont dtermin l'chec de la segmentation dans chaque cas, afin de se faire une image globale sur ces causes. Le critre de dcision pour classer un signal comme "correctement segment" a t toujours le mme (erreur moyenne de dbut et de fin infrieure 25 ms et moins de 10 battements mal segments d'un total de 20) . Aprs un premier test sur le set de 46 signaux, on a constat que seulement 25 d'entre eux satisfaisaient les trois conditions ncessaires afin d'tre class comme "segmentation russie". Une tude dtaille des signaux mal segments nous a permis d'identifier dans une premire phase sept signaux pour lesquels les fichiers de segmentation manuelle existants sous format Matlab comprenaient quelques erreurs: valeurs (points de segmentation) errones, ondes "omises" par la segmentation ou des points de dbut

61

ou de fin faux. Parmi les autres motifs de l'chec de la segmentation, on a identifi en premier lieu l'amplitude trs petite ou/et la forme spciale de l'onde P (surtout pour les ondes avec double bosse). Dans certain cas, on a pu mettre en vidence des oscillations importantes de la ligne de base ou pics de bruit rsiduel qui se superposent sur la ligne de base et qui semblent dterminer l'chec de la segmentation. Dans les figures suivantes on a exemplifi toutes ces causes qui faussent la segmentation. Le signal dans la figure 4.12 prsente quelques ondes P pour lesquelles l'erreur de dbut est trs importante, sans l'existence d'une raison apparente (sans que l'existence d'un facteur perturbateur comme ceux numrs auparavant puisse tre mise en vidence).

Fig. 4.12: Exemple de mauvaise segmentation (signal p5c15.mat). L'erreur moyenne de dbut est suprieure 25 ms. Par contre, le signal montr dans la figure 4.13 est affect par des oscillations importantes de la ligne de base. On observe bien l'chec de segmentation de la premire onde P: le positionnement automatique du point de dbut est plutt vers le pic de cette onde, fait qui engendre une erreur de segmentation de dbut trs grande. Cependant, on ne peut pas affirmer nettement que c'est la fluctuation de la ligne de base qui dtermine cette erreur de segmentation.

62

Fig. 4.13: Exemple de mauvaise segmentation pour un signal avec oscillation forte de la ligne de base (le fichier p19c18.mat ). Un exemple de faute de segmentation est montr dans la figure 4.14, pour une onde P de type "double bosse". La segmentation fausse cause de l'amplitude trs petite de la deuxime bosse, qui est interprte par l'algorithme comme tant le dbut de la ligne isolectrique.

Fig. 4.14: Erreur de segmentation cause par l'amplitude rduite de la deuxime bosse (fichier p1c20.mat).

63

Dans la figure 4.15 on a illustr le cas d'une amplitude trs petite de l'onde P, fait qui provoque une erreur de segmentation importante tant pour le dbut que pour la fin de cette onde.

Fig. 4.15: Erreur de segmentation cause par l'amplitude rduite de l'onde P (fichier p10c14.mat).

Notons enfin que, aprs avoir rsolu le problme des erreurs rencontres dans les fichiers de segmentation manuelle du mdecin, on est parvenu obtenir 31 de fichiers correctement segments d'un total de 47. Les rsultats sont ceux montrs dans le tableau 4.1, pour les deux types de segmentation (AMC seulement et AMC avec CMC ajoute). Parmi le reste des fichiers, on retrouve les erreurs exemplifies ci-dessus, qui conduisent l'chec de la segmentation. Un tableau complet des fichiers de test, avec quelques observations de nature pratique peut tre trouv dans l'annexe A2.
4.3.3 LA SEGMENTATION DES SIGNAUX DE LA BASE DE LAGUNA

Vu l'intention de btir une base de donnes commune INT Paris ENST Bretagne, c'est un autre objectif de travail qui s'est profil tout de suite: celui de tester les mthodes de segmentation proposes sur la nouvelle base commune. On a dj explicit dans le premier chapitre du rapport les problmes lis la frquence d'chantillonnage diffrente et la faon dont ces problmes ont t rsolus. Suite l'opration d'interpolation, on a ramen les signaux 64

de la base de Laguna une frquence d'chantillonnage de 1000 Hz. Vu que les performances de la segmentation ont t dj testes sur la base de CHU, on a essay de refaire ces testes, pour les nouveaux signaux. Aprs une premire valuation qui utilisait toujours le modle appris sur la base CHU et qui n'a pas fourni des rsultats satisfaisants, on a dcid de reentraner le modle, en utilisant cette fois-ci comme base d'apprentissage les nouveaux signaux. On a utilis dans ce but un nombre de 29 signaux de la base de Laguna, signaux qui ont fourni les observations ncessaires pour le re-apprentissage du modle. En traant l'histogramme empirique des observations rsultes pour les diffrentes ondes, on a observ que celui-ci prsentait un pic prononc proche de 0. De l'autre ct, on s'est rendu compte que les fdp des coefficients de la TOD seraient mieux modlises par l'intermdiaire d'un mlange de seulement 2 gaussiennes (alors que la mthode AMC teste sur la base CHU considrait 3 gaussiennes)(voir les figures 4.16 - a et b). Par consquent, on a repris le processus d'apprentissage de l'AMC et on a test le modle ainsi obtenu sur la base de Laguna. Pour apprentissage on a utilis 29 d'entre les 33 signaux de la base de Laguna, fait qui, vu la modalit dont on a trait le problme de la taille fixe des observations, nous a conduit aux 580 arbres d'apprentissage fois 64 coefficients/arbre (pour le complexe QRS et pour l'onde P). Les rsultats obtenus sont insatisfaisants. Pour l'onde P, seulement 12 d'entre les 29 signaux de test ont t bien segments. Pour ces signaux on a obtenu une erreur moyenne de dbut de 18.48 ms et une erreur moyenne de fin de 17.24 ms. Deux exemples de mauvaise segmentation pour l'onde P qui sont typiques parmi les signaux tests sont montrs dans les figures 4.17 (a et b). Des rsultats plus acceptables ont t obtenus pour la segmentation du complexe QRS, avec 26 battements correctement segments, une erreur moyenne de dbut de 11.06 ms et une erreur moyenne de fin de 10.32 ms. Le taux d'erreur de segmentation a t dans ce cas de 6.41 %.

65

a)

b)

Fig. 4.16: Fonctions fdp apprises, superposes sur les histogrammes des observations: la ligne isolectrique (a), l'onde P (b), l'chelle 2 de dcomposition de la TOD.

66

a)

b)

Fig. 4.17: Exemples typiques de mauvaise segmentation pour deux signaux diffrents la base de Laguna: sele0606 (a) et sele0603 (b). Parmi les causes possibles qui dterminent ces erreurs de segmentation on avance l'hypothse que le modle n'arrive pas apprendre bien les proprits statistiques de chaque onde. Le problme le plus grand dans ce sens-l c'est pour les segments isolectriques, qui prsentent

67

un pic de l'histogramme particulirement prononc en 0 (fig. 4.16 a), pic que la densit de probabilit apprise n'arrive pas le poursuivre. Ainsi, tous les points situs dans la fentre qui contient l'onde P et le segment PQ sont classifis comme appartenant l'onde P (voir les exemples prsents dans la figure 4.17). De l'autre ct l'existence de ce pic de l'histogramme en 0 semble affecter galement les ondes utiles. Elle pourrait tre lie trois causes possibles: la normalisation du battement l'opration d'interpolation une faon particulire de segmentation par les mdecins pour les signaux de la base de Laguna. Dans certains cas, pour l'onde P surtout, la segmentation manuelle inclut portions qui semblent plutt appartenir la ligne isolectrique ou respectivement au segment PQ. Ce problme reste encore ouvert.

68

CHAPITRE 5 CONCLUSIONS ET PERSPECTIVES


Les conclusions poursuivront la ralisation des objectifs du stage, tandis que les perspectives envisageront quelques directions possibles pour la poursuite du dveloppement du sujet.
Objectif no. 1: La constitution d'une base de donnes commune INT Paris ENST de Bretagne

Jusqu' prsent, la base CHU a t complte par les 33 signaux communs entre la base QT (Laguna) et la base europenne ST-T (utilise par l'INT Paris). Les signaux sont disponibles en format .dat (qui comprend l'intgralit de l'enregistrement: 15 minutes ) avec toutes les annotations affrentes. Les portions segmentes de ces signaux sont galement disponibles sous format .mat (directement compatible Matlab), ensemble avec leurs tiquettes qui concernent le dbut et la fin de chaque onde, dans les deux versions de la frquence d'chantillonnage: 250 Hz et 1000 Hz.
Perspectives:

La base commune peut tre sensiblement amliore en la compltant

avec les autres signaux de la base QT, qui sont tlchargeables gratuitement sur l'Internet [7]. Tous les programmes ncessaires afin de convertir ces signaux la frquence d'chantillonnage de 1000 Hz (ensemble avec les modifications correspondants de leurs tiquettes de segmentation) sont actuellement disponibles (la plupart d'entre eux cre par l'auteur du rapport et une fonction tlcharge sur l'Internet [7] et modifie). Cependant, pour la poursuite cohrente du dveloppement du sujet, il faudra tablir une frquence d'chantillonnage "de travail" commune.
Objectif no. 2: L'implmentation d'une mthode de pr-traitement du signal ECG

Le rsultat du travail sur ce sujet a t l'implmentation d'une mthode de dbruitage qui repose sur les proprits statistiques de la TOD du signal ECG. Quelques variantes

69

diffrentes de la mthode propose ont t testes dans une varit de conditions et les rsultats ont t toujours satisfaisants. Les testes effectues ont eu pour but de se rapprocher le plus possible des conditions relles dont un tel traitement doit fonctionner. Dans ce contexte, on a tudi l'influence du dbruitage sur la segmentation, tant pour les signaux peu bruits de la base CHU, que pour des signaux sur lesquels on a ajout du bruit gnr artificiellement. Les rsultats ont t encourageants: dans le premier cas l'erreur de segmentation a diminu, tandis que dans les conditions de bruit fort, le systme de dbruitage assure un RSB sa sortie qui permette la segmentation correcte de l'onde P partir des valeurs rduites pour le RSB. De l'autre ct, teste sur les signaux ECG fortement affects par du bruit physique, la mthode de dbruitage s'est avr bien efficace, mme pour l'limination de l'interfrence avec le rseau lectrique (les "50 Hz"). Cependant, le critre dcisif pour exprimer la qualit des mthodes de pr-traitement proposes ici restera le fonctionnement de la mthode dans le systme pratique de tlsurveillance.
Perspectives: Sur la dure de mon tude on a test plusieurs mthodes de dbruitage

[28]. D'un intrt particulier parmi les mthodes qui n'ont pas t dcrites ici sont les mthodes statistiques qui utilisent la dpendance inter-chelle des coefficients d'ondelettes [15, 27]. J'ai abandonn ce chemin puisqu'il fournissait des rsultats comparables avec les mthodes prsentes, mais avec une puissance de calcul demande sensiblement agrandie, ce qui peut devenir un inconvnient important dans les systmes pratiques. Le recherche dans cette direction mrite d'tre poursuivi, puisque ces mthodes statistiques multi-chelle prsentent des aspects intressants pour le domaine particulier du dbruitage des signaux ECG. De l'autre ct, j'ai vit toutes les oprations qui pourraient rendre la mthode de dbruitage trop complexe. Il s'agit surtout de l'obtention du signal pilote, qui dans notre cas repose sur une simple opration de seuillage. Par contre, d'autres mthodes semblables prsentes dans la littrature [10-12] proposent une stratgie plus labore pour l'obtention du signal pilote. Normalement, a implique tout de mme des oprations plus complexes, comme la sparation et l'alignement du battement, la dtection des coefficients d'ondelettes appartenant au complexe QRS etc. La mthode d'obtention du signal pilote reprsente donc un autre chemin qui reste ouvert pour d'autres amliorations possibles.

70

Objectif no. 3: La robustesse de la mthode de segmentation par AMC-Ondelettes et son amlioration par l'introduction d'une chane temporelle

La mthode de segmentation propose dans [3,4] a t teste pour les signaux provenant de la base CHU de Brest et de la base de Laguna. Dans le premier cas, les rsultats ont t satisfaisants pour une large catgorie de signaux, mais il y a eu quand mme un grand nombre de fichiers de test pour lesquels la segmentation a failli. Parmi les causes de mal fonctionnement, on a identifi surtout les oscillations de la ligne de base et l'amplitude rduite de l'onde P, ensemble avec sa morphologie spciale. En ce qui concerne la combinaison de la mthode inter-chelle AMC avec une chane temporelle, on est rest plutt dans la sphre des promesses. Pratiquement, l'ajoutage de la chane temporelle en respectant exactement la partition du battement effectue dans [3,4], a apport des rsultats encourageants, mais qui ne reprsentent pas nanmoins une amlioration significative de la segmentation par AMC seulement. Pour les signaux de la base de Laguna, les rsultats de segmentation ont t acceptables seulement pour le complexe QRS, tandis que pour l'onde P il y a un grand nombre d'checs de segmentation. Les problmes dans ce cas semblent lis la forme particulire de l'histogramme des observations qui prsente un pic trs prononc proche de 0.
Perspectives: C'est la combinaison d'un modle temporel intra-chelle avec le modle de type

arbre "inter-chelle" qui mrite tre investigue davantage. D'ailleurs, le renoncement au fentrage du battement et l'utilisation complte du caractre quasi-priodique du signal ECG a fourni des rsultats corrects mme pour une chane temporelle assez simple, dans les cas o on est arriv surmonter les difficults de nature pratique releves d'une telle approche.

71

Bibliographie:

[1] L. Clavier, Analyse du signal lectrocardiographique en vue du dpistage de la fibrillation auriculaire, thse de doctorat, fvrier 1997. [2] R. Le Page, Dtection et analyse de l'onde P d'un lectrocardiogramme: application au dpistage de la fibrillation auriculaire, thse de doctorat, L'Universit de Bretagne Occidentale, fvrier 2003. [3] S. Graja et J.M. Boucher, Multiscale hidden markov models applied to ECG segmentation, Intelligent Signal Processing 2003 IEEE International Symposium, pp. 105 109, septembre 2003. [4] S. Graja, Segmentation de l'ECG et dtection du risque de fibrillation auriculaire, rapport de stage de DEA, Juin 2003. [5] CNS Systems, Task Force Monitor v 2.0 scientific package: Matlab (raw data), disponible sur CD [6] P. Laguna, RG Mark, A. Goldberg et GB Moody, A database for evaluation of algorithms for measurement of QT and other waveform intervals in the ECG, IEEE Computers in Cardiology, pp. 673 676, Vol. 24, 1997. [7] Disponible sur l'Internet l'adresse: www.physionet.org/physiobank/database [8] D. Donoho, De-noising by sof -thresholding IEEE Transactions on Information Theory, pp. 613 627, 41, 1995. [9] S. Ghael, A. Sayeed et R. Baraniuk, Improved wavelet denoising via empirical wiener filtering, Proceedings of SPIE, San Diego, U.S.A., July 1997. [10] N. Nikolaev et A. Gotchev, ECG signal denoising using wavelet domain Wiener filtering, Proceedings of the European Signal Processing Conf. EUSIPCO-2000, Tampere, Finlande, pages 51-54, Sept. 2000. [11] A. Gotchev, N. Nikolaev et K. Egiazarian, Improving the transform domain ECG denoising performance by applying inter-beat and intra-beat decorrelating transforms, Proceedings of the IEEE International Symposium on Circuits and Systems, ISCAS 2001 Volume II, pp. 17-20, Sydney, Australia, May 2001. [12] N. Nikolaev, Z. Zikolov, A. Gotchev, K. Egiazarian, Wavelet domain wiener filtering for ECG denoising using improved signal estimate, Proceedings of IEEE Conference on 72

Acoustics, Speech, and Signal Processing, ICASSP '00,Volume 6, Pp:3578-3581, vol.6, June 2000. [13] P. Romaniuk, Non-regular distorsions in ECG signal introduced by wavelet denoising, Medical Informatics & Technologies - MIT 2000, Ustron, Poland [14] P. Romaniuk et K. Chizynski, Clinical evaluation of ECG signal wavelet denoising method, Medical Informatics & Technologies - MIT 2001, Ustron, Poland [15] L. Sendur et I. Selesnick, Bivariate shrinkage functions for wavelet based denoising exploiting interscale dependency, IEEE Trans. Signal Proc., vol. 50, pp. 2744-2756, Nov. 2002. [16] A. Pizurica et W. Philips, Multiscale statistical image models and bayesian methods, resource disponible en ligne : http://citeseer.ist.psu.edu/655806.html [17] A. Isar et S. Moga, Le dbruitage des images SONAR en utilisant la transforme en ondelettes discrte diversit enrichie, Rapport de recherche, LUSSI-TR-2004-4, Dpartement Logiques des Usages, Sciences Sociales et Sciences de lInformation, Laboratoire Traitement Algorithmique et Matriel de la Communication, de lInformation et de la Connaissance, CNRS FRE 2658, ENST-Bretagne, 2004. [18] A. et D. Isar, Adaptive denoising of low SNR signals, ARI, The Bulletin of the Istanbul Technical University, Volume 53, Number 2, pp. 31-37 . [19] R. Coifman et D. Donoho, Transaltion-invariant de-noising, dans Wavelets and Statistics, A. Antoniadis and G. Oppenheim Eds, Springer-Verlag, New York, 1995, pp. 125-150. [20] A. Isar, S. Moga et D.Isar, Local adaptive bivariate shrinkage with reduced sensitivity, propos pour [21] I. Jonstone et B. Silverman, Wavelet threshold estimators for data with correlated noise, J Royal Statist Soc, Volume B 59, 2, pp. 319-351, 1997. [22] M. S. Crouse, R. D. Novak et R.G. Baraniuk, Wavelet-based statistical signal processing using hidden Markov models, IEEE Transactions on Signal Processing, (46)-4, 1998. [23] H.Choi et R.G.Baraniuk. Multiscale image segmentation using wavelet-domain hidden Markov models, IEEE Trans. on Image Processing, Vol.10, n9, pp. 1309 1321, Sept. 2001. [24] L.Clavier, J.M. Boucher, R.Lepage, J.J Blanc et J.C Cornily, Automatic P-wave analysis of patients prone to atrial fibrillation, Medical & Biological Engineering & Computing, Vol.40, n1, pp. 63-78, Jan.2002

73

[25] Rodrigo Varejo Andreo, Segmentation de battements ECG par approche markovienne: application la dtection d'ischmies, thse doctorat prsente l' Institut National des Tlcommunications, dcembre 2004. [26] ] L. Rabiner. A tutorial on Hidden Markov Models and selected applications in speech recognition, Proceedings of the IEEE, Vol.77 ( No 2 ), February 1989, pp. 257 - 285. [27] A. Quinquis, A. Isar et D. Isar, Denoising Over-Sampled Signals, Le bulletin scientifique de l'Universit Polytchnique de Timisoara, vol. 49 (63), Electronique et Tlcommunications, fascicule 1-2, 2004, pages 110-113. [28] H. Baralh, F. Lamrini et D. Virassamy, Tlsurveillance mdicale des personnes pathologies cardiaques, Projet d'ingnieur, ENST de Bretagne, juin 2005

74

ANNEXE A1 LE CODE DES NOTATIONS POUR LES SIGNAUX PROVENUS DE LA BASE DE LAGUNA
a) Les fichiers appels selexxyy (o xxyy reprsente une succession de chiffres ) sont les

fichiers originaux tlchargs de la base QT disponible sur l'Internet. Il y a trois extensions possibles pour ce type de fichiers: selexxyy.dat: les signaux utiles (les enregistrements ECG). Ces fichiers contiennent deux signaux ECG distincts, provenant de deux drivations diffrentes. selexxyy.atr: les attributs originels de chaque signal (chaque signal provient d'une base de donnes qui a ses annotations particulires). selexxyy.hea: les formats des fichiers sont y dcrits. Tous ces fichiers sont cods dans le format 212, largement utilis pour l'exporte des signaux ECG. Leur frquence d'chantillonnage est de 250 Hz.
b) Les fichiers appels

selexxyysegmentable.mat reprsentent des fichiers directement

compatibles Matlab, qui contiennent les portions des signaux selexxyy pour lesquelles il y a la segmentation manuelle du mdecin (il s'agit d'habitude de 30 battements segments).
c) Pour faciliter l'utilisation des programmes de segmentation par AMC ondelettes, les

signaux selexxyysegmentable.mat ont t transforms afin de les rendre compatibles avec ceux de la base CHU de Brest. Le processus de transformation inclut une interpolation (pour forcer l'augmentation de la frquence d'chantillonnage 1000 Hz) et une multiplication par 1000. Les signaux ainsi obtenus sont nots par: p1xxc1yy pour la premire drivation "code" dans le format .dat p11xxc11yy pour la deuxime drivation.
d) Afin d'utiliser ces signaux pour tester leur segmentation automatique, on a cr les fichiers

en format .mat qui contiennent la segmentation manuelle du mdecin. Ces nouveaux fichiers indiqueront les positions de dbut et de fin de chaque onde. On a cr de tels fichiers tant pour les signaux 1000 Hz que pour ceux 250 Hz: posmanLagunap1xxc1yy- pour les signaux avec la frquence d'chantillonnage de 1000 Hz posmanLag250p1xxc1yy- pour les signaux 250 Hz

75

e) Les fichiers d'annotation originels sont galement disponibles pour chaque patient, sous le

nom de annotp1xxc1yy.txt Pour fixer les ides et pour simplifier la tache dans l'ventualit o la compltion de la base avec de nouveaux signaux s'imposera dans le futur, on va exemplifier pour un signal concrte, en prcisant aussi les fonctions utilises pour obtenir les diffrentes versions du signal et les fichiers contenant les annotations: 1. On tlcharge un signal (sele0104, par exemple) de la base de Laguna [7]. On aura besoin des fichiers sele0104.dat, sele0104.hea et sele0104.atr. 2. En utilisant la fonction readformat212, qui reprsente une version modifie d'une fonction disponible sur l'Internet [7] pour transformer les formats 212 dans un format directement accessible sous Matlab, on obtiendra le fichier sele0104segmentable.mat, qui contient une portion du signal initial (sele0104) pour laquelle on dispose de segmentations manuelles. 3. On tlcharge les annotations du mdecin (les points de segmentation des ondes), qui sont sauvegardes dans le fichier annotp101c104.txt. Il s'agit du fichier sele0104.q1c, qui regroupe les points de segmentation manuelle du premier mdecin. Pour plusieurs dtails, voir [6]. 4. Ces annotations en format text sont converties dans un fichier de type .mat, en utilisant la fonction dates_segmentation_manuelle. 5. Finalement, les fichiers p101c104 et p1101c1104 seront obtenus en utilisant la fonction interpolation. Leurs annotations correspondantes sont celles contenues dans le fichier posmanLagunap101c104, fichier obtenu suite l'tape prcdente.

76

ANNEXE A2 LE TABLEAU COMPLET DES SIGNAUX DE TEST UTILISES


Signal ECG 1. 2. 3. 4. 5. 6. 7. 8. 9. 10 . P7C9 P10C17 P2C18 P9C20 P2C20 P7C18 P6C18 P11C17 P5C4 P17C16 Classe patient FLUTTER FLUTTER FLUTTER FLUTTER FLUTTER FLUTTER FLUTTER FLUTTER FLUTTER FA FLUTTER FLUTTER FA FLUTTER NORMAL NORMAL NORMAL NORMAL NORMAL NORMAL NORMAL NORMAL NORMAL FA FA FA FA FA FA FA FA FA FA FA Rsultats Observations segmentation ERREUR Oscillations brusques de la ligne de base REUSSIE ERREUR REUSSIE ERREUR REUSSIE ERREUR REUSSIE REUSSIE ERREUR Oscillations de la ligne de base. Bruit fort. REUSSIE Erreur dans le fichier de segmentation manuelle REUSSIE REUSSIE ERREUR Erreur dans le fichier de segmentation manuelle REUSSIE REUSSIE Erreur dans le fichier de segmentation manuelle REUSSIE REUSSIE REUSSIE REUSSIE REUSSIE REUSSIE REUSSIE ERREUR REUSSIE ERREUR Onde P de faible amplitude. REUSSIE REUSSIE ERREUR Oscillations fortes de la ligne de base ERREUR Erreur dans le fichier de segmentation manuelle. Signal fortement bruit. REUSSIE REUSSIE REUSSIE ERREUR Erreur dans le fichier de 77

11. P14C14 12. P5C15 13. P4C9 14. P3C5 15. P2C2 16. P7C2 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. P7C1 P4C2 P5C21 P4C21 P5C13 P1C8 P6C7 P1C20 P4C15 P10C14 P8C9 P6C3 P19C18

30 . P15C18 31. 32. 33. 34. P9C18 P9C16 P5C16 P4C16

segmentation manuelle 35 . 36. 37. 38. 39. P16C15 P3C15 P2C15 P15C13 P12C13 FA FA FA FA FA FA FA FA FA FA FA FA REUSSIE REUSSIE REUSSIE REUSSIE RESUSSIE ERREUR REUSSIE ERREUR REUSSIE ERREUR REUSSIE REUSSIE

40. P6C4 41. 42. 43. 44. 45. 46. P7C3 P10C15 P9C15 P6C15 P8C14 P2C11

Erreur dans le fichier de segmentation manuelle Erreur dans le fichier de segmentation manuelle

Pour la segmentation de londe P, on a considr segmentation russie si lerreur moyenne de dbut et lerreur moyenne de fin sont infrieures 25 msec (par rapport aux segmentations manuelles ralises par les mdecins) et erreur de segmentation ailleurs. Finalement, un signal a t considr comme mal segment si le nombre d'ondes P mal segmentes selon les critres numrs auparavant est suprieur 10 ondes, d'un total de 20 battements.

78