Académique Documents
Professionnel Documents
Culture Documents
Mémoire de Magister SENAI BESMA
Mémoire de Magister SENAI BESMA
MÉMOIRE
En vue de l’obtention du
Diplôme de Magistère
Intitulé
LA FOUILLE DES IMAGES MEDICALES
Département : Informatique
Spécialité : Informatique
Option : Modélisation et Evaluation des Performances
des Systèmes
Avant tout début et après toute fin je remercie mon Dieu le tout puissant qui m’a tout donné
la volonté, le courage, la force et surtout la patience et l’espoir nécessaire pour réaliser ce
travail.
Je tiens à remercier vivement mon encadreur Mr. RAHAL Sidi Ahmed pour ses conseils et
son suivi durant la réalisation de mon projet.
Je remercie également tous les membres du jury qui ont accepté d’évaluer ce travail ainsi
que tous les enseignants du département informatique.
J’aimerai remercier du fond de mon cœur mes parents pour leur soutien moral, et leurs
conseils durant tout mon parcours scolaire. Et mon mari qui m’a soutenu et m’a aidé à
réaliser ce travail.
... A tous ceux qui ont contribué de près ou de loin à l'aboutissement de ce travail par leur
confiance et leur soutien.
Récemment, nous assistons à une croissance sur le nombre des images médicales grâce
aux développements des moyens de collecte des images médicales tels que l’OCT,
ECG… Les radiologues et les médecins sont confrontés à l’analyse et l’interprétation
d’un nombre important d’images. Dans cette optique, notre travail consiste à leur offrir
un outil performant qui leur permettra d’extraire des connaissances cachées derrière ce
nombre important d’images. En effet, les outils et méthodes de la fouille d’images
médicales permettent d’extraire des connaissances de façon automatique. Les types de
connaissances qui nous intéressent dans ce mémoire sont les règles d’association.
Enfin, pour valider notre algorithme nous avons réalisé une étude comparative entre
notre algorithme et l’algorithme MWAR. Les résultats de l’étude montrent clairement
la performance de notre algorithme par rapport à MWAR.
Page 3
Abstract
Medical image mining is an important field in Data mining literature. Association rule is
very important technique in medical image mining. Finding these valuable rules from
medical images is a significant research topic in the field of Data mining. Discovering
frequent itemsets is the key process in association rule mining. Traditional association
rule algorithms adopt an iterative method which requires large amount of calculation
like Apriori algorithm. The FP-growth algorithm is currently one of the fastest
approaches to frequent itemset mining.
Page 4
Table des matières
Introduction générale
Chapitre 1: Vers la fouille d’images médicales
1. Introduction………………………………………………………………………………...13
2. La fouille de données……………………………………………………………………….13
2.1. Définition ..........................................................................................................................13
2.2. Domaines d’application ....................................................................................................13
2.3. Le processus d’Extraction des Connaissances à partir des Données (ECD) ....................16
2.4. Les tâches de La fouille de données .................................................................................18
2.5. Les techniques de la fouille de données ...........................................................................18
3. Les règles d’association………………………………………………………………….…20
3.1 Principe ..........................................................................................................................20
3.2. Concepts de base ...........................................................................................................20
3.3. Processus d’extraction des règles d’association ...........................................................22
3.4. Algorithme général de recherche de règles d’association .............................................23
4. La fouille des images médicales…………………………………………………………....27
4.1. Introduction ......................................................................................................................27
4.2. Définition d’une image .....................................................................................................27
4.2.1. Opérations ..................................................................................................................28
4.2.2. Types d’images ..........................................................................................................28
4.2.3. La compression d’images...........................................................................................29
4.3. Définition de la fouille d’image........................................................................................30
4.3.1. Domaine d’application ...............................................................................................30
4.3.2. Les techniques de la fouille des images .....................................................................30
4.3.3. Caractéristiques d’images ..........................................................................................32
4.3.4. Processus de la fouille des images .............................................................................32
4.3.5. Les principaux Framework ........................................................................................33
4.3.5.1. Guidés par les fonctions ......................................................................................33
4.3.5.2. Guidés par l'information ......................................................................................33
Page 5
4.3.6. Les outils de la fouille des images .............................................................................34
4.4. De la fouille des données vers La fouille des images .......................................................34
4.5. Formats d’images ............................................................................................................35
4.6. Description des images médicales : ..................................................................................36
4.7. Imagerie médicale .............................................................................................................37
4.8. La fouille des images et Image Médicale .........................................................................40
4.9. Définition de la fouille des images médicales ..................................................................40
4.9.1. Les travaux réalisés ....................................................................................................41
4.9.2. Domaines d’application de l’imagerie médicale ........................................................41
5. Conclusion………………………………………………………………………………….41
1. Introduction………………………………………………………………………………...43
2. Les critères de l’étude……………………………………………………………………...43
3. Les algorithmes étudiés…………………………………………………………………….43
3.1. L’algorithme GMA (association graph and matrix) .........................................................43
3.1.1. phase1 : Matrice de fonction de production et le graphe d’association .....................44
3.1.2. phase2 : élagage de la matrice des caractéristiques ...................................................45
3.1.3. Phase3 : la sélection et l’extension par le graphe d’association ................................45
3.1.4. Phase4 : génération de l’ensemble d’itemsets fréquentes-k Lk(k>2) .........................45
3.1.5. Résultats expérimentaux ............................................................................................45
3.2. L’algorithme MWAR (Mining Weighted Association Rules) [29] ..................................46
3.2.1. Résultats expérimentaux ............................................................................................48
3.3. L’algorithme HARC (hybrid association rule with decision tree classification) .............48
3.3.1. La fouille des règles d’association .............................................................................48
3.3.1.1. Itemset frequent et Itemset frequent maximal .....................................................48
3.3.1.2. L’arbre de motif fréquent ....................................................................................50
3.3.1.3. L’extraction des itemsets fréquents maximaux ...................................................52
3.3.2. La classification Hybride ..........................................................................................52
3.3.3. Résultats et discussion ...............................................................................................53
4. Etude comparative…………………………………………………………………………55
Page 6
5. Synthèse sur les approches étudiées:……………………………………………………..56
6. Conclusion…………………………………………………………………………………..57
1. Introduction………………………………………………………………………………...59
2. Les concepts des règles d’association pondérées…………………………………………59
3. WFP-Growth……………………………………………………………………………….60
3.1. Acquisition d’image: ........................................................................................................60
3.2. Extraction des caractéristiques .........................................................................................60
3.2.1. Descripteur couleur ....................................................................................................61
3.2.2. Descripteur texture .....................................................................................................61
3.2.3. Descripteur forme ......................................................................................................61
3.2.4. Synthèse des méthodes d’extraction des caractéristiques ..........................................61
3.3. Algorithme d’extraction des règles d’association (WFP-growth pondéré) ......................62
3.3.1. Construction de WFP-Tree ........................................................................................63
3.3.2. Base de données conditionnelles ...............................................................................64
3.4. Extraction des règles d’association : .............................................................................64
3.5. Connaissances valides et exploitables : ........................................................................64
4. Exemple
d’application……………………………………………………………………...Erreur ! Signet
non défini.5
5. Conclusion…………………………………………………………………………………..69
Chapitre 4: Expérimentations
1. Introduction………………………………………………………………………………71
2. Outils de Mise en œuvre :………………………………………………………………….71
2.1. Langage de développement : ............................................................................................71
2.2. Outils utilisés : ..................................................................................................................71
2.3. La base de données utilisées .............................................................................................72
2.3.1. L’imagerie médicale ..................................................................................................72
Page 7
2.3.2. Mammographie ..........................................................................................................72
2.3.3. Base de données mammographies .............................................................................73
2.3.4. MIAS: Mammography Image Analysis Society .......................................................73
2.3.5. Description des données ............................................................................................73
2.3.6. La description de chaque item ...................................................................................74
3. la représentation des interfaces……………………………………………………………74
4. Etude comparative de l’algorithme W-Apriori (MWAR) et WFp-Growth…………….81
5. Conclusion…………………………………………………………………………………..81
BIBLIOGRAPHIE
Page 8
Liste des Figures
Page 9
Liste des Tableaux
TABLEAU 1.1 : L ETAT DES REGLES SONT CLASSIFIES SELON LA CONFIANCE ….………….. 26
TABLEAU 2.1 : BASE DE DONNEES D’IMAGE MEDICALE…………………………….…………… 44
TABLEAU 2.2 : NOTATIONS…………………………………………………………..………………. 46
TABLEAU 2.3 : LA BASE DE DONNEES MAMMOGRAPHIE….…………………………………….. 47
TABLEAU 2.4 : TABLE DE TRANSACTION…………………………………………………………... 51
TABLEAU 2.5 : LA CLASSIFICATION DE TUMEUR DU CERVEAU PAR LES REGLES
D’ASSOCIATION AVEC L’ARBRE DE DECISION…………………………………………………….. 54
TABLEAU 2.6 : LA COMPARAISON DE PERFORMANCE DES ALGORITHMES…………………. 55
TABLEAU 2.7 : COMPARAISON ENTRE LES ALGORITHMES DES REGLES D’ASSOCIATION…. 56
TABLEAU 3.1 : REPRESENTATIONS DES METHODES D’EXTRACTION DES
CARACTERISTIQUES................................................................................................................ 61
TABLEAU 3.2 : LA BASE DES TRANSACTIONS……………………………………………............ 65
TABLEAU 3.3 : LE SUPPORT DES ITEMS AVEC LEUR POIDS ET WSUP……………………....... 65
TABLEAU 3.4 : LES ITEMS FREQUENTS…………………………………………........................ 66
TABLEAU 3.5 : LES ITEMS FREQUENTS ORDONNES……………………………………………. 66
TABLEAU 3.6 : REPRESENTATION DE PATTERN-BASE CONDITIONNELLE……………….….. 68
TABLEAU 3.7 : REPRESENTATION DE WFP-TREE CONDITIONNEL…….……………………… 68
TABLEAU 3.8 : L'EXTRACTION DES ITEMSETS FREQUENTS……………………………………. 69
TABLEAU 3.9 : GENERATION DE TOUTES LES COMBINAISONS…………………………..…..... 69
TABLEAU 4.1 : COMPARAISON ENTRE L’ALGORITHME W-APRIORI ET WFP-GROWTH….….. 81
Page 10
Introduction générale
Introduction générale
Les systèmes d'informations de santé regroupent toutes les données sur le patient pour
faciliter leur échange et leur communication entre les différents professionnels
impliqués dans la prise en charge et le suivi du patient.
Dans ce cadre, l'imagerie, parce qu'elle joue actuellement un rôle majeur dans les
différents domaines de la médecine et non pas seulement dans le diagnostic mais aussi
dans le traitement devient un élément important et structurant de ces systèmes
d'information.
Actuellement, les médecins prennent un temps important dans l’analyse des images
médicales. Pour cela, l’exploitation et l’extraction d’informations, de façon
automatique, à partir de ces images médicales peut aider les médecins et radiologues à
bien cerner le diagnostic.
Dans cette optique, notre travail consiste à exploiter cette masse d’images médicales
existante afin d’extraire des connaissances utiles et exploitable par les médecins et
radiologues. Pour cela, nous proposons d’utiliser les techniques de la fouille des
images médicales pour extraire ces connaissances. Nous nous intéressons à la
technique des règles d’association car ce type de connaissance est descriptif et
prédictif.
Notre travail est organisé sur quatre chapitres.
Le premier chapitre définit les concepts généraux liés au domaine de la fouille de
données et la fouille des images. Dans le deuxième chapitre, nous décrivons les trois
algorithmes d’extraction des règles d’association issus de la littérature de la fouille
des images médicales (MWAR [29], GMA [24], HARC [32]), avec une étude
comparative. Dans le troisième chapitre, nous présentons notre proposition WFP-
GROWTH. Le dernier chapitre expose les résultats expérimentaux sur l’algorithme
WFP-GROWTH et MWAR.
Nous terminons avec une conclusion générale et nous proposons quelques perspectives
pour des éventuelles futures études complémentaires.
Page 11
Chapitre 1
Page 12
Chapitre1 : Vers la fouille d’images médicales
Chapitre 1
Vers la fouille d’images médicales
1. Introduction
Le besoin d’interpréter ou de trouver de nouvelles relations entre les éléments stockés
dans les bases de données nécessite de trouver des nouvelles techniques telles que :
La fouille de données, la fouille du texte et la fouille des images qui ont été
utilisées dans diverses applications biomédicales et qui ont connu un grand succès au
cours de ces dernières années.
La première partie, porte sur des généralités sur la fouille de données en introduisant les
domaines d’application, les techniques et les taches du la fouille de données, ainsi que
les différentes étapes du processus d’extraction de connaissances à partir des données.
- Médical / Pharmaceutique
Diagnostic assisté par ordinateur (CAD) par l'apprentissage de systèmes experts
Explication ou prédiction de la réponse d'un patient à un traitement
Identification des thérapies à succès (combinaison de prescriptions).
Etude des corrélations entre le dosage dans un traitement et l'apparition d'effets
secondaires
Page 13
Chapitre1 : Vers la fouille d’images médicales
- Assurances et santé
Découverte d'associations des demandes de remboursements
Identification de clients potentiels de nouvelles polices d'assurances.
Détection d'association de comportements pour la découverte de clients à risque.
Détection de comportement frauduleux.
Exemple Assurances
Vous êtes un agent d’assurance et vous devez définir un paiement mensuel
adapté à un jeune de 18 ans qui a acheté une Ferrari. Qu’est ce qu’il faut faire ?
Analyser les données de tous les clients de la compagnie.
La probabilité d’avoir un accident est basé sur
Sexe du client (M/F) et l’âge
Modèle de la voiture, âge, adresse, .... etc.
Si la probabilité d’avoir un accident est supérieure à la moyenne, initialiser la
mensualité suivant les risques.
- Banques / Finances
Détection d'usage frauduleux de cartes bancaires.
Gestion du risque lié à l'attribution de prêts par le scoring.
Découverte de relations cachées entre les indicateurs financiers.
Détection de règles de comportement boursier par l’analyse des données du
marché.
Exemple Banque
Vous êtes à l’étranger et quelqu’un a volé votre carte de crédit ou votre mobile
Page 14
Chapitre1 : Vers la fouille d’images médicales
Compagnies bancaires
Utiliser les données historiques pour construire un modèle de comportement
frauduleux et utiliser la fouille de données pour identifier des instances
similaires.
Compagnies téléphoniques
Analyser les “patterns” qui dérivent du comportement attendu (destinataire,
durée, etc.)
Page 16
Chapitre1 : Vers la fouille d’images médicales
Compréhension du métier
Cette première phase est essentielle et doit permettre de comprendre les objectifs et les
besoins métiers afin de les intégrer dans la définition du projet de la fouille de données
et de décliner un plan permettant de les atteindre et les satisfaire.
Compréhension des données
Il s’agit de collecter et de se familiariser avec les données à disposition. Il faut
également identifier le plus tôt possible les problèmes de qualité des données,
développer les premières intuitions, détecter les premiers ensembles et hypothèses à
analyser.
Préparation des données
Cette phase comprend toutes les étapes permettant de construire le jeu de données qui
sera utilisé par le(s) modèle(s). Ces étapes sont souvent exécutées plusieurs fois, en
fonction du modèle proposé et du retour des analyses déjà effectuées. Il s’agit entre
autres d’extraire, transformer, mettre en forme, nettoyer et de stocker de façon
pertinente les données. La préparation des données peut constituer environ 60 à 70% du
travail total.
Modélisation
C’est ici qu’entrent en jeu les méthodologies de modélisation issues notamment de la
statistique. Les modèles sont souvent validés et construits avec l’aide d’analystes du
côté métier et d’experts en méthodes quantitatives. Il y a dans la plupart des cas
plusieurs façons de modéliser le même problème de la fouille de données et plusieurs
techniques pour arriver à ajuster au mieux un modèle aux données. La boucle de
feedback vers les points précédents est fréquemment utilisée pour améliorer le modèle.
Évaluation du modèle
Un ou plusieurs modèles sont construits. Il faut s’assurer que les résultats soient jugés
satisfaisants et soient cohérents notamment vis-à-vis des objectifs métiers.
Utilisation du modèle
La mise au point du modèle n’est pas la fin du processus de la fouille de données. Une
fois les connaissances extraites des données, elles doivent encore être organisées et
présentées de façon à les rendre utilisables par les destinataires. Cela peut être aussi
simple que de fournir une synthèse descriptive des données ou aussi complexe que de
mettre en œuvre un processus complet de fouille de données pour l’utilisateur métier
final. Il est néanmoins toujours important que l’utilisateur comprenne les limites des
données et de l’analyse pour que ses interprétations et ses décisions soient judicieuses.
Page 17
Chapitre1 : Vers la fouille d’images médicales
2.4. Les tâches de La fouille de données
Contrairement aux idées reçues, La fouille de données n’est pas le remède miracle
capable de résoudre toutes les difficultés ou besoins de l’entreprise. Cependant, une
multitude de problèmes d’ordre intellectuel, économique ou commercial peuvent être
regroupés, dans leur formalisation, dans l’une des tâches suivantes : [4]
Classification
Elle permet de prédire si une instance de donnée est membre d’un groupe ou d’une
classe prédéfinie, en se basant sur une fonction définie et un fichier d’apprentissage qui
contient toutes les données déjà classées.
Estimation
Contrairement à la classification, le résultat d’une estimation permet d’obtenir une
variable continue, à partir des caractéristiques d’un objet.
Prédiction
La prédiction ressemble à la classification et à l’estimation mais dans une échelle
temporelle différente. Tout comme les tâches précédentes, elle s’appuie sur le passé et
le présent mais son résultat se situe dans un futur généralement précisé.
Le regroupement par similitudes
Le regroupement par similitudes consiste à grouper les éléments qui vont naturellement
ensemble. La technique la plus appropriée au regroupement par similitudes est l’analyse
du panier de la ménagère : les règles d’association.
Segmentation « Clustering »
Elle consiste à segmenter une population hétérogène en sous populations homogènes.
Contrairement à la classification, les sous populations ne sont pas préétablis. La
technique la plus appropriée à cette tâche est l’analyse des clusters
Description
C’est souvent l’une des premières tâches demandées à un outil de la fouille de données.
On lui demande de décrire les données d’une base complexe. Cela engendre souvent
une exploitation supplémentaire en vue de fournir des explications.
2.5. Les techniques de la fouille de données
Il existe de nombreux outils ou techniques de la fouille de données [4][5]. Voici les plus
importantes techniques :
Page 18
Chapitre1 : Vers la fouille d’images médicales
Les réseaux de neurones
Ils simulent le système nerveux biologique. Un réseau de neurones est composé de
plusieurs neurones interconnectés. Un poids est associé à chaque arc et à chaque
neurone on associe une valeur.
Les algorithmes génétiques
Une transposition simplifiée des neurones du cerveau humain. Très utilisés pour la
classification, l’estimation, la prédiction et la segmentation.
Les règles d’association
Leur principale application est « l'analyse du panier de la ménagère » qui consiste,
comme l'indique son nom, en la recherche d'associations entre produits sur les tickets de
caisse et l'étude de ce que les clients achètent. La méthode recherche quels produits
tendent à être achetés ensemble.
Les règles d’association ou l’analyse du panier de la ménagère sont une des méthodes
de la fouille de données les plus répandus dans le domaine du marketing et de la
distribution. Elles peuvent être appliquées à tout secteur d'activité pour lequel il est
intéressant de rechercher des groupements potentiels de produits ou de services, par
exemple : services bancaires, services de télécommunications, maintenance et dans le
secteur médical pour la recherche de complications dues à des associations de
médicaments ou à la recherche de fraudes en recherchant des associations inhabituelles.
Le système génère des règles d'association de forme "Si action1 ou condition alors
action2". Elles peuvent se situer dans le temps : "Si action1 ou condition à l'instant t1
alors action2 à l'instant t2" c’est les règles d’association séquentielles.
Exemples de règles
Ces règles sont intuitivement faciles à interpréter car elles montrent comment des
produits ou des services se situent les uns par rapport aux autres. Elles sont
particulièrement utiles en marketing et peuvent être facilement utilisées dans le système
d'information de l'entreprise.
Le but principal de cette technique est donc descriptif. Dans la mesure où les résultats
peuvent être situés dans le temps, cette technique peut être considérée comme
prédictive. Cependant, il faut noter que cette méthode, si elle peut produire des règles
intéressantes, peut aussi produire des règles triviales ou inutiles (provenant de
particularités de l'ensemble d'apprentissage). La recherche des règles d'associations est
Page 19
Chapitre1 : Vers la fouille d’images médicales
une méthode non supervisée car on ne dispose en entrée que de la description des
achats.
La segmentation « Clustering »
Consiste à segmenter une population hétérogène en un ensemble de sous-groupes
ou « clusters » plus homogènes. C’est une classification non supervisée, les classes
possibles et leur nombre ne sont pas connus au préalable et les exemples disponibles
sont non étiquetés.
Le but est donc de découvrir des relations intéressantes qui peuvent exister
implicitement entre les données et qui permette de regrouper dans un même groupe ou
cluster les objets considérés comme similaire.
Dans notre mémoire, nous nous intéressons à la technique des règles d’association dont
nous détaillons son principe dans la section suivante [5].
Page 20
Chapitre1 : Vers la fouille d’images médicales
Définition de l’ItemSet
On appelle itemset ou motif tout sous-ensemble d’items de X. Un itemset constitué de k-
items sera appelé un k-itemset.
Exemple
L’itemset {A, B, C} est un 3-itemset noté ABC.
X Y / X I, Y I, XY =
Exemple : Ordinateur, imprimante scanner (20% ,72%)
Exprime le fait que :
1. 72% des clients qui s’équipent d’ordinateurs et d’imprimantes en même temps
s’équipent aussi de scanners.
2. et que ces clients représentent 20% du nombre total de clients.
« SI achat d’ordinateurs et imprimantes ALORS achat de scanner dans 72% de cas,
dans 20% des transactions de la base de données. »
Définition de la fréquence
Freq(X) =
Le support d’une règle d’association est la fréquence des itemsets de la partie gauche et
droite de la règle d’association divisé sur le nombre des transactions de la base de
données. En d’autres termes, c‘est le % d’instances de la base vérifiant la règle.
Une règle a un support : Sup (X Y) =
Page 21
Chapitre1 : Vers la fouille d’images médicales
Sup (X Y) : est le support de la règle (XY)
Card (T) : cardinalité de la base de données transactionnelle T
Il est défini par l’ensemble des items dont le support est supérieur au seuil minimal
Minsup. FF= {i I / i Sup (i) >= Minsup}
Sélection et préparation
des données
Base de
données
Page 22
Chapitre1 : Vers la fouille d’images médicales
Cette étape est intéressante pour la prise de décision. Il faut que l’outil de visualisation
prenne en compte la priorité des règles les unes par rapport aux autres, ainsi que les
critères définis par l’utilisateur. Il doit présenter les règles sous une forme claire et
compréhensible.
3.4. Algorithme général de recherche de règles d’association
La recherche de règles d’association peut être scindée en deux étapes :
Cet algorithme introduit par Rakesh Agrawal et et R.Srikant [8]. C’est le premier
algorithme d’extraction des règles d’association dans les bases de données
transactionnelles. Il est un algorithme par niveaux qui permet de découvrir les sous-
ensembles d’items fréquents en partant de ceux dont la longueur est 1 et en augmentant
la longueur au fur et à mesure.
Cet algorithme est fondé sur la propriété des sous-ensembles d’items fréquents. Chaque
niveau comprend une phase de génération de tous les itemsets candidats et une phase
d’évaluation pour en éliminer les non fréquents.
Apriori est un algorithme qui a été conçu pour rechercher les itemsets fréquents. Il est
donc à la charge de l’utilisateur d’exploiter ces itemsets pour la génération des règles
intéressantes.
K-candidats K-fréquents …
.
.
K=K+1 .
Motifs fréquents
Cette figure nous montre que la génération des motifs fréquents se fait à partir des
motifs candidats de l’étape (k-1)
Apriori est décomposé en deux phases:
Phase1: trouver tous les ensembles d’items fréquents ayant des supports suffisants.
Phase2: générer à partir de ces ensembles d’items fréquents des règles d’associations
solides ayant des confiances suffisantes.
Page 24
Chapitre1 : Vers la fouille d’images médicales
Algorithme APRIORI –Phase 1 Algorithme APRIORI –Phase 2
C1 L1
Page 25
Chapitre1 : Vers la fouille d’images médicales
itemset sup
Retirer les Générer les candidats
{clavier, souris} 4
candidats
{clavier, imprimante} 4
{clavier, écran} 2
{souris, imprimante} 4
Dont la fréquence {souris, scanner} 2 C3 à partir des
est inferieure à 2 {souris, écran} 2 L2
L2
Itemset itemset Sup
{clavier, souris, imprimante} 2
{clavier, souris, imprimante} La Fréquence {clavier, souris, écran} 2
{clavier, souris, écran} des candidats
C3 L3
Page 26
Chapitre1 : Vers la fouille d’images médicales
Les avantages de l’algorithme Apriori
Parmi les avantages qui ont fait d’Apriori un algorithme très populaire :
Il fournit des résultats clairs: règles faciles à interpréter.
Il est relativement simple.
Il n’exige aucune hypothèse préalable (apprentissage non supervisé).
Il est facilement adaptable aux séries temporelles (ex : un client ayant acheté le
produit A est susceptible d’acheter le produit B dans deux ans). [10]
Les inconvénients de l’algorithme Apriori
Cependant, l’algorithme Apriori n’est pas exempté de faiblesses.
Il est très coûteux en temps de calcul.
Il produit un nombre important de règles triviales ou inutiles. [10]
Nous présentons dans cette partie les concepts liés à la fouille des images tels que : les
images médicales, format d’image, domaines d’application ….
Page 27
Chapitre1 : Vers la fouille d’images médicales
• En capture, la résolution est le nombre de pixels que contient l’image (Figure
1.5).
• En restitution, la résolution est la densité de pixels, c'est-à-dire le nombre de
pixels rapporté à une surface qui est la taille pratique de l'image. Dans ce cas,
la résolution varie en fonction de la taille de l'image imprimée sur papier ou
affichée à l’écran.
Pixel
4.2.1. Opérations
On peut effectuer deux catégories d’opérations sur une image :
Les opérations qui traitent les pixels en tant qu’information :
Reconnaissance des formes, décalage (Shifting) qui permettent de voir une ou plusieurs
sections d'une image, rotation, Loupe ou Zooming (Vertical, Horizontal et diagonal),
Masking (masquage de certaines régions selon certains critères), superposition et
juxtaposition, transformation de couleurs, projection, fusion, histogramme, etc.
Les opérations qui concernent la signification d’un ensemble de pixels dans une
image: description, indexation et recherche d’images
4.2.2. Types d’images
Il existe quatre types d’images
• L’image en noir et blanc : elle est représentée par une matrice de pixels dont la
précision est limitée à 0 (éteint) ou 1 (allumé). Chaque pixel dans une image en noir et
1
blanc (bi-niveau) tient sur un bit (2 = 2 couleurs).
• L’image en niveaux de gris : elle est définit par des pixels qui dépend de sa brillance
8
(en général, 256 niveaux de gris). Chaque pixel tient sur 8 bits (2 =256 niveaux de gris).
• L’image en 256 variétés de couleur : chaque pixel est défini par un triplet de couleurs
8
(Rouge, Vert, Bleu). Chaque couleur est codée sur 8 bits (2 = 256 couleurs).
Généralement, on utilise une table de correspondance, appelée palette de couleurs, qui
indique les couleurs des pixels de l’image.
• L’image en 16 millions de couleurs (couleur vraie) : chaque pixel est représenté par
une couleur définie par un triplet (Rouge, Vert, Bleu) dans lequel chaque couleur est
8 8 8 24
codée sur 24 bits (2 *2 *2 = 2 =16 millions de couleurs).
Page 28
Chapitre1 : Vers la fouille d’images médicales
• Compression LZW (Lempel, Ziv, Welch) : est une technique de compression (taux
de 50%) sans perte d’information. Elle n’est pas adaptée aux images de 16
millions de couleurs.
• Compression JPEG (Joint Photographic Expert Group) : est une technique qui peut
dans certains cas arriver à réaliser une réduction de l’ordre de 90% de l’image
originale après élimination des doublons ainsi que de tout autre élément jugé non
pertinent. Malgré la perte d’information, la décompression de l’image résultante
JPEG est quasi identique à l’image originale. La compression JPEG est
conseillée pour les images de type couleur vraie.
Page 29
Chapitre1 : Vers la fouille d’images médicales
4.3. Définition de la fouille d’image
On l’appelle aussi « image mining » est le processus de recherche et de découverte de
l'information et de l'extraction de connaissances à partir des images sous leurs diverses
formes. Elle se situe à l'intersection de la vision par ordinateur, de la compréhension
visuelle de l'image, de l'exploration de données, de l'intelligence artificielle et de
l'algorithmique.
La reconnaissance d'objets
C’est une méthode permettant de détecter la présence d'une instance (reconnaissance
d'objet) ou d'une classe d'objets dans une image numérique. Une attention particulière
est portée à la détection de visage et la détection de personne. Ces méthodes font
souvent appel à l'apprentissage supervisé et ont des applications dans de multiples
domaines.
La Recherche d'images
Les images doivent être récupérées en fonction d e certaines spécifications, et peuvent
être classées en trois niveaux: [13]
Niveau 1 : comprend les caractéristiques primitives d’extraction d’images telles que la
couleur, la texture, la forme.
Niveau 2: comprend la recherche d'images par des caractéristiques dérivées ou logiques
d'un type donné ou d'objets.
Niveau 3: comprend la recherche d'images par attributs abstraits, impliquant une
quantité importante de raisonnement de haut niveau.
Page 30
Chapitre1 : Vers la fouille d’images médicales
L’Indexation d'images
Dans la première génération des systèmes d’indexation, les images étaient représentées
par des termes sémantiques (mots-clés). Nous pouvons citer comme exemple Google.
Puis dans la deuxième génération des systèmes d’indexation, il y a eu l’intégration de
différentes propriétés liées aux images :
Propriétés perceptuelles : couleur, texture, forme, relations spatiales,
Propriétés sémantiques : objets, scènes,
Impression visuelle, signification : combinaison des deux autres.
Le but de l’indexation est de réordonner les images d’une base de données en fonction
d’une distance de similarité par rapport à une image de référence. Nous pouvons réaliser
la requête de similarité entre les images de différentes façons :
La requête peut se faire sur toute l’image ou bien sur une partie de l’image.
La requête peut utiliser les propriétés spatiales des objets présents dans l’image
(graphe d’adjacence des régions).
Classification d’image
Page 31
Chapitre1 : Vers la fouille d’images médicales
A travers la figure 1.7 nous identifions facilement les 4 groupes dans lesquels les
données peuvent être divisées. Le critère de similarité est la distance: deux ou plusieurs
objets appartiennent au même groupe si elles sont «proches», selon une distance donnée
(dans cette distance géométrique de cas). C'est ce qu'on appelle le regroupement basé
sur la distance.
Un autre type de regroupement est le regroupement conceptuel: deux ou plusieurs
objets appartiennent au même groupe si celui-ci définit un concept commun à tous les
objets. En d'autres termes, les objets sont regroupés en fonction de leur forme à des
concepts descriptifs, pas en fonction de mesures de similarité simples.
Réseau de neurone
Un réseau de neurone est défini par un ensemble d’unités de traitement qui peuvent être
des unités soit d’entrée, soit de sortie, soit cachées. L’apprentissage s’effectue par
l’injection de cas en entrée et par la mesure des conclusions en sortie.
4.3.3. Caractéristiques d’images
Caractéristiques de couleur
Caractéristiques de texture
Une caractéristique majeure : répétition d’un (des) motif(s) sur une région dans une
image.
Une propriété innée de presque toutes les surfaces (tissus, bois, papiers …..).
contient des informations importantes concernant l’arrangement de la structure des
surfaces dans une image.
Caractéristique de forme
C’est la description d’un objet par sa position, son orientation et sa taille pour
l’utiliser en tant que caractéristique, il est essentiel de segmenter l’image pour
détecter l’objet ou le limites de la région.
Deux techniques de caractérisation : en utilisant le contour extérieur de la forme
d’un objet ou en utilisant la région entière formant de l’objet.
Page 32
Chapitre1 : Vers la fouille d’images médicales
modèles. Ces données seront évaluées et interprétés pour obtenir des connaissances
finales qui peuvent être exploitées par les applications [15].
Evaluation
Base de
données
d’image Connaissances
Niveau pixel: ce niveau comprend des informations d'image brute comme les
pixels de l'image et les caractéristiques primitives de l'image telles que la
couleur, la texture et la forme.
Niveau objet : ce niveau traite de l'objet ou des informations de région sur la
base des caractéristiques primitives du niveau pixel.
Niveau concept sémantique: Il place les objets identifiés dans le niveau objet
dans le contexte des scènes représentées.
Page 33
Chapitre1 : Vers la fouille d’images médicales
Niveau modèle et connaissances: il intègre un domaine lié aux données
alphanumériques et à relations sémantiques découvertes à partir des données
d'image.
Traitement
d’image
La fouille des
images
+
La fouille de
données
Dans les bases de données relationnelles, les valeurs de données sont sémantiquement
significatives. Par exemple, l'âge est 35 est bien compris. Cependant dans les bases de
données images, les valeurs de données elles-mêmes ne peuvent pas être significatives à
moins que le contexte les soutienne. Par exemple une valeur de gamme de gris de 46
pourrait sembler plus foncée qu'une valeur de gamme de gris de 87 si toutes les valeurs
environnantes de pixels de contexte sont très lumineuses.
Une autre différence importante entre les bases de données relationnelles et les bases
de données d'image, c'est que l'information spatiale implicite est essentielle pour
l'interprétation du contenu de l'image, mais il n'y a pas cette exigence dans les bases de
données relationnelles.
Page 34
Chapitre1 : Vers la fouille d’images médicales
Unique par rapport à de multiples interprétations
Une troisième différence importante sur les caractéristiques de l'image où les mêmes
motifs visuels peuvent avoir de multiples interprétations. Ce qui nécessite une nouvelle
classe d'algorithmes pour répondre aux besoins particuliers de l'exploitation des
modèles utiles à partir d'images.
4.5. Formats d’images
Le format est la structure utilisée pour représenter une image. Il existe de nombreux
formats d’images. Nous nous limitons ici aux principaux d’entre eux :
• Format BMP (BitMaP) : créé par Microsoft et IBM. Il a été conçu pour les
ordinateurs personnels (PC) et pour une utilisation dans un environnement
Windows et OS/2.
Page 35
Chapitre1 : Vers la fouille d’images médicales
• Format DICOM : Publié pour la première fois en 1985 par le collège américain de
radiologie (American Collège of Radiologie) et l’association nationale des
manufactures électriques (National Electrical Manufactures Association),
DICOM est composé principalement de 4 niveaux d’informations :
Pour quoi utiliser ce format pour les images médicales parce que tout simplement le
service de radiologie d’un hôpital produit plusieurs milliers d'images chaque jour, ainsi,
un scanner, travaillant au rythme de 3 patients par heure produit environ 150 images par
heures, et il n'est pas possible de classer ces images dans un format courant de type
JPEG ou GIF car il aurait un risque de pertes des données démographiques de l'images,
(nom du patient, type d'examen , hôpital , date d'examen , type d'acquisition etc. ...) .
Le format DICOM permet de rendre unique chaque image produite et de leur associer
des informations spécifiques. Ainsi chaque image est autonome, si elle est perdue,
reproduite ou renommée, il est toujours possible d’identifier formellement son origine,
le patient, la date, la série d'où elle provient, les paramètres d'acquisition etc...
Pour mieux gérer ce nombre énorme des images médicales on utilise un système
d’archivage PACS " Picture Archiving and Communication System" défini dans la
figure 1.10. Ce dernier permet à un département de radiologie de gérer, archiver et
transmettre les résultats d'examens sous forme de fichiers numériques.[23]
Page 36
Chapitre1 : Vers la fouille d’images médicales
• La radiographie : Les rayons X sont de la même famille que les rayons lumineux. Ils
permettent d'impressionner un film radiographique (comparable au film
photographique qui est impressionné par la lumière).
Page 37
Chapitre1 : Vers la fouille d’images médicales
Radiographie de la
Radiographie pulmonaire Estomac opacifié
main
FIGURE 1.11 : EXEMPLES DE RADIOGRAPHIES [11]
Page 38
Chapitre1 : Vers la fouille d’images médicales
• L'IRM (Imagerie par Résonance Magnétique) :
Est une technique non invasive basée sur le principe de la résonance des atomes de
certaines molécules sous l'action d’ondes de radiofréquences. L'appareil est constitué
d'un tunnel formé d'un aimant très puissant (0,1 à 1,5 Tesla) entourant le lit d'examen
sur lequel s'allonge le patient. Des générateurs d’ondes électromagnétiques
spécifiques y sont connectés.
Certains émettent une onde radiofréquence qui va exciter les noyaux d'hydrogène
contenus dans l'eau composant nos cellules. Après arrêt de la stimulation (qui dure
quelques millisecondes) les atomes d'hydrogène restituent cette énergie qui se dissipe
dans différents plans de l'espace sous l'action du champ magnétique de l'aimant.
L'énergie est alors captée par des antennes dites antennes réceptrices, puis analysée
par un ordinateur qui construit une carte énergétique des structures anatomiques de la
partie étudiée du corps.
• L'angiographie : est une technique qui sert à visualiser certaines artères en opacifiant
les vaisseaux par un produit de contraste radio-opaque injecté dans la circulation
artérielle
Durant l'injection du produit, des rayons X vont être produits sous la table d'examen et
traversent le corps. Le produit de contraste est opaque aux rayons X et la caméra placée
au-dessus du patient montre simultanément les artères injectées sur un écran. Les
images obtenues sont informatisées et mémorisées. Des images 2D et 2,5D sont
produites par cette technique.
Page 39
Chapitre1 : Vers la fouille d’images médicales
Artères du cou
Artères cérébrales Artère carotide
FIGURE 1.15: EXEMPLES D’ANGIOGRAPHIES [11]
Page 40
Chapitre1 : Vers la fouille d’images médicales
Dans ce contexte, la fouille de données médicales peut s’avérer être un problème
difficile et nécessitant la connaissance d’un expert.
4.9.1. Les travaux réalisés
Parmi les travaux réalisés dans la fouille des images, nous citons:
5. Conclusion
Dans ce chapitre, nous avons présenté deux parties. La première partie nous avons
défini le processus d’extraction de connaissances à partir des données. Ensuite nous
avons cité quelques domaines d’application de la fouille de données et nous avons décrit
les tâches et les techniques principaux de la fouille de données. Nous nous sommes
attardés sur la présentation de la technique des règles d’association et en particulier
l’algorithme Apriori.
Dans la deuxième partie, nous avons défini les concepts de la fouille de l’image et en
particulier la fouille des images médicales.
Dans le chapitre suivant nous allons détailler quelques algorithmes de la fouille des
images médicales.
Page 41
Chapitre 2 :
État de l’art sur la
fouille des images
médicales
Page 42
Chapitre2 : Etat de l’Art sur la fouille des images médicales
Chapitre 2
Etat de l’Art sur la fouille
des images médicales
1. Introduction
Ce chapitre dresse un état de l’art sur l’application des règles d’association dans les
images médicales. En effet, une description de quelques travaux qui nous paraissent
pertinents sera abordée dans ce chapitre. Pour notre étude nous avons sélectionné trois
algorithmes : GMA (association graphe and matrix), MWAR (Mining Weighted
association rules) et HARC (hybrid association rule with decision tree classification).
Page 43
Chapitre2 : Etat de l’Art sur la fouille des images médicales
Cet algorithme est composé de 4 phases :
Afin d’évaluer la performance de l’algorithme GMA, ses auteurs ont mené des
expérimentations avec les algorithmes FAR (Feature matrix based Association
Rules) [25] et DLG (Direct Large Itemset Generation Algorithm) [26], [27].
Dans l’algorithme GMA, une phase de prétraitement de l’image médicale est requise
avant d’entamer les 4 phases. Les auteurs de GMA ont procédé sur les images de
tumeur de cerveau humain(CT) .
La phase de prétraitement consiste à appliquer l’algorithme de partage des eaux pour
extraire les régions d’intérêt (ROI) à partir des images puis appliquer l’algorithme
DBSCAN [28].
Le tableau 2.1, décrit les différentes régions d’intérêts pour chaque image. Ces régions
sont notées par : O1, O2, O3, O4, O5. Par exemple, l’image1 IM1 contient 3 régions
d’intérêts O1, O2 et O3.
Image ID Items
IM1 O 1 O2 O3
IM2 O 5 O4 O6
IM3 O 2 O3
… …
Page 44
Chapitre2 : Etat de l’Art sur la fouille des images médicales
calcul des supports de tous les items pour déterminer l’ensemble des itemsets fréquents
de taille 1 (L1).
- La suppression des lignes : Consiste à recalculer la somme des valeurs des éléments
dans chaque ligne de la matrice de caractéristique ensuite supprimer toutes les lignes de
la matrice qui ont la somme de valeur d'élément plus petit que k.
Page 45
Chapitre2 : Etat de l’Art sur la fouille des images médicales
Les trois algorithmes permettent de générer le même nombre des itemsets fréquents
mais Toutefois, le temps d’exécution de ces algorithmes n’est pas la même comme
décrit dans la figure 2.1. En effet, l’algorithme DLG est meilleur que l’algorithme FAR
lorsque le min-sup est faible. Par contre, l’algorithme FAR est meilleur que l’algorithme
DLG lorsque la valeur min-sup augmente.
Nous observons que l’algorithme GMA est plus performant que les deux autres en
temps d’exécution pour toutes les valeurs de min-sup. Ceci peut être justifié par la
réduction de la dimension de la matrice A par l’opération d’élagage ce qui va permettre
de réduire l’espace requis et par conséquent réduire le temps de recherche.
Le tableau 2.2, décrit les notations utilisées dans cet algorithme. Les entrées de
l’algorithme sont : la base de données D, le support et confiance pondérés wminsup et
minconf, et le poids de chaque items i noté Wi. Les sorties de l’algorithme sont la liste
des règles d’association.
Page 46
Chapitre2 : Etat de l’Art sur la fouille des images médicales
Les auteurs de cet algorithme ont utilisé les données médicales mammographies [30]
décrites dans le tableau 2.3. Chaque item a un sens médical spécifique et est doté d'un
poids selon son importance dans le diagnostic de la maladie. La définition de chaque
item est :
La figure 2.2, résume l’ensemble des règles d’association générées à partir de la base de
données D (mammographie) pour un support minimal pondéré Wminsup de 0.1 et une
confiance pondérée minimal de 0.45.
Page 47
Chapitre2 : Etat de l’Art sur la fouille des images médicales
Dans cette figure, dans la zone de texte à gauche les règles d'association sont énumérées
avec leurs configurations, dans la zone de texte à droit. Les itemsets fréquents sont
énumérés avec leurs supports et leurs supports pondérés.
La figure 2.3 illustre les étapes de l’algorithme HARC. La transformation d’image est
réalisée par la segmentation et le filtrage pour extraire les caractéristiques des images
médicales en utilisant une technique de détection de bord.
Nous nous intéressons dans cet algorithme à la phase d’extraction des règles
d’association sur les images du cerveau humain. Dans cette étape, les transactions sont
organisées sous forme d’arbre FP-Tree pour extraire les itemsets fréquents afin de
construire les règles d’association. [33][34].
Page 48
Chapitre2 : Etat de l’Art sur la fouille des images médicales
Training phase Testing phase
Pré-processing Pré-processing
Segmentation
Segmentation
Feature extraction
Feature extraction
ARM
Transactional Database
ARM
Comparaison
DecisionTree Classification
Diagnosis
L’ensemble des itemsets fréquent maximaux qui ont les plus petites itemsets, inclus tous
les itemsets courants [35]. Mais ils ne comprennent pas les itemsets infréquents.
L’identification des itemsets fréquent maximal peut réduire le nombre des itemsets
fréquent générée, donc il réduit le temps de CPU et l’E/S.
Dans le cas ou l’itemset fréquent maximal découvert est long, alors les performances de
l’algorithme serrant excellentes. Tous ces itemsets fréquents maximaux identifiés seront
Page 49
Chapitre2 : Etat de l’Art sur la fouille des images médicales
stockés dans la base de données transactionnelle sous forme d’une structure
arborescente comme illustré dans la figure 2.4. La figure 2.5 définit la codification de
l’information correspondante à la figure 2.4.
Image
Texture Edge
11 12
La table entête est composée de 3 champs pour chaque entrée de l’element qui sont :
- le nom d’item,
- L’item précédent
- et l’item suivant
La construction de FP-Tree est réalisée en deux étapes :
Page 50
Chapitre2 : Etat de l’Art sur la fouille des images médicales
TID Transaction
001 111, 121, 211, 221
002 11, 211, 222, 323
003 112, 122, 221, 421
004 111, 121, 421
005 111, 122, 211, 221,413
006 211, 323, 524, 413
007 323, 524, 713
root
231 :1
211 :5 211 :4
131 :1
121 :4 121 :4
231 :1
221 :4 221 :4
131 :3 131 :3
231 :1
231 :4 231 :1
Page 51
Chapitre2 : Etat de l’Art sur la fouille des images médicales
3.3.1.3. L’extraction des itemsets fréquents maximaux
A partir de l’arbre FP-Tree les itemsets maximaux sont générés.
Le pseudo code de cette étape est définie ci-dessous.
Page 53
Chapitre2 : Etat de l’Art sur la fouille des images médicales
TP, TN, FP, et FN sont le nombre des cas de vrais Positifs (cas normaux classés
correctement), le nombre de Vrais Négatifs (cas anormaux classés correctement), le
nombre de faux positifs (le cas normal classé comme Anormaux), et le nombre de faux
négatifs (cas anormaux classées comme Normal) respectivement.
L'exactitude est la proportion de cas diagnostiqués correctement à partir du nombre
total de cas.
La sensibilité mesure la capacité de la méthode proposée pour identifier les cas
anormaux.
La spécificité mesure la capacité de la méthode pour identifier les cas normaux. La
valeur d'un minimum de confiance est définie à 97% et la valeur d'assistance minimale
est fixée à 10 %.
Les caractéristiques du test des images et les règles d’association ont été générées à
l'aide de la valeur de seuil=0,001.
Les résultats montrent que le classificateur proposé accorde une plus grande valeur de
la sensibilité, la spécificité et la précision telle que 97 %, 96 % et 95 % respectivement.
Afin de valider les résultats obtenus, HARC a été comparé avec l’algorithme C4.5 et
l’algorithme classificateur associative [9][10].
Les tableaux 2.5 et 2.6 montrent les résultats de la classification et ses performances
avec les classificateurs existants.
La figure 2.8 montre que la méthode proposée donne de meilleurs résultats en
comparaison avec les méthodes existantes avec respect de rappel et de valeur de
précision.
normale
Bénigne
Bénigne
maligne
maligne
Catégories
Bénigne TN FN TP TN FN TP
50 2 30 66 1 30
Maligne FP TN TP FP TN TP
10 28 20 4 29 20
Normale TP TP TP TP TP TP
5 5 10 5 5 10
Totale 65 35 60 65 35 60
Page 54
Chapitre2 : Etat de l’Art sur la fouille des images médicales
Mesures La méthode C4.5 Les règles
hybride (HARC) d’association
Sensibilité % 97 84 95
Exactitude % 96 71 84
Spécificité % 95 79 91
4. Etude comparative
Dans cette partie, nous résumons les algorithmes présentés précédemment sur la base
des critères que nous avons énoncés dans la section 2. Le tableau2.7 montre un
récapitulatif des caractéristiques de ces méthodes. Les colonnes représentent les
différents critères et les lignes contiennent les références des approches étudiées. Une
description d’une caractéristique dans une cellule indique que la méthode en ligne
possède cette caractéristique en colonne.
Temps : Nous avons vu que l’algorithme MWAR est meilleur de point de vu temps
d’exécution que l’algorithme MINWAL. Et que l’algorithme GMA est aussi meilleur
que les autres deux algorithmes FAR et DLG.
Espace mémoire : l’algorithme GMA est gourmand en espace mémoire à cause de la
structure en matrice qui nécessite plus d’espace mémoire. Par contre MWAR nécessite
moins d’espace mémoire car il n’utilise aucune structure supplémentaire.
Poids : A la différence de GMA et HARC, MWAR introduit la notion du poids dans
l’extraction des règles d’association. Ce qui permettra de donner l’importance à certains
items par rapport à d’autres.
Page 55
Chapitre2 : Etat de l’Art sur la fouille des images médicales
Objet de la base de données : Le seul algorithme qui a introduit les métadonnées dans
le processus d’extraction des règles d’association est l’algorithme GMA. Tandis que les
deux autres algorithmes utilisent les caractéristiques des images pour extraire les règles
d’association.
L’algorithme de base : les algorithmes GMA et MWAR utilisent comme algorithme de
base « APRIORI » qui nécessite un parcours répétitif par contre l’algorithme HARC
utilise l’algorithme de base « FP-Growth » qui nécessite deux parcours à la base de
donnée.
Algorithme Temps Espace Poids Objet de BDD L’algorithme
mémoire de base
GMA Lent Grand Non Données et méta Apriori
données
MWAR Rapide Moyen Oui Données Apriori
Page 56
Chapitre2 : Etat de l’Art sur la fouille des images médicales
Nous proposons dans la suite d’introduire la notion du poids dans l’algorithme FP-
Growth pour réduire le temps d’exécution et guider la recherche des règles d’association
selon le poids de chaque item. Notre algorithme appelé WFP-Growth (Weigthed FP-
Growth) procède en profondeur et sans génération des itemsets candidats avec
l’introduction du poids dans chaque itemset.
6. Conclusion
Cet état de l'art sur les techniques d’extraction des règle d’association à partir des
images médicales nous a mené à prendre connaissance de leur complexité. En effet,
avec les techniques de règle d’association qui existent, le choix de l'une d'entre elles est
devenu très difficile. L’étude menée dans ce chapitre nous a permis de dégager les
lignes directrices pour le choix de notre algorithme WFP-Growth. Le chapitre suivant
permet de décrire cet algorithme de façon détaillée.
Page 57
Chapitre3
WFP-Growth
Page 58
Chapitre3 : WFP-Growth
Chapitre 3
WFP-Growth
1. Introduction
Dans le chapitre précédent, nous avons présenté les différents algorithmes d’extraction
des règles d’association appliqués sur les images médicales. Ce chapitre consiste à
décrire WFP-Growth pour l’extraction des règles d’association à partir des images
médicales.
Définition 2
Le support de la règle d’association XY est la probabilité que X Y existe dans la
transaction de la base de données D
Définition 3
La confiance du règle d’association XY est la probabilité que Y existe étant donné
qu’une transaction contient X, i.e.,
Confiance (XY)=
Définition 5
Une règle d’association XY est une règle intéressante si X Y est fréquente, et la
confiance de la règle est supérieure ou égale à un seuil de confiance minimum.
Page 59
Chapitre3 : WFP-Growth
3. WFP-Growth
La figure 3.1 décrit l’architecture de WFP-Growth qui est composée de 5 étapes.
Extraction
des règles
d’association
Connaissances valides
et exploitables
Page 60
Chapitre3 : WFP-Growth
Page 61
Chapitre3 : WFP-Growth
Début
WMinSup
Obtenir les items fréquents(les éléments dont la fréquence pondérée est supérieure au
support minimum pondérée)
Construire WFp-tree
Création du nœud racine.
Insertion des nœuds enfants
WminSup ,Minconf
Page 62
Chapitre3 : WFP-Growth
Page 63
Chapitre3 : WFP-Growth
Un second parcours de D est ensuite effectué où chaque transaction est triée par ordre
décroissant de support des items. Le nœud racine de l'arbre nul est d'abord créé. Durant
ce même parcours, une branche sera créée pour chaque transaction, mais des
transactions ayant un même préfixe partageront le même début d'une branche de l'arbre,
ainsi deux transactions identiques seront représentées par une seule et même branche.
La raison pour laquelle les items sont traités du plus fréquent au moins fréquent est que
les items fréquents seront proches de la racine et seront mieux partagés par les
transactions. Ceci fait du WFP-tree une bonne structure compacte pour représenter les
bases transactionnelles.
Cette phase reste tout de même exponentielle dans la taille des itemsets fréquents car le
nombre de règles pouvant être générées à partir d'un k-itemset de taille supérieure à 1
est égal 2 2 .
k
Les règles valides sont les règles qui ont la confiance supérieure ou égale à Minconf .Ce
sont les connaissances valides et exploitables.
Page 64
Chapitre3 : WFP-Growth
4. Exemple d’application
Soit la base transactionnelle représentée dans le tableau 3.2. Supposons que le support
minimum est défini à 50% et la valeur de la confiance minimum est 75%.
TID Items
1 f, a, c, d, g, i, m, p
2 a, b, c, f, l, m, o
3 b, f, h, j, o
4 b, c, k, s, p
5 a, f, c, e, l, p, m, n
TABLEAU 3.2 LA BASE DES TRANSACTIONS.
phase1:
Dans cette étape, nous allons parcourir la base de transactions afin de calculer le support
pondéré des éléments qui s’y trouvent. On associe pour chaque item une valeur fixe
appelé le poids pour calculer le support pondéré(Wsup).
Page 65
Chapitre3 : WFP-Growth
Phase 2
Seuls les items dont le support est supérieur au support minimum seront retenus, les
autres seront ignorés.
A 3 0.480
B 3 0.540
C 4 0.656
F 4 0.664
M 3 0.516
P 3 0.576
Phase 3
Cette étape consiste à ordonner les différents éléments en fonction de leur support
pondéré. Ce tri s’effectue en ordre décroissant, l’élément ayant comptabilisé le plus
grand nombre d’occurrences du support pondéré est placé en tête et l’élément ayant
comptabilisé le moins d’occurrences est placé en queue. Ce traitement sera effectué
pour chacune des lignes de transactions contenues dans la base des transactions.
1 {f, a, c, d, g, i, m, p} {f, c, p, m, a }
2 {a, b, c, f, l, m, o} {f, c, b, m, a }
3 {b, f, h, j, o, w} { f, b}
4 {b, c, k, s, p} { c, p, b }
5 {a, f, c, e, l, p, m, n} {f, c, p, m, a }
TABLEAU 3.5 LES ITEMS FREQUENTS ORDONNES.
Dans notre cas, l’élément f ayant un Wsup de 0.664 est placé en tête, l’élément a ayant
un Wsup de 0.48 se retrouve en dernière position.
Phase 4
A partir du résultat obtenu lors de l’étape précédente, nous commençons la construction
de la structure WFP-tree. Tout d’abord l’élément ‘Racine’ de l’arbre est créé. Cet
élément racine ne contiendra aucun élément. Il contiendra uniquement des liens vers ses
éléments enfants.
Page 66
Chapitre3 : WFP-Growth
F 4 0.664
f : 0.664
C 4 0.656
c : 0.656
P 3 0.576
P : 0.576
B 3 0.540
M 3 0.516
m : 0.516
A 3 0.480
a : 0.480
La construction se poursuit avec la deuxième transaction qui est composée des éléments
(f, c, b, m, a). Cette fois-ci l’arbre contient des éléments et par conséquent pour chaque
élément trouvé son nombre d’occurrences est incrémenté de 1.
{}
Item Support Wsup
F 4 0.664 f : 1.328
C 4 0.656
c : 1.312
P 3 0.576
P : 0.576 b : 0.540
B 3 0.540
M 3 0.516 m : 0.516
m : 0.516
A 3 0.480
a : 0.480 a : 0.480
Page 67
Chapitre3 : WFP-Growth
{}
Item Support Wsup
F 4 0.664 f : 2.656 c : 0.656
C 4 0.656
c : 1.968 b : 0.540
P 3 0.576
B 3 0.540 P : 1.152 b : 0.540 P : 0.576
M 3 0.516
m : 1.032 m : 0.516 b : 0.540
A 3 0.480
a : 0.960 a : 0.480
Page 68
Chapitre3 : WFP-Growth
Phase 6
C c, fc
TABLEAU 3.8 L'EXTRACTION DES ITEMSETS FREQUENTS.
Phase 7
5. Conclusion
Ce chapitre englobe les différentes étapes que nous avons suivies pour la mise en
œuvre de notre application pour extraire les règles d’associations. Nous avons présenté
l’architecture générale de notre solution en utilisant l’algorithme FP-growth pondéré.
Dans ce qui suit, nous allons effectuer une série d’expérimentations sur l’algorithme de
manière à évaluer sa performance. Les résultats de ces tests sont présentés dans le
chapitre suivant.
Page 69
Chapitre 4
Expérimentations
Page 70
Chapitre 4 : Expérimentations
Chapitre 4
Expérimentations
1. Introduction
Ce chapitre fait l’objet de mise en place de notre application (outil) en concrétisant
les objectifs et la conception décrits dans le chapitre précédent. Cette partie décrit
principalement l’environnement existant, qui est mis en place pour exécuter notre
système, les outils utilisés, ainsi que des aperçus de l’application conçue et les résultats
fournis.
Dans ce chapitre d’implémentation, nous avons illustrés les différentes parties de
l’application à savoir les outils utilisés pour le développement de l’application.
la représentation des interfaces.
Etude comparative de l’algorithme W-Apriori et WFp-Growth.
2. Outils de Mise en œuvre :
2.1. Langage de développement :
Nous avons réalisé notre application avec le langage Java qui est un langage de
programmation objet développé par Sun. Sa syntaxe est dérivée de celle du C++.
Java est un langage multiplateforme, c’est-à-dire que les programmes, une fois écrits
peuvent s’exécuter indifféremment sous différents environnements.
Java étant un langage relativement jeune, il a été conçu dès le départ pour intégrer
des fonctionnalités sécurité et réseau avancées. De plus, il bénéficie d’une API très
vaste, permettant au programmeur de réaliser facilement un grand nombre de tâches.
2.2. Outils utilisés :
Dans ce qui suit, nous allons énumérer les technologies utilisées lors de la réalisation
de notre solution.
NetBeans 8.0.2 : Cet IDE a été créé à l'initiative de Sun Microsystems. Il présente
toutes les caractéristiques indispensables à un environnement de qualité, que ce soit
pour développer en Java, Ruby, C/C++ ou même PHP.
NetBeans est sous licence Open Source, il permet de développer et déployer rapidement
et gratuitement des applications graphiques Swing, des Applets, des JSP/Servlets, des
architectures J2EE, dans un environnement fortement personnalisable.
La plate-forme NetBeans contient des API qui simplifient la gestion des fenêtres, des
actions, des fichiers, et bien d’autre chose typiques dans les applications.
Un module de NetBeans est un groupe de classes java qui fournit une application avec
une fonctionnalité spécifique.
Notre choix s’est appuyé sur cette plate-forme à des raisons suivantes :
Un contexte de déploiement runtime pour des fonctionnalités arbitraires qui
simplifient le développement.
Une boîte à outils qui permet de gagner beaucoup de temps en
développement et d'effort.
Page 71
Chapitre 4 : Expérimentations
L'imagerie médicale peut être utilisée à des fins cliniques pour l'établissement d'un
diagnostic ou pour le traitement de pathologies mais également dans le cadre de travaux
de recherche scientifique étudiant la physiologie des êtres vivants.[39]
2.3.2. Mammographie
La mammographie réalise une projection du volume du sein sur le plan de l’image. Elle
permet d’analyser la glande mammaire grâce aux différences de l’atténuation des
différents types de tissu.
L’avantage de la visualisation de l’ensemble des tissus mammaires sur une seule image
est directement lie à l’un de ses plus grands défauts, la superposition des différents
tissus traverses par le même rayon et projetés sur un seul endroit du détecteur.
Cette superposition est une source d’incertitude, puisqu’il n’est plus possible de
distinguer sur l’image, des surdensités réelles qui correspondent à une région radio-
opaque dans le tissu en trois dimensions, et des superpositions de plusieurs tissus avec
des densités relativement faibles.
Parmi ces trois les foyers de micro-calcifications sont les premiers signes d’alerte de
cette maladie. Plusieurs pays du monde organisent des campagnes de dépistages, ces
derniers montre que la technique de mammographie peut réduire de près de 40% les
décès causés par ce cancer.
Page 72
Chapitre 4 : Expérimentations
La résolution est typiquement exprimée en unités des microns par Pixel, indiquant la
taille de la région carrée du film que chaque pixel représente dans l’image.
La valeur exacte de Pixel dépend du rang de la densité optique (OD) et du nombre de
bits employé pour stocker le niveau gris de chaque Pixel.
Les 60 images sont réparties en 30 images normales et 30 images incluant des foyers de
MC dont 15 malins et 15 bénins. Ces foyers ont été identifiés par les radiologues
experts.[41]
2.3.5. Description des données
Nous travaillons sur une base d’images mammographie dans le but d’évaluer et valider
notre algorithme d’extraction des règles d’association à partir de ces images. Cette base
est composée de 322 images plus le fichier de métadonnées qui contient des
informations concernant chaque image. [42]
mdb001 G CIRC B 67 53 25
mdb002 G CIRC B 65 35 9
mdb003 D NORM N
mdb004 D NORM N
mdb005 F CIRC B 60 17 4
mdb005 F CIRC B 63 21 3
mdb006 F NORM N
mdb007 G NORM N
mdb008 G NORM N
mdb009 F NORM N
mdb010 F CIRC B 66 53 4
mdb011 F NORM N
mdb012 F CIRC B 59 57 5
Page 73
Chapitre 4 : Expérimentations
Page 74
Chapitre 4 : Expérimentations
Page 75
Chapitre 4 : Expérimentations
- Les caractéristiques de base : Elle contient tous les paramètres de cette base de
données en binaire.
Page 76
Chapitre 4 : Expérimentations
Page 77
Chapitre 4 : Expérimentations
Le nombre de Le nombre
transaction des items
Le minimum
support
La minimum
confiance
Exécution de
l’algorithme
-
FIGURE 4.8 INTERFACE D’EXECUTION DE L’ALGORITHME P-APRIORI.
LANCEMENT DE W-APRIORI
Page 78
Chapitre 4 : Expérimentations
Le nombre de Le nombre
transaction des items
Le minimum
support
La minimum
confiance
Exécution de
l’algorithme
lancement de WFP-Growth
Page 79
Chapitre 4 : Expérimentations
MWAR WFP-Growth
Page 80
Chapitre 4 : Expérimentations
Le tableau 4.1 et la figure 4.14 montrent clairement que WFP-Growth est meilleur en
temps d’exécution que MWAR.
5. Conclusion
Dans ce chapitre, nous avons décrit les détails de l’algorithme WFP-Growth avec son
mise en œuvre avec le langage de programmation java et la plate forme NETBEANS
comme environnement de développement.
Ensuite, nous avons mené quelques expérimentations sur les deux algorithmes où nous
avons comparé le temps d’exécution des deux algorithmes. Nous sommes arrivées au
résultat que notre algorithme est meilleur de point de vue temps d’exécution que
MWAR.
Page 81
Conclusion générale et Perspectives
CONCLUSION GENERALE ET
PERSPECTIVES
La fouille d’image médicale se situe entre deux domaines principaux qui sont le
traitement de l’image médicale et la fouille de données. Ce qui nous a poussé de les
étudié pour concevoir notre contribution. Cette dernière fournit un outil d’aide à la
décision pour les radiologues et les médecins.
Nous nous sommes intéressés à la technique des règles d’association qui est une
technique descriptive et prédictive dans les images médicales. Pour cela nous avons
étudié les principaux algorithmes d’extraction des règles d’association dans les images
médicales. Nous avons relevé quelques insuffisances où nous avons apporté des
améliorations. Par conséquent, nous avons conçu notre méthode sur la base de
l’algorithme FP-Growth avec l’introduction du poids des itemsets dans ce dernier. Pour
valider notre algorithme nous avons réalisé une étude comparative entre notre
algorithme et l’algorithme MWAR. Les résultats de l’étude montrent clairement la
performance de notre algorithme par rapport à MWAR.
Néanmoins notre algorithme reste tributaire de la structure FP-tree de l’algorithme FP-
Growth qui peut ne pas contenir en mémoire centrale. Pour une première perspective
nous proposons d’utiliser d’autres structures plus compactes que FP-Tree dans notre
algorithme.
Les utilisateurs finaux de ce nombre important des règles d’association doivent fouiller
encore pour extraire des règles d’association qui les intéresse. Pour une deuxième
perspective, nous proposons de classifier ces règles d’association et les présenté aux
utilisateurs.
Page 82
Bibliographie
BIBLIOGRAPHIE
[1]. Cours : « informatique décisionnelle, système d’information pour stratégie et
pilotage d’entreprise », Département informatique théorique, chapitre n°6 leçon :
Datamining Disponible sur : https://fr.wikiversity.org/wiki/Datamining/Applications
[2]. Karras D.A., Karkanis S.A., Maroulis D.E., “Efficient Image Compression of
Medical Images Using the Wavelet Transform and Fuzzy c-means Clustering on
Regions of Interest”, Proceedings of The 26th EUROMICRO Conference, 2000, Los
Alamitos, CA, USA, Vol. 2, P. 469-473.
[3]. Giorgio Pauletto, « Méthodes statistiques et la fouille de données », Haute École de
Gestion 19 février 2009
[4].Khiat Salim « LA FOUILLE MULTI-SOURCES DE DONNEES MULTI-
NIVEAUX », Septembre 2015. Thèse de doctorat de l’Université des Sciences et de la
Technologie d’Oran Mohamed Boudiaf.
[5]. khiat Salim. « La fouille de données Industrielle: application à la maintenance
AVAL/SH ». Memoire de Magister, 2007. USTO
[6]. Honeyman J.C., Frost M.M., Moser R., et al., "RIS requirements to support a PACS
infrastructure", Proceedings of the SPIE – The International Society for Optical
Engineering, 1996, Vol. 2711, P. 120-125.
[7]. Mohamed el hadi benelhadj, « Entrepôt de Données et Fouille de Données Un
Modèle Binaire et Arborescent dans le Processus de Génération des Règles
d'Association , thèse de doctorat en science spécialité informatique.
[8].R. Agrawal et R. Srikant. «Fast algorithms for mining association rules in large data
bases». In proceedings of the 20th international conference on Very Large Data Bases 1
994.
[9]. Professor Anita Wasilewska .«APRIORI Algorithm». Lecture Notes.
[10].E-G Talbi. « Fouille de données (La fouille de données) – Un tour d’horizon».
Présentation en ligne. Laboratoire d’informatique fondamentale de Lille (LIFL).
(Consulté le 02.11.2009). Disponible sur : http://www2.lifl.fr/~talbi/Cours-Data-
Mining.pdf.
[11]. A. STORCK . « MIMS : un système de description et de recherche d’images
médicales ». Décembre 2001 .document d’habilitation doctorale. Institut national des
sciences appliquées de Lyon.
[12]. Carlos Ordonez et Edward Omiecinski, Image Mining: A New Approach for Data
mining 1998
[13].Ji Zhang et Wynne Hsu et Mong Li Lee,IMAGE MINING: ISSUES,
FRAMEWORKS AND TECHNIQUES 2001 .
[14]. Rajiv Gandhi et Sanjay Silakari et Nishchol Mishra ,Image Mining in the Context
of Content Based Image Retrieval 2012.
[15]. Mong Li Lee et Ji Zhang et Wynne Hsu, Image Mining: Trends and
Developments. Journal of Intelligent Information Systems. July 2002, Volume 19, Issue
1, pp 7-23. Springer Link.
Page 83
Bibliographie
Page 84
Bibliographie
[34].S. Lu, Z. Lu,”Fast Mining Maximum Frequent Itemsets,” Journal of Software, vol.
12(2), pp. 293-297, 2001.
[35]. A.Neumann, J.Holstein, J.Le Gall and E.Lepage.,”Measuring performance in
health care: case-mix adjustment by boosted decision trees,” Artificial Intelligence in
Medicine, Vol. 32(3), pp. 97-113, 2004.
[36].F. Peter and J. Abonyi, “Association Rule and Decision Tree Based Methods for
Fuzzy Rule Base Generation,” World Academy of Science, Engineering and Technolog
y 13, 2006.
[37]. E. Baralis and S. Chiusano, ”Essential Classification rate sets,” ACM
Transactions on Database Systems, vol. 29(4) ,2004.
[38]. X.R. Marcela, J.M.T. Agma, T. Caetano and M.A.M. Paulo, “An Association Rule
-Based Method to Support Medical Image Diagnosis With Efficiency,” IEEE
transactions on multimedia, vol. 10 (2), pp.277-285, 2008.
[39].Wikipedia « l’encyclopédie libre » fr.wikipedia.org
[40].Ayadi hakim, Bouanoun bilal, système d’aide à la détection de maladies sur image
médicale basé sur les réseaux de neurones, mémoire d’ingénieur d’état en
informatique ; 2010.
[41]. http://marathon.csee.usf.edu/Mammography/database.html.
[42]. http://peipa.essex.ac.uk/info/mias.html
[43].Toro J., Medina R., Garreau M., et al., “A Markovian Approach to Reconstruction
of the Left Ventricle from Two Angiographic Views”, Irish Signal & Systems
Conference, 1997, London Derry, Northern Ireland, UK, P. 59-65.
[44].Loew M. H., Li D., Pickholtz R. L., “Adaptive pifs model in fractal image
compression”, SPIE Proceedings, 1996, Seattle WA, USA, Vol. 2707, P. 284-293.
[45].Kivijärvi J., Ojala T., Kaukoranta T., et al., “A comparison of lossless compression
methods for medical images”, Computerized Medical Imaging and Graphics, 1998, Vol.
22, N° 4, P. 323-339.
[46].Clunie D.A, “Lossless compression of grayscale medical images - effectiveness of
traditional and state of the art approaches”, Proceedings of the SPIE – The International
Society for Optical Engineering, 2000, Vol. 3980, P. 74-84.
Page 85