Vous êtes sur la page 1sur 85

République Algérienne Démocratique et Populaire

Ministère de l’Enseignement Supérieur et de la Recherche Scientifique

Université des Sciences et de la Technologie d’Oran Mohamed Boudiaf

Faculté des Mathématiques et Informatique

MÉMOIRE
En vue de l’obtention du

Diplôme de Magistère

Présenté et Soutenu par :


Mme.SENAI Besma

Intitulé
LA FOUILLE DES IMAGES MEDICALES
Département : Informatique
Spécialité : Informatique
Option : Modélisation et Evaluation des Performances
des Systèmes

Le Jury est Composé de :

Professeur, Mr BENYETTOU Mohamed Président USTO-MB

Docteur, Mr RAHAL Sid Ahmed Rapporteur USTO-MB

Docteur, Mme ZAOUI Lynda Examinatrice USTO-MB

Docteur, Mr BELKADI Khaled Examinateur USTO-MB

Année Universitaire 2015/ 2016


Remerciements

Avant tout début et après toute fin je remercie mon Dieu le tout puissant qui m’a tout donné
la volonté, le courage, la force et surtout la patience et l’espoir nécessaire pour réaliser ce
travail.

Je tiens à remercier vivement mon encadreur Mr. RAHAL Sidi Ahmed pour ses conseils et
son suivi durant la réalisation de mon projet.

Je remercie également tous les membres du jury qui ont accepté d’évaluer ce travail ainsi
que tous les enseignants du département informatique.

J’aimerai remercier du fond de mon cœur mes parents pour leur soutien moral, et leurs
conseils durant tout mon parcours scolaire. Et mon mari qui m’a soutenu et m’a aidé à
réaliser ce travail.

... A tous ceux qui ont contribué de près ou de loin à l'aboutissement de ce travail par leur
confiance et leur soutien.

Ce Mémoire est dédié à mes deux enfants Karima et Youcef.


Résumé

Récemment, nous assistons à une croissance sur le nombre des images médicales grâce
aux développements des moyens de collecte des images médicales tels que l’OCT,
ECG… Les radiologues et les médecins sont confrontés à l’analyse et l’interprétation
d’un nombre important d’images. Dans cette optique, notre travail consiste à leur offrir
un outil performant qui leur permettra d’extraire des connaissances cachées derrière ce
nombre important d’images. En effet, les outils et méthodes de la fouille d’images
médicales permettent d’extraire des connaissances de façon automatique. Les types de
connaissances qui nous intéressent dans ce mémoire sont les règles d’association.

Dans ce mémoire, nous proposons un nouvel algorithme appelé WFP-Growth pour


extraire des règles d’association pondérées à partir d’un ensemble d’images médicales.

En effet, nous nous inspirons de l’algorithme FP-Growth où nous avons introduit la


notion de poids des itemsets. WFP-Growth utilise une structure compacte appelée
WFP-Tree pour organiser les itemsets fréquents.

Enfin, pour valider notre algorithme nous avons réalisé une étude comparative entre
notre algorithme et l’algorithme MWAR. Les résultats de l’étude montrent clairement
la performance de notre algorithme par rapport à MWAR.

Mots-clés : la fouille d’image, les règles d’association, imagerie médicale, le support


pondéré, FP-Growth, WFP-Tree.

Page 3
Abstract

Medical image mining is an important field in Data mining literature. Association rule is
very important technique in medical image mining. Finding these valuable rules from
medical images is a significant research topic in the field of Data mining. Discovering
frequent itemsets is the key process in association rule mining. Traditional association
rule algorithms adopt an iterative method which requires large amount of calculation
like Apriori algorithm. The FP-growth algorithm is currently one of the fastest
approaches to frequent itemset mining.

In this paper, we proposed a new algorithm called WFP-Growth of discovering


significant binary relationships in transaction datasets in a weighted setting. It is adapted
to handle weighted association rule mining problems where each item is allowed to
have a weight. It implements a fast and stable algorithm to mining weighted association
rules based on Frequent Pattern-tree (WFP-tree). Experiments on performance study
will prove the superiority of the new algorithm for different values of minimum support
compared with MWAR algorithm.

Keywords: Image Mining, Association Rule, Apriori, FP-growth, medical image


mining, Weighted Support.

Page 4
Table des matières

Introduction générale
Chapitre 1: Vers la fouille d’images médicales
1. Introduction………………………………………………………………………………...13
2. La fouille de données……………………………………………………………………….13
2.1. Définition ..........................................................................................................................13
2.2. Domaines d’application ....................................................................................................13
2.3. Le processus d’Extraction des Connaissances à partir des Données (ECD) ....................16
2.4. Les tâches de La fouille de données .................................................................................18
2.5. Les techniques de la fouille de données ...........................................................................18
3. Les règles d’association………………………………………………………………….…20
3.1 Principe ..........................................................................................................................20
3.2. Concepts de base ...........................................................................................................20
3.3. Processus d’extraction des règles d’association ...........................................................22
3.4. Algorithme général de recherche de règles d’association .............................................23
4. La fouille des images médicales…………………………………………………………....27
4.1. Introduction ......................................................................................................................27
4.2. Définition d’une image .....................................................................................................27
4.2.1. Opérations ..................................................................................................................28
4.2.2. Types d’images ..........................................................................................................28
4.2.3. La compression d’images...........................................................................................29
4.3. Définition de la fouille d’image........................................................................................30
4.3.1. Domaine d’application ...............................................................................................30
4.3.2. Les techniques de la fouille des images .....................................................................30
4.3.3. Caractéristiques d’images ..........................................................................................32
4.3.4. Processus de la fouille des images .............................................................................32
4.3.5. Les principaux Framework ........................................................................................33
4.3.5.1. Guidés par les fonctions ......................................................................................33
4.3.5.2. Guidés par l'information ......................................................................................33
Page 5
4.3.6. Les outils de la fouille des images .............................................................................34
4.4. De la fouille des données vers La fouille des images .......................................................34
4.5. Formats d’images ............................................................................................................35
4.6. Description des images médicales : ..................................................................................36
4.7. Imagerie médicale .............................................................................................................37
4.8. La fouille des images et Image Médicale .........................................................................40
4.9. Définition de la fouille des images médicales ..................................................................40
4.9.1. Les travaux réalisés ....................................................................................................41
4.9.2. Domaines d’application de l’imagerie médicale ........................................................41
5. Conclusion………………………………………………………………………………….41

Chapitre 2: Etat de l'art sur la fouille des images médicales

1. Introduction………………………………………………………………………………...43
2. Les critères de l’étude……………………………………………………………………...43
3. Les algorithmes étudiés…………………………………………………………………….43
3.1. L’algorithme GMA (association graph and matrix) .........................................................43
3.1.1. phase1 : Matrice de fonction de production et le graphe d’association .....................44
3.1.2. phase2 : élagage de la matrice des caractéristiques ...................................................45
3.1.3. Phase3 : la sélection et l’extension par le graphe d’association ................................45
3.1.4. Phase4 : génération de l’ensemble d’itemsets fréquentes-k Lk(k>2) .........................45
3.1.5. Résultats expérimentaux ............................................................................................45
3.2. L’algorithme MWAR (Mining Weighted Association Rules) [29] ..................................46
3.2.1. Résultats expérimentaux ............................................................................................48
3.3. L’algorithme HARC (hybrid association rule with decision tree classification) .............48
3.3.1. La fouille des règles d’association .............................................................................48
3.3.1.1. Itemset frequent et Itemset frequent maximal .....................................................48
3.3.1.2. L’arbre de motif fréquent ....................................................................................50
3.3.1.3. L’extraction des itemsets fréquents maximaux ...................................................52
3.3.2. La classification Hybride ..........................................................................................52
3.3.3. Résultats et discussion ...............................................................................................53
4. Etude comparative…………………………………………………………………………55

Page 6
5. Synthèse sur les approches étudiées:……………………………………………………..56
6. Conclusion…………………………………………………………………………………..57

Chapitre 3: l'algorithme WFP-Growth

1. Introduction………………………………………………………………………………...59
2. Les concepts des règles d’association pondérées…………………………………………59
3. WFP-Growth……………………………………………………………………………….60
3.1. Acquisition d’image: ........................................................................................................60
3.2. Extraction des caractéristiques .........................................................................................60
3.2.1. Descripteur couleur ....................................................................................................61
3.2.2. Descripteur texture .....................................................................................................61
3.2.3. Descripteur forme ......................................................................................................61
3.2.4. Synthèse des méthodes d’extraction des caractéristiques ..........................................61
3.3. Algorithme d’extraction des règles d’association (WFP-growth pondéré) ......................62
3.3.1. Construction de WFP-Tree ........................................................................................63
3.3.2. Base de données conditionnelles ...............................................................................64
3.4. Extraction des règles d’association : .............................................................................64
3.5. Connaissances valides et exploitables : ........................................................................64
4. Exemple
d’application……………………………………………………………………...Erreur ! Signet
non défini.5

5. Conclusion…………………………………………………………………………………..69

Chapitre 4: Expérimentations

1. Introduction………………………………………………………………………………71
2. Outils de Mise en œuvre :………………………………………………………………….71
2.1. Langage de développement : ............................................................................................71
2.2. Outils utilisés : ..................................................................................................................71
2.3. La base de données utilisées .............................................................................................72
2.3.1. L’imagerie médicale ..................................................................................................72

Page 7
2.3.2. Mammographie ..........................................................................................................72
2.3.3. Base de données mammographies .............................................................................73
2.3.4. MIAS: Mammography Image Analysis Society .......................................................73
2.3.5. Description des données ............................................................................................73
2.3.6. La description de chaque item ...................................................................................74
3. la représentation des interfaces……………………………………………………………74
4. Etude comparative de l’algorithme W-Apriori (MWAR) et WFp-Growth…………….81
5. Conclusion…………………………………………………………………………………..81

CONCLUSION GENERALE ET PERSPECTIVE

BIBLIOGRAPHIE

Page 8
Liste des Figures

FIGURE 1.1: DOMAINES D’APPLICATION DU LA FOUILLE DE DONNEES………………........... 14


FIGURE 1.2: LES ETAPES D’UN PROCESSUS ECD……………………………………................ 16
FIGURE 1.3: PROCESSUS D’EXTRACTION DES REGLES D’ASSOCIATION………………………. 22
FIGURE 1.4: PRINCIPE DE L’ALGORITHME APRIORI…………………………………………….. 24
FIGURE 1.5: COPIE D'ECRAN REPRESENTANT 30 PIXELS (6 X 5)………………...................... 28
FIGURE 1.6: DIFFERENTS TYPES DE PRECISION………………………………….….................. 29
FIGURE 1.7: EXEMPLE DE CLUSTERING…………………………….……………………………... 31
FIGURE 1.8: LE PROCESSUS LA FOUILLE DES IMAGES …………………………..…................ 33
FIGURE 1.9: LA FOUILLE DES IMAGES……………………. ……………………..…................... 34
FIGURE 1.10: SYSTEME PACS……………………………………...……..………....................... 37
FIGURE 1.11: EXEMPLES DE RADIOGRAPHIES ………………………………………... ………... 38
FIGURE 1.12: EXEMPLE D’ECHOGRAPHIE DU FOIE……………………………..……………….. 38
FIGURE 1.13: EXEMPLE DE SCANNER (COUPE PASSANT PAR LE FOIE, LA VESICULE
BILIAIRE, LE PANCREAS, LE REIN GAUCHE ET LA RATE)……………………………………… 38
FIGURE 1.14: EXEMPLES D’IRM……………………………………………………………………. 39
FIGURE 1.15: EXEMPLES D’ANGIOGRAPHIES……………………………………………………... 40
FIGURE 1.16: EXEMPLES D’IMAGES 3D CONSTRUITES PAR ORDINATEUR………….……….. 40
FIGURE 2.1: RESULTATS EXPERIMENTAUX……………………………………………................ 46
FIGURE 2.2: REGLES D'ASSOCIATION PONDEREES ET LES ITEMSETS FREQUENTS
TROUVES PAR MWAR………………………………………………………………………………… 47
FIGURE 2.3: SYSTEME PROPOSEE SELON L’ALGORITHME HARC …..…………………….…. 49
FIGURE 2.4: ARBRE HIERARCHIQUE……………………………………………......................... 50
FIGURE 2.5: ARBORESCENCE HIERARCHIQUE CODE………………………………………....... 50
FIGURE 2.6: BASE DE TRANSACTION DE FP-TREE…………………………………..…. ……… 51
FIGURE 2.7: CLASSIFICATION DE TUMEUR SELON L’ALGORITHME HARC…..………….….. 53
FIGURE 2.8: LE GRAPHE DE RAPPEL/PRECISION ……..………………………………….……… 55
FIGURE 3.1: L’ARCHITECTURE PROPOSEE………………………………………………………... 60
FIGURE 3.2: REPRESENTATION DE SCHEMA CONCEPTUEL DE NOTRE APPROCHE …. ….. .. 62
FIGURE 3.3: CONSTRUCTION WFP-TREE A PARTIR DE LA 1ERE TRANSACTION ……. ….. . 67
FIGURE 3.4: CONSTRUCTION WFP-TREE A PARTIR DE LA 2EME TRANSACTION ……. …… . 67
FIGURE 3.5: ETAT FINAL DE LA STRUCTURE WFP-TREE……………………………………..... 68
FIGURE 4.1: LE FICHIER DE LA BASE DE DONNEES………………………………….….……….. 74
FIGURE 4.2: LA BASE DE DONNEES…………………………………………………………………. 75
FIGURE 4.3: GENERATION DES POIDS………………………………………………...…………… 75
FIGURE 4.4: LA BASE DE DONNEES TRANSACTIONNEL………………………………………….. 76
FIGURE 4.5: LES CARACTERISTIQUES DE LA BASE DE DONNEES………………………...……. 76
FIGURE 4.6: LA BASE DES TRANSACTIONS (TID->ITEMS)………………………………………. 77
FIGURE 4.7: UNE BASE DES TRANSACTIONS (BINAIRE)……………………………….………… 77
FIGURE 4.8: INTERFACE D’EXECUTION DE L’ALGORITHME W-APRIORI………………….….. 78
FIGURE 4.9: RESULTATS DE L’ALGORITHME W-APRIORI………………………………....……. 78
FIGURE 4.10: INTERFACE D’EXECUTION DE L’ALGORITHME WFP-GROWTH………..…..….. 79
FIGURE 4.11:RESULTATS DE L’ALGORITHME WFP-GROWTH……………………………..… 79
FIGURE 4.12: LES REGLES D’ASSOCIATION DE L’ALGORITHME WFP-GROWTH…………… 80
FIGURE 4 .13: LE TEMPS D’EXECUTION DES ALGORITHMES W-APRIORI ET WFP-GROWT 80
FIGURE 4.14:COMPARAISON ENTRE L’ALGORITHME W-APRIORI ET WFP-GROWTH…….... 81

Page 9
Liste des Tableaux

TABLEAU 1.1 : L ETAT DES REGLES SONT CLASSIFIES SELON LA CONFIANCE ….………….. 26
TABLEAU 2.1 : BASE DE DONNEES D’IMAGE MEDICALE…………………………….…………… 44
TABLEAU 2.2 : NOTATIONS…………………………………………………………..………………. 46
TABLEAU 2.3 : LA BASE DE DONNEES MAMMOGRAPHIE….…………………………………….. 47
TABLEAU 2.4 : TABLE DE TRANSACTION…………………………………………………………... 51
TABLEAU 2.5 : LA CLASSIFICATION DE TUMEUR DU CERVEAU PAR LES REGLES
D’ASSOCIATION AVEC L’ARBRE DE DECISION…………………………………………………….. 54
TABLEAU 2.6 : LA COMPARAISON DE PERFORMANCE DES ALGORITHMES…………………. 55
TABLEAU 2.7 : COMPARAISON ENTRE LES ALGORITHMES DES REGLES D’ASSOCIATION…. 56
TABLEAU 3.1 : REPRESENTATIONS DES METHODES D’EXTRACTION DES
CARACTERISTIQUES................................................................................................................ 61
TABLEAU 3.2 : LA BASE DES TRANSACTIONS……………………………………………............ 65
TABLEAU 3.3 : LE SUPPORT DES ITEMS AVEC LEUR POIDS ET WSUP……………………....... 65
TABLEAU 3.4 : LES ITEMS FREQUENTS…………………………………………........................ 66
TABLEAU 3.5 : LES ITEMS FREQUENTS ORDONNES……………………………………………. 66
TABLEAU 3.6 : REPRESENTATION DE PATTERN-BASE CONDITIONNELLE……………….….. 68
TABLEAU 3.7 : REPRESENTATION DE WFP-TREE CONDITIONNEL…….……………………… 68
TABLEAU 3.8 : L'EXTRACTION DES ITEMSETS FREQUENTS……………………………………. 69
TABLEAU 3.9 : GENERATION DE TOUTES LES COMBINAISONS…………………………..…..... 69
TABLEAU 4.1 : COMPARAISON ENTRE L’ALGORITHME W-APRIORI ET WFP-GROWTH….….. 81

Page 10
Introduction générale

Introduction générale

Les systèmes d'informations de santé regroupent toutes les données sur le patient pour
faciliter leur échange et leur communication entre les différents professionnels
impliqués dans la prise en charge et le suivi du patient.
Dans ce cadre, l'imagerie, parce qu'elle joue actuellement un rôle majeur dans les
différents domaines de la médecine et non pas seulement dans le diagnostic mais aussi
dans le traitement devient un élément important et structurant de ces systèmes
d'information.
Actuellement, les médecins prennent un temps important dans l’analyse des images
médicales. Pour cela, l’exploitation et l’extraction d’informations, de façon
automatique, à partir de ces images médicales peut aider les médecins et radiologues à
bien cerner le diagnostic.
Dans cette optique, notre travail consiste à exploiter cette masse d’images médicales
existante afin d’extraire des connaissances utiles et exploitable par les médecins et
radiologues. Pour cela, nous proposons d’utiliser les techniques de la fouille des
images médicales pour extraire ces connaissances. Nous nous intéressons à la
technique des règles d’association car ce type de connaissance est descriptif et
prédictif.
Notre travail est organisé sur quatre chapitres.
Le premier chapitre définit les concepts généraux liés au domaine de la fouille de
données et la fouille des images. Dans le deuxième chapitre, nous décrivons les trois
algorithmes d’extraction des règles d’association issus de la littérature de la fouille
des images médicales (MWAR [29], GMA [24], HARC [32]), avec une étude
comparative. Dans le troisième chapitre, nous présentons notre proposition WFP-
GROWTH. Le dernier chapitre expose les résultats expérimentaux sur l’algorithme
WFP-GROWTH et MWAR.
Nous terminons avec une conclusion générale et nous proposons quelques perspectives
pour des éventuelles futures études complémentaires.

Page 11
Chapitre 1

Vers la fouille d’images médicales

Page 12
Chapitre1 : Vers la fouille d’images médicales

Chapitre 1
Vers la fouille d’images médicales

1. Introduction
Le besoin d’interpréter ou de trouver de nouvelles relations entre les éléments stockés
dans les bases de données nécessite de trouver des nouvelles techniques telles que :
La fouille de données, la fouille du texte et la fouille des images qui ont été
utilisées dans diverses applications biomédicales et qui ont connu un grand succès au
cours de ces dernières années.

Dans ce chapitre, nous définissons deux parties :

La première partie, porte sur des généralités sur la fouille de données en introduisant les
domaines d’application, les techniques et les taches du la fouille de données, ainsi que
les différentes étapes du processus d’extraction de connaissances à partir des données.

La deuxième partie, introduit la fouille des images médicales.


2. La fouille de données
2.1. Définition
La fouille de données est l’ensemble des techniques et de méthodes issues du domaine
des statistiques, des mathématiques et de l'informatique permettant l'extraction, à partir
d'un important volume de données brutes, de connaissances originales auparavant
inconnues. Il s'agit de la "fouilles de données" visant à découvrir "de l'information
cachée" que les données renferment et que l'on découvre à la recherche d'associations,
de tendances, de relations ou de régularités.
2.2. Domaines d’application
La figure 1.1 résume les différentes domaines d’application de la fouille de données
[1][10]. Pour les plus connus on peut mentionner:

- Médical / Pharmaceutique
 Diagnostic assisté par ordinateur (CAD) par l'apprentissage de systèmes experts
 Explication ou prédiction de la réponse d'un patient à un traitement
 Identification des thérapies à succès (combinaison de prescriptions).
 Etude des corrélations entre le dosage dans un traitement et l'apparition d'effets
secondaires

Page 13
Chapitre1 : Vers la fouille d’images médicales

Figure 1.1 : DOMAINES D’APPLICATION DE LA FOUILLE DE DONNEES [10]

- Assurances et santé
 Découverte d'associations des demandes de remboursements
 Identification de clients potentiels de nouvelles polices d'assurances.
 Détection d'association de comportements pour la découverte de clients à risque.
 Détection de comportement frauduleux.
Exemple Assurances
Vous êtes un agent d’assurance et vous devez définir un paiement mensuel
adapté à un jeune de 18 ans qui a acheté une Ferrari. Qu’est ce qu’il faut faire ?
 Analyser les données de tous les clients de la compagnie.
 La probabilité d’avoir un accident est basé sur
 Sexe du client (M/F) et l’âge
 Modèle de la voiture, âge, adresse, .... etc.
 Si la probabilité d’avoir un accident est supérieure à la moyenne, initialiser la
mensualité suivant les risques.

- Banques / Finances
 Détection d'usage frauduleux de cartes bancaires.
 Gestion du risque lié à l'attribution de prêts par le scoring.
 Découverte de relations cachées entre les indicateurs financiers.
 Détection de règles de comportement boursier par l’analyse des données du
marché.
Exemple Banque
Vous êtes à l’étranger et quelqu’un a volé votre carte de crédit ou votre mobile

Page 14
Chapitre1 : Vers la fouille d’images médicales

Compagnies bancaires
Utiliser les données historiques pour construire un modèle de comportement
frauduleux et utiliser la fouille de données pour identifier des instances
similaires.
Compagnies téléphoniques
Analyser les “patterns” qui dérivent du comportement attendu (destinataire,
durée, etc.)

- Vente, distribution / Marketing


 La gestion de la relation client (GRC) consiste en l'ensemble des activités visant
à cibler, attirer et conserver les "bons" clients.
 Détection d'associations de comportements d'achat.
 Découverte de caractéristiques de clientèle.
 Prédiction de probabilité de réponse aux campagnes de mailing.
Exemple
Vous êtes gestionnaire marketing d’un opérateur de télécommunications mobiles
: vous décidez d’offrir un téléphone gratuit (valeur 150DA) avec un contrat d’un
an ; vous recevez une commission de vente de 250DA par contrat Problème :
Taux de renouvellement (à la fin du contrat) est de 25 %
 Donner un nouveau téléphone à toute personne ayant expiré son contrat coûte
cher.
 Faire revenir un client après avoir quitté est difficile et coûteux.
 Trois mois avant l’expiration du contrat, prédire les clients qui vont quitter :
 Si vous voulez les garder, offrir un nouveau téléphone.
- La génétique humaine
Dans l'étude de la génétique humaine, la fouille de données permet de
comprendre la relation entre l’ADN et les maladies.En effet, il vise à savoir
comment les changements dans la séquence d'ADN d'un individu affectent les
risques de développer des maladies courantes telles que le cancer.la fouille de
données peut contribuer de manière significative et avec succès à l'explication ou
la prédiction de phénomènes complexes dans les domaines médical et
pharmaceutique.
- Ingénierie électrique
Dans le domaine de l'ingénierie électrique, la fouille de données a été largement
utilisée pour la surveillance de l’état du matériel électrique à haute tension. Le
but de surveillance de l'état est d'obtenir de précieuses informations par exemple,
sur l'état de l'isolation (ou d'autres paramètres de sécurité).
- Aérospatiale
La fouille de données est également intégré aux données spatiales. L'objectif
final est de trouver des modèles dans les données relatives à la géographie.
Jusqu'à présent, l'exploration de données et de systèmes d’information
géographiques ont existé en tant que deux technologies distinctes, chacune avec
ses propres méthodes. L'immense explosion de données géo-référencées
Page 15
Chapitre1 : Vers la fouille d’images médicales
occasionnée par l'évolution de l'informatique, la cartographie numérique,
la télédétection et la diffusion mondiale des systèmes d’information
géographiques mettent l'accent sur l'importance de développer une analyse et une
modélisation géographique plus fines.
- La fouille dans le Web et la fouille dans le texte
Les blogs des accès Web sont analysés pour …
 Découvrir les préférences des utilisateurs
 Améliorer l’organisation du site Web
De manière similaire …
 L’analyse de tous les types d’informations sur les blogs
 Adaptation de l’interface utilisateur/service
2.3. Le processus d’Extraction des Connaissances à partir des Données (ECD)
Le processus d’extraction des connaissances à partir de données (ECD) est un processus
interactif et itératif qui fait intervenir plusieurs étapes et la fouille de données est tout
simplement un élément intervenant dans ce processus [3].
Généralement, le processus d’extraction des connaissances illustré dans la figure 1.2
consiste en la succession des étapes suivantes :
 Compréhension du métier
 Compréhension des données
 Préparation des données
 Modélisation
 Évaluation du modèle
 Utilisation du modèle

FIGURE 1.2 : LES ETAPES D’UN PROCESSUS ECD [3]

Page 16
Chapitre1 : Vers la fouille d’images médicales

Compréhension du métier
Cette première phase est essentielle et doit permettre de comprendre les objectifs et les
besoins métiers afin de les intégrer dans la définition du projet de la fouille de données
et de décliner un plan permettant de les atteindre et les satisfaire.
Compréhension des données
Il s’agit de collecter et de se familiariser avec les données à disposition. Il faut
également identifier le plus tôt possible les problèmes de qualité des données,
développer les premières intuitions, détecter les premiers ensembles et hypothèses à
analyser.
Préparation des données
Cette phase comprend toutes les étapes permettant de construire le jeu de données qui
sera utilisé par le(s) modèle(s). Ces étapes sont souvent exécutées plusieurs fois, en
fonction du modèle proposé et du retour des analyses déjà effectuées. Il s’agit entre
autres d’extraire, transformer, mettre en forme, nettoyer et de stocker de façon
pertinente les données. La préparation des données peut constituer environ 60 à 70% du
travail total.
Modélisation
C’est ici qu’entrent en jeu les méthodologies de modélisation issues notamment de la
statistique. Les modèles sont souvent validés et construits avec l’aide d’analystes du
côté métier et d’experts en méthodes quantitatives. Il y a dans la plupart des cas
plusieurs façons de modéliser le même problème de la fouille de données et plusieurs
techniques pour arriver à ajuster au mieux un modèle aux données. La boucle de
feedback vers les points précédents est fréquemment utilisée pour améliorer le modèle.
Évaluation du modèle
Un ou plusieurs modèles sont construits. Il faut s’assurer que les résultats soient jugés
satisfaisants et soient cohérents notamment vis-à-vis des objectifs métiers.
Utilisation du modèle
La mise au point du modèle n’est pas la fin du processus de la fouille de données. Une
fois les connaissances extraites des données, elles doivent encore être organisées et
présentées de façon à les rendre utilisables par les destinataires. Cela peut être aussi
simple que de fournir une synthèse descriptive des données ou aussi complexe que de
mettre en œuvre un processus complet de fouille de données pour l’utilisateur métier
final. Il est néanmoins toujours important que l’utilisateur comprenne les limites des
données et de l’analyse pour que ses interprétations et ses décisions soient judicieuses.

Page 17
Chapitre1 : Vers la fouille d’images médicales
2.4. Les tâches de La fouille de données
Contrairement aux idées reçues, La fouille de données n’est pas le remède miracle
capable de résoudre toutes les difficultés ou besoins de l’entreprise. Cependant, une
multitude de problèmes d’ordre intellectuel, économique ou commercial peuvent être
regroupés, dans leur formalisation, dans l’une des tâches suivantes : [4]
Classification
Elle permet de prédire si une instance de donnée est membre d’un groupe ou d’une
classe prédéfinie, en se basant sur une fonction définie et un fichier d’apprentissage qui
contient toutes les données déjà classées.
Estimation
Contrairement à la classification, le résultat d’une estimation permet d’obtenir une
variable continue, à partir des caractéristiques d’un objet.
Prédiction
La prédiction ressemble à la classification et à l’estimation mais dans une échelle
temporelle différente. Tout comme les tâches précédentes, elle s’appuie sur le passé et
le présent mais son résultat se situe dans un futur généralement précisé.
Le regroupement par similitudes
Le regroupement par similitudes consiste à grouper les éléments qui vont naturellement
ensemble. La technique la plus appropriée au regroupement par similitudes est l’analyse
du panier de la ménagère : les règles d’association.
Segmentation « Clustering »
Elle consiste à segmenter une population hétérogène en sous populations homogènes.
Contrairement à la classification, les sous populations ne sont pas préétablis. La
technique la plus appropriée à cette tâche est l’analyse des clusters
Description
C’est souvent l’une des premières tâches demandées à un outil de la fouille de données.
On lui demande de décrire les données d’une base complexe. Cela engendre souvent
une exploitation supplémentaire en vue de fournir des explications.
2.5. Les techniques de la fouille de données
Il existe de nombreux outils ou techniques de la fouille de données [4][5]. Voici les plus
importantes techniques :

Les arbres de décision


Représentation graphique d’une procédure de classification à partir de données. Ils ont
pour objectif la classification et la prédiction.

Page 18
Chapitre1 : Vers la fouille d’images médicales
Les réseaux de neurones
Ils simulent le système nerveux biologique. Un réseau de neurones est composé de
plusieurs neurones interconnectés. Un poids est associé à chaque arc et à chaque
neurone on associe une valeur.
Les algorithmes génétiques
Une transposition simplifiée des neurones du cerveau humain. Très utilisés pour la
classification, l’estimation, la prédiction et la segmentation.
Les règles d’association
Leur principale application est « l'analyse du panier de la ménagère » qui consiste,
comme l'indique son nom, en la recherche d'associations entre produits sur les tickets de
caisse et l'étude de ce que les clients achètent. La méthode recherche quels produits
tendent à être achetés ensemble.
Les règles d’association ou l’analyse du panier de la ménagère sont une des méthodes
de la fouille de données les plus répandus dans le domaine du marketing et de la
distribution. Elles peuvent être appliquées à tout secteur d'activité pour lequel il est
intéressant de rechercher des groupements potentiels de produits ou de services, par
exemple : services bancaires, services de télécommunications, maintenance et dans le
secteur médical pour la recherche de complications dues à des associations de
médicaments ou à la recherche de fraudes en recherchant des associations inhabituelles.
Le système génère des règles d'association de forme "Si action1 ou condition alors
action2". Elles peuvent se situer dans le temps : "Si action1 ou condition à l'instant t1
alors action2 à l'instant t2" c’est les règles d’association séquentielles.
Exemples de règles

• Si un client achète du fromage alors il achète du pain (90%)


• Si un client achète une télévision, il achètera un récepteur satellite dans un an (50%)
• Si maladie X et traitement Y alors guérison (95%)
• Si maladie X et traitement Y alors guérison dans Z années (97%)
• Si présence et travail alors réussite à l’examen (99%)

Ces règles sont intuitivement faciles à interpréter car elles montrent comment des
produits ou des services se situent les uns par rapport aux autres. Elles sont
particulièrement utiles en marketing et peuvent être facilement utilisées dans le système
d'information de l'entreprise.

Le but principal de cette technique est donc descriptif. Dans la mesure où les résultats
peuvent être situés dans le temps, cette technique peut être considérée comme
prédictive. Cependant, il faut noter que cette méthode, si elle peut produire des règles
intéressantes, peut aussi produire des règles triviales ou inutiles (provenant de
particularités de l'ensemble d'apprentissage). La recherche des règles d'associations est

Page 19
Chapitre1 : Vers la fouille d’images médicales
une méthode non supervisée car on ne dispose en entrée que de la description des
achats.
La segmentation « Clustering »
Consiste à segmenter une population hétérogène en un ensemble de sous-groupes
ou « clusters » plus homogènes. C’est une classification non supervisée, les classes
possibles et leur nombre ne sont pas connus au préalable et les exemples disponibles
sont non étiquetés.
Le but est donc de découvrir des relations intéressantes qui peuvent exister
implicitement entre les données et qui permette de regrouper dans un même groupe ou
cluster les objets considérés comme similaire.
Dans notre mémoire, nous nous intéressons à la technique des règles d’association dont
nous détaillons son principe dans la section suivante [5].

3. Les règles d’association


La technique des règles d’association est sans doute la technique la plus utilisée car
c’est une technique descriptive et prédictive. Descriptive car elle permet d’expliquer les
relations entre les données de la base de données. Prédictive car elle permet de prédire
le comportement des attributs de la base de données.
3.1 Principe
Cette technique consiste à faire des parcours à la base de données de façon itérative afin
de découvrir certaines relations d’association entre l’ensemble d’objets de la base de
données. Cette technique génère des connaissances sous formes de règles d’association.
Ces règles sont de la forme « si action1 ou condition alors action2 », comme elles
peuvent se situer dans le temps : « si action1 ou condition à t1 alors action2 à l’instant
t2 ».
Les règles d’association générées à partir de la base de données peuvent être utiles pour
la prise de décision dans différentes domaines tel que : prévision Financiaire, diagnostic
médical.
3.2. Concepts de base
Définition de l’Item
Un item est tout article, attribut, littéral appartenant à un ensemble fini d’éléments
distincts
X = {x1, x2, …, xn}.
Exemple
Dans les applications de type analyse du panier de la ménagère, les articles en vente
dans un magasin sont des items. L’ensemble X peut contenir les items A, B, C et D
correspondant aux laits, beurre, pain et confiture par exemple.

Page 20
Chapitre1 : Vers la fouille d’images médicales
Définition de l’ItemSet
On appelle itemset ou motif tout sous-ensemble d’items de X. Un itemset constitué de k-
items sera appelé un k-itemset.
Exemple
L’itemset {A, B, C} est un 3-itemset noté ABC.

Définition de transaction ou (Contexte d’extraction de règles d’association)

Un contexte d’extraction de règles d’association est un triplet D=(O,I,R) dans lequel O


et I sont respectivement des ensembles finis d’objets et d’items et R  O * I est une
relation binaire entre les objets et les items. Un couple (o,i)  R dénote le fait que
l’objet o  O est en relation avec l’item i  I.

Définition d’une Règle d’association


Soient I= {i1, …, in} un ensemble d’items et T = {t1,…, tm}
/ ti partie de I, un ensemble de transactions.
Une règle d’association est une « implication » de de la forme:

X  Y / X I, Y I, XY =
Exemple : Ordinateur, imprimante scanner (20% ,72%)
Exprime le fait que :
1. 72% des clients qui s’équipent d’ordinateurs et d’imprimantes en même temps
s’équipent aussi de scanners.
2. et que ces clients représentent 20% du nombre total de clients.
« SI achat d’ordinateurs et imprimantes ALORS achat de scanner dans 72% de cas,
dans 20% des transactions de la base de données. »
Définition de la fréquence

Le support ou la fréquence d’un motif X noté sup(X) ou freq(X) respectivement, est le


nombre de transactions de T contenant X :

Freq(X) =

Définition de Support d’une règle d’association

Le support d’une règle d’association est la fréquence des itemsets de la partie gauche et
droite de la règle d’association divisé sur le nombre des transactions de la base de
données. En d’autres termes, c‘est le % d’instances de la base vérifiant la règle.
Une règle a un support : Sup (X Y) =

Page 21
Chapitre1 : Vers la fouille d’images médicales
Sup (X Y) : est le support de la règle (XY)
Card (T) : cardinalité de la base de données transactionnelle T

Définition de l’ensemble d’itemsets fréquents

Il est défini par l’ensemble des items dont le support est supérieur au seuil minimal
Minsup. FF= {i I / i Sup (i) >= Minsup}

Définition (La confiance)

La confiance calcule la précision de la règle. C'est-à-dire si la partie gauche est vérifiée


alors la partie droite de la règle est vérifiée avec une probabilité.
Une règle a une confiance :
Confiance(XY) = =

3.3. Processus d’extraction des règles d’association


L’extraction des règles d’association s’effectue en 4 étapes comme décrit dans la figure
1.3[7].
Visualisation et Interprétation

Génération de règles d’association


Extraction de règles d’association

Découverte des motifs fréquents

Sélection et préparation
des données

Base de
données

FIGURE 1.3: PROCESSUS D’EXTRACTION DES REGLES D’ASSOCIATION [7]

Page 22
Chapitre1 : Vers la fouille d’images médicales

A- Sélection et préparation des données

Cette étape est constituée de deux phases :


*La sélection des données permet d’extraire les informations intéressant de l’utilisateur.
*La transformation de ces données en contexte d’exécution ou une table de transaction.

B- Découverte des motifs fréquents

Consiste à trouver tous les motifs en utilisant la mesure du support.


C’est l’étape la plus coûteuse en termes de temps d’exécution car le nombre de motifs
fréquents dépond exponentiellement du nombre d’items candidats manipulés.

C- Génération des règles d’association

Consiste à trouver les règles d’association en utilisant la mesure de la confiance.


La génération des règles d’association dépend exponentiellement de la taille de
l’ensemble des motifs fréquents découvert dans la phase précédant.

D- Visualisation et interprétation des règles d’association

Cette étape est intéressante pour la prise de décision. Il faut que l’outil de visualisation
prenne en compte la priorité des règles les unes par rapport aux autres, ainsi que les
critères définis par l’utilisateur. Il doit présenter les règles sous une forme claire et
compréhensible.
3.4. Algorithme général de recherche de règles d’association
La recherche de règles d’association peut être scindée en deux étapes :

Algorithme 2.1 Algorithme général de recherche de règles d’association


Entrée : Une liste d’attributs I et une base de données D
Sortie : Une liste de règles d’association Fra
// Recherche des itemsets fréquents
Fg a) Extraction des motifs fréquents (I,D,minsup) ;

// Génération de règles d’association


Fra b) Trouver les règles solides (Fg,minconf);
Retourner Fra
La performance de tout algorithme basé sur cette approche dépend de la phase
d'extraction des itemsets fréquents ou motifs fréquents. C'est une phase non triviale vu
son aspect combinatoire pour générer tous les itemsets fréquents. L’espace de recherche
pour l’énumération de tous les itemsets fréquents possibles de |I| = m est de 2m-1, et
donc exponentiel en m. Ce problème reste ouvert et constitue la majeure partie des
efforts de recherche actuels.
La seconde étape d'extraction des règles constitue la phase la plus simple, elle est
accomplie en considérant tous les sous ensembles des itemsets fréquents pour générer
des règles avec des conséquences multiples. Ce deuxième sous-problème est
Page 23
Chapitre1 : Vers la fouille d’images médicales
exponentiel dans la taille des itemsets fréquents, car pour un itemset fréquent A, le
nombre de règles d’association qui peuvent être générées est de 2|A|-2. Cependant les
temps de calcul sont faibles puisque aucun balayage de la base n’est nécessaire pour la
génération des règles. Ces pourquoi, le problème de la recherche de règles d’association
se restreint au problème de l’optimisation de la découverte des itemsets fréquents. Pour
cela, plusieurs algorithmes ont été proposés dans la littérature, dont la majorité se basent
sur l’algorithme générique APRIORI, c’est l’algorithme pionnier pour la recherche des
itemsets fréquents. Pour cela on a jugé utile de décrire cet algorithme en détail avec un
exemple dans ce qui va suivre. [5]

L’INCONTOURNABLE ALGORITHME APRIORI

Cet algorithme introduit par Rakesh Agrawal et et R.Srikant [8]. C’est le premier
algorithme d’extraction des règles d’association dans les bases de données
transactionnelles. Il est un algorithme par niveaux qui permet de découvrir les sous-
ensembles d’items fréquents en partant de ceux dont la longueur est 1 et en augmentant
la longueur au fur et à mesure.
Cet algorithme est fondé sur la propriété des sous-ensembles d’items fréquents. Chaque
niveau comprend une phase de génération de tous les itemsets candidats et une phase
d’évaluation pour en éliminer les non fréquents.
Apriori est un algorithme qui a été conçu pour rechercher les itemsets fréquents. Il est
donc à la charge de l’utilisateur d’exploiter ces itemsets pour la génération des règles
intéressantes.

Le principe de cet algorithme est schématisé dans la figure 1.4 :

K=1 Calcul du support

K-candidats K-fréquents …
.
.
K=K+1 .

Motifs fréquents

FIGURE 1.4: PRINCIPE DE L’ALGORITHME APRIORI.

Cette figure nous montre que la génération des motifs fréquents se fait à partir des
motifs candidats de l’étape (k-1)
Apriori est décomposé en deux phases:

Phase1: trouver tous les ensembles d’items fréquents ayant des supports suffisants.
Phase2: générer à partir de ces ensembles d’items fréquents des règles d’associations
solides ayant des confiances suffisantes.

Page 24
Chapitre1 : Vers la fouille d’images médicales
Algorithme APRIORI –Phase 1 Algorithme APRIORI –Phase 2

Entrée MinSup et BD Entrée MinConf, l’ensemble d’items fréquents

Sortie ensemble L d’ensembles d’items Sortie ensemble R de règles d’associations


fréquents

Méthode K=1 ; L= ; Méthode R= ;


C1= {Candidats de taille 1} ; Pour chaque ensemble I de L
L1= Gen_Frequent (1, C1) ; Pour chaque sousensembles S
Non vide de I L=L L1 ;
Répéter Conf (S I-S) = Sup (I) /Sup (S)
K=K+1 ; Si Conf  MinConf
CK=Gen_Candidats(K,LK-1) ; r = “ S  (I-S) » ;
LK=Gen_Frequents(K,CK); R=R {r}
L=L LK;
Jusqu’à LK= ; Fin Si
Algorithme APRIORI. [8]

Exemple sur l’algorithme APRIORI


 Min support = 2 (i.e. MinSup =2/9= 22%)
 Min Confiance = 70%
TID LISTE DES ITEMS
Client1 Clavier, souris, écran
Client2 Souris, scanner
Client3 Souris, imprimante
Client4 Clavier, souris, scanner
Client5 Clavier, imprimante
Client6 Souris, imprimante
Client7 Clavier, imprimante
Client8 Clavier, souris, imprimante, écran
Client9 Clavier, souris, imprimante
C1
itemset sup
Itemset Sup
{clavier} 6
{clavier} 6
Retirer les candidats {souris} 7
{souris} 7
{Imprimante} 6
{Imprimante} 6 Dont la fréquence est
{scanner} 2
{scanner} 2 inférieure à 2
{écran} 2
{écran} 2

C1 L1

Page 25
Chapitre1 : Vers la fouille d’images médicales

Générer les itemset itemset sup


{clavier, souris} 4
Candidats {clavier, souris} {clavier, imprimante} 4
{clavier, imprimante} {clavier, scanner} 1
{clavier, scanner}
C2 à partir {clavier, écran} La Fréquence {clavier, écran} 2
{souris, imprimante} 4
des L1 {souris, imprimante} des candidats
{souris, scanner} 2
{souris, scanner} {souris, écran} 2
{souris, écran} {imprimante, scanner} 0
{imprimante, scanner} {imprimante, écran} 1
{imprimante, écran} {scanner, écran} 0
{scanner, écran}
C2 C2

itemset sup
Retirer les Générer les candidats
{clavier, souris} 4
candidats
{clavier, imprimante} 4
{clavier, écran} 2
{souris, imprimante} 4
Dont la fréquence {souris, scanner} 2 C3 à partir des
est inferieure à 2 {souris, écran} 2 L2
L2
Itemset itemset Sup
{clavier, souris, imprimante} 2
{clavier, souris, imprimante} La Fréquence {clavier, souris, écran} 2
{clavier, souris, écran} des candidats

C3 L3

Les règles Confiance % Remarque


R1 : Clavier, Souris Ecran 50 Rejeté
R2 : Clavier, Ecran Souris 100 Marqué
R3 : Souris, Ecran Clavier 100 Marqué
R4 : Clavier Souris, Ecran 33 Rejeté
R5 : Souris Clavier, Ecran 29 Rejeté
R6 : Ecran Clavier, Souris 100 Marqué
TABLEAU 1.1 : L ETAT DES REGLES SONT CLASSIFIES SELON LA CONFIANCE [9].

Page 26
Chapitre1 : Vers la fouille d’images médicales
Les avantages de l’algorithme Apriori
Parmi les avantages qui ont fait d’Apriori un algorithme très populaire :
 Il fournit des résultats clairs: règles faciles à interpréter.
 Il est relativement simple.
 Il n’exige aucune hypothèse préalable (apprentissage non supervisé).
 Il est facilement adaptable aux séries temporelles (ex : un client ayant acheté le
produit A est susceptible d’acheter le produit B dans deux ans). [10]
Les inconvénients de l’algorithme Apriori
Cependant, l’algorithme Apriori n’est pas exempté de faiblesses.
 Il est très coûteux en temps de calcul.
 Il produit un nombre important de règles triviales ou inutiles. [10]

4. La fouille des images médicales


4.1. Introduction
Des millions d'images médicales sont produites chaque année dans le monde pour
établir un diagnostic ou contrôler une action thérapeutique. Ces images proviennent
principalement du tomodensitomètre à rayons X (scanner), de l'imagerie par résonance
magnétique (IRM), de l'imagerie ultrasonore (échographie), ou bien de l'imagerie de
médecine nucléaire ou scintigraphie.

Les images médicales fournissent des informations sur la forme et le fonctionnement


des organes du corps humain. Malheureusement, ces informations sont extrêmement
difficiles à exploiter de manière quantitative et objective. En effet, bien que les images
3D soient originellement numériques, leur examen est typiquement réalisé en observant
sur un support analogique (un film), une succession de coupes bidimensionnelles (2D).
Le résultat est généralement purement qualitatif et subjectif.

La création de logiciels dédiés à l'analyse d'images médicales doit permettre d'optimiser


leur exploitation, pour le plus grand bénéfice du patient et du médecin.

Nous présentons dans cette partie les concepts liés à la fouille des images tels que : les
images médicales, format d’image, domaines d’application ….

4.2. Définition d’une image


C’est la représentation de l’apparence visible d’une partie du monde réel à travers les
arts graphiques ou plastiques, la photographie, le film, etc. [11]
Pour traiter une image en informatique, elle doit être transformée en matrice (ou
tableau) de symboles (ou d’objets) électroniques sur lesquels il est possible d’effectuer
diverses opérations. Ces symboles sont nommés pixels (points sur écran ou Picture
Elément)
Le terme résolution a 2 sens, selon que l'on se situe en capture ou en restitution:

Page 27
Chapitre1 : Vers la fouille d’images médicales
• En capture, la résolution est le nombre de pixels que contient l’image (Figure
1.5).
• En restitution, la résolution est la densité de pixels, c'est-à-dire le nombre de
pixels rapporté à une surface qui est la taille pratique de l'image. Dans ce cas,
la résolution varie en fonction de la taille de l'image imprimée sur papier ou
affichée à l’écran.

Pixel

FIGURE 1.5 : COPIE D'ECRAN REPRESENTANT 30 PIXELS (6 X 5). [11]

4.2.1. Opérations
On peut effectuer deux catégories d’opérations sur une image :
 Les opérations qui traitent les pixels en tant qu’information :
Reconnaissance des formes, décalage (Shifting) qui permettent de voir une ou plusieurs
sections d'une image, rotation, Loupe ou Zooming (Vertical, Horizontal et diagonal),
Masking (masquage de certaines régions selon certains critères), superposition et
juxtaposition, transformation de couleurs, projection, fusion, histogramme, etc.

 Les opérations qui concernent la signification d’un ensemble de pixels dans une
image: description, indexation et recherche d’images
4.2.2. Types d’images
Il existe quatre types d’images

• L’image en noir et blanc : elle est représentée par une matrice de pixels dont la
précision est limitée à 0 (éteint) ou 1 (allumé). Chaque pixel dans une image en noir et
1
blanc (bi-niveau) tient sur un bit (2 = 2 couleurs).
• L’image en niveaux de gris : elle est définit par des pixels qui dépend de sa brillance
8
(en général, 256 niveaux de gris). Chaque pixel tient sur 8 bits (2 =256 niveaux de gris).
• L’image en 256 variétés de couleur : chaque pixel est défini par un triplet de couleurs
8
(Rouge, Vert, Bleu). Chaque couleur est codée sur 8 bits (2 = 256 couleurs).
Généralement, on utilise une table de correspondance, appelée palette de couleurs, qui
indique les couleurs des pixels de l’image.
• L’image en 16 millions de couleurs (couleur vraie) : chaque pixel est représenté par
une couleur définie par un triplet (Rouge, Vert, Bleu) dans lequel chaque couleur est
8 8 8 24
codée sur 24 bits (2 *2 *2 = 2 =16 millions de couleurs).

La figure 1.6 représente la même image avec quatre niveaux de précision.

Page 28
Chapitre1 : Vers la fouille d’images médicales

Noir et blanc Niveaux de gris 256 variétés de 16 millions de


(1 bit = 2 couleurs) couleurs (Palette couleurs (Palette
8 bits) 24 bits)
FIGURE 1.6 : DIFFERENTS TYPES DE PRECISION [11]

4.2.3. La compression d’images


La taille des images représente un vrai souci de stockage. D’après Honeyman [6] , une
radiographie pulmonaire nécessite environ 8 Mo d’espace disque, un scanner : 50 Mo,
et une IRM : 25 Mo
Deux techniques standards de compression sont principalement utilisées :

• Compression LZW (Lempel, Ziv, Welch) : est une technique de compression (taux
de 50%) sans perte d’information. Elle n’est pas adaptée aux images de 16
millions de couleurs.

• Compression JPEG (Joint Photographic Expert Group) : est une technique qui peut
dans certains cas arriver à réaliser une réduction de l’ordre de 90% de l’image
originale après élimination des doublons ainsi que de tout autre élément jugé non
pertinent. Malgré la perte d’information, la décompression de l’image résultante
JPEG est quasi identique à l’image originale. La compression JPEG est
conseillée pour les images de type couleur vraie.

En médecine, la compression des images est un domaine récent. Les médecins ne la


préconisent pas pour éviter toute perte d’information. Le challenge dans le domaine
médical est de trouver des algorithmes très performants capables d’assurer :

• Préservation des informations du diagnostic afin d’éviter toute perte


d’informations
• Compression maximale
• Compression et décompression rapides nécessaires pour l’archivage et la
transmission (sur un réseau).

Les techniques actuelles sont très variées et dépendent de la technique d’imagerie


utilisée. [2] ,[17] , [43], [44] ,[45], [46].

Page 29
Chapitre1 : Vers la fouille d’images médicales
4.3. Définition de la fouille d’image
On l’appelle aussi « image mining » est le processus de recherche et de découverte de
l'information et de l'extraction de connaissances à partir des images sous leurs diverses
formes. Elle se situe à l'intersection de la vision par ordinateur, de la compréhension
visuelle de l'image, de l'exploration de données, de l'intelligence artificielle et de
l'algorithmique.

La fouille des images regroupe deux thèmes principaux [12].

 La fouille de grandes collections d'images


Exemple: collection des images de satellites météorologique
 L'extraction de données combinées de grandes collections d'images et de données
alphanumériques associées.
Exemple: l'imagerie médicale et les dossiers d'un patient

4.3.1. Domaine d’application


Les applications de la fouille d'images peuvent être utilisées dans le domaine de la
biométrie (la reconnaissance des visages), en médecine (associé à l'IRM par exemple)
pour le diagnostic ou la recherche, la reconnaissance militaire, prévision
météorologique, Gestion des ressources de la terre, Enquête criminelle... [12]
4.3.2. Les techniques de la fouille des images
Les techniques utilisées pour extraire des connaissances à partir des images sont : La
reconnaissance d'objets, Classification et segmentation (clustering) des images, Règle
d’association, Réseau de neurones.

 La reconnaissance d'objets
C’est une méthode permettant de détecter la présence d'une instance (reconnaissance
d'objet) ou d'une classe d'objets dans une image numérique. Une attention particulière
est portée à la détection de visage et la détection de personne. Ces méthodes font
souvent appel à l'apprentissage supervisé et ont des applications dans de multiples
domaines.

 La Recherche d'images
Les images doivent être récupérées en fonction d e certaines spécifications, et peuvent
être classées en trois niveaux: [13]
Niveau 1 : comprend les caractéristiques primitives d’extraction d’images telles que la
couleur, la texture, la forme.
Niveau 2: comprend la recherche d'images par des caractéristiques dérivées ou logiques
d'un type donné ou d'objets.
Niveau 3: comprend la recherche d'images par attributs abstraits, impliquant une
quantité importante de raisonnement de haut niveau.

Page 30
Chapitre1 : Vers la fouille d’images médicales
 L’Indexation d'images
Dans la première génération des systèmes d’indexation, les images étaient représentées
par des termes sémantiques (mots-clés). Nous pouvons citer comme exemple Google.
Puis dans la deuxième génération des systèmes d’indexation, il y a eu l’intégration de
différentes propriétés liées aux images :
 Propriétés perceptuelles : couleur, texture, forme, relations spatiales,
 Propriétés sémantiques : objets, scènes,
 Impression visuelle, signification : combinaison des deux autres.
Le but de l’indexation est de réordonner les images d’une base de données en fonction
d’une distance de similarité par rapport à une image de référence. Nous pouvons réaliser
la requête de similarité entre les images de différentes façons :
 La requête peut se faire sur toute l’image ou bien sur une partie de l’image.
 La requête peut utiliser les propriétés spatiales des objets présents dans l’image
(graphe d’adjacence des régions).

 Classification d’image

Classifier une image consiste à rassembler l'ensemble des pixels de l’image en un


nombre limité de classes correspondant aux grands éléments structuraux de l'image.
C'est établir une cartographie de l'image en s'appuyant sur les valeurs radiométriques
des pixels.
On distingue les classifications non dirigées dans lesquelles on ne s'appuie pas a priori
sur des informations concernant les objets à classer. Les classifications
dirigées s'appuient sur l'identification d'objets appelés "sites témoins" qui serviront de
référence pour les autres pixels de l'image. [14]
Les outils de classification couramment utilisés sont : d’arbre de décision basée sur des
règles classification, les réseaux de neurones… etc.
 Clustering d’image
Le clustering est le processus de regroupement des observations de types similaires en
petits groupes dans la population en général.

FIGURE 1.7: EXEMPLE DE CLUSTERING

Page 31
Chapitre1 : Vers la fouille d’images médicales
A travers la figure 1.7 nous identifions facilement les 4 groupes dans lesquels les
données peuvent être divisées. Le critère de similarité est la distance: deux ou plusieurs
objets appartiennent au même groupe si elles sont «proches», selon une distance donnée
(dans cette distance géométrique de cas). C'est ce qu'on appelle le regroupement basé
sur la distance.
Un autre type de regroupement est le regroupement conceptuel: deux ou plusieurs
objets appartiennent au même groupe si celui-ci définit un concept commun à tous les
objets. En d'autres termes, les objets sont regroupés en fonction de leur forme à des
concepts descriptifs, pas en fonction de mesures de similarité simples.
 Réseau de neurone

Un réseau de neurone est défini par un ensemble d’unités de traitement qui peuvent être
des unités soit d’entrée, soit de sortie, soit cachées. L’apprentissage s’effectue par
l’injection de cas en entrée et par la mesure des conclusions en sortie.
4.3.3. Caractéristiques d’images
Caractéristiques de couleur

 L’une des caractéristiques les plus utilisées.


 La couleur d’une image est très robuste au contexte, à l’orientation, à l’échelle et
la texture de l’image.
 Toutes les couleurs sont générées par une combinaison de rouge vert bleu.

Caractéristiques de texture

 Une caractéristique majeure : répétition d’un (des) motif(s) sur une région dans une
image.
 Une propriété innée de presque toutes les surfaces (tissus, bois, papiers …..).
 contient des informations importantes concernant l’arrangement de la structure des
surfaces dans une image.

Caractéristique de forme
 C’est la description d’un objet par sa position, son orientation et sa taille pour
l’utiliser en tant que caractéristique, il est essentiel de segmenter l’image pour
détecter l’objet ou le limites de la région.
 Deux techniques de caractérisation : en utilisant le contour extérieur de la forme
d’un objet ou en utilisant la région entière formant de l’objet.

4.3.4. Processus de la fouille des images


La figure 1.8 montre le processus de la fouille des images. Les images sont d'abord
prétraitées pour améliorer leur qualité. Ensuite elles sont soumises à diverses
transformations pour l’extraction de caractéristiques importantes. L’étape suivante
consiste à utiliser les techniques de la fouille des données pour extraire les motifs et

Page 32
Chapitre1 : Vers la fouille d’images médicales
modèles. Ces données seront évaluées et interprétés pour obtenir des connaissances
finales qui peuvent être exploitées par les applications [15].

Prétraitement Transformation et extraction Mining : interpréter par des


des caractéristiques techniques

Evaluation

Base de
données
d’image Connaissances

FIGURE 1.8: LE PROCESSUS DE LA FOUILLE D’IMAGES [14]

4.3.5. Les principaux Framework


Il est nécessaire d’utiliser un Framework approprié pour la fouille des images. Car il est
impératif de traiter la base de données d’images pour produire une information pratique
pour l’utilisateur. [16]

Pour cela, nous distinguons deux types de Framework [15], [18]


 Guidés par les fonctions
 Guidés par l'information
4.3.5.1. Guidés par les fonctions
Ce Framework consiste à organiser et classifier les rôles et les tâches à accomplir dans
la fouille d'images. Par contre, il ne parvient pas à mettre en évidence les différents
niveaux de représentation d e l'information. Ce qui explique que la majorité des
architectures des systèmes de la fouille des images existantes ne peuvent utilisés ces
Framework [18].

4.3.5.2. Guidés par l'information


Ce Framework vise à mettre en évidence le rôle de l'information à différents niveaux de
représentation, on distingue 4 niveaux de représentation de l’information : [18]

 Niveau pixel: ce niveau comprend des informations d'image brute comme les
pixels de l'image et les caractéristiques primitives de l'image telles que la
couleur, la texture et la forme.
 Niveau objet : ce niveau traite de l'objet ou des informations de région sur la
base des caractéristiques primitives du niveau pixel.
 Niveau concept sémantique: Il place les objets identifiés dans le niveau objet
dans le contexte des scènes représentées.
Page 33
Chapitre1 : Vers la fouille d’images médicales
 Niveau modèle et connaissances: il intègre un domaine lié aux données
alphanumériques et à relations sémantiques découvertes à partir des données
d'image.

4.3.6. Les outils de la fouille des images


Les outils utilisés dans la fouille des images sont les techniques de la fouille de données
et les outils de traitement d’image.

Traitement
d’image

La fouille des
images
+
La fouille de
données

FIGURE 1.9: LA FOUILLE DES IMAGES

4.4. De la fouille des données vers La fouille des images


La différence entre la fouille des images et le la fouille de données est de taille car il
existe des différences importantes entre les deux. Voici quelques-unes :

 Des valeurs Absolues contre des valeurs relatives

Dans les bases de données relationnelles, les valeurs de données sont sémantiquement
significatives. Par exemple, l'âge est 35 est bien compris. Cependant dans les bases de
données images, les valeurs de données elles-mêmes ne peuvent pas être significatives à
moins que le contexte les soutienne. Par exemple une valeur de gamme de gris de 46
pourrait sembler plus foncée qu'une valeur de gamme de gris de 87 si toutes les valeurs
environnantes de pixels de contexte sont très lumineuses.

 L’information spatiale (Indépendante par rapport à la position


dépendante):

Une autre différence importante entre les bases de données relationnelles et les bases
de données d'image, c'est que l'information spatiale implicite est essentielle pour
l'interprétation du contenu de l'image, mais il n'y a pas cette exigence dans les bases de
données relationnelles.

Page 34
Chapitre1 : Vers la fouille d’images médicales
 Unique par rapport à de multiples interprétations
Une troisième différence importante sur les caractéristiques de l'image où les mêmes
motifs visuels peuvent avoir de multiples interprétations. Ce qui nécessite une nouvelle
classe d'algorithmes pour répondre aux besoins particuliers de l'exploitation des
modèles utiles à partir d'images.
4.5. Formats d’images
Le format est la structure utilisée pour représenter une image. Il existe de nombreux
formats d’images. Nous nous limitons ici aux principaux d’entre eux :

• Format BMP (BitMaP) : créé par Microsoft et IBM. Il a été conçu pour les
ordinateurs personnels (PC) et pour une utilisation dans un environnement
Windows et OS/2.

• Format GIF (Graphics Interchange Format) : développé par Compuserve, il


présente deux principaux avantages : portabilité et indépendance vis-à-vis du
système d’exploitation, facilité et rapidité de lecture.
Le format GIF utilise l’algorithme de compression LZW. Il est mieux adapté aux
images ne nécessitant pas une grande palette de couleurs (niveaux de gris ou 256
couleurs). Une des applications où son efficacité est prouvée est le WEB.

• Format JPEG : développé par le Joint Photographique Expert Group, il possède


les mêmes avantages que le Format GIF. Cependant, il est mieux adapté aux
images de couleurs vraies grâce à sa technique de compression JPEG.

• Format MPEG-7 : est un futur format standard (http://www.cselt.it/mpeg/


standards/mpeg-7/mpeg-7.htm). MPEG-7 est développé par Moving Picture
Experts Group. Il tente de décrire le contenu de n'importe quel média (image,
son, vidéo) selon plusieurs descripteurs.
Le développement de son utilisation est déjà garanti par le support de plusieurs
académies, industries, laboratoires de recherche (IBM, Virage, etc.), chaînes de
télévision (BBC, INA, French national film, et TV archive). La description d'une
vidéo en format MPEG-7 sera : "cette scène contient un chien noir à droite d'une
balle rouge à droite qui tombe, avec le son d'une voiture qui passe en arrière
plan".

Dans le domaine médical, plusieurs formats existent également :

- ACR/NEMA (American College of Radiologists and the National Electrical


Manufacturers Association)
- SPI (Standard Product Interconnect)
- DICOM (Digital Imaging and Communications in Medicine), etc.
-
Nous nous intéressons à DICOM en particulier parce qu’il représente le format
standard :

Page 35
Chapitre1 : Vers la fouille d’images médicales

• Format DICOM : Publié pour la première fois en 1985 par le collège américain de
radiologie (American Collège of Radiologie) et l’association nationale des
manufactures électriques (National Electrical Manufactures Association),
DICOM est composé principalement de 4 niveaux d’informations :

1. Niveau Patient : contient les informations générales concernant un patient


comme son nom, sa date de naissance, son sexe, etc. Chaque patient peut
avoir plusieurs études médicales.
2. Niveau Etude : contient les données administratives comme la date
d’acquisition, le nom du radiologue, etc. Il est composé d’un ensemble de
séries.
3. Niveau Série : considère l’ensemble des examens médicaux passés pour la
même modalité. Il est composé de plusieurs images (Scanner, IRM, etc.).
4. Niveau Image : contient les attributs d’acquisition, l’identifiant de l’image,
son type, etc.
4.6. Description des images médicales :
Les images médicales sont différentes par rapport aux images normales car elles sont
stockées dans un format spécifique qui est le format DICOM " Digital Imaging
and Communication in Médicine ".

Pour quoi utiliser ce format pour les images médicales parce que tout simplement le
service de radiologie d’un hôpital produit plusieurs milliers d'images chaque jour, ainsi,
un scanner, travaillant au rythme de 3 patients par heure produit environ 150 images par
heures, et il n'est pas possible de classer ces images dans un format courant de type
JPEG ou GIF car il aurait un risque de pertes des données démographiques de l'images,
(nom du patient, type d'examen , hôpital , date d'examen , type d'acquisition etc. ...) .

Le format DICOM permet de rendre unique chaque image produite et de leur associer
des informations spécifiques. Ainsi chaque image est autonome, si elle est perdue,
reproduite ou renommée, il est toujours possible d’identifier formellement son origine,
le patient, la date, la série d'où elle provient, les paramètres d'acquisition etc...

 DICOM est un format modulaire :

Le fichier DICOM contient deux types d’information, informations obligatoires et


informations optionnelles.

Pour mieux gérer ce nombre énorme des images médicales on utilise un système
d’archivage PACS " Picture Archiving and Communication System" défini dans la
figure 1.10. Ce dernier permet à un département de radiologie de gérer, archiver et
transmettre les résultats d'examens sous forme de fichiers numériques.[23]

Page 36
Chapitre1 : Vers la fouille d’images médicales

FIGURE 1.10 SYSTEME PACS

4.7. Imagerie médicale


L’imagerie médicale représente l’ensemble des techniques permettant d’obtenir des
images à partir de différents types de rayonnements (lumière lisible, infrarouge,
ultrasons, rayons X, etc.). Les techniques de l’imagerie médicale sont nombreuses et
permettent d’obtenir des images en 2D, 2,5D (ou séries de coupes) et 3D. Nous citons,
par exemple la radiographie, l’IRM, la tomodensitométrie, l’échographie,
l’angiographie, la tomographie, l’arthrographie, la sacco-radiculographie, la
cholécystographie orale, la cholangio-pancréatographie, la cholangiographie, la
mammographie, l'hystéro-salpingographie, la bronchographie, l'urographie
intraveineuse, la radioscopie, l'artériographie, la scintigraphie, le doppler, etc.

Nous nous limitons aux 5 premières techniques : [11]

• La radiographie : Les rayons X sont de la même famille que les rayons lumineux. Ils
permettent d'impressionner un film radiographique (comparable au film
photographique qui est impressionné par la lumière).

La différence fondamentale est que les rayons X peuvent traverser la matière. Le


film radiographique sera plus ou moins noirci en fonction de l'organe traversé. Ainsi
les structures osseuses apparaissent en blanc et les structures aériques (poumons)
apparaissent en noir sur les films radiographiques. La radiographie permet d’obtenir
des images en 2D.

Page 37
Chapitre1 : Vers la fouille d’images médicales

Radiographie de la
Radiographie pulmonaire Estomac opacifié
main
FIGURE 1.11 : EXEMPLES DE RADIOGRAPHIES [11]

• L'échographie : utilise un faisceau d'ondes ultrasonores, d'une fréquence adaptée (2,5


à 10 Mhz), qui sera plus ou moins réfléchi selon les structures organiques
rencontrées. On déplace une sonde sur la région à examiner après avoir appliqué sur
la peau un gel qui permet de supprimer la présence d'air (l'air empêche la
transmission des ultrasons) entre la sonde et la peau. Cette technique produit
généralement des images en 2D.

FIGURE 1.12: EXEMPLE D’ECHOGRAPHIE DU FOIE [11]

 La Tomodensitométrie (TDM) ou Scanner : utilise un tube à rayon X qui


tourne autour du patient. Le film radiographique est remplacé par des capteurs
numériques, et l'image est reconstruite par ordinateur. Des coupes superposables sont
obtenues réalisant pratiquement des coupes anatomiques du corps humain. De ce fait,
cette technique produit des images en 2,5D.

FIGURE 1.13 : EXEMPLE DE SCANNER (COUPE PASSANT PAR LE FOIE, LA VESICULE


BILIAIRE, LE PANCREAS, LE REIN GAUCHE ET LA RATE) [11]

Page 38
Chapitre1 : Vers la fouille d’images médicales
• L'IRM (Imagerie par Résonance Magnétique) :
Est une technique non invasive basée sur le principe de la résonance des atomes de
certaines molécules sous l'action d’ondes de radiofréquences. L'appareil est constitué
d'un tunnel formé d'un aimant très puissant (0,1 à 1,5 Tesla) entourant le lit d'examen
sur lequel s'allonge le patient. Des générateurs d’ondes électromagnétiques
spécifiques y sont connectés.
Certains émettent une onde radiofréquence qui va exciter les noyaux d'hydrogène
contenus dans l'eau composant nos cellules. Après arrêt de la stimulation (qui dure
quelques millisecondes) les atomes d'hydrogène restituent cette énergie qui se dissipe
dans différents plans de l'espace sous l'action du champ magnétique de l'aimant.
L'énergie est alors captée par des antennes dites antennes réceptrices, puis analysée
par un ordinateur qui construit une carte énergétique des structures anatomiques de la
partie étudiée du corps.

L’IRM permet de produire une série de coupes d’images (2,5D).

IRM thoracique IRM lombaire


Coupe médiane de la tête
(cancer du poumon) (hernie discale)

FIGURE 1.14: EXEMPLES D’IRM [11]

• L'angiographie : est une technique qui sert à visualiser certaines artères en opacifiant
les vaisseaux par un produit de contraste radio-opaque injecté dans la circulation
artérielle
Durant l'injection du produit, des rayons X vont être produits sous la table d'examen et
traversent le corps. Le produit de contraste est opaque aux rayons X et la caméra placée
au-dessus du patient montre simultanément les artères injectées sur un écran. Les
images obtenues sont informatisées et mémorisées. Des images 2D et 2,5D sont
produites par cette technique.

Page 39
Chapitre1 : Vers la fouille d’images médicales

Artères du cou
Artères cérébrales Artère carotide
FIGURE 1.15: EXEMPLES D’ANGIOGRAPHIES [11]

Des techniques de reconstruction 3D sont également pratiquées en médecine. Elles


consistent à utiliser comme paramètres plusieurs types d’images en 2D ou 2,5D afin
de créer un modèle en 3D. Ainsi, des opérations de visualisation et d’animation sont
souvent proposées

Reconstruction en 3D des Reconstruction en 3D de l'aorte


os de la face et des reins

FIGURE 1.16 : EXEMPLES D’IMAGES 3D CONSTRUITES PAR ORDINATEUR. [11]

4.8. La fouille des images et Image Médicale


L’application des techniques de la fouille des images au domaine médical est
intéressante et enrichissante. En effet, elle fournit un ensemble de techniques pour
extraire des informations cachées à partir des images pour aider le médecin dans son
diagnostic.
4.9. Définition de la fouille des images médicales
D’après K. Cios et al. [19], la fouille des images médicales peut être identifiée
comme une tâche particulière d’extraction de connaissances. En effet, les données
médicales sont souvent hétérogènes, soumises à des problèmes d’éthique et de
confidentialité, et de ce fait elles sont souvent collectées à partir de peu de patients.

Page 40
Chapitre1 : Vers la fouille d’images médicales
Dans ce contexte, la fouille de données médicales peut s’avérer être un problème
difficile et nécessitant la connaissance d’un expert.
4.9.1. Les travaux réalisés
Parmi les travaux réalisés dans la fouille des images, nous citons:

 Fouille de règles d’association dans des images médicales [20].


 Fouille de données biomédicales basées sur une ontologie.
 L’intégration des données, la fouille de données et le support à la
décision:
Réalisé par IBM research Lab-Zurich [21]; Ils ont utilisé la technique
d’intégration (processus de combinaison de l’information). Pour intégrer
l’ensemble de données médicales, la technique de fédération était utilisée
(regroupement de différentes entités chacune gardant sa propre
organisation).

4.9.2. Domaines d’application de l’imagerie médicale


Le domaine d’application intervient essentiellement dans :

•le protocole d’acquisition des images.


•le contexte patient.
•la sémiologie de la pathologie.

5. Conclusion
Dans ce chapitre, nous avons présenté deux parties. La première partie nous avons
défini le processus d’extraction de connaissances à partir des données. Ensuite nous
avons cité quelques domaines d’application de la fouille de données et nous avons décrit
les tâches et les techniques principaux de la fouille de données. Nous nous sommes
attardés sur la présentation de la technique des règles d’association et en particulier
l’algorithme Apriori.
Dans la deuxième partie, nous avons défini les concepts de la fouille de l’image et en
particulier la fouille des images médicales.
Dans le chapitre suivant nous allons détailler quelques algorithmes de la fouille des
images médicales.

Page 41
Chapitre 2 :
État de l’art sur la
fouille des images
médicales

Page 42
Chapitre2 : Etat de l’Art sur la fouille des images médicales

Chapitre 2
Etat de l’Art sur la fouille
des images médicales

1. Introduction
Ce chapitre dresse un état de l’art sur l’application des règles d’association dans les
images médicales. En effet, une description de quelques travaux qui nous paraissent
pertinents sera abordée dans ce chapitre. Pour notre étude nous avons sélectionné trois
algorithmes : GMA (association graphe and matrix), MWAR (Mining Weighted
association rules) et HARC (hybrid association rule with decision tree classification).

On va définir le principe de chaque algorithme suivi d’une étude comparative.

2. Les critères de l’étude


Pour étudier les algorithmes de la fouille d’images médicales, nous avons défini
quelques critères qui nous paraissent importants. En effet, ces critères doivent contenir
les paramètres qui permettent d’expliquer les différences entre les algorithmes de la
fouille d’images médicale. Nous détaillons ci-dessous ces critères :

a. Le temps d’exécution : Nous nous intéressons aux méthodes qui s’exécutent


dans un temps réduit.
b. L’espace requis : Nous définissons pour chaque algorithme l’espace requis pour
l’extraction des règles d’association à partir des images médicales.
c. Le poids des items : Nous définissons pour chaque algorithme la pondération
utilisée sur les itemsets si elle existe.
d. Objets de la base de données : Nous indiquerons les données et les
métadonnées utilisés en entrée du processus de la fouille d’images médicales.
e. L’algorithme de base : nous indiquons pour chaque algorithme étudié
l’algorithme de base utilisé pour l’extraction des motifs fréquents.

3. Les algorithmes étudiés


3.1. L’algorithme GMA (association graph and matrix)
L’algorithme GMA [24] adopte à la fois le graphisme et la matrice d’association, pour
réduire la génération d’itemset candidat. Il parcourt également la base de données une
seule fois et génère les itemsets fréquents.

Page 43
Chapitre2 : Etat de l’Art sur la fouille des images médicales
Cet algorithme est composé de 4 phases :

1. Réalisation de la matrice de fonction de production et le graphe de l’association


2. L’élagage de la matrice
3. La sélection et l’extension par le graphe de l’association
4. La génération de l’ensemble de K-fréquent itemset Lk(k2)

Afin d’évaluer la performance de l’algorithme GMA, ses auteurs ont mené des
expérimentations avec les algorithmes FAR (Feature matrix based Association
Rules) [25] et DLG (Direct Large Itemset Generation Algorithm) [26], [27].

Dans l’algorithme GMA, une phase de prétraitement de l’image médicale est requise
avant d’entamer les 4 phases. Les auteurs de GMA ont procédé sur les images de
tumeur de cerveau humain(CT) .
La phase de prétraitement consiste à appliquer l’algorithme de partage des eaux pour
extraire les régions d’intérêt (ROI) à partir des images puis appliquer l’algorithme
DBSCAN [28].

Cependant, à partir de ces régions d’intérêts un ensemble de caractéristiques peut être


décrit. Les auteurs de GMA s’intéressent sur six caractéristiques qui sont :

- Niveau de gris de l’objet


- Région de l’objet
- Emplacement de l’objet
- Allongement de l’objet
- Direction de l’objet
- Symétrie de l’objet

Le tableau 2.1, décrit les différentes régions d’intérêts pour chaque image. Ces régions
sont notées par : O1, O2, O3, O4, O5. Par exemple, l’image1 IM1 contient 3 régions
d’intérêts O1, O2 et O3.

Image ID Items
IM1 O 1 O2 O3
IM2 O 5 O4 O6
IM3 O 2 O3
… …

TABLEAU 2.1 : BASE DE DONNEES D’IMAGES MEDICALES [24]

3.1.1. phase1 : Matrice de fonction de production et le graphe d’association


Dans cette phase, l’algorithme GMA transforme l’image médicale en une matrice de
caractéristique Am × n où m est le nombre de lignes (régions d’intérêt) et n le nombre de
colonnes (caractéristiques). Ensuite, une analyse de la matrice ROI est réalisée suivie du

Page 44
Chapitre2 : Etat de l’Art sur la fouille des images médicales
calcul des supports de tous les items pour déterminer l’ensemble des itemsets fréquents
de taille 1 (L1).

Le support de Ij est calculé à partir de la matrice caractéristique A m × n en comptabilisant


le nombre de ‘1’ dans la jème colonne. Si le support de Ij est supérieur au support
minimum (Ij.support ≥ min_sup) alors Ij sera ajouté à l'ensemble L1. Sinon la j-ième
colonne sera supprimée.
3.1.2. phase2 : élagage de la matrice des caractéristiques
Cette étape est caractérisée par l’élagage de la matrice A. cet élagage consiste à
supprimer certains lignes et colonnes.
Le principe d’élagage est le suivant:

- La suppression de la colonne de la matrice caractéristique : Soit I' l’ensemble d’items


de l'ensemble fréquente L k-1, où k> 2. Calculer tous | Lk-1 (j) | où j ∈ I ' et supprimer la
colonne correspondant à l’item j si | Lk-1 (j) | est plus petit que k-1.

- La suppression des lignes : Consiste à recalculer la somme des valeurs des éléments
dans chaque ligne de la matrice de caractéristique ensuite supprimer toutes les lignes de
la matrice qui ont la somme de valeur d'élément plus petit que k.

3.1.3. Phase3 : la sélection et l’extension par le graphe d’association


Afin de générer des itemsets candidat-k, GMA considère tous les itemsets de Lk- 1 et doit
faire les deux étapes, l’élagage de la matrice de caractéristique et la sélection et
l'extension des items fréquents (k-1) pour générer les itemsets candidat-k. S'il y a une
colonne de la matrice qui a été supprimée par l'optimisation de la matrice, on ne tiendra
pas compte à l’itemset de Lk-1 qui contient le correspondant d’item. Sinon pour chaque
item {I1, I2, ..., Ik-1} de Lk-1, que les arêtes de sommet Ik-1 avec un autre sommet se
trouvent dans le graphe association. Si il existe une arrête de sommet Ik-1 à un sommet u,
l’itemset {I1, I2, ..., Ik-1, u} est un itemset candidat-k.
3.1.4. Phase4 : génération de l’ensemble d’itemsets fréquentes-k Lk(k>2)
C’est la phase la plus importante dans l’algorithme GMA afin de trouver l’ensemble des
itemsets fréquente-k(k>2). À la fin de ces 3 phases, il vérifie si l’itemsets candidat-k est
un itemset fréquent-k
3.1.5. Résultats expérimentaux
Les auteurs de l’algorithme GMA ont conduit une série d’expérimentations sur deux
algorithmes qui sont DLG [26], [27] et FAR [25] sur une base de données des cerveaux
humaines.

Page 45
Chapitre2 : Etat de l’Art sur la fouille des images médicales

FIGURE 2.1. RESULTATS EXPERIMENTAUX [24]

Les trois algorithmes permettent de générer le même nombre des itemsets fréquents
mais Toutefois, le temps d’exécution de ces algorithmes n’est pas la même comme
décrit dans la figure 2.1. En effet, l’algorithme DLG est meilleur que l’algorithme FAR
lorsque le min-sup est faible. Par contre, l’algorithme FAR est meilleur que l’algorithme
DLG lorsque la valeur min-sup augmente.
Nous observons que l’algorithme GMA est plus performant que les deux autres en
temps d’exécution pour toutes les valeurs de min-sup. Ceci peut être justifié par la
réduction de la dimension de la matrice A par l’opération d’élagage ce qui va permettre
de réduire l’espace requis et par conséquent réduire le temps de recherche.

3.2. L’algorithme MWAR (Mining Weighted Association Rules) [29]


L’algorithme MWAR combine deux aspects : les règles d’association pondérées et les
images médicales. Cet algorithme propose de donner l’importance d’un attribut par
rapport à d’autres en utilisant la notion de poids. [29]

Le tableau 2.2, décrit les notations utilisées dans cet algorithme. Les entrées de
l’algorithme sont : la base de données D, le support et confiance pondérés wminsup et
minconf, et le poids de chaque items i noté Wi. Les sorties de l’algorithme sont la liste
des règles d’association.

TABLEAU 2.2 : NOTATIONS [29]

Page 46
Chapitre2 : Etat de l’Art sur la fouille des images médicales
Les auteurs de cet algorithme ont utilisé les données médicales mammographies [30]
décrites dans le tableau 2.3. Chaque item a un sens médical spécifique et est doté d'un
poids selon son importance dans le diagnostic de la maladie. La définition de chaque
item est :

- I1 signifie objet de grande taille avec un poids de 0.95,


- I2 signifie moins de bruit et son poids est de 0.9,
- I3 signifie un plus haut taux de contraste et son poids est de 0.89,
- I4 signifie texture rugueuse et son poids est de 0.85,
- I5 signifie échelle de gris anormale et son poids est de 0.93

TABLEAU 2.3 : LA BASE DE DONNEES MAMMOGRAPHIE [29] [30]

La figure 2.2, résume l’ensemble des règles d’association générées à partir de la base de
données D (mammographie) pour un support minimal pondéré Wminsup de 0.1 et une
confiance pondérée minimal de 0.45.

FIGURE 2.2: REGLES D'ASSOCIATION PONDEREES ET LES ITEMSETS FREQUENTS TROUVES


PAR MWAR [29]

Page 47
Chapitre2 : Etat de l’Art sur la fouille des images médicales
Dans cette figure, dans la zone de texte à gauche les règles d'association sont énumérées
avec leurs configurations, dans la zone de texte à droit. Les itemsets fréquents sont
énumérés avec leurs supports et leurs supports pondérés.

3.2.1. Résultats expérimentaux


Les auteurs de MWAR ont implémenté les deux algorithmes MWAR et MINWAL [31]
pour comparer et tester la performance de leur algorithme. Ils ont testé leur algorithme
sur la base de données de mammographie tout en variant les seuils des supports
minimum pondérées (Wminsup) entre {0.1, 0.15, 0.2, 0.25, 0.3, 0.35}.
Et ils ont conclu que l’algorithme MWAR est meilleur que l’algorithme MINWAL en
temps d’exécution pour toutes les valeurs de Wminsup.
3.3. L’algorithme HARC (hybrid association rule with decision tree
classification)
HARC [32] propose une nouvelle méthode d’aide à la décision pour classifier les
images des tumeurs du cerveau.
HARC est composé en quatre étapes :

* Le prétraitement des images


* L’extraction des caractéristiques
* L’Extraction des règles d’association
* La classification hybride HARC

La figure 2.3 illustre les étapes de l’algorithme HARC. La transformation d’image est
réalisée par la segmentation et le filtrage pour extraire les caractéristiques des images
médicales en utilisant une technique de détection de bord.
Nous nous intéressons dans cet algorithme à la phase d’extraction des règles
d’association sur les images du cerveau humain. Dans cette étape, les transactions sont
organisées sous forme d’arbre FP-Tree pour extraire les itemsets fréquents afin de
construire les règles d’association. [33][34].

3.3.1. La fouille des règles d’association


La fouille des règles d’associations est effectuée en deux étapes :
3.3.1.1. Itemset frequent et Itemset frequent maximal
Soit I={i1,i2,….im} l’ensemble de m éléments distincts, T la base de donnée
transactionnelle , on dit que l’itemset x I s’il contient tous les items de x.
La fraction de la transaction D qui a un support x appelée support est au dessus d’un
seuil définie par l’utilisateur (min-sup p) alors les itemsets sont fréquents.
On peut dire qu’un itemset fréquent est maximal noté F si tous les sur-ensembles des
itemset fréquent sont des itemsets infréquents.

Page 48
Chapitre2 : Etat de l’Art sur la fouille des images médicales
Training phase Testing phase

Image acquisition Image acquisition

Image quality Image quality


Not Accepted Not Accepted
accepted accepted

Pré-processing Pré-processing

Segmentation
Segmentation

Feature extraction
Feature extraction

ARM
Transactional Database

ARM

Comparaison

DecisionTree Classification

Diagnosis

FIGURE2.3 SYSTEME PROPOSE SELON L’ALGORITHME HARC [32]

L’ensemble des itemsets fréquent maximaux qui ont les plus petites itemsets, inclus tous
les itemsets courants [35]. Mais ils ne comprennent pas les itemsets infréquents.
L’identification des itemsets fréquent maximal peut réduire le nombre des itemsets
fréquent générée, donc il réduit le temps de CPU et l’E/S.
Dans le cas ou l’itemset fréquent maximal découvert est long, alors les performances de
l’algorithme serrant excellentes. Tous ces itemsets fréquents maximaux identifiés seront

Page 49
Chapitre2 : Etat de l’Art sur la fouille des images médicales
stockés dans la base de données transactionnelle sous forme d’une structure
arborescente comme illustré dans la figure 2.4. La figure 2.5 définit la codification de
l’information correspondante à la figure 2.4.

Image

Texture Edge

Histograme canny Edge


méthode detection methode

FIGURE 2.4: ARBRE HIÉRARCHIQUE[32]

11 12

111 112 121 122

FIGURE 2.5: ARBORESCENTS HIÉRARCHIQUE CODÉ [32]

3.3.1.2. L’arbre de motif fréquent


Les itemsets sont organisés dans une structure d’arbre des préfix nommé FP-Tree. Il se
compose de la partie entête de la table des items fréquents, de la racine notée NULL et
de l’ensemble des items préfix de l’arborescents appelée feuilles enfants.

Chaque nœud est composé de 4 champs : [33][34]

- Le premier champ est le nom de nœud


- Le second est le compteur du nœud,
- Le troisième définit le lien vers le nœud suivant
- Et le dernier représente le nœud parent.

La table entête est composée de 3 champs pour chaque entrée de l’element qui sont :
- le nom d’item,
- L’item précédent
- et l’item suivant
La construction de FP-Tree est réalisée en deux étapes :

Page 50
Chapitre2 : Etat de l’Art sur la fouille des images médicales

Premier étape : Test de la base de données


Dans cette étape, l’ensemble L l’ensemble des items fréquents avec leur support est
construit selon un ordre croissant pour chaque transaction.
Le tableau 2.4 est un exemple d’une base de données transactionnelle ordonnée par
ordre décroissant selon le support des items.

TID Transaction
001 111, 121, 211, 221
002 11, 211, 222, 323
003 112, 122, 221, 421
004 111, 121, 421
005 111, 122, 211, 221,413
006 211, 323, 524, 413
007 323, 524, 713

TABLEAU 2.4 TABLE DE TRANSACTION [32]

Deuxième étape : Construction de FP-Tree


A partir des itemsets de chaque transaction l’arbre FP-Tree est construit [34].
La figure 2.6 montre l’arbre FP-Tree correspondent à l’exemple du tableau 2.4

root

111 :5 111 :5 211 :1

231 :1
211 :5 211 :4

131 :1
121 :4 121 :4

231 :1
221 :4 221 :4

131 :3 131 :3
231 :1
231 :4 231 :1

FIGURE2.6 :BASE DE TRANSACTION DE FP-TREE[32]

Page 51
Chapitre2 : Etat de l’Art sur la fouille des images médicales
3.3.1.3. L’extraction des itemsets fréquents maximaux
A partir de l’arbre FP-Tree les itemsets maximaux sont générés.
Le pseudo code de cette étape est définie ci-dessous.

Entrée : FP-Tree de la base de données transactionnelle ; les items fréquents et le


minimum support (minsup); la liste des itemsets fréquents LF= {1, 2,3…K}
Sortie : les itemsets fréquents maximaux (MFI)
(1) pour (i=1 ; i<=max-level ; i++)// tel que i représente le niveau dans la hiérarchie des
règles d’associations
(2) MFI i=
(3) MFC = FL ={1,2,3,…K} ; //MFC :est l’itemset fréquent maximum
(4) Tanque (MFC≠) faire début
(5) pour (j=K ;j>0 ;j--) faire début
(6) MFC j={c/ C MFC et le dernier item dans c} ;
(7) appel la fonction calcule support (FP-tree, l’item fréquent de l’entête de la table,
MFC) ;
(9) pour tous items nMFC j faire début
(10) si n.support>= minsup faire
(11) MFI i=MFI i n
(12) Sinon
(13) pour tous items mn faire
(14) si n= {m} n’est pas un sur ensemble de l’élément dans MFI i et MFC alors
(15) MFC=MFC {n-{m}} ;
(16) fin
(17) fin
(18) MFI=MFI MFI i
(19) fin
3.3.2. La classification Hybride
Les méthodes de classification basées sur l'arbre de décision sont largement
utilisées dans le la fouille de données et dans les applications d'aide à la décision. Dans
le système proposé, les itemsets fréquents maximaux sont comparés avec des itemsets
fréquents maximaux de la base de données d’image test pour la prise des décisions par
les médecins [36,37].
Dans le système proposé, la méthode de classification des règles d’association
avec les arbres de décision peut aider les médecins à classifier les images bénignes et
malignes comme définie dans la figure 2.7. En effet, une comparaison des itemsets
fréquents maximaux générer par les règles d’association dans la base de données
d’apprentissage des images est réalisée avec ceux de la base de données test ce qui
permettra de faire le diagnostic plus facilement.
L’algorithme HARC permet de classifier les règles d’association générées en
trois classes : normal, bénignes ou malignes. L’algorithme HARC construit des arbres
de décision à partir d'un ensemble de données d'apprentissage de la même façon comme
ID3, en utilisant le concept de l'entropie. L’ensemble de donnée d’apprentissage est un
ensemble de données S= , … d’échantillons déjà classées. Chaque échantillon
= , ,.., est un vecteur où , représentent des attributs ou caractéristiques de
Page 52
Chapitre2 : Etat de l’Art sur la fouille des images médicales
l’échantillon. L’ensemble de données d’apprentissage est complétée par un vecteur C
= , où= , représentent la classe à laquelle appartient chaque échantillon.
À chaque nœud de l'arborescence, HARC choisit une règle des données qui
divise le plus efficacement son jeu d'échantillons en sous-ensembles enrichis en une ou
plusieurs classes. Le critère de division est le gain d'information normalisée (différence
d'entropie) qui résulte du choix d'un attribut pour le fractionnement de données.
L'attribut avec le plus haut gain d'information normalisée est choisi pour la prise de
décision. Ensuite l’algorithme HARC effectue des divisions successives sur les plus
petits sous-ensembles.

FIGURE 2.7 : CLASSIFICATION DE TUMEUR SELON L’ALGORITHME HARC [32]

3.3.3. Résultats et discussion


Les résultats montrent que la méthode proposée est précise et sensible que les
méthodes de classification existant. En fonction de l'arbre construit à partir de
l'algorithme HARC, le diagnostic peut être fait à la fois par les médecins et le système
proposé.
Selon les tableaux 2.5 et 2.6 [38], le système proposé donne de meilleurs résultats
que les méthodes de classification comme C4.5 et l’algorithme classification de règle
d'association.
L'efficacité de la méthode proposée a été estimée par les mesures suivantes:
• Exactitude = (TP+TN)/ (TP+TN+FP+FN)
• Sensibilité = TP/ (TP+FN)
• Spécificité = TN/ (TN+FP)

Page 53
Chapitre2 : Etat de l’Art sur la fouille des images médicales
TP, TN, FP, et FN sont le nombre des cas de vrais Positifs (cas normaux classés
correctement), le nombre de Vrais Négatifs (cas anormaux classés correctement), le
nombre de faux positifs (le cas normal classé comme Anormaux), et le nombre de faux
négatifs (cas anormaux classées comme Normal) respectivement.
L'exactitude est la proportion de cas diagnostiqués correctement à partir du nombre
total de cas.
La sensibilité mesure la capacité de la méthode proposée pour identifier les cas
anormaux.
La spécificité mesure la capacité de la méthode pour identifier les cas normaux. La
valeur d'un minimum de confiance est définie à 97% et la valeur d'assistance minimale
est fixée à 10 %.

Les caractéristiques du test des images et les règles d’association ont été générées à
l'aide de la valeur de seuil=0,001.
Les résultats montrent que le classificateur proposé accorde une plus grande valeur de
la sensibilité, la spécificité et la précision telle que 97 %, 96 % et 95 % respectivement.
Afin de valider les résultats obtenus, HARC a été comparé avec l’algorithme C4.5 et
l’algorithme classificateur associative [9][10].
Les tableaux 2.5 et 2.6 montrent les résultats de la classification et ses performances
avec les classificateurs existants.
La figure 2.8 montre que la méthode proposée donne de meilleurs résultats en
comparaison avec les méthodes existantes avec respect de rappel et de valeur de
précision.

Médecin Classification des règles d’association


avec l’arbre de décision
normale

normale
Bénigne

Bénigne
maligne

maligne

Catégories

Bénigne TN FN TP TN FN TP
50 2 30 66 1 30

Maligne FP TN TP FP TN TP
10 28 20 4 29 20

Normale TP TP TP TP TP TP
5 5 10 5 5 10

Totale 65 35 60 65 35 60

TABLEAU 2.5 LA CLASSIFICATION DE TUMEUR DU CERVEAU PAR LES REGLES


D’ASSOCIATION AVEC L’ARBRE DE DECISION

Page 54
Chapitre2 : Etat de l’Art sur la fouille des images médicales
Mesures La méthode C4.5 Les règles
hybride (HARC) d’association

Sensibilité % 97 84 95
Exactitude % 96 71 84
Spécificité % 95 79 91

TABLEAU 2.6 LA COMPARAISON DE PERFORMANCE DES ALGORITHMES [38]

FIGURE 2.8 LE GRAPHE DE RAPPEL/ PRECISION [32]

4. Etude comparative
Dans cette partie, nous résumons les algorithmes présentés précédemment sur la base
des critères que nous avons énoncés dans la section 2. Le tableau2.7 montre un
récapitulatif des caractéristiques de ces méthodes. Les colonnes représentent les
différents critères et les lignes contiennent les références des approches étudiées. Une
description d’une caractéristique dans une cellule indique que la méthode en ligne
possède cette caractéristique en colonne.
Temps : Nous avons vu que l’algorithme MWAR est meilleur de point de vu temps
d’exécution que l’algorithme MINWAL. Et que l’algorithme GMA est aussi meilleur
que les autres deux algorithmes FAR et DLG.
Espace mémoire : l’algorithme GMA est gourmand en espace mémoire à cause de la
structure en matrice qui nécessite plus d’espace mémoire. Par contre MWAR nécessite
moins d’espace mémoire car il n’utilise aucune structure supplémentaire.
Poids : A la différence de GMA et HARC, MWAR introduit la notion du poids dans
l’extraction des règles d’association. Ce qui permettra de donner l’importance à certains
items par rapport à d’autres.

Page 55
Chapitre2 : Etat de l’Art sur la fouille des images médicales
Objet de la base de données : Le seul algorithme qui a introduit les métadonnées dans
le processus d’extraction des règles d’association est l’algorithme GMA. Tandis que les
deux autres algorithmes utilisent les caractéristiques des images pour extraire les règles
d’association.
L’algorithme de base : les algorithmes GMA et MWAR utilisent comme algorithme de
base « APRIORI » qui nécessite un parcours répétitif par contre l’algorithme HARC
utilise l’algorithme de base « FP-Growth » qui nécessite deux parcours à la base de
donnée.
Algorithme Temps Espace Poids Objet de BDD L’algorithme
mémoire de base
GMA Lent Grand Non Données et méta Apriori
données
MWAR Rapide Moyen Oui Données Apriori

HARC Rapide Grand Non Données Fp-Growth

TABLEAU 2.7 : COMPARAISON ENTRE LES ALGORITHMES DES REGLES D’ASSOCIATION

5. Synthèse sur les approches étudiées:


On déduit que l’algorithme GMA est moins rapide par rapport à MWAR .Il occupe
beaucoup plus d’espace mémoire et utilise, pour sa base de données, les données ainsi
que les métadonnées. Finalement, on note aussi qu’il a la particularité de ne pas utiliser
le poids. Par contre l’algorithme MWAR est plus rapide par rapport au premier, qu’il
occupe moins d’espace mémoire. Par contre il s’oppose aux autres algorithmes par le
fait qu’il utilise le poids comme paramètre.
HARC nécessite deux parcours à la base de données et utilise une structure FP-Tree
pour stocker les itemsets fréquents. Ce qui rend leur manipulation beaucoup plus rapide
que GMA et MWAR car ces deux algorithmes nécessitent un parcours répétitif selon la
taille de l’itemset.
Nous pouvons classifier les trois algorithmes étudiés en deux classes : GMA et MWAR
des algorithmes de traitement en largeur et l’algorithme HARC traitement en
profondeur.

Vu la particularité du domaine médical qui nécessite de donner l’importance aux items,


nous avons opté pour les algorithmes qui utilisent la notion du poids en particulier
l’algorithme MWAR. Ce dernier est un algorithme qui procède en largeur c.à.d. qu’il
nécessite plusieurs parcourt au contexte d’extraction et génère un nombre important de
candidats dans chaque parcourt. Ce qui peut être couteux en temps d’exécution et en
espace. Par contre les algorithmes en profondeur tel que HARC, Fp-Growth [37]
utilisent que deux parcourt au contexte et nécessite aucune génération de candidats. Ce
qui nous amené à introduire la notion du poids dans l’algorithme FP-Growth pour deux
raisons principales : réduire le temps d’exécution et donner l’importance aux items de la
base de données.

Page 56
Chapitre2 : Etat de l’Art sur la fouille des images médicales

Nous proposons dans la suite d’introduire la notion du poids dans l’algorithme FP-
Growth pour réduire le temps d’exécution et guider la recherche des règles d’association
selon le poids de chaque item. Notre algorithme appelé WFP-Growth (Weigthed FP-
Growth) procède en profondeur et sans génération des itemsets candidats avec
l’introduction du poids dans chaque itemset.

6. Conclusion
Cet état de l'art sur les techniques d’extraction des règle d’association à partir des
images médicales nous a mené à prendre connaissance de leur complexité. En effet,
avec les techniques de règle d’association qui existent, le choix de l'une d'entre elles est
devenu très difficile. L’étude menée dans ce chapitre nous a permis de dégager les
lignes directrices pour le choix de notre algorithme WFP-Growth. Le chapitre suivant
permet de décrire cet algorithme de façon détaillée.

Page 57
Chapitre3
WFP-Growth

Page 58
Chapitre3 : WFP-Growth

Chapitre 3
WFP-Growth
1. Introduction
Dans le chapitre précédent, nous avons présenté les différents algorithmes d’extraction
des règles d’association appliqués sur les images médicales. Ce chapitre consiste à
décrire WFP-Growth pour l’extraction des règles d’association à partir des images
médicales.

La section 2 définit quelques concepts de bases utilisés dans WFP-Growth. Ensuite la


section 3 décrit son architecture. Enfin, nous finissons ce chapitre par une conclusion.
2. Les concepts des règles d’association pondérées
Soit D la base de données de l’ensemble de transaction constituée des éléments
I= {i1, i2, i3, ….,im}. Chaque transaction est un sous-ensemble de I, qui attribue un
identificateur de transaction<TID>
Définition 1
Une règle d’association est de la forme XY, ou X I, Y I, et X Y= .

Définition 2
Le support de la règle d’association XY est la probabilité que X Y existe dans la
transaction de la base de données D

Définition 3
La confiance du règle d’association XY est la probabilité que Y existe étant donné
qu’une transaction contient X, i.e.,
Confiance (XY)=

Définition 4 :(Item weight):


le poids d’item est une valeur fixée à un élément ij représentant son importance.On note
par W (ij) avec 0 W(ij) 1.

Définition 5
Une règle d’association XY est une règle intéressante si X Y est fréquente, et la
confiance de la règle est supérieure ou égale à un seuil de confiance minimum.

Page 59
Chapitre3 : WFP-Growth

3. WFP-Growth
La figure 3.1 décrit l’architecture de WFP-Growth qui est composée de 5 étapes.

Notre étude repose sur les 3 dernières étapes.

 Collecte et acquisition des images.


 Extraction de caractéristiques.
 Algorithme d’extraction des règles.
 Extraction des règles d’association.
 Connaissances valides et exploitables.

Extraction des Algorithme d’extraction


Acquisition caractéristiques des règles FP-growth
d’image (Les descripteurs) pondéré

Extraction
des règles
d’association

Connaissances valides
et exploitables

FIGURE 3.1 L’ARCHITECTURE WFP-GROWTH.

3.1. Acquisition d’image:


La première étape consiste à collecté les images et créer une base de données pour
stocker ces images.
3.2. Extraction des caractéristiques
Les caractéristiques extraites seront organisées dans une base de données sous forme
d’un vecteur descripteur. Dans cette phase, on défini les descripteurs d’image utiles
pour extraire les informations concernons l’image (couleur, texture, …).

Page 60
Chapitre3 : WFP-Growth

3.2.1. Descripteur couleur


La couleur est une caractéristique riche d'information et très utilisée pour la
représentation des images. Elle forme une partie significative de la vision humaine.
3.2.2. Descripteur texture
La texture permet de combler un vide que la couleur est incapable de faire,
notamment lorsque les distributions de couleurs sont très proches. Fondamentalement la
texture est définie comme la répétition d'un motif créant une image visuellement
homogène. Plus précisément, la texture peut être vue comme un ensemble de pixels
(niveaux de gris) spatialement agencés selon un certain nombre de relations spatiales,
ainsi créant une région homogène.
3.2.3. Descripteur forme
Au même titre que pour la texture, l'information de forme est complémentaire de
celle de la couleur. La forme est généralement une description très riche d'un objet.

3.2.4. Synthèse des méthodes d’extraction des caractéristiques

Type de Méthodes Avantages Inconvénients


descripteur

Couleur Calcul Invariante à la Variante au


d’histogramme rotation et la changement
translation. d’échelle

Texture Filtre de Gabor Très efficace pour Très gourmand en


décrire la texture temps de calcul.

Outil très puissant, Problème de calcul


Forme le descripteur peu sensible au de distance
Fourrier bruit
Préservation de
l’information

TABLEAU3.1 REPRESENTATIONS DES METHODES D’EXTRACTION DES CARACTERISTIQUES.

Page 61
Chapitre3 : WFP-Growth

3.3. Algorithme d’extraction des règles d’association (WFP-growth pondéré)


Dans notre approche, nous allons utiliser l'algorithme FP-growth augmenté par le
poids de chaque item. L’algorithme proposé est appelé WFP-growth (FP-growth
pondéré) afin d’extraire les règles d'association.
WFP-growth pondéré comprend deux étapes. La première étape permet de construire
la structure WFP-tree. La seconde est l’étape d’exploration de la structure WFP-tree
pour trouver les itemset fréquents où les bases conditionnelles sont construites. La
figure 3.2 montre les étapes de WFP-Growth.

Début

 Parcours de la base des transactions pour trouver le support des items


 On associe pour chaque item un poids afin de calculer le support pondéré.

WMinSup

Obtenir les items fréquents(les éléments dont la fréquence pondérée est supérieure au
support minimum pondérée)

Trier les items en fonction de leur support pondérée

Construire WFp-tree
 Création du nœud racine.
 Insertion des nœuds enfants

Pour chaque item, construire la base de données conditionnelle

WminSup ,Minconf

L’extraction des règles d’associations

FIGURE 3.2 REPRESENTATION DU SCHEMA CONCEPTUEL DE NOTRE APPROCHE.

Page 62
Chapitre3 : WFP-Growth

3.3.1. Construction de WFP-Tree


Un WFP-tree est une structure compacte constituée d'un :
1. Arbre : mise à part la racine nul, chaque nœud de l'arbre contient trois informations:
l'item que représente ce nœud, sa fréquence, ainsi que le nœud suivant dans l'arbre.
2. Index : contient la liste des items fréquents. A chaque item est associé un pointeur
indiquant le premier nœud de l'arbre contenant cet item.

Algorithme : Construction WFP-tree

Entrée : Une base de transaction D, un support min min_sup et un poids Wi


Sortie : WFP-tree de D
Méthode : WFP-tree est construit comme suite :

1- Un premier parcours de la base de données D. Collecter F, l’ensemble des


items fréquents et leurs supports.
On associer pour chaque item une valeur fixe appelé le poids pour calculer le
support pondéré(Wsup)
Wsup=sup*W
Ordonner F par ordre décroissant des supports dans f_list.

2- Créer la racine « null » dans WFP-tree (T).


Pour chaque transaction Trans dans D faire :
Sélectionner les items fréquents dans Trans et les ordonner suivant l’ordre
dans f_list. Soit la liste des items fréquents ordonner [p | P], avec p est le
premier élément et P le reste des éléments dans f_list.
Appeler insert_tree ([p | P], T).
fonction insert_tree ([p | P], T)
Tant que P n’est pas vide faire
Si T a un fils N tel que N.nom-item = p.nom-item alors incrémenter le
Compteur de N par 1
Sinon créer un nouveau nœud N avec un compteur initialisé à 1.
insert_tree(P,N)
Fin faire

La construction du WFP-tree nécessite deux parcours de D et se fait de la manière


suivante : pour un support minimum donnée, on effectue un premier parcours pour
déterminer les items fréquents, on calcule le support pour chaque items et on associer
pour chaque item une valeur fixe appelé le poids pour calculer le support
pondéré(Wsup)
On fait un tri par la suite par ordre décroissant de support dans une liste f_list. Les
items ainsi triés seront traités dans cet ordre.

Page 63
Chapitre3 : WFP-Growth

Un second parcours de D est ensuite effectué où chaque transaction est triée par ordre
décroissant de support des items. Le nœud racine de l'arbre nul est d'abord créé. Durant
ce même parcours, une branche sera créée pour chaque transaction, mais des
transactions ayant un même préfixe partageront le même début d'une branche de l'arbre,
ainsi deux transactions identiques seront représentées par une seule et même branche.
La raison pour laquelle les items sont traités du plus fréquent au moins fréquent est que
les items fréquents seront proches de la racine et seront mieux partagés par les
transactions. Ceci fait du WFP-tree une bonne structure compacte pour représenter les
bases transactionnelles.

3.3.2. Base de données conditionnelles


Une fois la structure WFP-tree est construite l’exploration de l’arbre se fait par la
construction des bases conditionnelles. Celles ci ne contiennent que les items qui co-
occurrent avec le 1-itemset en question. Le WFP-tree conditionnel associé est construit.
Pour la construction de la base conditionnelle on commence par construire les patterns
base ensuite à partir de celles-ci on construit les bases conditionnelles [5]

Algorithme : Algorithme de construction de la base conditionnelle

1) Construire le pattern base conditionnelle pour chaque item du WFP-tree


2) Construire le WFP-tree conditionnel pour chaque pattern-base
conditionnelle
3) Recommencer pour chaque WFP-tree conditionnel créé
4) Jusqu’à obtenir des WFP-tree vides ou ne contenant qu’un seul chemin.
5) Construire les ensembles fréquents à partir des WFP-tree non-vides.

3.4. Extraction des règles d’association :


Pour générer les règles d'association, on considère l'ensemble F des itemsets fréquents
trouvés en phase précédente. Pour chaque itemset fréquent l . Á partir de ces sous-
ensembles fréquents, on fait tous les combinaisons possibles.

Cette phase reste tout de même exponentielle dans la taille des itemsets fréquents car le
nombre de règles pouvant être générées à partir d'un k-itemset de taille supérieure à 1
est égal 2  2 .
k

3.5. Connaissances valides et exploitables :


Après l’étape d’extraction des règles d’association, on calcule la confiance de chaque
règle.

Les règles valides sont les règles qui ont la confiance supérieure ou égale à Minconf .Ce
sont les connaissances valides et exploitables.

Page 64
Chapitre3 : WFP-Growth

4. Exemple d’application
Soit la base transactionnelle représentée dans le tableau 3.2. Supposons que le support
minimum est défini à 50% et la valeur de la confiance minimum est 75%.

TID Items
1 f, a, c, d, g, i, m, p
2 a, b, c, f, l, m, o
3 b, f, h, j, o
4 b, c, k, s, p
5 a, f, c, e, l, p, m, n
TABLEAU 3.2 LA BASE DES TRANSACTIONS.

phase1:

Dans cette étape, nous allons parcourir la base de transactions afin de calculer le support
pondéré des éléments qui s’y trouvent. On associe pour chaque item une valeur fixe
appelé le poids pour calculer le support pondéré(Wsup).

Item Support Poids Wsup


a 3/5 0.80 0.480
b 3/5 0.90 0.540
c 4/5 0.82 0.656
d 1/5 0.94 0.188
e 1/5 0.81 0.162
f 4/5 0.83 0.664
g 1/5 0.91 0.182
h 1/5 0.84 0.168
i 1/5 0.93 0.186
j 1/5 0.92 0.184
k 1/5 0.85 0.170
l 2/5 0.88 0.352
m 3/5 0.86 0.516
n 1/5 0.95 0.190
o 2/5 0.89 0.356
p 3/5 0.96 0.576
s 1/5 0.87 0.174

TABLEAU 3.3 LE SUPPORT DES ITEMS AVEC LEUR POIDS ET WSUP.

Page 65
Chapitre3 : WFP-Growth

Phase 2

Seuls les items dont le support est supérieur au support minimum seront retenus, les
autres seront ignorés.

Item Support Wsup

A 3 0.480
B 3 0.540
C 4 0.656
F 4 0.664
M 3 0.516
P 3 0.576

TABLEAU 3.4 LES ITEMS FREQUENTS.

Phase 3
Cette étape consiste à ordonner les différents éléments en fonction de leur support
pondéré. Ce tri s’effectue en ordre décroissant, l’élément ayant comptabilisé le plus
grand nombre d’occurrences du support pondéré est placé en tête et l’élément ayant
comptabilisé le moins d’occurrences est placé en queue. Ce traitement sera effectué
pour chacune des lignes de transactions contenues dans la base des transactions.

TID Items Fréquent Items (ordonnées)

1 {f, a, c, d, g, i, m, p} {f, c, p, m, a }
2 {a, b, c, f, l, m, o} {f, c, b, m, a }

3 {b, f, h, j, o, w} { f, b}
4 {b, c, k, s, p} { c, p, b }

5 {a, f, c, e, l, p, m, n} {f, c, p, m, a }
TABLEAU 3.5 LES ITEMS FREQUENTS ORDONNES.

Dans notre cas, l’élément f ayant un Wsup de 0.664 est placé en tête, l’élément a ayant
un Wsup de 0.48 se retrouve en dernière position.
Phase 4
A partir du résultat obtenu lors de l’étape précédente, nous commençons la construction
de la structure WFP-tree. Tout d’abord l’élément ‘Racine’ de l’arbre est créé. Cet
élément racine ne contiendra aucun élément. Il contiendra uniquement des liens vers ses
éléments enfants.

Page 66
Chapitre3 : WFP-Growth

Item Support Wsup {}

F 4 0.664
f : 0.664

C 4 0.656
c : 0.656
P 3 0.576
P : 0.576
B 3 0.540

M 3 0.516
m : 0.516

A 3 0.480
a : 0.480

FIGURE 3.3 CONSTRUCTION WFP-TREE A PARTIR DE LA 1ERE TRANSACTION.

La construction se poursuit avec la deuxième transaction qui est composée des éléments
(f, c, b, m, a). Cette fois-ci l’arbre contient des éléments et par conséquent pour chaque
élément trouvé son nombre d’occurrences est incrémenté de 1.

{}
Item Support Wsup
F 4 0.664 f : 1.328

C 4 0.656
c : 1.312
P 3 0.576
P : 0.576 b : 0.540
B 3 0.540
M 3 0.516 m : 0.516
m : 0.516
A 3 0.480
a : 0.480 a : 0.480

FIGURE3.4 CONSTRUCTION WFP-TREE A PARTIR DE LA 2EME TRANSACTION.

A la fin du traitement de toutes les transactions de la base la structure finale de WFp-


tree est illustrée par la figure suivante.

Page 67
Chapitre3 : WFP-Growth
{}
Item Support Wsup
F 4 0.664 f : 2.656 c : 0.656
C 4 0.656
c : 1.968 b : 0.540
P 3 0.576
B 3 0.540 P : 1.152 b : 0.540 P : 0.576
M 3 0.516
m : 1.032 m : 0.516 b : 0.540
A 3 0.480

a : 0.960 a : 0.480

FIGURE 3.5 ETAT FINAL DE LA STRUCTURE WFP-TREE.


Phase 5

Construction d’une pattern-base conditionnelle à partir d’un FP-tree


Pour chaque item fréquent construire les chemins préfix dans le WFP-tree.
Item Ensemble
A {<fcpm: 0,960>;<fcbm:0,480>}
M {<fcp:1,032>;<fcb:0,516>}
B {<fc:0,540>;<cp:0,540>;<f:0,540>}
P {<fc:1,152>;<c:0,576>}
C {<f:1,968>}
F -
TABLEAU 3.6 REPRESENTATION DE PATTERN-BASE CONDITIONNELLE.

Construction d’un WFP-tree conditionnel à partir d’une pattern-base


conditionnelle
Fusionner les préfixes identiques et conserver les sous-chemins de support >= 1.

ITEM PATTERN-BASE CONDITIONNELLE WFP-TREE CONDITIONNEL


A {<FCPM : 0.960> ;<FCBM : 0.48>} <F : 1.44, C : 1.44, M : 1.44>
M {<FCP : 1.032> ;<FCB : 0,516>} <F : 1.548, C : 1.548, P : 1.032>
B {<FC : 0,540> ;<CP : 0.54>; >;<F:0,540>} <F : 1.080, C : 1.080>
P {<FC : 1.152> ;<C : 0.576>} <F : 1.152, C : 1.728>
C {<F : 1.968>} <F : 1.968>
TABLEAU 3.7 REPRESENTATION DE WFP-TREE CONDITIONNEL

Page 68
Chapitre3 : WFP-Growth

Phase 6

item itemsets fréquents

A a, fa, ca, ma, fca, fma, cma, fcma

M m, fm, cm, pm, fcm,f pm, cpm, fcpm

B b , fb, cb, fcb

P p, fp, cp, fcp

C c, fc
TABLEAU 3.8 L'EXTRACTION DES ITEMSETS FREQUENTS.

Phase 7

TABLEAU 3.9 GENERATION DE TOUTES LES COMBINAISONS.

5. Conclusion

Ce chapitre englobe les différentes étapes que nous avons suivies pour la mise en
œuvre de notre application pour extraire les règles d’associations. Nous avons présenté
l’architecture générale de notre solution en utilisant l’algorithme FP-growth pondéré.
Dans ce qui suit, nous allons effectuer une série d’expérimentations sur l’algorithme de
manière à évaluer sa performance. Les résultats de ces tests sont présentés dans le
chapitre suivant.

Page 69
Chapitre 4

Expérimentations

Page 70
Chapitre 4 : Expérimentations

Chapitre 4
Expérimentations
1. Introduction
Ce chapitre fait l’objet de mise en place de notre application (outil) en concrétisant
les objectifs et la conception décrits dans le chapitre précédent. Cette partie décrit
principalement l’environnement existant, qui est mis en place pour exécuter notre
système, les outils utilisés, ainsi que des aperçus de l’application conçue et les résultats
fournis.
Dans ce chapitre d’implémentation, nous avons illustrés les différentes parties de
l’application à savoir les outils utilisés pour le développement de l’application.
 la représentation des interfaces.
 Etude comparative de l’algorithme W-Apriori et WFp-Growth.
2. Outils de Mise en œuvre :
2.1. Langage de développement :
Nous avons réalisé notre application avec le langage Java qui est un langage de
programmation objet développé par Sun. Sa syntaxe est dérivée de celle du C++.
Java est un langage multiplateforme, c’est-à-dire que les programmes, une fois écrits
peuvent s’exécuter indifféremment sous différents environnements.
Java étant un langage relativement jeune, il a été conçu dès le départ pour intégrer
des fonctionnalités sécurité et réseau avancées. De plus, il bénéficie d’une API très
vaste, permettant au programmeur de réaliser facilement un grand nombre de tâches.
2.2. Outils utilisés :
Dans ce qui suit, nous allons énumérer les technologies utilisées lors de la réalisation
de notre solution.
NetBeans 8.0.2 : Cet IDE a été créé à l'initiative de Sun Microsystems. Il présente
toutes les caractéristiques indispensables à un environnement de qualité, que ce soit
pour développer en Java, Ruby, C/C++ ou même PHP.
NetBeans est sous licence Open Source, il permet de développer et déployer rapidement
et gratuitement des applications graphiques Swing, des Applets, des JSP/Servlets, des
architectures J2EE, dans un environnement fortement personnalisable.
La plate-forme NetBeans contient des API qui simplifient la gestion des fenêtres, des
actions, des fichiers, et bien d’autre chose typiques dans les applications.
Un module de NetBeans est un groupe de classes java qui fournit une application avec
une fonctionnalité spécifique.
Notre choix s’est appuyé sur cette plate-forme à des raisons suivantes :
 Un contexte de déploiement runtime pour des fonctionnalités arbitraires qui
simplifient le développement.
 Une boîte à outils qui permet de gagner beaucoup de temps en
développement et d'effort.

Page 71
Chapitre 4 : Expérimentations

2.3. La base de données utilisées


2.3.1. L’imagerie médicale
L'imagerie médicale est le procédé par lequel un médecin peut examiner l'intérieur du
corps d'un patient sans l'opérer.

L'imagerie médicale peut être utilisée à des fins cliniques pour l'établissement d'un
diagnostic ou pour le traitement de pathologies mais également dans le cadre de travaux
de recherche scientifique étudiant la physiologie des êtres vivants.[39]
2.3.2. Mammographie
La mammographie réalise une projection du volume du sein sur le plan de l’image. Elle
permet d’analyser la glande mammaire grâce aux différences de l’atténuation des
différents types de tissu.

L’avantage de la visualisation de l’ensemble des tissus mammaires sur une seule image
est directement lie à l’un de ses plus grands défauts, la superposition des différents
tissus traverses par le même rayon et projetés sur un seul endroit du détecteur.

Cette superposition est une source d’incertitude, puisqu’il n’est plus possible de
distinguer sur l’image, des surdensités réelles qui correspondent à une région radio-
opaque dans le tissu en trois dimensions, et des superpositions de plusieurs tissus avec
des densités relativement faibles.

La mammographie est largement considérée comme la technique la plus fiable pour le


diagnostic du cancer du sein, elle joue un rôle central dans la détection précoce de ce
cancer, car elle peut montrer les changements dans le sein jusqu'à deux ans avant qu’une
patiente ou le médecin peut les sentir.

On peut classer les signes d’anomalies en trois catégories :


 Les densités asymétriques.
 Les masses (dont on précise la forme, la taille, les caractéristiques des bords) et
les distorsions architecturales.
 Les micro-calcifications (dont on peut préciser la taille, le nombre, la
morphologie, la distribution et l'hétérogénéité).

Parmi ces trois les foyers de micro-calcifications sont les premiers signes d’alerte de
cette maladie. Plusieurs pays du monde organisent des campagnes de dépistages, ces
derniers montre que la technique de mammographie peut réduire de près de 40% les
décès causés par ce cancer.

Cette technique a un inconvénient, les effets d’une exposition au rayonnement plusieurs


fois suscitent des inquiétudes.[40]

Page 72
Chapitre 4 : Expérimentations

2.3.3. Base de données mammographies


Accéder aux vraies images médicales pour effectuer les tests est très difficile cela est du
aux issues de la vie privée du patient et aux obstacles technologiques.
Les films de mammographie à rayon X ont été numérisés.
Des filtres ont été utilisés pour numériser les mammographies conventionnelles en
mesurant la densité optique (Optical Density OD) des petites fenêtres des régions de
film. La taille de fenêtre détermine la résolution spatiale de l’image numérisée.

La résolution est typiquement exprimée en unités des microns par Pixel, indiquant la
taille de la région carrée du film que chaque pixel représente dans l’image.
La valeur exacte de Pixel dépend du rang de la densité optique (OD) et du nombre de
bits employé pour stocker le niveau gris de chaque Pixel.

Le taux de détection des anomalies de mammographie par ordinateur dépend


partiellement de la résolution spatiale et les rangs des niveaux gris.[41]
2.3.4. MIAS: Mammography Image Analysis Society
(MIAS) une base de donnés de mammographies numériques : les images de type MLO
(incidence latérale oblique) sont numérisées avec une résolution de 50 μm par pixel sur
8 bits. La résolution spatiale de chaque image est de 1024 x 1024 pixels.

Les 60 images sont réparties en 30 images normales et 30 images incluant des foyers de
MC dont 15 malins et 15 bénins. Ces foyers ont été identifiés par les radiologues
experts.[41]
2.3.5. Description des données
Nous travaillons sur une base d’images mammographie dans le but d’évaluer et valider
notre algorithme d’extraction des règles d’association à partir de ces images. Cette base
est composée de 322 images plus le fichier de métadonnées qui contient des
informations concernant chaque image. [42]

Exemple de fichier utilisé :

mdb001 G CIRC B 67 53 25
mdb002 G CIRC B 65 35 9
mdb003 D NORM N
mdb004 D NORM N
mdb005 F CIRC B 60 17 4
mdb005 F CIRC B 63 21 3
mdb006 F NORM N
mdb007 G NORM N
mdb008 G NORM N
mdb009 F NORM N
mdb010 F CIRC B 66 53 4
mdb011 F NORM N
mdb012 F CIRC B 59 57 5

Page 73
Chapitre 4 : Expérimentations

2.3.6. La description de chaque item


F : Fatty
G : Fatty-glandulaire
D : Dense-glandulaire
CALC : Calcification
CIRC : Masses circonscrites bien définis
SPIC : Spiculée masses
MISC : Autres, des masses mal définies
ARCH: Distorsion architecturale
ASYM: Asymétrie
NORM: Normal
B : Bénigne
M : Maline
N : Normal
x, y : Cordonnées de centre de l'anomalie
r : Rayon approximatif (en pixels)

3. la représentation des interfaces


 Une barre de menu

On a deux menus et , la première qui permet d’accédé au fichier qui


contient la base de donnée et la deuxième qui rend la base de donnée transactionnel,
affiche leur caractéristique et les paramètres de cette base de données.

 Une page de travail : elle se décompose en deux colonnes :


 La première colonne nommée contient :

 : pour trouver le fichier qui contient la base de


données.
 Un fichier de la base de données :

FIGURE 4.1 LE FICHIER DE LA BASE DE DONNEES.

Page 74
Chapitre 4 : Expérimentations

 Une base de données qui contient les paramètres suivant :

FIGURE4.2 LA BASE DE DONNEES.

Réf : les références des images.


Tissus : leurs tissus.
Class : leur classe.
Severity: la gravité de la maladie
X : coordonnée de l’image suivant l’axe des x
Y : coordonnée de l’image suivant l’axe des y
R : rayon
 Génération des poids : on a les champs et leurs affectations des poids.

FIGURE4.3 GENERATION DES POIDS.

Page 75
Chapitre 4 : Expérimentations

 la deuxième colonne nommée contient :


 Base de données transactionnelle : elle permet
d’afficher les paramètres de cette base de
données et leur poids

FIGURE 4.4 LA BASE DE DONNEES TRANSACTIONNELLE

- Les caractéristiques de base : Elle contient tous les paramètres de cette base de
données en binaire.

FIGURE 4.5 LES CARACTERISTIQUES DE LA BASE DE DONNEES.

Page 76
Chapitre 4 : Expérimentations

- Les paramètres de l’application : quand on clique sur ce bouton

il donne deux parties :


- La partie à gauche contient :
-Une base des transactions contient les TID et les Items :

FIGURE 4.6 LA BASE DES TRANSACTIONS (TID->ITEMS).

-Une base des transactions en binaire :

FIGURE 4.7 : UNE BASE DES TRANSACTIONS (BINAIRE).

Page 77
Chapitre 4 : Expérimentations

-Un journal d’évènement : Il ne s’exécute que lorsqu’on lance la deuxième


partie (à droite).
La partie à droite elle-même se décompose en deux parties :
- La partie amont qui permet de lancer l’algorithme W-Apriori(MWAR)

Le nombre de Le nombre
transaction des items

Le minimum
support
La minimum
confiance
Exécution de
l’algorithme

-
FIGURE 4.8 INTERFACE D’EXECUTION DE L’ALGORITHME P-APRIORI.

LANCEMENT DE W-APRIORI

Lorsqu’on clique sur ce bouton : la partie en amont du


journal d’évènement s’exécute et afficher le résultat suivant :
Qui permet de calculé le temps d’exécution en millisecondes, le nombre de fréquent
itemsets et le nombre de transaction, il affiche la liste des itemset fréquent.

FIGURE 4.9 RESULTATS DE L’ALGORITHME W-APRIORI.

Page 78
Chapitre 4 : Expérimentations

- La partie en aval qui permet de lancer l’algorithme WFp-Growth :

Le nombre de Le nombre
transaction des items

Le minimum
support
La minimum
confiance
Exécution de
l’algorithme

FIGURE 4.10 INTERFACE D’EXECUTION DE L’ALGORITHME WFP-GROWTH.

 lancement de WFP-Growth

Lorsqu’on clique sur ce bouton : la partie en aval du


journal d’évènement s’exécute et afficher le résultat suivant :
Qui permet de calculer le temps d’exécution en millisecondes, le nombre de fréquent
itemsets et le nombre de transaction, il affiche la liste des itemsest fréquents et aussi
l’arbre de ce résultat Fp-tree

FIGURE 4.11 : RESULTATS DE L’ALGORITHME WFP-GROWTH.

Page 79
Chapitre 4 : Expérimentations

 Un bouton qui permet de donner les statistiques de chaque algorithme.


Et après l’exécution des deux algorithmes on obtient les règles d’associations.
 Les règles d’associations :
On a les règles d’associations de l’algorithme W-Apriori et les règles d’associations de
l’algorithme WFp-Growth :

FIGURE 4.12 LES REGLES D’ASSOCIATION DE L’ALGORITHME WFP-GROWTH.

 Statistique : après avoir cliqué sur le bouton


Et En se basant sur le temps d’exécution de chaque algorithme, on compare les deux :

MWAR WFP-Growth

FIGURE 4 .13 LE TEMPS D’EXECUTION DE LES ALGORITHMES W-APRIORI(MWAR) ET WFP-


GROWTH.

Page 80
Chapitre 4 : Expérimentations

4. Etude comparative de l’algorithme W-Apriori (MWAR) et WFp-


Growth
Après l’étude sur les deux algorithmes W-Apriori(MWAR) et WFp-Growth selon
différentes valeurs du WMINSUP définis dans le tableau 4.1, nous avons prélevé le
temps d’exécution des deux algorithmes.

WMINSUP Temps d’exécution Temps d’exécution


% (MWAR) (WFp-growth)
10 185 30
15 222 17
20 114 10
25 107 8
30 139 27
35 140 21

TABLEAU 4.1 COMPARAISON ENTRE L’ALGORITHME W-APRIORI ET WFP-GROWTH.

FIGURE 4.14 COMPARAISON ENTRE L’ALGORITHME W-APRIORI ET WFP-GROWTH.

Le tableau 4.1 et la figure 4.14 montrent clairement que WFP-Growth est meilleur en
temps d’exécution que MWAR.
5. Conclusion
Dans ce chapitre, nous avons décrit les détails de l’algorithme WFP-Growth avec son
mise en œuvre avec le langage de programmation java et la plate forme NETBEANS
comme environnement de développement.
Ensuite, nous avons mené quelques expérimentations sur les deux algorithmes où nous
avons comparé le temps d’exécution des deux algorithmes. Nous sommes arrivées au
résultat que notre algorithme est meilleur de point de vue temps d’exécution que
MWAR.

Page 81
Conclusion générale et Perspectives

CONCLUSION GENERALE ET
PERSPECTIVES

La fouille d’image médicale se situe entre deux domaines principaux qui sont le
traitement de l’image médicale et la fouille de données. Ce qui nous a poussé de les
étudié pour concevoir notre contribution. Cette dernière fournit un outil d’aide à la
décision pour les radiologues et les médecins.
Nous nous sommes intéressés à la technique des règles d’association qui est une
technique descriptive et prédictive dans les images médicales. Pour cela nous avons
étudié les principaux algorithmes d’extraction des règles d’association dans les images
médicales. Nous avons relevé quelques insuffisances où nous avons apporté des
améliorations. Par conséquent, nous avons conçu notre méthode sur la base de
l’algorithme FP-Growth avec l’introduction du poids des itemsets dans ce dernier. Pour
valider notre algorithme nous avons réalisé une étude comparative entre notre
algorithme et l’algorithme MWAR. Les résultats de l’étude montrent clairement la
performance de notre algorithme par rapport à MWAR.
Néanmoins notre algorithme reste tributaire de la structure FP-tree de l’algorithme FP-
Growth qui peut ne pas contenir en mémoire centrale. Pour une première perspective
nous proposons d’utiliser d’autres structures plus compactes que FP-Tree dans notre
algorithme.
Les utilisateurs finaux de ce nombre important des règles d’association doivent fouiller
encore pour extraire des règles d’association qui les intéresse. Pour une deuxième
perspective, nous proposons de classifier ces règles d’association et les présenté aux
utilisateurs.

Page 82
Bibliographie

BIBLIOGRAPHIE
[1]. Cours : « informatique décisionnelle, système d’information pour stratégie et
pilotage d’entreprise », Département informatique théorique, chapitre n°6 leçon :
Datamining Disponible sur : https://fr.wikiversity.org/wiki/Datamining/Applications
[2]. Karras D.A., Karkanis S.A., Maroulis D.E., “Efficient Image Compression of
Medical Images Using the Wavelet Transform and Fuzzy c-means Clustering on
Regions of Interest”, Proceedings of The 26th EUROMICRO Conference, 2000, Los
Alamitos, CA, USA, Vol. 2, P. 469-473.
[3]. Giorgio Pauletto, « Méthodes statistiques et la fouille de données », Haute École de
Gestion 19 février 2009
[4].Khiat Salim « LA FOUILLE MULTI-SOURCES DE DONNEES MULTI-
NIVEAUX », Septembre 2015. Thèse de doctorat de l’Université des Sciences et de la
Technologie d’Oran Mohamed Boudiaf.
[5]. khiat Salim. « La fouille de données Industrielle: application à la maintenance
AVAL/SH ». Memoire de Magister, 2007. USTO
[6]. Honeyman J.C., Frost M.M., Moser R., et al., "RIS requirements to support a PACS
infrastructure", Proceedings of the SPIE – The International Society for Optical
Engineering, 1996, Vol. 2711, P. 120-125.
[7]. Mohamed el hadi benelhadj, « Entrepôt de Données et Fouille de Données Un
Modèle Binaire et Arborescent dans le Processus de Génération des Règles
d'Association , thèse de doctorat en science spécialité informatique.
[8].R. Agrawal et R. Srikant. «Fast algorithms for mining association rules in large data
bases». In proceedings of the 20th international conference on Very Large Data Bases 1
994.
[9]. Professor Anita Wasilewska .«APRIORI Algorithm». Lecture Notes.
[10].E-G Talbi. « Fouille de données (La fouille de données) – Un tour d’horizon».
Présentation en ligne. Laboratoire d’informatique fondamentale de Lille (LIFL).
(Consulté le 02.11.2009). Disponible sur : http://www2.lifl.fr/~talbi/Cours-Data-
Mining.pdf.
[11]. A. STORCK . « MIMS : un système de description et de recherche d’images
médicales ». Décembre 2001 .document d’habilitation doctorale. Institut national des
sciences appliquées de Lyon.
[12]. Carlos Ordonez et Edward Omiecinski, Image Mining: A New Approach for Data
mining 1998
[13].Ji Zhang et Wynne Hsu et Mong Li Lee,IMAGE MINING: ISSUES,
FRAMEWORKS AND TECHNIQUES 2001 .
[14]. Rajiv Gandhi et Sanjay Silakari et Nishchol Mishra ,Image Mining in the Context
of Content Based Image Retrieval 2012.
[15]. Mong Li Lee et Ji Zhang et Wynne Hsu, Image Mining: Trends and
Developments. Journal of Intelligent Information Systems. July 2002, Volume 19, Issue
1, pp 7-23. Springer Link.

Page 83
Bibliographie

[16].T.Karthikeyan et P.Manikandaprabhu , Function and Information Driven


Frameworks for Image Mining in International Journal of Advanced Research in
Computer and Communication Engineering, Vol. 2, Issue 11, November 2013.
[17]. Bruijn F.J., M. Schrijver, and C.H. Slump, “Lossy Compression of Cardiac X-Ray
Images Based on Acquisition Noise”, CAR'97. Computer Assisted Radiology and
Surgery. Proceedings of the 11th International Symposium, 25-28 June 1997; Berlin.
Amsterdam : Elsevier, 1998, P. 432-437.
[18]. MEHDI EL KRARI, Image Mining(appliqué au base de données avancées),
université Mohamed 6-agdal Rabat 2012.
[19].K. J. Cio, and G. W. Moor, « Uniqueness of medical data mining», Artificial
Intelligence in Medicine, 2002.
[20].L. H. P. Jianzhong, and W. Zhang, «Mining interesting association rules in medical
images». Dept. of Computer Science, Harbin institute of Technology, Harbin, P.R
, China, 2005.
[21].A.H. Andersen, Z. Zhang, M.J. Avison, and D.M. Gash, «Automated Segmentation
of multi-spectral brain MR images» Journal of Neuroscience Methods, vol.122,
pp. 13–23, 2002.
[22]. P. Leblond, J. F. Mari, and B. Aigle, « Fouille de données du génome à l’aide de
modèles de Markov cachés »EGC 2005, Paris, France, 2005.
[24]. Huang et al, “GMA: An Approach for Association Rules Mining on Medical
Images”, Springer-Verlag Berlin Heidelberg 2012, (Eds.): ICIC 2012, LNAI 7390, pp.
425–432, 2012.
[25]. Sheela, L.J, Shanthi, V. Singh, D.J:“Image Mining using Association rules derived
from Feature Matrix”. In: proceedings of the 2009 International Conference on
Advances in Computing, Communication and Control (ICAC3 2009), Mumbai,
Maharashtra, India, pp. 440–443 (2009)
[26]. Yen, S.J, Chen, A.L.P: “An Efficient Approach to Discovering Knowledge from
Large Database”. In: Proceedings of the IEEE/ACM International Conference on
Parallel and Distributed Information Systems, Los Angeles, USA, pp. 8–18 (1996).
[27]. Yen, S.J., Chen, A.L.P.: “A GraphBased Approach for Discovering Various Types
of Association Rules”. IEEE Transactions on Knowledge and Data Engineering 13(5),
839-845 (2001)
[28]. Pan, H.W., Li, J.Z., Zhang, W.: “Incorporating Domain Knowledge into Medical
Image Clustering”. Applied Mathematics and Computation 185(2), 844–856 (2007)
[29].Haiyan Xue and Lixia Zou, “Application of New Weighted Association Rules
Model for Medical Images data mining”, Springer Verlag Berlin Heidelberg 2012
pp.829
[31].C.H.Cai, Ada W.C. Fu, C.H. Cheng and W.W. Kwong, “Mining Association Rules
with Weighted Items”. Proceedings of the 1998 International Symposium on Database E
ngineering & Applications, Cardiff, Wales, 1998, pp. 68-77
[32]. P. Rajendran, M.Madheswaran, “ Hybrid medical image classification using
association rule mining with decision tree algorithm”. Journal of computing,volume 2,
issue 1, January 2010, ISSN 2151-9617
[33]. C.Gyorodi, R. Gyorodi, T. Cofery and S. Holbani, ”Mining Association Rules
Using Dynamic FP-Trees,” in Proc. Of Irish signal and System Conference, University
of Limerick, Ireland, pp.76-82, 2003.

Page 84
Bibliographie

[34].S. Lu, Z. Lu,”Fast Mining Maximum Frequent Itemsets,” Journal of Software, vol.
12(2), pp. 293-297, 2001.
[35]. A.Neumann, J.Holstein, J.Le Gall and E.Lepage.,”Measuring performance in
health care: case-mix adjustment by boosted decision trees,” Artificial Intelligence in
Medicine, Vol. 32(3), pp. 97-113, 2004.
[36].F. Peter and J. Abonyi, “Association Rule and Decision Tree Based Methods for
Fuzzy Rule Base Generation,” World Academy of Science, Engineering and Technolog
y 13, 2006.
[37]. E. Baralis and S. Chiusano, ”Essential Classification rate sets,” ACM
Transactions on Database Systems, vol. 29(4) ,2004.
[38]. X.R. Marcela, J.M.T. Agma, T. Caetano and M.A.M. Paulo, “An Association Rule
-Based Method to Support Medical Image Diagnosis With Efficiency,” IEEE
transactions on multimedia, vol. 10 (2), pp.277-285, 2008.
[39].Wikipedia « l’encyclopédie libre » fr.wikipedia.org
[40].Ayadi hakim, Bouanoun bilal, système d’aide à la détection de maladies sur image
médicale basé sur les réseaux de neurones, mémoire d’ingénieur d’état en
informatique ; 2010.
[41]. http://marathon.csee.usf.edu/Mammography/database.html.
[42]. http://peipa.essex.ac.uk/info/mias.html
[43].Toro J., Medina R., Garreau M., et al., “A Markovian Approach to Reconstruction
of the Left Ventricle from Two Angiographic Views”, Irish Signal & Systems
Conference, 1997, London Derry, Northern Ireland, UK, P. 59-65.
[44].Loew M. H., Li D., Pickholtz R. L., “Adaptive pifs model in fractal image
compression”, SPIE Proceedings, 1996, Seattle WA, USA, Vol. 2707, P. 284-293.
[45].Kivijärvi J., Ojala T., Kaukoranta T., et al., “A comparison of lossless compression
methods for medical images”, Computerized Medical Imaging and Graphics, 1998, Vol.
22, N° 4, P. 323-339.
[46].Clunie D.A, “Lossless compression of grayscale medical images - effectiveness of
traditional and state of the art approaches”, Proceedings of the SPIE – The International
Society for Optical Engineering, 2000, Vol. 3980, P. 74-84.

Page 85

Vous aimerez peut-être aussi