Vous êtes sur la page 1sur 10

Elaboration d'un Systme hybride Neuro-Gntique Pour le Diagnostic Mdical

D.Yedjour*, A.Benyettou, H.Yedjour


Universit des sciences et de la Technologie d'Oran Facult des sciences Dpartement d'Informatique Email: dyedjour@yahoo.fr

Rsum: Les rseaux de neurones artificiels sont toujours considrs comme des boites noires, qui permettent aprs un apprentissage partir dune base dexemples incomplte, de classifier de nouveaux exemples, mais sans donner aucune explication sur les rsultats. Leurs connaissances sont codes de manire interne par les poids synaptiques, et ne sont pas donc exprimes de manire comprhensible. Les algorithmes gntiques trs performants dans les problmes dexploration semblent tre en mesure de rechercher dans lespace des ensembles de rgles, celui qui reprsentera le mieux les connaissances dun RNA. En revanche, ils sont inefficaces lorsqu'il s'agit de trouver la valeur exacte de l'optimum dans cet espace or, c'est prcisment ce que les algorithmes exacts d'optimisation ralisent le mieux. Nous prsentons dans cet article une nouvelle approche d'extraction de rgles partir d'un rseau de neurones permettant de combiner les deux mthodes mtaheuristiques et exactes au sein d'un mme systme. Mots-cls: Rseaux de neurones, Algorithme gntique, Extraction de rgles, Mthode de Quine Mc-Cluskey

1.

Introduction

Les rseaux de neurones sont devenus un outil de plus en plus utilis (industrie, parole, diagnostic mdicale, finance, traitement de signal et dans beaucoup d'autres problmes), grce leur capacit d'apprendre et de gnraliser, De plus ils sont peu sensibles aux donnes approximatives et la prsence de donnes incorrectes dans la base dexemple utilise lors de leur apprentissage. En revanche, les connaissances acquises lors de lapprentissage sont stockes par le RNA dans sa topologie et les poids de ses connexions, ce qui empche toute justification des rponses du rseau. Nous pouvons dire que le rseau est une sorte de boite noire [10]. Cependant l'extraction de rgles pertinentes demeure importante si les rsultats du rseau de neurones sont utiliss comme thorie initiale dans des problmes similaires [2]. Un system combinant le modle connexionniste et le raisonnement symbolique est dit systme hybride intelligent [5]. Il existe deux approches dans lexplicitation des connaissances dun RNA. lapproche dcompositionnelle qui tente danalyser la topologie et les poids des connexions dun rseau afin den dduire des rgles, on cite comme exemple RuleNet[9], RULEX[1], Subset [3], FullRE [12] , et l'approche pdagogique qui consiste non plus sintresser aux units dun rseau, mais simplement analyser ses rponses par rapport aux entres, on peut citer quelques travaux qui ont utilis cette approche VIA(Validity Internal analysis)[13], GEX(crisp Rule EXtraction) and REX (fuzzy Rule EXtraction) [6]. MulGEX [7], CGA[8], BIO-RE (Binary Input-Output Rule Extraction) [12]. Dans cet article, on dcrit une nouvelle mthode qui combine les algorithmes mtaheuristiques (algorithmes gntiques) avec les mthodes exactes (Quine-Mc-cluskey) afin d'extraire partir d'un rseau de neurones, les rgles binaires de la forme if-then. Les algorithmes gntiques trs performants dans les problmes dexploration semblent tre en mesure de rechercher dans lespace des ensembles de rgles, celui qui reprsentera le mieux les connaissances dun RNA. En revanche, ils sont inefficaces lorsqu'il s'agit de trouver la valeur exacte de l'optimum dans cet espace. Or, c'est prcisment ce que les algorithmes exacts d'optimisation ralisent le mieux. Il est donc naturel de penser associer un algorithme exact l'algorithme gntique de faon trouver la valeur exacte de l'optimum. On peut aisment le faire en appliquant la fin de l'algorithme gntique un algorithme exact sur le meilleur lment trouv. Notre systme est test sur la base de donnes cancer du sein de l'universit de Californie. Les expriences montrent que notre systme donne de bons rsultats.

2.

SYSTEME MC-RULEGEN

La figure1 prsente larchitecture de notre systme MC-RULEGEN, il est dcompos en 04 modules: le module perceptron multicouches, le module gntique, le module simplification de rgles, et enfin le module system base de rgles. 2.1. Module Apprentissage du rseau de neurones Les donnes doivent tre dans un format binaire, sinon une procdure de binarisation (1) sera appliqu sur les donnes non-binaires [12].

1 si xi ui yi = 0 sin on
Rgles finales System base de rgles Rgles Simplifies Module PMC Module Gntique Rgles extraites Module Optimisation rgles

(1)

o xi est la valeur de l'attribut Xi, ui est la valeur moyenne de Xi et yi est la valeur binaire correspondante.

Rgles Initiales

Extraction de rgles via le module gntique Exemples D'apprentissage

Fig. 1 - Architecture du systme MC-RULEGEN

Le PMC est appris partir d'une base d'exemple, chaque vecteur d'entre, est associe un vecteur de sortie (apprentissage supervis), nous avons utilis l'algorithme de la rtro-propagation. L'apprentissage sert determiner les valeurs optimales des poids (la matrice des poids), les connaissances du rseau sont contenues dans cette matrice. La phase de l'apprentissage ncessite la manipulation de plusieurs paramtres (momentum, fonction d'activation, frquence d'apprentissage,..) afin d'aboutir au rsultat voulu.

2.2. Module gntique


Les connaissances du rseau de neurones sont difficilement interprtables par un tre humain. Pour remdier cela, il convient dexpliciter ces connaissances, cest--dire les traduire sous une forme intelligible, une approche pdagogique bas sur les algorithmes gntiques est utilise. La rgle extraite doit avoir la forme suivante
if [not]x1 and [not]x2 . . . then C

[.] est facultatif

Mesure de qualits des rgles extraites Les rgles extraites doivent tre prcises et comprhensibles [4], [6]. La prcision (2) mesure la proportion des exemples correctement classs par la rgle parmi tous les exemples d'apprentissage
p rcision = nombre des exemples correcteme nt classs nombre total des exemples

(2)

La fidlit se calcule de la manire suivante: chaque individu est pass dans le rseau de neurone pour classification, le pourcentage des bonnes rponses est la valeur de la fidlit associ l'individu. La comprhensibilit calcule le nombre de rgles ainsi que le nombre de prmisses dans chaque rgle. Enfin la gnralisation est dfinit par (3)
Generalisa tion = 1 nombre de rgles nombre des exemples

(3)

Algorithme gntique pour l'extraction de rgles Les algorithmes gntiques (AG) sont des algorithmes d'optimisation s'appuyant sur des techniques drives de la gntique et de l'volution naturelle. ils utilisent la selection, le croisement et la mutation. Algorithme Gnrer alatoirement une population initiale P(0), Calculer la fonction fitness fi(m) pour chaque individu m de la population P(t), Dfinir des probabilits de selection pour chaque individu m dans P(t), Gnrer la nouvelle population P(t+1) en appliquant les oprateurs gntiques de croisement et de mutation, Repter l'tape 2 jusqu' ce que le rsultat final est le meilleur individu gnr durant la recherche ou bien si le nombre maximal de gnrations soit atteint.

Dans cet article, l'approche gntique est utilise pour gnrer les rgles symboliques interprtant le rsultat du rseau de neurones, c'est pourquoi ces rgles doivent tre reprsentes sous forme de chromosomes. La forme du choromosomes Le chromosome est compos d'un ensemble de gnes, chaque gne correspond une rgle, cela dit que le chromosome code un ensemble de rgles (figure2)
R1 R2 R3 R4 R5

1(-1)010 Class0

00010 Class1

10011 Class1

10110 Class0

1110(-1) Class0

Prmisses Conclusions

Fig. 2 - Forme du chromosome dans MC-RULEGEN

-1 veux dure que l'attribut n'est pas activ. 0 veux dire que l'attribut x s'ecrit not (x) dans la rgle gnre 1 veux dire que l'attribut x s'ecrit (x) dans la rgle gnre on suppose que les attributs se lisent de la gauche vers la droite alors le dernier gne devient : if x1 and x2 and x3 and not(x4) then class0 , x1, x2 et x3 sont dits attributs positifs et x4 un attribut ngatif, x5 un attribut inactif Population initiale La population initiale de rgles est choisie partir de la table de vrit, qui doit contenir toutes les combinaisons possibles de valeurs d'entres (attributs), les valeurs de sorties sont gnres alatoirement. Fonction fitness "mesure de performance" La fonction fitness permet d'valuer les individus (chromosomes), et donc de dterminer la qualit de la solution. Les meilleurs individus sont muts et croiss pour produire une nouvelle gnration. Dans cet article deux mesures de fitness sont utilises: la fidlit et la comprhensibilit. Oprateurs gntiques Les trois oprateurs de base utiliss dans les AG sont: la selection, le croisement et la mutation. La mthode de la selection utilise est celle de la roulette (roulette wheel selection). Croisement: permet de combiner deux chromosomes (parents) afin de produire un nouveau chromosome (offspring). La figure 3 explique le croisement ( | est le point de croisement):
Chromosome 1 11011 | 00100110110 Chromosome 2 11011 | 11000011110 Offspring 1 Offspring 2 11011 | 11000011110 11011 | 00100110110

Fig. 3 - Exemple du croisement

Mutation: le rle de la mutation est dapporter du nouveau dans les chromosomes manipules afin que la recherche ne soit pas cloisonne dans une partie de lespace explor. La mutation consiste juste choisir alatoirement un caractre dune chane et le modifier. Dans notre travail, la mutation peut basculer de la valeur 1 0/(-1) ou de 0 1/(-1) ou -1 0/1. (voir figure 4)
1 0 1 1 -1

1 0 -1 1 -1

Fig. 4 - Exemple de la mutation

Evaluation de rgles Cest au cours de lvaluation des rgles que vont se raliser les interactions entre le module gntique et le RNA. nous avons modifi l'algorithme de la rtropropagation (developed by Rumelhart hinton, wiliams [11]), de telle sorte que les attributs inactifs (valeur=-1) soient omis lors du calcul (voir figure5).

x1 1

x2 0

x3 -1

x4 1

x5 -1 Chromosome

Couche Sortie Couche Cache

Couche d'entre

Fig. 5 - Algorithme de la rtropropagation modifi

2.3. Module d'optimisation de rgles


L'ensemble de rgles gnre par AG (suppos optimal) est exprim sous forme de chanes de "un", de "zro" ou de "-1". On applique l'algorithme de Quine-McCluskey sur cet ensemble afin d'arriver la solution exacte et simplifie. La mthode de Quine consiste, en partant de la dcomposition canonique disjonctive de f, utiliser systmatiquement la formule de simplification x + x = 1 plusieurs fois jusqu' ce que aucune paire de termes ne peut tre combines [14]. Considrrons lexemple suivant : f(a, b, c) = a.b + b.c + a.c La dcomposition canonique disjonctive de f est : f(a, b, c, d) = a.b.c + a.b.c + a.b.c + abc + abc +a b c Algorithme de Quine modifi: La mthode de quine MC-Cluskey permet de simplifier une fonction en partant de sa forme canonique, nous avons modifi l'algorithme pour qu'il commence avec n'importe quels termes, cela permet de rduire la complexit de l'algorithme. Comment utiliser l'algorithme de Quine McCluskey dans notre approche: 1. Initialement RNM =, RFIN= 2. Regrouper les rgles gnres par le module gntique dans des classes, chaque classe englobe tous les rgles ayant le mme nombre des attributs inactifs (valeur=-1), 3. Numroter chaque classe, ex: class0 contient les rgles avec zro (0) attribut ngatif, class1 contient les rgles avec un seul (1) attribut ngatif, etc (si le nombre des sous classes de la classe0=n nbre maximum de classes (nbrclass)=n) 4. Trier chaque classe suivant le nombre des attributs positifs (valeur=1), construire alors des sous classes, chacune d'elles contient les rgles ayant le mme nombre de 1, deux sous classes de la classe i sont dites adjacentes si la premire contient m attributs positifs et la 2me contient m+1 attributs positifs, 5. Commencer par la classe0, (i 0) 6. Apparier les sous classes adjacentes de la classei deux deux, appliquer la rgle x + x (voir figure 6) , 7. Les rgles qui ont particip la gnration des nouvelles rgles sont marques, 8. Les rgles non marques sont insres dans RNM 9. Les nouvelles rgles sont insres dans la classe i+1, 10. i i+1 11. si i< n alors aller l'tape 5 sinon RFIN= RNM fsi 12. Dterminer quels sont les implicants premiers essentiels partir de RFIN [14].

R1 R2

1 0

0 0

-1 -1

1 1

-1 -1

Rgles du module Rgles Simplifies

Ropt

-1

-1

-1

Fig. 6 - Exemple d'application de Quine Mc-cluskey sur les Rgles extraites

Dans cet exemple les rgles R1 et R2 sont extraites par le module gntique alors que Ropt est obtenu en appliquant l'algorithme de Quine sur les deux rgles

2.4. Systme base de rgles


Les rgles obtenues partir des deux modules prcdents (gntique et simplification) sont utilises par le module "systme base rgle" dans le but d'obtenir un ensemble final et rduit de rgles pertinentes qui couvre le maximum des exemples de test. Mthodologie: On suppose que E= l'ensemble de rgles finale, initialement E=, pour chaque rgle, la prcision est calcule en comptant le nombre des exemples correctement classs par cette rgle, les rgles sont tries dans l'ordre dcroissant, selon leurs valeurs de prcision, choisir les rgles dont la prcision est suprieur la valeur maxaccuracy dfinie par l'utilisateur, si cette rgle existe alors: calculer NB le nombre de prmisses dans chaque rgle de l'tape 3, Choisir uniquement les rgles dont la valeur NB<prem, (prem est une valeur dfinie par l'utilisateur) Dplacer la rgle dans E Sinon, l'algorithme fait des combinaisons des deux meilleurs rgles au sens de prcision, ce processus continu jusqu' ce qu'on trouve un ensemble de rgles vrifiant le critre prcision >=maxaccuracy et NB<prem, cet ensemble de rgles est dplac dans E.

3. Rsultats Exprimentales
Notre systme MC-RULEGEN est test sur la base de donnes cancer du sein, nous avons utilis le modle PMC avec une seule couche cache. Les rsultats sont compars avec d'autres approches. Base de donnes cancer du sein [15]: Contient 699 exemples rpartis sur 02 classes (458 pour bnigne et 241 pour maligne). Chaque exemple est compos de neufs attributs, chacun d'eux prend des valeurs entre 1 et 10. Les exemples sont utiliss dans l'apprentissage et le test.

3.1. Apprentissage du rseau de neurones


Le meilleur rsultat est obtenu en utilisant (table 1): 9 neurones dans la couche dentre, 03 neurones dans la couche cache et deux neurones dans la couche de sortie, nous avons utilis la fonction logistique entre les couches, le momentum = 0.95 et la frquence dapprentissage=0.4. Aprs 500 poques, le taux de classification est gale 98%.

3.2. Extraction de rgles par lalgorithme gntique


Fonction Fitness:MC-RULEGEN cherche des rgles avec: Une meilleure prcision, Un nombre minimal de prmisses.

Nombre de neurones Entres 9 Caches 3 2 Sorties

Classification (%) Training 98.53 Test 98

Table 1. Liste des styles dfinis dans le prsent document.

La taille de la population est initialise la valeur "popsize", celle du chromosome ( l'individu) est gale "indiv_length", le nombre de gnes (rgles) dans le chromosome est gale "rulesize". Chaque rgle contient "sizeinput" attributs. La mthode de la roulette est utilise dans la selection des individus. La prochaine gnration est cree partir de la population courante en utilisant les oprateurs de croisement (avec une probabilit pCross) et de mutation (avec une probabilit pMut). Les meilleurs chromosomes au sens de fitness survivent et participent la cration de la nouvelle population. La population continue voluer vers les meilleurs valeurs de fitness. Aprs plusieurs gnrations, l'algorithme converge vers le meilleur chromosome. La figure7 montre l'volution des valeurs de la fonction fitness des meilleurs individus de chaque gnration. La comprhensibilit dans chaque individu est calcule en comptant le nombre des attributs inactifs, si ce nombre augumente alors la comprhensibilit augmente. Nous avons utilis dans notre travail les valeurs suivante: popsize=30, rulesize=15, sizeinput=9; indiv_length = sizeinput*rulesize; pMut=0.2; pCross=0.8; nombre de gnration gale 10000;

3.3. Procdure d'Optimisation


En appliquant la procdure d'optimisation, deux rgles sont limines.
100 95 100 90 COMPREHENSIBILITY 0 500 GENERATION 1000 80 85 ACCURACY 80 75 70 20 65 60 0 120

60

40

500 GENERATION

1000

Fig. 7. Evolution de la fonction Fitness

3.4. Systme base de rgles


La table 2 montre les 03 meilleurs rgles obtenues pour chaque classe. Pour la classe bnigne, en se basant sur la premire rgle, uniquement 5 parmi 229 d'exemples de test sont malclasses, si on rajoute cette rgle la deuxime, la prcision saute 100% (voir table 3), les autres rgles sont alors omises.
Rgles Benigne RB1 RB2 RB3 Rgles Maligne RM1 RM2 RM3

Prcision 224/229 219/229 200/229

Prcision 96/120 101/120 97/120

Table 2: Nombre des exemples correctement classs par les 03 meilleurs rgles

Rgles Bgnine Prcision (Test %) Prcision (Train %) Nombre prmisses / Nombre de rgles

RB1 97.82 92.86 1/1

RB2 95.63 95.98 1/1

RB1+RB2 100 98.66 2/2

(a)

Rgles Malignes

RM1 80

RM2 84.17

RM3 80.83

RM1 + RM2 98.33

RM1+RM2 +RM3 100

Prcision (Test %) 81.2 Prcision (Train %) Nombre prmisses / Nombre de rgles 1/1 1/1 1/1 2/2 3/3 82.91 74.36 94.87 97.44

(b)
Table 3: Qualit des rgles extraites (a) pour la classe bnigne et (b) pour la classe maligne)

Les rgles finaux obtenues sont donnes par: Rgles de la classe Bnigne if (v(8) Normal Nucleoli <2.77) then benin if (v(6) Bare Nuclei <3.45) then benin Rgles de la classe Maligne if (v(8) Normal Nucleoli if (v(6 Bare Nuclei if (v(4) Marginal Adhesion

2.77) then malignant 3.45) then malignant 3) then malignant

Notre base de rgles est compare avec le rseau de neurones (NN), les rsultats des table 4 et table 5 montrent que les cinq rgles extraites par l'approche MC-RULEGEN permet de couvrir tous les exemples de test, le nombre maximal d'attributs dans chaque rgle est gale "1". Notre systme utilise seulement 03 attributs v(8), v(6) et v(4) qui sont suffisants pour reprsenter toutes les connaissances du NN.
Prcision ( Test) 98% 100% Nombre des attributs (prmisses) 9 1

Bnigne NN (Exemples) MC-RULEGEN (Rgles) 229 2

Maligne 120 3

Table 4: Comparaison des rsultats du NN et de la base de rgles

La prcision est passe de 98% 100% en utilisant seulement 05 rgles et 03 attributs.

Rseau de neurones Ratio Apprentissage Test Total 336/341 342/349 678/690 % 98.53 98 98.26

Rgles Extraites Ratio 335/341 349/349 684/690 % 98.24 100 99.13

Table 5: Comparaison entre NN et la base de rgles

4. Comparaisons avec d'autres travaux


Dans cette section, nous avons compar notre approche avec d'autres travaux soit qu'ils utilisent l'approche globale (BioRe, GEX, CGA) ou locale (Partial-Re, Full-RE, NeuroRule, C4.5rules). Les rsultats de classification des rgles obtenues, le nombre de rgles trouv ainsi que le nombre maximale de prmisses par rgle sont illustrs dans la table 6. les rsultats montrent que les rgles extraites par Mc-RULEGEN sont plus performantes et plus comprhensibles par rapport celles extraites par les autres techniques. MC-RULEGEN est capable d'extraire un ensemble de rgles d'une meilleur performance.
Prcision MC-RULEGEN Bio-Re Partial-Re Full-RE NeuroRule C4.5rules GEX CGA 100 96.63 96.49 96.19 97.21 97.21 97,81 Nombre de rgles 05 10+default rule 09 05 3+ default rule 7 19,64 2,33 01 04 3 2 04 04 Nombre maximale de prmisses par rgle

98,30,5

181,5

2,50,1

Table 6: performances de l'ensembles de rgles extraites par les diffrentes techniques (Dans CGA et GEX, valeur moyenne deviation standard est utilis)

5. Conclusion
Ce papier prsente une nouvelle approche d'extraction de rgles partir d'un rseau de neurones. Notre approche combine les deux approches mtaheuristiques (algorithme gntique) et les exactes (Quine Mc-cluskey) au sein d'un mme systme afin d'extraire les rgles binaires de la forme if-then, les rgles obtenues sont passes dans un systme base de rgles pour raffinage. Les rsultats exprimentaux montrent que notre approche MC-RULEGEN gnre des rgles de trs haute performance.

REFERENCES
1. Andrews R, and Geva S, Rule Extraction from a Constrained Error Back-Propagation MLP. In: Proceedings of the 6th Australian Conference on Neural Networks, p.9-12, Brisbane Queensland, 1994. Geoffrey G. Towell, Jude W. Shavlik,, "Extracting Refined Rules From Knowledge-Based Neural Networks", Machine Learning (Vol. 13, N1) (PP. 71-101), 1993. Geoffrey G. Towell, "Symbolic Knowledge and Neural Networks: Insertion, Refinement and Extraction", Ph.D. Thesis, Computer Sciences Departement, University of Wisconsin, Madison, 1991. Huysmans J, Baesens B, and Vanthienen J, Using Rule Extraction to Improve the Comprehensibility of Predictive Models, K.U.Leuven KBI, Research 0612, 2006 Li Min Fu, "Knowledge-Based Connectionism for Revising Domain Theories", IEEE Transactions on Systems, Man and Cybernetics, Vol.23, N.1, Janvier/Fvrier 1993 Markowska-Kaczmar, Evolutionary approaches to rule extraction from neural networks, studies in computational intelligence (SCI) 82, 117-209, 2008. Markowska-Kaczmar U, Mularczyk K (2006) GA-based pareto optimization, Vol. 16 of Studies in computational intelligence. Springer, Berlin Heidelberg, Newyork Markowska-Kaczmar, Pawel Wnuk-Lipinski: Rule Extraction from Neural Network by Genetic Algorithm with Pareto Optimization. ICAISC 2004: 450-455 McMillan C, Mozer M.C, and P.smolensky. the Connectionist Scientist Game: Rule Extraction and Refinement in a Neural Network. In: Proceedings of the Thirteenth Annual Conference of the Cognitive Science Society, Hillsdale, NJ, 1991.

2.

3.

4.

5.

6.

7.

8.

9.

10. Raul T. Santos, Jlio C. Nievola, Alex A. Freitas,"Extracting Comprehensible Rules from Neural Networks via Genetic Algorithms", Proc.2000 IEEE Symp. On Combination of Evolutionary Algorithm and Neural Network (2000). 11. Rumelhart, D. E., Hinton, G. E., and McClelland, J. L. A general framework for Parallel Distributed Processing In Rumelhart, D. E. and McClelland, J. L., editors, Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Volume 1: Foundations, MIT Press, Cambridge, MA. pp 45-76, 1986. 12. Taha I, Ghosh J (1999) Symbolic interpretation of artificial neural networks. IEEE Transactions on Knowledge and Data Enginnring 11(3):448463. 13. Thrun SB (1995) Extracting rules from artificial neural networks with distributed representations. In G. Tesauro, D. Touretzky and T. Leen, editors, Advances in Neural Information Processing Systems (NIPS) 7, Cambridge,MA, 1995. MIT Press. 14. Algbre de Boole www.iut-info.univ-lille1.fr/~iovleff/pub/Teaching/MathInfo1/Poly3.pdf 15. UCI Repository of Machine Learning Databases. University of California, Irvine, Department of Information and Computer Sciences.