Académique Documents
Professionnel Documents
Culture Documents
Rsum: Les rseaux de neurones artificiels sont toujours considrs comme des boites noires, qui permettent aprs un apprentissage partir dune base dexemples incomplte, de classifier de nouveaux exemples, mais sans donner aucune explication sur les rsultats. Leurs connaissances sont codes de manire interne par les poids synaptiques, et ne sont pas donc exprimes de manire comprhensible. Les algorithmes gntiques trs performants dans les problmes dexploration semblent tre en mesure de rechercher dans lespace des ensembles de rgles, celui qui reprsentera le mieux les connaissances dun RNA. En revanche, ils sont inefficaces lorsqu'il s'agit de trouver la valeur exacte de l'optimum dans cet espace or, c'est prcisment ce que les algorithmes exacts d'optimisation ralisent le mieux. Nous prsentons dans cet article une nouvelle approche d'extraction de rgles partir d'un rseau de neurones permettant de combiner les deux mthodes mtaheuristiques et exactes au sein d'un mme systme. Mots-cls: Rseaux de neurones, Algorithme gntique, Extraction de rgles, Mthode de Quine Mc-Cluskey
1.
Introduction
Les rseaux de neurones sont devenus un outil de plus en plus utilis (industrie, parole, diagnostic mdicale, finance, traitement de signal et dans beaucoup d'autres problmes), grce leur capacit d'apprendre et de gnraliser, De plus ils sont peu sensibles aux donnes approximatives et la prsence de donnes incorrectes dans la base dexemple utilise lors de leur apprentissage. En revanche, les connaissances acquises lors de lapprentissage sont stockes par le RNA dans sa topologie et les poids de ses connexions, ce qui empche toute justification des rponses du rseau. Nous pouvons dire que le rseau est une sorte de boite noire [10]. Cependant l'extraction de rgles pertinentes demeure importante si les rsultats du rseau de neurones sont utiliss comme thorie initiale dans des problmes similaires [2]. Un system combinant le modle connexionniste et le raisonnement symbolique est dit systme hybride intelligent [5]. Il existe deux approches dans lexplicitation des connaissances dun RNA. lapproche dcompositionnelle qui tente danalyser la topologie et les poids des connexions dun rseau afin den dduire des rgles, on cite comme exemple RuleNet[9], RULEX[1], Subset [3], FullRE [12] , et l'approche pdagogique qui consiste non plus sintresser aux units dun rseau, mais simplement analyser ses rponses par rapport aux entres, on peut citer quelques travaux qui ont utilis cette approche VIA(Validity Internal analysis)[13], GEX(crisp Rule EXtraction) and REX (fuzzy Rule EXtraction) [6]. MulGEX [7], CGA[8], BIO-RE (Binary Input-Output Rule Extraction) [12]. Dans cet article, on dcrit une nouvelle mthode qui combine les algorithmes mtaheuristiques (algorithmes gntiques) avec les mthodes exactes (Quine-Mc-cluskey) afin d'extraire partir d'un rseau de neurones, les rgles binaires de la forme if-then. Les algorithmes gntiques trs performants dans les problmes dexploration semblent tre en mesure de rechercher dans lespace des ensembles de rgles, celui qui reprsentera le mieux les connaissances dun RNA. En revanche, ils sont inefficaces lorsqu'il s'agit de trouver la valeur exacte de l'optimum dans cet espace. Or, c'est prcisment ce que les algorithmes exacts d'optimisation ralisent le mieux. Il est donc naturel de penser associer un algorithme exact l'algorithme gntique de faon trouver la valeur exacte de l'optimum. On peut aisment le faire en appliquant la fin de l'algorithme gntique un algorithme exact sur le meilleur lment trouv. Notre systme est test sur la base de donnes cancer du sein de l'universit de Californie. Les expriences montrent que notre systme donne de bons rsultats.
2.
SYSTEME MC-RULEGEN
La figure1 prsente larchitecture de notre systme MC-RULEGEN, il est dcompos en 04 modules: le module perceptron multicouches, le module gntique, le module simplification de rgles, et enfin le module system base de rgles. 2.1. Module Apprentissage du rseau de neurones Les donnes doivent tre dans un format binaire, sinon une procdure de binarisation (1) sera appliqu sur les donnes non-binaires [12].
1 si xi ui yi = 0 sin on
Rgles finales System base de rgles Rgles Simplifies Module PMC Module Gntique Rgles extraites Module Optimisation rgles
(1)
o xi est la valeur de l'attribut Xi, ui est la valeur moyenne de Xi et yi est la valeur binaire correspondante.
Rgles Initiales
Le PMC est appris partir d'une base d'exemple, chaque vecteur d'entre, est associe un vecteur de sortie (apprentissage supervis), nous avons utilis l'algorithme de la rtro-propagation. L'apprentissage sert determiner les valeurs optimales des poids (la matrice des poids), les connaissances du rseau sont contenues dans cette matrice. La phase de l'apprentissage ncessite la manipulation de plusieurs paramtres (momentum, fonction d'activation, frquence d'apprentissage,..) afin d'aboutir au rsultat voulu.
Mesure de qualits des rgles extraites Les rgles extraites doivent tre prcises et comprhensibles [4], [6]. La prcision (2) mesure la proportion des exemples correctement classs par la rgle parmi tous les exemples d'apprentissage
p rcision = nombre des exemples correcteme nt classs nombre total des exemples
(2)
La fidlit se calcule de la manire suivante: chaque individu est pass dans le rseau de neurone pour classification, le pourcentage des bonnes rponses est la valeur de la fidlit associ l'individu. La comprhensibilit calcule le nombre de rgles ainsi que le nombre de prmisses dans chaque rgle. Enfin la gnralisation est dfinit par (3)
Generalisa tion = 1 nombre de rgles nombre des exemples
(3)
Algorithme gntique pour l'extraction de rgles Les algorithmes gntiques (AG) sont des algorithmes d'optimisation s'appuyant sur des techniques drives de la gntique et de l'volution naturelle. ils utilisent la selection, le croisement et la mutation. Algorithme Gnrer alatoirement une population initiale P(0), Calculer la fonction fitness fi(m) pour chaque individu m de la population P(t), Dfinir des probabilits de selection pour chaque individu m dans P(t), Gnrer la nouvelle population P(t+1) en appliquant les oprateurs gntiques de croisement et de mutation, Repter l'tape 2 jusqu' ce que le rsultat final est le meilleur individu gnr durant la recherche ou bien si le nombre maximal de gnrations soit atteint.
Dans cet article, l'approche gntique est utilise pour gnrer les rgles symboliques interprtant le rsultat du rseau de neurones, c'est pourquoi ces rgles doivent tre reprsentes sous forme de chromosomes. La forme du choromosomes Le chromosome est compos d'un ensemble de gnes, chaque gne correspond une rgle, cela dit que le chromosome code un ensemble de rgles (figure2)
R1 R2 R3 R4 R5
1(-1)010 Class0
00010 Class1
10011 Class1
10110 Class0
1110(-1) Class0
Prmisses Conclusions
-1 veux dure que l'attribut n'est pas activ. 0 veux dire que l'attribut x s'ecrit not (x) dans la rgle gnre 1 veux dire que l'attribut x s'ecrit (x) dans la rgle gnre on suppose que les attributs se lisent de la gauche vers la droite alors le dernier gne devient : if x1 and x2 and x3 and not(x4) then class0 , x1, x2 et x3 sont dits attributs positifs et x4 un attribut ngatif, x5 un attribut inactif Population initiale La population initiale de rgles est choisie partir de la table de vrit, qui doit contenir toutes les combinaisons possibles de valeurs d'entres (attributs), les valeurs de sorties sont gnres alatoirement. Fonction fitness "mesure de performance" La fonction fitness permet d'valuer les individus (chromosomes), et donc de dterminer la qualit de la solution. Les meilleurs individus sont muts et croiss pour produire une nouvelle gnration. Dans cet article deux mesures de fitness sont utilises: la fidlit et la comprhensibilit. Oprateurs gntiques Les trois oprateurs de base utiliss dans les AG sont: la selection, le croisement et la mutation. La mthode de la selection utilise est celle de la roulette (roulette wheel selection). Croisement: permet de combiner deux chromosomes (parents) afin de produire un nouveau chromosome (offspring). La figure 3 explique le croisement ( | est le point de croisement):
Chromosome 1 11011 | 00100110110 Chromosome 2 11011 | 11000011110 Offspring 1 Offspring 2 11011 | 11000011110 11011 | 00100110110
Mutation: le rle de la mutation est dapporter du nouveau dans les chromosomes manipules afin que la recherche ne soit pas cloisonne dans une partie de lespace explor. La mutation consiste juste choisir alatoirement un caractre dune chane et le modifier. Dans notre travail, la mutation peut basculer de la valeur 1 0/(-1) ou de 0 1/(-1) ou -1 0/1. (voir figure 4)
1 0 1 1 -1
1 0 -1 1 -1
Evaluation de rgles Cest au cours de lvaluation des rgles que vont se raliser les interactions entre le module gntique et le RNA. nous avons modifi l'algorithme de la rtropropagation (developed by Rumelhart hinton, wiliams [11]), de telle sorte que les attributs inactifs (valeur=-1) soient omis lors du calcul (voir figure5).
x1 1
x2 0
x3 -1
x4 1
x5 -1 Chromosome
Couche d'entre
R1 R2
1 0
0 0
-1 -1
1 1
-1 -1
Ropt
-1
-1
-1
Dans cet exemple les rgles R1 et R2 sont extraites par le module gntique alors que Ropt est obtenu en appliquant l'algorithme de Quine sur les deux rgles
3. Rsultats Exprimentales
Notre systme MC-RULEGEN est test sur la base de donnes cancer du sein, nous avons utilis le modle PMC avec une seule couche cache. Les rsultats sont compars avec d'autres approches. Base de donnes cancer du sein [15]: Contient 699 exemples rpartis sur 02 classes (458 pour bnigne et 241 pour maligne). Chaque exemple est compos de neufs attributs, chacun d'eux prend des valeurs entre 1 et 10. Les exemples sont utiliss dans l'apprentissage et le test.
La taille de la population est initialise la valeur "popsize", celle du chromosome ( l'individu) est gale "indiv_length", le nombre de gnes (rgles) dans le chromosome est gale "rulesize". Chaque rgle contient "sizeinput" attributs. La mthode de la roulette est utilise dans la selection des individus. La prochaine gnration est cree partir de la population courante en utilisant les oprateurs de croisement (avec une probabilit pCross) et de mutation (avec une probabilit pMut). Les meilleurs chromosomes au sens de fitness survivent et participent la cration de la nouvelle population. La population continue voluer vers les meilleurs valeurs de fitness. Aprs plusieurs gnrations, l'algorithme converge vers le meilleur chromosome. La figure7 montre l'volution des valeurs de la fonction fitness des meilleurs individus de chaque gnration. La comprhensibilit dans chaque individu est calcule en comptant le nombre des attributs inactifs, si ce nombre augumente alors la comprhensibilit augmente. Nous avons utilis dans notre travail les valeurs suivante: popsize=30, rulesize=15, sizeinput=9; indiv_length = sizeinput*rulesize; pMut=0.2; pCross=0.8; nombre de gnration gale 10000;
60
40
500 GENERATION
1000
Table 2: Nombre des exemples correctement classs par les 03 meilleurs rgles
Rgles Bgnine Prcision (Test %) Prcision (Train %) Nombre prmisses / Nombre de rgles
(a)
Rgles Malignes
RM1 80
RM2 84.17
RM3 80.83
Prcision (Test %) 81.2 Prcision (Train %) Nombre prmisses / Nombre de rgles 1/1 1/1 1/1 2/2 3/3 82.91 74.36 94.87 97.44
(b)
Table 3: Qualit des rgles extraites (a) pour la classe bnigne et (b) pour la classe maligne)
Les rgles finaux obtenues sont donnes par: Rgles de la classe Bnigne if (v(8) Normal Nucleoli <2.77) then benin if (v(6) Bare Nuclei <3.45) then benin Rgles de la classe Maligne if (v(8) Normal Nucleoli if (v(6 Bare Nuclei if (v(4) Marginal Adhesion
Notre base de rgles est compare avec le rseau de neurones (NN), les rsultats des table 4 et table 5 montrent que les cinq rgles extraites par l'approche MC-RULEGEN permet de couvrir tous les exemples de test, le nombre maximal d'attributs dans chaque rgle est gale "1". Notre systme utilise seulement 03 attributs v(8), v(6) et v(4) qui sont suffisants pour reprsenter toutes les connaissances du NN.
Prcision ( Test) 98% 100% Nombre des attributs (prmisses) 9 1
Maligne 120 3
Rseau de neurones Ratio Apprentissage Test Total 336/341 342/349 678/690 % 98.53 98 98.26
98,30,5
181,5
2,50,1
Table 6: performances de l'ensembles de rgles extraites par les diffrentes techniques (Dans CGA et GEX, valeur moyenne deviation standard est utilis)
5. Conclusion
Ce papier prsente une nouvelle approche d'extraction de rgles partir d'un rseau de neurones. Notre approche combine les deux approches mtaheuristiques (algorithme gntique) et les exactes (Quine Mc-cluskey) au sein d'un mme systme afin d'extraire les rgles binaires de la forme if-then, les rgles obtenues sont passes dans un systme base de rgles pour raffinage. Les rsultats exprimentaux montrent que notre approche MC-RULEGEN gnre des rgles de trs haute performance.
REFERENCES
1. Andrews R, and Geva S, Rule Extraction from a Constrained Error Back-Propagation MLP. In: Proceedings of the 6th Australian Conference on Neural Networks, p.9-12, Brisbane Queensland, 1994. Geoffrey G. Towell, Jude W. Shavlik,, "Extracting Refined Rules From Knowledge-Based Neural Networks", Machine Learning (Vol. 13, N1) (PP. 71-101), 1993. Geoffrey G. Towell, "Symbolic Knowledge and Neural Networks: Insertion, Refinement and Extraction", Ph.D. Thesis, Computer Sciences Departement, University of Wisconsin, Madison, 1991. Huysmans J, Baesens B, and Vanthienen J, Using Rule Extraction to Improve the Comprehensibility of Predictive Models, K.U.Leuven KBI, Research 0612, 2006 Li Min Fu, "Knowledge-Based Connectionism for Revising Domain Theories", IEEE Transactions on Systems, Man and Cybernetics, Vol.23, N.1, Janvier/Fvrier 1993 Markowska-Kaczmar, Evolutionary approaches to rule extraction from neural networks, studies in computational intelligence (SCI) 82, 117-209, 2008. Markowska-Kaczmar U, Mularczyk K (2006) GA-based pareto optimization, Vol. 16 of Studies in computational intelligence. Springer, Berlin Heidelberg, Newyork Markowska-Kaczmar, Pawel Wnuk-Lipinski: Rule Extraction from Neural Network by Genetic Algorithm with Pareto Optimization. ICAISC 2004: 450-455 McMillan C, Mozer M.C, and P.smolensky. the Connectionist Scientist Game: Rule Extraction and Refinement in a Neural Network. In: Proceedings of the Thirteenth Annual Conference of the Cognitive Science Society, Hillsdale, NJ, 1991.
2.
3.
4.
5.
6.
7.
8.
9.
10. Raul T. Santos, Jlio C. Nievola, Alex A. Freitas,"Extracting Comprehensible Rules from Neural Networks via Genetic Algorithms", Proc.2000 IEEE Symp. On Combination of Evolutionary Algorithm and Neural Network (2000). 11. Rumelhart, D. E., Hinton, G. E., and McClelland, J. L. A general framework for Parallel Distributed Processing In Rumelhart, D. E. and McClelland, J. L., editors, Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Volume 1: Foundations, MIT Press, Cambridge, MA. pp 45-76, 1986. 12. Taha I, Ghosh J (1999) Symbolic interpretation of artificial neural networks. IEEE Transactions on Knowledge and Data Enginnring 11(3):448463. 13. Thrun SB (1995) Extracting rules from artificial neural networks with distributed representations. In G. Tesauro, D. Touretzky and T. Leen, editors, Advances in Neural Information Processing Systems (NIPS) 7, Cambridge,MA, 1995. MIT Press. 14. Algbre de Boole www.iut-info.univ-lille1.fr/~iovleff/pub/Teaching/MathInfo1/Poly3.pdf 15. UCI Repository of Machine Learning Databases. University of California, Irvine, Department of Information and Computer Sciences.