These

‫اﳉﻤﻬﻮرﻳـﺔ اﳉـﺰاﺋـﺮﻳـﺔ اﻟﺪﳝـﻘـﺮاﻃـﻴـﺔ اﻟﺸـﻌـﺒـﻴـﺔ‬
REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE

‫وزارة اﻟﺘـﻌـﻠﻴـﻢ اﻟﻌ ـﺎﱄ و اﻟﺒـﺤﺚ اﻟﻌ ـﻠـﻤـﻲ‬
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
– ‫ﺟـﺎﻣﻌﺔ أﰊ ﺑـﻜـﺮ ﺑـﻠـﻘـﺎﻳ ـﺪ– ﺗـﻠﻤﺴ ـﺎن‬
Université Aboubakr Belkaïd– Tlemcen –
THESE
Présentée pour l’obtention du grade de DOCTEUR EN SCIENCES
En : électronique biomédicale
Spécialité : électronique biomédicale
Par : Mme BENDIMERAD MANSOURIA née SEKKAL
Sujet
Amélioration des performances d'un classifieur

neuronal : application médicale
Soutenue publiquement, le 29 / 09 /2016 , devant le jury composé de :
Mr HADJ SLIMANE .Z Professeur Univ. Tlemcen Président

Mr CHIKH .M.A Professeur Univ. Tlemcen Directeur de thèse
Mr MEZIANE.A MCA CERIST Alger Examinateur 1
Mr ABDERRAHIM. A MCA Univ. Tlemcen Examinateur 2
M BOUAMRANE. K Professeur Univ. Oran Examinateur 3
M/ ATMANI . B Professeur Univ. Oran Examinateur 4
Dédicace
Je dédie cette thèse à
 A ma mère, la lumière qui guide mes routes et qui m'emmène aux chemins de la
réussite, c'est grâce à elle que je dois toute ma réussite.
 A mon père que je le remercie énormément pour ces efforts, ces conseils et sa
surveillance.
 A mon époux, que je le remercie pour son soutien, sa patience, sa compréhension et

son réconfort dans les heures difficiles.
 A mon rayon de soleil qui rayonne ma vie, mon petit trésor ZAKARIA
 A ma lune, mon trésor précieux : MA CHARMANTE FILLE AMANI
 A mes trois frères que j’estime beaucoup : Mohamed, Hocine et Idriss
 A mes beaux-frères ainsi que mes belles sœurs.
 A toutes mes amies spécialement : Aouicha, Khadidja et Houaria .
MANSOURIA
i
Remerciement
Je tiens à remercier avant tous, le bon Dieu qui ma a donné la force et la
patience tout au long de la préparation de cette thèse.
Je tiens à exprimer ma très profonde gratitude à Monsieur CHIKH Mohamed

Amine, professeur à l'université de Tlemcen qui n’a ménagé aucun effort pour me
prendre en charge depuis la réalisation de mon projet de fin d’étude d’ingéniorat jusqu’à
notre jour-là .
Sa clairvoyance, sa générosité, sa gentillesse, ses connaissances, le temps qui

m'a dispensé, et sa grande disponibilité dont il a fait preuve; m'ont énormément
facilité ma tâche.
J'adresse mes très sincères remerciements à Monsieur HADJ SLIMANE Z,

professeur à l'université de Tlemcen qui a accepté la présidence du jury.
Je tiens aussi à remercier les membres du jury qui m’ont fait l’honneur de
participer à l’examen de ce travail :
• Monsieur MEZIANE.A , maitre de conférences à CERIST ALGER

• Monsieur ABDERRAHIM. A maitre de conférences à l'université de Tlemcen
• Monsieur BOUAMRANE K. professeur à l'université d’Oran
• Monsieur ATMANI B professeur à l'université d’Oran
Qu’ils trouvent ici toute ma reconnaissance.
ii
Résumé
Actuellement, il existe beaucoup de travaux dans le domaine des réseaux de
neurones artificiels (RNAs)qui sont liés au traitement des différents problèmes de
classification des données médicales. Ceci est dû à leur simplicité et leur propriété
d'approximation universelle et la capacité du traitement parallèle de l'information. Ces
propriétés font que ces réseaux sont de plus en plus utilisés dans les systèmes de
diagnostic médical automatisés, là où des méthodes classiques ont échoué.
Les réseaux de neurones présentent une grande diversité. En effet un type de réseau
neuronal est défini par sa topologie, ses paramètres et son algorithme d’apprentissage.
Jusqu'à présent, il existe plusieurs problèmes qui restent difficile à résoudre. Ces
problèmes associés généralement à l’apprentissage, au choix d’architecture,
àl’ajustement des paramètres et au cratérisation du vecteur d’entrée.
La problématique traitée dans le cadre de ce travail de thèse s'inscrit dans ce
contexteet portesur la résolution des différents problèmes liés aux
classifieursneuronaux comme : le choix d’architecture du classifieur, la présence des
minima locaux lors de l’apprentissage et la sélection des variables pertinentes du
vecteur d’entrée par l’hybridation des RNAs avec les algorithmes génétiques (AGs).
Néanmoins, même les AGs, présententquelques difficultés dues au phénomène de
processus aléatoire.
Dans le cadre de cette thèse plusieurs contributions ont été effectuées : apprentissage
paramétrique et structurel des RNAs et la sélection des variables pertinentes par
hybridation avec les AGs et une dernière contribution qui concerne l’apprentissage
génétique à deux phases pour résoudre le problème de processus aléatoire des
algorithmes génétiques.
Plusieurs bases de données médicales ont été utilisées : MIT-BIH , BUPA, BREASTW,
HEPATITS etPIMa.
Les travaux menés durant cette thèse ont permis d'apporter une contribution
importante sur l’amélioration des performances des classifieurs neuronaux médicaux.
Plusieurs problèmes ont été traités et les résultats obtenus sont très prometteurs.
Mots clés : réseaux de neurones , algorithmes génétiques, classifieur neuro-génétique ,

apprentissage structurel et paramétrique , sélection de variables
iii
Abstract
Currently, there were many works in the neural networks domain associated with
different classification problems of data medical.This is due to their simplicities, their
universal approximation properties and the capacity of the information processing in
the same time.
These properties make that these networks are more and more used to realize an
automated medical diagnosis systems, where classical methods have failed.
The neural networks present a big diversity.In fact a type of neural network is defined
by its topology, its parameters and its learning algorithm.
Until now, there are several problems which remain difficult to solve.These problems
associated generally to the learning, of architectural choices,at the adjustment of
parameters and cratering of the input vector.
The problematic addressed in this PhD thesis is enrolling in this context and focuses on
solving various problems related to neural classifiers like: the choice of the classifier
structure , the presence of local minima during learning and the selection of the relevant
variables of the input vector by hybridization of RNAs with genetic algorithms (GAs).
Nevertheless, even evolutionists systems present a major problem due to their random
process.
In this thesis several contributions are made: parametric learning of RNAs by AG;
structural learning, selection of relevant variables and genetic learning in two-phase
process to solve the problem of random genetic algorithms.
Several medical databases were used: MIT-BIH, BUPA, BREASTW, HEPATITS and PIMa
The work done during this thesis allowed making an important contribution on the
improvement of the performances of the medical neuronal classifiers. Several problems
have been treated and the results are very promising.
Key words,;neural networks, genetic algorithms, neuro-genetic classifiers, structural
and parametric learning, selection of the variables
iv
‫ﻣﻠﺧص‬
‫ﺧﻼل اﻟﻌﻘدﯾن اﻟﻣﺎﺿﯾﯾن‪ ،‬ھﻧﺎك اﻟﻛﺛﯾر ﻣن اﻷﻋﻣﺎل و اﻟﺑﺣوث ﻓﻲ ﻣﺟﺎل اﻟﺷﺑﻛﺔ اﻟﻌﺻﺑﯾﺔ اﻻﺻطﻧﺎﻋﯾﺔ اﻟﻣﺗﻌﻠﻘﺔ ﺑﻣﺧﺗﻠف ﻣﺷﺎﻛل ﺗﺻﻧﯾف‬
‫اﻟﻣﻌﻠوﻣﺎت اﻟطﺑﯾﺔ‪ ،‬و ھدا راﺟﻊ ﻟﺑﺳﺎطﺗﮭﺎ و ﻗدرﺗﮭﺎ ﻋﻠﻰ ﻣﻌﺎﻟﺟﺔ اﻟﻣﻌﻠوﻣﺔ اﻟﻣوازﯾﺔ‪ .‬ھده اﻟﺧﺻﺎﺋص ﺗﺟﻌل اﻟﺷﺑﻛﺔ اﻟﻌﺻﺑﯾﺔ ﻛﺛﯾرة‬
‫اﻻﺳﺗﺧدام ﻓﻲ اﻟﺗﺷﺧﯾص اﻟطﺑﻲ اﻵﻟﻲ ﺣﯾت ﻓﺷﻠت اﻟطرق اﻟﺗﻘﻠﯾدﯾﺔ‪.‬‬
‫ﺧﺻﺎﺋص اﻟﺷﺑﻛﺔ اﻟﻌﺻﺑﯾﺔ ﻣﺗﻧوﻋﺔ‪ ،‬ﺣﯾت أن ﻧﻣوذج اﻟﺷﺑﻛﺔ اﻟﻌﺻﺑﯾﺔ ﯾﺗﻣﺛل ﻓﻲ اﻟﺷﻛل )اﻟﺑﻧﯾﺔ اﻟﻣﻌﻣﺎرﯾﺔ(‪ ،‬ﺧوارزﻣﯾﺔ اﻟﺗﻌﻠم‪ ،‬ﻗوى‬
‫اﻷوزان‪.‬‬
‫إﻟﻰ ﺣد اﻵن ﯾوﺟد اﻟﻌدﯾد ﻣن اﻹﺷﻛﺎﻟﯾﺎت اﻟﻌﺎﻟﻘﺔ ﻓﻲ اﻟﺷﺑﻛﺔ اﻟﻌﺻﺑﯾﺔ اﻻﺻطﻧﺎﻋﯾﺔ ھده اﻹﺷﻛﺎﻟﯾﺎت ﺗﺗﻌﻠق ﺑﺎﻟﺗﻌﻠم‪ ،‬اﺧﺗﯾﺎر اﻟﺷﻛل )اﻟﺑﻧﯾﺔ‬
‫اﻟﻣﻌﻣﺎرﯾﺔ( و ﺗﻌدﯾت إﺷﺎرات اﻟدﺧول‪.‬‬
‫ﻓﻲ ﺳﯾﺎق ھده اﻷطروﺣﺔ ﻧﻘف أﻣﺎم إﺷﻛﺎﻟﯾﺔ ﺗﺣﺳﯾن أداء اﻟﺷﺑﻛﺔ اﻟﻌﺻﺑﯾﺔ اﻻﺻطﻧﺎﻋﯾﺔ )اﺧﺗﯾﺎر اﻟﺑﻧﯾﺔ اﻟﻣﻌﻣﺎرﯾﺔ اﻟﻣﺛﺎﻟﯾﺔ‪ ،‬ﺗﺣدﯾد اﻟﺣد‬
‫اﻷدﻧﻰ اﺧﺗﯾﺎر إﺷﺎرات اﻟدﺧول( ﻋن طرﯾق اﻟﺧوارزﻣﯾﺔ اﻟﺟﯾﻧﯾﺔ وﻟﻛن ﺣﺗﻰ ب اﻟﺧوارزﻣﯾﺔ اﻟﺟﯾﻧﯾﺔ ھﻧﺎك إﺷﻛﺎﻟﯾﺔ اﻟﻌﺷواﺋﯾﺔ‬
‫ﻓﻲ ﻣﺧﺗﻠف اﻟﻣراﺣل‪.‬‬
‫ﻓﻲ ھده اﻷطروﺣﺔ‪ ،‬اﻗﺗرﺣﻧﺎ اﻟﻌدﯾد ﻣن اﻟﺣﻠول اﻟﻣﺗﻣﺛﻠﺔ ﻓﻲ ﺗﺣدﯾت ﻗوى اﻷوزان‪ ،‬اﺧﺗﯾﺎر اﻟﺑﻧﯾﺔ اﻟﻣﻌﻣﺎرﯾﺔ اﻟﻣﺛﺎﻟﯾﺔ و اﺧﺗﯾﺎر إﺷﺎرات‬
‫اﻟدﺧول اﻟﻣﺛﺎﻟﯾﺔ و دﻟك ﻋن طرﯾق ﺗطﺑﯾق اﻟﺧوارزﻣﯾﺔ اﻟﺟﯾﻧﯾﺔ‪ .‬ﻛم اﻗﺗرﺣﻧﺎ طرﯾﻘﺔ اﻟﺗﻌﻠﯾم اﻟﺟﯾﻧﻲ ﻓﻲ ﻣرﺣﻠﺗﯾﻧﺎ ﻟﺣل ﻣﺷﺎﻛل‬
‫اﻟﻌﺷواﺋﯾﺔ اﻟﻣوﺟودة ﻓﻲ اﻟﺧوارزﻣﯾﺔ اﻟﺟﯾﻧﯾﺔ‪.‬‬
‫اﻟﻌﻣل اﻟﻣﻧﺟز ﺧﻼل ھده اﻷطروﺣﺔ ﯾﺳﻣﺢ ﺑﺗﻘدﯾم ﻣﺳﺎھﻣﺔ ﻛﺑﯾرة ﻓﻲ ﺗﺣﺳﯾن أداء اﻟﻣﻌﯾدات اﻟطﺑﯾﺔ اﻵﻟﯾﺔ و ﻣﻌﺎﻟﺟﺔ اﻟﻌدﯾد ﻣن اﻟﻣﺷﺎﻛل و‬
‫ﺗﺣﺻﻠﻧﺎ ﻋﻠﻰ ﻧﺗﺎﺋﺞ واﻋدة ﺟدا‪.‬‬
‫ﻛﻠﻣﺎت ﻣﻔﺗﺎﺣﯾﮫ ‪ :‬اﻟﺷﺑﻛﺔ اﻟﻌﺻﺑﯾﺔ اﻻﺻطﻧﺎﻋﯾﺔ‪ ،‬اﻟﺧوارزﻣﯾﺔ اﻟﺟﯾﻧﯾﺔ‪ ،‬ﻣﺻﻧف ﻋﺻﺑﻲ‪-‬ﺟﯾﻧﻲ‪ ،‬اﺧﺗﯾﺎر اﻟﺑﻧﯾﺔ اﻟﻣﻌﻣﺎرﯾﺔ ; ﺗﺣدﯾت ﻗوى‬
‫اﻷوزان ; اﺧﺗﯾﺎر إﺷﺎرات اﻟدﺧول اﻟﻣﺛﺎﻟﯾﺔ‬
‫‪v‬‬
Table des matières
Introduction ............................................................................................................... 1
Chapitre1 Etat de l’art ................................................................................................. 4
1.1 Notions de base d’apprentissage ..................................................................................................................... 4
1.1.1 Quelques définitions d’apprentissage artificiel ................................................................................ 4
1.1.2Notions de base .............................................................................................................................................. 5
1.1.3Types d’apprentissage artificiel ...............................................................................................................6
1.1.3.1 Apprentissage lié aux données manipulées ............................................................................. 6
A. Apprentissage symbolique .................................................................................................................... 6
B. Apprentissage numérique..................................................................................................................... 6
1.1.3.2Apprentissage lié au processus d’apprentissage ....................................................................6
A .Apprentissage par évaluation............................................................................................................... 6
B. Apprentissage par optimisation ..........................................................................................................6
C. Apprentissage par entrainement......................................................................................................... 7
1.1.3.3apprentissage lié à l’information disponible ............................................................................ 7
A. Apprentissage supervisé ........................................................................................................................ 7
B. Apprentissage non supervisé................................................................................................................ 7
C. Apprentissage par renforcement ........................................................................................................7
1.1 .4 Caractéristiques du concept d’apprentissage................................................................................... 7
a. L’abstraction des données ........................................................................................................................... 7
b. l’élément temporel .........................................................................................................................................7
c. le rôle de l’enseignant .................................................................................................................................... 7
1.1.5 Conditions d’apprentissage....................................................................................................................... 7
1 .2 Apprentissage des Réseaux de neurones.................................................................................................... 8
1.3Problèmes d’apprentissage des réseaux de neurones multicouches ............................................... 9
1.3.1Minima locaux .................................................................................................................................................. 9
1.3.2choix d’architecture .................................................................................................................................... 11
1.3.3 Sélection des variables pertinentes .................................................................................................... 11
1.3.4 Sur apprentissage et sur généralisation ........................................................................................... 12
A-Sur apprentissage ........................................................................................................................................ 12
B .Sur –généralisation ..................................................................................................................................... 14
1.3.6prétraitement des données ..................................................................................................................... 14
vi
Table des matières
Nettoyage des données ......................................................................................................................... 14

Transformation ........................................................................................................................................ 15
1 .3.7 une approche générique d’apprentissage des RNAs .................................................................. 15
1.4Conclusion............................................................................................................................................................... 15
Chapitre2 Classifieurs neuro- génétique ...................................................... 16

2.1 Introduction .......................................................................................................................................................... 16
2.2Principe d’évolution des espèces ................................................................................................................. 17
2.3. Algorithmes évolutionnistes ......................................................................................................................... 17
2.3.1Principe des algorithmes évolutionnistes ......................................................................................... 17
2.3.2Classes des algorithmes évolutionnistes ........................................................................................... 18
2.4 Modèles neuro-évolutionnistes .................................................................................................................. 19
2.4.1-Optimisation des poids et bais (apprentissage paramétrique) ............................................. 20
2.4.2Optimisation de l’architecture des classifieurs (apprentissage structurel)........................ 22
2.4.3caractérisation du vecteur d’entrée des classifieurs .................................................................... 25
2.4.4Optimisation Multi objectifs.................................................................................................................... 26
2.5Problèmes d’apprentissage neuro-génétique .......................................................................................... 28
2.5.1Problème d’opérateur de croisement ................................................................................................. 28
2.5.2Influence du processus aléatoire .......................................................................................................... 30
2.6 Conclusion ............................................................................................................................................................. 32
Chapitre3 Apprentissage paramétrique et structurel des RNAs .......... 33

3.1Apprentissage paramétrique des réseaux de neurones par les algorithmes génétiques ...... 34
3.1.1Problématique .............................................................................................................................................. 34
3.1.2Arythmies cardiaques ................................................................................................................................ 34
3.1.3 Signal électrocardiogramme .................................................................................................................. 34
3.1.4Les anomalies du signal ECG................................................................................................................... 35
3 .1.5Classification automatique d’arythmies cardiaques .................................................................... 36
3.1.6Identification des battements ventriculaires prématurés......................................................... 37
3.1 .6 .1Sélection de la base d’exemple .................................................................................................... 38
Sélection des descripteurs d’un battement cardiaque ................................................................ 38
3.1.6.2base d’apprentissage ......................................................................................................................... 39
3.1.6.3 Apprentissage d’un classifieur neuronal classique( CNC ) ............................................... 39
La méthode de Newton ............................................................................................................................. 39
La méthode Levenberg-Marquardt ..................................................................................................... 40
3.1.6.4 apprentissage de classifieur Neuro-génétique CNG ........................................................... 41
3.1. 6.5discussions des résultats expérimentaux ............................................................................... 42
vii
Table des matières
3.1.6.6Conclusion.............................................................................................................................................. 46
3.1.7classification neuronale élargie à d’autres types d’arythmies : .............................................. 47
3.1.7.1Sélection de la base d’exemples .................................................................................................... 47
3.1.7 .2Sélection des descripteurs ............................................................................................................. 49
3.1.7.3Apprentissage des classifieurs ...................................................................................................... 49
3.1.7.4Résultats et interprétations ............................................................................................................ 50
3.1.7.5Conclusion.............................................................................................................................................. 53
3.2 Apprentissage structurel des RNAs ............................................................................................................ 54
3.2.1introduction ................................................................................................................................................... 54
3.2.2Travail réalisé ............................................................................................................................................... 54
3.2.2.1.1Apprentissage de classifieur classique....................................................................... 55
3.2.2.1.2Apprentissage de classifieur neuro-génétique...................................................... 56
3.2.2.2Résultats et discussion...................................................................................................................... 57
4 .2 .3.4Conclusion ........................................................................................................................................... 59
3.3Deux phases s’apprentissage pour un classifieur neuro-genetique .............................................. 60
3.3.1introduction ................................................................................................................................................... 60
3 .3.2Etat de l’art .................................................................................................................................................... 60
4 .3 .3Travail expérimental................................................................................................................................ 61
Classifieur neuro-génétique classique CNGC ................................................................................... 62
Classifieur neuro-génétique a deux phases TPNGC .............................................................. 62
3.3.4Résultats et discussion .............................................................................................................................. 64
3.3.5Conclusion ...................................................................................................................................................... 66
Chapitre4 Sélection des variables du classifieur neuro-génétique...... 67

4.1 Caractérisation pertinente du battement cardiaque............................................................................ 68
4.1.1 Caractérisation d’un vecteur d’entrée par apprentissage ............................................... 68
4.1.2 Résultats et discussion ............................................................................................................................. 70
4.1.3Conclusion ...................................................................................................................................................... 72
4.2caractérisation pertinente des troubles de fonctionnement de foie .............................................. 72
4.2.1 Identification automatique de troubles de fonctionnement de foie .................................... 73
4.2.2 Expérimentations réalisées.................................................................................................................... 73
4.2.4Conclusion ...................................................................................................................................................... 77
4.3 Caractérisation pertinents du cancer du sein ........................................................................................ 78
viii
Table des matières
4.3.1 Travaux réalisés le diagnostic de cancer du sein ....................................................................... 78

4.3.2résultats expérimentaux........................................................................................................................... 79
4.4conclusion de chapitre ....................................................................................................................................... 81
Conclusion générale ............................................................................................. 83

Bibliographie .......................................................................................................... 85
ix
Liste des tableaux
Tab3.1 les enregistrements choisis de la base de données MIT-BIH .................................................... 38

Tab3.2 : Matrice de confusion .............................................................................................................. 43
Tab3.3:NOMBRE DE VP,VN,FP et FN de classifieur CNC ....................................................................... 43
Tab3.4:Nombre de VP,VN,FP et FN de classifieur CNG ......................................................................... 44
Tab3.5 : Performances de classifieur neuronal classiqueCNC .............................................................. 45
Tab3.6 : Performances de classifieur neuro-génétique CNG ................................................................ 45
Tab3.7 : étude comparative des classifieurs de BVP ............................................................................. 46
Tab 3 .8; les enregistrements choisis de la base de données MIT-BIH ................................................. 48
Tab 3.9 : Performances de classifieur neuronal classique global CNCG ............................................... 50
Tab 3.10 : Performances de classifieur neuro-génétique global CNGG ............................................... 51
Tab3.11:NOMBRE DE VP,VN,FP et FN des classifieurs neuronaux classique et génétiques ............... 58
Tab 3.12 : performances des classifieurs neuronaux classiques et génétiques ................................... 59
Tab3.13 : étude comparative des performances des classifieurs BVPs ................................................ 59
Tab3.14 : les bases de données utilisées .............................................................................................. 61
Tab 3.15 : nombre de cas utilisés pour apprentissage et pour test pour chaque base de données ... 61
Tab 3.16 : le nombre de neurone d'entrée pour chaque base de données. ........................................ 62
Tab3.17: LE nombre de VP, VN, FP et FN pour le classifieur CNGC..................................................... 64
Tab3.18: LE nombre de VP, VN, FP and FN pour le classifieur TPNGC. ............................................... 64
Tab3.19: les performances de classifieur CNGC................................................................................... 64
Tab3.20 :performances de classifieur TPNGC ...................................................................................... 65
Tab 4.1 le meilleur chromosome choisi par CLSNG .............................................................................. 70
Tab 4.2 : performances des classifieurs CLSN et CLSNG ....................................................................... 71
Tab 4.3 : le meilleur chromosome choisi par CLSAG ............................................................................. 76
Tab 4.4 : performances des classifieurs CLSAG et CLSN ........................................................................ 76
Tab 4.5 : le meilleur chromosome choisi par AG-CLS. BREAST ............................................................. 80
Tab 4.6: performances des classifieurs CLSN. et CLS.AG....................................................................... 81
xii
Liste des notations
AG : algorithme génétique.
AG-CLS : classifieur neuro-génétique global (apprentissage structurel)
BVP : battement ventriculaire prématuré
BBD : bloc de branche droite
BBG : bloc de branche gauche
CNC : classifieur neuronal classique (apprentissage paramétrique)
CNG : classifieur neuro-génétique (apprentissage paramétrique)
CNCG : classifieur neuronal classique global (apprentissage paramétrique)
CNGG : classifieur neuro-génétique global (apprentissage paramétrique)
CNGC : classifieur neuro-génétique classique
CLS : classifieur neuronal classique (apprentissage structurel)
CLSN : classifieur neuronal classique (caractérisation du vecteur d’entrée)
CLSNG : classifieur neuro-génétique (caractérisation du vecteur d’entrée)
ECG : électrocardiogramme
FN : faux négatif
FP : faux positif
PMC : perceptron multicouche
RNA ; réseaux de neurones artificiels
TPNGC : classifieur neuro-génétique à deux phases d’apprentissage
VN : vrai négatif
VP : vrai positif
xiii
Introduction
Les développements technologiques ont facilité l’acquisition et le recueil de
nombreuses données, notamment dans le domaine médical. Ces données peuvent alors
être utilisées comme support de décision médicale, conduisant aux développements
d’outils capables de les analyser et de les traiter, connu dans la littérature sous le terme«
d’aide au diagnostic ». Depuis de nombreuses années, l’aide au diagnostic médical s’est
développée et a gagné en popularité ; ces systèmes sont même considérés comme étant
essentiels dans beaucoup de disciplines médicales [1 ,2]. En pratique, il existe déjà de
nombreuses applications qui permettent d’assister le médecin et le guider dans ces
démarches thérapeutiques [3]. Par ailleurs, les systèmes reposant sur les techniques
issues de l’apprentissage artificiel sont de plus en plus élaborés [2].
Les approches les plus touchées par l’apprentissage artificiel sont celles des
réseaux de neurones artificiels.
Les systèmes neuronaux ont trouvé leurs premières applications pratiques dans le
développement de systèmes de reconnaissance de forme (reconnaissance de caractères,
vocales, de contours dans une image, etc.).Ils se prêtent bien à des problèmes de
classification en particulier lorsqu’une base de données suffisante est disponible, où la
couche d’entrée du réseau est liée directement aux descripteurs de données ainsi que la
couche de sortie est liée aux résultats de classification.
Problématique
Dans le domaine de diagnostic médical, la résolution des problèmes se base sur le

traitement de données extraites à partir de données issues du patient qui sont
structurées sous forme de vecteurs contenant les caractéristiques de ces données, où le
bon choix de ces vecteurs désigne la qualité du système de diagnostic. En revanche la
présence d’un nombre important de vecteurs rend la résolution pratique du problème
devient presque impossible. Par conséquent, il est souvent utile, et parfois nécessaire, de
réduire celles-ci a une taille plus compatible avec les méthodes de résolution, Parfois, la
résolution de phénomènes complexes avec des descripteurs de grande taille pourrait
être gérée en utilisant peu de caractéristiques extraites des données initiales, il suffit
qu'elles représentent les informations pertinentes pour le problème à résoudre,
D’autre part ; Les réseaux de neurones présentent une grande diversité. En effet un
type de réseau neuronal est défini par sa topologie, ses paramètres et son algorithme
d’apprentissage.
Jusqu'à présent, il existe plusieurs problèmes qui restent difficile à résoudre. Ces
problèmes sont associés généralement à l’apprentissage, au choix d’architecture et
l’ajustement des paramètres.
Introduction générale
Ces difficultés sont liées en général à quelques paramètres difficiles à gérer

comme le minimum global durant l’apprentissage , le nombre de couches cachées qu’il
faut utiliser dans un réseau multicouche , le nombre optimal de neurones dans chaque
couche , les valeurs initiales des poids de connexions du réseau pendant la phase
d’apprentissage …etc. Un mauvais choix peut conduire à de mauvaises performances du
réseau correspondant.
Motivation et contexte
La problématique traitée dans le cadre de notre travail consiste à améliorer les

performances des classifieurs à base de réseaux de neurones artificiels: choix
d’architecture, minima locaux ainsi qu’une sélection des variables pertinentes de
vecteur d’entrée par l’hybridation des RNA avec une technique d’optimisation
intelligent par les algorithmes évolutionnistes fait l’objet de notre travail.
Néanmoins, même les systèmes évolutionnistes, présente un grand problème due à

leurs processus aléatoire. Parfois ces systèmes ont du mal à localiser l'optimum global
exact du fait qu’il y a aucune garantie de trouver la meilleure solution, sachant que la
taille de la population est limitée.
La taille de la population est l'un des choix les plus importants dans l’utilisation des
algorithmes génétiques, comme il peut être critique dans de nombreuses applications. Si
la taille de la population est trop petite, l'algorithme génétique a tendance à ce convergé
trop vite; par contre si elle est trop grande, l'algorithme génétique peut consommer un
temps énorme, [4] rendant leurs taches difficiles.
Un choix correct de la population influe sur la vitesse de convergence en orientant

la zone des meilleurs résultats dans l'espace de solution. Dans ce travail, nous
présentons une nouvelle méthode d'optimisation des poids dans un classifieur neuro-
génétique ou la population initiale n’est pas choisie au hasard ; mais nous adoptons une
procédure nommée l'approche neuro-génétique à deux phases (TWO PHASE NEURO-
GENETIC APPROACH’)
Contributions
Les travaux effectués dans le cadre de notre thèse ont donné lieu à plusieurs
contributions.
Notre première contribution, concerne l’utilisation des algorithmes génétiques

pour un apprentissage paramétrique des classifieurs neuronaux des arythmies
cardiaques. dont les poids synaptiques sont ajustés par AGs . Les performances de
derniers sont comparées aux classifieurs neuronaux classiques qui utilisent
l’algorithme de la rétro propagation comme un algorithme d’apprentissage.
La seconde contribution concerne l’utilisation des algorithmes génétiques pour

un apprentissage structurel des classifieurs neuronaux. Où nous examinons l’intérêt
d'un algorithme génétique (GA) pour fixer l’architecture d’un classifieur, le modèle final
du classifieur sera testé sur des battements ventriculaires prématurés.
2
Introduction générale
La troisième contribution concerne l’aptitude des algorithmes génétiques pour

l’extraction des variables pertinentes des données médicales. plusieurs bases de
données médicales sont utilisés : base d’arythmies cardiaques MIT-BHI , cancer du sein
BREAST W et trouble de fonctionnement de foie BUPA
la dernière contribution concerne le problème d’initialisation aléatoire des

systèmes évolutionnistes, ou nous présenterons une nouvelle méthode d'optimisation
des poids de classifieurs neuro- génétiques par un apprentissage génétique à deux
phases tel que la population initial n’est pas choisie aléatoirement .
Organisation de manuscrit
La thèse est structurée en quarte chapitres : le premier chapitre concerne l'état de

l'art, où nous présentons les problèmes d’apprentissage des RNAs et un état de l’art
sur les différentes techniques utilisées pour résoudre ces problèmes. Le deuxième
chapitre présente nos contributions sur les systèmes neuro-évolutionnistes. Différentes
approches sont présentées comme : Apprentissage paramétrique des RNAs par
algorithme génétique, l’apprentissage structurel ; la sélection des variables d’entrée et
apprentissage génétique a deux phases.
Le troisième chapitre est consacré aux résultats d’apprentissage paramétrique et

structurel des classifieurs neuronaux et l’apprentissage neuro-génétique à deux
phases .le quatrième chapitre présente les résultats de la sélection des variables
pertinentes des données médicales par les algorithmes génétiques.
Nous terminons notre thèse avec une conclusion générale et des perceptives.
3
Chapitre1
Etat de l’art
Depuis plus décennies, les chercheurs en intelligence artificielle
tentent de concevoir des modèles doté d d’intelligence comme les
systèmes d’aide à la décision médicale ou l’aide au diagnostic médical ;
le contrôle, la prédiction, la reconnaissance des formes ; etc.
L’Apprentissage artificiel est un sous-domaine de l’Intelligence

Artificielle, il concerne la recherche de solutions pour réaliser des
tâches qui approche plus aux êtres vivants.
Le point crucial du développement d’un réseau de neurones est

son apprentissage. Il s’agit d’une procédure adaptative par laquelle
les connexions des neurones sont ajustées selon une base
d’apprentissage.
Dans ce chapitre nous présentons un état de l'art détaillé sur le

renforcement de l’apprentissage artificiel des RNAs . Ainsi les
problèmes d’apprentissage des RNAs et un état de l’art sur les
différentes techniques utilisées pour résoudre ces problèmes.
Etat de l’art
1.1 Notions de base d’apprentissage
1.1.1 Quelques définitions d’apprentissage artificiel
• Définition selon H. Simon [5]:
L'apprentissage dans un système est indiqué par les changements qu'il subit. Ces
changements sont adaptatifs dans le sens où ils rendent possible au système de réaliser une
même tâche, ou des tâches tirées d'une même population, d'une façon plus efficace et plus
efficiente la prochaine fois qu'elle sera réalisée.
Nous disons qu’une machine apprend des lors qu’elle change sa structure, son
programme ou ses bases en fonction de données en entrée ou des réponses à son
environnement de sorte à ce que ses performance futures deviennent meilleures
(L’objectif de l’apprentissage automatique est de concevoir des programmes pouvant
s’améliorer automatiquement avec l’expérience) ;
1.1.2Notions de base
Nous citons ci-dessous les notions de base qui permettent de comprendre le

principe de l’apprentissage artificiel [6].
 Apprentissage artificiel: ou Machine Learning en anglais, Cette notion concerne

toute méthode permettant de construire un modèle de la réalité à partir de
données, soit en améliorant un modèle partiel ou moins général, soit en créant
complètement le modèle. Il existe deux tendances principales en apprentissage, la
première issue de l'intelligence artificielle et qualifiée de symbolique, et la
deuxième issue des statistiques et qualifiée de numérique.
 Précision vs Généralisation: il constitue le grand dilemme de l'apprentissage

artificiel. La précision est définie par un écart entre une valeur mesurée ou
prédite et une valeur réelle. Apprendre avec trop de précision conduit à un (sur-
apprentissage), comme l'apprentissage par cœur, pour lequel des détails
insignifiants (ou dus au bruit) sont pris en considération. Apprendre avec trop
peu de précision conduit à une (sur-généralisation) où le modèle s'appliquera
même quand l'utilisateur ne le désire pas. Les deux types d'apprentissage,
numérique et symbolique, ont défini des mesures de généralisation et c'est à
l'utilisateur de fixer le seuil de généralisation qu'il juge optimal.
 Connaissances Empiriques: les connaissances empiriques, c'est-à-dire les

observés sur un sujet (ensemble d'exemples). Ce sont des connaissances "pures"
qui n'ont pas été traitées, analysées ou modifiées. Ces connaissances
représentent les résultats d'expériences ou les exemples de cas pratiques; elles
n'ont pas encore subi de traitement en vue d'obtenir une théorie plus générale
sur le domaine. Il s’agit des connaissances de bas niveau.
 Connaissances Théoriques: les connaissances théoriques concernent les

connaissances sur un sujet à l'aide d'une théorie correspondante au problème
5
Etat de l’art
posé. Elles sont des connaissances "traitées" qui ont été obtenues à partir de
l'analyse des connaissances de base. Ce type de connaissances représente une
généralisation du représentées par des structures symboliques, comme les règles
de production, les modèles mathématiques, les réseaux sémantiques et les objets
structurés.
 Fouille de données: (Data Mining) ou Extraction de connaissances a partir des

données (KnowledgeDiscovery in Data)
La fouille de données prend en charge le processus complet d'extraction de
connaissances: Stockage dans une base de données, sélection des données à
étudier si nécessaire: nettoyage des données puis utilisation des algorithmes
d’apprentissages numériques et symboliques afin de proposer des modèles à
l'utilisateur, enfin validation des modèles proposés. Si ces modèles sont invalides
par l'utilisateur, le processus complet va se répéter.
 Classification, classement et régression: la classification, telle qu'elle est

définie en analyse de données, consiste à regrouper des ensembles d'exemples
non supervisés en classes. Ces classes sont souvent organisées en une structure
(clustering). Si cette structure est un arbre, alors on parle de taxonomie. Sous
l'influence du mot anglais classification, on a tendance à confondre entre
classification et classement. Ce dernier désigne le processus de reconnaissance en
intension (par leurs propriétés) de classes décrites en extension (par les valeurs
de leurs descripteurs). Lorsque les valeurs à prédire sont des classes en petit
nombre, on peut parler de classification.
1.1.3Types d’apprentissage artificiel
Ils existent une grande variété de formes d’apprentissage artificiel dans la

littérature, nous citons les types les plus utilisés.
1.1.3.1 Apprentissage lié aux données manipulées
On distingue en général deux types d’apprentissage artificiel, caractérisés par le

type des données utilisées :
A. Apprentissage symbolique : l’apprentissage symbolique, comme son nom

l’indique, manipule des symboles. Il fonctionne grâce à la mise en place de relations
entre ces symboles par le biais de jugements. L’idée est donc d’élaborer des méthodes
permettant d’extraire des connaissances structurelles ou décisionnelles à partir
d’instances peu structurées. L’avantage principal de l’apprentissage symbolique est sa
portée sémantique forte. Un expert qui analyse le système apprenant peut comprendre
la façon dont celui-ci fonctionne et les résultats fournis sont facilement interprétables
[6 ,7 ,8]
B. Apprentissage numérique : l’apprentissage numérique ne manipule pas des

symboles, il traite uniquement des valeurs numériques quantitatives qui vont être
manipulées afin de réaliser l’apprentissage. Les méthodes d’apprentissage numérique se
révèlent être portables et permettent une grande adaptabilité, car non dépendant de
6
Etat de l’art
symboles. Par contre, le fonctionnement interne du système est opaque. Il est très
difficile de comprendre comment le système apprend [6 ,7].
1.1.3.2Apprentissage lié au processus d’apprentissage
La différence dans cette classification des types d’apprentissage se résume dans la

méthode appliquée pour atteindre la solution désirée ; par évaluation, optimisation ou
bien un entraînement.
A .Apprentissage par évaluation: consiste à déterminer pour un problème donné

et un ensemble de méthodes de résolutions possibles, quelle est celle qui convient le
mieux à la solution [6].
B. Apprentissage par optimisation: l’objectif visé par ce type d’apprentissage est

de déterminer la méthode de résolution d’un problème qui a donné lieu à la solution.
Sachant que cette méthode doit être optimale (elle vérifie un critère d’optimalité) [6].
C. Apprentissage par entrainement : consiste à adapter les connaissances

actuelles d’un problème donné afin de maximiser la probabilité d’avoir la solution
attendue[6].
1.1.3.3apprentissage lié à l’information disponible
Au niveau des algorithmes d'apprentissage, en fonction des informations dont il

dispose, nous distinguons trois grandes familles : l'apprentissage supervisé , non
supervisé et par renforcement .
A. Apprentissage supervisé : L’apprentissage est dit supervisé si les différentes

familles de formes, ou classe, sont connues a priori ainsi que l’affectation de chaque
forme à telle ou telle famille.
B. Apprentissage non supervisé : L’apprentissage non supervisé est une

technique différente où on ne détermine pas de variables de sortie. Le réseau va de lui-
même catégoriser les données d’entrée.
C. Apprentissage par renforcement : Ce dernier nécessite un superviseur qui

dicte au réseau quelle action est correcte dans telle situation. Dans l’apprentissage par
renforcement, le réseau n’a pas de superviseur à sa disposition, il interagit avec
l’environnement qui lui donne un retour quantitatif sur les valeurs de ses actions.
1.1 .4 Caractéristiques du concept d’apprentissage [9]

Parmi les caractéristiques primordiales de l’apprentissage, nous citons les trois
suivantes [6].
a. L’abstraction des données ; savoir si la méthode utilisée engendre des

données proches de grandeur physique ou plutôt de symbole.
7
Etat de l’art
b. l’élément temporel ; il est important de déterminer si le système apprenant

est en mesure de s’adapter « en ligne » ou il considère de façon différé toutes
nouvelles modifications de l’environnement.
c. le rôle de l’enseignant ; il s’agit de savoir si le système apprend de façon

autonome ou il a besoin d’être supervisé.
1.5 Conditions d’apprentissage
Pour toutes formes d’apprentissage, un ensemble de conditions sont nécessaires

pour assurer le progrès adéquat du système apprenant [10 ,9] :
Condition 1 : « Toute forme d’apprentissage nécessite la répétition des décisions

dans le temps. ».La première condition consiste à permettre au système en phase
d’apprentissage d’effectuer plusieurs essais, car tant qu’il y a plus de répétition, il y aura
plus d’expériences
Condition 2 : « Toute forme d’apprentissage nécessite un mécanisme de rétroaction

Environnemental. ».Afin qu’un système abouti à un apprentissage, il faut qu’il reçoit un
feedback (rétroaction) de son environnement à la suite de ses propres décisions et les
décisions des autres.
Condition 3:« Toute forme d’apprentissage nécessite un mécanisme d’adaptation des

décisions ».Selon la troisième condition, non seulement l’acquisition de nouvelles
informations par le système apprenant mène à un apprentissage, mais aussi les
renseignements sur lesquels ces informations peuvent être utilisées sont aussi
nécessaires.
Condition 4 :« Toute forme d’apprentissage nécessite l’existence d’un mécanisme de

stockage de l’information ; la mémoire ».En effet, s’il n’y a pas une sauvegarde de
séquences obtenues dans le passé, le système ne bénéficie pas de ses décisions
antérieures. Le stockage d’informations offre au système la possibilité de modifier sa
décision sur la base de l’expérience passée et d’améliorer ses performances. En contre
parti, la mémorisation doit être guidée par des stratégies adéquates en tenant compte de
l’espace mémoire comme un facteur critique.
1 .2Apprentissage des Réseaux de neurones
Le point crucial du développement d’un réseau de neurones est son apprentissage.

Il s’agit d’une procédure adaptative par laquelle les connexions des neurones sont
ajustées selon une base d’apprentissage [11 ,12].
Sachant que l'apprentissage est définit comme la capacité de stocker des

informations qui peuvent être utilisées par la suite, lors de l’apprentissage les
connaissances d'un réseau connexionniste sont mémorisées dans les poids de
connexions. Le but de l'apprentissage d’un réseau de neurones est de trouver un
ensemble de poids synaptiques qui minimisent l'erreur entre la sortie du réseau et le
résultat désiré. C'est la caractéristique principale de l’apprentissage des réseaux de
neurones.
8
Etat de l’art
En général les réseaux de neurones artificiels sont souvent liés à un algorithme

d'apprentissage. Le modèle neuronal sans apprentissage présente en effet peu d'intérêt.
Pour la majorité des algorithmes d’apprentissage actuels, les paramètres modifiés

pendant l'apprentissage sont les poids des connexions. L'apprentissage est la
modification des poids du réseau afin d'accorder la réponse du réseau aux exemples de
base d’apprentissage. Les poids sont initialisés généralement avec des valeurs
aléatoires. Puis des bases de données représentatives du fonctionnement du procédé
dans un domaine donné, sont présentées au réseau de neurones. Dans un cadre
supervisé, ces exemples sont constitués de couples de vecteurs d’entrée et de sortie. Une
méthode d’optimisation modifie les poids au fur et à mesure des itérations pendant
lesquelles on présente la totalité des données, afin de minimiser l’écart entre les sorties
désirés et les sorties expérimentales. Pour éviter les problèmes de sur apprentissage,
l’optimisation des poids se fait sur la base d’apprentissage, mais les poids retenus sont
ceux pour lesquels l’erreur obtenue sur la base de test est la plus faible [13] .
1.3Problèmes d’apprentissage des réseaux de neurones multicouches
L'apprentissage d'un réseau de neurones multicouches est un problème

d'optimisation puisque cela consiste à minimiser une fonction coût. On y retrouve donc
toutes les difficultés liées à ces problèmes, minima locaux, choix d’architecture,
initialisation des poids ; choix des paramètres d’entrée, choix de la base
d’apprentissage ; etc.
1.3.1Minima locaux
Lorsque la fonction à minimiser n'admet qu'un seul minimum, ce dernier sera

atteint très rapidement quel que soit l'algorithme de minimisation utilisé. Ces situations
sont malheureusement très rares, et correspondent souvent à des problèmes très
simples pour lesquelles l'utilisation des techniques neuronales ne sert pas d’un grand
intérêt. On rencontrera plus souvent dans la nature, des fonctions coût dont la forme est
plus proche de celle présentée dans la Figure 1.1 comportant de multiples minima
locaux. En général les fonctions de cout présentent de multiples minima locaux (voir fig
1.1) ce qui rend la technique d’apprentissage plus difficile.
9
Etat de l’art
Fig 1.1 : Forme générale d'une fonction coût possédant plusieurs minima
Pour un réseau multicouche, nous pouvons observer le même phénomène.

Lorsque nous initialisons aléatoirement les paramètres à optimiser (les poids
synaptiques) nous démarrons l'apprentissage en un point quelconque de la fonction
coût et nous ne pouvons jamais être sûrs d'atteindre le minimum global. Aussi, une
solution consiste à réaliser plusieurs phases apprentissage à partir de différentes
initialisations des poids. En effet nous augmentons ainsi les chances de débuter un
apprentissage dans une zone favorable. Il faut donc systématiquement réaliser plusieurs
apprentissages à partir de configurations initiales différentes, et choisir celui qui
converge vers l'erreur la plus faible. Cette démarche assure de trouver le minimum
global sur un nombre infini de configurations. Ce que n’est réalisable pratiquement.
Le problème d’apprentissage des réseaux de neurones artificiels et surtout le

problème des minima locaux présent un défi pour les chercheurs depuis les
années quatre-vingt-dix ;
Juan-Manuel et al 1997[14], M. Karouia, et al 1995.[15] ont Utilisé l’algorithme de
minimisation de recuit simulé , cet algorithme permet d'obtenir une meilleure
convergence vers le minimum global. Pour résoudre le même problème C. Igel et al
2003 ont Utilisé l’algorithme Rprop pour l’apprentissage des RNA ; les résultats
expérimentaux montrent que cet algorithme et plus performant que l’algorithme de la
rétro propagation [16].
Qun Dai et al 2012ont proposé un algorithme de rétro propagation modifié qui a
atténué d’une façon remarquable le problème des minima locaux, cet algorithme réalise
une compétition entre les poids synaptique de RNA à l’itération t et les poids
synaptiques à l’itération t-1 quand la sortie change pendant la phase d’apprentissage.
Les meilleurs poids sont choisis par rapport à leurs performances calculées sur une base
de validation [17]. D’autre part Leong Kwan Li 2013 ont Proposé un nouveau
10
Etat de l’art
algorithme d'optimisation pour un perceptron multi couche à une seule couche cachée.
Le principe est basé sur un algorithme de combinaison convexe pour des poids
synaptiques dans la couche cachée. En fait, cette technique explore une idée de
continuum qui combine les stratégies de mutation et de croisement classique dans les
algorithmes génétiques. (AG)[18] . Alireza Askarzadeh et al2013 ont traité le problème
d’apprentissage des RNAs par un algorithme d'optimisation méta heuristique
récemment inventé nommé BMO « bird mating optimizer »,. Il est appliqué à
l’apprentissage des poids des RNA pour résoudre des problèmes de
classification .l’algorithme a été testé sur trois bases de données, Iris fleur, le cancer du
sein (Wisconsin breast), et le diabète(Pima indiens).[19].d’autre travaux dans la
littérature traitent le problème de complexité et le temps de convergence de la rétro
propagation ,B. Widrow et al 2013ont proposé un nouvel algorithme nommé :No-
Propagation (No-Prop) pour résoudre le problème de complexité d’apprentissage des
perceptrons multicouches .Les poids des neurones de la couche cachée sont initialisés et
fixés avec des valeurs aléatoires. Seuls les poids des neurones de couche de sortie qui
sont ajustés, ils ont choisis la plus grande pente pour minimiser l'erreur quadratique
moyenne, en se basant sur l'algorithme LMS de Widrow et Hoff. L'algorithme NO-Prop
est beaucoup plus simple et plus facile à mettre en œuvre que l’algorithme de la rétro
propagation. En outre, il converge plus rapidement ; mais l’algorithme de la rétro
propagation est plus puissant pour les architectures complexes [20] . Ozan
Kocadaji2015 a appliqué une nouvelle méthode hybride de Monte Carlo avec les
algorithmes génétiques et la logique floue sur les séries chronologiques et il a analysé la
régression dans le contexte de BNNs. Cette méthode a minimisé le temps
d’apprentissage et a donné une bonne performance d’estimation [21].
1.3.2choix d’architecture
Le choix d’architecture des RNAs est un problème majeur lors de la phase
d’apprentissage, l’utilisateur doit choisir le nombre de neurones cachés, le nombre de
couches cachées et de leur interconnexion.
Cette tâche est souvent réalisé de façon ad-hoc ou en utilisant quelque règles
heuristiques simples. Souvent nous essayons diverses architectures pour un problème
de donnés et en calculant l’erreur de généralisation pour sur un ensemble de validation.
En effet, hormis une exhaustive, aucune méthode n’est connue pour déterminer
l’architecture optimale pour un problème donné. Or tous les résultats théoriques sur les
réseaux de neurones (leur puissance de calcul ou leur faculté de généralisation) ne
tiennent que si l’on utilise l’architecture idéale et nécessaire.
Dans la littérature, beaucoup de travaux de recherche ont traité le problème du

choix d’architecture d’un RNA
Shih-Hung Yang et al 2012 ont conçu un RNA utilisé dans la prédiction. Il est
basé sur un algorithme évolutionnaire constructive à élagage (ECPA). À l’état initial on
commence par un ensemble de RNA avec la structure la plus simple possible, un
neurone caché relié à un nœud d’entrée. L’utilisation des opérateurs de croisement et
de mutation augmente la complexité d'une population RNA [22]. Dans le même esprit,
Hong-Gui Han et al 2014ont propose une approche de construction à d’élagage (CP)
pour optimiser la structure d'un réseau de neurones, avec une seule couche cachée. Le
nombre de neurones cachés est déterminé par rapport à leurs contributions. Ils sont
11
Etat de l’art
calculés en utilisant une décomposition de Fourier de la variance de la sortie de la

couche cachée [23] .D’autre part Haydee Melo, JunzoWatada 2016ont Proposé un
algorithme d’apprentissage structurel basé sur une hybridation d’une gaussienne avec
la méthode PSO (Particle Swarm Optimization) et une approche floue afin d’optimiser
les poids et la structure d’un perceptron multicouche. La méthode proposée a permet
d'améliorer l'apprentissage et l’architecture des réseaux de neurones [24]. Pyh and
al.2000 ont Présenté deux algorithmes d'apprentissage constructif, MPyramid-real et
MTiling-real, pour la construction des RNAs, cette technique a éliminé plusieurs
neurones redondants [25].
A partir de leurs travaux ilfredo J. et al 2006. ;N. Dunkin, et al 1997 , S. E. Fahlman
et al1990 , ont utilisé des approches constructifs pour fixer l’architecture des
RNAs [26,27] . Norbert et al.2012ont utilisé une approche basée sur les treillis de Galois
pour définir l’architecture des RNAs[28].
Lors de la conception d’un contrôleur neuronal Corcoran, A.L.2002 ont utilisé un
algorithme génétique pour la sélection d'un nombre optimal de neurones cachés. [29].
1.3.3 Sélection des variables pertinentes
La sélection de variables constitue un élément important dans une procédure de

conception d’un modèle par apprentissage ; elle contribue à la diminution de la
complexité d’un modèle, La sélection de variables consiste à éliminer les variables les
moins pertinentes en termes d’information.
L’augmentation du nombre des variables n’améliore pas systématiquement la

qualité de l’apprentissage. En effet, nous somme confronté au phénomène appelé « the
curse of dimensionality ». La complexité des algorithmes d’apprentissage augmente
avec la croissance de la dimension des données, nous notons aussi que certaines
variables sont séparément pertinentes, mais le gain est faible lorsqu’elles sont
combinées. [30].
Dans la littérature, beaucoup travaux de recherche ont abordé le domaine de la

sélection des variables pertinentes d’un vecteur d’entrées pour un classifieur neuronal :
Choo JunTan et al 2014 ont Proposé des algorithmes génétiques multi objectifs
micro Modifié(MMGA), pour sélectionner des variables d’entrée. Cet algorithme est
utilisé pour réaliser un ensemble optimiseur. Le but de l'optimiseur ensemble basé sur
MMGA est double, sélectionner un petit nombre de variable d'entrée pour la
classification, et évaluer l'efficacité du système proposé. Les systèmes a été appliqué à la
détection de mouvement humain. [31] .d’autre part Carlos Affonso et al 2015ont
présenté une approche pour la classification d'images biologiques à travers un réseau
neuronal artificiel hybridé avec les ensembles de la logique floue (FANN). Cette
approche est utilisée pour améliorer le processus d'apprentissage par renforcement, en
se concentrant sur la sélection de la variable d’entrée par les ensembles floue. Les RNAs
sont utilisés pour la classification et la logique floue est utilisée pour la cratérisation de
l’image [32]. Kabiru O. et al2015ont proposé des algorithmes basés sur la corrélation
pour réduire le nombre des variables d’entrée d’un RNA Utilisé pour la recherche
prédiction de cinq puits de pétrole distinct. Cette approche améliore les performances
de la recherche et diminue le temps d’apprentissage. Lors de la sélection des variables
d’entrée pertinentes d’un classifieur neuronal des différents défauts en
12
Etat de l’art
céramique [33].;Manasa Kesharaju et al 2015 ont utilisé un algorithme basé sur les
systèmes évolutionnistes et l’ACP(analyse de la composante principale),. Les résultats
de classification obtenus par les variables sélectionnées par cette approche ont été
comparés avec trois méthodes de sélection de variables. Les résultats empiriques
montrent que l'ACP combinée avec les systèmes évolutionnistes donne des meilleurs
résultats [34].
1.3.4 Sur apprentissage et sur généralisation
A. Sur apprentissage
Le phénomène du sur-apprentissage (en englais : overfitting) est l'un des
problèmes majeurs durant la phase d’apprentissage des RNAs.
En effet, il faut que le prédicteur apprenne suffisamment des données

d'apprentissage pour pouvoir prédire de nouveaux exemples.
Cependant, il arrive souvent que les exemples de la base d'apprentissage

comportent des valeurs bruitées. Ainsi, il ne faut pas qu'il "apprenne trop", sinon il
s’adapte parfaitement aux données d'apprentissage et il perd de sa généralisation
lorsqu'on lui présente de nouvelles données.
Une cause très fréquente du sur apprentissage est la présence du bruit dans les
données d’apprentissage. En effet, il n'existe pas un moyen de mesure qui présente des
résultats parfaits. Depuis des années les chercheurs ont montré qu’il leur fallait
contrôler la complexité d'apprentissage pour ne pas tomber dans le sur-
apprentissage[6].
Lorsque la base de données d’apprentissage augmente, alors l'erreur

d’apprentissage diminue et tend vers 0. Cependant, ce qui est important, est que l'erreur
en généralisation. Pour d’autre part, quand le nombre de données utilisées augmente,
l'erreur en généralisation commence à diminuer puis elle augmente à ce point nous
construisons le meilleur modèle, avec une erreur minimale. Ce modèle est capable de
produire la meilleure généralisation de l'apprentissage, c'est-à-dire, il a la plus petite
probabilité de mal classer une donnée quelconque. Au-delà de ce modèle optimal, si
l'apprentissage continu, l’architecture de modèle devient complexe et la probabilité
d'erreur augmente, et le modèle tombe sur-apprentissage. (Voir figure 1 .2) [35].
13
Etat de l’art
Fig1.2 sur apprentissage
 Éviter le sur apprentissage
Pour limiter ce genre de problèmes dans le cas d’apprentissage des réseaux de

neurones, il faut d’abord traiter le problème de choix d’architecture ; nous devons
utiliser un nombre adéquat de neurones et de couches cachées.
Pour identifier l’état d’un sur apprentissage, nous divisons les données en deux
sous-ensembles : l'ensemble d'apprentissage et l'ensemble de validation. L'ensemble
d'apprentissage comme son nom l'indique permet d’ajuster les poids du réseau de
neurones en appliquant une rétro propagation. L'ensemble de validation n'est pas utilisé
pour l'apprentissage mais permet de vérifier la pertinence du réseau avec des
échantillons qu'il ne connait pas.
On peut vraisemblablement parler de sur apprentissage si l'erreur de prédiction

du réseau sur l'ensemble d'apprentissage diminue alors que l'erreur sur la validation
augmente de manière significative. Cela signifie que le réseau continue à améliorer ses
performances sur les échantillons d'apprentissage mais perd son pouvoir de prédiction
sur ceux provenant de la validation.
Pour avoir un réseau qui généralise bien, on arrête l'apprentissage dès que l'on
observe cette divergence entre les deux courbes (voir figure1.2). On peut aussi diminuer
la taille du réseau et recommencer l'apprentissage. Dans la littérature beaucoup travaux
de recherche ont traité le problème de sur apprentissage : Wang et al. 2009 ont traité le
problème de sur apprentissage par une bonne sélection des paramètres des RNAs . Mis à
part le choix du type réseau de neurones et l’architecture (nombre de neurones cachés
et le nombre de connexions) .un algorithme d'optimisation des différents paramètres
sera un moyen pour éviter le sur apprentissage [36].D’autre part Jin et Branke, 2005 ont
utilisé les réseaux de neurones en ajoutant de bruit pour éviter le sur-apprentissage.
Cela montre l'importance des méthodes de couplage approprié pour éviter le sur-
apprentissage [37]. Piotrowski et Napiorkowski 2011 ont étudié la meilleure méthode
d’apprentissage des perceptron multicouches ;ils ont conclu que les méthodes
14
Etat de l’art
permettant d'éviter le sur apprentissage ne peut être comparées ou discutées en dehors

d’architecture des RNAs et l’algorithme d’apprentissage[38] .dans le même esprit , Adam
P. Piotrowski 2013 a comparé un certain nombre de techniques pour éviter le sur
apprentissage des RNAs appliqués à la modélisation de collecte des eaux dans une
zone climatique modérément froide. Trois méthodes ont été prises en compte, à savoir
l’ajout de bruit (Holmstrom et Koistinen, 1992), algorithme d'approximation proposée
par Liu et al. (2008) et l'arrêt précoce le plus populaire (Perchlet, 1998 et Haykin, 1999).
Il a constaté que la meilleure méthode utilisé pour éviter le sur apprentissage devrait
dépendre du nombre de données, le nombre de tests à l'utilisateur et l'algorithme
d'optimisation qui doit être utilisé [39].
B .Sur –généralisation
La sur-généralisation (en anglais: overgeneralization ou oversimplification) est

l’opposé du sur-apprentissage. . Considérant que, le sur apprentissage désigne
l'émergence de candidats de solutions trop complexes, les solutions issues de la Sur
généralisation ne sont pas assez compliquées. Bien qu'elles semblent bien adaptées et
représentent les exemples d’apprentissage utilisés au cours du processus
d'optimisation, elles ne parviennent pas à donner de bons résultats, lorsque les cas ne
font pas partie des exemples d’apprentissage [40].
Une cause principale de la sur généralisation est que l’ensemble d'apprentissage ne

représente qu'une petite fraction de l'ensemble global des données. De telle couverture
incomplète des exemples peut ne pas échouer à représenter quelques caractéristiques
des données qui peuvent mener à des solutions simples. Une autre raison possible pour
la sur- génération est que la structure de la de fonction fitness peut conduire à la
convergence prématurée et elle empêche l’algorithme en surpassant d'un certain
niveau de qualité des candidats importants de la solution [40].
1.3.6prétraitement des données

Un prétraitement des données est nécessaire avant de les utiliser dans un
algorithme d’apprentissage. Les différents problèmes à prendre en compte auparavant
sont ;
 Nettoyage des données : Les données disponibles sont rarement décrites

parfaitement. Souvent les défauts des capteurs en lecture des ou humains
peut provoquent des erreurs [6].
 Transformation : Certains algorithmes d’apprentissage sont incapables de

traiter directement des attributs à valeur continue. Il est nécessaire de les
transformer en attributs à valeurs discrète. Une autre raison pour discrétiser
un attribut à valeur continue est de réduire le volume des données [6] .
15
Etat de l’art
1 .3.7 une approche générique d’apprentissage des RNAs
Les réseaux de neurones présentent une grande diversité. En effet un type de

réseau neuronal est défini par sa topologie, sa structure interne et, son algorithme
d’apprentissage.
Jusqu’à présent, le problème qui reste le plus difficile à résoudre est de trouver le
meilleur points dans un espace a trois surfaces (architecture, poids synaptique et les
variables d’entrées) ; Le but d'une optimisation générique est de trouver le meilleur
point meilleur pour résoudre ces problèmes simultanément.
Fardin Ahmadizar et al2015 ont Développé un nouvel algorithme évolutionniste

pour ajuster simultanément la topologie et les poids de connexions des RNA au moyen
d'une nouvelle combinaison de l'évolution grammaticale (GE) et l'algorithme génétique
(AG). L’algorithme GE est pour concevoir la topologie du réseau et l’algorithmeGA est
utilisé pour une meilleure adaptation de poids [41]. Dansle même esprit, M.
Castellani2013ont Proposé l’ajustement simultané de l'ensemble des paramètres de
réseaux (vecteur d’entrée, architecture et poids synaptiques). Deux méthodes ont été
étudiées. La première méthode ajuste simultanément la structure de réseau neuronal et
le vecteur d'entrée, avec une technique d’apprentissage standard. La seconde méthode
évolue simultanément l'ensemble des paramètres du classificateur (approche intégrée).
Cette méthode est limitée par l’inconvénient de temps [42]. Yacoub M et Bennani
Y2015ont proposé une procédure d'optimisation de l'architecture et sélection des
paramètres d’entrée pour le perceptron multicouches (MLP) avec un algorithme
heuristique nommé HVS (heuristique de sélection de variables). Cette technique permet
d’identifier et sélectionner des variables pertinentes dans l'espace des caractéristiques.
La technique proposée est utilisé dans une nouvelle procédure pour la sélection
d'architecture de PMC. Les résultats de l'application de deux problèmes génériques
démontrent l'efficacité de l'algorithme de sélection [43].
1.4Conclusion
Ce chapitre a présenté un état de l'art détaillé sur le renforcement de

l’apprentissage artificiel des RNAs . Nous avons présenté les problèmes d’apprentissage
des RNAs et un état de l’art sur les différentes techniques utilisées pour résoudre ces
problèmes.
L’objectif de ce travail est d’améliorer et de renforcer l’apprentissage neuronal.

L’objectif du prochain chapitre Serait de présenter l’hybridation d’une technique
d’apprentissage intelligente : algorithmes évolutionnistes avec les réseaux de neurones
artificiels pour résoudre les différents problèmes liés à l’apprentissage.
16
Chapitre2
Classifieurs neuro- génétique
Le manque d’expérience relatif dans le domaine des

réseaux de neurones implique une absence d’expertise humaine
dans leur conception. En conséquence, un bon réseau est
toujours issu d’une série de modifications, opérés jusqu'à ce qu’il
satisfasse un certain nombre de critères qui eux sont
définissables et mesurables par l’homme.
Un bon réseau de neurones est un réseau qui sait trouver

une solution à un problème donné en un temps minimum. Les
deux phases critiques pour l’obtention d’un tel réseau sont
l’optimisation et l’apprentissage [44].
L’optimisation consiste à déduire les caractéristiques optimales

d’un réseau de neurones pour la résolution d’une tâche précise,
suivant les contraintes qu’on impose à la conception. Ces
contraintes portent sur les paramètres intrinsèques tels que la
taille du réseau, sa topologie, voire même la précision des poids
de ses liaisons
Dans ce chapitre nous présentons les modèles hybrides

des classifieurs neuro-génétique pour résoudre des problèmes
assez complexes des réseaux de neurones (choix de la topologie
neuronale, apprentissage synaptique, sélection des variables
d’entrée).
Nous citons aussi les différents problèmes de l’approche

neuro-génétique et proposer une nouvelle technique pour
résoudre le problème de processus aléatoire.
Classifieurs neuro-génétique
Introduction
L’apprentissage, par analogie à celui d’un cerveau humain, consiste à rendre un
réseau apte à résoudre un problème. Il porte le plus souvent sur les valeurs des poids du
réseau, sa topologie ou les deux. Il existe plusieurs méthodes pour entraîner un réseau
de neurones, que l’on peut ranger dans deux classes : les méthodes déterministes et les
méthodes évolutionnistes [44].
Les méthodes déterministes consistent à apporter des modifications bénéfiques

aux paramètres du réseau. Si l’on considère par exemple la ‘‘descente de gradient’’, où
l’on s’appuie sur le calcul de la dérivée du critère d’évaluation par rapport à ses
paramètres, il est impératif que la fonction critère d’évaluation soit différentiable. Ces
méthodes sont également à d’éventuels optima locaux du gradient, dont elles ne savent
pas se sortir du fait de l’itératives de leur processus. Ce problème, connu sous le nom de
non-complétude, ôte la garantie d’atteindre un optimum global, et donc une solution
optimale [44] .
Les algorithmes évolutionnaires (AEs) sont des méthodes pratiques et robustes

pour automatiser la recherche de bonnes solutions. Ils sont proposés comme un moyen
de trouver des solutions proches des optima globaux pour des problèmes complexes
dans un temps beaucoup plus court que ce qui serait requis par l’évaluation de toutes les
solutions possibles.
2.2Principe d’évolution des espèces
Considérons un environnement quelconque dans lequel vit une population

primitive et peu adaptée à cet environnement. Bien sûr, quoique globalement inadaptée,
cette population n’est pas uniforme : certains individus sont mieux armés que d’autres
pour profiter des ressources offertes par environnement (nourritures, abris, etc.) et
pour faire face aux dangers qui y rôdent (prédateurs, intempéries, etc.).
Ces individus mieux équipés ont par conséquent une probabilité de survie plus
grande que leurs congénères et auront de fait d’autant plus de chances de pouvoir se
reproduire.
En se reproduisant entre individus bien adaptés, ils vont transmettre à leurs

enfants ces caractéristiques qui faisaient leur excellence. La population qui résultera de
cette reproduction sera donc globalement mieux adaptée à environnement que la
précédente puisque la plupart des individus auront hérité de plusieurs (puisque chacun
hérite à la fois de sa mère et de son père) des caractéristiques de l’ "élite" de la
génération précédente Et c’est ainsi, en recombinant à chaque génération les
caractéristiques élémentaires de bonne adaptation et en saupoudrant le tout d’un peu de
hasard, que la population va évoluer vers une adéquation toujours meilleure avec
l’environnement[47].
2.3. Algorithmes évolutionnistes
Les Algorithmes évolutionnistes sont des méthodes d’optimisation stochastique

basées sur une simulation brute de l’évolution naturelle des populations. Précisément,
ce sont des techniques de programmation qui s’inspirent du principe de l’évolution des
18
espèces décrit par Darwin. Le principe de base bien que simple, il n’en demeure pas
moins puissant : il s’inspire de la théorie de Darwin sur l’évolution des espèces qui
explique comment depuis l’apparition de la vie les espèces ont su évoluer de façon
innovante et souple dans le sens d’une meilleure adaptation à l’environnement, tout en
permettant aux seuls individus bien adaptés à leur environnement de se
reproduire[48] .
2.3.1Principe des algorithmes évolutionnistes
Les AEs sont des techniques de recherche stochastique qui ont été appliqués avec
succès à une large gamme de problèmes réels et complexes. Un AE est une approche
itérative qui utilise des opérateurs de variations stochastiques sur un ensemble
d’individu (la population). Chaque individu de la population représente une version
encodée (solution) du problème. Au départ, cette population initiale est engendrée
aléatoirement.
À chaque génération/itération de l’algorithme, les solutions sont sélectionnées,

rassemblées en paires et recombinées afin de produire de nouvelles solutions qui
remplaceront les "moins bonnes" selon un certain critère, et ainsi de suite. Une fonction
d’évaluation associe une valeur d’adaptation (fitness) à chaque individu dans le but de
déterminer sa pertinence par rapport au problème (critère de sélection) [48].
En permettant aux seuls individus bien adaptés à l’environnement de se

reproduire, la nature assure la pérennité de leurs meilleures caractéristiques, lesquelles
caractéristiques se recombinent entre elles (chaque enfant reçoit de bonnes
caractéristiques à la fois de son père et de sa mère) pour former à chaque génération de
nouveaux individus toujours mieux adaptés à leur environnement [49].
2.3.2Classes des algorithmes évolutionnistes
Malgré la simplicité du processus évolutionnaire, fabriquer un algorithme

évolutionnaire efficace est une tâche difficile, car les processus évolutionnaires sont très
sensibles aux choix algorithmiques et paramétriques. L’expérience a prouvé que les
réussites les plus importantes sont fondées sur une très bonne connaissance du
problème à traiter, et une compréhension délicate des mécanismes évolutionnaires.
On distingue quatre grandes familles d'algorithmes évolutionnaires [50].
A. Les Algorithmes Génétiques : (AG), développés à l'Université de Michigan

(USA) par (J. Holland 1975, Goldberg 1989, L. Davis 1991 et Michalewicz 1992).
Ils ont été imaginés comme outils de modélisation de l'adaptation. C'est les plus
connus des algorithmes évolutionnaires; ils favorisent l’utilisation du croisement comme
principal opérateur de recherche. Il utilise cependant la mutation avec un faible
pourcentage de probabilité, et une méthode de sélection de type probabiliste dans
laquelle la probabilité de sélection est proportionnelle au fonction d’adaptation de
l’individu. La représentation des individus génotype, qui est à l’origine de type binaire, a
été par la suite développée à de nombreuses autres formes de représentation [51, 57].
B .Les Stratégies d'Evolution : Développés par (Rechenberg et H.P. Schwefel,

1965, Berlin). Elles ont été développées pour résoudre des problèmes d’optimisation à
variables réelles posés au milieu industriels et pour les quels n’existe pas de fonction
19
objectif analytique; le contexte étant l'optimisation paramétrique. Ce sont les meilleurs

algorithmes pour les problèmes purement numériques. Ce modèle de stratégies
d’évolution utilise le principe de mutation sur les réels du modèle de la programmation
évolutive avec un taux de mutation plus grand. Cette augmentation peut être interprétée
par le fait que si la proportion de mutation réussie est élevée, l’espace de recherche
exploré est limité autour d’un optimum local; il faut donc diversifier la population en
augmentant le taux de mutation. Ces approches utilisent un opérateur de sélection de
type déterministe, les solutions dont la fonction d'adaptation est mauvaise sont
éliminées de la population. En outre, dans le modèle originel, les populations des
parents et de leurs descendants sont généralement de taille différente [51-57].
C.Programmation Evolutionnaire : (PE), développés par (L.J. Fogel, 1964 et D.B.

Fogel, 1991, 1995, Californie, USA). Ce modèle évolutionnaire accentue l’utilisation de la
mutation et n’utilise pas dans sa version originale la recombinaison des individus par
croisement. Développé à l’origine pour l’évolution des automates à état fini, ce modèle
est souvent appliqué à la résolution de problèmes d’optimisation à variables réelles dans
des espaces de recherche très variés. L’idée consiste à faire subir des mutations
importantes aux mauvais individus et des mutations faibles aux bons individus.
L’opérateur de sélection est de type probabiliste. Il est à noter que la représentation des
individus n’a pas une forme spécifique de génome telle que dans une représentation
linéaire de type chaîne binaire par exemple [51-57].
D.Programmation Génétique : (PG), développés par (J. Koza, 1990, Californie,

USA). Apparue initialement comme une extension du modèle d’apprentissage des
algorithmes génétiques, ils sont devenus une branche à part entière (conférence,
journal, ...). La (PG) permet de générer des fonctions informatiques à partir des
principes évolutionnaires, la population est un ensemble de codes de base de
programmes informatiques. La spécificité des (PG) est l'espace de recherche, Les
individus formant une population sont donc des programmes candidats à la résolution
d’un problème. Ces programmes sont exprimés sous la forme d’arbres sur lesquels les
opérateurs génétiques produisent des transformations en vue d’obtenir un programme
qui satisfaisant la résolution du problème choisi. Les (PG) cherchent à atteindre un des
vieux rêves des programmeurs, faire écrire le programme par un autre programme [51-
57].
Ces différentes classes d'algorithmes évolutionnaires ne différent que sur les

détails d'implantation des opérateurs et sur les procédures de sélection et
remplacement de la population. Malgré que leur but soit différent à l'origine, ils sont
maintenant surtout utilisés pour résoudre des problèmes d'optimisations. Les méthodes
les plus répandues sont les algorithmes génétiques (AG).
Globalement, les différences entre ces méthodes résident dans la stratégie de

résolution.
Les (AG) sont considérés comme des méthodes de résolution "ascendantes", c'est-
à-dire que la solution optimale peut être obtenue progressivement en assemblant des
parties optimales des solutions partielles, les opérateurs de recombinaison jouent alors
un rôle essentiel. Les stratégies évolutionnistes et la programmation évolutionniste sont
vues comme des méthodes "descendantes", dans lesquelles l'environnement agit comme
20
une pression pour faire apparaître la solution optimale. Les opérateurs de

recombinaison y ont un rôle secondaire [58].
2.4 Modèles neuro-évolutionnistes
On a tout l’intérêt que peut présenter l’emploi de méthode évolutionnistes lors des
phases d’apprentissage et optimisation d’un réseau de neurones On notera également
que le cerveau humain est le fruit de milliers d’années d’évolution génétiques [59]. Ces
deux points ont aidés beaucoup de chercheurs à suivre cette piste [44].
Le premier à lancer l’idée est Holland en 1975 dans son ouvrage “Adaptation in
Natural and ArtificialSystems” [60].
2.4.1-Optimisation des poids et bais (apprentissage paramétrique)
Une des premières tentatives d’utilisation de méthodes évolutionnistes pour

l’apprentissage d’un réseau de neurones fut de ne s’intéresser qu’aux poids des liens
entre les neurones. Un algorithme génétique fournissait une alternative aux lois de rétro
propagation et de renforcement reposant traditionnellement sur des méthodes
déterministes [61]
Dans cette partie nous présentons le concept de base d'une technique

d'optimisation de poids synaptique dans un classifieur neuronal par les algorithmes
génétiques [62, 63,64].
Dans ce modèle des classifieurs neuro-génétiques, nous avons fixés la structure

du classifieur et l’apprentissage génétique est employé seulement pour un
apprentissage paramétrique
La première étape consiste a un codage du problème par un chromosome voir la

figure2.1
21
Fig. 2.1 : présentation d’un classifieur neuro-génétique
Les poids initiaux dans le réseau sont choisis au hasard dans un petit intervalle, [-
1,+1] , L'ensemble de poids peut être représenté par une matrice carrée(voir figure2.1)
dont un nombre réel correspond à la liaison pondérée d'un neurone à l’autre, et 0
signifie qu'il n'y a aucune connexion entre deux neurones donnés.
Un chromosome est une collection de gènes, un ensemble de poids peut être

représenté par un chromosome de n gène, où chaque gène correspondant à une
connexion pondéré dans le réseau.
Dans La deuxième étape nous définissons une fonction d’évaluation (fitness) pour
évaluer la performance des chromosomes. Nous utilisons dans cette étude une fonction
définie par l’erreur quadratique entre la sortie réelle et la sortie désirée du classifieur,
telle que l'algorithme génétique essaye de trouver un ensemble des poids (individu) qui
réduisent au minimum cette fonction.
Nous pouvons utiliser comme une fonction fitness, le taux de classification non
correcte et l’algorithme génétique essaye de trouvé l’individu qui réduise aux minimum
ce taux.
Dans la troisième étape nous appliquons les deux opérateurs des algorithmes
génétiques croissement et mutation. Un opérateur de croisement prend deux
chromosomes parents et crée un chromosome enfant avec les mêmes propriétés
génétiques que les chromosomes parents. Figure 2.2 présente l’opérateur de
croisement dans un classifieur neuro-génétique.
22
Fig. 2.2opérateur de croisement dans un classifieur neuro-génétique
L'opérateur de mutation apporte aux algorithmes génétiques la propriété d'exploration

de parcours d'espace. Cette propriété indique que l'algorithme génétique sera
susceptible d'atteindre tous les points de l'espace d'état, sans pour autant les parcourir
tous dans le processus de résolution. Ainsi en toute rigueur, l'algorithme génétique peut
converger sans croisement, et certaines implantations fonctionnent de cette manière
[65]. Les propriétés de convergence des algorithmes génétiques sont donc fortement
dépendantes de cet opérateur sur le plan théorique.
L’opérateur de mutation consiste généralement à tirer aléatoirement un gène dans

le chromosome et à le remplacer par une valeur aléatoire. Figure 2.3 présente
l’opérateur de mutation dans un classifieur neuro-génétique.
23
Fig. 2.3opérateur de mutation dans un classifieur neuro-génétique
2.4.2Optimisation de l’architecture des classifieurs (apprentissage structurel)
L’architecture du réseau (c'est-à-dire le nombre de neurones et les connexions

entre les neurones) présente souvent un ‘échec d’apprentissage des classifieurs .
D'habitude l'architecture du classifieur est fixée d’une manière ad hoc. Donc il y a un
grand besoin d'une méthode pour concevoir automatiquement l'architecture des
classifieur .les algorithmes génétiques peuvent bien nous aider dans la sélection
d'architecture de réseau de neurone.
Dans ce modèle des classifieurs neuro-génétiques l’apprentissage génétique est

employé pour un choix d’architecture des RNAs .
La première étape consiste à un codage de la structure du classifieur. La clé est de

décider la quantité d'informations nécessaire pour la représentation du classifieur. Plus
il y a des paramètres d’architecture, plus le coût informatique augmente.
La topologie de connexion d'un réseau neuronal peut être représentée par une
matrice de connectivité carrée, comme indiqué dans la figure2.4. Chaque entrée dans la
matrice définit le type de connexion d'un neurone (de la colonne à la ligne) où 0
présente aucune connexion et 1 présente la connexion. Pour transformer la matrice de
connectivité dans un chromosome, nous devons seulement rangées la matrice ensemble,
comme indiqué dans la figure2.4.
24
Fig. 2.4 : système neuro-génétique pour l’optimisation d’’architecture des

classifieurs[66].
Après le codage l’ajustement de la structure de classifieur passe par les étapes

suivantes :
- Étape 1 : choix de la taille de population, probabilité de croisement et mutation

et le nombre de génération.
- Etape 2 : définition d’une fonction d’évaluation « fitness » pour mesurer la
performance d'un chromosome individuel. En général, fitness du réseau doit être
basée non seulement sur son exactitude, mais aussi sur sa vitesse d’
d’apprentissage, la taille et la complexité. Cependant, performance du réseau est
beaucoup plus importante que son architecture. Fonction fitness peut toujours
être définie par la somme Des erreurs quadratiques
- Etape 3 : production aléatoire d’une population initiale de chromosome
- Etape 4 : application d’un algorithme d’optimisation des poids : rétro
propagation, à chaque chromosome
- Etape5: application des opérateurs de croisement et de mutation
- Etape7:replacemons des chromosomes créés dans la nouvelle population
- Etape8: répétitions des processus de l’étape 4 jusqu’à la satisfaction des critères
d’arrêt.
La figure 2.5 présente Un cycle génétique pour développer une topologie d’un
classifieur neural.
25
Fig. 2.5 : Un cycle génétique pour développer une topologie de RNA[66] .
26
2.4.3caractérisation du vecteur d’entrée des classifieurs
Les algorithmes génétiques (AG) ont montré avec succès leur grande capacité à
résoudre des problèmes d'optimisation. Ils ont aussi été utilisés dans le domaine de la
sélection de caractéristiques. De nombreuses études rapportées dans la littérature ont
montré que les méthodes qui utilisent les AGs comme technique de recherche ont donné
des meilleurs résultats en comparaison avec les autres méthodes de sélection [67]. En
2000, Kudo et Sklansky ont montré la possibilité d'utiliser les AGs pour la sélection sur
des ensembles de grande échelle (50 caractéristiques et plus) en ajustant les paramètres
de l'AG (le nombre de générations, la taille de la population et les probabilités des
opérations génétiques) d'un côté et la fonction d'évaluation de l'autre côté [68]. Une fois
que les paramètres ont été bien fixes et la fonction d'évaluations bien définie [69].
La représentation la plus simple pour coder un sous-ensemble de caractéristiques

est le codage binaire. Chaque chromosome de la population est représenté par une
chaîne binaire de taille fixe N qui représenté le nombre total de caractéristiques du
problème. Chaque gène du chromosome présente la présence ou l'absence de la
caractéristique correspondante.
Après le codage la sélection des caractéristiques passe par les étapes suivantes :
- Étape 1 : choix de la taille de population, probabilité de croisement et mutation

et le nombre de génération.
- Etape 2 : définition d’une fonction d’évaluation « fitness » pour mesurer la
performance d'un chromosome individuel. En général, fitness du réseau doit être
basée non seulement sur son exactitude, mais aussi sur sa vitesse d’
d’apprentissage, la taille et la complexité. Cependant, la performance du réseau
est beaucoup plus importante que son architecture. Fonction fitness peut
toujours être définie par la somme Des erreurs quadratiques
- Etape 3 : production aléatoirement d’une population initiale de chromosome
- Etape 4 : application d’un algorithme d’optimisation des poids : rétro
propagation, à chaque chromosome
- Etape4: application des opérateurs de croisement et de mutation
- Etape7:replacement des chromosomes créés dans la nouvelle population
- Etape8: répétitions des processus de l’étape 4 jusqu’à la satisfaction des critères
d’arrêt.
La procédure de la caractérisation des descripteurs par un algorithme génétique

est présentée dans la figure2.6.
27
Fig 2.6 : algorithme génétique pour la sélection des paramètres pertinents [69].
2.4.4Optimisation Multi objectifs
Les réseaux de neurones présentent une grande diversité. En effet un type de

réseau neuronal est défini par sa topologie, sa structure interne et, son algorithme
d’apprentissage.
Jusqu’à présent, le problème qui reste le plus difficile à résoudre est l’obtention de
l’architecture adéquate du réseau avec la sélection des paramètres d’entrées
pertinentes. Cette difficulté est mise en évidence par des questions, telles que le nombre
de couches cachées qu’il faut utiliser dans un réseau multicouche, le nombre optimal de
neurones dans chaque couche, les valeurs initiales des poids de connexions du réseau
pendant la phase d’apprentissage, les meilleurs paramètres d’entrée…etc. Un mauvais
choix peut conduire à de mauvaises performances du réseau correspondant.
Le but d'optimisation multi-objectifs ou multicritères consiste à trouver un

vecteur de décisions qui optimise plusieurs fonctions objectif simultanément et qui
satisfait un ensemble de contraintes. Un vecteur de décision est compose de n variables
qui représentent les variables du problème. . Il existe plusieurs familles de méthodes
dans ce domaine. Les plus connues sont [69]:
A. Les méthodes agrégées ; elles transforment un problème multi-objectif en un

problème simple objectif.
Ces méthodes sont basées sur la constitution d'une unique fonction objective
définie comme une combinaison des objectifs. Elles sont utilisées avec les modèles de
combinaison tels que le modèle additif et le modèle multiplicatif.
L'application de ces modèles n'est possible que sur des objectifs commensurables
(exprimes dans la même unité). En d'autres termes, il est difficile d'utiliser ces modèles
avec des critères qui peuvent être quantitatifs pour certains et qualitatifs pour d’autres
[70 ,71].
B. Les méthodes de Pareto : elles sont fondées sur la notion de dominance au

sens de Pareto et qui privilégient une recherche satisfaisant au mieux tous les
objectifs[72]
28
La première méthode qui utilise la dominance au sens de Pareto pour résoudre des
problèmes multi-objectifs a été proposée en 1989 par Goldberg [73]
C. algorithmes génétiques multiobjectifs (MOGA)
Cette méthode a été proposée en 1993 par Fonseca et Fleming [74].
La fonction de fitness pour évaluer un individu est basée sur le rang de cet individu
et sur le nombre d'individus ayant le même rang. Le rang d'un individu de la population
est relatif au nombre d'individus qui le dominent. Tous les individus non domines ont le
rang 1 .Cette méthode donne des solutions de bonne qualité et son implémentation est
facile.
En revanche, la sélection par rang risque de repartir la population autour d'un

même optimum, ce qui donne à la fin une seule solution proposée qui peut ne pas être
satisfaisante pour l'utilisateur. Pour éviter ce problème, les auteurs proposent d'utiliser
une fonction de partage (fonction de sharing). L'utilisation de cette fonction a pour but
de répartir la population sur l'ensemble de la frontière Pareto et d'éviter le
regroupement des individus autour d'un optimum local. Pour cela, la fonction de partage
se base sur d'autres critères pour changer la note d'un individu. Un des critères utilisés
est le degré d'isolement de l'individu. Par exemple, un individu isole qui a une note
moyenne aura un score plus élevée qu'un individu qui a une très bonne note mais dans
une zone très peuplée. La performance finale de la méthode dépend toujours des
paramètres utilisés pour la fonction de partage [69].
D. Méthode algorithme génétique non dominance (NSGA)
En 1994, Srivinas et Deb [75] ont développé une méthode basée sur la dominance
au sens de Pareto appelée NSGA. Dans cette méthode, l'évaluation de la population se
fait par des évaluations partielles sur des groupes d'individus, chaque groupe i
représente les éléments qui constituent l’i_eme frontière de Pareto. L'évaluation
commence par la première frontière en donnant une valeur factice de fitness et en
appliquant une fonction de partage. Une fois ce groupe évalue, il sera supprimé et le
processus se répète jusqu'à ce que tous les groupes aient été évalués. L'algorithme se
déroule ensuite comme un algorithme génétique classique Le tri des solutions en
différentes frontières assure d'une part une répartition plus efficace sur la frontière
Pareto et par ailleurs maintient la diversité de la population. De plus, cette méthode est
applicable dans des problèmes avec un nombre quelconque d'objectifs.
Cependant, la complexité de calcul et le paramétrage de la fonction de partage

représentent deux inconvénients de cette méthode. Un autre problème apparait avec la
méthode de tri utilisée qui conduit au ralentissement du processus de convergence de
l'algorithme.
En 2000, une deuxième version de NSGA (NSGA II) a été proposée par Deb [72]
Dans cette version, l'auteur propose quelques solutions qui limitent les principaux
problèmes de la version originale [69] .
29
2.5Problèmes d’apprentissage neuro-génétique
2.5.1Problème d’opérateur de croisement [44]
Les opérateurs génétiques de mutation et de recombinaison, destinés à faire

évoluer la population reprennent aussi les principes des algorithmes évolutionnistes. Ils
dépendent évidemment de la représentation choisie, à tel point que « le couple
<représentation, opérateurs> conditionne le résultat de l’application de l’algorithme
évolutionniste. Idéalement, le choix effectué devrait assurer la complétude de la
recherche, la validité de tout individu obtenu et la présence d’une métrique convenable
sur l’espace des représentations. » (MihailCrucianu) [75]
Dans la pratique malheureusement, ces opérateurs s’avèrent très difficiles à mettre

en place.
En effet, on observe que les opérateurs de très bas niveau, qui consistent
seulement à couper deux chromosomes parents en deux afin de créer deux fils par
recombinaison des quatre moitiés, engendrent des résultats peu satisfaisants au niveau
de la convergence générale de la population.
Un phénomène désormais bien connu explique cette tendance. “The competing

conventions problem” également appelé problème des permutations gêne [76]
l’optimisation des réseaux de neurones par les algorithmes évolutionnistes. En effet, ce
problème exprime le fait que plusieurs représentations génotypiques peuvent coder
pour un même modèle phénotypique comme le montre la Figure 2.7
30
Fig. 2.7 :l’effet du problème des permutations dans l’opérateur de croisement [59]
Ce schéma montre bien l’effet du problème des permutations :
Premièrement, on voit ici deux réseaux, “parent 1” et “parent 2”, ayant une
représentation génotypique différente mais assumant les mêmes fonctions. On admettra
qu’avec une couche cachéecontenant n neurones, il existe n Réseaux équivalents à la
résolution d’une même tâche [44].
Deuxièmement, le croisement de ces deux parents a une majorité de chances de

produire deux fils inutiles car contenant plusieurs copies des mêmes gènes, c’est à dire
de la même fonctionnalité. En effet, considérons que les deux “branches” de chaque
parent sont asservies au traitement d’une sous tâche: la branche “A” a pour rôle de
résoudre le sous problème “A” et la branche “B” le sous problème “B”. Supposons que le
“parent 1” a parfaitement appris le rôle “A” à l’issue de son apprentissage mais par
contre est inapte à traiter le rôle “B” et l’inverse pour le “parent 2”. Le croisement a un
effet néfaste sur l’algorithme car, non content de produire deux fils inadaptés, il fait
littéralement exploser l’espace de recherche des solutions, ce qui rend l’évolution peu
performante. La démonstration est encore plus probante quand on sait que, dans la
31
majorité des cas, il existe plusieurs façons de traiter un problème et que par conséquent
il faudrait considérer les rôles “A”,“B”,“C”,“D”,“E”,etc[44].
Afin de palier à ce problème, les opérateurs de recombinaison de réseaux de

neurones doivent se situer à un plus haut niveau. Ainsi, plusieurs méthodes de codage
ont été étudiées pour assurer le maintien de la cohérence des réseaux lors de la phase de
croisement [44]:
Montana et al sont les premiers à s’intéresser aux aspects fonctionnels du hidden

layer durant la phase de recombinaison en vue de proposer un opérateur de croisement
“intelligent’[62]. A partir de leurs travaux, Munro développe en 1991 un opérateur qui
classifie les chaînes (chemins de neurones du hidden layer reliant une entrée à une
sortie du réseau et assurant potentiellement une fonction) par rapport à leur réponse à
une série de tests Ainsi, il évite de recombiner des chaînes qui assurent la même
fonction[77]. Braun et al, proposent une méthode de croisement qui transmet aux
enfants chaque lien contenu dans les deux parents. Si le lien n’est contenu que dans un
seul parent, alors son apparition dans le génome du fils est conditionnée par une
probabilité [78].
Whitley et al testent une méthode de “pruning’’ qui épure le réseau des liens qui ne
jouent pas un rôle significatif ainsi que des neurones superflus. L’enjeu est de limiter les
opérations de croisement aux seules sous-parties qui ont un intérêt. Les entités
manipulées à chaque stade de l’évolution sont des chromosomes où chaque gène est
important dans le fonctionnement du réseau de neurones associé. Cependant, cette
méthode n’est pas réellement efficace car il n’existe pas vraiment de directives pour
déterminer a priori l’importance d’un lien [79].
Happel et AL envisagent la manipulation non plus de neurones mais de sous
réseaux de neurones aux fonctions connues et optimisées appelés CALMs
(Categorization andLearning Modules). Ces sous-réseaux sont vus comme les briques
élémentaires que l’on va assembler afin de créer un réseau apte à résoudre le problème
posé. Le codage est adapté à cette représentation puisque chaque CALM peut être
représenté par un gène dans le chromosome codant le réseau. Les opérateurs de
recombinaison agissent sur la présence de tel ou tel CALM et la manière dont ils sont
interconnectés. Ainsi, à chaque génération, on est assuré de disposer d’une population
de réseaux valides [80].
Enfin, des solutions plus drastiques ont été employées, compte tenu que le
problème des permutations est lié à l’opérateur de recombinaison. Ainsi Bornholdt et al
ont littéralement supprimé cet opérateur de leur algorithme [81]. Les résultats n’ont
jamais permis de résoudre efficacement le problème, vu le rôle essentiel du croisement
dans l’évolution génétique, cependant, Whitley, Dominic et Das assurent avoir obtenu
des résultats encourageants grâce à un algorithme basé principalement sur la mutation
[82].
2.5.2Influence du processus aléatoire
Les propriétés de convergence d'un algorithme évolutionnaire (EA) [83-90], sont

fortement liées à la séquence aléatoire appliquées sur les opérateurs de variation
pendant une évolution. En particulier, il peut être démontré que lorsque différentes
séquences aléatoires sont utilisés au cours de l'évolution, les résultats finaux peuvent
effectivement être très proche, mais pas égale. Différents numéros de générations
peuvent également être nécessaires pour atteindre les mêmes valeurs optimales.
32
Cependant, il n'y a pas de résultats d'analyse qui garantissent une amélioration

des performances des algorithmes génétiques en fonction du choix d'un opérateur
particulier[91] .
Parfois, les algorithmes génétiques ont du mal à trouver l'optimum global exact car
il y a aucune garantie de trouver la meilleure solution, surtout la taille de la population
est limitée.
La taille de la population est l'un des choix les plus importants rencontrés par
n'importe quel utilisateur d'algorithmes génétiques et peut être critique dans de
nombreuses applications. Si la taille de la population est trop petit, l'algorithme
génétique peut converger trop vite; si elle trop grande, l'algorithme génétique peut
gaspiller des ressources de calcul: le temps d'attente pour une amélioration pourrait
être trop long. [4 ].
Un choix correct de la population influe sur la vitesse de convergence et orientera

la zone des meilleurs résultats dans l'espace de solution.
Dans cette thèse, nous présentons une nouvelle méthode d'optimisation des poids
dans des classificateurs neuronaux génétique avec la population initiale ne soit pas
choisi au hasard.
L’approche neuro-génétique à deux phases
L'objectif de cette méthode est de limiter les séquences aléatoires de

l'apprentissage génétique par un choix non aléatoire de la population initiale dans le
début du processus. Le système évolue correctement sur la région des meilleurs
résultats dans l'espace de solution, avec moins de nombre d'itérations et un petit temps
d'apprentissage.
La procédure nommé l'approche neuro-génétique à deux phases (TWO PHASE

NEURO-GENETIC APPROACH’
Première phase: nous prenons N exemples de la base d'apprentissage avec des

classes différentes (tels que N présente la taille de la population initial pour la deuxième
phase d'évaluation) .Après nous appliquons un apprentissage individuel pour chaque
exemple par des classificateurs de neuro-génétique classique (apprentissage
paramétrique) avec les mêmes paramètres d'entrée et de la même topologie. La fonction
fitness dans cette phase est l’erreur quadratique individuelle.
Deuxième phase: nous rassemblons tous les poids finaux pour l'apprentissage
individuel de la première phase dans une matrice w. Cette matrice présente la
population initiale pour l'apprentissage global de la base d’apprentissage par un
système de neuro-génétique possède les mêmes paramètres d'entrée et la même
architecture que les classificateurs individuels de la première phase. La fonction fitness
dans cette phase et la somme des erreurs quadratiques voir Figure 2.8
33
Fig. 2.8 : Approche neuro-génétique à deux phases

.
2.6 Conclusion
Ce chapitre nous a permis d’avoir une vue générale sur l’hybridation des
algorithmes génétiques avec les réseaux de neurones artificiels.
Nous avons présenté les modèles des classifieurs neuro-génétique pour résoudre
des problèmes assez complexes des réseaux de neurones (choix de la topologie
neuronale, apprentissage synaptique, sélection des variables d’entrée).
Nous avons aussi cité les différents problèmes de l’approche neuro-génétique et

proposer une nouvelle technique pour résoudre le problème de processus aléatoire.
34
Chapitre3
Apprentissage paramétrique et
structurel des RNAs
Durant ces deux dernières décennies, il y a eu beaucoup de travaux dans le

domaine des réseaux de neurones liés aux différents problèmes de
classification des données médicales. Ceci est dû à leurs simplicités et leurs
propriétés d'approximation universelle et la capacité du traitement parallèle
de l'information. Ces propriétés font que ces réseaux sont de plus en plus
utilisés pour réaliser des systèmes de diagnostic médical automatisé, là où les
méthodes classiques ont échoué.
Les réseaux de neurones présentent une grande diversité. En effet un model

neuronal est défini par sa topologie, sa structure interne et, son algorithme
d’apprentissage.
Jusqu'à présent, il existe plusieurs problèmes qui restent difficile à résoudre.

Ces problèmes sont associés généralement à l’apprentissage paramétrique
et au choix d’architecture.
Ces difficultés sont liées en général à la recherche du minimum global durant

l’apprentissage ; la détermination du nombre de couches cachées à utiliser
dans un réseau multicouche, la fixation du nombre optimal de neurones dans
chaque couche, l’initialisation des poids de connexions du réseau pendant la
phase d’apprentissage ;…etc. Un mauvais choix peut conduire à de
mauvaises performances du réseau correspondant.
Dans ce chapitre nous examinons l’intérêt des algorithmes génétiques à la

résolution de ces types de problèmes.
Apprentissage paramétrique et structurel des RNAs
3.1Apprentissage paramétrique des réseaux de neurones par les algorithmes

génétiques[118]
3.1.1Problématique
L’un des problèmes connus des RNAs est associé à l’apprentissage. Un

inconvenant majeur de l’algorithme de la rétro propagation concerne l’incapacité de
garantir une solution optimale dans une application réelle.
L’absence d’un algorithme d’apprentissage qui trouve le minimum global dans les
réseaux de neurones artificiels (perceptron multicouche) a entravé son utilisation et
surtout dans le domaine médical.
Dans cette partie de thèse, nous développons des classifieurs neuronaux des
arythmies cardiaques, ou les poids synaptiques sont calculés, en utilisant les
algorithmes génétiques. Ces classifieurs sont comparés à des classifieurs neuronaux
classiques à base de la rétro propagation du gradient d’erreur.
3.1.2Arythmies cardiaques
L’évolution rapide de la recherche et de la technologie clinique pathologique, ont

montré que les maladies cardiovasculaires restent une cause principale des morts
subites: ils provoquent un décès sur trois dans le monde.
Les paramètres de signal électrocardiogramme sont des descripteurs pertinents

pour l’identification des arythmies cardiaques.
3.1.3 Signal électrocardiogramme
L’électrocardiographie est une technique non invasive, elle permet de détecter et

d’enregistrer des variations cycliques de l’activité électrique du cœur en fonction du
temp sous forme d’un signal appelé électrocardiogramme. (ECG)
Le signal ECG est enregistré par un appareil appelé électrocardiographe, on

peut le considère comme un voltmètre qui enregistre des potentiels électriques générés
par la dépolarisation du muscle cardiaque.
Chez les sujets sains, chaque cycle de dépolarisation et de repolarisation du cœur

correspond au passage du courant électrique, des oreillettes vers les ventricules qui se
contractent dans le même ordre. Comme on a vu ce processus se traduit sur le plan
électrocardiographe par l’enregistrement toujours dans le même ordre des différentes
ondes P, Q, R, S, T et U (voir figure 3.1).
36
Fig. 3.1 : Différentes ondes et intervalles de signal ECG
3.1.4Les anomalies du signal ECG
L’électrocardiogramme permet de détecter deux catégories d’anomalies des

complexes auriculaires et ventriculaires : des anomalies de leurs morphologies d’une
part, des anomalies de leurs origines, de leurs durées et / ou de leurs successions d’autre
part. Ces dernières anomalies correspondent aux troubles du rythme et aux troubles de
conduction.
Il existe plusieurs types d’anomalies d’ECG, dans ce travail nous utilisons en plus
du battement normal trois autres anomalies les plus rencontrés : battement
ventriculaire prématuré (BVP) , bloc de branche droit(BBD) et bloc de branche
gauche(BBG)
• Battement ventriculaire prématuré
Bvp est une contraction ventriculaire prématurée, il correspondant à une

hyperexcitabilité focale. Elle apparait sur un tracé électrocardiographique comme un
complexe QRS prématuré large, non précédé d’une onde P(voir figure3.3).
Fig. 3.2 : battement ventriculaire prématuré
37
• Blocs de branches gauches
Le tracé ECG est caractérisé par :
− Des complexes QRS larges (>0.12sec).

− Complexes en formes de M dans les dérivations V5 et V6.
− Onde R par perte de Q en D1 (voir figure3.3).
V1 V6
Fig3.3 Bloc de branche gauche dans les dérivations V1ert V6
 Blocs de branches droites

Le tracé ECG est caractérisé par :
− Des complexes QRS larges (>0.12s).

− Complexes en formes de M dans les dérivations V1 et V2.
− Onde S large en D1 (voir la figure3.4).
V1 V6
Fig 3.4 : Bloc de branche droite dans les dérivations V1ert V6
3 .1.5Classification automatique d’arythmies cardiaques
Beaucoup de travaux de recherche utilisent les RNAs pour la reconnaissance de

différentes arythmies cardiaques.
Christovet et al. ont sélectionné 26 descripteurs comme vecteur d’entrée à un
classifieur neuronal des battements ventriculaires prématurés, ils ont obtenu
une sensibilité de 98.5% et une spécificité de 99.7%. Ils ont montré que
l’utilisation de deux dérivations de signal ECG donne une meilleure précision par
rapport à une seule dérivation [92].
Inanet al. ont utilisé la transformée d’ondelette des ondes ECG combinée avec des
informations de synchronisation comme vecteur d’entrée d’un classifieur
38
neuronal des arythmies cardiaques,. Le taux de classification obtenu est de

95.61%[93].
Chudacek et al ont comparé cinq méthodes bien connues dans la classification des
arythmies cardiaques ; un d’arbre de décision classique et sa variance avec des
règles floues, des réseaux de neurones avec l’algorithme de la rétro propagation,
Les machines à vecteurs de support (SVM) et la carte auto adaptative. Deux bases
de données ont été utilisées, MIT-BHI et la base de donnéesAHA. Les résultats
obtenus sont comparés et évalués en utilisant des mesures de la sensibilité et de
la spécificité. Le classifieur a support vecteur machine (SVM) a obtenu des
meilleurs résultats : une sensibilité moyenne 87.20% et une spécificité de
91.57%[94] .
Sajedinet al. Ont testé une méthode a trois étapes pour la classification des arythmies
cardiaques, cette méthode comprend le filtrage,l’ extraction des caractéristiques
et la classification neuronale. Ils ont utilisé la transformée d’ondelettes
stationnaire pour éliminer le bruit de signal ECG, ils ont sélectionné des
descripteurs morphologiques comme vecteur d’entrée au perceptron
multicouche. ils ont obtenu un taux de reconnaissance de 95% [95] .
Zhou a utilisé les réseaux de neurones quantiques (QNN) pour la détection de BVP. Le
QNN formé peu modéliser les niveaux d’incertitudes dans les problèmes
de classification complexe. Les résultats obtenus ont montré toujours une
performance plus élevée de QNN sur les différents enregistrements de la
base de données MIT-BHI, en comparaison avec les réseaux de neurones
qui utilisent la rétro propagation [96].
En général l’algorithme de la descente de gradient lors de la phase

d'apprentissage affecte les performances des classifieurs , cela est dû à l’effet du
minimum local. En fait, la technique de gradient est un exemple d'une stratégie hill-
climbing, qui exploite la meilleure solution pour l'amélioration possible; d'autre part,
elle néglige l'exploration de l'espace de recherche. La recherche aléatoire est un
exemple typique d'une stratégie, qui explore l'espace de recherche en ignorant les
exploitations des régions prometteuses de l'espace. Pour les petits espaces, les méthodes
classiques suffisent généralement; mais pour les grands espaces il faut faire appel à des
techniques d'intelligence artificielle spécifiques. Les algorithmes génétiques sont parmi
ces techniques, étant une classe d'usage général (domaine indépendant) qui établissent
un équilibre remarquable entre l'exploration et l'exploitation de l'espace de recherche.
Dans le cadre de cette thèse, les algorithmes génétiques GA ont été appliqués afin
d'optimiser les paramètres d'un classificateur neuronal.
3.1.6Identification des battements ventriculaires prématurés
Nous présentons dans cette section un PMC (perceptron multicouche) pour

reconnaitre le battement ventriculaire prématuré (BVP). Nous avons comparé deux
modèles de classifieurs : classifieur neuronal classique (CNC) en utilisant la rétro
propagation comme un algorithme d’apprentissage et le classifieur neuro-génétique
(CNG) en utilisant les algorithmes génétiques.
Le battement ventriculaire prématuré a une importance clinique, car il peut

signaler un risque accru de la mort subite.
39
3.1 .6 .1Sélection de la base d’exemple
Nous utilisons, Pour l’identification des battements BVPs, la base de données

MIT-BHI[117] . Cette base se compose de quarante-huit enregistrements (deux voies
ECG ambulatoire d’environ trente minutes), dont les instants et la classe de tous les
cycles sont annotés par deux cardiologues différents. Les enregistrements comprenant
suffisamment de battements ventriculaires prématurés ont été choisis pour construire la
base d’exemples, voir tableau 3.1.
Type d’enregistrement Nombre des battements « N » Nombre des battements « BVP»
105 2549 41
106 1498 97
114 1810 44
116 2273 108
119 1535 442
200 1737 820
210 2423 194
215 3181 164
219 2071 64
221 2022 393
228 1696 97
233 2220 824
Total 25015 3288
Tab3.1 les enregistrements choisis de la base de données MIT-BIH
 Sélection des descripteurs d’un battement cardiaque
Puisque nous s’intéressons aux anomalies ventriculaires et plus précisément aux

battements ventriculaires prématurés (BVPs), les descripteurs pertinents avec lesquels
nous reconnaissons ces anomalies sont retenus. .ils sont comparables aux descripteurs
sur lesquels sont construites les connaissances médicales. Les descripteurs choisis sont
les suivants :
• Intervalle RRp : Nous appelons RRp la distance entre le pic R du présent

battement et le pic R du battement précédent.
• Intervalle RRs : C’est la distance entre le pic R du battement présent et le pic R

du battement suivant.
• Rapport entre des intervalles RR (RRs/RRp) : C’est un paramètre qui

caractérise une classe donnée. Dans le cas d’un rythme régulier, ce rapport est
au voisinage de 1, mais il peut largement dépasser cette valeur dans le cas d’un
‘BVP’ avec repos compensatoire.
• Largeur du complexe QRS(LQRS) : Ce paramètre est d’une grande

importance pour l’identification des battements BVPs, ces types d’arythmies
sont caractérisés généralement par un large complexe QRS.
40
3.1.6.2base d’apprentissage
La base d’apprentissage affecte la performance des classifieurs neuronaux .le

critère générale à respecter pour l’élaborer est de sélectionner des exemples
représentatifs de toutes les classes.
Étant donné la présence d’un grand nombre de battements normaux par rapport
aux BVP et pour éviter la spécialisation. Nous choisissons 500 battements pour chacune
des deux classes (normale etBVP). 1000 au total pour former la base d'apprentissage,
nous avons sélectionné 50battements de type BVP et 50 battements de type N pour
chaque enregistrement.
A partir de cette base de données, nous avons développé et comparer les deux
modèles de classifieurs .
Chacun des deux classifieurs neuronaux (CNC) et CNG dispose d'un réseau de
quatre neurones d’entrée (imposées par le vecteur de caractéristiques), deux neurones
cachés déterminés après plusieurs essais un neurone de sortie correspond aux deux
classes utilisées (BVP,N). Chaque réseau et donne à la sortie une valeur 0 pour le
battement normal, et la valeur 1 pour battement de type BVP.
La fonction d'activation choisie par chaque neurone était la fonction sigmoïde.
Les poids et les biais sont initialisés avec des nombres aléatoires entre -1 et1.
3.1.6.3 Apprentissage d’un classifieur neuronal classique( CNC )
Nous appliquons sur le classifieur CNC un apprentissage classique, en utilisant la

règle de la rétro propagation par l’algorithme de la descente de gradient.
L’algorithme de la rétro propagation est un algorithme d'apprentissage supervisé

et le processus d'apprentissage vise à réduire l'erreur quadratique globale du réseau à
un minimum. Désormais, la rétro propagation de RNA est souvent sollicité en raison de
sa simplicité.
La descente de gradient peut être appliquée de deux manières lorsque l'on

évalue la fonction à l'aide d'une base d'apprentissage. La méthode que nous avons
employé, et décrite ci-dessous, est celle du gradient total. Le vecteur de gradient est
calculé avec tous les exemples de la base d'apprentissage à chaque itération, et le
nouveau vecteur de paramètres est déterminé après avoir parcouru toute la base. Dans
une autre méthode, dite du gradient stochastique, le vecteur de gradient est calculé avec
chaque exemple, et le vecteur de paramètres est recalculé entre chaque exemple. Cette
dernière méthode est particulièrement adaptée aux systèmes dits online, pour lesquels
les exemples sont présentés l'un après l'autre pendant l'optimisation, alors que pour la méthode
du gradient total il nécessite la disponibilité totale de la base complète avant de commencer la
première itération.
Nous citons ci-dessous quelques méthodes de la famille de la descente de gradient.
41
 La méthode de Newton
La méthode de Newton utilise la courbure (dérivée seconde) de la fonction de coût pour

atteindre le minimum. La modification des paramètres s’écrit ainsi :
wk= w k– 1 – H-1 k – 1 . J (wk– 1 )
La direction de descente est H-1 k – 1 . J (wk– 1 ) où H k– 1 est l'inverse du hessien de la

fonction de coût, la matrice hessienne est la matrice des dérivées secondes de l’indice de
performances de poids et de biais.
Dans la pratique, le calcul du hessien et surtout de son inverse est à la fois complexe et
source d'instabilités numériques ; on utilise de préférence une méthode de "quasi-Newton"[97].
 .La méthode de quasi-Newton

Les méthodes de quasi-Newton consistent à approcher l'inverse du hessien plutôt
que de calculer sa valeur exacte.
La modification des paramètres s'écrit : wk= w k– 1 – α k-1 M k– 1 . J (wk– 1 )
La suite M k est construite de façon à converger vers l'inverse du hessien avec

M 0 égale à la matrice identité. Cette suite est construite grâce à la méthode dite BFGS
(Broyden, Flechter, Goldfarb, Shanno 1970) dont la vitesse de convergence est beaucoup
plus grande que celle de la méthode du gradient [97].
 La méthode Levenberg-Marquardt
Si la descente de gradient est trop lente pour réaliser l'apprentissage, il est

également possible d'utiliser un algorithme du second ordre, tel que celui de
LevenbergMarquardt. Dans ce cas chaque itération demande plus de calculs, mais dans
la plupart des cas le nombre d'itérations nécessaires pour converger est bien moindre.
Une autre manière de diminuer le nombre d'itérations d'un algorithme

d'optimisation est d'utiliser les dérivées secondes.
Mais le calcul des dérivées secondes peut être très long, tout d'abord parce que le
nombre de dérivées secondes est le carré de celui des dérivées premières, et également
parce que la dérivée seconde peut être assez complexe. De nombreux algorithmes, peut-
être abusivement appelés algorithmes d'ordre 2, ils utilisent en fait une approximation
des dérivées secondes calculées à partir de dérivées premières. Cependant ils gardent
l'avantage d’utiliser beaucoup moins d'itérations qu'une descente de gradient.
L'algorithme de LevenbergMarquardt fait partie de ces algorithmes, et s'applique

au cas où la fonction est une erreur quadratique moyenne.
En pratique cet algorithme, en particulier dans le cas des réseaux de neurones,

permet de converger avec beaucoup moins d'itérations. Mais chaque itération demande
plus de calculs, en particulier pour l'inversion de la matrice , et son utilisation se limite
donc aux cas où le nombre de paramètres à optimiser n'est pas très élevé. En effet le
nombre d'opérations nécessaires à l'inversion d'une matrice est proportionnel à ,
étant la taille de la matrice[97].
42
Nous nous s’intéressons dans ce travail à l’algorithme le plus utilisé, celui de

Levenberg Marquardt.
Avant de commencer la phase d’apprentissage, Plusieurs paramètres ont été

ajustés.
Le nombre d’itération fixé à 1200, a permis de réaliser un apprentissage

satisfaisant. Par ailleurs il est clair que ce dernier paramètre est important : s’il est trop
grand, le réseau risque de réaliser un sur-apprentissage, au contraire s’il est trop petit,
l’apprentissage ne sera pas conduit à son terme.
Les poids synaptiques initiaux ont été choisis d’une manière aléatoire.
Le seuil de l’erreur globale est fixé à 0.001, après plusieurs essais expérimentaux.
Le pas d’apprentissage égale à0.3.
L’apprentissage a été poursuivi jusqu'à ce que l’erreur atteint le seuil déjà fixé.
3.1.6.4 apprentissage de classifieur Neuro-génétique CNG
Beaucoup de travaux sur l'application des réseaux de neurones artificiels utilisent

l’algorithme de la descente de gradient pour minimiser l'erreur. L’algorithme de
descente de gradient est une approche de la recherche locale et il a beaucoup de risques
de tomber dans minimum local. Dans cette étude, nous développons un CNG, où les
poids sont optimisés par l’algorithme génétique au lieu de l'algorithme de la descente de
gradient. Le classificateur CNG est initialisé avec des poids aléatoires compris entre -
1et+1 .
L'ensemble de poids peut être représenté par une matrice carrée dans laquelle un
nombre réel correspond à la liaison pondérée d'un neurone à un autre, 0 signifie qu'il
n'y a pas de connexion entre deux neurones donnés. Au total, il y a 10 liens pondérés
entre les neurones voir Fig. 3.5. Puisque le chromosome est une collection de gènes, un
ensemble de poids peut être représenté par un chromosome de 10-gène où chaque gène
correspond à lien unique pondérée dans le réseau. Ainsi, si nous chargeons toutes les
lignes de la matrice, en ignorant les zéros, nous obtenons un chromosome représenté
dans la Fig. 3.5.
Dans cette expérimentation, chaque chromosome de la population représente les

valeurs de poids du réseau CNG. La fonction fitness considéré représente l’erreur
quadratique moyenne et elle est calculé en fonction des paramètres du réseau. Après
avoir chargé les valeurs initiales de tous les chromosomes, ils sont classés en fonction
des meilleures valeurs de fitness, nous utilisons la méthode de sélection la roulette de
casino. Les chromosomes sélectionnés subissent un croisement avec un taux égale à
0.8.et le reste sera muté avec la probabilité de mutation Pm égale à 0.01, la combinaison
de tout les chromosomes mutés et croisés forment une nouvelle population pour la
prochaine génération. Ces probabilités sont choisies après plusieurs essais afin d’obtenir
une bonne performance.
L’algorithme génétique débute avec une population initiale composée de plusieurs

chromosomes (100 chromosomes) et des gènes (nombres réels) qui portent les
différentes valeurs de poids pour les différents réseaux. Pendant le processus
43
d’exécution de plusieurs générations, en utilisant ces opérateurs , le meilleur

chromosome est celui qui a une petite valeur de fitness il passe à la prochaine
génération (le nombre de générations est fixé à 150). Comme indiqué précédemment,
l'algorithme génétique tente en utilisant ses opérateurs de trouver la meilleure solution.
En outre, ce processus continuera jusqu’à l’obtention de l’erreur avec la plus faible
valeur.
À la fin de la phase d’apprentissage, le classifieur CNG sera testé sur une base de
données de test.
Fig3.5 : codage d’un réseau sur un chromosome
3.1. 6.5discussions des résultats expérimentaux
Nous présentons et nous comparons les résultats obtenus par les deux
classifieurs (CNC,CNG)cités auparavant . Les tableaux 3 .3et 3.4 présentent le taux de FP
et FN pour chaque classifieur et pour chaque enregistrement.
Plusieurs critères statistiques ont été calculés comme: la sensibilité, la spécificité

et taux de classification correct (voir les tableaux 3.5 et3.6) .
44
VP(i)
𝑆𝑆ℯ(𝑖𝑖) =
𝑉𝑉𝑉𝑉 (𝑖𝑖) + 𝐹𝐹𝐹𝐹(𝑖𝑖)
VN(i)
𝑆𝑆𝑆𝑆(𝑖𝑖) =
𝑉𝑉𝑉𝑉 (𝑖𝑖) + 𝐹𝐹𝐹𝐹(𝑖𝑖)
Où les grandeurs VP(i), FN(i), VN(i), FP(i) sont définies dans le tableau 3.2
Présence
Absence d’événement
d’événement de
de classe i
classe i
Classification Vrai Positif VP (i) Faux Positif FP (i)

Positive
Classification Faux Négatif FN (i) Vrai Négatif VN (i)

Négative
Tab3.2 : Matrice de confusion
La sensibilité S e (i) représente la probabilité de bonne classification de la classe i

et spécifitéS p (i) est une mesure indirecte de la probabilité de fausse alarme .
cc VP VN FP FN
105 39 2484 65 2
106 89 1425 73 8
114 40 1788 22 4
116 90 2188 85 18
119 356 1428 107 86
200 788 1685 52 32
210 183 2350 73 11
215 158 3092 89 6
219 50 1996 75 14
221 305 1958 64 88
228 80 1600 96 17
233 722 2164 56 102
Tab3.3:NOMBRE DE VP,VN,FP et FN de classifieur CNC
45
enregistrement VP VN FP FN
105 41 2531 18 0
106 92 1478 20 5
114 43 1786 24 1
116 106 2250 23 2
119 425 1500 35 17
200 810 1720 17 10
210 190 2400 23 4
215 156 3160 21 8
219 60 2049 22 4
221 388 2013 9 5
228 90 1676 20 7
233 804 2200 20 20
Tab3.4:Nombre de VP,VN,FP et FN de classifieur CNG
La figure 3.6 présente un battement de l’enregistrement 106 considéré comme un

FN pour classifieur CNC et VP pour CNG et un battement de l’enregistrement 200
considéré comme un FP pour classifieur CNC et VN pour CNG
a b
Fig 3.6 :a. un battement de l’enregistrement 106 considéré comme un FN pour classifieur CNC et VP pour CNG
b. un battement de l’enregistrement 200 considéré comme un FP pour classifieur CNC et VN pour CNG
46
Enregistrement Se % Sp% CC%

105 95,12 97,44 97,98
106 91,95 95,12 94,35
114 90,9 98,78 98,54
116 83,33 96,26 95,67
119 80,99 93,02 90,33
200 96,09 97 96,71
210 94,32 96,98 96,79
215 96,34 97,2 97,15
219 78,12 96,37 95,83
221 77,6 96,83 93,7
228 82,47 94,33 93,63
233 87,62 97,47 95,17
MOY 87,98 96,67 95,71
Tab3.5 : Performances de classifieur neuronal classiqueCNC
Enregistrement Se % Sp% CC%

105 100 99,29 99,30
106 94,84 98,66 98,43
114 97,72 98,67 98,65
116 98,14 98,98 98,95
119 96,15 97,71 97,36
200 98,78 99,02 98,44
210 97,93 99,05 98,96
215 96,34 99,33 99,19
219 93,75 98,93 98,45
221 98,72 99,59 99,08
228 92,78 98,82 98,49
233 97,57 99,09 98,86
Moy 97,33 98,86 98,72
Tab3.6 : Performances de classifieur neuro-génétique CNG
Nous avons montré dans cette expérimentation l’intérêt des deux algorithmes la
rétro propagation et les algorithmes génétiques lors de phase d’apprentissage et sur les
performances des deux classifieurs (CNC ,CNG).
Nous avons utilisé l'algorithme de rétro propagation de Levenberg Marquardt et

L'algorithme génétique avec ces deux opérateurs croisement et mutation. nous
constatons qu’après 20 générations de l’évolution génétique des poids synaptique de
classifieur CNG , l’erreur quadratique moyenne atteint 0,00082. D'autre part, le
processus d'apprentissage du classificateur classique CNC est achevé après 1200
itérations avec une performance égale à 0 , 00095. Le classifieur CNG présente des
résultats plus performants avec un nombre d'itérations réduit. Globalement le
classifieur CNG a obtenu un taux de classification de 98,72% par contre le classifieur
classique CNC n’a obtenu que 95 ,71%, cette amélioration est due à la puissance des
47
algorithmes génétiques à l’exploration de la surface de recherche lors de la phase

d’apprentissage.
Nous constatons dans le tableau 3.7 que les performances du classificateur CNG
ont été améliorées par une marge considérable (environ de 3%). Aussi L'approche
neuro-génétique a obtenu une bonne précision de la classification par rapport aux
autres méthodes citées dans littérature, en utilisant seulement un petit nombre de
variables d’entrée.
Auteur Référence Sensibilité (SE%) Spécificité (SP%) Taux de

classification
correct (CC%)
Christov et al [1] 98 ,5% 99 ,7% NA N
Inan et al [2] NAN NAN 95 ,61%
Chudacek et al [3] 87 ;20% 91.57% NAN
Sajedin et al [4] NAN NAN 95%
CNC Notre travail 87,98% 96 ,67% 95 ,71%
CNG Notre travail 97,33 98,86% 98,72%
%
Tab3.7 : étude comparative des classifieurs de BVP
3.1.6.6Conclusion
Nous avons développé un classifieur neuronal basé sur les algorithmes génétiques
pour la reconnaissance de battement ventriculaire prématuré BVP. Ce classifieur a
donné de très bons résultats avec un taux de classification correcte moyenne de 98,72%
et une sensibilité de 97,33% par rapport au classificateur classique qui a donné un taux
de classification correcte de 95,71% et une de sensibilité de 87,98%. Aussi, notre
classificateur CNG réalisé une amélioration considérable par rapport aux classifieurs de
BVP proposé dans la littérature.
Les résultats obtenus sont très prometteurs et nous encouragent à tester ce

modèle de classifieur à d'autres types d'arythmies cardiaques dans la suite de ce travail.
48
3.1.7classification neuronale élargie à d’autres types d’arythmies :
Dans cette partie de notre travail, nous avons ciblé aussi les blocs de branche
droite (BBD) et les blocs de branche gauche(BBG).
Nous avons développé deux types de classifieurs à quatre classes (normal ; BVP ;
BBD ; BBG). Un classifieur neuronal classique global(CNCG) qui utilise la rétro
propagation comme un algorithme d’apprentissage, le deuxième un classifieur neuro-
génétique global(CNGG) qui utilise les AGs pour l’ajustement des poids synaptiques de
réseaux neuronaux.
3.1.7.1Sélection de la base d’exemples
Nous avons utilisé la même base MIT-BIH
Les enregistrements comprenant suffisamment d’arythmies ciblées ont été choisies pour
construire la base d'exemples, (voir tableau3.8).
De 109871 battements annotées, 1,124 ont été sélectionnés pour cette partie d’étude,
selon les 4 types d’arythmies cardiaques ciblées. Nous avons rassemblé les battements de
chaque enregistrement en quatre groupes :
_ Le groupe N: Battements classés normaux.
_ Le groupe V : Battements classés battements ventriculaire prématurés.
_ Le groupe R : Battements classés blocs de branche droit(BBD).
_ Le groupe L : Battements classés blocs de branche gauche(BBG).
^=
49
enregistrement Nombre des Nombre des Nombre des Nombre des

battements 'N' battements 'V' battements 'R' battements 'L'
100 62 0 0 0
101 5 0 0 0
103 58 0 0 0
105 10 0 0 0
106 27 34 0 0
109 0 0 0 104
111 0 0 0 41
113 6 0 0 0
115 10 0 0 0
116 45 0 0 0
118 0 0 12 0
119 50 34 0 0
122 5 0 0 0
123 5 0 0 0
124 0 0 33 0
200 0 25 0 0
203 0 15 0 0
207 0 0 0 40
208 0 152 0 0
212 5 0 26 0
214 0 50 0 50
215 103 0 0 0
Tab 3 .8; les enregistrements choisis de la base de données MIT-BIH
3.1.7 .2Sélection des descripteurs
Le choix des descripteurs du vecteur d'entrée est lié aux variables pertinentes
avec lesquels on reconnait ces pathologies. .ils sont comparables aux variables sur
lesquels sont construites les connaissances médicales.
 Durée P: Largeur de l'onde P.
 Intervalle PR : largeur qui sépare le début de l’onde P jusqu’au début du QRS, il est
de l’ordre de 0.12 à 0.23s.
50
 Segment ST : on le mesure de la fin de l’onde S ou R jusqu’au début de l’onde T.il est

normalement horizontal ou légèrement oblique +/- isoélectrique. il représente le
début du QRS jusqu’à la fin de l’onde T.
 Rapport des intervalles RR(RRs/RRp) :, le rapport RRs/RRp est une variable qui
caractérise une classe donnée. Dans le cas d'un rythme régulier, ce rapport est voisin
de 1, mais il peut largement dépasser cette valeur dans le cas d'un BVP avec repos
compensatoire.
 Largeur du QRS(LQRS) : cette variable est importante pour l'identification des

battements pathologiques, les arythmies choisies sont caractérisées généralement
par un large complexe QRS.
 Durée de battement cardiaque : lors d’une variation de rythmes par une présence
d’anomalies cardiaques, cette perturbation peut être identifiée en mesurant la durée
du battement. Elle est calculée du début de l’onde P jusqu’à la fin de l’onde T.
3.1.7.3Apprentissage des classifieurs
A partir de cette base d’exemple choisie, 50% des battements sont sélectionnés
pour l’apprentissage et le reste pour le test.
Chacun des deux classificeurs neuronaux CNCG et CNGC(voir fig. 3.7) est composé
d'un réseau de six neurones d’entrée (imposées par le vecteur de caractéristiques),
deux neurones cachés déterminés empiriquement et un neurone de sortie. La sortie du
classifieur peut prendre les valeurs suivantes :
• battement normal : 1
• battement BVP :2
• battement BBD :3
• battement BBG :4
La fonction d'activation de neurones cachés est de type sigmoïde et pour neurone

de sortie est une fonction linéaire.
Pour les deux types de classifieurs, nous avons utilisé les mêmes conditions
initiales et les mêmes critères d’arrêt que l’étude précédente (classification à 2 classes) .
51
Fig3. 7:classifieurs neuro-génétique pour 4classe d’arythmies
3.1.7.4Résultats et interprétations
Les mêmes critères d’évaluation statistiques que l’étude précédente ont été
adoptés pour mesurer la performance des classifieurs comme: la sensibilité, la
spécificité et le taux de classification correct : les tableaux 3.9 et 3.10 présentent les
performances de chaque classifieur.
Se% SP% CC%
N 85.39 96.62 92.25
V 79.73 94.51 89.96
R 81.84 90.97 90.57
L 77.51 96.43 91.54
moy 81.11 94.62 91.23
Tab 3.9 : Performances de classifieur neuronal classique global CNCG
52
Se% SP% CC%

N 98.94 90.92 96.48
V 95.13 98.93 97.16
R 92.46 92.78 92.17
L 99.27 90.62 94.44
MOY 96.45 93.31 95.58
Tab 3.10 : Performances de classifieur neuro-génétique global CNGG
Fig. 3 .8 : comparaison des performances de CNCG et CNGG pour l’identification des

battements normaux
Fig. 3 .9 : comparaison des performances de CNCG et CNGG pour l’identification des

battements BVPs
53
Fig. 3 .10 : comparaison des performances de CNCG et CNGG pour l’identification

des battements BBDs
Fig. 3 .11 : comparaison des performances de de CNCG et CNGG pour

l’identification des battements BBGs
Les résultats obtenus confirment la capacité du classifieur neuro-génétique

CNGG à la reconnaissance des arythmies cardiaques en comparaison avec le classifieur
classique CNCG .
Le taux de classification du classifieur neuro-génétique est de95 ,51% par contre

le classifieur neuronal classique n’obtenu que 91,23%., cette amélioration est due à la
puissance des algorithmes génétiques à l’exploration de la surface de recherche lors de
la phase d’apprentissage.
Les figures 3.4, 3.5 ,3.6 et 3.7 présentent des histogrammes de comparaison
entre les performances de classifieurs CNGG et CNCG pour chaque type d’arythmies
ciblés dans cette étude. Nous remarquons dans les quatre histogrammes que le CNGG a
une sensibilité et un taux de classification correct élevés par rapport aux CNGC ce qui
montre la supériorité de classifieur neuro-génétique pour la reconnaissance de BVP,
BBD et BBG.
54
3.1.7.5Conclusion
Nous avons proposé dans cette partie un classifieur neuronal basé sur les
algorithmes génétiques pour la reconnaissance de différents types d’arythmies
cardiaques.
Cette approche a donné de très bons résultats avec un taux de classification

correcte moyenne de 95,58% et une sensibilité de 96,45% par rapport au classifieur
classique qui a obtenu un taux de classification correcte de 91,23% et une sensibilité de
81,11%. Aussi ,notre classifieur CNGG proposé a donné une amélioration considérable
par rapport aux travaux de la littérature.
Ces résultats obtenus sont très prometteurs et nous encouragent à étendre cette
étude à d'autres types de signaux biomédicaux.
Le problème major rencontré lors de l'exécution des AGs est le choix de La taille
de la population qui peut être critique dans de nombreuses applications. Si la taille de la
population est trop petite, l'algorithme génétique peut converger trop vite; si elle est
trop grande, l'algorithme génétique fait beaucoup de calcul et le temps d’exécution sera
plus long.
55
3.2 Apprentissage structurel des RNAs [119]
3.2.1introduction
Le problème de choix d’architecture d’un réseau de neurones multicouches reste

toujours très difficile à résoudre dans un processus de classification
L’utilisateur des RNAs doit répondu aux questions suivantes : quel est le nombre
de couches à utiliser ? Quel est le nombre de neurones pour chaque couche ? Comment
connecter ces neurones ? Tous ces facteurs peuvent affecter séparément la performance
du réseau.
Comme il n'y a pas de procédure standard pour déterminer la structure du réseau

de neurones dans une application, généralement la conception de RNA serait tributaire
de l'expérience de l'utilisateur.
Pour éviter ce problème, nous proposons un classifieur neuronal pour la détection

de battement ventriculaire prématuré, où nous faisons appel aux algorithmes
génétiques pour déterminer des connexions optimales entre les neurones pour une
meilleure classification.
3.2.2Travail réalisé
Nous examinons dans cette partie l'efficacité d'un algorithme génétique (AG) à
déterminer l’architecture d’un classifieur neuronal pour la reconnaissance des BVPs .
Nous avons utilisé la base de données des arythmies MIT-BIH pour évaluer ses
performances.
Les mêmes enregistrements et les mêmes descripteurs (vecteur d’entrée) que

l’apprentissage paramétrique sont choisis Pour caractériser le rythme cardiaque,:RRp,
RRs, RRp/RRs et LQRS.
Nous avons choisi 6000 battements (3000 battements de type N et 3000de type
BVP,), divisés en deux sous-ensembles: 3000pour la phase d’apprentissage et 3000 pour
la phase de test.
Nous développons et nous comparons deux modèles de classifieurs neuronaux:
Classifieur neuronal classique(CLS): comme dans la plupart des applications de

réseaux de neurones, l'architecture du réseau, le nombre de neurones et de leurs
connexions est fixé par des heuristiques et par des essais.
Classificateur Neuro-génétique-(CLS-AG): une architecture particulière choisie

pour un réseau de neurones peut déterminer le succès ou l'échec de l'application, dans
ce travail, nous utilisons les algorithmes génétiques pour ajuster la topologie des
connexions de classifieur neuronal classique avec un nombre fixe de neurones.
56
3.2.2.1.1Apprentissage de classifieur classique

Dans cette partie, un classifieur neuronal à trois couches avec une fonction
d'activation log-sigmoïde a été utilisé.
Nous avons utilisé un apprentissage supervisé, en utilisant la technique de la

rétro propagation qui minimise l'erreur quadratique entre la sortie réelle du réseau et la
sortie désirée.
Les descripteurs décrits dans les expérimentations précédentes sont appliqués

aux neurones d'entrée qui ont des fonctions de transfert linéaires. Lors de
l’apprentissage nous avons fixé le seuil de la somme d'erreur quadratique
ERQ à0,001, le pas d'apprentissage à 0,3. L’apprentissage a été maintenu jusqu'à la
vérification du critère d’arrêt.
Nous avons réalisé deux classifieurs neuronaux classiques avec les structures
suivantes:
CLS1: 3-2-1 : trois neurones dans la couche d'entrée, deux neurones dans la couche
cachée, un neurone à la couche de sortie et huit connexions entre les neurones; voir
figure3 .12).
CLS2: 4-2-1 : quatre neurones dans la couche d'entrée, deux neurones dans la couche
cachée, un neurone à la couche de sortie et10connexions entre les neurones;( voir figure
3.13) .
Fig-3.12:architecture de classifieur CLS1
57
Fig3.13:architecture de classifieur CLS2
3.2.2.1.2Apprentissage de classifieur neuro-génétique
Il existe plusieurs approches pour la conception des réseaux de neurones

multicouche. L’algorithme génétique est une technique d'optimisation efficace qui peut
amener vers une optimisation simultanée des poids et de la structure. Ce travail
exploite la capacité des algorithmes génétiques à trouver la structure optimale de
classifieur neuronal des battements BVPs.
Un algorithme génétique a été utilisé avec ses trois opérateurs (sélection,

croisement et la mutation) dans le but de trouver la meilleure solution pour la réduction
du nombre de connexions entre les neurones.la fonction fitness utilisé est la somme des
erreurs quadratiques.
Les valeurs des paramètres des AGs sont choisies avec soin. Après plusieurs
essais, nous obtenons un croisement uniforme avec une probabilité de 0.9 et une
mutation uniforme avec Pm0.01. La méthode de roulette a été utilisée pour l’opérateur
de sélection.
Lors de la première étape d’apprentissage des algorithmes génétiques, une

population initiale est créée de manière aléatoire (taille de la population =50). Il est clair
que cette population est composée de plusieurs chromosomes et chaque chromosome
est constitué de plusieurs gènes (en fonction de la matrice de connectivité (voirP2.6.2),
avec leurs valeurs définies de manière aléatoire lors la première génération.
Ensuite, le réseau est évalué sur plusieurs générations. L'algorithme génétique
commence avec une population initiale du réseau généré au hasard. Après plusieurs
générations et en utilisant les opérateurs des AGs, les meilleurs chromosomes sont
sélectionnés. Ce processus se poursuit jusqu'à ce que la meilleure solution soit trouvée
58
(avec un minimum de connexions). L'objectif est que l'AG arrive à découvrir une bonne
topologie de connexions.
3.2.2.2Résultats et discussion
Les figures 3 .14et 3 .15 présentent les meilleures structures obtenues pour les
deux classifieurs.
AG-CLS1: 3-2-1(trois neurones dans la couche d'entrée, deux neurones dans la

couche cachée, un neurone à la couche de sortie et six connexions entre les
neurones; voir figure3.14).
Le meilleur chromosome est codé: 000000000000000000101000011000000110.
AG-CLS2: 4-2-1(quatre neurones dans la couche d'entrée, deux neurones dans la

couche cachée, un neurone à la couche de sortie et huit connexions entre les
neurones; voir la figure3.15).
Le meilleur chromosome
est codé: 0000000000000000000000000000101100001000000000110.
Fig3.14:architecture de classifieur AG-CLS1
59
Fig3.15:architecture de classifieur AG-CLS2
Nous avons mesuré les performances des classifieurs optimisées (AG-CLS1 etAG-
CLS2) et nous les avons comparés avec les performances des classifieurs neuronaux
classiques (CLS1 etCLS2). Plusieurs critères statistiques ont été calculés comme:
lasensibilité, la spécificité et le taux de classification correct de BVP.
La base de données de test a été testée en utilisant les quatre classifieurs et les
résultats obtenus sont présentés dans le tableau3.10. Nous pouvons observer que les
classifieurs neuro-génétique sont plus performants que les classifieurs classiques en
termes de VP et VN. Le classifieurAG-CLS2 a obtenu la meilleure performance
avec743VP pour 750battementsBVP et 740 VN pour 750battements normaux. D'autre
part le meilleurclassifieurclassiqueCLS2a obtenu732 battement VP et730VN (voir le
tableau 3.11)
Classifieur neuronal classique Classifieur neuro-génétique

VP VN FN FP VP VN FN FP
CLS1 729 725 21 25 741 738 9 12
CLS2 732 730 18 30 743 740 7 10
Tab3.11:NOMBRE DE VP,VN,FP et FN des classifieurs neuronaux classique et
génétiques
60
Classifieur neuronal classique Classifieur neuro-génétique

SE SP CC Nc SE SP CC NC
CLS1 97.20 96.66 96.93 8 98.80 98.40 98.60 6
CLS2 97.60 97.33 97.46 10 99.06 98.66 98.86 8
Tab 3.12 : performances des classifieurs neuronaux classiques et génétiques
La sensibilité, la spécificité, le taux de classification correct et le nombre de

connexions des deux classificateurs ne sont présentés dans le tableau 3.12.
Les résultats montrent que la combinaison des réseaux de neurones avec des
algorithmes génétiques nous donne des performances élevées (sensibilité, spécificité et
le taux de classification correct) .Le meilleur classifieur, AG-CLS2, a donné
respectivement un taux de classification correcte, une sensibilité et une spécificité
de98,86%, 99,06% et 98,66% respectivement, avec une structure relativement optimale
(huit connexions).
Le tableau 3.13présente une analyse comparative avec des méthodes de

classification BVP citées dans la littérature ; les résultats obtenus par notre classifieur
neuro-génétique sont nettement meilleurs.
Référence Sensibilité (SE%) Spécificité (SP%) Taux de
Auteur classification
correct (CC%)
Christov et al [1] 98 ,5 99 ,7 NA N
Inan et al [2] NAN NAN 95 ,61
Chudacek et al [3] 87.20 91.57 NAN
Sajedin et al [4] NAN NAN 95
CLS Notre travail 97.60 96 ,33 97 ,46
AG-CLS Notre travail 99,06 98,66 98,82
Tab3.13 : étude comparative des performances des classifieurs BVPs
4 .2 .3.4Conclusion
Dans cette partie, nous présentons une approche neuro-génétique pour la

reconnaissance de battements ventriculaires prématurés. Le classifieur réalisé a montré
une nette amélioration du taux de reconnaissance de ces types d'arythmies en
particulier dans la reconnaissance de vrais positifs, notre classifieur neuro-génétique a
donné une plus grande sensibilité que les classifieurs classiques et tous les classifieus
développés jusqu'ici dans la littérature .
Aussi les algorithmes génétiques nous ont permis d’obtenir une architecture optimale
des classifieurs réalisés.
61
3.3Deux phases s’apprentissage pour un classifieur neuro-genetique [120]
3.3.1introduction
Dans les systèmes évolutionnistes, Parfois, les algorithmes génétiques ont du mal à
trouver l'optimum global exact car il y a aucune garantie de trouver la meilleure
solution, sachant que la taille de la population est limitée.
La taille de la population est l'un des choix les plus importants rencontrés par
n'importe quel utilisateur d'algorithmes génétiques et peut être critique dans de
nombreuses applications. Si la taille de la population est trop petit, l'algorithme
génétique peut converger trop vite; si elle trop grande, l'algorithme génétique peut
gaspiller des ressources de calcul: le temps de convergence pourrait être trop long. [4]
ce qui complique leur utilisation dans le monde réel surtout pour les problèmes
complexes
Un choix correct de la population influe sur la vitesse de convergence et orientera

la zone des meilleurs résultats dans l'espace de solution.
3 .3.2Etat de l’art
Dans la littérature des algorithmes évolutionnistes, la question d'initialisation de la

population a pu reçu d'attention tandis que, d'autre part, le sujet des opérateurs et la
représentation des individus a été suffisamment couvert. Dans la plupart des cas, dans
les systèmes évolutionnistes une génération aléatoire de population est utilisée,
Sur un niveau d'abstraction inférieur, nous devons penser à la façon dont les
individus qui constituent la population sont générés. Avec Une initialisation pseudo-
aléatoire de la population nous pouvons obtenir un ensemble de valeurs qui imite la
séquence aléatoire.
Antonio.j et al ont représenté l’approche qui consiste à créer deux populations

initiales avec différents réglages de paramètres. Après les populations sont évoluées en
deux étapes la première étape évolue ces populations par un petit nombre de
générations, après une sélection des meilleurs individus de chaque population pour
constituer une nouvelle population initiale pour la deuxième étape . [98,99]
Wang Zheng, et Tang ont dit que la population subi l'application de différents
opérateurs; âpres, tous les individus sont mélangés et divisés en plusieurs populations,
chacun subissant alors l'application d'un autre opérateur de mutation. [100]
D .Garis , a présenté un schéma itératif avec plusieurs fonctions fitness, afin que la
population évolue par un algorithme génétique en utilisant la première fonction fitness,
puis la population résultante est utilisée comme la population actuelle dans un AG qui
utilise la deuxième fonction fitness et ainsi de suite. [101]
Dans cette étude, nous présentons une nouvelle méthode d'optimisation des poids
dans classifieurs neuronaux génétiques avec la population initiale ne soit pas choisi au
hasard.
62
4 .3 .3Travail expérimental
Pour voir l’efficacité de la méthode « two phase genetic learning » dans le

diagnostic médical, plusieurs bases de données médicales sont utilisées.
Le tableau 3.14 décrit l’ensemble des bases de données utilisées. Toutes ces bases
sont disponibles publiquement au répertoire UCI[102]. Les cinq suivantes ont été
utilisées: l'appendicite «appendicitis » ,le cancer du sein «Breast W»,
l'hépatite « hepatitis », le diabète «Pima », troubles de fonctionnement de foie « Bupa ».
Base de Taille Input Cas Cas classes

données positifs négatifs
appendicitis 106 7 20 85 2
Bupa 345 6 200 145 2
Breast W 699 9 241 458 2
hepatitis 155 19 32 123 2
pima 768 8 268 500 2
Tab3.14 : les bases de données utilisées
Les bases de données citées sont utilisées pour l'apprentissage et le test des
classificateurs. Le nombre des paramètres d’entrées dépend du problème et varie entre
six et dix-neuf descripteurs. Le nombre de classes est égal à deux (cas positif, cas
négatif). Le tableau 3.15présente le nombre de cas utilisés pour apprentissage et pour
test pour chaque base de données.
Base de Apprentissage TESTE

données
POSITIVE NEGATIVE POSITIVE NEGATIVE
appendicitis 10 40 10 45
Bupa 100 70 100 75
Breast W 100 100 141 358
hepatitis 16 34 16 89
pima 120 200 148 300
Tab 3.15 : nombre de cas utilisés pour apprentissage et pour test pour chaque
base de données
A partir de ces bases de données, nous développons et nous comparons deux

modèles de classifieurs: classifieur neuro-génétique où les poids sont ajustés par les
algorithmes génétiques classiques (CNGC), et classifieur neuro-génétiques à deux
phases (TPNGC) ou nous appliquons notre méthode pour l’apprentissage.
Chacune des deux types de classifieurs neuronaux (CNGC et TPNGC) dispose d'un
réseau de différents neurones d'entrée(imposées par le vecteur de caractéristiques), et
différents neurones cachés déterminées par plusieurs essais et expériences et un
neurone de sortie(0 pour le casnégatif,1pourcas positif ).La fonction d'activation pour
chaque neurone est une fonction de type sigmoïde;. Le tableau 3.16 présente le nombre
de neurone d'entrée pour chaque base de données.
63
Base de données Neurones d’entrées
appendicitis 7
Bupa 6
Breast W 9
hepatitis 19
pima 8
Tab 3.16 : le nombre de neurone d'entrée pour chaque base de données.
Pour les cinq classifieur nous avons adoptés les structures suivantes :
 Appendicitis :7.4 .1
 BUPA :6.3.1
 Breast W :9.3.1
 Hepatitis :19.8 .1
 Pima :8.4.1

• Classifieur neuro-génétique classique CNGC
Dans cette expérimentation, les classificateurs CNGC est initialisé avec des poids
aléatoires.. La fonction fitness considéré est le minimum de la somme d’erreur
quadratique calculé par les paramètres de réseaux.
Le taux de croisement Pc a été ajusté à 0,8 la et probabilité de mutation Pm a été
ajustée à 0,01.
Comme indiqué précédemment, les algorithmes génétiques en utilisant ses

opérateurs tentent à trouver la meilleure solution, mais les processus aléatoire
(sélection, croisement, mutation) avec la taille de la population initiale limitée peuvent
conduire le classifieur à un optimum local.
• Classifieur neuro-génétique a deux phases TPNGC
Dans les classifieurs neuro-génétiques classiques, nous choisissons au hasard la

population initiale; ce genre de choix parfois influe sur la performance de réseaux. Les
algorithmes génétiques ont du mal à trouver l'optimum global exact car il y a aucune
garantie pour trouver la meilleure solution, parce que tous les processus des
algorithmes génétiques sont aléatoires et surtout dans le monde réel la taille de la
population et le temps sont limités.
L'objectif de ce travail est de limité la séquence aléatoire de l'apprentissage

génétique par un choix non aléatoire de la population initiale dans le début du
processus. Le système évolue correctement sur la région ou se trouve les meilleurs
résultats dans l'espace de solution, avec moins de nombre d'itérations et un petit temps
d'apprentissage.
64
Cette méthode est tel que cité précédemment présente un apprentissage génétique
de réseaux de neurones artificiels avec deux phases. La première étape consiste un
apprentissage individuel génétique (fonctions fitness à ce stade sont les erreurs
quadratiques individuelles pour 50 exemples de la base d'apprentissage (présenter les
deux cas, négatifs et positifs) avec la même structure et les mêmes paramètres utilisés
dans CNGC classique. Dans la deuxième phase, nous allons rassembler toutes les poids
synaptiques finaux de la première phase et nous constituons une matrice W. cette
matrice présente la population initiale d'apprentissage génétique globale(deuxième
phase). Chaque chromosome représente les poids finaux d'un apprentissage individuel.
Dans cette phase, nous avons augmenté le taux de croisement à 0,85 et réduire la
probabilité de mutation Pm 0,0769, sachant que dans cette approche, nous n’avons pas
besoin beaucoup de diversité, la première phase a orienté correctement le processus
d’apprentissage vers la région des meilleurs résultats. Voir figure3.16
Fig3.16: apprentissage neuro-génétique a deux phases[120]
3.3.4Résultats et discussion
Nous avons calculé les performances de TPNGC par rapport aux performances de
CNGC, les mêmes paramètres statistiques que les études précédentes ont été adoptés:
Sensibilité, la spécificité et le taux de classification correcte.
65
Bases de VP VN FP FN
donées
Bupa 76 51 24 24
Breast W 140 330 28 01
pima 104 256 44 44
Tab3.17: LE nombre de VP, VN, FP et FN pour le classifieur CNGC.
Bases de VP VN FP FN
données
Bupa 84 60 15 16
Breast W 141 339 19 00
pima 126 259 22 41
Tab3.18: LE nombre de VP, VN, FP and FN pour le classifieur TPNGC.
Base de Erq SE SP CC% ITERATION

données
appendicitis 0,09 80,00 77,77 78,18 4950
Bupa 0,12395 76 68 72,57 4670
Breast W 0,057 99,29 92,17 94,18 3990
hepatitis 0,0712 87,5 89,99 89,52 4560
pima 0,1565 70,27 85,33 80,35 5000
Tab3.19: les performances de classifieur CNGC
Bases de Erq SE SP CC% ITERATION

données
appendicitis 0,06 100 86,69 89,09 3450
Bupa 0,1122 84 80,00 82,28 1250
Breast W 0,056 100 94,62 96,19 2800
hepatitis 0,06 87,5 95,50 94,28 2250
pima 0,156O 85,07 86,4 85,93 1600
Tab3.20 : performances de classifieur TPNGC
Cette étude a comparé la performance de l'apprentissage génétique classique avec

une nouvelle approche proposée, cette approche est basée sur deux phases de
l'apprentissage génétique pour des classifieurs neuronaux.
Pour les comparer, nous avons considéré que 4 itérations de CNGC soit équivalent à
66
1iteration de TPNGC, cela est dȗ aux choix correcte de la population initiale en première
phase de l'apprentissage dans TPNGC qui influe sur la vitesse de convergence et oriente
le classifieur vers la région des meilleurs résultats dans l'espace des solutions.
Dans ce cas d'étude, par exemple de la base de données BUPA après 1250 itérations de
l'apprentissage, l’erreur quadratique atteint est 0,0162 pour classifieur TPNGC D'autre
part, la phase d'apprentissage de classifieur CNGC est terminée après 4670 itérations
avec ERQ égale à 0, 02395. Nous observons que le classifieur TPNGC fournit des
résultats plus précis avec moins d'itérations.
TRUE POSITIVE (TP)

150
100
50
0
CNGC TPNGC
Fig3.17: nombre de VP pour chaque classifieur
Fig3.18: nombre de VN pour chaque classifieur
67
Fig3.19: nombre de FP pour chaque classifieur
Fig3.20: nombre de FN pour chaque classifieur
Dans figures 3 .17,3.18,3.19 et3.29,nous remarquons clairement la diminution du

faux négatifs et le nombre de faux positifs par le classifieur TPNGC, par exemple, le faux
négatif diminue à 0 pour les bases de données de l'appendicite et le cancer du sein; on
remarque aussi une augmentation dans le vrai positif et vrai négatif.
Tableaux 3.17 et 3.18 montrent le nombre TP, TN, FP et FN pour chaque classifieur des
bases de données.
La précision du classifieur neuronal a été augmentée de 78,18% (classifieur CNGC)

à 89,09% (classifieur TPNGC) pour la base de données de l’appendicite, aussi pour la
base de données bupa le taux de classification correct a été augmenté de 72% à 82,
28%. Selon les tableaux 3.19et 3.20, nous avons constaté que les performances du
classificateur TPNGC ont été améliorées par une marge considérable.
3.3.5Conclusion
Le but de cet étude est de résoudre les problèmes de multi-classification médical

en utilisant un classifieur neuro-génétique mais avec un coût de calcul
inférieure. Notre hypothèse de base est d'employer une méthodologie basée sur un
choix non aléatoire de la population initiale par l'apprentissage individuel dans la phase
68
1, après l'apprentissage global en phase2.Cette méthode produit une amélioration

considérable sur les résultats
69
Chapitre4
Sélection des variables du classifieur

neuro-génétique
Le diagnostic médical se base sur le traitement de

données extraites à partir des données acquises des
patients et structurées, sous forme de vecteurs.
La qualité de classifieur dépend directement du bon
choix des variables de ces vecteurs. Mais dans de
nombreuses situations, la résolution de ce problème
devient presque impossible à cause de la dimension
trop importante de ces vecteurs. Par conséquent, il est
souvent utile, et parfois nécessaire, de réduire celle-ci
à une taille raisonnable et compatible avec les
méthodes de résolution, Parfois, la résolution des
problèmes complexes avec des vecteurs de grande
taille pourrait être réalisée en utilisant peu de
caractéristiques extraites des données initiales. Il
suffit qu'elles représentent l’information pertinente
pour le problème ciblé.
Dans ce chapitre nous examinons l’intérêt des

algorithmes génétiques dans l’extraction des
paramètres pertinents des données médicales.
Sélection des variables du classifieur neuro- génétique
4.1 Caractérisation pertinente du battement cardiaque
Dans cette étude nous examinons l'efficacité d'un algorithme génétique (AG) à la
détection des variables pertinentes d’un signal électrocardiogramme (ECG). Le but
recherché est de réaliser une classification neuronale des battements cardiaques.
Nous avons utilisé la base de données des arythmies MIT-BIH pour évaluer ses
performances.
Les mêmes enregistrements que l’apprentissage paramétrique sont choisis
Les descripteur choisis pour caractérisé le rythme cardiaque sont,:RRp, RRs,

RRp/RRs ,LQRS et le rythme auriculaire( PP ) qui présente l’intervalle qui sépare les
sommets de deux ondes P consécutifs et il définit le rythme auriculaire.
Nous avons choisi 6000 battements (3000 battements de type normal N et 3000 de
type BVP,), divisés en deux sous-ensembles: 3000pour apprentissage et 3000 pour le
test.
Dans cette thèse, nous développons et nous comparons deux modèles de

classifieurs neuronaux:
• Classificateur neuronale classique(CLSN) : le vecteur d’entrée

est représenté par les cinq descripteurs cités précédemment.
• Classificateur Neuro-génétique (CLSNG) : dans ce classifieur ,
nous utilisons les algorithmes génétiques pour extraire des variables
pertinentes pour la reconnaissance des BVPs.
4.1.1 Caractérisation d’un vecteur d’entrée par apprentissage
4.1. 1 .1Vecteur de caractéristique sans apprentissage
Dans cette partie, un classifieur neuronal à trois couches avec une fonction
d'activation log-sigmoïde a été utilisé.
Nous avons appliqué un apprentissage supervisé, en utilisant la technique de la

rétro propagation qui minimise l'erreur quadratique entre la sortie réelle du classifieur
et la sortie désirée.
Les descripteurs décrits ci-dessus sont appliqués aux neurones d'entrée qui ont
des fonctions de transfert linéaires. Nous avons fixé l'erreur quadratique ERQ égal à
0,001et le pas d'apprentissage égale à 0,3.
Le classifieur neuronale classique(CLSN) a la structure finale suivante: 5-3-1 ;

cinq neurones dans la couche d'entrée, trois neurones dans la couche cachée, et un
neurone à la couche de sortie et dix-huit connexions entre les neurones; voir figure4.1).
71
Fig4.1 : structure de CLSN
4.1.1.2Vecteur de caractéristique après apprentissage
De nombreuses études citées dans la littérature ont montré que les méthodes qui
utilisent les AGs comme technique de recherche pour la sélection des caractéristiques
ont donné des meilleurs résultats en comparaison avec les autres méthodes de
sélection [68-69]. Dans ce travail de thèse nous utilisons les algorithmes génétiques
pour trouver les variables pertinentes de signal ECG pour la reconnaissance
de battement BVP.
Un algorithme génétique, a été utilisé avec ses trois

opérateurs (sélection, croisement et la mutation) dans le but de trouver la meilleure
solution pour la réduction des caractéristiques de vecteur d’entrée et trouvé les
descripteurs les plus pertinents. La fonction fitness utilisée est égale à la somme des
erreurs quadratiques.
Les valeurs des paramètres des AGs sont choisies avec soin. Après plusieurs
essais, le croisement uniforme avec une probabilité de 0.8 et une mutation uniforme
avec Pm0.01 ont été choisis. La méthode de roulette a été utilisée pour l’opérateur de
sélection.
Lors de la première étape de l’exécution, des algorithmes génétiques, une

population initiale est créée de manière aléatoire (taille de la population =40). Cette
population est composée de plusieurs chromosomes et chaque chromosome est
constituée de plusieurs gènes codé en code binaire (0 : absence de descripteur, 1
72
présence de descripteur) les valeurs sont définies de manière aléatoire dans la première
génération.
Ensuite, le réseau est évalué sur plusieurs générations. L'algorithme génétique

commence avec une population initiale du réseau généré au hasard. Après des
générations, en utilisant les opérateurs des AGs, les meilleurs chromosomes sont
sélectionnés. Ce processus se poursuit jusqu'à ce que la meilleure solution soit trouvée
(avec un minimum de caractéristiques). L'objectif est de voir si l'AG a pu choisir les
descripteurs pertinents en entrée du classifieur.
4.1.2 Résultats et discussion

La figure 4.2 montrent les meilleurs descripteurs du vecteur d’entrée du classifieur
CLSNG: 2-3-1 : (Deux neurones dans la couche d'entrée, trois neurones dans la couche
cachée, un neurone à la couche de sortie et neuf connexions entre les neurones; voir
figure 4.2).
Le meilleur chromosome décodé est présenté dans le tableau4.1
CODAGE 1 0 0 1 0
PARAMETRE RRp RRs RRs/RRp QRS PP
Tab 4.1 le meilleur chromosome choisi par CLSNG
Fig. 4.2 : structure de classifieur CLSNG
Nous avons remarqué que les algorithmes génétiques ont écarté 3 descripteurs
(RRs, RRs/RRp, PP) et ils ont gardé les deux meilleurs descripteurs (RRp, QRS)
Pour évaluer les résultats obtenus nous réalisons un apprentissage paramétrique,

en utilisant la rétro propagation comme un algorithme d’ajustement des paramètres du
réseau de neurones multicouches.
73
Nous avons mesuré les performances de classifieur avec des descripteurs optimisés
CLSNG et comparées avec les performances des classifieur classique CLSN
Plusieurs paramètres statistiques ont été calculés comme: sensibilité, la

spécificité et le taux de classification correct de BVP.
se sp Cc Nc T(s)
Cls.N 91.81 97.00 96.33 18 60.35
CLSNG 93.73 96.9 96.20 9 36.09
Tab 4.2 : performances des classifieurs CLSN et CLSNG
La base de données choisie a été testée en utilisant les deux classifieurs et les
résultats obtenus sont présentés dans le tableau4.2. Nous remarquons que les
performances du classifieur avec deux descripteurs choisis par les algorithmes
génétiques sont presque identiques au classifieur classique avec les cinq descripteurs.
La sensibilité, la spécificité, le taux de classification correct et le nombre

de connexions des classifieurs sont présentés dans le tableau 4.2 .
Les résultats confirment que l’utilisation des algorithmes génétiques pour la

sélection des descripteurs pertinents nous fournit une sensibilité élevé par rapport aux
classifieurs qui utilisent tous les descripteurs .ceci montre l’importance des
paramètres choisis par les algorithmes génétiques (RRp,Lqrs ) pour la détection des
BVP avec une structure optimale (6 neurones au lieu de 9 neurones pour le premier
classifieur et 9 connexions au lieu de 18) aussi le temps d’apprentissage a nettement
diminué.
Fig 4.3 : comparaison des performances entre AG.CLS.ESV et CLS.BVP
Les histogrammes de la figure 4.3 montrent clairement l’importance de RRp et

QRS Pour la détection des BVP ; nous remarquons que les résultat obtenus par les
deux classifieurs sont identiques ave une diminution importante de temps
74
d’apprentissage pour le classifieur qui contient seulement deux descripteurs en entrée

choisis par les algorithmes génétiques.
4.1.3Conclusion
La sélection des meilleurs descripteurs d’entrée pour la classification présente un
grand défi pour les chercheurs, pour cette raison nous avons utilisé les algorithmes
génétiques pour la sélection de meilleurs descripteurs. Les résultats obtenus montrent
l’importance de RRp et QRS pour la reconnaissance des BVP .aussi l’algorithme
génétique nous a permet de réduire l’architecture du classifieurs (18connexions à 9
connexions).
75
4.2caractérisation pertinente des troubles de fonctionnement de foie
Le trouble de fonctionnement de foie se transforme généralement en cancer.
L’identification des maladies de foie à un stade précoce est un défi parfois dans le
domaine médical ; une détection précoce augmente le taux de survie des patients.
Dans cette section, nous intéressons à la sélection des descripteurs les plus
pertinents pour une détection précoce de trouble de fonctionnements.
4.2.1 Identification automatique de troubles de fonctionnement de foie
L’identification automatique des maladies de foie a fait l’objet de plusieurs

recherche en littérature, et de nombreuses méthodes ont été proposées et appliquées,
Nakanoa a proposé une technique d'apprentissage basé sur les réseaux de

neurones artificiels pour différencier entre les deux sous-types de l'hépatite chronique
active, modérée et sévère, il utilise cinq descripteurs sanguins biochimiques .Le
classifieur neuronal a correctement reconnu 78% des données . La base de données
utilisée est composée de 31 patients [103].
Onisko a utilisé l'arbre de décision, et les réseaux neuronaux, pour reconnaitre les
maladie du foies. Il a obtenu respectivement un taux de classification de 72,55% et une
sensibilité de 78,62% [104].
Comak a présenté une méthode hybride basée sur la combinaison de SVM avec les
moindres carrés (LSSVM) et une pondération floue comme prétraitement pour
identification des troubles du foie en utilisant la base de troubles hépatiques BUPA. La
précision de la classification été très élevée de l’ordre 94,29%[105].
Polat a proposé un algorithme de classification basé sur un système artificiel flou

de la reconnaissance immunitaire (SARI) pour identifier les maladies de foie. La
précision était 83,36% avec un temps de classification plus court [106].
4.2.2 Expérimentations réalisées
4.2.2.1Préparation De Base De Donné :
Nous avons utilisé la base de données Bupa disponible publiquement dans

UCI[102]. Cette base est composée de 345 cas dont 200 cancéreux, et chaque cas est
caractérisé par six descripteurs qui sont les suivants:
1/MCV :
Le volume globulaire moyen ou VGM (Meancorpuscular volume MCV pour les
anglophones) ;c’ est une valeur biologique rendant compte de la taille des
globule rouges. Il se mesure lors d'une prise de sang sur l'hémogramme ou numération
sanguine.
La valeur du VGM permet souvent de connaitre la cause d’une anémie.
76
VGM (L) = Hématocrite (nombre compris entre 0 et 1) / Nombre de Globules

Rouges par litre
Le VGM, généralement exprimé en femto litres (fL=10−15L), est donc le volume
moyen des globules rouges est caractérisé par
• 80fL< VGM normal <100fL

• VGM > 100 fL : caractère macrocytaire : érythrocytes de grande taille
• VGM < 80 fL : caractère microcytaire : érythrocytes de petite taille.
2/ alkphos :
(abréviation de :alkaline phosphatase)=phosphatases alcalines
Les phosphatases alcalines sont normalement présentes dans le sang, et ils sont
en partie éliminés par la bile. À jeun le sérum contient essentiellement de la PAL
hépatique. La PAL d'origine intestinale augmente en période postprandiale. La PAL
d'origine osseuse est présent chez l'enfant pré pubertaire et celle d'origine placentaire
chez la femme enceinte, surtout au 2ème et 3ème trimestre de la grossesse.
Les valeurs usuelles des PAL se situent entre 25 et 80 UI/L. Ces valeurs seront
physiologiquement plus élevées chez la femme enceinte (car des iso formes des PAL
sont présentes dans le placenta) et chez l'enfant (car des iso formes des PAL sont
présentes au niveau osseux, donc il est normal de les voir augmenter lors période de
croissance osseuse).
Peuvent être enlevées en cas de cancer du foie
3/sgpt
SGPT, Sérum Glutamopyruvate Transférase, (ALAT, Alanine-Aminotransférase).
4/sgot :
SGOT, Sérum Glutamooxaloacétate Transférase (ASAT, Aspartate-Aminotransférase).
Leur augmentation témoigne d'une lésion cellulaire (cytolyse) dans le foie, le cœur, les
muscles ou les reins.
La norme des transaminases varie selon chaque laboratoire. Elle varie en fonction
du sexe, de l'âge, de la température du corps et de l'index de masse corporelle. Les
valeurs normales sont d'environ : 10 à 40 UI
5/gammagt :
Les gamma-GT ou glutamyl-transpeptidases ou gammaglutamyl-transférases,
sont des enzymes retrouvées dans de nombreux organes, comme le rein et les intestins,
mais plus particulièrement présentes dans le foie.
gamma-GT normal est inférieur à 45 UI/L chez l’homme et < 35UI chez la femme
ils peuvent être augmentées en cas de cancer du foie.
6/ drinks :( number of half-pint equivalents of alcoholic beverages drunk per
day)
Boire une demi-pinte est équivalent à boire des boissons alcoolisé par jour.
77
4.2.2.2Les classifieurs réalisés

Nous avons sélectionné 50% de la base de données pour l’apprentissage et le
reste pour le test. Dans cette étude, nous développons et nous comparons deux modèles
de classifieurs neuronaux :
• Classifieurs neuronaux classiques(CLSN) : le vecteur d’entrée est

présenté par les six descripteurs de la base bupa cité précédemment. La structure
est la suivante:
CLSN: 6.-3-1 : six neurones dans la couche d'entrée, trois neurones dans
la couche cachée, et un neurone à la couche de sortie et vingt-ans connexions entre les
neurones; voir figure4.3).
• Classificateurs Neuro-génétique (CLSAG) : dans ce classifieur, nous

utilisons les algorithmes génétiques pour extraire des descripteurs pertinents
utilisés pour une détection précoce de trouble de fonctionnement de foie.
Fig4.4: structure de classifieur CLSN
La figure 4.5 montre les meilleurs descripteurs d’entrée obtenue pour ce classifieur
CLSAG: 4-3-1 : (quatre neurones dans la couche d'entrée, trois neurones dans la
couche cachée, un neurone à la couche de sortie et quinze connexions entre les
neurones; voir figure 4.5).
78
Le meilleur chromosome est décodé présente les valeurs suivantes :
CODAGE 0 1 1 1 1 0
PARAMETRE MCV Alkhaphos sgpt Sgot Gammagt Drinks
Tab 4.3 : le meilleur chromosome choisi par CLSAG
Fig4.5: structure de classifieur CLSAG
Nous avons remarqué que l’algorithme génétique a éliminé 2 descripteurs (Mcv,

drinks) et il a gardé les quatre meilleurs descripteurs (alkphos, sgpt, sgot, gammagt)
Puis pour vérifier la pertinence des descripteurs choisis nous réalisons un

apprentissage paramétrique en utilisant la méthode de la rétro propagation.
Nous avons mesuré les performances de classifieur avec des descripteurs

optimisées AG.CLS et comparées avec les performances des classifieur classique CLSN
se sp Cc Nc T(s)
CLSN 75 66.02 71,30 21 80.52
CLSAG 76 70.00 73.33 15 50.23
Tab 4.4 : performances des classifieurs CLSAG et CLSN

de connexions des classificateurs sont présentés dans le tableau 4.4.
Les résultats indiquent que l’utilisation des algorithmes génétiques pour la sélection des
79
descripteurs pertinents nous fournit un taux de reconnaissance élevés de sensibilité,

spécificité et le taux de classification correct. Le classificateur, CLSAG, a donné un
taux classification correcte, une sensibilité et une spécificité respectivement
de 73.33, 70.00 et 76.00, avec une structure relativement optimale (quinze connexions).
4.2.4Conclusion
L’utilisation de l’algorithme génétique pour sélection des descripteurs pertinente

pour l’identification de trouble de fonctionnement de foie nous permis de déduire que
Mcv et drinks ont pas une importance clinique dans le diagnostic de trouble de
fonctionnement de foie . Aussi les algorithmes génétiques nous a permet de réduire
l’architecture est par conséquent le temps d’apprentissage (21 connexions à 15
connexions).
80
4.3 Caractérisation pertinents du cancer du sein
Le cancer du sein est le cancer qui touche de nos jours de plus en plus de femmes
dans le monde.
Ainsi, la lutte contre le cancer est loin d’être achevée. La médecine avance sur tous
les fronts afin d’améliorer les soins des patients et vaincre cette maladie du siècle. De ce
fait, il est indispensable que plusieurs disciplines continuent à apporter leur
contribution et particulièrement dans le domaine d’aide au diagnostic. Pour aider le
médecin à prendre une décision médicale, robuste et fiable, les réseaux de neurone
artificiels est considérés comme un outil puissant de diagnostic distribué.
Dans ce travail nous utilisons un algorithme évolutionniste pour le choix des

descripteurs pertinents dans la classification neuronal de cancer du sein.
4.3.1 Travaux réalisés le diagnostic de cancer du sein
Il existe beaucoup de recherches sur le diagnostic du cancer du sein dans la

littérature avec une performance de classification prédictive relativement élevée en
utilisant la base de données breast w.
Pena-Reyes et Sipper 1999 ont atteint 97,80% de précision de la classification , en

utilisant une approche qui intègre les systèmes flous et algorithmes
évolutionnaires[107].
Chou, Lee, Shao, et Chen 2004 ont obtenu 98,25% de précision de la classification
avec les réseaux de neurones artificiels et les cannelures de régression multivariée
adaptatifs [108].
Übeyli 2007 ont comparé les performances de classification d'un perceptron

multicouches, un réseau neuronal combiné avec un réseau neuronal probabiliste, un
réseau neuronal récurrent et une machine à vecteurs de support. La précision de la
classification la plus élevée a été obtenue par machine à vecteurs de support avec
99,54% de précision de classification [109].
Polat et Güneş 2007 ont rapporté 98,53% de précision de classification avec

l’algorithme de support carré [110].
Şahan, Polat, Kodaz et Güneş 2007 ont obtenu une précision de la classification de
99,14% avec l'hybridation d'un système artificielle immunitaire floue avec les K-plus
proche [111].
Mu et Nandi 2007 ont évalué les avantages de l'application de la machine à

vecteurs de support, les réseaux de fonctions de base radiale et des cartes d'auto-
organisation et ils ont obtenu une précision de 98,6% [112].
Ryu, Chandrasekaran, et Jacob 2007 ont appliqué la technique de séparation

isotonique à la prédiction du cancer du sein et les résultats expérimentaux indiquent
que la méthode peut être utilisée comme un outil fiable au problème [113].
81
Karabatak et Ince 2009 ont utilisé une règle d'association pour la réduction de la
dimension de réseau neuronal pour effectuer le classement. Ils ont obtenu une précision
de classification de 97,4%[114].
Akay 2009 a présenté un système de diagnostic à base de machine à vecteurs de

support combiné avec F-score basé sur une sélection de fonction et la précision de la
classification obtenue était de 99,51%[115].
Seera et Lim 2014 ont présenté un modèle de classification intelligente hybride

pour les données médicales. Le modèle se compose du réseau floue Min-Max de
neurones, l'arbre de classification et de régression et l'algorithme Random Forest. Le
réseau de neurones Min-Max flou est assure un apprentissage progressif, l'arbre de
classification et de régression est chargé d'améliorer la compréhensibilité et
l'algorithme Random Forest est utilisé pour améliorer la performance prédictive.
L'ensemble de données WBCD est parmi les bases de données médicales utilisées dans
les évaluations expérimentales. Ils ont obtenu une précision de classification de l’ordre
de 98,84% pour le diagnostic de cancer du sein [116].
Bhardwaj et Tiwari 2015 ont présenté un algorithme de réseau neuronal optimisé

par les algorithmes génétiques. Cette étude étend les opérateurs de croisement et de
mutation. Dans ce schéma, toutes les individus ont quitté après la reproduction sont
prises pour l'opération de croisement et les autres individus sont mutés. Le modèle de
classification obtient une précision de la classification moyenne de 99,26% pour 10 fois
schéma de validation croisée [117].
4.3.2résultats expérimentaux
La base de données du cancer du sein dénommée « Wisconsin Breast Cancer

Database» a été obtenue par l'Université du Wisconsin [section sur les conditions et
méthode d’apprentissage, la base de données utilisée, la programmation et le
dimensionnement du réseau elle contient les informations médicales de 699 cas
cliniques relatifs au cancer du sein classés comme bénin ou malin : 458 patientes (soit
65.5%) sont des cas bénins et 241 patientes (soit 34.5%) sont des cas malins.
La base de données contient 16 données manquantes; les patientes sont

caractérisées par 11 attributs : le premier fait référence à l’identificateur de la patiente
et le dernier représente la classe: le diagnostic est de 2 si le cas est bénin ,1 si le cas est
malin et 9 autres, ils représentent des cas cliniques suivants:
1-Clump Thickness: l’épaisseur de la membrane plasmique d’une cellule cancéreuse est

plus importante que celle d’une cellule normale.
2. Uniformity of Cell Size : les cellules cancéreuses sont caractérisées par une
anisocytose, à savoir une inégalité au niveau de la taille par comparaison avec les
cellules saines.
3. Uniformity of Cell Shape : les cellules cancéreuses sont marquées par des contours
irréguliers ainsi que des incisures
4. Shape Marginal Adhesion: une surexpression de la protéine integrin beta3 au niveau

de la surface de la cellule cancéreuse.
82
5 .Single Epithelial Cell Size: étant donné que les cellules épithéliales sont absentes à
l’état naturel au niveau de la moelle osseuse et qu’elles ne sont pas détectées chez les
individus sains, la moelle osseuse peut, de ce fait, être considérée comme un indicateur
de maladie métastatique chez les patients atteints du cancer du sein au stade primaire.
6. Bare Nuclei: à l’état normal, les nucléoles se trouvent à l’intérieur du noyau. Dans le
cas où ses derniers se trouvent confondus avec le cytoplasme cela indique que la cellule
présente une anomalie et qu’elle est susceptible de devenir cancéreuse.
7 Bland Chromatin : H2az est une protéine qui induit l’expression du gène du récepteur
d’oestrogènes.
La surproduction de cette protéine est un marqueur de présence de cellules cancéreuses

au niveau du sein étant donné qu’elles son hormono-dépendantes.
8 Normal Nucleoli : L’ADN est naturellement protégé par une membrane nucléraire.
Une défaillance observée au niveau de cette membrane peut refléter une croissance
tumorale.
9. Mitoses : La mitose est un processus de division cellulaire régulé permettant de

reproduire des cellules filles génétiquement identique à la cellule parentale.
Les cellules malignes sont caractérisées par une division cellulaire anarchique et
intense par comparaison avec une population cellulaire normale.
Dans cette étude, nous développons et comparons les deux classificateurs

neuronaux:
• classificateur 1:CLSAG : dans ce classifieur on utilise toute les descripteurs de la

base de données comme paramètre d’entrée au classifieur neuronal.
• classifieur2: CLSN : dans ce classifieur , nous utilisons les algorithmes génétiques
pour faire l’extraction des paramètre pertinentes pour la détection de cancer du sein
Le meilleur chromosome choisi par « CLS-AG » est décodé par :
CODAG 1 1 1 1 0 1 1 0 0
E
Paramè Clump Unifor Single Unifor Shape Bar Bland Nor Mito
tres Thick mity of Epithe mity of Margi e Chrom mal ses
ness Cell lial Cell nal Nuc atin Nucl
Shape Cell Adhes lei eoli
Size ion
Tab 4.5 : le meilleur chromosome choisi par AG-CLS. BREAST
Nous avons remarqué que l’algorithme génétique a éliminé 3 descripteurs (,

Shape Marginal Adhesion, Normal Nucleoli et Mitoses) et il a gardé les six meilleurs
83
descripteurs (Uniformity of Cell Clump Thickness, Uniformity of Cell Shape , Single

Epithelial Cell Size, Bare Nuclei et Bland Chromatin )
Pour vérifier les résultats obtenus nous réalisons un algorithme d’apprentissage

paramétrique avec ces descripteurs en utilisant la méthode rétro propagation.
Nous avons mesuré les performances de classifieur CLSAG avec des descripteurs
réduits et comparées avec les performances de classifieur classique CLSN.
se sp Cc Nc T(s)
CLSN 94 ,42 95 ,71 94 ,85 50 180.52
CLSAG 100 99.61 99 .71 35 100.23
Tab 4.6: performances des classifieurs CLSN. et CLS.AG

de connexions des classificateurs sont présentés dans le tableau 4.6.
Les résultats indiquent que l’utilisation des algorithmes génétiques pour la

sélection des paramètres pertinents nous fournit une sensibilité et une spécificité
élevées respetivement100% et 99 ,71 %par rapport aux classifieur CLSNet différent
travaux cités dans la littérature [107-117],et ceci montre clairement l’efficacité de
classifieur CLSAG pour la reconnaissance positif de cancer du sein.
L’utilisation de l’algorithme génétique pour la sélection des descripteurs

pertinents pour l’identification de cancer de sein nous a permis de déduire que (, Shape
Marginal Adhesion, Normal Nucleoli et Mitoses) influe négativement sur le diagnostic
de cancer de sein . Aussi les algorithmes génétiques nous a permet de réduire
l’architecture de classifieur neuronal est par conséquent le temps d’apprentissage
(50connexions avec9 descripteurs, 35 connexion avec 6 descripteurs).
4.4conclusion de chapitre
Le choix des descripteurs pertinents l’un des défis major de diagnostic

automatique médicale. Dans ce chapitre nous nous intéresse à traiter ce problème en
fais appelons aux algorithmes génétiques. Nous avons utilisé plusieurs bases de
données médicales : base d’arythmies cardiaque MIT-BHI, base de trouble de
fonctionnement de foie bupa et base de cancer du sein breast-w.
L’algorithme génétique montre clairement leur aptitude pour la sélection des

descripteurs pertinents des classifieurs neurones sur les différentes bases de données
utilisées.
84
Conclusion générale
Les recherches menées sur les systèmes intelligents médicaux et l'apprentissage

artificiel ont connu un développement primordial ces dernières décennies. Les
contributions produites par ces recherches ont permis d’améliorer substantiellement le
diagnostic automatique.
Les travaux présentés dans ce manuscrit nous ont donné l’occasion de traiter les
différents problèmes d’apprentissage de classifieurs à base de réseaux de neurones
artificiels tout en présentant une solution par les algorithmes génétiques, dans le but
d’améliorer les performances de ces classifieurs usités en diagnostic médical.
Les travaux réalisés dans le cadre de notre thèse de Doctorat sont réparties en
quatre parties distinctes, l’objectif majeur est de répondre à notre problématique
présentée au début de ce travail de thèse.
Lors de la première contribution, nous avons utilisé les algorithmes génétiques

pour traiter le problème des minima locaux dans les classifieurs neuronaux. Où nous
avons conçus en premier lieu un classifieur neuronal dédié à la reconnaissance des
battements ventriculaires prématurés BVPs, dont les poids synaptiques sont
génétiquement ajustés, en utilisant les algorithmes génétiques. Par la suite une
comparaison de ce classifieur avec un classifieur neuronal classique en utilisant la rétro
propagation comme un algorithme d’apprentissage a été établi. Le classifieur neuro-
génétique a donné de très bons résultats avec un taux de classification correcte
moyenne de 98,72% et une sensibilité de 97,33% par rapport au classificateur classique
qui a donné un taux de classification correcte de 95,71% et une de sensibilité de
87,98%. Aussi, notre classificateur CNG réalisé a donné des résultats meilleurs par
rapport aux classifieurs des BVPs proposés dans la littérature. Ces résultats
prometteurs nous ont encouragé à tester ce modèle de classifieur sur d'autres types
d'arythmies cardiaques.
Dans la seconde contribution nous avons adopté les algorithmes génétiques pour
un apprentissage structurel des RNAs afin de traiter le problème de choix d’architecture
des classifieurs neuronaux. Nous avons remarquons que l'efficacité d'un algorithme
génétique (GA) a amélioré l’architecture de classificateur neuronal appliqué à la
classification des BVPs. le classifieur réalisé nous a donné un meilleur taux de
reconnaissance de ces types d'arythmies en particulier dans la reconnaissance de vrais
positifs, notre classifieur neuro-génétique a donné une grande sensibilité comparé aux
classifieurs classiques et aux autres classifieurs cités dans la littérature .
Aussi les algorithmes génétiques nous ont permis d’obtenir une architecture
optimale des classifieurs réalisés.
La sélection des meilleurs descripteurs d’entrée pour la classification présente un

grand défi pour les chercheurs dans le domaine de reconnaissance de formes , cette
problématique a fait l’objet de notre troisième contribution où nous avons examiné la
capacité des algorithmes génétiques pour l’extraction des variables pertinentes des
données médicales. Nous avons utilisé plusieurs bases de données médicales: base
d’arythmies cardiaques MIT-BHI, cancer du sein BREAST W et trouble de
fonctionnement de foie BUPA.
Les résultats obtenus reflètent l’importance de l’intervalle RRp et le complexe

QRS pour la reconnaissance des BVP. L’utilisation de l’algorithme génétique pour la
sélection des descripteurs pertinents afin d’identifier les troubles de fonctionnement
du foie nous a permis de déduire que les variables Mcv et drinks ne possèdent pas une
importance clinique dans le diagnostic de troubles de fonctionnement du foie (confirmé
par des médecins). Pour l’identification de cancer du sein, nous avons fait appel aux
algorithmes génétiques qui nous ont permet de déduire que les variables (Shape
Marginal Adhesion, Normal Nucleoli et Mitoses) influent négativement sur le diagnostic
de cancer du sein. Aussi nos algorithmes génétiques réalisés ont donné lieu à une
réduction de l’architecture de classificateur neuronal est par conséquent une diminution
du temps d’apprentissage.
Le problème majeur rencontré lors de l'exécution des AGs est le choix de La taille
de la population qui peut être critique dans de nombreuses applications. Si la taille de la
population est trop petite, l'algorithme génétique converge trop vite, par contre si elle
est trop grande, l'algorithme génétique fait beaucoup de calcul et le temps d’exécution
sera plus long. Pour cette raison nous avons traité cette contrainte dans le cadre d’ une
quatrième contribution, où nous avons traité le problème de processus aléatoire des
systèmes évolutionnistes, donnant lieu à une nouvelle méthode d'optimisation des poids
dans les classifieurs neuro- génétiques par un apprentissage génétique à deux phases.
Notre hypothèse de base est d'employer une approche basée sur un choix non aléatoire
de la population initiale par l'apprentissage individuel dans la phase 1, après
l'apprentissage global en phase2.Cette méthode produit une amélioration considérable
sur les résultats obtenus. Où nous avons utilisé plusieurs bases de données médicales:
BUPA, BREASTW,HEPATITS et PIMA.
Perspectives de recherche
Les réseaux de neurones présentent une grande diversité. En effet un modèle de

réseau de neurones est défini par sa topologie, ses paramètres ainsi que son algorithme
d’apprentissage.
Les travaux menés durant cette thèse nousont permis d'apporter une importante
et originale contribution sur l’amélioration des performances de classifieurs neuronaux
médicaux. Où plusieurs problèmes ont été traités et les résultats obtenus sont très
prometteurs.
Jusqu’à présent, le problème qui reste le plus difficile à résoudre est de trouver un
meilleur point dans un espace à trois surfaces différentes (architecture, poids
synaptiques et les variables d’entrée).
Notre travail futur concerna l’optimisation multi-objectifs ou multicritères cette

piste de recherche consiste à trouver un vecteur de décision optimisant plusieurs
fonctions objective simultanément et qui satisfait un ensemble de contraintes. Un
vecteur de décision est composé de n variables représentatifs des variables du problème
86
87
Bibliographie
[1] R. A. Miller. Medical diagnostic decision support systems_past, present, and future: a
threaded bibliography and brief commentary. Journal of the American Medical
Informatics Association, 1(1) :8_27, 1994.
[2] E. Coiera. A guide to health informatics. Hodder & Stoughton Educational, UK, 2nd
edition, 2003.
[3] M. Huguier and A. Flahault. Biostatistiques au quotidien. Elsevier, 2003.
[4] Z. Michalewciz. Evolution algorithm+ datstructure=evolutions programs, Springer-
Newyork,1992.
[5] Herbert A . Simon,Why should machines learn?, Machine Learning:An artificial
intelligence approache , Morgan Kaufmann,1983.
[6] Laurent Miclet , Antoine Cornuéjols , Yves Kodratoff . Apprentissage artificiel
(concepts et algorithme), préface de Tom Mitchell , EYROLLES,Paris2003.
[7] Michalski, Kodratoff. Machine Learning-An artificial Intellingence, Morgan Kaufmann,
1990.
[8] Giacometti, Arnaud. Modèles Hybrides de l'Expertise. Thèse de Doctorat en
Informatique et Réseaux, Lab. LIFIA - IMAG, Grenoble / ENST Paris - France, Novembre
1992.
[9] Merabet Rabiya. Une approche automate cellulaire pour L’apprentissage d’un agent,
thèse de magister informatique, université Biskra ,2012 .
[10] Yann Braouezec. Apprentissage et conflit exploration-exploitation . Esilv-Dept
Mathématiques et ingénierie Financière Pôle universitaire léonard de vinci,92916
paris,2004 .
[11] Hebb D.O. The organisation of behavior. Wiley, New-york, 1949.
[12] Rumelhart D., Hinton G. et Williams R., Learning internal representations by error
propagation," Parallel Distributed Processing, Vol. 1, MIT Press, pp. 318-362, 1986.
[13] Mohamed Y. AMMAR. Mise en œuvre de réseaux de neurones pour la modélisation de
cinétique réactionnelle de réseaux de neurones pour la modélisation de cientetiques
reactionnelles en vue de la transposition batch /continu. Thèse de Doctorat de l’I.N.P. –
Toulouse , 2007.
[14] J.M. Torres Moreno and M.B Gordon. Adaptive learning for classification tasks with
binary units . Neural Computation, In Press, 1997.
[15] M. Karouia, R. Lengellé, and Denoeux T. Performance analysis of a MLP weight
initialization algorithm . In Michel Verleysen, editor, European Symposium on Artifcial
Neural Networks, Brussels, 1995.
[16] C. Igel and M. Husken. Sylvain Tertois. Reduction des effets des non-linearites dans
une modulation milti porteuse à l'aide de reseaux de neurones . PhD thesis, Rennes 1, 2003.
[17] Qun Dai, Ningzhong Liu. Alleviating the problem of local minima in Backpropagation
through competitive learning. Neurocomputing, Volume 94, 1 October 2012, Pages 152–
158.
[18] Leong Kwan Lia, Sally Shaob, Ka-Fai Cedric Yiua, A new optimization algorithm for
single hidden layer feedforward neural network; Applied Soft Computing, Volume 13,
Issue 5, May 2013, Pages 2857–2862.
88
Bibliographie
[19] Alireza Askarzadeh, ,Alireza Rezazadeh; Artificial neural network training using a
new efficient optimization algorithm, Applied Soft Computing, Volume 13, Issue 2,
February 2013, Pages 1206–1213.
[20] Bernard Widrow, Aaron Greenblatt , Youngsik Kim , Dookun Park ;The No-Prop
algorithm.A new learning algorithm for multilayer neural networks. Neural Networks
Volume 37, January 2013, Pages 182–188.
[21] Ozan Kocadağlı. A novel hybrid learning algorithm for full Bayesian approach of
artificial neural networks, Applied Soft Computing Volume 35, October 2015, Pages 52–
65.
[22] Shih-Hung Yang, Yon-Ping Chen. An evolutionary constructive and pruning algorithm
for artificial neural networks and its prediction applications; Neurocomputing, Volume
86, 1 June 2012, Pages 140-149
[23] Hong-Gui Han, Li-Dan Wang, Jun-Fei Qiao. Hierarchical extreme learning machine for
feedforward neural network. Neurocomputing, Volume 128, 27 March 2014, Pages 128-
135.
[24] Haydee Melo, Junzo Watada; Gaussian-PSO with fuzzy reasoning based on structural
learning for training a Neural Network. Neurocomputing, Volume 172, 8 January 2016,
Pages 405-412.
[25] R. PAREKH, J. YANG, et V. HONAVAR. Constructive Neural-Network Learning
Algorithms for Pattern Classification . IEEE Transactions on Neural Networks,volume
11(2) 2000:pages436–451.
[26] N. Dunkin, J. Shawe-Taylor, and P. Koiran. A new incremental learning technique.
Springer Verlag, editor, Neural Nets Wirn Vietri-96. Proceedings of the 8th Italian
Workshop on Neural Nets, , 1997.
[27] S. E. Fahlman and C. Lebiere. The cascade-correlation learning architecture. In D. S.
Touretzky, Advances in Neural Information Processing Systems, , Morgan Kaufmann, San
Mateo, Denver 1989, 1990.
[28] TSOPZE Norbert. Treillis de Galois et réseaux de neurones : une approche constructive
d’architecture des réseaux de neurones ;these de doctorat ,Université d’Artois, France
2012.
[29] P. Corcoran, P. Lowery, J. Anglesea. Optimal configuration of a thermally cycled gas
sensor array with neural network pattern recognition; Sensors and Actuators B: Chemical
Volume 48, Issues 1–3, 30 May 1998, Pages 448–455
[30] Gérard Dreyfus, Jean-Marc Martinez, Manuel Samuelides, Collectif, Apprentissage
statistique , Eyrolles , 2008 ,449 pages .
[31] Choo Jun Tan, Chee Peng Lim, Yu–N Cheah ; A multi-objective evolutionary
algorithm-based ensemble optimizer for feature selection and classification with neural
network models; Neurocomputing Volume 125, 11 February 2014, Pages 217–228.
[32] Kabiru O. Akande, Taoreed O. Owolabi, Sunday O. Olatunji; Investigating the effect
of correlation-based feature selection on the performance of neural network in reservoir
characterization. Journal of Natural Gas Science and Engineering, Volume 27, Part 1,
November 2015, Pages 98-108.
[33] Manasa Kesharaju, Romesh Nagarajah; Feature selection for neural network based
defect classification of ceramic components using high frequency ultrasound; Ultrasonics,
Volume 62, September 2015, Pages 271-277
[34] Carlos Affonso, Renato Jose Sassi, Ricardo Marques Barreiros; Biological image
classification using rough-fuzzy artificial neural network; Expert Systems with
Applications, Volume 42, Issue 24, 30 December 2015, Pages 9482-9488.
89
Bibliographie
[35] Ph. PREUX. Fouille de données. Notes de cours. Université de Lille 3 philippe.2011
preux@univ-lille3.fr. http://www.grappa.univ-lille3.fr/~ppreux/fouille.
[36] Guanjun Wang, Jinde Cao, Lan Wang; Global dissipativity of stochastic neural
networks with time delay; Journal of the Franklin Institute, Volume 346, Issue 8, October
2009, Pages 794-807.
[37] Jin Yang, Hugues Rivard, Radu Zmeureanu; On-line building energy prediction using
adaptive artificial neural networks, Energy and Buildings, Volume 37, Issue 12, December
2005, Pages 1250-1259.
[38] Adam P. Piotrowski, Jarosław J. Napiorkowski; Optimizing neural networks for river
flow forecasting – Evolutionary Computation methods versus the Levenberg–Marquardt
approach; Journal of Hydrology, Volume 407, Issues 1–4, 15 September 2011, Pages 12-
27.
[39] Adam P. Piotrowski, , Jarosław J. Napiorkowski; A comparison of methods to avoid
overfitting in neural networks training in the case of catchment runoff modelling, Journal
of Hydrology Volume 476, 7 January 2013, Pages 97–111.
[40] Thomas Weise .Global Optimization Algorithms ;Theory and Application–. 2nd
edition . self-published: Germany. 2009 .
[41] Fardin Ahmadizar, Khabat Soltanian, Fardin AkhlaghianTab, Ioannis
Tsoulos;Artificial neural network development by means of a novel combination of
grammatical evolution and genetic algorithm; Engineering Applications of Artificial
Intelligence, Volume 39, March 2015, Pages 1-13.
[42] M. Castellani; Evolutionary generation of neural network classifiers—An empirical
comparison; Neurocomputing, Volume 99, 1 January 2013, Pages 214-229
[43] Yacoub M. Najjar, Imad A. Basheer, Maha N. Hajmeer; Computational neural
networks for predictive microbiology: I. methodology; i nternational Journal of Food
Microbiology, Volume 34, Issue 1, January 1997, Pages 27-49
[44] David PANZOLI; Simulation comportementale par réseau de neurones et
apprentissage par algorithme génétique ; DEA Informatique de l'image et du
langage,2003 .
[45] V. Maniezzo; Searching among space search: hastening the genetic evolution of
feedforward neural networks in Proceedings of ANNGA, 1993.
[46] J.P. Mague ; Explicitation des connaissances d’un réseau de neurones artificiels à l’aide
d’un moniteur génétique ; Laboratoire Leibniz – IMAG, septembre 1999 .
[47] Maroun Bercachi ;. Algorithme à Etats pour l’Optimisation Difficile. Algo rithme et
structure de données [cs.DS]. Universit´e Nice Sophia Antipolis. Fran¸cais. <tel-
00818459> ,2010.
[48] Th. Back, D.B. Fogel and Z. Michalewicz. Handbook of Evolutionary Computation,
Oxford University Press ,1997.
[49] É. Goubault. Cours sur les Algorithmes Évolutionnaires et Problèmes Inverses, , École
Polytechnique ParisTech, France.
[50] Terki Amel , Analyse des performances des algorithmes génétiques utilisant
différentes techniques d’évolution de la population ;magister électronique, université
Mentouri Costantine,2010 .
[51] R. Dupas, Amélioration de performance des systèmes de production: rapport des
algorithmes Évolutionnistes aux problèmes d’ordonnancement cycliques et flexibles,
Université d’Artois ; 2004.
[52]S. Bernard, Algorithmes Evolutionnaires, Edition addison-Wesley, Paris 2003.
[53]E. Lutton, Darwinisme artificiel, INRIA - Rocquencourt - Equipe Complex - Projet
Fractales, 2004.
90
Bibliographie
[54] T.Vallée ,M.Yıldızoglu. Présentation des algorithmes génétiques et de leurs

applications en économie, Université de Nantes, 2001.
[55]S.Baudot-Roux. Algorithmes évolutionnaires, hybridation.cf. PARCFD'99, Surveys on
Mathematics 2000, Eurogen 97, 98, 99.
[56]P. Lucidarme. Apprentissage et adaptation pour des ensembles de robots réactifs
coopérants. Proc. ICRA’02, Washington, 2002.
[57]: A. Nabonne. Algorithmes évolutionnaires et problèmes inverses, chapitre 8, juin
2004.
[58] D.Francisci, Algorithmes Evolutionnaires et Optimisation Multi-objectifs en Data
Mining , projet MECOSI, rapport de recherche I3S/RR-2002.
[59] Jürgen Branke, Evolutionary Algorithms for Neural Network Design and Training
technical report, University of Karlsruhe, 1995.
[60] J.H. Holland. 10.1.1.1.2Adaptation in Natural and Artificial Systems; MIT Press, 1975.
[61] Astro Teller; Algorithm Evolution with Internal Reinforcement for Signal
Understanding; Thesis, School of Computer Science, Pittsburgh, 1998.
[62] Montana, D.J. and Davis, L. Training feedforward networks using genetic algorithms,
Proceedings of the 11th International Joint Conference on Artificial Intelligence, Morgan
Kaufmann, San Mateo, CA,1989; pages 762–767.
[63] Whitley, D. and Hanson, T. Optimizing neural networks using faster, more accurate
genetic search, Proceedings of the Third International Conference on Genetic Algorithms,
J.D. Schaffer, ed., Morgan Kaufmann, San Mateo, CA,1989; pages. 391–396.
[64] Ichikawa, Y. and Sawa, T. Neural network application for direct feedback
controllers, IEEE Transactions on Neural Networks,1989; 3(2), 224–231.
[65] L.J Fogel, A.J Owens, and M.J Walsh. Artificial Intelligence Through Simulated
Evolution. Wiley and sons. NY, 1966.
[66] Negnevitsky, M., Artificial Intelligence: A Guide to Intelligent Systems, ISBN
0321204662, 2nd edn (Addison Wesley), England,2004.
[67] Ferri, F. J., Kadirkamanathan, V. et Kittler, J. Feature subset search using genetic
algorithms. In Workshop on Natural Algorithms in Signal Processing, IEE. Press.1993.
[68] Kudo, M. et Sklansky, J.Comparison of algorithms that select features for pattern
classi ers. Pattern Recognition, 33(1):25 { 41}. 2000.
[69] Hassan CHOUAIB, Sélection de caractéristiques: méthodes et applications ; these de
doctorat en informatique ; université de Paris Descartes ;2011 .
[70] Coello, C. et Carlos, A. An empirical study of evolutionary techniques for
multiobjective optimization in engineering design. These de doctorat, New Orleans, LA,
USA. AAI9639654.1996.
[71]Marichal, J.-L. On Choquet and Sugeno Integrals as Aggregation Functions. Physica
Verlag, Heidelberg.2000.
[72] Deb, K., Pratap, A., Agarwal, S. etMeyarivan, T. A fast elitist multi-objective genetic
algorithm : Nsga-ii. IEEE Transactions on Evolutionary Computation, 6:182{197.2000.
[73] Goldberg et David, E. Genetic Algorithms in Search, Optimization and Machine
Learning. Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA, 1st
edition.1989
[73] Fonseca, C. et Fleming, P. Genetic algorithms for multiobjective optimization
: Formulation discussion and generalization. In Proceedings of the 5th International
Conference on Genetic Algorithms, pages 416{423, San Francisco, CA, USA. Morgan
Kaufmann Publishers Inc;2003.
[74] Srinivas, N. et Deb, K. Multiobjective optimization using nondominated sorting in
genetic algorithms. Evolutionary Computation, 2:221{248}.1994.
91
Bibliographie
[75] Mihail Crucianu, Algorithmes d’évolution pour les réseaux de neurones, Rapport de
recherche 187, E3I Tours, février 1997
[76] P.J.B. Hancock; Coding Strategies for Genetic Algorithms and Neural Networks; PhD
Thesis, University of Stirling, 1992.
[77] P.W. Munro, Genetic search for optimal representations in neural networks technical
report, 1991.
[78] H. Braun , J. Weisbrod, Evolving neural feedforward networks, in Proceedings of the
conference on Artificial Neural Nets and Genetic Algorithm, 1993, pages 25-32.
[79] D. Whitley and C. Bogart, The evolution of connectivity: pruning neural networks
using genetic algorithms, technical report, 1990.
[80] B.L.M. Happel ,J.M.J. Murre Design and evolution of modular neural network
architectures. in Neural Networks 1994,chap. 6-7, pages 985-1004.
[81] S. bornholdt and D. Graudenz; General asymmetric neural networks and structure
design by genetic algorithms ; Neural Networks 1992; chap 5, pages 327-334.
[82] D. Whitley, S. Dominic and R. Das; Genetic reinforcement learning with multiplayer
neural network in Proceeding ; the 4th international conference on Genetic Algorithms
1991, pages 562-569.
[83] J. H. Holland, Adaptation in Natural and Artificial System. Ann Arbor, MI: Univ.
Michigan Press, 1975.
[84] D. E. Goldberg, Genetic Algorithm in Search Optimization and Machine Learning
Reading, MA: Addison-Wesley, 1989.
[85] Z. Michalewicz, Genetic Algorithm + Data Structure = Evolution Program, 3rd ed.
Berlin, Germany: Springer-Verlag, 1996.
[86] M. D. Vose, The Simple Genetic Algorithm. Foundation and Theory. Cambridge, MA:
MIT Press, 1999.
[87] W. Banzhaf and C. Reeves, Foundation of Genetic Algorithm 1–5 Set. San Mateo, CA:
Morgan Kaufmann, Apr. 1999.
[88] R. L. Haupt and S. E. Haupt, Practical Genetic Algorithms, New York: Wiley, 1998.
[89] M. Gen and R. Cheng, Genetic Algorithms and Engineering Optimization, New York:
Wiley, 2000.
[90]A. M. Zalzala and P. Fleming, Eds., Genetic algorithm in engineering systems, in IEE
Control Engineering, ser. 55, 1997.
[91] R.Caponetto,chaotic sequence to improve the performance of evolutionary
algorithms, IEEE transaction on evolutionary computation, vol. 7 NO. 3, June 2003.
[92]Christov, I. and Bortolan, G, Ranking of pattern recognition parameters for
premature ventricular contractions classification by neural networks. Physiological
Measurement, 25, 1281–1290;2004.
[93] Inan OT, Giovangrandi L, Kovacs GTA, Robust neural-network-based classification of
premature ventricular contractions using wavelet transform and timing interval features;
IEEE Trans Biomed Eng 53(12);Dec 2006.
[94] Chudacek V, Georgoulas G, Lhotska L, Stylios C, Petrık M, Cepek M, Examining
crossdatabase global training to evaluate five different methods for ventricular beat
classification, Physiol Meas 30(7):661 677, 2009.
[95]Sajedin A, Zakernejad S, Faridi S, Javadi M, Ebrahimpour R, A trainable neural
network ensemble for ECG beat classification, World Acad Sci Eng Technol 69:788 794,
2010.
[96] Zhou, J., , Automatic Detection of Premature Ventricular Contraction Using Quantum
Neural Networks, bibe, Third IEEE Symposium on BioInformatics and BioEngineering
(BIBE’03), Bethesda, Maryland, , 2003.pages 169–173.
92
Bibliographie
[97] Stricker.M, Catégorisation de textes et apprentissage numérique ;thèse de doctorat ;

ecole ESPCI,2003.
[98] J.Antonio , T.Ballesteros & C .Hervás-Martínez.,A two-stage algorithm in evolutionary
product unit neural networks for classification, Expert Systems with Applications 38
(2011) 743–754,2011.
[99] J.Antonio , T.Ballesteros, Feature selection to enhance a two-stage evolutionary
algorithm in product unit, Neural networks for complex classification problems
Neurocomputing 114(2013)107–117,2013.
[100]L. Wang, , D;Z Zheng, , & F.Tang, An improved evolutionary programming for
optimization. Proceedings of the fourth world congress on intelligent control and
automation ,Vol. 3, Shanghai, China: IE,2002; pages. 1769–1773.
[101] H;De Garis, , Genetic programming: Building artificial nervous systems using
genetically programmed neural network modules, In Proceedings of the seven th
international conference on machine learning (ML 1990) ;Austin, Texas, USA: Morgan
Kaufman,1990, pages. 132–139.
[102] A;Asuncion , & D.JNewman, . UCI machine learning repository. Irvine,CA:
University of California, School of Information and Computer Science.2007 <http://
www.ics.uci.edu/mlearn/MLRepository.html>.
[103] ] H. Nakano, Y. Okamoto, H. Nakabayashi, Application of neural network to the
interpretation of laboratory data for the diagnosis of two forms of chronic active hepatitis,
International Hepatology Communications 5 (3) 1996 ; pages160–165.
[104] A. Onisko, M.J. Druzdzel, H. Wasyluk, A probabilistic causal model for diagnosis of
liver disorders, Proceedings of the Workshop held in Malbork, Malbork Poland; 1998.
[105] E. Comak, K. Polat, S. Günes¸ , A. Arslan, A new medical decision making system:
least square support vector machine (LSSVM) with fuzzy weighting pre-processing, Expert
Systems with Applications 32 (2) 2007 ; pages 409–414.
[106] K. Polat, S. S¸ ahan, H. Kodaz, S. Günes¸ , Breast cancer and liver disorders classi-
fication using artificial immune recognition system (AIRS) with performance evaluation
nby fuzzy resource allocation mechanism, Expert Systems with Applications
32 (1) 2007; pages172–183.
[107] C.A. Pena-Reyes, M. Sipper, A fuzzy-genetic approach to breast cancer diagnosis,
Artificial Intelligence in Medicine, 17 1999 ;pages131-155.
[108] hieu-Ming Chou , Tian-Shyug Lee , Yuehjen E. Shao , I-Fei Chen, Mining the breast
cancer pattern using artificial neural networks and multivariate adaptive regression
splines, Expert Systems with Applications: An International Journal, v.27 n.1, p.133-142,
July, 2004 .
[109] Y.U. Ryu, R. Chandrasekaran, V.S. Jacob, Breast cancer prediction using the isotonic
separation technique, European Journal of Operational Research, 181 (2007) 842-854.
[110] Kemal Polat , Salih Güneş, Breast cancer diagnosis using least square support vector
machine, Digital Signal Processing, v.17 n.4, p.694-701, July, 2007.
[111] T. Mu, A.K. Nandi, Breast cancer detection from FNA using SVM with different
parameter tuning systems and SOM-RBF classifier, Journal of the Franklin Institute, 344
2007 ; pages285-311.
[112] Y.U. Ryu, R. Chandrasekaran, V.S. Jacob, Breast cancer prediction using the isotonic
separation technique, European Journal of Operational Research, 181 -2007; pages842-
854.
93
Bibliographie
[113] Murat Karabatak , M. Cevdet Ince, An expert system for detection of breast cancer
based on association rules and neural network, Expert Systems with Applications: An
International Journal, v.36 n.2, , March, 2009. Pages3465-3469.
[114] Mehmet Fatih Akay, Support vector machines combined with feature selection for
breast cancer diagnosis, Expert Systems with Applications: An International Journal, v.36
n.2, March, 2009; pages.3240-3247.
[115] Manjeevan Seera , Chee Peng Lim, A hybrid intelligent system for medical data
classification, Expert Systems with Applications: An International Journal, v.41 n.5, ,
April, 2014; pages.2239-2249.
[116] A. Bhardwaj, A. Tiwari, Breast cancer diagnosis using genetically optimized neural
network model, Expert Systems with Applications, 42 -2015; pages 4611-4620.
[117] MIT-BIH arrhythmia database, ,Harvard-MIT Division of Health Science
Technology, Biomedical Health Centre, Cambridge, MA, USA: 1st edn, 1975–1979.
[118] Sekkal,M. and Chikh,M.A. (2012) ’ NEURO-genetic approach to
classification of cardiaque arrithmias’, Journal of Mechanics in Medicine and Biology,
Vol. 12, No. 1 .
[119] Sekkal ,M .and al (2011) ‘Evolving neural networks using a genetic algorithm for
heartbeat classification’, Journal of Medical Engineering & Technology, Volume 35, Issue
5.
[120] Sekkal,M. and Chikh,M.A. (2016) ‘A TWO PHASE GENETIC LEARNING OF A
NEURAL CLASSIFIER APPLICATION IN MEDICAL DIAGNOSTIC’, international
journal of biomedical engineering and technology’ accepted August2016
94

These

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

These

Transféré par

Droits d'auteur :

Formats disponibles

‫اﳉﻤﻬﻮرﻳـﺔ اﳉـﺰاﺋـﺮﻳـﺔ اﻟﺪﳝـﻘـﺮاﻃـﻴـﺔ اﻟﺸـﻌـﺒـﻴـﺔ‬

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE

Spécialité : électronique biomédicale

Par : Mme BENDIMERAD MANSOURIA née SEKKAL

Amélioration des performances d'un classifieur

Soutenue publiquement, le 29 / 09 /2016 , devant le jury composé de :

Mr HADJ SLIMANE .Z Professeur Univ. Tlemcen Président

 A mon époux, que je le remercie pour son soutien, sa patience, sa compréhension et

 A ma lune, mon trésor précieux : MA CHARMANTE FILLE AMANI

 A mes trois frères que j’estime beaucoup : Mohamed, Hocine et Idriss

 A mes beaux-frères ainsi que mes belles sœurs.

 A toutes mes amies spécialement : Aouicha, Khadidja et Houaria .

Je tiens à exprimer ma très profonde gratitude à Monsieur CHIKH Mohamed

Sa clairvoyance, sa générosité, sa gentillesse, ses connaissances, le temps qui

J'adresse mes très sincères remerciements à Monsieur HADJ SLIMANE Z,

• Monsieur MEZIANE.A , maitre de conférences à CERIST ALGER

Qu’ils trouvent ici toute ma reconnaissance.

Mots clés : réseaux de neurones , algorithmes génétiques, classifieur neuro-génétique ,

Nettoyage des données ......................................................................................................................... 14

Chapitre2 Classifieurs neuro- génétique ...................................................... 16

Chapitre3 Apprentissage paramétrique et structurel des RNAs .......... 33

Chapitre4 Sélection des variables du classifieur neuro-génétique...... 67

4.3.1 Travaux réalisés le diagnostic de cancer du sein ....................................................................... 78

Conclusion générale ............................................................................................. 83

Tab3.1 les enregistrements choisis de la base de données MIT-BIH .................................................... 38

AG-CLS : classifieur neuro-génétique global (apprentissage structurel)

BVP : battement ventriculaire prématuré

BBD : bloc de branche droite

BBG : bloc de branche gauche

CNC : classifieur neuronal classique (apprentissage paramétrique)

CNG : classifieur neuro-génétique (apprentissage paramétrique)

CNCG : classifieur neuronal classique global (apprentissage paramétrique)

CNGG : classifieur neuro-génétique global (apprentissage paramétrique)

CNGC : classifieur neuro-génétique classique

CLS : classifieur neuronal classique (apprentissage structurel)

CLSN : classifieur neuronal classique (caractérisation du vecteur d’entrée)

CLSNG : classifieur neuro-génétique (caractérisation du vecteur d’entrée)

PMC : perceptron multicouche

RNA ; réseaux de neurones artificiels

TPNGC : classifieur neuro-génétique à deux phases d’apprentissage

Dans le domaine de diagnostic médical, la résolution des problèmes se base sur le

Ces difficultés sont liées en général à quelques paramètres difficiles à gérer

La problématique traitée dans le cadre de notre travail consiste à améliorer les

Néanmoins, même les systèmes évolutionnistes, présente un grand problème due à

Un choix correct de la population influe sur la vitesse de convergence en orientant

Notre première contribution, concerne l’utilisation des algorithmes génétiques

La seconde contribution concerne l’utilisation des algorithmes génétiques pour

La troisième contribution concerne l’aptitude des algorithmes génétiques pour

la dernière contribution concerne le problème d’initialisation aléatoire des

La thèse est structurée en quarte chapitres : le premier chapitre concerne l'état de

Le troisième chapitre est consacré aux résultats d’apprentissage paramétrique et

L’Apprentissage artificiel est un sous-domaine de l’Intelligence

Le point crucial du développement d’un réseau de neurones est

Dans ce chapitre nous présentons un état de l'art détaillé sur le

1.1 Notions de base d’apprentissage

1.1.1 Quelques définitions d’apprentissage artificiel

• Définition selon H. Simon [5]:

Nous citons ci-dessous les notions de base qui permettent de comprendre le

 Apprentissage artificiel: ou Machine Learning en anglais, Cette notion concerne

 Précision vs Généralisation: il constitue le grand dilemme de l'apprentissage

 Connaissances Empiriques: les connaissances empiriques, c'est-à-dire les

 Connaissances Théoriques: les connaissances théoriques concernent les

 Fouille de données: (Data Mining) ou Extraction de connaissances a partir des