Vous êtes sur la page 1sur 6

Weka_S2D : Systme de Surveillance de Diabtiques

TALEB ZOUGGAR Souad(*), ATMANI Baghdad(*)


Souad.taleb@gmail.com, atmani.baghdad@univ-oran.dz
(*) Equipe de recherche Simulation, Intgration et fouille de donnes (SIF)
Laboratoire dInformatique dOran (LIO), Universit dOran
BP : 1524 El MNaouer, 31000 Oran, Algrie
Mots clefs :
Veille scientifique et technologique, Apprentissage automatique, Classification, Arbres de dcision, Surveillance, Diabte
Keywords:
Scientific and technical observation, Machine learning, Classification, Decision trees, Monitoring, Diabetes
Palabras clave :
Escudriar cientfico y tecnolgico, Aprendizaje automtico, Clasificacin, rboles de decisin, Seguimiento, Diabetes

Rsum
Dans la communaut apprentissage il existe un grand nombre de mthodes base darbres de dcision, ce sont des mthodes dapprentissage inductif ddies la
classification. Dans ce papier nous proposons le logiciel Weka_S2D qui est bas essentiellement sur le logiciel de datamining Weka et intgre lalgorithme
ID3_improving (Induction dArbres de Dcision par une nouvelle Mesure de Distance) qui permet de faire de linduction darbres de dcision. Lalgorithme
ID3_improving utilise le mme principe de construction darbre que la mthode ID3, il permet de construire larbre par des segmentations successives jusqu
obtenir la partition la plus fine. Son originalit rside dans la simplicit de la mesure utilise pour le calcul de limportance dune variable ce qui permet de rduire la
complexit de calcul.
Weka_S2D sadresse deux types de publics. Dun ct, il exploite lenvironnement de fouille de donnes offert par la plateforme Weka qui le rend ainsi accessible
une utilisation de type charg dtudes sur des donnes relles. De lautre, du fait que les rgles gnres sont intelligibles, il se prte une utilisation directe
pour laide la dcision.
1 Introduction
Les mthodes de surveillances actuelles du diabte ne rpondant pas aux besoins des patients1 malgr que le cette surveillance se fait de diffrentes faons, il
ncessite gnralement des visites mdicales semestrielles, plusieurs tests de glycmie chaque jour, et la communication insuffisante entre les docteurs et les patients
ce qui peut induire du stress chez les patients avec un effet potentiellement ngatif sur lefficacit du traitement.
Le diabte de type 1 se diagnostique en gnral plus facilement car son dbut est brutal. Perte de poids soudaine, fatigue, les symptmes sont trs parlants et incitent
faire des tests. Par contre le type 2 apparat de faon sournoise, et est souvent diagnostiqu loccasion dune complication du diabte lui-mme. Il y a donc
frquemment un diagnostic tardif2 !
Daprs une tude rcente du moi de Mars 2010 du rseau de diabte algrien DIABCARE qui ciblera tous les patients prsentant un Diabte de Type 1 ou de Type
2, en Algrie il existe 2 500 000 de Diabtiques dont 86% sont des type 1 et 14% de type 2.
Pour la conception des systmes daide la dcision, la classification par apprentissage automatique, est souvent utilise. Plusieurs mthodes ont t misent au point
pour rsoudre ce problme [3][4][5]; parmi lesquelles, on retrouve les mthodes statistiques, base de rseaux de neurones, arbres de dcision ou graphes
dinduction [1][2][7]. Pour raliser la tache de surveillance des diabtiques nous proposons dans cet article dutiliser le principe des mthodes base darbres de
dcision qui sont des mthodes symboliques de lapprentissage inductif trs utilises dans le domaine de classification reconnue par leur proprit dintelligibilit,
lefficacit des algorithmes quelles prsentent et lexactitude et la prcision des rsultats fournis.
Nous proposons dans ce papier le logiciel Weka_S2D et en particulier lalgorithme ID3_improving pour la gnration darbres de dcision, ce nouvel algorithme
utilise le mme principe que la mthode base darbres de dcision ID3 [3] ; le partitionnement de lchantillon jusqu obtenir la partition la plus fine ou la plus
homogne. La diffrence rside dans la mesure de qualit de donnes utilise qui est de complexit rduite pour ID3_improving et fournit un modle de prdiction
avec des performances gales ou dpassant parfois celles des mthodes arborescentes existantes.
Le papier est organis de la manire suivante. Dans la section 2 on prsente le logiciel Weka_S2D, son fonctionnement avec une illustration de lenvironnement et
lapplication sous forme dune dmonstration logicielle. Pour terminer dans la section 3 nous concluons ce papier et prsentons les perspectives de recherche et
dveloppement associes.

2 Le logiciel Weka_S2D
WEKA_S2D a t dvelopp en Java (Eclipse 3.5.1) dans une architecture prtablie, plateforme de fouille de donnes WEKA [6] dans sa version 3.7. La
plateforme Weka contient un nombre important de mthodes de fouille divises en plusieurs familles.
Weka_S2D sadresse deux types de publics. Dun ct, il exploite lenvironnement de fouille de donnes offert par la plateforme Weka qui le rend ainsi accessible
une utilisation de type charg dtudes sur des donnes relles. De lautre, du fait que les rgles gnres sont comprhensibles, il se prte une utilisation
directe par les spcialistes du domaine pour amliorer la prise de dcision.
Dans la figure 1, nous prsentons larchitecture fonctionnelle de WEKA_S2D: qui comportent les tapes traditionnelles de prtraitement, traitement et validation du
modle.
Comme toute mthode de classification ID3_improving permet de gnrer ou induire un modle reprsentant des connaissances gnrales partir de donnes
lmentaires reprsentes dans un tableau appel chantillon dapprentissage.

1
http://www.epinex.com/FR/the-diabetes-problem.php
2
http://www.vivolta.com/diabete/diabete-diabetique-diagnostic-maladie-20091223448156.html
Notre chantillon dapprentissage [2], pour lequel un extrait est prsent sur le tableau 1, est une base relle compose dun ensemble de 1461 patients diabtiques et
de 10 descripteurs (variables exognes), pour chaque individu (patient) de la base il sagit de savoir sil est classifi comme insulinodpendant ou diabtique de type
1 ou non insulinodpendant ou diabtique de type 2. Les descripteurs sur lesquels on se base pour faire cette classification sont : lge qui est une variable discrtise
soit entre 15 et 30 ans ou suprieure 35 ans elle reprsente lge de dcouverte du diabte chez le patient, le mode de rvlation qui dtermine la faon dont le
diabte sest dclar chez un patient et il peut tre Ctose Diabtique Spontan, Ctose Diabtique avec Foyer Infectieux, Dsquilibre Glycmique ou Diabte
Dcouverte Rcente, nous avons aussi le poids du patient qui peut tre normal, obse, surcharge pondrale ou amaigrissement, lattribut infection virale prend lune
des valeurs oui ou non, lattribut statut qui dtermine sil y a un amaigrissement ou non, lattribut association qui dtermine que le diabte est en relation avec des
maladies auto-immunes ou pas, lattribut circonstance de dcouverte Dtermine dans quelles circonstances le diabte sest dclar chez le sujet et pour chaque
individu peut prendre lune des valeurs : Pieds Diabtique, Dcouverte Fortuite, Infection Bactrienne, Rtinopathie, Comas Hyper Osmolaire, Ctose Diabtique
Inaugurale ou Comas Ctosique, lattribut Asthnie qui dtermine lexistence dune asthnie ou pas, lattribut antcdent qui prend les valeurs antcdent familial,
personnel ou pas dantcdents, et enfin lattribut sexe.

Figure 1 : Architecture fonctionnelle de Weka_S2D.

Tableau 1 : Extrait de la base Diabte

Class Age Revelation_mode Poinds Infection_Virale


Nominal Nominal Nominal Nominal Nominal
Type_2 >35 G N Y
Type_2 other G N Y
Type_2 >35 G N Y
Type_1 15-30 I Ov N
Type_1 >35 I Ov Y
Type_1 >35 G Ov N
Type_2 >35 G N N
Les donnes sont charges sous forme dun tableau Variables/Classe, il est exig dutiliser des donnes au format .arff (Attribute Relation File Format), les
tapes de chargement sont les suivantes illustres sur la figure 2:
1- Cliquer sur le bouton Open file ,
2- Choisir la base dapprentissage,
3- Cliquer sur le bouton ouvrir du jfilechooser.

Figure 2 : Ouverture du fichier Diabte.arff.


Dans la figure 3 nous prsentons les tapes suivre pour construire le modle de classification des individus, on commence dabord par longlet Classify, pour
pouvoir choisir la mthode de classification parmi plusieurs familles de mthodes dapprentissage supervis ou non-supervis, dans notre cas la mthode
ID3_improving, que nous avons intgr dans Weka, se trouve dans le sous package trees.

Figure 3 : Choix de la mthode de classement et lancement de lapprentissage.


Aprs le choix de notre mthode de classification, il reste maintenant lancer la classification en cliquant sur le bouton START qui se trouve dans le mme onglet
comme illustr sur la figure 4. Les rsultats de classification apparaissent dans lditeur droite et la fin de lapprentissage, on peut visualiser arbre et rgles de
dcision comme prsent dans la figure 5.

Figure 4 : Rsultats de validation du modle construit.

Figure 5 : Visualisation de larbre et des rgles de dcision ID3_improving.


Les rgles sont valides par lalgorithme ID3_Improving mais cette base de rgles sera mise la disposition de lexpert mdecin pour la validation finale. On
remarque que le diabte de type 1 diabte insulino-dpendant est en relation directe avec les circonstances de dcouverte 6 et 7, par contre circonstance 2
donne le diabte de type2 diabte non insulinodpendant .
Lexistence de lamaigrissement chez un patient et association du diabte avec dautres maladies auto-immunes impliquent un diabte de type2.
3 Conclusion
Une surveillance rgulire des diabtiques optimise le traitement et permet de ragir efficacement en cas de dsquilibre. Trs impliquant au quotidien pour le
malade et sa famille, le diabte peut nanmoins savrer gratifiant car chaque point marqu contre la maladie est une garantie supplmentaire pour lavenir.
Nous avons prsent dans ce papier un outil de surveillance des diabtiques qui est base darbres de dcision ID3_Improving qui utilise le mme principe de
partitionnement de la mthode ID3 mais avec une mesure de qualit de partition plus simple et plus conomique en temps de calcul.
Comme perspective nous proposons dutiliser les graphes dinductions [7] qui sont une gnralisation des arbres de dcision o la prmisse des rgles de dcisions
est sous forme de disjonctions de conjonction ce qui va nous aider couvrir plusieurs cas spciaux de diabte qui ncessitent plusieurs examens pour pouvoir
identifier le type de diabte.

4 Bibliographie
[1] ATMANI B. et BELDJILALI B., Neuro-IG: A Hybrid System for Selection and Elimination of Predictor Variables and non Relevant Individuals. Informatica, Journal International,
Vol. 18, No 2 163186 (2007).
[2] ATMANI B. et BELDJILALI B., Knowledge Discovery in Database: Induction Graph and Cellular Automaton. Computing and Informatics Journal, Vol.26, No 2 171-197 (2007).
[3] QUINLAN J.R., Induction of Decision Trees, Machine Learning 1 81-106 (1986).
[4] RABASEDA S., RAKOTOMALALA R., Sebban M, Gnration automatique de connaissances par induction. Actes des 3mes rencontres de la socit francophone de classification
(1995) 45-46.
[5] RABASEDA S., RAKOTOMALALA R., ZIGHED D.A., Rules extracted automatically by induction. Proceeding of the 6th conference on information processing and management of
uncertainty (1996) 551-556.
[6] WITTEN I.H. et FRANK E., Data Mining: Practical Machine Learning Tools and Techniques (2nd edition). Morgan Kaufmann (2005).
[7] ZIGHED D.A., AURAY J.P., DURU G., SIPINA: Mthode et Logiciel. Lacassagne (1992).