Académique Documents
Professionnel Documents
Culture Documents
KEYWORDS:
1. Introduction
Un diagnostic mdical est le rsultat du raisonnement dun mdecin, dcision trs
souvent prise partir dinformations incertaines et/ou incompltes. De nombreuses
techniques dintelligence artificielle ont t appliques pour essayer de modliser ce
raisonnement [LAV 97, LAV 99]. Ainsi, [SZO 82] prsente lutilisation dtaille de
plusieurs systmes experts en mdecine. Citons, par exemple, des systmes base
de rgles comme MYCIN [SHO 74, BUC 84] et Internist-1/QMR (Quick Medical
Reference) [MIL 82].
En amont de ce raisonnement, il faut aussi tre capable de modliser ces informations incertaines et/ou incompltes. Certaines approches ont utilis des formalismes
comme la logique floue ([STE 97]) ou les fonctions de croyance de Dempster-Shafer.
Une autre consiste se placer dans le cadre de la thorie des probabilits, ce qui nous
amne tout naturellement aux rseaux baysiens (RB) proposs par Pearl [PEA 88]
dans les annes 80, retrouvs parfois sous le nom de systmes experts probabilistes.
Lutilisation des rseaux baysiens pose un certain nombre de questions mthodologiques :
comment choisir la structure du RB ?
comment reprsenter les densits de probabilits des variables continues ?
comment estimer les densits de probabilits ?
comment prendre en compte les donnes incompltes ou les variables latentes ?
comment faire de linfrence, i.e. calculer la probabilit de telle ou telle maladie
sachant certains symptmes ? , ...
Le but de cet article nest pas dexposer une mthode "rvolutionnaire" daide au
diagnostic mdical, ni de rpondre de manire exhaustive toutes ces questions. Nous
nous proposons de passer en revue la plupart des solutions quil est possible de mettre
en uvre, en illustrant certaines de ces techniques sur une tude de cas, un problme
de diagnostic de cancer de la thyrode.
2. Rseaux Baysiens et Diagnostic Mdical
2.1. Quelques questions mthodologiques
Les rseaux baysiens possdent de nombreux avantages (modlisation probabiliste de lincertitude, possibilit de raisonnement aussi bien dans le sens symptmesdiagnostic que dans le sens diagnostic-symptmes, ...) qui font deux des outils privilgis dans le cadre du diagnostic, notamment pour des problmes de diagnostic
mdical o ils ont t utiliss ds les annes 80 (cf. [KAP 00, SIE 00] pour une prsentation de quelques applications de RB dans le domaine mdical).
La mise en uvre dun RB pour modliser un tel problme est assez immdiate
lorsque celui-ci est simple (peu de variables, suffisamment de donnes et/ou dispo-
nibilit dun expert pour lapprentissage des probabilits). Ainsi, le classifieur naf
de Bayes, utilis depuis longtemps en reconnaissance des formes statistiques, peut
tre vu comme un rseau baysien trs simple dont toutes les variables sont discrtes,
avec lhypothse que tous les symptmes sont indpendants conditionnellement au
diagnostic. Mais se pose alors une question classique dans la communaut Machine
Learning : comment discrtiser les variables continues ?
Ce RB naf peut bnficier des apports de la communaut "rseaux baysiens" pour
contourner cette difficult, en faisant lhypothse que la densit de probabilit conditionnelle (CPD) est une gaussienne (RB naf mixte), ou un mlange de gaussiennes.
Un des inconvnients des RB nafs est le nombre lev de paramtres estimer
alors que, dans la plupart des cas, le nombre de donnes disponibles est faible. Pour
y faire face,il est possible de modliser les CPD par une fonction de type OU bruit.
Cest ainsi que QMR/DT, une des premires applications de ce type de modlisation
un problme de diagnostic mdical, a donn son nom par extension ce type de RB
(souvent appel directement QMR)
Les RB nafs ou de type QMR ont tous deux une structure simple deux niveaux
avec dun ct les symptmes, et de lautre les diagnostics. Dans la plupart des cas,
le problme rsoudre est plus complexe modliser et la connaissance de certaines
relations de causalit permet de construire un RB moins "naf". Cette structure peut
tre obtenue grce un expert du domaine, ou partir de donnes grce des mthodes
dapprentissage de structure.
Pour finir, il est aussi possible de modliser des tches de diagnostic encore plus
complexes, en utilisant des architectures mixtes (rseaux de neurones, arbres de dcision, rseaux baysiens, ...), les RB tant utiliss au mme niveau que les autres mthodes de classification, ou pour combiner efficacement les rsultats des classifieurs.
Nous ne dcrirons pas ces mthodes ici, mais nous conseillons la lecture de [SIE 01]
pour lutilisation dun RB pour la fusion de classifieurs pour le diagnostic mdical, et
de [LER 98] pour une illustration dun systme de diagnostic complexe (non mdical), utilisant des rseaux de neurones (pour la reconnaissance de symptmes partir
de donnes brutes et pour la prise en compte de lvolution temporelle) puis un rseau
baysien (pour le diagnostic final).
Aprs la phase de dfinition de la structure et du type des variables (discrtes,
continues CPD gaussiennes), il reste encore deux problmes rsoudre. Tout dabord,
comment estimer les probabilits conditionnelles correspondant la structure du RB
(si ce nest pas effectu en mme temps que lapprentissage de structure) ? Ensuite,
la dernire question linfrence, i.e. le calcul de la probabilit dun (ou plusieurs)
nud(s) du RB (gnralement, la variable diagnostic) conditionnellement un ensemble dobservations. Un certain nombre dalgorithmes dinfrence "exacte" fonctionnent efficacement pour la plupart des RB. Par contre, dans certains cas, le rseau
est trop complexe pour ces algorithmes, et il faudra utiliser des algorithmes dinfrence
"approche".
Cela nous permet de rcrire la loi jointe de la faon suivante, ce qui correspond
graphiquement la structure de la figure 2 p.13, applique un problme de dtection
de cancer de la thyrode.
Y
p(Xi |Diag)
[2]
p(X, Diag) = p(Diag)
i
[3]
Supposons que la variable Diag et les symptmes Xi soient binaires, de valeurs res et {xi et x
pectives {d et d}
i }. Pour estimer P , il faudra alors estimer 2n valeurs, ce
qui nest pas raliste en grande dimension et/ou avec peu de donnes. Lide est alors
de simplifier cette probabilit en faisant les hypothses suivantes :
il est possible de calculer facilement la probabilit suivante (probabilit que X i
cause Diag lorsque les autres variables Xj sont absentes) :
pi = p(d|
x1 , x
2 , ..., xi , ..., x
n )
[4]
le fait que Xi cause Diag est indpendant des autres variables Xj (pas deffet
mutuel des variables).
Le modle OU bruit (noisy-OR) permet destimer P par la formule suivante :
Y
P = p(Diag|X1 , X2 , ..., Xn ) = 1
(1 pi )
i|Xi Xp
[5]
problme donn, dassocier un score chaque rseau baysien. La plupart des scores
proposs dans la littrature sont dcomposables en deux termes : le premier, la vraisemblance p(D|, B), mesure ladquation du rseau baysien de structure B et de
paramtres aux donnes D. Le second terme va essayer de tenir compte de la complexit du modle laide, entre autres, du nombre de paramtres ncessaires pour
reprsenter les distributions de probabilits du rseau (o ri reprsente la taille de la
variable Xi ) :
X
Y
Dim(B) =
(ri 1)
rj
[6]
Xi
Xj pa(Xi )
Parmi les diffrents scores proposs, citons les critres AIC [AKA 70] et BIC
[SCH 78] dont les principes peuvent sappliquer aux rseaux baysiens :
ScoreAIC(B, D) = log p(D| M V , B) Dim(B)
[7]
1
ScoreBIC(B, D) = log p(D| M V , B) Dim(B) log N
2
[8]
o N est le nombre dexemples dans D et M V sont les paramtres obtenus par maximum de vraisemblance (cf. paragraphe 2.3).
On retrouve dans les quations 7 et 8 le principe du rasoir dOccam : quilibrer
la capacit bien modliser les donnes et garder un modle simple, repris dans les
travaux sur la rgularisation des rseaux de neurones [GIR 95].
Les autres scores existants sont soit des applications de mesures gnrales comme
la longueur de description minimale MDL [BOU 93, SUZ 99], soit des mesures spcifiques aux rseaux baysiens (Bayesian Mesure [COO 92], BDe [HEC 94], etc...).
La tche suivante consiste trouver le rseau qui donnera le meilleur score dans
lespace des RB. Une approche exhaustive est irralisable en pratique, cause de
la taille de lespace de recherche. Le nombre de structures possibles partir de n
variables, N S(n), est donn par la formule de rcurrence suivante [ROB 77], qui est
super-exponentielle (par exemple, N S(5) = 29281 et N S(10) = 4.2 10 18 ).
,
n = 0 ou 1
1
Pn
N S(n) =
[9]
i+1 n i(n1)
(1)
2
N
S(n
i),
n
>1
i=1
i
Pour rsoudre ce problme, un certain nombre dheuristiques ont t proposes
pour parcourir lespace des RB.
Arbre de recouvrement minimal
Il est tout dabord possible de se limiter lespace (beaucoup plus pauvre) des arbres.
Une mthode drive de la recherche de larbre de recouvrement de poids minimal
(minimum weight spanning tree ou MWST) a t propose par [CHO 68]. Elle peut
sappliquer directement la recherche de structure dun rseau baysien en fixant un
poids chaque arte potentielle Xi Xj de larbre, par exemple linformation mutuelle
entre les variables Xi et Xj tel que la prsent [CHO 68], ou encore la variation
du score lorsquon choisit Xj comme parent de Xi ([HEC 94]). Larbre non dirig
retourn par les algorithmes classiques tels que Kruskal ou Prim doit ensuite tre dirig
en choisissant arbitrairement un nud racine puis en parcourant et orientant larbre par
une recherche en profondeur.
Rseau baysien naf augment
Il est possible dallier la simplicit du rseau baysien naf avec la puissance descriptive dun RB plus gnral en rajoutant des dpendances directes entre les variables
(indpendantes conditionnellement la classe dans le modle naf). Parmi les mthodes simples pour augmenter le rseau naf, citons le Tree Augmented Naive Bayes
[KEO 99, FRI 97] qui sobtient en cherchant le meilleur arbre reliant les observations
(par lalgorithme MWST), puis en reliant toutes les observations la classe comme
pour un RB naf classique [GEI 92]. [SAC 02] utilise diffrents classifieurs de type
naf augment pour linterprtation dimages cardiaques SPECT.
Ordonnancement des nuds
Dautres mthodes limitent lespace de recherche en fixant un ordre de parcours des
nuds, puis en cherchant la meilleure configuration possible de parents pour chaque
nud parmi les nuds suivants de la liste. Parmi ces mthodes, citons celle de rfrence, K2 (avec lutilisation du score Bayesian Mesure) [COO 92] et des variantes
comme K3 [BOU 93] (avec un score MDL), SGO [JOU 00] (avec une heuristique
supplmentaire parcourant les numrations possibles).
[WU 01] propose dutiliser un RB pour la prdiction de survie en cas daccident
grave. Leur problme est assez reprsentatif des problmes de diagnostic mdical :
peu de donnes (326 exemples) avec un nombre important de variables (29) et des
donnes incompltes. Dans cette approche, les auteurs commencent tout dabord par
un RB construit par un expert du domaine, puis par un RB construit par un algorithme
proche de K2 prenant en compte les donnes manquantes. Ils utilisent ensuite les
connaissances de lexpert pour dterminer une srie de contraintes simples sur lordonnancement des nuds (ordonnancement ncessaire K2) et obtiennent alors un
troisime rseau plus intressant que les deux premiers.
Recherche gloutonne et algorithmes gntiques
Dautres mthodes dapprentissage de structure prsentent une srie doprateurs (ajout
darc, suppression, inversion) et effectuent une recherche gloutonne (greedy search
[CHI 95a]) avec laide ventuelle de certaines heuristiques pour faciliter la recherche
(algorithmes SG et SG+ [JOU 00]), ou utilisent des algorithmes gntiques [LAR 96].
[SIE 98] dveloppe un systme de prdiction de survie ( 1, 3 et 5 ans) aprs
dtection dun mlanome malin (cancer de la peau) en utilisant un apprentissage de
structure bas sur les algorithmes gntiques. Ce RB possde 6 nuds (5 variables
et un diagnostic) et les donnes mesures sur 8 ans contiennent 311 exemples. Ce
systme obtient de meilleurs rsultats quun classifieur de Bayes naf. Il faut noter que
les auteurs concluent sur limportance dincorporer ces mthodes de construction
automatique des connaissances dexperts sur la structure obtenir.
pour tout problme dapprentissage, diffrentes techniques sont possibles selon la disponibilit de donnes pour le problme traiter, ou dexperts du domaine. On peut
classer ces techniques en deux grandes familles : apprentissage partir de donnes
(compltes ou non), par des approches statistiques classiques ou baysiennes, et acquisition de connaissances (avec un expert du domaine). Nous nous restreindrons ici
aux RB variables discrtes, les principes voqus pouvant se gnraliser aux RB
conditionnels gaussiens ([LAU 92]).
2.3.1. Apprentissage partir de donnes
Lestimation de distributions de probabilits (paramtriques on non) partir de
donnes est un sujet trs vaste et complexe. Nous dcrirons ici les mthodes les plus
utilises dans le cadre des rseaux baysiens, selon que les donnes notre disposition
sont compltes ou non, en conseillant la lecture de [HEC 98, KRA 98, JOR 98a] pour
plus dinformations.
Dans le cas o toutes les variables sont observes, la mthode la plus simple et
la plus utilise est lestimation statistique. Il sagit destimer la probabilit dun vnement par la frquence dapparition de lvnement dans la base de donnes. Cette
approche (appele maximum de vraisemblance (MV)) nous donne alors :
Ni,j,k
MV
p(Xi = xk |pa(Xi ) = xj ) = i,j,k
=P
k Ni,j,k
[10]
n YY
r
Y
(i,j,k )i,j,k
[11]
i=1 j k=1
[12]
Dans la plupart des applications, les bases dexemples sont trs souvent incompltes. Certaines variables ne sont observes que partiellement ou mme jamais. La
mthode destimation de paramtres avec des donnes incompltes la plus couramment utilise est fonde sur lalgorithme itratif Expectation-Maximisation (EM) propos par Dempster [DEM 77] et appliqu aux RB dans [COW 99, NEA 98].
10
Ni,j,k
= E[Ni,j,k ] =
N
X
(t)
p(Xi = xk |pa(Xi ) = xj , X(l)
v , )
[13]
l=1
Cette tape revient faire une srie dinfrences (exactes ou approches) en utilisant
les paramtres courants du rseau, et remplacer les valeurs manquantes par les
probabilits obtenues par infrence.
Maximisation : en remplaant les Ni,j,k manquants par leur valeur moyenne
calcule prcdemment, il est maintenant possible de calculer de nouveaux paramtres (t+1) par maximum de vraisemblance :
Ni,j,k
(t+1)
i,j,k = P
k Ni,j,k
[14]
Lalgorithme EM peut aussi sappliquer dans le cadre baysien. Pour lapprentissage des paramtres, il suffit de remplacer le maximum de vraisemblance de ltape
M par un maximum posteriori. Cela nous donne donc :
(t+1)
i,j,k = P
Ni,j,k
+ i,j,k 1
k (Ni,j,k + i,j,k 1)
[15]
Il existe de nombreux travaux sur lextraction de probabilits (cf. [REN 01]). Lorsquun expert doit dterminer tout un ensemble de probabilits, il faut tenir compte des
biais ventuels parfois subconscients (un expert va souvent surestimer la probabilit de
russite dun vnement le concernant plus directement, etc ...). Il est possible de fournir cet expert du domaine des outils reliant des notions qualitatives et quantitatives
100
probable
85
attendu
75
50-50
50
incertain
11
25
improbable
15
impossible
2.4. Infrence
Linfrence consiste calculer la probabilit dun (ou plusieurs) nud(s) du rseau
baysien conditionnellement un ensemble dobservations. Un certain nombre dalgorithmes permet, en thorie, de faire ce calcul de manire exacte. Nous conseillons la
lecture de [PEA 88] et [JEN 96] pour une description des algorithmes dinfrence les
plus couramment utiliss. Ces mthodes sont malheureusement trop lourdes utiliser
pour des rseaux de trs grande taille, ou fortement connects. Pour essayer de rsoudre ces problmes, des algorithmes dinfrence approche ont t mis au point, par
12
13
diag
y
1
y
2
ruru{
++44>F>FF
ruru{ru{{{
++ 44>4>>FFF
r
++ 4 >> FF
rruu {
rruru{u{{{
++ 444 >>>FFF
r
r
u
rruuu{{{
++ 44 >> FFF
r
rruuu {{
++ 44 >>> FFF
r
r u {{
r
44 >> FF
r
u
+
r uu {{
F#
r
r
{
}
u
z
r
y
4
...
13
14
15
16
17
18
#
19
$
20
21
836 11 65
6
27 27
= 0.9
Tableau 2. Rseau baysien naf discret : matrices de confusion (en test) pour deux
seuils de rejet. Les lignes correspondent la classe relle (sain, malade), les colonnes
la dcision prise suivant les rsultats du classifieur (sain, malade et rejet).
3.2. Rseau baysien naf discret
Commenons par mettre en uvre un RB naf discret (fig. 2) en discrtisant les
variables continues par une des mthodes proposes par [El- 00]. Les CPD sont estimes partir des exemples dapprentissage. Le RB naf est ensuite utilis pour calculer
p(Diag|X) et associ une rgle de dcision avec rejet : si max(p(Diag|X)) < ,
alors dcision = rejet, sinon dcision = argmax(p(Diag|X)). La table 2 nous
donne les matrices de confusion correspondant deux seuils de rejet.
Il est galement possible dvaluer la qualit du classifieur obtenu en traant la
courbe ROC (pourcentage dexemples non rejets bien classs en fonction du pourcentage des exemples rejets). La figure 3 nous donne la courbe ROC du rseau naf
discret (courbe fonce en trait plein). Elle nous indique que, sans rejet, le rseau naf
discret donne 95.7% de bonne classification. De plus, pour tre sur dobtenir un pourcentage de bien classs de 99% il faudra rejeter 33.5% des exemples (et les traiter
manuellement ou avec un autre classifieur).
3.3. Rseau baysien naf mixte
Remplaons maintenant la discrtisation des variables pour une hypothse supplmentaire (modlisation des CPD continues par des gaussiennes) pour obtenir le RB
naf mixte de la figure 4. Ce rseau, qui possde un nombre rduit de paramtres par
rapport au RB naf discret, nous donne le mme pourcentage de bonne classification
(95.7%), avec une meilleure courbe ROC (cf. figure 3, courbe grise en trait plein). En
14
99.5
10%
99
18%
20%
33%
98.5
98
97.5
Performances sans rejet
97
96.8% (MWST)
96.5
96.4% (TAN)
BN discret
MWST
TAN
BN mixte
96
95.7% (BN discret et mixte)
95.5
10
20
30
40
50
60
70
80
90
100
Figure 3. Courbe ROC pour diffrents rseaux baysiens (RB naf discret, RB naf
mixte, RB obtenus par MWST et TAN).
diag
ruz ++55?G?GG
r
u
ru z
5?
rruruzz +++ 55??G?GGG
ruruuzzz
r
++ 55 ???GGG
r
ruruuuzzz
r
++ 555 ?? GGG
rruuu zzz
r
++ 55 ??? GGG
r
rr uuu zzz
r
++ 55 ??? GGG
r
rr uuuu zzz
GG
5
?
r
$
r
$
}z
#
x
x
xr zu
...
1 2 3 4
13 14
15
16
17 18 19 20 21
89:;
?>=<
@ABC
GFED @ABC
GFED @ABC
GFED @ABC
GFED @ABC
GFED
Figure 4. Rseau baysien naf mixte. Les variables continues sont reprsentes par
des ronds.
effet, pour tre sr davoir un pourcentage de bien classs de 99% il faut maintenant
rejeter seulement 18.2% des exemples (contre 33.5% pour le RB naf discret).
3.4. Arbre de recouvrement maximal et rseau naf augment
Larbre de recouvrement maximal (MWST) [CHO 68] utilis ici sur les donnes
discrtes prcdentes avec le score BIC de lquation 8 nous donne larbre orient
de la figure 5. Malgr la restriction assez forte sur lespace de recherche (passage de
lespace des graphes reliant les variables lespace des arbres), le rseau baysien
obtenu donne des rsultats meilleurs que le rseau baysien naf discret : 96.8% de
15
diag
15
13
11
12
10
19
20
16
18
14
17
21
Figure 5. Rseau baysien obtenu par lalgorithme MWST (La racine choisie pour
lorientation de larbre est le nud diagnostic).
bonne classification sans rejet (contre 95.7% pour le naf discret), et un pourcentage
de bonne classification de 99% pour un taux de rejet de 10% (bien meilleur que pour
les deux rseaux baysiens nafs, cf. la courbe fonce en pointill de la figure 3).
Dans lapproche MWST, la connaissance a priori de la variable qui sert la classification nentre pas en jeu, la diffrence de la structure propose par le rseau baysien
naf. Lapproche TAN (Tree Augmented Naive bayes) permet de mlanger les deux,
en cherchant le meilleur arbre reliant les observations et en conservant la structure
reliant la classe aux observations. Le rseau ainsi obtenu donne des performances en
test quivalentes (96.4%) mais avec des performances de rejet moins bonnes (20.5%
de points rejets pour arriver 99% de bonne classification, cf. la courbe grise en
pointill de la figure 3).
16
diag
10
11
12
13
14
17
15
16
18
20
19
21
diag
12
15
18
20
14
16
7
1
11
5
3
6
4
13
17
10
19
21
Figure 7. Rseau baysien obtenu par lalgorithme K2+T avec lordre dnumration
fourni par MWST.
17
100
99.5
7.1%
99
10%
98.5
98
97.5
Performances sans rejet
97
96.8% (MWST)
96.5
96.3% (K2)
MWST
K2
K2+T
GS
GS+T
96.2% (GS+T)
96.1% (GS)
95.9% (K2+T)
96
95.5
10
20
30
40
50
60
pourcentage de points rejets
70
80
90
100
Figure 8. Courbe ROC pour diffrents rseaux baysiens (RB obtenus par MWST, K2,
K2+T, GS et GS+T).
tage de bien classs de 99% il faut maintenant rejeter 7.1% des exemples (contre 33%
et 10% pour le RB naf et pour larbre obtenu avec MWST).
Notons que le rsultat de lalgorithme K2 dpend fortement de lordonnancement
initial des nuds. Un ordre diffrent aurait pu donner des rsultats trs mauvais ou
ventuellement meilleurs ! Pour rsoudre ce problme dinitialisation, nous avons propos dans [FRA 03] dutiliser lordonnancement des nuds fourni par lalgorithme
MWST pour initialiser lalgorithme K2. Cette variante de K2 appelle K2+T nous
donne le rseau baysien de la figure 7 et un pourcentage de bonne classification en
test de 95.9%. La courbe ROC obtenue par K2+T est sensiblement la mme que celle
obtenue par K2 ; par consquent nous avons russi obtenir un RB donnant des performances quivalentes, mais en nous affranchissant du problme dinitialisation.
3.6. Recherche gloutonne, algorithme GS
Lalgorithme GS (recherche gloutonne, Greedy Search) permet de lever la restriction sur lordre des nuds pour le parcours de lespace des structures possibles. Une
srie doprateurs (ajout, suppression et inversion darc) dfinit le voisinage dune
structure fixe. Il suffit alors de rechercher une structure plus intressante parmi le
voisinage, et ditrer la recherche jusqu convergence du critre de score [CHI 95a].
En partant dune initialisation vide (structure sans arc), cette mthode nous donne
le rseau baysien de la figure 9. Les performances en classification sont quivalentes
18
12
1
18
diag
15
20
4
13
17
16
2
19
3
11
21
10
14
diag
12
15
18
20
7
1
2
16
11
13
3
10
14
19
17
21
Figure 10. Rseau baysien obtenu par lalgorithme Greedy Search, avec une initialisation fournie par MWST.
19
celles des rseaux obtenus par K2 et K2+T (96.1% de bonne classification et un taux
de rejet de 7.5% pour obtenir des performances en test de 99%).
La vitesse de convergence de ce genre de mthode dpend fortement de la structure utilise au dpart. Comme pour K2 et K2+T, nous avons propos dans [FRA 03]
dutiliser cette fois-ci le graphe fourni par lalgorithme MWST pour initialiser lalgorithme GS. Cette variante appele GS+T nous fournit, avec environ deux fois moins
de calculs, le rseau baysien de la figure 10 qui possde des performances du mme
ordre que les autres mthodes (96.2% de bonne classification et 7.2% de rejet pour
obtenir des performances en test de 99%).
3.7. Algorithme EM structurel
Dans toutes les mthodes prcdentes, le problme des donnes manquantes (variables partiellement observes) tait contourn en rajoutant une modalit supplmentaire (variable non mesure) aux variables concernes.
Une manire plus formelle de rsoudre le problme est dutiliser le principe de lalgorithme EM de [DEM 77] lapprentissage de structure. Lalgorithme itratif SEM
(Structural EM) propos par [FRI 98] combine un algorithme de type Greedy Search
pour dfinir le voisinage de la structure courante, et lalgorithme EM pour valuer
les paramtres et le score de tous les rseaux de ce voisinage, et choisir le meilleur
pour litration suivante. Cet algorithme souffre encore de problmes dinitialisation
qui font quil est souvent utile de lexcuter plusieurs fois pour viter de tomber dans
des minima locaux de trs mauvaise qualit. Malgr cela, il est possible darriver
des solutions intressantes obtenant un taux de bonne classification proche des autres
mthodes.
4. Conclusion
Dans cet article, nous avons dress un panorama dalgorithmes classiquement utiliss pour la mise en uvre de rseaux baysiens dans le cadre du diagnostic, et plus
particulirement du diagnostic mdical. Pour aborder plus concrtement cette tche,
nous avons appliqu un certain nombre dalgorithmes sur un problme de dtection
du cancer de la thyrode. Le tableau 3 rsume les performances obtenues avec plusieurs mthodes dapprentissage de structure, avec ou sans discrtisation des variables
continues. Cette tude nous a permis daborder certaines questions mthodologiques
simples mais qui se posent lors de toutes les applications :
comment reprsenter les densits de probabilits des variables continues ? faut-il
discrtiser ? reprsenter les CPD continues par des gaussiennes ?
Lutilisation dune CPD gaussienne simple peut poser des problmes si la distribution est bimodale, et lutilisation de mlanges de gaussiennes pose dautres difficults comme la dtermination du nombre de gaussiennes utiliser. De plus, certaines
mthodes dapprentissage de structure ne peuvent sutiliser quavec des variables dis-
20
Intervalle de confiance
[94.2% 96.9%]
[94.2% 96.9%]
[95.4% 97.8%]
[95.0% 97.5%]
[94.9% 97.4%]
[94.4% 97.0%]
[94.6% 97.2%]
[94.7% 97.3%]
Rejet (/ Perf=99%)
33.5%
18.2%
10%
20.5%
7.1%
7.1%
7.5%
7.3%
crtes. Dun autre ct, le nombre de paramtres estimer est souvent plus petit dans
le cas conditionnel gaussien, ce qui permet dobtenir de meilleurs rsultats.
comment choisir la structure du RB ? faut-il utiliser un RB naf, ou essayer de
trouver une meilleure structure ?
Lutilitation dun rseau baysien naf permet souvent dobtenir de bons rsultats
un moindre cot, mais est rapidement surclasse par MWST, mthode presque aussi
simple. Par contre, si le nombre de donnes disponibles est important ou avec laide
dun expert, il est possible dobtenir une structure codant plus finement le problme.
Les perspectives sont nombreuses, surtout au niveau de lapprentissage de structure et plus spcifiquement lapprentissage dans lespace des quivalents de Markov
et lapplication de lalgorithme SEM dans le mme espace. Il reste aussi proposer
des mthodes permettant dincorporer automatiquement des connaissances a priori
(mta-structures, connaissances dexperts, ...) pour faciliter la recherche de la structure et amliorer la convergence de mthodes comme la recherche gloutonne ou SEM.
Une autre voie de recherche concerne les rseaux baysiens temporels qui offrent un
cadre idal pour la prise en compte du temps dans le diagnostic. Pour finir, il pourrait
tre intressant dessayer de modliser lincertain avec un autre formalisme que les
probabilits, en utilisant par exemple la thorie de Dempster-Schafer.
Remerciements
Les exprimentations effectues dans cet article ont t ralises avec BNT, toolbox gratuite pour Matlab [MUR 01] et le package Structural Learning que nous distribuons sur le site internet franais de la toolbox (http ://bnt.insa-rouen.fr).
21
5. Bibliographie
[AKA 70] A KAIKE H., Statistical Predictor Identification ,
vol. 22, 1970, p. 203-217.
[AUV 02] AUVRAY V., W EHENKEL L., On the Construction of the Inclusion Boundary
Neighbourhood for Markov Equivalence Classes of Bayesian Network Structures , DAR WICHE A., F RIEDMAN N., Eds., Proceedings of the 18th Conference on Uncertainty in
Artificial Intelligence (UAI-02), S.F., Cal., 2002, Morgan Kaufmann Publishers, p. 2635.
[BOU 93] B OUCKAERT R., Probabilist network construction using the Minimum Description Length principle , rapport, 1993, Departement of computer science, Utrech university,
Netherlands.
[BUC 84] B UCHANAN B., S HORTLIFFE E. H., Rule-Based Expert Systems : The MYCIN Experiments of the Stanford Heuristic Programming Project, Addison Wesley, 1984.
[CAU 00] C AU D., M UNTEANU P., Efficient Learning of Equivalence Classes of Bayesian
Networks , Proceedings of the 4th European Conf. on Principles and Practice of Knowledge Discovery in Databases, PKDD, Lyon, 2000, p. 96-105.
[CHI 95a] C HICKERING D., G EIGER D., H ECKERMAN D., Learning Bayesian networks :
Search methods and experimental results , Proceedings of Fifth Conference on Artificial
Intelligence and Statistics, 1995, p. 112128.
[CHI 95b] C HICKERING D. M., A Transformational Characterization of Equivalent Bayesian Network Structures , B ESNARD , P HILIPPE, H ANKS S., Eds., Proceedings of the 11th
Conference on Uncertainty in Artificial Intelligence (UAI95), San Francisco, CA, USA,
aot 1995, Morgan Kaufmann Publishers, p. 8798.
[CHI 96] C HICKERING D. M., Learning Equivalence Classes of Bayesian Network Structures , H ORVITZ E., J ENSEN F., Eds., Proceedings of the 12th Conference on Uncertainty
in Artificial Intelligence (UAI-96), San Francisco, aot 14 1996, Morgan Kaufmann Publishers, p. 150157.
[CHI 02] C HICKERING D. M., Learning equivalence classes of bayesian-network structures , Journal of machine learning research, vol. 2, 2002, p. 445-498.
[CHO 68] C HOW C., L IU C., Approximating discrete probability distributions with dependence trees , IEEE Transactions on Information Theory, vol. 14, no 3, 1968, p. 462-467.
[COO 92] C OOPER .G, H ERSOVITS .E, A Bayesian Method for the Induction of Probabilistic
Networks from Data , Maching Learning, vol. 9, 1992, p. 309-347.
[COW 99] C OWELL R. G., DAWID A. P., L AURITZEN S. L., S PIEGELHALTER D. J., Probabilistic Networks and Expert Systems, Statistics for Engineering and Information Science,
Springer-Verlag, 1999.
[DEM 77] D EMPSTER A., L AIRD N., RUBIN D., Maximum Likelihood from Incompete
Data Via the EM Algorithm , journal of the Royal Statistical Society, vol. B 39, 1977,
p. 1-38.
[DIE 93] D IEZ F. J., Parameter adjustement in Bayes networks. The generalized noisy OR
gate , Proceedings of the 9th Conference on Uncertainty in Artificial Intelligence, Washington D.C., 1993, Morgan Kaufmann, San Mateo, CA, p. 99105.
[DOU 95] D OUGHERTY J., KOHAVI R., S AHAMI M., Supervised and Unsupervised Discretization of Continuous Features , International Conference on Machine Learning, 1995,
p. 194-202.
22
[DRU 00] D RUZDEL M., VAN DER G AAG L., H ENRION M., J ENSEN F., Building Probabilistic Networks : Where Do the Numbers Come From ? Guest Editors Introduction ,
IEEE Transactions on Knowledge and Data Engineering, vol. 12, 2000.
[El- 00] E L -M ATOUAT F., C OLOT O., VANNOORENBERGHE P., L ABICHE J., From continous to discrete variables for baysian network classifiers , Conference on Systems, Man
and Cybernetics, IEEE-SMC, Nashville, USA, 2000.
[FRA 03] F RANCOIS O., L ERAY P., Etude comparative dalgorithmes dapprentissage de
structure dans les rseaux baysiens , Proceedings of RJCIA 2003, plateforme AFIA
2003, Laval, France, 2003.
[FRI 97] F RIEDMAN N., G EIGER D., G OLDSZMIDT M., Bayesian Network Classifiers ,
Machine Learning, vol. 29, no 2-3, 1997, p. 131-163.
[FRI 98] F RIEDMAN N., The Bayesian Structural EM Algorithm , C OOPER G. F., M ORAL
S., Eds., Proceedings of the 14th Conference on Uncertainty in Artificial Intelligence (UAI98), San Francisco, juillet 2426 1998, Morgan Kaufmann, p. 129138.
[GAA 02] DER G AAG L. V., R ENOOIJ S., W ITTEMAN C., A LEMAN B., TAAL B., Probabilities for a probabilistic network : a case study in oesophageal cancer , Artificial
Intelligence in Medicine, vol. 25, no 2, 2002, p. 123-148.
[GEI 92] G EIGER D., An Entropy-based Learning Algorithm of Bayesian Conditional
Trees , Uncertainty in Artificial Intelligence : Proceedings of the Eighth Conference
(UAI-1992), San Mateo, CA, 1992, Morgan Kaufmann Publishers, p. 92-97.
[GIR 95] G IROSI F., J ONES M., P OGGIO T., Regularization Theory and Neural Networks
Architectures , Neural Computation, vol. 7, no 2, 1995, p. 219-269.
[HEC 92] H ECKERMAN D., NATHWANI B., An Evaluation of the Diagnostic Accurency of
Pathfinder , Comput Biomed Res, vol. 25, 1992, p. 56-74.
[HEC 94] H ECKERMAN D., G EIGER D., C HICKERING M., Learning Bayesian networks :
The combination of knowledge and statistical data , DE M ANTARAS R. L., P OOLE D.,
Eds., Proceedings of the 10th Conference on Uncertainty in Artificial Intelligence, San Francisco, CA, USA, juillet 1994, Morgan Kaufmann Publishers, p. 293301.
[HEC 98] H ECKERMAN D., A Tutorial on Learning with Bayesian Network , J ORDAN
M. I., Ed., Learning in Graphical Models, Kluwer Academic Publishers, Boston, 1998.
[HEN 89] H ENRION M., Some Practical Issues in Constructing Belief Networks , K ANAL
L. N., L EVITT T. S., L EMMER J. F., Eds., Uncertainty in Artificial Intelligence 3, vol. 8
de Machine Intelligence and Pattern Recognition, p. 161174, North-Holland, Amsterdam,
1989.
[JAA 99] JAAKKOLA T., J ORDAN M., Variational Methods and the QMR-DT Database ,
Journal of Articial Intelligence, vol. 10, 1999, p. 291-322.
[JEN 96] J ENSEN F., Introduction to Bayesian Networks, Springer Verlag, 1996.
[JOR 98a] J ORDAN M. I., Learning in Graphical Models, Kluwer Academic Publishers, Dordecht, The Netherlands, 1998.
[JOR 98b] J ORDAN M. I., G HAHRAMANI Z., JAAKKOLA T. S., S AUL L., An Introduction
to Variational Methods for Graphical Models , J ORDAN M. I., Ed., Learning in Graphical
Models, Kluwer Academic Publishers, Boston, 1998.
[JOU 00] J OUFFE L., M UNTEANU P., Smart-Greedy+ : Apprentissage hybride de rseaux
baysiens , Colloque francophone sur lapprentissage, CAP, St. Etienne, juin 2000.
23
[KAP 00] K APPEN H., W IEGERINCK W., TER B RAAK E., Decision support for medical
diagnosis , M EIJ J., Ed., Dealing with the data flood. Mining data, text and multimedia,
The Hague : STT/Bewetong (Study centre for Technology Trends, 65)., 2000.
[KAP 02] K APPEN H., The cluster variation method for approximate reasoning in medical
diagnosis , NARDULLI G., S TRAMAGLIA S., Eds., Modeling Bio-medical signals, WorldScientic, 2002.
[KEO 99] K EOGH E., PAZZANI M., Learning Augmented Bayesian Classifiers : A Comparison of Distribution-based and Classification-based Approaches , Proceedings of the
Seventh International Workshop on Artificial Intelligence and Statistics, 1999, p. 225-230.
[KRA 98] K RAUSE P. J., Learning Probabilistic Networks , 1998.
[LAR 96] L ARRANAGA P., K UIJPERS C., M URGA R., Y URRAMENDI Y., Learning Bayesian Network Structures by searching the best order ordering with genetic algorithms ,
IEEE Transactions on System, Man and Cybernetics, vol. 26, 1996, p. 487-493.
[LAU 92] L AURITZEN S., Propagation of Probabilistics, Means and Variances in Mixed
Graphical Association Models , Journal of the American Statistical Association, vol. 87,
1992, p. 1098-1108.
[LAV 97] L AVRAC N., K ERAVNOU E., Z UPAN B., Intelligent Data Analysis in Medicine and
Pharmacology, Kluwer, 1997.
[LAV 99] L AVRAC N., Selected techniques for data mining in medicine , Artificial Intelligence in Medicine, vol. 16, no 1, 1999, p. 3-23.
[LEP 92] L EPAGE E., AL ., Systme Daide la Dcision Fond sur un Modle de Rseau
Baysien Application la Surveillance Transfusionnelle , Informatique et sant, vol. 5,
1992, p. 76-87.
[LER 98] L ERAY P., Apprentissage et Diagnostic de Systemes Complexes : Rseaux de Neurones et Rseaux Bayesiens. Application La Gestion En Temps Rel Du Trafic Tlphonique Franais, PhD thesis, Universit Paris 6, 1998.
[MID 91] M IDDLETON B., S HWE M., H ECKERMAN D., H ENRION M., H ORVITZ E., L EH MANN H., C OOPER G., Probabilistic diagnosis using a reformulation of the INTERNIST1/QMR knowledge base : Part II. Evaluation of diagnostic performance , SIAM Journal
on Computing, vol. 30, 1991, p. 256267.
[MIL 82] M ILLER R., P OPLE H., M YERS J., INTERNIST-1, An Experimental Computerbased Diagnostic Consultant for General Internal Medicine , N Engl J Med, vol. 307,
1982, p. 468-476.
[MUN 01] M UNTEANU P., B ENDOU M., The EQ Framework for Learning Equivalence
Classes of Bayesian Networks , Proceedings of the First IEEE International Conference
on Data Mining, IEEE ICDM, 2001.
[MUR 01] M URPHY K., The BayesNet Toolbox for Matlab ,
Statistics : Proceedings of Interface, vol. 33, 2001.
[NEA 98] N EAL R. M., H INTON G. E., A View of the EM algorithm that justifies incremental, sparse and other variants , J ORDAN M. I., Ed., Learning in Graphical Models,
Kluwer Academic Publishers, Boston, 1998.
[ONI 00] O NISKO A., D RUZDZEL M. J., WASYLUK H., Learning Bayesian network parameters from small data sets : Application of Noisy-OR gates , Working Notes of the
Workshop on Bayesian and Causal Networks : From Inference to Data Mining, 12th European Conference on Artificial Intelligence (ECAI-2000), Berlin, Germany, 2000.
24
[PEA 86] P EARL J., Fusion, Propagation, and Structuring in Belief Networks , Artificial
Intelligence, vol. 29, 1986, p. 241-288.
[PEA 88] P EARL J., Probabilistic Reasoning in Intelligent Systems : Networks of Plausible
Inference., Morgan Kaufmann, 1988.
[PEA 91] P EARL J., V ERMA T. S., A Theory of Inferred Causation , A LLEN J. F., F IKES
R., S ANDEWALL E., Eds., KR91 : Principles of Knowledge Representation and Reasoning,
San Mateo, California, 1991, Morgan Kaufmann, p. 441452.
[PEA 00] P EARL J., Causality : Models, Reasoning, and Inference, Cambridge University
Press, Cambridge, England, 2000.
[PRA 94] P RADHAN M., P ROVAN G., M IDDLETON B., H ENRION M., Knowledge Engineering for Large Belief Networks , Proceedings of the Tenth Annual Conference on Uncertainty in Artificial Intelligence (UAI94), San Francisco, CA, 1994, Morgan Kaufmann
Publishers, p. 484490.
[QUI 86] Q UINLAN J., Induction of decision trees , Machine Learning, vol. 1, 1986,
p. 81-106.
[REN 01] R ENOOIJ S., Probability Elicitation for Belief Networks : Issues to Consider ,
Knowledge Engineering Review, vol. 16, no 3, 2001, p. 255-269.
[ROB 77] ROBINSON R. W., Counting unlabeled acyclic digraphs , L ITTLE C. H. C.,
Ed., Combinatorial Mathematics V, vol. 622 de Lecture Notes in Mathematics, Berlin,
1977, Springer, p. 2843.
[SAC 02] S ACHA J., G OODENDAY L., C IOS K., Bayesian learning for cardiac SPECT
image interpretation , Artificial Intelligence in Medecine, vol. 26, 2002, p. 109-143.
[SCH 78] S CHWARTZ G., Estimating the dimension of a model , The Annals of Statistics,
vol. 6, no 2, 1978, p. 461-464.
[SHO 74] S HORTLIFFE E. H., MYCIN : A Rule-Based Computer Program for Advising Physicians Regarding Antimicrobial Therapy Selection, PhD thesis, Stanford Artificial Intelligence Laboratory, Stanford, CA, octobre 1974.
[SHW 91] S HWE M., M IDDLETON B., H ECKERMAN D., H ENRION M., H ORVITZ E., L EH MANN H., C OOPER G., Probabilistic diagnosis using a reformulation of the INTERNIST1/QMR knowledge base : Part I. The probabilistic model and inference algorithms , SIAM
Journal on Computing, vol. 30, 1991, p. 241250.
[SIE 98] S IERRA B., L ARRANAGA P., Predicting survival in malignant skin melanoma using
Bayesian networks automatically induced by genetic algorithms. An empirical comparison
between different approaches , Artificial Intelligence in Medicine, vol. 14, no 1-2, 1998,
p. 215-230.
[SIE 00] S IERRA B., I NZA I., L ARRANAGA P., Medical Bayes Networks , Lecture Notes
in Computer Science, vol. 1933, 2000, p. 4-14, Springer-Verlag.
[SIE 01] S IERRA B., S ERRANO N., L ARRANAGA P., P LASENCIA E. J., I NZA I., J IMENEZ
J. J., R EVUELTA P., M ORA M. L., Using Bayesian networks in the construction of a
bi-level multi-classifier. A case study using intensive care unit patients data , Artificial
Intelligence in Medicine, vol. 22, no 3, 2001, p. 233-248.
[SPI 93] S PIRTES P., G LYMOUR C., S CHEINES R., Causation, prediction, and search,
Springer-Verlag, 1993.
25
[SPI 00] S PIRTES P., G LYMOUR C., S CHEINES R., Causation, Prediction, and Search, The
MIT Press, 2 dition, 2000.
[SRI 93] S RINIVAS S., A Generalization of the Noisy-Or Model , H ECKERMAN D., M AM DANI A., Eds., Proceedings of the 9th Conference on Uncertainty in Artificial Intelligence,
San Mateo, CA, USA, juillet 1993, Morgan Kaufmann Publishers, p. 208218.
[STE 97] S TEIMANN F., Fuzzy set theory in medicine , Artificial Intelligence in Medicine,
vol. 11, no 1, 1997, p. 1-7.
[SUZ 99] S UZUKI J., Learning Bayesian Belief Networks Based on the MDL Principle :
An Efficient Algorithm Using the Branch and Bound Technique , IEICE Transactions on
Information and Systems, vol. E82-D, no 2, 1999, p. 356367.
[SZO 82] S ZOLOVITS P., Artificial Intelligence in Medicine, Westview Press, Inc., Boulder,
Colorado (http ://medg.lcs.mit.edu/ftp/psz/AIM82/), 1982.
[VLA 02] V LASSIS N., L IKAS A., A greedy EM algorithm for Gaussian mixture learning ,
Neural Processing Letters, vol. 15, 2002, p. 77-87.
[WIE 99] W IEGERINCK W., K APPEN H., B RAAK E., B URG W., N IJMAN M., N EIJT Y.,
Approximate inference for medical diagnosis , Pattern Recognition Letters, vol. 20,
1999, p. 1231-1239.
[WU 01] W U X., L UCAS P., K ERR S., D IJKHUIZEN R., Learning Bayesian-Network Topologies in Realistic Medical Domains , ISMDA, 2001, p. 302-308.