Reseaux Bayesiens

Avant-propos
Linformation nest pas la connaissance. mesure que se dveloppent les technologies permettant de stocker, dchanger de linformation et dy accder, la question de lanalyse et de la synthse de ces informations devient essentielle. Le dveloppement de technologies facilitant le passage de linformation la connaissance est dterminant pour que la socit annonce de linformation ne soit pas en ralit la socit du bruit. Deux types dapproches connaissent donc tout naturellement un intrt croissant. Les mthodes statistiques tout dabord, parce quelles sont prcisment conues pour permettre le passage de lobservation la loi, ft-elle loi de probabilit. Les technologies de lintelligence articielle ensuite, parce que leur vocation est de permettre aux ordinateurs de traiter de la connaissance plutt que de linformation. Les rseaux baysiens sont le rsultat dune convergence entre ces deux disciplines et constituent aujourdhui lun des formalismes les plus complets et les plus cohrents pour lacquisition, la reprsentation et lutilisation de connaissances par des ordinateurs. Encore du domaine de la recherche au dbut des annes 1990, cette technologie connat de plus en plus dapplications, depuis le contrle de vhicules autonomes la modlisation des risques oprationnels, en passant par le data mining ou la localisation des gnes. Les rseaux baysiens, qui doivent leur nom aux travaux de Thomas Bayes au XVIIIe sicle sur la thorie des probabilits, sont le rsultat de recherches effectues dans les annes 1980, dues J. Pearl UCLA et une quipe de recherche danoise luniversit de Aalborg. Lobjectif initial de ces travaux tait dintgrer la notion dincertitude dans les systmes experts. Les chercheurs se sont rapidement aperus que la construction dun systme expert ncessitait presque toujours la prise en compte de lincertitude dans le raisonnement. En effet, dans la plupart des domaines complexes, un expert humain est capable de porter un jugement sur une situation, mme en labsence de
Rseaux baysiens
toutes les donnes ncessaires. En mdecine, par exemple, une mme combinaison de symptmes peut tre observe dans diffrentes pathologies. Il ny a donc pas de rgle stricte qui permette de passer systmatiquement dun ensemble dobservations un diagnostic. De plus, les informations pertinentes ne sont pas toujours observables. Pour que des systmes experts puissent tre utiliss dans de tels domaines, il faut donc quils soient capables de raisonner sur des faits et des rgles incertains. Dans le cadre des systmes experts, les rseaux baysiens constituent une approche possible pour intgrer lincertitude dans le raisonnement. Dautres mthodes existent, mais les rseaux baysiens prsentent lavantage dtre une approche quantitative. Dun autre ct, imaginons prsent un statisticien, qui sefforce danalyser un tableau de mesures de plusieurs variables sur une population donne. Il va pour cela essayer de dmler les relations pertinentes entre les variables, les dpendances ou indpendances entre plusieurs groupes de variables. Lutilisation de rseaux baysiens va lui permettre dextraire de ce tableau une reprsentation compacte, sans perte dinformation, partir de laquelle il va tre beaucoup plus facile de raisonner. Le lien entre ces deux problmatiques est clairement celui de la connaissance. Dun ct, un expert dispose dune connaissance prsentant certaines incertitudes. Pour la formaliser, il va utiliser des descriptions causales : A a une inuence sur B ; en gnral, si B est observ, il y a de fortes chances que C se produise, etc. Pour rendre cette connaissance oprationnelle, il lui faut quantier ses incertitudes, cest--dire les convictions plus ou moins prcises que lexpert a des liens entre les faits. Dun autre ct, un ensemble de donnes contient lui aussi de la connaissance, mais qui nest pas directement accessible un analyste, car elle est noye dans les chiffres. Pour rendre cette connaissance interprtable, il faut la transformer en modle de causalit, mettant en vidence les liens entre les variables observes. Cest grce la notion mathmatique de probabilit que les rseaux baysiens vont permettre de rsoudre ces deux problmes duaux : transformer en chiffres une connaissance subjective, et transformer en modle interprtable une connaissance contenue dans des chiffres. Lexpert formalise sa connaissance sous forme de modle de causalit, indiquant les liens entre les variables. Cette description graphique est transforme en une loi de probabilit quivalente. Cette loi de probabilit permet de faire des calculs, et donc en particulier des raisonnements prenant en compte des aspects incertains. Rciproquement, partir des donnes, on va mettre en vidence des
vi
Avant-propos
proprits (indpendances, causalits) de la relation entre les diffrentes variables observes. Cette relation est transforme en graphe de causalits, qui peut alors tre lu et interprt par un analyste, beaucoup plus facilement que les donnes initiales. Ces deux oprations ne sont possibles que grce aux trois proprits suivantes : Les probabilits subjectives (celles que lexpert utilise pour dcrire les liens entre les variables) sont assimilables des probabilits mathmatiques (H1). Les frquences observes (tableau de mesures) sont assimilables des probabilits mathmatiques (H2). Le graphe de causalits est une reprsentation dle dune loi de probabilit sous-jacente : il est alors possible de raisonner sur le graphe sans revenir aux chiffres. Les deux premires proprits sont des hypothses de travail, et leur discussion peut tre considre comme relevant de la philosophie. La dernire, en revanche, est un rsultat trs important, qui garantit que tout ce qui peut tre dduit du graphe est galement vrai dans la distribution de probabilit sous-jacente. Ce rsultat sera tudi en dtail et dmontr dans la suite du livre. Ce livre est organis de la faon suivante. La premire partie, Introduction aux rseaux baysiens, est une prsentation intuitive de la construction des rseaux baysiens partir de quelques exemples simples. Dans cette partie nous abordons galement ltude des algorithmes, mais l encore de faon relativement intuitive. Cette partie se conclut par des exercices simples, qui permettent de manipuler les concepts introduits, ou encore de prendre en main un outil informatique de rseaux baysiens. La deuxime partie, Cadre thorique et algorithmes, prsente une formalisation complte des rseaux baysiens, ainsi que ltude dtaille des algorithmes les plus importants, aussi bien pour lutilisation de ces modles (infrence) que pour leur construction partir de donnes (apprentissage). Cette partie est trs technique, car nous avons choisi de dmontrer certains des rsultats annoncs. Le lecteur rebut par les longs dveloppements techniques pourra survoler cette partie. Dans la troisime partie, Mthodologie de mise en uvre et tudes de cas, nous abordons laspect pratique de cette technologie. Le premier chapitre de cette partie, le chapitre 7 page 187, est consacr aux aspects mthodologiques en tentant de rpondre aux trois questions suivantes : pourquoi, o (dans quelles applications), et comment utiliser des rseaux baysiens ? Nous prsentons ensuite plusieurs exemples dapplication ayant fait lobjet
vii
Rseaux baysiens
de publications, suivis de six tudes de cas relles, auxquelles nous avons directement particip. Un ensemble dannexes (Thorie des graphes, Probabilits, et Outils) ainsi quune bibliographie et un index compltent le livre. crit par une quipe combinant les points de vue de lenseignant, du chercheur, de lingnieur, et de lutilisateur nal, ce livre sadresse un large public. Il sadresse aux ingnieurs et dcideurs dans lun des nombreux domaines dapplication des rseaux baysiens : sant, industrie, banque, marketing, informatique, dfense, etc. Pour ce prol de lecteur, nous recommandons surtout une lecture de la premire partie, ventuellement en omettant le chapitre 3 (Exercices), et de la troisime partie. Cette premire lecture leur permettra de se faire rapidement une ide sur les possibilits dutilisation de cette technique dans leur domaine, et leur offrira des points de comparaison avec dautres techniques. Louvrage sadresse galement aux tudiants et chercheurs du niveau deuxime ou troisime cycle dans plusieurs disciplines : statistiques, mathmatiques de la dcision, analyse de risque, intelligence articielle, ainsi qu tous les lves ingnieurs. Ils y trouveront une prsentation intuitive des rseaux baysiens, un dveloppement thorique complet sur les algorithmes les plus rcents, ainsi quune base pour des investigations complmentaires. Les exercices prsents dans la premire partie leur permettront dvaluer leur comprhension des concepts et algorithmes. Pour ce prol de lecteur, nous recommandons une lecture progressive en fonction du niveau dapprofondissement requis. Pour une prise de contact et une comprhension des concepts de base, la premire partie, en incluant les exercices, pourra tre sufsante. Pour une tude plus pousse des algorithmes, la deuxime partie sera un compagnon utile des notes de cours, ou un bon point de dpart pour des recherches personnelles. Enn, pour dvelopper un projet applicatif bas sur cette technique, les exemples et tudes de cas prsents dans la troisime partie seront une bonne source dinspiration.
viii
Table des matires

Premire partie : introduction aux rseaux baysiens
1 Approche intuitive 1.1 Une reprsentation graphique de la causalit . . . . . . . . 1.1.1 1.1.2 1.1.3 1.2 1.2.1 1.2.2 1.2.3 1.2.4 Circulation de linformation dans un graphe causal Un exemple . . . . . . . . . . . . . . . . . . . . . Le cas gnral . . . . . . . . . . . . . . . . . . . . D-sparation (blocage) . . . . . . . . . . . . . . . . . Conclusion . . . . . . . . . . . . . . . . . . . . . . . Transposition . . . . . . . . . . . . . . . . . . . . . . Dnition des probabilits . . . . . . . . . . . . . Premier exemple : validit de la formalisation probabiliste . . . . . . . . . . . . . . . . . . . . . . . . . Modlisation . . . . . . . . . . . . . . . . . . . . . Discussion . . . . . . . . . . . . . . . . . . . . . . Deuxime exemple : dpendances et indpendances Modlisation . . . . . . . . . . . . . . . . . . . . . Utilisation du modle . . . . . . . . . . . . . . . . Circuits dinformation et indpendances . . . . . Les rseaux baysiens . . . . . . . . . . . . . . . . . Dnition . . . . . . . . . . . . . . . . . . . . . . . Proprits . . . . . . . . . . . . . . . . . . . . . . Utilisation et difcults . . . . . . . . . . . . . . .
1
3 3 4 5 6 7 10 11 11 12 12 12 14 17 17 18 20 21 21 22 22
Une reprsentation probabiliste associe . . . . . . . . . . .
Rseaux baysiens
Introduction aux algorithmes 2.1 Infrence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 2.1.2 2.2 Approche intuitive . . . . . . . . . . . . . . . . . . . Chanes . . . . . . . . . . . . . . . . . . . . . . . . Arbres . . . . . . . . . . . . . . . . . . . . . . . . Polyarbres . . . . . . . . . . . . . . . . . . . . . . Cas gnral . . . . . . . . . . . . . . . . . . . . . . . Conditionnement . . . . . . . . . . . . . . . . . . Arbre de jonction . . . . . . . . . . . . . . . . . . Mthodes approches . . . . . . . . . . . . . . . . Apprentissage de paramtres . . . . . . . . . . . . . 2.2.2 2.3 2.4 Cas gnral . . . . . . . . . . . . . . . . . . . . . . Apprentissage de structure . . . . . . . . . . . . . . Critre . . . . . . . . . . . . . . . . . . . . . . . . Recherche : structures contraintes . . . . . . . . . Recherche : le cas gnral . . . . . . . . . . . . . .
25 25 26 27 28 28 28 30 31 32 32 34 35 36 36 37 38 38 39 41 42 42 42 42 43 43 43 43 43 44
Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1
Modles continus . . . . . . . . . . . . . . . . . . . . . . . . Liens avec dautres mthodes . . . . . . . . . . . . . . . . .
Exercices 3.1 Pour commencer . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 3.1.2 3.1.3 3.1.4 3.2 3.2.1 3.2.2 3.2.3 3.2.4 Daltonisme . . . . . . . . . . . . . . . . . . . . . . . Langues orientales . . . . . . . . . . . . . . . . . . . Dtection dune maladie animale . . . . . . . . . . . Provenance dun composant . . . . . . . . . . . . . Jet de deux ds . . . . . . . . . . . . . . . . . . . . . Trois coffres . . . . . . . . . . . . . . . . . . . . . . . Trois prisonniers . . . . . . . . . . . . . . . . . . . . Meurtres en Floride . . . . . . . . . . . . . . . . . .
x
Grands classiques . . . . . . . . . . . . . . . . . . . . . . . .
Table des matires
3.3
Cas tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1 3.3.2 3.3.3 3.3.4 3.3.5 3.3.6 Diagnostics mdicaux contradictoires . . . . . . . . Contrles antidopage . . . . . . . . . . . . . . . . . Fiabilit dun systme . . . . . . . . . . . . . . . . . Dtection dincendie . . . . . . . . . . . . . . . . . . Au tribunal . . . . . . . . . . . . . . . . . . . . . . . Gestion dun parc de vhicules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ges . . . . . . . . . . . . . . . . . . . . . . . . . . . Dcision de justice . . . . . . . . . . . . . . . . . . . Modle gntique . . . . . . . . . . . . . . . . . . . Contrle dun procd . . . . . . . . . . . . . . . . . Jeu tlvis . . . . . . . . . . . . . . . . . . . . . . . Mesure de temprature . . . . . . . . . . . . . . . . Dure de vie dune ampoule lectrique . . . . . . . Mesure dune supercie . . . . . . . . . . . . . . . . Rseau lectrique . . . . . . . . . . . . . . . . . . . . Dilemme... cornlien . . . . . . . . . . . . . . . . . . Parapluie . . . . . . . . . . . . . . . . . . . . . . . . Tournoi de tennis . . . . . . . . . . . . . . . . . . .
44 44 45 45 46 46 46 47 47 47 47 48 48 49 49 50 50 50 50 51 51 52 52 53 53 53
3.4
Plus difciles 3.4.1 3.4.2 3.4.3 3.4.4 3.4.5 3.4.6 3.4.7 3.4.8 3.4.9
3.5
Aide la dcision . . . . . . . . . . . . . . . . . . . . . . . . 3.5.1 3.5.2 3.5.3
3.6
Exercices thoriques . . . . . . . . . . . . . . . . . . . . . . 3.6.1 3.6.2 3.6.3 Pouvoir de modlisation des rseaux baysiens . . Apprentissage de probabilits . . . . . . . . . . . . Indpendances 2 2 . . . . . . . . . . . . . . . . . .
3.7
Commentaires et solutions des exercices . . . . . . . . . . .
Deuxime partie : cadre thorique et algorithmes

4 Modles graphiques et indpendances 4.1 Graphodes . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xi
71
73 74
Rseaux baysiens
4.1.1 4.1.2 4.2 4.3 4.4
Modles dindpendance . . . . . . . . . . . . . . . Semi-graphode et graphode . . . . . . . . . . . . .
74 74 76 78 80 80 82 83 84 84 86 87 89 90 90 91 92 93 94 95 97 98 99
Modle dindpendance et loi de probabilit . . . . . . . . Modles dindpendance et sparation dans les graphes . . Modles non orients : rseaux de Markov . . . . . . . . . 4.4.1 4.4.2 4.4.3 4.4.4 Dnition . . . . . . . . . . . . . . . . . . . . . . . . Rseaux de Markov et factorisation . . . . . . . . . Limites . . . . . . . . . . . . . . . . . . . . . . . . . . Dnitions . . . . . . . . . . . . . . . . . . . . . . . . Proprits de Markov dans les graphes orients . . Rseaux baysiens et factorisation . . . . . . . . . . Limites . . . . . . . . . . . . . . . . . . . . . . . . . . Factorisation . . . . . . . . . . . . . . . . . . . . . . Smantique et causalit . . . . . . . . . . . . . . . . Pragmatisme . . . . . . . . . . . . . . . . . . . . . .
Sparation et indpendances : proprits de Markov 81
4.5
Modles orients : rseaux baysiens . . . . . . . . . . . . . 4.5.1 4.5.2 4.5.3 4.5.4
4.6
Pourquoi des arcs plutt que des artes ? . . . . . . . . . . . 4.6.1 4.6.2 4.6.3
Propagations 5.1 Propagation par messages locaux dans un arbre . . . . . . 5.1.1 5.1.2 5.2 5.2.1 5.2.2 5.3 Dcomposition de linformation . . . . . . . . . . . Calcul de (x) . . . . . . . . . . . . . . . . . . . . Calcul des (x) . . . . . . . . . . . . . . . . . . . Synthse et criture itrative . . . . . . . . . . . .
Cas des racines, des feuilles et des nuds informs102 Algorithme de propagation : polytree propagation . . 103 Principe de la coupe . . . . . . . . . . . . . . . . . . 104 Propagation conditionne . . . . . . . . . . . . . . . 105
Conditionnement global . . . . . . . . . . . . . . . . . . . . 104
Arbre de jonction . . . . . . . . . . . . . . . . . . . . . . . . 106

xii
Table des matires
5.3.1 5.3.2 5.4 5.4.1 5.4.2 6
Moralisation et Triangulation . . . . . . . . . . . . . 106 Propagation dans larbre de jonction . . . . . . . . . 110 Mthodes exactes sur des topologies approches . . 111 Mthodes stochastiques . . . . . . . . . . . . . . . . 112 Connaissance parfaite de la loi simuler . . . . . 113 Connaissance imparfaite de la loi simuler . . . 113 117
Mthodes approches . . . . . . . . . . . . . . . . . . . . . . 111
Apprentissage 6.1 6.1.1 6.1.2 6.1.3 6.2
Apprentissage des paramtres . . . . . . . . . . . . . . . . . 118 partir de donnes compltes . . . . . . . . . . . . 118 Apprentissage statistique . . . . . . . . . . . . . . 118 Apprentissage baysien . . . . . . . . . . . . . . 120 partir de donnes incompltes . . . . . . . . . . . 121 Nature des donnes manquantes . . . . . . . . . 121 Traitement des donnes MCAR . . . . . . . . . . 122 Traitement des donnes MAR . . . . . . . . . . . 122 Apprentissage statistique et algorithme EM . . . 122 Apprentissage baysien et algorithme EM . . . . 125 Incorporation de connaissances . . . . . . . . . . . . 126 Comment demander un expert destimer une probabilit ? . . . . . . . . . . . . . . . . . . . . . 126 Quelles probabilits estimer ? . . . . . . . . . . . 127 Comment fusionner les avis de plusieurs experts ? 130 Introduction . . . . . . . . . . . . . . . . . . . . . . . 131 Hypothses . . . . . . . . . . . . . . . . . . . . . . . 132 Notion dquivalence de Markov . . . . . . . . . . . 133 Recherche dindpendances conditionnelles . . . . 136 Tests dindpendance conditionnelle . . . . . . . 137 Algorithmes PC et IC . . . . . . . . . . . . . . . . 139
xiii
Apprentissage de la structure . . . . . . . . . . . . . . . . . 131 6.2.1 6.2.2 6.2.3 6.2.4
Rseaux baysiens
6.2.5 6.2.6 6.2.7 6.2.8 6.2.9
Quelques amliorations . . . . . . . . . . . . . . 144 Algorithmes bass sur un score . . . . . . . . . . . . 144 Les scores possibles . . . . . . . . . . . . . . . . . 145 Dterminer un a priori sur les structures . . . . . 148 Pourquoi chercher la meilleure structure ? . . . . 149 Recherche dans lespace des rseaux baysiens . 149 Algorithmes bass sur un score et donnes incompltes . . . . . . . . . . . . . . . . . . . . . . . 158 Recherche dans lespace des classes dquivalence de Markov . . . . . . . . . . . . . . . . . . . . . . 161 Mthodes hybrides . . . . . . . . . . . . . . . . . . . 170 Incorporation de connaissances . . . . . . . . . . . . 171 Structures de rseaux baysiens pour la classication . . . . . . . . . . . . . . . . . . . . . . . . . 172 Structures de rseaux baysiens avec variables latentes . . . . . . . . . . . . . . . . . . . . . . . . 175 Autres structures particulires . . . . . . . . . . . 176 Dcouverte de variables latentes . . . . . . . . . . . 177 Recherche dindpendances conditionnelles . . . 177 Algorithmes bass sur un score . . . . . . . . . . 179 Cas particulier des rseaux baysiens causaux . . . 179 Dnition . . . . . . . . . . . . . . . . . . . . . . . 180 Apprentissage sans variables latentes . . . . . . 180 Apprentissage avec variables latentes . . . . . . 182
Troisime partie : mthodologie de mise en uvre et tudes de cas 185

7 Mise en uvre des rseaux baysiens 7.1 7.1.1 187
Pourquoi utiliser des rseaux baysiens ? . . . . . . . . . . 187 Acquisition des connaissances . . . . . . . . . . . . 188 Un recueil dexpertise facilit . . . . . . . . . . . 188
xiv
Table des matires
7.1.2 7.1.3 7.1.4 7.1.5 7.2 7.2.1 7.2.2 7.2.3
Un ensemble complet de mthodes dapprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . 189 Un apprentissage incrmental . . . . . . . . . . . 189 Reprsentation des connaissances . . . . . . . . . . 191 Un formalisme unicateur . . . . . . . . . . . . . 191 Une reprsentation des connaissances lisible . . 192 Utilisation de connaissances . . . . . . . . . . . . . 192 Une gamme de requtes trs complte . . . . . . 192 Optimisation dune fonction dutilit . . . . . . . 193 Limites des rseaux baysiens . . . . . . . . . . . . 195 Un recul encore insufsant pour lapprentissage 195 Utilisation des probabilits . . . . . . . . . . . . . 195 Lisibilit des graphes . . . . . . . . . . . . . . . . 196 Les variables continues . . . . . . . . . . . . . . . 196 La complexit des algorithmes . . . . . . . . . . 196 Comparaison avec dautres techniques . . . . . . . 197 Caractristiques gnrales . . . . . . . . . . . . . . . 198 Une connaissance explicite ou implicite du domaine . . . . . . . . . . . . . . . . . . . . . . . . . 198 Une utilisation complexe ou volutive . . . . . . 199 Classication des applications par types . . . . . . 200 Modles symboliques . . . . . . . . . . . . . . . . 200 Modles numriques . . . . . . . . . . . . . . . . 201 Classication des applications par domaines . . . . 201 Sant . . . . . . . . . . . . . . . . . . . . . . . . . 201 Industrie . . . . . . . . . . . . . . . . . . . . . . . 202 Dfense . . . . . . . . . . . . . . . . . . . . . . . . 203 Banque/nance . . . . . . . . . . . . . . . . . . . 203 Marketing . . . . . . . . . . . . . . . . . . . . . . 206 Informatique . . . . . . . . . . . . . . . . . . . . . 207
xv
O utiliser des rseaux baysiens ? . . . . . . . . . . . . . . 197
Rseaux baysiens
7.3
Gestion des connaissances . . . . . . . . . . . . . 208 Identication des variables et de leurs espaces dtats209 Dnition de la structure du rseau baysien . . . . 210 Loi de probabilit conjointe des variables . . . . . . 211 213
Comment utiliser des rseaux baysiens ? . . . . . . . . . . 208 7.3.1 7.3.2 7.3.3
Exemples dapplications 8.1 8.2 8.3
Dtection de fraude (ATT) . . . . . . . . . . . . . . . . . . . 213 Aide la dcision en temps rel (NASA) . . . . . . . . . . . 216 Autres applications (par domaines) . . . . . . . . . . . . . . 219 8.3.1 8.3.2 8.3.3 8.3.4 Industrie . . . . . . . . . . . . . . . . . . . . . . . . . 219 Sant . . . . . . . . . . . . . . . . . . . . . . . . . . . 224 Informatique et tlcommunications . . . . . . . . . 225 Dfense . . . . . . . . . . . . . . . . . . . . . . . . . 227 231
tude de cas n1 : gestion globale des risques dune entreprise 9.1 9.2 9.3
La mthode GLORIA . . . . . . . . . . . . . . . . . . . . . . 232 Horizon de temps et objectifs de lentreprise . . . . . . . . 233 Construction du rseau baysien . . . . . . . . . . . . . . . 234 9.3.1 9.3.2 Identication des variables . . . . . . . . . . . . . . 234 Identication des relations entre variables . . . . . 236 Variables sommets . . . . . . . . . . . . . . . . . . . 237 Variables intermdiaires . . . . . . . . . . . . . . . . 237 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . 238 Probabilit de non-atteinte des objectifs . . . . . . . 238 Simulation . . . . . . . . . . . . . . . . . . . . . . . . 238 Diagramme probabilit/gravit . . . . . . . . . . . 240 Criticit des risques . . . . . . . . . . . . . . . . . . 242
9.4
Lois de probabilit des variables . . . . . . . . . . . . . . . 237 9.4.1 9.4.2 9.4.3
9.5
Rsultats de la mthode GLORIA . . . . . . . . . . . . . . . 238 9.5.1 9.5.2 9.5.3 9.5.4
10 tude de cas n2 : modlisation et quantication des risques op xvi
Table des matires
rationnels 10.1 10.2 10.3
245
Gestion des risques, incertitude et connaissance . . . . . . 246 Prsentation de la dmarche . . . . . . . . . . . . . . . . . . 247 Modlisation des scnarios de risque . . . . . . . . . . . . . 249 10.3.1 10.3.2 10.3.3 10.3.4 10.3.5 Prsentation de la mthode . . . . . . . . . . . . . . 249 Objectifs . . . . . . . . . . . . . . . . . . . . . . . 249 Difcults . . . . . . . . . . . . . . . . . . . . . . 250 Connaissance ou donnes . . . . . . . . . . . . . 251 Un processus de gestion des connaissances . . . 252 Le modle Exposition - Survenance - Gravit (XSG) 253 La vulnrabilit . . . . . . . . . . . . . . . . . . . 254 Exposition - Survenance - Gravit . . . . . . . . . 254 Utilisation des rseaux baysiens . . . . . . . . . 255 Avantages de lutilisation des rseaux baysiens 256 Dnition des scnarios . . . . . . . . . . . . . . . . 257 Identication des vulnrabilits . . . . . . . . . . 257 Slection des vulnrabilits . . . . . . . . . . . . 258 tude dtaille des vulnrabilits . . . . . . . . . 258 Quantication des scnarios . . . . . . . . . . . . . 258 Dnir lexposition, la survenance, et la gravit . 259 Modliser lexposition . . . . . . . . . . . . . . . 259 Modliser la survenance . . . . . . . . . . . . . . 260 Modliser la gravit . . . . . . . . . . . . . . . . . 262 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . 266
10.4
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267 269
11 tude de cas n3 : tude dun systme lectrique 11.1 11.1.1 11.1.2 11.1.3
Modlisation dun rseau lectrique . . . . . . . . . . . . . 270 Variables alatoires . . . . . . . . . . . . . . . . . . . 270 Dpendances entre variables . . . . . . . . . . . . . 271 Choix dun modle mathmatique . . . . . . . . . . 273
xvii
Rseaux baysiens
11.2
tude du rseau lectrique en rgion PACA . . . . . . . . . 274 11.2.1 11.2.2 11.2.3 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . 274 Construction du modle . . . . . . . . . . . . . . . . 275 Rsultats de ltude . . . . . . . . . . . . . . . . . . . 276
12
tude de cas n4 : questionnaire adaptatif pour la vente de crdit en ligne 279 12.1 Un rseau baysien comme modle de score . . . . . . . . . 280 12.1.1 12.1.2 12.1.3 12.2 12.3 Donnes et prtraitement . . . . . . . . . . . . . . . 281 Modlisation . . . . . . . . . . . . . . . . . . . . . . 282 Le modle obtenu . . . . . . . . . . . . . . . . . . . 284
Utilisation du rseau baysien . . . . . . . . . . . . . . . . . 285 Rsultats et conclusion . . . . . . . . . . . . . . . . . . . . . 289
13
tude de cas n5 : gestion de ressources naturelles et analyses de risques 293 13.1 Revue des mthodes . . . . . . . . . . . . . . . . . . . . . . 294 13.1.1 13.1.2 13.2 Pourquoi les rseaux baysiens ? . . . . . . . . . . . 295 Mthodes de cration de rseaux baysiens . . . . . 295 Utilisation de diagrammes dinuence . . . . . . 295 Probabilits associes aux variables . . . . . . . . 296 Construction de rseau baysien partir dexpertise ou de donnes . . . . . . . . . . . . . . . . 296 Utilisation de variables proxy . . . . . . . . . . . 298 Modles de prvision pour la faune et la ore . . . 299 Modlisation des musaraignes pygmes dans le bassin intrieur de la Colombie Britannique (tatsUnis) . . . . . . . . . . . . . . . . . . . . . . . . . 299 Modlisation de la grouse cendre dans le bassin intrieur de la Columbia (tats-Unis) . . . . . . . 301 Faune et ore du Nord-Ouest Pacique des tatsUnis . . . . . . . . . . . . . . . . . . . . . . . . . . 302
xviii
Exemples de rseaux baysiens . . . . . . . . . . . . . . . . 299 13.2.1
Table des matires
13.2.2 13.2.3 13.3
Faune et Flore de lOuest du Canada . . . . . . . 304 Utilisation de rseaux baysiens pour la rtrovision 304 Les rseaux baysiens comme modles de dcision 307
Utilisation des rseaux baysiens pour tudier la faune et la ore et grer les ressources naturelles . . . . . . . . . . . 311 13.3.1 13.3.2 13.3.3 13.3.4 Couplages avec dautres modles . . . . . . . . . . 311 Gestion adaptative . . . . . . . . . . . . . . . . . . . 311 Prise de dcision en univers incertain et considration des types derreurs . . . . . . . . . . . . . . . . 313 Mise jour et afnage des modles . . . . . . . . . 313
13.4
Conclusion et perspectives . . . . . . . . . . . . . . . . . . . 314 317
14 tude de cas n6 : diagnostic mdical 14.1 14.2
Sources dincertitudes en mdecine . . . . . . . . . . . . . . 318 Construction de rseaux baysiens mdicaux . . . . . . . . 320 14.2.1 14.2.2 Construction de rseaux baysiens partir de bases de donnes mdicales . . . . . . . . . . . . . . . . . 321 Construction laide dexperts humains . . . . . . . 322 Construction du graphe causal . . . . . . . . . . 322 Application de modles canoniques . . . . . . . 324 Acquisition dinformations quantitatives . . . . . 325 Structure du graphe . . . . . . . . . . . . . . . . . . 327 Recueil de probabilits . . . . . . . . . . . . . . . . . 328 Dboguage . . . . . . . . . . . . . . . . . . . . . . . 331 valuation . . . . . . . . . . . . . . . . . . . . . . . . 332 Historique des versions . . . . . . . . . . . . . . . . 332
14.3
Un exemple de modle : P ROSTANET . . . . . . . . . . . . . 326 14.3.1 14.3.2 14.3.3 14.3.4 14.3.5
14.4
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332
Annexes
A Thorie des graphes
xix
335
337
Rseaux baysiens
A.1 A.2 A.3 A.4 B
Dnitions gnrales . . . . . . . . . . . . . . . . . . . . . . 337 Notions orientes . . . . . . . . . . . . . . . . . . . . . . . . 340 Notions non orientes . . . . . . . . . . . . . . . . . . . . . 341 Typologie et proprits des graphes . . . . . . . . . . . . . 343 347 Dnitions principales . . . . . . . . . . . . . . . . . 348 Probabilits sur plusieurs variables . . . . . . . . . 349 Probabilits jointes . . . . . . . . . . . . . . . . . 350 Probabilits marginales . . . . . . . . . . . . . . . 351 Probabilits conditionnelles . . . . . . . . . . . . 352 Dnitions . . . . . . . . . . . . . . . . . . . . . . . . 354 Proprits . . . . . . . . . . . . . . . . . . . . . . . . 357 359 Prsentation . . . . . . . . . . . . . . . . . . . . . . . 359 Modlisation . . . . . . . . . . . . . . . . . . . . . . 360 Apprentissage . . . . . . . . . . . . . . . . . . . . . . 360 Infrence . . . . . . . . . . . . . . . . . . . . . . . . . 361 Prsentation . . . . . . . . . . . . . . . . . . . . . . . 361 Modlisation . . . . . . . . . . . . . . . . . . . . . . 361 Apprentissage . . . . . . . . . . . . . . . . . . . . . . 363 Exploitation . . . . . . . . . . . . . . . . . . . . . . . 365 Analyse . . . . . . . . . . . . . . . . . . . . . . . . . 367 Prise en compte de la dimension temporelle . . . . 369 Aide la dcision . . . . . . . . . . . . . . . . . . . . 369 Complments . . . . . . . . . . . . . . . . . . . . . . 370
xx
Probabilits B.1 B.1.1 B.1.2
Probabilits . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347
B.2
Indpendance conditionnelle . . . . . . . . . . . . . . . . . 354 B.2.1 B.2.2
Outils C.1 C.1.1 C.1.2 C.1.3 C.1.4 C.2 C.2.1 C.2.2 C.2.3 C.2.4 C.2.5 C.2.6 C.2.7 C.2.8
Bayes Net Toolbox (BNT) . . . . . . . . . . . . . . . . . . . . 359
BayesiaLab . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361
Table des matires
C.2.9 C.3 C.3.1 C.3.2 C.3.3 C.3.4 C.3.5 C.3.6 C.4 C.4.1 C.4.2 C.4.3 C.4.4 C.4.5 C.4.6 C.5 C.5.1 C.5.2 C.5.3 C.5.4
Conclusion . . . . . . . . . . . . . . . . . . . . . . . 370 Prsentation . . . . . . . . . . . . . . . . . . . . . . . 371 Construction des modles . . . . . . . . . . . . . . . 371 Infrence . . . . . . . . . . . . . . . . . . . . . . . . . 374 Apprentissage . . . . . . . . . . . . . . . . . . . . . . 376 Complments . . . . . . . . . . . . . . . . . . . . . . 377 Conclusion . . . . . . . . . . . . . . . . . . . . . . . 377 Prsentation . . . . . . . . . . . . . . . . . . . . . . . 378 Construction des modles . . . . . . . . . . . . . . . 378 Infrence . . . . . . . . . . . . . . . . . . . . . . . . . 379 Apprentissage . . . . . . . . . . . . . . . . . . . . . . 380 Autres fonctionnalits . . . . . . . . . . . . . . . . . 380 Conclusion . . . . . . . . . . . . . . . . . . . . . . . 382 Introduction . . . . . . . . . . . . . . . . . . . . . . . 382 Le format Elvira . . . . . . . . . . . . . . . . . . . . 384 Interface graphique . . . . . . . . . . . . . . . . . . . 384 Principales fonctionnalits . . . . . . . . . . . . . . . 385 389 411 417 421
Hugin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
Netica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378
Elvira . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382
Bibliographie Liste des gures Liste des tables Index
xxi
Premire partie
Introduction aux rseaux baysiens
Chapitre 1
Approche intuitive
ries des probabilits et des graphes. Il est cependant possible et utile de se rendre compte des ides et des notions de manire intuitive, avant daborder ce formalisme. Cest ce qui est propos dans ce chapitre et le suivant.
Les rseaux baysiens reposent sur un formalisme bas sur les tho-
1.1 Une reprsentation graphique de la causalit

La reprsentation graphique la plus intuitive de linuence dun vnement, dun fait, ou dune variable sur une autre, est probablement de reprsenter la causalit en reliant la cause leffet par une che oriente.
A B Supposons que A et B soient des vnements, qui peuvent tre observs ou non, vrais ou faux. Du point de vue du sens commun, le graphe ci-dessus peut se lire comme ceci : la connaissance que jai de A dtermine la connaissance que jai de B .
1.1. Une reprsentation graphique de la causalit
Cette dtermination peut tre stricte, cest--dire que, sachant avec certitude que A est vrai, je peux en dduire B avec certitude. Il peut aussi sagir dune simple inuence. Dans ce cas, cela signie que, si je connais A avec certitude, mon opinion sur B est modie, sans que je puisse toutefois afrmer si B est vrai ou faux. Avant daller plus loin, il est important de comprendre que, bien que la che soit oriente de A vers B, elle peut cependant fonctionner dans les deux sens, et ce mme si la relation causale est stricte. Supposons, par exemple, que la relation causale soit limplication logique A B. Cette relation signie que si A est vrai, B lest galement. Si A est faux, B peut tre vrai ou faux.
A V F F B V V F
La table ci-dessus reprsente les congurations possibles de A et B dans le cas o la relation causale A B est vraie. Cette table nous permet dafrmer que, si B est faux, A lest galement.
Du point de vue de la logique, il sagit simplement de la contrapose de A B. Du point de vue de la causalit, cela montre quune relation causale, donc oriente, est rversible de leffet vers la cause, mme si elle ne lest que partiellement. En dautres termes : Sil existe une relation causale de A vers B, toute information sur A peut modier la connaissance que jai de B, et, rciproquement, toute information sur B peut modier la connaissance que jai de A. En prsence dun graphe plus complexe, il est donc essentiel de conserver lesprit que linformation ne circule pas seulement dans le sens des ches.
1.1.1 Circulation de linformation dans un graphe causal

Nous allons prsent tudier de plus prs comment linformation circule au sein dun graphe causal. Pour linstant, nous continuons fonder cette discussion sur une notion trs intuitive de ce quest un graphe causal : il sagit simplement de relier des causes et des effets par des ches orientes.
4
Chapitre 1 Approche intuitive
Un exemple Pour cela, nous allons utiliser un exemple, extrmement classique dans la littrature sur les rseaux baysiens, initialement extrait de Pearl [Pea88a], et repris dans [Jen96]. Ce matin-l, alors que le temps est clair et sec, M. Holmes sort de sa maison. Il saperoit que la pelouse de son jardin est humide. Il se demande alors sil a plu pendant la nuit, ou sil a simplement oubli de dbrancher son arroseur automatique. Il jette alors un coup dil la pelouse de son voisin, M. Watson, et saperoit quelle est galement humide. Il en dduit alors quil a probablement plu, et il dcide de partir au travail sans vrier son arroseur automatique. La reprsentation graphique du modle causal utilis par M. Holmes est la suivante :
A J
A P J W
P W
Jai oubli de dbrancher mon arroseur automatique. Il a plu pendant cette nuit. Lherbe de mon jardin est humide. Lherbe du jardin de M. Watson est humide.
La lecture du graphe est bien conforme lintuition :

A J A J A J P W Si jai oubli de dbrancher mon arroseur automatique, lherbe de mon jardin est humide. P W Sil a plu pendant la nuit, lherbe du jardin de M. Watson est galement humide. P W Sil a plu pendant la nuit, lherbe de mon jardin est humide.
Comment ce graphe est-il utilis ici pour raisonner ? Autrement dit, comment linformation J, dont on sait quelle est vraie, est-elle utilise ? Tout dabord, le modle nous indique que J a d tre caus soit par A, soit par P.
5
Faute dinformation complmentaire, les deux causes sont a priori galement1 plausibles2 . Le fait que W soit galement vrai renforce la croyance en P. Dans cet exemple simple, on voit que linformation a circul uniquement dans le sens effet cause.
A (1) A (2) J J P W La connaissance de W augmente la croyance en la cause P. Par rapport ltat (1) prcdent, la cause A devient moins plausible. P W La connaissance de J renforce la croyance en lune des deux causes A ou P.
Conclusion Pour prendre un raccourci, M. Holmes a dduit que son arroseur automatique tait larrt partir du fait que la pelouse de son voisin tait humide ! Cet exemple simple, sur lequel nous navons utilis que du raisonnement de sens commun, nous montre bien que linformation peut suivre des chemins peu intuitifs lorsquelle se propage dans un rseau de causalits.
Le cas gnral
Nous allons maintenant tudier la circulation de linformation dans un graphe causal du point de vue gnral. Dans lexemple ci-dessus, nous avons vu quune information certaine se propage dans un graphe en modiant les croyances que nous avons des autres faits. Nous allons tudier quels chemins cette information peut prendre lintrieur dun graphe. Nous allons considrer les trois cas suivants, qui dcrivent lensemble des situations possibles faisant intervenir trois vnements.
En ralit, cela dpend, bien sr, de la connaissance a priori que M. Holmes a de la mtorologie de sa rgion. Ici, nous supposons quil nen a aucune. 2 Nous utilisons volontairement le mot plausible, au lieu de probable, qui sera utilis pour la formalisation du raisonnement.
1
X X X X
Z Z Z Z
Y Y Y Y
Connexion convergente : X et Y causent Z. Connexion en srie : X cause Z, Z cause Y (ou le cas symtrique). Connexion divergente : Z cause X et Y.
Pour chacun de ces cas, la gure 1.1 ci-aprs prsente une synthse des conditions de circulation de linformation entre X Y, en considrant chaque fois un petit exemple.
1.1.2 D-sparation (blocage)

Rsumons : nous savons maintenant exactement dans quelles conditions une information peut circuler lintrieur dun graphe. On voit quil ne sagit pas de suivre le sens des ches ! Supposons que nous disposions dun graphe relativement complexe, pour lequel nous disposons dj dun certain nombre dinformations (i.e certaines variables sont dj connues). Si nous apprenons maintenant une autre information, devons-nous rviser notre opinion sur lensemble des autres nuds de ce graphe ? Pour rpondre cette question, nous pouvons essayer de synthtiser ltude de ces circuits dinformations en une rgle appele d-sparation, qui dcrit dans quelles conditions linformation entre un nud X et un nud Y est bloque. On dira que X et Y sont d-spars par Z si pour tous les chemins entre X et Y, lune au moins des deux conditions suivantes est vrie : Le chemin converge en un nud W, tel que W = Z, et W nest pas une cause directe de Z. Le chemin passe par Z, et est soit divergent, soit en srie au nud Z.
Exemple ( X est d-spar de Y par Z est not X | Z | Y )

7
Graphe
Proprit
Exemple X = tremblement de terre Y = cambriolage Z = alarme Le fait quil y ait eu un tremblement de terre dans le voisinage (X) na aucun lien a priori avec le fait que ma maison ait t cambriole (Y). En revanche, si mon alarme sest dclenche (Z), jai tendance croire que je viens dtre cambriol (Y). Si maintenant japprends quil vient dy avoir un tremblement de terre (X) dans le voisinage, je suis rassur sur lventualit dun cambriolage (Y). X = ensoleillement Y = prix du bl Z = rcolte Si la saison a t ensoleille (X), la rcolte sera abondante (Z). Si la rcolte est abondante, le prix du bl est bas (Y). Si je sais dj que la rcolte a t abondante (Z), le fait de connatre lensoleillement (X) ne mapprend plus rien sur le prix du bl (Y). X = la pelouse de mon jardin est humide Y = la pelouse de mon voisin est humide Z = il a plu cette nuit Si la pelouse de mon jardin est humide (X), jai tendance croire quil a plu cette nuit (Z), et donc que la pelouse de mon voisin sera aussi humide (Y). Si en revanche je sais quil a plu cette nuit (Z), je peux afrmer que la pelouse du jardin de mon voisin sera humide (Y), et linformation que je peux avoir sur ltat de ma propre pelouse (X) ny change rien.
Linformation ne peut circuler de X Y que si Z est connu. X Z Y
Z0
Linformation ne peut circuler de X Y que si Z nest pas connu. X Z Y
Linformation ne peut circuler de X Y que si Z nest pas connu. X Z Y
TAB . 1.1 Circulation de linformation dans un graphe causal
B A C D
A|B|D Le chemin A-B-D est en srie en B (A B D). Le chemin A-C-D est convergent en C (A C D). A|D|E Tous les chemins de A E passent par D. Le chemin A-B-D-E est en srie en D (B D E). Le chemin A-C-D-E est divergent en D (C D E).
Essayons de comprendre intuitivement cette dnition. Supposons que Z soit la seule information connue dans le graphe. Supposons maintenant que japprenne la valeur de X. Si X et Y sont d-spars par Z, que se passe-t-il ? Considrons un chemin entre X et Y. Soit ce chemin converge en un point W ( W ), tel que W = Z, et W nest pas une cause directe de Z. Donc, par hypothse (Z est la seule information connue dans le graphe), aucune information nest disponible sur W. Daprs notre tude ci-dessus, ce chemin est donc bloqu. Sinon, ce chemin passe par Z, et on a soit Z , soit Z . Toujours daprs notre tude, comme Z est connu, linformation ne peut circuler travers Z. Tous ces chemins sont donc bloqus. Donc si X et Y sont d-spars par Z, et si Z est la seule information connue dans le graphe, une nouvelle information sur X ne modie en rien mon opinion sur Y. Extension Cette dnition peut tre tendue facilement au cas o Z 3 est un ensemble de nuds. On dira alors que X et Y sont d-spars par Z, si pour tous les chemins entre X et Y, lune au moins des deux conditions suivantes est vrie : Le chemin converge en un nud W, tel que W Z, et W nest pas une cause directe dun lment de Z. Le chemin passe par un nud Z Z, et est soit divergent, soit en srie en ce nud. Enn, elle peut tre tendue au cas o X et Y sont des ensembles de nuds. On dira alors que X et Y sont d-spars par Z, si tous les lments de X sont d-spars par Z de tous les lments de Y .
3
on note Z un nud et Z un ensemble de nuds.
Discussion Mme si elle nest pas facile apprhender immdiatement dans tous ses dtails, on comprend que cette notion de d-sparation est trs importante dans ltude des graphes de causalits. Elle permet en effet de prciser dans quelles conditions une information peut tre traite localement, sans perturber lensemble du graphe. La meilleure perception intuitive que lon peut en avoir est celle du blocage. Le fait que X et Y sont d-spars par Z signie que Z bloque le passage de linformation entre X et Y, dans le cas o Z est la seule information connue dans le graphe. Il est important galement de comprendre que, si la d-sparation est une proprit purement graphique, cest--dire uniquement lie au graphe, son utilisation est lie la smantique de causalit que lon attache ce graphe, comme nous le voyons ci-aprs (une information connue est indique dans un cercle gris).
B A C D F A est toujours d-spar de D par B : la d-sparation est une proprit du graphe. Cependant, comme C est connu maintenant, un chemin de circulation dinformation est ouvert de A D. A nest pas d-spar de D par B et C. E G A est d-spar de D par B. Comme B est la seule information connue dans ce graphe, une connaissance sur A ne modiera en rien ma connaissance sur D : le circuit dinformation de A D est bloqu par B.
B A C D
1.1.3 Conclusion
partir dune reprsentation graphique de la causalit fonde uniquement sur le sens commun, nous venons de montrer que (1) linformation ne circule pas uniquement dans le sens causeeffet, (2) la circulation de linformation suit cependant des rgles bien prcises, et (3) une combinaison de ces rgles permet de restreindre limpact dune information lintrieur du graphe. Nous allons prsent prsenter une formalisation de cette reprsentation, qui permet de quantier toutes les notions que nous avons voques ci-dessus, tout en conservant une parfaite cohrence avec le sens commun.
10
1.2 Une reprsentation probabiliste associe

La formalisation des notions intuitives (causalit, information) utilises ci-aprs va reposer sur la notion mathmatique de probabilit. Nous rappelons en annexe les bases axiomatiques de la thorie des probabilits. Nous reprenons tout dabord les exemples que nous venons dtudier. Nous montrons alors que, en assimilant ce que nous avons appel la croyance en un fait, ou la plausibilit dun fait, une probabilit mathmatique, nous pouvons retrouver quantitativement les rsultats que nous avions tablis qualitativement plus haut. Ensuite, nous prsentons le rsultat le plus important de cette formalisation, savoir lquivalence entre la reprsentation graphique et la reprsentation probabiliste.
1.2.1 Transposition
Avant de reprendre les diffrents exemples, nous donnons ci-aprs les rgles utilises pour les transposer en termes de probabilits (les termes utiliss ici sont dnis dans lannexe B page 347). Ces rgles permettent simplement de formaliser la transposition intuitive qui pourrait tre effectue. Les rgles de transposition compltes sont donnes en annexe. Dnition des variables Si le graphe causal initial contient les nuds {A, B} pouvant prendre chacun la valeur vrai ou faux , on dnit lespace probabilis E constitu des couples suivants : E = {(A = V, B = V), (A = V, B = F), (A = F, B = V), (A = F, B = F)} Chaque couple est appel un vnement. La variable A est alors une variable alatoire sur E, dnie de la faon suivante (voir annexe B page 347) : A((A = V, B = V)) = 1 A((A = V, B = F)) = 1 A((A = F, B = V)) = 0 A((A = F, B = F)) = 0
Lensemble E = {(A = V, B = V), (A = V, B = F)}, qui est limage rciproque de 1 par lapplication A est not simplement A = V. La variable alatoire B est dnie de faon similaire. Enn rappelons que la notation abrge : p(A | B) = p(A)
11
1.2. Une reprsentation probabiliste associe
sinterprtant comme A est indpendant de B, signie en ralit : p(A = V | B = V) = p(A = V) p(A = V | B = F) = p(A = V) p(A = F | B = V) = p(A = F) p(A = F | B = F) = p(A = F)
Si le graphe comporte plus de variables, ou plus dtats, les dnitions sont faites de faon analogue. On note donc de la mme faon le nud, la variable, et la variable alatoire associe.
Dnition des probabilits
Pour complter la transposition dun graphe causal en espace probabilis, nous devrons galement fournir les paramtres suivants (cette rgle sera justie de faon gnrale plus loin) : Si A na aucune cause directe, nous devrons dnir p(A), cest--dire les deux nombres p(A = V) et p(A = F). Si B a une seule cause directe A, nous devrons dnir p(B | A), cest-dire les quatre nombres p(B = V | A = V), p(B = V | A = F), p(B = F | A = V), p(B = F | A = F). Si C a deux causes directes A et B nous devrons dnir p(C | A, B), cest--dire les huit nombres : p(C = V | A = V, B = V), p(C = V | A = V, B = F), etc. Remarque Nous supposons que les quantits ci-dessus permettent effectivement de dnir une probabilit.
1.2.2 Premier exemple : validit de la formalisation probabiliste

Modlisation
Plaons-nous de nouveau dans le cas o la variable A cause B au sens strict, cest--dire au sens de limplication logique. Dans cet exemple, nous supposons que A et B reprsentent des vnements dans le monde de la nance. A est lvnement : Lannonce des chiffres
12
du commerce extrieur amricain est suprieure aux attentes du march. . B est lvnement : Le cours du dollar contre leuro monte. . Nous considrons que la rgle A B est vraie, cest--dire que si lannonce des chiffres du commerce extrieur amricain est effectivement suprieure aux attentes du march, le cours du dollar contre leuro va monter par rapport au cours de la veille. Dans le cas contraire, le cours du dollar va tre inuenc par dautres causes, et on ne pourra donc rien dire sur son volution. Considrons un nancier qui rentre de vacances. Il sait que les chiffres du commerce extrieur amricain ont t publis hier, mais ne connat pas la valeur numrique qui a t annonce. Cependant, en consultant le journal quil vient de prendre en montant dans lavion, il constate que le dollar a enregistr une baisse signicative. Que peut-il dduire des chiffres du commerce extrieur amricain ? Essayons de formaliser ce problme en termes de probabilits. Nous disposons de deux variables A et B, qui peuvent prendre toutes les deux les valeurs vrai et faux . Par ailleurs, nous pouvons disposer dun certain nombre dlments quantitatifs sur ces variables.
Probabilits a priori
vnement A=V A=F Probabilit 1/2 1/2 Commentaire A priori, rien ne me permet de dire que A est plus certain que A. Jattribue donc la probabilit 1/2 aux deux vnements.
Probabilits conditionnelles
B=V |A=V B=F|A=V B=V |A=F B=F|A=F 1 0 1/2 1/2 Jadmets que la rgle A B est vraie, donc, si A sest ralis, la hausse du dollar est certaine. En revanche, si A ne sest pas ralis, je ne peux rien dire sur la hausse du dollar.
La question que se pose notre nancier de retour de vacances est donc de connatre la valeur de p(A = V | B = F). Considrons les vnements A = V et A = F. Ils vrient les conditions dapplication du thorme de
13
Bayes (voir annexe B page 347), puisque : (A = V) (A = F) = (A = V) (A = F) = E Nous pouvons donc crire : p(A = V | B = F) = Donc : p(A = V | B = F) = 0 En nous replaant du point de vue qualitatif, notre nancier dduit donc que les chiffres du commerce extrieur amricain ont certainement t infrieurs aux attentes du march. Bien entendu, ce rsultat na rien de surprenant, puisque nous pouvions le dduire directement de la rgle logique A B. Si cette rgle est vraie, et si le dollar a baiss, il nest logiquement pas possible que le chiffre du commerce extrieur amricain ait t bon. Ce rsultat nous permet cependant de valider, ou plutt de ne pas invalider, la transposition de notre relation causale en termes de probabilits. Allons prsent un peu plus loin. Considrons que le nancier, qui na pas encore retrouv toute sa concentration aprs de longues vacances, saperoive maintenant quil sest tromp de ligne, et quil a consult le cours de la veille. Le cours du jour prsente en ralit une forte hausse par rapport la veille ! Du point de vue des probabilits, nous savons maintenant que B = V, et il nous faut calculer p(A = V | B = V). Les conditions dapplication du thorme de Bayes tant toujours vries, nous pouvons crire : p(A = V | B = V) = cest--dire : p(A = V | B = V) = p(B = V | A = V).p(A = V) p(B = V | A = V).p(A = V) + p(B = V | A = F).p(A = F) 2 3 p(B = F | A = V).p(A = V) p(B = F | A = V).p(A = V) + p(B = F | A = F).p(A = F)
Notre nancier est donc amen rviser son jugement, et il est maintenant plutt convaincu que les chiffres du commerce extrieur ont t bons. Discussion
Nous devons maintenant analyser ce premier exemple de faon trs prcise, pour examiner les allers et retours que nous avons effectus entre
14
qualitatif et quantitatif, entre croyances subjectives et probabilits mathmatiques. Formalisation Tout dabord, nous avons construit un espace probabilis. Pour cela, nous avons dni des vnements, et nous avons galement dni des probabilits pour certains dentre eux : p(A = V) = p(A = F) = 1 2
Cette quantication est la plus discutable, puisquelle nest fonde sur rien dobjectif. Cependant, elle traduit le fait que le nancier, rentrant de vacances et compltement dconnect de son environnement, na aucune raison a priori dattribuer une croyance plus forte un vnement plutt qu son contraire. Ensuite nous avons traduit la connaissance certaine dont nous disposions. Nous avons admis pour cet exemple que la relation entre A et B tait une relation causale stricte, cest--dire A B. La connaissance que nous donne cette relation scrit :
B=V B=F A=V ncessaire impossible A=F possible possible
Nous avons traduit cette rgle en termes de probabilits conditionnelles. L encore, en labsence dinformation, nous avons choisi dattribuer la probabilit 1/2 deux vnements complmentaires. La table ci-dessus devient alors :
B=V B=F A=V 1 0 A=F 1/2 1/2
Nous avons enn exprim linterrogation du nancier (quelle a bien pu tre lannonce du commerce extrieur amricain ?) en termes de probabilits : quelle est la valeur de p(A = V | B = F), puis de p(A = V | B = V).
Calcul Une fois cette formalisation effectue, le thorme de Bayes nous donne immdiatement les probabilits recherches.
15
Modle causal, faits A B B est vrai raisonnement qualitatif Conclusion A est sans doute vrai
formalisation
interprtation
(, Z, p) calculs Espace probabilis
F IG . 1.1 Transposition probabiliste dun graphe causal
Interprtation du rsultat Le rsultat obtenu, nous revenons maintenant dans le domaine qualitatif, et nous pouvons interprter le rsultat en termes de conviction : les chiffres du commerce extrieur ont sans doute t bons. Sur cet exemple, nous constatons que le passage par la formalisation en termes de probabilits nous a conduit des conclusions conformes au raisonnement de sens commun. En dautres termes, le raisonnement qualitatif pur conduit la mme conclusion qualitative que le cycle : formalisation, calculs, interprtation. Il est clair que cette quivalence ne peut tre prouve. Il sagit pour nous dadmettre que les opinions, les croyances ou tout autre appellation de la conviction que nous pouvons avoir dun fait peuvent tre dlement reprsentes par des probabilits, et que les calculs effectus au sein du formalisme des probabilits ne nous conduiront jamais des conclusions choquantes du point de vue de lintuition.
16
Remarque Il existe un dbat thorique, presque philosophique, sur la smantique associer aux probabilits. Trois approches sont, en gnral, considres. Lapproche frquentiste est fonde sur le fait quune probabilit est dnie par la limite dune frquence observe. Lapproche objectiviste considre que la probabilit est une proprit des objets du monde rel, et quelle mesure leur propension avoir tel ou tel comportement. Enn, lapproche subjectiviste considre que la probabilit mesure la croyance quun individu attribue la survenance dun fait donn. Dans les rseaux baysiens, considrs comme modles de causalits, la notion de probabilit utilise est une notion subjective de croyance. Quand on sintresse lapprentissage des rseaux baysiens, on utilise une approche frquentiste.
1.2.3 Deuxime exemple : dpendances et indpendances

Modlisation Nous reprenons prsent lexemple du jardin de M. Holmes an de le transposer galement dans notre formalisme probabiliste. Cet exemple va nous permettre de mettre en vidence la correspondance entre la reprsentation graphique des causalits, et les indpendances. A J P W
Nous commenons par effectuer la mme opration que pour lexemple prcdent, cest--dire que nous construisons un espace probabilis partir des connaissances intuitives dont nous disposons. Nous avons ici quatre variables, A, P, J, W, qui peuvent prendre chacune la valeur vrai ou faux .
A P J W
Jai oubli de dbrancher mon arroseur automatique. Il a plu pendant cette nuit. Lherbe de mon jardin est humide. Lherbe du jardin de M. Watson est humide.
partir de nos connaissances subjectives, nous pouvons valuer les probabilits de certains vnements, soit marginales, soit conditionnellement un autre vnement. Nous pouvons galement traduire le fait quil ny a aucun lien a priori entre le fait quil ait plu cette nuit, et le fait que M. Holmes ait oubli de dbrancher son arroseur automatique.
17
Probabilits a priori
vnement A=V A=F P=V P=F Probabilit 0.4 0.6 0.4 0.6 La rgion est relativement pluvieuse. Commentaire M. Holmes oublie assez souvent de dbrancher son arroseur automatique.
Probabilits conditionnelles La table ci-aprs exprime la connaissance selon laquelle lherbe de mon jardin est humide si, et seulement si, il a plu, ou si jai oubli de dbrancher mon arroseur automatique.
A=V J=V J=F P=V 1 0 P=F 1 0
A=F P=V 1 0 P=F 0 1
Enn, la table ci-aprs exprime la connaissance selon laquelle lherbe du jardin de mon voisin M. Watson est humide si, et seulement si, il a plu.
P=V W=V W=F 1 0 P=F 0 1
Indpendances Les variables A et P sont indpendantes. Utilisation du modle
Nous allons maintenant drouler nouveau le scnario de M. Holmes, dans le cadre de notre modle probabiliste. Ce matin-l, alors que le temps est clair et sec, M. Holmes sort de sa maison. Il saperoit que la pelouse de son jardin est humide. (1) Il se demande alors sil a plu pendant la nuit, ou sil a simplement oubli de dbrancher son arroseur automatique. Il jette alors un coup dil la pelouse de son voisin, M. Watson, et saperoit quelle est galement humide. Il en dduit alors (2) quil a probablement
18
plu, et il dcide de partir au travail sans vrier son arroseur automatique. Transpose en termes de probabilits, la premire question (1) que se pose M. Holmes, revient calculer et comparer : p(A = V | J = V) et : p(P = V | J = V) On a (proprit dinversion de Bayes) : p(A = V | J = V) = et : p(P = V | J = V) = p(J = V | A = V).p(A = V) p(J = V) p(J = V | P = V).p(P = V) p(J = V)
et galement (thorme de Bayes et indpendance de A et P) : p(J = V) = p(J = V | A = V, P = V).p(A = V).p(P = V)+ p(J = V | A = V, P = F).p(A = V).p(P = F)+ p(J = V | A = F, P = V).p(A = F).p(P = V)+ p(J = V | A = F, P = F).p(A = F).p(P = F) do : p(A = V | J = V) = 0, 625 p(P = V | J = V) = 0, 625
Nous retrouvons ici numriquement le rsultat intuitif vu plus haut, savoir que : La croyance en chacune des deux causes est augmente. Il nest pas possible de privilgier lune des deux causes avec cette seule information. Dans la seconde partie (2) de son raisonnement, M. Holmes est alors amen comparer p(A = V | J = V, W = V) avec p(P = V | J = V, W = V) Calculons tout dabord p(P = V | W = V) : p(P = V | W = V) = do : p(P = V | W = V) = et nalement : p(P = V | W = V) = 1
19
p(W = V | P = V).p(P = V) p(W = V)
p(W = V | P = V).p(P = V) p(W = V | P = V).p(P = V) + p(W = V | P = F).p(P = F)
En dautres termes, compte tenu de mon modle, si lherbe du voisin est mouille, il a certainement plu ! En revenant la dnition des probabilits, on peut montrer que si p(A) = 1, alors p(A | B) = 1. Donc : p(P = V | J = V, W = V) = 1 ce moment, M. Holmes est donc certain quil a plu. Les calculs pour obtenir p(A = V | J = V, W = V) sont plus compliqus, et nous ne les reproduisons pas ici dans leur intgralit. On retrouverait cependant exactement : p(A = V | J = V, W = V) = 0, 4 = p(A = V) Ce qui sinterprte en disant que, dans la mesure o M. Holmes a la certitude quil a plu, il na aucune raison de modier sa croyance a priori dans le fait que son arroseur est rest branch. Circuits dinformation et indpendances
Sur cet exemple, nous pouvons galement retrouver la notion de circuit dinformation. Nous savons que A et P sont indpendants. Nous allons maintenant donner un sens plus quantitatif la notion de circulation dinformation. Comme J est connu, linformation peut circuler suivant le circuit A J P. Quest-ce que cela signie en termes de probabilits ? Calculons : p(A = F, P = F | J = V) Par la rgle dinversion de Bayes, on a : p(A = F, P = F | J = V) = et donc p(A = F, P = F | J = V) = 0 car (voir table de probabilits) p(J = V | A = F, P = F) = 0 or p(A = F | J = V) = 1 p(A = V | J = V) = 0, 375 p(P = F | J = V) = 1 p(P = V | J = V) = 0, 375 et donc p(A = F, P = F | J = V) = p(A = F | J = V).p(P = F | J = V)
20
p(J = V | A = F, P = F).p(A = F, P = F) p(J = V)
A et P ne sont donc pas indpendants conditionnellement J. Questce que cela signie intuitivement ? Simplement que si deux facteurs indpendants peuvent dterminer le mme effet, et que celui-ci soit observ, cest ncessairement lune ou lautre des deux causes qui la produit. Donc les valeurs des deux causes sont lies : elles ne sont plus indpendantes, a posteriori. Graphiquement, que remarquons-nous ? A et P ne sont pas dspars par J : quand J nest pas connu, linformation ne circule pas de A P (ils sont indpendants), mais quand J est connu, linformation peut circuler de A P (ils sont dpendants).
1.2.4 Les rseaux baysiens

Les exemples prcdents nous permettent de constater les faits suivants : La transposition dun graphe causal en espace probabilis conduit des rsultats conformes au raisonnement intuitif que lon peut mener directement sur ce graphe. Ces rsultats sont quantitatifs. Les calculs mis en uvre, mme sur des cas trs simples, sont lourds. Les proprits graphiques (d-sparation) peuvent tre mises en correspondance avec les proprits dindpendance de lespace probabilis associ. La formalisation complte des rseaux baysiens permet de prendre en compte ces diffrents aspects.
Dnition Un rseau baysien est dni par : un graphe orient sans circuit (DAG) G = (V, E), o V est lensemble des nuds de G, et E lensemble des arcs de G ; un espace probabilis ni (, Z, p) ; un ensemble de variables alatoires associes aux nuds du graphe et dnies sur (, Z, p), tel que :
n
p(V1, V2, , Vn) =

i=1
p(Vi | C(Vi))
o C(Vi) est lensemble des causes (parents) de Vi dans le graphe G. Cest trs exactement ce que nous avons construit sur les deux exemples ci-dessus.
21
Proprits
Un rseau baysien est donc un graphe causal 4 auquel on a associ une reprsentation probabiliste sous-jacente. Comme on la vu, cette reprsentation permet de rendre quantitatifs les raisonnements sur les causalits que lon peut faire lintrieur du graphe. Nous avons galement voqu trs rapidement le lien entre d-sparation et indpendance. En ralit un rsultat trs important existe, qui afrme que si X et Y sont d-spars par Z, alors X et Y sont indpendants sachant Z . Ce rsultat, dmontr par Verma et Pearl en 1988 [VP88], constitue la proprit fondamentale des rseaux baysiens, dont nous parlerons plus prcisment dans la partie suivante : < X | Z | Y > p(X | Y, Z) = p(X | Z) Ce rsultat est trs important, car il permet de limiter les calculs de probabilits grce des proprits du graphe. Supposons que X et Y soient d-spars par Z, et que Z soit connu. Supposons, par ailleurs, que je vienne de calculer p(X | Z). Si une nouvelle information sur Y est alors connue, ce rsultat me permet de conserver mon calcul de p(X | Z) comme valeur de p(X | Z, Y). Autrement dit, le rsultat sur la d-sparation et le blocage dinformations que nous avions dcrit intuitivement sur les graphes de causalits est valable galement dans la reprsentation quantitative probabiliste sous-jacente ! Combine avec un autre rsultat, qui tablit quun nud est d-spar du reste du graphe par lensemble constitu de ses parents, de ses enfants, et des autres parents de ses enfants, cette proprit permet de rendre locaux tous les calculs de probabilits dans un graphe causal. Utilisation et difcults
Lutilisation essentielle des rseaux baysiens est donc de calculer des probabilits conditionnelles dvnements relis les uns aux autres par des relations de cause effet. Cette utilisation sappelle infrence. La correspondance qui existe entre la structure graphique et la structure probabiliste associe va permettre de ramener lensemble des problmes de linfrence des problmes de thorie des graphes. Cependant, ces problmes restent relativement complexes, et donnent lieu de nombreuses recherches. Lautre difcult essentielle des rseaux baysiens se situe prcisment dans lopration de transposition du graphe causal une reprsentation
4 Cette prsentation intuitive des rseaux baysiens est forcment partielle. Nous invitons les lecteurs la lecture du chapitre 4 page 73 pour une dnition plus formelle.
22
probabiliste. Mme si les seules tables de probabilits ncessaires pour dnir entirement la distribution de probabilit sont celles dun nud conditionn par rapport ses parents, il reste que la dnition de ces tables nest pas toujours facile pour un expert. Nous allons donc maintenant aborder ces deux problmes du point de vue technique.
23
Chapitre 2
Introduction aux algorithmes
consiste propager une ou plusieurs informations certaines au sein de ce rseau, pour en dduire comment sont modies les croyances concernant les autres nuds. Cest exactement ce que nous avons fait manuellement dans les deux exemples prsents ci-dessus.
Dun point de vue intuitif, linfrence dans un rseau de causalits
2.1 Infrence
Supposons que nous disposions dun rseau baysien dni par un graphe et la distribution de probabilit associe (G, p). Supposons que le graphe soit constitu de n nuds, nots {X1, X2, ..., Xn}. Le problme gnral de linfrence est de calculer p(Xi | Y), o Y X, Xi Y. On voit bien que la complexit de ce problme dpend de la structure du rseau. Nous allons tout dabord tudier le problme de linfrence de faon empirique, en montrant que la mthode intuitive qui consiste propager linformation le long des arcs, conduit des conclusions errones dans le cas gnral. Nous prsentons ensuite les mthodes applicables dans le cas gnral.
2.1. Infrence
Chane
p(C | A)?
B A C Arbre p(C | B)?
B C Polyarbre A D p(D | B)?
C A B D E Rseau avec boucles p(E | A)?
TAB . 2.1 Infrence dans les diffrentes structures de rseaux baysiens
2.1.1 Approche intuitive

Supposons que nous disposions dun rseau baysien (G, p), par exemple lun des quatre rseaux prsents ci-dessus, o toutes les variables sont binaires, et peuvent prendre les valeurs vrai, ou faux . Par exemple, dans le cas du rseau en forme de chane, supposons que nous disposions de linformation A = V. Comment propager cette information dans le rseau, cest--dire, comment calculer p(C | A = V) ? Daprs la structure de ce graphe, nous savons que (dnition dun rseau baysien) : p(A, B, C) = p(C | B).p(B | A).p(A) Comme de plus (dnition de la probabilit conditionnelle) p(A, B, C) = p(C | A, B).p(B | A).p(A) on a : p(C | A, B) = p(C | B)
26
Chapitre 2 Introduction aux algorithmes
De plus (thorme de Bayes) p(C | A) =

B
p(C | A, B).p(B | A)
et donc p(C | A) =
B
p(C | B).p(B | A)
nalement p(C = V | A = V) = p(C = V | B = V).p(B = V | A = V) + p(C = V | B = F).p(B = F | A = V) et de mme p(C = F | A = V) = p(C = F | B = V).p(B = V | A = V) + p(C = F | B = F).p(B = F | A = V) On voit donc que lopration revient calculer de proche en proche la probabilit de chaque nud, en propageant les probabilits conditionnelles connues. Voyons maintenant si cette mthode se gnralise. Chanes Considrons une chane de longueur n, et calculons p(Xi | Xj). Si le nud Xi est situ en aval du nud Xj, mais nest pas le descendant direct de Xi (j < i 1), ... on peut crire : p(Xi | Xj) =
Xi1
Xj
...
Xi
...
p(Xi | Xi1).p(Xi1 | Xj)
Si le nud Xi1 est un descendant direct de Xj, on a termin (cas A, B, C ciaprs). Sinon, il suft de dcomposer p(Xi1 | Xj) de la mme faon, jusqu arriver au descendant direct de Xj. Dans le cas o le nud Xi est situ en amont du nud Xj, cest un peu plus compliqu. ... Xi ...
27
Xj
...
2.1. Infrence
Il faut dabord utiliser la propagation avant partir du dbut de la chane, pour connatre pour chaque nud sa probabilit marginale p(Xk) pour 1 k j. On peut utiliser la proprit dinversion de la probabilit conditionnelle : p(Xi+1 | Xi).p(Xi) p(Xi | Xi+1) = p(Xi+1) De mme, si Xi est lascendant direct de Xj, on a alors termin. Sinon, il suft galement de continuer de proche en proche. Arbres
Le cas dun arbre se traite de la mme faon que les chanes, par exemple en considrant quun nud situ un point de jonction peut tre doubl, pour obtenir deux chanes.
B A C = A C A B
Polyarbres
On appelle polyarbre un rseau sans boucle. Dans la pratique, cela signie que chaque nud peut avoir plusieurs parents. La propagation de linformation dans un polyarbre est plus complexe, car linformation peut circuler dun parent un autre. Cependant, le cas des polyarbres peut se traiter de la mme faon, cest-dire en utilisant une propagation locale.
2.1.2 Cas gnral

Essayons prsent dappliquer un raisonnement local un graphe prsentant des boucles. Supposons que nous cherchions reprsenter avec un rseau baysien les rgles logiques suivantes : AB BC B nonD E XOR(C, D)
28
Cette connaissance peut tre reprsente par le graphe suivant :
C A B D E
Nous devons galement utiliser les tables de probabilits suivantes :

A=V B=V B=F 1 0 A=F 1/2 1/2
B=V C=V C=F 1 0
B=F 0 1
B=V D=V D=F 0 1
B=F 1 0
C=V E=V E=F D=V 0 1 D=F 1 0
C=F D=V 1 0 D=F 0 1
Supposons que A soit faux, et essayons de conclure sur E. Essayons dabord le raisonnement logique. Comme A est faux, je ne peux pas utiliser la rgle A B, et donc je ne peux rien dire sur B. Toutefois B est certainement soit vrai, soit faux. Supposons que B soit vrai. Dans ce cas, C est vrai, et D est faux, et E est donc vrai. Supposons que B soit faux. Dans ce cas, C est faux, et D est vrai, et E est donc vrai. Donc si A est faux, E est vrai. Essayons maintenant la propagation locale des probabilits. Comme A est faux, la probabilit que B soit vrai (respectivement faux) est 1/2. Donc la probabilit que C soit vrai est galement 1/2, et de mme pour D. Finalement, on conclut que la probabilit que E soit vrai est galement de 1/2 ! Dans le cas dun rseau comprenant des boucles, la propagation locale des probabilits ne fonctionne pas.
29
2.1. Infrence
Conditionnement
Essayons de comprendre intuitivement pourquoi le raisonnement probabiliste que nous avons fait ci-dessus ne fonctionne pas. En propageant linformation de B C, puis de B D, nous avons fait comme si C et D taient indpendants. Or nous savons que, dans une connexion divergente, C B D, C et D ne sont indpendants que si B est connu (si B nest pas connu, l information peut circuler de C D). Dans notre exemple, comme A tait faux, B ntait pas connu et donc nous avons fait un calcul erron. Dans le cas gnral, il nest donc pas possible deffectuer une propagation locale des informations. Lune des mthodes employes consiste prcisment appliquer le premier type de raisonnement. Cette mthode, appele conditionnement, consiste simplement excuter les tapes suivantes : Identier un ensemble de nuds tel que, si tous les arcs partant de ces nuds taient supprims du rseau, le rseau naurait plus aucune boucle (B joue ce rle dans lexemple prcdent). Considrer lensemble des hypothses possibles sur les valeurs de chacun de ces nuds. Dans le cadre de chacune de ces hypothses, effectuer les propagations locales dans le rseau sans boucle correspondant, et en dduire la probabilit conditionnelle recherche. Sommer les probabilits obtenues dans chaque hypothse, pondres par la probabilit de chaque hypothse1. Dans lexemple prcdent, il suft dcrire :
P(E | A) =
b
p(E | b, A).p(b | A)
On voit que, dans ce type dapproche, il est important de bien choisir lensemble des N nuds qui suppriment toutes les boucles. En effet, en supposant que chaque nud a k tats possibles, le nombre de propagations compltes effectuer est gal kN.
La probabilit de chacune des hypothses se calcule galement par une propagation locale. Ceci peut se dmontrer dans la mesure o lensemble des nuds choisis supprime toutes les boucles.
30
C A=F B D p(E = V | A = F)??

B=V C
E?
B=F
A=F
E?
A=F
E?
B=V
B=F
p(E = V | A = F) = p(E = V | A = F, B = V).p(B = V | A = F) + p(E = V | A = F, B = F).p(B = F | A = F) F IG . 2.1 Principe de la mthode de conditionnement
Arbre de jonction Il existe une autre mthode plus technique appele construction de larbre de jonction. partir dun rseau quelconque, on peut construire un rseau qui est un arbre dont les nuds correspondent des sous-ensembles de nuds du rseau initial. Il est alors possible de transformer le problme de linfrence dans le rseau initial en un problme de propagation dinformations plus complexes dans le rseau transform. Cette mthode est aujourdhui la meilleure connue en termes de complexit algorithmique. Cependant, il a t dmontr que le problme gnral de linfrence dans un rseau baysien est NP-complet [Coo90]. Dans certains cas, lutilisation dautres mthodes, fondes le plus souvent sur des heuristiques ou des calculs approchs, est ncessaire pour des rseaux de grande taille. Cette approche est la plus rpandue aujourdhui dans la littrature, et la plus utilise dans les outils logiciels.
31
2.2. Apprentissage
Mthodes approches
Lune des mthodes peut-tre les plus simples et les plus efcaces pour des rseaux complexes utilise la simulation (voir par exemple [TSG92]). Considrons nouveau lexemple prcdent. Supposons quon ralise un ensemble de simulations grce un gnrateur de nombres alatoires, de la faon suivante : Pour chaque nud dont on connat ltat a priori, ne rien faire (ici, A). Pour chaque nud sans parent, effectuer un tirage conforme ses probabilits marginales, et placer ce nud dans ltat obtenu (ici, aucun nud nest concern). Ds quun nud voit tous ses parents affects dun tat dtermin, effectuer un tirage de ltat de ce nud, conformment la table de probabilits qui le conditionne ltat de ses parents (ici, B, C, D, E). Ds que tous les nuds ont un tat dtermin, ranger la conguration obtenue dans une table. Effectuer ce tirage un grand nombre de fois. Une fois ce travail effectu, on peut disposer dune estimation de la probabilit de nimporte quel nud sous lhypothse initiale (ici A = F). Cela permet donc de lire directement une valeur estime de p(E | A).
2.2 Apprentissage
ce stade de notre tude, il nous parat intressant de faire le point sur les rsultats que nous avons obtenus. Tout dabord, nous avons montr que la reprsentation intuitive dun graphe de causalits pouvait tre rendue quantitative par lutilisation de probabilits. Ensuite, nous avons montr que les proprits du graphe de causalits permettaient de faciliter les calculs (linfrence) lintrieur de ce graphe, et nous avons dcrit les principales mthodes dinfrence. La dernire question qui se pose, et elle est importante, est : O trouver ces probabilits ? Il est en effet assez peu raliste de penser quun expert pourra fournir de faon numrique lensemble des paramtres ncessaires linfrence dans un graphe. Mme si certaines tudes ont montr que la sensibilit des conclusions aux paramtres tait relativement faible (cest--dire que lon a surtout besoin dordres de grandeur plutt que de probabilits relles), il peut tre intressant dans certains cas de dterminer ces paramtres partir dune base dexemples. Il sagit donc dapprentissage, en un sens assez voisin de celui qui est
32
utilis, par exemple, pour les rseaux de neurones, dans la mesure o lon cherche trouver le jeu de paramtres tel que, la structure du rseau tant connue, celui-ci prenne en compte de la meilleure faon possible la base dexemples dont nous disposons. Cette dernire tape franchie, nous disposerons alors dun ensemble complet doutils permettant de rendre oprationnelle et quantitative une connaissance empirique dcrite sous la forme dun graphe de causalits. Allons maintenant encore un peu plus loin. Supposons que nous disposions de deux modles de causalit concurrents (il est trs facile de trouver de tels exemples en conomie, par exemple). Nous ne disposons, en revanche, que dune seule base dexemples, qui est celle de la ralit. Il est ds lors trs intressant de confronter ces deux modles. La mthode est alors directement drive de ce qui prcde. Pour chacun des deux modles (chacun des graphes de causalits), nous allons rechercher les paramtres qui lui permettent dtre le plus proche possible des donnes. Il est clair que, si lun des modles est incomplet (par exemple, sil suppose que deux variables sont indpendantes alors quelles ne le sont pas) la distribution de probabilit quil va reprsenter sera plus pauvre que la ralit. Donc, quels que soient les paramtres utiliss, cette distribution sera plus loigne de la distribution empirique (constate sur les donnes), que celle qui dcoulerait dun modle ne faisant pas lhypothse de lindpendance de ces deux variables. La mthode dapprentissage peut tre alors utilise pour comparer deux modles. Enn, en considrant que le nombre de modles de causalits reliant un certain nombre de variables est ni, mme sil est grand, on peut nalement envisager de se passer dexpert. On peut alors construire un modle uniquement partir des donnes, en recherchant simplement parmi tous les modles possibles celui qui reprsente le mieux la ralit. Nous allons prsenter maintenant les principes des mthodes utilises dans ces deux types dapprentissage : Apprentissage de paramtres. La structure dun rseau (cest--dire le graphe sous-jacent) tant donne, rechercher le meilleur jeu de paramtres (cest--dire, rappelons-le, les diffrentes probabilits conditionnelles utilises dans le graphe) pour rendre compte des donnes observes. Apprentissage de structure. Sans aucune hypothse sur la structure du rseau, rechercher celle, qui, une fois munie des meilleurs paramtres, rende compte le mieux possible des donnes observes.
33
2.2. Apprentissage
2.2.1 Apprentissage de paramtres

Pour comprendre la mthode gnralement utilise pour lapprentissage de paramtres, commenons par lexemple le plus simple possible. Tout dabord, rappelons que par paramtre nous entendons ici une probabilit. Supposons alors que nous disposions dun clou de tapissier dont nous cherchons estimer la probabilit de tomber soit sur la tte, soit sur le ct, comme le montre le schma ci-aprs. Considrons, de plus, que le ct pile correspond au cas o le clou tombe sur la tte. Nous cherchons calculer la probabilit dobtenir pile, que nous noterons . Supposons galement que nous ayons observ p piles et f faces.
Pile
Face
La mthode la plus classique destimation de , consiste simplement mesurer la frquence des cts piles, et de prendre : = p p+f
Ce rsultat peut se retrouver dune faon un peu plus labore. Comme nous ne connaissons pas cette probabilit, nous estimons a priori quelle suit une certaine distribution p(). La probabilit dobtenir p piles et f faces, vnement que nous noterons X(p, f) pour donn est : p(X(p, f) | ) = Cp p.(1 )f p+f En appliquant la rgle dinversion de Bayes, la distribution de probabilit a posteriori de , compte tenu de cet vnement, est : p( | X(p, f)) = k.p(X(p, f) | ).p() soit p( | X(p, f)) = p.(1 )f.p()
34
k tant une constante de normalisation qui garantit que

1 0
k.p.(1 )f.p().d = 1
Lesprance mathmatique de , selon cette distribution a posteriori, dpend de la distribution a priori p(). Si p() tait, par exemple, une distribution uniforme, on retrouve (aprs calculs non dtaills ici) le rsultat classique : p E() = p+f Cependant, il est intressant dutiliser pour p() une distribution particulire, appele distribution de Dirichlet , qui scrit : p() = ..(1 ) Lintrt de cette distribution rside dans le fait que la distribution a posteriori obtenue partir dune distribution de Dirichlet, est galement une distribution de Dirichlet. Ici, on aurait simplement : p( | X(p, f)) = k.p+.(1 )f+ Lesprance mathmatique de serait alors : E() = p+ p+f++
Le choix des paramtres et initiaux seffectue grce des considrations sur la variance de la distribution de Dirichlet, qui permet de stabiliser lestimation des paramtres dans le cas o le nombre dexemples est faible. Retenons cependant que lesprance mathmatique de tend galep ment vers p+f aprs un grand nombre de tirages. Cas gnral Soit un rseau baysien constitu des nuds {X1, X2, ..., Xn}. Chaque nud est suppos prendre des valeurs discrtes. Soit galement une base dexemples D constitue de la mesure de chacune des Xi pour un certain nombre dexemples N. Adoptons alors les notations suivantes. Si Xi est un nud, on note : ri le nombre de ses tats possibles ; Ci lensemble de ses parents, dont lensemble des tats possibles est index par j.
35
2.2. Apprentissage
On note galement ijk la probabilit pour que Xi soit dans ltat k, conditionnellement au fait que lensemble de ses parents soit dans ltat j. Si nous effectuons de plus les hypothses (fortes) suivantes : La base dexemples D est effectivement produite par un rseau de structure donne, note BS, et elle est complte. Les paramtres ijk sont indpendants entre eux, et ils sont distribus suivant une loi de Dirichlet. On peut alors montrer que : E(ijk | D, BS) = Nijk + ijk Nij + ij
o : Nijk est le nombre dexemples dans la base D, tels que Xi est dans ltat k alors que ses parents sont dans ltat j. Nij est le nombre dexemples dans la base D, tels que les parents du nud Xi sont dans ltat j, indpendamment de ltat de ce nud (Nij = ri Nijk). k=1 ijk est lexposant du paramtre ijk dans la distribution de Dirichlet initiale, et ij = ri ijk. k=1 Malgr lapparence un peu complexe de ces calculs, on voit que les valeurs retenues sont similaires aux frquences relatives dans la base de donnes D.
2.2.2 Apprentissage de structure

Lapprentissage prsent ci-aprs suppose que la base de donnes observe provient effectivement dune distribution reprsente par un rseau baysien de structure connue. Si lon nest pas certain que cette structure est la meilleure possible (cas de deux modles concurrents), la premire question qui se pose est de pouvoir comparer deux hypothses de structure. Critre
Le critre le plus classique utilis pour comparer deux distributions est la mesure de Kullback-Leibler : P(x) D(P, P ) = P(x).log P (x) x Cette mesure peut donc tre utilise pour comparer la distribution empirique obtenue partir des donnes, et la distribution dduite du rseau baysien dont on cherche tester la structure.
36
Recherche : structures contraintes Il a t montr que, en gnral, le problme de lapprentissage de structure dans un rseau baysien est NP-complet. Cependant, en recherchant la structure parmi un sous-ensemble de structures, il est parfois possible de trouver la structure optimale dans cet ensemble. Cela est vrai en particulier si la structure est un arbre. Un rsultat assez ancien [CL68] montre que larbre optimal (au sens de la mesure de Kullback-Leibler) peut tre trouv simplement en calculant les mesures dinformations mutuelles entre deux variables sur la base dexemples : I(Xi, Xj) =
xi ,xj
p(xi, xj).log
p(xi, xj) p(xi).p(xj)
Une fois ces mesures tablies, on construit le rseau sous la forme dun arbre tel que la somme des informations mutuelles sur les arcs qui le composent soit maximale (cet arbre peut tre trouv par un algorithme trs simple). Ce rsultat est gnralisable aux polyarbres. titre dillustration, nous explicitons ici comment une version adapte de ce rsultat a t utilise pour construire des systmes de classication. Supposons que nous disposions dune base de donnes comportant les variables {X1, X2, ..., Xn}. Pour chacun des exemples de la base de donnes, nous disposons galement de sa classe C. Chacun des Xi, ainsi que C, prend des valeurs discrtes. On calcule les mesures dinformations mutuelles conditionnellement la classe. I(Xi, Xj | C) =
xi ,xj ,c
p(xi, xj, c).log
p(xi, xj | c) p(xi | c).p(xj | c)
On recherche ensuite larbre qui possde la somme maximale de ces informations le long de ses arcs, et on construit alors le rseau baysien suivant :
X1 X2 X4 Classe
37
X3 X5
2.3. Modles continus
Les paramtres du rseau 2 sont ensuite calculs directement, soit partir de la mthode explique ci-dessus, soit simplement partir des frquences. Cet algorithme a montr de meilleurs rsultats que les mthodes de ltat de lart en classication (C4.5). Recherche : le cas gnral
Dans le cas gnral, cest--dire si lon nimpose aucune contrainte la structure, le problme est relativement norme. Pour dix variables, il existe peu prs 4.1018 structures possibles ! Cest pourquoi les algorithmes mis en place sont essentiellement des algorithmes de recherche itrative sous-optimaux ! Lun des algorithmes le plus connu, nomm K2 [CH92] et cr par Cooper [Cooper2], ajoute progressivement des arcs, en ne conservant un arc qui vient dtre ajout que sil amliore la performance du rseau suivant une mtrique donne. Voici comment cet algorithme construit le graphe X1 X2 X3 (voir gure 2.2 ci-aprs). Aprs avoir commenc avec un rseau sans arc, K2 essaie dajouter larc X1 X2. Comme cet arc amliore la performance, il est conserv. Ensuite, K2 essaie dajouter larc X1 X3, puis larc X2 X3. Cest ce dernier qui obtient le meilleur score, par rapport la mtrique donne. Et ainsi de suite. Sur un problme articiel, cest--dire sur une base de trois mille exemples gnre partir dun rseau prdni, comprenant trente-sept nuds, quarante-six arcs chaque nud ayant entre deux et quatre valeurs K2 a retrouv la structure du graphe deux erreurs prs (un arc supprim et un arc ajout). Le temps de calcul pour cet exemple tait dune minute environ sur une station de travail Unix.
2.3 Modles continus

Toutes les mthodes que nous avons tudies supposent que les variables utilises sont discrtes. Dans ltat actuel de la recherche, les rseaux baysiens ngligent trs souvent le problme des variables continues. Cet aspect peut tre pris en compte de la faon suivante : soit en discrtisant les variables ; soit en faisant une hypothse de forme de distribution (par exemple, gaussienne). Ainsi, les paramtres obtenir de lexpert ou apprendre partir des donnes sont les paramtres de la distribution continue, au lieu dtre les probabilits individuelles de chaque valeur discrte.
2
Un exemple de paramtre du rseau de la page prcdente est p(X3 = xk | X1 , Classe). 3
38
X1
X2
X3
X1
X2
X3
X1
X2
X3
X1
X2
X3
X1
X2
X3
X1
X2
X3
X1
X2
X3
X1
X2
X3
F IG . 2.2 Principe de lalgorithme dapprentissage K2
Il faut reconnatre que la plupart des recherches actuelles utilisent plutt la premire option et ngligent compltement le problme des distributions continues de variables.
2.4 Liens avec dautres mthodes

Des relations formelles ont pu tre montres entre les rseaux baysiens et dautres techniques, dans le domaine de la classication, en particulier pour les arbres de dcision, et les rseaux neuronaux. Lquivalence formelle entre rseaux baysiens et rseaux neuronaux, propose par Michael Jordan de luniversit de Berkeley (anciennement au MIT), est particulirement intressante [Jor95]. Si un rseau de neurones ralise une fonction continue de ses entres X vers ses sorties Y, on considre le rseau de neurones comme une distribution conditionnelle de probabilits P(Y | X). Considrons en effet un neurone utilisant la fonction sigmode comme fonction de transfert : y= 1 1+ e
i
wi .xi
Si lon considre le neurone dans le cadre dun problme de classication binaire, y peut tre interprte comme la probabilit que ce neurone prenne
39
2.4. Liens avec dautres mthodes
la valeur 1. De la mme faon, on peut interprter un rseau de neurones comme un rseau baysien : Chaque unit cache est une unit binaire de sortie Si, dont la probabilit de prendre la valeur 1 est conditionne par les neurones en amont nots pai (parents du neurone i) et est donne par : P(Si = 1 | pai) = 1 1+ e
i
wj .paj i
La loi de distribution jointe de lensemble des neurones est un produit de fonctions sigmodes. Cependant, cette reprsentation est peu utilisable aujourdhui dans la pratique, pour deux raisons : Les architectures compltement connectes des rseaux de neurones rendent totalement inefcaces les algorithmes dinfrence et, plus encore, dapprentissage dans les rseaux baysiens. Les algorithmes dapprentissage dans les rseaux baysiens ne prennent pas (ou peu) en compte les variables caches, qui font lessentiel de la puissance des rseaux neuronaux. Les avantages de cette reprsentation, ds quelle sera rendue oprationnelle, seront nombreux, comme lintgration de connaissances explicites dans les rseaux neuronaux, ou la recherche dans un cadre uni de rseaux neuronaux optimisant des fonctions dutilit de forme quelconque, et en particulier discontinue, voir ce titre [Mac03]. Signalons que lutilisation du cadre baysien de lapprentissage se dveloppe galement pour la slection de modles de classication ou de prvision, en particulier les modles neuronaux. Cette approche baysienne de lapprentissage, dveloppe dans la partie suivante (partie thorique), permet notamment daborder les problmes dhyperparamtrisation des modles, de slection des entres, ou de prise en compte de donnes manquantes.
40
Chapitre 3
Exercices (et solutions)
bilistes utiliss dans cet ouvrage, notamment la notion de loi de probabilit conditionnelle et le thorme de Bayes.
Les exercices proposs dans ce chapitre illustrent les concepts proba-
Ce chapitre a galement pour but de mettre en vidence diffrents domaines dapplication des rseaux baysiens (industrie, sant, biologie, droit), et daborder les principaux types dapplications : infrence, calcul de risque, propagation dincertitudes, fusion sensorielle, aide la dcision. Nous avons choisi de classer les exercices par ordre de difcult croissante : Le paragraphe 3.1 ci-aprs propose des exercices simples dinfrence probabiliste, qui peuvent tre rsolus en appliquant le thorme de Bayes ou en construisant un rseau baysien deux variables. Le paragraphe 3.2 page 43 propose quelques problmes connus de calcul de probabilit, pour lesquels la modlisation par rseau baysien est particulirement intuitive et efcace. Le paragraphe 3.3 page 44 prsente des cas tests dont la rsolution manuelle est un peu plus difcile. Lutilisation dun logiciel de rseau baysien est recommande pour vrier les calculs ! Le paragraphe 3.4 page 47 est expressment destin aux lecteurs voulant sexercer lutilisation dun logiciel de rseau baysien. La rsolution manuelle des exercices de ce paragraphe est fastidieuse, et
3.1. Pour commencer
seuls les rsultats numriques sont donns en solution. Le paragraphe 3.5 page 50 est consacr laide la dcision. Enn, le paragraphe 3.6 page 52 propose quelques exercices thoriques. Le paragraphe 3.7 page 53 prsente les solutions commentes de ces exercices.
3.1 Pour commencer

3.1.1 Daltonisme
Environ 8 % des hommes et 0,5 % des femmes sont, des degrs divers, daltoniens. Estimer le pourcentage de femmes parmi les daltoniens.
3.1.2 Langues orientales

Dans une universit de langues orientales o lon enseigne le chinois et le japonais, il y a parmi les tudiants 40 % dhommes et 60 % de femmes. Chaque tudiant ntudie quune seule langue. Parmi les hommes, 70 % tudient le japonais et 30 % le chinois ; parmi les femmes, 60 % tudient le japonais et 40 % le chinois. Quelle est la proportion dtudiantes dans les cours de japonais ?
3.1.3 Dtection dune maladie animale

Dans une population animale, un individu sur cent est affect par une maladie. Un test servant dtecter la maladie est caractris par une probabilit de non-dtection estime 5 %, et une probabilit de dtection intempestive gale 1 %. Estimer la probabilit quun individu soit atteint, sachant que le test est ngatif.
42
Chapitre 3 Exercices
3.1.4 Provenance dun composant

Une usine est quipe de deux chanes de production. La chane A produit 200 composants par jour, dont 2 % sont dfectueux. La chane B, plus moderne, produit 800 composants par jour, dont 1 % sont dfectueux. Dterminer la probabilit quun composant dfectueux provienne de la chane A.
3.2 Grands classiques

3.2.1 Jet de deux ds
On lance deux ds quilibrs. Dterminer la loi de probabilit du maximum des chiffres indiqus par les ds.
3.2.2 Trois coffres

Trois coffres contiennent respectivement : une pice dor et une pice dargent ; deux pices dor ; deux pices dargent. On choisit une pice dans un des trois coffres. La pice est en or. Quelle est la probabilit que la seconde pice du coffre le soit galement ?
3.2.3 Trois prisonniers

Andy est prisonnier avec deux camarades, Bruce et Charlie. Leur gelier les informe que lun dentre eux a t choisi au hasard pour tre excut, et que les deux autres seront librs. Andy demande discrtement au gelier de lui indiquer lequel de ses compagnons sera libr (dans le cas o le condamn serait Andy lui-mme, on suppose que le gelier dsignerait au hasard Bruce ou Charlie). Le gelier refuse, arguant que la probabilit que Andy soit condamn passerait, 1 1 cause de cette information supplmentaire, de 3 2 . Le raisonnement du gelier est-il correct ?
43
3.3. Cas tests
Meurtrier Noir Blanc
Victime Noir Blanc Noir Blanc
Peine capitale 11 48 0 72 59 72
Autre peine 2 448 2 185 2 209 239 111 2 074
131 4 633 TAB . 3.1 Rpartition des condamnations selon la couleur de peau des meurtriers et des vic-
times
3.2.4 Meurtres en Floride

Entre 1973 et 1979, 4764 affaires de meurtre ont t juges dans ltat de Floride, aux tats-Unis. La peine de mort a t prononce 131 fois1 . Dans le tableau 3.1, la rpartition des condamnations est reprsente selon la couleur de peau des meurtriers et des victimes. Il rsume galement ces mmes statistiques en fonction uniquement de la couleur de peau du meurtrier. x Vrier partir du tableau 3.1 que les noirs sont statistiquement dfavoriss la fois dans les affaires o la victime est noire et dans celles o la victime est blanche. y Daprs le tableau 3.1 (rpartition des condamnations selon la couleur de peau des meurtriers), envers quels individus les tribunaux se sontils montrs statistiquement les plus clments ? z Expliquer le paradoxe et proposer une reprsentation des donnes du tableau 3.1 par un rseau baysien.
3.3 Cas tests

3.3.1 Diagnostics mdicaux contradictoires
Un patient craint dtre atteint du cancer et estime 10 % la probabilit dtre atteint. Il consulte un mdecin A qui ne diagnostique pas le cancer. Pensant que le mdecin A sest peut-tre tromp ou a t trop prudent dans son diagnostic, il consulte un second mdecin B qui lui, diagnostique le cancer. On suppose que : le mdecin A met un diagnostic correct dans seulement 60 % des cas o il y a effectivement cancer mais ne se trompe jamais lorsquil ny a pas de cancer ;
1
Les donnes de cet exercice sont extraites de [Whi90].
44
le mdecin B met un diagnostic correct dans 80 % des cas o il y a effectivement cancer et se trompe une fois sur dix lorsquil ny a pas de cancer. combien le patient peut-il estimer la probabilit de cancer avant et aprs le diagnostic du second mdecin ?
3.3.2 Contrles antidopage

Dans une comptition sportive, les participants sont systmatiquement soumis deux contrles antidopage indpendants. Le premier test a une probabilit de non-dtection de 5 % et une probabilit de dtection intempestive de 1 %. Le second test a une probabilit de non-dtection de 10 % mais ne gnre pas de dtection intempestive. Les organisateurs optent pour un rglement strict : un participant est disquali si lun des deux tests est positif. On fait lhypothse que 10 % des participants ont absorb des produits illicites. x Quel pourcentage de participants seront disqualis ? y Quelle est la probabilit quun concurrent sain soit disquali ? z Quelle est la probabilit quun concurrent disquali soit sain ?
3.3.3 Fiabilit dun systme

On considre un systme de trois composants A, B et C. Les probabilits de panne des composants A, B et C sont de 15 %, 7 % et 3 %. On suppose que le systme a la structure reprsente sur le schma de la gure 3.1 , cest--dire quil est en panne si A est en panne, ou si B et C le sont.
C A B
F IG . 3.1 Systme de trois composants (Exercice 3.3.3)
Reprsenter laide dun rseau baysien les dpendances entre les tats des composants A, B, C et ltat du systme. x Calculer la probabilit de panne du systme.
45
3.3. Cas tests
y Calculer la probabilit que A soit en panne sachant que le systme est en panne. z Calculer la probabilit quaucun composant ne soit en panne.
3.3.4 Dtection dincendie

Un dispositif de dtection dincendie est compos de trois dtecteurs de fume. En cas dincendie, chaque dtecteur a 90 % de chances de fonctionner correctement. Le dispositif dclenche lalarme si au moins deux dtecteurs sur trois rvlent la prsence de fume. Un oprateur, prsent huit heures par jour, peut activer lalarme manuellement. Quelle est la probabilit que lalarme ne soit pas dclenche en cas dincendie ?
3.3.5 Au tribunal
Un individu souponn dhomicide a t identi par un tmoin dont les experts psychologues afrment quil est able 70 % seulement. Un test ADN able 99 % identie galement lindividu comme tant responsable du crime. Estimer la probabilit que lindividu soit coupable en adoptant une probabilit a priori de 10 % pour la culpabilit, puis une probabilit de 1 %.
3.3.6 Gestion dun parc de vhicules

Une entreprise de location de cars possde cinq vhicules identiques quelle loue la journe. On suppose que le nombre de demandes de cars suit une loi de Poisson de moyenne 4. Dterminer laide dun rseau baysien : x le nombre moyen journalier de demandes non satisfaites ; y la probabilit quil y ait des demandes non satisfaites ; z la probabilit quun car au moins reste au garage ; { le taux moyen dutilisation des cars. Que deviennent ces rsultats si lentrepreneur dcide dacheter un sixime car ?
46
3.4 Plus difciles

3.4.1 ges
Un statisticien a trois enfants, Albert, Bianca et Cornlie, dont les ges sont compris entre 0 et 6 ans. An de faire deviner les ges de ses enfants lun de ses collgues, il lui donne successivement les trois informations suivantes : C1 : La somme des ges dAlbert, Bianca et Cornlie est gale 15 . C2 : Bianca est strictement plus ge quAlbert . C3 : Bianca et Cornlie ont deux ans dcart . Construire un rseau baysien pour exploiter ces informations.
3.4.2 Dcision de justice

Un tribunal de trois juges dclare laccus coupable lorsquau moins deux juges estiment que cette dcision est fonde. On suppose que si laccus est coupable, chaque juge se prononce dans ce sens avec une probabilit de 80 %, et que la probabilit quun juge estime coupable un accus innocent est gale 10 %. Les dcisions des juges sont indpendantes, il ny a pas de concertation. On suppose enn que le pourcentage daccuss effectivement coupables est de 80 %. x Quel est le pourcentage daccuss qui sont reconnus coupables ? y Quelle est la probabilit quun innocent soit condamn tort ? z Quelle est la probabilit dacquittement dun accus coupable ? { Quelle est la probabilit que le troisime juge estime innocent un accus que les deux premiers juges ont estim coupable ?
3.4.3 Modle gntique

Dans une population, on admet que la rpartition des gnes est de 70 % pour le gne yeux marron et 30 % pour le gne yeux bleus . Chaque individu possde deux gnes. Le gne yeux marron est suppos dominant : un individu ayant un gne yeux bleus et un gne yeux marron a ncessairement les yeux marron. x Reprsenter ces informations avec un rseau baysien. y Calculer la probabilit quun enfant ait les yeux bleus si ses parents ont les yeux marron.
47
3.4. Plus difciles
z Calculer la probabilit que la mre ait les yeux bleus si lenfant et le pre ont les yeux marron. { Quelle est la proportion dindividus aux yeux marron dans la population ? Cette proportion tend-elle augmenter au cours des gnrations ? | Ajouter au modle un second enfant en dupliquant les trois nuds correspondant au premier enfant. Quelle est la probabilit que le second enfant ait les yeux bleus sachant que le premier a les yeux bleus ? } Utiliser labsorption de nuds de manire rendre le modle plus lisible.
3.4.4 Contrle dun procd

Un systme de contrle-commande dun procd industriel est compos de trois capteurs. Le systme dclenche un arrt automatique du procd si au moins deux capteurs dtectent une anomalie (vote 2/3). Les capteurs sont soit en bon fonctionnement, soit en panne avre, soit en panne cache. Les probabilits respectives sont de 90 %, 9 % et 1 %. Si un des capteurs est en panne avre, le systme ignore les informations mises par ce capteur et se recongure en vote 2/2, cest--dire quil dclenche lalarme si les deux autres capteurs dtectent une anomalie. Enn, si deux ou trois capteurs sont en panne avre, larrt automatique se dclenche. x En cas danomalie, quelle est la probabilit de non-dclenchement de larrt ? y En cas danomalie, quelle est la probabilit de non-dclenchement si un des capteurs est en panne avre ? En panne cache ?
3.4.5 Jeu tlvis

Un jeu tlvis consiste deviner le hobby favori de trois invits. Pour cela, le candidat a la possibilit de poser une question chaque invit concernant un des 3 hobbies proposs. Aujourdhui, les invits se prnomment Albert, Bruno et Igor ; les hobbies proposs sont : fan des Beatles, basketteur et cinphile. On suppose que chaque invit a un seul hobby et que les hobbies des invits sont distincts.
48
Le candidat a regard les missions prcdentes et en a dduit quelques statistiques. Ainsi, il estime quun invit qui se voit poser une question concernant son hobby a : 80 % de chances de se montrer convaincant dans sa rponse ; 19 % de chances de se montrer plutt convaincant ; 1 % de chances de se montrer peu convaincant . Par ailleurs, le candidat considre que ces probabilits sont de 15 %, 30 % et 55 %, si la question ne concerne pas le hobby de linvit. Au cours de lmission, Albert a t peu convaincant dans sa rponse une question au sujet des Beatles ; Bruno a fourni une rponse dtaille une question au sujet de la NBA ; enn, Igor a t plutt convaincant dans sa rponse une question concernant le cinma. Aidez le candidat dterminer les hobbies de chaque invit en laborant un rseau baysien. Quelle est la probabilit quAlbert soit cinphile ? Quel est le hobby le plus probable dIgor ?
3.4.6 Mesure de temprature

Un climatologue souhaite installer un dispositif de mesure de la temprature ambiante. Le dispositif utilise deux thermomtres dont les prcisions sont de 1 et 3 degrs, ce qui signie que la temprature afche est gale la temprature relle entache dune erreur de moyenne nulle et dcarttype 1 ou 3 degrs respectivement. On suppose que la temprature relle suit une loi gaussienne desprance 15 degrs et dcart-type 5 degrs. Reprsenter ces donnes laide dun rseau baysien, en utilisant la discrtisation 0-1, 1-2,..., 29-30. Que dire de la temprature relle si le premier thermomtre afche 8,5 degrs et le second 12,5 degrs ?
3.4.7 Dure de vie dune ampoule lectrique

Un certain modle dampoule est suppos avoir une dure de vie moyenne de m = 1100 heures, daprs les informations fournies par le constructeur. Cette donne est fournie 30 % prs : en dautres termes, la valeur a priori de lesprance de la dure de vie suit une loi gaussienne desprance 1100 heures et dcart-type 330 heures. On suppose que la dure de vie suit une loi uniforme, cest--dire que la probabilit que lampoule soit dfaillante au bout de x heures est gale p = min(x/2m, 1). On slectionne un chantillon de N = 10 ampoules. x Dterminer la loi du nombre dampoules dfaillantes au bout de 800 heures. y Rvaluer m si 9 ampoules sont dfaillantes au bout de 800 heures.
49
3.5. Aide la dcision
3.4.8 Mesure dune supercie

Un terrain a une largeur de 120 mtres et une longueur de 160 mtres. Ces distances sont mesures 5 mtres prs. tudier laide dun rseau baysien la distribution de probabilit de la supercie du terrain.
3.4.9 Rseau lectrique

La gure 3.2 reprsente un rseau lectrique constitu dune zone de consommation, de deux units de production G1 et G2, et de deux lignes de transport L1 et L2.
'$ &% '$ &%
G1
L1
Consommation
L2
G2
F IG . 3.2 Rseau lectrique (Exercice 3.4.9)
Les units de production, dune puissance de 130 MW, sont disponibles 90 % du temps. La demande dans la zone de consommation dpend de la saison : en moyenne, 150 MW en hiver, 50 MW en t et 100 MW en printemps-automne, avec un cart-type de 30 MW. En hiver, chaque ligne est indisponible 1 % du temps (de manire indpendante) cause de forts givres. x Quel pourcentage du temps la demande peut-elle tre satisfaite ? y Si la demande nest pas satisfaite, le problme provient-il plus vraisemblablement dune ligne ou dune unit de production indisponible ?
3.5 Aide la dcision

3.5.1 Dilemme... cornlien
Rodrigue souhaite sduire Chimne... Mais le pre de Rodrigue demande celui-ci de venger son honneur en affrontant en duel le pre de Chimne, Don Gormas :
50
Parapluie Oui Oui Non Non
Temps Pluie Soleil Pluie Soleil
U -5 -15 -100 50
TAB . 3.2 Fonction dutilit (Exercice 3.5.2)
Je ne te dis plus rien. Venge-moi, venge-toi ; Montre-toi digne ls dun pre tel que moi. Accabl des malheurs o le destin me range, Je vais les dplorer. Va, cours, vole, et nous venge.
Rodrigue hsite accder la requte de son pre : sil tue Don Gormas, il estime que ses chances de conqurir Chimne sont de 60 %. En revanche, sil refuse le duel, il value 70 % la probabilit que Chimne le juge lche et le rejette. Enn, Don Gormas tant moins vaillant que Rodrigue, la probabilit dune issue fatale du duel pour Don Gormas est de 60 %. En construisant un rseau baysien comportant un nud de dcision, dterminer la dcision optimale.
3.5.2 Parapluie
Jacques coute la prvision mtorologique chaque matin la radio, qui annonce environ sept fois sur dix du soleil et trois fois sur dix de la pluie. Il sait par exprience que les prvisions sont ables 90 %. Jacques souhaite dterminer sil emmne ou pas son parapluie. Pour cela, il dtermine sa fonction dutilit, note U dcrite dans le tableau 3.2. Reprsenter ces donnes dans un rseau baysien en introduisant un nud de dcision et un nud dutilit. Quelle est la dcision optimale si la mto annonce du soleil ? Quelle est la dcision optimale si Jacques oublie dcouter le bulletin mto ? Comparer le rseau baysien avec une modlisation quivalente par arbre de dcision.
3.5.3 Tournoi de tennis

Gilbert est un marchand ambulant qui a lhabitude de se rendre au tournoi de tennis de Roland-Garros. Suivant les prvisions mtorologiques, Gilbert emporte des parapluies ou des boissons fraches. On admet les hypothses suivantes :
51
3.6. Exercices thoriques
Option A Option B Option C
Option D
Emporter des parapluies : le chiffre daffaires maximal est de 2 000 euros. Emporter des boissons : le chiffre daffaires maximal est de 1 000 euros. Emporter un stock diversi : le chiffre daffaires maximal est de 1 000 euros pour les parapluies et de 500 euros pour les boissons. Ne pas se rendre au tournoi et exercer une activit (indpendante du climat) lui assurant un chiffre daffaires de 300 euros.
TAB . 3.3 Options (Exercice 3.5.3 page prcdente)
Le temps Roland-Garros est soit beau , soit pluvieux , soit orageux , soit frais . Si le temps est beau, Gilbert vend toutes les boissons fraches. Si le temps est pluvieux, les matchs sont annuls et Gilbert ne vend rien. Si le temps est orageux, Gilbert coule son stock de parapluies cause des pluies fortes et passagres, mais vend aussi ses boissons car le temps est chaud. Si le temps est frais, Gilbert vend 20 % de son stock de boissons et aucun parapluie. Quatre options se prsentent en fonction des prvisions (tableau 3.3). On suppose enn que la mto prvoit de manire quilibre les quatre types de climat, avec une abilit de 70 % ; lorsque la prvision est errone, le climat rel se rpartit quitablement entre les trois possibilits non prvues. Construire un rseau baysien pour reprsenter ces informations. Quelle est la dcision optimale ? Si la mto annonce un temps frais ? Dans le cas o lorganisme de mto est en grve ?
3.6 Exercices thoriques

3.6.1 Pouvoir de modlisation des rseaux baysiens
On considre n variables alatoires discrtes X1, X2, . . . , Xn. Dmontrer quil est possible de modliser la loi de X = (X1, X2, . . . , Xn) par un rseau baysien (quelles que soient les dpendances entre les Xi).
52
3.6.2 Apprentissage de probabilits

Dans une urne contenant des boules noires et blanches, soit la proportion de boules noires. En labsence de toute information sur , on se donne une loi de probabilit a priori sur , uniforme sur lintervalle [0,1]. On fait N tirages avec remises et on obtient k boules noires. Quelle est la loi a posteriori de et son esprance ? On pourra vrier ce rsultat, laide dun logiciel, dans le cas pratique N = 10 ; k = 7.
3.6.3 Indpendances 2 2
On considre trois variables boolennes A1, A2 et A3, vriant les hypothses suivantes : A1 a 50 % de chances dtre vraie. A2 est indpendante de A1 et a galement 50 % de chances dtre vraie. A3 est vraie seulement lorsque A1 = A2. Construire un rseau baysien reprsentant ces hypothses. x Les trois variables sont-elles indpendantes ? Indpendantes 2 2 ? y Que constate-t-on quand on inverse un lien ? z Que constate-t-on quand on absorbe un nud ?
3.7 Commentaires et solutions des exercices

Exercice 3.1.1 page 42 Daprs le thorme de Bayes (cf. page 353), la probabilit quun individu soit une femme sachant quil est daltonien scrit : P(femme | daltonien) = P(femme)P(daltonien | femme) P(daltonien) (3.1)
Par ailleurs, la probabilit dtre daltonien peut tre dcompose selon lquation : P(daltonien) = P(femme) P(daltonien | femme) + P(homme) P(daltonien | homme). (3.2) (3.3)
On en dduit, en admettant que la population comporte autant dhommes que de femmes : P(femme | daltonien) = 0, 5 0, 005 0.5 0, 08 + 0.5 0.005 53 (3.4)
3.7. Commentaires et solutions des exercices
La proportion de femmes parmi les daltoniens est donc gale ron 5,88 %.
1 17 ,
soit envi-
Notons que lapplication du thorme de Bayes est intuitive : une femme sur deux cents est daltonienne ; or pour deux cents hommes, il y a en moyenne seize daltoniens. On retrouve ainsi de manire immdiate la proportion dune femme pour dix-sept daltoniens.
F IG . 3.3 Rseau baysien modlisant linuence du sexe dun individu (S) sur le daltonisme (D) Montrons prsent comment cet exercice peut tre rsolu laide dun rseau baysien. Soient S et D les variables correspondant au sexe de lindividu et au daltonisme. Daprs lnonc, le daltonisme est plus frquent chez les hommes que chez les femmes : il y a bien inuence de la variable S sur la variable D (gure 3.3 ). Sil y a autant dhommes que de femmes dans la population, la loi de probabilit du nud parent S est reprsente par le tableau suivant :
Homme 0.5 Femme 0.5
Quant la loi de probabilit conditionnelle de D en fonction de S, elle est caractrise, daprs lnonc, par le tableau suivant :
Daltonien 0,08 0,005 Non daltonien 0,92 0,995
Homme Femme
La structure de la gure 3.3 et les tables de probabilits des nuds S et D dnissent un rseau baysien. En saisissant ce rseau baysien laide dun logiciel et en y introduisant linformation D = daltonien , il apparat que la probabilit que lindividu soit une femme passe de 50 % 5,88 %. On retrouve ainsi la 1 proportion 17 . La gure 3.4 reprsente le rseau baysien saisi avec le logiciel Netica. Sur cette copie dcran, les lois de probabilit marginales des variables S et D sont reprsentes graphiquement laide dhistogrammes. Exercice 3.1.2 page 42 Cet exercice, ainsi que les deux suivants, est analogue lexercice 3.1.1 page 42. Il se rsout en appliquant le thorme de Bayes. On peut observer dans cet exemple que la relation entre les deux variables reprsentant ltudiant(e) et la langue tudie ne traduit pas ncessairement une causalit entre les paramtres. 54
Sexe Homme 50.0 Femme 50.0
Daltonisme Oui 2.65 Non 97.4
F IG . 3.4 Rseau baysien pour la relation entre le sexe dun individu et le daltonisme
(logiciel Netica) (Exercice 3.1.1 page 42)
Le pourcentage dtudiantes dans les cours de japonais est gale 56,25 %. Exercice 3.1.3 page 42 La probabilit que lanimal soit atteint est gale Exercice 3.1.4 page 43
1 La probabilit que le composant provienne de la chane A est gale 3 . 50 9851 ,
soit environ 0,51 %.
Exercice 3.2.1 page 43 tant donnes deux variables alatoires X et Y, et une fonction dterministe f deux variables, la loi de probabilit de la variable alatoire f(X, Y) peut tre dtermine laide dun rseau baysien ayant la structure de la gure 3.5 . Le rseau baysien propage les lois de probabilit de X et Y, quon peut supposer, dans cet exercice, uniformes sur lensemble {1, ..., 6}, de manire dterminer la loi de f(X, Y) = max(X, Y). Les rsultats numriques sont donns dans le tableau 3.4 ci-aprs.
f(X, Y)
F IG . 3.5 Rseau baysien pour la loi de probabilit dune fonction de deux variables alatoires : le modle propage les incertitudes sur X et Y. Exercice 3.2.2 page 43 La probabilit que la seconde pice soit en or, sachant que la premire est en or, est gale 2 , et non 1 comme on pourrait le supposer. La dmonstration de 3 2 ce rsultat est immdiate : si lon note respectivement X1 et X2 les vnements la premire pice tire est en or et la seconde pice tire est en or , la probabilit 55
Maximum des deux ds 1 2 3 4 5 6
Probabilit 1/36 = 2, 78 % 3/36 = 8, 33 % 5/36 = 13, 9 % 7/36 = 19, 4 % 9/36 = 25 % 11/36 = 30, 6 %
TAB . 3.4 Loi de probabilit de la valeur maximale de deux ds
Coffre 1 2 3
Or 0,5 1 0
Argent 0,5 0 1
TAB . 3.5 Loi de probabilit de la premire pice tire (Exercice 3.2.2 page 43)
recherche scrit, par dnition de la probabilit conditionnelle : P(X2 | X1 ) = P(X1 et X2 ) P(X1 ) (3.5)
Au numrateur, on reconnat la probabilit de tirer deux pices dor, cest-1 dire la probabilit de choisir le second coffre, gale 3 . La probabilit P(X1 ) qui 1 gure au dnominateur est gale 2 , par symtrie du problme. On en dduit le rsultat annonc.
coffre premire pice
seconde pice
F IG . 3.6 Rseau baysien pour le problme des trois coffres (Exercice 3.2.2 page 43)
Ce problme classique, d au mathmaticien Joseph Bertrand, peut tre rsolu laide dun rseau baysien ayant la structure de la gure 3.7. On peut supposer que la loi de probabilit du nud coffre est uniforme. La premire pice tire dpend du coffre, selon la loi de probabilit conditionnelle reprsente dans le tableau 3.5. La seconde pice dpend la fois du coffre et de la premire pice : la loi de probabilit de cette variable est donne dans le tableau 3.6 ci-aprs. On peut 56
Coffre 1 1 2 2 3 3
Premire pice Or Argent Or Argent Or Argent
Or Argent 0 1 1 0 1 0 impossible impossible 0 1
TAB . 3.6 Loi de probabilit de la seconde pice tire (Exercice 3.2.2 page 43)
remarquer que dans ce tableau, toutes les probabilits conditionnelles sont gales 0 ou 1 : la variable dpend de manire dterministe de ses variables parentes. La propagation travers le rseau baysien de lobservation la premire pice est en or modie les lois de probabilit des deux autres variables du modle, et lon vrie en particulier que la probabilit que la seconde pice soit en or, initialement 1 gale 2 , devient 2 . 3 Exercice 3.2.3 page 43 Le raisonnement du gelier est faux. Sans information particulire lui permettant denvisager lavenir avec plus ou moins doptimisme, Andy doit naturellement admettre que la probabilit quil soit condamn est gale 1 . Supposons que le gelier accde la demande dAndy et 3 dsigne, par exemple, Bruce comme devant tre libr. Cette information nest daucune utilit Andy, qui savait dj que lun de ses deux camarades serait 1 libr. La probabilit quAndy soit condamn demeurerait donc gale 3 . En re2 vanche, la probabilit que Charlie soit condamn devient 3 . Plusieurs modlisations de ce problme par rseau baysien sont possibles. La plus simple consiste introduire deux variables L et D, correspondant respectivement au prisonnier libr et au prisonnier dsign par le gelier, et construire un rseau baysien ayant la structure lmentaire de la gure 3.7 .
F IG . 3.7 Rseau baysien pour le problme des trois prisonniers
La loi de probabilit de L est uniforme, puisque chaque prisonnier a une chance sur trois dtre libr ; quant la loi de D, elle est caractrise par la table de probabilits conditionnelles du tableau suivant :
57
Andy condamn Bruce condamn Charlie condamn
Bruce est dsign par le gelier 0,5 0 1
Charlie est dsign par le gelier 0,5 1 0
En propageant dans le rseau baysien linformation D=Bruce , on constate que la probabilit quAndy soit libr reste inchange. Il existe de nombreuses versions de ce problme [PB99] : jeu des trois enveloppes, des trois portes, Monty Hall Problem. Exercice 3.2.4 page 44 Cet exercice dcrit un phnomne assez courant en statistiques et connu sous le nom de paradoxe de Simpson. Le tableau 3.1 page 44 montre que les blancs sont favoriss la fois dans les affaires o la victime est blanche (3,4 % de peines capitales contre 16,7 %) et dans celles o la victime est noire (0,5 % contre 0 %). Ces observations laissent supposer une discrimination favorable aux blancs. Cependant, les donnes agrges du tableau 3.1 page 44 montrent au contraire que les tribunaux favorisent globalement les noirs (2,4 % de peines capitales contre 3,2 %). An de comprendre le paradoxe, examinons de nouveau le tableau 3.1 page 44. On observe tout dabord que dans 92 % des affaires, le meurtrier et la victime sont de mme couleur de peau. Par ailleurs, les tribunaux sont nettement plus svres lorsque la victime est blanche que lorsquelle est noire : 5,2 % de peines capitales contre 0,5 %. Ainsi les meurtriers blancs apparaissent globalement dfavoriss parce que, statistiquement, leurs victimes sont plus souvent de la mme couleur de peau, et parce que les tribunaux sont, statistiquement, plus svres dans les affaires o la victime est blanche.
M C
F IG . 3.8 Dpendance entre la couleur de peau du meurtrier (M), la couleur de peau de la

victime (V) et la condamnation (C) sous forme dun rseau baysien. Nanmoins, pour un mme type daffaire (le type daffaire tant ici dni par la couleur de peau de la victime), les noirs sont nettement dfavoriss par rapport aux blancs. Or, pour tudier linuence du seul paramtre couleur de peau du meurtrier sur la dcision des tribunaux, il convient dtudier son effet indpendamment des autres paramtres, autant que le permettent les donnes disponibles. 58
Remarquons que si lon dtaillait encore davantage les donnes du tableau 3.1 page 44 (par exemple en distinguant les crimes avec ou sans prmditation, crapuleux ou passionnels, etc.), on pourrait tre amen reconsidrer les conclusions tires de lanalyse de ce tableau. Cet exercice montre combien il est dlicat de tirer des conclusions partir de statistiques et en particulier de postuler lexistence dune causalit partir de lobservation de corrlations entre variables.
F IG . 3.9 Rseau baysien construit par le logiciel Elvira (Exercice 3.2.4 page 44)
Pour modliser par un rseau baysien la distribution de probabilit reprsentes par ces donnes, notons respectivement M, V et C les variables correspondant la couleur de peau du meurtrier, celle de la victime et la condamnation. Diffrentes structures de rseau baysien sont envisageables pour relier les trois variables : la gure 3.8 page prcdente montre une solution possible. Comme les variables M et V sont fortement corrles, le lien entre ces deux variables peut tre considr comme indispensable, mais il nen est pas de mme des liens M C et V C, qui sappuient sur des corrlations moins videntes daprs les donnes de lexercice. Il est galement intressant dutiliser les donnes de cet exercice pour tester les fonctionnalits dapprentissage de structure dun logiciel de rseau baysien. En effet, les statistiques du tableau 3.1 page 44 peuvent tre considres comme rsumant un chier de 4764 observations du triplet (couleur meurtrier, couleur victime, condamnation). partir dun tel chier dexemples, certains logiciels sont capables de proposer des structures de rseau baysien qui traduisent les dpendances entre variables. La gure 3.7 est une copie dcran du logiciel Elvira, qui montre une structure de rseau baysien apprise par loutil partir des donnes. On note 59
lpaisseur du trait reliant la variable M (meurtrier) et V (victime) : le logiciel a clairement identi la corrlation trs forte entre ces deux variables. Exercice 3.3.1 page 44 Les rseaux baysiens sont des outils de diagnostic puissants. Dans le domaine mdical, ils offrent la possibilit de prendre en compte la fois lexpertise du mdecin, des donnes statistiques sur la frquence des pathologies, ainsi bien sr que les observations spciques au patient. Utilisons les notations A+ , A , B+ et B pour dsigner les diagnostics positifs ou ngatifs des mdecins A et B. La probabilit que le patient soit atteint du cancer sachant que le mdecin A ne la pas diagnostiqu scrit : P( cancer | A ) = P( cancer et A ) P(A ) (3.6)
Or, la probabilit dun diagnostic ngatif de A est : P(A ) = P( cancer )P(A | cancer ) + P( sain )P(A | sain ) Soit (3.7)
P(A ) = 0, 1 0, 4 + 0, 9 1 = 0, 94.
(3.8)
On dduit alors de ( 3.6) la probabilit que le patient soit atteint du cancer, sachant le diagnostic de A : P( cancer | A ) = 2 0, 1 0, 4 = 4, 26 %. 0, 94 47 (3.9)
Le mme raisonnement sapplique pour actualiser la probabilit aprs le diagnostic positif du second mdecin : P( cancer | A et B+ ) = P( cancer et A et B+ ) P(A et B+ ) (3.10)
Or, la probabilit dun diagnostic ngatif de A et dun diagnostic positif de B est : P(A et B+ ) = P( cancer )P(A et B+ | cancer) + P( sain )P(A et B+ | sain ) (3.11) Soit, en supposant que les diagnostics soient indpendants conditionnellement ltat du patient : P(A et B+ ) = 0, 1 0, 4 0, 8 + 0, 9 1 0, 1 = 0, 122. (3.12)
On dduit alors de ( 3.10) la probabilit que le patient soit atteint du cancer, sachant les diagnostics de A et B : P( cancer | A ) = 0, 1 0, 4 0, 8 16 = 26, 2 %. 0, 122 61 60 (3.13)
Exercice 3.3.2 page 45 La deuxime question est la plus facile traiter. En effet, puisque le second test ne gnre pas de dtection intempestive, un concurrent sain ne peut tre disquali que si le premier test le dclare positif. Ainsi : P(disquali |sain)) = 0, 01 (3.14)
valuons prsent la probabilit quun concurrent soit disquali. On peut lcrire : P(disquali) = P(disquali et sain) + P(disquali et dop) soit P(disquali) = P(sain)P(disquali |sain) + P(dop)P(disquali |dop) (3.16) Un concurrent dop sera positif si lun ou lautre des tests est positif. Do : P(disquali |dop) = 0, 95 + 0, 9 0, 9 0, 95 Lquation ( 3.16) donne alors : P(disquali) = 0, 9 0, 01 + 0, 1 (0, 95 + 0, 9 0, 9 0, 95) = 0, 1085 (3.18) (3.17) (3.15)
Le pourcentage de participants disqualis sera donc en moyenne de 10,85 %. Il reste valuer la probabilit quun concurrent disquali soit sain. Celle-ci scrit, daprs le thorme de Bayes : P(sain |disquali) = P(disquali |sain) P(sain) 0, 9 = 0, 01 disquali 0, 1085 (3.19)
La probabilit quun concurrent soit sain sachant quil a t disquali est donc environ gale 8,29 %. Exercice 3.3.3 page 45 Notons respectivement a, b, et c les probabilits que les composants A, B et C soient en marche. Pour que le systme soit en marche, il faut que A soit en marche, et que B ou C le soit galement. Par consquent, la probabilit que le systme soit en marche est gale : a.(b + c bc). (3.20) La probabilit de panne du systme est donc gale : P(panne) = 1 a.(b + c bc) = 30357 15, 2 %. 200000 (3.21)
Calculons la probabilit que A soit en panne sachant que le systme est en panne : P(A en panne | systme en panne) = P(A en panne et systme en panne) (3.22) P(systme en panne) 61
Lorsque A est en panne, le systme est forcment en panne. Par consquent, lvnement A est en panne et le systme est en panne se rsume A est en panne . Do : P(A en panne | systme en panne) = 30000 1a = 98.8 %. P(systme en panne) 30357 (3.23)
Si le systme est en panne, il est donc trs probable que le composant A soit en panne. Enn, la probabilit quaucun composant ne soit en panne est gale au produit abc, soit 153357 (environ 76,7 %). 200000 Cet exercice illustre lutilisation dun rseau baysien pour une tude de abilit. Les rseaux baysiens constituent une gnralisation des arbres de dfaillances : on aurait pu traiter dans cet exercice, le cas dun systme srie, parallle, deuxsur-trois , etc. Exercice 3.3.4 page 46 Lalarme automatique ne sera pas dclenche si deux ou trois dtecteurs sont en panne. Par consquent, en notant p0 la probabilit de panne dun dtecteur (gale 0,1), la probabilit de non-dclenchement de lalarme automatique scrit : C2 p2 (1 p0 ) + p3 . 3 0 0 (3.24)
Si lon suppose que le risque dincendie est indpendant de la prsence de loprateur et que loprateur est toujours apte dclencher lalarme lorsquil est prsent, il reste multiplier la probabilit de non-dclenchement de lalarme au2 tomatique par la probabilit que loprateur soit absent ( 3 ).
7 375 ,
On tablit ainsi que la probabilit que lalarme ne soit pas dclenche est gale soit environ 1,87 %.
Cet exercice est un autre exemple dutilisation dun rseau baysien pour une tude de abilit. Ici ltude est prvisionnelle, mais le mme rseau baysien peut aussi sutiliser en diagnostic, pour analyser a posteriori les causes dun vnement : si lalarme ne sest pas dclenche, chaque dtecteur a 32 % de chances de navoir pas fonctionn et loprateur tait ncessairement absent. Exercice 3.3.5 page 46 Notons respectivement T et T les vnements identication par le tmoin et test ADN positif . Daprs le thorme de Bayes, la probabilit de culpabilit du suspect scrit : P(coupable | T et T ) = P(coupable et T et T ) P(T et T ) (3.25)
Soit x la probabilit de culpabilit a priori du suspect. En supposant lindpendance conditionnelle du test ADN et du tmoignage humain, on a : P(coupable | T et T ) = 0, 7 0, 99 x 0, 7 0, 99 x + 0, 3 0, 01 (1 x) 62 (3.26)
Numriquement, avec x = 0, 1 et x = 0, 01, la probabilit de culpabilit est respectivement de 96,25 % et de 70 %. En dpit de la grande abilit du test ADN, la probabilit a priori de culpabilit du suspect inue fortement sur la conclusion que fournit le thorme de Bayes. En particulier, dans les deux situations extrmes o lon prsume linnocence (x = 0) ou la culpabilit (x = 1) du suspect, la probabilit de culpabilit reste respectivement gale 0 et 1 lorsquon lactualise avec le tmoignage et le rsultat du test ADN. Lutilisation du thorme de Bayes fait parfois lobjet de dbats dans la communaut juridique : un ouvrage rcent a dailleurs t consacr aux applications des rseaux baysiens en mdecine mdico-lgale [TAGB06]. Dans cet exemple, la modlisation par rseau baysien permet de combiner une information objective (le rsultat dun test scientique) et un tmoignage subjectif ; cependant, la notion de probabilit a priori du suspect pose des problmes thiques. Exercice 3.3.6 page 46 Cet exercice est un exemple dutilisation dun rseau baysien pour traiter un problme de dimensionnement. Notons D le nombre de demandes et n le nombre de vhicules. La variable D suit une loi de Poisson de moyenne 4, ce qui signie que pour tout entier naturel k : P(D = k) = e4 4k . k! (3.27)
Le nombre de demandes non satisfaites est nul si D n, et gal la diffrence n D sinon. Cela se rsume par lquation : D0 = max(0, D n). (3.28)
La loi de D0 peut tre explicite laide dun rseau baysien, par propagation de la loi de D, comme le montre la gure 3.7 ci-aprs. Thoriquement, les variables D et D0 ne sont pas bornes : cependant, comme les logiciels de rseaux baysiens ne traitent gnralement que des variables prenant un nombre ni de modalits, des valeurs maximales ctives (20 et 10) ont t attribues D et D0 . La probabilit quil y ait des demandes non satisfaites est p1 = P(D0 1). La probabilit quun car au moins reste au garage est p2 = P(D n 1). Enn, le taux dutilisation des cars est gal : = E (D D0 ) . n (3.31) (3.30) (3.29)
Rponses : avec n = 5 : il y a chaque jour, en moyenne, E (D0 ) = 0, 41 demandes non satisfaites ; p1 = 0, 215 ; p2 = 0, 63 et = 72 %. Avec 6 cars, ces rsultats numriques deviennent E (D0 ) = 0, 195 ; p1 = 0, 11, p2 = 0, 79, et = 63 %. 63
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Demandes 1.83 7.33 14.7 19.5 19.5 15.6 10.4 5.95 2.98 1.32 0.53 0.19 .064 .020 .006 .002 0+ 0+ 0+ 0+ 0+ 42
Demandes non satisfaites 0 78.5 1 10.4 2 5.95 2.98 3 1.32 4 0.53 5 0.19 6 .064 7 .020 8 .006 9 .002 10 0.41 0.95
F IG . 3.10 Dtermination de la loi de probabilit du nombre de demandes de cars non satisfaites (Exercice 3.3.6 page 46)
Exercice 3.4.1 page 47 Cet exercice montre lutilisation dun rseau baysien pour traiter un problme classique de rsolution de contraintes. An dexploiter les informations donnes par le statisticien, construisons un rseau baysien en introduisant tout dabord trois nuds correspondant aux ges des enfants. Faute dinformation particulire, on peut affecter a priori aux trois variables une distribution uniforme sur lensemble de valeurs {0, 1, 2, 3, 4, 5, 6}. La prise en compte de la contrainte C1 seffectue en introduisant une variable S, dont les variables parentes sont les ges des trois enfants, et qui est dnie comme la somme des trois ges. On peut alors propager linformation S = 15 travers le rseau baysien et observer lactualisation des lois de probabilit des ges des enfants. Conditionnellement cette information, il devient notamment impossible quun des trois enfants ait 0, 1 ou 2 ans. Puis on introduit une variable C2 , boolenne, vraie si et seulement si la contrainte C2 est satisfaite (cest--dire si Bianca est plus ge quAlbert). On peut alors propager linformation C2 est vraie . On procde de mme pour la contrainte C3 . La non-linarit des contraintes C2 et C3 ne pose aucun problme. La gure 3.11 ci-aprs reprsente la structure du rseau baysien ainsi obtenu. La loi de probabilit a priori quon se donne pour rsoudre lexercice na pas dimportance, car le statisticien a donn sufsamment dinformations pour que lon puisse dterminer de faon certaine les ges des trois enfants : Albert, Bianca 64
Albert
Bianca
Cornlie
C2
C3
F IG . 3.11 Rseau baysien pour le problme des ges
et Cornlie ont respectivement 5, 6 et 4 ans. Exercice 3.4.2 page 47

Juge 3
Culpabilit
Juge 2
Verdict
Juge 1
F IG . 3.12 Rseau baysien pour le problme des trois juges
La gure 3.12 reprsente la structure dun rseau baysien montrant linuence de la culpabilit sur les dcisions des juges, puis la dpendance du verdict en fonction des avis des 3 juges. Rponses : 72,2 %, 2,8 %, 10,4 % et 20,3 %. Exercice 3.4.3 page 47 La gure 3.13 ci-aprs propose une structure de rseau baysien pour reprsenter les informations de lnonc. Cet exemple met en vidence la double utilisation dun mme rseau baysien pour la prvision (dtermination des consquences probables partir des causes) et le diagnostic (dtermination des causes probables partir des consquences). 65
Gne pre 1
Gne pre 2
Gne mre 1
Gne mre 2
Yeux pre 1
Yeux mre 1
Gne enfant 1 Yeux enfant
Gne enfant 2
F IG . 3.13 Rseau baysien reprsentant linuence de la couleur des yeux des parents sur
la couleur des yeux de lenfant (Exercice 3.4.3 page 47)
Yeux pre Yeux mre
Yeux enfant
F IG . 3.14 Rseau baysien de la gure 3.13 , aprs absorption des variables correspondant
aux gnes
Certains logiciels de rseaux baysiens sont dots dune fonction dabsorption de nuds qui limine certains nuds du modle. Dans cet exercice, il est intressant de ne considrer que les variables observes, savoir les couleurs des yeux. En effet, les variables correspondant aux gnes nont pas dautre intrt que dexpliquer le phnomne dhrdit. On obtient alors le rseau baysien de la gure 3.14 . Ce procd d absorption de variables permet une vritable simplication du modle : il ne sagit pas seulement dun moyen damliorer sa lisibilit (Rponses : 2) 5,33 % ; 3) 7,44 % ; 4) 91 %, Non et 5) 42,2 %). Exercice 3.4.4 page 48 Rponses : 0,52 %, 1,81 % et 18,2 %. Les rsultats numriques montrent que la panne cache dun capteur compromet fortement le bon fonctionnement du systme. Cet exercice met en vidence lutilisation dun rseau baysien pour une tude 66
de type what-if : on dtermine simplement laide du modle quelle est laugmentation du risque due loccurrence dune panne. Dans le domaine des tudes de abilit, les rseaux baysiens ont lavantage de permettre la modlisation de composants prsentant des modes de dfaillance multiples. Exercice 3.4.5 page 48 Une structure du rseau baysien apte reprsenter les donnes de lnonc est propose dans la gure 3.15 . Le nud Contrainte est gal vrai si les candidats ont trois hobbies distincts et faux sinon. Linfrence baysienne partir des rponses des candidats seffectue en xant vrai la valeur de cette variable (Rponses : la probabilit quAlbert soit cinphile est de 78,7 % ; le hobby le plus probable dIgor consiste couter les Beatles).
Contrainte
Hobby Albert
Hobby Bruno
Hobby Igor
Rponse Beatles Albert
Rponse basket Bruno
Rponse cinma Igor
F IG . 3.15 Rseau baysien pour les hobbies des invits au jeu tlvis (Exercice 3.4.5
page 48) Exercice 3.4.6 page 49 Rponses : 9,2 degrs est la valeur la plus probable. Le rseau baysien est utilis dans cet exercice comme outil de fusion sensorielle : on estime la vraie valeur dun paramtre mesur par diffrents capteurs. Exercice 3.4.7 page 49 Rponse : la fourchette la plus probable pour m est lintervalle 800-1000 heures (probabilit de 60,4 %). Cet exercice montre lutilisation dun rseau baysien comme outil de statistique baysienne : on met jour une loi de probabilit a priori partir de donnes de retour dexprience. Exercice 3.4.8 page 50 Cet exercice est un autre exemple dutilisation dun rseau baysien pour propager des incertitudes : tant donnes deux variables X et Y entaches dincertitude, le rseau baysien calcule la loi de probabilit de f(X, Y). On retrouve ici la 67
structure de la gure 3.5 page 55 (page 55). Notons quavec la plupart des outils de rseaux baysiens, il est ncessaire de discrtiser les variables X, Y et f(X, Y) pour valuer la loi de probabilit de f(X, Y). Exercice 3.4.9 page 50 La demande peut tre satisfaite 93 % du temps (en t : 99 % ; en hiver : 83 %) ; dune unit de production. On aurait pu prendre en compte dautres dpendances : priodes de maintenance des lignes en fonction de la saison, dpendances entre lignes (pas de maintenance simultane sur les deux lignes, risque dincidents simultans sur les deux lignes, dus par exemple un fort givre, la foudre, une tempte, etc.). Lutilisation de rseaux baysiens pour les tudes de systmes lectriques sera aborde au chapitre 9.1 page 232. Exercice 3.5.1 page 50 Rodrigue doit accepter le duel (probabilit de succs = 36 %). Exercice 3.5.2 page 51 Les dcisions qui maximisent lesprance de lutilit sont respectivement : ne pas prendre de parapluie (utilit espre : 1) ; prendre un parapluie (utilit espre : 11, 6). Exercice 3.5.3 page 51 Emporter des boissons est la meilleure dcision dans les deux cas (chiffre daffaire espr : 340 euros et 550 euros). On remarque que lesprance du chiffre daffaires nest pas ncessairement le critre le mieux adapt la prise de dcision. Par exemple, le marchand peut prfrer une recette certaine de 300 euros une recette espre de 340 euros mais variable en fonction de lala climatique. Exercice 3.6.1 page 52 Ce rsultat thorique, qui se dmontre immdiatement par rcurrence, est important en pratique. Il montre en effet que, quelle que soit la complexit des interactions entre les variables du systme tudi, il est possible de les reprsenter par un rseau baysien. Exercice 3.6.2 page 53 La densit de probabilit a posteriori f(, k) du paramtre est daprs le thorme de Bayes : f(k | ) f(, k) = 1 (3.32) f(k | )f0 () d 0 o f0 () est la densit a priori du paramtre , uniformment gale 1 sur lintervalle [0, 1]. On obtient aprs calcul : f(, k) = (n + 1)! k (1 )nk k!(n k)! (3.33)
La loi a posteriori est donc une loi , de moyenne (k + 1)/(N + 2). Ainsi, avec k = 7 et N = 10, et une probabilit a priori de 50 %, le rseau baysien value la proportion de boules noires 2/3. Lapprentissage des probabilits partir de donnes 68
seffectue par estimation baysienne. Le terme rseau baysien provient cependant de lutilisation du thorme de Bayes pour propager les probabilits. Exercice 3.6.3 page 53 Les trois variables sont dpendantes, bien que deux deux mutuellement indpendantes. On observe que le problme est symtrique.
69
Deuxime partie
Cadre thorique et algorithmes
Chapitre 4
Modles graphiques et Indpendances
ans le chapitre dinitiation, nous avons prsent successivement les deux champs thoriques la base des rseaux baysiens, la thorie des graphes et la thorie des probabilits. Nous avons prsent une mthode intuitive de transposition dun graphe causal vers un espace probabilis. Enn, nous avons mentionn lexistence dun rsultat important reliant une proprit graphique (la d-sparation) et une proprit probabiliste (lindpendance conditionnelle). Ce type de rsultat est loin dtre vident au premier abord. En effet, on peut considrer intuitivement que les graphes permettent la reprsentation de relations binaires entre lments dun mme ensemble alors que les probabilits induisent une relation qualitative ternaire lindpendance conditionnelle qui ne semble pas autoriser le mme genre de reprsentation. Dans ce chapitre, nous allons prsenter les outils thoriques permettant de concilier effectivement la thorie des graphes et la thorie des probabilits. Cet expos est plus gnral que ce qui serait strictement indispensable pour les rseaux baysiens, puisque nous allons tudier dans le mme cadre thorique les modles non orients, appels aussi rseaux de Markov, et
4.1. Graphodes
les modles orients que sont les rseaux baysiens. En conclusion, nous prsentons quelques arguments qui nous font prfrer les arcs aux artes, ou autrement dit les rseaux baysiens aux modles de Markov.
4.1 Graphodes
La relation dindpendance conditionnelle sur un ensemble de variables V est une relation ternaire sur lensemble des parties de V et peut donc se dcrire, par extension, comme la liste des triplets de sous-ensembles disjoints de V vriant cette relation. Plus gnralement, une telle liste de triplets dtermine par extension une relation ternaire, quelle que soit la smantique de la relation. Cette partie tudie les proprits formelles et les structures intressantes dune telle relation.
4.1.1 Modles dindpendance

D FINITION 4.1 ( MODLE D INDPENDANCE ) Soit V un ensemble ni et non vide de variables, on note T (V) lensemble des triplets A B | C de sous-parties disjointes A,B, C de V o A et B sont non vides. Toute sous-partie de T (V) est un modle dindpendance. A B | C M est la proposition logique qui indique que le triplet A B | C appartient au modle dindpendance M. A B | C M A B | C M
N OTE 4.1 [Pea88a] parle de dependency model. Cependant, comme chaque triplet sera interprt, dans un contexte probabiliste, comme une indpendance conditionnelle, il semble opportun de proter de la traduction pour rectier cette appellation.
4.1.2 Semi-graphode et graphode

Les modles dindpendance tels que dnis ci-dessus sont des ensembles trs peu contraints. Pour tre utiles, ils doivent tre structurs. Cette structure est donne par de nouvelles notions, prsentes ici telles quintroduites par [Pea88a] : les semi-graphodes et les graphodes. D FINITION 4.2 ( SEMI - GRAPHODE ) Un modle dindpendance M est un semi-graphode sil satisfait pour tout A, B, S, P sous-ensembles disjoints de V :
74
Chapitre 4 Modles graphiques et indpendances
(Indpendance triviale) (Symtrie) (Dcomposition) (Union faible) (Contraction) et
A | S M A B | S M A (B P) | S M A (B P) | S M A B | (S P) M A P | S M B A | S M A B | S M A B | (S P) M A (B P) | S M
N OTE 4.2 Laxiome dindpendance triviale nest pas explicitement donn dans [Pea88a]. Cependant, comme le remarque [Wil94], il semble tre ncessaire et implicitement accept 1 .
On peut dnir pour chaque modle dindpendance M T (V) un semi-graphode SG(M) qui est le semi-graphode minimal (au sens de linclusion) contenant M. SG(M) est la fermeture de semi-graphode de M. D FINITION 4.3 ( GRAPHODE ) Un modle dindpendance M est un graphode sil est un semi-graphode et sil satisfait :
(Intersection) et A B | (S P) M A P | (S B) M A (B P) | S M
De mme que plus haut, G(M) est la fermeture de graphode de M. [Pea88a] donne de ces structures une reprsentation visuelle qui xe assez bien les ides sur les intuitions qui les sous-tendent (voir gure 4.1 ).
A S B P A S B A S B P A S B P
Dcomposition
A S B P A S P A S B P A S A S B P B P
Union faible
B P
Contraction
graphodes et les semi-graphodes.
Intersection
F IG . 4.1 Reprsentations graphiques [Pea88a] des diffrents axiomes caractrisant les
Les semi-graphodes et graphodes sont des structures trs abstraites qui possdent bien plus dun champ dapplication. [Daw98], [Stu97] ainsi
1
Voir, par exemple, [Pea88a], paragraphe 3.2.1, page 97 : (. . . ) Note that B1 () is nonempty because I(X, S, ) guarantees that (. . . ).
75
4.2. Modle dindpendance et loi de probabilit
que [CDLS99] en citent un certain nombre telles que : lindpendance conditionnelle probabiliste, lindpendance conditionnelle pour les fonctions de croyance, la dpendance multivalue, les fonctions conditionnelles naturelles, la thorie des bases de donnes relationnelles, la sparation dans les graphes, lorthogonalit despaces vectoriels, etc. Pour ce qui nous intresse ici, deux champs dapplication sont particulirement pertinents : lindpendance conditionnelle et la sparation dans les graphes.
4.2 Modle dindpendance et loi de probabilit

Le lien entre modle dindpendance et loi de probabilit est assez simple. Toute loi de probabilit P sur un ensemble V de variables dnit un modle dindpendance. Il suft en effet de lister lensemble des triplets (A, B, C) de sous-ensembles disjoints de V qui vrient la proprit dindpendance conditionnelle A B | C 2 . En notant MP le modle dindpendance ainsi cr, on a : T HORME 4.1 MP possde une structure de semi-graphode. Si P est positive alors MP possde une structure de graphode. Dmonstration Soit P une loi de probabilit et MP le modle dindpendance vriant : A B | C MP A B|C |= |=
MP doit alors vrier : x Symtrie
y Dcomposition A B P | S MP
2 Rappelons que la notion dindpendance conditionnelle est dpendante de la loi P. En toute rigueur, elle devrait donc scrire : A B | C[P] (voir page 355).
76
|=
A B P | S A B|S A B | S MP |= |=
|= |=
A B | S MP
A B | S B A|S B A | S MP
z Union faible A B P | S MP or A B P |S P = F(S P) (projection) A B P |S P A B|S P A B | (S P) MP |= |= |=
{ Contraction et Intersection Ces deux dmonstrations sont des utilisations directes des proprits (P4) et (P5) de la sous-section B.2.2 page 357. | Indpendance triviale A | S MP car A | S. |=
Ce thorme nonce une implication : le modle dindpendance issu dune loi de probabilit a une structure de semi-graphode. Il sagit maintenant de se poser la question rciproque : quen est-il dun semi-graphode ? Reprsente-t-il ncessairement une loi de probabilit ? C ONJECTURE 4.2 (P EARL AND PAZ , 1985) Soit M un modle dindpendance. Si M est un semi-graphode alors il existe une probabilit P telle que P(X | Y, Z) = P(X | Z) X Y | Z M
De plus, si M est un graphode alors il existe une probabilit P positive vriant cette relation. Malheureusement, [Stu92] montre que cette conjecture est fausse. T HORME 4.3 ([S TU 92]) Soit une famille de propositions de type : A1 B1 | C1 & . . . & Ar Br | Cr Ar+1 Br+1 | Cr+1 ()
Si |V|>4 alors aucune famille nie de propositions de type () ne peut caractriser compltement les relations dindpendance conditionnelle sur V.
N OTE 4.3 Une telle famille nie est une tentative daxiomatisation de la relation dindpendance conditionnelle (voir, par exemple, [GPP91] ou [Mal91]).
77
4.3. Modles dindpendance et sparation dans les graphes
La dnition dun graphode prend effectivement la forme dune famille de type () page prcdente. Donc, daprs ce thorme, un modle dindpendance muni dune structure de graphode ne peut caractriser compltement toute relation dindpendance conditionnelle. La conjecture 4.2 page prcdente est donc fausse dans le cas gnral. Cependant, pour des classes particulires de modles dindpendance, cette rciproque est vrie, par exemple pour des modles dindpendance o toutes les variables de V apparaissent dans au moins un triplet ([GP90], [Mal91]), ou encore pour des modles dits marginaux o les variables de conditionnement sont xes ([GPP91]). De tels rsultats ngatifs ou restrictifs remettent en cause lutilisation des modles dindpendance pour manipuler les indpendances conditionnelles probabilistes. Heureusement, [Stu97] propose un thorme (assez technique) qui permet dtablir que lintuition de Pearl qui avait conduit lintroduction de la notion de semi-graphode et la conjecture 4.2 page prcdente tait bien fonde. T HORME 4.4 La fermeture F de sous-graphode de tout couple dlments de T (V) est un modle dindpendance conditionnelle probabiliste.
Cest--dire : il existe une loi de probabilit P sur lensemble des variables V telle que P(X | Y, Z) = P(X | Z) X Y | Z F .)
4.3 Modles dindpendance et sparation dans les graphes

De la mme faon que pour les probabilits dans la sous-section prcdente, les modles dindpendance permettent aussi de dcrire certaines proprits en thorie des graphes. Rciproquement, reprsenter un modle par un graphe permettrait de visualiser beaucoup plus facilement la relation reprsente par ce modle. Comme il a t dit plus haut, lcueil principal est quun graphe est une relation binaire entre les lments dun ensemble alors quun modle dindpendance est une relation ternaire entre sous-parties de cet ensemble. Le lien entre ces deux types de relation est apport par la notion de sparation. La sparation tablit, quel que soit le type de graphe, sil est possible de sparer (dans un certain sens) deux sous-ensembles de nuds par un troisime. Le certain sens dpend du type de graphe qui est utilis (voir les sections suivantes qui dcrivent prcisment ces sparations). D FINITION 4.4 (S PARATION ) Soit un graphe G = (V, E), pour tout triplet (X, Y, S) de sous-parties de V, disjointes deux deux, on note X | S | Y G la proprit X et Y sont spars par S
78
dans le graphe G .
N OTE 4.4 La proprit contrapose de la sparation est appele la connexion. X et Y, sousensembles de V , sont donc soit connects, soit spars par Z.
La sparation permet dintroduire une relation ternaire sur les sousensembles de nuds dun graphe. Tout comme dans la sous-section prcdente, il sagit maintenant de prciser la formalisation de cette relation comme modle dindpendance. D FINITION 4.5 (I- MAP, D- MAP, P- MAP, GRAPHE - ISOMORPHISME ) soit G = (V, E) un graphe et M T (V) un modle dindpendance,
G est une D-map de M ssi G est une I-map de M ssi G est une P-map de M ssi X Y | Z M X Y | Z M X Y | Z M X |Z |Y X |Z |Y X |Z |Y
G. G. G.
Un modle dindpendance est dit graphe-isomorphe si et seulement sil existe un graphe G qui soit une P-map de M.
N OTE 4.5 Les termes de D-map (dependency map), I-map (independency map) et P-map (perfect map) ont t gards comme dnis par [Pea88a].
Si un graphe G est une D-map dun modle M, toute connexion de sousensembles de nuds indique une dpendance dans M (contrapose de la dnition ci-dessus). Rciproquement, si le graphe est une I-map, toute sparation est alors lindication dune indpendance dans le modle. Enn, une P-map est la fois une D-map et une I-map. En notant MG le modle dindpendance induit par la sparation dans le graphe G (cest--dire X | Z | Y G X Y | Z MG ), on peut aussi dire que pour un modle dindpendance M : G est une D-map de M si et seulement si M MG (certaines indpendances lues par sparation dans le graphe G ne sont pas dans le modle M). G est une I-map de M si et seulement si M MG (toute indpendance lue par sparation dans le graphe G est prsente dans le modle M ; cependant, certaines indpendances du modle M ne sont pas reprsentes). G est une P-map de M si et seulement si M = MG.
E XEMPLE 4.6 Pour un ensemble de variables V , le graphe (V, ) est une I-map de tout modle dindpendance. De mme, le graphe non orient complet (V, V V ) est une D-map de tout modle dindpendance.
De fait, lexpressivit de chaque type de graphe va dpendre de lexacte dnition de la sparation puisque cette dernire aura des rpercussions
79
4.4. Modles non orients : rseaux de Markov
fortes sur la classe des modles qui peut y tre reprsente. Ainsi il savre que certains modles nont de P-map dans aucun type de graphe. Si un modle na pas de P-map, aucune reprsentation graphique ne sera complte. Utiliser une reprsentation graphique dun modle dindpendance nest pas intressant si cette reprsentation est capable de mentir sur le modle. Un moindre mal est que le mensonge soit par omission et le plus faible possible. Cest la raison pour laquelle la notion la plus importante est celle de I-map minimale. Les trois sections suivantes sattachent dcrire plus exactement la sparation dans les diffrents types de graphe.
4.4 Modles non orients : rseaux de Markov

4.4.1 Dnition
D FINITION 4.6 (S PARATION NON ORIENTE ) Soit G = (V, E) un graphe non orient ; pour tout triplet (X, Y, Z) de sous-ensembles disjoints de G, X est spar de Y par Z dans G (not X | Z | Y G) si et seulement si toute chane dun nud de X vers un nud de Y passe par un nud de Z. (xi)i{1...p}N chane de G, i {1 . . . p} , xi Z
X |Z |Y
x1 X xp Y
E XEMPLE 4.7 Dans la gure 4.2 , toutes les chanes de {1, 4, 7} vers {3, 5, 6} passent ncessairement par 2 : {1, 4, 7} | {2} | {3, 5, 6} . De mme, toutes les chanes de 2 vers 5 passent ncessairement par 6 ou 3 : {2} | {6, 3} | {5} .
1 3
F IG . 4.2 Sparation dans un graphe non orient
80
4.4.2 Sparation et indpendances : proprits de Markov

Soit un graphe G = (V, E) et une probabilit P sur lensemble des variables V. La question qui se pose ici est de trouver le rapport entre sparation et probabilit (ou plus exactement indpendance conditionnelle), qui permet de mesurer la prcision des informations que le graphe G apporte sur P. Cette mesure est donne par une srie de proprits dites de Markov qui sont plus ou moins fortes : plus le graphe vrie de proprits fortes, mieux il reprsente la loi P. D FINITION 4.7 (P ROPRITS DE M ARKOV ) Le graphe G et la loi P peuvent vrier : (P) la proprit de Markov par paire si et seulement si x, y V, x et y non adjacents dans G, x y | (V \ {x, y}) |=
(L) la proprit de Markov locale si et seulement si x V, x V \ x | x |=
o x est le voisinage du nud x et x est la fermeture de voisinage de x, cest--dire x = x {x} (voir section A.3 page 341). (G) la proprit de Markov globale si et seulement si A, B, S V disjoints, A |S |B
G
D FINITION 4.8 (R SEAU MARKOVIEN ) Un graphe vriant (G) pour P est un rseau markovien de P. La proprit (G) de Markov globale correspond un graphe G, I-map du modle dindpendance conditionnelle probabiliste engendr par P. Les proprits sont ici donnes dans lordre de force croissante. Plus prcisment, ces trois proprits sont en relation comme suit : T HORME 4.5
B|S
Dmonstration
(G) (L) (P)

G.
(G) (L) : on a toujours x | x | V \ x

81
|=
4.4. Modles non orients : rseaux de Markov
(L) (P) : soit un graphe G et une loi P pour lesquels (L) est vrie. x V \ x | x Soit x et y non adjacents dans G. Daprs la proprit (P3) de la soussection B.2.2 page 357, x ou encore x |= |= V \ x | x V \ x \ {y} |=
V \ x | V \ {x, y}
Or y V \ x (en tant que non adjacent de x) et donc, daprs la proprit (P2) de la sous-section B.2.2 page 357, x y | V \ {x, y} |=
Les rciproques (P) (L) (G) seraient bien plus intressantes que le thorme lui-mme. En effet, tester (P) ne demande que de tester chaque paire de variables non adjacentes alors que tester (G) demande un calcul sur un grand nombre de triplets de sous-ensembles de V. Avec les rciproques, il serait ais dobtenir des rsultats sur la qualit de reprsentation du modle dindpendance de P par le graphe G. Malheureusement, elles ne sont pas toujours vraies. Le rsultat 3 exact est le suivant : T HORME 4.6 Si la loi P vrie la proprit suivante : A, B, C, D sous-ensembles disjoints de V, Si A B | C D et A C | B D alors A B C|D |= |= |=
N OTE 4.8 On note que la proprit que doit vrier P est exactement la proprit P5 page 357.
Alors, lquivalence (G) (L) (P) est vrie.
4.4.3 Rseaux de Markov et factorisation

Dans le chapitre prcdent, on a montr la relation entre indpendance conditionnelle et factorisation de la probabilit (voir thorme B.2 page 356). Ncessairement, une relation existe entre proprits de Markov et factorisation.
3
Pearl and Paz
82
D FINITION 4.9 (FACTORISATION ) Soit une loi de probabilit jointe P(V) et un graphe non orient G = (V, E), on dit que P possde une factorisation selon G si et seulement si pour tout sous-graphe complet S de G, il existe une fonction S(V) ne dpendant que des nuds de S telle que : P(V) = S(V)
S sous-graphe complet de G
S est appele un potentiel. Cette factorisation de P en potentiels nest pas unique. De fait, par multiplication des potentiels, on peut restreindre la factorisation lensemble des cliques de G. P ROPRIT 4.10 Soit C lensemble des cliques de G. P se factorise selon G si et seulement si pour toute clique C de C, il existe un potentiel C tel que : P(V) =
CC
C(V)
Toutes les probabilits ne se factorisent pas ainsi. On note souvent MF(G) lensemble des probabilits pouvant se factoriser ainsi selon G. Pour une probabilit P, on note (F) la proprit P MF(G) . La relation entre factorisation et proprits de Markov peut alors snoncer comme suit : T HORME 4.7 Une probabilit P pouvant se factoriser selon G vrie alors la proprit globale de Markov (G) (qui, elle-mme, implique les deux autres proprits de Markov : locale (L) puis par paire (P)). (F) (G) (L) (P).
De plus, si P est positive,
(F) (G) (L) (P).
4.4.4 Limites
Grce ces rsultats, la reprsentation graphique dune probabilit sur plusieurs variables par un graphe non orient sur ces variables semble bien cerne. Il est possible de discerner assez aisment les I-map dune loi de probabilit et mme dessayer de les amliorer pour obtenir une I-map minimale. Pourquoi chercher plus loin et essayer de trouver dautres repr 83
4.5. Modles orients : rseaux baysiens
sentations certainement plus complexes, en tout cas moins intuitives ? La raison principale est la limitation du modle non orient. Soit un systme de trois variables {D1, D2, S}. D1 et D2 reprsentent toutes deux le tirage dun d (valeur entre 1 et 6) ; S reprsente la somme de ces deux tirages (valeur entre 2 et 12). Ce systme vrie le modle dindpendance reprsent dans le tableau 4.1.
D1 D2 non D1 S non D2 S non D1 D2 | S |= |= |= |= Les deux tirages sont indpendants Chaque tirage et la somme sont dpendants La connaissance de la somme rend dpendants les deux tirages
TAB . 4.1 Modle dindpendance de {D1 , D2 , S}
D1
D2
Pour reprsenter un tel modle, il faudrait pouvoir : ne pas relier D1 et D2 ; relier D1 et S, relier D2 et S ; trouver un moyen pour quil ny ait pas D1 | S | D2 .
F IG . 4.3 Reprsentation non

oriente des relations dans {D1 , D2 , S}.
Il nest pas possible de reprsenter par une P-map un tel modle dans un graphe non orient. La gure 4.3 est une reprsentation possible. Ce graphe ne vrie que les deux premiers points mais ne vrie pas le troisime. En fait, il ne vrie ni (G), ni (L), ni mme (P). Une autre reprsentation serait un graphe complet entre les trois variables, mais le premier point ne serait pas vri et la reprsentation ne serait pas meilleure. Do lintrt daller chercher des modles plus complexes qui permettent de mieux reprsenter (ou au moins diffremment) ces lois de probabilit en utilisant des graphes orients.
4.5 Modles orients : rseaux baysiens

4.5.1 Dnitions
La sparation dans les graphes orients est plus complexe que dans les graphes non orients. En effet, il ne suft pas de savoir si au moins un nud de tout chemin entre X et Y appartient Z ; il faut aussi que ce nud vrie des conditions supplmentaires, apportes par les orientations des arcs. Cette notion provient galement de [Pea87a]. Tout comme lui, on prsen 84
tera dabord la notion de chane active qui facilite grandement celle de sparation oriente (directed separation ou d-sparation). Dans toute cette partie, on considrera que les graphes orients dont on parle sont sans circuit. Soit une chane C = (xi)iI dans un graphe orient G . On dira que xi est un puits de la chane C sil est du type : xi1 xi xi+1 ; cest--dire sil est un sommet arcs convergents dans la chane. D FINITION 4.11 (C HANE ACTIVE , BLOQUE ) Soit une chane C = (xi)iI dans G et Z un sous-ensemble de nuds de G . C est une chane active par rapport Z si les deux conditions suivantes sont runies : Tout puits de C a lun de ses descendants dans G ou lui-mme qui appartient Z. Aucun lment de C qui ny est pas un puits nappartient Z. Une chane non active par rapport Z est dite bloque par Z.
Le type de modles dindpendance que peuvent prendre en compte les graphes orients (et que ne pouvaient pas prendre en compte les graphes non orients) est caractris dans cette dnition un peu complexe : comment reprsenter la situation o deux variables sont indpendantes mais o la connaissance dune troisime les rendrait dpendantes 4 ? Pour deux variables qui ne sont relies que par une unique chane, cette situation se prsente si lunique chane est bloque par la troisime variable en question. D FINITION 4.12 ( D - SPARATION ) Soit G = (V, E) un graphe orient, pour tout triplet (X, Y, Z) de sous-ensembles disjoints de V, X est d-spar de Y par Z dans G (not X | Z | Y ) si et seulement G si toute chane (xi)i{1...p} avec x1 X et xp Y est bloque par Z. La d-sparation est certainement moins lisible que la sparation. Cependant, il est facile dautomatiser une procdure de reconnaissance ou mme, avec un peu dexprience, de reprer directement les sous-ensembles dspars dun graphe.
E XEMPLE 4.9 Dans la gure 4.4 ci-aprs, non {1} | {2} | {3} - il y a deux chanes : {1, 2, 3} et {1, 4, 2, 6, 5, 3}. La seconde est bloque par 2 (qui nest pas un puits dans cette chane) et par 6. En revanche, la premire est active puisque 2 y est un puits. De mme, si on considre la d-sparation de {1} et {3} par {7}, la chane {1, 2, 3} est active puisque 7 est un descendant de 2, puits de la chane. {3} | {4} | {7} - toutes les chanes de 3 7 passent par 4 et 4 ny est jamais un puits. Donc toutes les chanes de 3 7 sont bloques par 4.
4
Cest exactement le cas dans la sous-section 4.4.4 page 83.
85
F IG . 4.4 Sparation dans un graphe orient
4.5.2 Proprits de Markov dans les graphes orients

Ltude des proprits de Markov dans les graphes orients et donc de la qualit de reprsentation des modles orients est la base du dveloppement du domaine des rseaux baysiens. On peut ainsi citer [KSC84], [Pea87a], [Smi89], etc. La dnition de la d-sparation montre que la symtrie entre tous les voisins dun nud dans un graphe est brise par lorientation : les puits et les descendants des puits jouent un rle trs particulier. Ce rle se rpercute dans les proprits orientes de Markov par limportance de la notion de non-descendant dans ces noncs. D FINITION 4.13 (P ROPRITS ORIENTES DE M ARKOV ) Le graphe G et la loi P peuvent vrier : (OP) Proprit oriente de Markov par paire si et seulement si x, y V, x et y non adjacents dans G et y nd (x), x y | nd (x) \ {y} (OL) Proprit oriente de Markov locale si et seulement si x V, {x} nd (x) | x |= |=
(OG) Proprit oriente de Markov globale si et seulement si A, B, S V disjoints, A |S | B

G
D FINITION 4.14 (R SEAU BAYSIEN ) Un graphe orient vriant (OG) pour P est un rseau baysien de P.
86
B|S
|=
Comme pour les graphes non orients, (OG) reprsente la plus forte proprit que peut vrier un graphe orient pour y lire directement une indpendance conditionnelle. De mme que pour les rseaux markoviens, on a : T HORME 4.8 De plus, (OG) (OL) (OP)
Il est remarquer quil y a toujours quivalence entre (OG) et (OL), contrairement au cas non orient. Par contre, le thorme 4.6 page 82 reste vrai pour lquivalence entre (OP) et (OL). En particulier, si la loi P est positive, alors il y a quivalence entre les trois proprits orientes de Markov.
4.5.3 Rseaux baysiens et factorisation

De mme que pour les rseaux de Markov, il faut maintenant relier proprits de Markov et factorisation de la probabilit. Cette factorisation est tonnamment simple et suft elle seule expliquer une grande partie de lintrt port aux rseaux baysiens. D FINITION 4.15 (FACTORISATION RCURSIVE ) Soit une loi de probabilit jointe P(V) et un graphe orient G = (V, E) On dit que P possde une factorisation rcursive selon G si et seulement si pour tout nud X de G, il existe une fonction kX(X, X) telle que : P(V) =
XV
kX(X, X)
De plus, les fonctions kX (kernels ou noyaux de Markov) sont les lois de probabilit conditionnelles de X tant donn X : P(V) =
XV
P(X | X)
Bien sr, toutes les lois ne se factorisent pas ainsi. Soit (OF) la proprit P se factorise rcursivement selon G . La relation entre factorisation rcursive et proprits orientes de Markov peut alors snoncer comme suit :
87
T HORME 4.9
Par ailleurs, il ny a pas forcment unicit du graphe G permettant la factorisation rcursive de P, on appelle classe dquivalence de Markov lensemble des graphes permettant une factorisation rcursive de P, cest-dire lensemble des graphes reprsentant le mme modle dindpendance. Bien plus que pour les rseaux de Markov, la factorisation rcursive est intressante aussi pour la reprsentation de la loi : les noyaux de Markov sont des fonctions dpendant chacune dun unique nud du graphe. Ce qui implique que la reprsentation graphique de la loi peut tre amliore grce une localisation des donnes qui suit exactement le graphe, sans structure complmentaire. Le graphe ainsi augment reprsente qualitativement la loi de probabilit (en indiquant les indpendances conditionnelles) mais aussi quantitativement (en permettant les calculs par factorisation).
E XEMPLE 4.10 Soit le graphe G de la gure 4.4 page 86. Une loi P se factorisant rcursi vement par rapport G peut scrire : P(1, 2, 3, 4, 5, 6, 7) = P(1).P(3).P(2 | 1, 3).P(4 | 1, 2).P(5 | 3).P(6 | 2, 5).P(7 | 4)
(OF) (OG)
P(1)
P(3)
1
P(2 | 1, 3)
3
P(5 | 3)
7
P(7 | 4)
4
P(4 | 1,2)
6
P(6 | 2, 5)
F IG . 4.5 Reprsentation graphique dun rseau baysien les probabilits conditionnelles

(ainsi que leurs dimensions) sont reprsentes pour chaque nud.
Ce qui est intressant noter est, tout dabord, la compression que reprsente une telle factorisation : en supposant que toutes les variables sont binaires, P(1, 2, 3, 4, 5, 6, 7) reprsente un tableau comprenant 27 = 128 valeurs. La factorisation, elle, est reprsente par un ensemble de tableaux comprenant en tout 2 + 2 + 8 + 8 + 4 + 8 + 4 = 36 valeurs. On reprsente donc exactement la mme loi avec trois fois moins de valeurs.
88
La seconde proprit intressante dune telle dcomposition est que les probabilits conditionnelles impliques dans la factorisation sont trs faciles lire partir du graphe puisquelles sont toutes lies un nud particulier. En fait, dans la reprsentation graphique, on peut joindre chaque nud sa probabilit conditionnelle suivant ses parents (voir gure 4.5 page prcdente), ce qui augmente laspect synthtique de la reprsentation.
4.5.4 Limites
Tout comme pour les rseaux de Markov, il existe des limites la capacit dexpressivit du modle des rseaux baysiens. Les questions sont toujours : existe-t-il des lois de probabilit (des modles dindpendance) qui ntaient pas reprsentables par un rseau de Markov mais qui le soient par un rseau baysien ? Existe-t-il des lois de probabilit qui ne soient pas reprsentables par un rseau baysien 5 ? En ce qui concerne la premire question, D2 lexemple de la sous-section 4.4.4 page 83 dont D1 le modle dindpendance est donn par le tableau 4.1 page 84 est bien reprsentable par S un rseau baysien (voir la gure 4.6 ). En effet, le puits S de lunique chane entre D1 et D2 as- F IG . 4.6 Rsolution oriente de la sure la dpendance de D1 et D2 tant donn S et gure 4.3 page 84 lindpendance marginale de D1 et D2. Certains modles sont cependant problmatiques. Soit une probabilit sur les quatre variables A, B, C, D vriant le modle dindpendance conditionnelle dcrit dans le tableau 4.2. Ce tableau prsente aussi la forme dun rseau de Markov pour cette loi.
non A B non A C non B D non C D A C | {B, D} B D | {A, C} |= |= |= |= |= |=
A B D C
TAB . 4.2 Modle dindpendance de {A, B, C, D} et un rseau de Markov le reprsentant
Il nest pas possible de trouver un rseau baysien reprsentant ce modle dindpendance : la structure de base (due aux indpendances margi5
De mme que plus haut, une loi est reprsentable si elle possde une P-map.
89
4.6. Pourquoi des arcs plutt que des artes ?
nales) doit tre celle du rseau de Markov prsent (le rseau baysien doit avoir comme graphe non orient sous-jacent ce rseau de Markov). Mais tant donn quun rseau baysien doit tre un DAG, lun de ces nuds doit tre un puits. Il est alors facile de vrier que lune des indpendances conditionnelles (A C | {B, D} ou B D | {A, C}) sera ainsi ncessairement viole. |= |=
4.6 Pourquoi des arcs plutt que des artes ?

Les deux modles orient et non orient ont montr leurs imperfections dans le sens o aucun na un pouvoir de reprsentation au moins gal celui de lautre. Comment choisir dans ces conditions entre une modlisation oriente et une modlisation non oriente ? Ou plutt, puisque le suspense nest pas de mise, pourquoi choisir la reprsentation sous forme de rseau baysien ? Il sagit ici dessayer de lister lensemble des raisons qui participent ce choix.
4.6.1 Factorisation
Comme simple rappel, un rseau de Markov permet de factoriser la loi de probabilit jointe comme suit : P(V) =
CC
C(V)
o C est lensemble des cliques du graphe non orient. Cette factorisation est comparer la factorisation rcursive des rseaux baysiens : P(V) =
XV
P(X | X)
Il est alors ais de voir les avantages de la seconde reprsentation : Unicit : la factorisation rcursive a le grand mrite dtre unique (tant donn le graphe) alors que la factorisation en potentiels ne lest pas. Il existe une famille de potentiels qui vrient cette galit. Localisation : alors que dans un rseau baysien, il semble clair et guratif de localiser linformation dans chaque nud du graphe, la factorisation dans un rseau de Markov localise linformation dans chaque clique ; ceci ncessite lutilisation de la structure seconde quest le graphe de jonction pour pouvoir localiser aisment cette information.
90
4.6.2 Smantique et causalit

Lorientation permet aussi de garantir une certaine lisibilit du graphe. Mme si le sens des arcs peut tre illusoire, ou si la dsorientation a le mrite dtre plus proche des donnes (puisquune corrlation en statistique est une opration symtrique), il nen reste pas moins que lorientation est une aide prcieuse pour la lecture et la comprhension dun rseau. Par exemple, la gure 4.7 montre assez clairement comment le thorme de Bayes est reprsentable uniquement grce lorientation dune liaison entre deux nuds.
A A A
B P(A, B) =
P(A).P(B | A) = P(B).P(A | B)
F IG . 4.7 Le thorme de Bayes comme inversion darcs
Il ny a pas lieu ici de parler trs prcisment de causalit. Ce domaine reste un sujet polmique o tous les avis sont encore reprsents. La question de savoir si la causalit est une notion mathmatiquement reprsentable ou non nest pas tranche ; de mme, celle de savoir si une quelconque causalit peut tre retrouve statistiquement partir dune base de donnes. Disons simplement que pour linstant, le domaine est ouvert6 . Toutefois, la causalit est une notion intuitive, quun humain comprend nalement plus naturellement que la corrlation statistique. Dans le cadre dun processus de construction dun modle par un expert, cette causalit a donc un rle important. Pour plus de prcisions, on pourra se rfrer, par exemple, [SGS00] et [Pea99]. Dun point de vue pratique, pour relier la causalit au thorme de Bayes reprsent dans la gure 4.7 , il semble opportun de reprsenter la loi jointe dune cause A et de sa consquence B par la factorisation P(A).P(B | A) : la probabilit que la consquence se produise sachant que la cause sest dj produite a bien un sens causal. Seuls les rseaux baysiens, par opposition aux rseaux markoviens, sont capables dune telle repr6
Pour plus de dtails, voir principalement [Pea01].
91
4.6. Pourquoi des arcs plutt que des artes ?
sentation de la causalit. Un rseau baysien qui respecte cette causalit est nomm rseau causal.
4.6.3 Pragmatisme
La phase de construction dun modle est bien sr une phase sensible. Il y a principalement deux mthodes pour le construire : soit utiliser lapprentissage automatique (et toutes les mthodes qui sy rfrent), soit tre aid dexperts qui seront capables de transposer leurs connaissances du domaine dans la formalisation du modle. Cette transposition nest pas une tche facile. Il est donc important de faciliter le plus possible le travail de lexpert. Lui demander de dcrire des potentiels de cliques de variables semble vraiment difcile. Alors que lestimation localise nud par nud, et si possible utilisant la causalit, est beaucoup plus du domaine de laccessible. Cependant, il ne sagit pas de se leurrer. Ce travail reste souvent trs difcile.
92
Chapitre 5
Propagations dans les rseaux baysiens
e modle reprsent par un rseau baysien nest pas un modle statique, ferm. Il est capable dintgrer de nouvelles informations exognes nommes habituellement E. Celles-ci, en modiant la vraisemblance de certains nuds, vont modier les probabilits a posteriori de lensemble du systme. Dune manire gnrale, tout calcul portant sur la distribution de probabilit associe un rseau baysien relve de linfrence. Certains types de calcul ont traditionnellement une plus grande importance, parce quils peuvent correspondre des utilisations pratiques. Cest vrai en particulier du calcul de la probabilit dune variable conditionne un ensemble dobservations. Ce type dinfrence, appele aussi mise jour des probabilits, est essentiel dans des applications de diagnostic, o lon doit reconsidrer son apprciation de la situation en fonction dune ou plusieurs nouvelles observations. Le problme de linfrence est uniquement un problme de calculs. Il ny a aucun problme thorique ; en effet, la distribution de probabilit tant entirement dnie, on peut (en principe) tout calculer. Il nous semble important de prciser ce point avant daborder ce cha-
5.1. Propagation par messages locaux dans un arbre
pitre. En effet, notre objectif ici est de prsenter des mthodes de calcul pour linfrence dans un rseau baysien. Notre discussion portera donc sur des aspects algorithmiques. On nomme une information affectant un nud X une information lmentaire sur le nud X. On distingue deux grandes classes dinformations lmentaires : Dterministes : une certaine variable du modle prend une valeur prcise : p(X = x | E) = 1 ; on parle aussi dinstanciation dune variable. Une telle information lmentaire est note EX ; Imprcises : une certaine variable du modle ne peut pas prendre une valeur : p(X = x | E) = 0 ou encore plus gnralement, la loi dune certaine variable change : P(X | E) = P(X). On note simplement EX ce type dinformation lmentaire. Pour tenir compte de ces informations, le rseau baysien doit mettre jour lensemble des lois de ses variables. Cette opration, linfrence probabiliste, a t prouve NP-difcile dans le cas gnral ([Coo88], [Coo90]). Deux classes principales de mthodes exactes sont utilises pour leffectuer : les mthodes dites de propagation de messages tendues par des algorithmes de coupe (ou de conditionnement) [Pea88a] et les mthodes utilisant des regroupements de nuds ([LS88], amliores par [JLO90], [Jen96]). Les premires proposent un mcanisme de calcul utilisant la propagation de messages le long des arcs dun graphe sans cycle (la mthode est facilement gnralisable tous les graphes grce un algorithme dit de coupecycle), les secondes oprent dabord des modications importantes du graphe (appeles moralisation et triangulation) pour obtenir une structure secondaire darbre de jonction dans laquelle chaque nud reprsente une clique du rseau baysien et qui permet dappliquer un algorithme simpli de propagation de messages (mthodes dites de clustering). Enn, il faut noter aussi quexiste un certain nombre de mthodes approches base de mthodes stochastiques type MCMC ([Hen88], [GRS96], [MRR+53]), comprenant entre autres les chantillonneurs de Gibbs ([Nea93], [Yor92]). Les sections suivantes sappliquent dcrire plus exactement ces diffrents calculs.
5.1 Propagation par messages locaux dans un arbre

Pour un rseau baysien (V, G, P(X | X) XV ), une mthode de rsolution exacte du problme du calcul des diffrentes probabilits margi 94
Chapitre 5 Propagations
nales a posteriori (P(X | E)) a t propose en premier par [KP83]. Cette mthode procde par calculs locaux, en chaque nud du graphe. De proche en proche, chaque nud communique ses voisins les informations quil a collectes, jusqu ce que tout nud puisse mettre jour sa probabilit marginale en fonction de lensemble de linformation E reue par le graphe. Rappelons que linformation E exogne se compose dinformations lmentaires dterministes ou imprcises sur un sous-ensemble des nuds du graphe. Cette propagation agit par transmission de messages entre nuds voisins, transitant par les arcs entre ces nuds. Le but tant que chaque nud apprenne toute linformation E et fasse connatre lensemble du graphe linformation lmentaire qui le concerne, il parat assez naturel de considrer quau moins deux messages transiteront par chaque arc. En effet, pour deux nuds X et Y, un message doit transiter de X vers Y pour que Y connaisse linformation en X et rciproquement. Il faut noter aussi que les choses se compliquent nettement lorsque le graphe nest pas un arbre et quil peut alors exister plus dun chemin de X Y. Dans un premier temps, nous nous restreindrons donc au cas dun arbre.
5.1.1 Dcomposition de linformation

Comme le graphe que lon considre ici est un arbre, il est par dnition (voir A.11 page 344) connexe et sans circuit. Autrement dit, il existe une unique chane entre deux nuds de ce graphe. Cette proprit permet de partitionner le graphe relativement un nud X : (+) les nuds dont la chane vers X passe par un parent de X ; () les nuds dont la chane vers X passe par un enfant de X ; (o) le nud X lui-mme. Soit une information E sur lensemble du graphe, on peut de mme la partitionner en trois sous-ensembles diffrents relativement au nud + o X : EX , EX et EX qui correspondent aux informations lmentaires sur des nuds respectivement de type (+),() et (o). Supposons, dans un premier temps, quaucun des nuds considrs ici ne soit ni une feuille ni une racine ni nait t observ : tous les nuds considrs ici ont donc au moins un parent, un enfant et peuvent toujours sparer linformation en E.+ et E.. x DX, en appliquant le thorme de Bayes (voir Bayes-3 page 354) + P(x | EX ),
+ + + P(x | E) = P(x | EX , EX ) P(EX | x, EX ) P(x | EX )
95
Puisque toute chane dun nud U de type (+) vers un nud Y de type () doit passer par X et que pour cette chane, X ne peut pas tre un puits, il y a d-sparation de ces deux nuds conditionnellement X. Ce qui a + comme consquence de rendre indpendantes les informations EX et EX et + donc de permettre dcrire P(EX | x, EX ) = P(EX | x). Do :
+ P(x | E) P(EX | x) P(x | EX )
(x) (x)
N OTE 5.1 Rappelons que la proportionnalit entre ces deux quantits est sufsante pour calculer P(x | E ) puisque, cette valeur dnissant une probabilit, sa somme sur le domaine doit tre gale 1 : (x) (x) P(x | E ) = (x ) (x )
x DX
+ Dans cette factorisation, linformation ((x) = P(x | EX )) venant de la zone (+) intervient comme une loi a posteriori alors que linformation ((.) = P(EX | x)) venant de la zone () apparat comme une vraisemblance.
Reste calculer ces deux facteurs. Supposons que le nud X a pour parents les nuds U1, . . . , Un et pour enfants les nuds Y1, . . . , Ym. Le principe sera toujours dutiliser la possibilit de partitionner linformation grce la structure darbre du rseau baysien.
111111111111111 000000000000000 111111111111 000000000000 111111111111111 000000000000000 111111111111 000000000000 111111111111111 000000000000000 111111111111 000000000000 111111111111111 000000000000000 111111111111 000000000000 111111111111111 000000000000000 111111111111 000000000000 111111111111111 000000000000000 V U 111111111111 000000000000 111111111111 000000000000
i k
EXU i
1111 0000 1111 0000E 1111 0000 1111 0000 11111 00000E 11111 00000
XU i + XU i
+ EX
111111 000000 111111 000000 111111 000000 Zl 111111 000000 Yj 111111 000000 11111111 00000000 111111 000000 11111111 00000000 111111 000000 11111111 00000000 111111 000000 11111111 00000000 111111 000000 11111111 00000000 111111 000000 11111111 00000000 111111 000000 11111111 00000000 111111 000000 11111111 00000000 111111 000000 11111111 00000000 111111 000000 11111111 00000000 11111111 00000000 11111111 00000000
11 00 11 00 11 00E 11 00 XY i 11 00 111 11 00 EXY i 000 111 000 + 111 000EXY 111 000 i 111 000
EX
F IG . 5.1 Les diffrentes zones dinformations dans un arbre
En remarque prliminaire ces calculs, notons que lon peut galement partitionner :
96
Chapitre 5 Propagations EX =
mentaires sur des nuds pour lesquels la chane vers X passe par Yj. + EX = EXUi o EXUi reprsente lensemble des informations lmentaires sur des nuds pour lesquels la chane vers X passe par Ui. Calcul de (x) De mme que plus haut, toute chane dun nud destinataire dune information de EXYj vers un nud destinataire dune information de EXYj avec j = j , passe ncessairement par X qui nest pas un puits de cette chane et qui donc d-spare ces deux nuds. Do :
(x) = P(EX | x) 1im
1jm
EXYj o EXYj reprsente lensemble des informations l-
= P(
1jm
EXYj | x) P(EXYj | x) (5.1)
(x) =
1jm
+ Une fois de plus, on doit partitionner chaque EXYj entre EXYj , linformation venant des parents de Yj diffrents de X (les Zl, voir gure 5.1 page prcdente) de Yj et de EXYj , linformation venant des enfants de Yj.
Il faut noter que : + Yj d-spare EXYj et EXYj . En effet, toute chane dun nud comportant + une information de EXYj vers un nud comportant une information de EXYj passe par Yj qui nest pas un puits de cette chane. + Les Zl d-sparent X de EXYj (ce ne sont pas des feuilles, donc ils ne comportent pas dinformation et toute chane depuis un nud com+ portant de linformation de EXYj vers X passe par un des Zl qui nest pas un puits de la chane). Avec DZ = DZ1 DZ2 . . . DZl , on peut alors crire chaque terme de ce produit comme suit :
+ P(EXYj | x) = P(EXYj , EXYj | x) = yj DY j ,zDZ
+ P(EXYj , EXYj | x, yj, z) P(yj, z | x)
z est le vecteur de valeurs des zl. Daprs les d-sparations prcites, =

yj ,z + P(EXYj | z) P(EXYj | yj) P(yj, z | x)
97
5.1. Propagation par messages locaux dans un arbre + avec lapplication du thorme de Bayes pour P(EXYj | z) et une factorisation pour P(yj, z | x), + + P(EXYj ) P(z | EXYj )
=
yj ,z
P(EXYj | yj)
p(z)
P(yj | z, x) P(z | x)
+ P(EXYj ) est une constante durant ce calcul. tant donn que les Zl sont indpendants marginalement de X : P(z | x) = P(z)
P(EXYj | x)
yj ,z
+ P(EXYj | yj) P(z | EXYj ) P(yj | x, z)
En remarquant les rles analogues des Ui par rapport X et des Zl par + rapport aux Yj, on peut noter EXYj = EYi Zl o EYj Zl est lensemble de linformation dont la chane vers Yj passe par Zl. On peut alors crire, par d-sparation conditionnellement Yj :
+ P(z | EXYj ) = l l
P(zl | EYj Zl )
On obtient nalement que : (x)

1jm yj DY j P(EXYj | yj) zDz
P(yj | x, z)
l
P(zl | EYj Zl )
(5.2)
Calcul des (x)

+ EX ayant t partitionn en
des informations lmentaires sur des nuds pour lesquels la chane vers X passe par Ui, on peut crire (avec DU = DU1 . . . DUn ) :
+ (x) = P(x | EX )
1im
EXUi o EXUi reprsente lensemble
= P(x | EXU1 , . . . , EXUn ) =

uDU
P(x | u) P(u | EXU1 , . . . , EXUn )
et par d-sparation conditionnellement X des EXUi (u est le vecteur des ui), (x) =
uDU
P(x | u)
1in
P(ui | EXUi )
(5.3)
98
De mme que pour le calcul de , il est ncessaire de sparer chaque + EXUi en deux parties : EXUi reprsente linformation venant des parents de Ui et EXUi reprsente linformation venant des enfants de Ui autres que X (les Vk, voir la gure 5.1 page 96). Alors, en appliquant le thorme de + Bayes P(x | EXUi ) puis la d-sparation sachant Ui de EXUi et de EXUi :
+ P(ui | EXUi ) = P(ui | EXUi , EXUi ) + + P(EXUi | ui, EXUi ) P(ui | EXUi ) + P(EXUi | ui) P(ui | EXUi ) Pour le dernier partitionnement, on procde comme suit : EXUi se partitionne en EUi Vk qui reprsentent, pour chaque k, lensemble des infor-
mations lmentaires dont la chane vers Ui passe par Vk et qui sont tous d-spars par Ui. Do :
P(EXUi | ui) = P( k
EUi Vk | ui) P(EUi Vk | ui)
=
k
Et nalement, (x)
uDU
P(x | u)
1in
+ P(ui | EXUi ) k
P(EUi Vk | ui)
(5.4)
Synthse et criture itrative Les quations 5.2 page prcdente et 5.4 nous donnent donc :
+ P(x | E) P(EX | x) P(x | EX ) = (x) (x) P(EXYj | yj) 1in
(x) (x)
1jm uDU
yj DY j
zDz
P(yj | x, z)
k P(EUi Vk
l P(zl
| EYj Zl )
P(x | u)
+ P(ui | EXUi )
| ui) (5.5)
Les expressions entre crochets dans lquation 5.5 sont dune certaine faon des informations localises provenant respectivement dun enfant de X pour et dun parent de X pour . On appellera Yj (x) la contribution de
99
lenfant Yj dans et Ui (x) la contribution du parent Ui dans . Daprs les quations 5.1 page 97 et 5.3 page 98, on peut alors crire :
Yj (x) = P(EXYj | x) =
yj DY j P(EXYj | yj) zDz
P(yj | x, z)
l
P(zl | EYj Zl )
X(ui) = P(ui | EXUi )

+ = P(ui | EXUi ) k
P(EUi Vk | ui)
Il sagit maintenant de sapercevoir didentits ou danalogies entre ensembles dinformations : EXYj est lensemble des informations dont la chane vers X passe par un enfant de Yj. Puisque le graphe est un arbre, EXYj est donc aussi lensemble des informations dont la chane vers Yj passe par un de ses enfants : EYj ; mais alors, par analogie avec P(EX | x) = (x),
P(EXYj | yj) = P(EYj | yj) = (yj)
+ EXUi est lensemble des informations dont la chane vers X passe par + un parent de Ui. EXUi est donc aussi lensemble des informations dont + la chane vers Ui passe par un de ses parents : EUi ; mais alors par + analogie avec P(x | EX ) = (x),
+ + P(ui | EXUi ) = P(ui | EUi ) = (ui)
Si P(ui | EXUi ) = X(ui) alors P(zl | EYj Zl ) = Yj (zl). Si P(EXYj | x) = Yj (x) alors P(EUi Vk | ui) = Vk (ui). An de gnraliser cette quation, on remarque que : Les (Yj) sont les enfants de X : X. Les (Ui) sont les parents de X : X. Les (Vk) sont les enfants dun U (parent de X) sauf X : U \ {X}. Les (Zl) sont les parents dun Y (enfant de X) sauf X : Y \ {X}.
100
Ceci nous permet de rcrire lquation 5.5 page 99 : P(x | E) (x) (x) (x)
YX
Y(x) P(x | u)
uD X Ui X
(x)
X(ui) (5.6)
avec Y X et U X, Y(x)
yDY
(y)
zD Y \{X}
P(y | x, z) V (u)
VU \{X}
Y(zl)
Zl Y \{X}
u DU, X(u) (u)
U1
X(U1) X(Un) Un
X(U1) Y1 (X)
X(Un) Ym (X)
Y1
Y1 (X)
Ym (X)
Ym
F IG . 5.2 Messages issus de X dans une propagation type Pearl
Lquation 5.6 synthtise la propagation de linformation. Chaque X(U) et Y (X) sont les contributions respectivement du parent U et de lenfant Y au calcul de la probabilit a posteriori de X. On peut alors considrer que les parents et les enfants de X envoient ces messages vers X, messages qui permettent X denvoyer son tour ses propres messages vers ses voisins (voir gure 5.2 ). Dans cette mthode propose par [KP83] et [Pea86], la propagation des messages dans un arbre consiste en deux ux simultans : lun pour lequel les messages (les -messages) transitent dans le sens de lorientation des arcs (des racines vers les feuilles), le second o les messages (les messages) transitent dans le sens inverse. Il faut cependant remarquer quelques rgles qui dirigent les itrations de lalgorithme :
101
x X a besoin des messages de tous ses voisins pour pouvoir calculer P(X | E). y X a besoin des messages de tous ses enfants pour calculer (X). z X a besoin des messages de tous ses parents pour calculer (X). { Le nud Y qui veut envoyer un -message Y(X) vers son parent X a besoin des -messages de tous ses enfants et des -messages de tous ses parents sauf X. | Le nud U qui veut envoyer un -message X(U) vers son enfant X a besoin des -messages de tous ses parents et des -messages de tous ses enfants sauf X.
Cas des racines, des feuilles et des nuds informs
Pour le cas des racines (nuds sans parent) et les feuilles (nuds sans enfant), les formules se simplient :
+ + si X est une racine : EX = et donc (x) = P(x | EX ) = P(x). X nenvoie pas de -message. Pour envoyer un -message vers son enfant Y, il a besoin des -messages de ses autres enfants. En particulier, sil na quun enfant, il peut envoyer directement ce message (qui est exactement (x) = P(x)). si X est une feuille : EX = et (x) = P(EX | x) = 1 (par convention 1 ). X nenvoie pas de -message. Pour envoyer un -message vers son parent Y, il a besoin des -messages de ses autres parents. En particulier, sil na quun parent, il peut envoyer son -message (qui est cette fonction constante 1). o si X est observe : EX = . Il faut alors crire : o + o + + P(x | EX, EX , EX ) P(EX | x, EX , EX ) P(x | EX , EX ) o + P(EX | x) P(EX | x) P(x | EX )
Tout se passe comme si X possdait un enfant supplmentaire eX qui o lui envoyait un message eX (x) = P(EX | x). Toute observation lmentaire sur un nud X est donc transforme en une feuille virtuelle eX, enfant de X et qui envoie non pas un message non informatif ((x) = 1) mais un message tenant compte de cette observation. Il est noter que, puisque le nud virtuel ajout eX est une feuille, le graphe reste un arbre.
En fait, il sagit pour (x) dtre constant quel que soit x. En effet, est une vraisem blance de linformation EX . Si celle-ci nexiste pas, il ny a aucune raison que la vraisemblance de cette information nulle varie en fonction de la valeur de x.
1
102
5.1.2 Algorithme de propagation : polytree propagation

Daprs le schma de propagation de lquation 5.6 page 101, chaque nud X peut tre dans cinq tats diffrents : x Attente de messages : en notant nX le nombre de ses voisins, tant que X a reu moins de nX 1 messages, il ne peut rien faire. y Calcul de messages de collecte : X a reu nX 1 messages, il est donc capable de calculer le message vers le seul voisin Y qui ne lui a rien envoy. Dune manire gnrale, on dira que X est en phase de collecte. z Attente de rponse : X est en attente dun message de ce dernier voisin. { Calcul de messages de distributions : X a reu le dernier message. Il est en mesure de calculer (x), (x) et P(x | E). Il est aussi en mesure de distribuer les nX 1 messages quil na pas encore envoys. | Fin : X est au repos. Lalgorithme est termin en ce qui le concerne. Lalgorithme prend alors cette forme gnrale : T HORME 5.1 Soit un rseau baysien de graphe G = (U, E), lalgorithme suivant permet de calculer P(X | E) pour tout nud X du rseau baysien. x Tout nud de U ltat 1. y Ucollecte = U z Tant que Ucollecte = (a) X Ucollecte tel que X peut passer ltat 2. (b) Ucollecte = Ucollecte \ {X}. (c) X passe ltat 2 et envoie Y son message puis passe ltat 3. { Le dernier Y peut passer ltat 4. Udistrib = {Y}. | Tant que Udistrib = (a) Y Udistrib et Udistrib = Udistrib \ {Y}. (b) Y passe ltat 4, envoie ses messages tous ses voisins et passe ltat 5. (c) Udistrib = Udistrib Y Dmonstration Deux points sont prouver : tape 3a : toute tape, il existe un nud X pouvant servir de candidat cette tape.
103
5.2. Conditionnement global
La preuve se fait par rcurrence : tape initiale 0 : le graphe G est un arbre. Il existe donc au moins un nud X0 de G de degr 1 (nayant quun voisin). Ce nud est un candidat pour la premire itration de ltape 3a. tape courante i : soit Ui le Ucollecte de ltape i et Vi = U \ Ui cest dire lensemble des nuds dj traits dans des itrations prcdentes. Hypothse de rcurrence : j i, le graphe rduit de G sur Uj est un arbre. Il existe donc un nud Xi de degr 1 (et de voisin Y) dans ce sousgraphe. Soit Xi est aussi une feuille dans G et est alors candidat pour cette itration. Soit Xj nest pas une feuille dans G. Tous ses autres voisins dans G font alors partie de Vi, cest--dire, tous ses voisins autres que Y ont dj t visits et ont dj envoy leurs messages. Ncessairement, ces messages ont t envoys vers Xi. En effet, soit Bk un tel voisin Vi et k < i ltape dans laquelle Bk a envoy un message vers un nud Ak. Si Ak nest pas Xi alors ltape k + 1, Ak et Xi appartenaient au graphe rduit sur Uk+1 mais pas Bk. Or la seule chane de Ak vers Xi dans larbre G passe par Bk. Le graphe rduit de ltape k+1 ntait donc pas un arbre. Ce qui est absurde, par hypothse de rcurrence. Donc, ce nud Xi est un candidat pour ltape i. Comme cest un nud dordre 1 dans larbre rduit de G sur Vi, le graphe rduit sur Vi+1 = Vi \ Xi est aussi un arbre. Etape 5 : la n de cette tape, tout nud est ltat 5. Le schma gnral de ltape 5 est une recherche en profondeur (ou en largeur) dabord. tant donn que G est connexe, tous les nuds vont tre visits par cette tape ; chaque nud visit passant ltat 5. On est assur que tous les nuds peuvent calculer leur probabilit marginale a posteriori P(. | E).
5.2 Conditionnement global

5.2.1 Principe de la coupe
Lalgorithme qui vient dtre dcrit en dtail ne sapplique que sur les rseaux baysiens dont le graphe est un arbre. Le problme se pose de ltendre tout rseau baysien. La mthode propose galement par [Pea86] consiste trouver un ensemble S de variables qui, en supprimant les arcs
104
qui en sont issus, permettent dobtenir un graphe rduit qui soit un arbre. Il sagira alors, pour chaque ensemble de valeurs possibles des variables de S, de calculer une propagation dans cet arbre, puis de russir agrger lensemble de ces propagations. Cet algorithme sappelle lalgorithme du coupe-cycleou, plus gnralement de conditionnement (conditionning). Sa complexit est bien exponentielle en fonction du nombre de variables de S.
5.2.2 Propagation conditionne

Soit un rseau baysien sur un graphe G = (V, E) ; instancier une variable X V correspond non pas la supprimer du graphe mais au moins supprimer les arcs qui en sont issus. Cest cette opration qui est utilise pour obtenir un graphe rduit sans cycle partir de G .
De manire gnrale, tant donn S V un ensemble de variables, on note (E, S) lensemble des arcs de E qui nont pas dorigine dans S. S est un ensemble de coupe si le graphe rduit (V, (E, S)) est un arbre. Soit une information E et un ensemble de coupe S = {S1, . . . , Sn}, il sagit maintenant de calculer P(X | E) pour toute variable X de V. Ceci est toujours vrai : P(x | E) =
sDS
P(x | E, s) P(s | E)
En fait, le terme P(x | E, s) peut tre calcul facilement dans le graphe rduit (V, (E, S)) (puisque linstanciation des variables de S par les valeurs s permet de couper le graphe de manire obtenir un arbre). Reste calculer la valeur de P(s | E). Ce calcul se mne rcursivement : P(s1, . . . , sn | E1, . . . , Ee) P(s1, . . . , sn | E1, . . . , Ee1) ... P(s1, . . . , sn | E1, E2) P(s1, . . . , sn | E1) P(E2 | s1, . . . , sn, E1) P(s1, . . . , sn | E1) P(E1 | s1, . . . , sn) P(s1, . . . , sn)
105
P(Ee | s1, . . . , sn, E1, . . . , Ee1) P(s1, . . . , sn | E1, . . . , Ee1) P(Ee1 | s1, . . . , sn, E1, . . . , Ee2) P(s1, . . . , sn | E1, . . . , Ee2)
5.3. Arbre de jonction
Chaque terme P(Ei | s1, . . . , sn, E1, . . . , Ei1) peut lui aussi tre calcul par une propagation dans le graphe rduit. Reste calculer la loi jointe a priori P(s1, . . . , sn). Le calcul par une phase dinitialisation a t propos par [SC91]. Sachant que les nuds Si sont numrots en suivant un ordre topologique, on a : P(s1, . . . , sn) = P(s1) P(s2 | s1) . . . P(sn | s1, . . . , sn1) En notant V = (V1, . . . , Vn) lensemble des variables numrotes galement en suivant un ordre topologique, il suft maintenant dutiliser les sous-graphes rduits crs : Par les variables de V1 S1 2 . Ce graphe est un arbre (autrement S1 ne serait pas la premire variable de coupe) et cre un rseau baysien reprsentant P(V1, . . . , S1). Ce qui permet de calculer P(s1). Itrativement, par les variables de V1 Si. {S1, . . . , Si1} est un ensemble de coupe pour ce graphe. Il est donc ais de calculer en une propagation les valeurs de P(ci | c1, . . . , ci1). Le nombre ditrations ncessaires pour calculer une telle propagation, dans un graphe dont S est lensemble de coupe, est gal au produit des tailles des domaines des diffrentes variables de la coupe. #iteration =
i
|DSi |
5.3 Arbre de jonction

Comme le montrent les sections prcdentes, une propagation de messages dans un arbre est aise. An de traiter les graphes plus gnraux, la section prsente propose une mthode o il sagit de couper des arcs an dobtenir un arbre. Une autre mthode, propose initialement par [LS88] et [JLO90], a pour principe de fusionner des nuds an dobtenir une structure dite darbre de jonction.
5.3.1 Moralisation et Triangulation

La section 4.4.3 page 82 prsentait une factorisation de la probabilit sur un rseau de Markov. C(V) P(V) =
CC
2
j tel que S1 = Vj .
106
o C est lensemble des cliques du rseau de Markov et C(V) est un potentiel ne dpendant que des variables de C. Le but de cette partie est de transformer un rseau baysien en un rseau de Markov an de pouvoir utiliser cette factorisation. D FINITION 5.1 (G RAPHE M ORAL ) Soit un graphe orient G = (V, E), le graphe moral, not Gm = (V, Em) de G est un graphe non orient obtenu par : (uv) Em (uv) E ou (vu) E ou w V, u, v w
A B A B
C I H E D H I
C D E
G Graphe G
G Graphe Gm
F IG . 5.3 Moralisation dun graphe
Le graphe moral est obtenu en dsorientant les arcs et en mariant les parents dun mme nud. Le graphe moral a donc la proprit de crer une clique pour chaque nud et ses parents (par exemple la clique H,I,E,G dans la gure 5.3 ). Les potentiels C fusionnent toutes les variables de la clique C en une unit dordre suprieur 3 . Cependant, une variable peut apparatre dans plusieurs cliques diffrentes (elle peut tre le parent de plusieurs nuds diffrents par exemple). On peut ainsi construire une relation binaire entre cliques, caractrisant les couples de cliques (C1, C2) partageant une ou plusieurs variables. Ces variables forment le sparateur entre ces deux cliques S12 = C1 C2. Ce qui permet de dnir une structure seconde sur C lensemble des cliques : D FINITION 5.2 ( GRAPHE DE JONCTION ) Soit G = (V, E) un graphe non orient ; soit C lensemble des cliques de G. On
3
Unit quon pourrait considrer comme une unique variable alatoire.
107
ABC B C BD D CE D E E
C I H E
G Graphe Gm
HIEG
E Graphe de jonction
EDF
F IG . 5.4 Graphe de jonction du graphe 5.3 page prcdente
nomme graphe de jonction le graphe (C, EC ) vriant : (C1, C2) EC C1 C2 =
On nomme S12 = C1 C2 le sparateur des cliques C1 et C2. Le graphe de jonction nest pas un arbre. Dans le contexte de la circulation de messages, il existe toutefois deux types de cycles dans ce graphe : des cycles pour lesquels tous les sparateurs sont dintersection non nulle et les cycles o les sparateurs sont dintersection nulle.
E XEMPLE 5.2 Dans la gure 5.4 , (CE, EDF, HIEG) est un cycle de la premire espce, qui pourrait tre supprim facilement (en retirant un des arcs) sans perdre la possibilit de communiquer de linformation ; par contre, le cycle (ABC, BD, EDF, CE) est un cycle qui ne possde aucun arc redondant.
Un graphe de jonction minimal est un graphe de jonction qui ne possde aucun arc redondant. Dun point de vue gnral, le graphe de jonction minimal dun graphe G est un arbre si et seulement si ce graphe vrie une proprit de dcomposabilit. Cette proprit revient, pour un graphe non orient, celle de graphe triangul (voir par exemple [CDLS99] ou [Lau96]. D FINITION 5.3 ( GRAPHE TRIANGUL ) Un graphe non orient est un graphe triangul si et seulement si tout cycle de longueur suprieur 3 possde une corde (cest--dire une arte reliant deux nuds non adjacents dans le cycle). Le graphe de jonction minimal dun graphe triangul est un arbre de jonction.
108
Cette dnition revient dire que tous les cycles minimaux dun graphe triangul sont de longueur 3. La triangulation est lopration qui a pour but dobtenir un graphe tri angul partir dun graphe non orient. Si G est un graphe orient, on note Gm son graphe moralis, puis triangul.
Un graphe triangul a principalement une proprit utile pour la propagation dans cette structure : la proprit dite de lintersection courante. P ROPRIT 5.4 ( INTERSECTION COURANTE ) Un graphe G possde la proprit de lintersection courante si ses cliques peuvent tre numres dans un ordre (C1, . . . , Cm) tel que : i, j < i, Ci
l<i
Cl C j
T HORME 5.2 Un graphe triangul possde la proprit de lintersection courante. Cet ordre dnumration qui intervient dans la proprit de lintersection courante permet de dnir exactement larbre de jonction.
N OTE 5.3 La proprit de lintersection courante prcise quil existe un tel ordre mais pas son unicit : larbre de jonction nest donc pas unique.
ABC
BC
BCD CD
C I H E E G graphe Gm F HIEG Arbre de jonction ED EDF D CDE
F IG . 5.5 Graphe triangul du graphe de la gure 5.3 page 107 et arbre de jonction
Dans larbre de jonction, la proprit de lintersection courante se lit comme suit : soit deux cliques C1 et C2 du graphe Gm, alors tous les sparateurs (et les cliques) de la chane de C1 C2 dans larbre de jonction
109
associ contiennent C1 C2. Ainsi, dans la gure 5.5 page prcdente, la chane de (A, B, C) (C, D, E) est : (A, B, C), [B, C], (B, C, D), [C, D], (C, D, E) Tous ces sous-ensembles contiennent bien le nud C.
5.3.2 Propagation dans larbre de jonction

La propagation dans larbre de jonction, algorithme de la famille des algorithmes dits de clustering, repose sur la notion de potentiels et sur la factorisation en potentiels de cliques et sparateurs : P(V) =
CC
C(V) SS S(V)
o C est lensemble des cliques du graphe et S lensemble des sparateurs de larbre de jonction. Le but de la propagation dans un arbre de jonction est que chaque potentiel de clique soit actualis, en n de calcul, pour devenir la loi jointe a posteriori des variables de la clique. La cohrence de potentiels permet de sassurer que la marginalisation pour une variable des diffrents potentiels de cliques dont elle fait partie donne le mme rsultat (on peut obtenir la probabilit marginale dune variable en marginalisant le potentiel de nimporte quelle clique dont elle fait partie). La propagation suit le principe suivant : Initialisation : Ci C, numres dans lordre de la proprit courante, 0 i = C
XCi ,X/ j ,j<i C
P(X | X)
S S, 0 = 1 (fonction constante). S Collecte : soit une clique Ci dont toutes les cliques adjacentes Ck sauf une unique Cj ont calcul leurs 1 k . Alors on met jour successiveC ment les potentiels du sparateur Sij puis de la clique Sj de la faon suivante : 1ij (s) = S
Ci \Sij
1 i (c) C 1ij S 0ij S
1 j = 0 j C C
On itre cette tape tant quil existe une telle clique (noter que les nuds pendants de larbre de jonction initient cette propagation).
110
Distribution : le dernier nud de ltape prcdente, racine de la propagation, distribue vers tous ses voisins (qui feront de mme) en utilisant exactement les mmes formules que ci-aprs. 2ij (s) = S
Ci \Sij
2 i (c) C 2ij S 1ij S
2 j = 1 j C C
Il est noter que la cohrence (calcul de la probabilit marginale dun nud X identique dans chaque clique contenant X) nest atteinte qu la n de la propagation ou plus prcisment, lorsque 2 a t calcul dans chaque clique contenant la variable X.
5.4 Mthodes approches

Seuls les rseaux baysiens trs complexes, notamment ceux qui comportent beaucoup de cycles, doivent encore utiliser des algorithmes approchs. Ceux-ci sont principalement de deux types : les algorithmes qui utilisent des mthodes exactes mais oprent seulement sur une partie du graphe ; les algorithmes qui utilisent des mthodes stochastiques (simulations).
5.4.1 Mthodes exactes sur des topologies approches

Ces mthodes sont relativement rcentes et sont globalement rparties en deux coles distinctes. La premire, suivie par [Kj93] et [Kj94], exploite le fait que certaines dpendances du rseau sont faibles, cest--dire que, qualitativement, il existe un arc entre des nuds X et Y parce que ces variables ne sont pas exactement indpendantes lune de lautre, mais que, quantitativement, cette dpendance est insigniante ; autrement dit, les variables X et Y se comportent presque comme si elles taient indpendantes. Lide de lalgorithme de propagation est alors dliminer de tels arcs, rendant ainsi X et Y indpendantes : les calculs en sont acclrs, la taille des matrices de probabilit conditionnelle en est rduite et lerreur engendre reste raisonnable (Jensen cite un exemple dans lequel il rduit les temps de calcul drastiquement tout en limitant lerreur moins de 5 %). La philosophie de la deuxime cole est lgrement diffrente : il sagit de conserver le graphe dorigine, mais de neffectuer la propagation des informations que partiellement. L encore, plusieurs mthodes sont utilises : [HSC89] et [Da93] ralisent la propagation dans la totalit du rseau, mais
111
5.4. Mthodes approches
nutilisent que des sous-parties des matrices de probabilit conditionnelle. [Da93], par exemple, suppose que les lois de probabilit des variables sont quasi certaines, cest--dire que les variables possdent une valeur ayant une probabilit beaucoup plus leve que les autres.
5.4.2 Mthodes stochastiques

Pour traiter les rseaux baysiens complexes, hormis les modications de topologie dcrites ci-dessus, il existe aussi un ensemble de mthodes reposant sur des principes stochastiques. Une tude statistique classique consiste souvent rechercher les paramtres de la loi suivie par un processus en utilisant une base de donnes (chantillons) qui permet de calculer des estimateurs approchs des diffrents paramtres de (moyenne, cart-type, etc.). Cette estimation est en fait le calcul de la moyenne dune fonction F pour tous les chantillons de la base grce : E(F) 1 N
N
F(X(i))
i=1
o X(i) est le ime chantillon de la base des N cas ; E(F) (esprance mathmatique de F) est lestimateur recherch quon approche par la moyenne des F(X(i)). Par exemple, si F est lidentit, E(F) N X(i) /N permet i=1 destimer la moyenne de la loi . Bien sr, cette approximation est dautant meilleure que la taille de la base est importante. Lide de dpart des mthodes stochastiques est donc dutiliser ce que lon connat de la loi tudie pour gnrer automatiquement des chantillons dune base de donnes reprsentative de cette loi (gnration dexemples) ; cest donc bien de la simulation. Il suft alors dutiliser cette base simule pour calculer les diffrents estimateurs. Entre autres, on pourra retrouver les lois marginales par P(Xi = xi) : on assimile la probabilit que Xi soit gal xi la frquence doccurrence de Xi = xi dans la base de donnes 4 . partir de ce mme principe, diffrentes mthodes sont apparues, qui se distinguent par leur faon de mener les simulations, de gnrer la base dexemples en fonction de diffrentes connaissances de la loi tudie. Citons par exemple, les mthodes dites probabilistic logic sampling [Hen88], les mthodes MCMC (Markov Chain Monte Carlo). Plus prcisment, les MCMC
4 La fonction F utilise ici est une fonction indicatrice de : Fi,x (X) = 1 si Xi = x et 0 sinon. Ainsi, P(Xi = xi ) = E (Fi,x i )
NX i =x i N
112
sont une famille de mthodes stochastiques comprenant entre autres Metropolis ([MRR+53] ou [GRS96]) et lchantillonneur de Gibbs [Nea93]. Connaissance parfaite de la loi simuler La manire la plus simple consiste considrer une connaissance totale de toutes les lois conditionnelles de notre rseau baysien. On peut alors tirer les valeurs des diffrentes variables en prenant lordre logique des racines vers les feuilles du graphe. Ce sont les mthodes dites de MonteCarlo ou probabilistic logic sampling [Hen88]. La gure 5.6 prsente le type de calcul que ces mthodes impliquent, ainsi que leur squencement.
A C E
B D F G
Variable tire B D F A C E G
Loi de tirage P(B) P(D | B = b) P(F | D = d) P(A) P(C | A = a, B = b) P(E | C = c) P(G | E = e, F = f)
Tirage b d f a c e g
(a) Rseau baysien utilis.
(b) Ordre de tirage pour lchantillon (a, b, c, d, e, f, g).
F IG . 5.6 Monte-Carlo : un exemple de gnration dun cas
Connaissance imparfaite de la loi simuler Lorsque la loi est mal connue ou pour des raisons de rapidit de convergence et de calculs des chantillons, il est parfois impossible deffectuer des tirages selon la loi tudie. Cest pour ces raisons quon utilise des mthodes dites MCMC (Markov Chain Monte Carlo). Ce sont dautres mthodes principalement issues de la physique statistique, considrant la base dchantillons comme une chane de Markov. Une chane de Markov est une srie temporelle de variables alatoires X(t), t N telle que la loi de X(t) ne dpend que de X(t1). Mathmatiquement :
P(X(t) = xi | X(t1) = xj, . . . , X(0) = xk) = P(X(t) = xi | X(t1) = xj) = pij

113
5.4. Mthodes approches
Sous certaines conditions, on prouve quil existe une loi limite ne dpendant que des pij quon appelle la matrice de transition ou le noyau de la chane de Markov vers laquelle les sries X(t), t N tendent, quels que soient les X(0). On a alors le mme rsultat que prcdemment : 1 N
N+m
E(F)
F(X(i))
i=m
o m reprsente le nombre dtapes ncessaires an que la chane de Markov atteigne une quasi-stationnarit autour de la loi (burn in). Cette valeur est choisie exprimentalement.
Soit X1 , .. . ,Xn , n variables simuler. Alors, chaque itration (t) de lalgorithme comportera deux phases : x Choix : pour i choisi chaque itration, on calcule le nouvel X(t) en fonction de lancien X(t1) auquel on ne changera quau plus la valeur du ime composant par une nouvelle valeur-candidat X tire suivant une loi dpendant de la valeur de X t 1. i y Acceptation-Rejet : cette valeur candidat peut tre accepte (t) (Xi = X ) ou rejete (X(t) = X(t1) ) suivant une seconde loi i de probabilit dpendant de X(t1) et de X : A(X(t1) ,X ). i i
F IG . 5.7 Algorithme dAcceptation-Rejet gnralis
Pour simuler la base de donnes reprsentant un rseau baysien, il suft alors dutiliser une chane de Markov dont le noyau est calcul de telle faon que la loi-limite soit la loi du rseau baysien tudi. Pratiquement, un algorithme utilisant une telle mthode est appel un algorithme d Acceptation-Rejet gnralis et peut se dcrire sommairement comme prsent dans le tableau 5.7 . Les problmes sont videmment nombreux : comment construire la chane de Markov, comment choisir le burn in ? Comment choisir le m (quand peut-on considrer que la chane de Markov a assez converg) ? Le nom des mthodes (Metropolis, chantillonneur de Gibbs, . . . ) varie en fonction de la faon dont est obtenue cette chane de Markov. Il est particulirement intressant de noter que limplmentation de lchantillonneur de Gibbs [GG84] est particulirement aise dans le cadre des rseaux baysiens. En effet, il devient extrmement simple et se rduit au choix, chaque itration, dune variable dont on change la valeur en fonction des valeurs de son entourage ([Pea87b], [Yor92]).
114
Cet algorithme prsent dans la gure 5.8 dnit bien une chane de Markov. Cependant, si les lois ne sont pas entirement positives (cest-dire, sil existe des 0 dans les tables de probabilits), la convergence nest plus assure.
Soit un rseau baysien de n variables (X1 , .. . ,Xn ), dont certaines sont observes. On suit alors lalgorithme : x Initialisation : pour toute variable, on choisit alatoirement une valeur, compatible avec les observations. y Itration (t) : chaque itration (t) de lalgorithme, on veut calculer lchantillon X(t) en fonction de lchantillon prcdent X(t1) . Pour cela, on choisit une variable Xi parmi les variables non observes - par exemple chacune tour de rle - et on modifie sa valeur en fonction de sa loi conditionnellement ses parents dans le graphe.
F IG . 5.8 chantillonneur de Gibbs dans un rseau baysien
115
Chapitre 6
Apprentissage dans les rseaux baysiens
es chapitres prcdents nous ont montr quun rseau baysien est constitu la fois dun graphe (aspect qualitatif) et dun ensemble de probabilits conditionnelles (aspect quantitatif). Lapprentissage dun rseau baysien doit donc rpondre aux deux questions suivantes : Comment estimer les lois de probabilits conditionnelles ? Comment trouver la structure du rseau baysien ? Nous allons donc sparer le problme de lapprentissage en deux parties : Lapprentissage des paramtres, o nous supposerons que la structure du rseau a t xe, et o il faudra estimer les probabilits conditionnelles de chaque nud du rseau. Lapprentissage de la structure, o le but est de trouver le meilleur graphe reprsentant la tche rsoudre. Comme pour tout problme de modlisation, diffrentes techniques sont possibles selon la disponibilit de donnes concernant le problme traiter, ou dexperts de ce domaine. Ces techniques peuvent se partager en deux grandes familles : apprentissage partir de donnes, compltes ou non, par des approches statistiques ou baysiennes ; acquisition de connaissances avec un expert du domaine.
6.1. Apprentissage des paramtres
La suite de ce chapitre va donc tudier successivement ces diffrentes mthodes, tout dabord pour lapprentissage des paramtres dun rseau de structure xe, puis pour lapprentissage de la structure elle-mme.
6.1 Apprentissage des paramtres

6.1.1 partir de donnes compltes
Nous cherchons ici estimer les distributions de probabilits (ou les paramtres des lois correspondantes) partir de donnes disponibles. Lestimation de distributions de probabilits, paramtriques ou non, est un sujet trs vaste et complexe. Nous dcrirons ici les mthodes les plus utilises dans le cadre des rseaux baysiens, selon que les donnes notre disposition sont compltes ou non, en conseillant la lecture de [Hec98], [Kra98] et [Jor98] pour plus dinformations.
Apprentissage statistique
Dans le cas o toutes les variables sont observes, la mthode la plus simple et la plus utilise est lestimation statistique qui consiste estimer la probabilit dun vnement par la frquence dapparition de lvnement dans la base de donnes. Cette approche, appele maximum de vraisemblance (MV), nous donne alors :
^ ^ MV
P (Xi = xk | pa(Xi) = xj) = i,j,k =
Ni,j,k k Ni,j,k
(6.1)
o Ni,j,k est le nombre dvnements dans la base de donnes pour lesquels la variable Xi est dans ltat xk et ses parents sont dans la conguration xj. Dmonstration (l) (l) Soit x(l) = {xk1 ...xkn } un exemple de notre base de donnes. La vraisemblance de cet exemple conditionnellement aux paramtres du rseau est : P(X = x(l) | ) = P(X1 = xk1 , ..., Xn = xkn | )
n (l) (l)
=
i=1 n
P(Xi = xki | pa(Xi) = xj , ) i,j(l),k(l)

i=1
(l)
(l)
118
Chapitre 6 Apprentissage
La vraisemblance de lensemble des donnes D est :

N n N
L(D | ) =
l=1
P(X = x(l) | ) =
i=1 l=1
i,j(l),k(l)
Lexamen dtaill du produit l i,j(l),k(l) nous montre que le terme i,j,k (pour i, j, k xs) apparat autant de fois que lon trouve la conguration Xi = xk et pa(Xi) = xj dans les donnes, soit Ni,j,k. La vraisemblance des donnes peut donc se rcrire :
n N n qi ri
L(D | ) =
i=1 l=1
i,j(l),k(l) =
i=1 j=1 k=1
i,j,k i,j,k
(6.2)
La log-vraisemblance scrit alors :

n qi ri
LL(D | ) = log L(D | ) =

i=1 j=1 k=1
Ni,j,k log i,j,k
(6.3)
Nous savons aussi que les i,j,k sont lis par la formule suivante :
ri ri 1
i,j,k = 1
k=1
soit
i,j,ri = 1
k=1
i,j,k
Rcrivons la log-vraisemblance partir des i,j,k indpendants :

n qi ri 1 ri 1
LL(D | ) =
i=1 j=1 k
Ni,j,k log i,j,k + Ni,j,ri log 1

k=1
i,j,k
Et sa drive par rapport un paramtre i,j,k est : Ni,j,k Ni,j,ri Ni,j,k Ni,j,ri LL(D | ) = = i,j,k i,j,k i,j,k i,j,ri 1 ri 1 i,j,k k=1 La valeur i,j,k du paramtre i,j,k maximisant la vraisemblance doit annuler cette drive et vrie donc : Ni,j,k i,j,k soit Ni,j,1 i,j,1
^ ^ ^
Ni,j,ri i,j,ri
^
k {1, ..., ri 1}
Ni,j,2 i,j,2
^
= ... =
Ni,j,ri 1 i,j,ri 1
^
Ni,j,ri i,j,ri
^
ri k=1 Ni,j,k ri ^ k=1 i,j,k
ri
=
k=1
Ni,j,k
119
do i,j,k =
^
Ni,j,k ri k=1 Ni,j,k
k {1, ..., ri}
Apprentissage baysien
Le principe de lestimation baysienne est quelque peu diffrent. Elle consiste trouver les paramtres les plus probables sachant que les donnes ont t observes, en utilisant des a priori sur les paramtres. La rgle de Bayes nous dit que : P( | D) P(D | )P() = L(D | )P() Lorsque la distribution de lchantillon suit une loi multinomiale (voir quation 6.2 page prcdente), la distribution a priori conjugue est la distribution de Dirichlet :
n qi ri
P()
(i,j,k)i,j,k 1
i=1 j=1 k=1
o i,j,k sont les coefcients de la distribution de Dirichlet associe la loi a priori P(Xi = xk | pa(Xi) = xj). Un des avantages des distributions exponentielles comme la distribution de Dirichlet est quil est possible dexprimer facilement la loi a posteriori des paramtres P( | D) [Rob94] :
n qi ri
P( | D)
(i,j,k)Ni,j,k +i,j,k 1
i=1 j=1 k=1
En posant Ni,j,k = Ni,j,k + i,j,k 1, on retrouve le mme genre de formule que dans lquation 6.2 page prcdente. Un raisonnement identique permet de trouver les valeurs des paramtres i,j,k qui vont maximiser P( | D).
Lapproche de maximum a posteriori (MAP) nous donne alors :
P (Xi = xk | pa(Xi) = xj) = i,j,k =
^ MAP
Ni,j,k + i,j,k 1 k (Ni,j,k + i,j,k 1)
(6.4)
o i,j,k sont les paramtres de la distribution de Dirichlet associe la loi a priori P(Xi = xk | pa(Xi) = xj).
120
Une autre approche baysienne consiste calculer lesprance a posteriori des paramtres i,j,k au lieu den chercher le maximum. Cette approche desprance a posteriori (EAP) nous donne alors (voir [Rob94]) : P (Xi = xk | pa(Xi) = xj) = i,j,k =
^ ^ EAP
Ni,j,k + i,j,k k (Ni,j,k + i,j,k)
(6.5)
Les estimations que nous venons dvoquer (maximum de vraisemblance, maximum a posteriori et esprance a posteriori) ne sont valables que si les variables sont entirement observes. Les mthodes suivantes vont donc essayer de traiter le cas o certaines donnes sont manquantes.
6.1.2 partir de donnes incompltes

Dans les applications pratiques, les bases de donnes sont trs souvent incompltes. Certaines variables ne sont observes que partiellement ou mme jamais, que ce soit cause dune panne de capteurs, dune variable mesurable seulement dans un contexte bien prcis, dune personne sonde ayant oubli de rpondre une question, etc. Nous allons voir quil existe diffrents types de donnes incompltes, puis aborder les deux cas traitables automatiquement, pour ensuite nous concentrer sur un des algorithmes les plus utiliss pour lapprentissage des paramtres, lalgorithme EM. Nature des donnes manquantes Notons D = {Xl}1 i n,1 l N notre ensemble de donnes, avec Do la i partie observe mais incomplte de D, et Dm la partie manquante. Notons aussi M = {Mil} avec Mil = 1 si Xl est manquant, et 0 sinon. i Le traitement des donnes manquantes dpend de leur nature. [Rub76] en distingue plusieurs : MCAR (Missing Completly At Random) : P(M | D) = P(M), la probabilit quune donne soit manquante ne dpend pas de D. MAR (Missing At Random) : P(M | D) = P(M | Do), la probabilit quune donne soit manquante dpend des donnes observes. NMAR (Not Missing At Random) : la probabilit quune donne soit manquante dpend la fois des donnes observes et manquantes. Les situations MCAR et MAR sont les plus faciles rsoudre car les donnes observes contiennent toutes les informations ncessaires pour estimer la distribution des donnes manquantes. La situation NMAR est plus dlicate car il faut alors faire appel des informations extrieures pour
121
russir modliser la distribution des donnes manquantes et revenir une situation MCAR ou MAR. Traitement des donnes MCAR
Lorsque les donnes manquantes sont de type MCAR, la premire approche possible et la plus simple est lanalyse des exemples complets. Cette approche consiste estimer les paramtres partir de Dco ensemble des exemples compltement observs dans Do. Lorsque D est MCAR, lestimateur bas sur Dco nest pas biais. Malheureusement, lorsque le nombre de variables est lev, la probabilit quun exemple soit compltement mesur devient faible et Dco peut tre vide ou insufsant pour que la qualit de lestimation soit bonne. Une autre approche, lanalyse des exemples disponibles, est particulirement intressante dans le cas des rseaux baysiens. En effet, puisque la loi jointe est dcompose en un produit de probabilits conditionnelles, nous navons pas besoin de mesurer toutes les variables pour estimer la loi de probabilit conditionnelle P(Xi | Pa(Xi)), mais seulement des variables Xi et Pa(Xi). Il suft donc dutiliser tous les exemples o Xi et Pa(Xi) sont compltement mesurs pour lestimation de P(Xi | Pa(Xi)) Traitement des donnes MAR
De nombreuses mthodes tentent destimer les paramtres dun modle partir de donnes MAR. Citons par exemple le sequential updating [SL90], lchantillonnage de Gibbs [GG84], et lalgorithme expectation maximisation (EM) [DLR77, Lau95]. Plus rcemment, les algorithmes bound and collapse [RS98] et robust bayesian estimator [RS00] cherchent rsoudre le problme quel que soit le type de donnes manquantes. Lapplication de lalgorithme itratif EM aux rseaux baysiens a t propose dans [CDLS99] et [NH98] puis adapte aux grandes bases de donnes dans [TMH01]. Nous allons prsenter les grandes lignes de cet algorithme dans le cas de lapprentissage statistique puis de lapprentissage baysien. Apprentissage statistique et algorithme EM
Soit log P(D | ) = log P(Do, Dm | ) la log-vraisemblance des donnes. Dm tant une variable alatoire non mesure, cette log-vraisemblance est
122
elle aussi une variable alatoire fonction de Dm. En se xant un modle de rfrence , il est possible destimer la densit de probabilit des donnes manquantes P(Dm | ) et ainsi de calculer Q( : ) esprance de la logvraisemblance prcdente : Q( : ) = E [log P(Do, Dm | )] (6.6)
Q( : ) est donc lesprance de la vraisemblance dun jeu de paramtres quelconque calcule en utilisant une distribution des donnes manquantes P(Dm | ). Cette quation peut se r-crire de la faon suivante (voir quation 6.3 page 119) :
n ri qk
Q( : ) =
i=1 k=1 j=1
N log i,j,k ijk
(6.7)
o = E [Ni,j,k] = N P(Xi = xk, Pa(Xi) = paj | ) est obtenu par infrence dans le rseau de paramtres si les { Xi, Pa(Xi) } ne sont pas compltement mesurs, et par simple comptage sinon. N i,j,k Lalgorithme EM est trs simple : soient (t) = {i,j,k } les paramtres du rseau baysien litration t. expectation : estimer les N de lquation 6.7 partir des paramtres de rfrence (t) , maximisation : choisir la meilleure valeur des paramtres (t+1) en maximisant Q, N (t+1) i,j,k i,j,k = (6.8) k Ni,j,k rpter ces deux tapes tant que lon arrive augmenter la valeur de Q. [DLR77] a prouv la convergence de cet algorithme, ainsi que le fait quil ntait pas ncessaire de trouver loptimum global (t+1) de la fonction Q( : (t)) mais uniquement une valeur qui permette la fonction Q daugmenter (Generalized EM). De nombreuses heuristiques permettent dacclrer ou damliorer la convergence de lalgorithme EM [NH98]. Citons par exemple, lajout dun moment , propos par Nowlan [Now91] qui permet dacclrer la convergence si le paramtre est bien rgl : i,j,k i,j,k + i,j,k
123
(t+1) (t+1) (t) (t)
(6.9)
Exemple simple : Prenons le rseau baysien et la base dexemples dnis ci-aprs (o ? reprsente une donne manquante) : Pluie Pluie o n o n o Seine ? ? n n o
Para
Seine
Pluie = il pleut Rouen ; Seine = la Seine dborde ; Para = jai sorti mon parapluie . Commenons par dnir quels sont les paramtres estimer : - P(Pluie) = [P 1 P ] - p(P(Seine | Pluie = o) = [S|P=o 1 S|P=o ] - P(Seine | Pluie = n) = [S|P=n 1 S|P=n ] - idem pour P(Para | Pluie)... Concentrons-nous sur lestimation des paramtres S|P=o et S|P=n avec lalgorithme EM. Initialisation (0) (0) Les valeurs initiales des paramtres sont : S|P=o = 0.3, S|P=n = 0.4 Premire itration Le calcul de ltape E est rsum dans le tableau ci-aprs (les valeurs suivies dun sont obtenues par calcul des probabilits selon le modle (0) ) : P(S | P = o) P(S | P = n) S=o S=n S=o S=n Pluie Seine o ? 0.3 + 0.7 + 0 0 n ? 0 0 0.4 + 0.6 + o n 0 1 0 0 n n 0 0 0 1 o o 1 0 0 0 N 1.3 1.7 0.4 1.6 Ltape M nous donne S|P=o =
(1) 1.3 1.3+1.7 +
= 0.433 et S|P=n =
(1)
0.4 0.4+1.6
= 0.2
Deuxime itration tape E (les valeurs suivies dun + sont obtenues par calcul des probabilits selon le modle (1) obtenu litration prcdente) :
TAB . 6.1 Excution de lalgorithme EM ( suivre . . . )
124
Pluie o n o n o
Seine ? ? n n o N
P(S | P = o) S=o S=n 0.433 + 0.567 + 0 0 0 1 0 0 1 0 1.433 1.567 = 0.478 et S|P=n =

(1)
P(S | P = n) S=o S=n 0 0 0.2 + 0.8 + 0 0 0 1 0 0 0.2 1.8

0.2 0.2+1.8
tape M : S|P=o =
(1)
1.433 1.433+1.567
= 0.1
Convergence Aprs quelques itrations de lalgorithme EM, les valeurs de paramtres convergent vers (t) (t) S|P=o = 0.5 et S|P=n = 0 Dans cet exemple trs simple, les donnes manquantes sont MCAR et les approches analyse des exemples complets ou analyse des exemples disponibles (voir page 122) auraient fourni directement la solution.
TAB . 6.1 Excution de lalgorithme EM
Apprentissage baysien et algorithme EM Lalgorithme EM peut aussi sappliquer dans le cadre baysien. Pour lapprentissage des paramtres, il suft de remplacer le maximum de vraisemblance de ltape M par un maximum (ou une esprance) a posteriori. Nous obtenons dans le cas de lesprance a posteriori : i,j,k =
(t+1)
N + i,j,k i,j,k
k (Ni,j,k +
+i,j,k)
(6.10)
Exemple simple : Reprenons lexemple prcdent. Il nous faut ajouter un a priori sur les paramtres, par exemple une distribution de Dirichlet uniforme avec i,j,k = 1. Lalgorithme EM utilisant un maximum de vraisemblance nous donne : (1) (1) 1.3+1 0.4+1 - S|P=o = 1.3+1.7+2 = 0.46 et S|P=n = 0.4+1.6+2 = 0.35 (2) (1) 1.46+1 0.35+1 - S|P=o = 1.46+1.54+2 = 0.492 et S|P=n = 0.35+1.65+2 = 0.338 - ... (t) (t) - S|P=o = 0.5 et S|P=n = 0.333 Lajout dun a priori uniforme sur les paramtres a empch la valeur S|P=n de tendre vers 0 alors que la conguration {S = o et P = n} nest pas prsente dans les donnes.
(t)
TAB . 6.2 Excution de lalgorithme EM avec a priori de Dirichlet
125
6.1.3 Incorporation de connaissances

Dans de nombreuses applications relles, il nexiste pas (ou trs peu) de donnes. Dans ces situations, lapprentissage des paramtres du rseau baysien passe par lutilisation de connaissances dexperts pour tenter destimer les probabilits conditionnelles. Cette difcult, souvent appele licitation de probabilits dans la littrature, est gnrale dans le domaine de lacquisition de connaissances. Nous dcrirons tout dabord lutilisation dune chelle de probabilits permettant lexpert destimer de manire quantitative ou qualitative la probabilit dun vnement quelconque. Malheurement, chaque paramtre dun rseau baysien est une loi de probabilit conditionnelle dont la taille augmente exponentiellement par rapport au nombre de parents de la variable considre. Il nest donc pas raliste dinterroger un expert sur toutes les valeurs de chacune de ces lois. Nous dtaillerons quelques mthodes permettant de simplier une loi de probabilit conditionnelle, ramenant ainsi un nombre raisonnable le nombre de questions poser lexpert. Nous proposerons aussi quelques rgles permettant de vrier la cohrence des estimations de lexpert. Pour nir, nous aborderons le problme de lestimation de la probabilit dun vnement en prsence de plusieurs experts ou de sources dinformation multiples. Comment prendre en compte la abilit de ces experts et de ces sources ? Et que faire lorsquils sont en dsaccord ?
Comment demander un expert destimer une probabilit ?
De nombreux travaux comme ceux de [Ren01a] abordent le sujet de llicitation de probabilits. La tche la plus difcile est souvent de trouver un expert disponible et familiaris la notion de probabilit. Ensuite il faut tenir compte des biais ventuels parfois subconscients (un expert va souvent surestimer la probabilit de russite dun projet le concernant, etc.). La dernire tape consiste fournir lexpert des outils associant des notions qualitatives et quantitatives pour quil puisse associer une probabilit aux diffrents vnements. Loutil le plus connu et le plus facile mettre en uvre est lchelle de probabilit [DVHJ00] prsente gure 6.1 ci-aprs. Cette chelle permet aux experts dutiliser des informations la fois textuelles et numriques pour assigner un degr de ralisation telle ou telle afrmation, puis ventuellement de comparer les probabilits des vnements pour les modier. [vRW+02] propose une tude dtaille des techniques dlicitation de probabilits pour rsoudre un problme de diagnostic mdical.
126
certain
100
probable attendu
85 75
moiti-moiti
50
incertain 25 improbable impossible 15 0
F IG . 6.1 chelle de probabilit
Quelles probabilits estimer ? Nous supposons ici que lexpert doive estimer la probabilit conditionnelle P(Y | X1, X2, ..., Xn) et que toutes nos variables (Y et Xi) soient binaires (de valeurs respectives {y et y} et {xi et xi}). Lexpert devra donc estimer 2n valeurs, ce qui est peu raliste pour des problmes complexes (manque de temps, abilit des 2n valeurs, etc.). Plusieurs approches permettent de simplier cette probabilit conditionnelle par diverses formes dapproximation comme le modle OU bruit, les facteurs dinterpolation ou le modle log-linaire. Modle OU bruit Le modle OU bruit, propos initialement par Pearl [Pea86], fait les hypothses suivantes : La probabilit suivante (probabilit que Xi cause Y lorsque les autres variables Xj sont absentes) est facile estimer : pi = P(y | x1, x2, ..., xi, ..., xn)

(6.11)
Le fait que Xi cause Y est indpendant des autres variables Xj (pas deffet mutuel des variables). Ces hypothses permettent alors dafrmer que :
127
Si un des Xi est vrai, alors Y est presque toujours vrai (avec la probabilit pi), Si plusieurs Xi sont vrais, alors la probabilit que Y soit vrai est : P(y | X ) = 1
i|Xi Xp
(1 pi)
(6.12)
o Xp est lensemble des Xi vrais. Ce modle a t tendu au cas o Y peut tre vrai sans quune seule des causes soit vraie (leaky noisy-OR gate) [Hen89] et aux variables multivalues (generalized noisy-OR gate) [Hen89, Die93, Sri93]. Il sintgre trs facilement aux algorithmes dinfrence tels que les algorithmes de message passing ou darbre de jonction. Il est important de noter que cette modlisation simplie des probabilits conditionnelles peut aussi tre utilise dans le cadre de lapprentissage, lorsque le nombre de donnes est faible. Cette approche a donn de bons rsultats dans des domaines tels que le diagnostic mdical [PPMH94, ODW01] ou le diagnostic de pannes [BRM02]. Facteurs dinterpolation Lutilisation de facteurs dinterpolation a t propose par [Cai04] pour la dtermination pratique de tables de probabilits conditionnelles. la diffrence du modle prcdent, lexpert est consult pour dterminer les probabilits des vnements suivants : pi = P(y | x1, x2, ..., xi, ..., xn)

(6.13) (6.14) (6.15)
p = P(y | x1, x2, ..., xi, ..., xn) p = P(y | x1, x2, ..., xi, ..., xn)
Ces valeurs permettent de calculer les facteurs dinterpolation IFi de la faon suivante : pi p IFi = (6.16) pp Ce facteur peut tre interprt comme leffet relatif (par rapport pi, situa tion o tous les Xi sont absents) du passage de Xi de xi xi (lorsque tous les autres Xj sont xj). Dans le cas le plus simple propos par Cain, parents non modiants, leffet de chaque Xi sur Y ne dpend pas de la valeur des autres Xj. Avec cette hypothse, le facteur dinterpolation est donc de manire plus gnrale leffet de la variation de Xi quelles que soient les valeurs prises par les autres
128
Xj, ce qui nous permet de calculer par rcurrence la valeur de nimporte quelle probabilit P(y | X ), par exemple : P(y | x1, x2, ..., xi, ...xj, ..., xn) = p + IFi(pj p)

(6.17)
et ainsi de suite pour les probabilits o k Xi sont absents (xi) en faisant intervenir les probabilits o (k 1) Xi sont absents et le facteur dinterpolation de lautre variable. Cain adapte ensuite cette utilisation de facteurs dinterpolation des variables discrtes quelconques. Lapproche se gnralise aussi au cas o certains parents sont modiants en estimant des facteurs dinterpolation spciques chaque conguration de ces parents modiants. Modles log-linaires Les modles log-linaire [Chr97] peuvent aussi tre utiliss pour simplier le nombre de paramtres dune loi de probabilit conditionnelle, ou plus gnralement la loi de probabilit jointe dune variable et de ces parents P(Y, X1, X2, ..., Xn). Le principe, trs gnral, de ces modles est de dcomposer le logarithme dune loi de probabilit en une somme de terme dcrivant les interactions entre les variables. Cette dcomposition est dite sature lorsque tous les termes sont prsents dans la dcomposition, et non sature lorsque des hypothses supplmentaires sont rajoutes, comme par exemple le fait que certaines variables soient indpendantes, pour supprimer des termes dans la dcomposition. Dans le cas qui nous intresse, nous savons aussi que les parents sont mutuellements indpendants. De plus, [Cor03] propose de ne garder que les termes dinteraction dordre infrieur ou gal 2 (u ui, ui), arrivant au modle log-linaire non satur suivant : log P(Y, X1, ..., Xn) = u +
i
ui(xi) +
i
ui(xi, y)
(6.18)
La dtermination de ces termes dinteraction passe par la rsolution dun systme linaire, en utilisant certaines contraintes comme le fait que la somme des P(Y, X1, ..., Xn) doit tre gale 1. En supposant que lexpert soit interrog sur toutes les probabilits marginales P(xi), P(y), et sur toutes les probabilits conditionnelles P(y | xi) et P(y | xi), [Cor03] montre quil reste encore 2n 2n contraintes satisfaire pour dterminer compltement les paramtres du modle log-linaire. Cette approche permet donc dobtenir une modlisation plus gnrale que les deux premires, mais ncessite davantage destimations de la part
129
de lexpert lorsque le nombre de parents dune variable est important. Cohrence des estimations Les mthodes que nous venons dtudier permettent de simplier une distribution de probabilit conditionnelle en estimant un nombre rduit de probabilits dvnements, laide par exemple dune chelle de probabilit. [Cor03] propose une srie de rgles permettant de vrier la cohrence des estimations de lexpert, et ventuellement de corriger automatiquement certaines des probabilits estimes. Cette approche dcrite ci-aprs dans le cadre de lutilisation de modles log-linaires se gnralise assez facilement aux autres approches : x Estimation par lexpert des probabilits marginales P(xi) et P(y). Ces probabilits correspondent des vnements non conditionns qui sont en gnral faciles estimer. Ces valeurs ne sont pas sufsantes, mais permettront par la suite de vrier la cohrence des estimations de lexpert. y Estimation des probabilits conditionnelles P(y | xi) et P(y | xi) pour toutes les variables Xi. z Utilisation des redondances pour vrier la cohrence des estimations. En effet, nous savons que, pour chaque variable Xi : P(y) = P(y | xi)P(xi) + P(y | xi)(1 P(xi))

(6.19)
Puisque chacune de ces valeurs a t estime par lexpert, nous pouvons donc comparer le P(y) estim et celui obtenu par lquation 6.19 pour dtecter des incohrences ventuelles. { Correction des incohrences. Cette correction peut tre soit manuelle, en redemandant lexpert de restimer les P(y | xi) et P(y | xi) incrimins, soit automatique, en les modiant tout en gardant leurs proportions respectives pour que lquation 6.19 soit vrie. Comment fusionner les avis de plusieurs experts ?
En ingnierie de la connaissance, lingnieur doit souvent faire face des sources dinformations de diverses natures : experts, donnes collectes selon des moyens varis, etc. La prise en compte de ces diffrentes expertises doit se faire avec prcaution. An dviter dutiliser des donnes biaises, Druzdzel et al. [DD00] proposent un critre pour vrier si les diverses sources dinformations ont t utilises dans les mmes conditions.
130
Supposons maintenant que plusieurs experts proposent une estimation des mmes valeurs. Comment faut-il combiner ces diffrents rsultats, en sachant que les experts ne sont pas forcment tous ables (ou le sont uniquement sur une partie du problme) ? La prise en compte de donnes incertaines a t aborde avec diffrentes mthodes dont la logique oue [BM03], les rseaux de neurones (avec par exemple les mlanges dexperts proposs par [JJNH91]), ou la thorie des fonctions de croyances [Sme00]. Pour ce dernier cas, S. Populaire et al. [PDG+02] proposent une mthode qui permet de combiner lestimation des probabilits faite par un expert avec celle obtenue grce des donnes.
6.2 Apprentissage de la structure

6.2.1 Introduction
Dans la premire partie de ce chapitre, nous avons examin diffrentes mthodes dapprentissage des paramtres dun rseau baysien partir de donnes compltes ou incompltes, ou laide dun expert, en supposant que la structure de ce rseau tait dj connue. Se pose maintenant le problme de lapprentissage de cette structure : comment trouver la structure qui reprsentera le mieux notre problme. Avant dvoquer les deux grandes familles dapproches (recherche dindpendances conditionnelles et mthodes bases sur un score), nous commencerons par rappeller le cadre dans lequel nous travaillons. Ainsi lapprentissage de la structure dun rseau baysien partir de donnes revient trouver un graphe qui soit une P-map dun modle dindpendance associ une distribution de probabilit dont nous possdons un echantillon. Il faut donc tre certain de lexistence dune telle P-map (dlit) et de bien connatre toutes les variables (sufsance causale). Nous voquerons ensuite une notion gnrale, lquivalence de Markov, qui nous sera utile dans les deux types dapproche, notion lie au fait que plusieurs graphes avec le mme squelette pourront reprsenter les mmes indpendances conditionnelles. Comme prcdemment, nous pourrons aussi distinguer trois cas : les donnes sont compltes et reprsentent totalement le problme ; les donnes sont incompltes et/ou il existe des variables latentes ; peu de donnes sont disponibles, et il faut utiliser une connaissance experte. Une premire approche, propose initialement par Spirtes et al. dun ct, et Pearl et Verma de lautre, consiste rechercher les diffrentes in 131
6.2. Apprentissage de la structure
dpendances conditionnelles qui existent entre les variables. Les autres approches tentent de quantier ladquation dun rseau baysien au problme rsoudre, cest--dire dassocier un score chaque rseau baysien. Puis elles recherchent la structure qui donnera le meilleur score dans lespace B des graphes dirigs sans circuits. Une approche exhaustive est impossible en pratique en raison de la taille de lespace de recherche. La formule 6.20 dmontre par [Rob77] prouve que le nombre de structures possibles partir de n nuds est superexponentiel (par exemple, NS(5) = 29281 et NS(10) = 4.2 1018).
NS(n) =
n i+1 n i=1(1) i
1 , 2i(n1)NS(n i),
n = 0 ou 1 n>1
(6.20)
Pour rsoudre ce problme, ont t proposes un certain nombre dheuristiques de recherche dans lespace B, qui restreignent cet espace lespace des arbres (MWST (Maximum Weight Spanning Tree)), ordonnent les nuds pour limiter la recherche des parents possibles pour chaque variable (K2), ou effectuent une recherche gloutonne dans B (GS (Greedy Search)). En partant du principe que plusieurs structures encodent les mmes indpendances conditionnelles (quivalence de Markov) et possdent le mme score, dautres mthodes proposent de parcourir lespace E des reprsentants des classes dquivalence de Markov, espace certes superexponentiel (mais lgrement plus petit) mais qui possde de meilleures proprits. Nous nous intresserons aussi aux mthodes qui permettent dincorporer des connaissances a priori sur le problme rsoudre en dtaillant plus prcisment lapprentissage de structure dans le cadre de la classication, et lapprentissage de structure lorsque des variables latentes sont dnies explicitement. Pour tenter de rpondre ces diffrentes questions, nous examinerons successivement les mthodes existantes, en dtaillant chaque fois une des approches les plus reprsentatives. Nous nirons en abordant quelques problmes ouverts dans lapprentissage de structure : la dcouverte automatique de variables latentes et lapprentissage de rseaux baysiens rellement causaux.
6.2.2 Hypothses
Les liens entre modle dindpendance et rseau baysien sont largement dcrits dans la section 4.3 page 78. Un rseau baysien nest pas capable de reprsenter nimporte quelle distribution de probabilit (ou la liste
132
des indpendances conditionnelles associes). La premire hypothse que nous ferons est donc lexistence dun rseau baysien qui soit la P-map du modle dindpendance associ la distribution de probabilit P sousjacente nos donnes. Cette hypothse se retrouve souvent sous le terme de dlit (faithfulness) entre le graphe et P. Lautre hypothse importance, est celle de sufsance causale. Un ensemble de variables X est sufsant causalement pour une population donne D si et seulement si dans cette population, chaque cause Y commune plusieurs variables de X appartient aussi X , ou si Y est constant pour toute la population. Cela signie que lensemble X est sufsant pour reprsenter toutes les relations dindpendances conditionnelles qui pourraient tre extraites des donnes.
6.2.3 Notion dquivalence de Markov

D FINITION 6.1 Deux rseaux baysiens B1 et B2 sont dit quivalents au sens de Markov (B1 B2) sils reprsentent les mmes relations dindpendance conditionnelle. An dillustrer simplement cette notion, montrons que les structures B1, B2 et B3 dcrites ci-aprs sont quivalentes.
XA XB XA XB XA XB XA XB
XC B1 B2
XC B3
XC B4
XC
Dmonstration Montrons-le pour B1 et B2 : Selon B1 : P(XA, XB, XC)B1 = P(XA | XB) P(XB | XC) P(XC) Selon B2 : P(XA, XB, XC)B2 = P(XA) P(XB | XA) P(XC | XB) Mais daprs la dnition dune probabilit conditionnelle, P(XA, XB) = P(XA | XB) P(XB) P(XA) P(XB | XA) P(XB, XC) = P(XC | XB) P(XB) P(XC) P(XB | XC) et donc
133
= P(XA | XB) P(XB) P(XC | XB) = P(XA | XB) P(XB | XC) P(XC) = P(XA, XB, XC)B1 Les rseaux baysiens B1 et B2 sont donc quivalents (id. avec B3). Par contre, ces trois structures ne sont pas quivalentes la V-structure B4. En effet, nous avons P(XA, XB, XC)B4 = P(XA) P(XC) P(XB | XA, XC) et le terme P(XB | XA, XC) ne peut pas se simplier. Verma et Pearl [VP91] ont dmontr que tous les DAG quivalents possdent le mme squelette (graphe non dirig) et les mmes V-structures. Une classe dquivalence, cest--dire un ensemble de rseaux baysiens qui sont tous quivalents, peut donc tre reprsente par le graphe sans circuit partiellement dirig (PDAG) qui a la mme structure que tous les rseaux quivalents, mais pour lequel les arcs rversibles (nappartenant pas des V-structures, ou dont linversion ne gnre pas de V-structure) sont remplacs par des artes (non orientes). Le DAG partiellement dirig ainsi obtenu est dit complt (CPDAG) ou graphe essentiel [AMP95]. La table 6.4 page 136 nous donne le graphe ASIA et son CPDAG reprsentant dans lespace des classes dquivalence de Markov. Ce CPDAG possde bien le mme squelette que le DAG initial ainsi que ses deux V-structures. De plus, larc O X est forcment orient dans ce sens pour ne pas crer de V-structure supplmentaire. Chickering [Chi02b] propose une mthode pour passer dun DAG reprsentant un rseau baysien son CPDAG reprsentant sa classe dquivalence de Markov. Pour cela, il faut commencer par ordonner tous les arcs du rseau de dpart (algorithme Ordonner-Arc), puis parcourir lensemble des arcs ainsi ordonns pour simplier les arcs rversibles (algorithme DAGtoCPDAG).
134
Algorithme DAGtoCPDAG Ordonner les arcs du DAG arc, tiquette(arc) A liste des arcs non tiquets Rpter (Xi , Xj ) minA (arc) (plus petit arc non tiquet) Xk / tiquette(Xk , Xi ) = Nonrversible Fin Faux si Xk pa(Xj ) alors tiquette(, Xj ) Nonrversible A A \ (, Xj ) Fin Vrai sinon tiquette(Xk , Xj ) Nonrversible A A \ (Xk , Xj ) si Fin = Faux alors si arc (Xk, Xj )/Xk pa(Xi ) {Xi } alors (Xk , Xj ) A, tiquette(Xk , Xj ) Nonrversible A A \ (Xk , Xj ) sinon (Xk , Xj ) A, tiquette(Xk , Xj ) rversible A A \ (Xk , Xj ) Tant que A = Ordonner-Arc Trier les Xi dans lordre topologique k0 A liste des arcs (non ordonns) Rpter Xj minj (Xj /(Xi , Xj ) A) plus petit nud destination dun arc non ordonn Xi maxi (Xi /(Xi , Xj ) A) plus grand nud origine dun arc non ordonn vers Xj Ordre(Xi , Xj ) k kk+1 A A \ (Xi , Xj ) Tant que A = TAB . 6.3 Algorithme DAGtoCPDAG
135
Rseau thorique ASIA A T O L S B
CPDAG A T O D L S B
O X est forcment orient pour ne pas crer de V-structure supplmentaire TAB . 6.4 Exemple de rseau baysien et son reprsentant dans lespace des classes dquivalence de Markov
Il existe plusieurs algorithmes inverses capables de gnrer un des rseaux baysiens quivalents partir dun PDAG, si ce PDAG est bien le reprsentant dune classe dquivalence (on dit alors que le DAG rsultant est une extension consistante du PDAG de dpart). Nous dcrivons dans la table 6.5 ci-aprs lalgorithme PDAGtoDAG propos par Dor et Tarsi [DT92]. Notons quil est aussi possible dutiliser les rgles dorientation darcs proposes par les algorithmes IC et PC que nous dcrirons dans les prochaines sections (table 6.6 page 140) puisquelles rsolvent galement la mme tche.
6.2.4 Recherche dindpendances conditionnelles

Cette premire srie dapproches dapprentissage de structure, souvent appele recherche sous contraintes, est issue des travaux de deux quipes concurrentes, Pearl et Verma dune part avec les algorithmes IC et IC*, Spirtes, Glymour et Scheines de lautre avec les algorithmes SGS, PC, CI, FCI, plus rcemment lalgorithme BN-PC de Cheng et al. [CBL97a, CBL97b, CGK+02]. Ces algorithmes sont tous bass sur un mme principe : construire un graphe non dirig contenant les relations entre les variables, partir de tests dindpendance conditionnelle ; dtecter les V-structures (en utilisant aussi des tests dindpendance conditionnelle) ; propager les orientations de certains arcs ;
136
Algorithme PDAGtoDAG B PDAG A liste des artes de PDAG Rpter Recherche dun nud Xi tel que - il nexiste aucun arc Xi Xj dans A - et pour tout Xj tel quil existe Xi Xj dans A, Xj est adjacent tous les autres nuds adjacents Xi Si Xi nexiste pas alors PDAG nadmet aucune extension compltement dirige sinon Xj tel que Xi Xj A Xi Xj dans B A A \ (Xi , Xj ) PDAG B graphe sans circuit partiellement dirig DAG compltement dirig, extension consistante de PDAG
Tant Que A = Notations :
TAB . 6.5 Algorithme PDAGtoDAG
prendre ventuellement en compte les causes articielles dues des variables latentes (voir section 6.2.8 page 177). La caractristique principale de toutes ces mthodes rside dans la dtermination partir de donnes des relations dindpendance conditionnelle entre deux variables quelconques conditionnellement un ensemble de variables. Ceci nous amnera voquer les tests statistiques dindpendance classiquement utiliss. Nous passerons ensuite en revue les algorithmes principaux issus de ces travaux et les amliorations qui y ont t apportes. Tests dindpendance conditionnelle Les tests statistiques classiquement utiliss pour tester lindpendance conditionnelle sont les tests du 2 et du rapport de vraisemblance G2. Dtaillons le test dindpendance du 2 puis son utilisation dans le cadre de lindpendance conditionnelle. Soient deux variables discrtes XA et XB, de taille respective rA et rB. Soit Nab le nombre doccurrences de {XA = xa et XB = xb} dans la base dexemples, Na. le nombre doccurrences de {XA = xa} et N.b le nombre
137
doccurrences de {XB = xb}. Le test du 2 va mettre en concurrence deux modles : Le modle observ po = P(XA, XB), reprsent par les occurrences observes Oab = Nab. Le modle thorique pt = P(XA)P(XB), reprsent par les occurrences N thoriques Tab = Na.N .b . D FINITION 6.2 (T EST DU 2) Soit la statistique suivante (de degr de libert df = (rA 1)(rB 1)) :
rA rB rA rB Na. N.b 2 ) N Na. N.b N
2 =
a=1 b=1
(Oab Tab)2 = Tab
(Nab
(6.21)
a=1 b=1
Lhypothse dindpendance entre XA et XB est vrie pour un seuil de conance si et seulement si 2 < 2 thorique (df, 1 ) Lorsquun effectif Tab est faible (Tab < 10), la formule 6.21 nest plus 2 2 ab applicable. Il faut alors remplacer le terme (Oab Tab ) par (|Oab Tab |0.5) Tab T (correction de Yates). Spirtes et al. proposent aussi dutiliser le rapport de vraisemblance G2 (qui suit aussi une loi du 2 de degr de libert df = (rA 1)(rB 1)) :
rA rB
G2 = 2
a=1 b=1
Oab ln(
Oab )=2 Tab
rA
qB
Nab ln(
a=1 b=1
Nab N ) Na. N.b
(6.22)
Notons que ce rapport de vraisemblance est relativement proche de linformation mutuelle entre les variables XA et XB, notion qui sera reprise par certaines fonctions de score des rseaux baysiens (voir quations 6.26 page 145 et 6.27 page 145). Les quations 6.21 et 6.22 testent lindpendance entre deux variables. Lutilisation de ces tests pour la recherche de structure dans les rseaux baysiens ncessite une adaptation pour les tests dindpendance conditionnelle entre deux variables XA et XB conditionnellement un ensemble quelconque de variables XC. Pour cela le principe ne change pas, il faut mettre en concurrence les deux modles suivants : le modle observ po = P(XA, XB | XC), reprsent par les occurrences observes Oabc = Nabc o Nabc est le nombre doccurrences de {XA = xa, XB = xb et XC = xc} ; le modle thorique pt = P(XA | XC)P(XB | XC), reprsent par les occurrences thoriques Tabc = Na.c N.bc . N..c
138
D FINITION 6.3 (2 CONDITIONNEL ) Soit la statistique suivante (de degr de libert df = (rA 1)(rB 1)rC) :
rA rB rC
2 =
a=1 b=1 c=1
(Oabc Tabc)2 Tabc
(6.23)
Lhypothse dindpendance entre XA et XB conditionnellement XC est vrie si 2 < 2 (df, 1 ) (pour un seuil de conance ). thorique Se pose ici un inconvnient majeur lorsque le nombre de variables disponibles est important : plus XC est grand, plus il y a de termes dans la somme de lquation 6.23 (df crot exponentiellement) et plus les Nabc sont faibles, ce qui rend le test du 2 peu applicable en grande dimension. Spirtes et al. proposent une heuristique simple pour pallier cet inconvnient : si le nombre de donnes nest pas sufsamment important par N rapport au degr de libert ( df > 10 ), alors lhypothse est rejete et les variables XA et XB sont dclares dpendantes conditionnellement XC. Grce ces tests statistiques, il est possible de dterminer une srie de contraintes sur la structure du rseau baysien recherch : une indpendance entre deux variables se traduit par labsence darc entre deux nuds, une dpendance conditionnelle correspond une V-structure, etc. Nous allons maintenant tudier les deux familles dalgorithmes qui utilisent ces informations pour apprendre la structure du rseau baysien. Algorithmes PC et IC La dtermination des indpendances conditionnelles partir de donnes peut donc permettre de gnrer la structure du rseau baysien reprsentant toutes ces indpendances. Sur ce principe, Spirtes, Glymour et Scheines [SGS93] ont tout dabord propos lalgorithme SGS. Celui-ci part dun graphe non orient compltement reli et teste toutes les indpendances conditionnelles pour supprimer des artes. Il sagit de chercher ensuite toutes les V-structures et de propager lorientation des arcs obtenus sur les artes adjacentes. Cette mthode requiert malheureusement un nombre de tests dindpendance conditionnelle exponentiel par rapport au nombre de variables. Spirtes et al. ont alors propos une variation de SGS, lalgorithme PC [SGS93] dtaill dans la table 6.6 ci-aprs qui limite les tests dindpendance aux indpendances dordre 0 (XAXB) puis aux indpendances conditionnelles dordre 1 (XAXB | XC), et ainsi de suite.
139
Construction dun graphe non orient Soit G le graphe reliant compltement tous les nuds X i0 Rpter Recherche des indpendances cond. dordre i {XA , XB } X 2 tels que XA XB et Card(Adj(G, XA , XB )) i S Adj(G, XA , XB ) tel que Card(S) = i si XA XB | S alors suppression de larte XA XB dans G SepSet(XA , XB ) SepSet(XA , XB ) S SepSet(XB , XA ) SepSet(XB , XA ) S ii+1 Jusqu Card(Adj(G, XA , XB )) < i, {XA , XB } X 2 Recherche des V-structures {XA , XB , XC } X 3 tels que XA XB et XA XC XB , si XC SepSet(XA , XB ) alors rajouter XA XC XB (V-structure) Ajout rcursif de Rpter {XA , XB } X 2 , si XA XB et XA XB , alors rajouter XA XB si XA XB , XC tel que XA XC et XC XB alors rajouter XC XB Tant quil est possible dorienter des artes TAB . 6.6 Algorithme PC
Lexemple 6.7 page 143 illustre la faon dont les tests dindpendance conditionnelle permettent de simplier le graphe non dirig compltement connect du dpart (tapes 1a 1c), puis dirigent les artes des V-structures dtectes dans les donnes (tape 2). lissue de ces deux tapes, le graphe obtenu est un CPDAG quil faut nir dorienter, en sappliquant ne pas rajouter de V-structures non dtectes prcdemment (tapes 3 et 4). Notons que les rgles proposes par Spirtes et al. pour ces deux dernires tapes peuvent tre implmentes de manire plus systmatique par lalgorithme de Dor et Tarsi (voir lalgorithme 6.5 page 137) dtaill dans la section 6.2.3 page 133. Notations de lalgorithme PC :
X Adj(G, XA ) Adj(G, XA , XB ) XA XB XA XB XA XB XA XB ensemble de tous les nuds ensemble des nuds adjacents XA dans G Adj(G, XA ) \ {XB } il existe une arte entre XA et XB il existe un arc de XA vers XB XA et XB adjacents XA XB , XA XB ou XB XA il existe un chemin dirig reliant XA et XB
140
La premire tape de lalgorithme PC (recherche dindpendances conditionnelles) est ltape la plus coteuse de lalgorithme. Spirtes et al. ont suggr plusieurs simplications ou heuristiques permettant de diminuer cette complexit. Dans lalgorithme PC*, ils proposent de ne plus parcourir tous les S possibles, mais seulement les ensembles de variables adjacentes XA ou XB qui sont sur un chemin entre XA et XB. Cette solution est malheureusement inutilisable avec un trop grand nombre de variables puisquelle revient stocker tous les chemins possibles dans le graphe. Trois heuristiques permettent dacclrer lalgorithme PC en choisissant judicieusement les nuds XA et XB et lensemble S : PC-1 : les couples de variables {XA, XB} et les ensembles S possibles sont parcourus dans lordre lexicographique. PC-2 : les couples de variables {XA, XB} sont tests dans lordre croissant de la statistique utilise pour le test dindpendance (des moins dpendants aux plus dpendants). Les ensembles S sont parcourus dans lordre lexicographique. PC-3 : pour une variable XA xe, sont tests dabord les XB les moins dpendants XA conditionnellement aux ensembles S les plus dpendants XA. Lalgorithme IC (Inductive Causation), propos par Pearl [Pea00], est bas sur le mme principe, mais construit le graphe non orient en rajoutant des artes au lieu den supprimer. Il faut noter que Pearl [PV91] a propos en 1991 un algorithme IC diffrent qui prend en compte les variables latentes. Cet algorithme, renomm IC* dans [Pea00], est prsent dans la section 6.2.8 page 177.
- Le rseau thorique ASIA est utilis pour gnrer 5000 exemples : A S
TAB . 6.7 Excution de lalgorithme PC ( suivre . . . )
141
- tape 0 : Gnration du graphe non orient reliant tous les nuds : A S
- tape 1a : Suppression des indpendances conditionnelles dordre 0 : A S Test du 2 sur les donnes : SA LA BA OA XA DA T S LT OB XB
- tape 1b : Suppression des indpendances conditionnelles dordre 1 A S Test du 2 sur les donnes : T A | O OS | L XS | L BT | S XT | O DT | O BL | S XL | O DL | O DX | O
TAB . 6.7 Excution de lalgorithme PC ( suivre . . . )
142
- tape 1c : Suppression des indpendances conditionnelles dordre 2 A S Test du 2 sur les donnes : DS | {L, B} XO | {T, L} DO | {T, L}
- tape 2 : Recherche des V-structures A S Test du 2 sur les donnes : dcouverte de la V-structure T OL
- tape 3 : Orientation rcursive de certaines artes (aucune ici) - tape 4 : Orientation des arcs restants : A S Seule condition : ne pas introduire de nouvelle V-structure
Dans cet exemple, le test du 2 sur 5000 exemples na pas russi retrouver trois arcs (A T , O X et O D). En supposant que nos donnes aient pu nous permettre de trouver un lien OX, ltape 3 aurait forc son orientation en O X pour ne pas gnrer une V-structure O X T (ou L) non dtecte dans ltape 2. TAB . 6.7 Excution de lalgorithme PC
143
Quelques amliorations
Des travaux rcents ont repris le principe des algorithmes IC et PC en essayant de diminuer le nombre de tests dindpendance conditionnelle ncessaires dans les deux premires tapes de ces algorithmes. Ces travaux vont aussi sinspirer de mthodes dapprentissages bases sur des scores que nous prsenterons en section 6.2.5. Citons, par exemple, lapproche par squelette de van Dijk et al. [vvT03], celle de de Campos et al. [dH00] ou les deux algorithmes BN-PC A et B proposs par Cheng et al. [CGK+02] qui ont donn naissance un logiciel dapprentissage de rseaux baysiens Belief Network PowerConstructor. Lalgorithme BN-PC-B [CBL97b] est le plus gnral des deux. Le principe de cet algorithme est simple et se dcompose en trois phases : (1) utiliser larbre de recouvrement maximal (MWST (Maximum Weight Spanning Tree), voir algorithme 6.8 page 151), arbre qui relie les variables de manire optimale au sens de linformation mutuelle comme graphe non dirig de dpart, puis (2) effectuer un nombre rduit de tests dindpendance conditionnelle pour rajouter des artes cet arbre, et (3) nir avec une dernire srie de tests pour supprimer les artes inutiles et dtecter les V-structures. Le graphe partiellement dirig obtenu lissue de la phase C est alors orient compltement de la mme manire que pour les algorithmes IC et PC. An de diminuer le nombre de O(n4) tests dindpendance conditionnelle effectuer dans le pire des cas pour BN-PC-B, lalgorithme BN-PC-A [CBL97a] considre un ordre des nuds qui permet dorienter les artes ds la phase 1 de lalgorithme. Cela permet de tester au maximum O(n2) indpendances au lieu de O(n4).
6.2.5 Algorithmes bass sur un score

Contrairement la premire famille de mthodes qui tentaient de retrouver des indpendances conditionnelles entre les variables, les approches suivantes vont soit chercher la structure qui va maximiser un certain score, soit chercher les meilleures structures et combiner leurs rsultats. Pour que ces approches base de score soient ralisables en pratique, nous verrons que le score doit tre dcomposable localement, cest--dire sexprimer comme la somme de scores locaux au niveau de chaque nud. Se pose aussi le problme de parcours de lespace B des rseaux baysiens la recherche de la meilleure structure. Comme une recherche exhaustive est impossible effectuer, les algorithmes proposs travaillent sur un espace rduit (espace des arbres, ordonnancement des nuds) ou effectuent une recherche gloutonne dans cet espace.
144
Les scores possibles La plupart des scores existants dans la littrature appliquent le principe de parcimonie du rasoir dOccam : trouver le modle qui correspond le mieux aux donnes D mais qui soit le plus simple possible. Ainsi ces scores sont souvent dcomposables en deux termes : la vraisemblance L(D | , B) et un second terme qui va tenir compte de la complexit du modle, laide entre autres, du nombre de paramtres ncessaires pour reprsenter le rseau. Soit Xi un nud du rseau baysien de taille ri, et pa(Xi) ses parents. Le nombre de paramtres ncessaires pour reprsenter la distribution de probabilit P(Xi | pa(Xi) = xj) est gal ri 1. Pour reprsenter P(Xi | pa(Xi)), il faudra donc Dim(Xi, B) paramtres, avec : Dim(Xi, B) = (ri 1)
Xj pa(Xi )
rj = (ri 1)qi
(6.24)
Le nombre de paramtres ncessaires pour reprsenter toutes les distributions de probabilits du rseau B est Dim(B) :
n n
Dim(B) =
i=1
Dim(Xi, B) =
i=1
(ri 1)qi
(6.25)
Diffrents scores ont alors t proposs : Lentropie conditionnelle de la structure B [Bou93] :

n qi ri
H(B, D) =
i=1 j=1 k=1
Ni,j,k Ni,j,k log( ) N Ni,j
(6.26)
En partant de lquation 6.3 page 119, il est possible de faire le lien entre lentropie et le maximum de la log-vraisemblance : Dmonstration
n qi ri
log L(D | , B) =
i=1 j=1 k=1 n qi ri
Ni,j,k log i,j,k Ni,j,k log(

i=1 j=1 k=1
log L(D | MV , B) = log L(D |

MV
Ni,j,k ) Ni,j (6.27)
, B) = N H(B, D)
145
La vraisemblance ou lentropie nimpose aucun contrle sur la complexit de la structure recherche. Au contraire, pour un ensemble de donnes B x, la structure la plus vraisemblable sera celle qui possde le plus de paramtres, cest--dire la structure reliant toutes les variables [FGG97]. Les critres AIC [Aka70] et BIC [Sch78] peuvent aussi sappliquer aux rseaux baysiens : ScoreAIC(B, D) = log L(D | MV , B) Dim(B) 1 ScoreBIC(B, D) = log L(D | MV , B) Dim(B) log N 2 (6.28)
(6.29)
la diffrence de la vraisemblance, ces deux quations 6.28 et 6.29 illustrent bien la volont de rechercher un modle capable de bien modliser les donnes tout en restant simple. La longueur de description minimale : Il est aussi possible dappliquer le principe de longueur de description minimale MDL (Minimum Description Length) [Ris78]. Ce principe gnral afrme que le modle reprsentant au mieux un ensemble de donnes est celui qui minimise la somme des deux termes suivants : (1) la longueur de codage du modle et (2) la longueur de codage des donnes lorsque ce modle est utilis pour reprsenter ces donnes. Plusieurs travaux ont appliqu cette approche aux rseaux baysiens : Bouckaert [Bou93], Lam et Bacchus [LB93] et Suzuki [Suz99]. Nous ne citerons ici que lapproche de Lam et Bacchus [LB93] : ScoreMDL(B, D) = log L(D | MV , B) | AB | log N c.Dim(B) (6.30) o | AB | est le nombre darcs dans le graphe B et c est le nombre de bits utiliss pour stocker chaque paramtre numrique. Le score BD (bayesian Dirichlet) : Cooper et Herskovits [CH92] proposent un score bas sur une approche baysienne. En partant dune loi a priori sur les structures possibles P(B), le but est dexprimer la probabilit a posteriori des structures possibles sachant que les donnes D ont t observes P(B | D), ou plus simplement P(B, D) : ScoreBD(B, D) = P(B, D) =
L(D | , B)P( | B)P(B) d (6.31)
= P(B)
L(D | , B)P( | B) d
146
Lintgrale de lquation 6.31 page prcdente nest pas toujours exprimable simplement. De manire gnrale, Chickering et Heckerman [CH96] montrent comment utiliser lapproximation de Laplace pour calculer cette intgrale (avec un chantillon de grande taille), et quune simplication de cette approximation mne au ScoreBIC. Avec les hypothses classiques dindpendance des exemples, et en prenant une distribution a priori de Dirichlet sur les paramtres, il est nanmoins possible dexprimer le ScoreBD facilement :
qi
ScoreBD(B, D) = P(B)
i=1 j=1
(ij) (Nij + ij)
ri k=1
(Nijk + ijk) (6.32) (ijk)
o est la fonction Gamma Le score BDe (Bayesian Dirichlet Equivalent) : ce critre propos par Heckerman [HGC94] sappuie sur la mme formule que le score Bayesian Dirichlet avec des proprits supplmentaires intressantes comme la conservation du score pour des structures quivalentes (voir page 161). Le score BDe utilise une distribution a priori sur les paramtres dnie par : ijk = N P(Xi = xk, pa(Xi) = xj | Bc) (6.33)
o Bc est la structure a priori nencodant aucune indpendance conditionnelle (graphe compltement connect) et N est un nombre dexemples quivalent dnis par lutilisateur. Dans le cas o la distribution de probabilit conditionnelle en Xi est uniforme, Heckerman et al. montrent que lon retrouve les coefcients de Dirichlet de lquation 6.34 correspondant un a priori uniforme non informatif propos tout dabord par [Bun91] (le score BDe utilisant les ijk dcrits dans lquation 6.34 est souvent appel score BDeu). ijk = N riqi (6.34)
Heckerman et al. [HGC94] montrent aussi que le score BDe utilisant les a priori dnis par lquation 6.33 na plus besoin dutiliser une distribution de Dirichlet comme loi a priori sur les paramtres. Le score BD (generalized bayesian Dirichlet) [BK02] proposent une gnralisation du score BD en introduisant un hyperparamtre :
147
qi
ScoreBD(B, D) = P(B)
i=1 j=1 ri
(Nij + ij) . . . (6.35) (( + 1)Nij + ij)
...
k=1
(( + 1)Nijk + ijk) (Nijk + ijk)
Borgelt et al. dmontrent aussi que leur fonction de score permet de passer du score baysien ( = 0) lentropie conditionnelle ( +), contrlant ainsi la tendance slectionner des structures simples. Dterminer un a priori sur les structures
Certains scores (ScoreBD, ScoreBDe et ScoreBD) utilisent des mtriques baysiennes et ncessitent la dtermination dune loi de probabilit a priori sur les structures. Cette distribution de probabilit est soit uniforme (la solution la plus simple), soit calculable partir de connaissances a priori xes par un expert (en xant une distribution de probabilit sur les arcs possibles ou une structure de rfrence). La loi uniforme est la distribution sur les structures la plus simple : P(B) = constante Il est galement possible de dcomposer la probabilit dune structure comme produit des probabilits de chaque relation parent-nud :
n
P(B) =
i=1
o P(paB Xi) est la probabilit que paB soient les parents de Xi. i i Ces probabilits locales peuvent tre fournies par exemple par un expert, comme le proposent Richardson et al. [RD03]. Une autre faon de prendre en compte les connaissances expertes est de privilgier les structures proches du rseau a priori Be donn par un expert : P(B) o est le nombre darcs diffrents entre B et Be et un cfcient de pnalisation [HGC94].
148
P(paB Xi) i
Pourquoi chercher la meilleure structure ? Dans de nombreux domaines, la structure de score maximal est souvent beaucoup plus vraisemblable que les autres (voir [HMC97, FK00]). Par contre, il existe aussi des situations o plusieurs structures candidates sont peu prs aussi vraisemblables. Dans ce cas, [FK00] proposent, toujours dans le cadre des approches baysiennes, lapproche de model averaging. Le principe nest pas dinterroger le meilleur modle, mais de faire la moyenne sur tous les rseaux possibles. Supposons par exemple que nous cherchions la probabilit de la variable XA : P(XA | D) = P(XA | B, D)P(B | D) (6.36)
B
Nous avons vu avec lquation 6.20 page 132 que lespace des rseaux baysiens est superexponentiel. Il nest donc pas question de calculer tous les termes de cette somme. Lapproximation la plus courante est issue des mthodes MCMC [MRY+93] o quelques structures vont tre gnres puis utilises dans le calcul de 6.36. Une autre approche possible consiste utiliser les mthodes de type bootstrap [FGW99] pour gnrer diffrents ensembles de donnes qui serviront obtenir plusieurs structures candidates, et utiliser lquation 6.36 avec ces structures. Recherche dans lespace des rseaux baysiens Lestimation du score dun rseau baysien peut mener de nombreux calculs inutiles et rendre les mthodes dapprentissage de structure inutilisables en pratique. La premire prcaution prendre concerne lutilisation dun score dcomposable localement pour ne pas recalculer compltement le score dune nouvelle structure.
n
Score(B, D) = constante +
i=1
score(Xi, pai)
(6.37)
Il est facile de montrer que les scores voqus prcdemment sont des scores dcomposables (en prenant le logarithme pour ScoreBD et ScoreBDe). Par la suite, nous noterons Score(.) le score global et score(.) le score local en chaque nud. Cette dcomposition locale du score permet une valuation rapide de la variation du score entre deux structures en fonction dun nombre rduit de scores locaux lis aux diffrences entre ces deux structures. Il reste maintenant parcourir lespace B des rseaux baysiens pour trouver la structure possdant le meilleur score. Nous avons vu en 6.2.3 page 133
149
quune recherche exhaustive nest pas envisageable. Plusieurs heuristiques permettent de remdier ce problme, soit en rduisant lespace de recherche un sous-espace particulier (lespace des arbres), soit en ordonnant les nuds pour ne chercher les parents dun nud que parmi les nuds suivants, soit en effectuant une heuristique de parcours de lespace B de type recherche gloutonne. Restriction lespace des arbres Cette mthode utilise une notion classique en recherche oprationnelle, larbre de recouvrement maximal (Maximum Weight Spanning Tree) : larbre qui passe par tous les nuds et maximise un score dni pour tous les arcs possibles. Chow et Liu [CL68] ont propos dutiliser un score bas sur un critre dinformation mutuelle : WCL(XA, XB) =
a,b
P(XA = a, XB = b) log Nab NabN log N Na.N.b
P(XA = a, XB = b) P(XA = a)P(XB = b) (6.38)
=
a,b
Heckerman [HGC94] propose dutiliser un score quelconque, localement dcomposable, en dnissant le poids dune arte par : W(XA, XB) = score(XA, XB) score(XA, ) (6.39)
o score(XA, XB) est le score local en XA en supposant que XB est son parent, et score(XA, ) est le score local en XA en supposant quil ne possde aucun parent. Parmi toutes les heuristiques qui permettent de construire larbre optimal partir des poids des artes, nous utiliserons lalgorithme de Kruskal (voir par exemple [Sak84, CLR94, AU98]). Celui-ci part dun ensemble de n arbres dun seul nud (un par variable) et les fusionne en fonction du poids des artes (voir algorithme 6.8 ci-aprs). Larbre de recouvrement maximal est un arbre non orient reliant toutes les variables. Notons que cet arbre non orient est le reprsentant de la classe dquivalence de Markov de tous les arbres dirigs possdant ce mme squelette. En effet, par dnition, un arbre orient ne peut pas contenir de Vstructure donc tous les arbres de mme squelette sont quivalents au sens de Markov (voir section 6.2.3 page 133). Lorientation de cet arbre non orient pourrait donc se faire en utilisant lalgorithme 6.5 page 137, ou plus simplement, en choisissant
150
Algorithme MWST dirig Construction de larbre optimal (Kruskal) Xi , T (Xi ) = {Xi } B (Xi , Xj ) A si T (Xi ) = T (Xj ) alors B B (Xi , Xj ) T T (Xi ) T (Xj ) T (Xi ) T T (Xj ) T Orientation des artes B {pai } ParcoursProfondeur(B, Xr ) Xi , si pai = alors ajout de pai Xi dans B
Notations : A liste des artes (Xi , Xj ) dans lordre dcroissant des W T (Xi ) arbre passant par le nud Xi Xr racine choisie pour orienter larbre parent du nud Xi pai B arbre optimal non orient structure nale obtenue par lalgorithme B TAB . 6.8 Algorithme MWST dirig
arbitrairement un nud racine et en dirigant chaque arte partir de ce nud. Pour cela, il suft deffectuer un parcours en profondeur de larbre en mmorisant le pre de chaque nud, puis de se servir de cette information pour orienter les artes. Nous appellerons algorithme MWST dirig, lalgorithme de construction dun arbre orient qui utilise lalgorithme de Kruskal pour obtenir larbre de recouvrement optimal non orient, puis qui oriente les artes partir dun nud racine arbitraire. Lexemple 6.9 ci-aprs illustre certains avantages et inconvnients de cet algorithme. Il permet dobtenir rapidement un arbre orient trs proche de la structure dorigine. De plus, par dnition de larbre de recouvrement, aucun nud ne sera cart de la structure, ce qui permet de retrouver des liens difciles apprendre (comme le lien A T de lexemple, qui na pas un poids W trs fort et qui est le dernier lien ajout). Cette proprit peut aussi devenir gnante puisquelle forcera des variables appartenir au graphe alors quelles ne seraient pas vraiment utiles au problme.
151
- Le rseau thorique ASIA est utilis pour gnrer 10000 exemples et calculer la matrice W. B
- Les artes potentielles sont tries dans lordre dcroissant des W : B-D (1), L-B (2), O-X (3), L-X, S-B (4), T-O (5), S-D, S-L (6), O-D, T-X, S-O, L-D, X-D, S-X, T-D, L-B, B-O, B-X, A-T (7), S-T, A-L, A-O, T-B, T-L, A-S, A-X, A-D, A-B - Les artes en gras sont ajoutes au fur et mesure dans larbre non orient. Les autres sont ignores car les nuds correspondants appartiennent dj larbre au moment o larte est traite. A
7 6
S
4
- Arbre optimal (les artes sont tiquetes en fonction de leur ordre dapparition ltape prcdente). B
T
5 2
O
3
X A
D S
- Arbre orient obtenu par un parcours en profondeur, en partant de A. B
- Le graphe obtenu est bien lun des meilleurs arbres possibles. En effet, rajouter larc O D ou inverser les arcs O L S pour se rapprocher du graphe thorique nous fait sortir de lespace des arbres. TAB . 6.9 Excution de lalgorithme MWST dirig
152
Algorithme K2 Pour i = 1 n pai gold g(i, pai ) OK vrai Rpter Chercher Xj Pred(Xi )\pai qui maximise g(i, pai {Xj }) gnew g(i, pai ) {Xj } Si gnew > gold alors gold gnew pai pai {Xj } sinon OK faux Tant Que OK et | pai |< u Notations : Pred() u pai g(i, pai ) relation dordre sur les nuds Xi borne sup. du nombre de parents possibles pour un nud ensemble des parents du nud Xi score local dni dans lquation ( 6.40) TAB . 6.10 Algorithme K2
Ordonnancement des nuds Un autre moyen pour limiter lespace de recherche consiste rester dans lespace des rseaux baysiens, tout en ajoutant un ordre sur les nuds pour se limiter dans la recherche des arcs intressants : si Xi est avant Xj alors il ne pourra y avoir darc de Xj vers Xi. Cette hypothse forte rduit le nombre de structures possibles de NS(n) (quation 6.20 page 132) NS (n) = 2n(n1)/2. Par exemple, NS (5) = 1024 contre NS(5) = 29281 et NS (10) = 3.5 1013 contre NS(10) = 4.2 1018. Pour rendre cette ide exploitable, il faut encore diminuer lespace de recherche en ajoutant des heuristiques supplmentaires. Ainsi lalgorithme K2 de Cooper et Herskovits [CH92] dtaill dans la table 6.10 reprend le score bayesian Dirichlet (quation 6.32 page 147) avec un a priori uniforme sur les structures. Ce score peut scrire de la faon suivante :
n
ScoreBD(B, D)
i=1
g(i, pai)
avec g(i, pai) =
qi j=1
(ij) (Nij + ij)

153
ri k=1
(Nijk + ijk) (ijk)
(6.40)
Pour maximiser ScoreBD, Cooper et Herskovits proposent deffectuer une recherche gloutonne en cherchant les parents pai du nud Xi qui vont maximiser g(i, pai), et ainsi de suite, sans remettre en cause les choix effectus prcdemment. Ils proposent aussi de xer une borne suprieure u au nombre de parents possibles pour un nud. Lalgorithme K3 prsent par Bouckaert [Bou93] reprend le principe de lalgorithme K2 en remplaant le score bayesian Dirichlet par un score MDL. Lalgorithme BENEDICT propos par Acid et de Campos [AdC01] reprend peu prs le mme principe en utilisant comme score linformation mutuelle conditionnelle. Linconvnient principal de ces mthodes rside dans la dtermination de lordre des nuds. Ceci est illustr dans lexemple 6.11 ciaprs : en utilisant lordre topologique du rseau recherch, lalgorithme parvient retrouver la structure recherche (a). Par contre, dans deux situations plus ralistes (b) et (c), lalgorithme donne des structures de qualit variable. Dans lexemple (b), lordonnancement des nuds empche de retrouver la V-structure T O L et gnre la place la meilleure structure entre les trois nuds, compte tenu des contraintes xes. Pour tenter de rsoudre ce problme dinitialisation, citons les travaux de [HGPS02] qui utilisent une approche de type algorithmes gntiques pour trouver lordonnancement optimal des nuds et ainsi la meilleure structure grce lalgorithme K2. Recherche gloutonne dans B Vue la taille superexponentielle de lespace des rseaux baysiens, une autre solution logique est dutiliser des mthodes doptimisation simples pour parcourir cet espace moins brutalement que les mthodes de type K2, sans toutefois parcourir tout lespace. Les principales diffrences entre les mthodes proposes rsident dans la faon de parcourir lespace, cest--dire dans le choix des oprateurs permettant de gnrer le voisinage dun graphe, et lutilisation dheuristiques supplmentaires pour simplier le voisinage obtenu. Chickering et al. [CGH95] utilisent lalgorithme classique de recherche gloutonne (Greedy Search) dans lespace des rseaux baysiens dcrit dans la table 6.15 page 159. La notion de voisinage utilise, dnie laide de trois oprateurs : ajout, suppression ou inversion darc, est illustre dans lexemple 6.12 page 156. Lutilisation dun score dcomposable localement nous permet de calculer rapidement la variation
154
du score pour les structures obtenues avec ces trois oprateurs (voir table 6.14 page 158).
Reprenons les 1 000 exemples gnrs pour le problme ASIA, et utilisons lalgorithme K2 partir de trois initialisations diffrentes.
(a) Graphe obtenu avec un ordonnancement des nuds biais (ASTLBOXD, ordre topologique du graphe ASIA) B
X A
D S
(b) Graphe obtenu avec un ordonnancement des nuds alatoire (OLBXASDT ) B
X A
D S
(c) Graphe obtenu avec un autre ordonnancement des nuds alatoire (TALDSXOB) B
Commentaires : linitialisation de lalgorithme K2 est problmatique. Deux initialisations diffrentes (b) et (c) mnent des rsultats de qualit variable.
TAB . 6.11 Excution de lalgorithme K2
155
Considrons le graphe B suivant ainsi quun voisinage dni par les trois oprateurs ajout (INSERT), suppression (DELETE) et retournement (REVERSE) darc. Remarquons que les graphes rsultants ne sont retenus que sils sont sans circuit. XA XB
XC - Gnration du voisinage de B :
XD
XA
XB
XA
XB
XA
XB
XC
XD
XC
XD
XC
XD
INSERT(XA , XB )
INSERT(XA , XD )
INSERT(XC , XD )
XA
XB
XA
XB
XA
XB
XC
XD
XC
XD
XC
XD
DELETE(XA , XC )
DELETE(XB , XD )
DELETE(XC , XB )
XA
XB
XA
XB
XA
XB
XC
XD
XC
XD
XC
XD
REVERSE(XA , XC )
REVERSE(XB , XD )
REVERSE(XC , XB )
Notons que pour cet exemple de petite taille, le voisinage comprend dj neuf DAG dont il va falloir maintenant valuer la qualit. Pour des structures plus complexes, la taille du voisinage devient beaucoup plus importante, ce qui rend ncessaire lutilisation de scores locaux pour limiter les calculs et limplmentation dun systme de cache pour ne pas recalculer plusieurs fois chaque score local.
TAB . 6.12 Exemple de voisinage GS
156
- Graphe obtenu avec les donnes ASIA et le score BIC en partant dun graphe vide. B
X A
D S - Graphe obtenu sur les mmes donnes en partant de larbre fourni par MWST. B
Une initialisation quelconque peut faire converger lalgorithme vers un optimum local de mauvaise qualit (voir exemple 6.17 page 163). Une initialisation plus ruse permet darriver une meilleure solution. Notons que larc A T na pas t jug intressant car laugmentation du terme de vraisemblance du score BIC (voir quation 6.29 page 146) est contrebalance par laugmentation du second terme qui pnalise les structures les plus complexes.
TAB . 6.13 Rsultat de lalgorithme GS avec le score BIC
Lalgorithme de recherche gloutonne est connu pour converger vers un optimum qui est souvent local et de mauvaise qualit (voir exemple 6.17 page 163). Une faon simple dviter de tomber dans cet optimum local est de rpter plusieurs fois la recherche gloutonne partir dinitialisations tires alatoirement. Cette mthode connue sous le nom de iterated hill climbing ou random restart permet de dcouvrir plusieurs optima, et a donc plus de chances de converger vers la solution optimale si la fonction de score nest pas trop bruite. Dans le mme esprit, dautres techniques doptimisation peuvent tre utilises, comme par exemple le recuit simul (Simulated Annealing) [KGV83]. Citons aussi les travaux de Larraaga et al. [LKMY96] qui se servent dalgorithmes gntiques pour parcourir lespace des DAG. Jouffe et Munteanu ([JM00], [JM01]) proposent une autre srie doprateurs pour viter de tomber dans des minima locaux facilement re 157
Oprateur Variation du score
INSERT (XA , XB ) s(XB , Pa+X A ) XB s(XB , PaX B )
DELETE(XA , XB ) s(XB , PaX A ) XB s(XB , PaX B )
REVERSE(XA , XB ) s(XB , PaX A ) XB s(XB , PaX B ) +s(XA , Pa+X B ) XA s(XA , PaX A )

+X
Notations :
PaX i j = Pa(Xi ) \ {Xj }
PaX i j = Pa(Xi ) {Xj }
TAB . 6.14 Exemple doprateurs dans lespace des rseaux baysiens et calcul de la variation
du score pour chacun des oprateurs
connaissables (voir exemple page 163), ainsi quune mthode de parcours encore plus simple dans lespace des ordonnancements possibles, en utilisant ensuite lalgorithme K2 pour calculer la meilleure structure possible pour chaque ordonnancement. Les mthodes itratives comme la recherche gloutonne souffrent souvent de problmes dinitialisation. Il est parfois possible dutiliser des connaissances expertes pour dnir un graphe de dpart. Dans le cas contraire, sur une ide de [Hec98], nous avons utilis dans [LF04] larbre obtenu par lalgorithme MWST dcrit prcdemment, ce qui permet souvent darriver une meilleure solution quavec une initialisation alatoire (ou vide), ou la mme solution mais en moins ditrations. Lexemple 6.13 page prcdente nous montre lintrt dune initialisation ruse : en partant dun graphe vide, lalgorithme converge vers une solution moyenne alors quune initialisation laide de larbre optimal nous permet dobtenir une solution plus proche de la ralit. Il faut noter ici un des inconvnients des mthodes base de score : les dpendances faibles entre variables (A T dans lexemple) ne sont pas juges intressantes car laugmentation du terme de vraisemblance du score est contrebalance par laugmentation du second terme qui pnalise les structures les plus complexes. Algorithmes bass sur un score et donnes incompltes
Le premier problme rsoudre, lorsque les donnes sont incompltes, concerne le calcul de la vraisemblance ou plus gnralement du score pour une structure xe, puis sa maximisation. Concernant la maximisation de cette vraisemblance, nous avons dj voqu en section 6.1.2 page 121 comment le principe de lalgorithme EM
158
Algorithme Recherche Gloutonne Initialisation du graphe B (Graphe vide, alatoire, donn par un expert ou arbre obtenu par MWST) Continuer Vrai Scoremax score(B) Rpter Gnration de VB , voisinage de B, laide doprateurs : - Ajout darc, suppression darc, inversion darc (les graphes ainsi obtenus doivent tre sans circuit) Calcul du score pour chaque graphe de VB Bnew argmaxB V B (score(B )) Si score(Bnew ) Scoremax alors Scoremax score(Bnew ) B Bnew sinon Continuer Faux Tant Que Continuer Notations : Score() fonction de score sur les structures possibles ensemble des DAG voisins du DAG B courant VB B structure nale obtenue par lalgorithme TAB . 6.15 Algorithme Recherche Gloutonne (GS)
pouvait tre utilis pour estimer les paramtres dune structure B xe. Ce mme principe sapplique aussi naturellement la recherche conjointe de et B pour donner ce que Friedman a dabord appel EM pour la slection de modle [Fri97] puis EM structurel [Fri98]. Lalgorithme 6.16 ci-aprs prsente trs sommairement lapplication de lalgorithme EM lapprentissage de structure. Ltape de maximisation dans lespace des paramtres de lalgorithme EM paramtrique (voir page 121) est maintenant remplace par une maximisation dans lespace {B, }. Cela revient, chaque itration, chercher la meilleure structure et les meilleurs paramtres associs cette structure. En pratique, ces deux tapes sont clairement distinctes1 : B i = argmax Q(B, : B i1, i1)
B
(6.41) (6.42)
i = argmax Q(B i, : B i1, i1)
o Q(B, : B , ) est lesprance de la vraisemblance dun rseau baysien < B, > calcule partir de la distribution de probabilit des donnes manquantes P(Dm | B , ).
La notation Q(B, : . . . ) utilise dans lquation 6.41 correspond E [Q(B, : . . . )] pour un score baysien ou Q(B, MV : . . . ) o MV est obtenu par maximum de vraisemblance
1
159
Algorithme EM structurel gnrique Initialiser i 0 Initialisation du graphe G 0 (Graphe vide, alatoire, donn par un expert ou arbre obtenu par MWST-EM) Initialisation des paramtres 0 ) Rpter ii+1 (Bi , i ) = argmax Q(B, : Bi1 , i1 )
B,
Tant Que | Q(Bi , i : Bi1 , i1 ) Q(Bi1 , i1 : Bi1 , i1 ) |>
Notations : Q(B, : B , )
Esprance de la vraisemblance dun rseau baysien < B, > calcule partir de la distribution de probabilit des donnes manquantes P(Dm | B , )
TAB . 6.16 Algorithme EM structurel gnrique
Il faut noter que la recherche dans lespace des graphes (quation 6.41 page prcdente) nous ramne au problme initial, cest--dire, trouver le maximum de la fonction de score dans tout lespace des DAG. Heureusement, grce aux travaux de Dempster (Generalised EM), il est possible de remplacer cette tape de recherche de loptimum global de la fonction Q par la recherche dune meilleure solution permettant daugmenter le score, sans affecter les proprits de convergence de lalgorithme. Cette recherche dune meilleure solution (au lieu de la meilleure ) peut alors seffectuer dans un espace plus limit, comme par exemple VB , lensemble des voisins du graphe B comme dni pour une recherche gloutonne classique. Concernant la recherche dans lespace des paramtres (quation 6.42 page prcdente), [Fri97] suggre de rpter lopration plusieurs fois, en utilisant une initialisation intelligente. Cela revient alors excuter lalgorithme EM paramtrique pour chaque structure B i partir de la structure B 0. La fonction Q maximiser est trs lie la notion de score dans le cas des donnes compltes puisquil sagit de lesprance de cette fonction de score en utilisant une densit de probabilit sur les donnes manquantes xe P(Dm | B , ). Dans ses deux articles concernant les algorithmes EM structurels Friedman adapte respectivement le score BIC et le score BDe pour les donnes manquantes. Dcrivons ici le cas du score BIC : QBIC(B, : B , ) = 1 EB , [log P(Do, Dm | B, )] Dim(B) log N 2
160
(6.43)
Comme le score BIC, QBIC est lui aussi dcomposable : QBIC(B, : B , ) = Q

i bic
(6.44)

(Xi, Pi, Xi|Pi : B , )
o Qbic(Xi, Pi, Xi|Pi : B , ) = log N N log ijk Dim(Xi, B) ijk 2

Xi =xk Pi =paj
(6.45)
avec N = EB , [Nijk] = N P(Xi = xk, Pi = paj | B , ) obtenu ijk par infrence dans le rseau {B , } si {Xi,Pi} ne sont pas compltement mesurs, ou calcul classiquement sinon. Les deux algorithmes EM structurels proposs par Friedman peuvent ainsi tre considrs comme des algorithmes de recherche gloutonne (avec un score BIC ou BDe), avec un apprentissage EM paramtrique chaque itration. partir de ces considrations, et de nos travaux concernant linitialisation des algorithmes de recherche gloutonne par larbre optimal reliant toutes les variables (MWST), nous avons propos dans [LF05] une adaptation de MWST aux bases de donnes incompltes (MWST-EM) pouvant aussi tre utilise comme initialisation des algorithmes EM structurels classiques. Lalgorithme MWST-EM est ainsi une instanciation de lalgorithme EM structurel gnrique (voir lalgorithme 6.16 page prcdente) o la maximisation sur B (quation 6.41 page 159) ne seffectue plus dans tout lespace des DAG mais seulement dans lespace des arbres. Cette simplication permet dviter de simplier la recherche dans le voisinage du graphe courant, comme doivent le faire les algorithmes EM structurels prcdents, puisquil est possible de trouver directement le meilleur arbre maximisant une fonction Q xe. Recherche dans lespace des classes dquivalence de Markov Certaines mthodes dcrites prcdemment ne travaillent pas rellement dans lespace B des rseaux baysiens. Par exemple, des algorithmes tels que PC, IC ou BN-PC permettent dobtenir le CPDAG reprsentant de la classe dquivalence quil faut ensuite nir dorienter. De mme, lalgorithme MWST nous donne une structure non oriente qui est aussi le reprsentant de la classe dquivalence de tous les arbres orients possdant le
161
mme squelette. Lorientation nale de ces graphes peut mener des DAG orients diffremment, mais impossibles distinguer daprs les donnes. Chickering [Chi95] a montr que des rseaux baysiens quivalents obtiennent le mme score, pour la plupart des scores (AIC, BIC, BDe, MDL). Lutilisation de ces scores dans lespace B des rseaux baysiens dbouche alors sur des dcouvertes de structures non globalement optimales [MB02]. La table 6.17 ci-aprs nous montre lexemple dune recherche gloutonne (par ajout darcs) qui cherche retrouver une V-structure initiale dans lespace B des rseaux baysiens trois variables. Les scores classiques conservant les quivalences, lalgorithme peut se retrouver soit dans la situation n1 (dcouverte dune structure optimale, cest--dire la structure initiale) soit dans la situation n2 (dcouverte dune structure optimale localement). Pour viter ce genre de situations sans utiliser de techniques doptimisation complexes comme le recuit simul ou les algorithmes gntiques, certaines mthodes proposent de travailler directement dans lespace E des classes dquivalence, ou de tenir compte des proprits dquivalence pour mieux parcourir lespace B. Lespace E est quasiment de mme taille que lespace B des rseaux baysiens. Gillispie et Perlman [GL01] ont montr que le nombre moyen de DAG par classe dquivalence semblait converger vers une valeur asymptotique proche de 3.7 (en observant ce rsultat jusqu n = 10 variables). Deux situations soffrent donc nous : soit travailler directement dans lespace B, en tenant compte des proprits de E en rajoutant des heuristiques pour viter de tomber dans des minima locaux (Munteanu et al. [MB02]) ou en bridant les oprateurs de voisinage (Castelo et al. [CK02]), soit travailler directement dans lespace E. Ainsi Chickering [Chi95, Chi96] propose une srie doprateurs dans lespace des PDAG (insrer une arte, supprimer une arte, insrer un arc, supprimer un arc, inverser un arc, crer une V-structure). Malheureusement, ces oprateurs sont trop lourds et lalgorithme propos ncessite de nombreuses oprations entre lespace des CPDAG, des PDAG intermdiaires et lespace des DAG. Bendou et Munteanu [BM04] utilisent le mme ensemble doprateurs, mais en travaillant directement dans un espace intermdiaire, lespace des graphes chans maximaux.
162
tat initial XA XC 2 scores maximaux (quivalence) : score(XA XC ) = score(XC XA ) XB
XA XC
XB
XA XC
XB
score maximal : score(XB XC )
2 scores maximaux (quivalents) : score(XB XC ) = score(XC XB )
XA XC
XB
XA XC
XB
(1) optimum global
score maximal : score(XA XB )
XA XC
XB
(2) optimum local
TAB . 6.17 Dcouverte dune structure de rseau baysien non globalement optimale par une mthode dajout darcs dans lespace B des rseaux baysiens [MB02] : au lieu de retrouver la V-structure initiale (1), lalgorithme pourra converger vers un optimum local (2)
Concernant la multitude doprateurs utiliser lors de la recherche gloutonne, une avance signicative est apporte grce la conjecture de Meek [Mee97] dmontre dans [Chi02b]. Chickering montre quil suft deffectuer une recherche gloutonne en ajoutant des arcs puis une autre recherche gloutonne en en supprimant pour arriver la structure optimale. Cet al 163
Oprateur Conditions de validit
INSERT (XA , XB , T ) NAX B ,X A T est une clique chaque chemin semi-dirig XB . . . XA contient un nud dans NAX B ,X A T s(XB , NAX B ,X A T PaX B A ) s(XB , NAX B ,X A T PaX B ) XA XB devient XA XB Xt T, Xt - XB devient Xt XB
X +X
DELETE(XA , XB , H) NAX B ,X A \ H est une clique
Variation du score Effet
s(XB , {NAX B ,X A \ T } PaX B A ) s(XB , {NAX B ,X A \ T } PaX B ) XA -*XB devient XA XB Xh H, XB - Xh devient XB Xh XA - Xh devient XA Xh
+X
Notations :
TAB . 6.18 Exemple doprateurs dans lespace des classes dquivalence de Markov, condi-
tion de validit et calcul de la variation du score pour chacun des oprateurs
PaX i j = Pa(Xi ) \ {Xj } PaX i j = Pa(Xi ) {Xj } NAX B ,X A = {Xt / (Xt XA ou Xt XA ) et Xt XB }
gorithme, GES (Greedy Equivalence Search), utilise uniquement deux oprateurs dinsertion et de suppression proposs dans [AW02], [Chi02b] ainsi que [Chi02a] et [CM02]. La table 6.18 nous dcrit les oprateurs INSERT et DELETE ainsi que leur condition de validit et le calcul de la variation du score quils entranent. Ces deux oprateurs servent construire les limites dinclusion infrieure V (E) et suprieure V +(E) du CPDAG courant E. D FINITION 6.4 Soit E un CPDAG, la limite dinclusion suprieure V +(E) est alors lensemble des CPDAG voisins de E dnis par : E + V +(E) ssi G E / {G + = {G + 1 arc} et G + E +} D FINITION 6.5 Soit E un CPDAG, la limite dinclusion infrieure V (E) est alors lensemble des CPDAG voisins de E dnis par : E V (E) ssi G E / {G = {G 1 arc} et G E } La premire tape de cet algorithme, dtaille dans la table 6.19 ci-aprs, est donc une recherche gloutonne dans la limite dinclusion suprieure, an de complexier la structure tant que le score augmente. Ltape suivante (table 6.20 page 166) est une recherche gloutonne dans la limite dinclusion infrieure, pour simplier la structure maximale obtenue et converger vers
164
Algorithme Greedy Equivalence Search (insertion darcs) G G0 Score Rpter Scoremax (XA , XB ) X 2 /XA non adjacent XB NNAX B ,X A = {Xt / Xt non adjacent XA et Xt XB } NAX B ,X A = {Xt / (Xt XA ou Xt XA ) et Xt XB } T powerset(NNAX B ,X A ) Gnew G Test1 NAX B ,X A T est une clique
part.
Tant Que Score Scoreold
Test2 XB XA dans G \ (NAX B ,X A T ) Si Test1 et Test2 alors Gnew G + INSERT (XA , XB , T ), cest--dire : XA XB devient XA XB dans Gnew Xt T, Xt XB devient Xt XB dans Gnew DAGnew CPDAGtoDAG(Gnew ) Scorenew score(DAGnew ) Si Scorenew > Scoremax alors DAGmax = DAGnew Scoremax = Scorenew Scoreold Score Score Scoremax Si Score Scoreold alors G DAGtoCPAG(DAGmax )
TAB . 6.19 Algorithme GES (insertion darcs)
la structure optimale. Lexemple 6.22 page 170 illustre cette recherche pour quatre nuds, en donnant les CPDAG gnrs chaque tape. Lalgorithme Greedy Equivalence Search ne saffranchit pas totalement de lespace B des DAG. En effet, les fonctions de score existantes ne travaillent que dans cet espace. Il faut donc y revenir chaque itration pour calculer le score dun des DAG de la classe dquivalence (voir la table 6.21 page 167).
165
Algorithme Greedy Equivalence Search (suppression darcs) Score Scoreold Rpter Scoremax (XA , XB ) X 2 /XA adjacent XB NAX B ,X A = {Xt / (Xt XA ou Xt XA ) et Xt XB } H powerset(NAX B ,X A ) Gnew G Si NAX B ,X A \ H est une clique alors Gnew G + DELETE(XA , XB , H), cest--dire : XA XB (ou XA XB ) devient XA XB dans Gnew Xh H, XB Xh devient XB Xh dans Gnew XA Xh (sil existe) devient XA Xh dans Gnew DAGnew CPDAGtoDAG(Gnew ) Scorenew score(DAGnew ) Si Scorenew > Scoremax alors DAGmax = DAGnew Scoremax = Scorenew Scoreold Score Score Scoremax Si Score Scoreold alors G DAGtoCPAG(DAGmax ) Tant Que Score Scoreold TAB . 6.20 Algorithme GES (suppression darcs)
166
CPDAG(t) Oprateur PDAG1 ... PDAGi PDAGtoDAG DAG1 ... DAGi score(DAGi ) DAG = Argmaxscore(.) DAGtoCPDAG CPDAG(t + 1) ... DAGx ... PDAGx
score(DAG1 ) . . .
. . . score(DAGx )
TAB . 6.21 Algorithme GES, exemple ditration dans lespace E des CPDAG
Soit quatre nuds XA , XB , XC et XD . Loprateur INSERT de lalgorithme GES nous donne la limite dinclusion suprieure du graphe courant. Cette srie de PDAG est transforme en DAG grce lalgorithme de Dor et Tarsi (voir table 6.5 page 137) pour pouvoir appliquer la fonction de score, puis en CPDAG grce lalgorithme de Chickering (voir table 6.3 page 135). XA XB
XC
XD
TAB . 6.22 Excution de lalgorithme GES pour 4 nuds ( suivre. . . )
167
La premire itration de lalgorithme GES revient tester les six CPDAG suivants, qui sont effectivement les reprsentants des classes dquivalences des douze DAG qui possdent un unique arc.
XA
XB
XA
XB
XA
XB
XC
XD
XC
XD
XC
XD
INSERT(XA , XB , )
INSERT(XA , XC , )
INSERT(XB , XC , )
XA
XB
XA
XB
XA
XB
XC
XD
XC
XD
XC
XD
INSERT(XA , XD , )
INSERT(XB , XD , )
INSERT(XC , XD , )
Supposons que le score obtenu par le CPDAG XC XD soit le meilleur. GES va appliquer une nouvelle fois loprateur dinsertion pour obtenir neuf autres CPDAG. Ces graphes correspondent aux classes dquivalence possibles pour les vingt DAGS deux arcs que lon peut obtenir aprs insertion dun arc sur chacun des DAG quivalents au CPDAG prcdent XC XD :
XA
XB
XA
XB
XA
XB
XC
XD
XC
XD
XC
XD
INSERT(XA , XB , )
INSERT(XA , XC , )
INSERT(XA , XC , XD )
XA
XB
XA
XB
XA
XB
XC
XD
XC
XD
XC
XD
INSERT(XA , XD , )
INSERT(XA , XD , XC )
INSERT(XB , XC , )
168
XA
XB
XA
XB
XA
XB
XC
XD
XC
XD
XC
XD
INSERT(XB , XC , XD )
INSERT(XB , XD , )
INSERT(XB , XD , XC )
Pour litration suivante, supposons prsent que notre meilleure structure est la structure XC XD XB . Loprateur dajout darcs nous permet de parcourir les huit CPDAG suivants :
XA
XB
XA
XB
XA
XB
XC
XD
XC
XD
XC
XD
INSERT(XA , XB , )
INSERT(XA , XB , XD )
INSERT(XA , XC , )
XA
XB
XA
XB
XA
XB
XC
XD
XC
XD
XC
XD
INSERT(XA , XC , XD )
INSERT(XA , XD , )
INSERT(XA , XD , XB )
XA
XB
XA
XB
XC
XD
XC
XD
INSERT(XA , XD , XC )
INSERT(XB , XC , )
Considrons maintenant que le CPDAG issu de INSERT(XB , XC , ) obtient le meilleur score, suprieur celui de litration prcdente et que litration suivante dajout darcs (non dtaille ici) ne parvient pas trouver de meilleure structure. La premire phase de lalgorithme GES (ajout darcs) prend n.
169
Suit maintenant la seconde phase o nous allons chercher une meilleure structure en retirant des arcs. Loprateur de suppression darc gnre les six CPDAG suivants qui reprsentent un ensemble de douze DAG.
XA
XB
XA
XB
XA
XB
XC
XD
XC
XD
XC
XD
DELETE(XB , XC , )
DELETE(XB , XD , )
DELETE(XC , XD , )
XA
XB
XA
XB
XA
XB
XC
XD
XC
XD
XC
XD
DELETE(XB , XC , XD )
DELETE(XB , XD , XC )
DELETE(XC , XD , XB )
Les structures indiques en gris fonc ont dj t values lors de ltape dajout darcs, le meilleur score correspondant la premire structure obtenue en faisant DELETE(XB , XC , ). Il faut alors comparer ce score avec celui des deux structures de droite qui nont pas encore t parcourues par notre algorithme pour choisir la meilleure structure pour cette itration, et continuer ensuite appliquer loprateur DELETE tant que le score augmente pour obtenir la structure optimale.
TAB . 6.22 Excution de lalgorithme GES pour 4 nuds
Lalgorithme Greedy Equivalence Search tire avantageusement partie des proprits de lespace E pour converger vers la structure optimale. Il ouvre aussi des perspectives intressantes qui devraient rapidement voir le jour : pourquoi ne pas adapter GES aux donnes incompltes avec le mme principe que lalgorithme EM structurel travaillant dans B pour obtenir un EM structurel dans lespace E ?
6.2.6 Mthodes hybrides

An de tirer parti des avantages respectifs des algorithmes de recherche dindpendances conditionnelles et de ceux bass sur lutilisation dun score, de nombreux travaux ont men des mthodes hybrides.
170
Ainsi, plusieurs approches vont utiliser les informations issues dune premire phase de recherche dindpendances conditionnelles pour guider la phase suivante, une recherche dans lespace des DAG. Singh et Valtorta [SV93] ou Lamma et al. [LRS04] gnrent, grce cette recherche dindpendances conditionnelles, un ordonnancement des variables qui est utilis par lalgorithme K2. Wong et al. [WLL04] utilisent le mme genre dinformation pour contraindre une heuristique de parcours de lespace des DAG par algorithmes gntiques. Dautres approches, symtriques aux prcdentes, vont utiliser les avantages des mthodes base de score pour aider les algorithmes dapprentissage de structure par recherche dindpendance conditionnelle. Dash et Druzdzel [DD99] partent du fait que lalgorithme PC est sensible aux heuristiques utilises pour ne pas parcourir tous les ensembles de conditionnement ainsi quau seuil du test statistique utilis. Ils proposent alors un parcours alatoire de lespace de ces deux paramtres (ordre permettant de limiter les ensembles de conditionnement ainsi que le niveau de signication du test) en utilisant un score baysien pour comparer les rseaux obtenus. Sur le mme principe gnral, Dash et Druzdzel [DD03] proposent un nouveau test dindpendance conditionnelle Hybrid Independence Test se servant de certains avantages des approches base de score comme lajout possible da priori et lutilisation de lalgorithme EM pour prendre en compte des donnes incompltes.
6.2.7 Incorporation de connaissances

Nous avons pour linstant dcrit les diffrentes familles de mthodes dapprentissage de structure partir de donnes. Ces mthodes nutilisent aucune connaissance prcise sur la tche rsoudre ou de connaissances des experts sur la structure trouver. Si lexpert fournit directement la structure du rseau baysien, le problme est rsolu. Par contre, dans la plupart des cas, les connaissances de lexpert sur la structure ne sont que partielles. Cheng et al. [CGK+02] ont fait une liste de ces connaissances a priori : x Dclaration dun nud racine, cest--dire sans parent, y Dclaration dun nud feuille, cest--dire sans enfant, z Existence (ou absence) dun arc entre deux nuds prcis, { Indpendance de deux nuds conditionnellement certains autres, | Dclaration dun ordre (partiel ou complet) sur les variables. cette liste, nous rajouterons les points suivants : } Dclaration dun nud cible : essentiellement pour des tches de classication,
171
~ Existence dune variable latente entre deux nuds. Quel que soit le type de connaissance apporte par lexpert, il faut souvent utiliser des donnes pour trouver la structure du rseau baysien. Les a priori de type 1. 5. peuvent tre facilement pris en compte par les algorithmes dapprentissage de structure voqus en sections 6.2.4 page 136 et 6.2.5 page 144. Nous allons donc approfondir les points 6 et 7 : lapprentissage de structure dans le cadre de la classication, et lapprentissage de structure lorsque des variables latentes sont dnies explicitement. Structures de rseaux baysiens pour la classication
Dans les tches de classication, une variable prcise correspond la classe quil faut reconnatre partir des autres variables (les caractristiques). Plusieurs mthodes dapprentissage vont donc proposer des structures o ce nud classe aura un rle central ([FGG97], [CG99], [CG01]). Structure de Bayes nave Le classieur de Bayes naf correspond la structure la plus simple qui soit, en posant lhypothse que les caractristiques X1 . . . Xn1 sont indpendantes conditionnellement la classe Xc. Cela nous donne la structure type de la gure 6.2 . Cette structure, pourtant trs simple, donne de trs bons rsultats dans de nombreuses applications [LIT92].
Xc X1 Xi ...
F IG . 6.2 Rseau baysien naf Structure augmente An dallger lhypothse dindpendance conditionnelle des caractristiques, il a t propos daugmenter la structure nave en rajoutant des liens entre certaines caractristiques ([KP99], [FGG97], [SGC02]). Parmi les diffrentes mthodes proposes pour augmenter le rseau baysien naf, citons TANB (Tree Augmented Naive Bayes) qui utilise une structure nave entre la classe et les caractristiques et un arbre reliant toutes les caractristiques. [Gei92] a montr que la structure augmente par un arbre optimale sobtenait facilement en utilisant MWST (Maximum Weight Spanning Tree) sur les caractristiques
172
et en reliant la classe aux caractristiques comme pour une structure nave. La seule diffrence rside dans le calcul de lintrt de connecter deux nuds, o il faut remplacer linformation conditionnelle (quation 6.38 page 150) ou la diffrence de score (quation 6.39 page 150) utilises par une information mutuelle ou une diffrence de score conditionnelle la variable classe. Xc X1 X2 Xi ...
F IG . 6.3 Rseau baysien naf augment (par un arbre) [FGG97] et [GGS97] ont montr que lutilisation de telles structures donne de meilleurs rsultats quune approche de recherche de structure brute base de score (cest--dire ne tenant pas compte de la spcit du nud classe). Plusieurs extensions de TANB ont t tudies rcemment. Larbre obtenu par TANB va obligatoirement relier chaque variable caractristique avec une autre de ces variables. Pour assouplir cette hypothse, [SGC02] propose avec lalgorithme FANB (Forest Augmented Naive Bayes) de ne pas rechercher le meilleur arbre, mais la meilleure fort, cest--dire lensemble optimal darbres disjoints sur lensemble des variables caractristiques. Pour cela, il utilise les spcicits de lalgorithme de recherche de larbre de recouvrement maximal propos par Kruskal (voir par exemple [Sak84, CLR94, AU98]) pour trouver ces ensembles darbres disjoints. Dautres extensions adaptent les mthodes au cas des bases de donnes incompltes. Citons par exemple [CC02] qui abordent lapprentissage de ces structures augmentes lorsque la variable classe est partiellement observe. Lalgorithme MWST-EM, propos par [LF05] et voqu page 158 peut aussi tre appliqu pour trouver une structure de type TANB ou FANB, avec lavantage supplmentaire de pouvoir traiter les situations o nimporte quelle variable peut tre partiellement observe (et pas uniquement la variable classe). Multi-net Cette approche originale propose par [GH96] et [FGG97] suppose que (1) les relations de causalit ou dindpendance conditionnelles
173
entre les variables ne sont pas forcment les mmes selon les modalits de la classe et (2) la structure reprsentant les relations entre les caractristiques pour une modalit de la classe xe est souvent plus simple que la structure reprsentant les relations entre toutes les variables (caractristiques et classe). Au lieu de rechercher la structure optimale englobant les n variables, classes comprises, lapproche multi-net consiste chercher rc structures reliant uniquement les n 1 caractristiques, avec une structure pour chaque modalit i de la classe (i [1 . . . rc]), comme illustr dans la gure 6.4 . Selon lhypothse (2), la plupart des approches de ce type dcident dutiliser des mthodes simples comme MWST ou BN-PC pour trouver chacune des structures au lieu dalgorithmes plus lourds comme la recherche gloutonne.
X c = x1 X1 X2 X c = x2 X1 X2 X c = xr c X1 X2
Xi
...
Xi
...
...
Xi
...
F IG . 6.4 Approche multi-net Apprentissage des modles discriminants Toutes les mthodes dapprentissage de paramtres ou de structure voques jusquici maximisent la vraisemblance sur toutes les variables, la variable classe ne tenant pas une place particulire lors de lapprentissage. En prenant lexemple de la rgression logistique, Ng et Jordan [NJ02] montrent que cet apprentissage gnratif nest pas le plus adapt dans le cas particulier de la classication, et quil est prfrable dutiliser un apprentissage de type discriminant. Pour cela, la fonction objectif nest plus la vraisemblance de toutes les variables, mais la vraisemblance de la variable classe conditionnellement toutes les autres, fonction permettant de mesurer directement le pouvoir discriminant du rseau baysien. Greiner et al. [GSSZ05] proposent ainsi un algorithme dapprentissage des paramtres dun rseau baysien maximisant la vraisemblance conditionnelle (ELR). Il faut noter que cet apprentissage nest plus aussi
174
simple que dans le cas gnratif. Dans la plupart des cas classiques, la maximisation de la vraisemblance revient estimer les statistiques essentielles de lchantillon (frquence dapparition dun vnement dans le cas discret, moyenne et variance empiriques dans le cas gaussien). La maximisation de la vraisemblance conditionnelle nest pas si simple et passe par une tape doptimisation itrative, comme la descente de gradient propose dans lalgorithme ELR. Lapprentissage de la structure dun modle discriminant est donc encore plus problmatique. En effet, les mthodes dapprentissage de structure voques prcdemment sont des mthodes itratives conjuguant une tape de maximisation dans lespace des graphes et une tape de maximisation dans lespace des paramtres. Remplacer la vraisemblance par la vraisemblance conditionnelle amnerait donc ajouter une tape doptimisation itrative (celle concernant les paramtres) dans le parcours itratif de lespace des graphes, ce qui rend la mthode particulirement coteuse en temps de calcul. Grossman et Domingos [GD04] proposent alors de garder ltape classique destimation des paramtres par maximisation de la vraisemblance, mais dutiliser un score prenant en compte le pouvoir discriminant du rseau baysien pour le parcours dans lespace des graphes. Le score propos sinspire du score BIC, en utilisant cette fois-ci la vraisemblance conditionnelle la place de la vraisemblance classique.
Structures de rseaux baysiens avec variables latentes La connaissance apporte par un expert peut aussi se traduire par la cration de variables latentes entre deux ou plusieurs nuds, remettant en cause lhypothse de sufsance causale. Cest le cas par exemple pour des problmes de classication non supervise o la classe nest jamais mesure. Il est donc possible de proposer lquivalent dun rseau baysien naf, le modle latent, mais o la classe (reprsente en gris dans la gure 6.5 ) ne fait pas partie des variables mesures. H
X1
X2
...
Xi
...
Xn
F IG . 6.5 Modle latent
175
Les modles hirarchiques latents illustrs par la gure 6.6 ont t proposs par [BT98] pour la visualisation de donnes et [Zha02] pour la classication non supervise. Ils gnralisent la structure de modle latent en faisant le parallle avec les arbres phylogntiques utiliss en bioinformatique ou les mthodes de classication hirarchique. H1
H2
H3
X1
X2
...
Xi
...
Xj
Xn
F IG . 6.6 Modle latent hirarchique
Lapprentissage des paramtres pour le modle latent ou le modle hirarchique latent sappuie fortement sur lalgorithme EM. Cheeseman et al. ont ainsi propos AUTOCLASS [CS96], un algorithme baysien de classication non supervise utilisant lalgorithme EM. Attias et al. [Att99] ont utilis les approches variationnelles popularises par Jordan et al. [JGJS98] pour gnraliser lalgorithme EM pour les modles latents. Pea et al. [PLL00] simplient la procdure de recherche de lalgorithme EM structurel pour rechercher une structure latente augmente, tout en proposant une variante plus rapide de lalgorithme EM. Dans ce type de modles, la dtermination de la cardinalit des variables latentes est une tche difcile, que nous dcrirons plus en dtail dans la section 6.2.8 ci-aprs. Autres structures particulires
La modlisation de systmes complexes passe souvent par la dtermination de rgularits dans le modle. La connaissance de ces rgularits permet alors de restreindre lidentication du modle celle de ses composants qui peuvent se rpter plusieurs fois. Ce type de modlisation se retrouve par exemple dans le formalisme des rseaux baysiens orients objets (OOBN [BW00]). Ces OOBN introduisent la notion dobjet dans un rseau baysien, objet qui pourra se retrouver plusieurs fois dans le modle, puis de relations entre les objets. La dtermination de la structure dun OOBN se traduit donc par la recherche de la structure interne de chaque objet et de la structure reprsentant les interac 176
tions entre les objets [BLN01]. Le formalisme des rseaux baysiens temporels [Mur02], et plus particulirement celui des 2TBN (Two-slice Temporal Bayesian Network) reprend le mme raisonnement. Dans ces modles, les relations entre les variables sont dcomposes en deux catgories. La premire concerne les relations intraslice entre les variables un instant donn t, supposant que ces relations sont constantes au cours du temps.2 Lautre catgorie de relation inter-slice dcrit les dpendances entre les variables un instant t et celles un instant t + 1. Comme pour le cas des modles de Markov cachs, ce genre de dcomposition suppose que la loi jointe sur toutes les variables dpend seulement des probabilits conditionnelles intra-slices et inter-slices. La dtermination de la structure dun 2TBN peut donc elle aussi se simplier en la recherche de ces deux catgories de relations, comme propos par [FMR98].
6.2.8 Dcouverte de variables latentes

Les algorithmes prsents dans les sections 6.2.4 page 136, 6.2.5 page 144 et 6.2.6 page 170 font lhypothse de sufsance causale. Or, cette hypothse est souvent fausse pour des problmes rels o toutes les variables ne sont pas forcment disponibles, et o par exemple, certaines variables peuvent tre relies par une cause commune non mesure. Conscients de cette situation, des travaux tentent dtendre la plupart des mthodes existantes la dcouverte de variables latentes.
Recherche dindpendances conditionnelles Les auteurs respectifs de PC et IC (voir page 139) ont utilis la notion de causalit, dont nous parlons plus en dtail dans la prochaine section, pour dcouvrir la prsence de variables latentes partir de la recherche dindpendances conditionnelles. Pour cela, ils ont dtermin plusieurs genres de causalit (notations issues de [SGS00]) : Cause vritable (XA XB). Cause articielle (XA XB) : XA est vu comme la cause de XB et rciproquement. Ces deux variables sont en ralit les consquences dune cause commune H non mesure (XA H XB). Cause potentielle (XA o XB) : XA peut tre soit la cause de XB (XA XB) soit la consquence avec XB dune variable latente (XA XB).
177
2 Pour cette raison, la terminologie rseaux baysiens temporels est plus approprie que celle de rseaux baysiens dynamiques
Algorithme IC* Construction dun graphe non orient Soit G le graphe ne reliant aucun des nuds X {XA , XB } X 2 Recherche de Sepset(XA , XB ) tel que XA XB | Sepset(XA , XB ) si Sepset(XA , XB ) = alors ajout de larte XA oo XB dans G Recherche des V-structures {XA , XB , XC } X 3 / XA et XB non adjacents et XA XC XB , si XC SepSet(XA , XB ) alors on cre une V-structure : XA XC XB Ajout rcursif de Rpter {XA , XB } X 2 , si XA XB et XA XB , alors ajout dune che XB : XA XB si XA et XB non adjacents, XC tel que XA XC et XC XB alors XC XB Tant quil est possible dorienter des artes Notations : Cause vritable Cause potentielle Cause articielle Cause indtermine X XA XB XA XB XA XB XA o XB : XA XB ou XA XB XA XB : XA H XB XA oo XB : XA XB , XA XB ou XA XB ensemble de tous les nuds XA XB ou XA XB ou XB o XA il existe un chemin dirig reliant XA et XB
TAB . 6.23 Algorithme IC*
La prise en compte de ces types de causalit dans les algorithmes prcdents a donn lalgorithme FCI (Fast Causal Inference) pour Spirtes et al. [SMR95, SGS00] et lalgorithme IC* pour Pearl et al. [Pea00] (dtaill dans la table 6.23). Comme pour PC et IC, la diffrence principale entre ces deux mthodes rside dans la construction du graphe non orient de dpart : suppression dartes partir dun graphe compltement connect pour FCI et ajout dartes partir dun graphe vide pour IC*. La dtermination du type de causalit seffectue dabord lors de ltape de dtection de Vstructures o certains arcs sont orients, puis lors de ltape suivante o des relations de causalit ambigus sont leves. Rcemment, J. Zhang [Zha06] a montr que les rgles dorientations proposes dans lalgorithme FCI ne sont pas compltes, laborant une ver 178
Cause indtermine (XA oo XB) : il est impossible de savoir si XA cause XB ou linverse, ou si elles sont les consquences dune variable latente (XA XB).
sion augmente et complte de lalgorithme. Algorithmes bass sur un score La dcouverte de variables latentes et le rglage de la cardinalit de ces variables sont souvent incorpors au processus dapprentissage, et plus prcisment aux mthodes de type recherche gloutonne. Rcemment, N. Zhang [Zha03] a adapt lalgorithme EM structurel pour les modles hirarchiques latents. Cette adaptation tente doptimiser la taille des variables latentes pendant lapprentissage simultan de la structure et des paramtres, en suggrant dautres oprateurs tels que lajout ou la suppression dune variable latente, ou laugmentation de la cardinalit dune variable latente. Martin et Vanlehn [MV95] suggrent une heuristique permettant de ne pas ajouter une variable latente nimporte quel moment lors de la recherche gloutonne prcdente, mais dans des situations bien prcises. En effet, ils considrent que lapparition dune clique, cest--dire un groupe de variables compltement connectes, et donc mutuellement dpendantes, peut alors ntre quun optimum local d au fait quelles possdent en commun une unique cause cache. Leur oprateur dajout dune variable latente introduit donc un nouveau nud Hi dans le graphe, en remplaant tous les arcs de la clique par des arcs partants de Hi. La dtermination de la cardinalit des variables latentes peut aussi tre spare du processus dapprentissage pour rentrer dans le cadre de la slection de modles. Ainsi, plusieurs modles peuvent tre appris, avec diffrentes congurations de ces cardinalits. Le meilleur modle, au sens dun critre de score comme le critre BIC [FR98, ZNJ04], permettra ensuite de slectionner les meilleures cardinalits des variables latentes. Malheureusement, lutilisation de ces critres nest pas toujours approprie pour des modles latents. Comment calculer par exemple la dimension effective du rseau baysien Dim(B) lorsquil y a des variables latentes ? Des corrections aux critres classiques ont t proposes par [KZ02] pour les modles hirarchiques latents.
6.2.9 Cas particulier des rseaux baysiens causaux

La notion de causalit est souvent associe au formalisme des rseaux baysiens, parfois mme tort puisque le graphe compltement orient obtenu partir dun algorithme dapprentissage de structure nest pas ncessairement causal. La causalit est un champ dtude trs large, qui a motiv de nombreux
179
travaux, de la biologie [Shi00] linformatique en passant par la philosophie [Wil05]. Aprs avoir dni ce quest un rseau baysien causal, et la notion dintervention, nous nous intresserons la dtermination de la structure de ces rseaux lorsque toutes les variables sont connues, puis dans un cas plus gnral. Dnition
Un rseau baysien causal est un rseau baysien pour lequel tous les arcs reprsentent des relations de causalit. Leurs premiers avantages sont leur lisibilit et leur facilit dinterprtation pour les utilisateurs. Un autre avantage des rseaux baysiens causaux rside dans la possibilit de pouvoir estimer linuence sur nimporte quelle variable du graphe dune intervention externe sur une de ces variables. Cette notion importante dintervention (ou manipulation) a amen Pearl [Pea00] distinguer le concept de mesure dune variable (XA = a) celle de manipulation de la variable XA grce loprateur do-calculus. do(XA = a) signie ainsi quune intervention externe a forc la variable XA prendre la valeur a. Le principe de probabilit conditionnelle P(XA | XB), symtrique grce au thorme de Bayes, ne permet pas de reprsenter les relations, assymtriques, de causalit. Lusage de cet oprateur rpond ce problme. Si XA est la cause de XB, nous obtenons : P(XB = b | do(XA = a)) = P(XB = b | XA = a) P(XA = a | do(XB = b)) = P(XA = a) Ces considrations ont dbouch sur des travaux trs intressants sur lide didentiabilit, cest--dire dans quelles conditions il est possible de calculer P(Xi | do(Xj)), Xi et Xj tant nimporte quel nud du graphe, et sur linfrence causale, cest--dire fournir des algorithmes capables de raliser efcacement ce calcul lorsquil est possible. Apprentissage sans variables latentes
Lorsquun expert dtermine lui-mme la structure dun rseau baysien, il utilise souvent implicitement la notion de causalit. loppos, lapprentissage du graphe partir de donnes se fait dans un cadre plus gnral que celui des rseaux baysiens causaux, cadre dans lequel plusieurs
180
F IG . 6.7 Aprentissage de la structure dun rseau baysien causal partir de donnes

dobservation et dexprimentation : lalgorithme MyCaDo (MY CAusal DiscOvery) [MLM06].
graphes seront quivalents, mais o un seul capturera ventuellement les relations de causalit du problme. La dcouverte de rseaux baysiens compltement causaux partir de donnes est une question qui a t aborde plus rcemment. Les avances sur le sujet saccordent sur le fait quil est impossible de travailler uniquement partir de donnes dobservations. Les plans dexpriences, cest--dire la faon dont les donnes ont t obtenues, sont des informations essentielles pour capturer la notion de causalit puisquils dnissent explicitement sur quelle(s) variable(s) a eu lieu lintervention. Les travaux thoriques de Eberhardt et al. [EGS05] montrent que le nombre maximal dinterventions effectuer sur le systme est de N 1, o N est le nombre de variables. Deux types dapproches ont t labors. Les travaux de Cooper et Yo [CY99], Tong et Koller [TK01] ou Murphy [MW01] se placent dans le cadre de lapprentissage actif, o les seules donnes seront celles obtenues par exprimentation, et o le modle va tre construit au fur et mesure de ces expriences. Nos travaux [MLM06], avec lalgorithme MyCaDo ((MY CAusal DiscOvery)), partent dune hypothse diffrente. Nous supposons quun ensemble de donnes dobservation est dj disponible, et a permis dobtenir le reprsentant de la classe dquivalence de Markov. Il reste donc nir dorienter cette structure partir dexprimentations sur le systme. Cet algorithme, itratif, est rsum dans la gure 6.7 . Il propose lutilisateur lexprience raliser qui pourrait lui permettre dorienter potentiellement
181
le plus dartes. Une fois que les rsultats de cette exprience sont pris en compte dans le graphe, il faut rvaluer la situation pour choisir lexprience suivante. Cette approche permet aussi de tenir compte des cots ventuels dexprimentation ou dobservation de chaque variable. Apprentissage avec variables latentes
Un modle causal semi-markovien (SMCM) [Pea00] est un graphe sans circuit avec la fois des arcs dirigs et bidirigs. Les nuds du graphe sont associs aux variables observables, tandis que les arcs bidirigs reprsenteront implicitement des variables latentes. Un avantage de ces modles est cette reprsentation implicite des variables latentes dans le graphe. Contrairement aux approches base de score abordes dans la section prcdente, il nest plus ncessaire de dclarer explicitement les variables latentes, ni de trouver la cardinalit de ces variables. Spirtes et al. [SMR95, SGS00] et Tian et Pearl [Pea00, TP02, TP03] ont conu des algorithmes efcaces permettant de rpondre aux questions didentiabilit et dinfrence dans ces modles. Concernant lapprentissage de rseaux baysiens causaux avec variables latentes, les chercheurs se sont tourns vers un autre formalisme, celui des graphes ancestraux maximaux (MAG), dvelopps initialement par Richardson et Spirtes [RS02]. Ces travaux consistent caractriser les classes dquivalences des graphes ancestraux maximaux et construire des oprateurs qui permettent de gnrer des graphes quivalents [AR02, ARSZ05, ZS05a, ZS05b]. La nalit de ces tudes est darriver un algorithme sinspirant de GES, dcrit page 161, mais travaillant dans lespace des reprsentants des classes dquivalence des MAG au lieu des DAG. Malheureusement, comme pour lalgorithme GES, ces travaux ne permettent toujours pas de dterminer une structure qui soit compltement causale. De plus, il nexiste pas notre connaissance dalgorithme dinfrence probabiliste ou causal travaillant partir des graphes ancestraux maximaux. Ces observations sont lorigine de travaux trs rcents [MMLM06, MLM07, MML07] qui suggrent une approche mixte sinspirant des principes dcrits pour lalgorithme MyCaDo dans la section prcdente. La nalit de cette approche est dutiliser des donnes dobservations et les algorithmes dapprentissage de structure dun MAG (ou du reprsentant de sa classe dquivalence). Ensuite, lide est de mettre en uvre une
182
srie dexprimentations pour nir dorienter causalement ce MAG, et surtout le transformer en un SMCM dans lequel il sera possible deffectuer la fois de linfrence probabiliste et causale.
183
Troisime partie
Mthodologie de mise en uvre et tudes de cas
Chapitre 7
Mise en uvre des rseaux baysiens
ous abordons maintenant la mise en uvre des rseaux baysiens dans des applications pratiques. Dans ce chapitre, nous prsentons essentiellement des aspects mthodologiques, en essayant de rpondre aux trois questions suivantes : pourquoi, o (dans quelles applications) et comment utiliser des rseaux baysiens ? Les chapitres suivants seront consacrs, dune part une revue gnrale dapplications dans le monde, et dautre part quatre tudes de cas dtailles.
7.1 Pourquoi utiliser des rseaux baysiens ?

Selon le type dapplication, lutilisation pratique dun rseau baysien peut tre envisage au mme titre que celle dautres modles : rseau de neurones, systme expert, arbre de dcision, modle danalyse de donnes (rgression linaire), arbre de dfaillances, modle logique. Naturellement, le choix de la mthode fait intervenir diffrents critres, comme la facilit, le cot et le dlai de mise en uvre dune solution. En dehors de toute considration thorique, les aspects suivants des rseaux baysiens les rendent,
7.1. Pourquoi utiliser des rseaux baysiens ?
dans de nombreux cas, prfrables dautres modles : x Acquisition des connaissances. La possibilit de rassembler et de fusionner des connaissances de diverses natures dans un mme modle : retour dexprience (donnes historiques ou empiriques), expertise (exprime sous forme de rgles logiques, dquations, de statistiques ou de probabilits subjectives), observations. Dans le monde industriel, par exemple, chacune de ces sources dinformation, quoique prsente, est souvent insufsante individuellement pour fournir une reprsentation prcise et raliste du systme analys. y Reprsentation des connaissances. La reprsentation graphique dun rseau baysien est explicite, intuitive et comprhensible par un nonspcialiste, ce qui facilite la fois la validation du modle, ses volutions ventuelles et surtout son utilisation. Typiquement, un dcideur est beaucoup plus enclin sappuyer sur un modle dont il comprend le fonctionnement qu faire conance une bote noire. z Utilisation des connaissances. Un rseau baysien est polyvalent : on peut se servir du mme modle pour valuer, prvoir, diagnostiquer, ou optimiser des dcisions, ce qui contribue rentabiliser leffort de construction du rseau baysien. { Qualit de loffre en matire de logiciels. Il existe aujourdhui de nombreux logiciels pour saisir et traiter des rseaux baysiens. Ces outils prsentent des fonctionnalits plus ou moins volues : apprentissage des probabilits, apprentissage de la structure du rseau baysien, possibilit dintgrer des variables continues, des variables dutilit et de dcision, etc. Nous allons prsent tudier plus en dtail ces diffrents aspects de lutilisation de rseaux baysiens.
7.1.1 Acquisition des connaissances

Un recueil dexpertise facilit
Comme nous lavons vu dans le chapitre 1 page 3, la reprsentation des connaissances utilises dans les rseaux baysiens est la plus intuitive possible : elle consiste simplement relier des causes et des effets par des ches. Pratiquement toute reprsentation graphique dun domaine de connaissances peut tre prsente sous cette forme. De nombreuses expriences montrent quil est souvent plus facile pour un expert de formaliser ses connaissances sous forme de graphe causal que sous forme de systme base de rgles, en particulier parce que la formulation de rgles sous la forme SI... ALORS est trs contraignante, et peut tre facilement mise en dfaut.
188
Chapitre 7 Mise en uvre des rseaux baysiens
Certains auteurs considrent quil existe une diffrence de nature entre les deux processus dacquisition de connaissances. Lorsquon essaie de mettre au point un systme expert, par exemple pour une application de diagnostic, lexpert doit dcrire le processus de raisonnement qui le conduit de ses observations une conclusion. En revanche, un modle fond sur un graphe causal dcrit la perception de lexpert du fonctionnement du systme. Effectuer un diagnostic nest alors quune rsultante de cette modlisation. Un ensemble complet de mthodes dapprentissage Comme nous lavons abord dans la premire partie, et dtaill dans la partie thorique, les algorithmes actuels permettent denvisager lapprentissage de faon trs complte : En labsence totale de connaissances, on peut rechercher la fois la structure du rseau la plus adapte, cest--dire les relations de dpendance et dindpendance entre les diffrentes variables, et les paramtres, ou probabilits, cest--dire la quantication de ces relations. Si lon dispose de connaissances a priori sur la structure des causalits, et dune base dexemples reprsentative, la dtermination des matrices de probabilits conditionnelles, qui sont les paramtres du rseau, peut tre effectue par simple calcul de frquences, par dtermination du maximum de vraisemblance, ou par des mthodes baysiennes. Ces mthodes peuvent tre tendues dans le cadre de bases de donnes incompltes. Dans loptique de rechercher un compromis entre apprentissage et gnralisation, il est galement possible deffectuer des apprentissages en contraignant la structure du rseau. Un apprentissage incrmental Le principe gnral de lapprentissage dans les rseaux baysiens est dcrit par la formule gnrale : APosteriori Vraisemblance APriori Cette formule, que nous avons tablie dans la partie thorique, conditionne la modication de la connaissance contenue dans le rseau par lacquisition de nouveaux exemples. Elle sinterprte en disant que la connaissance contenue a priori, ou un instant quelconque, dans le rseau, est transforme a posteriori en fonction de la vraisemblance de lobservation
189
des exemples tudis selon la connaissance initiale. Autrement dit, plus les exemples observs scartent de la connaissance contenue dans le rseau, plus il faut modier celle-ci.
A priori
Age Age
Profession Profession
Age Profession ... CS Conso ... ELEVEE Rsiliation ... OUI
Conso Conso
... 35
Rsiliation Rsiliation
Vraisemblance
A posteriori
F IG . 7.1 Un exemple dapprentissage incrmental (data mining)
Thoriquement, cette formule, qui nest autre que la formule de Bayes applique la connaissance, est valable aussi bien pour lapprentissage de paramtres que pour lapprentissage de structure. Aucune des techniques concurrentes, ni les rseaux neuronaux, ni les arbres de dcision, ne permet de prendre en compte ce problme de la mise jour des modles de connaissance de faon aussi naturelle, mme si aujourdhui sa mise en uvre dans les rseaux baysiens nest possible techniquement que dans certains cas particuliers. Nous pensons que la capacit dapprentissage incrmental est essentielle, car elle autorise lvolution des modles. Toute dmarche de modlisation qui ne concerne pas les sciences de la nature doit intgrer les volutions de lenvironnement modlis, et donc faire dpendre le modle du temps. Lapprentissage incrmental est une rponse possible ce problme.
190
ge
salaire
dpenses
incident
Sur un problme dautorisation de crdit, un rseau neuronal est entran associer certaines caractristiques loccurrence dun incident de remboursement. Le rseau est entran rpondre 0 ou 1, ( oui ou non ), et ce nest qua posteriori quon peut interprter une rponse intermdiaire comme une probabilit.
ge
salaire
dpenses
Un rseau baysien mis au point sur le mme problme fournit directement une probabilit dincident, sachant les caractristiques du dossier : P(Incident | Caractristiques)
incident
F IG . 7.2 Scoring et probabilits
7.1.2 Reprsentation des connaissances

Un formalisme unicateur La plupart des applications qui relvent des rseaux baysiens sont des applications daide la dcision. Par nature, ces applications intgrent un certain degr dincertitude, qui est trs bien pris en compte par le formalisme probabiliste des rseaux baysiens. Par exemple, les applications de data mining sont en gnral construites sur le schma suivant. On utilise une base de donnes pour mettre au point un modle prdictif. Par dnition, une prvision comporte une part dincertitude. Or la dcision, elle, doit souvent tre binaire : dans une application de scoring, on doit par exemple accorder ou refuser le crdit. La faon la plus naturelle dinterprter un score est donc une probabilit (dans lexemple du scoring, une probabilit de dfaillance). Les techniques disponibles pour traiter ce genre de problme (modles de rgression, rseaux de neurones, arbres de dcision) ne sont pas construites sur un formalisme de probabilits. Cest a posteriori quon attribue en gnral une interprtation en termes de probabilits de la prvision dun rseau neuronal ou dun arbre de dcision.
191
Les rseaux baysiens ne sont quune reprsentation dune distribution de probabilits. Cest une telle distribution que lon reprsente partir de connaissances explicites ou quon approche partir dune base de donnes, et cest partir de la distribution approche que lon effectue des infrences. Toute prvision issue dun rseau baysien est donc par construction une probabilit. De plus, les rseaux baysiens permettent de considrer dans un mme formalisme la reprsentation de modles de causalits et les statistiques multivaries. Il en est de mme des techniques les plus utilises pour le data mining comme les arbres de dcision ou les rseaux de neurones, qui peuvent galement tre reprsents au sein de ce formalisme.
Une reprsentation des connaissances lisible
Les deux proprits fondamentales des rseaux baysiens sont, dabord, dtre des graphes orients, cest--dire de reprsenter des causalits et non des simples corrlations, et, ensuite, de garantir une correspondance entre la distribution de probabilit sous-jacente et le graphe associ. Daprs le thorme dindpendance graphique, que nous avons dmontr dans la partie prcdente, les relations de causalit et dindpendance qui peuvent tre lues sur le graphe sont galement vraies dans la distribution sous-jacente. Considrons le cas dune application de data mining, o lon cherche comprendre les interrelations entre des variables contenues dans une base de donnes de clients, par exemple. Si lon se trouve dans le cas o le rseau est entirement mis au point partir des donnes (cas de lapprentissage de la structure et des paramtres), cela signie que lon va disposer dune visualisation graphique de ces interrelations. Avant mme dutiliser ce rseau pour effectuer des infrences, on va disposer dune visualisation de la connaissance, directement lisible et interprtable par des experts du domaine.
7.1.3 Utilisation de connaissances

Une gamme de requtes trs complte
Lutilisation premire dun rseau baysien est le calcul de la probabilit dune hypothse connaissant certaines observations. Cest sur cette requte lmentaire que nous avons abord les calculs dans le chapitre 1. Cependant, les possibilits offertes par les algorithmes dinfrence permettent
192
denvisager une gamme de requtes trs complte, qui peut tre extrmement intressante dans certains types dapplications. Tout dabord, il ny a aucune relle contrainte sur les informations ncessaires pour tre en mesure de calculer la probabilit dun fait : on peut connatre exactement la valeur dune variable, savoir quelle est gale lune ou lautre de deux valeurs, ou encore savoir avec certitude quune de ses valeurs possibles est exclue. Dans tous les cas, linfrence est possible, et la nouvelle information permet de rafner les conclusions. Il ny a pas dentres ni de sorties dans un rseau baysien (ou de variables indpendantes et dpendantes). Le rseau peut donc tre utilis pour dterminer la valeur la plus probable dun nud en fonction dinformations donnes (prvoir, ou sens entres vers sorties), mais galement pour connatre la cause la plus probable dune information donne (expliquer, ou sens sorties vers entres). En termes dinfrences, cette dernire requte sappelle explication la plus probable et revient, ltat de certaines variables tant observ, rechercher ltat des autres variables pour lequel ce qui a t observ tait le plus probable. Parmi les autres requtes importantes, lanalyse de sensibilit une information mesure comment la probabilit dune hypothse saccrot quand on a fait une observation. Certaines observations peuvent ainsi tre considres comme inutiles, sufsantes, ou cruciales, par rapport une hypothse donne. Le mcanisme de propagation peut tre galement utilis pour dterminer laction la plus approprie effectuer, ou linformation la plus pertinente rechercher. Considrons par exemple un problme de diagnostic, dans lequel manquent plusieurs des donnes qui permettraient de conclure. Le mcanisme de propagation dans un rseau baysien permet de connatre la donne dont la connaissance apporterait le maximum dinformations. Dans le cas o la recherche de chaque donne a un cot, il est possible de rechercher la solution optimale en tenant compte de ce cot. De plus, il est possible de chercher galement une squence optimale dactions ou de requtes. Optimisation dune fonction dutilit Imaginons un problme de classication, par exemple un problme de dtection de fraudes sur des cartes bancaires, ou dans lutilisation de services de tlcommunications. Rechercher le systme qui donne, avec la meilleure abilit possible, la probabilit de fraude nest peut-tre pas lobjectif rel de ce type dapplication. En effet, ce quon cherche ici optimiser est une utilit conomique. Sachant que les fausses alarmes aussi bien que les fraudes manques ont un cot, lobjectif est bien de minimiser le cot global. Une version spcique des rseaux baysiens, appele diagramme
193
fumeur
hrdit
affection ?
examen
Dans un problme de diagnostic, une information (ici le fait que le patient est fumeur) peut tre insufsante pour lever lincertitude sur la prsence dune certaine affection. La recherche de laction la plus approprie permet de dterminer quelle est la donne qui apporterait le plus dinformation (ici, accder aux antcdents familiaux du patient, ou effectuer un examen complmentaire).
F IG . 7.3 Requte labore dans un rseau baysien
dinuences, permet de les adapter ce type de problme. Dans les diagrammes dinuence, on ajoute aux nuds qui reprsentent des variables, deux autres types de nuds : les nuds de dcision, gurs par des carrs ; un nud dutilit, gur par un losange. Le graphe ci-dessus reprsente un diagramme dinuence pour un problme de dtection de fraude sur une carte bancaire. Les variables reprsentes sont les suivantes : La variable F est binaire et reprsente le fait quil y a ou non fraude. La variable B reprsente le rsultat dune vrication effectue sur une base de donnes. Cette variable a trois modalits : le contrle est ngatif, positif, ou non effectu. La variable P a galement trois modalits, et reprsente le rsultat dun contrle didentit du porteur. Le nud de dcision D reprsente la dcision deffectuer les contrles complmentaires B et P. Ce nud a donc galement trois modalits : neffectuer aucun test, effectuer le test B, ou effectuer les deux tests B et P. Le nud de dcision A reprsente la dcision dautoriser la transaction, et est donc binaire. Le nud dutilit V est une fonction de lensemble des variables prcdentes, reprsentant le cot de la situation. En outre, on suppose connus le montant de la transaction et le cot de chaque contrle, et les tables de probabilits conditionnelles reliant les variables entre elles. Lobjectif est de prendre les bonnes dcisions D et A ; autrement dit, de prendre les dcisions qui minimisent lesprance mathmatique de V.
194
F IG . 7.4 Un diagramme dinuence pour la fraude sur carte bancaire
7.1.4 Limites des rseaux baysiens

Un recul encore insufsant pour lapprentissage Dans la mesure o elle sest surtout dveloppe dans le cadre des systmes experts, la technique des rseaux baysiens na pas immdiatement intgr lensemble de la problmatique de lapprentissage, comme cela avait t le cas des rseaux neuronaux. Aujourdhui, lessentiel de la littrature sur lapprentissage avec des rseaux baysiens ignore le problme de la capacit de gnralisation dun modle, et des prcautions que cela implique au moment de la construction du modle. La prise en compte de ce problme peut seffectuer par le choix du critre de recherche ou de distance des distributions de probabilit. En effet, comme on la vu dans la partie prcdente, lapprentissage de rseaux baysiens revient rechercher parmi un ensemble de distributions, celle la plus proche possible, en un certain sens, de la distribution reprsente par les donnes. En limitant lensemble de recherche, on peut viter le problme de surapprentissage, qui revient dans ce cas calquer exactement la distribution reprsente par les exemples.
Utilisation des probabilits Lutilisation des graphes de causalits est, on la dit, une approche trs intuitive. Nous avons montr que lutilisation des probabilits pour rendre ces modles quantitatifs tait justie. Il reste cependant que la notion de probabilit, est, au contraire, assez peu intuitive. Il est en effet assez facile de construire des paradoxes fonds sur des raisonnements probabilistes. Les modles dterministes, formuls en termes dentres et de sorties, comme les modles de rgression, les rseaux de neurones, ou les arbres de dcision, mme sils peuvent tre rinterprts dans le cadre dun formalisme probabiliste, restent dun abord plus facile.
195
Lisibilit des graphes
En effet, mme si la connaissance manipule dans les rseaux baysiens, ou extraites des donnes par les algorithmes dapprentissage associs est lisible puisque reprsente sous forme de graphes, elle reste moins lisible que celle represente par un arbre de dcision, par exemple, surtout si ce graphe prsente un grand nombre de nuds. Notons aussi que linformation reprsente par le graphe est la structure des causalits. Les probabilits ne sont pas reprsentables, et on na donc pas ide, la simple lecture du graphe, de limportance dun arc donn. La gure 9.4 page 239 dans ltude de cas sur le risque global dune entreprise (GLORIA) donne un aperu dun graphe complexe.
Les variables continues
Lessentiel des algorithmes dvelopps pour linfrence et lapprentissage dans les rseaux baysiens, aussi bien que les outils disponibles sur le march pour mettre en uvre ces algorithmes utilisent des variables discrtes. En effet, comme nous lavons vu dans la partie technique, la machinerie des algorithmes dinfrence est essentiellement fonde sur une algbre de tables de probabilits. De mme, les algorithmes dapprentissage modlisent en gnral les distributions de probabilit des paramtres contenus dans les tables du rseau, cest--dire de probabilits discrtes. Mme sil est thoriquement possible de gnraliser les techniques dveloppes aux variables continues, il semble que la communaut de recherche travaillant sur les rseaux baysiens na pas encore vraiment intgr ces problmes. Cela pnalise cette technologie, en particulier pour des applications de data mining o variables continues et discrtes cohabitent.
La complexit des algorithmes
La gnralit du formalisme des rseaux baysiens aussi bien en termes de reprsentation que dutilisation les rend difciles manipuler partir dune certaine taille. La complexit des rseaux baysiens ne se traduit pas seulement en termes de comprhension par les utilisateurs. Les problmes sous-jacents sont pratiquement tous de complexit non polynomiale, et conduisent dvelopper des algorithmes approchs, dont le comportement nest pas garanti pour des problmes de grande taille.
196
Connaissances ACQUISITION Expertise seulement Donnes seulement Mixte Incrmental Gnralisation Donnes incompltes REPRSENTATION Incertitude Lisibilit Facilit Homognit UTILISATION Requtes labores Utilit conomique Performances
Analyse de donnes
Rseaux neuronaux
Arbres de dcision
Systmes experts
Rseaux baysiens
+ + +
+ + +
+ + +
+ + + +
+ +
+ + +
+ +
TAB . 7.1 Avantages comparatifs des rseaux baysiens
7.1.5 Comparaison avec dautres techniques

Du point de vue des applications, les avantages et inconvnients des rseaux baysiens par rapport quelques-unes des techniques concurrentes peuvent se rsumer sur le tableau ci-dessus. Nous avons regroup avantages et inconvnients selon les trois rubriques utilises prcdemment, lacquisition, la reprsentation et lutilisation des connaissances. La reprsentation adopte est la suivante : chaque ligne correspond une caractristique, qui peut tre un avantage, ou la prise en compte dun problme spcique. Si la technique considre permet de prendre en compte ce problme, ou prsente cet avantage, un signe + est plac dans la case correspondante. Un signe est plac dans la case de la meilleure technique du point de vue de la caractristique considre.
7.2 O utiliser des rseaux baysiens ?

Les proprits tudies ci-dessus nous permettent de dnir les caractristiques gnrales dune application o il est intressant dutiliser des rseaux baysiens en les prfrant une autre technique. Les types dap 197
7.2. O utiliser des rseaux baysiens ?
plications relevant de cette approche sont lists plus loin.
7.2.1 Caractristiques gnrales

Une connaissance explicite ou implicite du domaine
Dans la mesure o un rseau baysien peut tre construit soit partir de donnes, par apprentissage, soit partir dune modlisation explicite du domaine, il suft que lune ou lautre des formes de connaissances ou une combinaison des deux soit disponible pour pouvoir envisager dutiliser cette technique dans une application. En partant dune connaissance explicite mme incomplte, et en utilisant la capacit dapprentissage incrmental des rseaux baysiens, on peut dvelopper une approche de modlisation en ligne, cest--dire sans archiver les exemples mmes. En effet, un rseau baysien nest rien dautre que la reprsentation dune distribution de probabilit. Si la structure de cette distribution est impose, on peut directement calculer limpact de chaque nouvel exemple sur les paramtres de cette distribution.
type ... FIRST lieu ... Bangkok cart ... ELEVE fraude ... OUI
type
lieu
cart
fraude
F IG . 7.5 Modlisation en ligne pour la dtection de fraudes
198
Ce type dapproche peut tre envisag dans des applications de prvision de comportements dachat ou de dtection de fraudes, par exemple dans le cas du commerce lectronique. Le schma de la gure 7.5 page prcdente montre un exemple trs simple dune telle application : On cherche modliser la distribution de probabilit liant le type dune carte de crdit, le lieu de la transaction, lcart du montant de la transaction par rapport la moyenne et lexistence dune fraude. La structure de cette distribution est suppose xe. Le ux des transactions enregistres modie les tables de probabilits conditionnelles. Cet exemple suppose cependant une historisation partielle des informations, puisque le retour sur la fraude effective ne peut intervenir immdiatement. Une utilisation complexe ou volutive En termes dutilisation du modle, lavantage essentiel des rseaux baysiens par rapport aux autres techniques est de permettre une formalisation complte dun domaine de connaissances sous forme de graphe causal. Ce graphe peut tre utilis ensuite pour effectuer des raisonnements, en formulant des requtes relativement complexes. Cependant, cette technologie reste aujourdhui relativement difcile matriser pour des problmes de grande taille. Il nous semble donc quelle ne doit tre considre que l o les techniques plus simples ne peuvent pas donner satisfaction. Par exemple, dans un problme de prvision ou de classication spci de faon claire, et pour lequel la connaissance des rgles sous-jacentes nest pas essentielle, il nous semble prfrable dutiliser un modle de rgression ou un rseau de neurones. En revanche, pour une application de data mining, au sens premier du terme, cest--dire au sens o lon recherche des relations a priori non connues entre des donnes, les mthodes dapprentissage dans les rseaux baysiens constituent selon nous une approche trs prometteuse. Enn, dans certaines applications, la formulation initiale du besoin peut masquer des volutions pour lesquelles des requtes complexes sur le modle peuvent savrer ncessaires. Considrons par exemple une application de credit scoring. Initialement formule comme une application simple de classication, elle est mise en uvre sous forme de rseau de neurones. Aprs quelques mois dutilisation, on saperoit dune augmentation signicative du taux de refus dautorisation. Linterprtation de ce problme peut se rvler difcile sans un modle capable dexplications.
199
7.2.2 Classication des applications par types

Un rseau baysien est un moyen de reprsenter la connaissance dun systme. Une telle reprsentation nest bien entendu pas une n en soi ; elle seffectue, selon les contextes, dans le but de : prvoir le comportement du systme ; diagnostiquer les causes dun phnomne observ dans le systme ; contrler le comportement du systme ; simuler le comportement du systme ; analyser des donnes relatives au systme ; prendre des dcisions concernant le systme. Ces diffrents types dapplications reposent en gnral sur deux types de modles : les modles symboliques pour le diagnostic, la planication, et les modles numriques pour la classication, la prvision, le contrle. Comme nous lavons vu ci-dessus, les rseaux baysiens autorisent les deux types de reprsentation et dutilisation des connaissances. Leur champ dapplication est donc vaste, dautant que le terme systme sentend ici dans son sens le plus large. Il peut sagir, pour donner quelques exemples, du contenu du chariot dun client de supermarch, dun navire de la Marine, du patient dune consultation mdicale, du moteur dune automobile, dun rseau lectrique ou de lutilisateur dun logiciel. Ajoutons que la communaut de chercheurs qui dveloppent la thorie et les applications des rseaux baysiens rassemble plusieurs disciplines scientiques : lintelligence articielle, les probabilits et statistiques, la thorie de la dcision, linformatique et aussi les sciences cognitives. Ce facteur contribue la diffusion et donc la multiplicit des applications des rseaux baysiens. Modles symboliques
Par rapport aux systmes base de rgles dterministes, le plus souvent utiliss dans les systmes experts, les rseaux baysiens permettent dintgrer lincertitude dans le raisonnement. Ils sont donc adapts aux problmes o lincertitude est prsente, que ce soit dans les observations, ou dans les rgles de dcision. Les systmes de diagnostic sont ceux qui utilisent le plus compltement les possibilits des rseaux baysiens, en particulier en ce qui concerne les capacits dexplication, de simulation, etc. Un avantage spcique des rseaux baysiens dans les problmes de diagnostic est de pouvoir dtecter plusieurs pannes simultanes. Les techniques dterministes comme les arbres de dcision conduisent le plus souvent un seul diagnostic la fois. Certaines applications de planication peuvent galement utiliser des
200
rseaux baysiens, mais utiliss en quelque sorte comme sous-systmes, permettant de dterminer les actions dont la faisabilit ou le succs ont une bonne probabilit. Les rseaux baysiens sont en revanche moins adapts aux applications apparentes la rsolution de problmes ou la dmonstration de thormes. Modles numriques Les systmes de classication mettent en gnral en uvre des architectures simplies de rseaux (arbres ou polyarbres). Des tudes et des applications rcentes montrent que les systmes de classication bass sur des arbres baysiens donnent des rsultats en gnral signicativement meilleurs que les algorithmes de classication de type arbre de dcision (C4.5, C5). Les mthodes dapprentissage de structure dans les rseaux baysiens permettront de donner tout son sens au terme de data mining. Sil sagit en effet de rechercher des relations entre des variables sans a priori, ni les rseaux de neurones, ni les arbres de dcision ne sont adapts ce type de problme. Dans les applications de modlisation numrique, comme la prvision, le contrle ou lestimation, il nous semble en revanche que le formalisme global des rseaux baysiens est trop lourd pour tre utilis tel quel, du moins dans un premier temps. Cela ne signie pas pour autant quil ne puisse pas contribuer de telles applications. Ainsi, une tude rcente a permis damliorer signicativement la performance de rseaux neuronaux en prvision, en optimisant le choix des paramtres dapprentissage grce un rseau baysien simple. terme, lunication des algorithmes dapprentissage permettra sans doute dintgrer un modle neuronal de prvision lintrieur dun systme plus global, o pourront tre optimiss simultanment, soit des paramtres dapprentissage, soit des paramtres de la dcision base sur la prvision.
7.2.3 Classication des applications par domaines

Sant Les premires applications des rseaux baysiens ont t dveloppes dans le domaine du diagnostic mdical. Les rseaux baysiens sont particulirement adapts ce domaine parce quils offrent la possibilit dintgrer des sources de connaissances htrognes (expertise humaine et donnes statistiques), et surtout parce que leur
201
capacit traiter des requtes complexes (explication la plus probable, action la plus approprie) peuvent constituer une aide vritable et interactive pour le praticien. Le systme Pathnder, dvelopp au dbut des annes 1990 a t conu pour fournir une assistance au diagnostic histopathologique, cest--dire bas sur lanalyse des biopsies. Il est aujourdhui intgr au produit Intellipath, qui couvre un domaine dune trentaine de types de pathologies. Ce produit est commercialis par lditeur amricain Chapman et Hall, et a t approuv par lAmerican Medical Association. Dans le domaine de la sant, une application intressante des algorithmes issus des rseaux baysiens a permis damliorer considrablement la recherche de la localisation de certains gnes, dans le cadre du projet Human Genome. Nous reviendrons sur cette application dans la section suivante. Industrie
Dans le domaine industriel, les rseaux baysiens prsentent galement certains avantages par rapport aux autres techniques dintelligence articielle. Leur capacit relle dapprentissage incrmental, cest--dire dadaptation de la connaissance en fonction des situations rencontres, en fait les contrleurs idaux de systmes autonomes ou de robots adaptatifs. En effet, la proprit essentielle dun systme autonome, pour pouvoir survivre , est de sadapter aux modications structurelles de son environnement. La capacit du systme grer ses propres altrations, en particulier la perte de certaines fonctions, est galement importante. Ainsi, dans la situation o certains de ses capteurs ou effecteurs sont endommags, le systme doit tre capable de mettre jour son domaine de viabilit, cest-dire de rvaluer les capacits daction quil lui reste, malgr le dommage quil a subi. Cest cette ide qui a t mise en uvre par la socit danoise Hugin, considre comme lun des pionniers dans le dveloppement des rseaux baysiens. Hugin a dvelopp pour le compte de Lockheed Martin le systme de contrle dun vhicule sous-marin autonome. Ce systme value en permanence les capacits du vhicule ragir certains types dvnements. De cette faon, en fonction des capacits qui sont cruciales pour le reste de la mission, le systme peut prendre des dcisions qui vont de la simple collecte dinformations complmentaires, la modication de la mission, ou jusqu labandon de celle-ci. Transposant cette ide de contrle de systmes autonomes du monde rel lunivers virtuel des systmes et rseaux informatiques, les rseaux
202
baysiens devraient galement quiper les agents intelligents. Comme nous lavons dj mentionn, le diagnostic est un des autres domaines de prdilection des rseaux baysiens dans lindustrie, en particulier grce lutilisation des requtes avances sur les rseaux. Ce domaine est aujourdhui lun des plus dvelopps en termes dapplications oprationnelles des rseaux baysiens (Hewlett-Packard, General Electric, Ricoh, etc.)
Dfense Comme pour beaucoup de techniques issues de lintelligence articielle, cest grce la dfense amricaine que les rseaux baysiens ont pu connatre leurs premiers dveloppements. La fusion de donnes est en particulier un domaine dapplication privilgi des rseaux baysiens, grce leur capacit prendre en compte des donnes incompltes ou incertaines, et guider la recherche ou la vrication de ces informations. La fusion de donnes peut se dnir comme le processus qui consiste infrer une information laquelle on na pas directement accs, mais qui est relaye par une ou plusieurs sources imparfaites. Finalement, un dtective priv qui afne ses conclusions mesure que les indices se compltent est un spcialiste de la fusion de donnes. Il est clair que cette approche est essentielle dans le domaine du renseignement, tactique ou stratgique. Par exemple, lidentication dun navire ennemi est impossible directement. On va combiner des informations issues de systmes de mesure, ventuellement brouilles, avec dautres types de renseignements, galement incertains. Les informations disponibles se compltent au fur et mesure des efforts accomplis pour identier ce navire, permettant de renforcer ou, au contraire, de rviser les conclusions effectues. Un exemple dapplication dans la dfense tactique est donn dans la section suivante.
Banque/nance Les applications dans le domaine de la banque et de la nance sont encore rares, ou du moins ne sont pas publies. Mais cette technologie prsente un potentiel trs important pour un certain nombre dapplications relevant de ce domaine, comme lanalyse nancire, le scoring, lvaluation du risque ou la dtection de fraudes.
203
navire
sonar
vitesse
Les rseaux baysiens sont parfaitement adapts la reprsentation de la fusion de donnes. Ici, lidentit du navire dtermine (est la cause de) sa signature sonar et sa vitesse. Mais cette identit doit tre infre partir des informations issues des systmes de mesure.
F IG . 7.6 Principe de la fusion de donnes par rseau baysien
En premier lieu, les rseaux baysiens offrent un formalisme uni pour la manipulation de lincertitude, autrement dit du risque, dont la prise en compte est essentielle ds quil sagit de dcision nancire. Ensuite, la possibilit de coupler expertise et apprentissage est ici trs importante, non seulement parce que les deux sources de connaissances sont en gnral disponibles dans ce domaine, mais aussi et surtout parce que cette capacit peut aider rpondre au problme des changements structurels denvironnement. Traites dans les annes 1980 avec des systmes experts, des applications comme lanalyse nancire, le scoring ou la dtection de fraudes ont t progressivement considres comme relevant du domaine de la modlisation quantitative, et donc abordes par des techniques comme les rseaux neuronaux ou les arbres de dcision, techniques quantitatives qui se rvlent incapables de prendre en compte par elles-mmes la rvision des modles. Lexemple de lautorisation des transactions sur cartes bancaires est assez signicatif. Lun des premiers systmes experts dvelopps dans ce domaine fut lAuthorizer Assistant dAmerican Express, au dbut des annes 80. Ds la n de la dcennie, la socit californienne HNC (Hecht-Nielsen Neurocomputing) devient le leader des systmes de dtection de fraudes sur cartes bancaires. Son systme Falcon quipe la plupart des metteurs de cartes aux tats-Unis. Fond initialement sur une technologie de rseaux neuronaux, le systme Falcon a rcemment volu pour y intgrer... un systme expert ! Pourquoi ? La fraude est, presque par dnition, un phnomne volutif, qui sadapte aux parades qui y sont opposes. Un modle construit partir de donnes historiques a donc ncessairement une dure de vie limite dans un tel environnement. Donc, mme si les rseaux de neurones taient
204
la technique la plus able pour identier les comportements frauduleux, comme ils reposent sur le traitement de donnes historiques, ils ne peuvent sadapter assez vite aux changements de ces comportements. On retrouve la mme problmatique dans la nance de marchs, o les modles de prvision ou de gestion mis au point sur des donnes historiques ne peuvent sadapter aux changement structurels brusques des marchs. Rcemment, les nouveaux accords de Ble II ont ouvert un nouveau champ dapplication trs signicatif pour les rseaux baysiens dans le domaine bancaire. Ces accords xent les nouvelles rgles que doivent appliquer les banques pour la dtermination de leurs exigences en fonds propres. Ces fonds propres doivent tre dimensionns de faon couvrir un niveau de probabilit lev les diffrents types de risques encourus par la banque : risques de crdit, risques de march et risques oprationnels. Le risque oprationnel a t dni par laccord de Ble II de faon gnrale comme le risque de pertes provenant de processus internes inadquats ou dfaillants, de personnes et systmes ou dvnements externes , et de faon spcique en identiant sept thmes principaux de risque, comme la fraude, la relation avec les clients ou le personnel, les systmes dinformation, etc. La prise en compte de ces risques est en gnral trs difcile, car les plus signicatifs concernent des vnements rares mais de fort impact. Comme de nombreux spcialistes de la gestion du risque lont mis en avant, en particulier [Ale02], lutilisation de modles baysiens est particulirement adapte pour plusieurs raisons : Les rseaux baysiens permettent de coupler les connaissances des experts et les donnes disponibles. Ils permettent de conditionner les risques et donc de mieux valuer les pertes encourues. Ils permettent didentier des leviers de rduction de risque. Les modles tablis sont transparents et facilement auditables par les organismes de contrle. Gageons que lutilisation des rseaux baysiens deviendra probablement lune des mthodes de rfrence pour la modlisation du risque oprationnel. Ltude de cas sur la modlisation du risque global dune entreprise (mthode GLORIA) que nous prsentons dans le chapitre 9 permet davoir un aperu de la dmarche qui peut tre adopte pour une telle application, mme si les objectifs viss sont plus qualitatifs.
205
Marketing
Ce que lon appelle aujourdhui le data mining, est probablement le domaine o le potentiel des rseaux baysiens est le plus lv. Le data mining est dni par certains comme lextraction automatique partir de bases de donnes dinformations a priori inconnues et valeur prdictive. Nous prfrons le dnir comme lutilisation rationnelle de linformation contenue dans les donnes pour la prise de dcision. Quelle que soit la dnition retenue, il reste que le dveloppement actuel du data mining sexplique essentiellement par les applications dans le domaine du marketing, et que les rseaux baysiens sont parfaitement adapts ces applications. Le marketing est en train dvoluer vers une gestion de plus en plus ne et individualise du capital client, considr comme un nouvel actif de lentreprise. Les applications de prvision, de dlisation, danalyse du risque, danticipation des besoins, de ciblage dactions sinscrivent toutes dans cette dmarche. Toutes les caractristiques des rseaux baysiens sont autant datouts pour ces types dapplications : La gestion de lincertitude, car videmment toutes les actions marketing sont prises dans un contexte dincertitude, o lon recherche avant tout augmenter la probabilit de succs. La capacit intgrer des donnes incompltes au cours de lapprentissage, car les donnes utilises dans le data mining appliqu au marketing proviennent souvent de sources dclaratives, de qualit approximative. Lapprentissage incrmental, car les relations voluent avec le temps. La gestion de requtes complexes, comme lanalyse de sensibilits, la recherche de laction la plus approprie. Notons de plus que lutilisation des rseaux baysiens permet galement denvisager des applications de data mining pour de petites bases de donnes. Ce problme, qui reste rarement considr aujourdhui, peut cependant tre trs rel dans certaines applications. Comment faire pour tirer parti le plus rapidement possible de la connaissance partir des premiers cas disponibles ? Lintgration avec de la connaissance a priori peut tre une rponse ce problme. Nous pensons que le data mining, et en particulier ses applications dans le domaine du marketing seront lun des moteurs principaux du dveloppement des rseaux baysiens dans un futur proche. Certains indicateurs, que nous analysons dans la section suivante sur loffre commerciale et la recherche, semblent conrmer cette prvision.
206
Informatique Nous avons vu ci-dessus que certaines des caractristiques des rseaux baysiens en faisaient des systmes de contrle idaux pour des systmes autonomes dans des environnements changeants. Ces proprits sont galement valables pour quiper les agents logiciels, locaux une machine, ou autonomes sur des rseaux ou sur Internet. Un agent logiciel est une application qui ralise de faon autonome une mission qui lui a t assigne par un utilisateur, ou par un autre agent. Les caractristiques principales des agents intelligents sont donc : Lautonomie. Cela implique en particulier que lagent doit pouvoir accomplir sa tche sans se reporter systmatiquement son donneur dordre, et ce, mme si des vnements imprvus surviennent. La motivation. Un agent est dirig par un but et doit ventuellement dnir son propre plan daction pour atteindre son but. La ractivit. Un agent doit pouvoir modier son comportement lorsquune nouvelle information devient disponible. Ladaptativit. Un agent doit tre capable dintgrer les modications de son environnement. Ceci est particulirement vrai pour les agents oprant sur Internet ou dautres rseaux, dont lenvironnement est par nature instable. Les rseaux baysiens sont probablement lune des technologies les plus adaptes pour construire lintelligence des agents. Ils assurent en effet les diffrentes proprits prsentes prcdemment : Lautonomie est reprsente par la capacit des rseaux baysiens de fournir des dcisions en prsence dincertitude, ou en labsence de certaines informations. La motivation peut tre reprsente par certains types dinfrences, ou par un systme de planication. La ractivit est le principe mme de linfrence dans les rseaux baysiens (rvision de la conclusion). Ladaptation lenvironnement est rendue possible par les capacits dapprentissage incrmental des rseaux baysiens. La compacit de la reprsentation de la connaissance autorise par les rseaux baysiens est aussi un avantage pour en faire une intelligence embarque. Lutilisation de rseaux baysiens dans les agents bureautiques a t largement dveloppe par Microsoft dans les outils daide et de diagnostic pour son systme dexploitation Windows, partir de Windows 98. De mme, lagent Ofce Assistant est un systme daide proactif intgr dans Ofce, partir de la version 97. Plusieurs agents de support technique de Microsoft ont galement t dvelopps dans le cadre du projet LUMIERE
207
7.3. Comment utiliser des rseaux baysiens ?
du groupe DTAS (Decision Theory and Adaptive Systems). Lapplication Vista, dtaille dans le chapitre suivant, peut galement tre considre comme un agent intelligent, dont le rle est de slectionner les donnes prsentes un utilisateur en fonction de ltat du systme physique quil doit superviser. Les rseaux baysiens constituent selon nous le modle idal pour embarquer de lintelligence ou de la connaissance. Embarquer de lintelligence revient doter un agent dun quipement lui permettant de dcider dans des environnements incertains, et de sadapter lorsque ces environnements changent. Un module baysien de prise de dcision, ventuellement capable dadaptation, est lun des meilleurs quipements que lon puisse fournir un agent envoy en mission sur Internet, ou sur dautres types de rseau, o linformation est par nature incertaine et volutive, voire manipule. Gestion des connaissances
Dans la premire partie de ce livre, nous avons montr comment les rseaux baysiens pouvaient tre construits simplement en cherchant quantier la reprsentation de graphes de causalits. Cette reprsentation graphique des domaines de connaissance reste la base des rseaux baysiens. Si les rseaux sont de taille raisonnable, cette reprsentation de la connaissance est trs simple et intuitive, et permet denvisager des changes de modles de connaissances sous forme de rseaux. Certaines expriences ont montr que lutilisation de rseaux baysiens permet de faciliter lchange entre experts dun domaine. Le domaine de la gestion des connaissances, qui connat un intrt croissant, est donc galement un champ dapplication potentiel pour les rseaux baysiens, dans la mesure o ceux-ci offrent un formalisme riche et intuitif de reprsentation de la connaissance.
7.3 Comment utiliser des rseaux baysiens ?

La construction dun rseau baysien seffectue en trois tapes essentielles, qui sont prsentes sur la gure 7.7 ci-aprs. Chacune des trois tapes peut impliquer un recueil dexpertise, au moyen de questionnaires crits, dentretiens individuels ou encore de sances de brainstorming. Prconiser, dans un cadre gnral, lune ou lautre de ces approches serait pour le moins hasardeux ; les chapitres suivants montre 208
ront quels choix ont t retenus dans plusieurs utilisations relles des rseaux baysiens. 1. Identication des variables et de leurs espaces dtats
2. Dnition de la structure du rseau baysien
3. Dnition de la loi de probabilit conjointe des variables
F IG . 7.7 tapes de construction dun rseau baysien
7.3.1 Identication des variables et de leurs espaces dtats

La premire tape de construction du rseau baysien est la seule pour laquelle lintervention humaine est absolument indispensable. Il sagit de dterminer lensemble des variables Xi, catgorielles ou numriques, qui caractrisent le systme. Comme dans tout travail de modlisation, un compromis entre la prcision de la reprsentation et la maniabilit du modle doit tre trouv, au moyen dune discussion entre les experts et le modlisateur. Lorsque les variables sont identies, il est ensuite ncessaire de prciser lespace dtats de chaque variable Xi, cest--dire lensemble de ses valeurs possibles. La majorit des logiciels de rseaux baysiens ne traite que des modles variables discrtes, ayant un nombre ni de valeurs possibles. Si tel est le cas, il est impratif de discrtiser les plages de variation des variables continues. Cette limitation est parfois gnante en pratique, car des discrtisations trop nes peuvent conduire des tables de probabilits de grande taille, de nature saturer la mmoire de lordinateur.
209
7.3.2 Dnition de la structure du rseau baysien
La deuxime tape consiste identier les liens entre variables, cest-dire rpondre la question : pour quels couples (i, j) la variable Xi inuence-t-elle la variable Xj ? Dans la plupart des applications, cette tape seffectue par linterrogation dexperts. Dans ce cas, des itrations sont souvent ncessaires pour aboutir une description consensuelle des interactions entre les variables Xi. Lexprience montre cependant que la reprsentation graphique du rseau baysien est dans cette tape un support de dialogue extrmement prcieux. Un rseau baysien ne doit pas comporter de circuit orient ou boucle (gure 7.8 ). Cependant, le nombre et la complexit des dpendances identies par les experts laissent parfois supposer que la modlisation par un graphe sans circuit est impossible. Il est alors important de garder lesprit que, quelles que soient les dpendances stochastiques entre des variables alatoires discrtes, il existe toujours une reprsentation par rseau baysien de leur loi conjointe. Ce rsultat thorique est fondamental et montre bien la puissance de modlisation des rseaux baysiens.
F IG . 7.8 Boucle dans un rseau baysien
Lorsque lon dispose dune quantit sufsante de donnes de retour dexprience concernant les variables Xi, la structure du rseau baysien peut galement tre apprise automatiquement par le rseau baysien, condition bien sr que le logiciel utilis soit dot de la fonctionnalit adquate.
210
7.3.3 Loi de probabilit conjointe des variables

La dernire tape de construction du rseau baysien consiste renseigner les tables de probabilits associes aux diffrentes variables. Dans un premier temps, la connaissance des experts concernant les lois de probabilit des variables est intgre au modle. Concrtement, deux cas se prsentent selon la position dune variable Xi dans le rseau baysien : La variable Xi na pas de variable parente : les experts doivent prciser la loi de probabilit marginale de Xi. La variable Xi possde des variables parentes : les experts doivent exprimer la dpendance de Xi en fonction des variables parentes, soit au moyen de probabilits conditionnelles, soit par une quation dterministe (que le logiciel convertira ensuite en probabilits). Le recueil de lois de probabilits auprs dexperts est une tape dlicate du processus de construction du rseau baysien. Typiquement, les experts se montrent rticents chiffrer la plausibilit dun vnement quils nont jamais observ. Cependant, une discussion approfondie avec les experts, aboutissant parfois une reformulation plus prcise des variables, permet dans de nombreux cas lobtention dapprciations qualitatives. Ainsi, lorsquun vnement est clairement dni, les experts sont gnralement mieux mme dexprimer si celui-ci est probable, peu probable, hautement improbable, etc. Il est alors possible dutiliser une table de conversion dapprciations qualitatives en probabilits, comme lchelle de Lichtenstein et Newman propos par [Ayy01, LP01]. La gure 7.9 ci-aprs reprsente graphiquement un extrait de cette table (les marges derreur associes chaque probabilit sont gures en gris fonc). Le dveloppement des rseaux baysiens a donn lieu de nombreux travaux sur le thme de la correspondance entre les termes linguistiques et les probabilits quantitatives [RW99]. Le cas dabsence totale dinformation concernant la loi de probabilit dune variable Xi peut tre rencontr. La solution pragmatique consiste alors affecter Xi une loi de probabilit arbitraire, par exemple une loi uniforme. Lorsque la construction du rseau baysien est acheve, ltude de la sensibilit du modle cette loi permet de dcider ou non de consacrer davantage de moyens ltude de la variable Xi. La quasi-totalit des logiciels commerciaux de rseaux baysiens permet lapprentissage automatique des tables de probabilits partir de donnes. Par consquent, dans un second temps, les ventuelles observations des Xi peuvent tre incorpores au modle, an dafner les probabilits introduites par les experts.
211
80% 70% 60% 50% 40% 30% 20% 10% 0%
F IG . 7.9 Correspondance entre apprciations qualitatives et probabilits (chelle de Lichtenstein et Newman)
Il est rare en pratique que les donnes soient sufsamment nombreuses et ables pour caractriser de manire satisfaisante la loi de probabilit conjointe des variables Xi. Cependant, si tel est le cas, lapprentissage automatique des probabilits rend inutile la phase de renseignement du modle par des probabilits expertes ; on peut alors se contenter, dans la phase initiale, dattribuer chaque variable une loi de probabilit uniforme.
212

$
!
#
"
90%
100%
!

Chapitre 8
Exemples dapplications
navons pas particip directement, mais pour lesquelles nous avons pu obtenir des informations, soit partir de publications scientiques ou commerciales, soit directement auprs des socits cites. Nous dcrivons tout dabord en dtail deux applications particulirement ambitieuses sur lun des aspects de lutilisation des rseaux baysiens : la dtection de fraude (ATT), pour ce qui est de lapprentissage, et laide la dcision en situation critique (NASA) pour linfrence. Nous prsentons ensuite une revue dapplications existantes, classes par domaine.
Nous prsentons dans ce chapitre des applications auxquelles nous
8.1 Dtection de fraude (ATT)

Lune des applications qui fait rfrence pour lutilisation des rseaux baysiens pour le data mining est le systme de dtection de fraude mis en production la n des annes 1990 par la socit amricaine de tlcommunications ATT [ES95]. Lapplication dveloppe vise deux objectifs : premirement, dtecter, soit au niveau des clients, soit au niveau des appels, un risque lv de non-recouvrement et, deuximement, dcider les actions effectuer en fonction de ce niveau de risque. Les cots mis en jeu svaluent en centaines de millions de dollars. Deux systmes fonds sur les rseaux baysiens ont t dvelopps pour
8.1. Dtection de fraude (ATT)
chacun de ces deux aspects du problme. Le systme APRI (Advanced Pattern Recognition and Identication) utilise un algorithme spcialis dapprentissage dans un rseau baysien pour rpondre au problme de lvaluation du risque li un client ou un appel. Le systme NESDT (Normative Expert System Development Tool) utilise le formalisme des diagrammes dinuence pour produire les recommandations daction suivant le niveau de risque, et les autres caractristiques du client. La dtection de fraudes dans le domaine des tlcommunications possde certaines caractristiques qui rendent cette application particulirement difcile : Le nombre des fraudeurs ou des mauvais payeurs est en gnral trs faible par rapport celui des bons clients (1 ou 2 %). Les donnes disponibles pour chaque client, ou pour chaque appel, sont continues pour certaines (comme le montant de lappel, ou le montant de la facture totale du client), et discrtes pour dautres, avec un nombre parfois trs lev de modalits (par exemple, pour la ville dmission ou de destination de lappel). La taille des bases de donnes traites est impressionnante : quelques millions dappels sont mis chaque jour sur le rseau dATT. Cela correspond quelque 50 giga-octets de donnes collectes par jour. Le problme est dynamique par nature, dune part parce que la fraude volue dans le temps, mais surtout parce que le systme mme a un impact sur la structure de la fraude, dans la mesure o il contraint les fraudeurs scarter des formes quil a dtectes. Enn, lvaluation du cot dune fausse alarme, cest--dire du fait de dcider tort quun appel ou un client est mauvais du point de vue du recouvrement, est difcile. En effet, suivant laction entreprise sur une telle fausse alarme, le client peut aller jusqu rsilier son abonnement, ce qui reprsente un manque gagner diffrent suivant le type de client. Cest la raison pour laquelle les deux applications ont t spares. Pour rendre possible lapprentissage du systme APRI, une mthode spcialise dapprentissage dans les rseaux baysiens a t dveloppe, dcompose en deux tapes principales. La premire tape est une recherche heuristique de la structure du rseau qui constitue la spcicit de la mthode. En effet, lheuristique propose par Cooper et dveloppe dans la partie thorique ne sapplique pas ici, car les variables ne sont pas toutes discrtes. En outre lhypothse dindpendance des exemples nest pas vrie dans le cas o lon traite une base de donnes dappels, qui contient donc des squences de plusieurs appels pour un mme client.
214
Chapitre 8 Exemples dapplications
X1
X2
...
...
Xp1
Xp
Schma du rseau baysien utilis dans APRI La classication dun appel ou dun client (bon/mauvais) est considr comme une des causes des caractristiques observes de cet appel ou de ce client. Ces caractristiques peuvent galement tre relies entre elles par des relations de cause effet. ( est la classe, X1 ,..., Xp sont les caractristiques, discrtes ou continues). Diagramme dinuence simpli de NESDT La classe attribue par APRI lappel ou au client, et le type de client, conditionnent la dcision prise. Suivant le type de client, cette dcision conditionne une raction du client. Celle-ci, associe la valeur estime pour ce client, permet dvaluer le cot de chaque dcision.
dcision raction
client valeur
cot
F IG . 8.1 Les systmes APRI et NESDT dATT
Lalgorithme qui a t dvelopp utilise une valuation de linformation mutuelle entre la classe et chacune des variables, et une valuation de linformation mutuelle entre les variables prises deux deux. Une fois ces calculs faits, les liens les plus signicatifs sont retenus dans le rseau, jusqu un certain seuil du cumul des informations mutuelles, qui est un paramtre du systme. Connaissant cette structure, on calcule dans une deuxime tape les probabilits conditionnelles et la probabilit, partir de la base dexemples. Compte tenu de lalgorithme utilis pour la recherche de structure, le calcul est relativement rapide et autorise une rvision rgulire du modle. Les performances du systme sont particulirement intressantes, et ont t compares une mthode danalyse discriminante linaire et quadratique, et lalgorithme CART qui est une mthode de classication spcialement conue pour les problmes mixtes (donnes continues et discrtes). Deux tests ont t mens : lun porte sur les clients, et lautre sur les appels.
215
8.2. Aide la dcision en temps rel (NASA)
Dans le test sur les clients, on construit le modle sur une base denviron 70 000 exemples, dont 10 % de mauvais payeurs. Le modle est valu sur une autre base quivalente. Les performances sont rsumes sur le graphe suivant, tabli sur la base dvaluation. Le systme idal reprsent par une * dtecte 100 % des fraudes avec 0 % de fausses alarmes. Le systme APRI permet de raliser les meilleurs compromis entre dtections et fausses alarmes, et est suprieur aux autres mthodes testes. Par exemple, en xant le seuil dinformation 70 %, APRI dtecte environ 12 % des fraudes avec un taux de fausses alarmes de 2,5 %, ce qui reprsente environ une fraude relle sur trois alarmes. Des performances similaires ont pu tre obtenues en appliquant le mme algorithme sur les donnes dappels. Des volumes de donnes beaucoup plus importants ont t traits, puisque les deux bases dexemples totalisent dix millions dappels. Lapprentissage et le traitement seffectuent en moins de dix heures de calcul. Le meilleur systme obtenu dtecte 20 % des fraudes, et 50 % des alarmes sont des fraudes. Ce systme a t dvelopp par les quipes de recherche internes de loprateur amricain. Selon ATT, les modles APRI ont t utiliss de faon oprationnelle pendant plusieurs annes, et leur pouvoir prdictif a pu tre dmontr de faon stable. Les variables utilises par ATT ne sont, bien sr, pas publiques. Comme nous lavons mentionn ci-dessus, les modles utilisent la fois des variables mesurant directement des caractristiques des clients et des appels, ainsi que des variables synthtiques. ATT a cependant accept de nous communiquer le graphe dun des modles utiliss, qui montre quassez peu de liens de causalit existent entre les caractristiques.
8.2 Aide la dcision en temps rel (NASA)

Lapplication Vista a t dveloppe par la NASA en collaboration avec la socit californienne Knowledge Industries [HB95]. Cette application est fonde sur la recherche dun compromis entre le temps ncessaire pour prendre une dcision, qui augmente avec le nombre dinformations analyser, et le temps disponible pour prendre cette dcision, qui peut tre court si le systme concern volue rapidement. Cet arbitrage est particulirement sensible dans le domaine de Vista, qui est le suivi des moteurs de positionnement orbital de la navette spatiale
216
F IG . 8.2 Graphe dun des modles utiliss dans APRI (source ATT)
amricaine. Il sagit de suivre en temps rel les paramtres dcrivant ltat des systmes de propulsion pendant certaines phases critiques comme linsertion et la stabilisation de la navette sur son orbite. Les ingnieurs de vol ont accs un grand nombre de paramtres de contrle des moteurs, qui sont relays par des capteurs. Jusqu 25 000 donnes sont potentiellement disponibles en temps rel. Si un problme survient sur un moteur pendant une phase critique, lingnieur de vol doit dcider le plus rapidement possible si ce moteur doit tre arrt ou non et, si oui, comment rpartir le carburant entre les autres moteurs pour continuer la mission. Chaque seconde passe analyser la situation peut tre une seconde pendant laquelle du carburant continue tre inject dans un moteur dfectueux. Rciproquement, couper un moteur avant quune vitesse critique soit atteinte peut conduire interrompre la mission. Cette dpendance critique du processus de dcision par rapport au temps est reprsente par le diagramme dinuence de la gure 8.3 ci-aprs. Lobjectif tant de rduire le temps ncessaire lanalyse de la situation, et toutes choses tant gales par ailleurs, le seul paramtre sur lequel on peut jouer est le nombre et la nature des informations afches sur lcran
217
8.2. Aide la dcision en temps rel (NASA)
action(t + t)
dure
tat du systme(t)
utilit
E1
E2
Ek
En
Ltat rel du systme est la cause directe des informations afches par les capteurs E1 , E2 ,..., En . Sur la base de tout ou partie de ces informations, une action est prise aprs un certain temps danalyse t. Suivant quelle est ou non approprie, la dure de sa mise en uvre, et ltat rel du systme lors de lanalyse de la situation, on mesure une utilit de laction prise.
F IG . 8.3 Diagramme dinuence dun processus de dcision en temps rel
de contrle de loprateur. Moins il y aura dinformations afches, plus rapide sera lanalyse de la situation, et plus elles seront pertinentes par rapport ltat rel du systme, plus efcace sera laction entreprise. Un gestionnaire dafchage est donc introduit dans le systme. Son rle est de slectionner les informations afcher. cette n, on attribue un score chaque information, qui est appel utilit moyenne de linformation afche , ou EVDI (Expected Value of Displayed Information). Cet indicateur mesure le gain dutilit qui sera obtenu en moyenne en afchant une information complmentaire. Cet indicateur ne peut tre calcul que si lon dispose de trois modles probabilistes : Le modle du systme physique lui-mme, incluant les capteurs. Ce modle permet en particulier de calculer la probabilit que le systme soit dans un certain tat, tant donnes les valeurs afches par les capteurs. Le modle de limpact dune action sur le systme physique. Le modle de loprateur, ou comment les informations quil peut observer au niveau des capteurs dterminent son interprtation de la situation et laction quil va dcider de mettre en uvre. Les ingnieurs de la NASA, aids de ceux de la socit californienne Knowledge Industries, ont dvelopp ces trois modles sous forme de rseaux baysiens. Lensemble du modle reprsent par la gure 8.4 ci-aprs est donc aussi un rseau baysien, et le calcul du score EVDI est possible pour chaque information.
218
oprateur
dcision
Afchage
dure analyse
action(t + t)
dure
tat du systme(t) utilit
E1
E2
Ek
En
F IG . 8.4 Rle du gestionnaire dafchage dans la dcision en temps rel
Dans la situation o lensemble des observations disponibles au gestionnaire dafchage est not E, lutilit associe un sous-ensemble dinformations afches E est mesure comme la somme des utilits de chaque action qui serait prise par loprateur, pondres par la probabilit que loprateur prenne effectivement cette action, connaissant E. La formule associe est la suivante : (on a introduit ici une variable intermdiaire qui est lhypothse que loprateur formule sur ltat du systme, connaissant E). U(E, E) =
i
p(Ai | E).
j
u[Ai, Hj, t(E)].p(Hj | E)
Lutilit apporte par lafchage de linformation e est donc simplement calcule par la diffrence des utilits U(E {e}, E) et U(E, E). Le compromis entre dure danalyse et pertinence de laction mise en uvre est pris en compte dans le terme t(E).
8.3 Autres applications (par domaines)

8.3.1 Industrie
La socit Ricoh a t lune des pionnires de lutilisation des rseaux baysiens pour le dpannage. En 1997, le centre de recherche californien de la socit Ricoh a dvelopp un systme dassistance aux oprateurs chargs dintervenir sur des copieurs en panne [HGJ97]. Lapproche utilise pour construire ce systme appel Fixit est relativement originale,
219
8.3. Autres applications (par domaines)
puisquil sagit dun systme autonome daccs la documentation technique. En fonction des symptmes dcrits par lutilisateur, Fixit recherche les causes de pannes possibles, et prsente directement lutilisateur un accs aux pages de la documentation concerne. Dans sa version initiale, comportant des modles pour environ quarante appareils (fax, copieurs), ce systme a t utilis par plus de vingt-cinq oprateurs rpartis entre le centre de communication de Lombard (Illinois) et Osaka. Les performances reportes pour Fixit indiquent que 45 % des appels sont traits en un temps moyen de deux minutes et demie, ce qui reprsente une augmentation de la productivit des oprateurs de prs de 100 %.
F IG . 8.5 cran Fixit en cours de session (source Ricoh)
La gure 8.5 montre une session de diagnostic en cours. Dans ce cas, le client au tlphone est suppos avoir dj fourni des observations (FACT LIST en bas gauche de lcran). Le rseau baysien de la gure 8.6 ciaprs est un extrait de la base de connaissances utilise pour le fax modle 3200L. Les nuds en gris clair reprsentent des symptmes, ceux qui apparaissent en gris fonc reprsentent des types de pannes.
220
F IG . 8.6 Extrait dune base de connaissances Fixit (source Ricoh)
Plus rcemment, en 2001, la socit Hugin a gnralis cette approche en dveloppant une mthode de dpannage de systmes complexes, base sur lutilisation des rseaux baysiens. Cette dmarche, baptise SACSO (Systems for Automated Customer Support Operations) a t applique dans un premier temps au diagnostic de pannes des imprimantes en rseau [JKK+]. Le principe de la mthode est relativement classique dans le diagnostic assist par ordinateur. On utilise linformation disponible pour identier un ensemble de causes possibles, et les classer par vraisemblance. SACSO introduit trois types de nuds dans le rseau baysien : les nuds de panne, les nuds daction, et les nuds de question. Le comportement observ (par exemple, impression trop ple ) peut avoir plusieurs causes possibles, comme : C1=Manque de toner
221
C1
A1 A2
Observation
C2
A3 Q1
C3
Q2
F IG . 8.7 Principe de la mthode SACSO : nuds de panne, daction et de question
C2=Distribution du toner dfectueuse C3=Mauvais paramtrage du pilote etc. Plusieurs actions peuvent tre envisages telles que : A1=Changer le toner A2=Redmarrer limprimante etc. Lefcacit de ces actions sur un problme possible est modlise par la probabilit conditionnelle que laction envisage soit efcace, la panne tant donne. Ainsi P(A1 | C3) = 0 indique que changer le toner a probablement peu deffet sur le paramtrage du pilote. Les nuds de question fonctionnent de faon similaire, cest--dire que la rponse attendue la question est modlise par la probabilit conditionnelle que la rponse la question soit positive, la panne tant donne. Par exemple, pour la question Q1=La page de test simprime-t-elle correctement ?, on aura P(Q1 | C1) = 0, P(Q1 | C2) = 0. Une rponse positive cette question permet donc dliminer les causes C1 et C2. Avec cette modlisation, on va prsent chercher reprsenter la notion de stratgie de dpannage. Une stratgie peut se reprsenter par un arbre dont les nuds sont de deux sortes : les nuds de question/action, et les nuds de rsultats. La gure 8.8 ci-aprs montre un exemple dune telle stratgie. On commence par poser la question Q1. Si la rponse est non, on effectue laction A1. Si celle-ci ne rsoud pas le problme, on effectue laction A2. Si elle ne rsoud pas non plus le problme, on est dans une situation dchec (note ! ! ). Les autres branches de la stratgie se lisent de la mme faon. En affectant un cot chaque question et action, et une pnalisation
222
chaque situation dchec, on peut estimer le cot moyen de rparation associ une stratgie donne. La rsolution dun problme de dpannage consiste donc rechercher la stratgie optimale, cest--dire celle qui minimise le cot moyen de rparation. ok oui non Q1 oui non non A1 non ok oui A2 non
!!
A2 oui ok
A1 oui ok
!!
F IG . 8.8 Un exemple de stratgie de dpannage
Il a t dmontr que cette recherche est un problme NP-complet. Le projet SACSO a permis de dvelopper des heuristiques trs performantes en utilisant une formalisation par rseau baysien, tel que celui prsent la gure 8.7 page prcdente. Cette mthodologie a fait lobjet dun dveloppement spcique, commercialis aujourdhui par Hugin (Hugin Advisor) et par la socit danoise Dezide. Toujours dans le domaine de la maintenance, General Electric a utilis des rseaux baysiens pour lanalyse de performances de moteurs davion (gamme CF6) pendant leur rvision gnrale. Le problme cl de la rvision des moteurs davion est de dterminer laction de maintenance la plus approprie pour ramener si ncessaire les performances du moteur dans le domaine dni par le constructeur. La difcult est de relier les diffrentes mesures effectues pour en dduire un problme potentiel, et donc laction effectuer. Ce systme est aujourdhui en service dans plusieurs ateliers de rvision de GE. Le rseau utilis compte 350 nuds, dont 47 reprsentent des types de pannes, et 144 des observations. Rappelons galement le dveloppement, par la socit danoise Hugin, du systme de contrle du vhicule sous-marin UUM pour la socit Lock 223
F IG . 8.9 cran de lapplication BATS dveloppe avec SACSO pour HP.
heed, que nous avons voqu dans la section prcdente. Ce travail a ensuite fait lobjet de nouveaux dveloppements dans le cadre des programmes de recherche de la Commission europenne avec le projet Advocate qui a permis de dvelopper une architecture logicielle rutilisable pour le contrle de vhicules sous-marins (en partenariat avec STN-Atlas et Ifremer). Une nouvelle gnration de ce projet (Advocate-2) a t lance en 2001, gnralisant la dmarche des vhicules terrestres, avec des applications dans le domaine spatial et pour le dplacement dans des environnements dangereux.
8.3.2 Sant
Dans le cadre du projet Human Genome du gouvernement amricain, le National Health Institute et linstitut de technologie isralien Technion ont mis au point une mthode fonde sur lutilisation des techniques dinfrences baysiennes la localisation des gnes, partir de la localisation de gnes connus, et de lanalyse darbres gnalogiques [BGS97]. La localisation dun gne peut tre aborde en mesurant la distance entre ce gne et dautres gnes dont lemplacement est connu. Lide gnrale la base de ce projet est que si deux gnes sont proches, la probabi 224
F IG . 8.10 Un vhicule autonome terrestre utilis dans Advocate II
lit quils soient spars durant le crossing-over est faible. La probabilit de sparation est donc une mesure de la distance entre deux gnes, qui peut tre estime en analysant larbre gnalogique de familles o la maladie est prsente. Lapport de ce projet a t dintgrer les techniques dinfrences dveloppes pour les rseaux baysiens dans un contexte o le raisonnement probabiliste tait dj largement prsent. Le rsultat a t des gains de performances considrables (des vitesses danalyse jusqu quarante fois suprieures). De nombreuses applications ponctuelles des rseaux baysiens dans le domaine de la mdecine se dveloppent, avec les prcautions qui simposent dans ce type dapplication. Nous pouvons citer en particulier une application utilisant la technologie Hugin pour lvaluation des patients en salle durgence (Dynasty).
8.3.3 Informatique et tlcommunications

Dans le domaine du diagnostic de programmes informatiques, lune des premires applications utilisant des rseaux baysiens a t dveloppe par luniversit du Texas Arlington, en collaboration avec le groupe DTAS de Microsoft, pour le diagnostic des erreurs dexcution du systme SABRE (lun des systmes de rservation arienne les plus utiliss au monde).
225
Toujours dans ce domaine, le projet SERENE (Safety and Risk Evaluation) regroupe, dans le cadre du programme de recherche europen Esprit, plusieurs partenaires cherchant dvelopper une mthodologie dutilisation des rseaux baysiens dans le cadre du contrle qualit du logiciel, pour des systmes critiques. Ce systme met en uvre la fois des modles dexpertise pour le raisonnement qualitatif et un lien des bases dexemples. Le partenaire franais du projet est EDF. Citons galement la socit canadienne Nortel, qui a dvelopp un systme danalyse de la abilit du nouveau systme ADS (ATM Distributed Switching). Lide gnrale est de modliser les dpendances entre les diffrents aspects du logiciel (architecture, environnement de dveloppement et environnement dexcution) avant mme sa ralisation, pour simuler la abilit du systme densemble. Dans le mme domaine, Nokia a rcemment mis au point un logiciel de diagnostic et de dpannage de rseaux de tlphone mobile, bas sur Hugin Explorer [BGH+02]. Dans le domaine des agents informatiques, le groupe Microsoft/DTAS a travaill depuis 1995 au dveloppement dinterfaces adaptables aux utilisateurs pour les produits Microsoft. Le projet Lumire [HBH+98], centr sur la construction et lintgration de modles baysiens pour laide lutilisateur, a conduit dnir le produit Ofce Assistant (le trombone dOfce), un systme daide fond sur les rseaux baysiens et intgr Ofce partir de la version 97. Ce projet prend en compte un certain nombre daspects de la modlisation des utilisateurs, partir dinformations recueillies pendant linteraction de lutilisateur avec le systme, par exemple : La recherche en vue daccder une fonctionnalit prcise, qui se matrialise par lexploration des menus, le dlement de texte, et le dplacement de la souris sur des rgions non actives. La rexion, qui peut se manifester par une pause, ou une diminution des changes avec le systme. Les effets indsirables, qui se manifestent par exemple par un accs la touche Undo, louverture et la fermeture rapide de certaines botes de dialogue. Linefcacit des actions, lorsque lutilisateur nutilise pas la squence de touches la plus approprie, ou les raccourcis disponibles. Le systme Ofce Assistant comprend trois modules principaux. Un module de synthse est charg de transformer les actions de lutilisateur en des observations pour le rseau baysien, dont linfrence produit des dcisions, qui sont excutes par le module de contrle. Lune des originalits dOfce Assistant est le raisonnement temporel, qui ncessite dutiliser
226
niveau utilisateur
difcult de la tche
baisse dattention
parcours menu
assistance requise
pause
Cet extrait du rseau baysien dOfce Assistant reprsente le modle utilis pour infrer la ncessit dune assistance lutilisateur, en fonction de son prol, et de son activit rcente.
F IG . 8.11 Un extrait dOfce Assistant de Microsoft (projet Lumire)
un formalisme spcique de rseaux baysiens (rseaux baysiens dynamiques). Le principe des assistants baysiens a t galement utilis par Microsoft pour les systmes de dpannage (troubleshooters) pour Windows 2000, qui intgre plus de vingt systmes de dpannage baysiens. Plus rcemment encore, les rseaux baysiens ont trouv une nouvelle application dans le domaine informatique : lantispam, cest--dire le ltrage des e-mails non sollicits. Le groupe DTAS de Microsoft a le premier tudi ce sujet, en allant plus loin que le simple ltrage, puisque les e-mails les plus pertinents taient identis. Une solution appele Mobile Manager a mme t lance en 2001. Cet outil a pour but didentier les messages les plus importants, et den informer le destinataire par une notication sur son tlphone mobile. De nombreux antispam utilisent aujourdhui la technologie des rseaux baysiens.
8.3.4 Dfense
La socit Mitre a dvelopp un systme de dfense tactique embarqu pour les navires de guerre de la marine amricaine. Ce systme analyse les informations sur les missiles qui menacent le navire et dcide des ripostes adopter. Il permet en particulier de grer les menaces multiples, qui peuvent gnrer des conits sur laffectation des armes. Il fonctionne en temps rel, et il a t montr que ses temps de raction taient trs infrieurs aux systmes classiques, par exemple des mthodes de propagation par contrainte, ou de programmation dynamique. La dcision du systme est optimale dans 95 % des cas (rsultat obtenu partir de simulations). Une application des rseaux baysiens lvaluation des menaces ter 227
F IG . 8.12 Une session dexcution de SSDS (source Mitre)
roristes et lanalyse des rponses envisages a t dveloppe en 2001 par la socit amricaine Digital Sandbox. Cette application a t mise en uvre dans un outil appel Site Proler. Mme si nous ne disposons pas dlments prcis pour valuer la pertinence de cette application, il nous a sembl intressant de la mentionner. Les rseaux baysiens sont en effet particulirement adapts lvaluation de risque dans un environnement htrogne. Aucune autre technique de modlisation nest aussi adapte la prise en compte des sources de donnes et de connaissances aussi diverses. Lvaluation de la menace terroriste est une application particulirement complexe de fusion dinformations : Le volume des donnes collectes par les services de renseignement
228
F IG . 8.13 Copie dcran de Site Proler (extrait du site dsandbox.com)
est norme. Les sources de connaissances sont multiples : les informations sur les menaces proviennent des services de renseignement, la connaissance sur la vulnrabilit des installations ou des dgts envisageables sont dtenues par des experts du domaine. La forme des informations est, l encore, multiple : jugements dexperts, donnes historiques, rsultats de modles ou de simulations. Enn, la communication entre les diffrentes institutions nest pas parfaite, et le rcent rapport mettant en vidence les dysfonctionnements des changes entre les diverses agences comme la CIA, la NSA, et le FBI, nen est quun exemple. Loutil SiteProler est conu sur la mise en relation de la cible et de la menace, au sein dun outil appel Risk Inuence Network (RIN). Un RIN est un rseau baysien qui regroupe les lments pouvant inuer sur la perception dun risque (intrt ou accessibilit de la cible pour les terroristes, dommages estims, adquation de la menace la cible, etc.).
229
Chapitre 9
tude de cas n1 : gestion globale des risques dune entreprise
lisation dun nouveau mtier au sein des grandes entreprises. Cette fonction, qui revt diffrentes appellations (risk manager, contrleur des risques, chief risk ofcer, directeur des risques), est directement rattache la tte de lentreprise et consiste principalement apporter aux diffrentes parties prenantes de lorganisation (comit excutif, actionnaires, clients, opinion publique, personnels, autorits de contrle) une vision globale des risques auxquels celle-ci est confronte. Le terme risque sentend ici dans un sens trs gnral et dsigne tout vnement potentiel susceptible de perturber la ralisation des objectifs de lentreprise. Cette dnition est aujourdhui largement partage et se trouve dans plusieurs normes [AS/99, CSA97, ISO00] et ouvrages de rfrence [Bar98].
Depuis quelques annes, on assiste lmergence et linstitutionna-
9.1. La mthode GLORIA
9.1 La mthode GLORIA
La mise en perspective de risques de natures diffrentes est un problme dlicat. Classiquement, un risque se caractrise par deux grandeurs : sa probabilit doccurrence dans lhorizon de temps considr et sa gravit. La notion de probabilit dun vnement est facile apprhender intuitivement et se formalise rigoureusement du point de vue mathmatique. En revanche, le concept de gravit dun risque pesant sur une entreprise savre difcile dnir, pour trois raisons essentielles : Caractre multicritre du risque La ralisation dun risque a diverses incidences : cots directs et indirects, chute du cours de laction en Bourse, dgradation de limage de lentreprise, consquences juridiques et rglementaires, stress ou dmotivation du personnel. Il est parfois trs dlicat de quantier ces incidences et a fortiori de les rapporter une mme chelle. Incertitudes Certains effets du risque sont extrmement difciles prvoir. Prenons lexemple dune usine chimique : la gravit du risque de pollution par nuage toxique peut tre trs diffrente selon lintensit et lorientation du vent au moment o se produit laccident. Certaines des facettes du risque doivent donc ncessairement tre modlises laide de variables alatoires. Interactions entre risques (effet domino) Il est frquent quun risque provoque ou facilite loccurrence dautres risques. Reprenons lexemple de lusine chimique : la survenue dun accident peut amener le gouvernement imposer la fermeture dautres installations appartenant lentreprise, dcision qui peut son tour entraner dautres consquences dfavorables. Mesurer rigoureusement la gravit dun risque impose donc dintgrer la gravit dun risque R1 celles de tous les risques dont R1 favorise loccurrence. EDF R&D, lorganisme de recherche et dveloppement dEDF, a rcemment labor une mthode nomme GLORIA (GLObal RIsk Assessment), qui rpond cette problmatique dvaluation et de hirarchisation des risques. La mthode sappuie sur une modlisation des risques par rseau baysien, ainsi que sur une dnition innovante de la gravit dun risque. Lobjet de ce chapitre est de prsenter la mthode GLORIA, qui est applicable toute entreprise ou organisation.
232
Chapitre 9 tude de cas n1 : gestion globale des risques dune entreprise
9.2 Horizon de temps et objectifs de lentreprise

Lhorizon de temps de lanalyse de risques dune entreprise peut tre de six mois cinq ans. Il correspond la priode de temps que lentreprise se donne pour atteindre les objectifs qui lui sont assigns. Au-del de cinq ans, lanalyse serait du ressort de la prospective stratgique. Dans la dmarche GLORIA, on considre comme risque tout vnement susceptible de se produire dans lhorizon de temps dni et pouvant inuencer de manire signicative la ralisation des objectifs de lentreprise. A contrario, un vnement ne remplissant pas ces deux conditions nest pas, au sens de la dmarche GLORIA, un risque. La dtermination des objectifs est donc une tape cruciale, qui constitue le socle de lanalyse de risques ; elle doit rsulter dune discussion approfondie avec les responsables de lentreprise. Tous types dobjectifs, quantitatifs ou qualitatifs, peuvent tre considrs. Nous donnons ci-aprs quelques exemples : Objectifs nanciers : chiffre daffaires (CA), excdent brut dexploitation (EBE), rentabilit des capitaux propres, ratio EBE/CA, ratio EBE/charges nancires, ratio endettement/capitaux propres. Objectifs techniques : satisfaction des clients, russite dun projet, obtention dun label ou dune certication, indicateurs qualit, objectifs de production, indicateurs environnementaux. Objectifs dimage : notorit, rputation de lentreprise auprs de certaines parties prenantes. Objectifs stratgiques : ralisation de plus de x % du chiffre daffaires dans un secteur donn, externalisation ou internalisation dun processus, acquisition dune participation dans une socit. Dans la mthode GLORIA, on associe chaque objectif une variable boolenne, gale vrai si lentreprise na pas ralis lobjectif lorsque lhorizon de temps est atteint. Si lobjectif est quantitatif (exemple : chiffre daffaires), cela ncessite lintroduction dun seuil numrique au-del ou en de duquel on considre que lobjectif nest pas ralis. On introduit de mme une variable alatoire boolenne C0, dite variable-cible , gale vrai si et seulement si lentreprise na pas ralis ses objectifs lorsque lhorizon de temps est atteint. La variable C0 sexprime gnralement comme une combinaison logique des variables reprsentant les objectifs. Il est toutefois possible dattribuer chaque objectif une pondration diffrente. Les variables alatoires correspondant aux objectifs et la variable cible
233
9.3. Construction du rseau baysien
false
true
false
true
false
true
false
true
false
true
OBJ1
OBJ2
OBJ3
OBJ4
OBJ5
false
true
CIBLE
F IG . 9.1 Objectifs et variable cible
constituent la partie infrieure du rseau baysien. La reprsentation des nuds sous forme de cadrans, possible avec le logiciel Netica, est particulirement expressive et adapte ces variables (gure 9.1 ).
9.3 Construction du rseau baysien

9.3.1 Identication des variables
Lorsque lhorizon de temps, les objectifs et la variable-cible sont dtermins, la mthode consiste complter le rseau baysien par lensemble des variables susceptibles dinuencer, directement ou indirectement, la ralisation des objectifs de lentreprise. Ltape didentication des variables seffectue par brainstormings dexperts possdant une exprience ou une connaissance du fonctionnement de lentreprise. Les experts sont soit des acteurs de lentreprise, soit des spcialistes des risques, tous tenus la condentialit. On pourra se rfrer utilement [Ayy01] pour conduire les runions de brainstorming et, dans certains cas, prfrer les entretiens individuels avec les experts. An de tendre vers une certaine exhaustivit, il est utile de recenser lensemble des lments avec lesquels lentreprise est en interaction. Ces
234
lments, appels milieux extrieurs dans la terminologie de lanalyse fonctionnelle, se rpartissent en cinq catgories ou sphres (gure 9.2 ) : sphre environnementale : hydrosphre, gosphre, biosphre, atmosphre, climat, paysage, activits humaines ; sphre ressources : ressources physiques, humaines et informationnelles ; sphre clientle : clients de lentreprise ; sphre nancire : actionnaires, cranciers, assureurs, investisseurs, liales ; sphre socitale : lois, opinion publique, mdias, organisations non gouvernementales (associations, syndicats, etc.), phnomnes de malveillance.
sphre socitale
sphre ressources
sphre clientle
Entreprise
sphre nancire
sphre envionne-mentale
F IG . 9.2 Les cinq sphres dlments interagissant avec lentreprise
Envisager systmatiquement, pour chaque milieu extrieur, les agressions possibles lencontre de lentreprise ou la dgradation de sa relation normale avec celle-ci permet didentier un grand nombre de risques. Bien quelle ne garantisse pas lexhaustivit, cette mthode est un complment utile aux interrogations dexperts. Diffrents cueils peuvent se prsenter lors de cette phase de production dinformations : foisonnement, experts exagrant limportance de la catgorie de risques dont ils sont spcialistes, opinions divergentes, autocensure. Si lentreprise est de grande taille, la principale difcult viter
235
9.3. Construction du rseau baysien
est le foisonnement, cest--dire la production dune quantit trop importante dinformations. Il est primordial de garder lesprit que la nalit nest en aucun cas de recenser lensemble des facteurs ou vnements pouvant affecter ngativement lentreprise, mais seulement ceux qui auraient une incidence signicative sur latteinte des objectifs explicitement identis lors de la premire tape. Prcisons galement quil convient de dcrire chaque variable X de manire sufsamment prcise pour que lon puisse a posteriori (cest--dire au terme de lhorizon de temps) dire sans ambigut laquelle des modalits xi de X sest ralise.
9.3.2 Identication des relations entre variables

Ltape suivante consiste identier les dpendances entre variables. Lexprience montre quun certain nombre de rgles de bonne conduite doivent tre respectes : Nombre de relations. An dassurer la lisibilit du modle et pour se prmunir de la prsence de grandes tables de probabilits, il convient de se limiter un nombre de relations raisonnable. Par exemple, on peut choisir de considrer, autant que possible, quatre variables amont au maximum pour chaque variable. Boucles. La structure du rseau baysien ne doit pas comporter de boucle. Typiquement, un vnement ne peut pas tre la fois la cause et la consquence dun autre vnement, mme indirectement. Il faut donc vrier, chaque fois quun lien entre deux variables est identi, que celui-ci nintroduit pas de boucle dans le modle. Nombre de niveaux successifs. Lorsquune variable inuence les objectifs de lentreprise travers plus de quatre variables intermdiaires, cette inuence indirecte est quantitativement ngligeable par rapport des liens plus directs (ce phnomne peut tre quali deffet de couche). Pour la simplicit du modle, il est donc recommand de ne pas introduire de chemins comportant un trop grand nombre de nuds intermdiaires. Bypass. Supposons quune variable A inuence une variable B la fois directement et par lintermdiaire dune variable C. Ce type de conguration (drivation ou bypass) peut tre remis en question : y a-t-il rellement une inuence directe de A sur B ? Si cest le cas, ne peut-on pas supprimer la variable C ? Poser ces questions aux experts permet, dans de nombreux cas, de limiter le nombre de relations et de simplier la structure du rseau baysien.
236
9.4 Lois de probabilit des variables

Outre les variables et relations entre variables, le rseau baysien doit contenir une description quantitative du comportement des variables, qui sexprime laide de probabilits.
9.4.1 Variables sommets

En raison de lacyclicit du rseau baysien, certaines variables nont pas de variables amont. Ces variables-sommets correspondent typiquement des facteurs non matrisables par lentreprise : phnomnes climatiques, macroconomiques ou politiques, initiatives des concurrents ou des autorits. On introduit les probabilits de chaque modalit des variables sommets en interrogeant les experts.
9.4.2 Variables intermdiaires

On appelle variables intermdiaires les variables possdant une ou plusieurs variables amont. La dpendance dune variable intermdiaire en fonction de ses variables amont peut sexprimer soit par une quation numrique ou logique, qui est ensuite traduite en probabilits conditionnelles, soit, directement, par des probabilits conditionnelles. Dans ce dernier cas, il faut envisager toutes les combinaisons de valeurs prises par les variables amont, ce qui peut se rvler fastidieux. Ainsi, dans lexemple de la gure 9.3 ci-aprs, cela conduit les experts exprimer au minimum, si toutes les variables sont binaires, seize probabilits conditionnelles pour la variable aval R5. Cest pourquoi, sil existe plus de quatre variables amont, il peut tre prfrable dinterroger les experts sur les intensits relatives des inuences et de supprimer les liens ventuels correspondant une inuence du second ordre sur la variable aval. Toutefois, dans le cas o il est impossible de se limiter quatre variables amont, une solution simple est celle du vote. Supposons par exemple quune variable Ri ait huit variables amont, toutes de mme importance (de sorte quil est impossible de ngliger linuence de certaines dentre elles) et que toutes les variables amont aient une inuence favorable sur Ri. Il est alors naturel de considrer que Ri sera ralis si au moins k des huit variables amont sont ralises ; le choix de k tant dterminer avec les experts.
237
9.5. Rsultats de la mthode GLORIA
R1
R2
R3
R4
R5
F IG . 9.3 Variable quatre variables amont
9.4.3 Exemple
La gure 9.4 ci-aprs reprsente un rseau baysien correspondant lune des applications de la mthode GLORIA ralises par EDF R&D. Ce modle comprend 39 variables et 57 liens. Pour des raisons de condentialit, les noms des variables ont t remplacs par des libells muets.
9.5 Rsultats de la mthode GLORIA

9.5.1 Probabilit de non-atteinte des objectifs
La probabilit de lvnement non-ralisation des objectifs (reprsent par la variable cible) apparat sur le rseau baysien. Il est entendu que la valeur de nest pas, dans labsolu, trs signicative. En revanche, elle sera utilise comme rfrence pour valuer la gravit des risques. Dans lexemple de la gure 9.4 ci-aprs, la probabilit est gale 17 %.
9.5.2 Simulation
Le rseau baysien est une reprsentation interactive, qui permet de rpondre aisment des questions du type : quelles seraient les consquences vraisemblables de la ralisation dun vnement X ? Dans quel sens et avec quelle ampleur la probabilit datteindre les objectifs serait-elle modie ? Lutilisation interactive du modle permet, en quelques clics, de rpondre ce type de question. Lanalyse peut tre prvisionnelle (on examine limpact dun ou plusieurs vnements) ou de type diagnostic (on
238
R2
R4 R3
true 0.10 f alse 99.9
R5
R6
R1
R10

R7
R9
R11
R12

R15 R16 R18
R8
R17
R14

R13
R20

R21 R25 R19
R22
R26 R23
R27

R28 R29
R24
R30

R32
R31
R33
f alse
true
f alse
true
f alse
true
f alse
true
f alse
true
OBJ1
OBJ2
OBJ3
OBJ4
OBJ5
f alse
true
CIBLE
F IG . 9.4 Mthode GLORIA : exemple de rseau baysien modlisant les risques dune
entreprise
239
Incidence du risque Dgradation de limage de lentreprise dans lopinion publique Chute du cours de laction
Unit(s) de mesure Pourcentage dindividus dclarant avoir une image ngative de lentreprise. Baisse de la valeur de laction conscutive la ralisation du risque. Jours dinvalidit, nombre de blesss et de dcs. Pourcentage de collaborateurs se dclarant stresss. Montant de lamende, jours de prison ferme ou avec sursis.
Accidents du travail Stress du personnel Condamnation de lentreprise ou dun de ses dirigeants
TAB . 9.1 Incidences dun risque et unit(s) de mesure associe(s)
suppose que lentreprise choue dans latteinte de ses objectifs et on examine les causes les plus probables).
9.5.3 Diagramme probabilit/gravit

On dduit du rseau baysien une reprsentation graphique des risques, sous la forme dun diagramme probabilit/gravit. La probabilit de chaque vnement se lit directement sur le rseau baysien (gure 9.4 page prcdente). Il reste dnir la notion de gravit dun vnement. Comme cela a t voqu en introduction, la gravit dun risque peut se mesurer selon de multiples critres, quil est difcile de rapporter une mme chelle (tableau 9.1). Dans le but de rsoudre ce problme dvaluation multicritre, la dmarche GLORIA introduit une dnition originale de la gravit qui intgre toutes les consquences dun risque : directes et indirectes, favorables ou dfavorables, chiffrables en termes nanciers ou non. Cette dnition, probabiliste, est inspire du concept de facteur dimportance utilis en sret de fonctionnement. Un facteur dimportance est un indicateur qui mesure la contribution dun composant au risque de panne dun systme. Lanalogie avec la modlisation propose ici est naturelle : les pannes des composants correspondent certaines modalits des variables reprsentes dans le rseau baysien ; la panne du systme la non-atteinte des objectifs de lentreprise. En utilisant la thorie des facteurs dimportance, on peut associer
240
chaque modalit xi dune variable X du rseau baysien un indicateur not g(X = xi), qui caractrise la gravit de lvnement X = xi. Ainsi, dans la mthode GLORIA, la gravit dun vnement est dnie comme la probabilit conditionnelle dchec dans latteinte des objectifs, en cas de ralisation de lvnement : g(X = xi) = P(C0/X = xi)
g(Ri=vrai)
R1
(9.1)
0,50
0,45
0,40
0,35
R30
0,30
0,25
R21 R3 R2 R10 R16 R4 R31 R11 R32R33 R5 R14 R27 R13 R22 R8
R29 R26 R20 R23
0,20
R28
R12 R9 R15 R17 R18 R6 R25
R19 R7
R24
0,05
0,15
0,25
0,35
0,45
0,55
0,65
0,75
0,85
0,95
P(Ri=vrai)
F IG . 9.5 Diagramme probabilit/gravit
Prenons lexemple de lvnement R1. Dans le rseau baysien de la gure 9.4 page 239, la gravit de R1, cest--dire la probabilit de nonralisation des objectifs en cas de ralisation de R1, est gale 47,3 %. On peut observer que la dnition ( 9.1) de la gravit dun risque rsulte directement de la dnition dun risque : un risque est un vnement qui perturbe latteinte des objectifs ; par consquent, un risque est dautant plus grave quil perturbe fortement latteinte des objectifs.
241
On note que si g(X = xi) est infrieur la probabilit de non-ralisation des objectifs, lvnement X = xi est une opportunit pour lentreprise, puisque son occurrence favorise latteinte des objectifs. Dans la dmarche GLORIA, la notion de risque englobe ainsi les vnements favorables lentreprise. Le terme de menace peut tre rserv pour dsigner les vnements dfavorables, cest--dire de gravit suprieure . Lorsque les gravits sont calcules, on est en mesure de positionner les risques sur un diagramme probabilit/gravit. La gure 9.5 page prcdente reprsente ainsi les vnements Ri = vrai , correspondant aux 33 variables Ri du rseau baysien de la gure 9.4 page 239. Dans cet exemple, chaque vnement Ri = vrai constitue une menace pour lentreprise, puisque sa gravit est suprieure (17 %). Le diagramme probabilit/gravit est parfois appel carte des risques. Il constitue la fois une reprsentation trs parlante des risques et un outil daide la dcision pour dnir une stratgie de rduction des risques. Les deux approches possibles pour rduire un risque sont la prvention (rduction de la probabilit) et la protection (rduction de la gravit). Bien entendu, une attention particulire doit tre porte sur les risques situs dans la partie suprieure droite du diagramme, car ceux-ci sont la fois probables et pnalisants pour lentreprise. A contrario, la prsence de risques proximit de lorigine du diagramme peut signier que lentreprise consacre trop de moyens leur traitement. Il peut alors tre judicieux de rallouer une partie de ces moyens la rduction des risques les plus importants.
9.5.4 Criticit des risques

La criticit de lvnement X = xi est dnie classiquement comme le produit de sa probabilit et de sa gravit. Daprs la dnition 9.1 page prcdente de la gravit, la criticit sinterprte comme la probabilit que lvnement X = xi se ralise et que lentreprise choue dans latteinte de ses objectifs : c(X = xi) = P(X = xi) g(X = xi) = P(X = xi) P(C0/X = xi) = P(X = xi et C0). (9.2)
La dnition de la gravit dun vnement au sens de la dmarche GLORIA aboutit ainsi une valuation trs intuitive de la criticit dun risque. Un risque est dautant plus critique que la probabilit quil se ralise et quil compromette latteinte des objectifs de lentreprise est leve.
242
La criticit permet de mesurer chaque risque par un seul indicateur numrique et par suite, de hirarchiser les risques. Ainsi, la gure 9.6 reprsente la criticit des quinze risques majeurs de notre exemple.
0,165
0,155
0,145
0,135
0,125
0,115
0,105
0,095
0,085
0,075
R24
R7
R29
R30
R19
R26
R23
R20
R12
R15
R17
R9
R8
R25
R6
F IG . 9.6 Exemple dutilisation de la mthode GLORIA : criticit des quinze risques majeurs
243
Chapitre 10
tude de cas n2 : modlisation et quantication des risques oprationnels
prcdent, rpond une proccupation croissante des entreprises daugmenter leurs chances de survie dans toutes les circonstances dfavorables qui pourraient se prsenter. Cette dmarche a surtout pour but didentier les risques, et, comme on la vu plus haut, de les prioriser, en fonction de leur impact estim sur les objectifs de lentreprise. Dans certains secteurs de lactivit conomique, cette proccupation a dj dpass le stade de la bonne gestion, pour devenir une contrainte rglementaire. Dans le mme temps, lexigence sest renforce, passant de la ncessit de cartographier et dorganiser les risques, une exigence quantitative. Le nouvel accord de Ble (Ble II), prpar partir de 1998 par le Comit de Ble, dnit un dispositif prudentiel destin mieux apprhender les risques bancaires et principalement le risque de crdit ou de contrepartie et les exigences en fonds propres. Cet accord cherche en particulier augmenter la cohrence entre les fonds propres et les risques rellement en-
La gestion globale des risques, telle quelle a t prsente au chapitre
10.1. Gestion des risques, incertitude et connaissance
courus par les tablissements nanciers. Cest aux termes de cet accord que les tablissements concerns sont dsormais tenus dvaluer quantitativement leurs risques oprationnels. Les risques couverts par la dnomination risque oprationnel, au sens de Ble II, sont trs divers, puisquils vont de la fraude interne la possibilit dune pandmie, en passant par la dfaillance des systmes dinformation. Sans entrer dans les dtails de cette rglementation, nous pouvons en rsumer lexigence quantitative. Ble II exige que tout vnement ou combinaison dvnements qui a plus dune chance sur mille de frapper un tablissement bancaire dans lanne soit couvert par des rserves de fonds propres adquates. Concrtement, cela signie quune banque ne doit pas avoir plus dune chance sur mille dtre dpasse, nancirement, par des vnements de risque. La premire rponse adapte cette exigence est la mise en place dun processus de gestion des connaissances pour identier les risques. Mais lidentication et la qualication des risques nest pas sufsante, puisquune quantication prcise ou du moins honnte de leur probabilit et de leur gravit est indispensable pour permettre la dtermination des fonds propres permettant dy rpondre, dans 99,9 % des futurs possibles un an, selon lexigence de Ble II. Dans ce qui suit et qui est extrait et adapt dun article paru dans le numro spcial consacr aux risques oprationnels de la Revue dconomie nancire, nous montrons comment lutilisation des rseaux baysiens peut contribuer satisfaire cette exigence quantitative de Ble II, et, au-del, la modlisation et la quantication des risques en gnral.
10.1 Gestion des risques, incertitude et connaissance

Lanalyse des catastrophes rcentes met en vidence trois points-cls de la gestion des risques. Premirement, les catastrophes frappent l o on ne les attend pas. Deuximement, il est souvent inexact de dire que lon ne sy attendait pas, mais plus juste de dire quon refusait de sy attendre. Troisimement, la tendance naturelle ne se prparer qu ce qui est dj arriv nous laisse imprpars ce qui va arriver, ou qui arrive. Les rapports de la CIA sur la prparation du 11 septembre, les rapports amricains sur les risques environnementaux majeurs mettant au premier plan la vulnrabilit de la Floride aux cyclones, et dont le public a dcouvert lexistence aprs Katrina, conrment cette impression.
246
Chapitre 10 tude de cas n2 : modlisation et quantication des risques oprationnels
Une politique de gestion des risques ne doit ngliger aucun des aspects du problme. Ce qui est arriv peut survenir de nouveau. Il est juste de maintenir sa vigilance. Ce qui nest jamais arriv peut arriver ou arrivera. Il est ncessaire de lanalyser en fonction des connaissances dont on dispose. Lapproche baysienne des probabilits peut apporter un clairage intressant ce problme. La contribution essentielle de Thomas Bayes la pense scientique a t de formuler clairement le principe de conditionnement de lincertitude linformation. Lincertitude est conditionnelle linformation, ou, autrement dit, la perception des risques est conditionnelle la connaissance. Selon cette approche, la notion de probabilit pure na pas de sens ; une probabilit nest dnie que compte tenu dun contexte dinformation. Dit simplement, ce qui peut arriver ne veut rien dire. On ne peut valuer que ce que je crois possible . Et ce que je sais conditionne ce que je crois. Cette position est, nous semble-t-il, parfaitement adapte une approche ouverte de la gestion des risques. Lavenir est ce que je crois possible . Et ce que je sais nest pas seulement ce qui est dj arriv, mais galement toutes les connaissances disponibles sur les organisations et leurs vulnrabilits. La gestion des risques commence par la gestion des connaissances. La volont du rgulateur damliorer la stabilit du systme bancaire, en prenant en compte les risques oprationnels sinscrit bien selon nous dans cette dmarche de connaissance. Les exigences lies la fonction de gestion des risques oprationnels, notamment la mise en place dun dispositif de suivi dtaill des sinistres, la prise en compte des donnes externes (ce qui est arriv lextrieur), et lanalyse de scnarios, permettent en principe un tablissement bancaire de ne pas baser son analyse des risques uniquement sur son historique propre des sinistres.
10.2 Prsentation de la dmarche

Pour les tablissements bancaires franais ayant choisi de rpondre lexigence de Ble II en utilisant des modles internes, deux modes dvaluation des fonds propres sont proposs aux tablissements. Lapproche standard est base sur lapplication dun ratio (entre 12 et 18 %) au produit net bancaire, cest--dire lquivalent de la valeur ajoute de ltablissement. Lapproche avance permet ltablissement de calculer luimme son allocation de fonds propres, sous rserve de produire des modles quantitatifs. En gnral, lapproche avance est avantageuse moyen
247
10.2. Prsentation de la dmarche
terme pour les grands tablissements, car elle permet une analyse prcise des risques, et donc lidentication de leviers de rduction. Plusieurs dentre eux ont choisi de modliser les risques les plus signicatifs en utilisant des rseaux baysiens. Le modle que nous prsentons ci-aprs, dit modle eXposition, Survenance, Gravit , ou modle XSG, a t mis en uvre par ces diffrents tablissements. Cette mthode a t initialement conue pour un tablissement qui avait dj mis en place une dmarche de connaissance densemble, et en particulier, qui, au-del de linventaire et de la qualication des sinistres, avait tudi lensemble des vulnrabilits de ltablissement et identi des scnarios de sinistres, survenus, ou non survenus. La doctrine de cette dmarche de modlisation des risques oprationnels peut se rsumer en deux phrases. Ce qui est dj arriv assez souvent se reproduira dans des conditions quivalentes, en labsence de mesures spciques de prvention. Pour ce qui nest jamais arriv, ou trs rarement, nous devons comprendre comment cela peut arriver, et si cela peut avoir des consquences graves, en labsence de mesures spciques de protection. Si on linterprte dans lespace du risque reprsent de faon classique sur un plan Gravit/Frquence, cette doctrine peut sexprimer comme suit. Les pertes potentielles dues des risques de gravit importante et de frquence faible ou nulle sont abordes par llaboration de scnarios probabiliss partir de modles de causalits. Cette approche est tendue aux risques de frquence dont limpact est lev, et pour lesquels une tude approfondie des volutions possibles du risque est ncessaire (prvention et protection). Les pertes potentielles dues des risques de gravit faible et de frquence leve ou moyenne sont abordes par des modles bass sur les donnes. Il sagit de la dmarche de LDA, ou Loss Distribution Approach, dont le principe est de modliser les pertes constates par une loi statistique, et den dduire des pertes possibles par extrapolation. Nous prsentons maintenant dans le dtail cette dmarche de modlisation, sans insister sur la modlisation des risques de frquences stables par la LDA car cette technique est aujourdhui courante et nest donc pas spcique de notre approche. Nous prsentons tout dabord la mthodologie de qualication, de slection, et de quantication des scnarios de risque. Puis
248
Frquence
Risques de frquence : LDA
Risques insigniants
Risques de gravit : rseaux baysiens
Gravit F IG . 10.1 Approches de modlisation pour les diffrents quadrants du plan frquencegravit
nous expliquons le principe dintgration, permettant de produire une valorisation des fonds propres au titre des risques oprationnels dans chaque case de la matrice de Ble, partir des modles de scnario et des donnes de pertes historiques.
10.3 Modlisation des scnarios de risque

10.3.1 Prsentation de la mthode
Objectifs La modlisation des risques oprationnels doit satisfaire trois objectifs dexigence croissante. Le premier objectif est de calculer les fonds propres au titre des risques oprationnels pour lanne venir avec une probabilit infrieure 99,9 %. La banque doit fournir un chiffre global et un chiffre par ligne de mtier et type dvnement. Chacun de ces chiffres doit pouvoir tre justi par rapport aux hypothses sous-jacentes et au principe retenu pour passer des hypothses aux fonds propres. Ce chiffre, qui dtermine les fonds propres mettre en place, prsente videmment une grande importance pour la
249
10.3. Modlisation des scnarios de risque
banque mais ne saurait constituer une n en soi ; il doit plutt tre considr comme une retombe du projet Risques oprationnels. Le deuxime objectif est de prvoir. En premier lieu, il sagit de prvoir les pertes futures et non de reproduire les pertes passes. Le contexte conomique, social, rglementaire, climatique change, les objectifs stratgiques et commerciaux changent, les risques changent donc aussi. Les pertes de lanne passe ne sont pas celles de lanne venir. Nous devons tre capables de mesurer limpact dune volution du contexte ou des objectifs de la banque sur les pertes potentielles. Le troisime objectif est de comprendre les raisons des pertes potentielles et avres. Identier les processus gnrateurs de risque, les leviers de prvention et de protection, les facteurs daggravation et les interdpendances entre les risques constituent les conditions ncessaires de la rduction des risques. Les modles devront donc intgrer cette connaissance pour aider la dnition des mesures de rduction. Difcults
Ne le cachons pas, modliser les risques oprationnels est une tche ardue. Les risques oprationnels couvrent des domaines trs varis et prsentent des prols de ralisation trs diffrents. Les risques tudis vont de la fraude aux risques informatiques en passant par les catastrophes naturelles, les risques juridiques, les erreurs de saisie, etc. De par leur nature htrogne, ces risques interdisent denvisager un modle global et unique. Chacun doit tre apprhend par des modles spciques. De plus, pour une mme classe de risque, la gravit des sinistres peut prsenter de grandes diffrences. Ainsi, si on sintresse la fraude externe sur les cartes bancaires, ni les modes opratoires, ni les enjeux ne sont comparables selon quon considre un vol isol ou un trac organis. Ds lors, fusionner de tels risques au sein dun mme modle revient bien souvent ignorer, volontairement ou involontairement, les processus qui engendrent ces risques et conduit invitablement oprer un grand cart pour rconcilier articiellement des phnomnes sans rapport. Une telle approche, mme si elle conduisait au mieux des modles mathmatiques satisfaisants par leur calcul des fonds propres, reste nos yeux totalement incompatible avec une comprhension des risques de ltablissement. Comme nous lavons prsent ci-dessus, il est dusage de reprsenter les risques sur un plan deux dimensions, la frquence et la gravit. Cette reprsentation fait apparatre quatre familles de risque. Les risques dits de frquence sont les risques survenant souvent mais dont la gravit est faible.
250
Les risques dits de gravit sont les risques survenant rarement mais dont la gravit est leve. Les risques critiques dont la frquence et la gravit sont leves, ne doivent pas tre considrs car les tablissements qui les supporteraient nexistent dj plus... Les risques de frquence faible et de gravit faible ne nous intressent pas non plus car ils engendrent des pertes ngligeables. Seuls les risques de frquence et les risques de gravit feront donc lobjet dune modlisation. L encore, mme sils appartiennent la mme classe de risque (par exemple la fraude externe), un risque de frquence et un risque de gravit ne doivent pas faire lobjet dun mme modle. Seul un artice mathmatique pourrait rconcilier la distribution dun risque grave et celle dun risque frquent. Connaissance ou donnes Lune des approches classiques de la quantication des risques oprationnels est lutilisation dun modle statistique des pertes. Il sagit dajuster des lois statistiques sur des donnes de pertes. Cette approche est appele LDA, pour Loss Distribution Approach. Le principe de la LDA est (1) de supposer que le nombre moyen de sinistres observs en une anne sera reconduit les annes suivantes avec un certain ala (reprsent en gnral par une distribution de Poisson), et (2) dajuster une distribution thorique sur les montants des sinistres observs. Prise la lettre, cette dmarche signie que le seul ala frappant les pertes rside dans le nombre de sinistres et dans leur arrangement (une anne dfavorable peut subir plusieurs sinistres importants). Autrement dit, il ny aurait dala que dans les ralisations, et non dans la nature des scnarios de risque. Selon ce principe, et pour xer les ides, un tsunami ne serait alors quune improbable grosse vague . Mme si lajustement dune distribution thorique sur la hauteur des vagues permet mathmatiquement de calculer la probabilit dune vague de 20 ou 30 mtres de haut, cela ne rend pas compte du changement de nature du phnomne : les tsunamis ne sont pas causs par le mme processus que les vagues. Dans le domaine des risques oprationnels, les donnes de pertes sont inexistantes ou quasi inexistantes pour les risques de gravit par dnition mme de ces derniers. Pour les risques de frquence, mme si des donnes de perte sont disponibles, elles ne concernent que le pass et nintgrent pas les ventuels changements de contexte ou dobjectifs de la banque. Un modle fond sur les donnes de perte nest pas un modle de risque mais un modle des sinistres. La connaissance des experts sur les processus gnrateurs de risque, qui
251
est indispensable pour modliser les risques de gravit, du fait du manque de donnes historiques, le demeure pour les risques de frquence ds lors que le contexte est instable car il est alors indispensable de prvoir limpact des facteurs contextuels sur la perte oprationnelle. Toute approche qui nest pas fonde sur la connaissance est donc incapable dapprhender les pertes extrmes et les volutions contextuelles et conduit ncessairement user dartices mathmatiques pour rconcilier des donnes qui ont t fusionnes par manque de comprhension des processus gnrateurs de risque. La modlisation des risques oprationnels est un problme de modlisation des connaissances et non un problme de modlisation des donnes. Les donnes ne constituent quun lment alimentant la connaissance, llment fondamental en tant lexpertise humaine. La connaissance permet la fois de rduire notre incertitude et nos risques. Les comprenant mieux, nous les voyons mieux et les contrlons mieux. Un processus de gestion des connaissances
La modlisation des risques oprationnels doit tre envisage comme un processus de gestion des connaissances assurant la transformation continue de lexpertise humaine en un modle probabiliste. Le modle nous permet de calculer la distribution des pertes potentielles et les fonds propres couvrant les pertes 99,9 %, didentier les leviers de rduction et deffectuer des analyses dimpact des volutions contextuelles et des objectifs stratgiques et commerciaux. Le processus est continu an dviter tout dcrochage entre lexpertise et le modle. Le modle doit rester contrlable et critiquable par les experts, aussi bien quauditable par les autorits de rgulation. Dans un souci de transparence, chacune des tapes du processus doit tre documente. Ce processus est constitu de deux grandes tapes : la dnition et la quantication des scnarios. Nous dtaillerons le contenu de ces tapes ultrieurement, mais il est essentiel de retenir que la modlisation probabiliste qui relve de la deuxime tape na de sens que si elle repose sur le socle solide des scnarios dnis en premire tape. Les trois acteurs du processus sont lexpert, le risk manager et le modlisateur. Lexpert est celui qui dtient la connaissance technique sur un domaine spcique ou un mtier. Seront par exemple consults les experts de la
252
modlisateur
expert
risk manager
F IG . 10.2 Les trois acteurs du processus de modlisation des risques oprationnels
fraude montique, les spcialistes des rseaux informatiques, les juristes etc. Lexpert nest pas a priori ncessairement sensible la problmatique de gestion des risques. Le risk manager possde une double comptence ; il connat les mtiers de la banque, au moins ceux qui relvent de son primtre, et matrise videmment les enjeux de la gestion des risques. Il est responsable de la phase de dnition des scnarios durant laquelle il consulte les experts an didentier et de slectionner les risques pertinents. Il est le pivot du processus de modlisation des risques. Le modlisateur, quant lui, est responsable de la phase de quantication des risques. Mme si sa comptence principale est la modlisation de la connaissance, il est illusoire de coner la quantication des modlisateurs qui nont pas la fois une connaissance, ft-elle gnrale, des mtiers de la banque et de la nance et une connaissance approfondie de la gestion des risques. La premire phase du processus ne fait intervenir que le risk manager et lexpert alors que la deuxime fait intervenir principalement le risk manager et le modlisateur, mme si lexpert peut tre questionn par le modlisateur pour des questions dlicates. Le recouvrement des comptences des trois acteurs assure la continuit du processus.
10.3.2 Le modle Exposition - Survenance - Gravit (XSG)

Comme nous lavons indiqu, les risques envisager sont nombreux, htrognes, et ont des prols de ralisation trs diffrents. Il est donc important de dnir un formalisme uni qui permettra de dnir les risques durant la phase de dnition des scnarios et de les quantier durant la phase de quantication des scnarios. Tel est lobjet du modle Exposition - Survenance - Gravit (XSG) que
253
nous prsentons dans ce chapitre. Le modle XSG dnit prcisment la notion de risque support par la banque ainsi que la forme quantie du risque. La vulnrabilit
Une banque est expose des risques si elle prsente des vulnrabilits. La vulnrabilit est le concept central de la dmarche ici prsente. Cette notion est discute en dtail dans [GGL04], nous en donnons ici la dnition et lillustrons par des exemples. Une vulnrabilit est dnie par trois lments : Le pril, ou cause, est la menace qui pse sur la banque. Exemples : la fraude, les erreurs de saisie, les catastrophes naturelles, lpidmie, etc. Lobjet, ou ressource, est lentit de la banque qui peut tre frappe par un pril. Les objets peuvent tre matriels, immatriels, des ressources humaines, un chiffre dexploitation etc. La consquence est limpact de la survenance dun pril sur un objet. Nous nous limitons ici la prise en compte de limpact nancier. Il ny a pas de vulnrabilit lorsquun pril peut frapper un objet sans consquences nancires. Par exemple, si un btiment conu pour rsister des sismes de niveau 5 sur lchelle de Richter est construit dans une ville o le sisme maximal envisageable est de niveau 3 sur cette mme chelle, aucune vulnrabilit nest considrer mme si le pril sisme existe sur lobjet btiment car aucune consquence nest craindre. Cette dnition tant donne, nous pouvons prciser le sens des notions de risque, de sinistre et de scnario telles que nous les envisageons : Le risque est la possibilit quun pril frappe un objet. Le sinistre dsigne la survenance avre dun pril sur un objet. Le scnario dcrit comment se matrialise une vulnrabilit. Chaque scnario dnit une vulnrabilit unique. Inversement chaque vulnrabilit est associe un unique scnario. Modliser les scnarios est donc strictement quivalent modliser les vulnrabilits. Exposition - Survenance - Gravit
La vulnrabilit est le pilier de la phase de dnition des scnarios, le triplet XSG est le pilier de la phase de quantication des scnarios et constitue la transposition quantie de la vulnrabilit. Les trois composantes du modle XSG sont :
254
Exposition (X) Cest le nombre dobjets indpendants exposs un pril donn durant lanne. Lindpendance des objets est dnie par rapport au pril. Deux vulnrabilits proches peuvent avoir des mesures dexposition diffrentes. Ainsi, la modlisation du risque de fraude sur carte bancaire est diffrente suivant quil sagit de fraude externe ou interne. Pour la fraude externe, la ressource en risque est une carte puisque chacune peut tre falsie de faon indpendante. Le nombre de cartes est donc la bonne mesure de lexposition. Pour la fraude interne en revanche, un seul employ peut dupliquer des milliers de cartes : la ressource expose est lemploy, et non la carte. Survenance (S) Cest la survenance dun pril sur un objet expos donn dans lanne quantie par sa probabilit. Gravit (G) Cest le cot conscutif la survenance du pril sur lobjet expos. Le triplet {Exposition, Survenance, Gravit} est lexacte transposition du triplet {Objet, Pril, Consquence}. La continuit du processus de modlisation des connaissances est ainsi assure. Le modle XSG dsigne la fois la vulnrabilit et sa forme quantie. Ds lors, les deux tapes du processus de modlisation peuvent tre reformules : dnir les scnarios = Identier les vulnrabilits ; quantier les scnarios = Quantier lexposition, la survenance et la gravit.
Utilisation des rseaux baysiens Lexposition, la survenance et la gravit sont les variables alatoires qui dnissent une vulnrabilit. tablir leur distribution conditionnelle est la premire tape en vue de la quantication des risques. Dans la pratique, lutilisation des rseaux baysiens est bien adapte cette tche. Les trois variables alatoires dexposition, de survenance, et de gravit peuvent tre considres de faon inconditionnelle : il sagit de la version minimale dun modle XSG. Cependant, dans la pratique, la distribution de chacune des ces trois variables peut tre modie par certains facteurs, appels dterminants. Il suft dinterviewer des experts au sujet dune vulnrabilit donne pour le comprendre. La premire rponse Comment mesurer lexposition ? , Quelle est la probabilit dun sinistre de tel type ? , ou Combien cotera un sinistre sil survient sera en gnral Cela dpend ! .
255
Tout lart du modlisateur consiste alors retourner la question lexpert, pour identier de quoi dpendent ces trois variables alatoires. Par exemple, lexposition peut dpendre des prvisions dvolution dactivit. Cet indicateur peut tre particulirement signicatif pour des activits en forte croissance comme la banque distance. La survenance, par exemple dans le domaine de la fraude, peut dpendre du niveau hirarchique ou de lge du salari, comme le montrent certaines tudes. Enn, la gravit dpendra des circonstances favorables ou dfavorables, et notamment du moment o survient le sinistre. Une panne informatique aura des consquences bien plus lourdes pour un tablissement si elle se produit lors des dates mensuelles de paiement de la TVA ou des URSSAF, que si elle se produit un dimanche ou un jour fri, encore que certains jours fris, correspondant une trs forte activit montique, pourraient aussi entraner des consquences graves. Lutilisation dun rseau baysien permet donc de reprsenter sur le mme graphe les facteurs inuenant exposition, survenance ou gravit.
Avantages de lutilisation des rseaux baysiens
la fois outil de reprsentation intuitive des connaissances, et machine calculer des probabilits conditionnelles, les rseaux baysiens prsentent les avantages suivants pour la modlisation des risques oprationnels : La connaissance des experts nest pas absorbe dans une bote noire, elle est retranscrite directement. Les modles sont donc contrlables par les experts et auditables par les autorits de rgulation. Les probabilits sont toujours le rsultat de calculs simples (comptages) ou de lexpertise, renforant ainsi la transparence des calculs effectus. Les rseaux baysiens peuvent reprsenter lensemble des facteurs qui conditionnent les diffrentes composantes dune vulnrabilit et permettront ainsi didentier les leviers de rduction et de quantier leur importance. Les rseaux relatifs plusieurs vulnrabilits peuvent tre interconnects an de mesurer les corrlations qui existent entre elles. Ils proposent, pour la reprsentation des connaissances, un formalisme commun qui sera appliqu tous les types de risque. Les trois objectifs que nous avons formuls pour la modlisation des risques - calculer, prvoir, comprendre - sont accessibles.
256
videmment, leur mise en uvre implique la disponibilit des experts mais cette disponibilit qui pourrait tre un obstacle pratique dans certains cas est pour nous une condition essentielle du succs de la modlisation des risques oprationnels.
10.3.3 Dnition des scnarios

Nous prsentons dans ce chapitre la premire phase de la modlisation des risques oprationnels quest la dnition des scnarios. Cette phase ne relevant pas de la quantication, nous nous contentons den survoler les tapes. La phase de dnition des scnarios comprend trois tapes : x identication des vulnrabilits ; y slection des vulnrabilits ; z tude dtaille des vulnrabilits. Les acteurs concerns durant cette phase sont le risk manager et lexpert qui vont recueillir toute la connaissance ncessaire pour la phase de quantication. Identication des vulnrabilits Lobjectif de cette tape est de lister tous les risques, cest--dire tous les couples {Pril, Objet}, qui peuvent affecter la banque. Lexhaustivit du recensement est lidal vis par cette tape. Quelques rgles doivent tre respectes pour tablir une liste aussi complte que possible. Le risk manager et lexpert doivent examiner sans a priori tout ce qui peut affecter la banque. Aucun risque ne doit tre cart ce stade sans justication srieuse. Il ne sagit pas de se poser des questions sur la frquence ou la gravit des risques mais denvisager les situations possibles. Les deux principes suivants sont de bons guides pour conduire lidentication : Tout ce qui est dj arriv la banque ou une autre banque peut survenir de nouveau. Ce qui se conoit par limagination peut arriver. Cette tape implique donc de limagination et de la crativit, mais aussi du bon sens qui servira canaliser une imagination dbordante inventant des scnarios invraisemblables. Lidentication des vulnrabilits repose en gnral sur un rfrentiel tabli par la banque qui liste les prils possibles et les objets de la banque.
257
Lidentication consiste retenir un sous-ensemble des risques dnis par ces rfrentiels. Lidentication peut se faire en tudiant des scnarios, en partant des objets et en envisageant les prils qui peuvent frapper dessus, en analysant les processus sensibles de la banque etc. Il sagit dune tape de brainstorming, qui ne doit pas tre aborde de faon dogmatique. Slection des vulnrabilits
La slection des vulnrabilits se fait en (1) positionnant chacune dans le plan Gravit x Frquence (2) et en ne conservant que celles qui vrient une rgle dligibilit dnie a priori. Il faut donc dans un premier temps dnir une chelle de frquence et une chelle de gravit. Ces deux chelles doivent permettre aux risk managers et aux experts de qualier leurs vulnrabilits. Elles doivent donc tre simples utiliser. Une chelle de frquence classique est : plusieurs fois par an , 1 fois par an , 1 fois tous les 5 ans , etc. Pour la gravit, on pourra considrer par exemple des ordres de grandeur de montant. Une fois lchelle dnie, une rgle dligibilit doit tre tablie pour ne retenir que les vulnrabilits signicatives, cest--dire les vulnrabilits dont la frquence ou la gravit sont sufsamment leves. tude dtaille des vulnrabilits
Chaque vulnrabilit slectionne doit faire lobjet dune tude dtaille qui mettra en vidence les mesures de prvention et de protection dj en place ou envisages pour lanne venir, qui identiera les facteurs inuenant la survenance ou aggravant les consquences, et enn qui produira une premire valuation des pertes associes pour lanne venir.
10.3.4 Quantication des scnarios

La deuxime phase de la modlisation des risques oprationnels consiste quantier chaque vulnrabilit. Elle est ralise principalement par le modlisateur et repose sur lanalyse dtaille de chaque scnario. Linterlocuteur principal du modlisateur est le risk manager mais le recours lexpert peut tre ncessaire pour clairer ou enrichir ventuellement lanalyse. Le processus de quantication dune vulnrabilit (ou dun scnario) se dcompose en 6 tapes : x Dnir exposition, survenance et gravit.
258
y Modliser lexposition laide dun rseau baysien. z Modliser la survenance laide dun rseau baysien. { Modliser la gravit laide dun rseau baysien. | Gnrer les pertes potentielles bases sur ce scnario. } Calculer la distribution et les fonds propres. Nous dcrivons maintenant chacune de ces tapes.
Dnir lexposition, la survenance, et la gravit Cette tape a pour objectif principal didentier clairement lobjet expos, dvaluer le nombre dobjets exposs, et de dnir la survenance et la gravit dune vulnrabilit dnies par un triplet {Pril, Objet, Consquence}. Rappelons que les objets exposs doivent tre indpendants du point de vue du pril considr pour que le modle XSG puisse sappliquer et quun pril ne doit pouvoir frapper un objet quune seule fois dans lanne. Ces deux contraintes qui caractrisent un objet expos ne peuvent en gnral pas tre prises en compte lors de la phase de dnition des scnarios ; il revient au modlisateur dadapter la notion dobjet ses besoins. Par exemple, si la premire phase a mis en vidence le pril panne informatique sur lobjet service de traitement des ordres boursiers , cet objet pouvant subir plusieurs pannes dans lanne, il ne peut tre considr comme un objet pour la modlisation. Lobjet qui devra tre considr dans ce cas est une tranche de temps de fonctionnement du service de traitement des ordres boursiers. Mais attention, les tranches de temps doivent tre indpendantes par rapport au pril panne informatique ; il est donc ncessaire dajuster la dure de la tranche an dassurer cette indpendance. Ainsi on pourra considrer, si une panne dure au maximum une journe, que lobjet expos est une journe dactivit du service de traitement des ordres boursiers . La dnition du bon objet expos est comparable celle du bon systme en thermodynamique : elle conditionne la qualit du modle. Modliser lexposition Une fois lobjet dni, lexposition est en gnral la grandeur la plus facile modliser. Elle reprsente le nombre dobjets exposs au pril prvu pour lanne venir.
259
Lexposition traduit en gnral lactivit prvue pour la banque dans un domaine donn. Par exemple, le nombre de cartes bancaires en circulation, le nombre doprations de marketing direct, le nombre de clients ayant souscrit un crdit la consommation sont des mesures de lexposition. Lexposition pour lanne venir est donc le produit de deux grandeurs : lexposition pour lanne coule et la prvision dvolution de lactivit dans le domaine concern. Lexposition de lanne coule est observe directement. La prvision dvolution pourra tre dnie en fonction des objectifs commerciaux ou stratgiques de la banque, et sera par exemple fournie sous forme dune distribution de probabilit traduisant trois hypothses : basse, moyenne, haute. Le rseau baysien dexposition contient donc au minimum trois nuds : Lexposition de lanne qui vient de scouler, qui prend une valeur unique. La prvision dvolution de lexposition pour lanne venir qui prend trois modalits. Lexposition de lanne venir qui est le produit des deux grandeurs prcdentes. Il peut tre complt dautres nuds, qui seraient les dterminants de la prvision dvolution. Ces dterminants sont en gnral de deux natures : des dcisions stratgiques, susceptibles de modier de faon volontaire lexposition, et des facteurs externes, qui reprsentent les incertitudes racines de cette prvision. Modliser la survenance
La question qui se pose ce stade est celle de la survenance dun pril et de ses conditions. Le modlisateur portera son attention sur les mesures de prvention dcrites dans lanalyse dtaille et tentera dexhiber les enchanements qui aboutissent au sinistre. Le pril survient ou ne survient pas durant lanne. Quantier la survenance cest dnir la probabilit quun pril survienne. Trois types dapproche sont envisageables selon la nature du problme et la disponibilit de lexpertise et des donnes : chelle de frquence Si la survenance est trs rare et non modlisable, le recours une chelle de frquence peut savrer utile. Cette chelle exprime combien de fois le pril est susceptible de frapper chaque anne. La probabilit de survenance se dduit en divisant par lexposition. Ce mode dvaluation de la frquence convient par exemple aux catastrophes naturelles.
260
Dcision stratgique
Facteurs externes
Exposition (n-1)
Prvision dvolution
Exposition (n)
F IG . 10.3 Modliser lexposition par un rseau baysien
Estimation empirique Si la survenance est trs frquente et stable dans le temps, une estimation empirique de la probabilit est sufsante. Elle consiste diviser le nombre de sinistres constats lanne prcdente par lexposition de lanne prcdente. Ce mode dvaluation convient par exemple aux erreurs humaines (erreurs de saisie). Attention, lorsque lon comptabilise les sinistres de lanne prcdente, il est prfrable de comptabiliser aussi, lorsque cela est possible, les near misses, cest--dire les incidents sans gravit car cette gravit nulle peut tre le fait du hasard. Modle thorique Si le phnomne est bien apprhend dans lanalyse de la vulnrabilit, le recours un modle thorique dcrivant le processus qui aboutit la survenance dun sinistre est conseill. La survenance sera donc conditionne la survenance de plusieurs problmes, chacun de ces problmes pouvant lui-mme tre conditionn plusieurs dterminants. Par exemple, supposons quun ordre de bourse puisse tre frapp par une erreur de saisie. Si de plus une mesure de double contrle a t mise en place pour les ordres de gros montants, la survenance
261
Montant ordre
Erreur de saisie
chec contrle
Survenance
F IG . 10.4 Modliser la survenance par un rseau baysien
dpendra donc du montant de lordre et du fait que le double contrle a chou ou non. Un incident survient soit si le montant de lordre est faible ET une erreur de saisie a lieu , soit si le montant de lordre est lev ET quune erreur de saisie a lieu ET que le double contrle a chou . On peut encore considrer que labsence de contrle quivaut un chec de celui-ci. Le rseau baysien reprsentant la survenance est alors un arbre logique probabiliste de type arbre des causes. Modliser la gravit
La question qui se pose lors de la modlisation de la gravit est celle de la perte conscutive la survenance dun pril sur lobjet expos. Nous devons donc considrer que le sinistre est survenu et essayer de quantier le cot des pertes. La modlisation de la gravit suit cinq tapes : x quation de la gravit. y Probabilisation. z Conditionnement.
262
{ Construction du rseau baysien et Distribution. | Validation. La premire question qui se pose concerne le cot et les composantes du cot dun sinistre potentiel. Lquation de la gravit est une relation mathmatique dterministe exprimant la gravit comme une fonction dun ensemble de facteurs. Ces facteurs sont donc les dterminants, ou causes de la gravit. Considrons un incendie frappant une agence bancaire. La perte conscutive un incendie est le cot de reconstruction des btiments endommags et le cot de remplacement des amnagements ; titre prudentiel nous supposerons que tout le mobilier sera remplac. Le cot du sinistre est alors gal au montant de la reconstruction et de lamnagement, supposs dpendre linairement de la surface de lagence et ventuellement dun taux de destruction par lincendie. La gravit sexprime alors en fonction des facteurs suivants : surface de lagence ; pourcentage dtruit par lincendie ; prix des amnagements au m2 ; cot de reconstruction au m2. Lquation est une relation formelle ; elle doit tre tablie en faisant abstraction des difcults de quantication prcise de ses facteurs. Lintrt de cette quation est que lon peut calculer une perte potentielle en faisant des hypothses sur chaque facteur. Il nest pas ncessaire davoir des sinistres pour obtenir des donnes de pertes, il suft den simuler partir des facteurs. Lorsque lquation est difcile tablir, on pourra toujours adopter une position prudentielle et exprimer une quation qui majore la gravit. Cette prudence, si elle ne cote pas trop cher larrive en fonds propres, permet bien souvent de simplier les problmes. Si lquation tablit une relation exacte entre la gravit et ses facteurs, il faut garder lesprit que les facteurs dpendent en gnral au minimum de lobjet frapp et doivent donc tre reprsents par des variables alatoires. Ltape de probabilisation de lquation consiste caractriser la distribution de chaque facteur. Si des donnes sont disponibles sur le facteur, une distribution empirique calcule sur les donnes sera applique. Si une loi thorique est connue sur le facteur (par exemple : le rendement dun march suit une loi log-normale), ses paramtres doivent tre estims ou fournis par les experts. Si aucune donne historique nest disponible ni aucune loi thorique connue, la distribution sera tablie partir de probabilits subjectives donnes par des experts.
263
Revenons lexemple de lincendie sur une agence bancaire et probabilisons son quation. Le facteur cot de lamnagement au m2 suit une distribution empirique calcule sur lensemble des agences. Le facteur pourcentage dtruit suit une distribution thorique dont les paramtres pourront tre fournis par lingnieur scurit. Le facteur cot du btiment au m2 suit une distribution empirique obtenue partir de donnes de march externes. Le facteur surface suit une distribution empirique obtenue du service grant le parc immobilier de la banque. Ltape de conditionnement intervient une fois les facteurs de la gravit dnis travers lquation. La question se pose alors de savoir si ces facteurs dpendent eux-mmes dautres dterminants. De quoi dpend, par exemple, le cot immobilier au m2 dune agence bancaire ? Le conditionnement dun facteur consiste : rechercher ses dterminants ; dnir la distribution de chaque dterminant ; tablir la relation entre la distribution du facteur et la distribution de chaque dterminant. Attention, il ne sagit pas de conditionner un facteur par des dterminants inutilisables dans la pratique. Un dterminant doit tre au minimum quantiable cest--dire que sa distribution doit tre calculable. Un dterminant qui nest pas quantiable, mme sil a manifestement une inuence sur la gravit, ne nous est daucun secours lors de la modlisation quantitative. Il est par exemple clair que la pugnacit des services juridiques sera un dterminant du montant des indemnits dues au titre dun dfaut de conseil. Malheureusement, cette pugnacit est difcilement quantiable et ne sera donc pas retenue dans le modle. Deux qualits sont rechercher pour un dterminant : son caractre prvisible et contrlable. Un dterminant est prvisible sil peut tre prvu ou faire lobjet dhypothses raisonnables. Par exemple, le rendement du march action franais est un dterminant prvisible car on peut faire des hypothses raisonnables sur son comportement dans lanne venir : sans prtendre prvoir sa tendance un an, on peut considrer que sa distribution sera comparable la distribution empirique constate dans le pass. Un dterminant est contrlable si la banque peut modier sa distribution. Le rendement du march action nest pas contrlable par la banque alors que le niveau de formation des salaris peut tre contrl en engageant des plans de formation. Lintrt dun dterminant contrlable est quil constitue un levier de rduction des risques.
264
Dterminant 1
Dterminant p
Facteur 1
Facteur p
Gravit
F IG . 10.5 Modliser la gravit par un rseau baysien
ce stade, le modle est parfaitement dcrit. Pour calculer la distribution de la gravit, nous devons construire notre machine calculer des distributions conditionnelles : le rseau baysien. Les nuds du rseau sont la gravit, les facteurs et les dterminants : La distribution conditionnelle de la gravit ses facteurs se dduit directement de lquation. La distribution des facteurs a t dnie lors de ltape de probabilisation. La distribution conditionnelle dun facteur ses dterminants et la distribution des dterminants ont t dnies lors du conditionnement. Une fois construit, le rseau calcule naturellement la distribution de la gravit par infrence. Ltape de validation comporte plusieurs niveaux. Le premier niveau de validation est structurel. Il concerne le graphe de connaissance et les distributions conditionnelles. Par construction mme, le rseau baysien nest quune traduction directe de la connaissance des experts. Toutefois, des hypothses sont parfois poses quant aux distributions (probabilits subjectives, etc.) quil convient de valider. Le deuxime niveau de validation est numrique. Le modle doit tre confront aux pertes observes, si elles existent. Mathmatiquement, il sagit de vrier que les pertes constates sont vraisemblables dans le cadre du modle pos.
265
videmment, la mesure de cette vraisemblance nest possible que si nous avons pu observer des pertes. Dans le cas des risques de gravit, aucune validation rigoureuse nest donc possible. Seuls les experts pourront valuer la plausibilit de la distribution obtenue. Cette impossibilit de confronter un modle aux donnes dans le cas des risques de gravit encourage une approche base sur lexpertise car cette dernire permet une validation structurelle. Nous disposons ce stade de trois rseaux baysiens respectivement pour lexposition, la survenance et la gravit. Ces trois rseaux peuvent tre interconnects et ne doivent donc pas tre considrs indpendamment. Si lon revient lexemple des erreurs de saisie sur ordres de bourse, le montant de lordre conditionne la fois la survenance, car les ordres de montant lev subissent un contrle suprieur, et la gravit car la perte est dautant plus leve que le montant de lordre est important. Nous regroupons donc ces trois rseaux en un seul rseau que nous appelons rseau XSG. Ltape dchantillonnage dune vulnrabilit consiste effectuer une simulation de Monte Carlo dun grand nombre dannes dexervice, en utilisant le rseau XSG. Pour chaque anne simule : chantillonner lexposition suivant le modle disponible. Pour chaque objet expos, calculer sa probabilit dtre touch par un sinistre, et tirer alatoirement la survenance dun sinistre. Pour chaque sinistre, chantillonner sa gravit. Cumuler les pertes de tous les sinistres chantillonns. Cet chantillonnage se fait bien sr en tenant compte des interdpendances entre les dterminants. Nous disposons ce niveau de N annes de pertes simules. Nous sommes donc en mesure de calculer la distribution des pertes annuelles soit en considrant un histogramme soit en ajustant une distribution thorique sur les pertes chantillonnes. Les fonds propres peuvent alors tre calculs en considrant le centile 99,9 % de la distribution.
10.3.5 Rsum
La dmarche de modlisation des vulnrabilits retenue pour les risques de gravit et pour les risques de frquence instables ou impact cumul lev est une dmarche rsolument base sur la connaissance. Tout le processus de modlisation conduit produire des donnes de pertes simules fondes sur une connaissance du scnario gnrateur de risques. ce titre, notre dmarche pourra tre rapproche dune LDA classique : on peut la
266
qualier de LDA conditionnelle base sur des scnarios. Pour la LDA classique les donnes passes sont supposes reprsenter les risques futurs, alors que dans la LDA conditionnelle, les donnes passes seffacent devant les pertes potentielles produites partir de modles de connaissance.
10.4 Conclusion
La dmarche propose ici a permis de rpondre aux trois objectifs xs initialement pour la modlisation des risques oprationnels. Nous avons dvelopp un modle qui permet de calculer les fonds propres au titre des risques oprationnels. Le modle permet de prvoir linuence dun indicateur en modiant sa distribution et en mesurant limpact sur la distribution des risques oprationnels. On pourra par exemple analyser limpact dun krach boursier, limpact dun changement de rglementation, ou encore limpact de la dgradation de la abilit des partenaires commerciaux. Le modle permet enn de comprendre les processus gnrateurs de risques, didentier les leviers de rduction des risques et dvaluer lintrt dune mesure de rduction des risques en prenant en compte son cot. Les leviers de rduction doivent tre choisis parmi les indicateurs contrlables par la banque. Un mesure de rduction, qui consiste agir sur un levier de rduction, a un cot. La comparaison entre le cot de la mesure de rduction et son impact sur la distribution des risques oprationnels fait partie de ltude qui justie la mise en place de la mesure. De telles tudes pourront par exemple tre menes pour valuer lopportunit dun plan de continuit dactivit ou bien justier la mise en place dun programme de formation pour amliorer la qualication des agents.
267
Chapitre 11
tude de cas n3 : tude dun systme lectrique
ensemble des installations de production et de transport dnergie lectrique, dans une rgion donne, constitue un systme industriel complexe. Les centrales de production, thermiques ou hydrauliques, le rseau lectrique (lignes, postes de transformation) et les centres de conduite sont en interaction permanente et doivent assurer, tout instant, lquilibre entre la demande et la production dlectricit. Mme si lon adopte un point de vue trs macroscopique, un grand nombre de variables est ncessaire pour caractriser un instant donn, ltat du systme lectrique dune rgion. Nous pouvons citer a minima : les puissances dbites sur le rseau par les installations de production situes dans la rgion ; les puissances transitant sur les ventuelles lignes dinterconnexion avec dautres systmes lectriques ; la consommation en chaque site industriel directement raccord au rseau de transport et en chaque point de livraison vers les rseaux de distribution ; la description de la topologie du rseau : ouvrages exploits, en maintenance programme, ou en indisponibilit fortuite (suite un incident).
11.1. Modlisation dun rseau lectrique
Les mthodes de la sret de fonctionnement ont t dveloppes dans les annes 1960 et 1970 et ont t originellement appliques dans les secteurs aronautique, spatial, militaire, chimique, ptrolier, nuclaire et ferroviaire. La modlisation dun systme lectrique prsente cependant une difcult particulire par rapport celle, par exemple, dun avion ou dune automobile : la conguration du systme, ainsi que les contraintes auxquelles il est soumis sont en perptuelle volution. Il y a deux raisons cela : dune part, les indisponibilits, programmes ou fortuites, des ouvrages de production et de transport ; dautre part, la forte variabilit dans le temps et dans lespace de la demande en lectricit. Ces deux facteurs font quil nest pas possible de dnir de mode de fonctionnement nominal dun systme lectrique. Les tudes de scurit du systme lectrique ncessitent donc au pralable la gnration dun chantillon dtats du systme, ou situations de rseau qui sont ensuite analyss individuellement au moyen doutils spciques. Lanalyse dune situation de rseau est elle-mme complexe et ncessite plusieurs minutes, voire plusieurs heures de temps de calcul, car elle implique la rsolution dun grand nombre dquations diffrentielles. La phase de gnration des situations de rseau est donc critique, car il est primordial de ne pas gaspiller de temps de calcul par lanalyse dtaille dtats extrmement peu probables. En dautres termes, lenjeu est de pouvoir gnrer un chantillon dtats du systme lectrique en sassurant de sa plausibilit, de manire recouvrir au mieux lespace des possibles.
11.1 Modlisation dun rseau lectrique

11.1.1 Variables alatoires
Le rseau trs haute tension franais est compos denviron 100 000 kilomtres de lignes haute tension, de plusieurs centaines de groupes de production (thermiques ou hydrauliques) connects au rseau, et denviron deux cents nuds de consommation (clients industriels et points de livraison vers les rseaux de distribution). lchelle nationale, une situation de rseau est donc dcrite par un ensemble de plusieurs centaines de variables symboliques (tats dune ligne, dun groupe de production) ou numriques (consommations en diffrents points, puissances dbites par les groupes de production). lchelle rgionale, le nombre de variables est de lordre de quelques dizaines. An de manipuler des variables prenant un nombre ni de valeurs
270
Chapitre 11 tude de cas n3 : tude dun systme lectrique
et de dnir en toute rigueur la probabilit dune situation de rseau, on peut choisir de discrtiser les variables continues comme par exemple la consommation dlectricit en un nud du rseau. La situation du rseau, chaque instant, peut ainsi tre assimile un vecteur comprenant plusieurs dizaines plusieurs centaines de variables. Ces variables sont, du point de vue de lexploitant de rseau, entaches de nombreuses incertitudes : Variabilit de la consommation. Il est difcile de prvoir avec prcision le niveau et la rpartition de la consommation, mme court terme. Un exemple souvent cit ce sujet est le suivant : en hiver, une baisse dun degr Celsius de la temprature en France augmente la consommation nationale denviron 1000 MW, soit lordre de grandeur de la production dun racteur nuclaire. Bien videmment, plus long terme, la consommation dlectricit dpend de multiples facteurs conomiques, sociaux ou dmographiques qui la rendent encore plus difcile prvoir. Indisponibilit fortuites. Le systme est affect par des vnements imprvisibles, comme les dfaillances de lignes, de postes de transformation ou de groupes de production, qui entranent des indisponibilits fortuites. Incertitudes sur la production. Dans le contexte actuel de libralisation des systmes lectriques, lactivit de gestion de rseau se dissocie du domaine de la production dnergie lectrique, qui est soumis la concurrence. Les informations dont disposent les diffrents acteurs sont incompltes. En particulier, les exploitants de rseau ont une connaissance partielle du programme de production des centrales installes dans la rgion, et plus long terme des projets de mise en service de nouvelles installations de production. Il apparat donc raisonnable de modliser par des variables alatoires les diffrents paramtres qui caractrisent la situation de rseau. Dune manire gnrale, lexistence de ces incertitudes renforce la pertinence des mthodes probabilistes pour les tudes de conception ou de fonctionnement des systmes lectriques. Ce constat sapplique dautres industries de rseau, dans les domaines des transports ou des tlcommunications par exemple.
11.1.2 Dpendances entre variables

Les phnomnes de dpendances entre les variables dune situation de rseau sont abondamment dcrits dans la littrature du domaine des tudes de scurit et dadquation des systmes lectriques. Nous pouvons
271
11.1. Modlisation dun rseau lectrique
Types de dpendances entre dfaillances Dfaillance de cause commune ou de mode commun
Exemples Chute dun arbre sur les deux ternes dune ligne ; dfaut de conception dune protection Dfaillance dun poste induisant la perte de plusieurs groupes et lignes Taux de dfaillance des lignes plus levs en cas de tempte ou dorage Dfaillance dune protection induisant une sollicitation plus contraignante dautres ouvrages (stress) Phnomne de le dattente d un nombre limit de rparateurs (exemple : deux composants en panne, un rparateur)
Dpendances dues des composants communs Dpendances dues un environnement commun tel que le climat Cascades de pannes
Dpendances dues un nombre limit de rparateurs
TAB . 11.1 Types de dpendances entre dfaillances, [BA88]
citer les exemples suivants : Dans [BL94], laccent est mis sur les dpendances entre les consommations en diffrents nuds, et entre les indisponibilits de lignes dues des conditions climatiques dfavorables. Dans [BL92] et [YNH99], une attention particulire est porte sur les dpendances entre les consommations en diffrents nuds. Les articles [ADS94], [BS95], [ESH96], [MS97] et [UPK+97] mentionnent limportance des conditions climatiques dans les valuations de abilit dun rseau. Les conditions climatiques inuent sur les paramtres de production (tat des rserves deau, etc.), de transport (orages affectant les lignes, etc.), de consommation (temprature) et sont ainsi responsables de phnomnes de dpendances. Limportance des dpendances dans les valuations de abilit des systmes lectriques est particulirement reconnue pour les phnomnes de dfaillances (tableau 11.1). Prendre en compte les dpendances se rvle indispensable pour valuer la probabilit dune situation de rseau. Par exemple, la probabilit de dfaillance simultane de plusieurs lignes voisines apparat comme trs faible si lon considre ltat de chaque ligne comme des variables alatoires indpendantes. En revanche, la probabilit se trouve augmente de plusieurs ordres de grandeur si lon modlise le risque dorage dans la rgion o sont situes les lignes. Donnons un exemple numrique, en consi 272
drant deux lignes du rseau. Le retour dexprience peut conduire estimer la probabilit marginale de dfaut sur chaque ligne 103. La probabilit de dfauts simultans sur les deux lignes serait donc, si les lignes se comportaient de manire indpendante, de 106, soit une valeur extrmement faible. Or, supposons que les deux lignes soient proches gographiquement, voire montes sur les mmes pylnes. Alors si lune des lignes est affecte par un incident, il existe une forte probabilit pour que la seconde soit affecte par ce mme incident, quil sagisse dintempries, de foudre, de givre, de la chute dun arbre, etc. La probabilit de dfauts simultans sur les deux lignes est donc en ralit trs largement suprieure 106. Cet exemple met clairement en vidence que le seul historique des dfaillances dun composant peut tre inexploitable pour construire un modle probabiliste sil ne saccompagne pas dun relev prcis du contexte dans lequel la dfaillance sest produite.
11.1.3 Choix dun modle mathmatique

La plupart des tudes de abilit seffectuent au moyen de modles logiques, comme les arbres de dfaillances, les diagrammes de abilit, les fonctions de structure ou encore les diagrammes de dcision binaire. Ces modles reprsentent ltat de chaque composant et ltat du systme par des variables boolennes. Les modles les plus couramment utiliss sont les arbres de dfaillances [KH96]. Dans un arbre de dfaillances, ltat de chaque composant i est reprsent par une variable boolenne Xi, et ltat du systme par une fonction boolenne et dterministe des Xi, classiquement note (X1, . . . , Xn). (11.1)
An de dterminer la loi de probabilit de , il est souvent ncessaire de postuler lindpendance stochastique des Xi. La prise en compte de dpendances nest possible quau moyen dapproximations ou dartices de modlisation. On peut galement remarquer quun arbre de dfaillances est un cas particulier de rseau baysien, dans lequel : toutes les variables sont boolennes ; les variables intermdiaires dpendent de manire dterministe de leurs variables parentes. En prsence de variables plus de deux modalits (multi-tats) et de dpendances stochastiques entre variables, le choix dune modlisation par rseau baysien simpose naturellement.
273
11.2. tude du rseau lectrique en rgion PACA
11.2 tude du rseau lectrique en rgion PACA

11.2.1 Contexte
La modlisation dun systme lectrique par un rseau baysien a t utilise dans le cadre dune tude de mise jour des rgles dexploitation du rseau en rgion PACA (Provence-Alpes-Cte dAzur).
vers MONTRICHER
vers VALENCE vers CHAMPAGNIER
SERRE-BARBIN BRIANCON
vers PRATCLAUX MONTPEZAT LOGIS-NEUF
LARGENTIERE
CRUAS-MEYSSE
GRISOLLES
COULANGE
SERRE-PONCON CHTEAU-NEUF-DU-RHONE CURBANS PIERRELATTE TRICASTIN BOLLENE PHENIX LARDOISE SISTERON VALABRES ST AUBAN BANCAIRON ST DALMAS vers CAMPOROSSO ROQUEBILLIEREITALIE MENTON TRINITE-VICTOR RISSO CAGNES/MER
BOUDEYRE PIED-DE-BORNE LAFIGERE BARJAC VIRADEL
TRICASTIN
vers ST-VICTOR
LA MOTTE
GANGES
ST-CESAIRE
TAVE L AGASSE ARAMON S JONQUIERES
TERRADOU AVIGNON MOUISSONNES ROUMOULES CHATEAURENARD P. DORGON STE TULLE ORAISON
CASTILLON
BROC-CARROS
LINGOSTIERE P. DE GRASSE
LA CHAUDANNE
BEAUCAIRE
T.S.
ST ESTEVE
STE CROIX QUINSON
MOUGINS
ROQUEROUSSE
BOUTRE
TRANS
Nice
vers TAMAREAU
RASSUEN vers ST-CHRISTOL FEUILLANE CABAN
ST CHAMAS PALUN ROGNAC VINS SEPTEME LAVERA
RENAIRES DARSE MARTIGUES-PONTEAU
Raltor
ARENC ENCO-DEBOTTE MAZARGUES VALLAT LESCAILLON
BELLE DE MAI RABATAU
NEOULES
COUDON
Marseille
Toulon
Line 1
Lignes 400 KV 225 KV
F IG . 11.1 Le rseau lectrique en rgion PACA Ltude, ralise par EDF R&D pour le gestionnaire du rseau de transport franais (RTE : rseau de transport dlectricit), sappuyait sur lanalyse dun chantillon de 10 000 situations du rseau en rgion PACA 1 . Cet chantillon avait t gnr plusieurs annes auparavant sans prendre en compte les dpendances conditionnelles : la valeur de chaque paramtre avait t tire alatoirement, indpendamment de celles des autres paramtres. Il tait capital de vrier la plausibilit des situations et dliminer, le cas chant, des situations trs improbables qui dune part, auraient entran des calculs superus et dautre part, risquaient dintroduire des biais dans la dnition des rgles dexploitation.
Ltude prsente dans ce chapitre a fait lobjet de publications. Pour plus de dtails, le lecteur pourra donc se rfrer [PPSP01] et [PPSP02] sur la modlisation par rseau baysien et [SPP02] sur lutilisation de ltude.
274
11.2.2 Construction du modle

Lquipe dEDF R&D, avec la contribution dexploitants du centre de conduite de Marseille, a identi les principales dpendances entre variables et recueilli les informations ncessaires concernant la consommation, la gestion de la production et la politique de maintenance des lignes lectriques. numrer lensemble des dpendances prises en compte dans ltude dpasserait le cadre de notre propos : nous citons ici les principales relations entre variables. Diffrentes dpendances lies aux phnomnes climatiques ont t mises en vidence. En raison de lutilisation de llectricit pour le chauffage et lclairage, la temprature et la nbulosit inuencent la consommation. Par ailleurs, le climat inuence les probabilits dincident sur les lignes de transport : une temprature chaude favorise lactivit kraunique et donc le risque de foudre, une temprature ngative entrane un risque de gel, etc. Enn, la temprature inuence les transits maximaux de puissance sur les lignes de transport. On peut observer que lexistence dune dpendance stochastique entre les variables caractrisant la consommation et ltat des lignes du rseau de transport ntait pas vidente en premire analyse ! Les paramtres chronologiques (jour de lanne, jour de la semaine, heure de la journe) ont galement des inuences multiples. Lheure inuence la consommation (creux dans la nuit, pic du soir en hiver). La date inuence la consommation (week-ends, jours fris, jours dit deffacement jour de pointe o certains clients sont soumis un tarif plus lev de manire rduire la consommation nationale les jours de grand froid). Enn, il est clair que la date et le climat sont lis, de mme que lheure de la journe et la temprature. On retrouve ainsi les dpendances climatiques cites plus haut. Les dpendances dues la politique de maintenance des lignes du rseau ont une importance considrable. Les lignes sont de prfrence maintenues au printemps et en t, priodes o le rseau est moins contraint (et o il est moins pnible pour les oprateurs de travailler sur les lignes). Par ailleurs, le choix des ouvrages maintenus seffectue de manire ce que la topologie du rseau permette celui-ci dalimenter en nergie lectrique chaque client industriel et chaque connexion avec les rseaux de distribution. Typiquement, certaines paires de lignes du rseau ne se trouvent jamais simultanment en maintenance programme. Au total, le rseau baysien (construit avec le logiciel Netica) se composait de 110 variables reprsentant les ouvrages de production, la consommation rgionale, les paramtres climatiques et chronologiques, ainsi que
275
11.2. tude du rseau lectrique en rgion PACA
E3 E2 EX1 E4 EX5
EX2
E5 E6
EX6
EX3
EX7
Mois EX4 EJP Temprature Jour de la semaine Nbulosit
E1
Import
Consommation Production locale Heure
F IG . 11.2 Rseau baysien modlisant le systme lectrique
la production et limportation de puissance lectrique. Les dpendances entre variables sont reprsentes par 146 liens (gure 11.2 ). La phase de construction du modle a mis en vidence deux avantages majeurs de la modlisation par rseau baysien : le caractre intuitif du modle, qui le rend comprhensible et utilisable par un non-spcialiste des mthodes probabilistes ; linteractivit : le fait dvaluer linuence dune variable sur les autres variables du modle en un clic de souris facilite grandement la validation du modle.
11.2.3 Rsultats de ltude

Le temps de calcul de la probabilit dune situation du rseau par le rseau baysien tait de lordre dune seconde. Ainsi, lensemble des 10 000 situations a pu tre trait en moins de trois heures. Le calcul des probabilits a mis en vidence que 15% environ des situations taient trs peu probables (probabilits comprises entre 1010 et 105) et pouvaient tre supprimes de lchantillon. Quelques situations extr 276
mement peu probables ont fait lobjet dune analyse minutieuse. La plupart dentre elles taient des situations o le rseau tait fortement contraint et prsentait un risque dcroulement. Prendre en compte ces situations aurait pu amener dnir des rgles dexploitation trop conservatives et donc trop coteuses. La plupart des logiciels de traitement de rseau baysien (tels que Netica) sont dots dune fonctionnalit de gnration alatoire de situations. Dans le cadre dune nouvelle tude de mise au point de rgles dexploitation, il sera donc possible de gnrer les situations de rseau en prenant en compte les phnomnes de dpendances entre variables, de manire : se prmunir de la prsence de situations extrmement invraisemblables dans lchantillon ; obtenir une reprsentation raliste des situations effectivement rencontres en exploitation ; saffranchir de ltape de calcul a posteriori des probabilits de situations de rseau.
277
Chapitre 12
tude de cas n4 : questionnaire adaptatif pour la vente de crdit en ligne
lement les socits de crdit la consommation chercher des dbouchs travers ce canal de vente. En effet, les cartes de crdit de type revolving, utilises en gnral dans les grands magasins, peuvent tre transposes lenvironnement Internet. La possibilit doffrir un service doctroi de crdit en ligne est donc un plus pour les sites de commerce lectronique, quils vendent des voyages, des biens culturels, ou des vtements, pour ne citer que quelques exemples. Comme pour les grands magasins ou la VPC classique, laccs sur le mme site aux biens de consommation et au service de crdit, est un acclrateur de la consommation. La vente sur Internet prsente cependant une difcult particulire qui est la fragilit du processus de vente. Dans le monde rel, lorsquun client se prsente un vendeur ou dans le cas qui nous intresse, demande louverture dun dossier pour obtenir une carte de crdit revolving il est somme toute assez rare quil revienne sur sa dcision au cours de lentretien. La relation qui stablit avec le vendeur, indpendamment de sa force de persuasion, rend pratiquement certain laboutissement du processus.
Le dveloppement du commerce sur Internet a conduit tout naturel-
12.1. Un rseau baysien comme modle de score
Risque commercial
Risque nancier
Dure du questionnaire
F IG . 12.1 Gestion du risque pour la vente de crdit en ligne
Sur Internet, en revanche, cliquer sur le bouton Acheter nengage rien : lchange qui stablit avec un serveur peut toujours tre interrompu tout moment, par un clic : il suft de fermer son navigateur. Les sites de vente en ligne les plus aboutis ont pris en compte cette difcult, et ont tent de raccourcir le plus possible la longueur du processus de vente, pour la rduire, dans certains cas, un seul clic (si le client est dj connu). Cette technique favorise lachat dimpulsion. La vente de crdit prsente nanmoins une difcult particulire, puisquil faut valuer la situation nancire du client, pour minimiser les risques dimpays ou de surendettement. Cette valuation rend videmment ncessaire de poser un certain nombre de questions au client sur sa situation, dont les rponses vont permettre dtablir un score de risque, mesurant sa probabilit de dfaillance.
12.1 Un rseau baysien comme modle de score

On se trouve donc dans la situation de grer deux objectifs contradictoires : dun ct, le risque commercial est dautant plus faible que le processus de vente est rapide, et de lautre, le risque nancier est dautant plus faible que lon dispose de renseignements prcis et complets sur le client. Ce compromis est reprsent sur la gure 12.1 . Plus le questionnaire doc 280
Chapitre 12 tude de cas n4 : questionnaire adaptatif pour la vente de crdit en ligne
troi du crdit est long, plus le risque commercial est lev (risque dabandon de la transaction), et inversement, moindre est le risque nancier (risque dimpays). Lutilisation des rseaux baysiens permet daborder ce problme dune faon lgante. En effet, un score de risque nancier nest en somme quun modle de probabilit conditionnelle, qui permet dvaluer P(Incident | Caracteristiques). Supposons que les caractristiques considres comme pertinentes pour valuer le risque nancier dun client soient au nombre de vingt (typiquement, lge du client, son salaire, sa situation familiale et professionnelle, etc.). Si on choisit de mettre en uvre ce score avec un rseau baysien, on peut valuer la probabilit dun incident mme avec des informations partielles. Par exemple, on peut calculer P(Incident | ge). Dun autre ct, on peut galement utiliser le mme modle pour dterminer la question la plus pertinente poser en fonction des rponses dj obtenues. Par exemple, pour un client g de 25 ans, connatre son salaire apporte certainement plus dinformations pour connatre son risque nancier, que de connatre, par exemple, sa situation familiale. Pour un client plus g, ce peut tre linverse. Cest le principe du questionnaire adaptatif : Poser les questions les plus pertinentes par rapport au but atteindre (ici valuer le risque nancier), en fonction des rponses dj obtenues.
12.1.1 Donnes et prtraitement

Ltude prsente ici a t ralise indpendamment pour deux tablissements de crdit, avec des rsultats similaires. Nous prsentons ltude ralise pour lun des deux tablissements. Pour prserver la condentialit des donnes, nous ne rvlons pas les variables utilises. De mme, les chiffres prsents (probabilits, etc.) ont t modis et ne sont pas ncessairement reprsentatifs du contexte rel. Nous avons travaill sur un ensemble de dossiers fournis par la socit de crdit au dbut de ltude. Il sagit de dossiers anciens pour lesquels un recul sufsant est disponible. En fonction des incidents de paiement ventuellement survenus sur ces dossiers, on peut donc qualier chacun des clients concerns de bon ou mauvais payeur. Le chier analys comporte environ 15 000 dossiers de bons payeurs (que nous pourrons par la suite noter BP) et environ 1 500 de mauvais payeurs (nots MP). Chacun des dossiers comporte quatorze variables : lge du demandeur (ge) ;
281
sa situation familiale (famille) ; son nombre denfants (enfants) ; sa situation dhabitation (habitat) ; ses revenus (revenus) ; neuf autres variables que nous laisserons muettes (Q01 Q09).
12.1.2 Modlisation
La modlisation seffectue en cinq tapes : discrtisation des donnes quantitatives ; chantillonnage en une base dapprentissage et une base de test ; apprentissage dun rseau baysien et analyse des performances en apprentissage ; application du modle la base de test et analyse des performances en test ; tude de la robustesse du modle. Pour chacune des variables quantitatives (comme lge), une discrtisation en cinq classes a t effectue. Le dcoupage choisi est celui des quantiles 20 %, 40 %, 60 % et 80 %. Lchantillonnage seffectue sparment sur les bons payeurs et sur les mauvais payeurs : on extrait un certain pourcentage de chaque classe.
Dispersion du score selon la classe

1.2 1 0.8 Mdiane 0.6 0.4 0.2 0
eu rs eu rs
Moyenne
Lutilisation du modle de score pour prendre une dcision daccorder ou de refuser le crdit suppose de xer un seuil ce score. Pour choisir ce seuil, on peut se baser sur la rpartition du score sur les deux populations analyses.
M au va is _P ay
Bo ns _P ay
F IG . 12.2 Seuil de dcision
Lapprentissage seffectue par lalgorithme TAN (Tree Augmented Nave Bayes, ou Tree Augmented Network, voir page 172). Le modle cherche pr 282
voir le statut bon payeur ou mauvais payeur, et produit donc une probabilit dtre un bon payeur. Cest cette probabilit qui est utilise comme score. Lanalyse des rsultats seffectue en utilisant des mesures classiques de qualit de score, comme la matrice de confusion des deux classes. Ltablissement dune matrice de confusion suppose de passer du score, ou de la probabilit la dcision. Cest--dire qu partir dune certaine probabilit dtre un mauvais payeur, on doit dcider de refuser le crdit. Une faon dtablir ce seuil est dobserver la rpartition des scores pour les deux classes observes a posteriori. Sur le graphique de la gure 12.2 page prcdente, on observe que les deux rpartitions sont assez proches. Mme si la probabilit a priori dtre un bon payeur est lgrement plus leve en moyenne pour les dossiers qui se sont effectivement rvls bons payeurs que pour ceux qui ont t des mauvais payeurs a posteriori, on voit que la rpartition des scores ne permet pas de distinguer les deux classes de faon absolue. Pour sparer les deux classes, on peut choisir comme seuil la moyenne des mdianes des scores observs sur les deux groupes : on obtient la matrice de confusion prsente dans la gure 12.3 .
Matrice de confusion
Classe thorique 0 0 1 2
Classe calcule
Une fois le seuil de dcision slectionn, on peut tablir une matrice de confusion. Cette matrice prsente la proportion de dossiers dune classe donne (bons ou mauvais payeurs) effectivement reconnus comme tels.
F IG . 12.3 Matrice de confusion
On peut utiliser galement une reprsentation sous forme de courbe de lift (gure 12.4 ci-aprs). Cette courbe permet de reprsenter de faon assez visuelle le pouvoir sparateur dun score. Si lon considre une population identier, cette courbe reprsente la proportion reconnue de cette population en fonction de la proportion de la population totale slectionne suivant le score. Dans notre exemple, il y a 16 500 dossiers, dont 1 500 dossiers de mauvais payeurs, soit environ 9 %. En slectionnant 1 000 dossiers au hasard,
283
Courbes de Lift % variable cible reconnue 120% 100% 80% 60% 40% 20% 0%
0% 80 % 10 0% 20 % 40 % 60 %
Lift_Ideal Lift_Alea Lift_Model
La courbe de lift permet de positionner le modle de dcision bas sur le score par rapport au modle alatoire, ou au modle thorique parfait.
% base
F IG . 12.4 Courbe de lift on aura donc en moyenne 90 mauvais payeurs. En en slectionnant 10 000, on en obtiendra 900, et ainsi de suite. Ainsi la courbe reliant les deux proportions est une droite. Supposons alors quon utilise un score parfait, cest-dire qui identie coup sr les mauvais payeurs. Si lon slectionne 1 % des dossiers obtenant la valeur la plus faible suivant ce score, on obtiendra 165 dossiers de mauvais payeurs, et ainsi de suite jusqu 9 % des dossiers : en slectionnant 9 % des dossiers suivant ce score, on aura identi 100 % des mauvais payeurs. Pour ce score thorique idal, la courbe reliant les deux proportions est compose de deux segments de droite, lun de pente 11 (100 %/9 %), et lautre horizontal. Pour un score rel, ni alatoire, ni idal, la courbe se situe entre ces deux extrmes. Cette reprsentation permet donc de comparer deux scores : plus la courbe dun score donn slve rapidement par rapport la courbe plancher du modle alatoire, meilleur est ce score. Dans cette application, le score obtenu grce au rseau baysien tait de qualit gale celui obtenu par des techniques statistiques traditionnelles. Mais lintrt de ce type de modle est ici surtout son utilisation pour guider le questionnaire adaptatif, comme nous allons le voir maintenant.
12.1.3 Le modle obtenu

Le modle obtenu est reprsent dans la gure 12.5 ci-aprs (copie dcran du logiciel Hugin). Le modle peut tre utilis comme un modle de score classique : connaissant lensemble des informations sur le client (cest--dire conditionnellement ses caractristiques), on calcule la probabilit quil soit un mauvais payeur.
284
F IG . 12.5 Le modle de score obtenu
Lutilisation du modle en mode interactif se fait en xant une variable, et en notant limpact de cette information sur la distribution de probabilit des autres, comme dans lexemple ci-aprs. Cette utilisation permet dintroduire la notion dun questionnaire adaptatif : chaque tape, cest la question qui minimise lincertitude sur la dcision dattribution qui est pose.
12.2 Utilisation du rseau baysien

Les rseaux baysiens sont par nature des modles permettant de traiter linformation incomplte. Un rseau baysien peut calculer la probabilit de nimporte laquelle de ses variables, conditionnellement la connaissance dun sous-ensemble quelconque de variables observes. Par exemple, le rseau peut donner la probabilit dtre en face dun mauvais payeur, connaissant seulement lge du demandeur. Lide utilise ici est de construire un questionnaire adaptatif, cest-dire qui pose chaque fois la question la plus pertinente, par rapport lobjectif x (accord ou refus de la demande de crdit), et en tenant compte des rponses dj obtenues.
285
12.2. Utilisation du rseau baysien
La probabilit a priori dtre mauvais payeur est 12,5 % (voir 12.5 page prcdente). Pour la tranche dge numro 1, la probabilit augmente jusqu 14,5 % (ci-contre, gauche). En revanche, cette probabilit est infrieure la moyenne (11,4 %) pour la tranche dge numro 4 ( droite). Noter galement que les distributions conditionnelles des autres variables sont modies lorsque la tranche dge est xe.
TAB . 12.1 Fonctionnement interactif du modle
ge
Q01 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5
P(Q01 | ge) 47,2 % 22,7 % 16,2 % 10,9 % 3,0 % 32,7 % 19,1 % 17,2 % 22,3 % 8,6 % 26,5 % 13,5 % 12,5 % 29,3 % 18,1 % 30,4 % 9,7 % 9,3 % 21,8 % 28,9 % 29,4 % 11,9 % 11,1 % 16,7 % 31,0 %
P(MP | ge, Q01) 15,75 % 14,41 % 12,34 % 12,69 % 14,87 % 12,49 % 10,03 % 14,93 % 13,47 % 11,38 % 10,64 % 11,91 % 11,10 % 10,38 % 9,95 % 9,70 % 17,62 % 11,02 % 11,36 % 11,18 % 11,40 % 14,50 % 11,08 % 9,79 % 9,56 %
Rsultat(Q01) Refuser Continuer Continuer Continuer Continuer Continuer Continuer Continuer Continuer Continuer Continuer Continuer Continuer Continuer Accorder Accorder Refuser Continuer Continuer Continuer Continuer Continuer Continuer Accorder Accorder
TAB . 12.2 volutions probables du questionnaire en posant Q01
286

ge Q03 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 P(Q03 | ge) 25,7 % 23,2 % 28,0 % 20,8 % 2,3 % 21,8 % 12,8 % 13,9 % 25,4 % 26,1 % 21,8 % 11,2 % 13,2 % 16,7 % 37,1 % 47,8 % 8,4 % 8,3 % 10,7 % 24,8 % 71,6 % 16,4 % 7,2 % 1,1 % 3,7 % P(MP | ge, Q03) 17,23 % 14,67 % 16,47 % 9,83 % 19,06 % 11,82 % 12,33 % 14,98 % 11,80 % 12,77 % 11,54 % 15,27 % 9,10 % 10,25 % 9,50 % 10,54 % 17,99 % 10,14 % 16,87 % 8,80 % 11,69 % 8,09 % 5,12 % 16,61 % 17,59 % Rsultat(Q03) Refuser Continuer Refuser Accorder Refuser Continuer Continuer Continuer Continuer Continuer Continuer Refuser Accorder Continuer Accorder Continuer Refuser Continuer Continuer Accorder Continuer Accorder Accorder Refuser Refuser
TAB . 12.3 volutions probables du questionnaire en posant Q03
Ce questionnaire fonctionne comme suit : Un score (probabilit dtre mauvais payeur) dacceptation anticipe est x (S1). Un score de rejet anticip est x (S2). Par exemple, si la probabilit a priori dtre mauvais payeur est gale 12,5 %, on peut choisir 15 % comme seuil de rejet anticip, et 10 % comme seuil dacceptation anticipe. Cela signie que lon ne continue poser des questions que tant que P(MP | ReponsesDejaObtenues) se situe entre ces deux limites. Ds que lune des deux limites est franchie, on prend la dcision correspondante, et on termine le questionnaire. Pour comprendre le principe de cette mthode, tudions le cas suivant. Supposons que la rponse la question ge soit dj connue. Essayons de comparer la question Q01 et la question Q02. Le tableau 12.2 page prcdente (tabli pour Q01) montre les volutions possibles du questionnaire si lon pose Q01. Ces volutions dpendent de la rponse dj obtenue la question ge . Supposons que la rponse obtenue cette question tait ge = 1 . Dans ce cas, si on choisit de poser Q01, le questionnaire sera arrt avec un refus si lon obtient la rponse Q01 = 1 , soit dans 47,2 % des cas. Le tableau 12.3 (tabli pour Q03) permet de comparer lintrt respectif des deux questions. De mme, toujours dans le cas o la rponse obtenue
287
12.2. Utilisation du rseau baysien
la question ge tait ge = 1 , le questionnaire sera arrt par un refus dans 56 % des cas, et par un accord dans 20,8 % des cas. Finalement, si ge = 1 , poser Q01 conduit continuer le questionnaire dans 52,8 % des cas, alors que si lon pose plutt la question Q03, on aura continuer le questionnaire dans seulement 23,2 % des cas. Poser la question Q03 est donc prfrable dans ce cas. Le choix de la question la plus intressante dpend bien sr des rponses prcdemment obtenues, comme le montre le tableau 12.4. Ainsi, dans le cas o la rponse la question ge tait 1, 3 ou 4, poser la question Q03 est plus avantageux que de poser la question Q01. Cest le contraire dans le cas o la rponse tait 5, et les deux questions sont indiffrentes si la rponse la question ge tait 2.
ge 1 2 3 4 5 Probabilit de terminer le questionnaire en posant Q01 47,2 % 0% 18,1 % 40,1 % 47,7 % Probabilit de terminer le questionnaire en posant Q03 76,8 % 0% 61,5 % 43,9 % 28,4 % Question choisie Q03 ?? Q03 Q03 Q01
TAB . 12.4 Choix entre Q01 et Q03
Lalgorithme permettant de drouler le questionnaire adaptatif est alors prsent dans la gure 12.6 .
TantQue Proba(MP) est comprise entre S1 et S2, Faire Parmi les questions non encore poses, Trouver celle qui apporte le plus dinformation Poser la question Calculer la nouvelle probabilit MP Fin TantQue
F IG . 12.6 Algorithme du questionnaire adaptatif
Prcisons la notion de question la plus informative utilise dans cet algorithme. Pour chacune des questions restant poser, on value la probabilit que cette question permette de trancher. Lalgorithme de la gure 12.7 ci-aprs montre le principe de cette valuation. Comme nous lavons dj vu plus haut, il est important de noter que cette valuation se fait dynamiquement dans un contexte donn, cest-dire lorsque certaines questions sont dj renseignes. En effet, dans ce cas,
288
non seulement la distribution de probabilit BP/MP est modie, mais galement la distribution de probabilit des rponses aux questions restantes.
Info(Q)=0 Pour R dcrivant les rponses possibles Q : Calculer la probabilit dobtenir la rponse R (P(R)) Faire lhypothse de la rponse R Si cette hypothse permet de dcider (accord ou refus anticip) Incrmenter Info(Q) : Info(Q) = Info(Q)+ P(R) FinSi FinPour
F IG . 12.7 Calcul de lapport dinformation dune question Q
Comme dans toute mthode de recherche de squence optimale, loptimisation du premier terme seul est sous-optimale (mme si Q1 est la meilleure prochaine question poser, la squence Q2-Q4 peut tre meilleure que la squence compose de Q1 et de la meilleure question poser aprs Q1). Cependant, la recherche de la squence optimale de questions est un problme NP-complet (car elle implique une squence dinfrences, chacune tant un problme NP-complet), et on est donc contraint dutiliser des mthodes heuristiques. On pourrait envisager damliorer le critre heuristique utilis. En effet, en dbut de questionnaire, dans les situations o aucune question ne permet de trancher, la question pose est choisie au hasard, ou simplement celle qui apparat en dernier dans lordre dexamen des questions. La mesure de la qualit des questions pourrait donc plutt intgrer un cart par rapport la situation de dcision. On pourrait par exemple adopter la rgle suivante : Si une ou plusieurs questions permettent de trancher dans certains cas, choisir celle qui maximise la probabilit de telles situations. Si aucune question ne permet de trancher, choisir celle qui minimise lcart des rponses la zone de dcision.
12.3 Rsultats et conclusion

Lutilisation du questionnaire adaptatif a permis de rpondre lobjectif x. En moyenne, seulement 8,5 questions sont poses, contre 14 au total sans lutilisation de questionnaire adaptatif. Le taux derreurs observ par rapport lutilisation dun questionnaire complet tait denviron 5 %. Les taux derreurs sinterprtent comme suit :
289
12.3. Rsultats et conclusion
Principe de lvaluation de lapport dune question Q. Avant de poser Q, la probabilit MP est dans la zone dincertitude. Si lon pose Q, linfrence dans le rseau baysien indique que deux rponses permettraient de trancher. Or la probabilit dobtenir ces rponses peut tre value : lapport en information de Q sera donc la probabilit de pouvoir trancher si lon pose Q. Cette probabilit dpend bien sr des rponses obtenues avant Q.
F IG . 12.8 Reprsentation graphique de lalgorithme
Le taux derreurs global est la proportion de cas o la dcision du score partiel diffre de la dcision du score total. Le taux derreurs BP (respectivement MP) est la proportion de cas dindividus identis comme BP (respectivement MP) o la dcision du score partiel diffre de la dcision du score total. Cette tude a permis de valider lutilisation des rseaux baysiens comme modle de score. Elle a galement permis de valider le principe du questionnaire adaptatif qui autorise un gain de prs de 40 % en temps, sans perte signicative de performances. De plus, les algorithmes utiliss (apprentissage et infrence dans un rseau en forme darbre) fonctionnent en temps polynomial, ce qui garantit des temps de rponse compatibles avec une exploitation en temps rel.
Nombre moyen de questions Taux de questionnaires complets Nombre moyen de questions pour les questionnaires partiels Erreurs par rapport au score complet Erreurs par rapport au score complet (BP) Erreurs par rapport au score complet (MP) 8,5 35 % 6,5 5,1 % 5,1 % 4,6 %
Une proprit intressante et imprvue de cette mthode est sa moindre transparence vis--vis de la concurrence. En effet, mettre en ligne un score
290
C F7(D A ( 8 7 7FE)8 77(D 7A (8 90@ 98 7
C 9A 0B0 A (8 90@ 98 7
63
43
2 &1 0) ('&
Dans le cas o aucune question ne permet de trancher, dans aucun cas, un autre critre peut permettre de les diffrencier, par exemple la distance des situations de dcisions : ici on prfrerait poser Q1 que Q2.
F IG . 12.9 Amlioration possible de lalgorithme de recherche permet en principe un concurrent indlicat et patient de retrouver par ttonnements la formule de score utilise. Lutilisation dun questionnaire adaptatif rend cet exercice beaucoup plus difcile. Il reste nanmoins un certain nombre de points amliorer ou tudier. En ce qui concerne lalgorithme du questionnaire adaptatif proprement dit, on dtermine aujourdhui la question poser en calculant la proportion de situations o une dcision sera possible. Ce critre est discontinu, et pourrait tre amlior, comme on la vu ci-dessus. Un problme un peu plus dlicat est la qualit des dossiers recueillis en utilisant ce modle. En effet, en utilisant un tel modle, on va par construction recueillir des dossiers partiels, puisque la dcision dacceptation ou de rejet va tre prise en gnral avant dobtenir toutes les informations sur le demandeur. Mme si les rseaux baysiens permettent de grer lapprentissage partir de bases de donnes incompltes (voir section 6.1.2 page 121), nous navons pas un recul sufsant sur leffet de ce recueil partiel sur la construction des scores. Cette utilisation des rseaux baysiens comme support dun questionnaire adaptatif peut se gnraliser facilement dautres applications. Dans les centres dappels, pour linformation ou le dpannage dun client, lutilisation dun mode de dialogue adaptatif peut aider optimiser le compromis entre la satisfaction du client et la dure de lappel. Cette dmarche a t industrialise par la socit Hugin, qui propose aujourdhui un outil appel Hugin Advisor. Il permet de mettre facilement en uvre un systme de dialogue adaptatif bas sur des rseaux baysiens, dans des applications de centres dappels, de diagnostic, ou de dpannage. Nous avons dj voqu ce logiciel dans le chapitre 8 page 213.
291
gf eXIc bI YX XedPYXXIc XbIY `Qa `YX
hf eXIc bI YX XedPYXXIc XbIY `Qa `YX
WT
UT
S GR QPIHG
Chapitre 13
tude de cas n5 : gestion de ressources naturelles et analyses de risques
Ce chapitre a t rdig par Bruce G. Marcot (bmarcot@fs.fed.us) USDA Forest Service, Pacic Northwest Research Station, 620 SW Main St., Suite 400, Portland OR 97205, tatsUnis.
es rseaux baysiens ont t utiliss depuis quelques annes comme modles prvisionnels ou explicatifs dans les domaines de la gestion de ressources naturelles, des tudes de la faune et de la ore, et de lamnagement du territoire. Ces domaines sont caractriss par des problmes complexes de dtermination de stratgies ou dactivits visant satisfaire au mieux des objectifs (environnementaux et sociaux) multiples et parfois contradictoires. Il peut sagir, par exemple, de conserver ou de rtablir la diversit biologique dcosystmes forestiers natifs tout en fournissant, partir de ces mmes forts, une large varit de biens et de services comme la production de bois, les loisirs, leau potable et le fourrage pour le btail. De tels problmes sont mal conditionns, cest--dire quil nexiste pas une unique solution optimale.
13.1. Revue des mthodes
Les rseaux baysiens sont utiliss par certains cologistes pour reprsenter la raction despces animales ou vgtales des conditions changeantes et galement comme outils daide la dcision pour aider les responsables valuer les implications (notamment les cots et les bnces) dactions de gestion de ressources naturelles ainsi que pour suggrer les meilleures squences de dcisions [Var97]. Certains auteurs ont dvelopp des systmes consultatifs, sous forme de rseaux baysiens comprenant des nuds dutilit et de dcision. Ces systmes consultatifs sont utiliss pour tudier les consquences de dcisions de gestion et pour dterminer le meilleur ensemble de dcisions pour obtenir certains rsultats. Comme exemples de rseaux baysiens utiliss comme outils daide la dcision, nous pouvons citer lutilisation de systmes consultatifs : pour aider la gestion de la rgnration dune fort [Haa91] ; pour aider la prise de dcision de gardes forestiers [Haa92] ; pour prvoir la qualit de systmes aquatiques pour la gestion dune exploitation piscicole [Rec99, KHG+99, SCR00] ; pour aider valuer la restauration de lhabitat pour des espces rares [WRW+02] ; pour une gestion de leau intgre [BJC+05]. Dans ces exemples, cest le spcialiste de la ressource, cest--dire lhydrologiste ou lcologiste, qui dveloppe et exploite le rseau baysien pour valuer les effets dactions (dans une dmarche danalyse de risques), et qui ensuite informe les dcideurs, tels que les responsables dagences gouvernementales, dont le rle est de choisir un plan daction (dans une dmarche de gestion de risques). Ce chapitre passe en revue des utilisations de rseaux baysiens pour la gestion de ressources naturelles, de la faune et de la ore. Il prsente des exemples de rseaux baysiens dvelopps pour tudier et grer des espces rares, leur habitat et les ressources forestires, principalement dans louest du continent nord-amricain.
13.1 Revue des mthodes

Ce paragraphe explique lintrt des rseaux baysiens pour la gestion de ressources naturelles et examine diffrentes mthodes et approches de modlisation utilises dans ce domaine.
294
Chapitre 13 tude de cas n5 : gestion de ressources naturelles et analyses de risques
13.1.1 Pourquoi les rseaux baysiens ?

Les rseaux baysiens prsentent pour certaines utilisations des avantages notables sur dautres modles [MHR+01]. Ils constituent un support de communication qui montre clairement comment, par exemple, les conditions dhabitat inuencent les populations danimaux ou de vgtaux. Ils sont galement un moyen de combiner : une connaissance pralable avec une information nouvelle ; des variables catgorielles, ordinales ou continues ; des donnes empiriques et des jugements dexperts. Les responsables et les dcideurs apprcient souvent, dans une approche par rseau baysien, le fait que les rsultats apparaissent sous forme de lois de probabilit qui mettent en vidence les incertitudes. Ces reprsentations sont adaptes aux contextes danalyse de risques et de gestion de risques. La combinaison de ces caractristiques dont certaines peuvent tre assures par dautres techniques rend les rseaux baysiens particulirement intressants aussi bien pour les spcialistes que pour les responsables de la gestion de ressources naturelles. Dautres approches de modlisation peuvent complter lutilisation de rseaux baysiens : les techniques statistiques traditionnelles, les mthodes dordination et de corrlation, et aussi les autres modes de reprsentation davis dexperts tels que les modles de logique oue, les rseaux neuronaux ou les systmes experts.
13.1.2 Mthodes de cration de rseaux baysiens

La construction de rseaux baysiens seffectue, comme dans dautres domaines, en plusieurs tapes : numration des variables qui inuencent le plus certaines variables dites variables de rsultat ; identication des tats ou les valeurs que chaque variable peut prendre ; structuration du modle (on relie les variables) ; valuation des probabilits associes aux liens. Utilisation de diagrammes dinuence Les trois premires tapes reviennent construire un diagramme de bulles et de ches montrant les relations et les causalits entre variables, que nous appellerons dans ce chapitre diagramme dinuence. Il est judicieux dutiliser diffrentes formes de bulles et de ches pour diffrencier les variables directement mesures, les variables latentes, les variables calcules, les corrlations, les relations causales directes et les inuences inexpliques [Mar06b].
295
Typiquement, un tel diagramme dinuence est utilis pour montrer comment les conditions dhabitat et lenvironnement inuencent les espces et les ressources.
Probabilits associes aux variables
Lorsque les principales variables et relations sont identies, des probabilits peuvent tre attribues chaque variable. Les variables qui ne sont inuences par aucune autre variable sont appeles variables sans parent (ou variables dentre) ; leurs tats ou valeurs sont dcrits selon une loi de probabilit a priori (ou inconditionnelle). Les variables qui sont inuences par dautres variables sont appeles variables enfants (et les variables qui les inuencent variables parentes) ; leurs tats ou valeurs sont dcrits par des lois de probabilit conditionnelles. Le rseau baysien dans son ensemble est rsolu par un processus de mise jour baysienne, ce qui revient calculer la loi de probabilit a posteriori des variables de sortie.
Construction de rseau baysien partir dexpertise ou de donnes
Un rseau baysien peut tre construit soit partir dun ensemble de donnes, soit partir de jugements dexperts, soit partir dune combinaison des deux. Cela sapplique aussi bien la dnition de la structure du rseau baysien qu la dnition des lois de probabilit a priori et conditionnelles des nuds dentre et des nuds enfants du modle. Nutiliser que des ensembles de donnes empiriques pour construire et paramtrer un rseau baysien est un cas dinduction de rgles, cest--dire quon utilise les donnes pour identier des liens entre variables et leurs lois de probabilit. Lexprience montre que dans la gestion de ressources naturelles, nutiliser que linduction de rgles amne sajuster avec les donnes de manire excessive : on tend crer un modle qui nest pertinent que pour traduire les donnes historiques et qui ne peut pas tre utilis pour prvoir dautres circonstances [Cla03]. De plus, linduction de rgles fait abstraction de la richesse de la connaissance des experts, qui peut tre trs utile pour construire des modles prvisionnels robustes. Cela dit, si le modle est construit uniquement partir de jugements dexperts, le modle nest autre quun systme de croyances [New94], moins quil ne soit revu par des pairs ou, si possible, calibr et valid par des donnes externes. Les ds relever dans la modlisation de la faune, de la ore et des ressources naturelles sont justement que : on dispose rarement densembles de donnes empiriques robustes et de grande taille ;
296
les experts sont souvent en dsaccord concernant le rseau causal dinuences de lhabitat et de lenvironnement sur les espces animales et vgtales ; les cosystmes sont gnralement des systmes ouverts dans lesquels le contexte et les facteurs dinuence tendent voluer au cours du temps.
Modlisation Activit de dveloppement du modle
Identier les espces Brouillon initial, modle alpha Revue de pair du modle alpha Mise jour du modle alpha base sur la revue de pair : modle beta Test de prcision du modle avec les donnes dun site connu Mise jour du modle beta base sur les donnes du site connu : modle gamma Test de validation du modle gamma avec les donnes de validation Rvision du modle base sur les donnes de validation : modle delta Utilisation pour prvoir la prsence ou labsence de lespce
tude de sensibilit du modle
Relev de terrain pour donnes de validation
F IG . 13.1 Processus gnral de modlisation despce rares laide de rseaux baysiens [Mar06a]
Lexprience montre que la meilleure approche pour construire des rseaux baysiens est dutiliser des jugements dexperts avec des revues de pairs pour structurer le modle ; puis dutiliser une combinaison de jugements dexperts et de donnes empiriques pour prciser les distributions de probabilit de chaque nud, et ensuite dutiliser un ensemble de donnes empiriques indpendantes pour tester, calibrer, valider et afner le modle. Cette dmarche est reprsente par le schma de la gure 13.1 . De cette faon, le modle atteint un quilibre acceptable entre robus 297
tesse et prcision. Bien sr, chaque modle et chaque circonstance peuvent ncessiter un quilibre diffrent selon le but, laudience et la disponibilit des experts et des ensembles de donnes. Cette procdure a t utilise avec succs pour crer et appliquer des rseaux baysiens pour prvoir la prsence despces animales et vgtales rares, selon lenvironnement local et les conditions dhabitat [Mar06a]. Utilisation de variables proxy
Lintroduction de variables proxy est caractristique des rseaux baysiens pour la gestion de ressources naturelles, lorsquon est en prsence dune variable causale X (nud dentre) pour laquelle aucune donne empirique nest disponible. Le principe est didentier une ou plusieurs variables qui inuencent X (et pour lesquelles des donnes sont disponibles) et de se donner arbitrairement une loi de probabilit conditionnelle pour X. Pour illustrer la notion de variable proxy, prenons lexemple dun projet concernant la partie intrieure de louest des tats-Unis. Dans ce projet, qui sera dcrit au paragraphe 13.2 ci-aprs, 118 rseaux baysiens ont t crs pour modliser la rponse despces animales et vgtales diffrents modes de gestion et damnagement de lcosystme [MHR+01, RWR+01]. Dans la construction de ces modles, des variables proxy ont t utilises pour reprsenter des variables causales plus directes, pour lesquelles on ne disposait pas de donnes. Par exemple, certaines espces comme le carcajou (Gulo Gulo) et le lynx du Canada (Lynx canadensis) sont sensibles au drangement caus par les routes. Cependant, aucune donne ntait disponible concernant la perturbation des routes en tant que telle, personne nayant jamais recueilli de donnes empiriques concernant cette variable pour ces espces. Cest pourquoi la perturbation des routes a t modlise comme une combinaison de densit de routes et de densit de population humaine, paramtres pour lesquelles nous avions des donnes dans notre systme dinformation gographique. Dans le modle de la gure 13.2 ci-aprs, les tats des variables sont dnis quantitativement, par exemple la valeur Moderate de la densit routire correspond 0,4 1,1 km/km2. Dans ce sous-modle, puisque ce sont les humains (et non ncessairement les routes en tant que telles) qui engendrent le stress sur ces espces, la variable de densit humaine pesait plus fortement que la densit routire dans la table de probabilits des effets de la route. Les probabilits de la densit de route et de population prsentes dans la gure 13.2 ci-aprs sont uniformes, dcrivant lincertitude complte, mais elles ont t prcises pour chaque sous-bassin tudi ; elles peuvent aussi tre paramtres avec des distributions de frquence de
298
F IG . 13.2 Exemple de sous-modle des effets dune route avec des variables dcrivant la
densit du rseau routier et de la population, utilis pour les modles de prvision de faune et de ore dans lintrieur de louest des tats-Unis.
route et de population observes dans lensemble des sous-bassins pour prvoir leffet global de la perturbation des routes dans la rgion. Ensuite, quand le modle dune espce quelconque ncessitait ce type de variable de perturbation humaine, il sufsait dintroduire le sous-modle partir de la librairie proxy. Dans le projet, une bibliothque de variables proxy a t cre, constituant des sous-modles qui ont t utiliss pour les attributs spciques dhabitat de chaque espce.
13.2 Exemples de rseaux baysiens

13.2.1 Modles de prvision pour la faune et la ore
Modlisation des musaraignes pygmes dans le bassin intrieur de la Colombie Britannique (tats-Unis) Le premier exemple de modle pour la faune et la ore que nous prsentons dans ce chapitre a t dvelopp dans le cadre dun projet concernant la gestion de lcosystme du bassin intrieur de la Columbia1 (le projet mentionn ci-dessus). Ce projet baptis ICBEMP concernait la partie intrieure (orientale) de la chane des Cascades2 . Le but du modle tait de prvoir la qualit dhabitat et la taille de la population des musaraignes
Fleuve de 1857 km qui traverse louest du continent Nord-Amricain. Montagnes de louest des tats-Unis et du Canada, dont le point culminant a une altitude de 4 391 mtres.
2 1
299
13.2. Exemples de rseaux baysiens
pygmes (Microsorex hoyi), un mammifre natif rare qui vit dans la partie nord de lintrieur de louest des tats-Unis. Les musaraignes pygmes, qui sont probablement les mammifres vivants les plus lgers, sont lune des espces des zones humides dont la prservation a suscit lintrt des pouvoirs publics. Pour construire le modle des musaraignes pygmes, un panel dexperts en mammifres a t runi pour dterminer les variables cls concernant cette espce. Les experts ont tabli que les variables environnementales cls taient notamment : le type de substrat (terriers, grosses bches sur le sol, couches organiques dans lesquelles les musaraignes creusent des tunnels) ; le macro-environnement (aques, marais, prs humides) et la prsence de nourriture (insectes et autres petits animaux). Ensuite ces variables ont t relies sous forme dun diagramme dinuence reprsentant un rseau causal (gure 13.3 ).
F IG . 13.3 Modle de prvision de la qualit dhabitat et de la taille de population des

musaraignes pygmes (Microsorex hoyi) dans lintrieur de louest des tatsUnis.
Ce diagramme dinuence montre les principales variables denvironnement et dhabitat qui inuencent la qualit dhabitat et la taille de la population.. Pour chaque variable, les ensembles dtats les plus simples possibles ont t retenus, par exemple, la prsence ou labsence dlments dhabitat. Des avis dexperts ont t utiliss pour dterminer les distributions de probabilit des variables, crant ainsi un rseau baysien fonctionnel (gure 13.4 ci-aprs). Le rseau baysien a ensuite t utilis pour prvoir la qualit dhabitat et la taille de la population des espces dans chaque sous-bassin de la rgion. Pour simplier la dtermination des tables de probabilit, les variables continues ont t transformes en variables discrtes deux ou trois tats. Par exemple, la variable taille de la population des musaraignes pygmes (variable A dans la gure 13.4 ci-aprs) navait que deux tats Small et Large . Cette discrtisation sest rvle satisfaisante dans
300
ce projet daide lamnagement du territoire de toutes faons les donnes ntaient pas sufsantes pour prdire des tats plus dtaills. Dans ce modle, une grande population de musaraignes pygmes signie quon trouve un habitat pleinement adquat. De cette faon, le modle tait simple, comprhensible, et ne ncessitait pas de donnes quantitatives sur la population.
F IG . 13.4 Utilisation du modle de prvision de la qualit dhabitat et de la taille de population des musaraignes pygmes (Microsorex hoyi) dans lintrieur de louest des tats-Unis.
Modlisation de la grouse cendre dans le bassin intrieur de la Columbia (tats-Unis) Les rsultats des modles ont t cartographis dans le systme dinformation gographique (gure 13.5 ci-aprs) et interprts en termes desprance de population de grouse cendre, sous des conditions historiques, actuelles et potentielles (gestion alternative) dans le projet ICBEMP (Interior Columbia Basin Ecosystem Management Project.). Trois catgories de qualit dhabitat (zro, basse, haute) sont calcules avec le modle qui combine les inuences des habitats (herbages et steppe arbustive) avec les perturbations humaines [RWR+01]. Le rsultat de population tait discrtis en cinq classes : continue, bien distribue, ayant une haute probabilit de persistance, parseme, fortement isole, ayant une forte probabilit dextinction locale. Le modle a t valid dans [WWR+02], o sont compares des prvi 301
F IG . 13.5 Exemples de cartes des rsultats dun rseau baysien modlisant la qualit de
lhabitat pour la grouse cendre dans lintrieur de louest des tats-Unis.
sions sur certains sites des tats de population connus. La validation a t effectue en comparant des prvisions de rponses de population des distributions historiques ou actuelles des espces sparment pour la rgion actuellement occupe et inoccupe par lespce. Les rsultats de la validation ont montr que les rseaux baysiens pour la grouse cendre produisaient des prvisions cohrentes pour la distribution actuelle (la abilit pour les distributions futures ne pouvant bien sr pas tre teste). Les rsultats globaux ont montr que le modle pouvait tre utilis de faon able pour valuer la gestion de territoires publics selon limpact sur lhabitat de cette espce. Il en a t conclu que les rsultats des rseaux baysiens pour les autres espces values dans le projet, qui avaient t construits selon les mmes mthodes, taient galement dignes de conance. Faune et ore du Nord-Ouest Pacique des tats-Unis
En 1994, un projet important damnagement du territoire, le Plan des Territoires Publics de la fort du Nord-Ouest (ouest des tats de Washington et de lOregon, et nord-ouest de ltat de Californie), a tabli de nombreuses rserves dans les forts de n de succession et anciennes 3 , pour la
Les forts de n de succession et les forts anciennes sont caractrises par des arbres matures de grand ge et de grande taille. Dans cette rgion, les forts de n de succession ont des conifres de 80 180 ans et de 50 75 centimtres de diamtre et avec une structure de canope simple ; les forts anciennes ont des arbres plus vieux, plus grands et avec une
3
302
conservation de centaines de vgtaux, despces animales et de communauts cologiques 4 . Une partie du projet consistait faire un relev de la prsence de ces espces rares et peu connues dans les endroits situs en dehors des rserves et o lexploitation forestire et les autres activits de gestion de la fort taient susceptibles de laisser la place dautres activits (par exemple, la sylviculture commerciale). Le but du relev tait de dterminer si les espces taient prsentes et, le cas chant, de modier les activits de gestion de manire assurer leur persistance. Pour tablir une liste de priorits des sites pour les relevs, une srie de rseaux baysiens a t cre pour prvoir la probabilit doccurrence despces slectionnes tant donnes les conditions dhabitat sur les sites qui pouvaient tre affects par les activits de gestion proposes. Parmi les espces rares modlises, il y avait deux champignons, trois lichens, une mousse, deux plantes vasculaires, deux mollusques (limaces), un amphibien (salamandre) et un mammifre (campagnole). Le modle correspondant une espce de champignon appele sandozi duveteux (Bridgeoporus nobilissimus) prsente la particularit davoir t test et valid rigoureusement partir de donnes de relevs de terrain [Mar06a]. Comme pour les autres modles voqus ci-dessus, le modle des champignons a t dvelopp en consultation avec un spcialiste de lespce et rexamin par un autre spcialiste. Puis, des donnes de terrain ont t utilises pour valuer la prcision des prvisions du modle. La prcision a t value en comparant les rsultats les plus probables (absence ou prsence de lespce) calculs par le modle avec les donnes relles du terrain, sous certaines conditions connues. La prcision a t reprsente dans une matrice de confusion qui recense le nombre de cas de prvision correcte et incorrecte de prsence ou dabsence. Dans ce cas, il sest avr que le modle a prvu correctement la totalit des 31 cas de prsence de lespce, mais seulement 3 des 14 cas dabsence de lespce. Cette surestimation de la prsence, cependant, na pas t considre comme posant problme. Le modle tait conu pour tablir une liste de priorits de sites pour des relevs de lespce, donc ces faux positifs ont parfois entran des relevs l o lespce est absente. En revanche, manquer des relevs l o lespce est prsente aurait pu avoir pour consquence lextinction locale de cette dernire. travers le Nord-Ouest Pacique et lintrieur de louest des tatsUnis, dautres rseaux baysiens ont t dvelopps et utiliss pour tudier le carcajou [RJJ+03], la chauve-souris grandes oreilles (Corynorhinus townsendii ; [MHR+01]), des salmonids [LR97] dont lomble tte plate (Salstructure de canope plus complexe. 4 Ce terme dsigne un ensemble despces prsentes dans un endroit donn, considr du point de vue des interactions entre espces et des rles cologiques de chaque espce.
303
velinus conuentus ; [Lee00]) et le saumon rouge du Fraser5 (Oncorhynchus nerka ; [SCR00]). Dautres rseaux baysiens pour lhabitat des espces ont t dvelopps pour identier les sites prioritaires pour une espce de papillon rare, le skipper de Mardon (Polites mardon), dans des rgions disjointes de ltat de Washington et du sud de lOregon [Mar05]. Faune et Flore de lOuest du Canada
Des rseaux baysiens ont t dvelopps et utiliss pour plusieurs autres espces animales terrestres de lOuest du Canada. On peut citer, en particulier, des modles de prvision de la probabilit de capture dcureuils volants du Nord (grand polatouche, Glaucomys sabrinus ; [Mar06a]), la qualit dhabitat de caribous des forts (Rangifer tarandus caribou ; [MMBE06]) et les volutions des populations de guillemots marbrs (Brachyramphus marmoratus ; [SSA06]). Dautres rseaux baysiens ont t crs pour dresser la carte des frontires dcosystme [Wal04, WM06]. Tous ces rseaux baysiens ont t structurs et paramtrs partir dune combinaison de jugements dexperts et de donnes de terrain, mais ils prsentaient des diffrences notables. Par exemple, les modles de population du guillemot marbr, un petit oiseau de mer qui niche dans la canope de forts anciennes intrieures, taient dvelopps pour prvoir la persistance et la rsilience6 de la population en modlisant la dmographie et les statistiques vitales de la population par classe dge. Les modles du caribou ont t crs pour dterminer si les quatre rgions saisonnires de lespce (rgion hivernale o ils trouvent du lichen de pin aprs la priode de rut, rgion dhiver de haute altitude, rgion dt o les femelles mettent bas en t, et rgion de migration intersaisonnire) taient adaptes, ainsi que pour tudier la rponse de lespce au risque de prdation des loups (Canis lupus) dans divers scnarios de gestion de la fort.
13.2.2 Utilisation de rseaux baysiens pour la rtrovision

Dans le contexte de ce chapitre, la rtrovision dsigne lidentication des circonstances probables (comme lenvironnement ou les conditions dhabitat) qui ont produit un rsultat donn, comme par exemple la prsence ou labondance dune espce animale ou vgtale. Un rseau baysien modlisant les relations entre la faune et lhabitat peut tre utilis pour prciser des conditions dhabitat et prvoir la rponse de la faune et de la ore ; cependant si la rponse est connue ou si lon fait une hypothse sur cette
5 6
Fleuve prenant sa source dans les Rocheuses et traversant la Colombie-Britannique. Aptitude rebondir si la taille de la population rgresse.
304
F IG . 13.6 Prvision de la qualit dhabitat et de la taille de population des musaraignes

pygmes (Microsorex hoyi).
rponse, alors le modle peut tre utilis lenvers pour dterminer les conditions a priori les plus probables qui ont pu conduire cette rponse. En cela, les rseaux baysiens apportent une fonction unique par rapport dautres modles plus traditionnels utilisant strictement les statistiques multivaries, des quations mathmatiques, ou la simulation temporelle. Rsoudre un rseau baysien lenvers consiste essentiellement xer la valeur dun rsultat et examiner les valeurs les plus probables de tous les nuds dentre. Prenons lexemple du modle des musaraignes pygmes : on peut xer le nud dhabitat sa valeur adquate et dterminer les valeurs les plus probables des conditions environnementales et dhabitat qui ont permis un habitat adquat. La gure 13.6 montre un tel rseau utilisant la rtrovision : ltat adquat du nud condition dhabitat des musaraignes (case F) est forc. En procdant ainsi, on est amen penser que lhabitat est pleinement adquat quand des terriers, de grosses bches et des couches organiques dans le sol sont prsents ; quand des ruisseaux, marais et des prs humides sont prsents ; quand la nourriture, en particulier des larves invertbres, est importante. Dans un modle plus quantitatif, cette rsolution lenvers permettrait didentier des valeurs numriques, des niveaux ou des densits pour chaque variable environnementale. Cependant, mme dans un modle qualitatif comme celui-ci, la rsolution lenvers peut tre utile
305
Nud dentre D : terriers M : grosses bches, couches organiques M1 : marais, ruisseaux M2 : prs humides E3 : proxy pour la disponibilit de nourriture
Rduction dentropie 0,021 0,021 0,020 0,020 0,017
TAB . 13.1 Exemple dtude de sensibilit du modle des musaraignes pygmes (gure 13.4
page 301).
pour mettre en vidence lensemble complet des variables environnementales optimales qui amne un habitat pleinement adquat pour lespce. La rtrovision peut aussi consister en des tudes de sensibilit du modle visant dterminer les variables dentre qui inuencent le plus le rsultat : typiquement les variables dhabitat et denvironnement qui inuencent le plus la qualit de lhabitat et la taille de la population des musaraignes pygmes. Les aspects mathmatiques et les procdures dtudes de sensibilit des rseaux baysiens ont t passes en revue dans [MHR+01] et [Mar06a]. Les tudes de sensibilit reviennent tudier comment de petites variations incrmentales affectent la valeur de certaines variables de rponse. Dans un outil de rseau baysien, comme Netica, lutilisateur choisit un nud puis lance une fonction de sensibilit. Le modle effectue alors de petites variations incrmentales. La sensibilit est alors prsent dans un tableau o les nuds dentre sont tris par ordre dcroissant dimpact sur le nud de sortie slectionn. Ltude de sensibilit du modle des musaraignes pygmes montre que la plupart des variables ont une inuence peu prs quivalente (voir le tableau 13.1). qui prsente la rduction dentropie pour chaque nud. La rduction dentropie rete linuence de chaque nud dentre sur la taille de la population (nud A dans la gure 13.4 page 301). Les valeurs leves correspondent une inuence forte Cependant, pour dautres modles de faune et de ore, les inuences des variables dentre varient sensiblement. Dans le modle de la chauvesouris, parmi les six variables environnementales cls, la prsence de cavernes ou de mines avec des rgimes de temprature adapts avait de loin la plus grande inuence sur les populations de chauve-souris (rduction dentropie = 0,029), tandis que la prsence de chicots ou de souches (0,01), de bordures de forts (0,006), de falaises (0,006), de ponts ou dimmeubles (0,001) et de piles de pierres (<0,001) avaient une inuence moindre. Le responsable pouvait interprter ces rsultats pour choisir comment conserver ou restaurer les sites pour lespce, cest--dire se concentrer en premier lieu sur la protection des cavernes ou de mines adaptes, ou alors pour
306
fournir des chicots ou des souches darbres. Dans cet exemple, le modle a t calibr et valid partir de donnes empiriques. Si tel navait pas t le cas, ces rsultats auraient constitu des hypothses de travail devant tre testes sur le terrain.
13.2.3 Les rseaux baysiens comme modles de dcision

Les rseaux baysiens peuvent galement tre construits avec : des nuds de dcision qui reprsentent les choix dactions de gestion ; des nuds dutilit qui expriment les valeurs (cots et bnces) de ces actions et les rsultats du modle. Dans certains logiciels de rseaux baysiens, lorsquun modle comportant des nuds de dcision et dutilit est compil, les esprances dutilit de chaque dcision sont calcules et reprsentes dans chaque mode de gestion. Les rseaux baysiens peuvent contenir de multiples noeuds de dcision et dutilit. Si le modle inclut une squence de dcision, telle que des activits de conservation despces au cours du temps, la rsolution du modle de dcision peut rvler les suites de dcisions optimales qui minimisent les cots, maximisent les bnces, ou optimisent les utilits. Les rseaux baysiens pour la faune et la ore et la gestion de ressources naturelles peuvent tre particulirement bnques pour les dcideurs lorsquils contiennent des nuds de dcision et dutilit. Dans lexemple du plan pour la Fort du Nord-Ouest dans le NordOuest Pacique des tats-Unis, une srie de rseaux baysiens a t dveloppe pour codier et reprsenter un ensemble de directives de gestion visant dterminer les catgories de conservation de douzaines despces animales et vgtales peu connues [Mar06a]. Les modles pour les dcisions de conservation despces et les directives quils reprsentent participent dune revue annuelle et formelle des espces dans laquelle de nouvelles informations scientiques taient values sur des espces slectionnes, troitement associes aux forts de n de succession et anciennes. Les rsultats de cette revue annuelle taient rsums sous forme de suggestions, faites par les panels de revue aux dcideurs des agences rgionales, pour maintenir ou changer les catgories de conservation ou mme retirer certaines espces de la liste de conservation telle que spcie selon un certain critre dvaluation des directives. Les rseaux baysiens pour la dcision taient constitus dun modle rsum global qui dcrivait les catgories de conservation appropries et
307
ses implications et cots pour des relevs plus approfondis et la gestion du site (gure 13.7 ci-aprs). Dans ce modle conu an de dterminer les catgories de conservations appropries (A-F ou exclus) despces rares ou peu connues des forts de n de succession ou anciennes (voir page 302) dans la rgion Nord-Ouest Pacique des tats-Unis, chacune des six catgories principales qui dterminent le rsultat de conservation consistent en des modles de dcisions dvaluation (non montrs). La partie infrieure de cette gure montre comment chaque catgorie de conservation est caractrise par des implications et des cots (pour mener les relevs despces et grer les sites). Les nombres dans le nud de gestion (en bas gauche) montrent les esprances de cot calcules partir du nud de cot dutilit (en bas droite). En lanant le modle, les tats de chacun des six nuds dentre et le nud nal de catgorie de conservation sont spcis. Geographic range dsigne le Nord-Ouest Pacique des tats-Unis, Plan provides for persistence exprime si les directives dans le plan actuel pour la fort du Nord-Ouest assurent ou non la persistance de lespce ; strategic surveys dsignent des recensements statistiques des espces ; Predisturbance surveys dsignent des recensements despces dans les endroits destins des activits o le sol est perturb (comme lexploitation forestire). Une srie de sous-modles dtaillent chaque entre du modle rsum global, comme le nud Geographic Range de la gure 13.7 ci-aprs. Ce sousmodle conteint des critres explicites pour dterminer quel point une espce peut tre considre ou non comme faisant partie de la zone gographique du plan de la fort du Nord-Ouest (le nord-ouest de la zone Pacique des tats-Unis). Le critre pour ce sous-modle est bas strictement sur les directives dvaluation publies dans le plan de la fort du NordOuest et permet dinclure une espce si la rgion de lespce est connue comme se produisant lintrieur du plan ; et dans le cas contraire, si la zone est proche des frontires de la rgion du plan ou sil existe au moins un habitat appropri pour lespce lintrieur de la rgion du plan. Chaque sous-modle tait rsolu pour chaque espce an de dterminer les probabilits spcies dans chaque nud dentre (haut de la gure 13.7 ci-aprs). La combinaison de ces probabilits dentre a dict les probabilits de chaque catgorie de conservation pour les espces. La catgorie de conservation, son tour, a dict le type et le cot des relevs et la gestion ncessaire pour lespce (bas de la gure 13.7 ci-aprs). Ces modles de dcision ont t utiliss avec succs pour valuer les catgories de conservation de 119 espces animales et vgtales durant les revues annuelles despces conduites en 2002 et 2003. Un des avantages de lutilisation de ces modles de dcision est quils identiaient les catgories de conservation possibles mme lorsque certaines informations den 308
F IG . 13.7 Principal modle de dcision de conservations despces rares tre taient absentes ou quivoques. Le modle a aid reprsenter la disponibilit et lincertitude des donnes scientiques pour chaque variable dentre, et linuence sur les catgories de conservation. Les membres du panel ont d prendre les dcisions nales sur les catgories de conservation de chaque espce et ont abord les incertitudes dans un processus de discussion structur. Les modles de dcision (ou plutt daide la dcision) nont pas pris les dcisions nales la place des membres du panel ni des dcideurs, mais ils ont contribu guider et instruire les dlibrations. La plupart des modles pour la faune et la ore prsents dans le paragraphe 13.2.1 page 299 ont t construits comme outils daide la gestion. En revanche, les modles du caribou des forts taient destins expressment aux dcideurs en charge de la gestion de la fort de la rgion centrenord de la Colombie-Britannique. Comme dans les modles pour la faune et la ore de lintrieur de la Colombie Britannique, les rsultats du modle du caribou ont t incorpors des cartes reprsentant, avec un code de couleurs, le niveau dadaptation de rgions saisonnires du caribou, telle que la rgion hivernale (o les caribous vont durant lhiver). Les rsultats du modle et de la cartographie ont t rsums par les spcialistes du caribou et transmis aux dcideurs. Plus prcisment, les rsultats montraient la supercie des rgions saisonnires adaptes, au cours du temps, en fonction des activits de gestion de la fort qui affectaient diversement la prsence de fourrage de lichen et de loups prdateurs dans la rgion (gure 13.8 ci-aprs). Sur cette gure, les courbes reprsentent laire totale dhabitat dans la zone de haute
309
altitude du Centre-Nord de la Colombie Britannique (Canada), avant (en haut) et aprs (en bas) colonisation par lorignal. La ligne sombre en pointills est le maximum thorique daire dhabitat dans toutes les conditions optimales et sans perturbation naturelle telle que les incendies ; la ligne grise est la valeur modlise avec perturbations naturelles, et les parties suprieures et infrieures des barres reprsentent la raction attendue du caribou aux parties de son habitat fortement prfres et moins prfres. Les rsultats du modle montrent clairement que laire espre dhabitat du caribou change au cours du temps et est affecte ngativement par les perturbations naturelles et la prsence de lorignal (source : [MMBE06]).
( 79071)
50000
40000
30000
20000
10000
A nn e
(79071)
50000
40000
30000
20000
10000
A nn e
F IG . 13.8 Rsultats dune modlisation de la qualit dhabitat du caribou. On a galement prsent aux dcideurs les rsultats de la modlisation de trois variantes possibles de la politique de gestion du caribou : la politique actuelle, une politique base sur la restauration ou lmulation des perturbations naturelles comme les temptes ou les incendies, et une politique visant optimiser la qualit dhabitat du caribou. Les dcisions nales sur la gestion du troupeau de caribou, de lhabitat du caribou, de la rcolte forestire et des effets sur les prdateurs nont pas encore t prises, mais les dcideurs disposent des rsultats de lanalyse de risques, avec une description claire des incertitudes, et pourront prendre les dcisions en connaissance de cause. Ces modles de caribou, ainsi que dautres rseaux baysiens, sont galement utiliss pour susciter la participation et la collaboration de diff 310
rentes parties prenantes publiques [CBW99] sur des sujets damnagement du territoire. On peut mentionner, par exemple, lutilisation de systmes consultatifs pour guider la slection et lutilisation dindicateurs pour une gestion durable de la fort [MP00].
13.3 Utilisation des rseaux baysiens pour tudier la faune et la ore et grer les ressources naturelles
La connaissance de la faune, de la ore et des ressources naturelles provient autant de lexpertise que de donnes statistiques et de recherches de terrain. Pour cette raison, les rseaux baysiens sont reconnus comme des outils efcaces pour combiner connaissances a priori, jugements dexperts et donnes de terrain, et qui peuvent fournir des rsultats utiles mme lorsque certaines donnes sont manquantes ou incompltes [RS97]. Ce paragraphe dtaille la manire dont sont utiliss les modles dcrits dans ce chapitre.
13.3.1 Couplages avec dautres modles

La plupart des modles prsents dans ce chapitre ont consist intgrer les rseaux baysiens des systmes dinformations gographiques ou dautres procdures dvaluation. En particulier, les systmes dinformations gographiques fournissent aux cologistes, aux dcideurs et aux parties prenantes (comme le public) des outils clairs et intuitifs grce auxquels il est possible dvaluer puis de dcider. On peut citer, comme autres exemples, lutilisation de cartes pour grer la restauration ou les inondations du bassin suprieur du Mississipi dans le centre des tats-Unis [RS97] et pour valuer des projets de bio-nergie dans la plaine de Farsala en Grce [RKSN01].
13.3.2 Gestion adaptative

Un domaine dutilisation trs prometteur des rseaux baysiens est celui de la gestion adaptative, cest--dire une gestion par la mise en place dessais et apprentissage partir de lexprience. Plus formellement, la gestion adaptative consiste mettre en place des activits de gestion comme de strictes expriences statistiques, avec des traitements et des contrles, souvent avec des plans dexprience de type BACI7 et valuer les effets de la gestion du point de vue de certains objectifs clairement formuls. Dans la
7 Before-After, Control Impact, avant et aprs traitement sur des sites de contrle et dimpact [SOB01].
311
13.3. Utilisation des rseaux baysiens pour tudier la faune et la ore et grer les ressources naturelles
gestion des ressources naturelles, la gestion adaptative a t vendue largement mais en fait rarement applique dune manire si formelle. Dans un contexte de prise de dcision et de gestion de risques, les rseaux baysiens et les analyses baysiennes peuvent tre des outils utiles pour aider formuler les objectifs et les hypothses de gestion et pour valuer les rsultats dexprience de gestion adaptative [Wad00]. De plus, dans un contexte de gestion adaptative, les rsultats des exprience BACI et le plan dtude peuvent tre utiliss pour ajuster statistiquement ou actualiser les probabilits a priori ou conditionnelles du rseau baysien et mme pour afner la structure mme du modle, y compris lidentication des variables, leurs tats et leurs liens. Bien que nutilisant pas dexpriences BACI, lutilisation russie de rseaux baysiens comme modles de dcision dans la revue annuelle despces dans le plan de la fort du Nord-Ouest, prsent plus haut, a constitu une forme de gestion adaptative. Le document [BCH02] dveloppe un cadre de dcision pour aider valuer les niveaux de satisfaction de gestionnaires de ressources naturelles avec le statu quo et les rsultats attendus de changements et utilise des rseaux baysiens pour estimer spciquement les cots nanciers, sociaux et cologiques de changer les principes de gestion. Il cite un exemple utilisant le passage dagriculture lexploitation forestire dans des rgions recules du Royaume-Uni, mais son approche pourrait tre applique dautres problmes de gestion adaptative. Pour donner un autre exemple, des rseaux baysiens ont galement t utiliss dans des projets de gestion adaptative pour aider la gestion par les villages locaux de prairies semiarides du Zimbabwe [LBP+02]. Leur approche a mis en vidence le besoin dune recherche collaborative pour aider au mieux les changements de politiques dutilisation du territoire. Le document [NMS06] passe en revue les avantages et les rles des rseaux baysiens en gestion adaptative, dans lOuest du Canada, et prsente une tude de cas montrant comment le modle du caribou voqu plus haut est utilis dans des cycles de gestion adaptative. Dans cette tude, les rseaux baysiens incluent des nuds de dcision pour lexploitation forestire (mthodes de suppression de peuplement darbres, prparation du site et rgnration de la fort), des nuds dutilit pour chaque dcision et les effets des dcisions sur labondance de lichens terrestres comme fourrage important pour les caribous. Une quipe coordonne de biologistes, de gardes forestiers, et de fonctionnaires gouvernementaux responsables de la gestion de la ressource utilisent ces modles pour explorer les options visant atteindre simultanment les objectifs de gestion de la fort, du risque dincendie, et des caribous. Les rsultats sont des tests de terrain conus statistiquement pour ap 312
porter les informations cruciales sur les modes de gestion aptes atteindre les buts recherchs.
13.3.3 Prise de dcision en univers incertain et considration des types derreurs

La gestion de ressources naturelles est souvent caractrise par une grande incertitude, concernant, par exemple, la manire dont une espce particulire va ragir des changements denvironnement ou dhabitat conscutifs des activits de gestion du territoire. Les responsables sont souvent confronts au d de prendre des dcisions dactions en labsence dinformations compltes. La manire dont un dcideur prend en compte lincertitude dpend de son attitude face au risque. Sil est adverse au risque, il va adopter un principe de prcaution et supposer que les incertitudes vont potentiellement affecter ngativement les activits de gestion. En revanche, sil est neutre face au risque, ou attir par le risque, il considrera lincertitude comme une absence de preuve de ces effets nfastes et poursuivra ses activits jusqu ce que soit apporte la preuve que des changements de politique doivent tre mis en place. Il ny a pas dattitude face au risque qui satisfasse toutes les situations de politique publique dans le domaine de la gestion de ressources naturelles. Les rseaux baysiens sont utiles pour aider les responsables valuer explicitement les types et les consquences des incertitudes. Les incertitudes concernent les ractions du systme aux activits, ou des combinaisons ou des squences dactivits. Mais il existe galement une incertitude lie notre manque de comprhension du fonctionnement mme du systme. En particulier, deux types derreur, les faux positifs (prvoir quune espce rare est prsente alors quelle est en fait absente) et les faux ngatifs (prvoir quelle est prsente quand elle est absente), peuvent avoir des consquences trs diffrentes en ce qui concerne les cots dopportunit inutiliss quand les sites sont protgs, ou les fonds dbloqus pour un inventaire despce rares et une protection du site alors que lespce nest mme pas prsente. Les modles de prvision discuts plus haut ont explicitement fourni ces tests sur la prcision du modle et les types derreur.
13.3.4 Mise jour et afnage des modles

Un aspect utile des rseaux baysiens est leur aptitude mettre jour les distributions de probabilit a priori et conditionnelles partir de chiers dexemples. Un exemple [Mar06a] dune telle mise jour est le modle de
313
13.4. Conclusion et perspectives
lespce rare de champignon prsent au paragraphe 13.2.1 page 299, utilisant lalgorithme EM (maximisation de lesprance, voir page 121) implment dans Netica. Quand on incorpore un chier de cas produit partir de relevs de terrain, lalgorithme EM modie les distributions de probabilit du modle pour mieux les ajuster aux circonstances observes. Lutilisateur peut choisir des poids pour les chiers de cas selon leur reprsentativit, et les chiers de cas peuvent comporter des donnes manquantes pour certaines variables dentre. Cette fonctionnalit sest rvle trs utile pour afner le modle et amliorer la performance des prcisions de prsence ou dabsence de lespce. Cela a aussi montr que ce processus de mise jour dynamique sadapte bien un cadre dapprentissage adaptatif, dans lequel une nouvelle connaissance ou une nouvelle information peuvent tre utilises pour amliorer la prcision du modle et justier des rvaluations de la politique de gestion.
13.4 Conclusion et perspectives

Ce chapitre a pass en revue lutilisation de rseaux baysiens pour la prvision, la rtrovision et laide la dcision dans le domaine de la gestion de ressources naturelles. Dans ce domaine, les rseaux baysiens se rvlent des outils souples et utiles pour combiner diverses formes de donnes, pour grer les incertitudes ou labsence de certaines informations ainsi que pour illustrer comment les systmes cologiques fonctionnent et les consquences de dcisions de gestion. Les rseaux baysiens, bien sr, ne sont quune forme de modle et pour des valuations ou des besoins de dcision critiques , les cologistes comme les responsables ont tout intrt comparer les rsultats avec ceux dautres modles. On peut mentionner les analyses statistiques traditionnelles, les arbres de dcision et dautres mthodes formelles pour lvaluation du risque environnemental et cologique [OL05, SS05], telles que la thorie de lutilit multiattribut, la hirarchie des buts, le processus hirarchique analytique (AHP) et la prise de dcision multi-critres. Dans tous les cas, il est fortement recommand, pour commencer tout exercice de modlisation, que les experts et les responsables utilisent de simples diagrammes dinuence pour dcrire comment les systmes doivent fonctionner et quelles parties du systme peuvent tre affectes par les dcisions de gestion. Les dcisions sont toujours prises sur la base de la connaissance actuelle qui, dans ces domaines, est souvent incomplte et en volution perptuelle. galement en volution permanente sont les facteurs qui inuencent la dcision, les critres de dcision et les attitudes face au risque des responsables (qui restent souvent tacites et varient selon les utilits espres et les
314
probabilits associes aux rsultats des dcisions de gestion). Les types de rsultats et leur valeurs (utilits ou matrice de gains en termes de thorie des jeux) changent galement au cours du temps. Les rseaux baysiens se rvlent utiles dans un contexte aussi changeant, notamment dans un cadre de gestion adaptative. Ils aident identier des hypothses de gestion testables, des variables cls, des essais de gestion et des expriences statistiques. Ils permettent dincorporer de nouvelles informations pour rvaluer les effets dune politique de gestion. Ainsi, les rseaux baysiens et les mthodes baysiennes associes, telles que les approches baysiennes empiriques, peuvent constituer des outils pour des programmes de surveillance, par exemple pour valuer la viabilit dune population dans des plans de conservation de lhabitat [Fol00]. Quand des donnes sont recueillies, des cas peuvent tre incorpors pour amliorer les performances du modle en utilisant diffrentes procdures dapprentissage, implmentes dans les logiciels de rseaux baysiens. Les responsables peuvent utiliser les modles actualiss pour dterminer si leur plan daction doit changer ou tre maintenu. Les rseaux baysiens sont particulirement utiles dans un contexte de gestion adaptative, pour expliciter les critres de dcision, les valeurs seuils qui justient des remises en causes des politiques de gestion, ainsi que les utilits espres et les incertitudes associes chaque dcision. Comme avec nimporte quel outil daide la dcision, les responsables doivent comprendre et dcrire clairement : les hypothses du modle ; les rsultats esprs ; les valeurs de chaque rsultat potentiel (cest--dire les utilits ou les revenus associs aux rsultats) ; les directives de gestion, les priorits et les enjeux (facteurs pris en compte dans la dcision) ; leurs propres critres de dcision ; leur attitude face au risque (tolrance du risque, importance relative perue du risque, incertitude de chaque facteur) et galement dautres facteurs entrant en ligne de compte dans la dcision et qui ne sont pas reprsents dans le modle tels que le risque politique pour certaines personnalits, le droulement de carrire futur, linuence sur dautres dcisions et le risque de litige. Les modlisateurs peuvent apporter une aide concernant la plupart de ces aspects de la dcision, mais cest aux dcideurs que revient la responsabilit dutiliser bon escient de tels outils.
315
Chapitre 14
tude de cas n6 : diagnostic mdical
Ce chapitre a t rdig par Carmen Lacave1 , de luniversit de Castille-La Manche, et Francisco J. Dez2 , de luniversit espagnole denseignement distance (UNED).
remonte aux annes soixante, avec la construction de modles dans divers domaines, telles que les cardiopathies et les douleurs abdominales aiges. Ces systmes appliquaient la mthode nave de Bayes, qui consiste choisir une variable D reprsentant les n diagnostics possibles {di}, et m variables Hj (binaires en gnral) correspondant aux observations possibles, savoir les symptmes et signes de maladie. Deux hypothses sont ncessaires pour que le problme puisse tre rsolu : la premire est que les diagnostics soient exclusifs et exhaustifs ; la seconde, que les observations soient conditionnellement indpendantes de chaque diagnostic. La mthode donnait des rsultats satisfaisants pour des problmes simples, mais prsentait nanmoins de srieuses limitations : en mdecine, les diagnostics ne sont pas toujours exclusifs (un patient peut tre affect par plusieurs maladies ou troubles), et les observations sont souvent corrles, mme lorsquon sait
1 2
Le dveloppement de systmes experts daide au diagnostic mdical
Dpartement Informatique, 13071 Ciudad Real, Espagne, carmen.lacave@uclm.es Dpartement Intelligence Articielle, UNED, 28040 Madrid, fjdiez@dia.uned.es
14.1. Sources dincertitudes en mdecine
quune maladie est prsente (ce qui contredit lhypothse dindpendance conditionnelle). Ainsi, lorsque les dveloppeurs de MYCIN, systme expert labor dans les annes soixante-dix lUniversit de Stanford, eurent besoin dune mthode de raisonnement en univers incertain, ils rejetrent la mthode nave de Bayes. Ils dvelopprent une approche dans laquelle tait attribu un facteur de certitude FC(H, E) chaque rgle du type Si H, alors E . Mme si ces facteurs de certitude taient dnis formellement partir des probabilits P(H) et P(E | H), ils taient en fait directement estims partir davis dexperts et combins au moyen dquations ad hoc, qui ne respectaient pas les rgles du calcul probabiliste. Malgr le succs de MYCIN, dont la proportion de diagnostics corrects tait proche de celles des meilleurs experts humains, il fut prouv par la suite que le modle comportait des incohrences importantes, ce qui mettait en vidence la ncessit de bases plus solides. Dans la dcennie suivante, la majorit des systmes experts taient bass sur la logique oue, ce qui est assez naturel dans le domaine mdical o beaucoup de concepts sont dnis de manire oue : pression artrielle leve, douleur aige, fatigue lgre, symptme vident, grosse tumeur, maladie grave, forte mortalit, etc. Cest aussi au cours des annes quatre-vingts que sont apparus les rseaux baysiens et les diagrammes dinuence : leur adaptation au diagnostic mdical a t rapidement mise en vidence (chapitre 8 page 213). En fait, les premires applications oprationnelles des rseaux baysiens et des diagrammes dinuence, au dbut des annes quatre-vingt-dix, concernaient des problmes mdicaux. Depuis, de nombreux arguments thoriques et pratiques ont t identis en faveur de lutilisation de modles probabilistes graphiques en intelligence articielle. Ainsi, en 1993, les crateurs de MYCIN ont dclar [DBS93] : les rseaux baysiens offrent prsent une mthode viable pour construire des systmes de diagnostic de grande taille, sans utilisation dhypothses (grossires et intrinsquement imparfaites) dindpendance conditionnelle et de modularit de la connaissance .
14.1 Sources dincertitudes en mdecine

Lincertitude et limprcision sont prsentes dans presque tous les modles dintelligence articielle, pour trois raisons fondamentales : les insufsances de linformation, le non-dterminisme du rel et les lacunes des modles. Il existe plusieurs mthodes de raisonnement en univers incertain qui permettent de traiter ces trois formes dincertitudes. Nous dcrivons ci-aprs, de manire plus dtaille, les diffrentes sources
318
Chapitre 14 tude de cas n6 : diagnostic mdical
dincertitudes dans le domaine mdical. Information incomplte Dans de nombreux cas, lhistorique clinique du patient nest pas disponible, et ce dernier ne peut se rappeler de tous les symptmes quil a prsents et de la manire dont la maladie a volu. Les mdecins doivent tablir des diagnostics sur la seule base de linformation disponible, mme si celle-ci est trs limite. Information inexacte Linformation donne par le patient au mdecin peut tre mal exprime ; dans certains cas, le patient peut mme mentir au mdecin. Il est galement possible que des diagnostics antrieurs, contenus dans lhistorique clinique du patient, soient errons. Les tests de laboratoires produisent couramment des faux positifs et des faux ngatifs. En consquence, les mdecins doivent toujours, dans une certaine mesure, mettre en doute linformation dont ils disposent. Information imprcise En mdecine, beaucoup de donnes sont difcilement quantiables. Cest souvent le cas pour les symptmes, tels que la douleur ou la fatigue. Mme dans une technique aussi sophistique que lcho-cardiographie par exemple, beaucoup de caractristiques du patient doivent tre values subjectivement, telle que la descente valvulaire ou lakinsie ventriculaire (mouvement insufsant de la paroi cardiaque). Non-dterminisme du rel Les cliniciens savent que les patients sont tous diffrents et quil y a peu de rgles universelles : les patients ne sont pas comparables des machines mcaniques ou lectriques, dont le comportement est rgi par des lois dterministes. Trs souvent, les mmes causes produisent chez des patients diffrents des effets diffrents, sans explication apparente. Cest pourquoi les diagnostics mdicaux doivent toujours tenir compte de probabilits ou dexceptions. Modle incomplet Il existe beaucoup de phnomnes mdicaux dont la cause principale est inconnue (on parle de maladies idiopathiques), et il est courant que les experts dun domaine soient en dsaccord : en fait, mme si toute linformation tait disponible, il serait en pratique impossible de la reprsenter dans un systme expert. Modle inexact Les modles visant quantier lincertitude, quelle que soit la mthode, ncessitent un nombre lev de paramtres. Par exemple, dans le cas de rseaux baysiens, il faut valuer toutes les probabilits a priori et conditionnelles. Toute cette information est rarement disponible : elle doit donc tre estime subjectivement. Il est souhaitable,
319
14.2. Construction de rseaux baysiens mdicaux
par la suite, que le modle de raisonnement puisse tenir compte de ses propres inexactitudes. Ceci explique pourquoi toutes les mthodes de raisonnement en univers incertain ont t appliques la mdecine : dans plusieurs cas, le besoin de traiter un problme mdical a conduit laborer une nouvelle mthode, qui plus tard a t tendue dautres domaines. La mdecine constitue un excellent banc dessai pour valuer les qualits et les limites dune nouvelle mthode de raisonnement en univers incertain, parce que ce domaine prsente pratiquement toutes les formes dincertitudes que lon puisse imaginer. Dans le cas des modles graphiques probabilistes, cela se vrie clairement : les premiers systmes experts bass sur des rseaux baysiens ont t dvelopps pour des problmes mdicaux et, de notre point de vue, la mdecine est le domaine dans lequel le dveloppement des rseaux baysiens est le plus avanc. Dans ce chapitre, nous analysons le problme gnral de la construction de rseaux baysiens mdicaux et, comme tude de cas, nous dcrivons le dveloppement de P ROSTANET, un rseau baysien destin au diagnostic du cancer de la prostate.
14.2 Construction de rseaux baysiens mdicaux

Comme dans dautres domaines, on distingue trois mthodes de construction de rseaux baysiens : Automatique : par application dun algorithme dapprentissage une base de donnes. Les algorithmes dapprentissage peuvent identier la fois la structure (le graphe) du modle et les paramtres (les probabilits conditionnelles). Manuelle : avec laide dexperts humains, les mdecins en loccurrence : les spcialistes en ingnierie de la connaissance interrogent les experts et ajoutent les nuds, les liens et les probabilits conditionnelles au rseau baysien sur la base de la connaissance recueillie. Dans ce cas, le graphe doit tre causal, pour des raisons que nous verrons par la suite. Hybride : dans cette approche, la structure du rseau est dcrite avec laide des experts humains et les probabilits sont obtenues partir dune base de donnes.
320
14.2.1 Construction de rseaux baysiens partir de bases de donnes mdicales

La manire la plus rapide de construire un rseau baysien mdical consiste traiter une base de donnes contenant un nombre sufsant de cas (de patients, typiquement) puis dappliquer un des nombreux algorithmes dapprentissage disponibles dans la littrature (voir le chapitre 6 page 117), dont certains sont implments dans des logiciels commerciaux ou libres (voir annexe C page 359). Dans le domaine mdical, les principaux problmes poss par cette mthode sont les suivants. Tout dabord, les bases de donnes mdicales ne contiennent gnralement que quelques observations accompagnes du diagnostic nal, tandis que la construction dun rseau baysien ncessite lidentication dun grand nombre de variables intermdiaires, an de satisfaire les hypothses dindpendances conditionnelles. Certes, il existe des algorithmes capables de trouver les variables dites caches, mais il subsiste deux problmes. Dune part, la quantit de donnes requise pour obtenir des rsultats ables est trs grande, mme si la proportion de variables caches est faible. Dautre part, quand les variables ainsi identies ne correspondent aucun concept mdical, la validit du modle peut tre remise en question. En deuxime lieu, beaucoup dalgorithmes dapprentissage ncessitent que la base de donnes ne comporte aucune donne absente. Cependant, dans la pratique, toutes les bases de donnes mdicales sont incompltes, et la proportion de donnes manquantes est souvent importante. Les mthodes dites dimputation supposent gnralement que les valeurs absentes sont rparties alatoirement, ce qui est une hypothse peu raliste : il y a toujours une raison pour laquelle une valeur est absente. Ainsi, les mthodes dimputation prsentent souvent de fausses corrlations dans la base de donnes, ce qui conduit des relations fausses dans le rseau baysien. Troisimement, les rseaux baysiens construits automatiquement ne sont pas ncessairement causaux. Par exemple, ils peuvent faire apparatre un lien dun symptme vers la maladie qui le produit, ce qui est contreintuitif pour les experts humains. En plus, un rseau baysien causal peut tre transform en un diagramme dinuence en ajoutant des nuds de dcision et dutilit, mais cela nest pas possible pour des rseaux noncausaux. Il existe certes des algorithmes essayant dtablir des modles causaux partir de bases de donnes dobservation, mais ils ncessitent un grand nombre de donnes et une base de donnes non biaise. Or, en mdecine, toute base de donne est biaise car correspondant toujours une sous-population de patients, dans un certain contexte mdical. En rsum, il est possible de construire automatiquement des rseaux
321
baysiens partir de bases de donnes, mais le rseau est alors surtout utile comme outil danalyse des corrlations et des indpendances conditionnelles dans la base de donnes. Les conclusions, qualitatives ou quantitatives, obtenues partir dun tel modle ne peuvent pas tre tendues de manire sre la population gnrale et surtout, il nest pas possible de donner une interprtation causale au graphe du rseau. En dautres termes, de tels rseaux baysiens sont semblables des mthodes de type bote noire, telles que la rgression logistique ou les rseaux de neurones, dans lesquels il est difcile voire impossible dinterprter la structure et les paramtres du modle.
14.2.2 Construction laide dexperts humains

Bien quil ny ait aucune rfrence mthodologique pour la construction manuelle dun modle graphique probabiliste, le processus peut tre dcompos en deux phases principales. La premire consiste obtenir linformation qualitative, ce qui implique lidentication des maladies principales, anomalies et observations possibles, ainsi que les relations entre ces variables, an de construire un graphe causal. La deuxime phase consiste recueillir linformation quantitative, cest--dire les probabilits numriques. Nous dcrivons chaque phase sparment, bien que dans la pratique les deux tches soient la plupart du temps indissociables. Par exemple, pendant le processus dobtention des probabilits, le graphe tabli dans la phase prcdente peut subir des changements, comme ce fut le cas avec le modle P ROSTANET (qui sera prsent au paragraphe 14.3 page 326), soit parce que de nouvelles relations, oublies dans la premire phase, sont identies, soit parce que le nombre lev de parents dun certain nud rend impossible la construction de la table de probabilits conditionnelles. Une solution possible pour diminuer la taille des tables de probabilits consiste introduire des variables auxiliaires ; dans ce qui suit, nous proposerons un exemple de divorce de variables parentes. Ce type de procds amne modier, en phase de recueil de probabilits, la structure du graphe. Construction du graphe causal
Tout rseau baysien ncessite un nombre lev dhypothses dindpendances conditionnelles qui, en principe, devraient tre justies par une analyse statistique. Cependant, dans la plupart des cas, une telle vrication est impossible en raison de labsence de donnes empiriques. La solution palliative usuelle consiste interroger des experts humains au sujet des mcanismes causaux. Les proprits dindpendance probabiliste dans
322
un graphe causal se justient de la manire suivante :

U1 U2
Y1
Y2
F IG . 14.1 Indpendances conditionnelles pour un nud X ayant deux enfants et deux

parents
Indpendance a priori. Lorsque deux variables U1 et U2 sont telles que (1) il ny a pas de corrlation connue entre elles, (2) il ny a pas de mcanisme causal selon lequel U1 puisse causer U2, ni linverse et (3) il ny a pas de cause commune aux deux variables, alors on peut supposer quelles sont a priori indpendantes, cest--dire, P(u1, u2) = P(u1) P(u2). Par exemple, le sexe dun individu et son pays dorigine peuvent tre supposs indpendants a priori. De faon analogue, quand la corrlation entre deux variables (par exemple, le sexe et lge) est faible, nous pouvons la ngliger et traiter ces variables comme si elles taient indpendantes, an de simplier la structure du modle et, par consquent, le temps de calcul ncessaire pour propager des observations. Indpendance conditionnelle entre plusieurs effets dune cause. Si (1) X est une cause commune de Y1 et Y2, (2) le mcanisme causal par lequel X produit Y1 ninteragit pas avec le mcanisme X Y2, (3) il ny a pas de relation causale connue Y1 Y2 ni Y2 Y1, et (4) il ny a pas dautre cause commune de Y1 et Y2, alors, nous pouvons supposer que les deux variables sont indpendantes conditionnellement X. Par exemple, entre un symptme Y1 et un test de laboratoire Y2 indicatifs dune mme maladie X, il est presque toujours possible de supposer quil y a indpendance conditionnelle. Indpendance conditionnelle entre un effet et ses grand-parents. Si (1) les causes de X sont U1, . . . , Un, (2) le mcanisme X Y est indpendant de la manire dont X sest produit, et (3) il ny a pas dautre mcanisme causal connu Ui Y, alors on peut supposer que les Ui et Y sont conditionnellement indpendants sachant X. Par exemple,
323
le pays dorigine (U1) et le groupe sanguin (U2) sont deux facteurs de risque de paludisme (X) ; en pratique, nous pouvons supposer que la probabilit que le test du frottis pais3 (Y) soit positif est indpendant du pays dorigine et du groupe sanguin, une fois quon sait avec certitude si le patient est atteint de paludisme ou pas. Malheureusement, il y a beaucoup de cas dans lesquels les mcanismes causaux qui produisent une certaine anomalie ne sont pas connus. Par exemple, un ouvrage de cardiologie indique que les principaux facteurs de risque de crise cardiaque aigu (CCA) sont : lobsit, leffort, une consommation leve de sodium, une tension artrielle leve, le diabte, les antcdents familiaux de CCA, lge, le sexe masculin, la couleur de peau (blanche, en loccurrence) et le tabagisme. videmment, ces dix facteurs ne sont pas tous causaux ni stochastiquement indpendants. Cependant, il est impossible de savoir dans quelle mesure chacun affecte les autres, parce qu notre connaissance, aucune tude pidmiologique na analys les dpendances et les indpendances conditionnelles parmi ces facteurs de risque de CCA. Application de modles canoniques
Entre la dnition de la structure de rseau et lacquisition dinformations quantitatives, il est important didentier quelles parties du rseau peuvent tre modlises par une porte OU ou tout autre modle dit canonique [DD06]. Ces modles sont extrmement utiles pour lacquisition de connaissance, non seulement parce quils ont besoin de peu de paramtres, mais galement parce que chaque paramtre est beaucoup plus facile estimer. Par exemple, construire une table de probabilits pour un nud binaire X ayant cinq parents binaires implique 32 questions du type quelle est la probabilit de +x lorsque +u1, u2, +u3, +u4 et u5 ? , laquelle il est difcile (voire impossible) de rpondre, car il est trs peu probable quun expert humain ait rencontr un patient ayant souffert de U1, U3 et U4 en mme temps. De la mme manire, lorsquon obtient les probabilits partir dune base de donnes, il est trs peu probable quun patient ait souffert des trois maladies simultanment. En revanche, une porte OU ne ncessiterait que cinq paramtres, correspondant aux cinq questions quelle est la probabilit que Ui produise X ? , paramtres qui sont plus faciles estimer. Du point de vue informatique, les modles canoniques sont avantageux parce quils requirent beaucoup moins despace mmoire et parce quil existe des algorithmes qui, au lieu de dvelopper les tables de probabili3
Le test le plus connu pour diagnostiquer le paludisme.
324
ts associes, propagent les observations directement avec le modle canonique, permettant une conomie importante de mmoire et de temps de calcul. Prenons lexemple dun rseau baysien mdical, le CPCS (Computerbased Patient Case Simulation, [PPMH94]) : ce modle ne pouvait pas tre rsolu exactement, parce que les algorithmes manquaient de mmoire ; en outre, mme avec un ordinateur qui aurait eu assez de mmoire, le temps de calcul requis serait beaucoup trop grand. Cependant, les algorithmes rcents qui exploitent les proprits des modles canoniques peuvent rsoudre ce rseau en quelques millisecondes. Enn, les modles canoniques ont galement lavantage de permettre dexpliquer le raisonnement [Pea88b, LD02]. Par exemple, si linteraction dun symptme S avec ses parents est modlise par une porte OU bruite, alors, chez un patient, la conrmation dune maladie causant S minimise la suspicion dautres causes de S. Ce phnomne est appel, en anglais, explaining away. Inversement, llimination de toutes les causes de S lexception dune seule maladie permet de diagnostiquer celle-ci. De cette faon, la porte OU bruite reproduit par propagation de probabilits le diagnostic diffrentiel que pratiquent chaque jour les mdecins. En raison de ces avantages, il est souhaitable dutiliser les modles canoniques partout o cest possible. En particulier, les conditions pour lapplicabilit dune porte OU sont les suivants : x Le nud et ses parents doivent tre des variables binaires du type absent/prsent. Ceci interdit lapplication de la porte OU pour des variables telles que le pays dorigine ou la couleur de peau. y Chaque parent reprsente une cause qui peut produire leffet quand les autres causes sont absentes. z Il ny a aucune synergie parmi les causes, en dautres termes, le mcanisme par lequel la cause Ui produit X est indpendant des mcanismes des autres causes de X. Les conditions dapplicabilit des autres modles canoniques sont analogues. Acquisition dinformations quantitatives Lobtention des donnes numriques est encore plus difcile que lacquisition de connaissances qualitatives. En effet, la littrature mdicale ne contient quune inme partie de linformation requise : les descriptions sont presque toujours qualitatives. Par exemple, un autre livre de cardiologie indique : la tumeur primaire la plus commune chez ladulte est le myxome et 75 % de ces tumeurs
325
14.3. Un exemple de modle : P ROSTANET
sont localises dans loreillette gauche, habituellement chez la femme . Dans cette phrase, deux termes ous apparaissent, adulte et habituellement. Ceci pose plusieurs questions : quel est lge partir duquel une personne est considre comme adulte ? Est-ce que la catgorie adulte inclut les personnes ges ? Quelle est la frquence associe habituellement ? Il existe des tudes psychologiques qui aident traduire les expressions qualitatives en probabilits numriques, mais les valuations numriques sont si diffrentes que ces tudes se rvlent quasiment inutilisables en pratique. La seule probabilit numrique dans cet extrait (75 %), dont nous ne savons pas sil sagit dun rsultat empirique ou dune valuation subjective, nest pas trs utile non plus, parce quelle nindique pas la probabilit davoir un myxome dans loreillette gauche mais seulement la probabilit dune telle localisation sachant quil y a un myxome. videmment, cette information ne peut pas tre introduite dans le rseau directement. Cet exemple simple montre pourquoi, dans beaucoup de cas, il est ncessaire dobtenir les probabilits partir dvaluations subjectives dexperts humains, mme si cette tche est fastidieuse, complexe et parfois source derreurs.
14.3 Un exemple de modle : P ROSTANET

Le cancer de la prostate est une maladie trs commune chez les hommes gs de plus de cinquante ans. Il nest parfois pas facile de le diagnostiquer, parce quil se caractrise par des symptmes trs semblables ceux produits par dautres maladies bnignes4 . Nous avons construit P ROSTANET, un rseau baysien causal, dans le but daider les mdecins tablir un diagnostic diffrentiel entre certaines maladies lies la prostate. En raison du manque de bases de donnes pour tablir le rseau automatiquement, le modle a t dveloppe manuellement avec laide dun urologue, le Dr Diego A. Rodrguez Leal, de lhpital gnral de Ciudad Real (Espagne) et avec le logiciel de rseaux baysiens Elvira [Elv02] (voir page 382). La raison principale du choix de ce logiciel est quil offrait des fonctionnalits dexplication5 suprieures celles des programmes disponibles au moment o P ROSTANET a t dvelopp. En ce qui concerne la mthodologie, outre une tude bibliographique, nous avons principalement bas notre travail sur une srie dentrevues avec lexpert humain pour dterminer le graphe causal et quasiment toutes les probabilits (seules quelques4 5
Par exemple, lhypertrophie bnigne de la prostate ou la prostatite chronique. Les fonctionnalits dexplication sont dcrites en dtail dans [Lac03].
326
unes ont t trouves dans la littrature). En outre, an dviter la propagation derreurs jusqu la n du processus, nous avons test chaque version du modle. Au total, sept versions diffrentes du rseau baysien, dcrites dans le tableau 14.1 page 334, ont t construites.
14.3.1 Structure du graphe

Un des principaux problmes que nous avons rencontrs quand nous avons commenc construire P ROSTANET est quil nexistait aucune mthodologie pour dvelopper les rseaux baysiens mdicaux (comme nous lavons expliqu au paragraphe 14.2.2 page 322), mis part le bon sens et quelques expriences dapplications mdicales [Oni02, Ren01b]. Puisque lobjectif du modle tait le diagnostic du cancer de la prostate, qui devait constituer la variable principale du graphe, nous avons dcid demployer les mmes ides que pour la construction de rseaux de similarit [Hec91], qui furent dvelopps comme outils de construction de structures adaptes une seule anomalie ou maladie. Nous nous sommes donc initialement concentrs sur la variable reprsentant le cancer de la prostate pour identier les principaux signes, symptmes et facteurs de risque associs. Ce processus a conduit la premire version de P ROSTANET, qui comportait seulement 30 liens et 26 nuds comme le montre la gure 14.2 ci-aprs : la variable principale (cancer de la prostate), les principaux facteurs de risque et les symptmes, signes, tests et les autres maladies pouvant tre provoques par des complications. Ce modle a t valu en utilisant les explications verbales dElvira, qui sont formules comme des combinaisons de mots et de nombres. Ceci a amen lurologue conclure que le modle tait une reprsentation trop simpliste du domaine. Il a alors t dcid dintroduire les principales maladies caractrises par des signes et symptmes proches de ceux du cancer de la prostate. Aprs plusieurs retouches et valuations, nous avons obtenu les deux versions suivantes de P ROSTANET. La deuxime version avait 34 nuds (dont 8 reprsentaient des maladies) et 46 liens, et la troisime version comportait 43 nuds et 75 liens. La structure de la troisime version a t considre comme satisfaisante et dnitive par lexpert, mme si durant la phase dacquisition de probabilits, elle a subi quelques modications mineures, comme nous le verrons au paragraphe suivant. La quatrime version a t obtenue en dnissant les valeurs et les noms des tats de chaque variable, sans modier la structure du graphe ; la plupart des variables taient binaires.
327
F IG . 14.2 Premire version de P ROSTANET.
14.3.2 Recueil de probabilits

Ce processus est la phase la plus difcile et la plus longue en raison des erreurs et des biais que les humains tendent introduire lorsquils estiment des probabilits subjectivement [KST82]. Dans notre cas, lexpert devait dnir 259 valeurs, comme le montre le tableau 14.1 page 334. Les principaux problmes concernaient les variables ayant un grand nombre de parents. Par exemple, la gure 14.3 ci-aprs montre une sous-partie de P ROS TANET autour du nud Prostate Cancer . Pour obtenir chacune des 26 probabilits associes ce nud, nous aurions d poser lurologue une question du type : quelle est la probabilit davoir un cancer de la prostate sachant que le patient a une congestion de la prostate, une displasie, des facteurs hormonaux, une activit sexuelle normale, quil nest pas obse, et na pas dantcdents familiaux de cancer de la prostate ? Il tait clairement impossible lexpert destimer cette probabilit. Cependant, lidentication de modles canoniques que nous avons prsents page 324, qui reprsentent les relations entre un nud et ses parents, nous a permis de construire de grandes tables de probabilits partir dun petit nombre de donnes. Il y eut ainsi une rduction de 35 % du nombre de probabilits estimer par lexpert (169 au lieu de 259), mme siil a fallu pour cela ajouter des nuds et des liens.
328
F IG . 14.3 La variable Prostate Cancer et ses six parents, dans la quatrime version
de P ROSTANET.
Dautres fonctionnalits utiles du logiciel sont, dune part, la coloration des liens selon le signe de linuence quils reprsentent [Wel90] (les inuences positives sont reprsentes en rouge, les ngatives en bleu, les nulles en noir, et les indnies en violet) et dautre part, lpaisseur des liens proportionnelle linuence de la variable amont sur la variable aval (voir par exemple [Lac03]). Par exemple, dans la copie dcran de la gure 14.4 ci-aprs lutilisateur peut voir que linuence de Chronic prostatitis sur la congestion de la prostate est positive, ce qui est vident ; que linuence de lactivit sexuelle sur la congestion de la prostate est ngative, parce que plus un homme est actif sexuellement, plus la probabilit quil ait une congestion de la prostate est faible ; que linuence de lge sur la congestion de la prostate est indtermine parce que avant soixante-dix ans, la prostate grossit quand lhomme vieillit, ce qui augmente la probabilit de congestion, mais au-del, la prostate satrophie et risque moins de se congestionner. La gure 14.4 ci-aprs montre les diffrents types dinuences : les liens sont coloris par Elvira selon la nature de linuence (positive, ngative, indtermine), et ont une paisseur proportionnelle limportance de linuence de la variable amont sur la variable aval. Par exemple, nous pouvons donc y lire que linuence positive de Chronic prostatitis sur la congestion de la prostate est plus importante que linuence ngative de lactivit sexuelle sur la congestion de la prostate. Ainsi, la coloration des liens par Elvira nous a aids de plusieurs manires. Tout dabord, elle a constitu un moyen de savoir quelles tables de probabilits conditionnelles devaient tre dnies puisque les liens noirs reprsentaient des tables de probabilits vides. Il tait galement trs utile de rafner les probabilits an de reter correctement les inuences prvues par lurologue. Dans les modles causaux, la plupart des inuences
329
F IG . 14.4 Copie dcran de P ROSTANET.
sont positives (liens rouges). Pour cette raison, les liens bleus et violets amnent le modlisateur souponner que certains paramtres puissent tre errons. Ctait le cas, par exemple, de la variable PSA6 , qui initialement avait cinq parents binaires. Puisque la variable PSA avait quatre tats et ne pouvait tre reprsente par aucun modle canonique, telle quune porte OU bruite, lexpert devait prciser 128 probabilits. videmment, il tait impossible de les dterminer pour reter convenablement les inuences entre nuds, notamment les inuences ngatives comme celle de MedFinas 7 sur PSA . Alors, aprs plusieurs tentatives infructueuses, o il subsistait toujours des inuences indnies, nous avons dcid de supprimer le lien de Rectal examination vers PSA , parce que si les mdecins savent que lexamen rectal peut altrer les valeurs de PSA, ils ne font pas ce test avant davoir les rsultats de PSA . De plus, nous avons ajout un nud auxiliaire, PSA aux , pour faire divorcer les parents de PSA an de grouper les facteurs physiques qui peuvent inuencer PSA . Le nouveau nud avait seulement trois parents : Prostate Cancer , Metastasis et Chronic Prostatitis . Ensuite, nous avons renomm PSA en PSA total pour viter la confusion et dni comme parents PSA aux et MedFinas . Ainsi, lexpert a t en mesure de dnir les probabilits. De plus, aprs introduction de toutes les probabilits, nous avons pu retirer quelques liens, parce que Elvira mettait en vidence que linuence quils reprsentaient tait nulle.
PSA signie Prostate-specic antigen (antigne prostatique spcique) : la prsence de cette substance dans le sang peut aider dtecter un cancer de la prostate. 7 MedFinas signie mdication avec le Finasteride, un traitement de lhyperplasie bnigne de la prostate et dautres problmes masculins comme la chute de cheveux.
330
F IG . 14.5 Analyse de leffet de lge sur le cancer de la prostate
14.3.3 Dboguage
Aprs lintroduction de chaque probabilit, nous avons constat que certaines probabilits taient surestimes. Par exemple, la probabilit a priori davoir un cancer de la prostate tait suprieure 50 %, ce qui est vraiment loign de la ralit. Toutefois, les fonctionnalits graphiques comme la reprsentation des chanes de raisonnement, la reprsentation des signes des inuences, le dveloppement slectif de nuds et la reprsentation simultane de plusieurs cas dvidence [Lac03] nous a aid dtecter certaines valeurs qui avaient t surestimes, comme cela est indiqu sur la gure 14.5 . Dans cet exemple, nous essayons dtudier leffet de la variable ge , lun des facteurs majeurs de risque de cancer de la prostate. Dans limage nous pouvons voir certains des outils fournis par Elvira permettant cette analyse. Nous avons dvelopp les deux nuds an de nous concentrer sur eux. Nous avons cr quatre cas dvidence an dtudier comment les changements dge affectent les probabilits a posteriori de cancer de la prostate. Chaque cas, reprsent avec des couleurs diffrentes, contient seulement une observation correspondant lune des quatre valeurs diffrentes du nud ge . De plus, nous avons reprsent les chanes de raisonnement du ge vers Prostate Cancer . Dans des ces chemins, les nuds sont coloris selon le type et limportance de linuence que le nud ge exerce sur eux.
331
14.4. Conclusion
Aprs cette phase de dboguage, nous avons obtenu la sixime version de P ROSTANET.
14.3.4 valuation
Cette version a t value en analysant 15 historiques cliniques de patients et cinq cas virtuels. Pour chacun, lafchage simultan de plusieurs cas [Lac03] dvidence nous a permis dtudier limpact de lvidence sur certaines variables et de dtecter certaines incohrences. De plus, la reprsentation graphique des chanes de raisonnement nous a permis de nous concentrer seulement sur les chemins par lesquels linformation se propage dun ensemble dobservations vers une variable dintrt an danalyser au mieux les inuences. Dautre part, la classication des observations a permis lexpert dvaluer la valeur de diagnostic de ses composants. Dans 19 cas sur 20, P ROSTANET a donn le mme diagnostic que lexpert humain. Dans le cas o le diagnostic tait erron, lanalyse des chanes du raisonnement, et la classication des observations nous ont permis de dtecter les probabilits qui ont d tre ajustes pour obtenir la version nale, reprsente sur la gure 14.6 ci-aprs. On voit sur cette copie dcran certaines fonctionnalits dexplication dElvira, comme le dveloppement de certains nuds, la reprsentation graphique de la nature et de limportance des inuences et lafchage simultan de plusieurs cas.
14.3.5 Historique des versions

Le tableau 14.1 page 334 montre les proprits les plus importantes de chaque version. Les deux premires colonnes contiennent lidentiant et la date de la cration. Les autres correspondent, respectivement, au nombre de nuds, de liens, de paramtres (au total), de paramtres restant valuer par lexpert, et de paramtres dj estims. Lavant-dernire colonne contient le nombre maximal de parents dun nud et la dernire indique si le modle contenait des modles canoniques ou non.
14.4 Conclusion
Dans ce chapitre, nous avons montr que les systmes experts mdicaux doivent tenir compte de diffrents types dincertitudes. Cest une des raisons pour lesquelles les modles graphiques probabilistes, et notamment les rseaux baysiens, sont frquemment utiliss pour construire les systmes de diagnostic et daide la dcision dans le domaine mdical. Lobstacle principal un usage plus courant de tels systmes est la difcult
332
F IG . 14.6 Le rseau baysien P ROSTANET
de construction des modles : en principe, ils peuvent tre construits automatiquement partir de bases de donnes, mais en pratique, les bases de donnes mdicales ne sont pas de qualit sufsante et les algorithmes dapprentissage ne parviennent pas tablir des modles prcis partir de celles-ci. De plus, les modles construits automatiquement ne sont pas causaux, ce qui les rend difcilement acceptables pour les experts humains. En consquence, la manire usuelle de construction dun rseau baysien mdical consiste tablir un graphe causal modlisant la connaissance experte, puis obtenir les probabilits conditionnelles partir des bases de donnes, de la littrature, ou dvaluations subjectives. Malheureusement, il ny a aujourdhui aucune mthodologie tablie pour ce processus : la construction de rseaux baysiens mdicaux est plus un art quune technique. Nous nous sommes efforcs dans ce chapitre de dcrire les tapes du processus de manire dtaille et de donner quelques conseils gnraux en matire dingnierie de la connaissance. Nous avons illustr la plupart de ces ides laide dun exemple dtaill : la construction de P ROSTANET, un rseau baysien pour diagnostiquer le cancer de la prostate, construit laide dun urologue. Les difcults principales que nous avons rencontres
333
14.4. Conclusion
Ver. 1 2 3 4 5 6 7
Date 14/12/00 28/1/01 15/2/01 4/3/01 27/5/02 29/6/02 22/8/02
Nuds 26 34 43 43 45 45 47
Liens 30 46 75 75 79 77 81
Param. 1128 184 564 564 812 836 850
A estimer 564 92 282 259 169 165 170
Estims 0 0 0 68 132 165 170
Max. par 8 4 6 6 4 4 4
M. C. Non Non Non Non Oui Oui Oui
TAB . 14.1 Versions de P ROSTANET
ont t lies la communication entre lexpert humain et le spcialiste en ingnierie de la connaissance. Un seul expert humain, dont les disponibilits taient limites, a pu contribuer la cration du modle. Cet expert a d estimer subjectivement la plupart des probabilits et, comme nous lavons dit, il a eu tendance surestimer bon nombre dentre elles en raison de son manque dexprience dans le domaine des probabilits. La construction de P ROSTANET a t toutefois facilite par les possibilits dexplication dElvira, notamment parce que celles-ci ont permis didentier rapidement les paramtres errons. Le processus complet a ncessit normment de temps. La construction du graphe causal a dur environ un an. Il serait par consquent trs utile de disposer doutils facilitant la construction manuelle de rseaux baysiens, en particulier en ce qui concerne lestimation subjective de probabilits. De ce point de vue, Elvira constitue un puissant support de dialogue entre le modlisateur et lexpert, mais de nombreuses amliorations restent apporter.
334
Quatrime partie
Annexes
Annexe A
Thorie des graphes
de manipulation et dtude dun ensemble ni sur lequel est dnie une relation binaire, quelle que soit cette relation. Bien que cette thorie soit bien dveloppe, la terminologie est plutt uide. On se rfrera [Ber58], [Ber73] et [Gol80]. Cependant, le domaine des rseaux baysiens contraint certaines caractristiques des graphes quil utilise. Par exemple, dans ces graphes, un lment ne sera jamais en relation avec lui-mme. Cest pourquoi les dnitions que lon donnera ici sont plus proches des dnitions donnes par [CDLS99] et [Mee97] que de celles des livres cits ci-dessus.
Lide de base de la thorie des graphes est de proposer un outil
A.1 Dnitions gnrales

La thorie des graphes se donne donc pour objectif dtudier de manire abstraite un type de structure densemble qui ne dpend que dune relation binaire entre ses lments. Les graphes peuvent alors tre interprts comme une description des relations entre paires dlments. Il peut tre ainsi tout autant question dtudier lensemble des villes de France relies par autoroute (deux villes sont lies sil existe une autoroute pour aller de lune lautre) que danalyser le comportement dun automate (deux tats possibles de lautomate sont lis si lautomate est capable de passer du premier au second).
A.1. Dnitions gnrales
Le caractre abstrait dune telle description permet cette thorie davoir des champs dapplication extrmement vastes et varis. De plus, elle peut facilement tre gnralise des relations entre ensembles dlments (hypergraphe). D FINITION A.1 (G RAPHE ) Soit V = {v1, . . . , vn} un ensemble ni non vide. Un graphe G sur V est dni par la donne du couple G = (V, E) o E {(u, v) u, v V et u = v} 1 V est alors nomm lensemble des nuds de G. On peut considrer E comme la description par extension de la relation binaire cite plus haut. Cette dnition a lavantage de ne prsupposer que le minimum sur la relation : on lui interdit seulement dtre rexive. Plus particulirement, il est noter que cette relation na pas tre symtrique : les paires sont ordonnes de sorte que (u, v) = (v, u). La dnition A.1 se spcialise donc naturellement en plusieurs notions diffrentes o lon prcisera, par exemple, le respect de la symtrie ou de lantisymtrie. Les distinctions fondamentales entre types de graphes dpendent de la nature exacte des lments de E. D FINITION A.2 (A RTE ET A RC ) Soit un graphe G = (V, E). Pour tout lment (u, v) E, (u, v) est une arte (not (uv)) si et seulement si (v, u) E, (u, v) est un arc (not (uv)) si et seulement si (v, u) E. /
La notion dorientation a beaucoup dimportance pour ces dnitions. Dans un arc, les deux lments de V ne jouent pas le mme rle alors que dans une arte, ces lments sont symtriques.
E XEMPLE A.1 Pour reprendre les exemples cits plus haut, la relation entre les villes relies par autoroute est clairement symtrique : les lments de E dans ce cas, seront bien des artes de type (ParisLille) ; alors que dans le cas de lautomate, ce nest pas parce que celui-ci peut passer de ltat A ltat B quil pourra passer de B A. Les lments de E seront donc ici des arcs de type (EtatA EtatB ).
Cette diffrenciation entre types dlments de E permet alors de dnir les sous-types principaux de graphe :
1
Certaines dnitions acceptent (u, u) dans E. Elles se rfrent alors notre dnition de graphe comme celle de graphe simple. De mme, ces dnitions peuvent inclure la possibilit dexistence de plusieurs paires (u, v) identiques dans E. Il ne sera question par la suite que de graphes simples nautorisant quune occurrence de chaque paire (u, v) dans E.
338
Annexe A Thorie des graphes
De mme, G est un graphe non orient (not G) si et seulement si tous les lments de E sont des artes. Un graphe mixte est un graphe ni orient, ni non orient 2 .
D FINITION A.3 (G RAPHES ORIENTS , NON ORIENTS , MIXTES ) Un graphe G = (V, E) est un graphe orient (not G ) si et seulement si tous les lments de E sont des arcs.
N OTE A.2 De telles dnitions de E ainsi que des arcs et des artes permettent de dnir et de manipuler simplement, de manire homogne les graphes orients, non orients et mixtes. Elles posent cependant un problme souvent lud mais qui mrite ici dtre pos. Dans E dni comme plus haut, un arc apparat une fois ((uv)) alors quune arte apparat deux fois ((uv) et (vu)). Ce qui implique, par exemple, que le nombre de paires dlments de V relis dans le graphe nest pas le cardinal de E. Pour tre mathmatique ment correct, il faudrait dnir la relation dquivalence sur E : (a, b) (c, d) (a, b) = (c, d) ou (a, b) = (d, c) et utiliser lensemble-quotient E| plutt que E. On retrouverait alors que le cardinal de E| est le nombre de paires dlments de V lis dans G. On confond souvent (implicitement) E et E| . On le fera ici aussi, mais explicitement.
Un graphe G peut tre dsorient (not G) en remplaant tous ses arcs par les artes correspondantes. La gure A.3 page 342 est le graphe dsorient du graphe de la gure A.2 ci-aprs. Le graphe dsorient reprsente la fermeture symtrique de la relation sous-jacente au graphe initial. Une relation symtrique (par exemple une relation dquivalence) entre les lments de V sera donc reprsente par un graphe non orient alors quune relation anti-symtrique (par exemple une relation dordre partiel) le sera par un graphe orient. Plus prcisment, le rapport entre relation dordre et graphe orient peut tre formalis comme suit : D FINITION A.4 (O RDRE COMPATIBLE ) Soit un ordre partiel sur V, est dit ordre compatible topologiquement avec G = (V, E) lorsque (uv) E, u v.
Cette dnition peut tre utile dans les deux sens : on note G lensemble des graphes orients sur V avec lesquels est compatible. Rciproquement, on peut dnir lensemble des relations dordre total sur V compatibles avec G . Sous certaines conditions dcrites dans lexemple A.4 page 341, lalgorithme A.1 ci-aprs retrouve un ordre total (dit topolo gique) compatible avec la structure dun graphe G . Les deux sous-sections suivantes dnissent des notions et des terminologies qui prsentent un certain paralllisme pour les graphes orients puis pour les graphes non orients (ou mixtes).
2
Mme si les notations G et G ont le mrite dexpliciter le type du graphe, elles ont le dfaut dalourdir la notation. Il est donc possible que lon note le graphe G, quil soit orient, mixte ou non orient. Les notations lourdes ne seront utilises que lorsquelles seront indispensables.
339
A.2. Notions orientes
OrdTopo 1 Debut 2 v V, #v 0 3 Pour i 1 |V| Faire 4 Choisir v v #v = 0 (uv) , #u = 0 5 #v i 6 Fin F IG . A.1 Recherche dun ordre topologique sur le graphe orient G = (V, E)
A.2 Notions orientes

Soit un graphe G = (V, E), pour tout arc (uv) E, u est lorigine de larc, v est son extrmit. u est alors un parent (ou prdcesseur) de v ; v est lenfant (ou successeur) de u. On notera v lensemble des parents de v et u lensemble des enfants de u. On dnit de mme lensemble des parents ou des enfants dun sous-ensemble A de V : v = {u V (uv) E} ; A = {u V \ A u A, (uv) E} ; u = {v V (uv) E} ; A = {v V \ A v A, (uv) E}. Une racine dun graphe est un nud sans parent. Une feuille est un nud sans enfant.
1 3
F IG . A.2 Reprsentation dun graphe orient
E XEMPLE A.3 Dans la gure A.2 , G = {{1, . . . , 7} , {(1, 2), (2, 4), (2, 6), (3, 2), (3, 5), (4, 1), (4, 7), (5, 6)}} ; 2 = {1, 3} ;
340
2 = {4, 6} ; {1,2,5} = {4, 3} ; 3 est une racine ; 7 est une feuille.
D FINITION A.5 (C HEMIN , C IRCUIT ) Dans un graphe orient G = (V, E), un chemin est une squence darcs (ei)i{1...p} vriant la proprit suivante : lorigine de tout arc ei est lextrmit de larc ei1 prcdant dans la squence. Un circuit est un chemin dont lextrmit du dernier arc est lorigine du premier. Un chemin simple est un chemin dans lequel aucun arc napparat plus dune fois. Un chemin lmentaire est un chemin dans lequel aucun nud napparat plus dune fois.
E XEMPLE A.4 Dans la gure A.2 page prcdente, {(3, 2), (2, 4), (4, 7)} est un chemin (simple) ; {(1, 2), (2, 4), (4, 1)} est un circuit. Parce quil existe au moins un circuit dans G , il nexiste pas de relation dordre topologiquement compatible avec G .
Enn, il faut dnir les notions de descendants, dascendants (ou danctres et de non-descendants) dun nud : desc (v) = {u V il existe un chemin de v vers u}. On construit itrativement desc (v) en utilisant la proprit suivante : desc (v) = udesc(v) (u). anc (v) = {u V il existe un chemin de u vers v}. De mme, itrativement : anc (v) = uanc(v) (u). nd (v) = {u V il nexiste pas de chemin de v vers u} = V \ {v} desc (v)
A.3 Notions non orientes

Il faut noter tout dabord que, trangement, les notions non orientes ne sappliquent pas simplement aux graphes non orients. En effet, elles sont valables pour tout lment de E (que cet lment soit un arc ou une arte). Cest pourquoi on utilisera dans cette section la notation (uv) indiquant que (u, v) ou/et (v, u) est dans E 3 .
3
(uv)
` (uv) (vu) (uv)
341
A.3. Notions non orientes
Malheureusement, par un abus de langage, (uv) est appel galement une arte. Pour expliquer cette terminologie, on peut, par exemple, considrer que, pour un graphe G, (uv) indique la prsence dune arte (uv) dans le graphe dsorient correspondant G. Soit un graphe G = (V, E) quelconque, pour tout (uv), u et v sont les sommets de larte (uv). On dit alors que u et v sont des nuds adjacents. Un nud pendant est un nud qui nest sommet que dune seule arte. On notera u = {v V (uv) E} le voisinage du nud u. De mme, A V, A = {v V \ A u A, (uv) E}. Le nud u nappartient pas u (de mme A nest pas inclus dans A). Parfois il est intressant de pouvoir manipuler la fermeture du voisinage : u = u {u} et A = A A.
N OTE A.5 Comme on la dj indiqu plus haut, ces notions non orientes ont un sens dans un graphe G orient. Particulirement : les sommets dun arc sont son origine et son extrmit, lorigine et lextrmit de tout arc sont des nuds adjacents, u V, u = u u , les nuds pendants sont soit des racines, soit des feuilles.
F IG . A.3 Reprsentation dun graphe non orient
E XEMPLE A.6 Dans le graphe non orient de la gure A.3 , G = {{1, . . . , 7} , {(1, 2), (2, 1), (2, 4), (4, 2), . . . , (5, 6), (6, 5)}} ; 2 = {1, 3, 4, 6} ; 7 est pendant.
D FINITION A.6 (C HANE , C YCLE ) Dans un graphe quelconque G = (V, E), une chane est une squence dartes (ei)i{1...p} vriant la proprit suivante : pour tout i {2 . . . p 1}, lune des extrmits dune arte ei est une extrmit de larte ei1 prcdente ; lautre extrmit de ei est une extrmit de larc suivant ei+1.
342
Un cycle est une chane dont une extrmit du dernier arc est une extrmit du premier.
N OTE A.7 Un chemin est une chane, tout comme un circuit est un cycle. Par contre, dans un graphe orient, il existe des chanes qui ne sont pas des chemins (et des cycles qui ne sont pas des circuits). Dans la gure A.2 page 340, {(3, 2), (2, 6), (6, 5)} est une chane mais pas un chemin.
De mme que pour les chemins, une chane simple est une chane dans laquelle aucun arc napparat plus dune fois. Une chane lmentaire est une chane dans laquelle aucun nud napparat plus dune fois.
N OTE A.8 Dans la terminologie anglo-saxonne, a cycle reprsente un circuit. Ce qui pose bien sr beaucoup de problmes de traduction. Par exemple, un DAG est un Directed Acyclic Graph cest--dire un graphe orient sans circuit, mais avec cycle !
Un chemin, ainsi quune chane, peut tre dni soit par la donne de la squence darcs/artes qui le constitue, soit par celle de la squence de nuds quil rencontre. Le chemin {(1, 2), (2, 4), (4, 3)} peut ainsi snoncer plus rapidement par {1, 2, 4, 3}.
A.4 Typologie et proprits des graphes

D FINITION A.7 (S OUS - GRAPHE ET G RAPHE Soit un graphe G = (V, E), W V, F E, (W, E W W) est un sous-graphe de G (V, F) est un graphe partiel de G
PARTIEL )
Un sous-graphe de G est donc obtenu en supprimant certains nuds de V (ainsi que les artes dont un sommet au moins a t supprim). Un graphe partiel de G est obtenu en supprimant uniquement certaines artes. D FINITION A.8 (C ONNEXIT , C ONNEXIT FORTE , G RAPHE COMPLET ) connexit : Un graphe G = (V, E) est connexe si et seulement si pour tout u, v V, u = v, il existe une chane entre u et v. connexit forte : Un graphe G est fortement connexe si et seulement si pour tout u, v V, u = v, il existe un chemin entre u et v. graphe complet : Un graphe G est complet si et seulement si u, v V, u = v, (uv) E. La connexit et la compltude sont des notions non orientes alors que la connexit forte ncessite que le graphe soit orient.
343
A.4. Typologie et proprits des graphes
D FINITION A.9 (C OMPOSANTE CONNEXE , C LIQUE ) Les composantes connexes dun graphe sont les sous-graphes connexes maximaux (cest--dire de cardinal maximal). De mme, les cliques dun graphe sont les sous-graphes complets maximaux. Les composantes connexes forment une partition du graphe G, de mme que les cliques. Il nexiste pas dartes entre deux nuds de deux composantes connexes diffrentes. En revanche, il peut exister des artes entre deux nuds de deux cliques diffrentes. Un graphe particulier, structure de second niveau, appel graphe de jonction est dailleurs dni sur lensemble des cliques de G et relie ces deux cliques entre elles sil existe une telle arte dans G. La gure A.4 reprsente le graphe de jonction des cliques du graphe de la gure A.3 page 342.
2-3 7-4 1-2-4 2-6 5-6 3-5
F IG . A.4 Graphe de jonction de la gure A.3 page 342
P ROPRIT A.10 Un graphe est connexe si et seulement sil nest compos que dune composante connexe. D FINITION A.11 (A RBRE , A RBORESCENCE ) Un graphe G = (V, E) est un arbre si et seulement sil est connexe et sans cycle. Un graphe G est une arborescence si et seulement si G est un arbre et possde une unique racine. Une fois de plus, il est noter quun arbre est un graphe non ncessairement orient alors quune arborescence implique que G soit orient. Une fort est un graphe dont toutes les composantes connexes sont des arbres. Ce qui montre la limite de la terminologie puisque, en thorie des graphes, un arbre (mme partiel) est une fort. Enn, les arborescences possdent une srie de proprits quil est intressant de connatre (voir les rfrences, entre autres [Ber73], pour les dmonstrations).
344
T HORME A.1 Pour tout graphe G = (V, E), les propositions suivantes sont quivalentes : x G est un arbre. y G est un graphe connexe, sans cycle. z G est connexe et |E| = |V| 1. { G est connexe et minimal pour |E|. | G est sans cycle et |E| = |V| 1. } G est sans cycle et maximal pour |E|. ~ u, v V, il existe une et une chane de u v. Tout graphe partiel de G est non connexe. Les notions de thorie des graphes prsentes ci-dessus sont sufsantes pour la description qualitative des connaissances dans un rseau baysien. Pour la description quantitative de ces connaissances, il est maintenant ncessaire de dnir les concepts principaux de la thorie des probabilits.
345
Annexe B
Probabilits
champs diffrents des mathmatiques dans le but de reprsenter lincertitude : la thorie des graphes, dune part, qui fournit le cadre ncessaire pour une modlisation qualitative des connaissances ; et la thorie des probabilits, dautre part, qui permet dintroduire une information quantitative dans ces connaissances.
Le domaine des rseaux baysiens a comme particularit dallier deux
B.1 Probabilits
La thorie des probabilits propose un cadre mathmatique pour reprsenter quantitativement lincertain. La prsentation qui est faite ici est forcment tronque puisque oriente vers son utilisation dans le domaine des rseaux baysiens. En particulier, lespace sur lequel seront dnies les probabilits restera discret et ni. Ce nest bien sr pas le cas gnral mais cest sufsant pour ce qui suit.
B.1. Probabilits
B.1.1
Dnitions principales
D FINITION B.1 (P ROBABILIT ) Soit un ensemble ni 1 non vide, E, , une algbre sur (E 2, lensemble des parties de ). Soit P : E [0, 1] une fonction valeurs relles. P est une probabilit sur , E si et seulement si elle vrie : x A E, 0 P(A) 1 ; y A, B E, A B = P(A B) = P(A) + P(B). A et B sont alors dits mutuellement exclusifs ; z P() = 1 (et donc P() = 0). Tout lment (non nul) minimal au sens de linclusion de E est appel un vnement lmentaire sur quon nomme souvent lunivers. Il est noter quun vnement sur est une sous-partie de . Un vnement (modication de lunivers) est donc en fait reprsent par lensemble des tats de lunivers auxquels il peut mener. est appel lvnement certain. De mme, on appellera lvnement impossible.
E XEMPLE B.1 Si reprsente un jeu de carte, lvnement tirer lAs de pique est reprsent par le singleton {As de pique}, tirer un as sera reprsent par le sous-ensemble de compos des quatre as du jeu ; tirer lune des cartes du jeu est lvnement certain lorsquon tire une carte dans un jeu. Cet vnement est bien reprsent par lensemble des cartes possibles ; ne tirer aucune carte () est lvnement impossible lorsque lon tire une carte.
D FINITION B.2 (VARIABLE A LATOIRE ( V. A .)) Une variable alatoire est une fonction X dnie sur : X : DX X () Pour x DX, on note alors {X = x} lvnement { | X () = x }. DX est le domaine de dnition de X. Une variable alatoire permet de caractriser des vnements (qui sont des sous-ensembles dvnements lmentaires) par une simple valeur. Si le domaine de dnition de la variable X est ni, alors X est une variable alatoire discrte. Comme cette tude se restreint un ni, les variables alatoires seront donc toujours considres comme discrtes. De plus, on parle de variable alatoire binaire lorsque le domaine de dnition de la variable ne possde que deux lments ( 0/1 , oui/non , etc.).
1 Rappelons que lon peut dnir une probabilit sur des ensembles innis. Toutefois, il ne sera question que densembles nis dans le cadre de cette prsentation.
348
Annexe B Probabilits
E XEMPLE B.2 Pour tudier la distribution de probabilit de la somme du tirage de deux ds, il suft de dnir une variable alatoire reprsentant cette somme, ce qui permet de manipuler beaucoup plus facilement les vnements correspondants (voir le tableau B.1).
DX
...1
{X = x}
7 8 9 10 11 12 13 . . . (1, 6) (1, 5) (2, 6) (1, 4) (2, 5) (3, 6) (1, 3) (2, 4) (3, 5) (4, 6) (1, 2) (5, 6) (2, 3) (3, 4) (4, 5) (6, 6) (2, 2) (3, 3) (4, 4) (5, 5) (1, 1) (2, 1) (6, 5) (3, 2) (4, 3) (5, 4) (3, 1) (4, 2) (5, 3) (6, 4) (4, 1) (5, 2) (6, 3) (5, 1) (6, 2) (6, 1)
1 36 1 18 1 12 1 9 5 36 1 6 5 36 1 9 1 12 2 18 1 36
P({X = x})
TAB . B.1 Distribution des vnements lmentaires en fonction dune v.a.
Pour la suite, on suivra la notation suivante : une variable alatoire sera reprsente par une majuscule (A, B, . . . ). La valeur que prend cette variable alatoire sera note par la mme lettre mais minuscule (a DA, b DB, c DC, . . . ). Enn, quand aucune ambigut ne sera possible, on simpliera au maximum la notation un peu lourde de lvnement reprsent par {A = a} ; de telle faon que : P ({A = a}) = P (A = a) = P (a). Pour terminer, il est certainement intressant de noter la diffrence entre : P(A) qui est la probabilit associe lvnement A ; P({A = a}) = P(A = a) = P(a) qui est la probabilit associe lvnement {A = a} ; P(A) qui est une fonction qui associe tout lment a DA la valeur de probabilit de lvnement P(A = a).
B.1.2 Probabilits sur plusieurs variables

Une variable alatoire est donc un moyen pour condenser une information pertinente sur un univers. Cependant, il faut souvent plus dune variable alatoire pour caractriser prcisment ltat de lunivers. Pour reprendre lexemple du tirage de deux ds, la somme des deux tirages est une information intressante, mais la valeur de chacun des deux tirages est une autre information qui peut savrer ncessaire. Ltape suivante est bien sr davoir le moyen de croiser ces diffrentes sources dinformation.
349
B.1. Probabilits
Probabilits jointes
Soit un systme (un univers) ; il est pratique de dcrire ce systme grce un ensemble de paramtres qui permet de le caractriser tout moment. Par exemple, la connaissance de la position, de la vitesse et de lacclration dun systme mcanique permet de dcrire sa trajectoire. Si le systme est dterministe, on connat exactement la valeur de chacun de ces paramtres ; par contre, si le systme est probabiliste, il faut tenter de lui adjoindre une probabilit sur ces diffrentes variables qui permettra de le dcrire. D FINITION B.3 (P ROBABILITS JOINTES ) Soient A et B deux variables alatoires sur le mme univers . On parle alors de probabilit pour la fonction dnie sur DA DB par : PAB : DA DB [0, 1] (a, b) PAB(a, b) =P ({A = a} {B = b}) =P ({ | A() = a B() = b }) (B.1) Cette dnition peut tre tendue tout ensemble ni U = {X1, . . . , Xn} de variables alatoires dnies sur le mme univers . PU : DXi
i{1,...,n}
[0, 1] {Xi = xi}

i{1,...,n}
u = (x1, . . . , xn) PU(u) =P =P
i{1,...,n}
Xi() = xi (B.2)
Toutes ces probabilits jointes sont construites partir de la mme fonction de probabilit sur : P. La liste des arguments dune probabilit jointe est donc sufsante pour la caractriser. Cest pourquoi il est commun de les noter simplement P lorsquaucune ambigut nest possible : PABCD(a, b, c, d) = P(a, b, c, d) Soit U un ensemble ni et non vide de variables alatoires discrtes sur reprsentant lensemble des paramtres dun systme. U est le vecteur dtat du systme et DU = AU (DA), le produit cartsien des domaines de dnitions de toutes les variables de U, est lespace dtats de U. Enn, un lment d DU qui donne une valeur (ou qui instancie) chacune des variables de U est une conguration de U. Une conguration partielle est reprsente par linstanciation dune partie seulement des variables de U.
350
Ces notions sont particulirement importantes dans le domaine des rseaux baysiens. En effet, cest cause de ce produit cartsien des domaines de dnitions des variables alatoires que ltude probabiliste de systmes complexes a longtemps t considre comme impossible en pratique : un produit cartsien densembles reprsente une croissance exponentielle (explosion combinatoire) de la mmoire et du temps ncessaire pour le manipuler (en fonction du nombre densembles).
Probabilits marginales Rciproquement, la donne dune probabilit jointe densemble de variables permet de retrouver la probabilit jointe de chacun de ses sousensembles. Cest ce quon appelle une probabilit marginale. P ROPRIT B.4 (M ARGINALISATION ) Soit U un ensemble ni, non vide de variables alatoires, V U non vide et V = U\V et P(U) la probabilit jointe sur les variables de U ; on appelle alors marginalisation de P sur V la fonction : v DV , P(v) =
v DV
P(v, v )
(B.3)
Cette fonction correspond la probabilit jointe des variables de V. Lopration de marginalisation peut tre gnralise toute fonction f sur un ensemble de variables U. La notation usuelle (voir [Jen96]) pour cette opration est [f]V o V U. Donc, la proprit B.3 peut scrire fonctionnellement : V U, P(V) = [P(U)]V = P(V, v )
v U\V
(B.4)
N OTE B.3 Soient, par exemple, deux variables alatoires T et L dont la probabilit jointe suit le tableau suivant : P(l, t) l1 l2 t1 0.0578 0.0782 t2 0.1604 0.0576 t3 0.5118 0.1342 Par marginalisation, on peut obtenir P(L = l1 ) = P(L = l1 , T = t1 ) + P(L = l1 , T = t2 ) + P(L = l1 , T = t3 ) = 0.73,. . . Do les deux probabilits marginales : l1 0.73 l2 0.27 t1 0.136 t2 0.218 t3 0.646
P(L)
P(T )
351
B.1. Probabilits
Probabilits conditionnelles
Un concept fondamental en calcul des probabilits, qui permet de tenir compte linformation, est celui de probabilit conditionnelle. Pour un vnement de lunivers , la valeur P() est associe au moins implicitement des conditions de ralisation. Dans lexemple B.1 page 348, lvnement tirer un as ne se produit que si lon suppose quune carte a t tire. Et cest bien parce quon suppose, dans cet univers , quune carte a t tire que lvnement ne tirer aucune carte est lvnement impossible. Dans ce sens, toute probabilit est conditionnelle car elle implique un contexte. La question Quelle est la probabilit de A devrait toujours tre comprise comme tant donn le contexte , quelle est la probabilit de A ? ; ce qui se note P(A | ). Soit un univers , A, B (A et B sont des vnements de ), lexpression dune probabilit conditionnelle de A par rapport B se traduit ainsi par tant donn que lvnement B sest produit, la probabilit que lvnement A se produise (ou se soit produit) est x et scrit P(A | B) = x. Lquivalent, pour des variables alatoires, scrit : P(a | b) = P(A = a | B = b) = x et se lit Sur lensemble des vnements vriant B() = b, la probabilit pour que A() = a est x ? . La fonction P(A | B) est donc une fonction de deux variables qui, tout couple (a, b), associe la valeur P(a | b) = P(A = a | B = b). Plus gnralement, pour toute valeur de b de B, la fonction P(A | b) est une probabilit conditionnelle de A, tant donn un vnement B = b.
E XEMPLE B.4 En notant X la v.a. 2 reprsentant la somme de deux jets de ds et Y la v.a. reprsentant la valeur que prend le premier jet, on peut chercher calculer la probabilit que le premier des deux tirages de ds soit un 3 , sachant que la somme des deux ds vaut 10 : P(Y = 3 | X = 10). Ce qui permet, au passage, de montrer quun vnement possible (Y = 3) peut devenir impossible lorsquil est conditionn (par X = 10).
Reste lier ces trois probabilits jointes, marginales et conditionnelles : D FINITION B.5 (L OI FONDAMENTALE ) Soient deux variables alatoires A et B sur le mme univers. Pour tout a DA et b DB, la probabilit conditionnelle de A = a tant donn B = b est le nombre P(a | b) vriant : P(a, b) = P(a | b).P(b) ou fonctionnellement, la probabilit conditionnelle de A tant donn lvnement B = b vrie : P(A, b) = P(A | b).P(b)
2
v.a. = variable alatoire.
352
N OTE B.5 Si P(b) = 0, P(a | b) est indtermine. Cette indtermination na toutefois que peu dincidence car P(a | b).P(b) est toujours gale 0, quelle que soit la valeur donne P(a | b).
La relation fondamentale se gnralise naturellement : D FINITION B.6 (L OI FONDAMENTALE GNRALISE ) Soit un ensemble de variables alatoires (Ai)i{1,...,n} sur le mme univers, P(a1, . . . , an) = P(a1).P(a2, . . . , an | a1) = P(a1).P(a2 | a1).P(a3, . . . , an | a1, a2) = n P(ai | a1, . . . , ai1) i=1 On utilisera parfois la convention P(X | ) = P(X).
N OTE B.6 La factorisation propose par cette loi fondamentale gnralise na pas dintrt en termes de complexit algorithmique : on reprsente une fonction de n variables par n fonctions de 1 jusqu n variables. Par exemple, une fonction de n variables binaires ncessite une taille mmoire proportionnelle 2n alors que la factorisation, outre le temps de calcul des produits, ncessite une mmoire proportionnelle n 2i = 2n+1 2. i=1
Cette dnition permet darriver naturellement au thorme de Bayes : T HORME B.1 Si P(b) est positive alors P(a | b) = Plus gnralement, P(a | b, c) = P(b | a, c).P(a | c) P(b | c) (Bayes-2) P(b | a).P(a) P(b) (Bayes-1)
Le thorme de Bayes est plus quun thorme opratoire. Il est la base de tout un pan de la statistique nomme, de manire assez comprhensible, la statistique baysienne. Sans entrer dans trop de dtails, ce thorme peut en effet sinterprter comme suit : supposons que lon sintresse la variable A. Sans plus de renseignements (reprsent dans Bayes-2 par C), on peut supposer quelle suit une loi de probabilit a priori P(A) (resp. P(A | C)). Supposons maintenant que B soit observe gale b. Alors le jugement P(A) doit tre rvis, et la loi a posteriori de A sachant B = b est obtenue
353
B.2. Indpendance conditionnelle
en multipliant P(A) par le coefcient P(B = b | A)/P(B = b), o B est xe b mais pas A. Cette fonction P(b | A) de la variable A est appele la vraisemblance de A. P(B = b) est xe et ne sert donc que de coefcient normalisateur. Cest pourquoi on crit souvent le thorme de Bayes comme suit : loi a posteriori loi a priori vraisemblance P(A | B, C) P(A | C) P(B | A, C) (Bayes-3)
La statistique baysienne est donc une approche qui tend autoriser lapplication de loi a priori sur des quantits inconnues, quitte effectuer une mise jour, principalement grce cette formule de Bayes, lorsque plus de renseignements auront t rcolts.
B.2 Indpendance conditionnelle

Manipuler des probabilits jointes de plusieurs variables est une tche ardue qui implique des algorithmes de complexit exponentielle, en fonction du nombre de variables. La simple reprsentation dune telle loi jointe demande une taille mmoire exponentielle (voir la note B.6 page prcdente). Pour rendre possibles les calculs sur de telles probabilits, il est ncessaire de rduire cette complexit. Cette rduction est rendue possible par lintroduction dune nouvelle notion : l indpendance conditionnelle.
B.2.1
Dnitions
Lindpendance conditionnelle est un concept dont limportance a t particulirement souligne par [Daw79]. Elle sest impose naturellement dans le domaine des systmes experts probabilistes car elle sinterprte qualitativement comme la mise en vidence de relations (non numriques) entre les variables dun systme et permet donc de btir directement la structure du modle en interrogeant les experts. D FINITION B.7 (I NDPENDANCE CONDITIONNELLE ) Soient un univers et un ensemble V de v.a. sur . Soit X, Y, Z V. X est indpendant de Y conditionnellement Z (not X Y | Z) si et seulement si ces ensembles vrient : X Y | Z P(X | Y, Z) = P(X | Z) et P(Y | X, Z) = P(Y | Z)
354
|=
|=
La notion dindpendance conditionnelle est une notion qui est dnie explicitement partir dune probabilit P. Cest pourquoi certains auteurs tel [Daw79] utilisent la notation un peu plus lourde : X Y | Z[P]. Un cas particulier dindpendance conditionnelle est lindpendance marginale : Z peut tre un ensemble vide. D FINITION B.8 (I NDPENDANCE
MARGINALE )
N OTE B.7 Les probabilits conditionnelles sont ici utilises sans protection. En fait, il faudrait toujours conditionner lutilisation dune probabilit conditionnelle par lassurance de son existence mme : si y DY et z DZ , P(y, z) > 0 alors on peut utiliser P(X | Y, Z) .
et
x DX, P(Y | X = x) = p(Y) y DY, P(X | Y = y) = p(X)
La dnition B.7 page prcdente de lindpendance conditionnelle revient dire que, pour la connaissance de X (resp. Y), la connaissance de la valeur que prend Y (resp. X) napporte rien si on connat dj la valeur que prend Z. Toute linformation que Y peut apporter sur X est contenue dans linformation que Z peut apporter. Lindpendance marginale indique que Y ne peut apporter aucune information sur X (et rciproquement). Ces relations sont symtriques : X et Y tiennent exactement le mme rle. La relation dindpendance conditionnelle entrane une srie de simplications dans lcriture des probabilits des variables de X,Y et Z. Ainsi : X, Y, Z V, X Y | Z F telle que P(X | Y, Z) = F(X, Z) (B.5) (B.6) (B.7) |=
G telle que P(Y | X, Z) = G(Y, Z)
La dnition B.5 indique que la probabilit de X conditionnellement Y et Z est une fonction ne dpendant pas de Y. La suivante ( B.6) est la symtrique de la premire. La dernire ( B.7) propose, elle, une factorisation de la probabilit jointe de X et Y conditionnellement Z. On remplace ici un produit par une somme : en supposant toute les variables binaires, la reprsentation de P(X, Y | Z) demande une taille mmoire proportionnelle 2|X|.2|Y|.2|Z|, alors que la reprsentation de P(X, Z).G(Y, Z) ne demande quune taille mmoire proportionnelle 2|X| + 2|Y| .2|Z|. Le gain en termes de complexit nest donc pas ngligeable. Enn, cette indpendance conditionnelle implique des relations entre les diffrentes probabilits se traduisant par un ensemble de dnitions
355
F, G telles que P(X, Y | Z) = F(X, Z).G(Y, Z)
|=
|=
B.2. Indpendance conditionnelle
quivalentes la dnition B.7 page 354 : X Y | Z P(X | Y, Z) = P(X | Z) (B.8) (B.9) (B.10) |=
P(X, Y | Z) = P(X | Z).P(Y | Z)
E XEMPLE B.8 Dans la population franaise, quelle est la relation entre la variable aptitude la lecture et la variable pointure ? Mme si la rponse instinctive cette question est lindpendance marginale entre ces deux variables, on peut cependant remarquer que la pointure (particulirement si elle est petite) est un indicateur de lge de lindividu et donc, dans une certaine mesure, de son aptitude lire. Do : Aptitude la lecture mais Aptitude la lecture pointure | ge |= pointure |=
P(X, Y, Z) = P(X | Z).P(Y | Z).P(Z)
La relation entre indpendance conditionnelle et factorisation de la loi va jouer par la suite un grand rle dans la rduction de la complexit dune reprsentation de loi jointe. En effet, la reprsentation de P(X | Y, Z) demande une taille mmoire proportionnelle 2|X|.2|Y|.2|Z|, alors que la reprsentation de P(X | Y) ne demande quune taille mmoire proportionnelle 2|X|.2|Y|. Plus gnralement, supposons une loi jointe P(X1, . . . , Xn). Cette loi jointe peut scrire par dnition des probabilits conditionnelles (et sous rserve de positivit) :
n
P(X1, . . . , Xn) =
i=1
P(Xi | X1, . . . , Xi1)
Comme il a dj t dit plus haut, cette factorisation nest pas trs intressante du point de vue de la complexit. En revanche, sil est possible de simplier chaque probabilit P(Xi | X1, . . . , Xi1) grce des indpendances conditionnelles, la complexit du calcul de la loi jointe peut tre grandement amliore : T HORME B.2 i, Vi {X1, . . . , Xi1} tel que Xi {X1, . . . , Xi1} \ Vi | Vi,
n
P(X1, . . . , Xn) =
i=1
|=
P(Xi | Vi)
356
B.2.2 Proprits
La relation ternaire dindpendance conditionnelle vrie les proprits suivantes : Si X Si X Si X Si X Y |Z Y | Z et F, U = F(X) Y | Z et F, U = F(X) Y | Z et X W | Y, Z |= alors alors alors alors Y U X X X|Z Y |Z Y | Z, U Y, W | Z (P1) (P2) (P3) (P4) |= |= |= |= |= |= |= |=
[Lau96] propose une formulation textuelle intuitive de ces proprits. En pensant en termes dinformation, de connaissance, on peut lire X Y | Z comme Connaissant Z, la connaissance de Y napporte rien sur X . [Lau96] adopte lanalogie des livres : Ayant lu Z, lire le livre Y napporte rien de plus sur le livre X . Dans ce cadre, les proprits prcdentes peuvent tre lues comme suit :
Si, ayant lu Z, la lecture de Y napporte rien sur le livre X, alors la lecture de X napporte rien sur le livre Y. Si, ayant lu Z, la lecture de Y napporte rien sur le livre X, alors la lecture de Y napporte rien pour la lecture dun chapitre de X. Si, ayant lu Z, la lecture de Y napporte rien sur le livre X alors la lecture de Y napporte toujours rien sur ce mme livre X aprs avoir lu un chapitre de X. Si, ayant lu Z, la lecture de Y napporte rien sur le livre X et si, aprs avoir lu Y, la lecture de W napporte rien sur le livre X alors la lecture de Y et de W napportera rien sur le livre X. (P1)
(P2)
(P3)
(P4)
Dmonstration Par exemple, pour (P4) : supposons X X |= (X |= Y | Z et X W | Y, Z. Alors, |= |=
W | Y, Z P(X, Y, Z, W) = P(X | Y, Z).P(W | Y, Z).P(Y, Z) = P(X | Z).P(W, Y | Z).P(Z) X Y, W | Z |=
Y | Z, do) = P(X | Z).P(W | Y, Z).P(Y | Z).P(Z)
Une autre proprit, qui nest gnralement pas vrie, est noter : Si X Y | Z, W et X Z | Y, W alors X Y, Z | W (P5) |= |= |=
En particulier, (P5) est invalide sil existe une liaison dterministe entre Y et Z. Elle est vrie, par exemple, dans le cas o la loi P(X, Y, Z, W) est une loi strictement positive.
357
|=
Annexe C
Outils
out comme pour les langages de programmation, comparer des outils est toujours dlicat. Il est difcile de faire la part des choses entre lobjectif et le subjectif et les prfrences ne sont pas forcment aises expliciter. Pour cette raison, et comme il savrait que chaque auteur avait une prfrence diffrente, nous avons pris le parti de faire de cette difcult une force. Les outils prsents ici sont donc tous dcrits par lauteur qui les prfre aux autres. Cette annexe na donc pas la prtention dtre exhaustive sur les outils existants mais prsente simplement cinq outils utiliss et dcrits par ceux qui les utilisent.
C.1 Bayes Net Toolbox (BNT)

C.1.1 Prsentation
BNT est une bibliothque open-source de fonctions Matlab pour la cration, linfrence et lapprentissage de modles graphiques dirigs ou non dirigs, disponible sur http ://bnt.sourceforge.net. Ce projet a t lanc en 1997 par Kevin Murphy et bncie maintenant du soutien de nombreux chercheurs qui y apportent de nouvelles fonctions rgulirement, faisant de BNT un outil prcieux pour tous les chercheurs.
C.1. Bayes Net Toolbox (BNT)
C.1.2 Modlisation
BNT met disposition plusieurs densits de probabilit conditionnelles : discret ; gaussien (avec parents discrets ou gaussiens) ; OU bruits ; et dautres types titre exprimental (multiplexeur, softmax, rseau de neurones).
Il est aussi possible de rajouter des a priori de Dirichlet sur les paramtres des densits de probabilits discrtes, ou de faire du partage de paramtres pour que la mme densit de probabilit soit associe plusieurs nuds du rseau (utile par exemple pour les modle de Markov cachs ou les rseaux baysiens dynamiques). BNT propose aussi quelques fonctions permettant de manipuler des rseaux baysiens tendus tels que : les diagrammes dinuence (LIMID) ; les modles graphiques temporels tels que les modles de Markov cachs (HMM), les ltres de Kalman, les rseaux baysiens dynamiques (DBN).
C.1.3 Apprentissage
Paramtres BNT est capable destimer les paramtres dun rseau baysien partir de donnes compltes (par maximum de vraisemblance ou maximum a posteriori) ou de donnes incompltes grce lalgorithme EM. Structure Concernant lapprentissage de structure, BNT met disposition plusieurs fonctions de score comme BIC ou le critre BDe. La recherche exhaustive dans lespace des DAG est propose titre illustratif, ainsi quune mthode dchantillonage dans cet espace. Les algorithmes K2 (ordonnancement des nuds), IC/PC (recherche de causalit) et IC*/PC* (recherche de causalit avec variables latentes) sont aussi disponibles. Un package supplmentaire propos sur le site franais de BNT (http ://bnt.insa-rouen.fr) propose un certain nombre dautres mthodes : MWST (arbre de recouvrement maximal), GS (recherche gloutonne), SEM (EM structurel), TANB (rseau baysien naf augment par un arbre) et bientt les algorithmes BN-PC (recherche de causalit) et GES (recherche gloutonne dans lespace des classes dquivalence de Markov).
360
Annexe C Outils
C.1.4 Infrence
Algorithmes dinfrence proposs, aussi bien pour des rseaux baysiens discrets, gaussiens ou mixtes (conditionnels gaussiens) : limination de variables ; arbre de jonction ; quickscore pour les rseaux de type QMR ; algorithme de Pearl exact (pour les polyarbres) ou approch ; par chantillonage : likelihood weighting et Gibbs sampling.
C.2 BayesiaLab
C.2.1 Prsentation
BayesiaLab est un produit de Bayesia (www.bayesia.com), entreprise franaise ddie lutilisation des mthodes daide la dcision et dapprentissages issues de lintelligence articielle ainsi qu leurs applications oprationnelles (industrie, services, nance, etc.). BayesiaLab se prsente comme un laboratoire complet de manipulation et dtude de rseaux baysiens. Il est dvelopp en Java, et est actuellement disponible en versions franaise, anglaise et japonaise. BayesiaLab permet de traiter lensemble de la chane dtude de la modlisation dun systme par rseau baysien : modlisation, apprentissage automatique, analyse, utilisation et dploiement.
C.2.2 Modlisation
BayesiaLab est avant tout un environnement graphique. Lensemble des outils sont donc des outils interfacs graphiquement soit directement avec la souris (cration de nuds, darcs, etc.) soit par lintermdiaire de botes de dialogue (pour la saisie des probabilits par exemple). Pour la modlisation rapide dun rseau, BayesiaLab propose beaucoup de raccourcis clavier (N+clic cre un nud, L+glisser cre un arc, etc.). Il possde galement une bote outils de positionnement automatique des nuds (raccourci P) qui facilite grandement la construction de tels rseaux. Il gre un certain nombre de types de nuds : nud variable (label ou intervalle), nud contrainte pour lexpression de contraintes existant entre
361
C.2. BayesiaLab
F IG . C.1 Modlisation et saisie de la TPC sous BayesiaLab
des nuds, nud utilit pour la qualication des tats, nud dcision pour les politiques dactions. Il propose galement un diteur de constantes (rel, entier, boolen, chane) utilisables dans les quations. Pour ldition des nuds, il propose : des assistants pour la gnration et le nommage des nuds label et intervalle ; diffrents modes de saisie des distributions de probabilits conditionnelles : probabiliste, dterministe et quation ; un diteur de formules puissant dot dune librairie complte de fonctions et doprateurs (fonctions probabilistes discrtes et continues, fonctions arithmtiques et trigonomtriques, etc.), extensible par le biais de plug-ins ; des outils de compltion et de normalisation de tables, copier/coller entre tables et applications externes (type tableur ou traitement de texte) ; lassociation de proprits telles quune marque de couleur, une image, un indice temporel, un cot dobservation ; un diteur de classes permettant de dnir des ensembles de nuds partageant les mmes caractristiques ; un nud peut appartenir plusieurs classes et des actions peuvent tre ralises sur lensemble
362
Annexe C Outils
F IG . C.2 Import de donnes sous BayesiaLab : discrtisation et agrgation
des nuds dune classe (dplacement, suppression, copie, modication des proprits, masquage des nuds) ; des valeurs numriques associer aux modalits des variables (label ou intervalle) pour permettre des calculs de valeurs espres au niveau de chaque variable et globalement pour lensemble du rseau ; des noms longs associer aux modalits des variables (label ou intervalle) ; des fonctionnalits de documentation et de traabilit des modles par le biais des commentaires hypertextes associs aux nuds (de tels commentaires peuvent galement tre associs aux arcs et au graphe).
C.2.3 Apprentissage
Lapprentissage est un des points forts de BayesiaLab. Il utilise des mthodes et des algorithmes qui sont la pointe de la recherche dans le domaine (les fondateurs de Bayesia tant des chercheurs spcialiss dans lapprentissage et particulirement dans lapprentissage de rseaux baysiens). Lapprentissage dans BayesiaLab prend comme entre un chier texte ou un lien ODBC dcrivant lensemble des cas (un cas par ligne ou un cas par colonne). Ce chier peut intgrer un ensemble de caractres indiquant les valeurs manquantes. Les assistants dimportation permettent la conguration de la lecture (sparateurs, ligne de titre, valeurs manquantes, transposition), lchan 363
C.2. BayesiaLab
tillonnage, la slection des colonnes importer, le typage de ces colonnes (variable discrte ou continue, variable de pondration des individus, individu dapprentissage ou de test), la scission de la base en ensembles dapprentissage et de test, lapport de premires informations statistiques, des rgles de ltrages des donnes importes (par exemple, rejet des jeunes de moins de quinze ans qui fument), la dnition du traitement des valeurs manquantes (rgle de ltrage, replacement par expertise avec la valeur modale, la moyenne ou une valeur spcie, utilisation de linfrence : compltion statique ou dynamique, EM structurel), le choix de la mthode de discrtisation des variables continues (manuelle partir de la fonction de rpartition, par gales largeurs, par gales frquences ou encore par arbre de dcision), lagrgation manuelle ou automatique des modalits pour les variables ayant un grand nombre de modalits (par exemple, la CSP). An de garder lensemble de ces ajustements, il est possible denregistrer la base de donnes associe au rseau avec les diffrents traitements subis (discrtisations, ltrages ...). En tant que laboratoire dtude de rseaux baysiens, BayesiaLab offre un trs large choix dans les algorithmes utiliser pour exploiter ces donnes. Il propose : La prise en compte de la connaissance experte exprime sous la forme dun graphe initial et dun nombre de cas quivalents, des indices temporels des variables (pas dajout darc entre du futur vers le pass), des contraintes dnies sur les nuds et les classes. Une gestion rigoureuse des valeurs manquantes. Une fonction de stratication, ainsi que la prise en compte dune variable de pondration (coefcient de redressement). Une complexit structurelle modiable (jouant le rle de seuil de signicativit). Un apprentissage des paramtres (tables de probabilits). La dcouverte dassociations pour mettre en vidence lensemble des relations probabilistes directes prsentes dans les donnes. La recherche commence gnralement par un graphe non connect, mais il est galement possible de commencer partir dune structure initiale (fournie par un expert ou rsultant dun prcdent apprentissage). Sauf sils sont xs par lexpert, les arcs pourront alors tre remis en cause lors de lapprentissage. Cinq algorithmes sont proposs : arbre de recouvrement maximal, deux algorithmes de recherche dans les classes dquivalence, une recherche Taboo dans lespace des RB et une recherche Taboo dans lespace des ordres de nuds. La caractrisation probabiliste dun nud cible (apprentissage entirement focalis sur ce nud cible). Six algorithmes sont proposs : naf augment ou non, couverture de Markov augmente ou non, Enfants&Epouses, et couverture de Markov augmente minimale).
364
Annexe C Outils
Un apprentissage semi-supervis visant rechercher dpendances probabilistes directes du nud cible avec des nuds proches, Le clustering des individus pour la cration dune variable latente (cest--dire sans donnes correspondant dans la base) synthtisant les variables connectes (nombre de modalits spci a priori ou recherch automatiquement). Le clustering des variables pour regrouper les variables proches smantiquement (visualisation dynamique des groupes avec la couleur des nuds et un dendrogramme). Le clustering multiple appliquant un clustering des individus sur chaque concept identi par le clustering de variables (synthse dune nouvelle variable par concept, cration dun nouveau rseau avec les variables originales et les nouvelles variables latentes, cration de la base de donnes correspondant). Des outils de validation pour lvaluation des modles obtenus (matrice de confusion, courbe de lift, courbe de gains, courbe Roc, rapport danalyse de la puret du clustering et cartographie des clusters obtenus).
C.2.4 Exploitation
Le logiciel gre deux types dinfrence : exacte (base sur larbre de jonction) et une infrence approche lorsque les rseaux sont de complexit trop grande. Lapproximation peut se faire soit par chantillonnage stochastique (Likelihood Weighting), soit par infrence exacte sur un graphe simpli (suppression des relations les plus faibles et causant la plus grande complexit). Pour les rseaux de grande taille, un mode dinfrence exacte bas sur les requtes est galement disponible (relevance reasoning). Ce mode permet, par lanalyse des observations et des nuds requts, de construire larbre de jonction minimal. Lexploitation ncessite la possibilit dinsrer des observations dans le rseau. BayesiaLab permet dinsrer des vidences certaines positives ou ngatives (ce nud a cette valeur ou na pas cette valeur), des vraisemblances (une valeur entre 0 et 100 sur chaque modalit), et des distributions de probabilits. BayesiaLab exploite le rseau baysien en interactif ( partir dobservations entres manuellement partir des moniteurs ou automatiquement partir dun chier dobservations) ou en batch (effectuer une srie dvaluations de variables partir dun chier dobservations). x En mode interactif : Lafchage des probabilits marginales ainsi que linsertion des ob 365
C.2. BayesiaLab
F IG . C.3 Exploitation dun rseau appris par BayesiaLab de manire non supervise sur
un questionnaire de satisfaction - tude de limpact dune mauvaise qualit gnrale sur lensemble des facteurs.
servations se fait partir des moniteurs. An dvaluer limpact des observations, les moniteurs peuvent indiquer la variation des probabilits relativement la distribution marginale prcdente ou une distribution de rfrence. Il est galement possible de mettre en vidence les variations maximales positive et ngative. La zone suprieure de la fentre des moniteurs est rserve lafchage de la probabilit jointe correspondant aux observations courantes, au nombre de cas correspondant lorsquune base de donnes est associe, la valeur totale et moyenne lorsque des nuds ont des valeurs numriques associes leurs modalits. Un cot dobservation peut tre associ chaque nud, permettant la gnration automatique dun questionnaire adaptatif centr sur une variable cible ou sur une modalit cible ( quelle est la squence dynamique de questions poser pour estimer, au mieux et moindre cot, la valeur de la variable/modalit cible ). Il permet donc directement de transformer un rseau baysien en outil de diagnostic automatique. Il est possible dassocier un chier dobservations au rseau et de
366
Annexe C Outils
le parcourir interactivement. Les valeurs des variables observables sont alors automatiquement observes avec les valeurs dcrites dans le chier. Une fonction dactualisation baysienne interactive peut galement exploiter ce chier dobservations pour mettre jour les distributions de probabilits des variables non observables. y En mode batch : Lorsque le rseau possde une variable cible, ltiquetage hors ligne permet de calculer, pour chaque ligne de la base, la valeur prdite de la cible et la probabilit sur laquelle repose cette prdiction. Cette mme fonction est disponible galement dans le cadre de lexplication la plus probable. Linfrence hors ligne calcule, pour chaque cas dcrit dans la base, la distribution de probabilits a posteriori de tous les nuds dclars comme non observables. Dans le cas de lexplication la plus probable, les distributions de probabilits sont remplaces par les vraisemblances. La probabilit jointe hors ligne permet de calculer la probabilit jointe de chaque ligne. Les cas atypiques peuvent ainsi tre dtects rapidement. Il est galement possible de gnrer une base de cas correspondant la distribution de probabilits reprsente par le rseau, soit automatiquement en mmoire et associe au rseau, soit dans un chier. La fonction dimputation permet de sauvegarder la base de donnes associe en remplaant les valeurs manquantes par infrence, soit en tirant les valeurs selon la loi a posteriori, soit en choisissant les valeurs ayant le maximum de vraisemblance.
C.2.5 Analyse
Des outils danalyse trs intressants et assez innovants sont intgrs galement dans BayesiaLab. Tous ces outils prennent en compte le contexte des observations. Force des arcs. On parle ici dimportance de larc pour la loi de probabilit exprime par le rseau baysien. Lors de cette analyse, les arcs sont afchs avec une paisseur directement proportionnelle leur force. Cette valeur peut galement servir modier le positionnement automatique des nuds (plus la force est grande, plus les nuds sont proches). Corrlation de Pearson. Les valeurs numriques associes aux modalits des nuds permettent
367
C.2. BayesiaLab
de calculer, pour chaque arc, le coefcient R de Pearson. Les corrlations positives sont afches en bleu, les ngatives en rouge, lpaisseur des arcs dpendant de la force de la corrlation. Apport dinformation pour le nud/modalit cible. Ces fonctions calculent pour chaque nud son apport dinformation sur le nud cible ou une de ses modalits. Analyse de sensibilit de la cible. Cet outil permet de visualiser, sous forme de tours de Hano , limpact des nuds sur le nud cible, cest--dire la plage de variation des probabilits de la cible en fonction des diffrentes valeurs des nuds. Analyse de sensibilit des paramtres. Mesure de limpact de lincertitude associe aux nuds paramtres sur les nuds cibles. Les nuds paramtres sont par dfaut les nuds racines (cest--dire sans parent), les nuds cibles tant par dfaut les nuds feuilles (cest--dire sans enfant). Le rsultat de lanalyse se prsente sous deux formes : une courbe reprsentant la fonction de rpartition des probabilits de chaque modalit, ou un histogramme reprsentant la fonction de densit de probabilits. Explication la plus probable. Calcul de la conguration correspondant la probabilit jointe maximale. Les moniteurs afchent la vraisemblance que les modalits appartiennent cette conguration. La probabilit jointe afche dans la partie suprieure de la zone des moniteurs correspond la probabilit jointe de cette explication la plus probable. dition de rapports complets pour chaque analyse. Visualisation du graphe essentiel. Cette visualisation permet une premire approche de la causalit dans le rseau baysien. Loutil permet galement de choisir lorientation dun arc (connaissance dune causalit) et de propager la contrainte dans lensemble des orientations de la structure avec mise jour des tables de probabilits. Analyse des observations. Calcul dune mesure globale de contradiction des observations et rpartitions des observations en trois groupes : celles conrmant lobservation de rfrence, celles linrmant, et les neutres. Optimisation de la modalit cible. Recherche des combinaisons dobservations permettant de maximiser la probabilit a posteriori de la cible (cest--dire maximisation de la vraisemblance). Il est galement possible de pondrer la vraisemblance par la probabilit jointe des observations (maximisation de la posteriori). Les observations peuvent tre stockes en mmoire ou sauvegardes dans un chier.
368
Annexe C Outils
F IG . C.4 Analyse de rseau baysien sous BayesiaLab : apport dinformation sur une valeur cible du nud Cluster,sensibilit de la modalit Cluster 1, cartographie des 10 valeurs du nud Cluster
C.2.6 Prise en compte de la dimension temporelle

BayesiaLab permet de reprsenter des rseaux baysiens dynamiques. ce sujet, il propose : une reprsentation compacte des rseaux baysiens dynamiques sappuyant sur lhypothse de Markov, du premier ordre ou suprieure ; un nud temps pour la prise en compte explicite du temps dans les quations ; lassociation de chiers dobservations temporelles (observations positives ou vraisemblances) ; une simulation temporelle pas pas ou par priode avec dition graphique des volutions de probabilits et afchage des utilits (moyenne de chacune et somme globale).
C.2.7 Aide la dcision

Lutilisation de nuds de dcision et de nuds dutilit permet BayesiaLab de dnir des politiques dactions visant optimiser lutilit globale. Alors que dans le cas des rseaux baysiens statiques, la politique obtenue par programmation dynamique est optimale, lapprentissage par renforcement utilis dans le cas des rseaux dynamiques ne permet pas de le ga 369
C.2. BayesiaLab
rantir. Les politiques sont directement lisibles dans les tables de qualits associes aux nuds de dcision.
C.2.8 Complments
Pour faciliter le dploiement des rseaux baysiens possdant un nud cible, BayesiaLab possde des modules dexport de la couverture de Markov de cette cible : gnration de macros SAS pour les applications de scoring visant des millions dindividus, gnration de codes PHP et JavaScript pour des applications Web interactives. Bayesia propose galement des APIs1 en langage Java permettant de construire des rseaux baysiens et de faire de linfrence sur ces rseaux dans des logiciels tiers. Ces APIs sont dailleurs exploites par Bayesia Market Simulator, un logiciel permettant de faire du trade-off. Cet outil calcule les parts de march espres pour de nouvelles offres dans un contexte concurrentiel, en utilisant un rseau baysien modlisant le choix des offres en fonction des caractristiques des individus (rseaux appris par BayesiaLab sur des donnes denqutes). Bayesia propose galement une suite logicielle daide au diagnostic et au dpannage des systmes techniques. Cette suite logicielle est principalement compose de BEST Author pour la modlisation hirarchique fonctionnelle des systmes, de BEST Decision Tree pour la modlisation de la connaissance procdurale, de BEST Troubleshooter pour le diagnostic, de BEST Reporting pour le suivi dactivit, et de BEST Data Server pour la centralisation et la gestion des informations persistantes.
C.2.9 Conclusion
Bien que dernier arriv sur le scne des logiciels de manipulation de rseaux baysiens, BayesiaLab a beaucoup datouts et se dmarque par des fonctionnalits originales et une intgration pousse de lensemble du processus, de la modlisation lutilisation. En tant que laboratoire de modlisation, dapprentissage et danalyse de rseaux baysiens, BayesiaLab semble bien fournir lun des environnements les plus complets et les plus professionnels du march.
1
Application Programming Interface : utilisation de loutil comme composant logiciel.
370
Annexe C Outils
C.3 Hugin
C.3.1 Prsentation
Hugin est un outil de construction de rseaux baysiens, probablement le plus connu et le plus utilis commercialement ( http ://www.hugin.com). Cet outil prsente les fonctions principales suivantes : construction de bases de connaissance fondes sur des rseaux baysiens ou des diagrammes dinuence ; dveloppement de rseaux baysiens orients objets ; apprentissage de structure et de paramtres. Il est fourni sous forme dun environnement graphique (Hugin Explorer), et dun environnement de dveloppement (Hugin Developer) permettant de piloter lensemble des fonctions de dnition, dinfrence et dapprentissage partir dune application Java, C ou Visual Basic. La socit danoise Hugin Expert A/S, qui dite ce logiciel, a t cre en 1989 et est base Aalborg au Danemark. La socit a t cre aprs un projet ESPRIT, qui avait pour but de dvelopper des systmes experts de diagnostic dans le domaine mdical. Hugin sest ensuite dveloppe progressivement, toujours en relation troite avec luniversit dAalborg. Hewlett Packard a investi dans Hugin en 1998, en prenant 45 % des parts de la socit.
C.3.2 Construction des modles

La cration de rseaux baysiens dans Hugin Explorer seffectue avec un environnement graphique simple et assez intuitif. Cette interface permet de grer plusieurs types de nuds : nud discret ; nud continu ; nud dutilit ; nud de dcision. La cration de modles prsente cependant certaines contraintes : Hugin ne permet de grer que des nuds continus gaussiens. Un nud continu ne peut pas tre parent dun nud discret. On ne peut pas utiliser dans le mme modle des nuds continus et des nuds dutilit ou de dcision. x Rseaux baysiens variables discrtes La construction dun rseau baysien standard variables discrtes
371
C.3. Hugin
seffectue de faon trs simple en dnissant graphiquement larchitecture du rseau et les tables de probabilits.
La cration de modles avec Hugin seffectue grce un diteur graphique, qui permet de dnir la fois larchitecture du modle et les tables de probabilits dun nud conditionnellement ses parents.
F IG . C.5 Cration de modles avec Hugin La saisie des tables de probabilits peut tre fastidieuse, notamment pour un nud avec beaucoup de parents. Dans ce cas, et si cela est possible, Hugin permet de dnir ce nud comme une expression, arithmtique ou logique, de ltat de ses parents. y Rseaux baysiens continus Hugin permet dutiliser des nuds continus dans un rseau baysien. Lorsquun nud discret est parent dun nud continu, la variance et la moyenne de ce dernier doivent tre dnies selon les tats du nud continu. Lorsquun nud continu est parent dun autre nud continu, la distribution de ce dernier est gale la somme de deux lois normales, lune dnie a priori, et lautre gale la distribution du nud parent. z Diagrammes dinuence Un diagramme dinuence est, par dnition, un rseau baysien auquel on a ajout des nuds de dcision et dutilit. Lexemple cidessus dcrit la modlisation dune prise de dcision dans le domaine du forage ptrolier. Un ingnieur doit choisir ou non de creuser un certain point. Il ne connat pas la quantit de ptrole ventuellement prsente. Le puits peut tre sec, humide, ou imbib de ptrole.
372
Annexe C Outils
Les nuds continus dans Hugin sont des distributions gaussiennes ou des mixtures de distributions gaussiennes. Un nud discret ou un nud continu peuvent tre parents de nuds continus, mais un nud continu ne peut pas tre parent dun nud discret.
F IG . C.6 Modles continus avec Hugin
Pour avoir une information complmentaire, lingnieur peut dcider de faire une mesure dcho sismique sur ce puits. Le rsultat de ce test indiquera que la structure du terrain est ferme (ce qui est un bon signe de prsence de ptrole), ouverte (moyen), ou sans structure (prsence de ptrole improbable). La structure des cots est la suivante. Le test sismique cote 10 000 $, creuser cote 70 000 $. La recette attendue si le puits est imbib est de 270 000 $, de 120 000 $ sil est humide, et de 0 $ sil est sec. Enn, bien entendu, si lingnieur dcide de ne pas creuser, la recette attendue est nulle. Hugin permet de reprsenter ce problme grce au diagramme dinuence de la gure C.7 ci-aprs. La premire dcision est deffectuer ou non le test sismique. Si on dcide de faire ce test, le rsultat obtenu sera fonction de la conguration relle du puits, avec une certaine incertitude. partir du rsultat du test sismique, on dcidera de creuser ou non. Le diagramme dinuence permet de guider la dcision, car il indique lutilit espre de chaque dcision. Ainsi lutilit a priori de faire le test sismique est lgrement suprieure (22.5) celle de ne pas le faire (20).
373
C.3. Hugin
Ce diagramme dinuence comporte deux dcisions : effectuer ou non un test sismique, et procder ou non au forage. En fonction de ces dcisions, et de la ralit du puits, une utilit globale (ici le bnce attendu) est mesure.
F IG . C.7 Diagrammes dinuence avec Hugin
C.3.3 Infrence
Linfrence dans Hugin seffectue grce au calcul dun arbre de jonction sur le rseau. Le mode le plus simple dinfrence consiste entrer des observations dans le rseau, simplement en cliquant sur la valeur observe. Les copies dcran de la gure C.8 ci-aprs montrent lutilisation de linfrence pour lexemple de larrosage du jardin tudi dans les premires pages du livre. Dans lcran de gauche, aucune observation na t effectue. Dans lcran de droite, lobservation lherbe du jardin est mouille a t effectue, et les probabilits des autres nuds sont rvises. Hugin permet galement de saisir des observations partielles, grce la fonction de saisie de vraisemblance. Dans lexemple du forage ci-dessus, on peut disposer de linformation selon laquelle le puits nest pas sec : il est donc ncessairement humide ou imbib. Cette information peut tre entre dans Hugin en indiquant que la vraisemblance de lobservation Le puits est sec est nulle. On remarque alors que, sauf information complmentaire, les probabilits des deux autres vnements restent dans le mme rapport quinitialement. Lutilit de raliser le test sismique devient alors infrieure celle de ne pas le faire : en effet, le puits tant certainement humide ou imbib, le forage aura toujours un rsultat bnciaire, et le test devient inutile.
374
Annexe C Outils
F IG . C.8 Utilisation de Hugin pour linfrence
Le type dinfrence standard, cest--dire le calcul de la probabilit des nuds non observs conditionnellement aux observations, sappelle la propagation Sum normal dans Hugin, qui offre dautres modes dinfrences. En particulier, la propagation Max normal permet de trouver la conguration du rseau la plus probable, ayant effectu certaines observations.
Linfrence dans Hugin peut galement seffectuer partir dobservations partielles, comme ci-dessus.
F IG . C.9 Observations partielles dans Hugin
375
C.3. Hugin
C.3.4 Apprentissage
Hugin permet lapprentissage de structure partir des deux algorithmes PC et NPC. Cette fonction est prsente comme un assistant, ou wizard, en plusieurs tapes : Acquisition des donnes : choix dun chier ou dune table de base de donnes. Prtraitement des donnes : slection des entres, discrtisation, etc. Contraintes structurelles : ici lutilisateur peut spcier manuellement les dpendances ou indpendances connues entre les variables. Apprentissage : choix de lalgorithme PC ou NPC. Rsolution des incertitudes : lutilisateur est sollicit ici dans le cas o certains liens, ou certaines orientations des liens nont pu tre tablies par lalgorithme. Slection des liens : lutilisateur peut visualiser la signicativit de chacun des liens, et slectionner ceux qui dpassent un certain seuil. Distribution a priori : si une information sur la distribution des donnes est connue, on peut lindiquer ce stade, ainsi que le nombre dexemples sur lesquels cette information a t obtenue. Apprentissage EM : cest la dernire tape, au cours de laquelle les tables de probabilits du rseau sont apprises.
Lune des tapes de lassistant dapprentissage de Hugin : la dnition des contraintes structurelles, cest--dire des dpendances et indpendances connues entre les variables.
F IG . C.10 Lassistant dapprentissage de structure dans Hugin
376
Annexe C Outils
Lapprentissage de paramtres, cest--dire des tables de probabilits, peut seffectuer tout moment sur un rseau existant. Deux options existent pour cet apprentissage : Lapprentissage squentiel, aussi appel adaptation, permet de modier la distribution du rseau partir de chaque exemple observ. Lapprentissage global permet de recalculer les tables de probabilits du rseau partir dun ensemble dexemples. Lapprentissage global est ralis par lalgorithme EM. Signalons enn que Hugin peut galement tre utilis pour gnrer des bases de cas partir dun rseau entirement dni.
C.3.5 Complments
Une fonctionnalit intressante de Hugin est la possibilit de grer des rseaux imbriqus, appels rseaux orients objet. Il sagit dinsrer une instance dun rseau dj cr au sein dun nouveau rseau, en le reprsentant par un seul nud. Hugin offre galement une API, cest--dire une interface programmeur, complte. Cette API est disponible en C/C++, Java, et Visual Basic. Un langage de reprsentation de rseaux baysiens permet galement de crer des rseaux baysiens par dautres biais, pour les charger et les manipuler ensuite dans Hugin. Un produit driv de Hugin, Hugin Advisor, a t cr pour faciliter le dveloppement dapplications de diagnostic. Advisor est particulirement adapt pour les centres dappels de dpannage, an de guider les oprateurs. Advisor permet en quelque sorte de systmatiser lapproche des questionnaires adaptatifs qui a t prsente dans lune des tudes de cas ci-dessus. La squence de questions poses est optimise pour aboutir le plus rapidement possible (en probabilit) un diagnostic.
C.3.6 Conclusion
Hugin est aujourdhui lun des produits les plus robustes et les plus simples utiliser pour construire des rseaux baysiens. Il dispose dalgorithmes puissants et est trs facile intgrer dans des applications existantes. Mme si les autres produits prsents dans cette section sont des challengers srieux, en particulier pour lapprentissage de structure qui est relativement rcent dans Hugin, Hugin reste un produit de rfrence.
377
C.4. Netica
C.4
Netica
C.4.1 Prsentation
Dvelopp depuis 1992 et commercialis depuis 1995 par la socit canadienne Norsys (http ://www.norsys.com), base Vancouver, le logiciel de rseaux baysiens Netica est actuellement lun des plus diffuss lchelle mondiale. Netica est utilis pour le diagnostic, la prvision ou la simulation dans les domaines de la nance, de lenvironnement, de la mdecine, de lindustrie et dans un grand nombre dapplications ncessitant de raisonner en univers incertain. Une version gratuite du logiciel, entirement fonctionnelle, est tlchargeable sur le site Internet de Norsys. Les seules limitations de la version gratuite sont que la taille des rseaux baysiens est limite 15 variables et que lapprentissage partir de donnes ne peut tre effectu que par chantillons de 1 000 cas la fois. Norsys propose des tarifs rduits pour les tudiants et enseignants.
C.4.2 Construction des modles

La cration dun rseau baysien ou dun diagramme dinuence sous Netica seffectue, comme avec la majorit des logiciels, par lintermdiaire dune interface graphique (gure C.11 ci-aprs). Lutilisateur cre et dispose les nuds correspondant aux variables alatoires, de dcision ou dutilit du modle, puis prcise la structure du rseau en traant les liens entre variables. Dans un deuxime temps, les relations entre variables sont dcrites en saisissant numriquement les tables de probabilits conditionnelles, en utilisant des quations ou encore en spciant les paramtres de lois de probabilits prdnies. Linterface de Netica permet dintroduire des variables continues, que lon dnit par des quations ou en utilisant les lois de probabilits continues classiques. Cependant, les algorithmes internes de Netica ne grent en ralit que les variables alatoires discrtes. Il est donc ncessaire de discrtiser lensemble des valeurs possibles des variables continues. En fonction de la nesse de la discrtisation, une certaine imprcision entache ainsi la prcision des calculs (notamment parce que les tables de probabilits sont remplies par tirages alatoires). Il faut cependant garder lesprit que les algorithmes permettant de grer des variables continues dans les rseaux baysiens ne sappliquent que sous certaines conditions (distributions normales, linarit des relations entre variables). Par consquent, lutilisation de tels algorithmes implique souvent des approximations qui introduisent galement de limprcision. Le choix de lapproxi 378
Annexe C Outils
F IG . C.11 Netica : exemple de diagramme dinuence comprenant deux variables alatoires, une variable de dcision et une fonction dutilit
mation la plus convenable dpend naturellement de lapplication. Les novices apprcient la sobrit et la simplicit de linterface graphique qui permettent une prise en main rapide du logiciel. Pour qui dispose de notions lmentaires de probabilits, lautoformation loutil seffectue gnralement en quelques heures. Les utilisateurs plus avancs dcouvrent, par la pratique, les nombreux raccourcis et astuces de saisies qui simplient remarquablement la phase de cration des modles.
C.4.3 Infrence
Lorsque la saisie du modle est termine, lutilisateur compile le rseau baysien, cest--dire quil ordonne Netica de transformer le modle en un arbre de jonction grce auquel linfrence probabiliste devient possible. Larbre de jonction restera invisible pour lutilisateur, mme si sa structure peut tre imprime si ncessaire. Lutilisateur spcie laide de linterface graphique une ou plusieurs observations et visualise immdiatement leur impact sur les autres variables, calcul par loutil en propageant les observations travers larbre de jonction (lalgorithme utilis est rapide et mathmatiquement exact). Les observations peuvent prendre diffrentes formes, telles que la variable X a une certaine valeur , la variable Y na pas une certaine valeur , sexprimer laide de vraisemblances probabilistes, etc. Netica peut inverser des liens, absorber des nuds, en gardant bien sr inchange la loi de probabilit globale du rseau baysien. Ces oprations
379
C.4. Netica
sont utiles pour transformer un rseau baysien lors de sa construction, ou pour explorer les relations entre les variables dun modle construit par apprentissage partir de donnes. Elles peuvent galement tre utilises pour linfrence probabiliste, mais cela ne prsente pas dintrt, larbre de jonction tant plus efcace.
C.4.4 Apprentissage
Netica permet lapprentissage de tables de probabilits partir de donnes, au moyen dun algorithme dapprentissage baysien. Lensemble des tables de probabilits dun rseau baysien peuvent donc tre spcies en introduisant une base de donnes ou un chantillon de cas, de taille sufsamment grande. Netica reconnat les chiers CSV, les chiers texte dlimits par des tabulations, ainsi que les bases de donnes compatibles ODBC. Si le nombre de donnes manquantes est important, Netica utilise soit lalgorithme de maximisation de lesprance, soit une mthode de descente de gradient (semblable la descente de gradient des rseaux neuronaux). Dans certaines applications, ces algorithmes se rvlent efcaces pour apprendre des relations avec des variables pour lesquelles il nexiste pas de donnes (nuds cachs ou variables latentes). Un algorithme dapprentissage de structure sera prochainement disponible dans le logiciel.
C.4.5 Autres fonctionnalits

Netica dispose de nombreuses autres fonctionnalits, dont certaines ne sont offertes que par ce logiciel : tudes de sensibilit permettant de mesurer linuence dune variable sur une autre (information mutuelle, rduction de variance, etc.) ; traitement dun chier de cas (par exemple pour faire automatiquement de linfrence sur chaque cas) avec cration dun chier de rsultats ; utilisation dun chier de cas pour valuer les performances (en diagnostic ou en prvision) dun rseau baysien, avec des mesures du type taux derreur, scoring logarithmique et quadratique (Brier), courbe ROC, matrice de confusion ; expansion temporelle dun rseau baysien ; fonction diff, pour visualiser les diffrences entre deux rseaux baysiens ; cryptage dun rseau baysien, permettant de livrer un utilisateur nal une application sans que celui-ci nait accs la structure interne
380
Annexe C Outils
du modle ; possibilit dintroduire plusieurs variables de dcision et dutilit dans un diagramme dinuence, obtention de la solution maximisant lesprance de lutilit et visualisation de lesprance de lutilit de chaque dcision possible ; interface graphique proposant de multiples reprsentations graphiques des nuds, lintroduction de commentaires, la cration de liens non rectilignes (pour amliorer la lisibilit), le copier-coller vers dautres applications ; trs nombreuses fonctions mathmatiques et lois de probabilit prdnies (dont certaines spciques aux rseaux baysiens, comme le ou , le max et la somme bruits noisy). De nouvelles fonctions ont t introduites rcemment : gnration de graphiques SVG, pour une meilleure qualit de publication papier ou Internet ; discrtisation automatique de variables continues partir dun chier de cas ; coloriage des nuds ; nouveau format des chiers .neta (format binaire plus compact et plus rapide que lancien format texte .dne, qui demeure nanmoins oprationnel) ; possibilit de masquer les informations condentielles dun rseau baysien an de protger la proprit intellectuelle ; dnition et gestion densembles de nuds. La qualit de la documentation de Netica est remarquable. Laide en ligne du logiciel, en particulier, est trs complte et pdagogique. LAPI de Netica, disponible sur le site de Norsys, permet aux dveloppeurs dintgrer les rseaux baysiens et le raisonnement probabiliste dans leurs propres logiciels. Les langages C, C++, Java et Visual Basic sont reconnus directement. Dautres langages (Prolog, LISP ou FORTRAN) mme de sinterfacer avec les premiers cits peuvent galement tre utiliss. LAPI de Netica est entirement compatible avec linterface graphique : un modle construit avec lAPI peut tre dit avec linterface graphique, et rciproquement. Il est mme possible dutiliser lAPI et linterface graphique simultanment. Ainsi, un utilisateur nal peut diter graphiquement un rseau baysien, tandis que le programmeur dbogue lapplication, ce qui facilite le dveloppement.
381
C.5. Elvira
C.4.6 Conclusion
Dune conception simple, et dot dune interface graphique conviviale, Netica est assurment un excellent logiciel pour qui souhaite sinitier rapidement aux rseaux baysiens. Les experts apprcient galement sa puissance et la facilit avec laquelle loutil permet de dployer des solutions oprationnelles base de rseaux baysiens. Le produit se prte remarquablement aux applications industrielles des rseaux baysiens, et notamment celles dans lesquelles la connaissance dcrite est essentiellement dorigine experte. La reprsentation graphique des modles par Netica, simple et expressive, constitue un support de brainstorming trs efcace. La rapidit de la compilation et de linfrence, ainsi que la visualisation des lois de probabilits par des histogrammes contribuent galement faciliter la validation du modle par les experts. En raison de la large diffusion du logiciel, de nombreuses organisations travers le monde proposent des services et des ressources lies Netica : formations, tutoriels, algorithmes dapprentissage de structure, interface de programmation en LISP, etc.
C.5
Elvira
C.5.1 Introduction
Le logiciel de construction et dutilisation de modles probabilistes graphiques Elvira est dvelopp par les universits dAlmera, du Pays Basque, de Castille-La Manche, de Grenade et par luniversit nationale denseignement distance (UNED). La cration dElvira sest effectue dans le cadre de deux projets de recherche soutenus par le ministre espagnol de la science et de la technologie : ELVIRA, de 1997 2001 et ELVIRA II, de 2001 2004. Plus prcisment, ces projets ont donn lieu une mise en commun de moyens par diffrentes quipes de recherche qui auparavant travaillaient isolment sur plusieurs aspects des modles probabilistes graphiques comme lapprentissage, la propagation, ou les diagrammes dinuence. Il tait frquent quune quipe soit oblige de dvelopper un outil pour tester un algorithme particulier. Dans le but damliorer ce fonctionnement, les diffrentes quipes ont dans un premier temps envisag dutiliser lun des logiciels du march, mais ont renonc cette possibilit, considrant que ces logiciels noffraient pas sufsamment de exibilit pour une activit de recherche.
382
Annexe C Outils
Bien videmment, les logiciels commerciaux ne permettaient pas de faire voluer le code, et les logiciels libres ont t considrs comme trop restreints dans leur fonctionnalits ou ncessitant trop de travail pour les adapter.
F IG . C.12 Le rseau baysien Asia, saisi sous le logiciel Elvira
Elvira est dot dune interface graphique conviviale et peut tre utilis dans le cadre dapplications oprationnelles. Cependant, sa vocation premire est bien dtre un outil de recherche, qui offre la possibilit dimplmenter et de tester de nouveaux algorithmes, quil sagisse dapprentissage, de propagation, ou de dcision. Typiquement, il est possible dans Elvira de faire effectuer la mme tche par plusieurs algorithmes, ce qui permet de comparer leurs performances respectives. On peut citer titre dexemple les nombreuses mthodes de calcul approch des rseaux baysiens dont dispose loutil. Les programmeurs dElvira font voluer le logiciel de manire continue, ce qui peut apparatre comme une faiblesse, mais se rvle ncessaire pour les besoins de recherche des diffrents participants.
383
C.5. Elvira
crit en Java, Elvira fonctionne sous Unix, Linux et Windows. Elvira est un projet ouvert. Lenvironnement et tous les codes sources sont librement tlchargeables sur Internet, ladresse : leo.ugr.es/~elvira
C.5.2 Le format Elvira

La dnition du format Elvira a constitu la toute premire tape du projet. Ce format permet de reprsenter dune manire intuitive et laide de chiers ASCII (dextension .elv) les rseaux baysiens et les diagrammes dinuence, mais aussi les bases de donnes, les ensembles dobservation, ou les rsultats dexpriences. La gure C.13 montre titre dexemple le rseau baysien de lexercice 3.1.1 page 42 au format Elvira.
// Bayesian Network // Elvira format bnet "reseau_simple" { // Network Properties kindofgraph = "directed" ; visualprecision = "0.00" ; version = 1.0 ; default node states = (present , absent) ; // Variables node S(finite-states) { title = "Sexe" ; kind-of-node = chance ; type-of-variable = finite-states ; pos_x =136 ; pos_y =82 ; relevance = 7.0 ; purpose = "" ; num-states = 2 ; states = ("femme" "homme") ; } node D(finite-states) { title = "Daltonisme" ; kind-of-node = chance ; type-of-variable = finite-states ; pos_x =322 ; pos_y =103 ;
relevance = 7.0 ; purpose = "" ; num-states = 2 ; states = ("present" "absent") ; } // Links of the associated graph link S D ; //Network Relationships : relation S { comment = "" ; kind-of-relation = potential ; deterministic=false ; values= table (0.5 0.5 ) ; } relation D S { comment = "" ; kind-of-relation = potential ; deterministic=false ; values= table (0.0050 0.08 0.995 0.92 ) ; } }
F IG . C.13 Exemple de rseau baysien au format Elvira
C.5.3 Interface graphique

Linterface graphique dElvira ressemble celle dautres logiciels. Elle fonctionne en trois modes : dition, apprentissage ou infrence. En mode dition, lutilisateur cre le rseau baysien ou le diagramme dinuence et dispose de fonctions habituelles comme Undo-Redo (annulation ou rptition de la dernire action), un zoom, etc. Le mode apprentissage est utilis
384
Annexe C Outils
pour construire des rseaux baysiens partir de bases de donnes. En mode infrence, plusieurs possibilits particulirement intressantes sont offertes : par exemple, Elvira peut colorer les liens ou leur donner des paisseurs variables en fonction de certaines considrations sur la nature des liens, ce qui donne une vision qualitative des liens entre variables. Elvira est capable de dtecter automatiquement les nuds importants dun rseau baysien et de leur appliquer un mode dafchage dtaill, comprenant des histogrammes reprsentant les lois de probabilit de chaque variable. Il est possible dafcher simultanment plusieurs lois de probabilit pour une mme variable, par exemple la loi marginale et la loi conditionnelle lobservation dun cas. Elvira peut galement colorier les nuds pour montrer qualitativement limpact dune observation.
F IG . C.14 Fonctions dapprentissage du logiciel Elvira
C.5.4 Principales fonctionnalits

Plusieurs mthodes de propagation, exactes ou approches, sont implmentes dans Elvira. Il est possible deffectuer une infrence directement partir de la ligne de commande ou via linterface graphique. La gure C.12 page 383 est une copie dcran du logiciel qui montre une infrence dans le rseau baysien Asia, partir de deux observations (le patient est nonfumeur ; le rsultat de sa radiographie est anormal ). Elvira est dot dalgorithmes dapprentissage de paramtres et de structure. Les algorithmes dapprentissage de structure sont fonds sur les tests dindpendance conditionnelle et sur les fonctions de scoring : algorithme PC, K2, etc. La gure C.14 montre un choix dalgorithmes qui soffre lutilisateur lorsque celui-ci importe dans Elvira une base dexemples. Elvira est capable de traiter des rseaux baysiens comportant des variables conti 385
C.5. Elvira
F IG . C.15 Exemple de rseau baysien comportant des variables continues (logiciel Elvira)
nues (gure C.15 ). Cependant, les fonctionnalits dapprentissage sont rserves aux rseaux baysiens variables discrtes uniquement.
386
Remerciements
Nous tenons remercier toutes les personnes ayant contribu lcriture de cet ouvrage, et tout particulirement Brent Boerlage, Marc Bouissou, Andrs Cano, Gilles Deleuze, Anne Dutfoy, Timothy Haas, Richard Holthausen, Rgis Lebrun, Danny Lee, Randy Molina, Brian Nyberg, Scott McNay, Sandrine Pierlot, Martin Raphael, Diego Rodrguez Leal, Mary Rowland, Doug Steventon, Randy Sulyma, Glenn Sutherland, Adrian Walton et Jennie Yendall.
Bibliographie
[AdC01] Silvia Acid et Luis M. de Campos. A hybrid methodology for learning belief networks : Benedict. Int. J. Approx. Reasoning, 27(3) :235262, 2001. R. N. Allan et M. G. Da Silva. Evaluation of reliability indices and outage costs in distribution systems. IEEE Transactions on Power Systems, 10(1), 1994. H. Akaike. Statistical predictor identication. Ann. Inst. Statist. Math., 22 :203217, 1970. C. Alexander. Mastering Operational Risk. FT Prentice Hall, London, 2002. S. Andersson, D. Madigan, et M. Perlman. A characterization of markov equivalence classes for acyclic digraphs. Technical Report 287, Department of Statistics, University of Washington, 1995. A. R. Ali et T. Richardson. Markov equivalence classes for maximal ancestral graphs. In Proc. of the 18th Conference on Uncertainty in Articial Intelligence (UAI), pages 19, 2002. Ayesha R. Ali, Thomas Richardson, Peter Spirtes, et J. Zhang. Orientation rules for constructing markov equivalence classes of maximal ancestral graphs. Technical Report 476, Dept. of Statistics, University of Washington, 2005. AS/NZS. Risk Management : Australia/New Zealand standards. AS/NZS 4360, 1999. Hagai Attias. Inferring parameters and structure of latent variable models by variational bayes. In Kathryn B. Laskey et Henri Prade, editors, Proceedings of the 15th Conference on Uncertainty in Articial Intelligence (UAI-99), pages 2130, S.F., Cal., July 30August 1 1999. Morgan Kaufmann Publishers. A. Aho et J. Ullman. Concepts fondamentaux de linformatique. Dunod, 1998.
[ADS94]
[Aka70] [Ale02] [AMP95]
[AR02]
[ARSZ05]
[AS/99] [Att99]
[AU98]
Rseaux baysiens
[AW02]
Vincent Auvray et Louis Wehenkel. On the construction of the inclusion boundary neighbourhood for markov equivalence classes of Bayesian network structures. In Adnan Darwiche et Nir Friedman, editors, Proceedings of the 18th Conference on Uncertainty in Articial Intelligence (UAI-02), pages 2635, S.F., Cal., 2002. Morgan Kaufmann Publishers. B. M. Ayyub. Elicitation of Expert Opinions for Uncertainty and Risks. CRC Press, 2001. R. Billinton et R. A. Allan. Reliability Assessment of Large Electric Power Systems. Kluwer Academic Publishers, 1988. Bernard Barthlmy. Gestion des risques : mthode doptimisation globale. ditions dOrganisation, 1998. P. J. Bacon, J. D. Cain, et D. C. Howard. Belief network models of land manager decisions and land use change. Journal of Environmental Management, 65(1) :123, 2002. C. Berge. Thorie des graphes et ses Applications. Dunod, 1958. C. Berge. Graphs and Hypergraphs. North-Holland, Amsterdam, 1973.
[Ayy01] [BA88] [Bar98] [BCH02]
[Ber58] [Ber73]
[BGH+02] R. Barco, R. Guerrero, G. Hylander, L. Nielsen, M. Partanen, et S. Patel. Automated troubleshooting of mobile networks using Bayesian networks. In IASTED International Conference Communication Systems and Networks, Malaga, Spain, 2002. [BGS97] A. Becker, D. Geiger, et A. A. Schffer. Automatic selection of loop breakers for genetic linkage analysis. Technical report, Computer Science Department, Technion, Israel, March 1997. J. Bromley, N. A. Jackson, O. J. Clymer, A. M. Giacomello, et F. V. Jensen. The use of Hugin to develop Bayesian networks as an aid to integrated water resource planning. Environmental Modelling and Software, 20(2) :231242, 2005. C. Borgelt et R. Kruse. Graphical Models - Methods for Data Analysis and Mining. John Wiley & Sons, Chichester, United Kingdom, 2002. R. Billinton et W. Li. A Monte-Carlo method for multi-area generation system reliability assessment. IEEE Transactions on Power Systems, 7(4), 1992. R. Billinton et W. Li. Reliability Assessment of Electrical Power Systems Using A Monte Carlo Approach. Kluwer Academic Publishers, 1994. O. Bangs, H. Langseth, et T. D. Nielsen. Structural learning in Object Oriented Domains. In I. Russell et J. Kolen, editors,
390
[BJC+05]
[BK02]
[BL92]
[BL94]
[BLN01]
B IBLIOGRAPHIE
[BM03]
[BM04]
[Bou93]
[BRM02]
[BS95]
[BT98]
[Bun91]
[BW00]
[Cai04]
[CBL97a]
Proceedings of the Fourteenth International Florida Articial Intelligence Research Society Conference (FLAIRS-01), pages 340344, Key West, Florida, USA, 2001. AAAI Press. Bernadette Bouchon-Meunier et Christophe Marsala. Logique oue, principes, aide la dcision. Trait IC2, srie informatique et systmes dinformation. ditions Hermes, 2003. M. Bendou et P. Munteanu. Nouvel algorithme dapprentissage des classes dquivalence des rseaux baysiens. In Michel Liquire et Marc Sebban, editor, Sixime Confrence Apprentissage CAp2004, pages 129141, Montpellier, France, 2004. Presses Universitaires de Grenoble. R. Bouckaert. Probabilistic network construction using the minimum description length principle. Lecture Notes in Computer Science, 747 :4148, 1993. Mark Brodie, Irina Rish, et Sheng Ma. Intelligent probing : A cost-effective approach to fault diagnosis in computer networks. IBM Systems Journal, 41(3) :372385, 2002. R. Billinton et A. Sankarakrishnan. Sequential Monte Carlo simulation for composite power system reliability analysis with time varying loads. IEEE Transactions on Power Systems, 10(1), 1995. C. M. Bishop et M. E. Tipping. A hierarchical latent variable model for data visualisation. IEEE T-PAMI, 3(20) :281293, 1998. W. Buntine. Theory renement on Bayesian networks. In Bruce DAmbrosio, Philippe Smets, et Piero Bonissone, editors, Proceedings of the 7th Conference on Uncertainty in Articial Intelligence, pages 5260, San Mateo, CA, USA, July 1991. Morgan Kaufmann Publishers. Olav Bangs et Pierre-Henri Wuillemin. Object Oriented Bayesian Networks : A framework for topdown specication of large Bayesian networks and repetitive structures, Technical Report CIT-87.2-00-obphw1. Technical report, Department of Computer Science, University of Aalborg, September 2000. Jeremy Cain. Planning improvements in natural resources management guidelines for using Bayesian networks to support the planning and management of development programmes in the water sector and beyond. Centre for Ecology and Hydrology, UK, 2004. Jie Cheng, David Bell, et Weiru Liu. An algorithm for Bayesian network construction from data. In Proceedings of the 6th International Workshop on Articial Intelligence and Statistics AI&STAT97, pages 8390, 1997.
391
Rseaux baysiens
Jie Cheng, David Bell, et Weiru Liu. Learning belief networks from data : An information theory based approach. In Proceedings of the sixth ACM International Conference on Information and Knowledge Management CIKM, pages 325331, 1997. [CBW99] J. D. Cain, C. H. Batchelor, et D. K. N. Waughray. Belief networks : a framework for the participatory development of natural resource management strategies. Environment, Development and Sustainability, 1 :123133, 1999. [CC02] Fabio Cozman et Ira Cohen. Unlabeled data can degrade classication performance of generative classiers. In Fifteenth International Florida Articial Intelligence Society Conference, pages 327331, 2002. [CDLS99] Robert Cowell, A. Dawid, Steffen Lauritzen, et David Spiegelhalter. Probabilistic Networks and Expert Systems. Statistics for Engineering and Information Science. Springer-Verlag, 1999. [CG99] Jie Cheng et Russell Greiner. Comparing Bayesian network classiers. In Proceedings of the Fifteenth Annual Conference on Uncertainty in Articial Intelligence (UAI99), pages 101108, San Francisco, CA, 1999. Morgan Kaufmann Publishers. [CG01] Jie Cheng et Russell Greiner. Learning Bayesian belief network classiers : Algorithms and system. In Proceedings of the Canadian Conference on AI 2001, volume 2056, pages 141151, 2001. [CGH95] D. Chickering, D. Geiger, et D. Heckerman. Learning Bayesian networks : Search methods and experimental results. In Proceedings of Fifth Conference on Articial Intelligence and Statistics, pages 112128, 1995. [CGK+02] Jie Cheng, Russell Greiner, Jonathan Kelly, David Bell, et Weiru Liu. Learning Bayesian networks from data : An informationtheory based approach. Articial Intelligence, 137(12) :4390, 2002. [CH92] G. Cooper et E. Hersovits. A Bayesian method for the induction of probabilistic networks from data. Machine Learning, 9 :309347, 1992. [CH96] D. Chickering et D. Heckerman. Efcient Approximation for the Marginal Likelihood of Incomplete Data given a Bayesian Network. In UAI96, pages 158168. Morgan Kaufmann, 1996. [Chi95] David Chickering. A transformational characterization of equivalent Bayesian network structures. In Philippe Besnard et Steve Hanks, editors, Proceedings of the 11th Conference on Uncertainty in Articial Intelligence (UAI95), pages 8798, San Francisco, CA, USA, August 1995. Morgan Kaufmann Publishers.
392
[CBL97b]
B IBLIOGRAPHIE
[Chi96]
David Chickering. Learning equivalence classes of Bayesian network structures. In Eric Horvitz et Finn Jensen, editors, Proceedings of the 12th Conference on Uncertainty in Articial Intelligence (UAI-96), pages 150157, San Francisco, August 14 1996. Morgan Kaufmann Publishers. David Chickering. Learning equivalence classes of Bayesiannetwork structures. Journal of Machine Learning Research, 2 :445 498, February 2002. David Chickering. Optimal structure identication with greedy search. Journal of Machine Learning Research, 3 :507554, November 2002. R. Christensen. Log-Linear Models and Logistic Regression. Springer, 1997. R. Castelo et T. Kocka. Towards an inclusion driven learning of Bayesian networks. Technical Report UU-CS-2002-05, Institute of information and computing sciences, University of Utrecht, 2002. C. K. Chow et C. N. Liu. Approximating discrete probability distributions with dependence trees. IEEE Trans. on Info. Theory, IT-l4 :462467, 1968. J. S. Clark. Uncertainty and variability in demography and population growth : a hierarchical approach. Ecology, 84(6) :1370 1381, 2003. T. Cormen, C. Leiserson, et R. Rivest. Introduction lalgorithmique. Dunod, 1994. David Chickering et Christopher Meek. Finding optimal Bayesian networks. In Adnan Darwiche et Nir Friedman, editors, Proceedings of the 18th Conference on Uncertainty in Articial Intelligence (UAI-02), pages 94102, S.F., Cal., 2002. Morgan Kaufmann Publishers. G. Cooper. Probabilistic inference using belief network is nphard. Technical Report KSL-87-27, Medical Computer Science, Stanford University, Stanford, California, 1988. G. Cooper. Computational complexity of probabilistic inference using Bayesian belief networks. Articial Intelligence, 42(2) :393405, 1990. F. Corset. Optimisation de la maintenance partir de rseaux baysiens et abilit dans un contexte doublement censur. PhD thesis, Universit Joseph Fourier, 2003.
393
[Chi02a]
[Chi02b]
[Chr97] [CK02]
[CL68]
[Cla03]
[CLR94] [CM02]
[Coo88]
[Coo90]
[Cor03]
Rseaux baysiens
[CS96]
P. Cheeseman et J. Stutz. Bayesian classication (AUTOCLASS) : Theory and results. In U. Fayyad, G. PiatetskyShapiro, P Smyth, et R. Uthurusamy, editors, Advances in Knowledge Discovery and Data Mining, pages 607611. AAAI Press/MIT Press, 1996. CSA. Gestion des risques : guide lintention des dcideurs (Norme nationale du Canada). CAN/CSA-Q850-97, 1997. Gregory F. Cooper et Changwon Yoo. Causal discovery from a mixture of experimental and observational data. In UAI 99 : Proceedings of the Fifteenth Conference on Uncertainty in Articial Intelligence, pages 116125, 1999. Bruce Dambrosio. Incremental probabilistic inference. In Proceedings of the ninth Conference on Uncertainty in Articial Intelligence, pages 301308. Morgan Kaufmann, 1993. A. P. Dawid. Conditionnal independence in statistical theory. Journal of the Royal Statistical Society, Series B, 41(1) :139, 1979. A. Dawid. Conditionnal independence. In S. Kotz, S. C. Read, et D. L. Banks, editors, Encyclopedia of Statistical Science, pages 146155. Wiley-interscience, New York, 1998. R. Davis, B. G. Buchanan, et E. H. Shortliffe. Retrospective on Production rules as a representation for a knowledge-based consultation program. Articial Intelligence, 59 :181189, 1993. Denver Dash et Marek J. Druzdzel. A hybrid anytime algorithm for the construction of causal models from sparse data. In Kathryn B. Laskey et Henri Prade, editors, Proceedings of the Fifteenth Conference on Uncertainty in Articial Intelligence, UAI 99, pages 142149. Morgan Kaufmann, 1999. Marek Druzdzel et F. Dez. Criteria for combining knowledge from different sources in probabilistic models. In Working Notes of the workshop on Fusion of Domain Knowledge with Data for Decision Support, Sixteenth Annual Conference on Uncertainty in Articial Intelligence (UAI2000), pages 2329, Stanford, CA, 30 June 2000. Denver Dash et Marek J. Druzdzel. Robust independence testing for constraint-based learning of causal structure. In UAI 03, Proceedings of the 19th Conference in Uncertainty in Articial Intelligence, pages 167174, 2003. F. J. Dez et M. J. Druzdzel. Canonical probabilistic models for knowledge engineering. Technical Report, CISIAD, UNED, Madrid, 2006. In preparation.
394
[CSA97] [CY99]
[Da93]
[Daw79] [Daw98]
[DBS93]
[DD99]
[DD00]
[DD03]
[DD06]
B IBLIOGRAPHIE
[dH00]
[Die93]
[DLR77]
[DT92]
[DVHJ00]
[EGS05]
[Elv02]
[ES95]
[ESH96]
[FGG97] [FGW99]
Luis de Campos et Juan Huete. A new approach for learning belief networks using independence criteria. International Journal of Approximate Reasoning, 24(1) :1137, 2000. F. Diez. Parameter adjustement in Bayes networks. The generalized noisy ORgate. In Proceedings of the 9th Conference on Uncertainty in Articial Intelligence, pages 99105, Washington D. C., 1993. Morgan Kaufmann, San Mateo, CA. A. Dempster, N. Laird, et D. Rubin. Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, B 39 :138, 1977. D. Dor et M. Tarsi. A simple algorithm to construct a consistent extension of a partially oriented graph. Technical Report R185, Cognitive Systems Laboratory, UCLA Computer Science Department, 1992. M. Druzdel, L. Van der Gaag, M. Henrion, et F. Jensen. Building probabilistic networks : Where do the numbers come from ? guest editors introduction. IEEE Transactions on Knowledge and Data Engineering, 12(4) :481486, 2000. F. Eberhardt, C. Glymour, et R. Scheines. On the number of experiments sufcient and in the worst case necessary to identify all causal relations among n variables. In Proc. of the 21st Conference on Uncertainty in Articial Intelligence (UAI), pages 178183, 2005. The Elvira Consortium. Elvira : An environment for creating and using probabilistic graphical models. In Proceedings of the First European Workshop on Probabilistic Graphical Models (PGM02), pages 111, Cuenca, Spain, 2002. Kazuo J. Ezawa et Til Schuermann. Fraud/uncollectible debt detection using a Bayesian network based learning. In Philippe Besnard et Steve Hanks, editors, Proceedings of the Eleventh Conference on Uncertainty in Articial Intelligence, San Mateo, CA, 1995. M. A. H. El-Sayed et H. J. Hinz. Composite reliability evaluation of inter-connected power systems. Electric Machines and Power Systems, 1996. N. Friedman, D. Geiger, et M. Goldszmidt. Bayesian network classiers. Machine Learning, 29(2-3) :131163, 1997. Nir Friedman, Moises Goldszmidt, et Abraham Wyner. Data analysis with Bayesian networks : A bootstrap approach. In Proceedings of the Fifteenth Annual Conference on Uncertainty in Articial Intelligence (UAI99), pages 206215, San Francisco, CA, 1999. Morgan Kaufmann Publishers.
395
Rseaux baysiens
[FK00]
Nir Friedman et Daphne Koller. Being Bayesian about network structure. In C. Boutilier et M. Goldszmidt, editors, Proceedings of the 16th Conference on Uncertainty in Articial Intelligence (UAI-00), pages 201210, SF, CA, June 30 July 3 2000. Morgan Kaufmann Publishers. Nir Friedman, Kevin Murphy, et Stuart Russell. Learning the structure of dynamic probabilistic networks. In Gregory F. Cooper et Serafn Moral, editors, Proceedings of the 14th Conference on Uncertainty in Articial Intelligence (UAI-98), pages 139147, San Francisco, July 2426 1998. Morgan Kaufmann. P. Foley. Problems in extinction model selection and parameter estimation. Environmental Management, 26 :5573, 2000. Chris Fraley et Adrian Raftery. How many clusters ? Which clustering method ? Answers via model-based cluster analysis. The Computer Journal, 41(8) :578588, 1998. Nir Friedman. Learning belief networks in the presence of missing values and hidden variables. In Proc. 14th International Conference on Machine Learning, pages 125133. Morgan Kaufmann, 1997. Nir Friedman. The Bayesian structural EM algorithm. In Gregory Cooper et Serafn Moral, editors, Proceedings of the 14th Conference on Uncertainty in Articial Intelligence (UAI-98), pages 129138, San Francisco, July 2426 1998. Morgan Kaufmann. Daniel Grossman et Pedro Domingos. Learning Bayesian network classiers by maximizing conditional likelihood. In Machine Learning, Proceedings of the Twenty-rst International Conference (ICML 2004), page (CDRom), 2004. Dan Geiger. An entropy-based learning algorithm of Bayesian conditional trees. In Uncertainty in Articial Intelligence : Proceedings of the Eighth Conference (UAI-1992), pages 9297, San Mateo, CA, 1992. Morgan Kaufmann Publishers. S. Geman et D. Geman. Stochastic relaxation, Gibbs distributions, and the Bayesian restoration of images. IEEE Transactions on Pattern Analysis and Machine Intelligence, 6(6) :721741, November 1984. S. Gaultier-Gaillard et J.P. Louisot. Diagnostic des risques, identier, analyser et cartographier les vulnrabilits. Technical report, AFNOR, 2004. Russell Greiner, Adam Grove, et Dale Schuurmans. Learning Bayesian nets that perform well. In Proceedings of the Thirteenth
396
[FMR98]
[Fol00] [FR98]
[Fri97]
[Fri98]
[GD04]
[Gei92]
[GG84]
[GGL04]
[GGS97]
B IBLIOGRAPHIE
Annual Conference on Uncertainty in Articial Intelligence (UAI 97), pages 198207, San Francisco, CA, 1997. Morgan Kaufmann Publishers. [GH96] Dan Geiger et David Heckerman. Knowledge representation and inference in similarity networks and Bayesian multinets. Articial Intelligence, 82(12) :4574, 1996. Steven Gillispie et Christiane Lemieux. Enumerating markov equivalence classes of acyclic digraph models. In Uncertainty in Articial Intelligence : Proceedings of the Seventeenth Conference (UAI-2001), pages 171177, San Francisco, CA, 2001. Morgan Kaufmann Publishers. M. Golumbic. Algorithmic Graph Theory and Perfect Graphs. Academic Press, New York, 1980. D. Geiger et J. Pearl. Logical and algorithmic properties of independence and their application to Bayesian networks. Annals of Mathematics and AI, 2(14) :165178, 1990. D. Geiger, A. Paz, et J. Pearl. Axioms and algorithms for inferences involving probabilistic independence. Information and Computation, 91(1) :128141, 1991. W. R. Gilks, S. Richardson, et D. J. Spiegelhalter. Markov Chain Monte Carlo in Practice. Interdisciplinary Statistics. Chapman & Hall, 1996. Russell Greiner, Xiaoyuan Su, Bin Shen, et Wei Zhou. Structural extension to logistic regression : Discriminative parameter learning of belief net classiers. Machine Learning Journal, 59(3) :297322, 2005. T. C. Haas. A Bayesian belief network advisory system for aspen regeneration. Forest Science, 37(2) :627654, 1991. T. C. Haas. A Bayes network model of district ranger decision making. AI Applications, 6(3) :7288, 1992. E. Horvitz et M. Barry. Display of information for time-critical decision making. In Philippe Besnard et Steve Hanks, editors, Proceedings of the Eleventh Conference on Uncertainty in Articial Intelligence, San Mateo, CA, 1995.
[GL01]
[Gol80] [GP90]
[GPP91]
[GRS96]
[GSSZ05]
[Haa91] [Haa92] [HB95]
[HBH+98] E. Horvitz, J. Breese, D. Heckerman, D. Hovel, et K. Rommelse. The lumiere project : Bayesian user modeling for inferring the goal and needs of software users. In Gregory F. Cooper et Seran Moral, editors, Proceedings of the Fourteenth Conference on Uncertainty in Articial Intelligence, pages 362369. Morgan Kaufmann Publishers, 1998.
397
Rseaux baysiens
[Hec91] [Hec98]
D. E. Heckerman. Probabilistic Similarity Networks. MIT Press, Cambridge, MA, 1991. David Heckerman. A tutorial on learning with Bayesian network. In Michael I. Jordan, editor, Learning in Graphical Models, pages 301354. Kluwer Academic Publishers, Boston, 1998. Max Henrion. Propagating uncertainty in Bayesian networks by probabilistic logic sampling. In John F. Lemmer et Laveen M. Kanal, editors, Uncertainty in Articial Intelligence 2, pages 149163. Elsevier Science Publishers B. V. (North-Holland), Amsterdam, 1988. M. Henrion. Some practical issues in constructing belief networks. In L. N. Kanal, T. S. Levitt, et J. F. Lemmer, editors, Uncertainty in Articial Intelligence 3, volume 8 of Machine Intelligence and Pattern Recognition, pages 161174. North-Holland, Amsterdam, 1989. D. Heckerman, D. Geiger, et M. Chickering. Learning Bayesian networks : The combination of knowledge and statistical data. In Ramon Lopez de Mantaras et David Poole, editors, Proceedings of the 10th Conference on Uncertainty in Articial Intelligence, pages 293301, San Francisco, CA, USA, July 1994. Morgan Kaufmann Publishers. P. Hart, E. Graham, et M. Jamey. Query-free information retrieval. IEEE Intelligent System, 1997. William Hsu, Haipeng Guo, Benjamin Perry, et Julie Stilson. A permutation genetic algorithm for variable ordering in learning Bayesian networks from data. In W. Langdon, E. CantPaz, K. Mathias, R. Roy, D. Davis, R. Poli, K. Balakrishnan, V. Honavar, G. Rudolph, J. Wegener, L. Bull, M. A. Potter, A. C. Schultz, J. Miller, E. Burke, et N. Jonoska, editors, GECCO 2002 : Proceedings of the Genetic and Evolutionary Computation Conference, pages 383390, New York, 9-13 July 2002. Morgan Kaufmann Publishers. D. Heckerman, C. Meek, et G. Cooper. A Bayesian approach to causal discovery. Technical Report MSR-TR-97-05, Microsoft Research, 1997. E. Horvitz, J. Suermondt, et G. Cooper. Bounded conditioning : Flexible inference for decisions under scarce resources. In Proceedings of the fth Conference on Uncertainty in Articial Intelligence, pages 182193. North Holland, 1989. ISO. Risk Management terminology : working draft for ISO risk management terminology. ISO/TMB WG RMT 34, 2000.
398
[Hen88]
[Hen89]
[HGC94]
[HGJ97] [HGPS02]
[HMC97]
[HSC89]
[ISO00]
B IBLIOGRAPHIE
[Jen96] [JGJS98]
Finn Jensen. An introduction to Bayesian Networks. Taylor and Francis, London, United Kingdom, 1996. Michael Jordan, Zoubin Ghahramani, Tommi Jaakkola, et Lawrence Saul. An introduction to variational methods for graphical models. In Michael Jordan, editor, Learning in Graphical Models, pages 105162. Kluwer Academic Publishers, Boston, 1998. R. Jacobs, M. Jordan, S. Nowlan, et G. Hinton. Adaptive mixtures of local experts. Neural Computation, 3 :7987, 1991. Finn V. Jensen, Uffe Kjrulff, Brian Kristiansen, Claus Skaanning Helge Langseth, Jiri Vomlel, et Marta Vomlelova. The sacso methodology for troubleshooting complex systems. F. Jensen, S. Lauritzen, et K. Olesen. Bayesian updating in causal probabilistic networks by local computations. Computational Statistics Quarterly, 4 :269282, 1990. L. Jouffe et P. Munteanu. Smart-greedy+ : Apprentissage hybride de rseaux baysiens. In Colloque francophone sur lapprentissage, CAP, St. Etienne, June 2000. L. Jouffe et P. Munteanu. New search strategies for learning Bayesian networks. In Proceedings of Tenth International Symposium on Applied Stochastic Models and Data Analysis, ASMDA, Compigne, pages 591596, June 2001. Michael I. Jordan. Why the logistic function ? A tutorial discussion on probabilities and neural networks. Technical Report 9503, Computational Cognitive Science, August 1995. M. Jordan. Learning in Graphical Models. Kluwer Academic Publishers, Dordecht, The Netherlands, 1998. S. Kirkpatrick, C. Gelatt, et M. Vecchi. Optimization by simulated annealing. Science, Number 4598, 13 May 1983, 220, 4598 :671680, 1983. Hiromitsu Kumamoto et Ernest J. Henley. Probabilistic Risk Assessment and Management for Engineers and Scientists. IEEE Press, 1996.
[JJNH91] [JKK+]
[JLO90]
[JM00]
[JM01]
[Jor95]
[Jor98] [KGV83]
[KH96]
[KHG+99] S. Kuikka, N. Hildn, H. Gislason, S. Hansson, H. Sparholt, et O. Varis. Modeling environmentally driven uncertainties in Baltic cod (Gadus morhua) management by Bayesian inuence diagrams. Canadian Journal of Fisheries and Aquatic Sciences, 56 :629641, 1999. [Kj93] Uffe Kjrulff. Approximation of Bayesian networks through edge removals. Research Report IR-93-2007, Department
399
Rseaux baysiens
of Computer Science, Aalborg University, Denmark, August 1993. [Kj94] Uffe Kjrulff. Reduction of computational complexity in Bayesian networks through removal of weak dependences. In Proceedings of the Tenth Conference on Uncertainty in Articial Intelligence, pages 374382, San Francisco, California, July 1994. Association for Uncertainty in Articial Intelligence, Morgan Kaufmann Publishers. J. H. Kim et J. Pearl. A computational model for combined causal and diagnostic reasoning in inference systems. In Proceedings IJCAI-83, pages 190193, Karlsruhe, Germany, 1983. E. Keogh et M. Pazzani. Learning augmented Bayesian classiers : A comparison of distribution-based and classicationbased approaches. In Proceedings of the Seventh International Workshop on Articial Intelligence and Statistics, pages 225230, 1999. Paul Krause. Learning probabilistic networks, 1998. H. Kiiveri, T. Speed, et J. Carlin. Recursive causal models. Journal of Australian Math Society, 36 :3052, 1984. D. Kahneman, P. Slovic, et A. Tversky, editors. Judgement under Uncertainty : Heuristics and Biases. Cambridge University Press, Cambridge, UK, 1982. T. Kocka et N. Zhang. Dimension correction for hierarchical latent class models. In Adnan Darwiche et Nir Friedman, editors, Proceedings of the 18th Conference on Uncertainty in Articial Intelligence (UAI-02), pages 267274, S.F., Cal., 2002. Morgan Kaufmann Publishers. C. Lacave. Explanation in causal Bayesian networks. Medical applications. PhD thesis, Dept. Inteligencia Articial. UNED, Madrid, Spain, 2003. In Spanish. S. Lauritzen. The EM algorithm for graphical association models with missing data. Computational Statistics and Data Analysis, 19 :191201, 1995. Steffen Lauritzen. Graphical models. Number 17 in Oxford Statistical Science Series. Clarendon Press, Oxford, 1996. Wai Lam et Fahiem Bacchus. Using causal information and local measures to learn Bayesian networks. In David Heckerman et Abe Mamdani, editors, Proceedings of the 9th Conference on Uncertainty in Articial Intelligence, pages 243250, San Mateo, CA, USA, July 1993. Morgan Kaufmann Publishers.
400
[KP83]
[KP99]
[Kra98] [KSC84] [KST82]
[KZ02]
[Lac03]
[Lau95]
[Lau96] [LB93]
B IBLIOGRAPHIE
[LBP+02]
T. Lynam, F. Bousquet, C. Le Page, P. dAquino, O. Barreteau, F. Chinembiri, et B. Mombeshora. Adapting science to adaptive managers : spidergrams, belief models, and multi-agent systems modeling. 5(2) :24. Conservation Ecology, 5(2) :24, 2002. C. Lacave et F. J. Dez. A review of explanation methods for Bayesian networks. Knowledge Engineering Review, 17 :107127, 2002. D. C. Lee. Assessing land-use impacts on bull trout using Bayesian belief networks. In S. Ferson et M. Burgman, editors, Quantitative methods for conservation biology, pages 127 147. Springer, New York., 2000. P. Leray et O. Francois. Rseaux baysiens pour la classication mthodologie et illustration dans le cadre du diagnostic mdical. Revue dIntelligence Articielle, 18/2004 :169193, 2004. P. Leray et O. Francois. Bayesian network structural learning and incomplete data. In Proceedings of the International and Interdisciplinary Conference on Adaptive Knowledge Representation and Reasoning (AKRR 2005), pages 3340, Espoo, Finland, 2005. Pat Langley, Wayne Iba, et Kevin Thompson. An analysis of Bayesian classiers. In Proceedings of the Tenth National Conference on Articial Intelligence, pages 223228, San Jose, CA, 1992. AAAI Press.
[LD02]
[Lee00]
[LF04]
[LF05]
[LIT92]
[LKMY96] P. Larraaga, C. Kuijpers, R. Murga, et Y. Yurramendi. Learning Bayesian network structures by searching the best order ordering with genetic algorithms. IEEE Transactions on System, Man and Cybernetics, 26 :487493, 1996. [LP01] [LR97] Andr Lannoy et Henry Procaccia. Lutilisation du jugement dexpert en sret de fonctionnement. Lavoisier, 2001. D. C. Lee et B. E. Rieman. Population viability assessment of salmonids by using probabilistic networks. No. Amer. J. Fish. Manage., 17 :11441157, 1997. Evelina Lamma, Fabrizio Riguzzi, et Sergio Storari. Exploiting association and correlation rules - parameters for improving the k2 algorithm. In Ramon Lpez de Mntaras et Lorenza Saitta, editors, Proceedings of the 16th Eureopean Conference on Articial Intelligence, ECAI2004, pages 500504. IOS Press, 2004. Steffen Lauritzen et David Spiegelhalter. Local computations with probabilities on graphical structures and their application to expert systems. Journal of the Royal Statistical Society, Series B, 50(2) :157224, 1988.
401
[LRS04]
[LS88]
Rseaux baysiens
[Mac03] [Mal91]
David MacKay. Information Theory, Inference and Learning Algorithms. Cambridge University Press, 2003. F. M. Malvestuto. A unique formal system for binary decompositions of database relations, probability distributions, and graphs. Information Science, 1991. B. G. Marcot. Meeting with Southern Oregon Mardon Skipper Team. Technical report, USDA ForestService, 2005. En cours. B. G. Marcot. Characterizing species at risk I : modeling rare species under the northwest forest plan. Ecology and Society (online), 2006. B. G. Marcot. Habitat modeling for biodiversity conservation. Northwestern Naturalist, 87(1) :5665, 2006. P. Munteanu et M. Bendou. The EQ framework for learning equivalence classes of Bayesian networks. In First IEEE International Conference on Data Mining (IEEE ICDM), pages 417424, San Jos, November 2002. C. Meek. Graphical Models : Selecting causal and statistical models. PhD thesis, Carnegie Mellon University, 1997.
[Mar05] [Mar06a]
[Mar06b] [MB02]
[Mee97]
[MHR+01] B. G. Marcot, R. S. Holthausen, M. G. Raphael, M. M. Rowland, et M. J. Wisdom. Using Bayesian belief networks to evaluate sh and wildlife population viability under land management alternatives from an environmental impact statement. Forest Ecology and Management, 153(1-3) :2942, 2001. [MLM06] S. Meganck, P. Leray, et B. Manderick. Learning causal Bayesian networks from observations and experiments : A decision theoritic approach. In Proceedings of the Third International Conference, MDAI 2006, volume 3885 of Lecture Notes in Articial Intelligence, pages 5869, Tarragona, Spain, 2006. Springer. S. Maes, P. Leray, et S. Meganck. Causal graphical models with latent variables : learning and inference. In Dawn E. Holmes et Lakhmi Jain, editors, Innovations in Bayesian Networks : Theory and Applications, Germany, 38 pages, 2007. Springer.
[MLM07]
[MMBE06] R. S. McNay, B. G. Marcot, V. Brumovsky, et R. Ellis. A Bayesian approach to evaluating habitat suitability for woodland caribou in north-central British Columbia. Canadian Journal of Forest Research, 2006. En rvision. [MML07] S. Maes, S. Meganck, et P. Leray. An integral approach to causal inference with latent variables. In Federica Russo et Jon Williamson, editors, Causality and Probability in the Sciences. Texts In Philosophy series, London College Publications, 23 pages, 2007.
402
B IBLIOGRAPHIE
[MMLM06] S. Meganck, S. Maes, P. Leray, et B. Manderick. Learning semi-markovian causal models using experiments. In The third European Workshop on Probabilistic Graphical Models PGM06, pages ? ?, Prague, Czech Republic, 2006. [MP00] G. A. Mendoza et R. Prabhu. Development of a methodology for selecting criteria and indicators of sustainable forest management : a case study on participatory assessment. Environmental Management, 26 :659673, 2000.
[MRR+53] N. Metropolis, A. W. Rosenbluth, M. N. Rosenbluth, A. H. Teller, et E. Teller. Equation of state calculations by fast computing machines. Journal of Chemical Physics, 21 :10871092, 1953. [MRY+93] D. Madigan, A. Raftery, J. York, J. Bradshaw, et R. Almond. Strategies for graphical model selection. In P. Cheeseman et R. Oldford, editors, Selecting Models from Data : Articial Intelligence and Statistics IV, pages 91100. Springer, 1993. [MS97] C. C. Mera et C. Singh. A sequential Monte Carlo simulation model for composite power system reliability evaluation. In Proceedings of PMAPS 97, 1997. K. Murphy. Dynamic Bayesian Networks : Representation, Inference and Learning. PhD thesis, University of california, Berkeley, 2002. J. Martin et K. Vanlehn. Discrete factor analysis : Learning hidden variables in Bayesian network. Technical report, Department of Computer Science, University of Pittsburgh, 1995. Kevin Murphy et Yair Weiss. The factored frontier algorithm for approximate inference in DBNs. In Jack Breese et Daphne Koller, editors, Proceedings of the Seventeenth Conference on Uncertainty in Articial Intelligence (UAI- 01), pages 378385, San Francisco, CA, August 25 2001. Morgan Kaufmann Publishers. Radford Neal. Probabilistic inference using Markov chain Monte Carlo methods. Technical Report CRG-TR-93-1, Department of Computer Science, University of Toronto, September 1993. J. D. Newberry. Scientic opinion, not process. Journal of Forestry, 92(4) :44, 1994. Radford Neal et Geoffrey Hinton. A view of the EM algorithm that justies incremental, sparse and other variants. In Michael Jordan, editor, Learning in Graphical Models, pages 355 368. Kluwer Academic Publishers, Boston, 1998.
403
[Mur02]
[MV95]
[MW01]
[Nea93]
[New94] [NH98]
Rseaux baysiens
[NJ02]
A. Y. Ng et M. I. Jordan. On discriminative vs. generative classiers : A comparison of logistic regression and naive bayes. In T. G. Dietterich, S. Becker, et Z. Ghahramani, editors, Advances in Neural Information Processing Systems 14, pages 841 848, Cambridge, MA, 2002. MIT Press. J. B. Nyberg, B. G. Marcot, et R. Sulyma. Using Bayesian belief networks in adaptive management. Canadian Journal of Forest Research, 2006. En presse. S. Nowlan. Soft competitive adaptation : Neural Network Learning Algorithms based on Fitting Statistical Mixtures. PhD thesis, Carnegie Mellon Univ., Pittsburgh, 1991. Agnieszka Onisko, Marek Druzdzel, et Hanna Wasyluk. Learning Bayesian network parameters from small data sets : Application of noisy-or gates. International Journal of Approximate Reasoning, 27(2) :165182, 2001. J. OLaughlin. Policies for risk assessment in federal land and resource management decisions. Forest Ecology and Management, 211(1-2) :1527, 2005. A. Oni ko. Probabilistic Causal Models in Medicine : Application to s Diagnosis of Liver Disorders. PhD thesis, Institute of Computer Science, Biaystok University of Technology, Biaystok, Poland, 2002. Gilles Pags et Claude Bouzitat. En passant par hasard... Les probabilits de tous les jours. Vuibert, 1999.
1 S. Populaire, T. Den 2 ux, A. Guilikeng, P. Gineste, et J. Blanc. Fusion of expert knowledge with data using belief functions : a case study in wastewater treatment. In Proceedings of the 5th International Conference on Information Fusion, IF 2002, pages 1613 1618, 2002.
[NMS06]
[Now91]
[ODW01]
[OL05]
[Oni02]
[PB99] [PDG+02]
[Pea86] [Pea87a] [Pea87b] [Pea88a] [Pea88b]
J. Pearl. Fusion, propagation, and structuring in belief networks. Articial Intelligence, 29 :241288, 1986. J. Pearl. Bayes decision methods. In Encyclopedia of AI, pages 4856. Wiley Interscience, New York, 1987. J. Pearl. Evidential reasoning using stochastic simulation of causal models. Articial Intelligence, 32(2) :245258, 1987. J. Pearl. Probabilistic Reasoning in Intelligent Systems. Morgan Kaufmann, San Mateo, CA, 1988. J. Pearl. Probabilistic Reasoning in Intelligent Systems : Networks of Plausible Inference. Morgan Kaufmann, San Mateo, CA, 1988. Revised second printing, 1991.
404
B IBLIOGRAPHIE
[Pea99]
J. Pearl. Reasoning with cause and effect. In Proceedings of the International Joint Conference on Articial Intelligence, pages 14371449, San Francisco, 1999. Morgan Kaufmann. Judea Pearl. Causality : Models, Reasoning, and Inference. Cambridge University Press, Cambridge, England, 2000. J. Pearl. Causality. Cambridge University Press, 2001. J. Pea, J. Lozano, et P. Larraaga. An improved Bayesian structural EM algorithm for learning Bayesian networks for clustering. Pattern Recognition Letters, 21 :779786, 2000.
[Pea00] [Pea01] [PLL00]
[PPMH94] Malcolm Pradhan, Gregory Provan, Blackford Middleton, et Max Henrion. Knowledge engineering for large belief networks. In Proceedings of the Tenth Annual Conference on Uncertainty in Articial Intelligence (UAI94), pages 484490, San Francisco, CA, 1994. Morgan Kaufmann Publishers. [PPSP01] Jean Pompe, Olivier Pourret, Yves Schlumberger, et Michel De Pasquale. A probabilistic improvement in dening operating rules against voltage collapse. In Proceedings of Bulk Power Systems Dynamics and Control V, Onomichi, Japon, 2001. Jean Pompe, Olivier Pourret, Yves Schlumberger, et Michel De Pasquale. Calculation and use of system state probabilities using Bayesian belief networks. In Proceedings of PMAPS 2002, Naples, Italie, 2002. Judea Pearl et Tom Verma. A theory of inferred causation. In James Allen, Richard Fikes, et Erik Sandewall, editors, KR91 : Principles of Knowledge Representation and Reasoning, pages 441 452, San Mateo, California, 1991. Morgan Kaufmann. M. Richardson et P. Domingos. Learning with knowledge from multiple experts. In Proceedings of the Twentieth International Conference on Machine Learning (ICML 2003), pages 624631, Washington, DC, 2003. Morgan Kaufmann. K. H. Reckhow. Water quality prediction and probability network models. Canadian Journal of Fisheries and Aquatic Sciences, 56 :11501158, 1999. S. Renooij. Probability elicitation for belief networks : Issues to consider. Knowledge Engineering Review, 16(3) :255269, 2001. S. Renooij. Qualitative Approaches to Quantifying Probabilistic Networks. PhD thesis, Institute for Information and Computing Sciences, Utrecht University, The Netherlands, 2001. J. Rissanen. Modelling by shortest data description. Automatica, 14 :465471, 1978.
405
[PPSP02]
[PV91]
[RD03]
[Rec99]
[Ren01a] [Ren01b]
[Ris78]
Rseaux baysiens
M. M. Rowland, Wisdom M. J., D. H. Johnson, B. C. Wales, J. P. Copeland, et F. B. Edelmann. Evaluation of landscape models for wolverines in the interior northwest, United States of America. J. Mamm., 84(1) :92105, 2003. [RKSN01] S. Rozakis, L. Kallivroussis, P. G. Soldatos, et I. Nicolaou. Multiple criteria analysis of bio-energy projects : evaluation of bioelectricity production in Farsala Plain, Greece. Journal of Geographic Information and Decision Analysis, 5(1) :4864, 2001. [Rob77] R. Robinson. Counting unlabeled acyclic digraphs. In C. Little, editor, Combinatorial Mathematics V, volume 622 of Lecture Notes in Mathematics, pages 2843, Berlin, 1977. Springer. [Rob94] Christian Robert. The Bayesian Choice : a decision-theoretic motivation. Springer, New York, 1994. [RS97] M. Ramoni et P. Sebastiani. Learning Bayesian networks from incomplete databases. In D. Geiger et P. P. Shenoy, editors, Proceedings of the Thirteenth Conference Uncertainty in articial intelligence, pages 401408, Brown University, Providence, Rhode Island, USA, 1997. Morgan Kaufmann Publishers, San Francisco CA. [RS98] Marco Ramoni et Paola Sebastiani. Parameter estimation in Bayesian networks from incomplete databases. Intelligent Data Analysis, 2(1-4) :139160, 1998. [RS00] Marco Ramoni et Paola Sebastiani. Robust learning with missing data. Machine Learning, 45 :147170, 2000. [RS02] T. Richardson et P. Spirtes. Ancestral graph markov models. Technical Report 375, Dept. of Statistics, University of Washington, 2002. [Rub76] D. B. Rubin. Inference and missing data. Biometrika, 63 :581 592, 1976. [RW99] S. Renooij et C. Witteman. Talking probabilities : communicating probabilistic information with words and numbers, 1999. +01] M. G. Raphael, M. J. Wisdom, M. M. Rowland, R. S. Holthau[RWR sen, B. C. Wales, B. G. Marcot, et T. D. Rich. Status and trends of habitats of terrestrial vertebrates in relation to land management in the interior Columbia river basin. Forest Ecology and Management, 153(13) :6387, 2001. [Sak84] M. Sakarovitch. Optimisation Combinatoire Mthodes Mathmatiques et Algorithmiques : Graphes et Programmation Linaire. Hermann, Paris, 1984. [SC91] H. J. Suermondt et G. F. Cooper. Initialization for the method of conditioning in Bayesian belief networks. Articial Intelligence, 42(23) :393405, 1991.
406
[RJJ+03]
B IBLIOGRAPHIE
[Sch78] [SCR00]
G. Schwartz. Estimating the dimension of a model. The Annals of Statistics, 6(2) :461464, 1978. J. T. Schnute, A. Cass, et L. J. Richards. A Bayesian decision analysis to set escapement goals for Fraser river sockeye salmon (Oncorhynchus nerka). Canadian Journal of Fisheries and Aquatic Sciences, 57 :962979, 2000. J. Sacha, L. Goodenday, et K. Cios. Bayesian learning for cardiac spect image interpretation. Articial Intelligence in Medecine, 26 :109143, 2002. Peter Spirtes, Clark Glymour, et Richard Scheines. Causation, prediction, and search. Springer-Verlag, 1993. Peter Spirtes, Clark Glymour, et Richard Scheines. Causation, Prediction, and Search. The MIT Press, 2 edition, 2000. Bill Shipley. Cause and Correlation in Biology. Cambridge University Press, 2000. D. Spiegelhalter et S. Lauritzen. Sequential updating of conditional probabilities on directed graphical structures. Networks, 20 :579605, 1990. P. Smets. Data fusion in the transferable belief model. In Proceedings of FUSION2000, pages 2133, Paris, France, 2000. J. Q. Smith. Inuence diagrams for statistical modeling. Annals of Statistics, 17(2) :564572, 1989. Peter Spirtes, Christopher Meek, et Thomas Richardson. Causal inference in the presence of latent variables and selection bias. In Philippe Besnard et Steve Hanks, editors, UAI 95 : Proceedings of the Eleventh Annual Conference on Uncertainty in Articial Intelligence, August 18-20, 1995, Montreal, Quebec, Canada, pages 499506. Morgan Kaufmann, 1995. A. Stewart-Oaten et J. R. Bence. Temporal and spatial variation in environmental impact assessment. Ecological Monographs, 71(2) :305339, 2001. Yves Schlumberger, Jean Pompe, et Michel De Pasquale. Updating operating rules against voltage collapse using new probabilistic techniques. In Proceedings of IEEE PES 2002, Yokohama, Japon, 2002. Sampath Srinivas. A generalization of the noisy-or model. In David Heckerman et Abe Mamdani, editors, Proceedings of the 9th Conference on Uncertainty in Articial Intelligence, pages 208 218, San Mateo, CA, USA, July 1993. Morgan Kaufmann Publishers.
407
[SGC02]
[SGS93] [SGS00] [Shi00] [SL90]
[Sme00] [Smi89] [SMR95]
[SOB01]
[SPP02]
[Sri93]
Rseaux baysiens
[SS05]
R. N. Sampson et R. W. Sampson. Application of hazard and risk analysis at the project level to assess ecologic impact. Forest Ecology and Management, 211(1-2) :109116, 2005. J. D. Steventon, G. D. Sutherland, et P. Arcese. A populationviability based risk assessment of marbled murrelet nesting habitat policy in British Columbia (in revision). Canadian Journal of Forest Research, 2006. M. Studen. Conditional independence relations have no complete characterization. In Proceedings of 11-th Prague Conference on Information Theory, Statistical Decision Foundation and Random Processes, pages 377396, Czech, 1992. M. Studen. Semigraphoids and structures of probabilistic conditional independence. Annals of Mathematics and Articial Intelligence, 21(1) :7198, 1997. Joe Suzuki. Learning Bayesian belief networks based on the MDL principle : An efcient algorithm using the branch and bound technique. IEICE Transactions on Information and Systems, E82-D(2) :356367, 1999. Moninder Singh et Marco Valtorta. An algorithm for the construction of Bayesian network structures from data. In David Heckerman et E. H. Mamdani, editors, Proceedings of the Ninth Annual Conference on Uncertainty in Articial Intelligence UAI 93, pages 259265. Morgan Kaufmann, 1993. Franco Taroni, Colin Aitken, Paolo Garbolino, et Alex Biedermann. Bayesian Networks And Probabilistic Inference in Forensic Science. Wiley, 2006. Simon Tong et Daphne Koller. Active learning for structure in Bayesian networks. In Proceedings of the Seventeenth International Joint Conference on Articial Intelligence, IJCAI 2001, pages 863869. Morgan Kaufmann, 2001. Bo Thiesson, Christopher Meek, et David Heckerman. Accelerating EM for large databases. Machine Learning, 45(3) :279299, 2001. Jin Tian et Judea Pearl. On the testable implications of causal models with hidden variables. In UAI 02, Proceedings of the 18th Conference in Uncertainty in Articial Intelligence, pages 519527, 2002. Jin Tian et Judea Pearl. In the identication of causal effects. Technical Report R-290-L, UCLA, 2003. Andrew Thomas, David J. Spiegelhalter, et Wally R. Gilks. BUGS : A program to perform Bayesian inference using Gibbs
408
[SSA06]
[Stu92]
[Stu97]
[Suz99]
[SV93]
[TAGB06]
[TK01]
[TMH01]
[TP02]
[TP03] [TSG92]
B IBLIOGRAPHIE
sampling. In J. M. Bernardo, J. O. Berger, A. P. Dawid, et Adrian F. M. Smith, editors, Bayesian Statistics 4, pages 837842, Oxford, UK, 1992. Oxford University Press. [UPK+97] K. Uhlen, A. Petterteig, G. H. Kjolle, A. T. Holen, G. G. Lovas, et M. Meisingset. On-line security assessment and control - probabilistic vs. deterministic operational criteria. IEEE Workshop, Palo Alto, 1997, 1997. O. Varis. Bayesian decision analysis for environmental and resource management. Environmental Modelling and Software, 12 :177185, 1997. T. Verma et J. Pearl. Causal networks : Semantics and expressiveness. In Proceedings of the Fourth Workshop on Uncertainty in Articial Intelligence, pages 352359. Association for Uncertainty in Articial Intelligence, 1988. T. Verma et J. Pearl. Equivalence and synthesis of causal models. In M. Henrion, R. Shachter, L. Kanal, et J. Lemmer, editors, Proceedings of the Sixth Conference on Uncertainty in Articial Intelligence, pages 220227, San Francisco, 1991. Morgan Kaufmann.
[Var97]
[VP88]
[VP91]
[vRW+02] L. van der Gaag, S. Renooij, C. Witteman, B. Aleman, et B. Taal. Probabilities for a probabilistic network : a case study in oesophageal cancer. Articial Intelligence in Medicine, 25(2) :123148, june 2002. [vvT03] S. van Dijk, L. van der Gaag, et D. Thierens. A skeleton-based approach to learning Bayesian networks from data. In Proceedings of the Seventh Conference on Principles and Practice of Knowledge Discovery in Databases. Kluwer, 2003. P. R. Wade. Bayesian methods in conservation biology. Conservation Biology, 14(5) :13081316, 2000. A. Walton. Application of Bayesian networks to large-scale predictive ecosystem mapping. M. S. Thesis. PhD thesis, University of Northern British Columbia, 2004. M. P. Wellman. Fundamental concepts of qualitative probabilistic networks. Articial Intelligence, 44 :257303, 1990. J. Whittaker. Graphical Models in Applied Multivariate Statistics. John Wiley, Chichester, England, 1990. N. Wilson. Generating graphoids from generalized conditional probability. In R. Lopez de Mantaras et D. Poole, editors, Proceedings of the Tenth Conference on Uncertainty in Articial Intelligence, pages 583590, San Francisco, CA, 1994. Morgan Kaufmann.
409
[Wad00] [Wal04]
[Wel90] [Whi90] [Wil94]
[Wil05] [WLL04]
Jon Williamson. Bayesian Nets And Causality : Philosophical And Computational Foundations. Oxford University Press, 2005. Man Leung Wong, Shing Yan Lee, et Kwong Sak Leung. Data mining of Bayesian networks using cooperative coevolution. Decision Support Systems, 38(3) :451472, 2004. A. Walton et D. Meidinger. Capturing expert knowledge for ecosystem mapping using Bayesian networks (sous presse). Canadian Journal of Forest Research, 2006.
[WM06]
[WRW+02] M. J. Wisdom, M. M. Rowland, B. C. Wales, M. A. Hemstrom, W. J. Hann, M. G. Raphael, R. S. Holthausen, R. A. Gravenmier, et T. D. Rich. Modeled effects of sagebrush-steppe restoration on Greater sage-grouse in the interior Columbia Basin, U.S.A. Conservation Biology, 16(5) :12231231, 2002. [WWR+02] M. J. Wisdom, B. C. Wales, M. M. Rowland, M. G. Raphael, R. S. Holthausen, T. D. Rich, et V. A. Saab. Performance of Greater sage-grouse models for conservation assessment in the interior Columbia basin, u.s.a. Conservation Biology, 16(5) :12321242, 2002. [YNH99] D. C. Yu, T. C. Nguyen, et P. Haddawy. Bayesian network model for reliability assessment of power systems. IEEE Transactions on Power Systems, 14(2), 1999. Jeremy York. Use of the Gibbs sampler in expert systems. Articial Intelligence, 56 :115130, 1992. N. Zhang. Hierarchical latent class models for cluster analysis. In Proceedings of AAAI02, pages 230237, 2002. N. Zhang. Structural EM for hierarchical latent class model. Technical report, HKUST-CS03-06, 2003. Jiji Zhang. Causal Inference and Reasoning in Causally Insufcient Systems. PhD thesis, Carnegie Mellon University, July 2006. N. Zhang, T. Nielsen, et F. Jensen. Latent variable discovery in classication models. Articial Intelligence in Medicine, 30(3) :283299, 2004. J. Zhang et P. Spirtes. A characterization of markov equivalence classes for ancestral graphical models. Technical Report 168, Dept. of Philosophy, Carnegie-Mellon University, 2005. J. Zhang et P. Spirtes. A transformational characterization of markov equivalence for directed acyclic graphs with latent variables. In Proc. of the 21st Conference on Uncertainty in Articial Intelligence (UAI), pages 667674, 2005.
[Yor92] [Zha02] [Zha03] [Zha06] [ZNJ04]
[ZS05a]
[ZS05b]
Liste des gures

1.1 2.1 2.2 3.1 3.2 3.3 3.4 Transposition probabiliste dun graphe causal . . . . . . Principe de la mthode de conditionnement . . . . . . . Principe de lalgorithme dapprentissage K2 . . . . . . . Systme de trois composants (Exercice 3.3.3 page 45) . . Rseau lectrique (Exercice 3.4.9 page 50) . . . . . . . . . Rseau baysien modlisant linuence du sexe dun individu (S) sur le daltonisme (D) . . . . . . . . . . . . . . Rseau baysien pour la relation entre le sexe dun individu et le daltonisme (logiciel Netica) (Exercice 3.1.1 page 42) . . . . . . . . . . . . . . . . . . . . . . . . . . . . Rseau baysien pour la loi de probabilit dune fonction de deux variables alatoires : le modle propage les incertitudes sur X et Y. . . . . . . . . . . . . . . . . . . . . Rseau baysien pour le problme des trois coffres (Exercice 3.2.2 page 43) . . . . . . . . . . . . . . . . . . . . . . . Rseau baysien pour le problme des trois prisonniers . Dpendance entre la couleur de peau du meurtrier (M), la couleur de peau de la victime (V) et la condamnation (C) sous forme dun rseau baysien. . . . . . . . . . . . 16 31 39 45 50 54
55
3.5
55 56 57
3.6 3.7 3.8
58
3.9 3.10 3.11
Rseau baysien construit par le logiciel Elvira (Exercice 3.2.4 page 44) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 Dtermination de la loi de probabilit du nombre de demandes de cars non satisfaites (Exercice 3.3.6 page 46) . Rseau baysien pour le problme des ges . . . . . . . . 64 65
Rseaux baysiens
3.12 3.13
Rseau baysien pour le problme des trois juges . . . . Rseau baysien reprsentant linuence de la couleur des yeux des parents sur la couleur des yeux de lenfant (Exercice 3.4.3 page 47) . . . . . . . . . . . . . . . . . . . . Rseau baysien de la gure 3.13 page 66, aprs absorption des variables correspondant aux gnes . . . . . . . . Rseau baysien pour les hobbies des invits au jeu tlvis (Exercice 3.4.5 page 48) . . . . . . . . . . . . . . . . . Reprsentation des axiomes de (semi-)graphodes. . . . . Sparation dans un graphe non orient . . . . . . . . . .
Reprsentation non oriente des relations dans {D1 , D2 , S}. . .
65
66 66 67 75 80 84 86 88 89 91 96
3.14 3.15
4.1 4.2 4.3 4.4 4.5 4.6 4.7 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 6.1 6.2 6.3 6.4 6.5 6.6
Sparation dans un graphe orient . . . . . . . . . . . . . Reprsentation graphique dun rseau baysien . . . . .

Rsolution oriente de la gure 4.3 page 84 . . . . . . . . . .
Le thorme de Bayes comme inversion darcs . . . . . . Les diffrentes zones dinformations dans un arbre . . .
Messages issus de X dans une propagation type Pearl . . 101 Moralisation dun graphe . . . . . . . . . . . . . . . . . . 107 Graphe de jonction du graphe 5.3 page 107 . . . . . . . . 108 Graphe triangul du graphe de la gure 5.3 page 107 et arbre de jonction . . . . . . . . . . . . . . . . . . . . . . . 109 Monte-Carlo : un exemple de gnration dun cas . . . . 113 Algorithme dAcceptation-Rejet gnralis . . . . . . . . 114 chantillonneur de Gibbs dans un rseau baysien . . . . . 115 chelle de probabilit . . . . . . . . . . . . . . . . . . . . 127 Rseau baysien naf . . . . . . . . . . . . . . . . . . . . . 172 Rseau baysien naf augment (par un arbre) . . . . . . 173 Approche multi-net . . . . . . . . . . . . . . . . . . . . . 174 Modle latent . . . . . . . . . . . . . . . . . . . . . . . . . 175 Modle latent hirarchique . . . . . . . . . . . . . . . . . 176
412
L ISTE DES FIGURES
6.7
Aprentissage de la structure dun rseau baysien causal partir de donnes dobservation et dexprimentation : lalgorithme MyCaDo (MY CAusal DiscOvery) [MLM06]. 181 Un exemple dapprentissage incrmental (data mining) . 190 Scoring et probabilits . . . . . . . . . . . . . . . . . . . . 191 Requte labore dans un rseau baysien . . . . . . . . 194 Un diagramme dinuence pour la fraude sur carte bancaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 Modlisation en ligne pour la dtection de fraudes . . . 198 Principe de la fusion de donnes par rseau baysien . . 204 tapes de construction dun rseau baysien . . . . . . . 209 Boucle dans un rseau baysien . . . . . . . . . . . . . . 210 Correspondance entre apprciations qualitatives et probabilits (chelle de Lichtenstein et Newman) . . . . . . 212 Les systmes APRI et NESDT dATT . . . . . . . . . . . . 215 Graphe dun des modles utiliss dans APRI (source ATT) 217 Diagramme dinuence dun processus de dcision en temps rel . . . . . . . . . . . . . . . . . . . . . . . . . . . 218 Rle du gestionnaire dafchage dans la dcision en temps rel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219 cran Fixit en cours de session (source Ricoh) . . . . . . 220 Extrait dune base de connaissances Fixit (source Ricoh) 221
7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9
8.1 8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 8.10 8.11 8.12 8.13
Principe de la mthode SACSO : nuds de panne, daction et de question . . . . . . . . . . . . . . . . . . . . . . 222 Un exemple de stratgie de dpannage . . . . . . . . . . 223 cran de lapplication BATS dveloppe avec SACSO pour HP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224 Un vhicule autonome terrestre utilis dans Advocate II 225
Un extrait dOfce Assistant de Microsoft (projet Lumire)227 Une session dexcution de SSDS (source Mitre) . . . . . 228 Copie dcran de Site Proler (extrait du site dsandbox.com)229
413
Rseaux baysiens
9.1 9.2 9.3 9.4 9.5 9.6
Objectifs et variable cible . . . . . . . . . . . . . . . . . . 234 Les cinq sphres dlments interagissant avec lentreprise 235 Variable quatre variables amont . . . . . . . . . . . . . 238 Mthode GLORIA : exemple de rseau baysien modlisant les risques dune entreprise . . . . . . . . . . . . . . 239 Diagramme probabilit/gravit . . . . . . . . . . . . . . 241 Exemple dutilisation de la mthode GLORIA : criticit des quinze risques majeurs . . . . . . . . . . . . . . . . . 243 Approches de modlisation pour les diffrents quadrants du plan frquence-gravit . . . . . . . . . . . . . . . . . . 249 Les trois acteurs du processus de modlisation des risques oprationnels . . . . . . . . . . . . . . . . . . . . . . . . . 253 Modliser lexposition par un rseau baysien . . . . . . 261 Modliser la survenance par un rseau baysien . . . . . 262 Modliser la gravit par un rseau baysien . . . . . . . 265 Le rseau lectrique en rgion PACA . . . . . . . . . . . 274 Rseau baysien modlisant le systme lectrique . . . . 276 Gestion du risque pour la vente de crdit en ligne . . . . 280 Seuil de dcision . . . . . . . . . . . . . . . . . . . . . . . 282 Matrice de confusion . . . . . . . . . . . . . . . . . . . . . 283 Courbe de lift . . . . . . . . . . . . . . . . . . . . . . . . . 284 Le modle de score obtenu . . . . . . . . . . . . . . . . . 285 Algorithme du questionnaire adaptatif . . . . . . . . . . 288 Calcul de lapport dinformation dune question Q . . . 289 Reprsentation graphique de lalgorithme . . . . . . . . 290
10.1 10.2 10.3 10.4 10.5 11.1 11.2 12.1 12.2 12.3 12.4 12.5 12.6 12.7 12.8 12.9 13.1
Amlioration possible de lalgorithme de recherche . . . 291 Processus gnral de modlisation despce rares laide de rseaux baysiens [Mar06a] . . . . . . . . . . . . . . . 297
414
L ISTE DES FIGURES
13.2
Exemple de sous-modle des effets dune route avec des variables dcrivant la densit du rseau routier et de la population, utilis pour les modles de prvision de faune et de ore dans lintrieur de louest des tats-Unis. . . 299 Modle de prvision de la qualit dhabitat et de la taille de population des musaraignes pygmes (Microsorex hoyi) dans lintrieur de louest des tats-Unis. . . . . . . . . . 300 Utilisation du modle de prvision de la qualit dhabitat et de la taille de population des musaraignes pygmes (Microsorex hoyi) dans lintrieur de louest des tatsUnis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301 Exemples de cartes des rsultats dun rseau baysien modlisant la qualit de lhabitat pour la grouse cendre dans lintrieur de louest des tats-Unis. . . . . . . . . . 302 Prvision de la qualit dhabitat et de la taille de population des musaraignes pygmes (Microsorex hoyi). . . . . . 305 Principal modle de dcision de conservations despces rares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309 Rsultats dune modlisation de la qualit dhabitat du caribou. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310 Indpendances conditionnelles pour un nud X ayant deux enfants et deux parents . . . . . . . . . . . . . . . . 323 Premire version de P ROSTANET. . . . . . . . . . . . . . . 328 La variable Prostate Cancer et ses six parents, dans la quatrime version de P ROSTANET. . . . . . . . . . . . 329 Copie dcran de P ROSTANET. . . . . . . . . . . . . . . . 330 Analyse de leffet de lge sur le cancer de la prostate . . 331 Le rseau baysien P ROSTANET . . . . . . . . . . . . . . . 333 Recherche dun ordre topologique sur le graphe orient G = (V, E) . . . . . . . . . . . . . . . . . . . . . . . . . . . 340 Reprsentation dun graphe orient . . . . . . . . . . . . 340 Reprsentation dun graphe non orient . . . . . . . . . . 342 Graphe de jonction de la gure A.3 page 342 . . . . . . . 344 Modlisation et saisie de la TPC sous BayesiaLab . . . . 362
415
13.3
13.4
13.5
13.6 13.7 13.8
14.1 14.2 14.3 14.4 14.5 14.6 A.1 A.2 A.3 A.4 C.1
Rseaux baysiens
C.2 C.3
Import de donnes sous BayesiaLab : discrtisation et agrgation . . . . . . . . . . . . . . . . . . . . . . . . . . . 363 Exploitation dun rseau appris par BayesiaLab de manire non supervise sur un questionnaire de satisfaction - tude de limpact dune mauvaise qualit gnrale sur lensemble des facteurs. . . . . . . . . . . . . . . . . . . . 366 Analyse de rseau baysien sous BayesiaLab : apport dinformation sur une valeur cible du nud Cluster,sensibilit de la modalit Cluster 1, cartographie des 10 valeurs du nud Cluster . . . . . . . . . . . . . . . . . . . . . . . . . 369 Cration de modles avec Hugin . . . . . . . . . . . . . . 372 Modles continus avec Hugin . . . . . . . . . . . . . . . . 373 Diagrammes dinuence avec Hugin . . . . . . . . . . . . 374 Utilisation de Hugin pour linfrence . . . . . . . . . . . 375 Observations partielles dans Hugin . . . . . . . . . . . . 375 Lassistant dapprentissage de structure dans Hugin . . . 376 Netica : exemple de diagramme dinuence comprenant deux variables alatoires, une variable de dcision et une fonction dutilit . . . . . . . . . . . . . . . . . . . . . . . 379 Le rseau baysien Asia, saisi sous le logiciel Elvira . . . 383 Exemple de rseau baysien au format Elvira . . . . . . . 384 Fonctions dapprentissage du logiciel Elvira . . . . . . . 385 Exemple de rseau baysien comportant des variables continues (logiciel Elvira) . . . . . . . . . . . . . . . . . . 386
C.4
C.5 C.6 C.7 C.8 C.9 C.10 C.11
C.12 C.13 C.14 C.15
416
Liste des tables

1.1 2.1 Circulation de linformation dans un graphe causal . . . Infrence dans les diffrentes structures de rseaux baysiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Rpartition des condamnations selon la couleur de peau des meurtriers et des victimes . . . . . . . . . . . . . . . . Fonction dutilit (Exercice 3.5.2 page 51) . . . . . . . . . Options (Exercice 3.5.3 page 51) . . . . . . . . . . . . . . . Loi de probabilit de la valeur maximale de deux ds . . Loi de probabilit de la premire pice tire (Exercice 3.2.2 page 43) . . . . . . . . . . . . . . . . . . . . . . . . . . . . Loi de probabilit de la seconde pice tire (Exercice 3.2.2 page 43) . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modle dindpendance de {D1, D2, S} . . . . . . . . . . . Modle dindpendance de {A, B, C, D} et un rseau de Markov le reprsentant . . . . . . . . . . . . . . . . . . . 8
26
3.1 3.2 3.3 3.4 3.5 3.6
44 51 52 56 56 57 84 89
4.1 4.2
6.1 6.1 6.2 6.3 6.4 6.5
Excution de lalgorithme EM ( suivre . . . ) . . . . . . . . 124 Excution de lalgorithme EM . . . . . . . . . . . . . . . . 125 Excution de lalgorithme EM avec a priori de Dirichlet . 125 Algorithme DAGtoCPDAG . . . . . . . . . . . . . . . . . 135 Exemple de rseau baysien et son reprsentant dans lespace des classes dquivalence de Markov . . . . . . . . 136 Algorithme PDAGtoDAG . . . . . . . . . . . . . . . . . . 137
Rseaux baysiens
6.6 6.7 6.7 6.7 6.8 6.9 6.10 6.11 6.12 6.13 6.14
Algorithme PC . . . . . . . . . . . . . . . . . . . . . . . . 140 Excution de lalgorithme PC ( suivre . . . ) . . . . . . . . 141 Excution de lalgorithme PC ( suivre . . . ) . . . . . . . . 142 Excution de lalgorithme PC . . . . . . . . . . . . . . . . 143 Algorithme MWST dirig . . . . . . . . . . . . . . . . . . 151 Excution de lalgorithme MWST dirig . . . . . . . . . . 152 Algorithme K2 . . . . . . . . . . . . . . . . . . . . . . . . 153 Excution de lalgorithme K2 . . . . . . . . . . . . . . . . 155 Exemple de voisinage GS . . . . . . . . . . . . . . . . . . 156 Rsultat de lalgorithme GS avec le score BIC . . . . . . . 157 Exemple doprateurs dans lespace des rseaux baysiens et calcul de la variation du score pour chacun des oprateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 Algorithme Recherche Gloutonne (GS) . . . . . . . . . . 159 Algorithme EM structurel gnrique . . . . . . . . . . . . 160 Dcouverte dune structure de rseau baysien non globalement optimale par une mthode dajout darcs dans lespace B des rseaux baysiens [MB02] : au lieu de retrouver la V-structure initiale (1), lalgorithme pourra converger vers un optimum local (2) . . . . . . . . . . . . . . 163 Exemple doprateurs dans lespace des classes dquivalence de Markov, condition de validit et calcul de la variation du score pour chacun des oprateurs . . . . . . 164 Algorithme GES (insertion darcs) . . . . . . . . . . . . . 165 Algorithme GES (suppression darcs) . . . . . . . . . . . 166 Algorithme GES, exemple ditration dans lespace E des CPDAG . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 Excution de lalgorithme GES pour 4 nuds ( suivre. . . ) 167 Excution de lalgorithme GES pour 4 nuds ( suivre. . . ) 168 Excution de lalgorithme GES pour 4 nuds ( suivre. . . ) 169 Excution de lalgorithme GES pour 4 nuds . . . . . . . 170 Algorithme IC* . . . . . . . . . . . . . . . . . . . . . . . . 178 Avantages comparatifs des rseaux baysiens . . . . . . 197
418
6.15 6.16 6.17
6.18
6.19 6.20 6.21 6.22 6.22 6.22 6.22 6.23 7.1
L ISTE DES TABLES
9.1 11.1 12.1 12.2 12.3 12.4 13.1
Incidences dun risque et unit(s) de mesure associe(s) . 240 Types de dpendances entre dfaillances, [BA88] . . . . . 272 Fonctionnement interactif du modle . . . . . . . . . . . 286 volutions probables du questionnaire en posant Q01 . . 286 volutions probables du questionnaire en posant Q03 . . 287 Choix entre Q01 et Q03 . . . . . . . . . . . . . . . . . . . 288 Exemple dtude de sensibilit du modle des musaraignes pygmes (gure 13.4 page 301). . . . . . . . . . . . . . . 306 Versions de P ROSTANET . . . . . . . . . . . . . . . . . . . 334 Distribution des vnements lmentaires en fonction dune v.a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349
14.1 B.1
419
Index
algorithme BN-PC, 136 CI, 136 EM, 123 EM structurel, 159 FCI, 136 GES, 164 GS, 132 IC, 136 IC*, 136 K2, 132, 153 K3, 154 MWST, 132, 144, 150, 172 MyCaDo, 181 PC, 136 SGS, 136 TAN, 172 anctres, 341 apprentissage, 32, 117 paramtres, 34, 117 score, 144 structure, 37, 117 test dindpendance, 137 arte, 338 arborescence, 344 arbre, 28, 344 de recouvrement maximal, 150 arc, 338 ascendants, 341 burn in, 114
relation causale, 4 chane, 27, 342 lmentaire, 343 active, 85 de Markov, 113 simple, 343 chemin, 341 lmentaire, 341 simple, 341 circuit, 341 classieur de Bayes naf, 172 clique, 344 cohrence de potentiels, 110 composante connexe, 344 conditionnement, 30 conguration, 350 connexion, 79 connexit, 343 forte, 343 CPDAG, 134 critre AIC, 146 BD, 146 BD, 147 BDe, 147 BDeu, 147 BIC, 146 MDL, 146 cycle, 343 D-map, 79 d-sparation, 7, 21, 22, 85 DAG, 343 descendants, 341 distribution, 125 a priori sur les paramtres, 120 a priori sur les structures, 148 de Dirichlet, 120 domaine de dnition, 348
causalit, 3, 91, 177 apprentissage, 181 graphe causal, 4, 11, 21 modle causal, 5 rseau baysien causal, 180
Rseaux baysiens
donnes incompltes apprentissage de la structure, 159 apprentissage des paramtres, 121 MAR, 121 MCAR, 121 NMAR, 121 chelle de probabilits, 126 licitation de probabilits, 126 enfant, 340 entropie conditionnelle, 145 quivalence de Markov apprentissage, 162 classe dquivalence, 88, 134 dnition, 133 esprance a posteriori (EAP), 121 espace dtats, 209, 350 probabilis, 11, 21, 73 espace probabilis, 21 estimation baysienne, 69, 120 statistique, 118 vnement, 348 certain, 348 lmentaire, 348 impossible, 348 extrmit, 340 facteurs dinterpolation, 128 factorisation, 83 rcursive, 87 feuille, 340 dlit, 133 fort, 344 graphe, 338 ancestral maximal, 182 complet, 343 dag, 21 de jonction, 344 de jonction minimal, 108 essentiel, 134 mixte, 339 moral, 107 422
non orient, 339 orient, 339 partiel, 343 simple, 338 sous-graphe, 343 triangul, 108 graphe-isomorphe, 79 graphode, 75 fermeture, 75 I-map, 79 minimale, 80 indpendance, 17, 21, 22 conditionnelle, 73, 81, 87, 137, 354 infrence, 22, 25, 93 arbre de jonction, 31, 94, 106, 108, 109 clustering, 94, 110 conditionnement, 105 coupe-cycle, 94, 105 chantillonneur de Gibbs, 115 MCMC, 113 Monte-Carlo, 113 polytree propagation, 103 infrence probabiliste, 41, 94 information, 5, 7 lmentaire, 94 intersection courante, 109 intervention, 180 limite dinclusion infrieure, 164 suprieure, 164 manipulation, 180 maximum a posteriori, 120 de vraisemblance, 118, 189 modle causal semi-markovien, 182 modle dindpendance, 74 modles log-linaires, 129 model averaging, 149 moment, 123 moralisation, 94
I NDEX
multi-net, 174 non-descendants, 341 nud, 338 adjacent, 342 pendant, 342 oprateur do-calculus, 180 ordre compatible, 339 origine, 340 OU bruit, 127 generalized noisy-OR gate, 128 leaky noisy-OR gate, 128 P-map, 79 parent, 340 PDAG, 134 polyarbre, 28 potentiel, 83 prdcesseur, 340 probabilit, 348 conditionnelle, 352 jointe, 350 marginale, 351 puits, 85 rseau baysien, 21, 86 causal, 92, 180 markovien, 81 rseau baysien augment, 172 discriminant, 174 orient objet, 176 temporel, 177 racine, 340 risque, 231, 233 sparateur, 107 sparation, 78 score dcomposable, 149 semi-graphode, 74 fermeture, 75 423
sommet, 342 successeur, 340 sufsance causale, 133 triangulation, 94 univers, 348
U V
variable alatoire, 11, 21, 348 binaire, 348 discrte, 348 latente, 131 vecteur dtat, 350 voisinage, 342 vraisemblance conditionnelle, 174 maximisation, 118

Reseaux Bayesiens

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Reseaux Bayesiens

Transféré par

Droits d'auteur :

Formats disponibles

Avant-propos

Table des matires

Une reprsentation probabiliste associe . . . . . . . . . . .

Modles continus . . . . . . . . . . . . . . . . . . . . . . . . Liens avec dautres mthodes . . . . . . . . . . . . . . . . .

Table des matires

Aide la dcision . . . . . . . . . . . . . . . . . . . . . . . . 3.5.1 3.5.2 3.5.3

Commentaires et solutions des exercices . . . . . . . . . . .

Deuxime partie : cadre thorique et algorithmes

4.1.1 4.1.2 4.2 4.3 4.4

Modles dindpendance . . . . . . . . . . . . . . . Semi-graphode et graphode . . . . . . . . . . . . .

Sparation et indpendances : proprits de Markov 81

Modles orients : rseaux baysiens . . . . . . . . . . . . . 4.5.1 4.5.2 4.5.3 4.5.4

Conditionnement global . . . . . . . . . . . . . . . . . . . . 104

Arbre de jonction . . . . . . . . . . . . . . . . . . . . . . . . 106

Table des matires

5.3.1 5.3.2 5.4 5.4.1 5.4.2 6

Mthodes approches . . . . . . . . . . . . . . . . . . . . . . 111

Apprentissage 6.1 6.1.1 6.1.2 6.1.3 6.2

Apprentissage de la structure . . . . . . . . . . . . . . . . . 131 6.2.1 6.2.2 6.2.3 6.2.4

6.2.5 6.2.6 6.2.7 6.2.8 6.2.9

Troisime partie : mthodologie de mise en uvre et tudes de cas 185

Table des matires

7.1.2 7.1.3 7.1.4 7.1.5 7.2 7.2.1 7.2.2 7.2.3

O utiliser des rseaux baysiens ? . . . . . . . . . . . . . . 197

Comment utiliser des rseaux baysiens ? . . . . . . . . . . 208 7.3.1 7.3.2 7.3.3

Exemples dapplications 8.1 8.2 8.3

Lois de probabilit des variables . . . . . . . . . . . . . . . 237 9.4.1 9.4.2 9.4.3

Rsultats de la mthode GLORIA . . . . . . . . . . . . . . . 238 9.5.1 9.5.2 9.5.3 9.5.4

10 tude de cas n2 : modlisation et quantication des risques op xvi

Table des matires

rationnels 10.1 10.2 10.3

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267 269

Utilisation du rseau baysien . . . . . . . . . . . . . . . . . 285 Rsultats et conclusion . . . . . . . . . . . . . . . . . . . . . 289

Exemples de rseaux baysiens . . . . . . . . . . . . . . . . 299 13.2.1

Table des matires

13.2.2 13.2.3 13.3

Conclusion et perspectives . . . . . . . . . . . . . . . . . . . 314 317

14 tude de cas n6 : diagnostic mdical 14.1 14.2

Un exemple de modle : P ROSTANET . . . . . . . . . . . . . 326 14.3.1 14.3.2 14.3.3 14.3.4 14.3.5

A.1 A.2 A.3 A.4 B

Probabilits B.1 B.1.1 B.1.2

Indpendance conditionnelle . . . . . . . . . . . . . . . . . 354 B.2.1 B.2.2

Bayes Net Toolbox (BNT) . . . . . . . . . . . . . . . . . . . . 359

Table des matires

Bibliographie Liste des gures Liste des tables Index

Introduction aux rseaux baysiens

1.1 Une reprsentation graphique de la causalit

1.1. Une reprsentation graphique de la causalit

1.1.1 Circulation de linformation dans un graphe causal

Chapitre 1 Approche intuitive

La lecture du graphe est bien conforme lintuition :

1.1. Une reprsentation graphique de la causalit

Chapitre 1 Approche intuitive

1.1.2 D-sparation (blocage)

Exemple ( X est d-spar de Y par Z est not X | Z | Y )

1.1. Une reprsentation graphique de la causalit

Linformation ne peut circuler de X Y que si Z est connu. X Z Y

Linformation ne peut circuler de X Y que si Z nest pas connu. X Z Y

Linformation ne peut circuler de X Y que si Z nest pas connu. X Z Y

TAB . 1.1 Circulation de linformation dans un graphe causal

Chapitre 1 Approche intuitive

on note Z un nud et Z un ensemble de nuds.

1.1. Une reprsentation graphique de la causalit