Vous êtes sur la page 1sur 91

Les Réseaux

Bayésiens

Machine Learning
Réalisateurs

• Abdelali Ines • Mejbri Wissem


• Hami Moetez • Ollo Palé Salomon
• Htewech Iheb • Yacouba Abdellah
• Kouassi Moussa Ouattara
1.Les Réseaux Bayésiens
Définitions
Définitions
1. Les modèles graphiques:
Ce sont des modèles probabilistes novateurs pour la représentation des
connaissances, fondés sur une description graphique des variables aléatoires.
Idée: Prendre en compte les dépendances et indépendances conditionnelles entre
les variables.
Objectif: Représenter des distributions multidimensionnelles de grande taille en
évitant l’explosion combinatoire (complexité temporelle et spatiale).
• Deux grandes classes :
– Les Réseaux Bayésiens
– Les Champs de Markov
Définitions
2. Définition:
Un Réseau Bayésien est une notation graphique simple pour des
affirmations d’indépendance conditionnelle, et donc une spécification
compacte de distributions conjointes complètes.
Deux composantes d’un réseau bayésien:
• Composante graphique:
Un DAG(Directed Acyclic Graph) G = (V,E) avec:
Nœuds V: Variables d'intérêt du domaine
Arcs E: Relations de dépendance/indépendance conditionnelles
entre les variables
Définitions
• Composante numérique:
Une distribution conditionnelle pour chaque nœud, sachant ses
parents.
P (Xi | Parents (Xi))
Définitions
La topologie du réseau représente les affirmations
d’indépendance conditionnelle.
Weather est indépendante des autres variables.
Toothache (mal aux dents) et Catch (accroché)
sont indépendantes conditionnellement sachant
Cavity (carie).
Si A et B sont indépendants:
P(A,B)=P(A)P(B)
Si A et B sont indépendants conditionnellement à C:
P(A,B|C)=P(A|C)P(B|C)
Définitions
3.Exemple:
Je suis au travail. Mes voisins Marie et Jean m’ont promis de m’appeler
chaque fois que mon alarme sonne.
Mon voisin Jean m’appelle pour me dire que mon alarme sonne.
Parfois il confond l’alarme avec la sonnerie du téléphone.
Par contre ma voisine Marie ne m’appelle pas Toujours
Parfois elle met la musique trop fort.
Parfois mon alarme se met à sonner lorsqu’il y a de légers séismes.
Comment conclure qu’il y’a un cambriolage chez moi ?
Définitions
Comment conclure qu’il y a un cambriolage chez moi ?
On peut représenter cette situation par un RB.
Variables Aléatoires (Variables binaires vrai ou faux):

•Cambriolage
•Séisme
•Alarme
•Marie Appelle
•Jean Apelle
Définitions
La topologie du RB modélise les relations de
causalité.
Un arc d’un nœud X vers un nœud Y signifie que la
variable X influence la variable Y:
– Un cambriolage peut déclencher l’alarme
– Un séisme aussi
– L’alarme peut inciter Jean à appeler
– Idem pour Marie
Une table de probabilités conditionnelles (TPC)
donne la probabilité pour chaque valeur du nœud
étant donnés les combinaisons des valeurs des
parents du nœud (c’est l’équivalent d’une
distribution).
Définitions
S’il y a un arc d’un nœud Y vers un nœud
X, cela signifie que la variable Y influence
la variable X.
– Y est appelé le parent de X
– Parents(X) est l’ensemble des
parents de X
Si X n’a pas de parents, sa distribution de
probabilités est dite inconditionnelle ou
a priori.
Si X a des parents, sa distribution de
probabilités est dite conditionnelle.
2.Les dépendances
conditionnelles
Indépendances Conditionnelles
Un Réseau Bayésien est un graphe:
 Orienté
 Acyclique
Dont les nœuds sont des variables aléatoires et les arc
représentent:
 Les dépendances probabilistes entre les variables
 Les distributions de probabilités conditionnelles pour chaque
variable étant donnés ses parents (permet de déterminer la
taille des tables de probabilité conditionnelle).
Indépendances Conditionnelles
Les dépendances et indépendances conditionnelles permettent
de mettre en relation directe plusieurs variables.
Cependant Le sujet de la dépendance conditionnelle reste peu
abordé dans la littérature statistique, et peu de tests statistiques
ont été développés pour découvrir des dépendances
conditionnelles.
Ainsi donc nous allons voir les indépendances conditionnelles.
Indépendances Conditionnelles
1.Exemple:
Je suis au travail. Mes voisins Marie et Jean m’ont promis de m’appeler
chaque fois que mon alarme sonne.
Mon voisin Jean m’appelle pour me dire que mon alarme sonne.
Parfois il confond l’alarme avec la sonnerie du téléphone.
Par contre ma voisine Marie ne m’appelle pas Toujours
Parfois elle met la musique trop fort.
Parfois mon alarme se met à sonner lorsqu’il y a de légers séismes.
Comment conclure qu’il y’a un cambriolage chez moi ?
Indépendances Conditionnelles
On peut représenter cette situation par un RB.
Variables Aléatoires (Variables binaires vrai ou faux):

•Cambriolage
•Séisme
•Alarme
•Marie Appelle
•Jean Apelle
Indépendances Conditionnelles
1. Relation entre grand-parent et enfant
étant donné parent: ils sont
indépendants si parent observé.
Cambriolage et MarieAppelle sont
dépendants à priori mais ils sont
indépendants étant donné Alarme:
P(M|A,C) = P(M|A)
Indépendances Conditionnelles
2. Relation entre deux enfants étant
donné parent: ils sont indépendants si
parent observé.
JeanAppelle et MarieAppelle sont
dépendants à priori mais ils sont
indépendants étant donné Alarme:
P(M|A,J) = P(M|A)
Indépendances Conditionnelles
3. Relation entre parents étant donné
enfant: ils sont indépendants si enfant
non-observé.
Cambriolage et Seisme sont
indépendants a priori mais ils sont
dépendants étant donné Alarme:
P(C|A,S) n’est pas simplifiable
Indépendances Conditionnelles
2.D-Séparation:
C’est la critère générale pour decider si un noeud X est indépendent d’un
noeud, étant donnés d’autres noeuds Z = {Z1 …,Zm}.
X est independent de Y sachant Z si tous les chemins non-dirigés entre X et
Y sont bloqués par Z.
Un Chemin est bloqué s’il contient au moins un noeud N qui satisfait l’une
ou l’autre des conditions suivantes:
•Il inclue un noeud => N => ou <= N => où N appartient à {Z1 …,Zm}
•Il inclue un noeud => N <= et N n’appartient pas à {Z1 …,Zm}
Ni aucun des descendants de N.
Indépendances Conditionnelles
1.Est-ce que Age et Gender sont
indépendants ?
2.Est-ce que Age et Lung-Tumor sont
indépendants sachant Smoking ?
3.Est-ce que Exposure-to-Toxins et
Smoking sont indépendants sachant
Age et Lung-Tumor ?
3.Notions de probabilité
Définitions
Probabilité
Définitions:
Deux variables X et Y sont indépendantes si et seulement si:
P(X ∩ Y ) = P(X)P(Y )
Deux variables X et Y sont indépendantes conditionnellement à un ensemble
de variables Z si et seulement si:
P(X ∩ Y |Z) = P(X|Z)P(Y |Z)
Théorème de Bayes :
Soient deux variables X et Y on a alors:
P(X ∩ Y ) = P(X|Y )P(Y )
3.Notions de probabilité
Hypothèse de Markov
Hypothèse de Markov
Théorème 1 Pearl (2009): Un noeud satisfait l’hypothèse de Markov si et
seulement s’il est indépendant de tous ses non descendants
conditionnellement à ses parents.
Par définition le Graphe Acyclique Dirigé (DAG) d’un réseau bayésien
représente un phénomène qui respecte nécessairement ce théorème.
L’hypothèse de Markov implique plusieurs conséquences. Pour un
ensemble de variables X = {X1, ..., Xn}, le Graphe Acyclique Dirigé (DAG)
d’un réseau bayésien associé à ces variables est aussi une représentation
graphique de la décomposition de la probabilité jointe de cet ensemble.
Hypothèse de Markov
En effet, en suivant l’hypothèse de Markov, on peut décomposer la
probabilité jointe de l’ensemble par :
Hypothèse de Markov
Exemple 1:
Soit un réseau bayésien à 5 variables:

X1 X2

X3

X4 X5
Hypothèse de Markov
Les nœuds sont les variables aléatoires et les arcs sont les relations
(si possibles) causales entre ces variables.
L’absence d’arc signifie une indépendance conditionnelle.
En utilisant le théorème de Bayes on a :
P(X1, X2, X3, X4, X5) = P(X5|X1, X2, X3, X4)P(X1, X2, X3, X4)
or d’après l’hypothèse de Markov le nœud X5 n’est dépendant que
de ses parents, donc :
P(X1, X2, X3, X4, X5) = P(X5|X3, X4)P(X1, X2, X3, X4)
Hypothèse de Markov
De proche en proche on arrive à la décomposition suivante :
P(X1, X2, X3, X4, X5) = P(X5|X3, X4)P(X4|X3)P(X3|X2, X1)P(X2)P(X1)

Ce théorème porte plusieurs noms: Condition de Markov, Hypothèse


de Markov, Propriété Locale de Markov.
Hypothèse de Markov
Exemple 2:
Considérons la situation suivante:
Je suis au travail. Mes voisins Marie et Jean m’ont promis de m’appeler
chaque fois que mon alarme sonne.
Mon voisin Jean m’appelle pour me dire que mon alarme sonne.
Parfois il confond l’alarme avec la sonnerie du téléphone.
Par contre ma voisine Marie ne m’appelle pas.
Parfois elle met la musique trop fort.
Parfois mon alarme se met à sonner lorsqu’il y a de légers séismes.
Hypothèse de Markov
Comment conclure qu’il y a un cambriolage chez moi ?
On peut représenter cette situation par un RB.
Variables Aléatoires (Variables binaires vrai ou faux):

•Cambriolage
•Séisme
•Alarme
•Marie Appelle
•Jean Apelle
Hypothèse de Markov
La topologie du RB modélise la connaissance
causale.
Un arc d’un nœud X vers un nœud Y signifie
que la variable X influence la variable Y.
– Un cambriolage et le séisme peuvent
déclencher l’alarme.
– L’alarme peut inciter Jean et Marie à
appeler.
Pour chaque nœud, une table de probabilité
conditionnelle (TPC) donne la probabilité
pour chaque valeur du nœud étant donné les
combinaisons des valeurs des parents du
nœud.
Hypothèse de Markov
P(X1, … ,Xn) =  i=1 P (XiParents(Xi))
P(j,m,a,¬c, ¬ s) = P(j|a) P(m|a) P(a| ¬ c, ¬ s)
P(¬ c) P(¬ s) = .90 × .70 × .001 ×
0.999 × . 998
= .00062
Hypothèse de Markov
Une autre conséquence est sur la D-séparation. Elle devient
équivalente à l’indépendance conditionnelle.
En effet, sous l’hypothèse de Markov, X est D-séparé de Y par Z est
équivalent à X ⊥ Y |Z.
Cela se traduit dans le cas 1 et 2 de la D-séparation par une
indépendance conditionnelle entre X et Y lorsqu’on conditionne par Z.
Dans le cas 3 conditionner par rapport à W donne une dépendance
conditionnelle entre X et , alors que le conditionnement par Z donne
une indépendance conditionnelle.
Hypothèse de Markov
Une dernière conséquence, allant de pair avec la D-séparation, est
que la couverture de Markov d’une variable est l’ensemble minimum
qui permet d’isoler totalement une variable des autres, c’est-à-dire:

∀X ∈ U, et ∀Z ∈ {U − MB(X)}, X ⊥ Z|MB(X)

où U est l’ensemble des variables du jeu de données. Concrètement


cela signifie que l’ensemble minimum pour prédire au mieux X est sa
couverture de Markov.
3.Notions de probabilité
Tables de probabilité et modèles
Hypothèse de Markov
À chacune des variables d’un réseau bayésien est associée une table
de probabilités conditionnelles (pour les variables multinomiales), ou
un modèle explicatif (pour les autres). Lorsque la variable ne possède
pas de parent ce seront des lois marginales.
Ces variables de conditionnement ou ces variables composant le
modèle sont les variables parents de la variable associée. Cette forme
permet une visualisation facile et rapide du possible état d’une
variable en fonction de celles qui vont la générer.
Hypothèse de Markov
Pour justifier le choix de conditionner uniquement sur les parents et
non sur l’ensemble des variables de la couverture de Markov, il faut
rappeler que la dépendance liée aux parents est à distinguer de la
dépendance d’une variable à sa couverture de Markov (ou plus
généralement de la dépendance de la prédiction d’une variable aux
autres variables).
Dans chaque nœud, on stocke la table de probabilités conditionnelles
locale P(Xi|Pai) pour chaque configuration des parents Pai du nœud Xi.
Hypothèse de Markov
En effet la valeur prise par une variable, quand un phénomène la
génère, est uniquement dépendante des valeurs prises par ses
parents, les autres variables de la couverture de Markov n’étant soit
pas encore existantes soit inutilisables (cas 3 de la D-séparation).
Il est donc évident qu’elles n’interviennent pas sur les valeurs
possibles de la variable. Par contre elles permettront, une fois que
l’ensemble des données a été récolté, de prédire/déduire la valeur de
la variable
4.Apprentissage dans les
Réseaux Bayésiens
Introduction
Apprentissage
Un réseau bayésien est constitué à la fois de:
• L’aspect qualitatif: Le graphe
• L’aspect quantitatif: L’ensemble des
probabilités conditionnelles

Un réseau bayésien doit donc répondre aux deux


questions suivantes:
• Comment estimer les lois de probabilités
conditionnelles ?
• Comment trouver la structure du réseau
bayésien ?
Apprentissage
Le problème de l’apprentissage dans un réseau bayésien peut être séparé en deux
parties:

• L’apprentissage des paramètres: La structure du réseau supposée fixée, il


faudra estimer les probabilités conditionnelles de chaque noeud du réseau.

• L’apprentissage de la structure: Un problème particuler ou une base de


données peut être représenté par un nombre superexponentiel de structure,
le but est de trouver la meilleure structure resprésentant la tâche à résoudre.
4.Apprentissage dans les
Réseaux Bayésiens
Apprentissage des paramètres
Apprentissage
Étant donnée une structure de réseau bayésien G et un ensemble
de données D, le principe de l’algorithme d’apprentissage des
paramètres est d’estimer les distributions de probabilités
(paramètres) θ={θi} avec θi=P(Xi|Pa(Xi)), table de probabilité
conditionnelle constituée de θijk=P(Xi=xk|Pa(Xi=xj)).

Cette estimation peut être effectuée différemment selon que les


données disponibles soient complètes ou incomplètes.
Apprentissage
1. À partir des données complètes:
Lorsque toutes les variables sont observées, la méthode simple et
souvent utilisée est l’apprentissage statistique.
Elle consiste à estimer la probabilité d’un événement par la
fréquence d’apparition dans la base de données.
Elle est aussi appelée maximum de vraisemblance (likelihood):
Apprentissage
Une autre méthode souvent utilisée est l’estimation bayésienne qui
consiste à trouver les paramètres les plus probables sachant que les
données ont été observées, en utilisant des a priori sur les paramètres.
Cette méthode est aussi appelée le maximum a posteriori (MAP):

Où Ni,j,k est le nombre d’événements dans la base de données pour


lesquelles la variable Xi est dans l’état xk et ses parents sont dans la
configuration xj.
Apprentissage
2. À partir des données incomplètes:
Dans les applications pratiques, les bases de données sont très
souvent incomplètes. Certaines variables ne sont observées que
partiellement out même jamais.
Il existe plusieurs types de données incomplètes:
•Missing Completely At Random (MCAR): La probabilité qu’une
donné soit manquante ne dépend pas de l’ensemble de données.
•Missing At Random (MAR): La probabilité qu’une donné soit
manquante dépend des données observées.
Apprentissage
•Not Missing At Random (NMAR): La probabilité qu’une donnée
soit manquante dépend à la fois des données observées et
manquantes.
Les situations MCAR et MAR sont les plus faciles à résoudre car les
données observées contiennent toutes les informations
nécessaires pour estimer la distribution des données manquantes.
La situation NMAR est plus délicate car il faut alors faire appel à
des informations extérieures pour réussir à modéliser la
distribution des données manquantes.
Apprentissage
a. Missing Completely At Random (MCAR):
Lorsque les données manquantes sont de type MCAR, on peut
distinguer entre deux approches:
•L’analyse des exemples complets: Il consiste à estimer les
paramètres à partir de l’ensemble des exemples complètement
observés dans la base de données.
•L’analyse des exemples disponibles: Il consiste à estimer la loi
de probabilité conditionnelle P(Xi | Pa(Xi)) en utilisant seulement
les exemples où Xi et Pa(Xi) sont complètement mesurés.
Apprentissage
L’analyse des exemples complets:
Apprentissage
L’analyse des exemples disponibles:
Apprentissage
L’analyse des exemples disponibles:
Apprentissage
b. Missing At Random (MAR):
De nombreuses méthodes tentent d’estimer les paramètres d’un
modèle à partir des données MAR. Citons par exemple:
•Sequential Updating
•L’échantillonnage de Gibbs
•L’algorithme Expectation Minimisation (EM)
•Bound And Collapse
•Robust Bayesian Estimator
Apprentissage
La méthode la plus adaptée aux grandes bases de données est
Expectation Minimisation (EM):
Soit X un ensemble de variables observées et Z un ensemble de
variables manquantes. L’espérance de la log-vraisemblance est
définie par:

Où logP(D|θ)=logP(X,Z|θ) est la log-vraisemblance des


données et θ′ sont les paramètres actuels.
Apprentissage
Soit θ(t) les paramètres à l’itération t. L’algorithme EM consiste en
deux étapes:
•Expectation: Estimer les Q(θ:θ′) en utilisant X et les
paramètres actuelles θ(t)
•Maximisation: Choisir la meilleure valeur des paramètres
θ(t+1) en maximisant Q(θ:θ′):
Apprentissage
Et répéter ces deux étapes tant que l’on arrive à augmenter la
valeur de Q(θ:θ′).
Apprentissage
3. À partir de connaissances d’experts:
Dans de nombreuses applications réelles, il n’existe pas de
données. Dans ces situations, l’apprentissage des paramètres du
réseau bayésien passe par l’utilisation de connaissances d’experts
pour tenter d’estimer les probabilités conditionnelles, Il s’agit de:
•Trouver un expert fiable et coopératif
•Le familiariser à la notion de probabilité
•Tenir compte des biais éventuels
Apprentissage
•Lui fournir un outil pour déterminer les probabilités : échelle
de probabilité (Drusel 2001)
4.Apprentissage dans les
Réseaux Bayésiens
Apprentissage de la structure
Apprentissage
L’apprentissage de la structure d’un réseau bayésien permet de
déterminer automatiquement une structure optimale à partir de
l’information contenue dans les données observées.
On distingue trois grandes familles d’approches d’apprentissage de
la structure:
•Les méthodes basées sur les contraintes et recherche
d’indépendances
•Les méthodes basées sur le score et la recherche
•Les méthodes hybrides
Apprentissage
1. Méthodes basées sur la recherche d’indépendance:
Le but de ces méthodes est de trouver des indépendances
conditionnelles avec l’aide de tests d’indépendance, puis de
construire le graphe à partir de ces connaissances. Parmi ces
méthodes citons:
•Sprites Glymour and Scheines (SGS)
•Inductive Casuality (IC)
•PC
Apprentissage
Ces méthodes cherchent d’abord à identifier un graphe non orienté
qui représente les différente indépendances conditionnelles
existantes entre les variables observées à l’aide de tests
d’indépendance conditionnelle.

L’orientation est réalisée à l’aide de la détection des V-Structures et


puis la propagation des orientations de certains arcs inférés à
cause des V-Structures.
Apprentissage
2. Méthodes basées sur l’optimisation d’un score:
Chaque réseau bayésien est noté par un score S(G,D) qui désigne
sa capacité à représenter les données. Ce score doit prendre en
compte deux propriétés:
•Décomposable localement:
•Équivalent: C’est à dire qu’il faut assurer que les réseaux
équivalents (décrivent les même indépendances
conditionnelles) ont le même score.
Apprentissage
La plupart des scores cherchent à trouver le modèle qui
correspond le mieux aux données et le plus simple possible. Parmi
ces score citons:
•Akaike’s Information Criterion (AIC):

•Bayesian Information Criterion (BIC):


Apprentissage
Avec Dim(B) le nombre de paramètres nécessaires pour décrire
toutes les distributions de probabilité du réseau B:

Et LL(D|θ,G) la log-vraisemblance du réseau B=(G,θ):


Apprentissage
Le principe des méthodes à base de score consiste à parcourir de
manière heuristique l’espace des DAG ou celui des EG:
1. En cherchant dans l’espace des arbres
2. En cherchant dans l’espace des réseaux bayésiens avec un
contrainte sur l’ordre des noeuds
3. En faisant une recherche gloutonne dans l’espace des DAG
ou dans l’espace des EG
4. En optimisant la recherche par des métaheuristiques par
exemple avec des approches évolutionnaires comme les
algorithmes heuristiques
Apprentissage
3. Méthodes hybrides:
Le but de ces méthodes est de combiner les avantages des
méthodes basées sur les contraintes et celles basées sur les scores.
Inspirées par le principe “Diviser pour régner”, ils consistent en
deux étapes:
1. Une recherche locale, qui permet d’obtenir un voisinage
contenant toutes les dépendances locales intéressantes
avec l’aide de tests d’indépendances (MMMB, MMPC,
PCMB, MBOR).
Apprentissage
2. Une optimisation globale, qui permet de faire une
recherche sur l’espace des DAG en se restreignant aux
dépendances locales trouvées précedemment (MMHC).
5.Performance of a Bayesian
Network
Used Bayesian Networks
Used Bayesian Networks
We will examine in depth the multinomial case with tests carried out
on 6 Bayesian networks , structurally different and widely used in the
study of Bayesian networks.
The 6 networks have been chosen to represent a wide variety of
possible situations.
Used Bayesian Networks
The Child Network of Spiegelhalter and
Cowell (1992):
It’s a network with 20 variables, 25 arcs
and 230 parameters which aim to
determine 6 possible diseases such as
heart disease births in babies, based on
different symptoms.
This network will allow us to observe the
performance of algorithms on small
networks with few parameters.
Used Bayesian Networks
The Alarm Network of Beinlich and AI (1989):
The ALARM (" Logical Alarm Reduction
Mechanism") is a network with 37
variables, 46 arcs and 509 parameters
richer in variables than Child but poorly
connected.
The purpose of the network is to provide a
message informing the user about possible
problems with 8 possible diagnoses.
Used Bayesian Networks
The Insurance Network of Binder and AI
(1997):
It’s a network with 27 nodes, 52 arcs and
984 parameters, its purpose is to
estimate the price to pay to insure a car.
This network will allow us to observe the
performance of algorithms on small
networks with lots of settings.
Used Bayesian Networks
The Hailfinder Network of Abramson
and AI (1996):
It’s a network with 56 nodes, 66 arcs, and
2656 parameters, allowing to predict
different types of bad weather
This network will allow us to observe the
performance of algorithms on networks
with 21 variables with many modalities
and one variable with many others.
Used Bayesian Networks
Onisko’s Hepar 2 Network (2003):
It’s a network with 70 variables, 123 arcs,
and 1453 parameters, used to diagnose
liver problems.
This network will allow us to observe the
performance of algorithms on networks
with variables generating many more.
Used Bayesian Networks
The Andes Network of Conati and AI
(1997):
It’s a network with 223 variables, 338
arcs, and 338 parameters.
Rectangles are system modules, Ovals
are data structures.
Its purpose is to predict the various
actions of a student during problem
solving.
Used Bayesian Networks
Many other networks were used to be able to design this algorithm,
like the LUCAS network , which is modeling a medical application for
the diagnosis, prevention, and cure of lung cancer.
Used Bayesian Networks
Observation:
Each node represents a
variable/feature and the arcs represent
causal relationships.
The target variable is shaded in purple.
The nodes in dark green constitute the
Markov blanket of the target variable. 
5.Performance of a Bayesian
Network
General efficiency of Bayesian Network Algorithms
General Efficiency
How we can measure the efficiency of a Bayesian algorithm ?
Overall, the algorithms are effective in the sense that the number of
false positives is often limited.
On all the tests carried out, the number of false positives rarely
represents more than 16% of all the links found.
The larger the dataset, the fewer false positives will be found, and it
is not uncommon to get less than 4% false positive.
The more a network is connected, the more difficult it will be to get
closer to its shape, because it will have a very high number of parameters,
and therefore will require a very high number of observations.
General Efficiency
The use of algorithms with small sample size is not useless
because we can be interested in a part local network.
However, it doesn't make sense to use such algorithms for
sample sizes smaller than 100 observations, because very few
connections will be found, which leads to remove all interests of
Bayesian algorithms.
General Efficiency
Demonstration:

• A true positive is a result where the • A false positive is a result where the
model correctly predicts the positive model incorrectly predicts the positive
class. class.

• A true negative is a result where the • A false negative is a result where the
model correctly predicts the negative model incorrectly predicts the negative
class. class.
General Efficiency
As he grazes the village herd, a young shepherd was bored. To have fun, he started
shouting "a wolf!" when there were no wolves around him. The villagers run to
protect the herd, then get angry when they understand that the young man has
played a trick on them.

One night, the young shepherd actually sees a wolf approaching his flock and
shouting "a wolf!". This time, the villagers refuse to be fooled and they stayed at
home. The hungry wolf was feasting on lamb's meat and the village was left without
food.
• "Wolf" is a positive class
• "No wolf" is a negative class
General Efficiency
We can summarize our wolf prediction model with a 2x2 matrix that
illustrates the four possible results:
True positive (TP): True negative (TN):
• Reality: wolf attack. • Reality: no wolf attack.
• The shepherd says: "Wolf". • The shepherd says: "No wolf".
• Result: the shepherd is a hero. • The result: everyone is safe.

False positive (FP): False negative (FN):


• Reality: no wolf attack. • Reality: wolf attack.
• The shepherd says: "Wolf". • The shepherd says: "No wolf".
• Result: the villagers blame the • Result: the wolf devours all the
shepherd for waking them up. sheep.
5.Performance of a Bayesian
Network
Score
Score
Il n’y a pas de consensus précis pour évaluer la qualité d’un DAG créé à
partir d’un algorithme.
Une des mesures utilisées dans la littérature est le SHD (Structural
Hamming Distance) présentée par Tsamardinos et AI (2006), qui
compare un DAG créé par un algorithme à un DAG de référence, cette
mesure prend en compte le sens des arcs.
Cependant le DAG produit par notre algorithme n’a pas nécessairement
tous ses arcs orientés. De ce fait nous n’utiliserons pas ce score SHD.
Score
Nous proposons l’utilisation d’un nouveau score qui s’intéresse aux
distances entre le squelette d’un DAG produit par un algorithme et le
squelette d’un DAG référent.
Le score est donné par la formule suivante:
Score
• Vrais Positifs: Nombre de relations présentes à raison dans le réseau
construit
• Faux Positifs: Nombre de relations présentes à tort dans le réseau
construit
• Nombre Originel d’Arcs (NOA): Nombre d’arcs présents dans le
réseau référent
Un score proche de 1, correspondra à une concordance quasi
parfaite entre le réseau produit et le réseau référent.
Un score proche de 0 signifie qu’il y a autant de faux positifs que de
vrais positifs.
5.Performance of a Bayesian
Network
Avantages et Inconvénients
Avantages et Inconvénients
1. Avantages:
 La représentation des connaissances par liens entre causes et effets
est souvent plus naturelle que la représentation par règles de
production.
 La représentation des connaissances est assez lisible.
 Les types d'inférences réalisables à partir de la même représentation
sont très variés.
 Des méthodes d'apprentissage existent.
Avantages et Inconvénients
2. Inconvénients:
 L'utilisation des probabilités et leurs données par l'expert sont
problématiques.
 Problème des variables continues.
 Complexité des algorithmes.

Vous aimerez peut-être aussi