Vous êtes sur la page 1sur 69

Fondements théorétiques en science des données

Classification bayésienne

STT 3795
Guy Wolf
guy.wolf@umontreal.ca

Université de Montréal
Hiver 2023

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 1 / 22


Classification

Classification
Classer des “objets” en un ensemble fini de classes ou “catégories”.

Entraînement
Données étiquetées: Modèle de classification:
z }| { z }| {
{(x1 , `1 ), . . . , (xn , `n )} ⊂ X × L Z⇒ F : X → L, F (xi ) = `i |L| < ∞

Généralisation
Nouveaux données: Résultats de classification:
z }| { z }| {
y1 , y2 , . . . ∈ X 7→ Modèle de classification Z⇒ F (y1 ), . . . , F (yn ) ∈ L

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 2 / 22


Classification

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 2 / 22


Classification
Algorithmes & approches

Approches populaires de classification


Classification bayésienne – «Naïve Bayes» & réseaux bayésiens
Machine à vecteurs de support – «SVM»
Forêts aléatoires – ensembles des arbres de décisions
Classification par règles – «Rule-based classification»
Apprentissage profond – réseaux neuronaux artificiels

La régression peut également être appliquée à la classification dans


certains cas en estimant la confiance de la classification.

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 3 / 22


Classification bayésienne
Classification par les probabilités

Formulation classique de classificateurs


Pour chaque point de données x , trouvez la classe Ci dans laquelle il
correspondrait le mieux:

0 ← C1
.. ..
. .
x→
7 1 ← Ci
.. ..
. .
0 ← Ck

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 4 / 22


Classification bayésienne
Classification par les probabilités

Formulation statistique par probabilités


Pour chaque point x et classe Ci , calculez la probabilité que x ∈ Ci .

0.05 ← Pr[x ∈ C1 ]
.. ..
. .
x→
7 0.6 ← Pr[x ∈ Ci ]
.. ..
. .
0.15 ← Pr[x ∈ Ck ]

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 4 / 22


Classification bayésienne
Classification par les probabilités

Formulation statistique par probabilités


Pour chaque point x et classe Ci , calculez la probabilité que x ∈ Ci .

0.05 ← Pr[x ∈ C1 ]
.. ..
. .
x→
7 0.6 ← Pr[x ∈ Ci ]
.. ..
. .
0.15 ← Pr[x ∈ Ck ]

Si l’on traite x et C comme des variables aléatoires (dépendantes, on


espère), alors on peut considérer les probabilités Pr[x ∈ Ci ] comme
les probabilités conditionnelles P(C |x ).
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 4 / 22
Classification bayésienne
Estimation des probabilités conditionnelles

Exemple
Supposons qu’un patient se rend chez le médecin avec de la fièvre,
des nausées et des douleurs articulaires. Le médecin peut considérer
d’autres patients présentant des symptômes similaires et décider quelle
maladie a provoqué ces symptômes (p.ex., la grippe). Le médecin le
fait en considérant plusieurs maladies, en estimant la probabilité de
chacune et en choisissant la plus probable.
Problème: l’estimation direct de P(C |x ) est difficile / impraticable!
Chaque point x n’a qu’une seule étiquette C (et même ses
voisins ont probablement la même classe)
Il existe nombreux de points x tous différents
Fragmentation des données: il faut estimer de nombreuses
distributions, avec peu d’informations sur chacune.
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 5 / 22
Classification bayésienne
Estimation de vraisemblance

Adaptée de http://www.cs.ucr.edu/~eamonn/CE/Bayesian%20Classification%20withInsect_examples.pdf
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 6 / 22
Classification bayésienne
Estimation de vraisemblance

Adaptée de http://www.cs.ucr.edu/~eamonn/CE/Bayesian%20Classification%20withInsect_examples.pdf
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 6 / 22
Classification bayésienne
Estimation de vraisemblance

Adaptée de http://www.cs.ucr.edu/~eamonn/CE/Bayesian%20Classification%20withInsect_examples.pdf
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 6 / 22
Classification bayésienne
Estimation de vraisemblance

Histogramme des longueurs d’antennes dans chaque classe:

Antenna Length
Katydids Grasshoppers

Adaptée de http://www.cs.ucr.edu/~eamonn/CE/Bayesian%20Classification%20withInsect_examples.pdf
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 6 / 22
Classification bayésienne
Estimation de vraisemblance

Les distributions P(antenna_length|grasshopper) et


P(antenna_length|katydid):

Antenna Length
Katydids Grasshoppers

Adapted from http://www.cs.ucr.edu/~eamonn/CE/Bayesian%20Classification%20withInsect_examples.pdf

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 6 / 22


Classification bayésienne
Estimation de vraisemblance

Donné la longueur des antennes, on peut décider quelle classe,


grasshopper ou katydid, est plus vraisemblable:

Grasshopper est plus


vraisemblable!

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 6 / 22


Classification bayésienne
Estimation de vraisemblance

Donné la longueur des antennes, on peut décider quelle


vraisemblance est plus grande, grasshopper ou katydid:

Katydid est plus vraisemblable!

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 6 / 22


Classification bayésienne
Estimation de vraisemblance

La probabilité conditionnelle P(x |C ) est également appelée la


vraisemblance de C sachant x .
Exemple (Estimateur du maximum de vraisemblance)
Supposons que, sachant x1 , . . . , xm ∼ N(µ, σ) i.i.d., on veut estimer µ
et σ.

On peut formuler P(x |µ, σ). Alors, comme les échantillons sont i.i.d.,
on peut calculer P(x1 , . . . , xm |µ, σ) = m
i=1 P(xi |µ, σ) et maximiser
Q

cette vraisemblance.

Plus précisément, on maximiserait la log-vraisemblance


Pm
i=1 ln[P(xi |µ, σ)], qui est plus simple à différencier puis max-
imiser via son gradient p/r à µ, σ.
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 6 / 22
Classification bayésienne
Vraisemblance vs. probabilité

Considérons la vraisemblance suivante, de sexe en fonction de la


coiffure:
x \C male female
short hair 0.9 0.2
long hair 0.1 0.8
Notez que, sachant le sexe, P(hairstyle|gender ) est une probabilité:
P(SH|M) + P(LH|M) = 1 ; P(SH|F) + P(LH|F) = 1
Néanmoins, sachant la coiffure, la vraisemblance n’est pas une
probabilité
P(SH|M) + P(SH|F) = 1.1 ; P(LH|M) + P(LH|F) = 0.9
La vraisemblance de C sachant x n’est pas une probabilité (au sens
statistique)!
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 7 / 22
Classification bayésienne
Vraisemblance vs. probabilité

La vraisemblance ignore la distribution a priori des classes dans les


données:
Exemple
Supposons que nous ayons 100 hommes et seulement 10 femmes
dans notre groupe.
Le fractionnement par coiffure donne 90 hommes à «short-hair»,
10 hommes à «long-hair», 8 femmes à «long-hair» et 2 femmes à
«short-hair».
Justesse de classification MLE: 0.89 = 98/110
Justesse de «toujours ‘homme’»: 0.91 = 100/110, qui est un
peu mieux
En effet: P(M|SH) = 0.98 et P(M|LH) = 0.55 dans ce cas,
donc le classement par probabilités choisirait toujours ‘Homme’
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 7 / 22
Classification bayésienne
Théorème de Bayes

Théorème de Bayes
La probabilité conditionnelle de la classe C sachant l’observation x
peut être calculée comme

P(x |C )P(C )
P(C |x ) =
P(x )

en utilisant la probabilité conditionnelle de x sachant C , et les


probabilités de x et de C .

P(C ) est la probabilité a priori de C


P(x |C ) est la vraisemblance de C sachant x
P(x ) est la distribution d’observations dans les données
P(C |x ) est la probabilité a posteriori de C (sachant x )
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 8 / 22
Classification bayésienne
Théorème de Bayes

Taken from https://arbital.com/

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 8 / 22


Classification bayésienne
Théorème de Bayes

Taken from https://arbital.com/

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 8 / 22


Classification bayésienne
Théorème de Bayes

Taken from https://arbital.com/

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 8 / 22


Classification bayésienne
Théorème de Bayes

Taken from https://arbital.com/


STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 8 / 22
Classification bayésienne
Classificateur maximum a posteriori (MAP)

La classification bayésienne utilise la vraisemblance et l’a priori de


chaque classe pour estimer l’a posteriori et classer par probabilité a
posteriori maximale:
Entraînement
1 Estimez l’a priori P(C ) par les tailles des classes dans les données
2 Pour chaque classe C , estimez P(x |C ):
Si x est discret, juste comptez les valeurs
Si x est continu, discrétisez ou utilisez un modèle de
distribution (p.ex., loi Gaussian ou Poisson)

Classificateur
Pour chaque x choisissez la classe C qui maximise P(x |C )P(C ).

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 9 / 22


Classification bayésienne
Classificateur maximum a posteriori (MAP)

Exemple

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 9 / 22


Classification bayésienne
Classificateur maximum a posteriori (MAP)

Exemple

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 9 / 22


Classification bayésienne
Classificateur maximum a posteriori (MAP)

Exemple

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 9 / 22


Classification bayésienne
Taux d’erreur bayésien

En supposant que l’on ait les probabilités correctes, sans erreur


d’estimation (bien qu’irréaliste dans la pratique), la classification
bayésienne produira la meilleure précision théoriquement possible.

Taux d’erreur bayésien


Z
Bayes_err = (1 − max{P(C |x )})P(x )dx
C

Le taux d’erreur de Bayes (lorsqu’il est formulé explicitement) est con-


sidéré comme une référence pour déterminer l’erreur minimale qu’un
classificateur peut atteindre sur les données. Si un classificateur atteint
des taux d’erreur plus faibles, il fait probablement de surajustement
(«overfitting») des données.

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 10 / 22


Classification bayésienne
Taux d’erreur bayésien

Exemple
Taux d’erreur de Bayes pour un problème à deux classes:

R
Bayes_err = min{P(Crocodile|x ), P(Alligator|x )}P(x )dx

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 10 / 22


Classification bayésienne
Taux d’erreur bayésien

Exemple
Taux d’erreur de Bayes pour un problème à deux classes:

R
Bayes_err = min{P(Crocodile|x ), P(Alligator|x )}P(x )dx

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 10 / 22


Classificateur « Naïve Bayes »
Jusqu’ici, nous n’avons considéré qu’un seul attribut. Et si nous
voulons en considérer plusieurs?

Classer comme arg maxC P(x [1], x [2], . . . , x [n]|C )

Taken from http://stats.stackexchange.com/questions/4949/calculating-the-error-of-bayes-classifier-analytically

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 11 / 22


Classificateur « Naïve Bayes »
Il faut estimer la vraisemblance P(x [1], x [2], . . . , x [n]|C ).

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 11 / 22


Classificateur « Naïve Bayes »
Il faut estimer la vraisemblance P(x [1], x [2], . . . , x [n]|C ).
Suggestion #1: estimer avec des histogrammes n dimensionnels.

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 11 / 22


Classificateur « Naïve Bayes »
Il faut estimer la vraisemblance P(x [1], x [2], . . . , x [n]|C ).
Suggestion #1: estimer avec des histogrammes n dimensionnels.
Problème: impraticable en raison de fragmentation des données

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 11 / 22


Classificateur « Naïve Bayes »
Il faut estimer la vraisemblance P(x [1], x [2], . . . , x [n]|C ).
Suggestion #1: estimer avec des histogrammes n dimensionnels.
Problème: impraticable en raison de fragmentation des données
Suggestion #2: estimer chaque P(x [j]|C ) individuellement et les
combiner ensuite

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 11 / 22


Classificateur « Naïve Bayes »
Il faut estimer la vraisemblance P(x [1], x [2], . . . , x [n]|C ).
Suggestion #1: estimer avec des histogrammes n dimensionnels.
Problème: impraticable en raison de fragmentation des données
Suggestion #2: estimer chaque P(x [j]|C ) individuellement et les
combiner ensuite
Question: comment combiner les vraisemblances / probabilités
conditionnelles ?

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 11 / 22


Classificateur « Naïve Bayes »
Il faut estimer la vraisemblance P(x [1], x [2], . . . , x [n]|C ).
Suggestion #1: estimer avec des histogrammes n dimensionnels.
Problème: impraticable en raison de fragmentation des données
Suggestion #2: estimer chaque P(x [j]|C ) individuellement et les
combiner ensuite
Question: comment combiner les vraisemblances / probabilités
conditionnelles ?
Réponse naïve: supposer l’indépendance des attributs étant donné la
classe C .
Indépendance de classes
On suppose que

P(x [j1 ]|C , x [j2 ], . . . , x [jk ]) = P(x [j1 ]|C )

pour chaque ensemble j1 , . . . jk , 1 < k ≤ n, des attributs.


STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 11 / 22
Classificateur « Naïve Bayes »
Indépendance de classes

Sous l’hypothèse de l’indépendance de classe, on peut calculer


P(x [i], x [k]|C ) = P(x [i]|C , x [k])P(x [k]|C ) = P(x [i]|C )P(x [k]|C )
pour n’importe quel i, j. De même, pour les attributs n l’on a
n
Y
P(~x |C ) = P(x [1], x [2], · · · , x [n]|C ) = P(x [j]|C )
j=1

Donc, on peut formuler un classificateur multivarié comme suit :


Naïve Bayes classification
Entraînement: Pour chaque C et j, estimez P(C ) et P(x [j]|C ) des
données d’entraînement;
Classificateur: Chaque x classé par arg maxC P(C ) nj=1 P(x [j]|C ) .
Q

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 12 / 22


Classificateur « Naïve Bayes »
Régions & frontières de décision

Exemple (Iris data)

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 13 / 22


Classificateur « Naïve Bayes »
Régions & frontières de décision

Exemple (Iris data)

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 13 / 22


Classificateur « Naïve Bayes »
Régions & frontières de décision

Exemple (Insect data)

Taken from http://www.cs.ucr.edu/~eamonn/CE/Bayesian%20Classification%20withInsect_examples.pdf

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 13 / 22


Classificateur « Naïve Bayes »
Correction Laplace & m-estimate

Si Pr[x [j] = a|C = Ci ] ≈ 0 à-c-d rareté des données, le postérieur de


{x : x [j] = a} sera zéro, même si d’autres attributs prédisent Ci .
Ce problème peut être atténué par deux méthodes de correction :
Correction de Laplace
Supposez que tous les compteurs utilisés par les estimateurs sont
suffisamment grands pour que nous puissions y ajouter 1 en toute
:x [j]=a∧x ∈Ci }+1
sécurité pour obtenir Pr[x [j] = a|C = Ci ] ≈ #{x#{x :x ∈Ci }+1

m-estimate
Généralisez la correction Laplace à
[j]=a∧x ∈Ci }+mp
Pr[x [j] = a|C = Ci ] ≈ #{x :x#{x :x ∈Ci }+m
, où 0 < p ≤ 1 est une
probabilité préalable supposée, m est la confiance de supposition.

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 14 / 22


Réseaux de croyances bayésiens
BBN – « Bayesian Belief Networks »

Naïve Bayes suppose une indépendance de classe pour simplifier les


estimations de probabilité, mais ça n’est pas toujours applicable.
Exemple
Supposons que l’on voit que l’herbe est mouillée, et que l’on veuille
évaluer si :
il pleuvait, ou
les arroseurs étaient allumés.
Si les arroseurs marchent toujours à 4h00–5h00, on peut supposer
l’indépendance des causes et estimer par heure et humidité d’herbe.
Cependant, si des arroseurs ne s’allument que lorsque la nuit n’est
pas assez pluvieuse, nous devrions considérer P(sprinklers|rain) 6= 0.

Comment modéliser efficacement les dépendances conditionnelles ?


STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 15 / 22
Réseaux de croyances bayésiens
Graphe de réseau de dépendance

Représentation graphique du classificateur bayésien naïf:

Ne considérez que les dépendances P(x [j]|C ).


STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 16 / 22
Réseaux de croyances bayésiens
Graphe de réseau de dépendance

Représentation graphique d’un classificateur bayésien moins naïf:

Considérez également les dépendances P(x [j]|x [i], C ).


STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 16 / 22
Réseaux de croyances bayésiens
Graphe de réseau de dépendance

En général, utilisez des graphes acycliques directs (DAG) pour


représenter les dépendances:

Chaque nœud ne devrait a priori dépendre que de ses parents.


STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 16 / 22
Réseaux de croyances bayésiens
Graphe de réseau de dépendance

En général, utilisez des graphes acycliques directs (DAG) pour


représenter les dépendances:

Cause

Effets

Chaque nœud ne devrait a priori dépendre que de ses parents.


STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 16 / 22
Réseaux de croyances bayésiens
Graphe de réseau de dépendance

En général, utilisez des graphes acycliques directs (DAG) pour


représenter les dépendances:

Hypothèse

Évidence

Chaque nœud ne devrait a priori dépendre que de ses parents.


STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 16 / 22
Réseaux de croyances bayésiens
Tables de dépendances conditionnelles
La structure de DAG fournit des informations qualitatives sur les dépen-
dances conditionnelles qui devraient être prises en compte. Ceci est
généralement donnée par conception (p.ex. de connaissances préal-
ables ou d’experts). La partie quantitative du réseau est donnée par
des tableaux de dépendances conditionnelles.

Tables de dépendances conditionnelle (CDT)


Un CDT contient les valeurs possibles d’un attribut d’un côté
et les combinaisons possibles des attributs des parents de l’autre
côté. Les cellules de ce tableau prennent en compte les probabilités
P(enfant|parents).
Étant donné une structure de réseau, les entrées CDT de chaque nœud
sachant ses parents sont estimées de façon similaire au Naïve Bayes
pour les attributs observables et par optimisation pour les cachés.
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 17 / 22
Réseaux de croyances bayésiens
Tables de dépendances conditionnelles

Adapté de Wikipedia
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 17 / 22
Réseaux de croyances bayésiens
Tables de dépendances conditionnelles

Adapté de Wikipedia
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 17 / 22
Réseaux de croyances bayésiens
Tables de dépendances conditionnelles

Adapté de Wikipedia
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 17 / 22
Réseaux de croyances bayésiens
Tables de dépendances conditionnelles

Adapté de Wikipedia
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 17 / 22
Réseaux de croyances bayésiens
Tables de dépendances conditionnelles

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 17 / 22


Réseaux de croyances bayésiens
Tables de dépendances conditionnelles

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 17 / 22


Réseaux de croyances bayésiens
Algorithme de construction glouton

Afin que l’estimation des probabilités de CDT soit faisable, il faudrait


que le nombre de parents pour chaque nœud soit le plus petit possible,
tout en maintenant l’interprétabilité des causes-effets.
Un simple algorithme glouton d’inférence de la structure du réseau
est le suivant :
Initialize a set of nodes V = {x [1], . . . , x [n]}
While there V 6= ∅ do:
Select a node v ∈ V and remove it from V
Choose a minimal set of parents U ⊆ V such that
P(v |U, V \ U) = P(v |U)
Add edges from every node in U to v

Par contre, cet algorithme dépend fortement de l’ordre de balayage


des nœuds en V .
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 18 / 22
Réseaux de croyances bayésiens
Algorithme de construction glouton

Exemple
Considérons un modèle pour un système d’alarme contre les
cambrioleurs.

Lorsqu’il y a un cambriolage en cours (v = B), il y a de fortes


chances que le système d’alarme se déclenche (v = A). Cependant, il
peut aussi être déclenché par des tremblements de terre (v = E ).

Une fois l’alarme déclenchée, les voisins, John (v = JC ) et/ou Mary


(v = MC ), appellent généralement le 911 pour le signaler.

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 18 / 22


Réseaux de croyances bayésiens
Algorithme de construction glouton

Exemple
Pour l’ordre V = {JC , MC , A, B, E } on obtient la structure suivante :

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 18 / 22


Réseaux de croyances bayésiens
Algorithme de construction glouton

Exemple
Pour l’ordre V = {E , B, A, JC , MC } on obtient la structure suivante :

Problème: cette structure a des relations déraisonnables qui ne


peuvent être estimées fidèlement !
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 18 / 22
Réseaux de croyances bayésiens
Algorithme de construction glouton

Exemple
Pour l’ordre V = {A, B, E , JC , MC } on obtient:

Problème: ce qui a des nombres excessifs de parents, menant à de


gros CDT qui ne sont pas pratiques à estimer !
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 18 / 22
Réseaux de croyances bayésiens
Propagation de croyances

Étant donné un réseau de croyance bayésien, les probabilités


conjointes sont calculées en utilisant la règle de la chaîne:

P(x [1], . . . , x [n], C ) = P(x [1]|x [2], . . . , x [n], C )P(x [2], . . . , x [n], C )
= P(x [1]|parents(x [1]) )P(x [2], . . . , x [n], C ) = · · ·
Y
= P(x [j]|parents(x [j]) )
j

Notez que C peut aussi être étendu pour considérer plusieurs noeuds
de sortie. De plus, les valeurs manquantes peuvent naturellement être
traitées en considérant des ensembles partiels d’attributs. Les vraisem-
blances et les postérieures peuvent alors être estimées en utilisant des
probabilités conjointes.
Lorsque l’on considère la propagation des croyances, il est utile
d’identifier l’indépendance entre les événements dans le réseau.
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 19 / 22
Réseaux de croyances bayésiens
Couverture de Markov («Markov Blanket»)

Une couverture de Markov d’un noeud inclut ses parents, enfants


et co-parents. Sachant sa couverture de Markov, un noeud est
indépendant du reste du réseau.

Tirée de Wikipedia
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 20 / 22
Réseaux de croyances bayésiens
Séparation directionnelle

Considérons des événements / évidences comme des ensembles de


nœuds du réseau.
Séparation directionnelle
Deux événements X et Y sont d-séparés sachant l’évidence E si
chaque chemin non orienté entre eux est bloqué par un des éléments
suivants:
Un noeud z ∈ E sur le chemin ayant une arête entrante et une
autre sortante.
Un noeud z ∈ E sur le chemin ayant deux arêtes sortantes.
Un noeud z ∈ / E sur le chemin ayant deux arêtes entrantes, ou
l’un de ses descendants.
On peut tester l’indépendance entre les événements sachant
d’évidence en utilisant la d-séparation.
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 21 / 22
Réseaux de croyances bayésiens
Séparation directionnelle

Exemple

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 21 / 22


Réseaux de croyances bayésiens
Séparation directionnelle

Exemple

En l’absence d’évidence, Radio et Gas sont d-séparés et clairement


indépendants.

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 21 / 22


Réseaux de croyances bayésiens
Séparation directionnelle

Exemple

Sachant Engine, ils ne sont pas séparés et sont dépendants. P. ex., si


le moteur ne démarre pas, mais la radio est allumée (c-à-d, la batterie
fonctionne bien), cela fournit la preuve qu’il n’y a plus d’essence.

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 21 / 22


Réseaux de croyances bayésiens
Séparation directionnelle

Exemple

Sachant les Battery et Engine, ils sont aussi d-séparés, car Radio peut
seulement fournir d’évidence concernant la batterie, que l’on sait déjà.

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 21 / 22


Réseaux de croyances bayésiens
Séparation directionnelle

Exemple

Sachant Ignition et Engine, ils sont d-séparés car ils ne fournissent pas
d’évidences de leur statut respectif. Par exemple, si l’allumage a eu
lieu, la batterie fonctionne quel que soit l’état de la radio, sinon le
moteur ne démarrera pas quel que soit le niveau de carburant.
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 21 / 22
Récapitulation
La classification bayésienne vise à choisir la classe la plus
probable/vraisemblable en fonction des attributs observés
L’estimation MLE peut être utilisée pour des classes équilibrées
Le théorème de Bayes permet une estimation MAP
Pour les données multivariées, les vraisemblances estimées doivent
être combinées pour obtenir l’estimation MAP.
Naïve Bayes suppose l’indépendance conditionnelle de classes
Les réseaux bayésiens utilisent de DAG et des CDTs pour estimer
et combiner des probabilités conditionnelles
Sans erreur d’estimation, cette approche permet d’obtenir les meilleurs
résultats possibles de classification. Toutefois, dans des scénarios réal-
istes, les résultats dépendent fortement de l’estimation précise des
probabilités qui y sont associées.
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 22 / 22

Vous aimerez peut-être aussi