Académique Documents
Professionnel Documents
Culture Documents
Classification bayésienne
STT 3795
Guy Wolf
guy.wolf@umontreal.ca
Université de Montréal
Hiver 2023
Classification
Classer des “objets” en un ensemble fini de classes ou “catégories”.
Entraînement
Données étiquetées: Modèle de classification:
z }| { z }| {
{(x1 , `1 ), . . . , (xn , `n )} ⊂ X × L Z⇒ F : X → L, F (xi ) = `i |L| < ∞
Généralisation
Nouveaux données: Résultats de classification:
z }| { z }| {
y1 , y2 , . . . ∈ X 7→ Modèle de classification Z⇒ F (y1 ), . . . , F (yn ) ∈ L
0 ← C1
.. ..
. .
x→
7 1 ← Ci
.. ..
. .
0 ← Ck
0.05 ← Pr[x ∈ C1 ]
.. ..
. .
x→
7 0.6 ← Pr[x ∈ Ci ]
.. ..
. .
0.15 ← Pr[x ∈ Ck ]
0.05 ← Pr[x ∈ C1 ]
.. ..
. .
x→
7 0.6 ← Pr[x ∈ Ci ]
.. ..
. .
0.15 ← Pr[x ∈ Ck ]
Exemple
Supposons qu’un patient se rend chez le médecin avec de la fièvre,
des nausées et des douleurs articulaires. Le médecin peut considérer
d’autres patients présentant des symptômes similaires et décider quelle
maladie a provoqué ces symptômes (p.ex., la grippe). Le médecin le
fait en considérant plusieurs maladies, en estimant la probabilité de
chacune et en choisissant la plus probable.
Problème: l’estimation direct de P(C |x ) est difficile / impraticable!
Chaque point x n’a qu’une seule étiquette C (et même ses
voisins ont probablement la même classe)
Il existe nombreux de points x tous différents
Fragmentation des données: il faut estimer de nombreuses
distributions, avec peu d’informations sur chacune.
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 5 / 22
Classification bayésienne
Estimation de vraisemblance
Adaptée de http://www.cs.ucr.edu/~eamonn/CE/Bayesian%20Classification%20withInsect_examples.pdf
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 6 / 22
Classification bayésienne
Estimation de vraisemblance
Adaptée de http://www.cs.ucr.edu/~eamonn/CE/Bayesian%20Classification%20withInsect_examples.pdf
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 6 / 22
Classification bayésienne
Estimation de vraisemblance
Adaptée de http://www.cs.ucr.edu/~eamonn/CE/Bayesian%20Classification%20withInsect_examples.pdf
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 6 / 22
Classification bayésienne
Estimation de vraisemblance
Antenna Length
Katydids Grasshoppers
Adaptée de http://www.cs.ucr.edu/~eamonn/CE/Bayesian%20Classification%20withInsect_examples.pdf
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 6 / 22
Classification bayésienne
Estimation de vraisemblance
Antenna Length
Katydids Grasshoppers
On peut formuler P(x |µ, σ). Alors, comme les échantillons sont i.i.d.,
on peut calculer P(x1 , . . . , xm |µ, σ) = m
i=1 P(xi |µ, σ) et maximiser
Q
cette vraisemblance.
Théorème de Bayes
La probabilité conditionnelle de la classe C sachant l’observation x
peut être calculée comme
P(x |C )P(C )
P(C |x ) =
P(x )
Classificateur
Pour chaque x choisissez la classe C qui maximise P(x |C )P(C ).
Exemple
Exemple
Exemple
Exemple
Taux d’erreur de Bayes pour un problème à deux classes:
R
Bayes_err = min{P(Crocodile|x ), P(Alligator|x )}P(x )dx
Exemple
Taux d’erreur de Bayes pour un problème à deux classes:
R
Bayes_err = min{P(Crocodile|x ), P(Alligator|x )}P(x )dx
m-estimate
Généralisez la correction Laplace à
[j]=a∧x ∈Ci }+mp
Pr[x [j] = a|C = Ci ] ≈ #{x :x#{x :x ∈Ci }+m
, où 0 < p ≤ 1 est une
probabilité préalable supposée, m est la confiance de supposition.
Cause
Effets
Hypothèse
Évidence
Adapté de Wikipedia
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 17 / 22
Réseaux de croyances bayésiens
Tables de dépendances conditionnelles
Adapté de Wikipedia
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 17 / 22
Réseaux de croyances bayésiens
Tables de dépendances conditionnelles
Adapté de Wikipedia
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 17 / 22
Réseaux de croyances bayésiens
Tables de dépendances conditionnelles
Adapté de Wikipedia
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 17 / 22
Réseaux de croyances bayésiens
Tables de dépendances conditionnelles
Exemple
Considérons un modèle pour un système d’alarme contre les
cambrioleurs.
Exemple
Pour l’ordre V = {JC , MC , A, B, E } on obtient la structure suivante :
Exemple
Pour l’ordre V = {E , B, A, JC , MC } on obtient la structure suivante :
Exemple
Pour l’ordre V = {A, B, E , JC , MC } on obtient:
P(x [1], . . . , x [n], C ) = P(x [1]|x [2], . . . , x [n], C )P(x [2], . . . , x [n], C )
= P(x [1]|parents(x [1]) )P(x [2], . . . , x [n], C ) = · · ·
Y
= P(x [j]|parents(x [j]) )
j
Notez que C peut aussi être étendu pour considérer plusieurs noeuds
de sortie. De plus, les valeurs manquantes peuvent naturellement être
traitées en considérant des ensembles partiels d’attributs. Les vraisem-
blances et les postérieures peuvent alors être estimées en utilisant des
probabilités conjointes.
Lorsque l’on considère la propagation des croyances, il est utile
d’identifier l’indépendance entre les événements dans le réseau.
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 19 / 22
Réseaux de croyances bayésiens
Couverture de Markov («Markov Blanket»)
Tirée de Wikipedia
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 20 / 22
Réseaux de croyances bayésiens
Séparation directionnelle
Exemple
Exemple
Exemple
Exemple
Sachant les Battery et Engine, ils sont aussi d-séparés, car Radio peut
seulement fournir d’évidence concernant la batterie, que l’on sait déjà.
Exemple
Sachant Ignition et Engine, ils sont d-séparés car ils ne fournissent pas
d’évidences de leur statut respectif. Par exemple, si l’allumage a eu
lieu, la batterie fonctionne quel que soit l’état de la radio, sinon le
moteur ne démarrera pas quel que soit le niveau de carburant.
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 21 / 22
Récapitulation
La classification bayésienne vise à choisir la classe la plus
probable/vraisemblable en fonction des attributs observés
L’estimation MLE peut être utilisée pour des classes équilibrées
Le théorème de Bayes permet une estimation MAP
Pour les données multivariées, les vraisemblances estimées doivent
être combinées pour obtenir l’estimation MAP.
Naïve Bayes suppose l’indépendance conditionnelle de classes
Les réseaux bayésiens utilisent de DAG et des CDTs pour estimer
et combiner des probabilités conditionnelles
Sans erreur d’estimation, cette approche permet d’obtenir les meilleurs
résultats possibles de classification. Toutefois, dans des scénarios réal-
istes, les résultats dépendent fortement de l’estimation précise des
probabilités qui y sont associées.
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 22 / 22