STT3795 - S03

Fondements théorétiques en science des données
Classification bayésienne
STT 3795
Guy Wolf
guy.wolf@umontreal.ca
Université de Montréal
Hiver 2023
STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 1 / 22

Classification
Classification
Classer des “objets” en un ensemble fini de classes ou “catégories”.
Entraînement
Données étiquetées: Modèle de classification:
z }| { z }| {
{(x1 , `1 ), . . . , (xn , `n )} ⊂ X × L Z⇒ F : X → L, F (xi ) = `i |L| < ∞
Généralisation
Nouveaux données: Résultats de classification:
z }| { z }| {
y1 , y2 , . . . ∈ X 7→ Modèle de classification Z⇒ F (y1 ), . . . , F (yn ) ∈ L

Classification

Classification
Algorithmes & approches
Approches populaires de classification

Classification bayésienne – «Naïve Bayes» & réseaux bayésiens
Machine à vecteurs de support – «SVM»
Forêts aléatoires – ensembles des arbres de décisions
Classification par règles – «Rule-based classification»
Apprentissage profond – réseaux neuronaux artificiels
La régression peut également être appliquée à la classification dans

certains cas en estimant la confiance de la classification.

Classification par les probabilités
Formulation classique de classificateurs

Pour chaque point de données x , trouvez la classe Ci dans laquelle il
correspondrait le mieux:
0 ← C1
.. ..
. .
x→
7 1 ← Ci
.. ..
. .
0 ← Ck

Formulation statistique par probabilités

Pour chaque point x et classe Ci , calculez la probabilité que x ∈ Ci .
0.05 ← Pr[x ∈ C1 ]
.. ..
. .
x→
7 0.6 ← Pr[x ∈ Ci ]
.. ..
. .
0.15 ← Pr[x ∈ Ck ]

Formulation statistique par probabilités

Pour chaque point x et classe Ci , calculez la probabilité que x ∈ Ci .
0.05 ← Pr[x ∈ C1 ]
.. ..
. .
x→
7 0.6 ← Pr[x ∈ Ci ]
.. ..
. .
0.15 ← Pr[x ∈ Ck ]
Si l’on traite x et C comme des variables aléatoires (dépendantes, on

espère), alors on peut considérer les probabilités Pr[x ∈ Ci ] comme
les probabilités conditionnelles P(C |x ).
Estimation des probabilités conditionnelles
Exemple
Supposons qu’un patient se rend chez le médecin avec de la fièvre,
des nausées et des douleurs articulaires. Le médecin peut considérer
d’autres patients présentant des symptômes similaires et décider quelle
maladie a provoqué ces symptômes (p.ex., la grippe). Le médecin le
fait en considérant plusieurs maladies, en estimant la probabilité de
chacune et en choisissant la plus probable.
Problème: l’estimation direct de P(C |x ) est difficile / impraticable!
Chaque point x n’a qu’une seule étiquette C (et même ses
voisins ont probablement la même classe)
Il existe nombreux de points x tous différents
Fragmentation des données: il faut estimer de nombreuses
distributions, avec peu d’informations sur chacune.
Estimation de vraisemblance
Adaptée de http://www.cs.ucr.edu/~eamonn/CE/Bayesian%20Classification%20withInsect_examples.pdf
Histogramme des longueurs d’antennes dans chaque classe:
Antenna Length
Katydids Grasshoppers
Les distributions P(antenna_length|grasshopper) et

P(antenna_length|katydid):
Antenna Length
Katydids Grasshoppers
Adapted from http://www.cs.ucr.edu/~eamonn/CE/Bayesian%20Classification%20withInsect_examples.pdf

Donné la longueur des antennes, on peut décider quelle classe,

grasshopper ou katydid, est plus vraisemblable:
Grasshopper est plus

vraisemblable!

Donné la longueur des antennes, on peut décider quelle

vraisemblance est plus grande, grasshopper ou katydid:
Katydid est plus vraisemblable!

La probabilité conditionnelle P(x |C ) est également appelée la

vraisemblance de C sachant x .
Exemple (Estimateur du maximum de vraisemblance)
Supposons que, sachant x1 , . . . , xm ∼ N(µ, σ) i.i.d., on veut estimer µ
et σ.
On peut formuler P(x |µ, σ). Alors, comme les échantillons sont i.i.d.,
on peut calculer P(x1 , . . . , xm |µ, σ) = m
i=1 P(xi |µ, σ) et maximiser
Q
cette vraisemblance.
Plus précisément, on maximiserait la log-vraisemblance

Pm
i=1 ln[P(xi |µ, σ)], qui est plus simple à différencier puis max-
imiser via son gradient p/r à µ, σ.
Vraisemblance vs. probabilité
Considérons la vraisemblance suivante, de sexe en fonction de la

coiffure:
x \C male female
short hair 0.9 0.2
long hair 0.1 0.8
Notez que, sachant le sexe, P(hairstyle|gender ) est une probabilité:
P(SH|M) + P(LH|M) = 1 ; P(SH|F) + P(LH|F) = 1
Néanmoins, sachant la coiffure, la vraisemblance n’est pas une
probabilité
P(SH|M) + P(SH|F) = 1.1 ; P(LH|M) + P(LH|F) = 0.9
La vraisemblance de C sachant x n’est pas une probabilité (au sens
statistique)!
Vraisemblance vs. probabilité
La vraisemblance ignore la distribution a priori des classes dans les

données:
Exemple
Supposons que nous ayons 100 hommes et seulement 10 femmes
dans notre groupe.
Le fractionnement par coiffure donne 90 hommes à «short-hair»,
10 hommes à «long-hair», 8 femmes à «long-hair» et 2 femmes à
«short-hair».
Justesse de classification MLE: 0.89 = 98/110
Justesse de «toujours ‘homme’»: 0.91 = 100/110, qui est un
peu mieux
En effet: P(M|SH) = 0.98 et P(M|LH) = 0.55 dans ce cas,
donc le classement par probabilités choisirait toujours ‘Homme’
Théorème de Bayes
Théorème de Bayes
La probabilité conditionnelle de la classe C sachant l’observation x
peut être calculée comme
P(x |C )P(C )
P(C |x ) =
P(x )
en utilisant la probabilité conditionnelle de x sachant C , et les

probabilités de x et de C .
P(C ) est la probabilité a priori de C

P(x |C ) est la vraisemblance de C sachant x
P(x ) est la distribution d’observations dans les données
P(C |x ) est la probabilité a posteriori de C (sachant x )
Théorème de Bayes
Taken from https://arbital.com/

Théorème de Bayes

Théorème de Bayes

Théorème de Bayes

Classificateur maximum a posteriori (MAP)
La classification bayésienne utilise la vraisemblance et l’a priori de

chaque classe pour estimer l’a posteriori et classer par probabilité a
posteriori maximale:
Entraînement
1 Estimez l’a priori P(C ) par les tailles des classes dans les données
2 Pour chaque classe C , estimez P(x |C ):
Si x est discret, juste comptez les valeurs
Si x est continu, discrétisez ou utilisez un modèle de
distribution (p.ex., loi Gaussian ou Poisson)
Classificateur
Pour chaque x choisissez la classe C qui maximise P(x |C )P(C ).

Exemple

Exemple

Exemple

Taux d’erreur bayésien
En supposant que l’on ait les probabilités correctes, sans erreur

d’estimation (bien qu’irréaliste dans la pratique), la classification
bayésienne produira la meilleure précision théoriquement possible.

Z
Bayes_err = (1 − max{P(C |x )})P(x )dx
C
Le taux d’erreur de Bayes (lorsqu’il est formulé explicitement) est con-

sidéré comme une référence pour déterminer l’erreur minimale qu’un
classificateur peut atteindre sur les données. Si un classificateur atteint
des taux d’erreur plus faibles, il fait probablement de surajustement
(«overfitting») des données.

Exemple
Taux d’erreur de Bayes pour un problème à deux classes:
R
Bayes_err = min{P(Crocodile|x ), P(Alligator|x )}P(x )dx

Exemple
Taux d’erreur de Bayes pour un problème à deux classes:
R
Bayes_err = min{P(Crocodile|x ), P(Alligator|x )}P(x )dx

Classificateur « Naïve Bayes »
Jusqu’ici, nous n’avons considéré qu’un seul attribut. Et si nous
voulons en considérer plusieurs?
Classer comme arg maxC P(x [1], x [2], . . . , x [n]|C )
Taken from http://stats.stackexchange.com/questions/4949/calculating-the-error-of-bayes-classifier-analytically

Il faut estimer la vraisemblance P(x [1], x [2], . . . , x [n]|C ).

Suggestion #1: estimer avec des histogrammes n dimensionnels.

Problème: impraticable en raison de fragmentation des données

Suggestion #2: estimer chaque P(x [j]|C ) individuellement et les
combiner ensuite

combiner ensuite
Question: comment combiner les vraisemblances / probabilités
conditionnelles ?

combiner ensuite
Question: comment combiner les vraisemblances / probabilités
conditionnelles ?
Réponse naïve: supposer l’indépendance des attributs étant donné la
classe C .
Indépendance de classes
On suppose que
P(x [j1 ]|C , x [j2 ], . . . , x [jk ]) = P(x [j1 ]|C )
pour chaque ensemble j1 , . . . jk , 1 < k ≤ n, des attributs.

Indépendance de classes
Sous l’hypothèse de l’indépendance de classe, on peut calculer

P(x [i], x [k]|C ) = P(x [i]|C , x [k])P(x [k]|C ) = P(x [i]|C )P(x [k]|C )
pour n’importe quel i, j. De même, pour les attributs n l’on a
n
Y
P(~x |C ) = P(x [1], x [2], · · · , x [n]|C ) = P(x [j]|C )
j=1
Donc, on peut formuler un classificateur multivarié comme suit :

Naïve Bayes classification
Entraînement: Pour chaque C et j, estimez P(C ) et P(x [j]|C ) des
données d’entraînement;
Classificateur: Chaque x classé par arg maxC P(C ) nj=1 P(x [j]|C ) .
Q

Régions & frontières de décision
Exemple (Iris data)

Exemple (Iris data)

Exemple (Insect data)
Taken from http://www.cs.ucr.edu/~eamonn/CE/Bayesian%20Classification%20withInsect_examples.pdf

Correction Laplace & m-estimate
Si Pr[x [j] = a|C = Ci ] ≈ 0 à-c-d rareté des données, le postérieur de

{x : x [j] = a} sera zéro, même si d’autres attributs prédisent Ci .
Ce problème peut être atténué par deux méthodes de correction :
Correction de Laplace
Supposez que tous les compteurs utilisés par les estimateurs sont
suffisamment grands pour que nous puissions y ajouter 1 en toute
:x [j]=a∧x ∈Ci }+1
sécurité pour obtenir Pr[x [j] = a|C = Ci ] ≈ #{x#{x :x ∈Ci }+1
m-estimate
Généralisez la correction Laplace à
[j]=a∧x ∈Ci }+mp
Pr[x [j] = a|C = Ci ] ≈ #{x :x#{x :x ∈Ci }+m
, où 0 < p ≤ 1 est une
probabilité préalable supposée, m est la confiance de supposition.

Réseaux de croyances bayésiens
BBN – « Bayesian Belief Networks »
Naïve Bayes suppose une indépendance de classe pour simplifier les

estimations de probabilité, mais ça n’est pas toujours applicable.
Exemple
Supposons que l’on voit que l’herbe est mouillée, et que l’on veuille
évaluer si :
il pleuvait, ou
les arroseurs étaient allumés.
Si les arroseurs marchent toujours à 4h00–5h00, on peut supposer
l’indépendance des causes et estimer par heure et humidité d’herbe.
Cependant, si des arroseurs ne s’allument que lorsque la nuit n’est
pas assez pluvieuse, nous devrions considérer P(sprinklers|rain) 6= 0.
Comment modéliser efficacement les dépendances conditionnelles ?

Graphe de réseau de dépendance
Représentation graphique du classificateur bayésien naïf:
Ne considérez que les dépendances P(x [j]|C ).

Représentation graphique d’un classificateur bayésien moins naïf:
Considérez également les dépendances P(x [j]|x [i], C ).

En général, utilisez des graphes acycliques directs (DAG) pour

représenter les dépendances:
Chaque nœud ne devrait a priori dépendre que de ses parents.


Cause
Effets


Hypothèse
Évidence

Tables de dépendances conditionnelles
La structure de DAG fournit des informations qualitatives sur les dépen-
dances conditionnelles qui devraient être prises en compte. Ceci est
généralement donnée par conception (p.ex. de connaissances préal-
ables ou d’experts). La partie quantitative du réseau est donnée par
des tableaux de dépendances conditionnelles.
Tables de dépendances conditionnelle (CDT)

Un CDT contient les valeurs possibles d’un attribut d’un côté
et les combinaisons possibles des attributs des parents de l’autre
côté. Les cellules de ce tableau prennent en compte les probabilités
P(enfant|parents).
Étant donné une structure de réseau, les entrées CDT de chaque nœud
sachant ses parents sont estimées de façon similaire au Naïve Bayes
pour les attributs observables et par optimisation pour les cachés.
Adapté de Wikipedia


Algorithme de construction glouton
Afin que l’estimation des probabilités de CDT soit faisable, il faudrait

que le nombre de parents pour chaque nœud soit le plus petit possible,
tout en maintenant l’interprétabilité des causes-effets.
Un simple algorithme glouton d’inférence de la structure du réseau
est le suivant :
Initialize a set of nodes V = {x [1], . . . , x [n]}
While there V 6= ∅ do:
Select a node v ∈ V and remove it from V
Choose a minimal set of parents U ⊆ V such that
P(v |U, V \ U) = P(v |U)
Add edges from every node in U to v
Par contre, cet algorithme dépend fortement de l’ordre de balayage

des nœuds en V .
Exemple
Considérons un modèle pour un système d’alarme contre les
cambrioleurs.
Lorsqu’il y a un cambriolage en cours (v = B), il y a de fortes

chances que le système d’alarme se déclenche (v = A). Cependant, il
peut aussi être déclenché par des tremblements de terre (v = E ).
Une fois l’alarme déclenchée, les voisins, John (v = JC ) et/ou Mary

(v = MC ), appellent généralement le 911 pour le signaler.

Exemple
Pour l’ordre V = {JC , MC , A, B, E } on obtient la structure suivante :

Exemple
Pour l’ordre V = {E , B, A, JC , MC } on obtient la structure suivante :
Problème: cette structure a des relations déraisonnables qui ne

peuvent être estimées fidèlement !
Exemple
Pour l’ordre V = {A, B, E , JC , MC } on obtient:
Problème: ce qui a des nombres excessifs de parents, menant à de

gros CDT qui ne sont pas pratiques à estimer !
Propagation de croyances
Étant donné un réseau de croyance bayésien, les probabilités

conjointes sont calculées en utilisant la règle de la chaîne:
P(x [1], . . . , x [n], C ) = P(x [1]|x [2], . . . , x [n], C )P(x [2], . . . , x [n], C )
= P(x [1]|parents(x [1]) )P(x [2], . . . , x [n], C ) = · · ·
Y
= P(x [j]|parents(x [j]) )
j
Notez que C peut aussi être étendu pour considérer plusieurs noeuds
de sortie. De plus, les valeurs manquantes peuvent naturellement être
traitées en considérant des ensembles partiels d’attributs. Les vraisem-
blances et les postérieures peuvent alors être estimées en utilisant des
probabilités conjointes.
Lorsque l’on considère la propagation des croyances, il est utile
d’identifier l’indépendance entre les événements dans le réseau.
Couverture de Markov («Markov Blanket»)
Une couverture de Markov d’un noeud inclut ses parents, enfants

et co-parents. Sachant sa couverture de Markov, un noeud est
indépendant du reste du réseau.
Tirée de Wikipedia
Séparation directionnelle
Considérons des événements / évidences comme des ensembles de

nœuds du réseau.
Deux événements X et Y sont d-séparés sachant l’évidence E si
chaque chemin non orienté entre eux est bloqué par un des éléments
suivants:
Un noeud z ∈ E sur le chemin ayant une arête entrante et une
autre sortante.
Un noeud z ∈ E sur le chemin ayant deux arêtes sortantes.
Un noeud z ∈ / E sur le chemin ayant deux arêtes entrantes, ou
l’un de ses descendants.
On peut tester l’indépendance entre les événements sachant
d’évidence en utilisant la d-séparation.
Exemple

Exemple
En l’absence d’évidence, Radio et Gas sont d-séparés et clairement

indépendants.

Exemple
Sachant Engine, ils ne sont pas séparés et sont dépendants. P. ex., si

le moteur ne démarre pas, mais la radio est allumée (c-à-d, la batterie
fonctionne bien), cela fournit la preuve qu’il n’y a plus d’essence.

Exemple
Sachant les Battery et Engine, ils sont aussi d-séparés, car Radio peut
seulement fournir d’évidence concernant la batterie, que l’on sait déjà.

Exemple
Sachant Ignition et Engine, ils sont d-séparés car ils ne fournissent pas
d’évidences de leur statut respectif. Par exemple, si l’allumage a eu
lieu, la batterie fonctionne quel que soit l’état de la radio, sinon le
moteur ne démarrera pas quel que soit le niveau de carburant.
Récapitulation
La classification bayésienne vise à choisir la classe la plus
probable/vraisemblable en fonction des attributs observés
L’estimation MLE peut être utilisée pour des classes équilibrées
Le théorème de Bayes permet une estimation MAP
Pour les données multivariées, les vraisemblances estimées doivent
être combinées pour obtenir l’estimation MAP.
Naïve Bayes suppose l’indépendance conditionnelle de classes
Les réseaux bayésiens utilisent de DAG et des CDTs pour estimer
et combiner des probabilités conditionnelles
Sans erreur d’estimation, cette approche permet d’obtenir les meilleurs
résultats possibles de classification. Toutefois, dans des scénarios réal-
istes, les résultats dépendent fortement de l’estimation précise des
probabilités qui y sont associées.

STT3795 - S03

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

STT3795 - S03

Transféré par

Droits d'auteur :

Formats disponibles

Fondements théorétiques en science des données

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 1 / 22

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 2 / 22

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 2 / 22

Approches populaires de classification

La régression peut également être appliquée à la classification dans

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 3 / 22

Formulation classique de classificateurs

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 4 / 22

Formulation statistique par probabilités

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 4 / 22

Formulation statistique par probabilités

Si l’on traite x et C comme des variables aléatoires (dépendantes, on

Histogramme des longueurs d’antennes dans chaque classe:

Les distributions P(antenna_length|grasshopper) et

Adapted from http://www.cs.ucr.edu/~eamonn/CE/Bayesian%20Classification%20withInsect_examples.pdf

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 6 / 22

Donné la longueur des antennes, on peut décider quelle classe,

Grasshopper est plus

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 6 / 22

Donné la longueur des antennes, on peut décider quelle

Katydid est plus vraisemblable!

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 6 / 22

La probabilité conditionnelle P(x |C ) est également appelée la

Plus précisément, on maximiserait la log-vraisemblance

Considérons la vraisemblance suivante, de sexe en fonction de la

La vraisemblance ignore la distribution a priori des classes dans les

en utilisant la probabilité conditionnelle de x sachant C , et les

P(C ) est la probabilité a priori de C

Taken from https://arbital.com/

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 8 / 22

Taken from https://arbital.com/

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 8 / 22

Taken from https://arbital.com/

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 8 / 22

Taken from https://arbital.com/

La classification bayésienne utilise la vraisemblance et l’a priori de

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 9 / 22

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 9 / 22

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 9 / 22

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 9 / 22

En supposant que l’on ait les probabilités correctes, sans erreur

Taux d’erreur bayésien

Le taux d’erreur de Bayes (lorsqu’il est formulé explicitement) est con-

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 10 / 22

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 10 / 22

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 10 / 22

Classer comme arg maxC P(x [1], x [2], . . . , x [n]|C )

Taken from http://stats.stackexchange.com/questions/4949/calculating-the-error-of-bayes-classifier-analytically

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 11 / 22

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 11 / 22

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 11 / 22

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 11 / 22

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 11 / 22

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 11 / 22

P(x [j1 ]|C , x [j2 ], . . . , x [jk ]) = P(x [j1 ]|C )

pour chaque ensemble j1 , . . . jk , 1 < k ≤ n, des attributs.

Sous l’hypothèse de l’indépendance de classe, on peut calculer

Donc, on peut formuler un classificateur multivarié comme suit :

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 12 / 22

Exemple (Iris data)

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 13 / 22

Exemple (Iris data)

STT 3795 (Guy Wolf) Classification bayésienne UdeM - Hiver 2023 13 / 22